特許第6190904号(P6190904)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラコミュニケーションシステム株式会社の特許一覧

<>
  • 特許6190904-類似文書検索装置 図000004
  • 特許6190904-類似文書検索装置 図000005
  • 特許6190904-類似文書検索装置 図000006
  • 特許6190904-類似文書検索装置 図000007
  • 特許6190904-類似文書検索装置 図000008
  • 特許6190904-類似文書検索装置 図000009
  • 特許6190904-類似文書検索装置 図000010
  • 特許6190904-類似文書検索装置 図000011
  • 特許6190904-類似文書検索装置 図000012
  • 特許6190904-類似文書検索装置 図000013
  • 特許6190904-類似文書検索装置 図000014
  • 特許6190904-類似文書検索装置 図000015
  • 特許6190904-類似文書検索装置 図000016
  • 特許6190904-類似文書検索装置 図000017
  • 特許6190904-類似文書検索装置 図000018
  • 特許6190904-類似文書検索装置 図000019
  • 特許6190904-類似文書検索装置 図000020
  • 特許6190904-類似文書検索装置 図000021
  • 特許6190904-類似文書検索装置 図000022
  • 特許6190904-類似文書検索装置 図000023
  • 特許6190904-類似文書検索装置 図000024
  • 特許6190904-類似文書検索装置 図000025
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6190904
(24)【登録日】2017年8月10日
(45)【発行日】2017年8月30日
(54)【発明の名称】類似文書検索装置
(51)【国際特許分類】
   G06F 17/30 20060101AFI20170821BHJP
【FI】
   G06F17/30 350C
   G06F17/30 170A
【請求項の数】11
【全頁数】21
(21)【出願番号】特願2016-38678(P2016-38678)
(22)【出願日】2016年3月1日
【審査請求日】2016年3月1日
(73)【特許権者】
【識別番号】596100812
【氏名又は名称】京セラコミュニケーションシステム株式会社
(74)【代理人】
【識別番号】100092956
【弁理士】
【氏名又は名称】古谷 栄男
(74)【代理人】
【識別番号】100101018
【弁理士】
【氏名又は名称】松下 正
(72)【発明者】
【氏名】井出 有加
(72)【発明者】
【氏名】谷口 友浩
(72)【発明者】
【氏名】平田 巧
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2012−194690(JP,A)
【文献】 特開平11−110395(JP,A)
【文献】 特開2008−123111(JP,A)
【文献】 特開2000−242646(JP,A)
【文献】 特開2013−191194(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
文書が記録され、当該文書に対応付けて文書中の重要単語が対象語として抽出され当該対象語の重要度を記録した記録部に記録されている文書の内、対象文書に類似する文書を検索するために、当該対象文書を取得するための対象文書取得手段と、
前記対象文書中に含まれる前記各対象語について、少なくとも前記対象語の前記対象文書における出現頻度に基づいて、基本重要度を算出する基本重要度算出手段と、
前記対象文書中の前記各対象語のうち2つの対象語を選択し、これら2つの対象語が前記対象文書および他の文書の双方に出現するかどうかに基づいて、当該2つの対象語の間の関連度を算出し、対象語と他の対象語の基本重要度と両対象語の関連度とに基づいて、当該対象語の基本重要度を修正し、重要度を算出する重要度算出手段と、
前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、前記対象文書の対象語の重要度と記録部に記録されている各文書の対象語の重要度を要素とするベクトルを想定し、前記対象文書と記録部に記録されている各文書におけるベクトルがなす角度に基づいて、類似度を算出する類似度算出手段と、
前記対象文書と記録部に記録されている文書との類似度に基づいて、前記対象文書に類似する文書を抽出する文書抽出手段と、
を備えた類似文書検索装置。
【請求項2】
類似文書検索装置をコンピュータによって実現するための類似文書検索プログラムであって、コンピュータを、
文書が記録され、当該文書に対応付けて文書中の重要単語が対象語として抽出され当該対象語の重要度を記録した記録部の文書の内、対象文書に類似する文書を検索するために、当該対象文書を取得するための対象文書取得手段と、
前記対象文書中に含まれる前記各対象語について、少なくとも前記対象語の前記対象文書における出現頻度に基づいて、基本重要度を算出する基本重要度算出手段と、
前記対象文書中の前記各対象語のうち2つの対象語を選択し、これら2つの対象語が前記対象文書および他の文書の双方に出現するかどうかに基づいて、当該2つの対象語の間の関連度を算出し、対象語と他の対象語の基本重要度と両対象語の関連度とに基づいて、当該対象語の基本重要度を修正し、重要度を算出する重要度算出手段と、
前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、前記対象文書の対象語の重要度と記録部に記録されている各文書の対象語の重要度を要素とするベクトルを想定し、前記対象文書と記録部に記録されている各文書におけるベクトルがなす角度に基づいて、類似度を算出する類似度算出手段と、
前記対象文書と記録部に記録されている文書との類似度に基づいて、前記対象文書に類似する文書を抽出する文書抽出手段として機能させるための類似文書検索プログラム。
【請求項3】
請求項1の装置または請求項2のプログラムにおいて、
前記基本重要度算出手段は、前記対象語の当該文書における出現頻度および前記対象語が当該文書以外の文書において出現する頻度の逆数である逆文書頻度に基づいて基本重要度を算出することを特徴とする装置またはプログラム。
【請求項4】
請求項1〜3のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、
算出対象である2つの対象語が2つの文書の双方において共に出現するかどうか、前記2つの文書の基本類似度、および前記2つの対象語の逆文書頻度に基づいて、前記2つの対象語の関連度を算出するものであり、
前記2つの文書の基本類似度は、前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、それぞれの文書の対象語の基本重要度を要素とするベクトルを想定し、前記2つの文書におけるベクトルがなす角度に基づいて算出されることを特徴とする装置またはプログラム。
【請求項5】
請求項1〜4のいずれかの装置またはプログラムにおいて、
前記関連度は、下式に基づいて算出されることを特徴とする装置またはプログラム。
【数1】
【請求項6】
比較すべき2つの文書における、各文書中の対象語を抽出する対象語抽出手段と、
前記2つの文書のそれぞれにおいて、少なくとも各対象語の当該文書における出現頻度に基づいて、各対象語の基本重要度を算出する基本重要度算出手段と、
前記文書中の前記各対象語のうち2つの対象語を選択し、これら2つの対象語が前記2つの文書の双方に出現するかどうかに基づいて、当該2つの対象語の間の関連度を算出し、対象語と他の対象語の基本重要度と両対象語の関連度とに基づいて、当該対象語の基本重要度を修正し、重要度を算出する重要度算出手段と、
前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、それぞれの文書の対象語の重要度を要素とするベクトルを想定し、前記2つの文書におけるベクトルがなす角度に基づいて、類似度を算出する類似度算出手段と、
を備えた文書間類似度算出装置。
【請求項7】
コンピュータによって文書間類似度算出装置を実現するための文書間類似度算出プログラムであって、コンピュータを、
比較すべき2つの文書における、各文書中の対象語を抽出する対象語抽出手段と、
前記2つの文書のそれぞれにおいて、少なくとも各対象語の当該文書における出現頻度に基づいて、各対象語の基本重要度を算出する基本重要度算出手段と、
前記文書中の前記各対象語のうち2つの対象語を選択し、これら2つの対象語が前記2つの文書の双方に出現するかどうかに基づいて、当該2つの対象語の間の関連度を算出し、対象語と他の対象語の基本重要度と両対象語の関連度とに基づいて、当該対象語の基本重要度を修正し、重要度を算出する重要度算出手段と、
前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、それぞれの文書の対象語の重要度を要素とするベクトルを想定し、前記2つの文書におけるベクトルがなす角度に基づいて、類似度を算出する類似度算出手段として機能させるための文書間類似度算出プログラム。
【請求項8】
請求項6の装置または請求項7のプログラムにおいて、
前記基本重要度算出手段は、前記対象語の当該文書における出現頻度および前記対象語が当該文書以外の文書において出現する頻度の逆数である逆文書頻度に基づいて基本重要度を算出することを特徴とする装置またはプログラム。
【請求項9】
請求項6〜8のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、
算出対象である2つの対象語が2つの文書の双方において共に出現するかどうか、前記2つの文書の基本類似度、および前記2つの対象語の逆文書頻度に基づいて、前記2つの対象語の関連度を算出するものであり、
前記2つの文書の基本類似度は、前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、それぞれの文書の対象語の基本重要度を要素とするベクトルを想定し、前記2つの文書におけるベクトルがなす角度に基づいて算出されることを特徴とする装置またはプログラム。
【請求項10】
請求項6〜9のいずれかの装置またはプログラムにおいて、
前記関連度は、下式に基づいて算出されることを特徴とする装置またはプログラム。
【数1】
【請求項11】
請求項1〜10のいずれかの装置またはプログラムにおいて、
前記装置は、サーバ装置として構築されていることを特徴とする装置またはプログラム。







【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文書の類似度に基づいて文書を検索する装置に関するものである。
【背景技術】
【0002】
キーワードを入力して、これに合致する文書を検索する装置が用いられている(たとえば、特許文献1)。目的とする文書に合致する適切なキーワードを入力することにより、必要な文書を検索することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−244187
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、キーワードを入力して検索を行うものであるため、キーワードの選択が適切にできなければ、所望の検索結果を得ることができなかった。たとえば、ある文書に類似性の高い文書を検索する場合、ある文書からキーワードを抽出しなければならず、面倒であり、キーワード抽出にスキルが必要であった。
【0005】
この発明は上記のような問題点を解決して、キーワードを選択する必要なく適切な検索を行うことのできる類似文書検索装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の独立して適用可能ないくつかの特徴を列挙する。
【0007】
(1)(2)この発明に係る類似文書検索装置は、文書が記録され、当該文書に対応付けて文書中の重要単語が対象語として抽出され当該対象語の重要度を記録した記録部に記録されている文書の内、対象文書に類似する文書を検索するために、当該対象文書を取得するための対象文書取得手段と、前記対象文書中に含まれる前記各対象語について、少なくとも前記対象語の前記対象文書における出現頻度に基づいて、基本重要度を算出する基本重要度算出手段と、対象語と関連する他の対象語の基本重要度に基づいて、当該対象語の基本重要度を修正し、重要度を算出する重要度算出手段と、前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、前記対象文書の対象語の重要度と記録部に記録されている各文書の対象語の重要度を要素とするベクトルを想定し、前記対象文書と記録部に記録されている各文書におけるベクトルがなす角度に基づいて、類似度を算出する類似度算出手段と、前記対象文書と記録部に記録されている文書との類似度に基づいて、前記対象文書に類似する文書を抽出する文書抽出手段とを備えている。
【0008】
したがって、文書を入力することにより、当該文書を構成する対象語の重要度に基づいて、当該文書に類似する文書を検索することができる。
【0009】
(3)この発明に係る類似文書検索装置は、基本重要度算出手段が、前記対象語の当該文書における出現頻度および前記対象語が当該文書以外の文書において出現する頻度の逆数である逆文書頻度に基づいて基本重要度を算出することを特徴としている。
【0010】
したがって、より精度よく基本重要度を算出することができる。
【0011】
(4)この発明に係る類似文書検索装置は、重要度算出手段が、算出対象である2つの対象語が2つの文書の双方において共に出現するかどうか、前記2つの文書の基本類似度、および前記2つの対象語の逆文書頻度に基づいて、前記2つの対象語の関連度を算出するものであり、前記2つの文書の基本類似度は、前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、それぞれの文書の対象語の基本重要度を要素とするベクトルを想定し、前記2つの文書におけるベクトルがなす角度に基づいて算出されることを特徴としている。
【0012】
したがって、より精度よく類似度を判定することができる。
【0013】
(5)(6)この発明に係る類似文書検索装置は、文書が記録され、当該文書に対応付けて文書中の重要単語が対象語として抽出され当該対象語の重要度を記録した記録部に記録されている文書の内、対象文書に類似する文書を検索するために、当該対象文書を取得するための対象文書取得手段と、前記対象文書中に含まれる前記各対象語について、少なくとも前記対象語の前記対象文書における出現頻度に基づいて、基本重要度を算出する基本重要度算出手段と、前記対象文書における各対象語の重要度と、記録部に記録されている各文書における各対象語の重要度に基づいて、前記対象文書に類似する文書を抽出する文書抽出手段とを備えた類似文書検索装置である。
【0014】
したがって、文書を入力することにより、当該文書を構成する対象語の重要度に基づいて、当該文書に類似する文書を検索することができる。
【0015】
(7)(8)この発明に係る文書間類似度算出装置は、比較すべき2つの文書における、各文書中の対象語を抽出する対象語抽出手段と、前記2つの文書のそれぞれにおいて、少なくとも各対象語の当該文書における出現頻度に基づいて、各対象語の基本重要度を算出する基本重要度算出手段と、対象語と関連する他の対象語の基本重要度に基づいて、当該対象語の基本重要度を修正し、重要度を算出する重要度算出手段と、前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、それぞれの文書の対象語の重要度を要素とするベクトルを想定し、前記2つの文書におけるベクトルがなす角度に基づいて、類似度を算出する類似度算出手段とを備えている。
【0016】
したがって、2つの文書の類似度を判定することができる。
【0017】
(9)この発明に係る文書間類似度算出装置は、基本重要度算出手段が、前記対象語の当該文書における出現頻度および前記対象語が当該文書以外の文書において出現する頻度の逆数である逆文書頻度に基づいて基本重要度を算出することを特徴としている。
【0018】
したがって、より精度よく基本重要度を算出することができる。
【0019】
(10)この発明に係る文書間類似度算出装置は、重要度算出手段が、算出対象である2つの対象語が2つの文書の双方において共に出現するかどうか、前記2つの文書の基本類似度、および前記2つの対象語の逆文書頻度に基づいて、前記2つの対象語の関連度を算出するものであり、前記2つの文書の基本類似度は、前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、それぞれの文書の対象語の基本重要度を要素とするベクトルを想定し、前記2つの文書におけるベクトルがなす角度に基づいて算出されることを特徴としている。
【0020】
したがって、より正確に文書間の類似度を判定することができる。
【0021】
(11)この発明に係る装置は、サーバ装置として構築されていることを特徴としている。
【0022】
したがって、サーバ・クライアントのシステムにて運用することができる。
【0023】
「対象文書取得手段」は、実施形態においては、ステップS12がこれに対応する。
【0024】
「基本重要度算出手段」は、実施形態においては、ステップS15がこれに対応する。
【0025】
「重要度算出手段」は、実施形態においては、ステップS17がこれに対応する。
【0026】
「類似度算出手段」は、実施形態においては、ステップS18がこれに対応する。
【0027】
「文書抽出手段」は、実施形態においては、ステップS22がこれに対応する。
【0028】
「プログラム」とは、CPUにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。
【図面の簡単な説明】
【0029】
図1】この発明の一実施形態による類似文書検索装置の機能ブロック図である。
図2】この発明の一実施形態によるシステム構成図である。
図3】サーバ装置Sのハードウエア構成である。
図4】類似文書検索サーバプログラム46、類似文書検索端末プログラム66のフローチャートである。
図5】類似文書検索サーバプログラム46のフローチャートである。
図6】類似文書検索サーバプログラム46のフローチャートである。
図7】類似文書検索サーバプログラム46のフローチャートである。
図8】類似文書検索サーバプログラム46のフローチャートである。
図9】文書登録画面を示す図である。
図10図10Aは、抽出した単語のDF値およびIDF値を示す図である。図10Bは、抽出した対象語のDF値およびIDF値を示す図である。
図11図11Aは、各文書の各対象語について算出した基本重要度を示す図である。図11Bは、各文書の各対象語について算出した重要度を示す図である。
図12】関連度の算出式を示す図である。
図13】重要度の算出式を示す図である。
図14】類似文書検索サーバプログラム46のフローチャートである。
図15】算出された文書間の類似度を示す図である。
図16】類似文書検索サーバプログラム46、類似文書検索端末プログラム66のフローチャートである。
図17】文書検索画面を示す図である。
図18】算出された対象文書との類似度を示す図である。
図19】類似文書検索結果の画面である。
図20】文書間の類似関連度を示す画面である。
図21】類似度判定サーバプログラム、類似度判定端末プログラムのフローチャートである。
図22】類似度判定画面を示す図である。
【発明を実施するための形態】
【0030】
1.システムの構成
図1に、この発明の一実施形態による類似文書検索装置をサーバ装置Sとして構築したシステムの機能ブロック図を示す。記録部14には、文書D1、D2・・・が記録されている。さらに、この各文書D1、D2・・・のそれぞれに対応して、文書中に表れる単語(対象語)H1、H2・・・の重要度Gが記録されている。
【0031】
端末装置Tからは、類似文書を検索する元になる文書(対象文書)が、サーバ装置Sに対して送信される。対象文書自体ではなく、対象文書に対するリンク情報等であってもよい。
【0032】
サーバ装置Sの対象文書取得手段2は、この対象文書を取得する。基本重要度算出手段4は、取得した対象文書中に含まれる対象語のそれぞれについて、少なくとも当該対象語の対象文書中における出現頻度に基づいて、基本重要度を算出する。重要度算出手段6は、当該対象文書中の対象語と関連する他の対象語の基本重要度に基づいて、当該対象語の基本重要度を修正し重要度を算出する。
【0033】
類似度算出手段8は、前記対象語の数に対応する多次元空間を想定し、当該多次元空間において、前記対象文書の対象語の重要度を要素とする対象文書ベクトルを想定する。さらに、当該多次元空間において、前記記録部14に記録されている各文書の対象語の重要度を要素とする文書ベクトルを想定する。類似度算出手段8は、対象文書ベクトルと各文書の文書ベクトルのなす角度に基づいて、対象文書と各文書の類似度を算出する。
【0034】
文書抽出手段10は、対象文書に対して類似度の高い文書を抽出する。送信手段12は、抽出した文書あるいは当該文書に対するリンク情報を、端末装置Tに送信する。
【0035】
端末装置Tは、これを受けて、対象文書に類似する文書を取得することができる。
【0036】
図2に、システム構成を示す。サーバ装置Sに対し、端末装置T1、T2・・・Tnが接続されている。この実施形態では、LANによって、サーバ装置Sと端末装置T1、T2・・・Tnが接続される。なお、インターネットなどを介して接続されるものであってもよい。
【0037】
図3に、サーバ装置Sのハードウエア構成を示す。CPU30には、メモリ32、ディスプレイ34、ハードディスク38、DVD−ROMドライブ40、通信回路42、キーボード/マウス43が接続されている。通信回路42は、LANに接続するための回路である。ハードディスク38には、オペレーティングシステム44、類似文書検索サーバプログラム46が記録されている。類似文書検索サーバプログラム46は、オペレーティングシステム44と協働してその機能を発揮するものである。
【0038】
これらプログラムは、DVD−ROM48に記録されていたものを、DVD−ROMドライブ40を介して、ハードディスク38にインストールしたものである。
【0039】
端末装置Tのハードウエア構成も同様である。ただし、端末装置Tにおいては、ハードディスク58に、類似文書検索サーバプログラム46に代えて、類似文書検索端末プログラム66が記録されている点が異なる。
【0040】
2.文書登録処理
この実施形態では、予め、サーバ装置Sのハードディスク38に、文書を記録し、文書中の対象語の基本重要度を算出して記録するようにしている。あわせて、当該基本重要度を関連する対象語の基本重要度に基づいて修正し、重要度を算出して、これも記録するようにしている(文書登録処理)。
【0041】
類似文書検索サーバプログラム46、類似文書検索端末プログラム66における文書登録処理のフローチャートを、図4に示す。端末装置TのCPU50(以下、端末装置Tと省略することがある)は、サーバ装置Sにアクセスし、文書登録のための画面を要求する(ステップS1)。
【0042】
サーバ装置SのCPU30(以下、サーバ装置Sと省略することがある)は、これを受けて、文書登録のための画面を返信する(ステップS11)。端末装置Tは、受信した文書登録画面を、ディスプレイ54に表示する(ステップS2)。
【0043】
図9に、端末装置Tにおいて表示された文書登録画面を示す。画面の右側には、当該端末装置Tに記録されているファイルが示されている。この実施形態では、ファイル名とアイコン84が表示されている。また、画面の左側には、登録したいファイルを入力するための入力領域80が示されている。
【0044】
端末装置Tの操作者は、登録したいファイルのアイコン84を、マウス63によって選択し、この入力領域80にもってくる(ドラッグアンドドロップ)。操作者が決定ボタン86をクリックすると、端末装置Tは、入力領域80に入れられたファイルを、サーバ装置Sに送信する(ステップS3)。
【0045】
サーバ装置Sは、送信されてきたファイルを受信し、ハードディスク38に記録する(ステップS12)。ハードディスク38には、既にファイルが記録されているので、これらファイルに追加して、受信したファイルを記録する。
【0046】
サーバ装置Sは、受信したファイルおよび既に記録済みのファイルの全てを対象として、ステップS13以下の処理を実行する。なお、この処理には時間を要するので、ステップS12における文書の記録のみを行っておき、たとえば1日1回(夜間など)にまとめて実行するようにしてもよい。
【0047】
ステップS13において、サーバ装置Sは、全文書(受信したファイルおよび記録済みのファイル)について、形態素解析を行い、各文書ごとに名詞のみを単語(私、コンピュータ、車・・・など)として抽出する。ここでは、文書は、B1〜BDまで、D個記録されているものとする。
【0048】
続いて、サーバ装置Sは、抽出した単語のうち重要であると思われるものを対象語として抽出する(ステップS14)。対象語の抽出処理の詳細を、図5に示す。
【0049】
サーバ装置Sは、全文書について抽出した単語のそれぞれについて、以下の処理を繰り返して行う。まず、目的とする単語について、当該単語が出現する文書の数dを算出する(ステップS142)。このdを、全文書の数Dで除して、文書頻度であるDF値を求める(ステップS143)。つまり、DF=d/Dとして算出し、記録する。なお、DF値は、当該単語が特定の文書にのみ現れる特異な単語であるか、多くの文書において現れる一般的な単語であるかを示す指標である。DF値が小さいほど、特異性が高いということができる。
【0050】
続いて、DF値の逆数のlogをとって、逆文書頻度であるIDF値を求める(ステップS144)。つまり、IDF=log(D/d)として算出し、記録する。IDF値は、DF値の逆数を基礎としているので、IDF値が大きいほど、当該単語の特異性が高いということができる。
【0051】
上記の処理を全ての単語について行う(ステップS141、S145)。これにより、図10Aに示すように、各単語についてのDF値とIDF値を得ることができる。
【0052】
次に、サーバ装置Sは、上記単語のうち、特異性の高い単語を抽出する。この実施形態では、DF値が所定値以下(たとえば、0.1以下)の単語を抽出するようにしている(ステップS146)。あるいは、DF値が小さい単語の上位所定個(上位10%など)を抽出するようにしてもよい。
【0053】
サーバ装置Sは、抽出した単語を、対象語として記録する。このようにして記録された対象語を図10Bに示す。単語W2が対象語T1として、単語W3が対象語T2として、単語W5が対象語T3として抽出されている。このようにして、単語のうち、特異性の高いものが対象語として抽出されることになる。
【0054】
次に、サーバ装置Sは、上記にて抽出した各対象語について、それぞれの文書における基本重要度を算出する(図4、ステップS15)。基本重要度算出の詳細を、図6に示す。
【0055】
サーバ装置Sは、目的とする文書において、各対象語の出現回数を算出する(ステップS152)。たとえば、文書B1において、対象語T1、T2、T3・・・が何回登場するかを計数する。算出した出現回数を、t1,1、t1,2、t1,3・・・として記録する。
【0056】
次に、目的とする文書における各対象語の出現回数の合計tallを求める(ステップS153)。さらに、対象語の出現頻度であるTF値を算出する(ステップS154)。この実施形態では、TF=tk,j/tallとして(つまり、目的とする文書における対象語の出現回数を、目的とする文書における全対象語の出現回数合計で除して)算出する。このTF値が高いほど、当該対象語が当該文書において重要性の高い単語であると判断できる。なお、目的とする文書において当該対象語が出現しない場合には、TF値は0となる。
【0057】
さらに、サーバ装置Sは、各対象語のTF値とIDF値とを乗じて、基本重要度としてのTF−IDF値を算出し、記録する(ステップS155)。
【0058】
以上の処理を、目的とする文書を変えながら全ての文書について繰り返し(ステップS151、S156)、各文書の各対象語について、基本重要度を算出する。算出された基本重要度を、図11Aに示す。
【0059】
続いて、サーバ装置Sは、各文書において、対象語と対象語との間の関連度を算出する(図4、ステップS16)。この実施形態では、異なる2つの文書の双方において、ともに両対象語が登場する場合、この両対象語の関連度があるものとしている。さらに、その関連度の度合いは、前記2つの文書の類似度が高いほど大きく、また、前記2つの対象語のIDF値が高いほど大きくなるとして算出している。
【0060】
図7に、関連度算出の詳細を示す。まず、サーバ装置Sは、全ての対象語のなかから目的とする対象語(目的対象語)と目的対象語以外の対象語(関連対象語)を選択する(ステップS162、S163)。ここで、目的文書の目的対象語と関連対象語は、関連度を算出したい対象語である。
【0061】
次に、サーバ装置Sは、2つの文書を選択し、当該文書の双方において、目的対象語と関連対象語がともに出現するかどうかを判断する(ステップS165)。この条件を満たさない場合(たとえば、一方の文書においては目的対象語と関連対象語が共に出現するが他方の文書では一方しか出現しないなどの場合)には、両文書において目的対象語と関連対象語の関連度rは見いだされないものとする(ステップS170)。
【0062】
ステップS165の条件を満たす場合、サーバ装置Sは、一方の文書iと他方の文書jの基本類似度Rijを算出する(ステップS166)。この基本類似度は、対象語の数(種類数)と同じ次元の多次元空間を想定し、各対象語の基本重要度を要素としたベクトルを設定し、一方の文書におけるベクトルと他方の文書におけるベクトルのなす角度によって算出する。たとえば、両文書における対象語の基本重要度が全く同じであれば、両ベクトルは一致し角度は0度となる。角度が小さいほど、類似度Rijが高いということができる。
【0063】
次に、サーバ装置Sは、目的対象語と関連対象語のIDF値の平均値を算出する(ステップS167)。さらに、サーバ装置Sは、基本類似度RijとIDF値の平均値を乗じ、一方の文書iと他方の文書jにおける目的対象語と関連対象語の関連度rを算出する(ステップS168)。
【0064】
サーバ装置Sは、文書の組合せを変えながら(ステップS164)、関連度rを加算していく(ステップS168)。これを全ての文書の組合せについて繰り返し、目的対象語と関連対象語の関連度rを得る。図12に、上記処理を数式にて示す。
【0065】
サーバ装置Sは、目的対象語を変えて、全ての対象語について上記の処理を繰り返す(ステップS162、S169)。このようにして、目的文書における対象語の全ての組合せについて関連度を算出する。
【0066】
続いて、サーバ装置Sは、各文書の対象語の基本重要度を、他の対象語との関連度に基づいて修正し、各文書の対象語の重要度を算出する(図4、ステップS17)。図8に、重要度算出の詳細を示す。
【0067】
サーバ装置Sは、目的とする文書について、目的対象語の基本重要度をハードディスク38から読み出す(ステップS173)。次に、当該目的文書において、目的対象語以外の全ての対象語(関連対象語)の基本重要度を読出し、目的対象語との関連度によって重み付けをして平均値を算出する(ステップS174)。続いて、サーバ装置Sは、目的対象語の基本重要度に上記の平均値を加算して、重要度を算出し、記録する(ステップS175)。
【0068】
このようにして、目的対象語の基本重要度を、関連対象語の基本重要度によって修正している。この際、どの程度の修正を施すかは、関連対象語との関連度に応じるようにしている。上記の処理を数式にて示すと、図13のようになる。
【0069】
サーバ装置Sは、上記のようにして、目的文書について、目的対象語の重要度を算出すると、目的対象語を変えて、この処理を繰り返す(ステップS172)。全ての対象語について重要度を算出すると、サーバ装置Sは、目的文書を変えて、上記の処理を繰り返す(ステップS171、S176)。
【0070】
以上のようにして、サーバ装置Sは、全ての文書の全ての対象語について重要度を算出し記録する。図11Bに記録された重要度を示す。図11Aの基本重要度と比べると、周辺対象語による修正が加算されているため、値が大きくなっている。
【0071】
なお、記録済みの文書については、既に重要度が算出されて記録されているが、新たな文書が登録されたことにより重要度が変化するので、上記のように新たに再計算を行って更新するようにしている。
【0072】
次に、サーバ装置Sは、各文書間の類似度を算出して記録する(図4、ステップS18)。図14に、類似度算出処理の詳細を示す。
【0073】
サーバ装置Sは、類似度を算出する2つの文書について、各対象語の重要度を成分とするベクトルを生成する(ステップS182)。すなわち、対象語の数に等しい多次元空間を想定し、この空間内において対応する対象語の重要度を成分とするベクトルを生成する。
【0074】
次に、サーバ装置Sは、両ベクトルのなす角度を算出して、両文書間の類似度を算出する(ステップS183)。サーバ装置Sは、この処理を、全ての文書の組合せについて繰り返す(ステップS181、S184)。図15に、このようにしてハードディスク38に記録された文書間の類似度を示す。
【0075】
この実施形態においては、上記のように、基本重要度を関連対象語の基本重要度によって修正するようにしている。これは、以下のような理由によるものである。
【0076】
図11Aに示すように、基本重要度が極めて小さい対象語もある。たとえば、文書B3と文書B4においては、基本重要度が0となる対象語もある。このような場合、対象語の基本重要度によって、2つの文書の類似度を比較しようとすると、重要度0の対象語が考慮されないことになる。
【0077】
一方で、対象語の中には、互いに関連性の高いものもある。たとえば、対象語「知的財産」と対象語「特許」は、関連性の高い対象語である。この時、「特許」については基本重要度が算出されているものの、「知的財産」については当該文書において用いられていなければ基本重要度=0となる。このような場合に、「知的財産」の基本重要度を、関連する「特許」の基本重要度によって修正加算することが適切である。そこで、この実施形態では、両文書の類似度を算出するための重要度を以上のようにして算出している。
【0078】
3.文書検索処理
図16に、類似文書検索サーバプログラム46、類似文書検索端末プログラム66の文書検索処理におけるフローチャートを示す。この実施形態においては、文書(対象文書)を入力することにより、この文書に類似する文書を検索することができるようにしている。
【0079】
端末装置TのCPU50は、サーバ装置Sにアクセスし、文書検索のための画面を要求する(ステップS5)。
【0080】
サーバ装置SのCPU30は、これを受けて、文書検索のための画面を返信する(ステップS20)。端末装置Tは、受信した文書検索画面を、ディスプレイ54に表示する(ステップS6)。
【0081】
図17に、端末装置Tにおいて表示された文書検索画面を示す。画面の右側には、当該端末装置Tに記録されているファイルが示されている。この実施形態では、ファイル名とアイコン94が表示されている。また、画面の左側には、検索の元となるファイル(対象文書という)を入力するための入力領域90が示されている。
【0082】
端末装置Tの操作者は、検索の元となるファイルのアイコン94を、マウス63によって選択し、この入力領域90にもってくる(ドラッグアンドドロップ)。操作者が決定ボタン96をクリックすると、端末装置Tは、入力領域90に入れられたファイルを、サーバ装置Sに送信する(ステップS7)。
【0083】
サーバ装置Sは、送信されてきたファイルを受信する(ステップS12)。なお、端末装置Tからファイル自体ではなく、リンク情報が送信されたきた場合には、当該リンク情報に基づいてファイルを取得する。
【0084】
ステップS13において、サーバ装置Sは、受信したファイル(対象文書)について、形態素解析を行い、名詞のみを単語として抽出する。
【0085】
次に、サーバ装置Sは、上記単語の中から、ハードディスク38に記録されている対象語を抽出し、各対象語について基本重要度(TF-IDF値)を算出する(ステップS15)。基本重要度の算出は、図6に示す処理と同様である。ただし、ここでは、対象文書についてのみ、各対象語の基本重要度を算出する。
【0086】
さらに、サーバ装置Sは、対象文書における各対象語の基本重要度を関連度によって修正し、重要度を算出する(ステップS17)。重要度算出処理は、図8に示す処理と同様である。ただし、ここでは、対象文書についてのみ、各対象語の重要度を算出する。
【0087】
続いて、サーバ装置Sは、対象文書と既に記録されている文書(記録文書)のそれぞれとの間の類似度を算出する(ステップS18)。類似度算出処理は、図14に示す処理と同様である。ただし、ここでは、対象文書との間の類似度のみを算出する。算出された類似度を、図18に示す。
【0088】
次に、サーバ装置Sは、記録文書のうち、類似度の高いものを所定個選択する(ステップS22)。続いて、サーバ装置Sは、選択した記録文書のそれぞれについて、対象文書と記録文書に共通して現れる対象語を抽出する。抽出した対象語について、DF値(図10B参照)の高いものから所定個(たとえば10個)を選択して共通対象語とする(ステップS23)。
【0089】
さらに、サーバ装置Sは、対象文書と選択した記録文書のそれぞれとの間において、一方にのみ現れる対象語を抽出する。さらに、これら対象語のうち、出現しない文書において、重要度が0でないもの(すなわち、関連対象語との関連度によって重要度が修正されたもの)を抽出する。抽出した対象語について、DF値の高いものから所定個(たとえば10個)を選択して共通関連語とする(ステップS23)。
【0090】
サーバ装置Sは、選択した記録文書に基づいて検索結果画面を生成し、端末装置Tに送信する(ステップS23)。端末装置Tは、これを受けて、ディスプレイ34に表示する(ステップS8)。
【0091】
図19に、端末装置Tにおいて表示された検索結果画面を示す。画面上部には、対象文書を表示するための領域100が設けられている。この領域100には、対象文書の第1頁のサムネイル画像102、タイトル104、対象語(DF値の高いものから所定個)106が表示されている。
【0092】
画面下部には、検索された記録文書が類似度の高い順に示されている。各記録文書について、記録文書の第1頁のサムネイル画像110(記録文書に対するリンク付き)、タイトル112が表示されている。また、ステップS23にて選択された共通関連語116が表示され、共通対象語が共通キーワード114として表示されている。
【0093】
操作者は、サムネイル画像110をクリックすることにより、記録文書をサーバ装置Sから取得して閲覧することができる。
【0094】
さらに、操作者が関連資料相関図ボタン120をクリックすると、端末装置Tは、サーバ装置Sに対して相関図要求を送信する。これを受けて、サーバ装置Sは、相関図を生成し、端末装置Tに返信する。
【0095】
端末装置Tにおいて表示された相関図を、図20に示す。画面下部には、記録文書について、その文書番号(文書は1〜Nまでの番号が付されて記録されている)を付した丸印とともに、所定の類似度以上の文書の丸印間について、線で結んでいる。また、対象文書を最も明るい色にて表示し(図においては47番の文書)、類似度が低くなるほど暗い色にて表現するようにしている。
【0096】
このような相関図により、対象文書に直接関連する文書だけでなく、間接的に関連する文書も一目で把握することができる。なお、文書の丸印をクリックすると、当該文書の情報(文書名や文書へのリンク)が表示される。
【0097】
なお、対象文書をサーバ装置Sにおいて文書として登録する場合には、図4の文書登録の処理を行えばよい。
【0098】
上記の例では、記録文書以外の文書を対象文書として検索を行う場合について説明した。しかし、記録文書を対象文書として検索を行うようにしてもよい。この場合には、既に文書間の類似度は算出済みであるから、記録された類似度を用いて迅速に検索結果を出力することができる。
【0099】
4.その他
(1)上記実施形態においては、予め、記録文書間の類似度を算出して記録するようにしている。しかし、対象文書と類似する記録文書を検索するだけであれば、記録文書間の類似度は記録しておく必要はない。
【0100】
(2)上記実施形態では、基本重要度を関連する周辺対象語の基本重要度によって修正して重要度を算出し、これに基づいて文書間の類似度を算出している。しかし、基本重要度自体を重要度として用いて、文書間の類似度を算出するようにしてもよい。
【0101】
(3)上記実施形態では、端末装置Tから対象文書を送信し、サーバ装置Sにて類似文書を検索し、検索結果を端末装置Tに返信するようにしている。しかし、一台のPCにおいて、対象文書の指定、検索を行うようにしてもよい。
【0102】
(4)上記実施形態では、対象文書に類似する記録文書を検索するようにしている。しかし、これに代えて、あるいはこれに加えて、複数の文書間(たとえば2つの文書間)の類似度を判定するようにしてもよい。
【0103】
文書間の類似度判定の処理を図21に示す。端末装置Tは、サーバ装置Sに対して、判定画面の要求を行う(ステップS41)。これを受けて、サーバ装置Sは、判定画面を端末装置Tに送信する(ステップS31)。端末装置Tは、これをディスプレイ54に表示する(ステップS42)。
【0104】
図22に、端末装置Tにおいて表示される類似度判定画面を示す。画面の右側には、当該端末装置Tに記録されているファイルが示されている。この実施形態では、ファイル名とアイコン294が表示されている。また、画面の左側には、類似度を判定したい2つのファイル(文書)を入力するための入力領域290が示されている。
【0105】
端末装置Tの操作者は、類似度を判定したい2つのファイルのアイコン294を、マウス63によって選択し、この入力領域290にもってくる(ドラッグアンドドロップ)。操作者が決定ボタン296をクリックすると、端末装置Tは、入力領域290に入れられた2つのファイルを、サーバ装置Sに送信する(ステップS43)。
【0106】
サーバ装置Sは、2つのファイル(第1の文書、第2の文書)を受信して取得する(ステップS12)。ファイルが直接送られてきている場合には、それを直接受信し、リンク情報の場合にはリンク先から取得する。
【0107】
次に、サーバ装置Sは、第1の文書、第2の文書のそれぞれについて、形態素解析を行い、単語(名詞)を抽出する(ステップS13)。
【0108】
次に、サーバ装置Sは、上記単語の中から、ハードディスク38に記録されている対象語を抽出し、各対象語について基本重要度(TF-IDF値)を算出する(ステップS15)。基本重要度の算出は、図6に示す処理と同様である。ただし、ここでは、第1の文書、第2の文書についてのみ、各対象語の基本重要度を算出する。
【0109】
さらに、サーバ装置Sは、第1の文書、第2の文書における各対象語の基本重要度を関連度によって修正し、重要度を算出する(ステップS17)。重要度算出処理は、図8に示す処理と同様である。ただし、ここでは、第1の文書、第2の文書についてのみ、各対象語の重要度を算出する。
【0110】
続いて、サーバ装置Sは、第1の文書と第2の文書の間の類似度を算出する(ステップS18)。類似度算出処理は、図14に示す処理と同様である。ただし、ここでは、第1の文書と第2の文書との間の類似度のみを算出する。
【0111】
サーバ装置Sは、判定結果として類似度を、端末装置Tに送信する(ステップS32)。端末装置Tは、受信した類似度を、ディスプレイ54に表示する(ステップS44)。
【0112】
なお、このように複数の文書間の類似度を比較する場合、サーバ装置Sに記録されている文書数が多いほど、当該類似度は精度よく判定することが可能となる。
【0113】
(5)上記実施形態では、記録文書をサーバ装置Sに記録している。しかし、他の装置に記録するようにしてもよい。
【要約】      (修正有)
【課題】キーワードを選択する必要なく適切な検索を行うことのできる類似文書検索装置を提供する。
【解決手段】記録部14には、文書D1、D2・・・と、文書中に表れる単語(対象語)の重要度が、各文書に対応して記録されている。基本重要度算出手段4は、端末装置Tから送られてきた対象文書中に含まれる対象語のそれぞれについて、少なくとも当該対象語の対象文書中における出現頻度に基づいて、基本重要度を算出する。重要度算出手段6は、当該対象文書中の対象語と関連する他の対象語の基本重要度に基づいて、当該対象語の基本重要度を修正し重要度を算出する。類似度算出手段8は、前記対象語の数に対応する多次元空間、および各文書の対象語の重要度を要素とする文書ベクトルを想定し、対象文書と各文書のベクトルのなす角度に基づいて、対象文書と各文書の類似度を算出する。文書抽出手段10は、対象文書に対して類似度の高い文書を抽出する。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22