(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024128597
(43)【公開日】2024-09-24
(54)【発明の名称】類似文書検索装置、類似文書検索方法およびプログラム
(51)【国際特許分類】
G06F 16/33 20190101AFI20240913BHJP
【FI】
G06F16/33
【審査請求】未請求
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2023037638
(22)【出願日】2023-03-10
(71)【出願人】
【識別番号】000002299
【氏名又は名称】清水建設株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】古川 慧
(72)【発明者】
【氏名】大山 巧
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HA01
5B175HB03
(57)【要約】
【課題】検索精度を向上することができる類似文書検索装置、類似文書検索方法およびプログラムを提供する。
【解決手段】入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置10であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部14と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部16とを備えるようにする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、
入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、
抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えることを特徴とする類似文書検索装置。
【請求項2】
入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、
入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、
抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有することを特徴とする類似文書検索方法。
【請求項3】
請求項2に記載の類似文書検索方法をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書の類似度に基づいて文書を検索する類似文書検索装置、類似文書検索方法およびプログラムに関するものである。
【背景技術】
【0002】
従来、コンピュータによる自然言語処理の一つとして、データベースに記憶された文書の中から入力文書に類似する文書を検索する検索処理が知られている(例えば、特許文献1を参照)。また、検索対象の文書中から、出現頻度ベースなどの特定のアルゴリズムによって文書を特徴づけるキーワードを抽出し、ユーザが入力したワードとキーワードの言語空間におけるベクトル同士のなす角度の近さを表現するコサイン類似度等を算出して、関連性の高い文書を出力する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、ある文書群Aを検索したい場合において、入力条件(上記のワードと同等)と文書群Aとの類似性が著しく低いときには、検索精度が落ちるおそれがある。すなわち、上記のワードに類似するキーワードを文書群Aが多く保有しない場合には、従来の検索方法によるベクトルを使った類似度計算が有効でない可能性がある。
【0005】
例えば、建設分野の文書の中から、塩害対策の文書群Aを検索して出力させるために、検索語(ワード)を「構造:S(鉄骨)造」かつ「沿岸からの距離300m以内」に設定した場合を考える。この場合、「沿岸からの距離300m以内」は自然言語処理上、塩害対策をあまり要求されない「沿岸からの距離3000m以内」等とほぼ同じように扱われる蓋然性が高いことから、塩害対策以外の文書群まで出力される可能性が高い。このように、検索語に含まれる数値の持つ意味合いが考慮されないと、検索精度が低下するおそれがある。
【0006】
本発明は、上記に鑑みてなされたものであって、検索精度を向上することができる類似文書検索装置、類似文書検索方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記した課題を解決し、目的を達成するために、本発明に係る類似文書検索装置は、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えることを特徴とする。
【0008】
また、本発明に係る類似文書検索方法は、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有することを特徴とする。
【0009】
また、本発明に係るプログラムは、上述した類似文書検索方法をコンピュータに実行させることを特徴とする。
【発明の効果】
【0010】
本発明に係る類似文書検索装置によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えるので、検索精度を向上することができるという効果を奏する。
【0011】
また、本発明に係る類似文書検索方法によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有するので、検索精度を向上することができるという効果を奏する。
【図面の簡単な説明】
【0012】
【
図1】
図1は、本発明に係る類似文書検索装置の実施の形態を示す概略構成図である。
【
図2】
図2は、本発明に係る類似文書検索方法の実施の形態を示す概略フロー図である。
【
図3】
図3は、本実施の形態による検索例を示す図である。
【発明を実施するための形態】
【0013】
以下に、本発明に係る類似文書検索装置、類似文書検索方法およびプログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0014】
図1に示すように、本発明の実施の形態に係る類似文書検索装置10は、入力部12と、関連文書抽出部14と、類似文書検索部16と、出力部18と、記憶部20とを備える。
【0015】
入力部12は、類似文書の検索においてキーとなる検索語の入力を受け付けるものであり、例えば、入力インターフェース用のキーボードおよびディスプレイ画面等に設けられる入力欄などにより構成される。検索語は、一定の意味を有する語句や、長さ等の単位を含む数値などの字句を想定している。例えば、建設事業分野の場合には、検索語として、案件情報(建設地・延床・面積・構造など)、性能情報(沿岸部・軟弱地盤・特殊構造など)、仕上情報(壁:石・屋根:防水など)のいずれか一つ以上を用いることができる。検索語は、キーワードとして予め複数の選択肢を設けておき、入力部12においていずれかを選択して入力可能なようにしてもよい。また、複数の検索語を入力して、AND検索やOR検索が可能なようにしてもよい。例えば、「構造:S(鉄骨)造」、「沿岸からの距離300m以内」の二つを検索語として入力してもよい。
【0016】
関連文書抽出部14は、入力部12に入力された検索語に基づいて、所定のルールベースで予め紐付けられている関連文書を記憶部20から抽出する。関連文書およびルールベースは、記憶部20に記憶されている。ルールベースには、検索語と、この検索語に関連する関連文書の情報(例えば、文書のタイトルなど)が予め紐付けて登録されている。これにより、字句形式の検索語と文書形式の関連文書とが対応付けられる。ルールベースは、過去の多数のデータから、検索語と文書を分析して、検索語と文書の関連性をルール化して設定することができる。この関連性は、例えば、過去に入力された検索語の使用頻度および類似文書の閲覧頻度から算出された重み付け値などに基づいて設定してもよいし、予め人の手によって設定してもよい。検索語が建設案件の断片的な情報であった場合には、頻出した不具合事例が記載された文書を関連文書としてもよい。例えば、上記の例では、検索語が「構造:S(鉄骨)造」かつ「沿岸からの距離300m以内」の場合、「塩害対策の文書」が関連文書となるように紐付けてもよい。
【0017】
類似文書検索部16は、関連文書抽出部14により抽出した関連文書を入力文書とし、この入力文書と記憶部20に記憶されている検索対象の各文書との類似度を自然言語処理により算出し、算出した類似度に基づいて、関連文書と類似度の高い類似文書を検索する。類似度は、例えば、関連文書および検索対象の各文書のそれぞれを形態素に分割し、それぞれに共通して出現する単語の数をカウントすることにより算出する方法や、上記の特許文献1に記載されているベクトル空間法などの公知の類似文書検索技術を用いることができる。
【0018】
出力部18は、類似文書検索部16により検索された類似文書についての情報を類似文書検索結果として出力するものであり、例えば、類似文書の文字列を表示するディスプレイやプリンタなどで構成される。類似文書検索結果として、例えば、類似文書のタイトルなどを出力することができる。
【0019】
記憶部20は、類似文書検索部16による検索の対象となる複数の文書と、複数の関連文書と、ルールベースを記憶するものであり、例えば、データベースやメモリなどにより構成される。記憶部20に記憶される文書および関連文書は、電子書籍、電子ファイル、ウェブページ等のテキスト形式のデータを含む電子媒体の電子文書である。この電子文書は、少なくとも本文とタイトルを有する。電子文書は、建設事業分野などで使用される各種法令、社内標準、施工マニュアル、Tips集、べからず集等の電子文書であってもよい。
【0020】
なお、上記の類似文書検索装置10のハードウェアの例は、CPU、RAM、ROM、ハードディスク、通信インターフェース等を備えたコンピュータである。上記の各機能を実現するプログラムをRAMまたはROMに格納しておき、CPUによってこのプログラムを実行することによって、類似文書検索を行うことができる。このようなプログラムも本発明の範囲に含まれる。
【0021】
次に、本発明の実施の形態に係る類似文書検索方法について説明する。この類似文書検索方法は、例えば、上記の類似文書検索装置10の各部が、
図2に示したステップS1~S4の処理を行うことにより実行される。
【0022】
まず、ステップS1において、入力部12に検索語を入力する。次のステップS2において、関連文書抽出部14が検索語およびルールベースに基づいて、検索語と予め紐付けられている関連文書を抽出する。次のステップS3において、類似文書検索部16が関連文書と記憶部20に記憶されている各文書の類似度を算出する。次のステップS4において、算出した類似度に基づいて類似文書を検索し、検索結果を出力部18から出力する。
【0023】
図3は、本実施の形態による検索例を示した概念図である。この図に示すように、入力する検索語として、例えば、案件情報(建設地・延床・面積・構造など)、性能情報(沿岸部・軟弱地盤・特殊構造など)、仕上情報(壁:石・屋根:防水など)のいずれか一つ以上の情報を入力すると、設定したルールベースに基づいて、検索語に紐付けられた関連文書(不具合事例を記載した文書)が記憶部20から抽出される。その後、抽出した関連文書と、記憶部20に記憶されている各文書との間で自然言語処理(類似文書検索)が行われ、関連文書と類似性の高い類似文書のタイトルが出力される。図の例では、類似文書としてTips集、施工マニュアル、べからず集が出力された場合を示している。
【0024】
このように、本実施の形態によれば、入力した検索語を媒介用の関連文書に疑似的に変換してから、自然言語処理によって関連文書と各文書との間で類似文書検索を行うことで、関連性の高い類似文書を出力する。このようにすれば、検索語に関連するキーワードを各文書が多く保有しないような場合であっても、高精度に検索を行える。したがって、上記の従来の方法に比べて検索精度を向上することができる。
【0025】
特に、本実施の形態によれば、自然言語処理では扱いにくい検索語中の数値の持つ意味合いを、関連文書に置き換えることにより自然言語処理しやすくなる。例えば、上記の例では、検索語の「沿岸からの距離300m以内」は「沿岸からの距離3000m以内」であったとしても自然言語処理上はほぼ同じように扱われる蓋然性が高い。しかし、「沿岸からの距離300m以内」を塩害対策の関連文書に置き換えることにより、「300m以内」が「塩害」と関係があるという意味付けが可能となる。これにより、最終的に検索される類似文書と検索語とを、「塩害」というワードで関連付けることができる。
【0026】
以上説明したように、本発明に係る類似文書検索装置によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えるので、検索精度を向上することができる。
【0027】
また、本発明に係る類似文書検索方法によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有するので、検索精度を向上することができる。
【産業上の利用可能性】
【0028】
以上のように、本発明に係る類似文書検索装置、類似文書検索方法およびプログラムは、文書の類似度に基づいて文書を検索するのに有用であり、特に、検索精度を向上するのに適している。
【符号の説明】
【0029】
10 類似文書検索装置
12 入力部
14 関連文書抽出部
16 類似文書検索部
18 出力部
20 記憶部