IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社島津製作所の特許一覧

<>
  • 特許-文献検索方法および文献検索システム 図1
  • 特許-文献検索方法および文献検索システム 図2
  • 特許-文献検索方法および文献検索システム 図3
  • 特許-文献検索方法および文献検索システム 図4
  • 特許-文献検索方法および文献検索システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-31
(45)【発行日】2022-11-09
(54)【発明の名称】文献検索方法および文献検索システム
(51)【国際特許分類】
   G06F 16/33 20190101AFI20221101BHJP
【FI】
G06F16/33
【請求項の数】 9
(21)【出願番号】P 2020551632
(86)(22)【出願日】2018-10-16
(86)【国際出願番号】 JP2018038477
(87)【国際公開番号】W WO2020079752
(87)【国際公開日】2020-04-23
【審査請求日】2021-04-15
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】100179969
【弁理士】
【氏名又は名称】駒井 慎二
(74)【代理人】
【識別番号】100173532
【弁理士】
【氏名又は名称】井上 彰文
(72)【発明者】
【氏名】石川 勇樹
(72)【発明者】
【氏名】森本 健太郎
(72)【発明者】
【氏名】大谷 昭成
【審査官】吉田 誠
(56)【参考文献】
【文献】特開2011-103075(JP,A)
【文献】特開平11-045254(JP,A)
【文献】特開2011-175670(JP,A)
【文献】特開2001-167096(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
入力部と、文献データが格納されたデータベースと、検索処理を実行する検索処理部とを備えた文献検索システムを用いた文献検索方法であって、前記検索処理部に、
前記データベースに格納された前記文献データの中から、ユーザにより前記入力部に入力された検索クエリと関連度の高い文献データを検索する検索工程と、
前記検索クエリについて前記文献データとの関連における意味内容を解釈する工程と、
前記解釈の結果をもとに、前記検索された文献データにおいて前記検索クエリと意味的な関連度の高い部位を特定する特定工程と、
前記検索された文献データの文献名と前記特定された部位を表示する表示工程と、
前記特定された部位が同一の文献データに複数ある場合、該複数の部位ごとにカテゴリに分ける工程と、
前記複数の部位のうち選択された部位のカテゴリに属する部位と関連する部位を表示する工程と、
実行させることを特徴とする文献検索方法。
【請求項2】
入力部と、文献データが格納されたデータベースと、検索処理を実行する検索処理部とを備えた文献検索システムを用いた文献検索方法であって、前記検索処理部に、
前記データベースに格納された前記文献データの中から、ユーザにより前記入力部に入力された検索クエリと関連度の高い文献データを検索する検索工程と、
前記検索クエリについて前記文献データとの関連における意味内容を解釈する工程と、
前記解釈の結果をもとに、前記検索された文献データにおいて前記検索クエリと意味的な関連度の高い部位を特定する特定工程と、
前記検索された文献データの文献名と前記特定された部位を表示する表示工程と、
前記特定された部位が複数の文献データに複数ある場合、該複数の部位ごとにカテゴリに分ける工程と、
前記複数の部位から選択された部位のカテゴリと同一カテゴリに属する部位と関連する部位を、前記選択された部位に係る文献データ以外の他の文献データより拡張検索する工程と、
前記拡張検索によって得た前記関連する部位を表示する工程と、
実行させることを特徴とする文献検索方法。
【請求項3】
所定のアルゴリズムによって、前記特定された部位あるいは前記関連する部位に係る文章の要約を作成する工程と、
前記作成された要約を表示する工程と、
をさらに備えることを特徴とする請求項1または2に記載の文献検索方法。
【請求項4】
前記文献データには所定の試料についての分析レポート、分析関連論文、および分析関連特許文献のうち少なくとも1つが含まれ、前記特定された部位には分析関連前処理、分析関連装置名、分析方法、分析関連化合物名、分析関連分析対象物名、および、前記分析レポート、前記分析関連論文、前記分析関連特許文献それぞれの概要のうち少なくとも1つが含まれることを特徴とする請求項1~のいずれか1項に記載の文献検索方法。
【請求項5】
前記表示工程は、前記関連する部位として、前記分析レポート、前記分析関連論文、前記分析関連特許文献それぞれに含まれる、前記分析関連前処理、前記分析関連装置名、前記分析方法、前記分析関連化合物名、および前記分析関連分析対象物名のうち少なくとも1つに関連する文章を表示することを特徴とする請求項に記載の文献検索方法。
【請求項6】
前記文章をパラグラフごと、あるいはセンテンスごとに表示することを特徴とする請求項に記載の文献検索方法。
【請求項7】
コーパスに格納された文献データを構成する文章および文書を形態素解析により複数の単語に分割して学習によってベクトル化して得た単語と文章間の関連度および単語と文書間の関連度の少なくともいずれかに基づいて前記検索工程における検索および前記特定工程における特定を行い、
前記コーパスは特定分野に特化された文献データを含むことを特徴とする請求項2に記載の文献検索方法。
【請求項8】
入力部と、文献データが格納されたデータベースと、検索処理を実行する検索処理部とを備えた文献検索システムであって、
前記データベースに格納された前記文献データの中から、ユーザにより前記入力部に入力された検索クエリと関連度の高い文献データを検索する手段と、
前記検索クエリについて前記文献データとの関連における意味内容を解釈する手段と、
前記解釈の結果をもとに、前記検索された文献データにおいて前記検索クエリと意味的な関連度の高い部位特定する手段と、
前記検索された文献データの文献名と前記特定された部位を表示する手段と、
前記特定された部位が同一の文献データに複数ある場合、該複数の部位ごとにカテゴリに分ける手段と、
前記複数の部位のうち選択された部位のカテゴリに属する部位と関連する部位を表示する手段と、
を備えることを特徴とする文献検索システム。
【請求項9】
入力部と、文献データが格納されたデータベースと、検索処理を実行する検索処理部とを備えた文献検索システムをであって、
前記データベースに格納された前記文献データの中から、ユーザにより前記入力部に入力された検索クエリと関連度の高い文献データを検索する手段と、
前記検索クエリについて前記文献データとの関連における意味内容を解釈する手段と、
前記解釈の結果をもとに、前記検索された文献データにおいて前記検索クエリと意味的な関連度の高い部位を特定する手段と、
前記検索された文献データの文献名と前記特定された部位を表示する手段と、
前記特定された部位が複数の文献データに複数ある場合、該複数の部位ごとにカテゴリに分ける手段と、
前記複数の部位から選択された部位のカテゴリと同一カテゴリに属する部位と関連する部位を、前記選択された部位に係る文献データ以外の他の文献データより拡張検索する手段と、
前記拡張検索によって得た前記関連する部位を表示する手段と、
を備えることを特徴とする文献検索システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された検索クエリに基づいて大量の検索事例から検索対象(文献)を検索する文献検索方法および文献検索システムに関する。
【背景技術】
【0002】
近年におけるコンピュータ技術、通信網の発達により、電子化された大量の文書、情報等が蓄積されたデータベースから所望の文書データ、情報等を検索する需要が高まっている。一般的な情報検索システムでは、検索者が検索したい内容を最もよく表している検索語(キーワード)を入力することで、データベースに対する検索処理(索引語とのマッチング処理)が実行され、特定の条件に合致する文書データ等が検索結果として出力される。
【0003】
文献には同意異表示な言葉(例えば、インターフェース、インターフェイス等の翻訳化の相違や送り仮名相違など)や、類似語(例えば、計算機、パソコン、コンピュータなど)が含まれており、従来の検索方法では、これら(以下、類似語と呼ぶ)を同一のものとして処理する工夫が必要であった。例えば、検索対象の類似語をすべての組み合わせで置換したり、複数の索引語を文献に紐付けることで検索漏れを少なくしていた。しかし、組み合わせ数が増えることで検索時間が長くなったり、最適な索引語を設定できず、必ずしも必要な検索ができないという問題があった。
【0004】
例えば特許文献1は、検索クエリと、その検索クエリに概念的に適合する検索対象文書である正解文書の集合との、組の集合が与えられている場合、正解情報が検索精度を向上させる可能性をもっているとして、その正解情報を用いて、ユーザが入力した検索クエリに概念的に適合する検索対象文書を、検索精度を向上させて検索する文書概念検索方法等を開示している。
【0005】
特許文献2は、自然言語で表される入力文に含まれるキーワードの重要度を精度よく評価し、対比する文の文節の係り受け同士の類似度等をもとに、自然言語で表される入力文と、比較対象となる文との類似度を評価して、入力された文に類似する文を精度よく検索する方法を開示している。
【0006】
ところで、人工知能分野の自然言語処理では機械学習を応用して、単語そのものを扱うのではなく、単語の意味を表現したベクトルに変換する技術が用いられている。例えば、大量の文章情報をニューラルネットワークで学習し、ある単語の前後に出現する単語の分布から単語の意味を表すベクトル空間を生成して、それぞれの単語をベクトルに変換する。
【0007】
単語をベクトルに変換することによって、類似語はベクトル間の距離が近いものとして解釈することができる。したがって、検索対象に含まれる単語をベクトルに変換すれば、類似語は組み合わせや置換・索引語の設定が不要となる。機械学習により単語のベクトル空間を獲得する際に、検索対象である文献データを学習データとし、あるいは、その文献データにWeb上で入手できる一般文書などを加えて学習データとすることで単語のベクトル表現は自動で獲得できる。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2018-10482号公報
【文献】特開2017-201478号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
分析レポート、技術レポート、技術論文、研究論文等、専門用語が多用された文書の学習では、名詞や動詞を、既存の辞書を用いて形態素に分割するが、専門用語は、辞書に登録されていないことが多い。そのため、専門用語が本来とは別意の単語として認識され、形態素解析の結果として適正な単語ベクトルを得ることができないという問題がある。
【0010】
上述した特許文献1,2等の従来の検索システムは、検索キーワードに関連のある文献を提示するが、ユーザが知りたい情報が必ずしも提示されるとは限らない。これは、単にキーワードと関連する文献を提示するだけでは、目的とする情報がキーワードの近くに記載されているとは限らないからである。そこでユーザはさらに、提示された文献の中から検索キーワードに関連のある部分を見つける作業が必要となるという問題がある。また、ユーザによっては、提示された文献の内容を理解できない場合もある。
【0011】
本発明は、上述した課題に鑑みなされたものであり、その目的とするところは、検索キーワードと一致する検索対象のみならず、検索キーワードと意味的な関連のある検索対象をも検索する文献検索方法および文献検索システムを提供することである。
【課題を解決するための手段】
【0012】
上述した課題を解決する一手段として、本発明は、入力された検索クエリに基づいて、データベースに格納された文献データを検索する文献検索方法であって、前記データベースに格納された前記文献データの中から前記検索クエリと関連度の高い文献データを検索する検索工程と、前記検索クエリについて前記文献データとの関連における意味内容を解釈する工程と、前記解釈の結果をもとに、前記検索された文献データにおいて前記検索クエリと意味的な関連度の高い部位を特定する特定工程と、前記検索された文献データの文献名と前記特定された部位を表示する表示工程とを備えることを特徴とする。
【0013】
上記の文献検索方法において、好ましくは、コーパスに格納された文献データを構成する文章および文書を形態素解析により複数の単語に分割して学習によってベクトル化して得た単語と文章間の関連度および単語と文書間の関連度の少なくともいずれかに基づいて前記検索工程における検索および前記特定工程における特定を行う。また、好ましくは、前記特定された部位が同一の文献データに複数ある場合、該複数の部位ごとにカテゴリに分ける工程と、前記複数の部位のうち選択された部位のカテゴリに属する部位と関連する部位を表示する工程とをさらに備える。また、好ましくは、前記特定された部位が複数の文献データに複数ある場合、該複数の部位ごとにカテゴリに分ける工程と、前記複数の部位から選択された部位のカテゴリと同一カテゴリに属する部位と関連する部位を、前記選択された部位に係る文献データ以外の他の文献データより拡張検索する工程と、前記拡張検索によって得た前記関連する部位を表示する工程とをさらに備える。また、好ましくは、所定のアルゴリズムによって、前記特定された部位あるいは前記関連する部位に係る文章の要約を作成する工程と、前記作成された要約を表示する工程とをさらに備える。さらに、好ましくは、文献データには所定の試料についての分析レポート、分析関連論文、および分析関連特許文献のうち少なくとも1つが含まれ、前記特定された部位には分析関連前処理、分析関連装置名、分析方法、分析関連化合物名、分析関連分析対象物名、および、前記分析レポート、前記分析関連論文、前記分析関連特許文献それぞれの概要のうち少なくとも1つが含まれる。また、好ましくは、前記表示工程は、前記関連する部位として、前記分析レポート、前記分析関連論文、前記分析関連特許文献それぞれに含まれる、前記分析関連前処理、前記分析関連装置名、前記分析方法、前記分析関連化合物名、および前記分析関連分析対象物名のうち少なくとも1つに関連する文章を表示する。また、好ましくは、前記文章をパラグラフごと、あるいはセンテンスごとに表示する。また、好ましくは、前記コーパスは特定分野に特化された文献データを含む。
【0014】
また、上述した課題を解決する一手段として、本発明は、検索クエリに基づいて文献データを検索する文献検索システムであって、前記文献データが格納されたデータベースと、前記データベース中の文献データの中から前記検索クエリと関連度の高い文献データを検索する手段と、前記検索クエリについて前記文献データとの関連における意味内容を解釈する手段と、前記解釈の結果をもとに、前記検索された文献データにおいて前記検索クエリと意味的な関連度の高い部位を特定する手段と、前記検索された文献データの文献名と前記特定された部位を表示する手段とを備えることを特徴とする。
【発明の効果】
【0015】
本発明によれば、検索された文献の最小限の部分が関連部分として表示され、文献内容の理解および把握が容易になる。
【図面の簡単な説明】
【0016】
図1】本発明の実施形態に係る文献検索システムの構成の一例を示すブロック図である。
図2】文献検索システムにおける検索対象の学習手順を示すフローチャートである。
図3】文献検索システムにおける検索対象についての検索処理手順を示すフローチャートである。
図4】文献検索システムにおける検索処理結果の表示例を示す図である。
図5】文献検索システムをネットワークを介して接続した構成例を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明に係る実施形態について添付図面を参照して詳細に説明する。図1は、本発明の実施形態に係る文献検索システムの構成の一例を示すブロック図である。図1の文献検索システム10は、事例、文献等の検索処理を実行する検索処理部20と、検索対象である検索事例を学習する学習処理部40とを備える。
【0018】
文献検索システム10は、検索者であるユーザ等が入力した検索クエリに基づいて、検索対象データベース(文献データベースともいう)30に蓄積された事例、文献等を検索し、その検索結果を出力する。検索処理部20は、入力部1、解析部11、特徴抽出部13、検索部15、表示制御部17、および出力部5を備える。また、学習処理部40は、文献データベース30、形態素解析部21、ベクトル生成部23、関連度学習部25、およびコーパス27を備える。
【0019】
本実施形態に係る文献検索システムにおける検索対象には、例えば、分析レポート、分析関連論文、分析関連特許文献等が含まれる。分析レポートとは、例えば、「試料△△の残留農薬を装置〇〇を使用して分析した。」等の分析事例、分析結果のレポートであり、アプリケーションニュース、アプリケーションノートも分析レポートに含まれる。
【0020】
検索処理部20において、入力部1にはユーザ等により、検索対象を文字列、文章等で表した検索クエリ(検索キーワード、検索文字列ともいう。)が入力される。検索クエリは、検索文、検索キーワード等、検索条件を示す文字列等からなり、検索対象が分析レポートであれば、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名等が含まれる。
【0021】
入力部1は、例えば、キーボード、マウス等の入力デバイス、ディスプレイ等からなり、ディスプレイ上の入力画面を使用して検索クエリが入力される。ディスプレイは、検索結果等が表示される出力部5でもある。
【0022】
解析部11は、入力部1より入力された検索クエリに対して、あらかじめ定義された検索辞書をもとに形態素解析を行って、最小単位の単語に分割する。そして、特徴抽出部13は、検索クエリを表現するベクトル(単語べクトル、あるいは特徴べクトルともいう。)を算出する。すなわち、特徴抽出部13は、形態素解析の結果を受けて、検索クエリの構文等から、検索対象との関連に対応する検索クエリの意味を解釈する。
【0023】
検索部15は、特徴抽出部13より取得した検索キーワードの単語ベクトルをもとに、分析レポート等の文書データを検索する。ここでは、後述するようにベクトル化されて特徴づけられた文書データ等を検索対象として検索する。例えば、特徴べクトルで示される検索クエリと、文書データ等との類似度を算出し、それらの一致度あるいは類似度に基づいて検索クエリで示される文書データの有無を判定する。
【0024】
すなわち、検索部15は、検索クエリの意味内容と一致あるいは類似する文書データ等を、文献データベース30を参照して抽出し、それを表示制御部17に出力する。出力部5は、表示制御部17での制御結果に応じた情報を表示する。これによりユーザ等は、所望の事例、文献等を文書データ等として取得できる。
【0025】
次に、本実施形態の文献検索システム10を構成する学習処理部40について説明する。図1において学習処理部40の形態素解析部21は、コーパス27に蓄積されているすべての文書(文献データ)を形態素解析によって単語に分割して、文書データを細分化する。ベクトル生成部23は、形態素解析の結果を受けて、単語の意味表現である単語ベクトルを構築する。ベクトル生成部23はさらに、文章の特徴を表す文章ベクトルと、文書中に含まれている単語の特徴量の総和から文書の特徴ベクトルである文書ベクトルとを生成する。なお、文献データの細分化は、段落単位に行ってもよい。
【0026】
ベクトル生成部23で生成された単語ベクトル、文章ベクトル、および文書ベクトルは、関連度学習部25に送信される。図1に示すように関連度学習部25は、単語ベクトル学習部25a、単語-文章間学習部25b、および単語-文書間学習部25cで構成される。
【0027】
単語ベクトル学習部25aは、単語のベクトル空間におけるベクトル同士の距離が単語間の意味的な類似度を表すことから、ベクトル空間における単語間の意味的な関連、単語間のベクトル距離を計算する。同様に単語-文章間学習部25bは、ベクトル空間における単語と文章間の関連度、ベクトル距離を計算し、単語-文書間学習部25cは、ベクトル空間における単語と文書間の関連度、ベクトル距離を計算する。
【0028】
単語ベクトル学習部25a、単語-文章間学習部25b、および単語-文書間学習部25cでの計算結果は、単語、文章、文書各々を座標軸とする多次元ベクトル空間を有する文献データベース30に、学習データとともに、単語ベクトル、単語-文章ベクトル、単語-文書ベクトルとして格納される。
【0029】
なお、コーパス27において、例えば特定分野の文書、専門用語を中心としたデータを蓄積することで、その分野に合致した検索対象ベクトルが得られ、特定分野の文章等の検索精度を向上させ、検索速度を上げることができる。
【0030】
また、コーパスを、社内報告書、技報、アプリケーションニュース等を格納した内部コーパスと、ウィキペディア(登録商標)等のウエブ上で外部に公開されているデータ等を集めた外部コーパスとで構成してもよい。
【0031】
次に、本実施形態の文献検索システムにおける検索処理手順について説明する。図2は、検索対象の学習手順を示すフローチャートである。また、図3は、検索対象についての検索処理手順を示すフローチャートである。
【0032】
図2のステップS11では、コーパス27に格納されている検索対象(文書データ等)を、既存の辞書を使用した形態素解析により複数の単語(形態素)に分割する。続くステップS13では、ステップS11での形態素解析の結果をもとに、単語の意味表現である単語ベクトルを構築するともに、文章の特徴を表す文章ベクトル、文書中に含まれている単語の特徴量の総和等から文書の特徴ベクトルである文書ベクトルを生成する。
【0033】
ここで、文章とは意味のある文の最小単位であり、文書は複数の文章で構成される。日本語の文章は句点で区切られ、英語等の言語で作成された文章はピリオド(終止符)で区切られることから、上記の形態素解析によって文書を句点、あるいはピリオドごとに文に分割して、それらの係り受け解析等をもとに文章ベクトルを生成する。文書をパラグラフごとに分割して、パラグラフ単位に文章ベクトルを生成してもよい。
【0034】
単語のベクトル空間におけるベクトル同士の距離が単語間の意味的な類似度を表すため、ステップS15では、例えばword2bec等によりベクトル空間における単語間の意味的な関連、単語間のベクトル距離を計算する。続くステップS17では、ベクトル空間における単語と文章間の関連度、ベクトル距離を計算し、次のステップS19において、ベクトル空間における単語と文書間の関連度、ベクトル距離を計算する。
【0035】
ステップS20では、検索対象の学習データとともに、上記のステップS15,17,19での計算結果を、単語ベクトル、単語-文章ベクトル、単語-文書ベクトルとして文献データベース30に格納する。
【0036】
次に、本実施形態の文献検索システムを使用してユーザ等が必要な事例を取得する検索処理について説明する。最初に図3のステップS21において、ユーザ等により検索クエリ(検索キーワード)が入力される。次のステップS23で、形態素解析により検索クエリを最小単位の形態素(単語ベクトル)に分割する。
【0037】
ステップS25では、あらかじめ検索対象を学習によってベクトル化した学習データ等が蓄積された文献データベースを参照して検索処理を行う。この検索処理では、検索結果として、検索クエリ(検索キーワード)に関連のある、あるいは関連の高い文書(文献)を検索する。入力された検索クエリに関連の高い文書(文献)とは、あらかじめ単語と文書間の関連を計算して得た、ベクトル空間における単語と文書間の関連度が高く、ベクトル距離が近い文書(文献)である。
【0038】
ステップS27において、ステップS25で検索された文書(文献)中における、検索クエリと意味的に関連が高い部位(例えば、文章、フレーズ等)を特定する。ここでは、あらかじめ計算によって得た、ベクトル空間における単語と文章間の関連度が高く、ベクトル距離が近い文章を特定する。
【0039】
上記の関連性の高い部位には、例えば、文書(文献)が分析レポートであって、化合物分析の分野に関する場合、前処理、分析装置名、分析方法、有機溶媒、文書(文献)中の概要欄等が含まれる。特に化合物分析において、どのような前処理を行った後に分析に入るのかが重要であることから、前処理に関する記載部分を関連性の高い部位に含める。
【0040】
ステップS29では、特定された関連部位が複数あるかどうかを判定する。関連部位が複数ある場合、ステップS31において、それら複数の部位を部位ごとにカテゴリ、例えば、前処理別、分析装置パラメータ別等に分ける。
【0041】
ステップS33では、上記特定された関連部位と関係する部位が他の文書(文献)中にも存在するか否かを判断する拡張検索を行う。この拡張検索は、例えば、ある化合物の分析の前処理に関する文書(文献)が特定された場合、その化合物とは別の化合物、あるいは類似化合物の分析に関する前処理もユーザ等には有効な情報(参考例)となることを考慮して、他の文書(文献)中の関連部位を検索する処理である。
【0042】
なお、特定された関連部位が複数の文書(文献)に渡って存在する場合、上記の拡張検索として、例えば、ユーザ等により選択された関連部位のカテゴリに属する部位が他の文書(文献)中にあるか否かを判断してもよい。
【0043】
ステップS35では、上記の検索処理で検索された文書名(文献名)、その文書(文献)中の関連文章をディスプレイ上に表示するとともに、その関連文章中における関連部位、例えば、上述した前処理、分析装置名等を強調(ハイライト)して表示する。なお、文書(文献)中の関連文章については、ユーザ等の選択により文章全体、あるいは文章の一部を表示してもよい。
【0044】
ステップS37では、ステップS35で表示されている文章中の特定部分が、ユーザ等によって、キーボード、マウス等の入力デバイスを操作して選択されたか否かを判断する。特定部分とは、例えば文章中において、あらかじめタグ等を付与してカテゴリ分けされた部分である。ユーザ等が選択した部分が、例えばタグ等が付された前処理に係る部分であれば、ステップS39において、その前処理部分を表示する。
【0045】
図4は、検索処理結果の表示例である。図4の例では、ディスプレイ41の上段に検索された文書名(文献名)43を表示し、その下段に、検索された文献中において検索クエリと意味的に関連の高い部位(文章)を副情報として提示する。図4は、文献中に2箇所の関連部位44a,44bがあったときの表示例である。
【0046】
例えば、検索クエリとして「前処理」が入力された場合、その検索クエリの特徴(意味)から、ユーザ等が分析の前処理を知りたいと判断され、関連部位として、文献中において前処理方法が記載された部位(文章)が表示される。
【0047】
また、図4に示す例では、視認性の向上のため、前処理、分析装置名等を表46の中に一括して示している。さらに、ユーザ等により文章中の特定部分45が選択された場合、特定部分45は、タグ等を付与してカテゴリ分けされた部分として、その部分に関する詳細な内容47を関連部位の下部に表示する。
【0048】
なお、上述した拡張検索により、例えば関連部位としての前処理の内容を拡張して作成した別の前処理を参考例として表示してもよい。また、副情報として提示された関連部位44a,44bについては、所定のアルゴリズムによって、その部位を要約した文章を作成し、要約文の形式で表示してもよい。これによりユーザ等は、関連部位の把握および理解を迅速かつ容易に行える。
【0049】
さらに、関連部位44a,44bにおいて、例えば前処理に関する文(センテンス)をハイライト表示してもよい。
【0050】
図5は、本実施形態の文献検索システムをネットワーク(公衆通信網)を介して接続した構成例を示している。図5に示すように本実施形態に係る文献検索システム10は、例えばインターネット環境において、ユーザ等からの要求に応じて事例の検索を可能にし、検索結果をユーザ等に提供する。
【0051】
そのため、文献検索システム10と、複数のユーザ端末60a…60nとが、インターネット等の情報通信ネットワーク70を介して通信可能に接続されている。文献検索システム10内の通信部61は、ネットワーク70とのインターフェイスである。制御部65は、検索処理部20および学習処理部40を含む文献検索システム10の全体の制御を司る、例えばマイクロプロセッサ等で構成される。
【0052】
メモリ67には、上述した検索処理部20における検索対象の検索処理プログラム、学習処理部40における学習処理プログラム等が格納されている。制御部65は、これらのプログラムを読み出して、図2および図3に示す所定の処理等を実行する。なお、文献検索システム10全体を、ネットワーク70に接続されたサーバ装置と位置づけることもできる。
【0053】
以上説明したように本実施形態によれば、検索された文献中において検索クエリと意味的に関連の高い部位を副情報として提示することで、ユーザ等は、文献中から関連部分を探す作業が不要となる。すなわち、ユーザ等は、検索された文献の全体ではなく、提示された最小限の部分のみ文献の理解をすれば良いので、関連部分を容易に把握でき、検索システム、検索方法におけるユーザビリティが向上する。
【0054】
また、文献中の関連する部分をカテゴリ分け、例えば、前処理記載部位、装置パラメータ記載部位等に分けておくことで、ユーザによる選択、さらに関連するパラメータ群の検索が可能となる。
【符号の説明】
【0055】
1 入力部
5 出力部
10 文献検索システム
11 解析部
13 特徴抽出部
15 検索部
17 表示制御部
20 検索処理部
21 形態素解析部
23 ベクトル生成部
25 関連度学習部
25a 単語ベクトル学習部
25b 単語-文章間学習部
25c 単語-文書間学習部
27 コーパス
30 検索対象データベース
40 学習処理部
41 ディスプレイ
44a,44b 関連部位
60a…60n ユーザ端末
65 制御部
67 メモリ
70 ネットワーク
図1
図2
図3
図4
図5