(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】文書検索装置、文書検索システムおよび文書検索方法
(51)【国際特許分類】
G06F 16/332 20190101AFI20241119BHJP
【FI】
G06F16/332
(21)【出願番号】P 2022515199
(86)(22)【出願日】2020-11-20
(86)【国際出願番号】 JP2020043312
(87)【国際公開番号】W WO2021210210
(87)【国際公開日】2021-10-21
【審査請求日】2022-06-22
(31)【優先権主張番号】P 2020072863
(32)【優先日】2020-04-15
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】三田 佳那子
(72)【発明者】
【氏名】森本 健太郎
(72)【発明者】
【氏名】石川 勇樹
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2003-173340(JP,A)
【文献】特開2010-055518(JP,A)
【文献】特開2003-281183(JP,A)
【文献】特開2014-202718(JP,A)
【文献】特開2019-066979(JP,A)
【文献】特開2014-211812(JP,A)
【文献】特開2008-014895(JP,A)
【文献】国際公開第2020/080376(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
文書検索システムに用いられる文書検索装置であって、
前記文書検索システムは、前記文書検索装置と通信することが可能な端末装置およびデータベースを含み、
前記データベースには、分析に関する文書および当該文書に関連するラベル情報が記憶されており、
前記ラベル情報は、前記文書が対象とする試料の名称の項目を含み、
前記文書検索装置は、
前記端末装置にユーザが入力した検索クエリを解析して、前記検索クエリに含まれる文字列を解釈する解析部と、
前記解析部の解析結果に基づいて、前記データベースから前記検索クエリに関連する文書を検索する検索部と、
検索された文書に関連付けられたラベル情報および前記検索された文書の前記ラベル情報に含まれる試料名に類似する試料名を前記データベースから取得する取得部と、
前記検索された文書を、当該文書に関連する前記ラベル情報および前記類似する試料名とともに前記端末装置に表示する表示制御部とを含む、文書検索装置。
【請求項2】
前記文書検索装置は、前記検索された文書について、前記検索クエリに含まれる文字列との類似度を算出し、当該類似度に基づく指標値に従って前記検索された文書の順位付けを行なう順位生成部をさらに含み、
前記文書検索装置は、前記検索された文書を、設定された順位付けに従って前記端末装置に表示する、請求項1に記載の文書検索装置。
【請求項3】
前記文書検索装置は、前記検索された文書の前記指標値を前記検索された文書とともに前記端末装置に表示する、請求項2に記載の文書検索装置。
【請求項4】
前記文書検索装置は、関連性の高い順に所定数の文書を前記端末装置に表示する、請求項3に記載の文書検索装置。
【請求項5】
前記文書検索装置は、前記所定数の文書について、前記ラベル情報の項目ごとに、当該項目に含まれる要素の内訳を前記端末装置に表示する、請求項4に記載の文書検索装置。
【請求項6】
前記ラベル情報は、分析方法、分析装置、前処理の有無および種類、ならびに、分析条件のうちの少なくとも1つをさらに含む、請求項1に記載の文書検索装置。
【請求項7】
前記文書検索装置は、前記端末装置に表示された前記ラベル情報の領域がユーザにより選択されると、選択された項目の詳細情報を前記端末装置に表示する、請求項1に記載の文書検索装置。
【請求項8】
ユーザからの入力を受け付けるとともに、検索結果を表示する端末装置と、
分析に関する文書および当該文書に関連するラベル情報が記憶されたデータベースと、
前記端末装置および前記データベースと通信することが可能なサーバとを備え、
前記ラベル情報は、前記文書が対象とする試料の名称の項目を含み、
前記サーバは、
前記端末装置にユーザが入力した検索クエリを解析して、前記検索クエリに含まれる文字列を解釈する解析部と、
前記解析部の解析結果に基づいて、前記データベースから前記検索クエリに関連する文書を検索する検索部と、
検索された文書に関連付けられた前記ラベル情報および前記検索された文書の前記ラベル情報に含まれる試料に類似する試料名を前記データベースから取得する取得部と、
前記検索された文書を、当該文書に関連する前記ラベル情報および前記類似する試料名とともに、前記端末装置に表示する表示制御部とを備える、文書検索システム。
【請求項9】
コンピュータによって実現される文書検索方法であって、
ユーザが入力した検索クエリを受信する工程と、
受信した前記検索クエリを解析して、前記検索クエリに含まれる文字列を解釈する工程と、
解析結果に基づいて、データベースから前記検索クエリに関連する文書を検索する工程と、
検索された文書に関連付けられた前記文書が対象とする試料の名称の項目を含むラベル情報、および前記検索された文書の前記ラベル情報に含まれる試料に類似する試料名を前記データベースから取得する工程と、
前記検索された文書を、当該文書に関連する前記ラベル情報および前記類似する試料名とともに表示装置に表示する工程とを含む、文書検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文書検索装置、文書検索システムおよび文書検索方法に関し、より特定的には、文書検索システムにおいて検索された文書の表示技術に関する。
【背景技術】
【0002】
近年の通信技術の発達に伴い、インターネットなどの通信網を介して様々な情報の取得が可能となっており、これらの情報を取得するための検索エンジンを用いたサービスが提供されている。例えば、特開2008-293534号公報(特許文献1)には、上記のような検索サービスを提供するための文書検索システムの一例が開示されている。このような検索サービスにおいては、ユーザから入力されたキーワードあるいは文章を自然言語処理(Natural Language Processing:NLP)を用いて解析し、解析によって得られた単語(特徴語)と一致あるいは類似する用語を含む文書をデータベースから抽出してユーザに提示する。
【0003】
一方で、上記のような検索サービスにおいては、抽出される文書の数が多数となる場合もあり、そのような場合には、検索結果として表示された文書のうちから、所望する情報を含む文書にユーザが到達するまでに時間を要する場合がある。
【0004】
このような課題に対して、上記の特開2008-293534号公報(特許文献1)においては、抽出された文書を一覧表示するとともに、指定した特徴語を強調して表示したり、あるいは、特徴語の関連性を示すグラフを併せて表示することによって、ユーザによる検索結果の分析の容易化を図っている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
顧客への商品等の販売前後において顧客からの問い合わせに対応する場合、通常、営業部門あるいは代理店が窓口となる。しかしながら、商品等が複雑化、多様化、専門化する今日においては、特定の分野に特化した知識が必要となり、営業部門あるいは代理店での対応に限界が生じる場合がある。このような特定の分野に関する情報を取得するために、上述のような文書検索サービスを適用することが考えられる。
【0007】
例えば、液体クロマトグラフや質量分析計のような分析装置を製造、販売する場合、分析装置の機種、測定可能な試料は、ライフサイエンスをはじめとして工業、農業等と多岐にわたっているため、分析に先立つ前処理、実際の分析手法、および得られた分析結果の解釈は、当該装置を専門に扱う者でなくては難しいという側面がある。通常、分析装置の購入を予定している顧客は分析すべき試料を持っており、当該試料を分析可能な装置、必要となる前処理、および、具体的な分析方法などの情報を必要としている。
【0008】
上記のような分析装置の分野に対して、特開2008-293534号公報(特許文献1)を適用した場合には、基本的には、入力されたキーワードあるいは文書から解析によって得られる特徴語に基づく検索が行なわれる。しかしながら、たとえば、入力されたキーワードが試料名だけの場合には、ユーザが必要とする分析装置、あるいは前処理等の情報が適切に得られない状態となる場合がある。
【0009】
本開示は、このような課題を解決するためになされたものであって、その目的は、文書検索システムにおいて、検索された文書の中から、ユーザの要求に合致した文書を容易に選択することである。
【課題を解決するための手段】
【0010】
本開示のある局面に係る文書検索装置は、文書検索システムに用いられる。文書検索システムは、文書検索装置と通信することが可能な端末装置およびデータベースを含む。データベースには、分析に関する文書および当該文書に関連するラベル情報が記憶されている。文書検索装置は、解析部と、検索部と、取得部と、表示制御部とを備える。解析部は、端末装置にユーザが入力した検索クエリを解析して、検索クエリに含まれる文字列を解釈する。検索部は、解析部の解析結果に基づいて、データベースから検索クエリに関連する文書を検索する。取得部は、検索された文書に関連付けられたラベル情報をデータベースから取得する。表示制御部は、検索された文書を、当該文書に関連するラベル情報とともに端末装置に表示する。
【0011】
本開示の他の局面に係る文書検索システムは、端末装置と、データベースと、サーバとを備える。端末装置は、ユーザからの入力を受け付けるとともに、検索結果を表示する。データベースには、分析に関する文書および当該文書に関連するラベル情報が記憶されている。サーバは、端末装置およびデータベースと通信することが可能に構成されている。サーバは、解析部と、検索部と、取得部と、表示制御部とを含む。解析部は、端末装置にユーザが入力した検索クエリを解析して、検索クエリに含まれる文字列を解釈する。検索部は、解析部の解析結果に基づいて、データベースから検索クエリに関連する文書を検索する。取得部は、検索された文書に関連付けられたラベル情報をデータベースから取得する。表示制御部は、検索された文書を、当該文書に関連するラベル情報とともに端末装置に表示する。
【0012】
本開示のさらに他の局面に係る文書検索方法は、i)ユーザが入力した検索クエリを受信する工程と、ii)受信した検索クエリを解析して、検索クエリに含まれる文字列を解釈する工程と、iii)解析結果に基づいて、データベースから検索クエリに関連する文書を検索する工程と、iv)検索された文書に関連付けられたラベル情報をデータベースから取得する工程と、v)検索された文書を、当該文書に関連するラベル情報とともに表示装置に表示する工程とを含む。
【発明の効果】
【0013】
本開示に係る文書検索装置、文書検索システムおよび文書検索方法によれば、ユーザから入力された検索クエリに基づいて検索された文書とともに、当該文書に関連付けられたラベル情報が端末装置に表示される。当該ラベル情報として、文書に記載された内容の特徴を示す情報を設定することにより、表示されたラベル情報を見ただけでユーザは当該文書が所望の内容を含んでいるか否かを判断することができる。これにより、ユーザは、検索された文書の中から、ユーザの要求に合致した文書を容易に選択することができる。
【図面の簡単な説明】
【0014】
【
図1】実施の形態に係る文書検索システムの全体構成図である。
【
図2】
図1におけるサーバの詳細を説明するための機能ブロック図である。
【
図3】サーバで実行される制御の詳細を説明するためのフローチャートである。
【
図4】端末装置における表示の第1例を示す図である。
【
図5】端末装置における表示の第2例を示す図である。
【発明を実施するための形態】
【0015】
以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
【0016】
[文書検索システムの全体構成]
図1は、実施の形態に係る文書検索システム10の全体構成を示す図である。
図1に示される文書検索システム10は、通信ネットワーク50を通じて、ユーザからの要求に応じて、所望の情報を含む文書情報を提供するシステムである。本実施の形態においては、一例として、文書検索システム10が、分析装置を製造・販売する装置メーカが情報提供者となり、情報検索者(ユーザ)からの要求に応じて、分析事例に関する情報を提供するシステムである場合を例として説明する。
【0017】
図1を参照して、文書検索システム10は、サーバ100と、データベース200と、少なくとも1つの端末装置300A~300Nとを含む。なお、以下の説明において、端末装置300A~300Nを、包括的に「端末装置300」とも称する。本実施の形態の例においては、装置メーカにサーバ100およびデータベース200が配置されており、端末装置300は各ユーザの保有するパーソナルコンピュータ、あるいは、タブレットおよびスマートフォン等の携帯端末である。なお、実施の形態の「サーバ」は、本開示における「文書検索装置」に対応する。
【0018】
端末装置300は、入力部301と、表示部302とを含む。入力部301は、たとえば、キーボードあるいはマウスなどを含んで構成される。入力部301は、音声を通じてユーザの入力を受け付けるマイク(および音声をデジタルデータに変換するコンバータ)であってもよい。表示部302は、代表的には液晶ディスプレイのような表示装置である。なお、端末装置300がタブレットあるいはスマートフォンである場合、入力部301および表示部302は、これらの機能が一体的に形成されたタッチパネルとして実現される。
【0019】
サーバ100は、インターネットに代表される通信ネットワーク50を介して端末装置300と通信可能に構成される。また、サーバ100は、有線通信あるいは無線通信を介して、データベース200と通信可能に構成される。
【0020】
サーバ100は、制御装置であるCPU101と、記憶部102と、通信部103とを含む。CPU101、記憶部102および通信部103は、共通の通信バス104に接続されており、相互にデータの伝達が可能に構成されている。記憶部102は、ROMおよびRAMなどの記憶メモリ、および/または、HDDおよびDVDに代表される大容量記憶媒体を含んで構成される。通信部103は、通信ネットワーク50、データベース200および図示しない他の機器と通信するための通信インターフェースである。
【0021】
概略的には、サーバ100は、端末装置300から送信されるユーザの検索クエリ(検索キーワード)を受信し、当該検索クエリの内容に基づいてユーザの要求に適した情報をデータベース200から抽出して端末装置300に表示する。
【0022】
データベース200は、大容量記憶媒体を含む記憶装置である。データベース200には、試料の分析に関する多くの文書情報、および、当該文書に関連する情報が記憶されている。なお、
図1のシステムにおいては、データベース200がサーバ100の外部に設けられる構成となっているが、データベース200はサーバ100内に設けられる記憶部102の一部を構成するものであってもよい。それに代えて/それに加えて、
図1のデータベース200Aのように、データベースの一部あるいは全部が通信ネットワーク50を介してサーバ100に接続されるものであってもよい。この場合、データベース200Aは、ユーザ側のシステムに含まれるものであってもよい。
【0023】
[サーバの詳細な機能]
次に、
図2を用いて、サーバ100の有する機能の詳細について説明する。
図2は、
図1の文書検索システム10におけるサーバ100の詳細を説明するための機能ブロック図である。
【0024】
図2を参照して、まずデータベース200についてより詳細に説明する。データベース200は、文書情報が蓄積された文書データベース(DB)210と、試料(サンプル)に関する情報が蓄積されたサンプルDB220と、文書DB210に含まれる各文書に対応するラベル情報が蓄積されたラベル管理DB230とを含む。各データベースに含まれる情報は、当該データベースの管理者により、たとえば入力装置250を用いて設定/更新される。入力装置250は、データベース200専用に設けられた装置であってもよいし、サーバ100に付属した装置を用いてもよい。なお、データベース200内の情報の更新は、所定の期間ごとに自動で実行されてもよい。
【0025】
文書DB210には、検索対象である大量の分析事例に関する文書(分析レポート、技術論文、特許文献など)が記憶されている。なお、文書DB210に記憶された文書情報を、一般に公開可能な情報と、特定のユーザのみに公開が許可される情報とに分類してもよい。文書DB210に記憶された文書情報は、自然言語処理において用いられる「形態素解析」によってベクトル化された文書データとして記憶されている。具体的には、文書、文書中の文章、および文章内の単語が、空間内でベクトル化(分散表現化)された状態で記憶されている。このようなベクトル化されたデータとして記憶することによって、ベクトル間の距離から単語間の類似度を判定することができる。
【0026】
サンプルDB220は、試料(サンプル)ごとに、当該試料と類似している他の試料についての情報が関連付けられて記憶されている。両試料は、化学組成的に類似していてもよい。たとえば、酪酸と吉草酸は同じカルボン酸(または脂肪酸、より広い概念では有機酸)に属し、炭素数も近いため、化学組成的に類似し、互いに関連付けられていてもよい。また、化学的性質や物理的性質が類似する試料が、互いに関連付けられていてもよい。また、たとえばアデニンという核酸構成塩基については、シトシン、ウラシル、チミンといった同じ核酸構成塩基が互いに関連付けられていてもよい。
【0027】
ラベル管理DB230には、文書DB210に記憶された各文書に関連する項目(ラベル情報)が、文書毎に対応付けて記憶されている。ラベル情報に含まれる項目は、たとえば、当該文書において分析対象とされている試料の名称(試料名)に加えて、分析方法(分析種類)、前処理の有無および種類、ならびに分析条件のうちの少なくとも1つを含む。
【0028】
サーバ100は、機能ブロックとして、受信部110と、解析部120と、検索部130と、ランキング生成部140と、ラベル取得部150と、表示制御部160とを含む。上記の各機能ブロックは、主に、記憶部102に記憶されたプログラムをCPU101で実行することによって実現される。なお、機能ブロックの一部については、専用のハードウェア回路で実現されてもよい。
【0029】
受信部110は、
図1の端末装置300においてユーザによって入力された検索クエリQRYの情報を通信ネットワーク50を介して受信し、受信した検索クエリQRYを解析部120に出力する。検索クエリQRYは自然言語で表わした文字列であり、単語の集合あるいは一連の文章である。
【0030】
解析部120は、受信部110からの検索クエリQRYに対して、予め定義された検索辞書をもとに「形態素解析」を行なって、検索クエリQRYを最小単位の単語に分割する。そして、解析部120は、分割された単語を特徴付ける単語ベクトルWVC(あるいは特徴ベクトル)を算出する。解析部120は、算出された単語ベクトルWVCの情報を検索部130に出力する。
【0031】
検索部130は、解析部120で算出された単語ベクトルWVCから、検索クエリQRYの特徴を抽出し、抽出された特徴に基づいて、文書DB210に記憶されている文書情報から、当該特徴に合致および類似する内容を含む文書情報DOCを検索する。なお、検索部130における検索は、検索クエリQRYとして入力された文字列(キーワード)に一致する文書情報を返すキーワード検索ではなく、当該キーワードから、検索したい分析事例の内容を解釈するセマンティック検索が行なわれる。検索部130は、セマンティック検索によって文書DB210から抽出された文書情報DOCを、ランキング生成部140および表示制御部160へ出力する。また、検索部130は、解析部120からの単語ベクトルWVCを、ランキング生成部140に出力する。
【0032】
ランキング生成部140においては、まず、抽出された文書情報DOCごとに、検索クエリQRYに含まれるキーワードとの類似度を算出する。類似度は、単語ベクトルWVCと、文書情報DOCに含まれる各単語のベクトルとの距離によって算出され、2つのベクトルの距離が近いほど類似度が高いと判定される。なお、類似度が所定の基準値よりも高い場合には、検索クエリQRYに含まれるキーワードと、文書情報DOC内の単語とが一致していると判定される。
【0033】
また、検索クエリQRYに含まれるキーワードと一致する単語がない文書情報DOCについて、ランキング生成部140は、上記で算出した類似度に基づいて指標値(関連スコア)を算出する。具体的には、関連スコアは類似度の総和として表わされる。関連スコアが高いほど、検索クエリQRYと当該文書情報DOCとの関連性が高いと判断される。
【0034】
そして、ランキング生成部140は、検索クエリQRYに含まれるキーワードとの一致性および関連スコアに基づいて、抽出された文書情報DOCの順位付けを行ない、当該順位を示すランキング情報RNKをラベル取得部150および表示制御部160へ出力する。なお、ランキング情報RNKには、上記の関連スコアの情報も含まれる。
【0035】
ラベル取得部150は、ランキング生成部140からのランキング情報RNKに基づいて、抽出された文書情報DOCの各々に対して個別に設定されたラベル情報LBLを、ラベル管理DB230から取得する。そして、ラベル取得部150は、取得したラベル情報LBLに含まれる試料名に基づいて、当該試料に類似する他の試料についての情報(サンプル情報)SPLを、サンプルDB220から取得する。
【0036】
また、ラベル取得部150は、ランキングの高い順(すなわち、関連性の高い順)に所定数の文書について、各ラベル情報の項目ごとに、当該項目に含まれる要素の内訳をカウントする。たとえば、ランキングの上位50位までの文書のラベル情報について、試料名の項目に含まれる試料の数をカウントする。ラベル取得部150は、上記のカウント数の情報を含むラベル情報LBL、および、類似試料に関するサンプル情報SPLを表示制御部160へ出力する。
【0037】
表示制御部160は、検索部130からの文書情報DOCと、ランキング生成部140からのランキング情報RNKと、ラベル取得部150からのラベル情報LBLおよびサンプル情報SPLとを受ける。表示制御部160は、これらの情報に基づいて、端末装置300の表示部302に表示するための検索結果画面情報DSPを編集し、通信ネットワーク50を介して、当該検索クエリQRYが要求された端末装置に対して、検索結果画面情報DSPを出力する。
【0038】
このとき、表示制御部160は、抽出された文書情報DOCを、ランキング情報RNKに従って表示する。具体的には、表示制御部160は、検索クエリQRYに含まれるキーワードに一致する単語を含む文書を上位に表示する。そして、キーワードに一致する単語が含まれない文書については、キーワードが一致する文書に引き続いて、関連スコアのより高い文書が上位になるように表示する。
【0039】
表示制御部160は、表示する各文書について、文書のタイトルおよび内容の抜粋とともに、ラベル情報および関連スコアを併せて表示する。さらに、表示制御部160は、ランキング上位の所定数の文書に含まれる、各ラベル情報の項目の要素数の内訳を表示する。
【0040】
図3は、サーバ100において実行される文書検索制御を説明するためのフローチャートである。
図3に記載された文書検索制御は、ユーザからの検索クエリQRYをサーバ100が受信したことに応答して実行される。
【0041】
図3を参照して、サーバ100は、ステップ(以下、ステップをSと略す。)10にて、端末装置300から送信された検索クエリQRYを取得する。次に、S20にて、サーバ100は、検索クエリQRYを自然言語処理により解析し、検索クエリQRYに含まれるキーワードを抽出する。より具体的には、S20においては、サーバ100は、「形態素解析」を用いて検索クエリQRYを最小単位の単語(キーワード)に分割する。形態素解析において、各キーワードはベクトル化される。
【0042】
S30にて、サーバ100は、抽出されたキーワードに基づいて、文書DBに蓄積された大量の文書から、検索クエリQRYに対応する文書をセマンティック検索する。セマンティック検索は、入力された検索クエリの文字列の意味表現、検索を求める意図、目的等に基づいて、検索文字列に合致する検索対象を特定する技術である。すなわち、検索文字列を単なる文字列として捉えるのではなく、検索要求を含めた意味を持つ文字列として捉える技術である。
【0043】
セマンティック検索により文書が抽出されると、サーバ100は、抽出された文書に含まれる単語と、検索クエリQRYから抽出されたキーワードとの間の類似度および関連スコアを算出する(S40)。キーワードと検索された文書内の単語との類似度は、それぞれの単語ベクトル間の距離によって規定される。たとえば、類似度は0~1の間の数値で表される。ベクトル間の距離が遠くなるにつれて類似度は1から低下する。なお、単語のゆらぎ、同義語は予め辞書に登録しておき、同一の単語として扱う。登録されていない表現のゆらぎ、同義語、および類義語については、ベクトル化したときに類似度が1に近い値に設定される。また、サーバ100は、キーワードに一致する単語が含まれない文書については、各単語の類似度を用いて文書の関連度合いを示す「関連スコア」を算出する。
【0044】
S50にて、サーバ100は、S40で算出された類似度および関連スコアを用いて、抽出された文書のランキング(順位)を生成する。上述のように、キーワードに一致する単語を含む文書は、一致する単語を含まない文書よりもランキングが高く設定され、一致する単語数が多い文書ほどランキングが高く設定される。また、キーワードに一致する単語を含まない文書については、関連スコアが高い文書ほどランキングが高く設定される。
【0045】
サーバ100は、S60にて、抽出された文書に関連するラベル情報を、ラベル管理DB230から取得する。そして、サーバ100は、S70にて、ラベル情報に含まれる試料名のラベル(サンプルラベル)に対応する類似サンプルの名称を、サンプルDB220から取得する。
【0046】
さらに、S80にて、サーバ100は、S50で生成したランキングに従って、上位ランキングの文書に含まれるラベル情報の各項目についての要素数をカウントする。たとえば、ラベル情報の「分析装置」の項目について、上位50位までの文書のラベル情報に、分析装置AA、分析装置BBおよび分析装置CCがそれぞれいくつ含まれているかをカウントする。
【0047】
そして、サーバ100は、S90にて、取得した文書情報、ラベル情報、類似サンプル情報およびランキング情報を検索結果画面情報として編集し、通信ネットワーク50を介して、検索クエリQRYが送信された端末装置300に出力する。端末装置300においては、検索された文書が、当該文書に関連する各種情報とともにランキング順に表示される。
【0048】
[表示例]
図4は、端末装置300の表示部302に表示される表示画面400の第1例を示す図である。
図4を参照して、表示画面400には、入力領域410と、検索要求を送信するための検索ボタン420と、サーバ100による検索結果を表示する第1表示領域430(430A~430C)および第2表示領域440とを含む。
【0049】
入力領域410は、入力部301を用いてユーザが検索クエリを入力するための領域である。検索クエリが入力された状態で、ユーザが検索ボタン420を選択することによって、端末装置300からサーバ100へ検索クエリの情報が伝達される。
【0050】
第1表示領域430は、サーバ100で検索された文書の詳細が表示される領域である。
図4の例においては、第1表示領域430は3つの表示領域430A~430Cを含んでおり、検索された文書のうち上位3件の文書の情報が示されている。なお、第1表示領域430に表示可能な文書数は3つに限られず、表示部302の画面サイズおよび画面配置によって、3以上の文書を表示してもよい。また、第1表示領域430については、ユーザによるマウス、キーボード、あるいは画面へのタッチ操作によってスクロールすることが可能であり、当該スクロールによって、より下位のランキングの情報を表示させることができる。
【0051】
第1表示領域における各表示領域には、文書名に加えて、関連スコアを表示する領域341と、一致/類似キーワードを表示する領域342と、文書の概要あるいは文書の一部を表示する領域433と、ラベル情報を表示する領域435~437と、類似サンプル名を表示する領域438とを含む。
【0052】
図4の例においては、表示領域430Aには、検索クエリに含まれるキーワードに一致した単語を含む文書Aが表示されている。この場合、関連スコアは算出されないため、領域431には「関連スコアなし」と表示され、領域432には、一致するキーワードが表示されている。一方、表示領域430B,430Cに示される文書B,Cは、検索クエリに含まれるキーワードに一致する単語を含んでいないため、領域431には関連スコアが表示される。また、領域432には、キーワードに類似する単語が示される。
【0053】
また、
図4においては、ラベル情報として、領域435には分析装置が示され、領域436には前処理の有無および種類が示され、領域437には分析を行う試料の名称(サンプル名)が示されている。そして、領域438には、領域437に表示された試料に類似した試料の名称が表示される。
【0054】
第2表示領域440は、抽出された文書のうち、ランキングの高い文書についてのラベル情報の内訳を表示するための領域である。たとえば、
図4に示されるように、第2表示領域440においては、ランキングの上位50位までの文書におけるラベル情報に含まれる要素の内訳が表示されている。具体的には、分析装置の項目については、分析装置AAのラベルを有する文書が30件、分析装置BBのラベルを有する文書が15件、分析装置CCのラベルを有する文書が5件含まれている。また、前処理の項目につては、前処理EEを行なう文書が15件、前処理FFを行なう文書が10件、前処理なしの文書が25件含まれている。
【0055】
このように、上位ランキングの文書に含まれるラベル情報の内訳を表示することによって、ユーザからの検索クエリの内容に適した分析装置、前処理等の候補を容易に理解することができる。各文書に付されたラベル情報と、第2表示領域440に示された内訳とを参照することによって、検索結果の中から、ユーザの要求に合致した文書の選択を容易にすることが可能となる。
【0056】
なお、検索された個々の文書の表示領域には制限があるため、領域433に示される文書の内容は部分的なものとなり得る。そのため、文書名および検索クエリから抽出されるキーワードとの類似度からだけでは、当該文書に記載された実際の内容に、ユーザが所望する情報が含まれているか否かを判断できない場合が生じ得る。一方で、本実施の形態のように、各文書に対して、一般的にユーザが要求すると思われる情報をラベル情報として予め付与しておくことによって、文書の内容を詳細に読まなくても、当該文書が対象とする試料、使用する分析装置などの基本的な情報をラベル情報から認識することができる。
【0057】
また、検索クエリにから抽出されるサンプルに類似する試料名を併せて表示することによって、文書に記載された分析手法の他の試料への適用可能性を理解することができる。さらに、検索クエリに分析すべき試料に関する記載が明示されていないような場合(あるいは、具体的な試料名の特定ができない場合)においても、領域437に表示された試料名、および/または、領域438に表示された類似の試料名から、当該文書の内容が、ユーザの要求に合致した文書であるか否かを判断することが可能となる。
【0058】
以上のように、本実施の形態の文書検索システムにおいては、文書に関連するラベル情報が表示さえるため、検索された文書の中からユーザの要求に合致した文書を容易に選択することが可能となる。
【0059】
なお、領域345~437に表示されるラベル情報の内容、および、領域438に表示される類似の試料名については、
図4で示した表示領域の大きさが制限されているため、すべての内容を表示できない場合がある。そのため、ユーザがこれらの領域をクリックしたり、あるいは、当該領域にユーザがマウスのカーソルを重ねたりすることによって、当該項目を選択した場合に、
図5に示されるように、選択された項目の詳細情報をポップアップウインドウ450あるいは別画面で表示するようにしてもよい。
【0060】
[態様]
(第1項)一態様に係る文書検索装置は、文書検索システムに用いられる。文書検索システムは、文書検索装置と通信することが可能な端末装置およびデータベースを含む。データベースには、分析に関する文書および当該文書に関連するラベル情報が記憶されている。文書検索装置は、解析部と、検索部と、取得部と、表示制御部とを含む。解析部は、端末装置にユーザが入力した検索クエリを解析して、検索クエリに含まれる文字列を解釈する。検索部は、解析部の解析結果に基づいて、データベースから検索クエリに関連する文書を検索する。取得部は、検索された文書に関連付けられたラベル情報をデータベースから取得する。表示制御部は、検索された文書を、当該文書に関連するラベル情報とともに端末装置に表示する。
【0061】
第1項に記載の文書検索装置によれば、ユーザから入力された検索クエリに基づいて検索された文書とともに、当該文書に関連付けられたラベル情報が端末装置に表示される。当該ラベル情報として、文書に記載された内容の特徴を示す情報を設定することにより、表示されたラベル情報を見ただけでユーザは当該文書が所望の内容を含んでいるか否かを判断することができる。これにより、ユーザは、検索された文書の中から、ユーザの要求に合致した文書を容易に選択することができる。
【0062】
(第2項)第1項に記載の文書検索装置において、ラベル情報は、文書が対象とする試料の名称の項目を含む。文書検索装置は、検索された文書のラベル情報に含まれる試料名に類似する試料名をデータベースから取得して、端末装置に表示する。
【0063】
第2項に記載の文書検索装置によれば、検索された文書についてのラベル情報に含まれる試料名に類似する試料名が文書とともに表示される。これによって、検索された文書に記載された分析手法の他の試料への適用可能性を理解することができる。そのため、ユーザが分析したいと思っている試料が検索された文書に記載されていない場合であっても、当該文書に記載の分析手法の適用可否を容易に判断することができる。
【0064】
(第3項)第1項または第2項に記載の文書検索装置は、検索された文書について、検索クエリに含まれる文字列との類似度を算出し、当該類似度に基づく指標値に従って検索された文書の順位付けを行なう順位生成部をさらに含む。文書検索装置は、検索された文書を、設定された順位付けに従って端末装置に表示する。
【0065】
第3項に記載の文書検索装置によれば、検索された文書が、検索クエリに対してより関連性の高い文書が端末装置に優先的に表示される。したがって、ユーザは、検索された文書の中から、ユーザの要求により近い文書を容易に選択することができる。
【0066】
(第4項)第3項に記載の文書検索装置は、検索された文書の指標値を検索された文書とともに端末装置に表示する。
【0067】
第4項に記載の文書検索装置によれば、検索された文書の指標値が端末装置に表示される。これにより、ユーザが入力した検索クエリとの関連性を数値として認識することができる。したがって、検索された文書の中から、ユーザの要求により近い文書を容易に選択することができる。
【0068】
(第5項)第4項に記載の文書検索装置は、関連性の高い順に所定数の文書を端末装置に表示する。
【0069】
第5項に記載の文書検索装置によれば、関連性の高い順に所定数の文書を表示することができる。関連する文書が多数ある場合に、検索されたすべての文書を表示すると、サーバと端末装置間の通信負荷が高くなったり、表示に時間がかかる場合がある。予め定められた数の文書を表示することで、検索結果の表示のレスポンスを向上させることができる。
【0070】
(第6項)第5項に記載の文書検索装置は、所定数の文書について、ラベル情報の項目ごとに、当該項目に含まれる要素の内訳を端末装置に表示する。
【0071】
第6項に記載の文書検索装置によれば、検索された文書に含まれるラベル情報の内訳が端末装置に表示される。ユーザからの検索クエリの内容に適した分析装置、前処理等の候補を容易に理解することができる。各文書に付されたラベル情報と、ラベル情報の内訳とを参照することによって、検索結果の中から、ユーザの要求に合致した文書の選択を容易にすることが可能となる。
【0072】
(第7項)第2項~第6項に記載の文書検索装置において、ラベル情報は、分析方法、分析装置、前処理の有無および種類、ならびに、分析条件のうちの少なくとも1つをさらに含む。
【0073】
第7項に記載の文書検索装置によれば、ユーザは、ラベル情報を参照することによって、検索された文書についての分析方法、分析装置、前処理の有無および種類、ならびに、分析条件に関する情報を取得することができる。
【0074】
(第8項)第1項~第7項に記載の文書検索装置は、端末装置に表示されたラベル情報の領域がユーザにより選択されると、選択された項目の詳細情報を端末装置に表示する。
【0075】
第8項に記載の文書検索装置によれば、端末装置におけるラベル情報の領域が選択されると、当該項目の詳細情報が端末装置に表示される。検索結果の表示領域には文字数の制限があり、また長い名称の化学物質も数多くあるため、ラベル情報を表示する領域にすべての内容を表示することができない場合がある。ラベル情報の該当する項目が選択された場合に詳細情報を表示することで、ユーザの要求と検索された文書との関連性の理解をさらに容易にすることができる。
【0076】
(第9項)他の態様に係る文書検索システムは、ユーザからの入力を受け付けるとともに検索結果を表示する端末装置と、分析に関する文書および当該文書に関連するラベル情報が記憶されたデータベースと、端末装置およびデータベースと通信することが可能なサーバとを備える。サーバは、解析部と、検索部と、取得部と、表示制御部とを含む。解析部は、端末装置にユーザが入力した検索クエリを解析して、検索クエリに含まれる文字列を解釈する。検索部は、解析部の解析結果に基づいて、データベースから検索クエリに関連する文書を検索する。取得部は、検索された文書に関連付けられたラベル情報をデータベースから取得する。表示制御部は、検索された文書を、当該文書に関連するラベル情報とともに端末装置に表示する。
【0077】
第9項に記載の文書検索システムによれば、ユーザから入力された検索クエリに基づいて検索された文書とともに、当該文書に関連付けられたラベル情報を端末装置に表示させることができる。当該ラベル情報として、文書に記載された内容の特徴を示す情報を設定することにより、表示されたラベル情報を見ただけでユーザは当該文書が所望の内容を含んでいるか否かを判断することができる。これにより、ユーザは、検索された文書の中から、ユーザの要求に合致した文書を容易に選択することができる。
【0078】
(第10項)他の態様に係る文書検索方法は、ユーザが入力した検索クエリを受信する工程と、受信した検索クエリを解析して、検索クエリに含まれる文字列を解釈する工程と、解析結果に基づいて、データベースから検索クエリに関連する文書を検索する工程と、検索された文書に関連付けられたラベル情報をデータベースから取得する工程と、検索された文書を、当該文書に関連するラベル情報とともに表示装置に表示する工程とを含む。
【0079】
第10項に記載の文書検索方法によれば、文書検索システムにおいて、ユーザから入力された検索クエリに基づいて検索された文書とともに、当該文書に関連付けられたラベル情報が表示装置に表示される。当該ラベル情報として、文書に記載された内容の特徴を示す情報を設定することにより、表示されたラベル情報を見ただけでユーザは当該文書が所望の内容を含んでいるか否かを判断することができる。これにより、ユーザは、検索された文書の中から、ユーザの要求に合致した文書を容易に選択することができる。
【0080】
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0081】
10 文書検索システム、50 通信ネットワーク、100 サーバ、102 記憶部、103 通信部、104 通信バス、110 受信部、120 解析部、130 検索部、140 ランキング生成部、150 ラベル取得部、160 表示制御部、200,200A データベース、210 文書DB、220 サンプルDB、230 ラベル管理DB、250 入力装置、300,300A~300N 端末装置、301 入力部、302 表示部、400 表示画面、410 入力領域、420 検索ボタン、430,430A,430B,430C,440 表示領域、450 ポップアップウインドウ。