(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024108058
(43)【公開日】2024-08-09
(54)【発明の名称】検索サーバ、検索システム、検索方法、及び、検索プログラム
(51)【国際特許分類】
G06F 16/33 20190101AFI20240802BHJP
【FI】
G06F16/33
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023012327
(22)【出願日】2023-01-30
(71)【出願人】
【識別番号】000006208
【氏名又は名称】三菱重工業株式会社
(74)【代理人】
【識別番号】110000785
【氏名又は名称】SSIP弁理士法人
(72)【発明者】
【氏名】西澤 幸紘
(72)【発明者】
【氏名】丸田 祐史
(72)【発明者】
【氏名】棚橋 裕樹
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB03
5B175HA01
(57)【要約】
【課題】ナレッジ用語を含む検索対象データから価値のある情報を効率的に検索する。
【解決手段】検索サーバは、非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースを用いて、検索処理を行う。検索サーバには、検索対象データを検索するための検索ワードが入力されるとともに、観点が指定される。検索サーバは、入力された検索ワードの言語解析結果を、非ナレッジ用語辞書データベース、及び、指定された観点に対応するナレッジ用語辞書データベースと比較することにより検索スコアを算出する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースと、
検索対象データを検索するための検索ワードが入力される検索ワード入力部と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する検索スコア算出部と、
を備える、検索サーバ。
【請求項2】
前記検索スコア算出部は、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースに設定された重み付け係数を用いて、前記検索スコアを算出する、請求項1に記載の検索サーバ。
【請求項3】
前記観点ごとに前記重み付け係数が設定された前記ナレッジ用語辞書データベースを生成するためのナレッジ用語辞書データベース生成部を更に備える、請求項1又は2に記載の検索サーバ。
【請求項4】
前記ナレッジ用語辞書データベース生成部は、
前記観点に対応する学習用データについて、前記ナレッジ用語の第1出現頻度を算出するとともに、前記検索対象データについて、前記ナレッジ用語の第2出現頻度を算出する出現頻度算出部と、
前記第1出現頻度及び前記第2出現頻度に基づいて、前記ナレッジ用語辞書データベースにおける前記重み付け係数を前記観点ごとに算出する重み付け係数算出部と、
を備える、請求項3に記載の検索サーバ。
【請求項5】
前記検索スコアは、前記非ナレッジ用語辞書データベースに対応する非ナレッジ用語検索スコア、及び、前記ナレッジ用語辞書データベースに対応するナレッジ用語検索スコアが加算されることにより算出される、請求項1又は2に記載の検索サーバ。
【請求項6】
前記検索スコアは、前記非ナレッジ用語辞書データベースに対応する非ナレッジ用語検索スコアを、前記ナレッジ用語辞書データベースに対応するナレッジ用語検索スコアによって補正されることにより算出される、請求項1又は2に記載の検索サーバ。
【請求項7】
前記言語解析結果は、前記検索ワードを形態素解析することにより得られる、請求項1又は2に記載の検索サーバ。
【請求項8】
請求項1又は2に記載の検索サーバと、
前記検索ワードを入力するためのクライアント端末と、
前記検索サーバ及び前記クライアント端末を接続する通信ネットワークと、
を備える、検索システム。
【請求項9】
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースを用いて、検索対象データを検索するための検索方法であって、
前記検索対象データを検索するための検索ワードを入力する工程と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する工程と、
を備える、検索方法。
【請求項10】
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースを用いて、検索対象データを検索するための検索プログラムであって、
コンピュータ装置を用いて、
前記検索対象データを検索するための検索ワードを入力する工程と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する工程と、
を実行可能な、検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、検索サーバ、検索システム、検索方法、及び、検索プログラムに関する。
【背景技術】
【0002】
例えばプラント運用に関する戦訓、ノウハウ、設計根拠のような高度な専門性を有する情報は、セキュリティ確保の目的から、一般艇な通信ネットワークから隔離された環境(例えば社内ネットワークのようなアクセスが制限された環境)で、データベースのような記憶装置に蓄積されることにより、管理、保管がなされている。このような情報は、長年にわたって記憶装置に蓄積されることで膨大な量に及ぶが、有益な情報を含んでおり、有効活用が望まれている。
【0003】
記憶装置に蓄積された膨大なデータから有益な情報を抽出するための手段として、所定のキーワード(検索ワード)を手掛かりに検索を実施する検索システムが知られている。この種の検索システムの一例として、特許文献1には、検索結果として、所定のテーマとの関連性に対応する検索スコアを算出するシステムが開示されている。この文献では特に、所定のテーマに関連する文書データ群に出現する傾向のある特徴語に基づいて、検索スコアを算出するための重み付けを算出している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記のような検索システムでは、検索ワードの言語解析結果を、予め用語が登録された辞書データベースに照合し、その一致度に応じた検索スコアが算出される。検索処理に用いられる辞書データベースは、一般的には、公開された情報を活用した一般用語や専門用語を含む非ナレッジ用語(高度な専門用語であるナレッジ用語を除く用語)が登録された辞書データベースが用いられる。しかしながら、プラント運用に関する戦訓、ノウハウ、設計根拠のような情報は、特有なナレッジ用語を含むなど高度な専門性を有するため、このような非ナレッジ用語が登録された辞書データベースだけでは、真に技術的に価値のある情報を検索することが難しい。
【0006】
また高度な専門用語であるナレッジ用語を含む情報を検索対象とする場合においても、検察対象となるデータには様々な観点から有用な情報が含まれるため、ユーザにとって価値のある情報を効率的に検索することが求められる。
【0007】
本開示の少なくとも一実施形態は上述の事情に鑑みなされたものであり、ナレッジ用語を含む検索対象データから価値のある情報を効率的に検索可能な検索サーバ、検索システム、検索方法、及び、検索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本開示の少なくとも一実施形態に係る検索サーバは、上記課題を解決するために、
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースと、
検索対象データを検索するための検索ワードが入力される検索ワード入力部と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する検索スコア算出部と、
を備える。
【0009】
本開示の少なくとも一実施形態に係る検索システムは、上記課題を解決するために、
本開示の少なくとも一実施形態に係る検索サーバと、
前記検索対象データを記憶するクライアント端末と、
前記検索サーバ及び前記クライアント端末を接続する通信ネットワークと、
を備える。
【0010】
本開示の少なくとも一実施形態に係る検索方法は、上記課題を解決するために、
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースを用いて、検索対象データを検索するための検索方法であって、
前記検索対象データを検索するための検索ワードを入力する工程と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する工程と、
を備える。
【0011】
本開示の少なくとも一実施形態に係る検索プログラムは、上記課題を解決するために、
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースを用いて、検索対象データを検索するための検索プログラムであって、
コンピュータ装置を用いて、
前記検索対象データを検索するための検索ワードを入力する工程と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する工程と、
を実行可能である。
【発明の効果】
【0012】
本開示の少なくとも一実施形態によれば、ナレッジ用語を含む検索対象データから価値のある情報を効率的に検索可能な検索サーバ、検索システム、検索方法、及び、検索プログラムを提供できる。
【図面の簡単な説明】
【0013】
【
図1】一実施形態に係る検索システムの全体構成図である。
【
図2】他の実施形態に係る検索システムの全体構成図である。
【
図3】
図1の検索サーバの内部構成を示すブロック構成図である。
【
図4】一実施形態に係る検索方法を示すフローチャートである。
【
図5】
図4のステップS13~S16における検索スコアの具体的な算出例を示す説明図である。
【
図7】
図6のナレッジ用語辞書データベース作成部によるナレッジ用語辞書データベースの作成方法を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、添付図面を参照して本発明の幾つかの実施形態について説明する。ただし、実施形態として記載されている又は図面に示されている構成は、本発明の範囲をこれに限定する趣旨ではなく、単なる説明例にすぎない。
【0015】
図1は一実施形態に係る検索システム1の全体構成図である。検索システム1は、クライアント端末2と、検索対象データベース4と、検索サーバ6とを備える。これらの検索システム1の各構成要素は、互いに互いに通信ネットワーク8を介して通信可能に構成される。
【0016】
クライアント端末2は、検索システム1のユーザが操作可能な端末であり、例えば、デスクトップPCのような固定端末であってもよいし、ノート型PC、タブレット、スマートフォンのようなポータブル端末であってもよい。クライアント端末2は、検索ワードのような各種データを入力するための入力部2aと、検索結果のような各種データを出力するための出力部2bとを備える。
【0017】
検索対象データベース4は、検索システム1の検索対象となる検索対象データが蓄積されたデータベースである。検索対象データはクライアント端末2から入力される検索ワードに基づいて検索可能な文書データである。本実施形態では特に、検索対象データは、一般公開された一般用語や専門用語を含む非ナレッジ用語より高度な技術用語であるナレッジ用語を含む文書データを含んでおり、例えば発電プラントの運用に関する技術文書である。
【0018】
検索サーバ6は、検索対象データベース4に蓄積された検索対象データに対して後述の検索処理を実施するための構成である。検索処理は、クライアント端末2から入力される検索ワードに基づいて実施され、その検索結果はクライアント端末2に対して出力される。
【0019】
このように検索システム1を構成するクライアント端末2、検索対象データベース4及び検索サーバ6は、通信ネットワーク8を介して互いにアクセス可能である。
図1では、これらの検索システム1の各構成要素が一体的なシステムとして構成された場合を例示しているが、
図2に示すように、一部が地理的に離れた遠隔地に配置され、互いに通信ネットワーク8を介して通信可能になっていてもよい。
図2では、クライアント端末2が、検索対象データベース4及び検索サーバ6から地理的に離れた遠隔地に配置されており、通信ネットワーク8を介してアクセス可能なクラウドシステムとして構成されている。
【0020】
尚、通信ネットワーク8はインターネットのようなWANであってもよいし、社内ネットワークのようなLANであってもよい。
【0021】
続いて検索サーバ6の構成について詳しく説明する。検索サーバ6は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及びコンピュータ読み取り可能な記憶媒体等から構成されている。そして、各種機能を実現するための一連の処理は、一例として、プログラムの形式で記憶媒体等に記憶されており、このプログラムをCPUがRAM等に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。尚、プログラムは、ROMやその他の記憶媒体に予めインストールしておく形態や、コンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
【0022】
図3は
図1の検索サーバ6の内部構成を示すブロック構成図である。すなわち、検索サーバ6は、その機能を実現するために、検索ワード入力部10と、観点指定部12と、辞書データベース14と、検索スコア算出部16とを備える。
【0023】
検索ワード入力部10は、検索対象データを検索するための検索ワードが入力されるための構成である。検索ワードは、文字、数字又は記号の少なくとも1つを含むデータであり、クライアント端末2によって入力される。クライアント端末2が操作されることによって入力された検索ワードは、検索ワード入力部10に送られる。
【0024】
観点指定部12は、観点を指定するための構成である。観点は、ユーザにとって真に技術的に価値のある情報を指定するものであり、例えば、戦訓、ノウハウ、設計根拠である。例えば、観点はユーザがクライアント端末2を操作することによって指定することができ、当該指定された観点に関する情報は、観点指定部12に送られる。
【0025】
辞書データベース14は、検索処理によって、検索ワード入力部10に入力された入力データ、及び、観点指定部12によって指定された観点に対応する検索スコアSCを算出するための情報が登録された構成である。本実施形態では、辞書データベース14は、非ナレッジ用語である一般用語及び専門用語がそれぞれ登録された一般用語辞書データベース14a及び専門用語辞書データベース14b、並びに、ナレッジ用語が登録されたナレッジ用語辞書データベース14cを含む(一般用語辞書データベース14a及び専門用語辞書データベース14bは、非ナレッジ用語辞書データベースの一例である)。非ナレッジ用語は、公開された一般用語や専門用語を含む用語であり、ナレッジ用語は、ユーザにとって真に技術的に価値のある情報を抽出するのに用いられ、抽出する観点に対応する用語を含むものである。
【0026】
一般用語辞書データベース14aは、一般用語が登録された辞書データベースである。専門用語辞書データベース14bは、専門用語が登録された辞書データベースである。ナレッジ用語辞書データベース14cは、ナレッジ用語が登録された辞書データベースであり、各ナレッジ用語は、観点ごとに、対応するスコア値と関連付けて登録される。
【0027】
検索スコア算出部16は、検索ワード入力部10に入力された検索ワードの言語解析結果を、辞書データベース14に登録された各用語と比較することにより検索スコアSCを算出するための構成である。検索スコア算出部16による検索ワードの言語解析の手法は限定されないが、本実施形態では、一例として形態素解析によって言語解析する場合について説明する。辞書データベース14には、登録された各用語に対応する検索スコアの算出基準が設定されており、言語解析結果を辞書データベース14の登録内容と照合することにより、その一致度に応じて検索スコアSCを定量的に算出する。このように検索スコア算出部16によって算出された検索スコアSCは、検索サーバ6による検索結果として、クライアント端末2に対して出力される。
尚、検索スコアSCの詳細な算出方法については後述する。
【0028】
続いて上記構成を有する検索システム1によって実施される検索方法について説明する。
図4は一実施形態に係る検索方法を示すフローチャートであり、
図5は
図4のステップS13~S16における検索スコアSCの具体的な算出例を示す説明図である。
【0029】
まず検索サーバ6は、クライアント端末2から検索ワード入力部10に入力された検索ワードを取得し(ステップS10)し、当該検索ワードを言語解析する(ステップS11)。ステップS11で採用される言語解析手法は限定されないが、例えば形態素解析を用いることができる。
【0030】
続いて検索サーバ6は、クライアント端末2から観点指定部12に入力された観点を取得する(ステップS12)。ユーザはクライアント端末2を操作することで、自身の意図に対応する観点を選択することで、選択された観点が観点指定部12で指定される。
【0031】
続いて検索サーバ6の検索スコア算出部16は、辞書データベース14に含まれる一般用語辞書データベース14a、専門用語辞書データベース14b及びナレッジ用語辞書データベース14cをそれぞれ用いて検索スコアSCの算出を行う。具体的には、まず検索スコア算出部16は、辞書データベース14のうち一般用語辞書データベース14aを用いて第1検索スコアSC1を算出する(ステップS13)。ステップS13では、ステップS11の言語解析結果を、一般用語辞書データベース14aに登録された一般用語と比較し、その一致度に対応する第1検索スコアSC1が算出される。尚、ステップS13における一致度の算出方法、及び、一致度に対応する第1検索スコアSC1の算出方法については、公知の例に倣う(典型的には、一致度が高くなるにしたがって第1検索スコアSC1も高くなるように算出される)。
図5に示す例では、ステップS11で検索ワード「改良型加圧水型軽水炉」が形態素解析されることにより、「改良」「型」「加圧水」「型」「軽水炉」との言語解析結果が得られる。ステップS13では、検索対象データベース4に格納されている検索対象データ(第1資料、第2資料、第3資料、・・・)について、言語解析結果との一致度を評価し、その評価結果に応じて、第1資料には「10点」、第2資料には「20点」、第3資料には「20点」との第1検索スコアSC1が算出される。
【0032】
続いて検索スコア算出部16は、辞書データベース14のうち専門用語辞書データベース14bを用いて第2検索スコアSC2を算出する(ステップS14)。ステップS14では、ステップS11の言語解析結果を、専門用語辞書データベース14bに登録された専門用語と比較し、その一致度に対応する第2検索スコアSC2が算出される。尚、ステップS14における一致度の算出方法、及び、一致度に対応する第2検索スコアSC2の算出方法については、公知の例に倣う(典型的には、一致度が高くなるにしたがって第2検索スコアSC2も高くなるように算出される)。
図5に示す例では、ステップS11で検索ワード「改良型加圧水型軽水炉」が形態素解析されることにより、「改良型」「加圧水型軽水炉」との言語解析結果が得られる。ステップS14では、検索対象データベース4に格納されている検索対象データ(第1資料、第2資料、第3資料、・・・)について、言語解析結果との一致度を評価し、その評価結果に応じて、第1資料には「20点」、第2資料には「30点」、第3資料には「10点」との第2検索スコアSC2が算出される。
【0033】
続いて検索スコア算出部は、辞書データベース14のうちナレッジ用語辞書データベース14cを用いて第3検索スコアSC3を算出する(ステップS15)。ステップS15では、ステップS11の言語解析結果を、ナレッジ用語辞書データベース14cに登録された専門用語と比較し、その一致度に対応する第3検索スコアSC3が算出される。
図5に示す例では、ステップS11で検索ワード「改良型加圧水型軽水炉」が形態素解析されることにより、「改良型加圧水型軽水炉」との言語解析結果が得られる。ステップS15では、検索対象データベース4に格納されている検索対象データ(第1資料、第2資料、第3資料、・・・)について、言語解析結果との一致度を評価し、その評価結果に応じて、第1資料には「40点」、第2資料には「10点」、第3資料には「20点」との第3検索スコアSC3が算出される。
【0034】
ここで、ステップS15で実施される第3検索スコアSC3の算出は、観点ごとに設定される重み付け係数を用いて行われる。ナレッジ用語辞書データベース14cでは、重み付け係数は観点ごとに設定されており、ステップS12で指定された観点指定部12によって指定された観点に対応する重み付け係数を用いて、第3検索スコアSC3の算出が行われる。
図5では、幾つかの観点のうち観点Aが指摘されることで、観点Aに対応する重み付け係数を用いて第3検索スコアSC3が算出された場合が例示されているが、別の観点Bが指定された場合には、例えば、第1資料には「20点」、第2資料には「5点」、第3資料には「10点」のように、異なる第3検索スコアSC3が算出されることとなる。
【0035】
続いて、検索スコア算出部16は、ステップS13で算出された第1検索スコアSC1、ステップS14で算出された第2検索スコアSC2、及び、ステップS15で算出された第3検索スコアSC3に基づいて、最終的な検索スコアSCを算出する(ステップS16)。すなわち、ステップS16では、第1検索スコアSC1、第2検索スコアSC2及び第3検索スコアSC3を総合的に考慮することで最終的な検索スコアSCが算出される。
【0036】
図5に示す例では、第1検索スコアSC1、第2検索スコアSC2及び第3検索スコアSC3が加算されることで、最終的な検索スコアSCが算出される(すなわち、SC=SC1+SC2+SC3)。本実施形態では、資料1については、第1検索スコアSC1「10点」、第2検索スコアSC2「20点」、第3検索スコアSC3「40点」の和として、最終的な検索スコアSC「70点」が算出される。また資料2については、第1検索スコアSC1「20点」、第2検索スコアSC2「30点」、第3検索スコアSC3「10点」の和として、最終的な検索スコアSC「60点」が算出される。また資料3については、第1検索スコアSC1「20点」、第2検索スコアSC2「10点」、第3検索スコアSC3「20点」の和として、最終的な検索スコアSC「50点」が算出される。
【0037】
尚、他の例では、最終的な検索スコアSCは、第1検索スコアSC1及び第2検索スコアSC2を加算したものを、第3検索スコアSC3によって補正することにより、算出されてもよい。この場合、単純に第3スコアSC3を加算するのに比べ、第3検索スコアSC3の最終的な検索スコアSCに対する寄与を調整し、観点に応じた検索結果の出やすさを調整することが可能となる点において有利である。
【0038】
このように検索スコア算出部16によって算出された検索スコアSCは、検索結果として、クライアント端末2に出力される(ステップS17)。クライアント端末2における検索結果の取り扱いは限定されないが、例えば、各資料における検索スコアSCが対比可能な態様で表示したり、検索スコアSCが高い資料が優先的に検索結果として表示されてもよい。このような検索結果として扱われる検索スコアSCは、特にクライアント端末2を操作するユーザが指定する観点に応じた第3検索スコアSC3に基づいて算出されることで、ユーザの意図が反映された検索結果となる。
【0039】
図6は
図3の変形例であり、
図7は
図6のナレッジ用語辞書データベース作成部18によるナレッジ用語辞書データベース14cの作成方法を示すフローチャートである。
【0040】
図6に示すように、検索サーバ6は辞書データベース14のうちナレッジ用語辞書データベース14cを作成するためのナレッジ用語辞書データベース作成部18を更に備えてもよい。ナレッジ用語辞書データベース作成部18は、
図7に示す作成方法を実施するために、テキスト抽出部18a、言語解析部18b、出現頻度算出部18cと、重み付け係数算出部18dと、登録部18eとを備える。
【0041】
このような構成を有するナレッジ用語辞書データベース作成部18は、
図7に示すように、まずナレッジ用語と関連付けて設定される観点を設定する(ステップS20)。ステップS20で設定される観点は、ユーザが検索する際に意図することが想定される少なくとも1つの観点から選定される。
【0042】
続いて、例えばサンプルとなる文書データを含む学習用データを用意し(ステップS21)、テキスト抽出部18aは、当該学習用データを解析することによりテキストを抽出する(ステップS22)。ステップS22におけるテキストの抽出は、様々な態様のデータ(例えばOfficeファイルやPDFデータ等)を含む学習用データから処理対象となるテキスト情報のみを抽出するように行われる。
【0043】
そして、言語解析部18bは、ステップS22で抽出したテキストに対して言語解析を実施することにより、ナレッジ用語を特定する(ステップS23)。ステップS23におけるナレッジ用語の特定は、例えば、重み付けがされていないナレッジ用語辞書データベースに基づいて行われる。この重み付けがされていないナレッジ用語辞書データベースは、専門用語辞書を流用あるいは、予め人手で整理した語句リストを用いることにより作成される。ステップS23の言語解析は例えば形態素解析である。この場合、重み付けがされていないナレッジ用語辞書データベースを用いて形態素解析を行い、ステップS22で抽出されたテキストは当該辞書データベースに含まれる語句で分割した(分かち書きした)テキスト情報に変換される。
【0044】
そして、出現頻度算出部18cは、ステップS23で特定されたナレッジ用語がステップS22で抽出されたテキストにどの程度の頻度で出現するかを示す第1出現頻度を算出する(ステップS24)。ステップS24では、ステップS23の言語解析で辞書データベースに含まれる語句で分割した(分かち書きした)テキスト情報から、語句の第1出現頻度が算出される。
【0045】
続いてナレッジ用語辞書データベース作成部18は検索対象データベース4に蓄積された検索対象データを用意し(ステップS25)、テキスト抽出部18aは、当該検索対象データを解析することによりテキストを抽出する(ステップS26)。そして、言語解析部18bは、ステップS27で抽出したテキストに対して言語解析を実施することにより、ナレッジ用語を特定する(ステップS27)。ステップS27におけるナレッジ用語の特定は、例えば、重み付けがされていないナレッジ用語辞書データベースに基づいて行われる。この重み付けがされていないナレッジ用語辞書データベースは、専門用語辞書を流用あるいは、予め人手で整理した語句リストを用いることにより作成される。ステップS27の言語解析は例えば形態素解析である。この場合、重み付けがされていないナレッジ用語辞書データベースを用いて形態素解析を行い、ステップS26で抽出されたテキストは当該辞書データベースに含まれる語句で分割した(分かち書きした)テキスト情報に変換される。
【0046】
そして、出現頻度算出部18cは、ステップS27で特定されたナレッジ用語がステップS26で抽出されたテキストにどの程度の頻度で出現するかを示す第2出現頻度を算出する(ステップS28)。ステップS28では、ステップS27の言語解析で辞書データベースに含まれる語句で分割した(分かち書きした)テキスト情報から、語句の第2出現頻度が算出される。
【0047】
続いて重み付け係数算出部18dは、ステップS25で算出された第1出現頻度、及び、ステップS30で算出された第2出現頻度に基づいて、ステップS20で設定された観点における相対的な出現頻度を重み付け係数として算出する(ステップS29)。ステップS29で算出される重み付け係数として、例えば、語句出現頻度-逆文書頻度(TF-IDF:Term Frequency-Inversed Document Frequency)という公知の計算指標を用いてもよい。
【0048】
続いて登録部18eは、ステップS29で算出された重み付け係数を、ステップS20で設定した観点と関連付けて、ナレッジ用語辞書データベース14cに登録する(ステップS30)。そしてナレッジ用語辞書データベース作成部18は、他の観点がないか否かを判定し(ステップS31)。他の観点がある場合(ステップS31:NO)、処理をステップS20に戻すことにより、上記処理が繰り返し実施される。一方、他の観点がない場合(ステップS31:YES)、一連の処理を終了する。このようにして、各観点について重み付け係数が設定されたナレッジ用語辞書データベース14cを作成することができる。
【0049】
以上説明したように上記実施形態によれば、ナレッジ用語を含む検索対象データから価値のある情報を効率的に検索可能な検索サーバ、検索システム、検索方法、及び、検索プログラムを提供できる。
【0050】
その他、本開示の趣旨を逸脱しない範囲で、上記した実施形態における構成要素を周知の構成要素に置き換えることは適宜可能であり、また、上記した実施形態を適宜組み合わせてもよい。
【0051】
上記各実施形態に記載の内容は、例えば以下のように把握される。
【0052】
(1)一態様に係る検索サーバは、
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースと、
検索対象データを検索するための検索ワードが入力される検索ワード入力部と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する検索スコア算出部と、
を備える。
【0053】
上記(1)の態様によれば、入力された検索ワードに対応する検索結果が、辞書データベースに登録された用語に基づいて算出される検索スコアとして求められる。辞書データベースには、公開された一般用語や専門用語を含む非ナレッジ用語が登録された非ナレッジ用語辞書データベースに加えて、ナレッジ用語が観点ごとに登録されたナレッジ用語辞書データベースが含まれる。ユーザは、検索の目的等の意図に基づいて観点を指定することにより、指定された観点に対応するナレッジ用語辞書データベースを用いた検索スコアの算出が行われる。これにより、高度なナレッジ用語が取り扱われる検索対象データから、ユーザの意図に基づいた検索結果を効率的に得ることができる。
【0054】
(2)他の態様では、上記(1)の態様において、
前記検索スコア算出部は、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースに設定された重み付け係数を用いて、前記検索スコアを算出する。
【0055】
上記(2)の態様によれば、ナレッジ用語辞書データベースには観点ごとに重み付け係数が設定される。ユーザによって所定の観点が指定されると、当該観点に対応するナレッジ用語辞書データベースに設定された重み付け係数を用いて検索スコアの算出が行われる。これにより、所定の観点から検索するユーザが意図する検索結果を得るための検索スコアを効果的に算出できる。
【0056】
(3)他の態様では、上記(1)又は(2)の態様において、
前記観点ごとに前記重み付け係数が設定された前記ナレッジ用語辞書データベースを生成するためのナレッジ用語辞書データベース生成部を更に備える。
【0057】
上記(3)の態様によれば、ナレッジ用語辞書データベース生成部を備えることにより、公開された一般用語や専門用語が登録された辞書データベースでは対応が難しいナレッジ用語を含む検索対象を効果的に検索するための、ナレッジ用語に対応するナレッジ用語辞書データベースを得ることができる。
【0058】
(4)他の態様では、上記(3)の態様において、
前記ナレッジ用語辞書データベース生成部は、
前記観点に対応する学習用データについて、前記ナレッジ用語の第1出現頻度を算出するとともに、前記検索対象データについて、前記ナレッジ用語の第2出現頻度を算出する出現頻度算出部と、
前記第1出現頻度及び前記第2出現頻度に基づいて、前記ナレッジ用語辞書データベースにおける前記重み付け係数を前記観点ごとに算出する重み付け係数算出部と、
を備える。
【0059】
上記(4)の態様によれば、予め登録したナレッジ用語について、学習用データ及び検索対象データの各々において観点毎の出現頻度に基づいて、ナレッジ用語辞書データベースに設定される重み付け係数を効果的に算出できる。
【0060】
(5)他の態様では、上記(1)から(4)のいずれか一態様において、
前記検索スコアは、前記非ナレッジ用語辞書データベースに対応する非ナレッジ用語検索スコア、及び、前記ナレッジ用語辞書データベースに対応するナレッジ用語検索スコアが加算されることにより算出される。
【0061】
上記(5)の態様によれば、非ナレッジ用語辞書データベースを用いて算出された非ナレッジ用語検索スコアと、ナレッジ用語辞書データベースを用いて算出されたナレッジ用語検索スコアとを加算することで、所定の観点から検索するユーザが意図する検索結果を得るための検索スコアを効果的に算出できる。
【0062】
(6)他の態様では、上記(1)から(4)のいずれか一態様において、
前記検索スコアは、前記非ナレッジ用語辞書データベースに対応する非ナレッジ用語検索スコアを、前記ナレッジ用語辞書データベースに対応するナレッジ用語検索スコアによって補正されることにより算出される。
【0063】
上記(6)の態様によれば、非ナレッジ用語辞書データベースを用いて算出された非ナレッジ用語検索スコアを、ナレッジ用語辞書データベースを用いて算出されたナレッジ用語検索スコアによって補正されることで、所定の観点から検索するユーザが意図する検索結果を得るための検索スコアを効果的に算出できる。
【0064】
(7)他の態様では、上記(1)から(6)のいずれか一態様において、
前記言語解析結果は、前記検索ワードを形態素解析することにより得られる。
【0065】
上記(7)の態様によれば、検索ワードを形態素解析した結果に基づいて検索スコアを効果的に算出できる。
【0066】
(8)一態様に係る検索システムは、
上記(1)から(7)のいずれか一態様に係る検索サーバと、
前記検索ワードを入力するためのクライアント端末と、
前記検索サーバ及び前記クライアント端末を接続する通信ネットワークと、
を備える。
【0067】
上記(8)の態様によれば、検索サーバに通信ネットワークを介して接続されたクライアント端末から検索ワードを入力することで、検索サーバから地理的に離れたクライアント端末のユーザが、上記構成を有する検索サーバを利用できる。
【0068】
(9)一態様に係る検索方法は、
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースを用いて、検索対象データを検索するための検索方法であって、
前記検索対象データを検索するための検索ワードを入力する工程と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する工程と、
を備える。
【0069】
上記(9)の態様によれば、入力された検索ワードに対応する検索結果が、辞書データベースに登録された用語に基づいて算出される検索スコアとして求められる。辞書データベースには、公開された一般用語や専門用語を含む非ナレッジ用語が登録された非ナレッジ用語辞書データベースに加えて、ナレッジ用語が観点ごとに登録されたナレッジ用語辞書データベースが含まれる。ユーザは、検索の目的等の意図に基づいて観点を指定することにより、指定された観点に対応するナレッジ用語辞書データベースを用いた検索スコアの算出が行われる。これにより、高度なナレッジ用語が取り扱われる検索対象データから、ユーザの意図に基づいた検索結果を効率的に得ることができる。
【0070】
(10)一態様に係る検索プログラムは、
非ナレッジ用語が登録された非ナレッジ用語辞書データベース、及び、複数の観点に対応するナレッジ用語がそれぞれ登録されたナレッジ用語辞書データベースを含む辞書データベースを用いて、検索対象データを検索するための検索プログラムであって、
コンピュータ装置を用いて、
前記検索対象データを検索するための検索ワードを入力する工程と、
前記観点を指定するための観点指定部と、
前記検索ワード入力部に入力された前記検索ワードの言語解析結果を、前記非ナレッジ用語辞書データベース、及び、前記観点指定部で指定された前記観点に対応する前記ナレッジ用語辞書データベースと比較することにより検索スコアを算出する工程と、
を実行可能である。
【0071】
上記(10)の態様によれば、入力された検索ワードに対応する検索結果が、辞書データベースに登録された用語に基づいて算出される検索スコアとして求められる。辞書データベースには、公開された一般用語や専門用語を含む非ナレッジ用語が登録された非ナレッジ用語辞書データベースに加えて、ナレッジ用語が観点ごとに登録されたナレッジ用語辞書データベースが含まれる。ユーザは、検索の目的等の意図に基づいて観点を指定することにより、指定された観点に対応するナレッジ用語辞書データベースを用いた検索スコアの算出が行われる。これにより、高度なナレッジ用語が取り扱われる検索対象データから、ユーザの意図に基づいた検索結果を効率的に得ることができる。
【符号の説明】
【0072】
1 検索システム
2 クライアント端末
2a 入力部
2b 出力部
4 検索対象データベース
6 検索サーバ
8 通信ネットワーク
10 検索ワード入力部
12 観点指定部
14 辞書データベース
14a 一般用語辞書データベース
14b 専門用語辞書データベース
14c ナレッジ用語辞書データベース
16 検索スコア算出部
18 ナレッジ用語辞書データベース作成部
18a テキスト抽出部
18b 言語解析部
18c 出現頻度算出部
18d 重み付け係数算出部
18e 登録部