(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-29
(45)【発行日】2024-02-06
(54)【発明の名称】データ検索装置、データ検索方法およびプログラム
(51)【国際特許分類】
G06F 16/24 20190101AFI20240130BHJP
G06F 16/35 20190101ALI20240130BHJP
G06F 16/383 20190101ALI20240130BHJP
【FI】
G06F16/24
G06F16/35
G06F16/383
(21)【出願番号】P 2020051700
(22)【出願日】2020-03-23
【審査請求日】2023-01-16
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】川村 晋太郎
(72)【発明者】
【氏名】篠宮 聖彦
(72)【発明者】
【氏名】金崎 克己
(72)【発明者】
【氏名】内藤 昭一
(72)【発明者】
【氏名】勇 嘉偉
【審査官】和田 財太
(56)【参考文献】
【文献】特開2013-182289(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00
(57)【特許請求の範囲】
【請求項1】
情報の要求を示すテキストを取得する情報要求取得部と、
前記テキストに基づいて生成された
、複数の第1検索キーワードおよび複数の第2検索キーワード
のいずれかの組み合わせごとに、記憶部に格納された複数のテキストデータを対象とした、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数に基づく情報を出力する出力部と、を備える、
データ検索装置。
【請求項2】
前記テキストを解析して、要求される前記情報の内容を示す第1要素と第2要素とを抽出し、前記第1要素を示す複数の第1検索キーワードと、前記第2要素を示す複数の第2検索キーワードと、を生成する情報要求解析部と、
前記複数の第1検索キーワードのいずれかと、前記複数の第2検索キーワードのいずれかの組み合わせごとに、記憶部に格納された複数のテキストデータを対象として、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数を算出する検索部と、をさらに備え、
前記出力部は、前記検索部によって算出された前記件数に基づく情報を出力する、
請求項1に記載のデータ検索装置。
【請求項3】
前記情報要求解析部は、前記テキストに含まれる複数の要素の関係性を解析することによって、前記第1要素と前記第2要素とを抽出し、
前記出力部は、解析された前記関係性を示す情報を出力する、
請求項2に記載のデータ検索装置。
【請求項4】
前記情報要求解析部は、前記第1要素を含む第1基準語と、前記第2要素を含む第2基準語と、を前記テキストから抽出し、抽出された前記第1基準語と、前記第2基準語と、に基づいて、それぞれの換言表現となる第1拡張語と第2拡張語とを生成し、前記第1基準語および前記第1拡張語のいずれかを前記複数の第1検索キーワードとし、前記第2基準語および前記第2拡張語のいずれかを前記複数の第2検索キーワードとする、
請求項2または3に記載のデータ検索装置。
【請求項5】
前記出力部は、前記件数に基づく濃度または色を示す表示情報を出力する、
請求項2から4のいずれか1項に記載のデータ検索装置。
【請求項6】
前記検索部は、前記複数の第1検索キーワードと前記複数の第2検索キーワードとの組み合わせごとの共起度を算出し、
前記出力部は、算出された前記共起度に基づく情報を出力する、
請求項2から4のいずれか1項に記載のデータ検索装置。
【請求項7】
前記出力部は、前記件数の順に、前記複数の第1検索キーワードおよび前記複数の第2検索キーワードを行または列のラベルとして並べた表形式の表示情報を出力する、
請求項2から6のいずれか1項に記載のデータ検索装置。
【請求項8】
前記情報要求解析部は、前記複数の第1検索キーワードおよび前記複数の第2検索キーワードのそれぞれの類似度を算出し、
前記出力部は、前記類似度の順に、前記複数の第1検索キーワードおよび前記複数の第2検索キーワードを行または列のラベルとして並べた表形式の表示情報を出力する、
請求項2から6のいずれか1項に記載のデータ検索装置。
【請求項9】
前記検索部は、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの妥当性を示す順位を算出し、
前記出力部は、前記順位ごとの前記テキストデータの件数の分布を示す情報を出力する、
請求項2から8のいずれか1項に記載のデータ検索装置。
【請求項10】
前記出力部に表示された前記第1検索キーワード、前記第2検索キーワードまたは前記第1検索キーワードと前記第2検索キーワードの組み合わせの指定を受けて、前記第1検索キーワード、前記第2検索キーワードまたは前記第1検索キーワードと前記第2検索キーワードの組み合わせを追加、変更または削除する検索キーワード調整部をさらに備え、
前記検索部は、前記第1検索キーワードのいずれかと、前記第2検索キーワードのいずれかと、をともに含むテキストデータを、前記記憶部から検索する、
請求項2から9のいずれか1項に記載のデータ検索装置。
【請求項11】
コンピュータが、
情報の要求を示すテキストを取得し、
前記テキストに基づいて生成された、複数の第1検索キーワードおよび複数の第2検索キーワードのいずれかの組み合わせごとに、記憶部に格納された複数のテキストデータを対象とした、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数に基づく情報を出力する、
データ検索方法。
【請求項12】
コンピュータが、
情報の要求を示すテキストを取得し、
前記テキストを解析して、要求される前記情報の内容を示す第1要素と第2要素とを抽出し、前記第1要素を示す複数の第1検索キーワードと、前記第2要素を示す複数の第2検索キーワードと、を生成し、
前記複数の第1検索キーワードのいずれかと、前記複数の第2検索キーワードのいずれかの組み合わせごとに、記憶部に格納された複数のテキストデータを対象として、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数を算出し、
前記複数の第1検索キーワードと前記複数の第2検索キーワードとの組み合わせごとの前記件数に基づく情報を出力する、
データ検索方法。
【請求項13】
コンピュータに、
情報の要求を示すテキストを取得するステップと、
前記テキストに基づいて生成された、複数の第1検索キーワードおよび複数の第2検索キーワードのいずれかの組み合わせごとに、記憶部に格納された複数のテキストデータを対象とした、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数に基づく情報を出力するステップと、
を実行させるためのプログラム。
【請求項14】
コンピュータに、
情報の要求を示すテキストを取得するステップと、
前記テキストを解析して、要求される前記情報の内容を示す第1要素と第2要素とを抽出し、前記第1要素を示す複数の第1検索キーワードと、前記第2要素を示す複数の第2検索キーワードと、を生成するステップと、
前記複数の第1検索キーワードのいずれかと、前記複数の第2検索キーワードのいずれかの組み合わせごとに、記憶部に格納された複数のテキストデータを対象として、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数を算出するステップと、
前記複数の第1検索キーワードと前記複数の第2検索キーワードとの組み合わせごとの前記件数に基づく情報を出力するステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ検索装置、データ検索方法およびプログラムに関する。
【背景技術】
【0002】
従来から、検索キーワードを含む情報の抽出方法には、キーワードインデックスによる方法や全文検索による方法がある。例えば、ユーザの情報要求に応じた検索キーワードを追加して、検索性能を向上させる方法が知られている。
【0003】
また、検索結果の多くの情報の中からさらに所望の情報を検索する場合、検索結果の情報の傾向を把握し、多くの視点から情報を絞り込むことを目的として、検索結果の情報を分類し、可視化することによって、検索を支援する技術が既に知られている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した従来の技術では、検索プロセスの途中でユーザが検索意図を別途指定する必要があった。したがって、ユーザの情報要求を元にした検索処理の精度向上には直接寄与していないという問題があった。また、検索プロセスの妥当性を確認することができないという問題があった。
【0005】
開示の技術は、ユーザによる情報検索の要求に基づく検索プロセスの妥当性の確認を実現させることを目的とする。
【課題を解決するための手段】
【0006】
開示の技術は、情報の要求を示すテキストを取得する情報要求取得部と、前記テキストに基づいて生成された、複数の第1検索キーワードおよび複数の第2検索キーワードのいずれかの組み合わせごとに、記憶部に格納された複数のテキストデータを対象とした、前記組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数に基づく情報を出力する出力部と、を備えるデータ検索装置である。
【発明の効果】
【0007】
ユーザによる情報検索の要求に基づく検索プロセスの妥当性の確認を実現させることができる。
【図面の簡単な説明】
【0008】
【
図1】第一の実施形態に係るデータ検索装置の機能の一例を示す図である。
【
図2】データ検索装置のハードウェア構成の一例を示す図である。
【
図3】表出力処理の処理フローの一例を示す図である。
【
図7】第二の実施形態に係るデータ検索装置の機能の一例を示す図である。
【
図8】第二の実施形態に係る検索キーワード調整処理の処理フローの一例を示す図である。
【発明を実施するための形態】
【0009】
(第一の実施形態)
以下に、図面を参照して、本発明の実施の形態について説明する。
【0010】
図1は、第一の実施形態に係るデータ検索装置の機能の一例を示す図である。
【0011】
データ検索装置100は、記憶部101と、情報要求取得部102と、情報要求解析部103と、検索部106と、検索結果表示部107と、を備える。
【0012】
記憶部101は、複数のテキストデータを記憶する。各テキストデータは、文書、文献等のひとまとまりのテキストを含むデータであって、検索の対象となるデータである。テキストデータの単位はあらかじめ設定されていれば良く、例えば、データベースの1レコードを1つのテキストデータとしても良い。また、記憶部101は、後述する各種処理のために必要な各種情報を記憶する。
【0013】
情報要求取得部102は、ユーザによる情報の要求を示すテキスト(以下、情報要求テキストという)を取得する。具体的には、情報要求取得部102は、ユーザの操作を受けて入力された文、フレーズ等のテキストを取得する。例えば、情報要求テキストの一例は、「シャフトが破損してしまった」というテキストである。
【0014】
情報要求解析部103は、情報要求テキストを解析する。具体的には、情報要求解析部103は、関係抽出部104と、検索キーワード生成部105と、を有する。
【0015】
関係抽出部104は、情報要求テキストに含まれる複数の要素の関係性を解析する。具体的には、関係抽出部104は、情報要求テキストを対象として、自然言語処理における係り受け解析等を実行する。そして、関係抽出部104は、要求される情報の内容を示す第1要素と第2要素とを抽出する。
【0016】
例えば、関係抽出部104は、「シャフトが破損してしまった」という情報要求テキストから、「○○が○○する」という箇所(第1要素)と現象(第2要素)とを抽出する。
【0017】
検索キーワード生成部105は、抽出された第1要素を示す複数の第1検索キーワードと、第2要素を示す複数の第2検索キーワードと、を生成する。具体的には、検索キーワード生成部105は、第1要素を示す第1基準語と、第2要素を示す第2基準語と、を情報要求テキストから抽出する。
【0018】
例えば、検索キーワード生成部105は、箇所を示すテキスト「シャフト」を第1基準語、現象を示すテキスト「破損」を第2基準語として、それぞれ情報要求テキストから抽出する。
【0019】
さらに、検索キーワード生成部105は、第1基準語と第2基準語のそれぞれの換言表現となる第1拡張語と第2拡張語とを生成する。
【0020】
例えば、検索キーワード生成部105は、「シャフト」という第1基準語の換言表現となる第1拡張語として「心木」、「心棒」、「軸木」、「回転軸」および「車軸」を生成し、「破損」という第2基準語の換言表現となる第2拡張語として「変形」、「破壊」、「欠損」、「折損」および「汚損」を生成する。
【0021】
なお、検索キーワード生成部105は、第1基準語および第1拡張語のいずれかを複数の第1検索キーワードとし、第2基準語および第2拡張語のいずれかを複数の第2検索キーワードとする。
【0022】
検索部106は、生成された複数の第1検索キーワードおよび複数の第2検索キーワードのいずれかを含むテキストデータを、記憶部101から検索する。また、検索部106は、検索されたテキストデータを対象として、複数の第1検索キーワードのいずれかと、複数の第2検索キーワードのいずれかと、を含む組み合わせごとに、組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数を示す情報を取得する。
【0023】
例えば、検索部106は、第1検索キーワードである「シャフト」、「心木」、「心棒」、「軸木」、「回転軸」および「車軸」と、第2検索キーワードである「破損」、「変形」、「破壊」、「欠損」、「折損」および「汚損」と、のいずれかを含むテキストデータを記憶部101から検索する。
【0024】
また、検索部106は、検索されたテキストデータを対象として、第1検索キーワード「シャフト」と第2検索キーワード「破損」を組み合わせとして、「シャフト」および「破損」をともに含むテキストデータの件数を算出する。
【0025】
なお、検索部106は、記憶部101に格納されたすべてのテキストデータを対象として、テキストデータの件数を算出しても良い。例えば、検索部106は、記憶部101に格納されたテキストデータの総件数に基づく計算コストを検索方法ごとに算出し、算出された計算コストの低い検索方法を選択しても良い。
【0026】
表生成部108は、検索部106が算出した件数に基づく情報を示す表を生成する。具体的には、表生成部108が生成する表の行ラベルは第1検索キーワードであり、列ラベルは第2検索キーワードである。そして、表の各セルの一例は、件数に基づく濃度または色である。また、表の各セルの別の一例は、共起度に基づく情報や、テキストデータの妥当性を示す情報等である。これらの表の詳細は後述する。
【0027】
出力部109は、表生成部108が生成した表を出力する。具体的には、出力部109は、生成された表をディスプレイに表示するか、または外部の装置に表を示すデータを送信する。
【0028】
図2は、データ検索装置のハードウェア構成の一例を示す図である。
【0029】
本実施形態のデータ検索装置100は、コンピュータによって構成され、
図2に示すように、それぞれバスBで相互に接続されている入力装置11、出力装置12、ドライブ装置13、補助記憶装置14、メモリ装置15、演算処理装置16及びインターフェース装置17を含む情報処理装置である。
【0030】
入力装置11は、各種の情報を入力する装置であり、例えばキーボードやポインティングデバイス等である。出力装置12は、各種の情報を出力する装置であり、例えばディスプレイ等である。インターフェース装置17は、LANカード等を含み、ネットワークに接続するための中継装置である。
【0031】
プログラムは、データ検索装置100を制御する各種プログラムの少なくとも一部である。プログラムは、例えば記憶媒体18の配布やネットワークからのダウンロード等によって提供される。プログラムを記録した記憶媒体18としては、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。
【0032】
また、プログラムは、プログラムを記録した記憶媒体18がドライブ装置13にセットされると、記憶媒体18からドライブ装置13を介して補助記憶装置14にインストールされる。ネットワークからダウンロードされたプログラムは、インターフェース装置17を介して補助記憶装置14にインストールされる。
【0033】
補助記憶装置14は、インストールされたプログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置15は、データ検索装置100の起動時に補助記憶装置14からプログラムを読み出して格納する。そして、演算処理装置16は、メモリ装置15に格納されたプログラムに従って、後述するような各種処理を実行する。
【0034】
次に、データ検索装置100の動作について、図面を参照して説明する。
【0035】
図3は、表出力処理の処理フローの一例を示す図である。
【0036】
データ検索装置100は、ユーザの操作を受けて、
図3に示される表出力処理を開始する。データ検索装置100が表出力処理を開始すると、情報要求取得部102は、情報要求テキストを取得する(ステップS101)。具体的には、情報要求取得部102は、入力装置11を介して入力された文、フレーズ等のテキストを取得する。
【0037】
情報要求テキストが文である例は、「シャフトが破損してしまった。」というテキストである。情報要求テキストがフレーズである例は、「破損しにくい丈夫なシャフト」というテキストである。
【0038】
このように、情報要求テキストは、ユーザが得たい情報の内容を示すテキストである。なお、情報要求テキストは、「シャフト、破損」といった複数の単語の単なる羅列であっても良い。
【0039】
次に、関係抽出部104は、情報要求テキストに含まれる複数の要素の関係性を解析する(ステップS102)。具体的には、関係抽出部104は、情報要求テキストを対象として、自然言語処理における係り受け解析等を実行する。
【0040】
例えば、(a)主体「AがBする」、(b)対象「AをBする」、(c)目的「AのためにBする」、(d)手段「AによってBする」、(e)場所、(f)時間、(g)属性「AのB」、(h)行先(受領者)「AへBする」、(i)行為別分類「Bする」等の関係が、係り受け解析によって得られる(特許文献1参照)。
【0041】
そして、関係抽出部104は、解析された関係性に基づいて、要求される情報の内容を示す複数の要素を抽出する。例えば、関係抽出部104は、「シャフトが破損してしまった。」という情報要求テキストから、「○○が○○する」という箇所(第1要素)と現象(第2要素)とを抽出する。
【0042】
次に、検索キーワード生成部105は、複数の基準語を抽出する(ステップS103)。具体的には、検索キーワード生成部105は、第1要素を示す第1基準語と、第2要素を示す第2基準語と、を情報要求テキストから抽出する。
【0043】
例えば、検索キーワード生成部105は、第1要素である「箇所」を示す第1基準語として、例えば主格を示す助詞の存在を手掛かりとして、情報要求テキストから「シャフト」を抽出する。また、検索キーワード生成部105は、第2要素である「現象」を示す第2基準語として、事態性名詞(サ変名詞)という品詞の特徴に基づいて、情報要求テキストから「破損」を抽出する。
【0044】
次に、検索キーワード生成部105は、各基準語に対応する拡張語を生成する(ステップS104)。具体的には、検索キーワード生成部105は、第1基準語と第2基準語のそれぞれの換言表現となる第1拡張語と第2拡張語とを生成する。
【0045】
換言表現とは、言い換えによっても意味が成り立つ表現であって、同義語、類義語、上位または下位概念等である。拡張語の生成方法は、どのような方法であっても良い。例えば、検索キーワード生成部105は、記憶部101に格納された複数のテキストデータを統計的処理によって解析して、拡張語を生成しても良い。
【0046】
あるいは、記憶部101にシソーラス等を格納しておき、検索キーワード生成部105がシソーラス等を参照して拡張語を生成しても良い。
【0047】
また、検索キーワード生成部105は、基本語と、対応する各拡張語と、の類似度を算出する。具体的には、記憶部101には、単語の分散表現を示すデータが格納されていて、検索キーワード生成部105は、単語の分散表現に基づいて、基本語と、対応する各拡張語と、の類似度を算出する。
【0048】
単語の分散表現を示すデータは、単語の頻度ベクトルまたは分布仮説等に基づいて、あらかじめ生成しておく。単語の頻度ベクトルまたは分布仮説等を示すデータは、一般的な単語について生成されたデータであっても良いし、記憶部101に格納されたテキストデータを解析して生成されたデータであっても良い。
【0049】
なお、類似度の算出と拡張語の生成はどちらが先でも良い。具体的には、検索キーワード生成部105は、基本語に類似する複数の拡張語の候補となる単語について類似度を算出し、算出された類似度に基づいて、拡張語を決定しても良い。例えば、検索キーワード生成部105は、類似度があらかじめ設定された閾値以上の単語を拡張語としても良い。
【0050】
検索キーワード生成部105は、生成された第1基準語および第1拡張語のいずれかを第1検索キーワードとし、生成された第2基準語および第2拡張語のいずれかを第2検索キーワードとする。
【0051】
次に、検索部106は、記憶部101に格納された複数のテキストデータから、基準語および拡張語に基づいてデータを検索する(ステップS105)。具体的には、検索部106は、第1検索キーワードのいずれかと、第2検索キーワードのいずれかと、をともに含むテキストデータを、記憶部101から検索する。
【0052】
例えば、第1検索キーワードを(A1,A2,・・・)および第2検索キーワードを(B1,B2,・・・)とすると、RDB(Relational Database)のSQL文で表現される検索条件は、(A1 OR A2 OR ・・・) AND (B1 OR B2 OR ・・・)となる。
【0053】
次に、表生成部108は、生成する表の行ラベルおよび列ラベルを設定する(ステップS106)。具体的には、表生成部108は、第1検索キーワードを行ラベルに設定し、第2検索キーワードを列ラベルに設定する。なお、表生成部108は、ステップS104で算出された類似度の順に、複数の第1検索キーワードおよび複数の第2検索キーワードを行または列のラベルとして並べた表を生成する。
【0054】
また、表生成部108は、第1基準語および第2基準語を、それぞれ行ラベルおよび列ラベルに設定しても良い。さらに、表生成部108は、関係抽出部104によって抽出された第1要素および第2要素を示すテキストを、それぞれ行ラベルおよび列ラベルに設定しても良い。
【0055】
なお、データ検索装置100は、上述したステップS105とステップS106のどちらの処理を先に実行しても良い。
【0056】
次に、表生成部108は、表を生成する(ステップS107)。そして、出力部109は、生成された表を出力する(ステップS108)。
【0057】
一例として、表生成部108は、行ラベルおよび列ラベルを設定された表に、データ件数に基づく情報が含まれるデータ件数表を生成する。
【0058】
【0059】
図4に示されるデータ件数表201の各セルの濃度は、各セルに対応する第1検索キーワードおよび第2検索キーワードがともに含まれるテキストデータの件数に基づいて設定され、件数が多いほど濃くなっている。なお、濃度ではなく色の違いによって件数を表しても良い。
【0060】
データ件数表201の各セルの濃度または色を決定するために、検索部106は、検索されたテキストデータを対象として、表の各セルに対応するテキストデータの件数を算出する。具体的には、検索部106は、複数の第1検索キーワードのいずれかと、複数の第2検索キーワードのいずれかの組み合わせごとに、組み合わせに含まれる第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの件数を算出する。
【0061】
なお、検索部106は、ステップS105の検索処理を省略し、記憶部101に格納されたすべてのテキストデータを対象として、テキストデータの件数を算出しても良い。また、検索部106は、記憶部101に格納されたテキストデータの総件数に基づく計算コストを検索方法ごとに算出し、算出された計算コストの低い検索方法を選択しても良い。
【0062】
例えば、検索部106は、「シャフト」と「破損」とをともに含むテキストデータの件数を算出する。そして、表生成部108は、行ラベル「シャフト」と列ラベル「破損」とによって示されるセルを、算出された件数に基づく濃度または色のセルとするデータ件数表201を生成する。
【0063】
上述した濃度および色は、テキストデータの件数に基づく表示情報の一例である。表生成部108が生成する表に含まれる表示情報は、濃度および色に限らず、テキストデータの件数を認識できるものであれば、他でも良い。
【0064】
ユーザは、
図4に示されるデータ件数表201を見ることによって、各セルのデータ件数を把握できるため、どの検索キーワードまたはどの検索キーワードの組み合わせが含まれるテキストデータが多いかを認識することができる。
【0065】
【0066】
表生成部108は、
図5に示されるデータ件数表202を生成しても良い。
図5に示されるデータ件数表202の各セルは、テキストデータの妥当性を示す順位ごとに、テキストデータの件数の分布を示す情報を含む。具体的には、データ件数表202の各セルは、太さの異なる縦線が並べられている。各縦線は、左から順に順位の高いテキストデータの件数が、太さによって示された線である。すなわち、縦線が太いほど、該当する順位のテキストデータの件数が多い。
【0067】
テキストデータの件数の分布を示す情報を得るために、検索部106は、検索されたテキストデータを対象として、第1検索キーワードおよび第2検索キーワードをともに含むテキストデータの妥当性を示す順位を算出する。具体的には、検索部106は、テキストデータの妥当性を示す順位を、tf-idf等の指標に基づいて算出する。
【0068】
例えば、第1検索キーワードまたは第2検索キーワードが出現する頻度が、対象のテキストデータは高く、他のテキストデータは低い場合、対象のテキストデータの妥当性を示す順位は高くなる。逆に、第1検索キーワードまたは第2検索キーワードが出現する頻度が、対象のテキストデータは低く、他のテキストデータは高い場合、対象のテキストデータの妥当性を示す順位は低くなる。
【0069】
このようにして、検索部106は、各セルに対応するテキストデータの妥当性を示す順位を算出する。例えば、順位が1位から15位までの15段階とすると、各セルの中の縦線は15本となる。そして、1位を示す縦線は各セルの一番左に位置し、その太さは、順位1位のテキストデータの件数に基づいて決定される。
【0070】
ユーザは、
図5に示されるデータ件数表202を見ることによって、各セルの順位ごとのテキストデータの件数の分布を把握できるため、妥当性の低い検索キーワードまたは検索キーワードの組み合わせを認識することができる。
【0071】
なお、表生成部108は、
図4に示されるデータ件数表201と、
図5に示されるデータ件数表202を組み合わせたデータ件数表を生成しても良い。例えば、データ件数表は、各セルの中が、テキストデータの件数に基づく濃度または色で表示され、セルの一部に、順位に基づく縦線が並べられていても良い。
【0072】
【0073】
表生成部108は、
図6に示される共起度表203を生成しても良い。具体的には、表生成部108は、行ラベルおよび列ラベルを設定された表に、共起度に基づく情報が含まれる共起度表203を生成する。
【0074】
共起度とは、ある単語があるテキストデータに含まれる場合に、そのテキストデータ中に別の単語が出現する頻度を示す指標である。例えば、単語Aを含むテキストデータの件数をC(A)、単語Bを含むテキストデータの件数をC(B)、単語Aと単語Bをともに含むテキストデータの件数をC(A,B)とすると、共起度Fcは以下の式(1)によって算出される。
【0075】
Fc=C(A,B)/{C(A)+C(B)} 式(1)
【0076】
共起度表203の各セルの濃度または色を決定するために、検索部106は、検索されたテキストデータを対象として、表の各セルに対応する共起度を算出する。具体的には、検索部106は、複数の第1検索キーワードのいずれかと、複数の第2検索キーワードのいずれかの組み合わせごとに、共起度を算出する。
【0077】
例えば、検索部106は、「シャフト」と「破損」とを基準とする共起度を算出する。そして、表生成部108は、行ラベル「シャフト」と列ラベル「破損」とによって示されるセルを、算出された共起度に基づく濃度または色のセルとする共起度表203を生成する。
【0078】
上述した濃度および色は、共起度に基づく情報の一例である。表生成部108が生成する表に含まれる情報は、濃度および色に限らず、共起度に基づく情報を認識できるものであれば、他でも良い。
【0079】
また、表生成部108は、生成される共起度表203の行ラベルおよび列ラベルの並び順を、テキストデータの件数に基づいて決定しても良い。具体的には、ステップS106において、検索部106は、検索されたテキストデータを対象として、第1検索キーワードまたは第2検索キーワードごとに、含まれるテキストデータの件数を算出する。表生成部108は、算出された件数の順に、複数の第1検索キーワードおよび複数の第2検索キーワードを行または列のラベルとして並べた表を生成する。
【0080】
例えば、表生成部108は、行ラベルには、第1検索キーワードを件数の多い順に上から並べ、列ラベルには、第2検索キーワードを件数の多い順に左から並べても良い。
【0081】
ユーザは、
図6に示される共起度表203を見ることによって、検索キーワードの組み合わせごとに、共起度とテキストデータの件数とを比較して認識することができる。例えば、表の左上の方がテキストデータの件数が相対的に多く、表の右下の方がテキストデータの件数が相対的に少ないため、左上の方に共起度が低いセルが存在すると、ユーザは、不要な検索結果が多くなる検索キーワードとなっている可能性があることを認識することができる。
【0082】
本実施形態に係るデータ検索装置100によれば、ユーザは、情報要求を示すテキストを入力するだけで、追加の情報を入力することなく、検索キーワードを得ることができる。また、ユーザは、データ件数表または共起度表を参照して、得られた検索キーワードの妥当性を評価することができる。
【0083】
出力部109が出力するデータ件数表および共起度表は、それぞれ、複数の第1検索キーワードと複数の第2検索キーワードとの組み合わせごとの件数に基づく、表形式の表示情報の一例である。
【0084】
(第二の実施形態)
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、検索キーワードを調整する機能を有する点が、第一の実施形態と相違する。以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
【0085】
図7は、第二の実施形態に係るデータ検索装置の機能の一例を示す図である。
【0086】
本実施形態に係るデータ検索装置100は、第一の実施形態に係る機能の他に、検索キーワード調整部110を備える。
【0087】
検索キーワード調整部110は、ユーザの操作によって、検索キーワード生成部105で生成された検索キーワードを追加、変更または削除する。具体的には、ユーザは、出力されたデータ件数表または共起度表に対する操作によって、検索キーワードの追加、変更または削除を指示する。
【0088】
また、検索部106は、追加、変更または削除された検索キーワードに基づいて、記憶部101からテキストデータを検索する。
【0089】
次に、本実施形態に係るデータ検索装置100の動作について、図面を参照して説明する。
【0090】
前提として、検索キーワード生成部105は、生成した検索キーワードを記憶部101に格納している。そして、ユーザの操作を受けると、データ検索装置100は、検索キーワード調整処理を実行する。
【0091】
図8は、第二の実施形態に係る検索キーワード調整処理の処理フローの一例を示す図である。
【0092】
検索キーワード調整部110は、検索キーワードの調整の要求を示すデータを取得する(ステップS201)。具体的には、検索キーワード調整部110は、ユーザによる検索キーワードの調整の要求操作を受ける。
【0093】
次に、検索キーワード調整部110は、検索条件を更新する(ステップS202)。検索条件は、テキストデータを検索する条件を規定したものである。検索条件は、例えば、RDBのSQL文であっても良い。
【0094】
検索部106は、更新された検索条件に基づいて、テキストデータを検索する(ステップS203)。
【0095】
例えば、検索キーワード調整部110は、第1検索キーワードまたは第2検索キーワードとして追加する単語の入力操作を受けると、第1検索キーワードまたは第2検索キーワードを追加した検索条件とする。
【0096】
具体的には、第1検索キーワードが(A1,A2)、第2検索キーワードが(B1,B2)であった場合、第1検索キーワードにA3を追加する操作を受けると、更新された検索条件は、(A1 OR A2 OR A3) AND (B1 OR B2)となる。
【0097】
また、検索キーワード調整部110は、第1検索キーワードまたは第2検索キーワードを変更する入力操作を受けると、第1検索キーワードまたは第2検索キーワードを変更した検索条件とする。
【0098】
具体的には、第1検索キーワードが(A1,A2)、第2検索キーワードが(B1,B2)であった場合、第1検索キーワードのA2をA3に変更する操作を受けると、更新された検索条件は、(A1 OR A3) AND (B1 OR B2)となる。
【0099】
また、検索キーワード調整部110は、第1検索キーワードまたは第2検索キーワードを削除する入力操作を受けると、第1検索キーワードまたは第2検索キーワードを削除した検索条件とする。この入力操作は、データ件数表または共起度表の行ラベルまたは列ラベルを指定する操作によって行われても良い。
【0100】
具体的には、第1検索キーワードが(A1,A2)、第2検索キーワードが(B1,B2)であった場合、第1検索キーワードのA2を削除する操作を受けると、更新された検索条件は、A1 AND (B1 OR B2)となる。
【0101】
また、検索キーワード調整部110は、第1検索キーワードおよび第2検索キーワードの組み合わせを削除する入力操作を受けると、第1検索キーワードおよび第2検索キーワードの組み合わせを削除した検索条件とする。この入力操作は、データ件数表または共起度表の各セルを指定する操作によって行われても良い。
【0102】
具体的には、第1検索キーワードが(A1,A2)、第2検索キーワードが(B1,B2)であった場合、第1検索キーワードのA1および第2検索キーワードのB1の組み合わせを削除する操作を受けると、更新された検索条件は、(A1 AND B2) OR (A2 AND B1) OR (A2 AND B2)となる。
【0103】
本実施形態に係るデータ検索装置100によれば、ユーザの操作を受けて検索条件を調整することによって、検索結果の精度を向上させることができる。ユーザは、データ件数表、共起度表等を参照して、情報要求テキストに基づいて生成された検索キーワードの妥当性を評価して、評価結果に基づいて検索キーワードの追加、変更または削除することによって、妥当な検索結果を得ることが可能となる。
【0104】
上述した実施形態において、関係抽出部104が、第1要素と第2要素とを抽出する例を示したが、3つ以上の要素を抽出しても良い。その場合、データ検索装置100は、ユーザの操作を受けて、または自動的に、抽出した3つ以上の要素から2つを選択し、各実施形態において説明した処理を実行すれば良い。
【0105】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGAや従来の回路モジュール等のデバイスを含むものとする。
【0106】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0107】
100 データ検索装置
101 記憶部
102 情報要求取得部
103 情報要求解析部
104 関係抽出部
105 検索キーワード生成部
106 検索部
107 検索結果表示部
108 表生成部
109 出力部
110 検索キーワード調整部
【先行技術文献】
【特許文献】
【0108】