(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-11
(45)【発行日】2023-12-19
(54)【発明の名称】検索根拠可視化システム、プログラム、および方法
(51)【国際特許分類】
G06F 16/34 20190101AFI20231212BHJP
G06F 16/332 20190101ALI20231212BHJP
【FI】
G06F16/34
G06F16/332
(21)【出願番号】P 2019215838
(22)【出願日】2019-11-28
【審査請求日】2022-09-14
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】勇 嘉偉
(72)【発明者】
【氏名】篠宮 聖彦
(72)【発明者】
【氏名】金崎 克己
(72)【発明者】
【氏名】川村 晋太郎
【審査官】木村 大吾
(56)【参考文献】
【文献】特表2017-515249(JP,A)
【文献】特開2014-052803(JP,A)
【文献】特開2008-027021(JP,A)
【文献】特開平08-161354(JP,A)
【文献】特開平11-338873(JP,A)
【文献】特開2012-068755(JP,A)
【文献】特開2001-350793(JP,A)
【文献】特開2008-250623(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 3/01
G06F 3/048
(57)【特許請求の範囲】
【請求項1】
検索語を取得する検索語取得部と、
前記検索語に基づいて、検索を実行する全文検索部と、
3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部と
を備え
、
前記可視化部は、前記検索の結果が中心に表示されており、前記検索語が、前記検索の結果との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、検索システム。
【請求項2】
検索語を取得する検索語取得部と、
前記検索語に基づいて、検索を実行する全文検索部と、
3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部と
を備え
、
前記可視化部は、前記検索語が中心に表示されており、前記検索の結果が、前記検索語との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、検索システム。
【請求項3】
前記検索語は、元検索語、および、前記元検索語から導出される拡張語であり、
前記全文検索部は、前記元検索語および前記拡張語に基づいて、検索を実行し、
前記可視化部は、前記元検索語および前記拡張語と前記検索の結果との対応関係を表示する、請求項
1または2に記載の検索システム。
【請求項4】
前記拡張語は、擬似適合フィードバックを用いた検索において、前記元検索語による検索の結果から抽出された用語である、請求項
3に記載の検索システム。
【請求項5】
前記拡張語は、前記元検索語の類義語と、前記元検索語の上位概念を示す用語と、前記元検索語の下位概念を示す用語と、前記元検索語と共起関係にある用語とのうちの少なくとも1つである、請求項
3に記載の検索システム。
【請求項6】
検索用のクエリを修正して検索を実行する検索文修正部、をさらに備えた請求項1から
5のいずれか一項に記載の検索システム。
【請求項7】
前記可視化部は、前記検索の結果が中心に表示されており前記検索語が螺旋状に配置されている
画面を出力する、請求項
1に記載の検索システム。
【請求項8】
前記可視化部は、前記検索語が中心に表示されており前記検索の結果が螺旋状に配置されている画面を出力する、請求項2に記載の検索システム。
【請求項9】
コンピュータを
検索語を取得する検索語取得部、
前記検索語に基づいて、検索を実行する全文検索部、
3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部
として機能させ
、
前記可視化部は、前記検索の結果が中心に表示されており、前記検索語が、前記検索の結果との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、プログラム。
【請求項10】
コンピュータが実行する方法であって、
検索語を取得するステップと、
前記検索語に基づいて、検索を実行するステップと、
3つ以上の前記検索語と前記検索の結果との対応関係を表示するステップと
を含
み、
前記表示するステップでは、前記検索の結果が中心に表示されており、前記検索語が、前記検索の結果との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索根拠可視化システム、プログラム、および方法に関する。
【背景技術】
【0002】
従来、ユーザによって入力された自然文から抽出した検索語等に基づいて検索を実行し、その検索の結果に順位を付けることが知られている。
【0003】
例えば、特許文献1では、検索条件に適合する度合いの指標となる文書の重要度を算出して、それらの文書を表示している。具体的には、2次元平面上において左上ならびに右下にプロットされる文書が、各々の検索条件に詳しい文書であるように表示される(特許文献1の明細書の段落[0145]、
図32)。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1では、どちらの検索条件に詳しい文書であるかを表示しているに過ぎず、ユーザが検索の根拠をより理解できることが求められている。
【0005】
そこで、本発明の一実施形態では、検索の根拠の可視化を向上することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決するために、本発明の一実施形態は、検索語を取得する検索語取得部と、前記検索語に基づいて、検索を実行する全文検索部と、3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部と、を備える。
【発明の効果】
【0007】
本発明の一実施形態によれば、検索の根拠の可視化を向上することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係る検索システムを含む全体の構成図である。
【
図2】本発明の一実施形態に係る検索システムのハードウェア構成図である。
【
図3】本発明の一実施形態に係る検索システムの機能ブロック図(実施例1)である。
【
図4】本発明の一実施形態に係る検索システムの機能ブロック図(実施例2)である。
【
図5】本発明の一実施形態に係る全文検索部の機能ブロック図である。
【
図6】本発明の一実施形態に係る拡張語取得部の機能ブロック図である。
【
図7】本発明の一実施形態に係る可視化部の機能ブロック図である。
【
図8】本発明の一実施形態に係る検索対象のデータ構造情報の一例である。
【
図9】本発明の一実施形態に係る検索文および検索結果のデータ構造情報の一例である。
【
図10】本発明の一実施形態に係る検索語影響度のデータ構造情報の一例である。
【
図11】本発明の一実施形態に係る検索処理のシーケンス図(実施例1)である。
【
図12】本発明の一実施形態に係る検索処理のシーケンス図(実施例2)である。
【
図13】本発明の一実施形態に係る検索処理のフローチャート(実施例1)である。
【
図14】本発明の一実施形態に係る検索処理のフローチャート(実施例2)である。
【
図15】本発明の一実施形態に係る入力画面の一例である。
【
図16】本発明の一実施形態に係る検索結果一覧の画面の一例(実施例1)である。
【
図17】本発明の一実施形態に係る検索結果一覧の画面の一例(実施例2)である。
【
図18】本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。
【
図19】本発明の一実施形態に係る検索語と検索結果の関係可視化の画面の一例である。
【
図20】本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。
【
図21】本発明の一実施形態に係る検索結果の根拠可視化の比較画面の一例である。
【発明を実施するための形態】
【0009】
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
【0010】
<システム構成>
図1は、本発明の一実施形態に係る検索システム10を含む全体の構成図である。
図1に示されるように、検索システム10は、任意のネットワーク40を介して、入力装置20および出力装置30と通信可能に接続されている。以下、それぞれについて説明する。
【0011】
検索システム10は、ユーザによって入力された自然文(以下、検索文ともいう)から検索語を抽出して検索を実行するシステムである。検索システム10は、検索の根拠を可視化する(つまり、出力装置30に表示する)ことができる。後段で、
図3および
図4を参照しながら、検索システム10について詳細に説明する。
【0012】
入力装置20は、ユーザが検索文を入力するための装置である。例えば、入力装置20は、パーソナルコンピュータ、タブレット、スマートフォン等である。
【0013】
出力装置30は、検索システム10が検索した結果を表示するための装置である。例えば、出力装置30は、パーソナルコンピュータ、タブレット、スマートフォン等である。
【0014】
なお、
図1では入力装置20と出力装置30とを別々の装置として説明したが、入力装置20と出力装置30とを1つの装置で実装するようにしてもよい。
【0015】
なお、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、検索システム10は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリ等を含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
【0016】
<ハードウェア構成>
図2は、本発明の一実施形態に係る検索システム10のハードウェア構成図である。
【0017】
図2に示されているように、検索システム10は、コンピュータによって構築されており、
図2に示されているように、CPU1001、ROM1002、RAM1003、HD1004、HDD(Hard Disk Drive)コントローラ1005、ディスプレイ1006、外部機器接続I/F(Interface)1007、ネットワークI/F1008、データバス1009、キーボード1010、ポインティングデバイス1011、DVD-RW(Digital Versatile Disk Rewritable)ドライブ1013、メディアI/F1015を備えている。
【0018】
これらのうち、CPU1001は、検索システム10全体の動作を制御する。ROM1002は、IPL等のCPU1001の駆動に用いられるプログラムを記憶する。RAM1003は、CPU1001のワークエリアとして使用される。HD1004は、プログラム等の各種データを記憶する。HDDコントローラ1005は、CPU1001の制御にしたがってHD1004に対する各種データの読み出し又は書き込みを制御する。ディスプレイ1006は、カーソル、メニュー、ウィンドウ、文字、又は画像等の各種情報を表示する。外部機器接続I/F1007は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F1008は、ネットワーク40を利用してデータ通信をするためのインターフェースである。バスライン1009は、
図2に示されているCPU1001等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0019】
また、キーボード1010は、文字、数値、各種指示等の入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス1011は、各種指示の選択や実行、処理対象の選択、カーソルの移動等を行う入力手段の一種である。DVD-RWドライブ1013は、着脱可能な記録媒体の一例としてのDVD-RW1012に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F1015は、フラッシュメモリ等の記録メディア1014に対するデータの読み出し又は書き込み(記憶)を制御する。
【0020】
<機能ブロック>
以下、検索システム10の機能ブロックを(実施例1)と(実施例2)とに分けて説明する。
【0021】
(実施例1)
図3は、本発明の一実施形態に係る検索システム10の機能ブロック図(実施例1)である。
図3に示されるように、検索システム10は、検索語取得部101、全文検索部102、検索結果取得部103、可視化部104、検索文修正部105を備えることができる。また、検索システム10は、プログラムを実行することによって、検索語取得部101、全文検索部102、検索結果取得部103、可視化部104、検索文修正部105として機能することができる。以下、それぞれについて説明する。
【0022】
検索語取得部101は、検索のために用いられる検索語を取得する。具体的には、検索語取得部101は、入力装置20から、ユーザが入力した自然文(つまり、検索文)を受信する。また、検索語取得部101は、受信した検索文を単語に分割して、検索語を抽出する。また、検索語取得部101は、全文検索部102および可視化部104が参照できるように、検索語をメモリに記憶する。
【0023】
なお、検索語取得部101は、ユーザが入力した検索語を入力装置20から受信することによって、検索語を取得する構成とすることもできる。
【0024】
全文検索部102は、検索語に基づいて、検索を実行する。具体的には、全文検索部102は、検索語を用いて検索用のクエリを生成する。また、全文検索部102は、クエリに基づいて、検索対象となる文書を検索する。また、全文検索部102は、検索結果取得部103が参照できるように、検索した結果をメモリに記憶する。
【0025】
検索結果取得部103は、全文検索部102が検索した結果を取得する。
【0026】
可視化部104は、文書と検索語(例えば、3つ以上の検索語)との対応関係を可視化したグラフを作成して出力装置30へ送信する。
【0027】
検索文修正部105は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
【0028】
(実施例2)
図4は、本発明の一実施形態に係る検索システム10の機能ブロック図(実施例2)である。
【0029】
上記の(実施例1)では、ユーザが入力した検索文から抽出した検索語(あるいは、ユーザが入力した検索語)に基づいて、検索が実行される。(実施例2)では、検索語(以下、元検索語ともいう)および元検索語から導出される用語(以下、拡張語ともいう)に基づいて、検索が実行される。なお、元検索語と拡張語とをあわせて、新たな検索語(以下、新検索語ともいう)とも呼ぶ。
【0030】
拡張語は、ユーザが要求している文書を検索するための検索用のクエリに用いられる用語である。例えば、拡張語は、擬似適合フィードバック(PRF:pseudo relevance feedback)を用いた検索において、検索語による検索(以下、初期検索ともいう)により抽出された文書の中から抽出された用語である。なお、拡張語は、検索語の類義語、検索語の上位概念を示す用語、検索語の下位概念を示す用語、検索語と共起関係にある用語も含む。例えば、検索語が"複合機"の場合、類義語は"MFP"であり、上位概念を示す用語は"事務機器"であり、下位概念を示す用語は"レーザープリンター"であり、共起関係にある用語は"紙"、"コピー"、"詰まる"等である。
【0031】
図4に示されるように、検索システム10は、検索語取得部111、全文検索部112、検索結果取得部113、可視化部114、検索文修正部115、拡張語取得部116を備えることができる。また、検索システム10は、プログラムを実行することによって、検索語取得部111、全文検索部112、検索結果取得部113、可視化部114、検索文修正部115、拡張語取得部116として機能することができる。以下、それぞれについて説明する。
【0032】
検索語取得部111は、検索のために用いられる検索語を取得する。具体的には、検索語取得部111は、入力装置20から、ユーザが入力した自然文(つまり、検索文)を受信する。また、検索語取得部111は、受信した検索文を単語に分割して、検索語を抽出する。また、検索語取得部111は、全文検索部112および可視化部114が参照できるように、検索語をメモリに記憶する。
【0033】
なお、検索語取得部111は、ユーザが入力した検索語を入力装置20から受信することによって、検索語を取得する構成とすることもできる。
【0034】
拡張語取得部116は、拡張語を取得する。後段で、
図6を参照しながら、拡張語取得部116について詳細に説明する。
【0035】
全文検索部112は、新たな検索語(元検索語および拡張語)に基づいて、検索を実行する。具体的には、全文検索部112は、新たな検索語(元検索語および拡張語)を用いて検索用のクエリを生成する。また、全文検索部112は、クエリに基づいて、検索対象となる文書を検索する。また、全文検索部112は、検索結果取得部113が参照できるように、検索した結果をメモリに記憶する。後段で、
図5を参照しながら、全文検索部112について詳細に説明する。
【0036】
検索結果取得部113は、全文検索部112が検索した結果を取得する。
【0037】
可視化部114は、文書と新たな検索語(例えば、3つ以上の新たな検索語(元検索語および拡張語))との対応関係を可視化したグラフを作成して出力装置30へ送信する。後段で、
図7を参照しながら、可視化部114について詳細に説明する。
【0038】
検索文修正部115は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
【0039】
図5は、本発明の一実施形態に係る全文検索部112の機能ブロック図である。全文検索部112は、検索語受信部201、拡張語受信部202、クエリ生成部203、検索対象収集部204、インデックス記憶部205、検索部206、検索id送信部207を備える。以下、それぞれについて説明する。
【0040】
検索語受信部201は、検索語取得部111から、検索語を受信する。
【0041】
拡張語受信部202は、拡張語取得部116から、拡張語を受信する。
【0042】
クエリ生成部203は、検索語受信部201が受信した検索語(元検索語)および拡張語受信部202が受信した拡張語を用いて、検索用のクエリを生成する。例えば、クエリ生成部203は、重み付けされた検索語(元検索語)および拡張語を検索演算子で繋ぎ、全文検索用のクエリを生成する。なお、初期検索の際には、検索語受信部201が受信した検索語を用いて、検索用のクエリを生成する。
【0043】
検索対象収集部204は、検索の結果の候補となる(つまり、検索対象となる)文書を収集して、インデックス記憶部205に記憶する。
【0044】
インデックス記憶部205には、検索対象となる文書が記憶されている。なお、本発明は、インデックス記憶部205内の任意の文書を検索する際に適用することもできるし、インターネット上に存在する情報(ウェブページ、ウェブサイト等)を検索する際に適用することもできる。
【0045】
検索部206は、クエリ生成部203が生成したクエリに基づいて、インデックス記憶部205内の検索対象となる文書を検索して、文書に順位を付ける。例えば、検索部206は、Okapi BM25を用いて、クエリと各文書との関連性に応じて、検索により抽出された文書に順位を付ける。
【0046】
検索id送信部207は、検索部206が検索した結果を検索結果取得部113へ送信する。例えば、検索id送信部207は、検索の結果(つまり、検索により抽出された文書の情報、および、各文書の順位)を検索結果取得部113へ送信する。
【0047】
なお、(実施例1)の場合、全文検索部102は、拡張語を受信せず、検索語取得部101から受信した検索語に基づいて、検索を実行する。
【0048】
図6は、本発明の一実施形態に係る拡張語取得部116の機能ブロック図である。拡張語取得部116は、初期結果受信部301、予備単語算出部302、拡張語選択部303、拡張語送信部304を備える。以下、それぞれについて説明する。
【0049】
初期結果受信部301は、検索結果取得部113から、初期検索(つまり、検索語による検索)の結果を受信する。例えば、初期結果受信部301は、擬似適合フィードバック(PRF:pseudo relevance feedback)を用いた検索において、初期検索により抽出された文書の情報を受信する。
【0050】
予備単語算出部302は、初期結果受信部301が受信した初期検索の結果に基づいて、拡張語の候補を抽出して順位を付ける。
【0051】
拡張語選択部303は、予備単語算出部302が順位を付けた拡張語のうち、上位の順位を付けられた所定の個数(例えば、ユーザにより指定された個数、あるいは、予め定められた個数)の拡張語を選択する。
【0052】
拡張語送信部304は、拡張語選択部303が選択した拡張語を可視化部114および全文検索部112へ送信する。
【0053】
図7は、本発明の一実施形態に係る可視化部114の機能ブロック図である。可視化部114は、テキスト受信部401、一時記憶部402、影響度計算部403、可視化グラフ作成部404、可視化グラフ送信部405を備える。以下、それぞれについて説明する。
【0054】
テキスト受信部401は、拡張語取得部116から、拡張語の情報を受信して、一時記憶部402に記憶する。また、テキスト受信部401は、検索語取得部111から、元検索語(つまり、拡張語を導出するために用いられた検索語)の情報を受信して、一時記憶部402に記憶する。また、テキスト受信部401は、検索結果取得部113から、検索の結果(つまり、検索(元検索語と拡張語による検索)により抽出された文書の情報、および、各文書の順位)を受信して、一時記憶部402に記憶する。
【0055】
一時記憶部402には、テキスト受信部401が受信した拡張語の情報、元検索語の情報、検索の結果が記憶されている。
【0056】
影響度計算部403は、検索により抽出された各文書に対する新検索語(つまり、元検索語と拡張語)の影響度(例えば、出現回数、ベクトル類似度)を算出する。
【0057】
可視化グラフ作成部404は、影響度計算部403が算出した影響度に基づいて、距離や大きさ等で影響度の度合いを表わすグラフを作成する。
【0058】
可視化グラフ送信部405は、可視化グラフ作成部404が作成したグラフを出力装置30へ送信する。
【0059】
なお、(実施例1)の場合、可視化部104は、拡張語を受信せず、検索語取得部101から受信した検索語の情報および検索結果取得部103から受信した検索の結果に基づいて、グラフを作成する。
【0060】
<データ構造>
図8は、本発明の一実施形態に係る検索対象のデータ構造情報の一例である。インデックス記憶部205には、
図8のような検索対象のデータが記憶されうる。
図8に示されるように、文書(例えば、ユーザが蓄積した議事録、報告書、日報等)の、文書を特定するための識別子(文書ID)、文書のタイトル、文書の本文内容(テキスト)が記憶されうる。本文内容(テキスト)が検索対象となる。
【0061】
図9は、本発明の一実施形態に係る検索文および検索結果のデータ構造情報の一例である。一時記憶部402には、
図9のような検索文および検索結果のデータが記憶されうる。
図9は、(実施例2)の場合である。
図9に示されるように、新たな検索語(つまり、元検索語と拡張語)と各々の重み、および、新たな検索語を用いて生成されたクエリに基づいて検索した結果(つまり、検索(元検索語と拡張語による検索)により抽出された文書の情報、および、各文書の順位)が記憶されうる。
【0062】
なお、(実施例1)の場合、拡張語は記憶されず、検索語および検索の結果が記憶される。
【0063】
ここで、元検索語および拡張語の重み付けについて説明する。本発明の一実施形態では、元検索語および拡張語に重み付けをして検索を実行することができる。重みは、ユーザにより指定された値とすることもできるし、あるいは、予め定められた値とすることもできる。なお、全ての元検索語に同一の重みを付与することもできるし、あるいは、元検索語のそれぞれに重みを付与することもできる。また、全ての拡張語に同一の重みを付与することもできるし、あるいは、拡張語のそれぞれに重みを付与することもできる。
【0064】
図10は、本発明の一実施形態に係る検索語影響度のデータ構造情報の一例である。影響度計算部403は、
図10のような検索語影響度を算出しうる。
図10は、(実施例2)の場合である。
図10に示されるように、検索により抽出された各文書に対する新検索語(つまり、元検索語と拡張語)の影響度が算出されうる。例えば、影響度は、各文書内で新検索語(つまり、元検索語と拡張語)が出現する回数(出現回数)、各文書と新検索語(つまり、元検索語と拡張語)の類似度(ベクトル類似度)である。
【0065】
なお、(実施例1)の場合、拡張語の影響度は算出されず、検索語の影響度が算出される。
【0066】
<処理方法>
【0067】
以下、検索処理のシーケンスを(実施例1)と(実施例2)とに分けて説明する。
【0068】
図11は、本発明の一実施形態に係る検索処理のシーケンス図(実施例1)である。
【0069】
・ユーザは、入力装置20に自然文(つまり、検索文)を入力する(1)。
・入力装置20は、検索語取得部101に対して、検索語を取得するよう請求する(1.1)。
・検索語取得部101は、全文検索部102に対して、検索を実行するよう請求する(1.1.1)。
・全文検索部102は、検索結果取得部103に対して、検索の結果を取得するよう請求する(2)。
・検索結果取得部103は、可視化部104に対して、文書と検索語との対応関係を可視化したグラフを作成するよう請求する(2.1)。
・検索語取得部101は、可視化部104に対して、文書と検索語との対応関係を可視化したグラフを作成するよう請求する(3)。
・可視化部104は、グラフを作成する(4)。
・可視化部104は、出力装置30に対して、グラフを出力するよう請求する(5)。
・ユーザは、出力装置30に対して、検索の根拠を提示するよう請求する(6)。
・ユーザは、出力装置30を介して検索文修正部105に対して、検索用のクエリを修正して検索を実行するよう請求する(7)。
【0070】
図12は、本発明の一実施形態に係る検索処理のシーケンス図(実施例2)である。
【0071】
・ユーザは、入力装置20に自然文(つまり、検索文)を入力する(1)。
・入力装置20は、検索語取得部111に対して、検索語を取得するよう請求する(1.1)。
・検索語取得部111は、全文検索部112に対して、初期検索(つまり、検索語による検索)を実行するよう請求する(1.1.1)。
・全文検索部112は、検索結果取得部113に対して、初期検索の結果を取得するよう請求する(1.1.1.1)。
・検索結果取得部113は、拡張語取得部116に対して、拡張語を取得するよう請求する(1.1.1.1.1)。
・拡張語取得部116は、全文検索部112に対して、再検索(元検索語と拡張語による検索)を実行するよう請求する(1.1.1.1.1.1)。
・全文検索部112は、検索結果取得部113に対して、再検索の結果を取得するよう請求する(1.1.1.1.1.1.1)。
・検索結果取得部113は、可視化部114に対して、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフを作成するよう請求する(1.1.1.1.1.1.1.1)。
・検索語取得部111は、可視化部114に対して、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフを作成するよう請求する(2)。
・拡張語取得部116は、可視化部114に対して、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフを作成するよう請求する(3)。
・可視化部114は、グラフを作成する(4)。
・可視化部114は、出力装置30に対して、グラフを出力するよう請求する(5)。
・ユーザは、出力装置30に対して、検索の根拠を提示するよう請求する(6)。
・ユーザは、出力装置30を介して検索文修正部115に対して、検索用のクエリを修正して検索を実行するよう請求する(7)。
【0072】
以下、検索処理のフローチャートを(実施例1)と(実施例2)とに分けて説明する。
【0073】
図13は、本発明の一実施形態に係る検索処理のフローチャート(実施例1)である。
【0074】
ステップ10(S10)において、検索語取得部101は、入力装置20から受信した検索文が新検索文であるか否かを判断する。具体的には、検索語取得部101は、入力装置20から受信した検索文を過去に受信したことがあるか否かを判断する。新検索文である場合にはステップ11へ進み、新検索文ではない場合にはステップ12へ進む。
【0075】
なお、S10の新検索文であるか否かの判断を省略して、全ての検索文から検索語を抽出する構成とすることもできる。
【0076】
ステップ11(S11)において、検索語取得部101は、S10で受信した検索文から検索語を抽出する。
【0077】
ステップ12(S12)において、全文検索部102は、S11で抽出された検索語(または過去に抽出された検索語)に基づいて、検索を実行する。
【0078】
ステップ13(S13)において、可視化部104は、検索の根拠を提示する必要があるか否かを判断する。具体的には、可視化部104は、ユーザから出力装置30を介して、検索の根拠を提示するよう請求されたか否かを判断する。検索の根拠を提示する必要がある場合にはステップ14へ進み、検索の根拠を提示する必要がない場合にはステップ17へ進む。
【0079】
ステップ14(S14)において、可視化部104は、検索により抽出された各文書に対する検索語の影響度(例えば、出現回数、ベクトル類似度)を算出する。
【0080】
ステップ15(S15)において、可視化部104は、S14で算出した検索語の影響度に基づいて、距離や大きさ等で影響度の度合いを表わすグラフを作成する。
【0081】
ステップ16(S16)において、検索文修正部105は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
【0082】
ステップ17(S17)において、検索文修正部105は、検索が終了したか否かを判断する。終了した場合には処理を終了し、終了していない場合にはS10へ戻る。
【0083】
図14は、本発明の一実施形態に係る検索処理のフローチャート(実施例2)である。
【0084】
ステップ20(S20)において、検索語取得部111は、入力装置20から受信した検索文が新検索文であるか否かを判断する。具体的には、検索語取得部111は、入力装置20から受信した検索文を過去に受信したことがあるか否かを判断する。新検索文である場合にはステップ21へ進み、新検索文ではない場合にはステップ22へ進む。
【0085】
なお、S20の新検索文であるか否かの判断を省略して、全ての検索文から検索語を抽出する構成とすることもできる。
【0086】
ステップ21(S21)において、検索語取得部111は、S20で受信した検索文から検索語を抽出する。
【0087】
ステップ22(S22)において、全文検索部112は、S21で抽出された検索語(または過去に抽出された検索語)に基づいて、初期検索を実行する。
【0088】
ステップ23(S23)において、拡張語取得部116は、S22の初期検索により抽出された文書の中から拡張語を抽出する。
【0089】
ステップ24(S24)において、全文検索部112は、S21で抽出された検索語(または過去に抽出された検索語)およびS23で抽出された拡張語に基づいて、再検索を実行する。
【0090】
ステップ25(S25)において、可視化部114は、検索の根拠を提示する必要があるか否かを判断する。具体的には、可視化部114は、ユーザから出力装置30を介して、検索の根拠を提示するよう請求されたか否かを判断する。検索の根拠を提示する必要がある場合にはステップ26へ進み、検索の根拠を提示する必要がない場合にはステップ29へ進む。
【0091】
ステップ26(S26)において、可視化部114は、再検索により抽出された各文書に対する検索語(元検索語)および拡張語の影響度(例えば、出現回数、ベクトル類似度)を算出する。
【0092】
ステップ27(S27)において、可視化部114は、S26で算出した検索語(元検索語)および拡張語の影響度に基づいて、距離や大きさ等で影響度の度合いを表わすグラフを作成する。
【0093】
ステップ28(S28)において、検索文修正部115は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
【0094】
ステップ29(S29)において、検索文修正部115は、検索が終了したか否かを判断する。終了した場合には処理を終了し、終了していない場合にはS20へ戻る。
【0095】
以下、入力装置20および出力装置30に表示される画面の一例について説明する。
【0096】
図15は、本発明の一実施形態に係る入力画面の一例である。ユーザは、入力装置20に表示される入力画面に検索文を入力することができる。検索ボタンが押下されると、検索が実行される。また、PRFパラメータ設定ボタンが押下されると、元検索語と拡張語の重みを設定するための画面へ遷移される。
【0097】
図16は、本発明の一実施形態に係る検索結果一覧の画面の一例(実施例1)である。ユーザは、出力装置30に表示される検索結果一覧の画面で検索結果を確認することができる。
図16に示されるように、検索文から抽出された検索語と、検索の結果(つまり、検索により抽出された文書の情報、および、各文書の順位)と、が表示される。
【0098】
図17は、本発明の一実施形態に係る検索結果一覧の画面の一例(実施例2)である。ユーザは、出力装置30に表示される検索結果一覧の画面で検索結果を確認することができる。
図17に示されるように、検索文から抽出された検索語(元検索語)および初期検索により抽出された文書の中から抽出された拡張語と、検索の結果(つまり、検索(元検索語と拡張語による検索)により抽出された文書の情報、および、各文書の順位)と、が表示される。
【0099】
ここで、検索用のクエリの修正について説明する。
図16および
図17の検索結果一覧の画面には、検索用のクエリを修正するためのボタン(例えば、検索語を変更するためのボタン、検索語を追加するためのボタン、検索語を削除するためのボタン)が表示される。これらのボタンが押下されると、検索文修正部105、115は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
【0100】
図18は、本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。例えば、
図16および
図17にて各文書の根拠ボタンが押下されると、
図18のような文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフが表示される。なお、(実施例1)の場合、拡張語は表示されない。
【0101】
図18に示されるように、文書の順位、文書ID、タイトルが同心円の中心に表示され、その文書を抽出した検索用のクエリに含まれる新検索語(つまり、元検索語と拡張語)が同心円内に表示される。以下、可視化部104、114によって実行されるグラフの作成方法をより詳細に説明する。
【0102】
(1)可視化部104、114は、中心を共有する2つ以上の図形(例えば、同心円)を作成する。例えば、同心円は等間隔で配置される。
(2)可視化部104、114は、元検索語または拡張語のベクトル類似度に基づいて、ベクトル類似度が高ければ高いほど、元検索語または拡張語を中心に近い位置に配置する。具体的には、可視化部104、114は、円と円との間の各領域に、所定の範囲内のベクトル類似度の元検索語または拡張語を配置する(例えば、外側の領域から順に、ベクトル類似度が0~0.05、0.05~0.10、0.10~0.15・・・である元検索語または拡張語が配置される)。つまり、同じ範囲内のベクトル類似度の元検索語または拡張語は、同じ領域に配置される。また、可視化部104、114は、元検索語および拡張語間の類似度に基づいて、各領域内での配置の位置を決定する。
(3)可視化部104、114は、元検索語または拡張語の出現回数に基づいて、出現回数が多ければ多いほど、元検索語または拡張語の文字の大きさを大きく表示する。
(4)可視化部104、114は、元検索語と拡張語とを区別できるように表わす(例えば、拡張語に下線を付ける、元検索語とは異なる色で拡張語を表示する等の文字修飾を行う)。
【0103】
図19は、本発明の一実施形態に係る検索語と検索結果の関係可視化の画面の一例である。例えば、
図16および
図17にて検索語または拡張語ボタンが押下されると、
図19のような文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフが表示される。なお、(実施例1)の場合、拡張語は表示されない。
【0104】
図19に示されるように、検索語または拡張語が同心円の中心に表示され、その検索語またはその拡張語を含む検索用のクエリに基づいて抽出された文書が同心円内に表示される。以下、可視化部104、114によって実行されるグラフの作成方法をより詳細に説明する。
【0105】
(1)可視化部104、114は、中心を共有する2つ以上の図形(例えば、同心円)を作成する。例えば、同心円は等間隔で配置される。
(2)可視化部104、114は、元検索語または拡張語のベクトル類似度に基づいて、ベクトル類似度が高ければ高いほど、文書を中心に近い位置に配置する。具体的には、可視化部104、114は、円と円との間の各領域に、所定の範囲内のベクトル類似度の文書を配置する(例えば、外側の領域から順に、ベクトル類似度が0~0.05、0.05~0.10、0.10~0.15・・・である文書が配置される)。つまり、同じ範囲内のベクトル類似度の文書は、同じ領域に配置される。また、可視化部104、114は、文書間の類似度に基づいて、各領域内での配置の位置を決定する。
(3)可視化部104、114は、元検索語または拡張語の出現回数に基づいて、出現回数が多ければ多いほど、文書の文字の大きさを大きく表示する。
【0106】
図20は、本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。本発明の一実施形態では、
図18、
図19、
図21のような同心円ではなく、アルキメデスの螺旋を用いて、文書と新たな検索語(元検索語および拡張語)との対応関係を表示する構成とすることもできる。アルキメデスの螺旋では、中心との距離をより細かく分別することができるので、文書と新たな検索語(元検索語および拡張語)との対応関係がより分かりやすく表示される。なお、アルキメデスの螺旋を用いた場合にも、文字の大きさによって新検索語(つまり、元検索語と拡張語)の出現回数を表わすことができる。また、アルキメデスの螺旋を用いた場合にも、新検索語(つまり、元検索語と拡張語)を区別できるように表わすことができる。
【0107】
図21は、本発明の一実施形態に係る検索結果の根拠可視化の比較画面の一例である。例えば、
図16および
図17にて複数(例えば、2つ)の根拠ボタンが押下されると、検索結果の根拠可視化の比較画面が表示される。
図21に示されるように、根拠ボタンが押下された文書の、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフが表示される。そのため、ユーザは、複数の文書についての文書と新たな検索語(元検索語および拡張語)との対応関係を比較することができる。
【0108】
このように、本発明の一実施形態では、文書と検索語との対応関係、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化することができる。そのため、ユーザは、対応関係をもとに検索語を修正して、検索の精度を向上させることができる。
【0109】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0110】
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0111】
10 検索システム
20 入力装置
30 出力装置
40 ネットワーク
101 検索語取得部
102 全文検索部
103 検索結果取得部
104 可視化部
105 検索文修正部
111 検索語取得部
112 全文検索部
113 検索結果取得部
114 可視化部
115 検索文修正部
116 拡張語取得部
201 検索語受信部
202 拡張語受信部
203 クエリ生成部
204 検索対象収集部
205 インデックス記憶部
206 検索部
207 検索id送信部
301 初期結果受信部
302 予備単語算出部
303 拡張語選択部
304 拡張語送信部
【先行技術文献】
【特許文献】
【0112】