(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022103681
(43)【公開日】2022-07-08
(54)【発明の名称】情報処理システム、情報処理方法、プログラム
(51)【国際特許分類】
G06F 16/335 20190101AFI20220701BHJP
【FI】
G06F16/335
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2020218459
(22)【出願日】2020-12-28
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】蔵満 琢麻
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175HA05
(57)【要約】
【課題】 ユーザが所望する文書へ到達しやすくする検索システムを提供すること
【解決手段】 ユーザから受け付けた検索リクエストに基づき検索された文書に対して、ユーザからフィードバックを受け付け、受け付けたフィードバックの内容に基づき、検索された文書の検索スコアの調整を行う。調整された検索スコアに基づき、検索結果を表示する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザから受け付けた検索リクエストに基づき検索された文書に対して、ユーザからフィードバックを受け付ける受付手段と、
前記受付手段により受け付けたフィードバックの内容に基づき、検索された文書の検索スコアの調整を行う調整手段と、
前記調整手段により調整された検索スコアに基づき、検索結果を表示する表示手段と、
を備えることを特徴とする情報処理システム。
【請求項2】
前記受付手段は、検索された文書に対して適合または非適合の旨のフィードバックを受け付けることを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記受付手段でフィードバックを受け付けた文書と類似する文書を特定する特定手段と、
前記調整手段は、前記受付手段で受け付けたフィードバックの内容に基づき、前記特定手段により特定された文書の検索スコアを調整することを特徴とする請求項1または2に記載の情報処理システム。
【請求項4】
前記特定手段は、前記受付手段によりフィードバックを受け付けた文書を特徴づけるキーワードを含む文書を、類似する文書として特定することを特徴とする請求項3に記載の情報処理システム。
【請求項5】
情報処理システムの受付手段が、ユーザから受け付けた検索リクエストに基づき検索された文書に対して、ユーザからフィードバックを受け付ける受付工程と、
前記情報処理システムの調整手段が、前記受付工程により受け付けたフィードバックの内容に基づき、検索された文書の検索スコアの調整を行う調整工程と、
前記情報処理システムの表示手段が、前記調整工程により調整された検索スコアに基づき、検索結果を表示する表示工程と、
を備えることを特徴とする情報処理方法。
【請求項6】
コンピュータを、
ユーザから受け付けた検索リクエストに基づき検索された文書に対して、ユーザからフィードバックを受け付ける受付手段と、
前記受付手段により受け付けたフィードバックの内容に基づき、検索された文書の検索スコアの調整を行う調整手段と、
前記調整手段により調整された検索スコアに基づき、検索結果を表示する表示手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、プログラムに関する。
【背景技術】
【0002】
企業内に電子化された文書が増えるにつれ、業務上必要な文書を効率的に検索するための文書検索システムの重要性が高まっている。ここで、文書検索システムは、ユーザが入力した検索条件に関連する文書集合をユーザに提示するものである。当該システムにおいて、ユーザは必ずしも一度の検索で目的の文書を取得できるとは限らず、入力した検索条件に関する文書が大量にヒットするケースも少なくない。このような場合、ユーザは追加のキーワードを検索条件に含めるなどして、検索結果を絞り込む作業を繰り返し実施することになるが、検索結果を絞り込むための適切なキーワードが思いつかず、必要な文書を見つけるまでに多くの時間を費やすことがある。
【0003】
適切な検索条件を作成することが難しい一方で、検索結果として提示される文書について、ユーザが欲している文書(以下、適合文書)であるか、欲していない文書(以下、非適合文書)であるかどうかを判断することは比較的容易である。この性質を利用し、検索結果に対するユーザの評価をもとに検索性能の改善を図る「適合フィードバック」と呼ばれる手法が研究されている(非特許文献1)。
【0004】
非特許文献1には、適合フィードバックの代表的な手法であるRocchioアルゴリズムに加え、関係学習を用いたアルゴリズムについて言及されている。
【0005】
特許文献1には、適合フィードバックを行う際、複数の文書について適合文書/非適合文書の判定を行うユーザの負荷が大きい問題に着目し、1つの適合文書を指定した場合においても適切なフィードバックが得られるように関連度の計算方法を工夫する方法が記載されている。当該手法は、検索結果上位の文書を擬似的な適合文書として取り扱うことで検索条件に対する関連語の抽出、および、検索条件の拡張を行う。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】山田 誠二, 小野田 崇 (2003). 適合フィードバックによる文書検索 日本化学会情報化学部会誌, 21 巻 (2003) 2 号, 32
【特許文献】
【0007】
【発明の開示】
【発明が解決しようとする課題】
【0008】
非特許文献1に記載があるように、適合フィードバックは、ユーザが複数の適合文書、非適合文書を評価することを前提とした手法が多い。検索の用途にもよるが、ユーザが検索するたびに複数の文書について適合性を評価することは非常に手間がかかる。この問題を解決するため、特許文献1に記載のように、検索結果上位の文書を擬似的な適合文書として取り扱う方法も考えられるが、検索結果上位の文書の大半が非適合文書の場合、逆に検索精度を低下させてしまう可能性がある。また、非適合文書の評価に比べて、適合文書を選択することは比較的難しいという問題もある。
【0009】
そこで、本発明は、ユーザが所望する文書へ到達しやすくする検索システムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の情報処理システムは、ユーザから受け付けた検索リクエストに基づき検索された文書に対して、ユーザからフィードバックを受け付ける受付手段と、前記受付手段により受け付けたフィードバックの内容に基づき、検索された文書の検索スコアの調整を行う調整手段と、前記調整手段により調整された検索スコアに基づき、検索結果を表示する表示手段と、を備えることを特徴とする。
【発明の効果】
【0011】
本発明によれば、ユーザが所望する文書へ到達しやすくする検索システムを提供することが可能になる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施形態における、文書検索システムのシステム構成の一例を示す図である。
【
図2】本発明の実施形態における、文書検索システムのハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態における、文書DBの一例を示す図である。
【
図4】本発明の実施形態における、文書別、キーワード別のtf-idf値一覧の一例である。
【
図5】本発明の実施形態における、検索結果の一例を示す図である。
【
図6】本発明の実施形態における、特徴語付き検索結果の一例を示す図である。
【
図7】本発明の実施形態における、ユーザインターフェースの一例を示す図である。
【
図8】本発明の実施形態における、検索スコア調整処理の一例を示すフローチャートである。
【
図9】本発明の実施形態における、適合文書に関するスコア調整ルールの一例を示す図である。
【
図10】本発明の実施形態における、非適合文書に関するスコア調整ルールの一例を示す図である。
【
図11】本発明の実施形態における、ユーザインターフェースの一例を示す図である。
【
図12】本発明の実施形態における、ユーザインターフェースの一例を示す図である。
【
図13】本発明の実施形態における、ユーザインターフェースの一例を示す図である。
【
図14】本発明の実施形態における、検索処理の全体像を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0014】
図1は、本発明の実施形態における文書検索システム(情報処理システム)のシステム構成の一例を示す図である。
【0015】
文書検索システム100は、文書登録装置110、文書DB120、文書検索装置130、クライアント端末から成る。
【0016】
文書登録装置110は、ユーザの検索対象とする文書を登録するための装置であり、文書受信部111、キーワード抽出部112、文書登録処理部113から成る。
【0017】
文書受信部111は、登録対象の文書を受け付けるための装置である。ユーザはクライアント端末のWebブラウザなどを通じて任意の文書を文書受信部111に送信できる。あるいは、クローラが機械的に文書を収集して送信するような構成をとってもよい。
【0018】
キーワード抽出部112は、文書受信部111が受け付けた文書から、当該文書における特徴語の候補となるキーワードとその出現頻度を抽出するための装置である。特徴語の詳細については後述する。キーワード抽出部112におけるキーワード抽出処理は、公知の形態素解析技術を用いる。ここで、抽出する形態素は、検索システムの用途に応じて、固有名詞などの特定の品詞に限定してもよい。また、形態素解析を使用せずに、事前に定めたパターンに一致する文字列をキーワードとして抽出してもよい。
【0019】
文書登録処理部113は、文書受信部111で受け付けた文書と、キーワード抽出部112において抽出したキーワードとを紐づけて、文書DB120へ格納する装置である。
【0020】
図3は文書DB120の一例である。文書DB120は、文書を一意に識別するための文書ID121、および、キーワード抽出部112が抽出した値を格納するキーワード:出現頻度122を項目として備える。例えば、文書DB120のレコード123について、文書IDは「文書1」であり、キーワードは「A」、「B」、「C」、「G」の4つで、各キーワードの文書1内における出現頻度は、それぞれ「3」、「1」、「2」、「1」である。なお、本アイデアを説明するための最小限の構成として、前述の2項目を例示しているが、文書のタイトルや、文書の所在を示すURLなど、検索システムとして利用する項目を追加で備えてもよい。
【0021】
図1に戻って、文書検索装置130は、検索処理部131、特徴語抽出部132、検索結果出力処理部133から成る。
【0022】
検索処理部131は、ユーザからの検索リクエストを受け付け、文書DBからリクエストに応じた文書を検索する装置であり、検索リクエストに関連のある文書をスコア順に取得する機能を備える。効率的な検索処理を実現するためには、文書登録処理部113において、公知の技術である転置インデックスを作成して検索時に用いればよい。本発明における、ユーザが選択した適合文書、および、非適合文書を用いた検索スコアの調整処理についても、この検索処理部131が実施する。検索スコアの調整処理については、後に例を用いて詳しく説明する。
【0023】
特徴語抽出部132は、検索処理部131が取得した検索結果の各文書について、文書DB120から、文書ごとの特徴的なキーワード(特徴語)を選出する装置である。特徴語の選出は、単語の特徴量を表す指標の1つであるtf-idfを用いることで実現できる。
【0024】
図4は、文書DB120における、各文書のキーワードごとのtf-idf値を表している。例えば、文書1における特徴語を2つ選出する場合は、文書1におけるtf-idf値の高い順に「C」、「B」を特徴語として抽出することが可能である。tf-idf値を用いた特徴語の取得方法はあくまでも一例であり、他の手法を用いて取得してもよい。
【0025】
検索結果出力処理部133は、検索処理部131で得た検索結果、および、特徴語抽出部132で得た特徴語を、検索リクエストを送信したクライアントに返却する装置である。文書検索システム100のユーザは、Webブラウザなどを通じて、検索結果、および、文書ごとの特徴語を確認することができる。
【0026】
図2は、本発明の実施形態におけるクライアント端末、文書検索システム100として用いることが可能な情報処理装置のハードウェア構成の一例を示すブロック図である。
【0027】
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
【0028】
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
【0029】
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0030】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0031】
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0032】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0033】
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0034】
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0035】
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0036】
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
【0037】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0038】
まず、
図14のフローチャートを用いて、本発明の処理の全体像を説明する。
【0039】
ステップS1401では、クライアント端末を介してユーザから検索リクエストを受け付ける。
【0040】
ステップS1402では、ステップS1401で受け付けた検索リクエストに基づき、検索処理部131が文書DBからリクエストに応じた文書を検索する。
【0041】
ステップS1403では、ステップS1402における検索処理の結果をクライアント端末に表示する。検索結果が表示された画面の一例を
図7に示す。
【0042】
ステップS1404では、ユーザから検索結果に対するフィードバックを受け付けたか判定し、フィードバックを受け付けた場合(ステップS1404:YES)は、処理をステップS1405に移行する。
【0043】
ステップS1405では、ユーザから受け付けたフィードバックの内容に従い、検索スコアの調整を行う。検索スコアの調整処理の詳細は、
図8のフローチャートを用いて後述する。
【0044】
ステップS1406では、ステップS1405において調整された検索スコアに基づく検索結果画面をクライアント端末に表示する。調整後の画面の例を
図11、
図12、
図13に示す。
【0045】
図11等に示す通り、調整後の画面においても、さらにフィードバックを受け付けることが可能であり、フィードバックを受け付けた場合は、再びステップS1405、S1406の処理を実行する。
【0046】
次に
図5~
図13を用いて、本発明の実施形態における検索スコアの調整処理について説明する。
【0047】
図5は、ステップS1401において、ユーザから検索条件としてキーワード「A」を含む文書を検索する旨のリクエストを受け付けた場合に、検索処理部131が取得する検索結果の一例を示した図である。検索結果500は、文書ID501と、検索条件との関連度を表すスコア502を含む要素の配列であり、スコア502の値に降順でソートしたものである。例えば、検索結果500の要素503は、文書IDが「文書1」、スコアが「0.029」である。ここで、説明を簡略化するため、検索条件に含まれるキーワードのtf-idf値の合計をスコアとして、スコアの高い順に上位3件を表示する例を示したが、BM25などの公知のアルゴリズムを用いてもよい。また、取得する検索結果の数も、検索結果を描画するユーザインターフェースに合わせて増減させてもよい。
【0048】
図6は、検索結果500の各文書に対して特徴語抽出部132が抽出した特徴語を付与した結果の一例である。説明を簡略化するため、特徴語の抽出方法は、tf-idf値の高い順に2つ抽出する方法を例示するが、公知の文書分類技術により自動的に分類した文書のカテゴリとしてもよいし、あらかじめ定めたルールに従って抽出してもよい。また、ユーザインターフェースに合わせて取得する数を増減させてもよい。また、各文書に関する特徴語を事前に計算しておき、文書DB120と紐づけて保存しておく、あるいは、検索処理実行時において取得した特徴語を一定時間キャッシュしておく、など、特徴語の取得処理について高速化を行う工夫を施してもよい。
【0049】
図7は、ステップS1403において、検索結果出力処理部133がクライアント端末のブラウザに表示するユーザインターフェースの一例である。ユーザインターフェース700は、検索条件入力フォーム701と、検索結果サマリ702に加え、検索結果の文書ごとに特徴語601を表示する領域と、ユーザが文書の適合、非適合をシステムにフィードバックするためのインターフェースとして、スコアUPボタン703、スコアDOWNボタン704とを備えることを特徴とする。
図7は、検索条件としてキーワード「A」を含む文書の検索が行われた後の状態を示しており、検索結果サマリ702は、キーワードAを含む文書は全部で6件あり、そのうち、スコアの上位3件が画面上に表示されていることを表している。
【0050】
特徴語601は、後述の検索スコア調整処理において使用する値であるが、特徴語を表示することで、文書が適合文書であるか非適合文書であるか、ユーザの判断を容易にする効果がある。なお、各文書の情報として、文書のタイトルや、検索条件のキーワード周辺のテキストなど、検索結果をより分かりやすくするために表示する情報を追加して表示してもよい。
【0051】
ユーザは、スコアUPボタン703を押下することにより、システムに当該文書が適合文書である旨をフィードバックすることができる。また、スコアDOWNボタン704を押下することにより、システムに当該文書が非適合文書である旨をフィードバックすることができる。
【0052】
次に、
図8を用いて、ステップS1405の処理の詳細を説明する。
【0053】
図8は、文書検索システム100のCPU201が所定の制御プログラムを読み出して実行する処理であり、検索処理部131における検索スコアの調整処理を示すフローチャートである。ステップS801~ステップS805において、検索条件にマッチした各文書の検索スコアを調整する処理を行う。
【0054】
まず、ステップS802、ステップS803において、ユーザから適合文書とフィードバックを受けた各文書について、適合文書に関するスコア調整ルールに従い、各文書の検索スコアを調整する。
【0055】
図9は適合文書に関する検索スコアの調整ルールの一例である。適合文書に関するスコア調整ルール900は、複数のルールを定義可能であり、各ルールは、適用順901、スコア調整条件902、スコア調整値903を値としてもつ。すべてのルールを適用順に評価し、評価対象の文書がスコア調整条件902に該当する場合、スコア調整値に記載の値を用いて検索スコアを更新する。具体例については後述する。
【0056】
図8に戻って、ステップS804、ステップS805において、ユーザから非適合文書とフィードバックを受けた各文書について、非適合文書に関するスコア調整ルールに従い、各文書の検索スコアを調整する。
【0057】
図10は非適合文書に関する検索スコアの調整ルールの一例である。非適合文書に関するスコア調整ルール1000は、適合文書に関するスコア調整ルール900と同様に、複数のルールを定義可能であり、各ルールは、適用順1001、スコア調整条件1002、スコア調整値1003を値としてもつ。すべてのルールを適用順に評価し、評価対象の文書がスコア調整条件1002に該当する場合、スコア調整値に記載の値を用いて検索スコアを更新する。
【0058】
以下、前述の例を用いて、さらに詳しく説明する。
図7におけるユーザインターフェース700の状態において、ユーザが文書1のスコアDOWNボタンを押下した(文書1を非適合文書として指定した)場合、検索処理部131は、文書1を非適合文書として検索スコアの調整に用いる。文書1の特徴語は「C」、「B」である。非適合文書に関するスコア調整ルール1000より、特徴語を30%以上、すなわち、キーワード「C」、「B」の少なくともいずれかを含む文書(文書1、文書4、文書6)の検索スコアを0.5倍し、さらに、特徴語を70%以上、すなわち、キーワード「C」、「B」の両方を含む文書(文書1、文書6)の検索スコアについてはさらに0.5倍する。
【0059】
図11は、ステップS1406においてクライアント端末に表示される、非適合文書1による検索スコアの調整が行われた後のユーザインターフェース700である。ユーザが適合文書、または、非適合文書として指定した文書が存在する場合、検索結果出力処理部133は、ユーザインターフェース700に、ユーザが指定した文書によってスコアの調整が行われていることを示すスコア調整ラベル750を表示する。スコア調整ラベル750は、適合文書、または、非適合文書を示すラベル751と、文書ラベル752と、解除ボタン753からなる。ユーザは、解除ボタン753を押下することで、当該文書をフィードバックの対象から解除することができる。
【0060】
本発明のユーザインターフェース700を用いると、ユーザはスコア調整後の検索結果を見ながら、さらに適合文書・非適合文書のフィードバックを実施することが可能である。
図11におけるユーザインターフェース700の状態において、ユーザが文書5のスコアUPボタンを押下した(文書5を適合文書として指定した)場合、検索処理部131は、文書1を非適合文書、文書5を適合文書として検索スコアの調整に用いる。文書5の特徴語は「F」、「E」である。適合文書に関するスコア調整ルール900より、特徴語を30%以上、すなわち、キーワード「F」、「E」の少なくともいずれかを含む文書(文書2、文書3、文書5、文書7)の検索スコアを2倍し、さらに、特徴語を70%以上、すなわち、キーワード「F」、「E」の両方を含む文書(文書5、文書7)の検索スコアについてはさらに2倍する。
【0061】
図12は、
図11の状態から、非適合文書1、および、適合文書5による検索スコアの調整が行われた後のユーザインターフェース700である。文書1が非適合文書としてスコアの調整に用いられていることを表すスコア調整ラベル750に加え、文書5が適合文書としてスコアの調整に用いられていることを表すスコア調整ラベル760をそれぞれ表示する。このように、スコア調整ラベルは、ユーザが指定した文書に対応するものをすべて表示する。
図12において、検索結果として表示されている文書は「文書5」、「文書7」、「文書2」であり、フィードバックを行う前の文書集合とは異なるものが出現している。
【0062】
以上で説明したように、本発明は、ユーザによる適合フィードバックによって検索条件自体を拡張するのではなく、ユーザが選択した適合文書に類似する文書についてはスコアを向上させ、ユーザが選択した非適合文書に類似する文書のスコアを減少させることで、検索結果として出力する文書集合の拡張や縮小は行わず、検索結果として表示する順番の調整を行うことを特徴とする。
【0063】
このように、適合フィードバックによる影響をスコアの調整のみにとどめることにより、ユーザが判定した文書から望ましくない特徴が抽出された場合においても、検索条件と関係のない文書が検索結果として追加されることがなくなる。ユーザは、提示された検索結果に含まれる文書について、適合文書、または、非適合文書を1つ選択するという簡単な操作を繰り返すことによって、探したい文書を探索することが可能になる。 本発明を用いることで、ユーザは適合文書・非適合文書を1つずつ対話的に選択するという簡易な操作によって、検索結果の上位に出現する文書を、自身が所望する文書に近づけることが可能になることを示した。
【0064】
上記で説明した、適合文書に関するスコア調整ルール900、および、非適合文書に関するスコア調整ルール1000を用いたスコアの調整は、フィードバックされた文書と類似する文書のスコアを調整することに相当する。説明を簡略化するため、スコア調整条件については特徴語の含有率を用いる簡単なものとしたが、文書の類似度を評価する方法として、文書をベクトル化してベクトル間の距離を算出する手法を用いてもよいし、文書のカテゴリを推定し、同一カテゴリに所属する文書を類似文書と見做してもよい。また、スコア調整値においても、定数倍や定数値の加算を定義するのみならず、検索結果のスコアを用いて動的に調整(非適合文書として指定された文書について検索結果の上位から除外する程度のスコア調整(例えばスコアをゼロにする等)を行うなど)する方法をとってもよい。スコア調整ルールは複数定義可能であるため、これら複数の手法を組み合わせてもよい。
【0065】
スコア調整ラベルは、ユーザがフィードバックした文書を検索過程で明確にするためのものである。どのようなスコア調整が行われているかをユーザが把握しやすくするために、
図13に示すように、スコア調整ラベルへのホバー操作やクリック操作によって、特徴語などの文書のサマリを表示する機能を設けてもよい。文書のカテゴリを推定している場合、当該情報も表示することが考えられる。
【0066】
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0067】
また、本発明におけるプログラムは、
図8、
図14に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は
図8、
図14の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは
図8、
図14の各装置の処理方法ごとのプログラムであってもよい。
【0068】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0069】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0070】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0071】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0072】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0073】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0074】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0075】
100 文書検索システム(情報処理システム)
110 文書登録装置
120 文書DB
130 文書検索装置