(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022033643
(43)【公開日】2022-03-02
(54)【発明の名称】情報処理システム、情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
G06F 16/332 20190101AFI20220222BHJP
G06F 13/00 20060101ALI20220222BHJP
G06F 16/383 20190101ALI20220222BHJP
【FI】
G06F16/332
G06F13/00 540E
G06F16/383
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2020137642
(22)【出願日】2020-08-17
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】蔵満 琢麻
【テーマコード(参考)】
5B084
5B175
【Fターム(参考)】
5B084AA01
5B084AA26
5B084AB01
5B084AB11
5B084BB01
5B084CA11
5B084CB06
5B084CC15
5B084CD12
5B084CD22
5B084CE12
5B175DA01
5B175FA01
5B175HA05
(57)【要約】 (修正有)
【課題】十分な検索履歴が獲得できない検索システムにおいても、ユーザが入力したクエリに関連するキーワード(追加の絞り込み条件)を提示することが可能となる技術を提供する。
【解決手段】文書検索システムにおいて、文書検索装置は、文書を検索する検索処理部と、予め設定された文書数と検索処理部により検索された文書数とのうち、小さい数の文書を集計範囲として決定し、当該文書の数を所定の割合に絞り込み可能な絞り込みワードを抽出する決絞り込みキーワード抽出部と、決定したワードをユーザに通知する検索結果出力処理部と、を有する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
文書を検索する検索手段と、
前記検索手段において検索された文書を絞り込むための絞り込みワードを決定する決定手段と、
前記決定手段により決定されたワードを通知する通知手段と
を備えることを特徴とする情報処理システム。
【請求項2】
前記決定手段は、検索手段により検索された文書の数を所定の割合に絞り込み可能なワードを前記絞り込みワードとして決定することを特徴とする請求項1に記載の情報処理システム。
【請求項3】
予め設定された文書数と、前記検索手段により検索された文書数とのうち、小さい数の文書を集計範囲として決定する集計範囲決定手段を備え、
前記決定手段は、前記集計範囲決定手段で決定された文書の数を前記所定の割合に絞り込み可能なワードを前記絞り込みワードとして決定すること
を特徴とする請求項2に記載の情報処理システム。
【請求項4】
前記決定手段は、
前記集計範囲決定手段で決定された文書のうち前記所定の割合の文書数の文書に出現するワードを、前記絞り込みワードとして決定することを特徴とする請求項2または3に記載の情報処理システム。
【請求項5】
文書と、当該文書に含まれる当該文書を特徴付けるワードである候補ワードを対応付けて記憶する記憶手段を備え、
前記決定手段は、前記候補ワードのうち、前記集計範囲決定手段で決定された文書における候補ワードの出現文書数が前記所定の割合の文書数に近い順に所定数の候補ワードを、前記絞り込みワードとして決定することを特徴とする請求項3または4に記載の情報処理システム。
【請求項6】
前記出現文書数と前記所定の割合の文書数との差が同一である候補ワードが複数ある場合、当該候補ワードの特徴量に基づき絞り込みワードを決定することを特徴とする請求項5に記載の情報処理システム。
【請求項7】
前記所定の割合は、5割であることを特徴とする請求項2乃至6のいずれか1項に記載の情報処理システム。
【請求項8】
前記通知手段により通知された絞り込みワードに対する選択操作を受け付ける受付手段と、
前記受付手段により選択を受け付けた絞り込みワードを検索条件として追加する追加手段と、
を備えることを特徴とする請求項1乃至7のいずれか1項に記載の情報処理システム。
【請求項9】
前記追加手段は、前記選択手段により選択された絞り込みワードをAND条件の検索条件として追加することを特徴とする請求項8に記載の情報処理システム。
【請求項10】
前記追加手段は、前記選択手段により選択された絞り込みワードをNOT条件の検索条件として追加することを特徴とする請求項8に記載の情報処理システム。
【請求項11】
文書を検索する検索ステップと、
前記検索ステップにおいて検索された文書を絞り込むための絞り込みワードを決定する決定ステップと、
前記決定ステップにより決定されたワードを通知する通知ステップと
を備えることを特徴とする情報処理方法。
【請求項12】
コンピュータを
文書を検索する検索手段と、
前記検索手段において検索された文書を絞り込むための絞り込みワードを決定する決定手段と、
前記決定手段により決定されたワードを通知する通知手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理装置、情報処理方法、プログラムに関する。
【背景技術】
【0002】
企業内に電子化された文書が増えるにつれ、業務上必要な文書を効率的に検索するための文書検索システムの重要性が高まっている。ここで、文書検索システムとは、ユーザが入力した検索クエリに関連する文書集合をユーザに提示するものである。当該システムにおいて、ユーザは必ずしも一度の検索で目的の文書を取得できるとは限らず、入力した検索クエリに関する文書が大量にヒットするケースも少なくない。このような場合、ユーザは追加のキーワードを検索クエリに含めるなどして、検索結果を絞り込む作業を繰り返し実施することになるが、検索結果を絞り込むための適切なキーワードが思いつかず、必要な文書を見つけるまでに多くの時間を費やすことがある。
【0003】
特許文献1には、検索システムのユーザが過去に検索したクエリから、クエリ間の関係性をスコアリングし、ユーザの検索時において、ユーザが入力したクエリと関連するクエリをスコアの高い順に提示する方法について開示されている。
【0004】
また、特許文献2には、ユーザの入力したクエリを事前に定めたルールに基づきグループ化して登録し、ユーザの検索時において、同じグループに属するクエリを提示する方法について開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2012-3532号公報
【特許文献2】特開2013-196435号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
特許文献1、特許文献2に記載されたいずれの技術も、過去に入力されたことのあるクエリを提示する技術であるが、必ずしも過去の検索履歴を提示することが常に有用な提示であるとは限らない。 そこで、本発明では、ユーザが効率的に検索結果を絞り込むことが可能な仕組みを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の情報処理システムは、文書を検索する検索手段と、前記検索手段において検索された文書を絞り込むための絞り込みワードを決定する決定手段と、前記決定手段により決定されたワードを通知する通知手段とを備えることを特徴とする。
【0008】
また、本発明の情報処理方法は、文書を検索する検索ステップと、前記検索ステップにおいて検索された文書を絞り込むための絞り込みワードを決定する決定ステップと、前記決定ステップにより決定されたワードを通知する通知ステップとを備えることを特徴とする。
【0009】
また、本発明のプログラムは、コンピュータを文書を検索する検索手段と、前記検索手段において検索された文書を絞り込むための絞り込みワードを決定する決定手段と、前記決定手段により決定されたワードを通知する通知手段として機能させることを特徴とする。
【発明の効果】
【0010】
本発明によれば、ユーザが効率的に検索結果を絞り込むことが可能となる。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施形態における、文書検索システムのシステム構成の一例を示す図である。
【
図2】本発明の実施形態における、文書検索システム100の文書登録装置110、文書DB120、文書検索装置130に適用可能な情報処理装置のハードウェア構成の一例を示す図である。
【
図3】本発明の実施形態における、文書DBのテーブルの一例を示す図である。
【
図4】本発明の実施形態における、検索結果の一例を示す図である。
【
図5】本発明の実施形態における、絞り込みワードを抽出する抽出処理の一例を示すフローチャートである。
【
図6】本発明の実施形態における、抽出した絞り込みワードが表示された検索結果表示画面の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して、本発明の実施形態を詳細に説明する。なお、以下に説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施形態の一つである。
【0013】
図1は、本発明の実施形態における文書検索システムのシステム構成の一例を示す図である。
【0014】
本発明における実施形態における文書検索システム100は、文書登録装置110、文書DB120、文書検索装置130から構成され、ネットワークを介して通信可能に接続されている。
【0015】
文書登録装置110は、ユーザの検索対象とする文書を文書DB120に登録するための装置であり、文書受信部111、キーワード抽出部112、文書登録処理部113から構成されている。
【0016】
文書受信部111は、登録対象の文書を受け付けるための機能部である。ユーザからWebブラウザなどを通じて任意の文書が送信されることで、文書を受信する。また、クローラが機械的に文書を収集して送信するような構成をとってもよい。
【0017】
キーワード抽出部112は、文書受信部111が受け付けた文書から、ユーザに絞り込み条件の手がかりとして表示する候補となるキーワード(候補ワード)を抽出するための機能部である。キーワード抽出部112におけるキーワード抽出処理は、公知の形態素解析技術を用いることで実現できる。ここで、抽出する形態素は、検索システムの用途に応じて、固有名詞などの特定の品詞に限定してもよい。また、形態素解析を使用せずに、事前に定めたパターンに一致する文字列をキーワードとして抽出してもよい。
【0018】
文書登録処理部113は、文書受信部111で受け付けた文書と、キーワード抽出部112において抽出したキーワードとを紐づけて、文書DB120への格納する機能部である。
【0019】
図3は文書DB120のテーブル構成の一例である。文書DB120は、文書を一意に識別するための文書ID121、および、キーワード抽出部112が抽出した値を格納するキーワード122を項目として備える。例えば、文書DB120のレコード123について、文書IDは「文書1」であり、キーワードは「A」、「B」、「C」の3つである。なお、本アイデアを説明するための最小限の構成として、前述の2項目を例示しているが、文書のタイトルや、文書の所在を示すURLなど、検索システムとして利用する項目を追加で備えてもよい。
【0020】
図1に戻って、文書検索装置130は、検索処理部131、絞り込みワード抽出部132、検索結果出力処理部133から成る。
【0021】
検索処理部131は、ユーザからの検索リクエストを受け付け、文書DBからリクエストに応じた文書を検索する装置であり、検索リクエストに関連のある文書をスコア順に取得する機能を備える。文書登録処理部113において、公知の技術である転置インデックスを作成して検索時に用いることで、効率的な検索処理を実現できる。
【0022】
絞り込みワード抽出部132は、検索処理部131が取得した検索結果と文書DB120から、検索条件を絞り込むためのワードを抽出する装置である。絞り込みワード抽出部132における絞り込みワードの抽出処理については、後に例を用いて詳細を記述する。
【0023】
検索結果出力部133は、検索処理部131で得た検索結果、および、絞り込みワード抽出部132で得た絞り込みワードを、検索リクエストを送信したクライアントに返却する機能部である。文書検索システム100のユーザは、Webブラウザなどを通じて、検索結果、および、絞り込みワードを確認することができる。
【0024】
図2は、本発明の実施形態における文書検索システム100の文書登録装置110、文書DB120、文書検索装置130に適用可能な情報処理装置のハードウェア構成の一例を示す図である。
【0025】
図2に示すように、情報処理装置は、システムバス204を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、よび通信I/Fコントローラ208が接続される。
【0026】
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
【0027】
ROM202あるいは外部メモリ211は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0028】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0029】
入力コントローラ205は、キーボード209や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0030】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0031】
ビデオコントローラ206は、ディスプレイ210などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0032】
なおビデオコントローラ206は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0033】
メモリコントローラ207は、外部メモリ211へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0034】
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の3G回線を用いた通信が可能である。
【0035】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上での表示を可能としている。また、CPU201は、ディスプレイ210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0036】
次に
図4~
図5を用いて、本発明の実施形態における絞り込みワード抽出部132が実行する処理について説明する。
【0037】
図4は、検索処理部131が取得する検索結果の一例である。検索結果400は、文書ID401と、検索クエリとの関連度を表すスコア402を含む要素の配列であり、スコア402の値に降順でソートしたものである。例えば、検索結果400の要素403は、文書IDが「文書4」、スコアが「90」である。なお
図4に示す例では、スコアの数値が大きい方が検索クエリとの関連の強い文書であることを意味している。絞り込みワード抽出部132は、検索処理部131が取得した検索結果400と文書DB120を用いて、検索条件を絞り込むための絞り込みワードの抽出を行う。
【0038】
図5のフローチャートは、文書検索システム100のCPU201が所定の制御プログラムを読み出して実行する処理であり、検索処理部131が取得した検索結果から絞り込みワードを抽出する処理を示すフローチャートである。
【0039】
ステップS501では、集計対象文書数SとMIDPOINTの取得処理を実施する。ここで、集計対象文書数Sは、検索クエリと関連の強い文書数を表す数であり、以下の式で求める。
【0040】
集計対象文書数S = Min(検索結果の文書数, 最大集計対象文書数X)
【0041】
集計対象文書数Sには、検索クエリに対する検索結果の文書数と、検索システム100に予め設定されている値である最大集計対象文書数Xとを比較して、値が小さいものが設定される。そして、この設定された集計対象文書数Sを2で割ることでMIDPOINTが算出される。
【0042】
例えば、検索結果の文書数が50、予め設定されている最大集計対象文書数Xが100だった場合は、検索結果の文書数の値の方が小さいので、集計対象文書数Sは50となる。MIDPOINTは、集計対象文書数Sを半分にした値であるため、この場合は25となる。また、検索結果の文書数が6で、最大集計対象文書数Xが4であった場合は、検索結果の文書数と最大集計対象文書数Xを比較すると、最大集計対象文書数Xの値の方が小さい。そのため、最大集計対象文書数Xの値である4が集計対象文書数Sとして設定される。MIDPOINTは、集計対象文書数Sを半分にした値であるため、この場合は2が設定される。このようにして、集計対象文書数Sの値を求め、MIDPOINTを算出する。
【0043】
以下、検索結果の文書数が6で、最大集計対象文書数Xが4であった場合の例で、説明を進める。
【0044】
ステップS502では、検索クエリとの関連度を示すスコア402が上位S件の文書のうち、各キーワードが出現する文書数を文書DB120に登録された情報を参照して集計する。前述の例において、S=4であるため、検索結果400から、スコアが4位までの文書である文書4、文書2、文書3、文書1の4つの文書のうち各キーワード122が出現する文書数は、キーワードAが4つ(文書1~4全てに出現)、キーワードBが2つ(文書AとBに出現)、キーワードCが3つ(文書1、3、4に出現)、キーワードDが1つ(文書4にのみ出現)との結果を得る。
【0045】
ステップS503では、キーワードごとに出現文書数とMIDPOINTとの距離(|MIDPOINT-出現文書数|)を算出する。本実施例では、MIDPOINTは2であるので、前述の例において、キーワードA:2、キーワードB:0、キーワードC:1、キーワードD:1である。
【0046】
ステップ504では、距離に昇順でキーワードをソートする。前述の例においては、B、C、D、Aの順のキーワード列を得る。
【0047】
ステップS505では、先頭からN個のキーワードを絞り込みワードとして抽出する。ここで、N=2とすると、キーワードB、キーワードCの2つが、絞り込みワードとして抽出される。
【0048】
ここで、Nはユーザに提示する絞り込みワード数の最大値を表しており、キーワードの数がNに満たない場合は、全てのキーワードを抽出する。
【0049】
以上で説明したように、絞り込みワード抽出部132が抽出するワードは、検索クエリと関連の高い文書の数をおおよそ2等分するためのワードである。検索システム100のユーザは絞り込みワードを参照し、当該ワードを検索クエリとしてAND条件として追加したり、NOT条件として追加することによって、検索結果を効率的に絞り込んでいくことが可能になる。
【0050】
なお、絞り込みワードとしては、上述の通り、AND条件としてもNOT条件としても適したワードを抽出するため、検索結果の文書数を2等分するワード(すなわち、情報量の多い単語)を抽出することが効果的である。
【0051】
なお、本実施例においては、上述の理由から検索結果の文書数を2等分するワードを抽出する実施例を説明したが、AND条件として設定した場合に検索結果の文書数を3割に絞り込むワードを抽出するといったように、どの程度の絞り込みをするためのワードを抽出するかを設定可能にしてもよい。AND条件で3割に絞り込むためのワードを抽出する場合には、集計対象文書数Sに0.3を乗じた値をMIDPOINTとして用いる。
【0052】
また、集計対象文書数Sについては、検索結果の文書数と予め設定された最大集計対象文書数Xのいずれか小さい方の値とする実施例を説明したが、検索結果のスコア(検索クエリとの関連度を示す値)を利用し、例えばスコアが所定値以上の文書の数を用いたり、得られた検索結果における最大のスコアから所定範囲内のスコアをもつ文書の数を集計対象文書数Sとして用いてもよい。
【0053】
また、ステップS504~S505において、MIDPOINTからの距離が近い順に絞り込みワードを抽出したが、距離が等しいワード(例えば本実施例におけるキーワードCとD)について、いずれを絞り込みワードとして抽出するかを決定するにあたり、JLHスコア(指定範囲における出現割合と全体における出現割合とを比較して算出されるスコア)やMutual information(相互情報量)といった各ワードの特徴量に基づき、絞り込みワードとして抽出するワードを決定しても良い。これにより、絞り込み後の文書をより特徴付けるワードを絞り込みワードとして決定できることから、効率的な絞り込みが可能となる。
【0054】
次に
図5のフローチャートに示す処理によって抽出された絞り込みワードが表示された検索結果画面について、
図6を用いて説明する。
【0055】
図6は、検索結果が表示された画面の一例を示す図である。
【0056】
601は、検索対象の文書を絞り込むための条件を受け付ける入力部であり、
図6の例では「influenzaqa」となっており、インフルエンザに関するQ&Aに分類された文書を検索対象としていることを意味している。602は検索クエリの入力を受け付ける入力欄である。ユーザにより入力欄602にキーワードが入力され、検索ボタン603が押下されると、検索処理部131による検索処理や
図5のフローチャートに示す処理が実行される。
図6の例では、「発熱」というキーワードを含む文書が検索された例を示している。
【0057】
605は、
図5のフローチャートで示す処理により抽出された絞り込みワードの一覧である(
図6の例では、上述の説明とは異なり、N=10と設定された例である。)
608は検索された文書の概要を表示する領域である。607は検索クエリとの関連度を示すスコアである。また、文書が属するカテゴリ609や、当該文書に特徴的に出現する単語である特徴語610も表示される。
【0058】
ユーザにより605に表示された絞り込みワード一覧から絞り込みワードが選択(例えばクリック操作を受け付けることによる選択)されると、当該絞り込みキーワードが検索クエリとして追加される。
【0059】
例えば、絞り込みワード一覧605のうちの「急性」606が選択されると、検索クエリ602には、「急性」が追加される。追加されるワードをAND条件でつなぐかNOT条件でつなぐかは、選択時のユーザ操作(例えば通常のクリックならAND条件、ダブルクリックならNOT条件)に応じて決定されても良い。
【0060】
なお、特徴語一覧610に表示されたワードについても、絞り込みワードと同様に検索クエリとして追加することが可能である。
【0061】
本実施例では、上述のような構成で絞り込みワードが表示される画面について説明したが、本願発明における表示画面の構成はこの限りではない。検索クエリ602に入力した検索キーワードが、検索結果の文書に含まれている場合、表示画面に表示される検索結果文書の文書概要608内の検索キーワードを太字や斜線にするなどの強調表示処理を行ってもよい。
【0062】
また、絞り込みワード一覧605の各絞り込みワードの上に、マウスポインタ等の操作指示部を重ねることで、当該絞り込みワードと紐づいた文書数が表示されてもよい。
【0063】
また、検索クエリ602の横や検索ボタン603の下などに、検索結果の文書の内、所定のスコアがついている文書のみを表示するよう指示する指示部を設けて、表示する検索結果の文書数を調整可能にしてもよい。
【0064】
以上が
図6の抽出された絞り込みワードを表示する表示画面の説明である。
【0065】
以上のように、本発明によれば、検索された文書のうち所定の割合(好適には5割)に含まれるワードを検索結果の絞り込みをするためのワード(絞り込みワード)として提示することで、ユーザは効率的に検索結果を絞り込むことが可能となり、所望の文書を効率的に見つけることが可能となる。
【0066】
以上、本発明の実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0067】
また、本発明におけるプログラムは、
図5に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は
図5の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは
図5の各装置の処理方法ごとのプログラムであってもよい。
【0068】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0069】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0070】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0071】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0072】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0073】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0074】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0075】
100 文書検索システム
110 文書登録装置
111 文書受信部
112 キーワード抽出部
113 文書登録処理部
120 文書DB
130 文書検索装置
131 検索処理部
132 絞り込みキーワード抽出部
133 検索結果出力処理部
【手続補正書】
【提出日】2022-02-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
文書を検索する検索手段と、
予め設定された文書数と、前記検索手段により検索された文書数とのうち、小さい数の文書を集計範囲として決定する集計範囲決定手段と、
前記集計範囲決定手段で決定された文書の数を所定の割合の文書数に絞り込むための絞り込みワードを通知する通知手段と、
を備えることを特徴とする情報処理システム。
【請求項2】
前記通知手段は、前記集計範囲決定手段で決定された文書のうち前記所定の割合の文書数の文書に出現するワードを、前記絞り込みワードとして通知することを特徴とする請求項1に記載の情報処理システム。
【請求項3】
文書と、当該文書を特徴付けるワードである候補ワードを対応付けて記憶する記憶手段を備え、
前記通知手段は、前記候補ワードのうち、前記集計範囲決定手段で決定された文書に対応付けられた候補ワードであって、前記集計範囲決定手段で決定された文書の数を所定の割合の文書数に絞り込むことが可能な候補ワードを、前記絞り込みワードとして通知することを特徴とする請求項1に記載の情報処理システム。
【請求項4】
前記候補ワードは、前記文書に含まれるワードであって当該文書を特徴付けるワードであることを特徴とする請求項3に記載の情報処理システム。
【請求項5】
前記通知手段は、前記絞り込みワードを用いた絞り込みの結果が前記所定の割合の文書数に近い順に、前記絞り込みワードを通知することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理システム。
【請求項6】
前記通知手段は、所定数の絞り込みワードを通知することを特徴とする請求項5に記載の情報処理システム。
【請求項7】
前記所定の割合は、5割であることを特徴とする請求項1乃至6のいずれか1項に記載の情報処理システム。
【請求項8】
文書を検索する検索手段と、
文書と、当該文書を特徴付けるワードである候補ワードを対応付けて記憶する記憶手段と、
前記検索手段により検索された文書に対応付けられた候補ワードを、前記検索手段により検索された文書を絞り込むための絞り込みワードとして通知する通知手段と、
を備えることを特徴とする情報処理システム。
【請求項9】
前記候補ワードは、前記文書に含まれるワードであって当該文書を特徴付けるワードであることを特徴とする請求項8に記載の情報処理システム。
【請求項10】
前記通知手段は、前記検索手段で検索された文書の数を所定の割合の文書数に絞り込むことが可能な候補ワードを絞り込みワードとして通知することを特徴とする請求項8または9に記載の情報処理システム。
【請求項11】
前記通知手段は、前記絞り込みワードを用いた絞り込みの結果が前記所定の割合の文書数に近い順に、前記絞り込みワードを通知することを特徴とする請求項10に記載の情報処理システム。
【請求項12】
前記通知手段は、所定数の絞り込みワードを通知することを特徴とする請求項11に記載の情報処理システム。
【請求項13】
前記所定の割合は、5割であることを特徴とする請求項10乃至12のいずれか1項に記載の情報処理システム。
【請求項14】
前記通知手段は、前記検索手段により検索された文書のうち、検索クエリとの関連度に基づき特定される文書の数を所定の割合に絞り込むワードを通知することを特徴とする請求項10乃至13のいずれ1項に記載の情報処理システム。
【請求項15】
前記通知手段により通知された絞り込みワードに対する選択操作を受け付ける受付手段と、
前記受付手段により選択を受け付けた絞り込みワードを検索条件として追加する追加手段と、
を備えることを特徴とする請求項1乃至14のいずれか1項に記載の情報処理システム。
【請求項16】
前記追加手段は、前記受付手段により選択された絞り込みワードをAND条件の検索条件として追加することを特徴とする請求項15に記載の情報処理システム。
【請求項17】
前記追加手段は、前記受付手段により選択された絞り込みワードをNOT条件の検索条件として追加することを特徴とする請求項15に記載の情報処理システム。
【請求項18】
情報処理システムの検索手段が、文書を検索する検索工程と、
前記情報処理システムの集計範囲決定手段が、予め設定された文書数と、前記検索手段により検索された文書数とのうち、小さい数の文書を集計範囲として決定する集計範囲決定工程と、
前記情報処理システムの通知手段が、前記集計範囲決定工程で決定された文書の数を所定の割合の文書数に絞り込むための絞り込みワードを通知する通知工程と、
を備えることを特徴とする情報処理方法。
【請求項19】
文書と、当該文書を特徴付けるワードである候補ワードを対応付けて記憶する記憶手段を備える情報処理システムにおける情報処理方法であって、
前記情報処理システムの検索手段が、文書を検索する検索工程と、
前記情報処理システムの通知手段が、前記検索工程において検索された文書に対応付けられた候補ワードを、前記検索工程において検索された文書を絞り込むための絞り込みワードとして通知する通知工程と、
を備えることを特徴とする情報処理システム。
【請求項20】
コンピュータを請求項1乃至17のいずれか1項に記載の各手段として機能させるためのプログラム。