IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノンマーケティングジャパン株式会社の特許一覧 ▶ キヤノンITソリューションズ株式会社の特許一覧

<>
  • 特開-情報処理装置、制御方法、プログラム 図1
  • 特開-情報処理装置、制御方法、プログラム 図2
  • 特開-情報処理装置、制御方法、プログラム 図3
  • 特開-情報処理装置、制御方法、プログラム 図4
  • 特開-情報処理装置、制御方法、プログラム 図5
  • 特開-情報処理装置、制御方法、プログラム 図6
  • 特開-情報処理装置、制御方法、プログラム 図7
  • 特開-情報処理装置、制御方法、プログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023056462
(43)【公開日】2023-04-19
(54)【発明の名称】情報処理装置、制御方法、プログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20230412BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022070833
(22)【出願日】2022-04-22
(31)【優先権主張番号】P 2021165142
(32)【優先日】2021-10-07
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】蔵満 琢麻
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175JC07
(57)【要約】
【課題】本発明は、関連する文書に係る情報を効率的に確認できる仕組みを提供することを目的とする。
【解決手段】文書を文書グループに分類する分類手段と、前記分類された文書に係る情報を文書グループごとに集約して表示するよう制御する表示制御手段と、を備え、前記表示制御手段は、前記文書グループに複数の文書が含まれるかを示す情報を表示することを特徴とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
文書を文書グループに分類する分類手段と、
前記分類された文書に係る情報を文書グループごとに集約して表示するよう制御する表示制御手段と、
を備え、
前記表示制御手段は、前記文書グループに複数の文書が含まれるかを示す情報を表示することを特徴とする情報処理装置。
【請求項2】
前記表示制御手段は、前記文書グループを代表する文書に係る情報と、当該文書グループに他の文書が含まれるかを示す情報とを表示することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記文書グループを代表する文書を所定の基準で特定する特定手段を備えることを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記特定手段は、前記文書グループに含まれる文書の日時に係る情報に基づいて、当該文書グループを代表する文書を特定することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記表示制御手段は、前記文書グループに含まれる文書の日時に係る情報に基づいて、当該文書に係る情報を並べて表示することを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記文書は指定された条件で検索された文書であり、
前記特定手段は、前記文書グループに含まれる文書の前記条件で検索された順位に係る情報に基づいて、当該文書グループを代表する文書を特定することを特徴とする請求項3に記載の情報処理装置。
【請求項7】
前記表示制御手段は、前記文書グループに含まれる文書の前記条件で検索された順位に係る情報に基づいて、当該文書に係る情報を並べて表示することを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記表示制御手段は、前記文書グループに含まれる文書の数に係る情報を表示することを特徴とする請求項1または2に記載の情報処理装置。
【請求項9】
前記表示制御手段は、前記文書グループに含まれる文書に係る情報を展開して表示するべく指示を受け付ける受付部を表示することを特徴とする請求項2に記載の情報処理装置。
【請求項10】
前記表示制御手段は、前記文書グループに含まれる複数の文書に係る情報を比較して表示することを特徴とする請求項1または2に記載の情報処理装置。
【請求項11】
前記分類手段は、文書に係る情報どうしの類似性に基づいて分類することを特徴とする請求項1または2に記載の情報処理装置。
【請求項12】
前記分類手段は、文書から取得される特徴語どうしの一致度合いに基づいて分類することを特徴とする請求項11に記載の情報処理装置。
【請求項13】
前記分類手段は、文書の名称どうしの関連性に基づいて分類することを特徴とする請求項11に記載の情報処理装置。
【請求項14】
前記文書は、指定された条件で検索された文書であることを特徴とする請求項1または2に記載の情報処理装置。
【請求項15】
分類手段が、文書を文書グループに分類する分類ステップと、
表示制御手段が、前記分類された文書に係る情報を文書グループごとに集約して表示するよう制御する表示制御ステップと、
を備え、
前記表示制御ステップは、前記文書グループに複数の文書が含まれるかを示す情報を表示することを特徴とする情報処理装置の制御方法。
【請求項16】
情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
文書を文書グループに分類する分類手段と、
前記分類された文書に係る情報を文書グループごとに集約して表示するよう制御する表示制御手段
として機能させ、
前記表示制御手段は、前記文書グループに複数の文書が含まれるかを示す情報を表示することを特徴とするプログラム。


【発明の詳細な説明】
【技術分野】
【0001】
文書に係る情報を表示するよう制御する技術に関する。
【背景技術】
【0002】
企業内に電子化された文書が増えるにつれ、業務上必要な文書を効率的に検索するための文書検索システムの重要性が高まっている。ここで、文書検索システムは、ユーザが入力した検索条件に関連する文書集合をユーザに提示するシステムである。この文書検索システムにおいて、検索クエリに関連する検索結果の一覧として、同じような内容の文書(類似文書)が大量に表示されることがある。これは、資料を作成・更新する際、過去のバージョンを削除せずに保存した場合や、派生文書を作成して保存した場合に発生しやすい。検索結果としてユーザが一望可能な情報量は限られており、似たような文書ばかりが検索結果の上位に並ぶ状況は、ユーザが求める文書を見つけるまでに要する時間の増加要因となる。
【0003】
前述の問題を解決するために、古いバージョンの文書は削除するなど、データの保存方法について運用上のルールを定めることが考えられるが、必ずしも過去のバージョンや派生元の文書が不要であるとも限らず、日々の業務活動において当該運用を徹底することは困難である。
【0004】
特許文献1には、階層的なジャンル(カテゴリ)をもつコンテンツの集合に対して、検索結果をジャンルごとに集約して表示することで、様々な種類のコンテンツを限られた画面領域に出力する方法が記載されている。検索クエリに関連の高いジャンルほど表示数を多くすることで、ユーザにとって重要度の高いジャンルのコンテンツを多数表示しつつ、他ジャンルのコンテンツ表示も可能になる。
【0005】
非特許文献1には、検索結果を一覧表示するときに、類似の文書を一まとめに集約して表示する機能についての言及がある。1画面で確認できる内容の異なる文書を増加させることで、文書探索作業の効率化を図っている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2013-106610号公報
【非特許文献】
【0007】
【非特許文献1】住友電工情報システム(株)、"より高度な拡張検索|全部検索・情報活用ソリューションQuickSolution"、[online]、令和3年3月1日(製品発売日)、[令和3年10月1日検索]、インターネット、<URL: https://www.sei-info.co.jp/quicksolution/functions/extension.html>
【発明の開示】
【発明が解決しようとする課題】
【0008】
特許文献1に記載の技術は、商品の検索サイトなど、検索対象のコンテンツにあらかじめ集約可能なジャンル(カテゴリ)の情報が付与されている場合に使用可能な技術である。社内文書の登録時において、適切なジャンルを設定することは利用者に負担がかかる。また、同一ジャンルとして表示される文書が類似文書で埋まってしまうため、社内文書の検索システムにおける課題の解決策としては不適当である。
【0009】
非特許文献1に記載の技術について、「ファイル本文に高い類似性」を類似文書の判定基準に用いるとの記載があるが、本文の類似性を評価する方法について自明ではない。類似性の判定手段によっては検索実行時間が大幅に増加する恐れがある。
【0010】
本発明は、関連する文書に係る情報を効率的に確認できる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明の情報処理装置は、文書を文書グループに分類する分類手段と、前記分類された文書に係る情報を文書グループごとに集約して表示するよう制御する表示制御手段と、備え、前記表示制御手段は、前記文書グループに複数の文書が含まれるかを示す情報を表示することを特徴とする。
【発明の効果】
【0012】
本発明によれば、関連する文書に係る情報を効率的に確認できるようになる。
【図面の簡単な説明】
【0013】
図1】本発明の実施形態における、文書検索システムのシステム構成の一例を示す図である。
図2】本発明の実施形態における、文書検索システムのハードウェア構成の一例を示すブロック図である。
図3】本発明の実施形態における、文書DBの一例を示す図である。
図4】本発明の実施形態における、類似文書集約前の検索画面の一例である。
図5】本発明の実施形態における、類似文書集約後の検索画面の一例である。
図6】本発明の実施形態における、類似文書展開後の検索画面の一例である。
図7】本発明の実施形態における、検索結果集約処理の一例を示すフローチャートである。
図8】本発明の実施形態における、類似文書検索処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0015】
図1は、本発明の実施形態における文書検索システムのシステム構成の一例を示す図である。
【0016】
文書検索システム100は、文書登録装置110、文書DB120、文書検索装置130、特徴語更新装置140から成る。
【0017】
文書登録装置110は、ユーザの検索対象とする文書を登録するための装置であり、文書受信部111、キーワード抽出部112、文書登録処理部113から成る。
【0018】
文書受信部111は、登録対象の文書を受け付けるための装置である。ユーザはWebブラウザなどを通じて任意の文書を文書受信部111に送信できる。あるいは、クローラが機械的に文書を収集して送信するような構成をとってもよい。
【0019】
キーワード抽出部112は、文書受信部111が受け付けた文書から、当該文書における特徴語の候補となるキーワードとその出現頻度を抽出するための装置である。特徴語の詳細については後述する。キーワード抽出部112におけるキーワード抽出処理は、公知の形態素解析技術を用いる。ここで、抽出する形態素は、検索システムの用途に応じて、固有名詞などの特定の品詞に限定してもよい。また、形態素解析を使用せずに、事前に定めたパターンに一致する文字列をキーワードとして抽出してもよい。
【0020】
文書登録処理部113は、文書受信部111で受け付けた文書と、キーワード抽出部112において抽出したキーワードとを紐づけて、文書DB120へ格納する装置である。
【0021】
図3は文書DB120の一例である。文書DB120は、文書を一意に識別するための文書ID121、文書名122、本文123、キーワード抽出部112が抽出した値を格納するキーワード:出現頻度124、および、特徴語125を格納する領域を備える。特徴語125の作成方法ついては後述する。なお、本アイデアを説明するための構成として、前述の5項目を例示しているが、文書の所在を示すURL、文書のサイズ、文書の作成者など、検索システムとして利用する項目を追加で備えてもよい。
【0022】
図1に戻って、文書検索装置130は、検索処理部131、検索結果集約処理部132、検索結果出力処理部133から成る。
【0023】
検索処理部131は、ユーザからの検索リクエストを受け付け、リクエストに応じた文書を文書DB120から検索する装置であり、検索リクエストに関連のある文書をスコア順に取得する機能を備える。効率的な検索処理を実現するためには、文書登録処理部113において、公知の技術である転置インデックスを作成して検索時に用いればよい。
【0024】
検索結果集約処理部132は、検索処理部131が取得した検索結果の各文書について、文書間の類似性を求め、類似文書と判定した文書をグループ化する装置である。検索結果集約処理部132における、検索結果集約処理については、後に例を用いて詳しく説明する。
【0025】
検索結果出力処理部133は、検索処理部131で得た検索結果、および、検索結果集約処理部132で得た類似文書のグループ情報を、検索リクエストを送信したクライアントに返却する装置である。文書検索システム100のユーザは、Webブラウザなどを通じて、検索結果を確認することができる。
【0026】
特徴語更新装置140は、文書DBに格納された各文書について、特徴的なキーワードを特徴語として抽出して当該レコードを更新する装置である。特徴語の選出は、単語の特徴量を表す指標の1つであるtf-idfを用いることで実現できる。特徴語更新装置140は、文書DB120におけるキーワード:出現頻度の項目から、各単語の出現頻度を取得し、tf-idf値の高い順に、最大N件のキーワードを特徴語として抽出する。ここで、特徴語の最大抽出件数Nは後述の類似文書の判定精度にかかわる要素であり、N=20以上などの大きな値であることが望ましいが、説明の簡略化のため以下ではN=5として説明する。例えば、文書DB120において、文書1の特徴語は、「製品X」、「横断検索」、「高速」、「企画」、「類似」の5件である
キーワードのtf-idf値は文書DB120に含まれる文書集合が変わることにより変動するが、新しい文書が登録されるたびにすべての文書の特徴語を更新すると文書検索システム100に多大な負荷がかかり、検索実行時間の増大につながる恐れがある。そこで、特徴語更新装置140は下記2つのタイミングで文書の特徴語を更新する
【0027】
(更新方法1)文書登録処理部113によって新しい文書が登録されたとき、当該文書の特徴語を更新す
【0028】
(更新方法2)事前に設定したスケジュールに従って、文書DB120の更新有無を確認し、更新があった場合にすべての文書の特徴語を更新する
新しく登録した文書については、更新方法1により即座に特徴語抽出を実施する。すでに特徴語を抽出済みの文書においては、更新方法2により、夜間のバッチ処理や休日など、検索利用者の少ない時間帯に定期的に実施することで、検索実行時間の増加を抑制しつつ、特徴語の更新を行うことが可能になる。
【0029】
図2は、本発明の実施形態における文書検索システム100を構成する各装置およびデータベースに適用可能なハードウェア構成の一例を示すブロック図である。
【0030】
図2に示すように、情報処理装置は、システムバス204を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、よび通信I/Fコントローラ208が接続される。
【0031】
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
【0032】
ROM202あるいは外部メモリ211は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0033】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0034】
入力コントローラ205は、キーボード209や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0035】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0036】
ビデオコントローラ206は、ディスプレイ210などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0037】
なおビデオコントローラ206は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0038】
メモリコントローラ207は、外部メモリ211へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0039】
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の3G回線を用いた通信が可能である。
【0040】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上での表示を可能としている。また、CPU201は、ディスプレイ210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0041】
次に図4図8を用いて、本発明の実施形態における検索結果の集約処理について説明する。
【0042】
図4は、類似文書を集約しない場合の検索画面の一例である。検索画面400は、検索条件入力フォーム410、検索結果サマリ420、検索結果一覧430から成る。検索結果一覧430において、各文書の情報として、文書名431、強調スニペット432、特徴語433が表示される。ここで、強調スニペット432は、検索条件として入力したキーワードが出現する文字列の周辺の文字列で、転置インデックスにキーワードの出現位置を記憶させることで効率的に取得可能な情報である。
【0043】
検索結果一覧430は、検索処理部131が取得する検索結果の一例である。図4においては、キーワード「製品X」を含む文書を検索した検索結果を表している。検索結果の上位に、「製品X-商品企画書-20200106」、「製品X-商品企画書-20200105」、「製品X-商品企画書-20200105-2」などの類似文書が並んでいる。
【0044】
図5は、本発明の実施形態において、類似文書を集約した検索画面の一例である。検索画面500は、後述の検索結果集約処理によって類似文書と見做した文書を集約して表示する。例えば、検索画面500では、先の例における「製品X-商品企画書-20200106」、「製品X-商品企画書-20200105」、「製品X-商品企画書-20200105-2」を集約し、「製品X-商品企画書-20200106」の文書情報のみを検索結果一覧に表示している。ここで、類似文書集合の情報として提示する文書を代表文書と呼ぶ。代表文書の上部には、類似文書を展開して表示することができる展開ボタン501と、集約されている文書数を示す集約文書件数502を合わせて表示する。類似文書の集約を実施しない検索画面400と比較して、検索結果一覧に多様な文書が並ぶため、ユーザは所望する文書を効率的に探索することができる。類似文書集合において、代表文書はスコアの最も高いもの(検索順位で最も上位のもの)を採用するほか、文書の作成日時・更新日時が新しいものを採用してもよい。前者は検索条件と関係の深い文書を代表文書として提示することができ、後者は最新の情報を代表文書として提示することができる。設計書や規定集など、最新の文書が重要であるケースにおいては、更新日が新しいものを代表文書とすることにより、目的の文書へたどり着くまでの時間を削減できる。ユースケースによって適切な代表文書の選出方法は異なるため、検索画面500は、代表文書を選出する基準を切り替えるためのユーザーインターフェースを備えてもよい。
【0045】
図6は、検索画面500において、展開ボタン501を押下したあとの検索画面の一例である。検索結果一覧において、展開ボタン501に紐づく類似文書が代表文書の選出方法に対して降順に並べて表示され、各類似文書は代表文書の情報との差分を強調表示する。例えば、「製品X-商品企画書-20200106」の類似文書として「製品X-商品企画書-20200105」、「製品X-商品企画書-20200105-2」を表示し、各類似文書におけるスニペットと特徴語は代表文書である「製品X-商品企画書-20200106」との差分を、太字や異なる配色で強調表示する。代表文書との差分を提示することにより、ユーザが所望する文書が集約した文書集合に存在する場合においても、より適切な文書を探索しやすくなる。なお、説明を簡略化するため、シンプルな差分表示の例を示したが、スニペットではなく文書の本文を取得して差分を閲覧できる機能など、文書の違いをより判別しやすくする機能を設けてもよい。
【0046】
図7は、検索結果集約処理部132における検索結果集約処理のフローチャートで、検索結果の一覧に表示する代表文書の集合、および、各代表文書における類似文書集合を求める処理を示している。
【0047】
まず、ステップS701で、代表文書集合Gを空の状態に初期化し、ステップS702~ステップS706において、検索結果に含まれる各文書αを、代表文書、もしくは、代表文書の類似文書に振り分ける。
【0048】
ステップS703では、代表文書集合Gに文書αに類似する文書βが存在するか検索する。類似文書の検索処理については後述する。
【0049】
その後、ステップ704において類似文書βの有無を判定し、類似文書βが存在した場合はステップS705において文書βの属する類似文書集合に文書αを加える。ここで、代表文書の選出方法について、スコアの最も高いもの(検索順位で最も上位のもの)以外の方法を採用する場合は、文書αと類似文書βを所定の方法で比較し、適切な文書を代表文書として採用する。例えば、代表文書の選出方法が更新日時の最も新しいものである場合、文書αと文書βの更新日時を比較し、日時が新しい方の文書を代表文書として取り扱う。文書αが代表文書として適切である場合、文書β、および、文書βの属する類似文書集合を文書αを代表文書とする類似文書集合とし、代表文書集合Gには文書βの変わりに文書αを登録する。
【0050】
ステップS704において、類似文書βが存在しない場合はステップS706において文書αを代表文書集合Gに追加する。
【0051】
以上の処理を、検索結果に含まれる各文書について実行した後、ステップS707において代表文書集合Gを類似文書の集約結果として返して終了する。
【0052】
図8は、ステップS703における類似文書検索処理のフローチャートである。ステップS801~ステップS804において、文書αに類似する文書βが代表文書集合Gに存在するか判定し、存在する場合はステップS805で当該文書βを返す。代表文書集合Gに類似文書が1つも存在しない場合、類似文書検索処理は文書αの類似文書が存在しないものとして終了する。
【0053】
ステップS802は、文書αと文書βにおける特徴語を比較し、M%以上の特徴語が一致する場合に類似文書の可能性があると判断する処理である。Mは事前に定める閾値であり、以下では、M=80として説明するが、文書サイズなどの情報から動的に求めてもよい。ステップS802において、特徴語が大きく異なる文書を類似文書の候補から外すことが可能になり、類似文書の判定を効率的に行うことができる。
【0054】
ステップS803は、文書αの特徴語の数が十分に存在するか判定する処理である。テキストの量が少ない文書など、特徴語が十分に取得できない文書においては、特徴語のみで類似文書の判定を行うことが不適切である場合がある。特徴語がL個以上存在する場合は、ステップS805において、文書βを類似文書として検出する。以下では、L=4として説明するが、特徴語更新装置140が抽出する特徴語の最大数Nに応じて動的に求めてもよい。
【0055】
ステップS803において、特徴語がL個未満である場合、ステップS804において、文書名の類似性に基づく類似文書の判定処理を行う。文書名の類似性は、レーベンシュタイン距離などの公知の技術により求め、所定の値R以下であるか確認し、文書名の編集距離がR以下である場合、ステップS805で文書βを類似文書として検出する。以下、R=2として説明するが、文書名の長さに応じて動手に求めてもよい。また、編集距離を求める前に、各文書名から、日付やバージョン番号を示す文字列を除いた上で比較する工夫を加えてもよい。さらに、文書名の他、拡張子の類似性、スニペットの類似性、ファイルサイズの類似性など、文書間の類似度を判定するためのさらに細かい処理を加えてもよい。
【0056】
以下、検索画面400における7件の検索結果(「製品X-商品企画書-2020106」~「2021年3月販売スケジュール」)を集約する例を用いて、各ステップを詳説する。
【0057】
まず最上位の検索結果である「製品X-商品企画書-2020106」について、代表文書集合Gは空であり、代表文書集合Gに類似文書が存在しないため、ステップS706において「製品X-商品企画書-2020106」を代表文書集合Gに追加する。
【0058】
次の検索結果である「製品X-商品企画書-2020105」については、代表文書集合Gに含まれる「製品X-商品企画書-2020106」と類似するか否か判定する。まず、ステップS802で、M(=80)%以上の特徴語が一致するか判定する。「製品X-商品企画書-2020105」の特徴語は、文書DB120より、「製品X」、「横断検索」、「高速」、「企画」、「関連」の5つであり、そのうち4つの特徴語が「製品X-商品企画書-2020106」の特徴語と一致する。よって、80%以上の特徴語が一致するため、ステップS803に処理を進める。
【0059】
ステップS803において、「製品X-商品企画書-2020105」の特徴語がL(=4)個以上存在するため、ステップS805において、代表文書である「製品X-商品企画書-2020106」を「製品X-商品企画書-2020105」の類似文書として返す。このように、特徴語が十分に存在する文書については、類似文書の判定を効率的に実施することが可能である。
【0060】
ステップS704に戻って、類似文書が存在すると判定し、ステップS705において、「製品X-商品企画書-2020106」の類似文書集合として、「製品X-商品企画書-2020105」を追加する。ここで、代表文書の選出方法が更新日時の新しいものである場合は、「製品X-商品企画書-2020106」と「製品X-商品企画書-2020105」との更新日時とを比較して新しいものを代表文書として採用することになるが、本実施例では代表文書の選出方法がスコアの高いもの(検索順位の高いもの)であるため、代表文書は最初に検索された「製品X-商品企画書-2020106」のままとしている。以下同様である。
【0061】
次の検索結果である「製品X-商品企画書-2020105-2」については、同様の処理により、「製品X-商品企画書-2020106」の類似文書集合として加える。
【0062】
「検索画面設計書」については、特徴語が「画面」、「製品X」の2つであり、代表文書である「製品X-商品企画書-2020106」の特徴語と一致する特徴語は1つのみである。ステップS802において特徴語の一致がM(=80)%未満であるため、類似文書として採用せず、他の代表文書も存在しないことから、当該文書の類似文書は存在しない。
【0063】
ステップS704において、類似文書が存在しないため、ステップS706において、「検索画面設計書」を代表文書集合Gに追加する。この時点で、代表文書集合Gには、「製品X-商品企画書-2020106」、および、「検索画面設計書」の2つが存在し、「製品X-商品企画書-2020105」と「製品X-商品企画書-2020105-2」は「製品X-商品企画書-2020106」の類似文書集合として紐づいている。
【0064】
「検索画面設計書_β」については、特徴語が「画面」、「製品X」の2つであり、代表文書である「検索画面設計書」の特徴語と100%一致する。ただし、ステップS803において、特徴語がL(=4)個以上ではないため、文書間の類似性をさらに確認する。
【0065】
ステップS804において、文書名「検索画面設計書_β」と「検索画面設計書」の編集距離(レーベンシュタイン距離)は2であり、R(=2)以下であるため、「検索画面設計書」を「検索画面設計書_β」の類似文書として検出する。
【0066】
ステップS704にもどって、類似文書が存在すると判定し、ステップS705において、「検索画面設計書」の類似文書集合に「検索画面設計書_β」を追加する。
【0067】
「管理者画面設計書」については、特徴語が「画面」、「製品X」の2つであり、「検索画面設計書_β」と同様に、ステップS804において「検索画面設計書」との編集距離を比較する。「管理者画面設計書」と「検索画面設計書」の編集距離は3であり、R(=2)以下ではないため、当該文書に類似文書は存在しないと判定する。
【0068】
ステップS704にもどって、類似文書が存在しないため、ステップS706において、「管理者画面設計書」を代表文書集合Gに追加する。
【0069】
最後に、「2021年3月販売スケジュール」について、特徴語は「目標」、「販売」、「計画」、「売上」、「地域」の5つであり、特徴語がM(=80)%以上一致する代表文書が存在しないため、当該文書の類似文書は存在しない。ステップS706において、「2021年3月販売スケジュール」を代表文書集合Gに追加し、S707において、代表文書集合Gを返して、検索結果の集約処理を終了する。
【0070】
上記で説明したように、本発明の実施形態においては、特徴語更新装置140が求める文書ごとの特徴語を用いて、検索結果の類似文書を効率的に集約することが可能である。これにより、検索結果を単純に並べて表示するだけでなく、図5のように類似文書を集約して表示したり、図6のように類似文書を展開して表示し代表文書と比較表示したりすることが可能となる。
【0071】
また検索結果の表示は一例であり、本発明は文書を一覧表示する仕組みに対して適用可能である。
【0072】
また、代表文書の選出方法の一例として、スコアの最も高いもの(検索順位で最も上位のもの)を選出する方法や、文書の作成日時・更新日時が新しいものを選出する方法を示したが、その限りではなく、使用目的等に応じた方法を採用すればよい。
【0073】
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。
【0074】
また、本発明におけるプログラムは、各フローチャートの処理方法をコンピュータが実行可能なプログラムである。なお、本発明におけるプログラムは各フローチャートの各装置の処理方法ごとのプログラムであってもよい。
【0075】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0076】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EPROM、シリコンディスク等を用いることが出来る。
【0077】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0078】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0079】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0080】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0081】
100 文書検索システム
110 文書登録装置
120 文書DB
130 文書検索装置
140 特徴語更新装置
図1
図2
図3
図4
図5
図6
図7
図8