IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックIPマネジメント株式会社の特許一覧

特開2023-170096文書検索装置、文書検索システム及び文書検索方法
<>
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図1
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図2
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図3
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図4
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図5
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図6
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図7
  • 特開-文書検索装置、文書検索システム及び文書検索方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023170096
(43)【公開日】2023-12-01
(54)【発明の名称】文書検索装置、文書検索システム及び文書検索方法
(51)【国際特許分類】
   G06F 16/335 20190101AFI20231124BHJP
【FI】
G06F16/335
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022081572
(22)【出願日】2022-05-18
(71)【出願人】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】興梠 武志
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
(57)【要約】
【課題】利用者が所望する文書を効率的に提示するための技術を提供することである。
【解決手段】本開示の一態様は、検索要求から検索式を生成する検索式生成部と、前記検索式に従って文書データベースを検索する検索部と、検索結果として抽出された文書のスコアを決定するスコア決定部と、前記スコアに基づいて決定した表示順により前記検索結果を表示する表示制御部と、を有する文書検索装置に関する。
【選択図】図5
【特許請求の範囲】
【請求項1】
検索要求から検索式を生成する検索式生成部と、
前記検索式に従って文書データベースを検索する検索部と、
検索結果として抽出された文書のスコアを決定するスコア決定部と、
前記スコアに基づいて決定した表示順により前記検索結果を表示する表示制御部と、
を有する文書検索装置。
【請求項2】
前記スコア決定部は、前記検索式に含まれる単語に対する個別スコアと、複数の個別スコアの総合スコアとを決定する、請求項1に記載の文書検索装置。
【請求項3】
前記表示制御部は、前記総合スコアに基づいて前記検索結果の表示順を決定する、請求項2に記載の文書検索装置。
【請求項4】
前記表示制御部は、選択された単語に対する個別スコアに基づいて前記検索結果の表示順を決定する、請求項2に記載の文書検索装置。
【請求項5】
前記表示制御部は、選択された文書に対する上位の所定数の個別スコアに基づいて前記検索結果の表示順を決定する、請求項2に記載の文書検索装置。
【請求項6】
前記表示制御部は、選択された文書に対する下位の所定数個の個別スコアに基づいて前記検索結果の表示順を決定する、請求項2に記載の文書検索装置。
【請求項7】
文書を格納する文書データベースと、
文書検索装置と、
を有し、
前記文書検索装置は、
検索要求から検索式を生成する検索式生成部と、
前記検索式に従って前記文書データベースを検索する検索部と、
検索結果として抽出された文書のスコアを決定するスコア決定部と、
前記スコアに基づいて決定した表示順により前記検索結果を表示する表示制御部と、
を有する文書検索システム。
【請求項8】
検索要求から検索式を生成するステップと、
前記検索式に従って文書データベースを検索するステップと、
検索結果として抽出された文書のスコアを決定するステップと、
前記スコアに基づいて決定した表示順により前記検索結果を表示するステップと、
をコンピュータが実行する文書検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文書検索装置、文書検索システム及び文書検索方法に関する。
【背景技術】
【0002】
近年のインターネット等の通信インフラの普及と、パーソナルコンピュータ(PC)、スマートフォン、タブレット等のハードウェアの普及とによって、利用者は、電子化された大量の文書情報に容易にアクセスすることができる。一方、これら大量の文書情報を利用するためには、利用者は、所望の文書情報を適切に検索できることが必要である。
【0003】
典型的なキーワード検索では、利用者は、所望の文書に関連する1つ以上のキーワードと、キーワード間の論理的関係性を示す論理演算子(AND、OR、NOTなど)とから構成される検索式を作成する。文書検索ツールを搭載した計算装置は、利用者からの検索式を受け取ると、この検索式が真となる文書を検索対象の文書集合から検索して、検出した文書を利用者に提示する。
【0004】
しかしながら、このようなキーワード検索では、検索結果の文書を閲覧可能な件数に絞り込むために、どのような検索式を作成したらよいか利用者が思いつかないことがしばしばある。
【0005】
キーワード検索の分野では、利用者により入力された任意の文章を検索条件とする“あいまい検索”と呼ばれる技術もまた、利用されている。一般的なあいまい検索では、利用者により入力された文章が形態素解析され、意味のある単語に分解される。分解された単語は、キーワードとしてOR演算子等により連結されて論理式が生成される。利用者は、生成された論理式を利用して、検索式を自ら作成することなく文書を検索することが可能である。
【0006】
また、あいまい検索における検索結果をより利用者が所望する結果とするため、利用者が入力した任意の文章に含まれる単語間の関係又は検索結果に含まれる文書を用いた検索手法が提案されている(例えば、特許文献1を参照)。特許文献1の検索システムによると、利用者によって検索条件として入力された文章に含まれる複数の単語間の関係に基づいて検索対象の文書が検索され、検索された文書に含まれる単語間の関係に基づいて新たな検索がさらに実行される。これにより、検索結果をより利用者が所望する結果に近づけることができうる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2003-281183号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
一方、上述した検索システムでは、検索結果を1つに絞り込むことはできないため、検索結果として複数の文書が存在し、複数の文書が検索結果として表示されうる。
【0009】
しかしながら、上位に表示される文書が必ずしも利用者が所望する文書であるとは限らない。また、利用者は検索結果の表示順がどのように決定されているか知ることができないため、文書内容を確認しないと本当に所望する文書であるか判断できず、手間がかかるという問題がある。
【0010】
上記問題点に鑑み、本開示の1つの課題は、利用者が所望する文書を効率的に提示するための技術を提供することである。
【課題を解決するための手段】
【0011】
本開示の一態様は、検索要求から検索式を生成する検索式生成部と、前記検索式に従って文書データベースを検索する検索部と、検索結果として抽出された文書のスコアを決定するスコア決定部と、前記スコアに基づいて決定した表示順により前記検索結果を表示する表示制御部と、を有する文書検索装置に関する。
【0012】
本開示の他の態様は、文書を格納する文書データベースと、文書検索装置と、を有し、前記文書検索装置は、検索要求から検索式を生成する検索式生成部と、前記検索式に従って前記文書データベースを検索する検索部と、検索結果として抽出された文書のスコアを決定するスコア決定部と、前記スコアに基づいて決定した表示順により前記検索結果を表示する表示制御部と、を有する文書検索システムに関する。
【0013】
本開示の他の態様は、検索要求から検索式を生成するステップと、前記検索式に従って文書データベースを検索するステップと、検索結果として抽出された文書のスコアを決定するステップと、前記スコアに基づいて決定した表示順により前記検索結果を表示するステップと、をコンピュータが実行する文書検索方法に関する。
【発明の効果】
【0014】
本開示によれば、利用者が所望する文書を効率的に提示することができる。
【図面の簡単な説明】
【0015】
図1図1は、本開示の一実施例による文書検索システムを示す概略図である。
図2図2は、本開示の一実施例による文書検索装置のハードウェア構成を示すブロック図である。
図3図3は、本開示の一実施例による文書検索装置の機能構成を示すブロック図である。
図4図4A~4Cは、本開示の一実施例による検索結果を示す図である。
図5図5は、本開示の一実施例による文書検索処理を示すフローチャートである。
図6図6A~6Cは、本開示の一実施例による検索結果を示す図である。
図7図7A~7Cは、本開示の一実施例による検索結果を示す図である。
図8図8は、本開示の一実施例による文書検索処理を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、図面を参照して本開示の実施の形態を説明する。
【0017】
以下の実施例では、利用者からの文書に対する検索要求に応答して検索結果の文書を提供する文書検索装置が開示される。
【0018】
[概略]
本開示を概略すると、図1に示されるように、文書検索システム10は、検索対象の文書を格納する文書データベース(DB)50と、利用者からの検索要求に対して文書DB50を検索し、検索結果を利用者に提供する文書検索装置100とを有する。なお、図示された実施例では、単一の文書DB50が示されているが、本開示による検索対象の文書は、必ずしも単一の文書DB50に格納されることに限定されず、通信ネットワーク(図示せず)を介し文書検索装置100に通信接続された複数の文書DB50に格納されてもよい。また、図示された実施例では、文書DB50は、文書検索装置100から独立して設けられているが、本開示による文書DB50は、これに限定されず、文書検索装置100内に少なくとも部分的に設けられてもよい。
【0019】
以下の実施例による文書検索装置100は、利用者などから検索キー(例えば、単語、文章又は1つ以上の単語から構成されるフレーズなど)を含む検索要求を取得すると、取得した検索要求から検索式を生成し、生成した検索式に従って文書DB50を検索する。例えば、検索式は、何れか公知の形態素解析・係り受け解析手法を利用して、入力された検索キーを複数の単語に分解し、これらの単語をORで連結するなどによって生成されてもよい。
【0020】
文書DB50から検索結果を抽出すると、文書検索装置100は、抽出された各文書における検索式の各単語の出現頻度などに基づいて、各文書のスコアを決定する。以下の実施例では、文書検索装置100は、各文書における各単語の出現頻度から算出される単語毎の個別スコアと、単語毎の個別スコアの合計を示す総合スコアとを決定してもよい。各文書の個別スコアと総合スコアとを決定すると、文書検索装置100は、個別スコアと総合スコアとに基づいて検索結果の各文書の表示順を決定し、決定した表示順に従って検索結果を表示する。
【0021】
これにより、文書検索装置100は、利用者によって入力された検索キーに含まれる単語の出現頻度に応じた表示順によって検索結果の各文書を表示することができ、利用者が効率的に所望の文書を検出することが可能になる。
【0022】
また、表示された検索結果から利用者が重要と考える単語及び/又は文書を選択すると、文書検索装置100は、利用者による選択に応じて検索結果の文書の表示順を変更するようにしてもよい。このようにして、文書検索装置100は、特定の表示順によって検索結果の各文書を表示するだけでなく、利用者の操作に応じて表示順をフレキシブルに変更することができる。
【0023】
ここで、文書検索装置100は、パーソナルコンピュータ(PC)、スマートフォン、タブレット等の計算装置によって実現されてもよく、例えば、図2に示されるようなハードウェア構成を有してもよい。すなわち、文書検索装置100は、バスBを介し相互接続されるドライブ装置101、ストレージ装置102、メモリ装置103、プロセッサ104、ユーザインタフェース(UI)装置105及び通信装置106を有する。
【0024】
文書検索装置100における後述される各種機能及び処理を実現するプログラム又は指示は、CD-ROM(Compact Disk-Read Only Memory)、フラッシュメモリ等の着脱可能な記憶媒体に格納されてもよい。当該記憶媒体がドライブ装置101にセットされると、プログラム又は指示が記憶媒体からドライブ装置101を介しストレージ装置102又はメモリ装置103にインストールされる。ただし、プログラム又は指示は、必ずしも記憶媒体からインストールされる必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードされてもよい。
【0025】
ストレージ装置102は、ハードディスクドライブなどによって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。
【0026】
メモリ装置103は、ランダムアクセスメモリ、スタティックメモリ等によって実現され、プログラム又は指示が起動されると、ストレージ装置102からプログラム又は指示、データ等を読み出して格納する。ストレージ装置102、メモリ装置103及び着脱可能な記憶媒体は、非一時的な記憶媒体(non-transitory storage medium)として総称されてもよい。
【0027】
プロセッサ104は、1つ以上のプロセッサコアから構成されうる1つ以上のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、処理回路(processing circuitry)等によって実現されてもよく、メモリ装置103に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、後述される文書検索装置100の各種機能及び処理を実行する。
【0028】
ユーザインタフェース(UI)装置105は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと文書検索装置100との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたGUI(Graphical User Interface)をキーボード、マウス等を操作し、文書検索装置100を操作する。
【0029】
通信装置106は、外部装置、インターネット、LAN(Local Area Network)、セルラーネットワーク等の通信ネットワークとの有線及び/又は無線通信処理を実行する各種通信回路により実現される。
【0030】
しかしながら、上述したハードウェア構成は単なる一例であり、本開示による文書検索装置100は、他の何れか適切なハードウェア構成により実現されてもよい。
【0031】
[文書検索装置]
次に、図3及び4を参照して、本開示の一実施例による文書検索装置100を説明する。図3は、本開示の一実施例による文書検索装置100の機能構成を示すブロック図である。
【0032】
図3に示されるように、文書検索装置100は、検索式生成部110、検索部120、スコア決定部130及び表示制御部140を有する。例えば、検索式生成部110、検索部120、スコア決定部130及び表示制御部140の1つ以上の機能部は、1つ以上のプロセッサ104が1つ以上のプログラム又は指示を実行することによって実現されてもよい。
【0033】
検索式生成部110は、検索要求から検索式を生成する。具体的には、利用者は、所望の文書を検索するための検索キーとして、1つ以上の単語、1つ以上の単語から構成されるフレーズ、及び/又は文章を文書検索装置100に提供し、当該検索キーに基づいて所望の文書の候補を文書検索装置100に検索させてもよい。
【0034】
利用者から検索キーを含む検索要求を取得すると、検索式生成部110は、取得した検索キーに対して何れか公知の形態素解析・係り受け解析手法を実行し、検索キーを1つ以上の単語に分解する。そして、検索式生成部110は、取得した単語のうち自立語(単独で分節となり得る単語)を抽出し、抽出した自立語から検索式を生成してもよい。例えば、検索キーが「圧縮された空気の圧力を一定に保つ」である場合、検索式生成部110は、「圧縮」、「空気」、「圧力」、「一定」及び「保つ」を自立語として抽出し、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”を生成してもよい。
【0035】
なお、本実施例では、検索式生成部110は、検索キーとして入力された1つ以上の単語、1つ以上の単語から構成されるフレーズ、及び/又は文章に対して何れか公知の形態素解析・係り受け解析手法を実行し、取得した単語のうち自立語を論理演算子ORによって連結して検索式を生成しているが、本開示は、これに限定するものではない。例えば、検索式生成部110は、自立語をANDで連結して検索式を生成してよいし、係り受け関係に基づいて任意にAND、OR及びNOTなどの論理演算子を適切に組み合せることによって検索式を生成してもよい。
【0036】
検索部120は、検索式に従って文書DB50を検索する。具体的には、検索部120は、文書検索装置100の外部及び/又は内部に設けられた1つ以上の文書DB50から、生成された検索式に該当する文書を検索する。例えば、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”が適用される場合、検索部120は、文書DB50に格納されている文書のうち、「圧縮」、「空気」、「圧力」、「一定」及び「保つ」の何れか1つの単語を含む文書を検索結果として取得する。
【0037】
スコア決定部130は、検索結果として抽出された文書のスコアを決定する。具体的には、スコア決定部130は、検索結果の各文書の内容を確認し、検索式に含まれる各単語の当該文書における出現頻度(出現回数とも呼ばれる)を計数し、計数した出現頻度を単語毎の個別スコアとして決定してもよい。例えば、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”に従って検出された文書Aにおいて、「圧縮」、「空気」、「圧力」、「一定」及び「保つ」の各単語が7回ずつ出現している場合、スコア決定部130は、「圧縮」の個別スコアa、「空気」の個別スコアb、「圧力」の個別スコアc、「一定」の個別スコアd、及び「保つ」の個別スコアeをそれぞれ、各単語の出現頻度“7”、“7”、“7”、“7”及び“7”として決定する。さらに、スコア決定部130は、決定した個別スコアa~eを合計し(“7”+“7”+“7”+“7”+“7”)、合計値“35”を総合スコアとして決定する。
【0038】
同様に、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”に従って検出された文書Bにおいて「圧縮」、「空気」、「圧力」、「一定」及び「保つ」の各単語がそれぞれ、5回、1回、8回、9回及び10回出現している場合、スコア決定部130は、「圧縮」の個別スコアa、「空気」の個別スコアb、「圧力」の個別スコアc、「一定」の個別スコアd、及び「保つ」の個別スコアeをそれぞれ“5”、“1”、“8”、“9”及び“10”として決定する。また、スコア決定部130は、決定した個別スコアa~eを合計し(“5”+“1”+“8”+“9”+“10”)、合計値“35”を総合スコアとして決定する。
【0039】
同様に、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”に従って検出された文書Cにおいて「圧縮」、「空気」、「圧力」、「一定」及び「保つ」の各単語がそれぞれ、10回、9回、6回、3回及び2回出現している場合、スコア決定部130は、「圧縮」の個別スコアa、「空気」の個別スコアb、「圧力」の個別スコアc、「一定」の個別スコアd、及び「保つ」の個別スコアeをそれぞれ“10”、“9”、“6”、“3”及び“2”として決定する。また、スコア決定部130は、決定した個別スコアa~eを合計し(“10”+“9”+“6”+“3”+“2”)、合計値“30”を総合スコアとして決定する。
【0040】
同様に、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”に従って検出された文書Bにおいて「圧縮」、「空気」、「圧力」、「一定」及び「保つ」の各単語がそれぞれ、3回、8回、10回、2回及び2回出現している場合、スコア決定部130は、「圧縮」の個別スコアa、「空気」の個別スコアb、「圧力」の個別スコアc、「一定」の個別スコアd、及び「保つ」の個別スコアeをそれぞれ“3”、“8”、“10”、“2”及び“2”として決定する。また、スコア決定部130は、決定した個別スコアa~eを合計し(“3”+“8”+“10”+“2”+“2”)、合計値“25”を総合スコアとして決定する。
【0041】
このようにして、スコア決定部130は、検索結果の各文書に対して、検索式に含まれる単語に対する個別スコアと、複数の個別スコアの総合スコアとを決定してもよい。
【0042】
上述した実施例では、スコア決定部130は、検索式に含まれる各単語の出現頻度に基づいて個別スコアを決定しているが、本開示によるスコアの算出は、これに限定されるものでない。例えば、スコア決定部130は、文の成分別(主語、述語、修飾語など)の出現頻度、品詞別(名詞、動詞、形容詞、副詞など)の出現頻度、係り受け関係(修飾語と被修飾語、主語と述語など)にある2つ以上の単語からなるグループの出現頻度、各単語の類義語・同義語を含めた場合の出現頻度、各単語を含む複合語の出現頻度などを個別スコアとしてもよい。また、スコア決定部130は、各単語の出現頻度をそのまま個別スコアとする代わりに、出現頻度を文書の長さ(例えば、文字数、文章数など)によって除算することによって、単位文書量当たりの出現頻度に正規化したものを個別スコアとしてもよい。
【0043】
表示制御部140は、スコアに基づいて決定した表示順により検索結果を表示する。具体的には、表示制御部140は、検索式の単語毎の個別スコア及び/又は総合スコアに基づいて各文書の表示順を決定し、決定した表示順に従って各文書を利用者に表示してもよい。また、表示制御部140は、検索結果と一緒に、各文書の個別スコアと総合スコアとを表示してもよい。これにより、検索結果が検索式に含まれる各単語の出現頻度の合計が高い文書が上位に表示されると共に、各単語別の出現頻度が個別スコアとして表示されるため、利用者は、各文書が高スコア又は低スコアになっている理由を知ることができ、所望の文書かどうかを判断し易くなる。
【0044】
一実施例では、表示制御部140は、総合スコアに基づいて検索結果の表示順を決定してもよい。例えば、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”に従って文書A,B,C,D・・・が検出された場合、表示制御部140は、総合スコアの降順に文書A,B,C,D・・・を表示してもよい。例えば、表示制御部140は、図4Aに示されるようなテーブル形式により検索結果を表示してもよい。すなわち、文書Aが最も高い総合スコア“35”を有するため、表示制御部140は、文書Aを1番目に表示してもよい。次に、文書Bが2番目に高い総合スコア“33”を有するため、表示制御部140は、文書Bを2番目に表示してもよい。さらに、文書Cが3番目に高い総合スコア“30”を有するため、表示制御部140は、文書Cを3番目に表示してもよい。さらに、文書Dは4番目に高い総合スコア“25”を有するため、表示制御部140は、文書Dを4番目に表示してもよい。
【0045】
また、一実施例では、表示制御部140は、2つ以上の個別スコアが所定以上の相関を有する場合、これらの個別スコアをグループ化してもよい。例えば、図4Aに示される例では、個別スコアdと個別スコアeとは一定以上の相関があると考えられるため、表示制御部140は、個別スコアdと個別スコアeとをグループ化してもよい。具体的には、表示制御部140は、個別スコアdによって個別スコアeを代替し、図4Aに示されるような個別スコアa~eのテーブルを、図4Bに示されるような個別スコアa~dのテーブルに縮小してもよい。これにより、同様のスコア値を有する複数の個別スコアを1つの個別スコアにまとめることができ、検索結果を示すテーブルを簡素化することができる。しかしながら、グループ化の方法はこれに限定されるものでなく、例えば、表示制御部140は、個別スコアd,eの相加平均を示す新たな個別スコアを設けてもよい。
【0046】
また、一実施例では、表示制御部140は、選択された単語に対する個別スコアに基づいて検索結果の表示順を決定してもよい。すなわち、表示制御部140は、総合スコアの代わりに、利用者などによって選択された単語の個別スコアに基づいて検索結果の文書の表示順を変更してもよい。例えば、利用者が検索式における「圧縮」という単語を選択すると、表示制御部140は、総合スコアの降順の代わりに、図4Cに示されるように、「圧縮」に対応する個別スコアaの降順に検索結果の各文書を並び替える。文書A,文書B,文書C及び文書Dは、それぞれ「圧縮」に対応する個別スコアaとして“7”,“5”,“10”及び“3”を有するため、表示制御部140は、図4Cに示されるように、文書C、文書A、文書B及び文書Dの表示順により検索結果を表示してもよい。本実施例によると、利用者は、自ら選択した単語に基づいて検索結果の表示順を指定することが可能になり、検索結果の文書から所望の文書を効率的に検出することが可能になり得る。
【0047】
ここで、表示制御部140は更に、表示順の上位のいくつか(例えば、所定数、所定割合、ユーザによって選択された数など)の文書のみを抽出し、抽出した文書に対してのみ更なる単語を選択し、選択された単語の個別スコアに基づいて抽出した文書を再ソートしてもよい。これにより、利用者は、当該操作を繰り返すことによって表示対象の文書を絞ることができ、検索結果の文書から所望の文書を効率的に検出することが可能になり得る。
【0048】
[文書検索処理]
次に、図5を参照して、本開示の一実施例による文書検索処理を説明する。当該文書検索処理は、上述した文書検索装置100によって実行され、より詳細には、文書検索装置100の1つ以上のプロセッサ104が1つ以上のメモリ装置103に格納された1つ以上のプログラム又は指示を実行することによって実現されてもよい。
【0049】
図5は、本開示の一実施例による文書検索処理を示すフローチャートである。
【0050】
図5に示されるように、ステップS101において、文書検索装置100は、検索要求から検索式を生成する。具体的には、利用者から所望の文書を検索するための検索キーを取得すると、文書検索装置100は、当該検索キーに対して何れか公知の形態素解析・係り受け解析手法を適用し、検索キーに含まれる単語(自立語など)を抽出し、抽出した単語と論理演算子とから構成される検索式を生成する。例えば、検索キーが「圧縮された空気の圧力を一定に保つ」である場合、文書検索装置100は、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”を生成してもよい。
【0051】
ステップS102において、文書検索装置100は、検索式に従って文書DB50を検索する。具体的には、文書検索装置100は、文書DB50から検索式に該当する文書を検索する。例えば、検索式“「圧縮」OR「空気」OR「圧力」OR「一定」OR「保つ」”が適用される場合、文書検索装置100は、文書DB50に格納されている文書のうち、「圧縮」、「空気」、「圧力」、「一定」及び「保つ」の何れか1つの単語を含む文書を検索結果として取得する。
【0052】
ステップS103において、文書検索装置100は、検索結果として抽出された文書のスコアを決定する。具体的には、文書検索装置100は、検索結果の各文書において検索式に含まれる各単語の出現頻度を計数し、計数した出現頻度を単語毎の個別スコアとして決定すると共に、個別スコアの合計値を総合スコアとして決定してもよい。
【0053】
ステップS104において、文書検索装置100は、スコアに基づいて決定した表示順により検索結果を表示する。具体的には、文書検索装置100は、検索式の単語毎の個別スコア及び/又は総合スコアに基づいて各文書の表示順を決定し、決定した表示順に従って各文書を利用者に表示してもよい。一実施例では、文書検索装置100は、総合スコアに基づいて検索結果の表示順を決定してもよい。あるいは、一実施例では、文書検索装置100は、選択された単語に対する個別スコアに基づいて検索結果の表示順を決定してもよい。また、文書検索装置100は、検索結果と一緒に、各文書の個別スコアと総合スコアとを表示してもよい。
【0054】
上述した文書検索処理によると、検索結果が検索式に含まれる各単語の出現頻度の合計が高い文書が上位に表示されると共に、各単語別の出現頻度が個別スコアとして表示されるため、利用者は、各文書が高スコア又は低スコアになっている理由を知ることができ、所望の文書かどうかを判断し易くなる。
【0055】
[変形例]
次に、図6~8を参照して、本開示の変形例を説明する。上述した実施例では、文書検索装置100は、総合スコア及び/又は特定の個別スコアに基づいて決定された表示順に従って検索結果の各文書を表示した。本実施例では、上述した表示順により表示された文書に対して利用者が選択操作(例えば、必要な文書の選択、不要な文書の選択)を実行すると、文書検索装置100は、選択された文書の個別スコアに基づいて検索結果の各文書を並び替えるようにしてもよい。
【0056】
一実施例では、表示制御部140は、選択された文書に対する上位の所定数の個別スコアに基づいて検索結果の表示順を決定してもよい。例えば、ある表示順により検索結果の文書が表示されているとき、表示制御部140は、検索結果の文書のうち“必要”と考える文書を利用者が選択できるようにしてもよい。利用者が必要と考える文書を指定すると、表示制御部140は、指定された文書の個別スコアを参照して、上位所定数の個別スコアを抽出し、抽出した個別スコアに基づいて検索結果の文書を並び替えてもよい。
【0057】
例えば、表示制御部140は、図6Aに示されるように、検索結果の各文書に対して“必要”フラグを利用者が設定できるようにしてもよい。図6Aに示されるテーブルでは、総合スコア及び個別スコアは、限定することなく、非表示とされてもよい。図6Aに示されるテーブルにおいて、利用者が文書Dに対する必要フラグを設定すると、表示制御部140は、図6Bに示されるように、文書Dの個別スコアa~eを参照して、最も高いスコア値“10”を有する個別スコアcを特定する。そして、表示制御部140は、図6Cに示されるように、特定した個別スコアcの降順に従って検索結果の各文書を並び替える。すなわち、図6Cに示されるように、表示制御部140は、文書D、文書B、文書A、文書C・・・の順序に検索結果の文書を並び替える。なお、図示された実施例では、総合スコア及び個別スコアは、非表示とされたが、本開示はこれに限定されず、総合スコア及び個別スコアは表示されてもよい。また、図示された実施例では、表示制御部140は、個別スコアcのみを選択し、個別スコアcの降順に表示順を変更したが、本開示は、所定数の個別スコアを選択し、これらの個別スコアに従って表示順を決定してもよい。
【0058】
本実施例によると、検索結果の文書から利用者が必要と判断する文書を選択することによって、選択した文書と類似する文書が上位になるように表示することができる。このとき、利用者は個別スコアを意識する必要がなくなるため、検索に慣れていない利用者の利便性がより高まると考えられる。
【0059】
また、一実施例では、表示制御部140は、選択された文書に対する下位の所定数個の個別スコアに基づいて検索結果の表示順を決定してもよい。例えば、ある表示順により検索結果の文書が表示されているとき、表示制御部140は、検索結果の文書のうち“不要”と考える文書を利用者が選択できるようにしてもよい。利用者が不要と考える文書を指定すると、表示制御部140は、指定された文書の個別スコアを参照して、下位所定数の個別スコアを抽出し、抽出した個別スコアに基づいて検索結果の文書を並び替えてもよい。
【0060】
例えば、表示制御部140は、図7Aに示されるように、検索結果の各文書に対して“不要”フラグを利用者が設定できるようにしてもよい。図7Aに示されるテーブルでは、総合スコア及び個別スコアは、限定することなく、非表示とされてもよい。図7Aに示されるテーブルにおいて、利用者が文書Bに対する不要フラグを設定すると、表示制御部140は、図7Bに示されるように、文書Bの個別スコアa~eを参照して、下位2つの個別スコアa,bの合計値の降順に従って検索結果の各文書を並び替える。すなわち、図7Cに示されるように、表示制御部140は、文書C、文書A、文書D、文書B・・・の順序に検索結果の文書を並び替える。なお、図示された実施例では、総合スコア及び個別スコアは、非表示とされたが、本開示はこれに限定されず、総合スコア及び個別スコアは表示されてもよい。
【0061】
本実施例によると、検索結果の文書から利用者が不要と判断する文書を選択することによって、選択した文書と類似する文書が上位にならないように表示することができる。このとき、利用者は個別スコアを意識する必要がなくなるため、検索に慣れていない利用者の利便性がより高まると考えられる。
【0062】
図8は、本開示の一実施例による文書検索処理を示すフローチャートである。当該文書検索処理は、上述した文書検索装置100によって実行され、より詳細には、文書検索装置100の1つ以上のプロセッサ104が1つ以上のメモリ装置103に格納された1つ以上のプログラム又は指示を実行することによって実現されてもよい。また、ステップS201~S204は、図5に関連して上述したステップS101~S104と同様であり、重複した説明は省く。
【0063】
図8に示されるように、ステップS201~S204において、文書検索装置100は、検索要求に対する検索結果を表示する。
【0064】
ステップS205において、文書検索装置100は、検索結果から何れかの文書に対する選択操作があったか判定する。例えば、文書検索装置100は、検索結果の文書に対して必要フラグ及び/又は不要フラグを利用者が設定できるようにしてもよい。何れかの文書に対して必要フラグ及び/又は不要フラグが設定されると、文書検索装置100は、文書に対する選択操作があったと判定してもよく(S205:YES)、何れの文書に対しても必要フラグ及び/又は不要フラグが設定されない場合、文書検索装置100は、文書に対する選択操作がなかったと判定し(S205:NO)、当該文書検索処理を終了してもよい。
【0065】
文書に対する選択操作があったと判定した場合(S205:YES)、文書検索装置100は、ステップS206において、選択された文書のスコアに基づく表示順により検索結果を再表示してもよい。
【0066】
具体的には、ある文書に対して必要フラグが設定されると、文書検索装置100は、当該文書の上位所定数の個別スコアを特定し、特定した個別スコアの合計値又は平均値の降順に検索結果の各文書を並び替えてもよい。
【0067】
あるいは、ある文書に対して不要フラグが設定されると、文書検索装置100は、当該文書の下位所定数の個別スコアを特定し、特定した個別スコアの合計値又は平均値の降順に検索結果の各文書を並び替えてもよい。
【0068】
あるいは、1つの文書に対して必要フラグが設定され、他の1つの文書に対して不要フラグが設定されると、文書検索装置100は、必要フラグが設定された文書の上位所定数の個別フラグと、不要フラグが設定された文書の下位所定数の個別フラグとを特定し、特定した個別スコアの合計値又は平均値の降順に検索結果の各文書を並び替えてもよい。
【0069】
ステップS206において検索結果を再表示した後、文書検索装置100は、当該文書検索処理を終了してもよい。なお、ステップS206による再表示の後、何れかの文書が再選択された場合、文書検索装置100は、再選択された文書に対してステップS206を再び実行してもよい。
【0070】
本実施例によると、検索結果の文書から利用者が必要及び/又は不要と判断する文書を選択することによって、選択した文書と類似する文書が上位になるように、及び/又は上位にならないように表示することができる。このとき、利用者は個別スコアを意識する必要がなくなるため、検索に慣れていない利用者の利便性がより高まると考えられる。
【0071】
なお、以上の説明に関して更に以下の付記を開示する。
(付記1)
検索要求から検索式を生成する検索式生成部と、
前記検索式に従って文書データベースを検索する検索部と、
検索結果として抽出された文書のスコアを決定するスコア決定部と、
前記スコアに基づいて決定した表示順により前記検索結果を表示する表示制御部と、
を有する文書検索装置。
(付記2)
前記スコア決定部は、前記検索式に含まれる単語に対する個別スコアと、複数の個別スコアの総合スコアとを決定する、付記1に記載の文書検索装置。
(付記3)
前記表示制御部は、前記総合スコアに基づいて前記検索結果の表示順を決定する、付記2に記載の文書検索装置。
(付記4)
前記表示制御部は、選択された単語に対する個別スコアに基づいて前記検索結果の表示順を決定する、付記2又は3に記載の文書検索装置。
(付記5)
前記表示制御部は、選択された文書に対する上位の所定数の個別スコアに基づいて前記検索結果の表示順を決定する、付記2~4の何れかに記載の文書検索装置。
(付記6)
前記表示制御部は、選択された文書に対する下位の所定数個の個別スコアに基づいて前記検索結果の表示順を決定する、付記2~5の何れかに記載の文書検索装置。
(付記7)
文書を格納する文書データベースと、
文書検索装置と、
を有し、
前記文書検索装置は、
検索要求から検索式を生成する検索式生成部と、
前記検索式に従って前記文書データベースを検索する検索部と、
検索結果として抽出された文書のスコアを決定するスコア決定部と、
前記スコアに基づいて決定した表示順により前記検索結果を表示する表示制御部と、
を有する文書検索システム。
(付記8)
検索要求から検索式を生成するステップと、
前記検索式に従って文書データベースを検索するステップと、
検索結果として抽出された文書のスコアを決定するステップと、
前記スコアに基づいて決定した表示順により前記検索結果を表示するステップと、
をコンピュータが実行する文書検索方法。
【0072】
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
【産業上の利用可能性】
【0073】
本開示による文書検索システムは、文書の集合から効率的に文書を抽出することができ、蓄積された情報を活用したり、調査の用途に活用することができる。
【符号の説明】
【0074】
10 文書検索システム
50 文書データベース(DB)
100 文書検索装置
110 検索式生成部
120 検索部
130 スコア決定部
140 表示制御部
図1
図2
図3
図4
図5
図6
図7
図8