IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

<>
  • 特開-検索装置、検索方法及びプログラム 図1
  • 特開-検索装置、検索方法及びプログラム 図2
  • 特開-検索装置、検索方法及びプログラム 図3
  • 特開-検索装置、検索方法及びプログラム 図4
  • 特開-検索装置、検索方法及びプログラム 図5
  • 特開-検索装置、検索方法及びプログラム 図6
  • 特開-検索装置、検索方法及びプログラム 図7
  • 特開-検索装置、検索方法及びプログラム 図8
  • 特開-検索装置、検索方法及びプログラム 図9
  • 特開-検索装置、検索方法及びプログラム 図10
  • 特開-検索装置、検索方法及びプログラム 図11
  • 特開-検索装置、検索方法及びプログラム 図12
  • 特開-検索装置、検索方法及びプログラム 図13
  • 特開-検索装置、検索方法及びプログラム 図14
  • 特開-検索装置、検索方法及びプログラム 図15
  • 特開-検索装置、検索方法及びプログラム 図16
  • 特開-検索装置、検索方法及びプログラム 図17
  • 特開-検索装置、検索方法及びプログラム 図18
  • 特開-検索装置、検索方法及びプログラム 図19
  • 特開-検索装置、検索方法及びプログラム 図20
  • 特開-検索装置、検索方法及びプログラム 図21
  • 特開-検索装置、検索方法及びプログラム 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024075335
(43)【公開日】2024-06-03
(54)【発明の名称】検索装置、検索方法及びプログラム
(51)【国際特許分類】
   G06F 16/33 20190101AFI20240527BHJP
【FI】
G06F16/33
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022186716
(22)【出願日】2022-11-22
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】岩佐 圭祐
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175GC03
5B175HA01
5B175HB03
(57)【要約】
【課題】検索クエリに類似する文書を精度よく検索する。
【解決手段】検索装置が、検索クエリの入力を受け付けるクエリ入力部と、複数の文書それぞれと検索クエリとの単語類似度を計算する単語類似度計算部と、複数の文書それぞれと検索クエリとの文脈類似度を計算する文脈類似度計算部と、検索クエリに含まれる単語数に基づいて単語類似度と文脈類似度とを重み付け加算した統合類似度を計算する類似度統合部と、統合類似度に基づいて検索クエリに類似する文書に関する情報を出力する検索結果出力部と、を備える。
【選択図】図3
【特許請求の範囲】
【請求項1】
検索クエリの入力を受け付けるクエリ入力部と、
複数の文書それぞれと前記検索クエリとの単語類似度を計算する単語類似度計算部と、
前記複数の文書それぞれと前記検索クエリとの文脈類似度を計算する文脈類似度計算部と、
前記検索クエリに含まれる単語数に基づいて前記単語類似度と前記文脈類似度とを重み付け加算した統合類似度を計算する類似度統合部と、
前記統合類似度に基づいて前記検索クエリに類似する前記文書に関する情報を出力する検索結果出力部と、
を備える検索装置。
【請求項2】
請求項1に記載の検索装置であって、
前記類似度統合部は、前記単語数が少ないほど、前記単語類似度の重みを大きくして、前記統合類似度を計算する、
検索装置。
【請求項3】
請求項1に記載の検索装置であって、
前記類似度統合部は、前記複数の文書に含まれる未知語が多いとき、前記単語類似度の重みを大きくして、前記統合類似度を計算する、
検索装置。
【請求項4】
請求項1に記載の検索装置であって、
検索モードの入力を受け付けるモード入力部をさらに備え、
前記類似度統合部は、前記検索モードごとに予め定めた重みを用いて、前記統合類似度を計算する、
検索装置。
【請求項5】
請求項4に記載の検索装置であって、
前記モード入力部は、ユーザが入力した前記検索モードを当該ユーザと関連付ける履歴情報を記憶部に記憶し、
前記検索結果出力部は、前記ユーザが選択した前記文書と前記検索クエリとの前記単語類似度及び前記文脈類似度を当該ユーザと関連付ける前記履歴情報を前記記憶部に記憶し、
認証された前記ユーザに関連付けられた前記履歴情報に基づいて当該ユーザの既定の検索モードを判定するユーザ認証部をさらに備える、
検索装置。
【請求項6】
請求項1から5のいずれかに記載の検索装置であって、
前記検索結果出力部は、前記重み付けの程度を表す情報をさらに出力する、
検索装置。
【請求項7】
請求項1から5のいずれかに記載の検索装置であって、
前記検索結果出力部は、前記単語類似度の重みが前記文脈類似度の重みより大きいとき、前記文書に関する情報と共に、前記検索クエリに含まれる単語のうち前記単語類似度に与えた影響が大きい単語を出力する、
検索装置。
【請求項8】
請求項1から5のいずれかに記載の検索装置であって、
前記検索結果出力部は、前記文脈類似度の重みが前記単語類似度の重みより大きいとき、前記文書に関する情報と共に、前記文書に含まれる文のうち前記文脈類似度に与えた影響が大きい文を出力する、
検索装置。
【請求項9】
コンピュータが、
検索クエリの入力を受け付ける手順と、
複数の文書それぞれと前記検索クエリとの単語類似度を計算する手順と、
前記複数の文書それぞれと前記検索クエリとの文脈類似度を計算する手順と、
前記検索クエリに含まれる単語数に基づいて前記単語類似度と前記文脈類似度とを重み付け加算した統合類似度を計算する手順と、
前記統合類似度に基づいて前記検索クエリに類似する前記文書に関する情報を出力する手順と、
を実行する検索方法。
【請求項10】
コンピュータに、
検索クエリの入力を受け付ける手順と、
複数の文書それぞれと前記検索クエリとの単語類似度を計算する手順と、
前記複数の文書それぞれと前記検索クエリとの文脈類似度を計算する手順と、
前記検索クエリに含まれる単語数に基づいて前記単語類似度と前記文脈類似度とを重み付け加算した統合類似度を計算する手順と、
前記統合類似度に基づいて前記検索クエリに類似する前記文書に関する情報を出力する手順と、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索装置、検索方法及びプログラムに関する。
【背景技術】
【0002】
様々な文書の内容を表す電子データを蓄積し、ユーザから受け付けた検索クエリに類似する文書を検索する検索装置が利用されている。この種の検索装置は、例えば文書に含まれる単語、文節又は文脈等の観点から検索クエリと文書との類似性を評価する。
【0003】
例えば、特許文献1には、自然言語で記述された文に類似する文章を精度よく検索する目的で、単語同士の類似度、単語を含む文節同士の類似度、及び単語を含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算する検索装置が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、複数の類似度を組み合わせるときにそれぞれの特性を考慮していない、という課題がある。例えば、検索クエリが短いと、単語同士の類似度は精度よく計算できるが、文節同士の類似度及び係り受け同士の類似度は精度よく計算することができない。精度が低い類似度を組み合わせて検索を行うと、全体の検索精度が低下することがある。
【0005】
この発明の一実施形態は、上記のような技術的課題に鑑みて、検索クエリに類似する文書を精度よく検索することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態である検索装置は、検索クエリの入力を受け付けるクエリ入力部と、複数の文書それぞれと検索クエリとの単語類似度を計算する単語類似度計算部と、複数の文書それぞれと検索クエリとの文脈類似度を計算する文脈類似度計算部と、検索クエリに含まれる単語数に基づいて単語類似度と文脈類似度とを重み付け加算した統合類似度を計算する類似度統合部と、統合類似度に基づいて検索クエリに類似する文書に関する情報を出力する検索結果出力部と、を備える。
【発明の効果】
【0007】
本発明の一実施形態によれば、検索クエリに類似する文書を精度よく検索することができる。
【図面の簡単な説明】
【0008】
図1】一実施形態における文書検索システムの全体構成の一例を示す概念図である。
図2】一実施形態におけるコンピュータのハードウェア構成の一例を示すブロック図である。
図3】第1実施形態における検索装置の機能構成の一例を示すブロック図である。
図4】第1実施形態における単語特徴量の一例を示す図である。
図5】第1実施形態における文脈特徴量の一例を示す図である。
図6】第1実施形態における検索履歴の一例を示す図である。
図7】第1実施形態における検索方法の処理手順の一例を示すフローチャートである。
図8】第1実施形態における検索画面の一例を示す図である。
図9】第2実施形態における検索装置の機能構成の一例を示すブロック図である。
図10】第2実施形態における語彙情報の一例を示す図である。
図11】第2実施形態における単語特徴量の一例を示す図である。
図12】第2実施形態における検索方法の処理手順の一例を示すフローチャートである。
図13】第2実施形態における検索画面の第1の例を示す図である。
図14】第2実施形態における検索画面の第2の例を示す図である。
図15】第3実施形態における検索装置の機能構成の一例を示すブロック図である。
図16】第3実施形態における検索方法の処理手順の一例を示すフローチャートである。
図17】第3実施形態における検索画面の一例を示す図である。
図18】第4実施形態における検索装置の機能構成の一例を示すブロック図である。
図19】第4実施形態におけるユーザ履歴の一例を示す図である。
図20】第4実施形態におけるユーザ情報の一例を示す図である。
図21】第4実施形態における検索方法の処理手順の一例を示すフローチャートである。
図22】第4実施形態における検索画面の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら、この発明の実施の形態について、詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0010】
[第1実施形態]
本発明の第1実施形態は、文書の内容を表す電子データを蓄積し、ユーザから受け付けた検索クエリに類似する文書を検索する文書検索システムである。本実施形態における文書検索システムは、単語同士の類似度(以下、「単語類似度」とも呼ぶ)と文脈同士の類似度(以下、「文脈類似度」とも呼ぶ)とを統合した類似度(以下、「統合類似度」とも呼ぶ)に基づいて、検索クエリと類似する文書を検索する。
【0011】
検索クエリが長い文章である(言い替えると、検索クエリに含まれる単語数が多い)場合、文脈を重視して類似性を評価した方が精度の良い検索結果が得られることが期待できる。一方、検索クエリが短い文章である(言い替えると、検索クエリに含まれる単語数が少ない)場合、単語を重視して類似性を評価した方が精度の良い検索結果が得られることが期待できる。
【0012】
本実施形態では、単語類似度と文脈類似度とを重み付け加算することで統合類似度を計算する。このとき、単語類似度に対する重み(以下、「単語重み」とも呼ぶ)及び文脈類似度に対する重み(以下、「文脈重み」とも呼ぶ)を、検索クエリに含まれる単語数に基づいて決定する。
【0013】
したがって、本実施形態における文書検索システムによれば、検索クエリに含まれる単語数に基づいて、単語類似度及び文脈類似度を適切に重み付けして検索クエリと文書との類似性を評価することができる。その結果、検索クエリに類似する文書を精度よく検索することができる。
【0014】
<文書検索システムの全体構成>
まず、本実施形態における文書検索システムの全体構成について、図1を参照しながら説明する。図1は、本実施形態における文書検索システムの全体構成の一例を示す概念図である。
【0015】
図1に示されているように、本実施形態における文書検索システム1は、検索装置10及びユーザ端末20を含む。検索装置10及びユーザ端末20は、それぞれ通信ネットワークN1に接続している。
【0016】
通信ネットワークN1は、接続されている各装置が相互に通信可能となるように構成されている。通信ネットワークN1は、例えば、インターネット、LAN(Local Area Network)、又はWAN(Wide Area Network)等の有線通信によるネットワークによって構築されている。
【0017】
通信ネットワークN1は、有線通信だけでなく、例えば、無線LAN、又は近距離無線通信等の無線通信、もしくはWiMAX(Worldwide Interoperability for Microwave Access)、LTE(Long Term Evolution)、又は5G(5th Generation)等の移動体通信によるネットワークが含まれていてもよい。
【0018】
検索装置10は、蓄積された文書を検索するパーソナルコンピュータ、ワークステーション又はサーバ等の情報処理装置である。検索装置10は、ユーザ端末20から受信した検索クエリに類似する文書を検索する。検索装置10は、検索クエリに類似する文書に関する情報を含む検索結果をユーザ端末20に送信する。
【0019】
ユーザ端末20は、文書検索システム1のユーザが操作するパーソナルコンピュータ、スマートフォン又はタブレット端末等の情報処理端末である。ユーザ端末20は、ディスプレイ等に表示した検索画面に対するユーザの操作に応じて、検索クエリの入力を受け付け、検索装置10に送信する。ユーザ端末20は、検索装置10から受信した検索結果を検索画面に出力する。
【0020】
検索装置10及びユーザ端末20は、通信機能を備えた装置であれば、情報処理装置に限られない。すなわち、検索装置10及びユーザ端末20は、例えば、PJ(Projector:プロジェクタ)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車(Connected Car)、ノートPC(Personal Computer)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPC又はデスクトップPC等であってもよい。
【0021】
なお、図1に示した文書検索システム1の全体構成は一例であって、用途や目的に応じて様々なシステム構成例があり得る。例えば、検索装置10又はユーザ端末20が、文書検索システム1に複数台含まれていてもよい。例えば、検索装置10は、複数台のコンピュータにより実現してもよいし、クラウドコンピューティングのサービスとして実現してもよい。図1に示す検索装置10、ユーザ端末20のような装置の区分は一例である。
【0022】
<文書検索システムのハードウェア構成>
次に、本実施形態における文書検索システムに含まれる各装置のハードウェア構成について、図2を参照しながら説明する。
【0023】
≪コンピュータのハードウェア構成≫
本実施形態における検索装置10及びユーザ端末20は、コンピュータにより実現される。図2は、本実施形態におけるコンピュータのハードウェア構成の一例を示す図である。
【0024】
図2に示されているように、一実施形態におけるコンピュータは、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティング機器512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516を備えている。
【0025】
これらのうち、CPU501は、コンピュータ全体の動作を制御する。ROM502は、IPL(Initial Program Loader)等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。
【0026】
ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、通信ネットワークN1を利用してデータ通信をするためのインターフェースである。バスライン510は、図2に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0027】
また、キーボード511は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティング機器512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
【0028】
<文書検索システムの機能構成>
本実施形態における文書検索システムの機能構成について、図3を参照しながら説明する。図3は、本実施形態における検索装置の機能構成の一例を示すブロック図である。
【0029】
≪検索装置の機能構成≫
図3に示されているように、本実施形態における検索装置10は、クエリ入力部101、単語特徴抽出部102、単語類似度計算部103、文脈特徴抽出部104、文脈類似度計算部105、重み決定部106、類似度統合部107、検索結果出力部108、文書記憶部201、単語特徴記憶部202、文脈特徴記憶部203及び検索履歴記憶部204を備える。
【0030】
クエリ入力部101、単語特徴抽出部102、単語類似度計算部103、文脈特徴抽出部104、文脈類似度計算部105、重み決定部106、類似度統合部107及び検索結果出力部108は、例えば、図2に示されているHD504からRAM503上に展開されたプログラムがCPU501及びHDDコントローラ505に実行させる処理によって実現される。
【0031】
文書記憶部201、単語特徴記憶部202、文脈特徴記憶部203及び検索履歴記憶部204は、例えば、図2に示されているHD504を用いて実現される。HD504が記憶するデータの読み込み又は書き込みは、例えば、HDDコントローラ505を介して行われる。
【0032】
文書記憶部201には、文書検索システム1に蓄積された文書の内容を表す複数の電子データ(以下、「文書データ」とも呼ぶ)が記憶されている。文書検索システム1のユーザが、ユーザ端末20を用いて文書データを文書検索システム1にアップロードすることで、文書記憶部201に文書が蓄積される。また、文書検索システム1が、他の情報処理システムに記憶されている文書データを取得することで、文書記憶部201に文書が蓄積されてもよい。
【0033】
単語特徴記憶部202には、文書記憶部201に記憶されている各文書に含まれる単語の特徴を表す特徴量(以下、「単語特徴量」とも呼ぶ)が記憶されている。単語特徴記憶部202に記憶される単語特徴量は、文書記憶部201に文書データが記憶された後に、任意のタイミングで自動的に生成すればよい。
【0034】
本実施形態における単語特徴量は、TF-IDF(Term Frequency-Inverse Document Frequency)である。TF-IDFは、文書における単語の重要度を表す統計量である。本実施形態では、各文書に含まれる各単語のTF-IDFを事前に計算し、単語特徴記憶部202に記憶しておく。ただし、単語特徴量はTF-IDFに限定されず、単語同士の類似度を評価可能な特徴量であれば、どのような特徴量であってもよい。
【0035】
図4は、本実施形態における単語特徴量の一例を示す図である。図4に示されているように、本実施形態における単語特徴量は、文書ごとに、当該文書に含まれる各単語のTF-IDFを保持する情報である。
【0036】
文脈特徴記憶部203には、文書記憶部201に記憶されている各文書に含まれる文章の文脈の特徴を表す特徴量(以下、「文脈特徴量」とも呼ぶ)が記憶されている。文脈特徴記憶部203に記憶される文脈特徴量は、文書記憶部201に文書データが記憶された後に、任意のタイミングで自動的に生成すればよい。
【0037】
本実施形態における文脈特徴量は、BERT(Bidirectional Encoder Representations from Transformers)の特徴ベクトルである。BERTは、Transformerと呼ばれるディープニューラルネットワークを用いた自然言語処理モデルである。BERTは、文章が入力されると、意味空間上のベクトルを出力するように事前学習されている。ただし、文脈特徴量はBERTの特徴ベクトルに限定されず、文脈同士の類似度を計算可能な特徴量であれば、どのような特徴量であってもよい。
【0038】
図5は、本実施形態における文脈特徴量の一例を示す図である。図5に示されているように、本実施形態における文脈特徴量は、文書ごとに、意味空間上の一点を示す特徴ベクトルを保持する情報である。
【0039】
検索履歴記憶部204には、ユーザにより検索された内容を表す検索履歴が記憶される。検索履歴は、文書検索システム1のユーザが文書検索を行うたびに、検索履歴記憶部204に記憶される。本実施形態における検索履歴は、検索日時、ユーザを示す情報、検索クエリ、検索時に用いた重み等が含まれる。
【0040】
図6は、本実施形態における検索履歴の一例を示す図である。図6に示されているように、本実施形態における検索履歴は、検索日時、ユーザを示す情報(ユーザ名)、検索クエリ、単語重み及び文脈重み等を含む。
【0041】
検索履歴を記憶しておくことで、文書検索システム1において利用されている検索の傾向を解析することができる。検索の傾向の解析結果は、文書検索システム1の利便性の向上等の機能改善に資することができる。
【0042】
クエリ入力部101は、検索クエリの入力を受け付ける。検索クエリは、単語を羅列したものであってもよいし、自然文であってもよい。クエリ入力部101は、ユーザ端末20から検索クエリを受信することで、検索クエリの入力を受け付ける。クエリ入力部101は、ディスプレイ506に表示した検索画面にユーザが入力した検索クエリを受け付けてもよい。
【0043】
単語特徴抽出部102は、クエリ入力部101が受け付けた検索クエリから単語を抽出する。単語特徴抽出部102は、検索クエリから抽出された各単語の単語特徴量を取得する。単語特徴抽出部102は、検索クエリに含まれる単語数を取得する。
【0044】
本実施形態では、単語特徴抽出部102は、単語特徴記憶部202に記憶されている各文書における各単語のTF-IDFから、検索クエリに含まれる単語のTF-IDFを抽出する。すなわち、単語特徴抽出部102が抽出する単語特徴量は、文書記憶部201に記憶されている各文書における、検索クエリに含まれる各単語のTF-IDFを要素とするベクトルである。
【0045】
単語類似度計算部103は、単語特徴抽出部102が抽出した単語特徴量に基づいて、各文書と検索クエリとの単語類似度を計算する。単語類似度計算部103は、文書記憶部201に蓄積されている各文書について、単語類似度を計算する。
【0046】
本実施形態では、単語類似度計算部103は、単語特徴抽出部102が抽出したベクトルに含まれるTF-IDFの統計量を計算する。計算する統計量は、最大値でもよいし、算術平均でもよい。本実施形態では、TF-IDFの最大値を単語類似度として計算する。すなわち、本実施形態では、文書及び検索クエリに共通して含まれる単語のうち、最も大きいTF-IDFが当該文書の単語類似度となる。
【0047】
文脈特徴抽出部104は、クエリ入力部101が受け付けた検索クエリに基づいて、検索クエリの文脈特徴量を抽出する。本実施形態では、検索クエリをBERTに入力することで得られた特徴ベクトルを文脈特徴量とする。
【0048】
文脈類似度計算部105は、文脈特徴記憶部203に記憶されている文脈特徴量と文脈特徴抽出部104が抽出した文脈特徴量とに基づいて、各文書と検索クエリとの文脈類似度を計算する。文脈類似度計算部105は、文書記憶部201に蓄積されている各文書について、文脈類似度を計算する。
【0049】
本実施形態では、文脈類似度計算部105は、各文書についてBERTで得られた特徴ベクトルと、検索クエリについてBERTで得られた特徴ベクトルとのコサイン類似度を計算する。コサイン類似度は、ベクトル間の類似性を表す尺度である。ただし、文脈特徴量は特徴ベクトル間のコサイン類似度に限定されず、特徴ベクトル間の類似性を評価可能な尺度であれば、どのような尺度でもよい。
【0050】
重み決定部106は、単語特徴抽出部102が取得した検索クエリの単語数に基づいて、重みを決定する。重み決定部106が決定する重みは、単語重み及び文脈重みが含まれる。
【0051】
類似度統合部107は、重み決定部106が決定した重みに基づいて、単語類似度と文脈類似度とを統合した統合類似度を計算する。類似度統合部107は、単語類似度と文脈類似度とを重み付け加算することで、統合類似度を計算する。類似度統合部107は、文書記憶部201に蓄積されている各文書について、統合類似度を計算する。
【0052】
検索結果出力部108は、類似度統合部107が計算した統合類似度が大きい文書を表す検索結果を、ユーザに対して出力する。検索結果出力部108は、ユーザ端末20に検索結果を送信することで、検索結果を出力する。検索結果出力部108は、ディスプレイ506に表示した検索画面に検索結果を表示してもよいし、外部機器接続I/F508に接続されたプリンタ等から検索結果を出力してもよい。
【0053】
<検索方法の処理手順>
本実施形態における文書検索システムが実行する検索方法について、図7を参照しながら説明する。図7は、本実施形態における検索方法の処理手順の一例を示すフローチャートである。
【0054】
ステップS1において、ユーザ端末20は、ユーザの操作に応じて、検索画面をディスプレイに表示する。次に、ユーザ端末20は、ユーザにより検索画面に入力された検索クエリを検索装置10に送信する。
【0055】
≪検索画面における検索クエリの入力≫
本実施形態における検索画面について、図8を参照しながら説明する。図8は、本実施形態における検索画面の一例を示す図である。
【0056】
図8に示されているように、本実施形態における検索画面300は、クエリ入力欄301及び検索ボタン302を有する。ユーザは、クエリ入力欄301に所望の検索クエリを入力し、検索ボタン302を押下する。ユーザ端末20は、検索ボタン302が押下されると、クエリ入力欄301に入力された検索クエリを検索装置10に送信する。
【0057】
図7に戻って説明する。ステップS1において、検索装置10のクエリ入力部101は、ユーザ端末20から検索クエリを受信する。次に、クエリ入力部101は、受信した検索クエリを受け付ける。続いて、クエリ入力部101は、検索クエリを単語特徴抽出部102及び文脈特徴抽出部104に送る。
【0058】
ステップS2において、検索装置10の単語特徴抽出部102は、クエリ入力部101から検索クエリを受け取る。次に、単語特徴抽出部102は、受け取った検索クエリに含まれる単語を抽出する。単語特徴抽出部102は、例えば、検索クエリを形態素解析することで、単語を抽出することができる。続いて、単語特徴抽出部102は、検索クエリから抽出された単語数を重み決定部106に送る。
【0059】
ステップS3において、検索装置10の単語特徴抽出部102は、単語特徴記憶部202から各文書の単語特徴量を読み出す。次に、単語特徴抽出部102は、各文書の単語特徴量から、検索クエリに含まれる各単語の単語特徴量を抽出する。続いて、単語特徴抽出部102は、抽出した単語特徴量を単語類似度計算部103に送る。
【0060】
ステップS4において、検索装置10の単語類似度計算部103は、単語特徴抽出部102から各文書における各単語の単語特徴量を受け取る。次に、単語類似度計算部103は、各文書について、各単語の単語特徴量の統計量を計算する。これにより、各文書と検索クエリとの単語類似度が得られる。続いて、単語類似度計算部103は、計算した単語類似度を類似度統合部107に送る。
【0061】
ステップS5において、検索装置10の文脈特徴抽出部104は、クエリ入力部101から検索クエリを受け取る。次に、文脈特徴抽出部104は、受け取った検索クエリに基づいて、検索クエリの文脈特徴量を抽出する。続いて、文脈特徴抽出部104は、抽出した文脈特徴量を文脈類似度計算部105に送る。
【0062】
ステップS6において、検索装置10の文脈類似度計算部105は、文脈特徴抽出部104から検索クエリの文脈特徴量を受け取る。次に、文脈類似度計算部105は、文脈特徴記憶部203に記憶されている各文書の文脈特徴量を読み出す。続いて、文脈類似度計算部105は、各文書について、検索クエリの文脈特徴量と当該文書の文脈特徴量とのコサイン類似度を計算する。これにより、各文書と検索クエリとの文脈類似度が得られる。続いて、文脈類似度計算部105は、計算した文脈類似度を類似度統合部107に送る。
【0063】
ステップS7において、検索装置10の重み決定部106は、単語特徴抽出部102から検索クエリに含まれる単語数を受け取る。次に、重み決定部106は、受け取った単語数に基づいて、単語重み及び文脈重みを決定する。重み決定部106は、決定した単語重み及び文脈重みを類似度統合部107に送る。
【0064】
本実施形態では、重み決定部106は、pを単語重みとし、qを文脈重みとし、"p=1/(c+1),q=1-p"を計算する。ただし、cは検索クエリに含まれる単語数である。したがって、検索クエリに含まれる単語数cが大きいほど、単語重みpが小さくなり、文脈重みqが大きくなる。
【0065】
ステップS8において、検索装置10の類似度統合部107は、重み決定部106から単語重み及び文脈重みを受け取る。次に、類似度統合部107は、単語類似度計算部103から各文書と検索クエリとの単語類似度を受け取る。また、類似度統合部107は、文脈類似度計算部105から各文書と検索クエリとの文脈類似度を受け取る。
【0066】
類似度統合部107は、受け取った単語重み及び文脈重みに基づいて、受け取った単語類似度と文脈類似度とを統合する。これにより、単語類似度と文脈類似度とを統合した統合類似度が生成される。類似度統合部107は、計算した各文書の統合類似度を検索結果出力部108に送る。
【0067】
本実施形態では、類似度統合部107は、単語類似度と文脈類似度とを重み付け加算することで、統合類似度を計算する。具体的には、類似度統合部107は、"統合類似度=p*単語類似度+q*文脈類似度"を計算する。検索クエリに含まれる単語数cが大きいほど、単語類似度を重視した統合類似度となり、検索クエリに含まれる単語数cが小さいほど、文脈類似度を重視した統合類似度となる。
【0068】
ステップS9において、検索装置10の検索結果出力部108は、類似度統合部107から各文書の統合類似度を受け取る。次に、検索結果出力部108は、受け取った統合類似度に基づいて、検索クエリに類似する文書を文書記憶部201から抽出する。続いて、検索結果出力部108は、抽出した文書に関する情報を含む検索結果をユーザ端末20に送信する。同時に、検索結果出力部108は、検索内容を表す検索履歴を検索履歴記憶部204に記憶する。
【0069】
ユーザ端末20は、検索装置10から検索結果を受信する。次に、ユーザ端末20は、受信した検索結果を、ステップS1でディスプレイに表示した検索画面300に表示する。
【0070】
≪検索画面における検索結果の表示≫
図8に示したように、本実施形態における検索画面300は、文書情報表示欄303、関連度表示欄304、件数表示欄305及びモード表示欄306を有する。
【0071】
文書情報表示欄303は、検索結果に含まれる文書に関する情報を表示する。本実施形態では、文書を示す情報(ファイル名)が表示されている。文書情報表示欄303は、検索結果に含まれる文書ごとに表示される。
【0072】
関連度表示欄304は、検索結果に含まれる文書と検索クエリとの関連度を表示する。本実施形態では、文書と検索クエリとの単語類似度及び文脈類似度が関連度として表示されている。関連度表示欄304は、文書情報表示欄303の中に配置され、検索結果に含まれる文書ごとに表示される。
【0073】
件数表示欄305には、検索結果に含まれる文書数が表示される。
【0074】
モード表示欄306は、検索モードを表示する。検索モードは、重み付けの程度を表す情報である。例えば、単語重みが文脈重みよりも大きければ(p>q)、「単語優先」となる。一方、単語重みが文脈重みよりも小さければ(p<q)、「文脈優先」となる。
【0075】
<第1実施形態の効果>
本実施形態における検索装置10は、蓄積された文書と検索クエリとの単語類似度と文脈類似度とを統合した統合類似度に基づいて、検索クエリに類似する文書を抽出する。統合類似度は、検索クエリに含まれる単語数に基づいて単語類似度と文脈類似度を重み付け加算することで、計算される。したがって、本実施形態における検索装置10によれば、検索クエリに類似する文書を精度よく検索することができる。
【0076】
本実施形態における検索装置10は、検索クエリに含まれる単語数が少ないほど、単語類似度の重みを大きくして、統合類似度を計算する。検索クエリに含まれる単語数が少ないと、単語を重視して類似性を評価した方が精度の良い検索結果が得られる。一方、検索クエリに含まれる単語数が多いと、文脈を重視して類似性を評価した方が精度の良い検索結果が得られる。したがって、本実施形態における検索装置10によれば、検索クエリに類似する文書を精度よく検索することができる。
【0077】
[第2実施形態]
第1実施形態では、検索クエリに含まれる単語数に基づいて、単語重み及び文脈重みを決定した。本発明の第2実施形態では、蓄積された文書の傾向に基づいて、単語重み及び文脈重みを決定する。
【0078】
本実施形態では、文書の傾向として、蓄積された文書に未知語が多いか否かを利用する。未知語とは、文書検索システム1が保持している語彙に含まれない単語である。蓄積された文書に未知語が多い場合、専門的な文書が多く登録されているものと推定できる。この場合、単語を重視して類似性を評価した方が精度の良い検索結果が得られる可能性が高い。そのため、本実施形態では、蓄積された文書に未知語が多く含まれる場合、単語重みを大きく設定して、統合類似度を計算する。
【0079】
したがって、本実施形態における文書検索システムによれば、蓄積された文書の傾向に基づいて、単語類似度及び文脈類似度を適切に重み付けして検索クエリと文書との類似性を評価することができる。その結果、検索クエリに類似する文書を精度よく検索することができる。
【0080】
<文書検索システムの機能構成>
本実施形態における文書検索システムの機能構成について、図9を参照しながら説明する。図9は、本実施形態における検索装置の機能構成の一例を示すブロック図である。
【0081】
≪検索装置の機能構成≫
図9に示されているように、本実施形態における検索装置10は、クエリ入力部101、単語特徴抽出部102、単語類似度計算部103、文脈特徴抽出部104、文脈類似度計算部105、重み決定部106、類似度統合部107、検索結果出力部108、文書記憶部201、単語特徴記憶部202、文脈特徴記憶部203、検索履歴記憶部204及び語彙記憶部205を備える。すなわち、本実施形態における検索装置10は、第1実施形態と比較して、語彙記憶部205をさらに備える点が異なる。
【0082】
語彙記憶部205には、文書検索システム1が保持している語彙を表す語彙情報が記憶されている。文書検索システム1が保持している語彙は、例えば、単語特徴抽出部102が検索クエリを形態素解析するときに用いられる語彙である。本実施形態では、単語特徴抽出部102が利用する形態素解析ツール等から予め語彙を抽出し、語彙記憶部205に記憶しておくものとする。
【0083】
図10は、本実施形態における語彙情報の一例を示す図である。図10に示されているように、本実施形態における語彙情報は、語彙に含まれる単語及び品詞を保持する情報である。語彙情報は、語彙に含まれる単語が含まれていれば、その他にどのような情報を保持していてもよい。例えば、形態素解析で利用される語彙は一般的に広く利用されている単語の集合である。そのため、語彙情報に含まれない単語は、専門用語等であることが推測でき、単語を重視して類似性を評価した方が精度の良い検索結果が得られることが期待できる。
【0084】
図11は、本実施形態における単語特徴量の一例を示す図である。図11に示されているように、本実施形態における単語特徴量は、文書ごとに、当該文書に含まれる各単語のTF-IDFを保持する情報である。本実施形態における単語特徴量には、未知語に関するTF-IDFが含まれている。
【0085】
本実施形態における重み決定部106は、未知語の多寡に応じて、単語重み及び文脈重みを決定する。未知語の多寡は、単語特徴記憶部202に記憶されている単語特徴量及び語彙記憶部205に記憶されている語彙情報に基づいて判定する。
【0086】
未知語が多い場合、重み決定部106は、相対的に単語重みの方が大きくなるように、単語重み及び文脈重みを決定する。一方、未知語が少ない場合、重み決定部106は、相対的に文脈重みの方が大きくなるように、単語重み及び文脈重みを決定する。
【0087】
<検索方法の処理手順>
本実施形態における文書検索システムが実行する検索方法について、図12を参照しながら説明する。図12は、本実施形態における検索方法の処理手順の一例を示すフローチャートである。
【0088】
以下、本実施形態における検索方法について、第1実施形態との相違点を中心に説明する。
【0089】
ステップS11において、検索装置10の重み決定部106は、単語特徴記憶部202に記憶されている単語特徴量を読み出す。また、重み決定部106は、語彙記憶部205に記憶されている語彙情報を読み出す。
【0090】
次に、重み決定部106は、単語特徴量に含まれる単語と語彙情報に含まれる単語とを照合する。重み決定部106は、単語特徴量に含まれ、かつ、語彙情報に含まれない単語を未知語と判定する。一方、重み決定部106は、単語特徴量に含まれ、かつ、語彙情報に含まれる単語を既知語と判定する。
【0091】
続いて、重み決定部106は、未知語が多いか否かを判定する。重み決定部106は、未知語の数が予め定めた閾値より大きければ、未知語が多いと判定する。重み決定部106は、未知語の数と既知語の数との比が予め定めた閾値より大きければ、未知語が多いと判定してもよい。
【0092】
未知語が多い場合(YES)、重み決定部106はステップS12に処理を進める。一方、未知語が少ない場合(NO)、重み決定部106はステップS13に処理を進める。
【0093】
ステップS12において、重み決定部106は、検索モードを専門文書モードに設定する。専門文書モードは、文書記憶部201に専門文書が多く記憶されている場合に使用することを想定した検索モードである。専門文書では、一般的な語彙には含まれない専門的な用語が多く使用されていることが推測できる。
【0094】
ステップS13において、重み決定部106は、検索モードを一般文書モードに設定する。一般文書モードは、文書記憶部201に一般文書が多く含まれる場合に使用することを想定した検索モードである。一般文書では、一般的な語彙が使用されており、専門的な用語がほとんど使用されていないことが推測できる。
【0095】
ステップS14において、重み決定部106は、ステップS12又はステップS13で設定された検索モードに基づいて、単語重み及び文脈重みを決定する。重み決定部106は、決定した単語重み及び文脈重みを類似度統合部107に送る。
【0096】
専門文書モードには、相対的に単語重みの方が大きい重みが予め設定されている。本実施形態では、専門文書モードには、p=0.75、q=0.25が設定されているものとする。専門文書モードに設定する重みは、相対的に単語重みの方が大きければよく、これらに限定されない。
【0097】
一般文書モードには、相対的に文脈重みの方が大きい重みが予め設定されている。本実施形態では、一般文書モードには、p=0.25、q=0.75が設定されているものとする。一般文書モードに設定する重みは、相対的に文脈重みの方が大きければよく、これらに限定されない。
【0098】
≪検索画面における検索結果の表示≫
本実施形態における検索画面について、図13及び図14を参照しながら説明する。図13は、本実施形態における検索画面の第1の例を示す図である。図14は、本実施形態における検索画面の第2の例を示す図である。
【0099】
図13に示す検索画面の第1の例は、専門文書モードで検索が行われたときの検索結果を表示する検索画面の例である。図13に示されているように、本実施形態における検索画面310は、単語表示欄311を有する。
【0100】
単語表示欄311は、文書と検索クエリとの単語類似度に与えた影響が大きい単語を表示する。本実施形態では、単語表示欄311には、検索クエリに含まれる未知語のうち、TF-IDFが大きい所定数の単語が表示されるものとする。ただし、単語表示欄311に表示する単語は、文書の中で特徴的な単語であればよく、表示する単語を選択する基準は任意に定めることができる。
【0101】
図14に示す検索画面の第2の例は、一般文書モードで検索が行われたときの検索結果を表示する検索画面の例である。図14に示されているように、本実施形態における検索画面310は、文表示欄312を有する。
【0102】
文表示欄312は、文書と検索クエリとの文脈類似度に与えた影響が大きい文を表示する。本実施形態では、文表示欄312には、文書に含まれる各文章のうち、検索クエリとの特徴ベクトル間のコサイン類似度が大きい所定数の文が表示されるものとする。ただし、文表示欄312に表示する文は、文書の中で特徴的な文であればよく、表示する文を選択する基準は任意に定めることができる。
【0103】
<第2実施形態の効果>
本実施形態における検索装置10は、蓄積された文書に未知語が多いとき、単語類似度の重みを大きくして、統合類似度を計算する。未知語が多い文書は、専門的な文書であることが想定され、単語を重視して類似性を評価した方が精度の良い検索結果が得られることが期待できる。したがって、本実施形態における検索装置10によれば、蓄積された文書の傾向に応じて、検索クエリに類似する文書を精度よく検索することができる。
【0104】
[第3実施形態]
第2実施形態では、蓄積された文書の傾向に応じた検索モードに基づいて、単語重み及び文脈重みを決定した。本発明の第3実施形態では、ユーザが検索モードを選択可能とし、ユーザの選択に基づいて、単語重み及び文脈重みを決定する。
【0105】
したがって、本実施形態における文書検索システムによれば、ユーザが所望する検索モードに応じて、単語類似度及び文脈類似度を適切に重み付けして検索クエリと文書との類似性を評価することができる。その結果、検索クエリに類似する文書を精度よく検索することができる。
【0106】
<文書検索システムの機能構成>
本実施形態における文書検索システムの機能構成について、図15を参照しながら説明する。図15は、本実施形態における検索装置の機能構成の一例を示すブロック図である。
【0107】
≪検索装置の機能構成≫
図15に示されているように、本実施形態における検索装置10は、クエリ入力部101、単語特徴抽出部102、単語類似度計算部103、文脈特徴抽出部104、文脈類似度計算部105、重み決定部106、類似度統合部107、検索結果出力部108、モード入力部109、文書記憶部201、単語特徴記憶部202、文脈特徴記憶部203及び検索履歴記憶部204を備える。すなわち、本実施形態における検索装置10は、第2実施形態と比較して、語彙記憶部205を備えず、モード入力部109を備える点が異なる。
【0108】
モード入力部109は、検索モードの入力を受け付ける。モード入力部109は、ユーザ端末20から検索クエリと共に検索モードを表す情報を受信することで、検索モードの入力を受け付ける。モード入力部109は、ディスプレイ506に表示した検索画面にユーザが入力した検索モードを受け付けてもよい。
【0109】
本実施形態における検索モードは、全般モード、一般文書モード及び専門文書モードを含むものとする。各モードには、予め単語重み及び文脈重みが定義されている。全般モードでは、検索クエリに含まれる単語数に基づいて単語重み及び文脈重みが決定される。一般文書モードでは、相対的に文脈重みの方が大きくなるように単語重み及び文脈重みが設定されている。専門文書モードでは、相対的に単語重みの方が大きくなるように単語重み及び文脈重みが設定されている。
【0110】
<検索方法の処理手順>
本実施形態における文書検索システムが実行する検索方法について、図16を参照しながら説明する。図16は、本実施形態における検索方法の処理手順の一例を示すフローチャートである。
【0111】
以下、本実施形態における検索方法について、第1実施形態との相違点を中心に説明する。
【0112】
ステップS21において、ユーザ端末20は、ユーザにより検索画面に入力された検索モードを表す情報を検索装置10に送信する。本実施形態における検索画面は、予め定義された検索モードを選択可能な態様で表示する。
【0113】
≪検索画面における検索クエリの入力≫
本実施形態における検索画面について、図17を参照しながら説明する。図17は、本実施形態における検索画面の一例を示す図である。
【0114】
図17に示されているように、本実施形態における検索画面320は、モード選択欄321をさらに有する。
【0115】
モード選択欄321は、予め定義された検索モードを排他的に選択可能な態様で表示する。本実施形態では、モード選択欄321は、全般モード、一般文書モード及び専門文書モードを選択肢とするコンボボックスである。なお、モード選択欄321は、検索モードを排他的に選択可能に表示できればどのような態様で表示してもよい。
【0116】
ユーザは、クエリ入力欄301に所望の検索クエリを入力し、モード選択欄321で所望の検索モードを選択し、検索ボタン302を押下する。ユーザ端末20は、検索ボタン302が押下されると、クエリ入力欄301に入力された検索クエリと共に、モード選択欄321で選択された検索モードを表す情報を検索装置10に送信する。
【0117】
図16に戻って説明する。ステップS21において、検索装置10のモード入力部109は、ユーザ端末20から検索モードを表す情報を受信する。次に、モード入力部109は、受信した検索モードを受け付ける。続いて、モード入力部109は、検索モードを重み決定部106に送る。
【0118】
ステップS22において、検索装置10の重み決定部106は、モード入力部109から検索モードを受け取る。次に、重み決定部106は、単語特徴抽出部102から検索クエリに含まれる単語数を受け取る。続いて、重み決定部106は、受け取った検索モード及び単語数に基づいて、単語重み及び文脈重みを決定する。重み決定部106は、決定した単語重み及び文脈重みを類似度統合部107に送る。
【0119】
本実施形態では、検索モードが全般モードである場合、重み決定部106は、pを単語重みとし、qを文脈重みとし、"p=1/(c+1),q=1-p"を計算する。検索モードが一般文書モードである場合、重み決定部106は、p=0.25、q=0.75を設定する。検索モードが専門文書モードである場合、重み決定部106は、p=0.75、q=0.25を設定する。
【0120】
<第3実施形態の効果>
本実施形態における検索装置10は、検索モードを選択可能な態様で表示し、ユーザが所望する検索モードに応じて単語重み及び文脈重みを決定する。したがって、本実施形態における検索装置10によれば、ユーザが所望する検索モードに応じて、検索クエリに類似する文書を精度よく検索することができる。
【0121】
[第4実施形態]
第3実施形態では、ユーザが所望する検索モードに応じて、単語重み及び文脈重みを決定した。本発明の第4実施形態では、ユーザに関連する検索の傾向に基づいて、単語重み及び文脈重みを決定する。
【0122】
ユーザは様々な目的から文書検索システム1を利用するが、あるユーザが文書検索システム1を利用する目的は、例えば職種や業務の内容に応じて傾向がある。また、同じ組織に所属するユーザは、職種や業務の内容が類似することが多く、同じ傾向を示すことがある。さらに、ユーザの使用言語によっては、検索クエリの入力方法(例えば、単語の羅列で検索する、又は自然文で検索する等)に傾向がある場合がある。
【0123】
したがって、本実施形態における文書検索システムによれば、ユーザに関連する検索の傾向に基づいて、単語類似度及び文脈類似度を適切に重み付けして検索クエリと文書との類似性を評価することができる。その結果、検索クエリに類似する文書を精度よく検索することができる。
【0124】
<文書検索システムの機能構成>
本実施形態における文書検索システムの機能構成について、図18を参照しながら説明する。図18は、本実施形態における検索装置の機能構成の一例を示すブロック図である。
【0125】
≪検索装置の機能構成≫
図18に示されているように、本実施形態における検索装置10は、クエリ入力部101、単語特徴抽出部102、単語類似度計算部103、文脈特徴抽出部104、文脈類似度計算部105、重み決定部106、類似度統合部107、検索結果出力部108、モード入力部109、ユーザ認証部110、文書記憶部201、単語特徴記憶部202、文脈特徴記憶部203及び検索履歴記憶部204、ユーザ履歴記憶部206及びユーザ情報記憶部207を備える。すなわち、本実施形態における検索装置10は、第3実施形態と比較して、ユーザ認証部110、ユーザ履歴記憶部206及びユーザ情報記憶部207をさらに備える点が異なる。
【0126】
ユーザ履歴記憶部206には、ユーザにより選択された検索モードを表す履歴情報、及びユーザにより検索結果から選択された文書を表す履歴情報を含むユーザ履歴が記憶される。
【0127】
図19は、本実施形態におけるユーザ履歴の一例を示す図である。図19に示されているように、本実施形態におけるユーザ履歴は、日時、ユーザを示す情報(ユーザ名)、タイミング、検索モード、選択文書、単語類似度及び文脈類似度等を含む。
【0128】
日時は、ユーザ履歴が記録された日時である。タイミングは、ユーザ履歴を記録した景気を示す情報である。本実施形態におけるタイミングは、検索が行われたとき(検索実施)及び検索結果から文書が選択されたとき(文書選択)を含む。
【0129】
検索実施時に記録されるユーザ履歴には、検索モードが含まれる。文書選択時に記録されるユーザ履歴には、検索モード、選択された文書を示す情報(選択文書)、単語類似度及び文脈類似度が含まれる。単語類似度及び文脈類似度は選択文書と検索クエリとの類似度である。
【0130】
ユーザ情報記憶部207には、文書検索システム1のユーザに関するユーザ情報が記憶されている。ユーザ情報には、ユーザを示す情報、ユーザが設定した認証情報及びユーザが所属する部署等を示す組織情報が含まれる。
【0131】
図20は、本実施形態におけるユーザ情報の一例を示す図である。図20に示されているように、本実施形態におけるユーザ情報は、ユーザ名、パスワード、及び部署名等を含む。
【0132】
ユーザ認証部110は、ユーザが入力した認証情報に基づいて、ユーザを認証する。ユーザ認証部110は、ユーザ履歴記憶部206に記憶されているユーザ履歴、及びユーザ情報記憶部207に記憶されているユーザ情報に基づいて、認証されたユーザの既定の検索時モードを判定する。
<検索方法の処理手順>
本実施形態における文書検索システムが実行する検索方法について、図21を参照しながら説明する。図21は、本実施形態における検索方法の処理手順の一例を示すフローチャートである。
【0133】
以下、本実施形態における検索方法について、第3実施形態との相違点を中心に説明する。
【0134】
ステップS31において、ユーザ端末20は、ユーザの操作に応じて、認証画面をディスプレイに表示する。ユーザが認証画面に認証情報を入力すると、ユーザ端末20は、入力された認証情報を検索装置10に送信する。認証情報は、例えば、ユーザを識別する識別情報(例えば、ユーザID又はメールアドレス等)及びパスワード等である。
【0135】
検索装置10では、ユーザ認証部110が、ユーザ端末20から認証情報を受信する。次に、ユーザ認証部110は、受信した認証情報とユーザ情報記憶部207に記憶されている認証情報とを照合することで、認証処理を行う。ここでは、認証に成功したものとして説明を続ける。
【0136】
ユーザ認証部110は、認証されたユーザの既定の検索モードを決定する。まず、ユーザ認証部110は、認証されたユーザに関するユーザ履歴をユーザ履歴記憶部206から読み出す。次に、ユーザ認証部110は、読み出したユーザ履歴に基づいて、認証されたユーザに関する検索の傾向を判定する。続いて、ユーザ認証部110は、判定した検索の傾向に基づいて、既定の検索モードを決定する。
【0137】
検索の傾向は、例えば、ユーザ履歴に記憶されている検索モードの比率に基づいて判定することができる。例えば、認証されたユーザが専門文書モードを選択した検索を多く行っている場合、当該ユーザの既定の検索モードは、専門文書モードに決定すればよい。例えば、選択された検索モードの比率の差が小さい等、検索の傾向が認められない場合、当該ユーザの既定の検索モードは、全般モードに決定すればよい。
【0138】
既定の検索モードは、ユーザが所属する組織における検索の傾向に基づいて判定してもよい。この場合、ユーザ認証部110は、認証されたユーザと同じ部署に所属するユーザに関するユーザ履歴をユーザ履歴記憶部206から読み出し、読み出したユーザ履歴に基づいて、認証されたユーザが所属する組織に関する検索の傾向を判定すればよい。
【0139】
ユーザ認証部110は、認証結果をユーザ端末20に送信する。当該認証結果には、認証の成否を示す情報、認証されたユーザを示す情報、及び認証されたユーザの既定の検索モードを示す情報が含まれる。
【0140】
ユーザ端末20は、受信した認証結果が認証成功を示すとき、検索画面をディスプレイに表示する。このとき、ユーザ端末20は、検索画面に既定の検索モードを表示する。
【0141】
≪検索画面における検索クエリの入力≫
本実施形態における検索画面について、図22を参照しながら説明する。図22は、本実施形態における検索画面の一例を示す図である。
【0142】
図22に示されているように、本実施形態における検索画面330は、モード選択欄321を有し、ユーザ表示欄331及びログアウトボタン332をさらに有する。
【0143】
ユーザ表示欄331には、認証されたユーザを示す情報(ユーザ名)が表示される。ユーザがログアウトボタン332を押下すると、認証状態が初期化され、ユーザが認証されていない状態に戻る。
【0144】
モード選択欄321は、予め定義された検索モードを排他的に選択可能な態様で表示する。本実施形態では、モード選択欄321は、全般モード、一般文書モード及び専門文書モードを選択肢とするコンボボックスである。本実施形態におけるモード選択欄321は、認証結果に含まれる既定の検索モードを初期表示する。
【0145】
ステップS32において、モード入力部109は、ステップS21で受け付けた検索モードを含むユーザ履歴をユーザ履歴記憶部206に記憶する。ステップS32で記憶されるユーザ履歴は、タイミングに「検索実施」が設定され、検索モードに受け付けた検索モードが設定される。
【0146】
ステップS33において、ユーザ端末20は、検索画面330に対するユーザの操作に応じて、検索結果から文書を選択する。次に、ユーザ端末20は、選択された文書(以下、単に「選択文書」と呼ぶ)に関する情報を検索装置10に送信する。
【0147】
検索装置10では、検索結果出力部108が、ユーザ端末20から選択文書に関する情報を受信する。次に、検索結果出力部108は、選択文書に関する情報を含むユーザ履歴をユーザ履歴記憶部206に記憶する。ステップS32で記憶されるユーザ履歴は、タイミングに「文書選択」が設定され、検索モードに検索結果を出力したときの検索モードが設定され、選択文書の単語類似度及び文脈類似度が設定される。
【0148】
<第4実施形態の効果>
本実施形態における検索装置10は、ユーザが選択した検索モード及びユーザが検索結果から選択した文書に関する履歴情報を記憶し、ユーザ又は当該ユーザが所属する組織による検索の傾向に基づいて単語重み及び文脈重みを決定する。したがって、本実施形態における検索装置10によれば、ユーザに関連する検索の傾向に応じて、検索クエリに類似する文書を精度よく検索することができる。
【0149】
[補足]
本発明の態様は、例えば、以下のとおりである。
[1] 検索クエリの入力を受け付けるクエリ入力部と、
複数の文書それぞれと前記検索クエリとの単語類似度を計算する単語類似度計算部と、
前記複数の文書それぞれと前記検索クエリとの文脈類似度を計算する文脈類似度計算部と、
前記検索クエリに含まれる単語数に基づいて前記単語類似度と前記文脈類似度とを重み付け加算した統合類似度を計算する類似度統合部と、
前記統合類似度に基づいて前記検索クエリに類似する前記文書に関する情報を出力する検索結果出力部と、
を備える検索装置。
[2] 上記[1]に記載の検索装置であって、
前記類似度統合部は、前記単語数が少ないほど、前記単語類似度の重みを大きくして、前記統合類似度を計算する、
検索装置。
[3] 上記[1]に記載の検索装置であって、
前記類似度統合部は、前記複数の文書に含まれる未知語が多いとき、前記単語類似度の重みを大きくして、前記統合類似度を計算する、
検索装置。
[4] 上記[1]に記載の検索装置であって、
検索モードの入力を受け付けるモード入力部をさらに備え、
前記類似度統合部は、前記検索モードごとに予め定めた重みを用いて、前記統合類似度を計算する、
検索装置。
[5] 上記[4]に記載の検索装置であって、
前記モード入力部は、ユーザが入力した前記検索モードを当該ユーザと関連付ける履歴情報を記憶部に記憶し、
前記検索結果出力部は、前記ユーザが選択した前記文書と前記検索クエリとの前記単語類似度及び前記文脈類似度を当該ユーザと関連付ける前記履歴情報を前記記憶部に記憶し、
認証された前記ユーザに関連付けられた前記履歴情報に基づいて当該ユーザの既定の検索モードを判定するユーザ認証部をさらに備える、
検索装置。
[6] 上記[1]から[5]のいずれかに記載の検索装置であって、
前記検索結果出力部は、前記重み付けの程度を表す情報をさらに出力する、
検索装置。
[7] 上記[1]から[6]のいずれかに記載の検索装置であって、
前記検索結果出力部は、前記単語類似度の重みが前記文脈類似度の重みより大きいとき、前記文書に関する情報と共に、前記検索クエリに含まれる単語のうち前記単語類似度に与えた影響が大きい単語を出力する、
検索装置。
[8] 上記[1]から[7]のいずれかに記載の検索装置であって、
前記検索結果出力部は、前記文脈類似度の重みが前記単語類似度の重みより大きいとき、前記文書に関する情報と共に、前記文書に含まれる文のうち前記文脈類似度に与えた影響が大きい文を出力する、
検索装置。
[9] コンピュータが、
検索クエリの入力を受け付ける手順と、
複数の文書それぞれと前記検索クエリとの単語類似度を計算する手順と、
前記複数の文書それぞれと前記検索クエリとの文脈類似度を計算する手順と、
前記検索クエリに含まれる単語数に基づいて前記単語類似度と前記文脈類似度とを重み付け加算した統合類似度を計算する手順と、
前記統合類似度に基づいて前記検索クエリに類似する前記文書に関する情報を出力する手順と、
を実行する検索方法。
[10] コンピュータに、
検索クエリの入力を受け付ける手順と、
複数の文書それぞれと前記検索クエリとの単語類似度を計算する手順と、
前記複数の文書それぞれと前記検索クエリとの文脈類似度を計算する手順と、
前記検索クエリに含まれる単語数に基づいて前記単語類似度と前記文脈類似度とを重み付け加算した統合類似度を計算する手順と、
前記統合類似度に基づいて前記検索クエリに類似する前記文書に関する情報を出力する手順と、
を実行させるためのプログラム。
【0150】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるCPU(Central Processing Unit)又はGPU(Graphics Processing Unit)のようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)や従来の回路モジュール等の機器を含むものとする。
【0151】
実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、検索装置10は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
【0152】
以上、本発明の実施の形態について詳述したが、本発明はこれらの実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形又は変更が可能である。
【符号の説明】
【0153】
1 文書検索システム
10 検索装置
20 ユーザ端末
101 クエリ入力部
102 単語特徴抽出部
103 単語類似度計算部
104 文脈特徴抽出部
105 文脈類似度計算部
106 重み決定部
107 類似度統合部
108 検索結果出力部
109 モード入力部
110 ユーザ認証部
201 文書記憶部
202 単語特徴記憶部
203 文脈特徴記憶部
204 検索履歴記憶部
205 語彙記憶部
206 ユーザ履歴記憶部
207 ユーザ情報記憶部
【先行技術文献】
【特許文献】
【0154】
【特許文献1】特開2017-201478号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22