(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023081570
(43)【公開日】2023-06-13
(54)【発明の名称】情報検索システム、情報検索装置、情報検索方法及びプログラム
(51)【国際特許分類】
G06F 16/33 20190101AFI20230606BHJP
G06F 16/338 20190101ALI20230606BHJP
【FI】
G06F16/33
G06F16/338
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021195377
(22)【出願日】2021-12-01
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(72)【発明者】
【氏名】渡邊 元気
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175FA03
5B175GC03
5B175HB03
5B175JB02
(57)【要約】
【課題】従来の技術では、入力文書を一例とする入力情報に含まれる特定の情報に対して類似検索処理を行う場合、検索のために取得された母集団において、どのような文書がどの程度の割合又は件数で存在しているかといった全体像を把握することが困難であるという課題があった。
【解決手段】情報検索システム2は、利用者によって入力された入力情報に含まれる特定の情報に対して、入力情報に含まれる複数の単語情報により取得された母集団を用いて類似性を算出することにより類似検索処理を行う(ステップS109)。そして、情報検索システム2は、類似検索処理によって検索された、特定の情報に対して分類された情報群を示す一以上のクラスの一覧と、一以上のクラスの各々に対する入力情報に占める割合を含む類似検索結果とを、ディスプレイ307に表示させる(ステップS112)。
【選択図】
図12
【特許請求の範囲】
【請求項1】
入力情報に含まれる特定の情報に対して類似検索処理を行う情報検索装置と、前記情報検索装置と通信可能な通信端末と、を含む情報検索システムであって、
前記入力情報と、前記入力情報に含まれる複数の単語情報により取得された母集団と、の間で前記特定の情報に係る類似性に基づき前記類似検索処理を行う類似検索手段と、
前記類似検索手段によって検索された、前記特定の情報に対して分類された情報群を示す一以上のクラスの一覧と、前記一以上のクラスの各々に対する前記入力情報に占める割合を含む類似検索結果とを、表示手段に表示させる表示制御手段と、
を有する、
ことを特徴とする情報検索システム。
【請求項2】
前記類似検索手段は、
前記入力情報と前記母集団との間で分散表現を用いた意味比較を行うことで、前記類似検索処理としての類似度計算を行う、
ことを特徴とする請求項1に記載の情報検索システム。
【請求項3】
前記類似検索手段は、
前記入力情報に関連する複数の文書を管理する検索エンジンから取得した、前記入力情報に対して検索された全文書を示す前記母集団を用いて前記類似度計算を行う、
ことを特徴とする請求項又は2に記載の情報検索システム。
【請求項4】
前記類似検索手段は、
前記母集団を予め取得し、前記母集団をK-means手法により複数のクラスに分類した後、前記分類されたクラスに対して前記類似度計算を行う、
ことを特徴とする請求項2又は3に記載の情報検索システム。
【請求項5】
前記類似検索手段は、
コサイン類似度を利用して前記入力情報及び前記母集団に係るベクトル情報の角度を算出するとともに、ユークリッド距離を利用して前記入力情報及び前記母集団に係るベクトル情報の距離を算出することにより、前記類似度計算を行う、
ことを特徴とする請求項2乃至4のいずれか一項に記載の情報検索システム。
【請求項6】
前記類似検索手段は、
前記類似度計算が行われた前記類似検索結果に対して、TF-IDF(Term Frequency- Inverse Document Frequency)により所定のラベルを付与する、
ことを特徴とする請求項2乃至5のいずれか一項に記載の情報検索システム。
【請求項7】
前記入力情報は、前記通信端末に対して、入力された文章に係る文章情報、入力された入力文書に係る文書情報、発話された音声に係る音声情報のうち少なくとも一方を含み、前記類似検索手段は、
前記文章情報又は前記音声情報から得られた自然文情報に含まれる前記特定の情報を示す特定のキーワードに対して、前記分散表現を用いた意味比較を行う、
ことを特徴とする請求項2乃至6のいずれか一項に記載の情報検索システム。
【請求項8】
前記表示制御手段は、
表示された前記一以上のクラスのうち、選択された任意のクラスに含まれるファイル名を示すファイル名情報、前記ファイル名が登録されている場所を示すURL情報、前記特定のキーワードをラベルとしたラベル情報、及び前記入力情報に対する適合率を示す適合率情報を含む一以上のページ情報を、前記表示手段に表示させる、
ことを特徴とする請求項7に記載の情報検索システム。
【請求項9】
前記表示制御手段は、
前記選択された任意のクラスに含まれるURL情報で示された前記ファイル名に係る詳細情報を、前記表示手段に表示させる、
ことを特徴とする請求項8に記載の情報検索システム。
【請求項10】
前記表示制御手段は、
前記一以上のページ情報の各々に設けられた、前記ページ情報を削除するための誤識別情報削除部を前記表示手段に表示させる、
ことを特徴とする請求項8に記載の情報検索システム。
【請求項11】
前記表示制御手段は、
前記誤識別情報削除部のうち特定の誤識別情報削除部に対する操作によって前記誤識別情報削除部に対応付けられたページ情報が削除された旨を示す削除通知を、前記表示手段に表示する、
ことを特徴とする請求項8に記載の情報検索システム。
【請求項12】
入力情報に含まれる特定の情報に対して類似検索処理を行う情報検索装置であって、
前記入力情報と、前記入力情報に含まれる複数の単語情報により取得された母集団と、の間で前記特定の情報に係る類似性に基づき前記類似検索処理を行う類似検索手段と、
前記類似検索手段によって検索された、前記特定の情報に対して分類された情報群を示す一以上のクラスの一覧と、前記一以上のクラスの各々に対する前記入力情報に占める割合を含む類似検索結果とを、表示手段に表示させる表示制御手段と、
を有する、
ことを特徴とする情報検索装置。
【請求項13】
入力情報に含まれる特定の情報に対して類似検索処理を行う情報検索装置が実行する情報検索方法であって、
前記入力情報と、前記入力情報に含まれる複数の単語情報により取得された母集団と、の間で前記特定の情報に係る類似性に基づき前記類似検索処理を行う類似検索ステップと、
前記類似検索ステップによって検索された、前記特定の情報に対して分類された情報群を示す一以上のクラスの一覧と、前記一以上のクラスの各々に対する前記入力情報に占める割合を含む類似検索結果とを、表示手段に表示させる表示制御ステップと、
を含む処理を実行することを特徴とする情報検索方法。
【請求項14】
入力情報に含まれる特定の情報に対して類似検索処理を行う情報検索装置に、
前記入力情報と、前記入力情報に含まれる複数の単語情報により取得された母集団と、の間で前記特定の情報に係る類似性に基づき前記類似検索処理を行う類似検索ステップと、
前記類似検索ステップによって検索された、前記特定の情報に対して分類された情報群を示す一以上のクラスの一覧と、前記一以上のクラスの各々に対する前記入力情報に占める割合を含む類似検索結果とを、表示手段に表示させる表示制御ステップと、
を含む処理を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報検索システム、情報検索装置、情報検索方法及びプログラムに関する。
【背景技術】
【0002】
文書等に含まれる自然文に対して自然文検索を行うことにより、自然文に対する所望の検索結果を得ることが可能な技術が存在する。
【0003】
具体的には、検索対象文書から特徴語を抽出して特徴語ベクトルを生成し、利用者が入力した入力文書についても同様に特徴語ベクトルを生成し、各検索対象文書の特徴ベクトルを照合して文書の類似度を算出する技術が知られている(例えば、特許文献1参照)。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、入力文書を一例とする入力情報に含まれる特定の情報に対して類似検索処理を行う場合、検索のために取得された母集団において、どのような文書がどの程度の割合又は件数で存在しているかといった全体像を把握することが困難であるという課題があった。
【課題を解決するための手段】
【0005】
上述した課題を解決するために、請求項1に係る発明は、入力情報に含まれる特定の情報に対して類似検索処理を行う情報検索装置と、前記情報検索装置と通信可能な通信端末と、を含む情報検索システムであって、前記入力情報と、前記入力情報に含まれる複数の単語情報により取得された母集団と、の間で前記特定の情報に係る類似性に基づき前記類似検索処理を行う類似検索手段と、前記類似検索手段によって検索された、前記特定の情報に対して分類された情報群を示す一以上のクラスの一覧と、前記一以上のクラスの各々に対する前記入力情報に占める割合を含む類似検索結果とを、表示手段に表示させる表示制御手段と、を有する、ことを特徴とする情報検索システムを提供する。
【発明の効果】
【0006】
以上説明したように本発明によれば、入力文書を一例とする入力情報に含まれる特定の情報に対して類似検索処理を行う場合、検索のために取得された母集団において、どのような文書がどの程度の割合又は件数で存在しているかといった全体像を把握することが可能になるという効果を奏する。
【図面の簡単な説明】
【0007】
【
図1】通信システムの全体構成の一例を示す図である。
【
図2】K-means法を用いた分類を説明する概念図であり、(a)はベクトル空間モデルにおいてランダムにクラスタが割り振られた状態を表す図、(b)は各クラスタに割り当てられた点について重心を計算する場合を表す図、(c)はその重心との距離のもとに再度クラスタが割り当てられる工程の繰返しを表す図、(d)はクラスタが変化しないような形に収束する状態を表す図である。
【
図3】クローリングデータを複数のグループにK-means手法で事前にクラスタリングした場合の概念図である。
【
図4】通信端末、検索エンジン及び情報検索装置のハードウエア構成の一例を示す図である。
【
図5】通信システムの機能構成の一例を示す図である。
【
図6】類似検索部の機能構成の詳細な一例を示す図である。
【
図7】類似度情報管理テーブルの一例を示す概念図である。
【
図8】文章検索処理の一例を示すシーケンス図である。
【
図9】通信端末における文章入力前の表示画面例である。
【
図10】通信端末における文章入力後の表示画面例である。
【
図11】類似検索処理の詳細の一例を示すフローチャートである。
【
図12】通信端末における検索結果の表示画面例である。
【
図13】クラス又はページの詳細を表示させるための処理の一例を示すシーケンス図である。
【
図14】通信端末における特定のクラスの全体情報を表示する表示画面例である。
【
図15】通信端末における特定のクラスのページ情報を表示する表示画面例である。
【
図16】誤識別ボタン操作に対する処理の一例を示すシーケンス図である。
【
図17】通信端末における誤識別ボタン操作時の表示画面例である。
【
図18】通信端末における誤識別ボタン操作後の表示画面例である。
【
図19】第2の実施形態に係る通信システムの全体構成の一例を示す図である。
【
図20】第2の実施形態に係る通信システムの機能構成の一例を示す図である。
【
図21】第2の実施形態に係る類似度情報管理テーブルの一例を示す概念図である。
【
図22】第2の実施形態に係る文章検索処理の一例を示すシーケンス図である。
【
図23】第2の実施形態に係るクラス又はページの詳細を表示させるための処理の一例を示すシーケンス図である。
【
図24】第2の実施形態に係る誤識別ボタン操作に対する処理の一例を示すシーケンス図である。
【発明を実施するための形態】
【0008】
以下、図面を用いて、発明を実施するための形態について説明する。なお、図面の説明において同一要素には同一符号を付し、重複する部分があればその説明を省略する。
【0009】
〔第1の実施形態〕
〔通信システムの全体構成〕
図1は、通信システムの全体構成の一例を示す図である。
図1に示されているように、通信システム1は、通信端末3、検索エンジン5及び情報検索装置7を含む各装置及び端末を有している。また、通信システム1は、通信端末3及び情報検索装置7を含む情報検索システム2を有している。更に、通信システム1では、通信端末3、検索エンジン5及び情報検索装置7は、通信ネットワーク100を介してそれぞれ互いに接続されている。
【0010】
通信ネットワーク100は、不特定多数の通信が行われる通信ネットワークであり、インターネット、イントラネット、LAN(Local Area Network)等によって構築されている。なお、通信ネットワーク100には、有線通信だけでなく、4G(4th Generation)、5G(5th Generation)、WiMAX(Worldwide Interoperability for Microwave Access)、LTE(Long Term Evolution)等の無線通信による通信ネットワークが含まれてもよい。なお、通信端末3及び情報検索装置7は、専用の構内ネットワーク等で互いに接続されていてもよいし、通信ネットワーク100の内側に、ファイアウォール(Fire Wall)を介して互いに接続されていてもよい。
【0011】
<通信端末>
通信端末3は、一般的なOSなどが搭載された通信を行うための情報処理装置(コンピュータシステム)によって実現され、通信システム1及び情報検索システム2を構築する一つの構成要素である。通信端末3は、利用者(ユーザ)によって、入力された文章に係る文章情報、入力された入力文書に係る文書情報、発話された音声に係る音声情報のうち少なくとも一方を含む入力情報を情報検索装置7に送信する。
【0012】
なお、通信端末3は、一般的に使用されるPC(Personal Computer)、携帯型ノートPC、携帯電話、スマートフォン、タブレット端末、ウェアラブル端末(サングラス型、腕時計型等)の通信機能を有する通信端末であってもよい。通信端末3は、更に、ブラウザソフトウエア、各種アプリ(自然文検索アプリ等)のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0013】
<検索エンジン>
検索エンジン5は、一般的なサーバOSなどが搭載された一以上の情報処理装置(コンピュータシステム)によって実現される。また、検索エンジン5は、他の装置、通信端末と通信を行うための通信アプリを記憶手段に記憶している。検索エンジン5は、通信端末3により与えられた入力情報に関連する全文書をその入力情報に対する母集団として管理する。
【0014】
なお、検索エンジン5は、一般的に使用されるPC(Personal Computer)、携帯型ノートPC等の単一のコンピュータによって構築されてもよいし、ストレージ等の各部(機能又は手段)を分割して任意に割り当てられた複数のコンピュータによって構築されてもよい。また、検索エンジン5の機能の全てまたは一部は、クラウド環境に存在するサーバコンピュータであってもよいし、オンプレミス環境に存在するサーバコンピュータであってもよい。検索エンジン5は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0015】
なお、検索エンジン5は、一般的に利用可能な外部検索エンジンを一例とすることから、そのハードウエア仕様は上述した構成に限らず、外部検索エンジンを提供する提供元の仕様に基づくものであってよい。更に、検索エンジン5は、外部検索エンジンを一例として説明するが、これに限定されるものでもない。
【0016】
<情報検索装置>
情報検索装置7は、一般的なサーバOSなどが搭載された一以上の情報処理装置(コンピュータシステム)によって実現され、情報検索システム2を構築する。また、情報検索装置7は、他の装置、通信端末と通信を行うための通信アプリ、及び入力情報に含まれる特定の情報に対して類似検索処理を行うための自然文検索アプリを、記憶手段に記憶している。これにより情報検索装置7は、情報検索システム2において、通信端末3が送信した入力情報に含まれる特定の情報に対して類似検索処理を行う。
【0017】
なお、情報検索装置7は、一般的に使用されるPC(Personal Computer)、携帯型ノートPC、携帯電話、スマートフォン、タブレット端末、ウェアラブル端末(サングラス型、腕時計型等)の通信機能を有する通信端末であってもよい。情報検索装置7は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0018】
また、情報検索装置7は、通信端末3に対してプッシュ通知(送信)によりデータ(情報)を通知(送信)してもよい。その場合、情報検索装置7は、例えば、プッシュ通知サーバの一例であるFCM(Firebase Cloud Messaging)を利用してプッシュ通知することで実現することが可能である。
【0019】
このように、情報検索システム2は、入力情報に含まれる特定の情報に対して類似検索処理を行う場合、検索のために検索エンジン5から取得された母集団において、どのような文書がどの程度の割合又は件数で存在しているかといった全体像を把握することが可能なシステムを提供する。その場合において、情報検索装置7は、検索エンジン5を利用する形態をとることにより、入力情報の母集団に対する全体像を提供することを可能にしている。
【0020】
〔文書検索における類似度〕
本実施形態では、例えば、所定の入力情報と母集団との間で分散表現を用いた意味比較を行うことで類似検索処理としての類似度計算を行う。なお、入力情報は、通信端末3に入力された文章に係る文章情報及び発話された音声に係る音声情報のうち少なくとも一方を含む。このとき、類似検索処理は、機械学習で利用されるベクトル空間における距離、角度などを用いる。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを事前に取り込まれる学習データから自律的に作成、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよい、更に、機械学習のための学習方法は、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0021】
<類似度の算出>
まず、本実施形態を説明する上で、入力文書と母集団の文書について意味の比較を行う際に用いられる、分散表現と呼ばれる技術について解説する。分散表現とは、意味の比較を行う方法において、単語を高次元のベクトルに置き換える技術である。そして、情報検索システム2は、例えば、入力文章と母集団の文書について意味の比較を行う。意味の比較方法は、例えば分散表現を用いて入力し、単語データの並びから別のシーケンスを予測する。つまり、情報検索システム2は、ニューラルネットワークを処理するTransformerと呼ばれる手法を利用して分散表現にして処理することで、違う単語でも同じ意味のものは同じ意味として処理をする。具体的には、Transformerは、コサイン類似度(COS類似度)等によって文章同士の類似性を算出する。そのため、違う単語でも同じ意味のキーワードは同様の意味として処理することができ、従来のキーワード一致による手法と比べて、単語や文章の意味で処理することが可能になる。またクラスタリングは、上述した意味の比較を利用して、例えば上記ベクトルを利用してK-means法等によって各要素の距離や角度によって分類(クラスタリング)を行う。
【0022】
<ベクトル化>
分散表現を利用した文章のベクトル化として、例えば、文献1に示したBERT(Bidirectional Encoder Representations from Transformers)のような手法がある。BERTとは、TransformerのEncoderを使っているモデルである。BERTは、ラベルのついていない文章から表現を事前学習するように作られたもので、出力層を付け加えるだけで簡単にファインチューニングが可能である。
・文献1:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, Devlin, J. et al. (2018)
<類似度算出>
文書ベクトル間の類似度算出方法としては、コサイン類似度(COS類似度、以下、「コサイン類似度」と表記する)、ユークリッド距離等が考えられる。コサイン類似度は角度情報であるため、ベクトル長は類似度に影響しない。一方、ユークリッド距離は距離情報であるため、ベクトル長が影響する。そのため、類似度算出においては、識別する対象がベクトル長を考慮すべきかによって使い分けることになる。
【0023】
<<コサイン類似度>>
コサイン類似度は、ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度計算の手法の一例である。コサイン類似度は、そのままベクトル同士の成す角度の近さを表現するため、三角関数のコサインの通り、1に近ければ類似しており、0に近ければ類似していないことになる。コサイン類似度は、以下の(式1)で計算することができる。
【0024】
【0025】
<<ユークリッド距離>>
ユークリッド距離は、ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度計算手法の他の一例である。ユークリッド距離を用いて類似度を示す場合、距離が短い方が類似しており、遠い方が似ていないことになる。ユークリッド距離は、以下の式(2)で計算することができる。
【0026】
【0027】
<<K-meansを用いた分類>>
次に、K-means法(K平均法。以下、単に「K-means法」と記載する)について説明する。K-means法は、まずデータを適当なクラスタに分けた後、クラスタの平均を用いて適度にデータが別れるように調整させていくアルゴリズムである。K-means法は、具体的には下記のような工程を辿る。
1.各点(xi)に対してランダムにクラスタを割り振る。
2.各クラスタに割り当てられた点について重心を計算する。
3.各点について上記で計算された重心からの距離を計算し、距離が一番近いクラスタに割り当て直す。
4.上述した2及び3の工程を、割り当てられるクラスタが変化しなくなるまで行う。
【0028】
図2は、K-means法を用いた分類を説明する概念図であり、(a)はベクトル空間モデルにおいてランダムにクラスタが割り振られた状態を表す図、(b)は各クラスタに割り当てられた点について重心を計算する場合を表す図、(c)はその重心との距離のもとに再度クラスタが割り当てられる工程の繰返しを表す図、(d)はクラスタが変化しないような形に収束する状態を表す図である。
【0029】
本実施形態では、
図2に示したように、
図2(a)→(b)→(c)→(d)のような順序を辿ってクラスタが収束していく。まず、図(b)の段階で各点に適当にクラスタ(○に正方格子模様、及び○に斜線模様)が割り振られ、その重心が計算される(重心は細かいメッシュの星印で図示)。なお、上述した丸印で示される各クラスタは、後述するWebページの各々に相当する。
【0030】
続いて、
図2(c)では、その重心との距離のもとに再度クラスタが割り当てられる(新しい重心を別の細かいメッシュの星印で図示、古い重心を粗いドットの星印で図示)。この工程を繰り返して、
図2(d)のようにクラスタが変化しないような形に収束(2クラスに分類)すれば完了となる。本実施形態では、上述したように分類された各クラスに対して、後述するTF-IDF(Term Frequency- Inverse Document Frequency)の手法を用いてラベリングをする。
【0031】
<<処理時間削減のためのクローリングデータのクラスタリング>>
一般的に、外部検索エンジンで管理されている最大数のWeb情報を情報検索システム2に集めてから分類すると処理時間を要してしまう。そのため、情報検索システム2は、予めWeb情報を一定数クローリング(収集)しておく。更にそのクローリングしたローカルデータをK-means法等で分類しておき、分類済みのクラスと比較して、類似度が高いクラス内のクローリングデータと分類処理を行う。また、情報検索システム2は、分類済みクラスと入力データを比較して類似度が高いクラスに対して、そのクラスに含まれるクローリングデータと入力データの類似度比較を行う。このようにすることで、類似度が低いクローリングデータに対して個々に計算を行う必要がなくなるため、類似検索結果の表示までの処理時間を削減することが可能になる。なお、上述したWeb情報は、入力情報に対して検索された全文書を示す母集団に含まれる情報である。
【0032】
ここで、クローリングデータのクラスタリング処理について説明する。
図3は、クローリングデータを複数のグループにK-means手法で事前にクラスタリングした場合の概念図である。
図3に示したように、例えば、以下のようにクローリングデータをグループAとグループBにK-means法で事前にクラスタリングしておいた場合、入力データはグループAには近いが、グループBからは遠い。そのため、入力データとグループA内のデータa~データdを比較すれば、全データの比較を行うことなく、類似度上位を短時間で求めることが可能になる。
【0033】
ここでラベルを付与する方法には、以下のように複数の方法がある。
・意味で分類されたクラスタの中心に近い単語ベクトルを選択する。
・クラス内で多いキーワードをラベルにする。
・TF-IDF(Term Frequency- Inverse Document Frequency):各クラス内の特徴的なワードを選定する。
【0034】
<<TF-IDFによるラベル付与について>>
TF-IDF(Term Frequency- Inverse Document Frequency。以下、「tfidf」とも記載する)とは、tfという概念とidfという概念を組み合わせたもので、特徴的な単語(例えば、名詞)が何回も出現するようであれば、文書を分類する際にその単語の重要度を上げるというものである。「tf」は(Term Frequency)の略で、「各文書においてその単語がどのくらい出現したのか」を示す値である。tfは、以下の(式3)で求めることができる。
【0035】
【0036】
「idf」は(Inverse Document Frequency)の略で、全文書の中で普遍的に出現した単語を除いたレアな単語に対して、各単語のレア度を示す、全文書の指標である。つまり、単語が「レア」なら高い値を、「色々な文書によく出現する(頻出する)単語」なら低い値を示すものである。idfは、以下の(式4)で求めることができる。
【0037】
【0038】
tfidfは、上述した二つの概念を組み合わせたもので、(式5)のように定義される。
【0039】
【0040】
tfidfのスコアは、全文書の中でレア度の高い単語はスコアが高いもの、且つその文書の中で頻出する単語はスコアが高いものを乗算した積で表わされる。つまり、全文書では普遍的な単語ではなく(レアな単語である)、且つ、その文書においては頻出する単語である場合、tfidfのスコアは高いものとなり、その文書を表現するのにふさわしい単語であることを示す。そして、スコアが高い単語(例:単語X)が「ラベル」として扱われる。
【0041】
クローリングデータに関してはtfidfを事前に計算しておくことで、実行時の処理時間を削減することが可能になる。更に、上記idfの計算はクローリングデータで事前に計算しておき、実行時に取得したWeb情報に関してはtfのみを計算することで、全体の処理時間を削減することも可能になる。
【0042】
〔ハードウエア構成〕
続いて、
図4を用いて、実施形態に係る通信システムを構成する装置又は端末のハードウエア構成について説明する。なお、
図4に示されている装置又は端末のハードウエア構成は、必要に応じて構成要素が追加又は削除されてもよい。
【0043】
<通信端末、検索エンジン及び情報検索装置のハードウエア構成>
図4は、通信端末、検索エンジン及び情報検索装置のハードウエア構成の一例を示す図である。
図4に示されているように、通信端末3は、例えばコンピュータによって構築されており、CPU301、ROM302、RAM303、EEPROM304、HD305、HDD(Hard Disk Drive)コントローラ306、ディスプレイ307、近距離通信I/F308、CMOSセンサ309、撮像素子I/F310を備えている。通信端末3は更に、ネットワークI/F311、キーボード312、ポインティングデバイス313、メディアI/F315、外部機器接続I/F316、音入出力I/F317、マイク318、スピーカ319及びバスライン320を備えている。
【0044】
これらのうち、CPU301は、通信端末3全体の動作を制御する。ROM302は、CPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。EEPROM304は、CPU301の制御にしたがって、アプリ等の各種データの読出し又は書込みを行う。HD305は、プログラム等の各種データを記憶する。HDDコントローラ306は、CPU301の制御にしたがってHD305に対する各種データの読出し又は書込みを制御する。ここで、通信端末3は、HD305及びHDDコントローラ306に代えて、SSD(Solid State Drive)を搭載したハードウエア構成であってもよい。ディスプレイ307は、カーソル、メニュー、ウィンドウ、文字又は画像などの各種情報を表示する。本実施形態において、ディスプレイ307は、表示手段の一例として機能する。近距離通信I/F308は、NFC(Near Field Communication)、Bluetooth(登録商標。以下省略)、Wi-Fi(登録商標。以下省略)等の無線通信インターフェイスを備える通信装置又は通信端末等とデータ通信を行うための通信回路である。CMOSセンサ309は、CPU301の制御にしたがって被写体を撮像して画像データ又は動画データを得る内蔵型の撮像手段の一種である。なお、撮像手段は、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等で構成される撮像手段であってもよい。撮像素子I/F310は、CMOSセンサ309の駆動を制御する回路である。
【0045】
ネットワークI/F311は、通信ネットワーク100を利用してデータ通信をするためのインターフェイスである。キーボード312は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス313は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。メディアI/F315は、フラッシュメモリ等の記録メディア314に対するデータの読出し又は書込み(記憶)を制御する。外部機器接続I/F216は、各種の外部機器を接続するためのインターフェイスである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリ等である。音入出力I/F317は、CPU301の制御にしたがってマイク318及びスピーカ319との間で音信号の入出力を処理する回路である。マイク318は、音を電気信号に変える内蔵型の回路であり、外部のスピーカ等から発する音声や音波を取得し電気信号を用いた情報を取得する。スピーカ319は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。バスライン320は、CPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0046】
検索エンジン5は、例えばコンピュータによって構築されており、CPU501、ROM502、RAM503、EEPROM504、HD505、HDD(Hard Disk Drive)コントローラ506、ディスプレイ507、近距離通信I/F508、CMOSセンサ509、撮像素子I/F510、ネットワークI/F511、キーボード512、ポインティングデバイス513、メディアI/F515、外部機器接続I/F516、音入出力I/F517、マイク518、スピーカ519及びバスライン520を備えている。これらのハードウエア資源は、通信端末3のCPU301、ROM302、RAM303、EEPROM304、HD305、HDDコントローラ306、ディスプレイ307、近距離通信I/F308、CMOSセンサ309、撮像素子I/F310、ネットワークI/F311、キーボード312、ポインティングデバイス313、メディアI/F315、外部機器接続I/F316、音入出力I/F317、マイク318、スピーカ319及びバスライン320の各ハードウエア資源と同様であるため、説明を省略する。
【0047】
情報検索装置7は、例えばコンピュータによって構築されており、CPU701、ROM702、RAM703、EEPROM704、HD705、HDD(Hard Disk Drive)コントローラ706、ディスプレイ707、近距離通信I/F708、CMOSセンサ709、撮像素子I/F710、ネットワークI/F711、キーボード712、ポインティングデバイス713、メディアI/F715、外部機器接続I/F716、音入出力I/F717、マイク718、スピーカ719及びバスライン720を備えている。これらのハードウエア資源は、通信端末3のCPU301、ROM302、RAM303、EEPROM304、HD305、HDDコントローラ306、ディスプレイ307、近距離通信I/F308、CMOSセンサ309、撮像素子I/F310、ネットワークI/F311、キーボード312、ポインティングデバイス313、メディアI/F315、外部機器接続I/F316、音入出力I/F317、マイク318、スピーカ319及びバスライン320の各ハードウエア資源と同様であるため、説明を省略する。本実施形態において、ディスプレイ707は、表示手段の一例として機能する。
【0048】
更に、上記プログラムは、インストール可能な形式又は実行可能な形式のファイルで、コンピュータで読取り可能な記録媒体に記録、又はネットワークを介してダウンロードを行い流通させるようにしてもよい。記録媒体の例として、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、Blu-ray Disc(Blu-rayは登録商標。以下省略)、SDカード、USBメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。例えば、情報検索装置7は、本発明に係るプログラムが実行されることで、本発明に係る情報検索方法を実現する。
【0049】
〔通信システムの機能構成〕
次に、
図5乃至
図7を用いて、本実施形態の機能構成について説明する。
図5は、通信システムの機能構成の一例を示す図である。なお、
図5は、
図1に示されている装置又は端末のうち、後述する処理又は動作に関連するものを示す。
【0050】
<通信端末の機能構成>
まず、
図5を用いて、通信端末3の機能構成について説明する。
図5に示されているように、通信端末3は、送受信部31、操作受付部32、表示制御部34、API処理部36及び記憶読出部39を有する。これら各機能部は、
図4に示された各ハードウエア資源のいずれかが、ROM302、EEPROM304及びHD305のうち少なくとも一つからRAM303に展開された通信端末3用のプログラムに従ったCPU301からの命令により動作することで実現される機能又は手段である。また、通信端末3は、
図4に示されているROM302、EEPROM304及びHD305のうち少なくとも一つにより構築される記憶部3000を有している。更に、記憶部3000には、各装置、各端末と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)、文書登録に係るブラウザアプリ等が記憶されている。
【0051】
<<通信端末の各機能構成>>
次に、通信端末3の各機能構成について詳細に説明する。
図5に示されている通信端末3の送受信部31は、主に、ネットワークI/F311及び近距離通信I/F308に対するCPU301の処理によって実現され、通信ネットワーク100を介して各端末、各装置との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部31は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
【0052】
操作受付部32は、主に、キーボード312又はポインティングデバイス313が受け付けた各種操作により生成された信号をCPU301が処理することによって実現される。なお、操作受付部32は、キーボード312及びポインティングデバイス313に代えて、タッチパネル等の入力手段が用いられてもよい。本実施形態において、操作受付部52は、受付手段の一例として機能する。
【0053】
音声入力部33は、主に、利用者の発話に係る音声信号、ロボット等の機械が出力した人工の音声信号等をマイク318が入力し、入力した音声信号等をCPU301が処理することによって実現される。本実施形態において、音声入力部33は、音声入力手段の一例として機能する。
【0054】
表示制御部34は、主に、ディスプレイ307に対するCPU301の処理によって実現され、通信端末3における各種画面及び情報(データ)の表示制御を行う。また、表示制御部34は、例えば、ブラウザを用いて、HTML等により作成された表示画面を、ディスプレイ307に表示させる。また、表示制御部34は、特定の情報に対して分類された情報群を示す一以上のクラスの一覧、及び前記一以上のクラスの各々に対する入力情報に占める割合を含む類似検索結果を、ディスプレイ307(表示手段の一例、以下、単にディスプレイ307と記す)に表示させる。
【0055】
表示制御部34は更に、表示された一以上のクラスのうち、選択された任意のクラスに含まれるファイル名を示すファイル名情報、ファイル名が登録されている場所を示すURL情報、特定のキーワードをラベルとしたラベル情報、及び入力情報に対する適合率を示す適合率情報を含む一以上のページ情報を、ディスプレイ307に表示させる。
【0056】
表示制御部34は更に、選択された任意のクラスに含まれるURL情報で示されたファイル名に係る詳細情報を、ディスプレイ307に表示させる。
【0057】
表示制御部34は更に、一以上のページ情報の各々に設けられた、ページ情報を削除するための誤識別情報削除部をディスプレイ307に表示させる。
【0058】
表示制御部34は更に、誤識別情報削除部のうち特定の誤識別情報削除部に対する操作によって誤識別情報削除部に対応付けられたページ情報が削除された旨を示す削除通知を、ディスプレイ307に表示させる。本実施形態において、表示制御部34は、表示制御手段の一例として機能する。
【0059】
API処理部36は、主に、CPU301の処理によって実現され、例えば、表示手段の一例であるディスプレイ307を介して、通信相手となる検索エンジン5のAPI(Application programming interface)を操作することによって、検索エンジン5において検索された検索結果を共有する。本実施形態において、API処理部36は、処理手段の一例として機能する。
【0060】
記憶読出部39は、主に、ROM302、EEPROM304及びHD305のうち少なくとも一つに対するCPU301の処理によって実現され、記憶部3000に各種データ(又は情報)を記憶したり、記憶部3000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部39は、記憶読出手段の一例として機能する。
【0061】
<検索エンジンの機能構成>
次に、
図5を用いて、検索エンジン5の機能構成について説明する。
図5に示されているように、検索エンジン5は、送受信部51、検索部55、API処理部56及び記憶読出部59を有する。これら各機能部は、
図4に示された各ハードウエア資源のいずれかが、ROM502及びEEPROM504のうち少なくとも一つからRAM503に展開された検索エンジン5用のプログラムに従ったCPU501からの命令により動作することで実現される機能又は手段である。また、検索エンジン5は、
図4に示されているROM502及びEEPROM504のうち少なくとも一つにより構築される記憶部5000を有している。更に、記憶部5000には、各装置、各端末と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)、文書登録に係るブラウザアプリ等が記憶されている。
【0062】
<<検索エンジン末の各機能構成>>
次に、検索エンジン5の各機能構成について詳細に説明する。
図5に示されている検索エンジン5の送受信部51は、主に、ネットワークI/F511及び近距離通信I/F508に対するCPU501の処理によって実現され、通信ネットワーク100を介して各端末、各装置との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部51は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
【0063】
検索部55は、主に、CPU501の処理によって実現され、例えば、情報検索装置7が送信した文章情報を単語で分割して単語数分繰り返して(Loop処理を実行して)、特定の単語に関連付けられたWebページを検索して取得する。本実施形態において、検索部55は、検索手段の一例として機能する。
【0064】
API処理部56は、主に、CPU501の処理によって実現され、情報検索装置7が送信したAPI処理部56は、主に、CPU501の処理によって実現され、例えば、通信相手となる通信端末3又は情報検索装置7に対して、検索エンジン5で検索した検索結果を共有する処理を行う。本実施形態において、本実施形態において、API処理部56は、処理手段の一例として機能する。
【0065】
記憶読出部59は、主に、ROM502、EEPROM504及びHD505のうち少なくとも一つに対するCPU501の処理によって実現され、記憶部5000に各種データ(又は情報)を記憶したり、記憶部5000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部59は、記憶読出手段の一例として機能する。
【0066】
<情報検索装置の機能構成>
次に、
図5を用いて、情報検索装置7の機能構成について説明する。
図5に示されているように、情報検索装置7は、送受信部71、表示制御部74、類似検索部75、API処理部76及び記憶読出部79を有する。これら各機能部は、
図4に示された各ハードウエア資源のいずれかが、ROM702、EEPROM704及びHD705のうち少なくとも一つからRAM703に展開された通信端末3用のプログラムに従ったCPU701からの命令により動作することで実現される機能又は手段である。また、情報検索装置7は、
図4に示されているROM702、EEPROM704及びHD705のうち少なくとも一つにより構築される記憶部7000を有している。更に、記憶部7000には、各装置、各端末と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)、ブラウザアプリ、処理対象に対する処理に基づいて得られた文書を閲覧するための文書閲覧アプリ等が記憶されている。なお、文書閲覧アプリは、上述した自然文検索アプリの一部の機能を切り分けた独立したアプリであってもよいし、自然文検索アプリの一部に含まれる一つの機能であってもよい。そして、自然文検索アプリは、例えば、中小企業向けのコンサルティング事業者に提供されて利用されてもよい。
【0067】
<<情報検索装置の各機能構成>>
次に、情報検索装置7の各機能構成について詳細に説明する。
図5に示されている情報検索装置7の送受信部71は、主に、ネットワークI/F711及び近距離通信I/F708に対するCPU701の処理によって実現され、通信ネットワーク100を介して各端末、各装置との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部71は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
【0068】
表示制御部74は、主に、ディスプレイ707に対するCPU701の処理によって実現され、情報検索装置7における各種画面及び情報(データ)の表示制御を行う。また、表示制御部74は、例えば、ブラウザを用いて、HTML等により作成された表示画面を、ディスプレイ707に表示させる。なお、表示制御部74は、上述した通信端末3の表示制御部34に代わって、通信ネットワーク100を介して通信端末3のディスプレイ307に対する各種情報の表示制御を実行するようにしてもよい。本実施形態において、表示制御部74は、表示制御手段の一例として機能する。
【0069】
類似検索部75は、主に、CPU701の処理によって実現される。類似検索部75は、情報検索システム2において取得した入力文章及び音声情報を含む入力情報と、入力情報に含まれる複数の単語情報により取得された母集団と、の間で特定の情報に係る類似性を算出することにより類似検索処理を行う。
【0070】
また、類似検索部75は、入力情報と母集団との間で分散表現を用いた意味比較を行うことで、類似検索処理としての類似度計算を行う。
【0071】
類似検索部75は更に、入力情報に関連する複数の文書を管理する検索エンジンから取得した、入力情報に対して検索された全文書を示す母集団を用いて類似度計算を行う。
【0072】
類似検索部75は更に、母集団を予め取得し、母集団をK-means手法により複数のクラスに分類した後、分類されたクラスに対して類似度計算を行う。
【0073】
類似検索部75は更に、コサイン類似度を利用して入力情報及び母集団に係るベクトル情報の角度を算出するとともに、ユークリッド距離を利用して入力情報及び母集団に係るベクトル情報の距離を算出することにより、類似度計算を行う。
【0074】
類似検索部75は更に、類似度計算が行われた類似検索結果に対して、TF-IDF(Term Frequency- Inverse Document Frequency)により所定のラベルを付与する。
【0075】
類似検索部75は更に、文章情報、文書情報、音声情報等の入力情報に含まれる特定の情報を示す特定のキーワードに対して、分散表現を用いた意味比較を行う。ここで、類似検索部75は、以下に示すように、さらに複数の機能部を有する。なお、本実施形態において、類似検索部75は、類似検索手段の一例として機能する。
【0076】
◎類似検索部の機能詳細◎
図6は、類似検索部の機能構成の詳細な一例を示す図である。
図6に示されているように、情報検索装置7の類似検索部75は、ベクトル化処理部751、類似計算部752、クラスタリング部753及びラベル付与部754の各機能部を含んでいる。これらのうち、ベクトル化処理部751は、例えば、事前に生成したニューラルネットワークを介して、入力文章に係るベクトルを生成する。本実施形態において、ベクトル化処理部751は、ベクトル処理手段の一例として機能する。
【0077】
類似計算部752は、例えば、ベクトル間のコサイン類似度、ユークリッド距離を用いて入力ベクトルと類似計算を行う。本実施形態において、類似計算部752は、類似計算手段の一例として機能する。
【0078】
クラスタリング部753は、取得された母集団に含まれる入力情報に係るWebページベクトルをクラスタリング(分類)する。本実施形態において、クラスタリング部753は、クラスタリング手段の一例として機能する。
【0079】
ラベル付与部754は、クラスタリングを実行した後、例えば、TD-IDFを用いてラベリングを行う。本実施形態において、ラベル付与部754は、ラベル付与手段の一例として機能する。
【0080】
図5に戻り、API処理部76は、主に、CPU701の処理によって実現され、例えば、通信相手となる検索エンジン5のAPI(Application programming interface)を操作することによって、検索エンジン5からの結果を受信するまでの機能を実行する。本実施形態において、API処理部76は、処理手段の一例として機能する。
【0081】
記憶読出部79は、主に、ROM702、EEPROM704及びHD705のうち少なくとも一つに対するCPU701の処理によって実現され、記憶部7000に各種データ(又は情報)を記憶したり、記憶部7000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部79は、記憶読出手段の一例として機能する。
【0082】
●類似度情報管理テーブル●
図7は、類似度情報管理テーブルの一例を示す概念図である。記憶部7000には、
図7に示されているような類似度情報管理テーブルによって構成された類似度情報管理DB7001が構築されている。類似度情報管理テーブルでは、検索識別情報ごとに、ファイルページ名(Webページ名)、場所(URL情報)、適合率(類似度)、分類されたカテゴリ、クラス、ラベル情報及び誤識別情報フラグの各項目が関連付けられて記憶、管理されている。
【0083】
これらのうち、検索識別情報は、類似度情報管理テーブルで管理される各項目を識別するための識別情報であり、例えば、「S0001」、「S0002」等で与えられる。ファイルページ名(Webページ名)は、検索エンジン5が送信した検索結果であるファイル(Webページ)の名称を表し、場所(URL情報)は、そのファイルが保存されている(参照先となる)場所を表す。適合率(類似度)は、入力情報と、入力情報に含まれる複数の単語情報により取得された母集団と、の間で、入力情報に含まれる特定の情報との適合率(類似度)を示す値である。この類似度は、百分率で与えられてもよいし、その他の値、指標等で与えられてもよい。分類されたカテゴリは、後述するクラスを構成する一要素であり、クラスは、カテゴリと同様に、入力情報に含まれる特定の情報(キーワード)を分類するために用いられる。ラベル情報(ラベル)は、スコアが高い単語をラベルと定義した場合におけるその単語を表し、例えば、「顔認証技術」、「生体認証」等で与えられる。また、ラベルは、上述した(式3)又は(式4)における「単語X」で表される。誤識別情報フラグは、後述する誤識別ボタン(誤識別情報削除部の一例)が選択された場合に、選択された誤識別ボタンが配置されたページに対応付けて付与される操作フラグであり、このフラグが付与されば場合に、対応するページ情報が削除対象となる。誤識別情報フラグは、例えば、「M0001」、「M0002」等で与えられる。
【0084】
本実施形態において、類似度情報管理DB7001は、ファイルページ名(Webページ名)、場所(URL情報)、適合率(類似度)、分類されたカテゴリ、クラス、ラベル情報及び誤識別情報フラグの各項目を検索識別情報ごとに対応付けて管理する類似度情報管理手段の一例である。
【0085】
〔実施形態の処理又は動作〕
次に、
図8乃至
図18を用いて、第1の実施形態に係る通信システムにおける各処理又は動作を説明する。
【0086】
<文章検索処理>
図8は、文章検索処理の一例を示すシーケンス図である。
図8に示されているように、通信端末3の表示制御部34は、表示手段の一例であるディスプレイ307に、
図9に示すような文章入力画面を表示させる(ステップS101)。なお、通信端末3は、以降に説明する他の装置との通信において、所定の手順による各種ログイン認証処理、セッション確立のための処理等を成功させ、互いに通信可能な状態となっていることを前提とする。
【0087】
次に、操作受付部32は、利用者が文章入力画面に対して入力した入力文章を受け付け(ステップS102)、続いて、利用者による検索ボタンの操作を受け付ける(ステップS103)。
【0088】
●画面表示例●
ここで、通信端末3における表示画面例について説明する。
図9は、通信端末における文章入力前の表示画面例である。まず、通信端末3は、検索エンジン5のAPIを利用可能なブラウザ、若しくは各種アプリを起動させておく。これにより、
図9に示されているように、通信端末3のディスプレイ307には、表示制御部34によって自然文検索画面3101が表示される。このとき、自然文検索画面3101には、自然文入力領域3111、除外するサイト入力部3151、音声マイク操作ボタン3152、検索ボタン3153が表示される。除外するサイト入力部3151は、例えば、ドメインなどの除外サイトを入力することが可能である。例えば、特定のコンテンツを入れたくない場合、そのコンテンツに係るドメインを除外するサイト入力部3151に入力することにより、そのサイトを対象外にすることができる。音声マイク操作ボタン3152は、例えば、利用者の発話音声を、マイク318を介して入力し、CPU301、音入出力I/F317等によって音声情報に変換するためのマイク機能を有するものである。この音声マイク操作ボタン3152を一度操作することによって音声情報の入力を開始させることが可能になり、音声マイク操作ボタン3152を再度操作することによって音声情報の入力を終了させることが可能になるようにしてもよい。検索ボタン3153は、自然文入力領域3111に対して入力された任意の自然文を検索するための操作ボタンである。この状態で、利用者は、検索ボタン3153を操作することにより、自然文入力領域3111に入力した自然文を情報検索装置7に対して送信させることができる。なお、自然文検索画面3101において、検索対象となる情報は、入力された文章(自然文)に係る文章情報に限らず、通信端末3のマイク318を介して入力された音声に係る音声情報であってもよい。
【0089】
●画面表示例●
通信端末3における表示画面例の別の例について説明する。
図10は、通信端末における文章入力後の表示画面例である。
図10に示されているように、通信端末3のディスプレイ307には、表示制御部34によって自然文検索画面3101が表示される。なお、
図10に示された表示画面は、利用者によって任意の文章が自然文入力領域3111に入力された後の状態を示すものである。つまり、操作ボタン等を含め
図9に示した表示状態と同様であるため、詳細の説明を省略する。この状態で、利用者は、検索ボタン3153を操作することにより、自然文入力領域3111に入力した自然文を情報検索装置7に対して送信させることができる。
【0090】
図8に戻り、送受信部31は、ステップS102で受け付けた入力文章に係る文章情報を情報検索装置7に送信する(ステップS104)。これにより、情報検索装置7の送受信部71は、通信端末3が送信した文章情報を受信する。この文章情報は、入力情報の一例である。
【0091】
次に、情報検索装置7の記憶読出部79は、ステップS104で受信した文章情報を記憶部7000の所定領域に記憶する(ステップS105)。但し、情報検索装置7は、このステップS105の処理を実行せずに、ステップS104で受信した文章情報を、後述するステップS106で実行される処理として、検索エンジン5に直接送信(転送)するようにしてもよい。
【0092】
次に、送受信部71は、検索エンジン5に対して、検索処理要求を送信する(ステップS106)。これにより、検索エンジン5の送受信部51は、情報検索装置7が送信した検索処理要求を受信する。このとき、検索処理要求には、ステップS104で受信した入力文章に係る文章情報が含まれる。なお、後述する処理において情報検索装置7は、検索エンジン5のAPIにアクセスし、その戻り値として、検索エンジン5によって検索された検索結果を受信する。
【0093】
次に、検索エンジン5の検索部55は、ステップS106で受信した文章情報に対して、検索エンジン5で管理する一以上の保存文書を用いて検索を実行する(ステップS107)。具体的には、検索部55は、情報検索装置7が送信した文章情報を単語で分割して単語数分繰り返して(Loop処理を実行して)、特定の単語に関連付けられたWebページを検索して取得する。続いて、検索部55は、文章情報を単語組合せ数分繰り返して(Loop処理を実行して)、特定の単語に関連付けられたWebページを検索して取得する。
【0094】
次に、送受信部51は、情報検索装置7に対して、ステップS106の検索処理要求に対する応答としての検索処理応答を送信する(ステップS108)。これにより、情報検索装置7の送受信部71は、検索エンジン5が送信した検索処理応答を受信する。このとき、検索処理応答には、検索結果を示す文書としての検索結果文書情報、検索結果に係る文書ファイルが保存、管理されているURL情報が含まれる。
【0095】
次に、情報検索装置7の類似検索部75は、ステップS108で受信した検索処理応答に基づいて類似検索処理を実行する(ステップS109)。
【0096】
<<文章検索処理の詳細:類似検索フロー>>
続いて、情報検索装置7による類似検索処理の詳細について説明する。
図11は、類似検索処理の詳細の一例を示すフローチャートである。まず、類似検索部75を構成するベクトル化処理部751は、情報検索装置7で受信した検索結果を示す入力文章に対してベクトル化処理委を実行する(ステップS109-1)。具体的には、ベクトル化処理部751は、事前に生成したニューラルネットワークを通してベクトルを生成する。なお、既存の同一単語出現数による類似文書の判定では、意味が同じであっても、異なる単語を考慮することができない。つまり、文書間の類似度判定、クラスタリング(分類)に影響がでてしまう。これに対して、本実施形態では、分散表現を利用した文書をベクトル化処理することにより、意味の異なる単語も考慮して処理することができる。
【0097】
続いて、ベクトル化処理部751は、以下のループ処理を実行する(ステップS109-2)。具体的には、ベクトル化処理部751は、取得したWebページをベクトル化する(ステップS109-3)。その後、類似計算部752は、入力ベクトルと類似計算を行う(ステップS109-4)。そして、ベクトル化処理部751と類似計算部752は、ステップS109-3の取得Webページのベクトル化とステップS109-4の入力ベクトルとの類似計算を、取得Webページ数分繰り返す(ステップS109-5)。なお、ステップS109-2のループ処理においては、類似検索部75は、事前に取得済みのクローリングデータを処理の対象に加えてもよい。また、処理の高速化のために、クローリングデータを事前にK-means法等でクラスタリング(分類)しておき、そのクラスタの中心(重心)と比較して一定の類似度以上の場合はそのクラスタの各データベクトルと類似度計算をするような方法を採ってもよい。
【0098】
次に、クラスタリング部753は、取得したWebページベクトルを、例えば、K-means法を用いてクラスタリングする(ステップS109-6)。このとき、クラスタリング部753は、高速化処理のために、類似度が計算された結果のうち、上位の一定数のWebページをクラスタリングの対象としてもよい。なお、上位の一定数は、例えば、上位10%、あるいは上位20%などである。更に、類似検索部75(クラスタリング部753)は、収集するWeb情報が一定数集まったら並行して分類を実施し、Web情報が更に一定数集まるたびに分類結果を更新するようにしてもよい。これにより、情報検索システム2は、利用者にとって求めている結果から遠ければ一旦終了し、違う入力文章(クエリ)で検索を行う、という判断に活用することもできる。
【0099】
続いて、ラベル付与部754は、各クラスをラベリングして(ステップS109-7)このフローを抜ける。具体的には、ラベル付与部754は、記憶読出部79を介して、ラベリングした結果を類似度情報管理DB7001(
図7参照)で管理される各項目に書き込み、類似検索処理を終了する(このフローを抜ける)。このとき、ラベル付与部754は、上述したTF-IDFを利用してラベリングを行ってもよい。なお、高速化処理のために類似検索部75は、IDFについてはクローリングデータから事前に生成しておき、TFのみを取得Webページから生成するようにしてもよい。
【0100】
図8に戻り、情報検索装置7の送受信部71は、通信端末3に対して検索処理応答を送信する(ステップS110)。これにより、通信端末3の送受信部31は、情報検索装置7が送信した検索処理応答を受信する。このとき、検索処理応答には、類似検索処理の対象となった入力情報に含まれる特定の情報に対する類似度情報、類似検索結果のファイルが管理される場所を示すURL情報が含まれる。具体的には、情報検索装置7(例えば、API処理部76)は、検索結果に係る画面データを生成し、生成した画面データを通信端末3のブラウザで表示させている。つまり、通信端末3で起動されているブラウザで情報検索装置7のWeb画面にアクセスし、情報検索装置7で検索された検索結果が情報検索装置7のWebページに反映される(更新される)ことになる。
【0101】
次に、通信端末3の記憶読出部39は、ステップS110で受信した類似度情報、URKL情報を記憶部3000の所定領域に記憶する(ステップS111)。
【0102】
続いて、表示制御部34は、ステップS110で受信した類似度情報及びURL情報を含む各種情報を検索結果として、ディスプレイ307に表示させる(ステップS112)。
【0103】
本実施形態に係る情報検索システムでは、例えば、上述したステップS104及びS110の処理が実行される場合、通信端末3と情報検索装置7との間に他の装置等が存在してもよい。つまり、通信端末3と情報検索装置7との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、通信端末3と情報検索装置7との間に他の処理ステップが存在した場合でも適用することが可能である。
【0104】
また、本実施形態に係る情報検索システムでは、例えば、上述したステップS106及びS108の処理が実行される場合、検索エンジン5と情報検索装置7との間に他の装置等が存在してもよい。つまり、検索エンジン5と情報検索装置7との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、検索エンジン5と情報検索装置7との間に他の処理ステップが存在した場合でも適用することが可能である。
【0105】
●画面表示例●
ここで、検索ボタンを操作した後に通信端末3に表示される表示画面例について説明する。
図12は、通信端末における検索結果の表示画面例である。
図12に示されているように、通信端末3のディスプレイ307には、表示制御部34によって自然文検索画面3101が表示される。なお、
図12で示される画面は、
図10で示された自然文検索画面3101において、検索ボタン3153が操作された後の画面例を示すものである。ここでは、表示制御部34によって、入力文章に含まれる特定の情報に対して分類された情報群を示す一以上のクラスの一覧、及び一以上のクラスの各々に対する入力情報に占める割合を含む類似検索結果が自然文検索画面3101に表示される。具体的には、自然文検索画面3101には、検索条件変更ボタン3154及び検索結果として一以上のクラス情報が含まれる。そして、一以上のクラス情報の各々には、入力文章に対する結果としての各クラスを表すラベル情報として、例えば、「顔認証技術」クラス3112、「生体認証」クラス3113、「○○感染症」クラス3113等が表示される。更に各クラス情報の各々には、各クラスを示すラベル情報の各々に対する入力情報に占める割合(例えば、百分率)が表示される。ここでは、顔認証技術が全体の40%を占めていることがわかる。これにより、利用者は、入力情報に含まれる特定の情報に対して類似検索処理を行う場合、検索のために取得されたWebページにおいて、どのようなクラス(ラベル情報)が付与された文書がどの程度の割合又は件数で存在しているかといった状態を、一つの画面で一度に把握することが可能になる。
【0106】
また、検索条件変更ボタン3154は、検索条件を変更するためのボタンである。利用者がこの検索条件変更ボタン3154を操作すると、表示制御部34は新たな検索条件を入力するためのダイアログ画面を自然文検索画面3101上にポップアップ表示させるようにしてもよい。この状態で、利用者が所定の検索条件を入力することにより、表示制御部34は、例えば、利用者が入力したクラスの数を自然文検索画面3101に検索結果として表示してもよい。更に表示制御部34は、検索結果に対して動的にクラスの数を変えて再分類し、再分類された結果を検索結果として自然文検索画面3101に表示してもよい。これにより、利用者は、利用者自身が設定した条件(例えば検索数、検索粒度等)に応じた類似検索結果を得ることが可能になる。
【0107】
<各クラスにおける詳細結果表示処理>
次に、各クラスにおける詳細結果を表示させる処理について説明する。
図13は、クラス又はページの詳細を表示させるための処理の一例を示すシーケンス図である。まず、通信端末3の操作受付部32は、
図12に示された各クラスのうち、任意のクラスの選択操作を受け付ける(ステップS121)。なお、本実施形態では、「顔認証技術」クラス3112が選択された場合を例に説明する。
【0108】
次に、送受信部31は、選択されたクラス情報の取得要求を情報検索装置7に送信する(ステップS122)。これにより、情報検索装置7の送受信部71は、通信端末3が送信した、選択されたクラス情報の取得要求を受信する。このとき、クラス情報には、
図12の「顔認証技術」クラス3112を選択した際に対応付けて付与される「顔認証技術」のラベル情報が含まれる。
【0109】
次に、情報検索装置7の記憶読出部79は、ステップS122で受信した「顔認証技術」のラベル情報を検索キーとして類似度情報管理DB7001(
図7参照)を検索することにより、対応するクラス情報を読み出す(ステップS123)。このときに読み出されるクラス情報には、ファイルページ名(Webページ名)、URL情報、適合率(類似度)を示す適合率情報、分類されたカテゴリを示すカテゴリ情報、クラス名が含まれる。
【0110】
次に、送受信部71は、ステップS122で受信した取得要求に対する取得応答として、通信端末3に対して、クラス情報を含む取得応答を送信する(ステップS124)。これにより、通信端末3の送受信部31は、情報検索装置7が送信したクラス情報を含む取得応答を受信する。
【0111】
次に、表示制御部34は、ステップS124で受信したクラス情報をディスプレイ307に表示させる(ステップS125)。
【0112】
●画面表示例●
ここで、特定のクラス情報を選択した後に通信端末3に表示される表示画面例について説明する。
図14は、通信端末における特定のクラスの全体情報を表示する表示画面例である。
図14に示されているように、通信端末3のディスプレイ307には、表示制御部34によって自然文検索画面3101が表示される。なお、
図14で示される画面は、
図12で示された自然文検索画面3101において、「顔認証技術」クラス3112が選択された後の画面例を示すものである。自然文検索画面3101では、表示制御部34によって、顔認証技術表示部3211、第1顔認証技術クラス領域3212、第2顔認証技術クラス領域3213、・・・が表示されている。第1顔認証技術クラス領域3212には、入力情報に対して最も適合率が高い結果を示すページ情報として、そのファイルページで示される内容、URL情報、適合率が表示される。第1顔認証技術クラス領域3212には更に、誤識別ボタン3251が表示される。この誤識別ボタン3251は、表示されたページ情報が誤識別であったとして削除するための操作ボタンである。同様に、第2顔認証技術クラス領域3213には、入力情報に対して2番目に適合率が高い結果を示すページ情報として、そのファイルページで示される内容、URL情報、適合率が表示される。第2顔認証技術クラス領域3213には更に、誤識別ボタン3252が表示される。この誤識別ボタン3252は、表示されたページ情報が誤識別であったとして削除するための操作ボタンである。本実施形態では、誤識別ボタン325Xは、誤識別情報削除部の一例として機能する。上述したように、一以上の顔認証技術に係るクラス領域が、表示制御部34によって自然文検索画面3101に表示される。これにより利用者は、閲覧したいクラスにおいて、入力文章にマッチした検索結果(文書データ)を簡単に且つ迅速に特定することができる。
【0113】
図13に戻り、通信端末3の操作受付部32は、
図14に示された各クラスのうち、任意のページの選択操作を受け付ける(ステップS131)。なお、本実施形態では、適合率:98.5%の第1顔認証技術クラス領域3212(ページ)が選択された場合を例に説明する。
【0114】
次に、送受信部31は、選択されたページに係るURL情報(詳細データ)の取得要求を情報検索装置7に送信する(ステップS132)。これにより、情報検索装置7の送受信部71は、通信端末3が送信した、選択されたページに係るURL情報(詳細データ)の取得要求を受信する。
【0115】
次に、情報検索装置7の記憶読出部79は、ステップS132で受信したURL情報を検索キーとして類似度情報管理DB7001(
図7参照)を検索することにより、対応するURL情報(URL)を読み出す(ステップS133)。このときに読み出されるURLは、検索エンジン5から取得した情報である。このURLは、通信端末3が直接アクセスするための情報となる。
【0116】
次に、送受信部71は、ステップS132で受信したURL情報(詳細データ)の取得要求に対する取得応答として、通信端末3に対して、URLデータを含む取得応答を送信する(ステップS134)。これにより、通信端末3の送受信部31は、情報検索装置7が送信したURLデータを含む取得応答を受信する。
【0117】
次に、表示制御部34は、ステップS134で受信したURL情報で示される詳細データをディスプレイ307に表示させる(ステップS135)。
【0118】
●画面表示例●
図15は、通信端末における特定のクラスのページ情報を表示する表示画面例である。
図15に示されているように、通信端末3のディスプレイ307には、表示制御部34によって自然文検索画面3101が表示されている。
図15において、第1顔認証技術クラス領域3212に対して、利用者によるタップ操作等が行われると、表示制御部34によって、第1顔認証技術クラス領域3212に対応するページ情報の詳細が自然文検索画面3101に表示される。
図15の例では、表示制御部34によって、第1顔認証技術クラス領域3212に表示されているファイルページの内容「マスクでも顔認証が可能に・・・」の更に詳細な情報が表示されている。具体的には、例えば、マスクをしない状態での顔認証と、同一人物がマスクをした状態での顔認証について、一致する結果が得られるページ情報が、写真等の画像情報と併せて表示されている。このとき、詳細情報が表示されている第1顔認証技術クラス領域3212は、その領域全体が他の領域と判別可能になるように表示されてもよい。判別可能になるような表示形態は、例えば、第1顔認証技術クラス領域3212の外縁を太くする、第1顔認証技術クラス領域3212全体の背景色を他の顔認証技術に係るクラス領域と異ならせるなどでもよい。これにより、利用者は、注目するページ情報の詳細を視覚情報と併せて確認することが可能になる。
【0119】
<誤識別ボタン操作によるクラス情報の削除処理>
次に、誤識別ボタン操作によるクラス情報の削除処理について説明する。
図16は、誤識別ボタン操作に対する処理の一例を示すシーケンス図である。まず、通信端末3の操作受付部32は、
図14に示された各ページのうち、特定のページに表示されている誤識別ボタンに対する選択操作を受け付ける(ステップS141)。なお、本実施形態では、
図14に示された「誤識別」ボタン3251が選択操作された場合を例に説明する。
【0120】
●画面表示例●
次に、特定のページ情報を削除する際に表示される画面表示例について説明する。
図17は、通信端末における誤識別ボタン操作時の表示画面例である。
図17に示されているように、通信端末3のディスプレイ307には、表示制御部34によって自然文検索画面3101が表示されている。
図17に示された例では、第2顔認証技術クラス領域3213に表示されている誤識別ボタン3252に対して、利用者による選択操作が行われると、表示制御部34によって、例えば、誤識別ボタン3252が他の誤識別ボタンと判別可能な色で表示される。
【0121】
図16に戻り、送受信部31は、情報検索装置7に対して、選択されたクラス情報の削除要求を送信する(ステップS142)。これにより、情報検索装置7の送受信部71は、通信端末3が送信した、選択されたクラス情報の削除要求を受信する。このとき、選択されたクラス情報の削除要求には、選択されたクラス情報に対応するページに表示された誤識別情報フラグが含まれる。
【0122】
次に、情報検索装置7の記憶読出部79は、ステップS142で受信した誤識別情報フラグに対応するクラス情報として、類似度情報管理DB7001で管理されている誤識別情報フラグに対応するファイルページ、URL情報、適合率情報、カテゴリ、クラス、ラベル情報を含む全ての情報を削除する(ステップS143)。
【0123】
次に、送受信部71は、通信端末3に対して、ステップS142で受信した選択されたクラス情報の削除要求に対する応答としての削除応答を送信する(ステップS144)。これにより、通信端末3の送受信部31は、情報検索装置7が送信した削除応答を受信する。このとき、削除応答には、削除後の類似度情報、URL情報が含まれる。この処理は、上述したステップS110の処理と同様となる。
【0124】
続いて、通信端末3の表示制御部34は、ディスプレイ307に削除後の画面を表示させる(ステップS145)。
【0125】
●画面表示例●
次に、特定のページ情報が削除された際に表示される画面表示例について説明する。
図18は、通信端末における誤識別ボタン操作後の表示画面例である。
図18に示されているように、第2顔認証技術クラス領域3213に対応するページ情報は、ページ内容が消去又は判読困難な濃度の色で表示されるほか、例えば、「このページの内容は削除されました」といった内容のダイアログ画面が、第2顔認証技術クラス領域3213に重畳表示される。これにより、利用者は、どのページ情報が削除されたかを視覚的に把握することが可能になる。更に、ユーザが文書データの内容を確認しマッチングしない文書データであると判断した場合に、該当するページに配置されている誤識別ボタン325Xを操作して不適当な文書データを検索対象から除くことで、より正確な適合率等を算出することが可能になる。なお、表示制御部34は、更に、第2顔認証技術クラス領域3213のページ内容を削除した一定時間経過後(例えば、5分後)に、次に適合率の高いページ情報を第2顔認証技術クラス領域3213の領域に繰り上げて表示させてもよい。
【0126】
〔第1の実施形態の主な効果〕
以上説明したように本実施形態によれば、情報検索システム2は、利用者によって入力された入力情報に含まれる特定の情報に対して、入力情報に含まれる複数の単語情報により取得された母集団を用いて類似性を算出することにより類似検索処理を行う(ステップS109)。そして、情報検索システム2は、類似検索処理によって検索された、特定の情報に対して分類された情報群を示す一以上のクラスの一覧と、一以上のクラスの各々に対する入力情報に占める割合を含む類似検索結果とを、ディスプレイ307に表示させる(ステップS112)。これにより、入力文書を一例とする入力情報に含まれる特定の情報に対して類似検索処理を行う場合、検索のために取得された母集団において、どのような文書がどの程度の割合又は件数で存在しているかといった全体像を把握することが可能になるという効果を奏する。
【0127】
更に、本実施形態によれば、上述した効果に加えて、情報検索システム2は、類似度情報管理DB7001(
図7参照)により、同じ意味の異なる単語を用いた場合でも、同じクラスに分類することが可能になるという効果を奏する。
【0128】
更に、本実施形態によれば、上述した効果に加えて、例えば、中小企業向けのコンサルティング事業者が本実施形態に係る情報検索システムを利用することにより、クライアントからの要望による情報検索を行う場合でも、キーワード等で多面的な検索を人為的に行う必要がなくなるため、コンサルタント作業工数及び費用を抑えることが可能になるという効果を奏する。
【0129】
〔第2の実施形態〕
次に、第2の実施形態について説明する。
図19は、第2の実施形態に係る通信システムの全体構成の一例を示す図である。
図19に示されているように、通信システム11は、通信端末3及び検索エンジン5を有している。更に、通信システム11では、通信端末3及び検索エンジン5は、通信ネットワーク100を介してそれぞれ互いに接続されている。なお、第2の実施形態は、第1の実施形態に対して、情報検索装置7に代えて通信端末13がその機能の一部又は全部を有している。また、通信端末13は第1の実施形態における通信端末3におけるハードウエア構成と同様であり、検索エンジン15は第1の実施形態における検索エンジン5におけるハードウエア構成と同様であるため、詳細の説明を省略する。
【0130】
〔通信システムの機能構成〕
次に、
図20及び
図21を用いて、本実施形態の機能構成について説明する。
図20は、第2の実施形態に係る通信システムの機能構成の一例を示す図である。なお、
図20は、
図19に示されている装置又は端末のうち、後述する処理又は動作に関連するものを示す。
【0131】
<通信端末の機能構成>
まず、
図20を用いて、通信端末13の機能構成について説明する。
図20に示されているように、通信端末13は、送受信部131、操作受付部132、表示制御部134、類似検索部135、API処理部136及び記憶読出部139を有する。これら各機能部は、
図4に示された各ハードウエア資源のいずれかが、ROM302、EEPROM304及びHD305のうち少なくとも一つからRAM303に展開された通信端末13用のプログラムに従ったCPU301からの命令により動作することで実現される機能又は手段である。また、通信端末13は、
図4に示されているROM302、EEPROM304及びHD305のうち少なくとも一つにより構築される記憶部3300を有している。更に、記憶部3300には、各装置、各端末と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)、文書登録に係るブラウザアプリ等が記憶されている。
【0132】
<<通信端末の各機能構成>>
次に、通信端末13の各機能構成について詳細に説明する。
図20に示されている通信端末13の送受信部131、操作受付部132、表示制御部134、API処理部136及び記憶読出部139は、
図5に示した通信端末3の送受信部31、操作受付部32、表示制御部34、API処理部36及び記憶読出部39の機能と同様のため、詳細の説明を省略する。
【0133】
類似検索部135は、主に、CPU301の処理によって実現され、第1の実施形態で示した情報検索装置7における類似検索部75と同様の機能を有するため、詳細の説明を省略する。
【0134】
●類似度情報管理テーブル●
図21は、第2の実施形態に係る類似度情報管理テーブルの一例を示す概念図である。記憶部3300には、
図21に示されているような類似度情報管理テーブルによって構成された類似度情報管理DB3001が構築されている。類似度情報管理テーブルでは、検索識別情報ごとに、ファイルページ名(Webページ名)、場所(URL情報)、適合率(類似度)、分類されたカテゴリ、クラス、ラベル情報及び誤識別情報フラグの各項目が関連付けられて記憶、管理されている。なお、類似度情報管理DB3001も、
図7に示した類似度情報管理テーブルと同様の構成を備えるため、詳細の説明を省略する。
【0135】
<検索エンジンの機能構成>
次に、
図20を用いて、検索エンジン15の機能構成について説明する。
図20に示されているように、検索エンジン15は、送受信部151、検索部155、API処理部156及び記憶読出部159を有する。これら各機能部は、
図4に示された各ハードウエア資源のいずれかが、ROM502及びEEPROM504のうち少なくとも一つからRAM503に展開された検索エンジン15用のプログラムに従ったCPU501からの命令により動作することで実現される機能又は手段である。また、検索エンジン15は、
図4に示されているROM502及びEEPROM504のうち少なくとも一つにより構築される記憶部5500を有している。更に、記憶部5500には、各装置、各端末と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)、文書登録に係るブラウザアプリ等が記憶されている。
【0136】
<<検索エンジン末の各機能構成>>
次に、検索エンジン15の各機能構成について詳細に説明する。但し、
図20に示されている検索エンジン15各機能部は、
図5に示した検索エンジン5の各機能部と同様の機能を有するため、詳細の説明を省略する。
【0137】
〔実施形態の処理又は動作〕
次に、
図22乃至
図24を用いて、第2の実施形態に係る通信システムにおける各処理又は動作を説明する。
【0138】
<文章検索処理>
図22は、第2の実施形態に係る文章検索処理の一例を示すシーケンス図である。
図22に示されているように、通信端末13の表示制御部134は、表示手段の一例であるディスプレイ307に、
図9に示したような文章入力画面を表示させる(ステップS201)。なお、通信端末13は、以降に説明する他の装置との通信において、所定の手順による各種ログイン認証処理、セッション確立のための処理等を成功させ、互いに通信可能な状態となっていることを前提とする。
【0139】
次に、操作受付部132は、利用者が文章入力画面に対して入力した入力文章を受け付け(ステップS202)、続いて、利用者による検索ボタンの操作を受け付ける(ステップS203)。
【0140】
次に、送受信部31は、検索エンジン15に対して検索処理要求を送信する(ステップS204)。これにより、検索エンジン15の送受信部151は、通信端末13が送信した検索処理要求を受信する。このとき、検索処理要求には、ステップS104の処理と同様に、入力情報の一例として入力文章に係る文章情報が含まれる。
【0141】
次に、検索エンジン15の検索エンジン15の検索部155は、ステップS204で受信した文章情報に対して、検索エンジン15で管理する一以上の保存文書を用いて検索を実行する(ステップS205)。具体的には、検索部155は、第1の実施形態と同様に、通信端末13が送信した文章情報を単語で分割して単語数分繰り返して(Loop処理を実行して)、特定の単語に関連付けられたWebページを検索して取得する。続いて、検索部155は、文章情報を単語組合せ数分繰り返して(Loop処理を実行して)、特定の単語に関連付けられたWebページを検索して取得する。
【0142】
次に、送受信部51は、通信端末13に対して、ステップS205の検索処理要求に対する応答としての検索処理応答を送信する(ステップS206)。これにより、通信端末13の送受信部131は、検索エンジン15が送信した検索処理応答を受信する。このとき、検索処理応答には、検索結果を示す文書としての検索結果文書情報、検索結果に係る文書ファイルが保存、管理されているURL情報が含まれる。
【0143】
次に、通信端末13の類似検索部135は、ステップS206で受信した検索処理応答に基づいて類似検索処理を実行する(ステップS207)。なお、ステップS207で実行される類似検索処理は、第1の実施形態において情報検索装置7の類似検索部75及び類似検索部75を構成する詳細な各機能部によって実行された類似検索処理と同様である。そのため、第2の実施形態に係る類似検索部135における類似検索処理の詳細については、その説明を省略する。
【0144】
続いて、表示制御部134は、ステップS207で実行した類似検索処理によって得られた類似度情報及びURL情報を含む各種情報を検索結果として、ディスプレイ307に表示させる(ステップS208)。
【0145】
<各クラスにおける詳細結果表示処理>
次に、各クラスにおける詳細結果を表示させる処理について説明する。
図23は、第2の実施形態に係るクラス又はページの詳細を表示させるための処理の一例を示すシーケンス図である。まず、通信端末13の操作受付部132は、第1の実施形態に係る
図12に示された各クラスのうち、任意のクラスの選択操作を受け付ける(ステップS221)。なお、本実施形態では、「顔認証技術」クラス3112が選択された場合を例に説明する。
【0146】
次に、記憶読出部139は、ステップS221で選択された「顔認証技術」のラベル情報を検索キーとして類似度情報管理DB3001(
図21参照)を検索することにより、対応するクラス情報を読み出す(ステップS222)。このときに読み出されるクラス情報には、ファイルページ名(Webページ名)、URL情報、適合率(類似度)を示す適合率情報、分類されたカテゴリを示すカテゴリ情報、クラス名が含まれる。
【0147】
次に、表示制御部134は、ステップS222で読み出されたクラス情報をディスプレイ307に表示させる(ステップS223)。このときにディスプレイ307に表示される表示画面例は、
図14に示した場合と同様である。これにより利用者は、閲覧したいクラスにおいて、入力文章にマッチした検索結果(文書データ)を簡単に且つ迅速に特定することができる。
【0148】
次に、通信端末13の操作受付部132は、
図14に示された各クラスのうち、任意のページの選択操作を受け付ける(ステップS231)。なお、本実施形態では、適合率:98.5%の第1顔認証技術クラス領域3212(ページ)が選択された場合を例に説明する。
【0149】
次に、通信端末13の記憶読出部79は、ステップS231で受け付けられたURL情報を検索キーとして類似度情報管理DB3001(
図21参照)を検索することにより、対応するURL情報(URL)を読み出す(ステップS232)。このときに読み出されるURLは、検索エンジン15から取得した情報である。このURLは、通信端末13が直接アクセスするための情報となる。
【0150】
次に、表示制御部134は、ステップS232で読み出したURL情報で示される詳細データをディスプレイ307に表示させる(ステップS233)。このときにディスプレイ307に表示される表示画面例は、
図15に示した場合と同様である。これにより、利用者は、注目するページ情報の詳細を視覚情報と併せて確認することが可能になる。
【0151】
<誤識別ボタン操作によるクラス情報の削除処理>
次に、誤識別ボタン操作によるクラス情報の削除処理について説明する。
図24は、第2の実施形態に係る誤識別ボタン操作に対する処理の一例を示すシーケンス図である。まず、通信端末13の操作受付部132は、第1の実施形態に係る
図17に示された各ページのうち、特定のページに表示されている誤識別ボタンに対する選択操作を受け付ける(ステップS241)。なお、本実施形態では、
図14に示された「誤識別」ボタン3251が選択操作された場合を例に説明する。
【0152】
次に、通信端末13の記憶読出部139は、ステップS241の選択操作受付処理において受け付けられた誤識別情報フラグに対応するクラス情報として、類似度情報管理DB3001で管理されている誤識別情報フラグに対応するファイルページ、URL情報、適合率情報、カテゴリ、クラス、ラベル情報を含む全ての情報を削除する(ステップS242)。
【0153】
続いて、通信端末13の表示制御部134は、ディスプレイ307に削除後の画面を表示させる(ステップS243)。削除後の画面例は、第1の実施形態に係る
図18に示した自然文検索画面3101と同様である。これにより、利用者は、どのページ情報が削除されたかを視覚的に把握することが可能になる。更に、ユーザが文書データの内容を確認しマッチングしない文書データであると判断した場合に、該当するページに配置されている誤識別ボタン325Xを操作して不適当な文書データを検索対象から除くことで、より正確な適合率等を算出することが可能になる。
【0154】
本実施形態に係る情報検索システムでは、例えば、上述したステップS204及びS206の処理が実行される場合、通信端末13と検索エンジン15との間に他の装置等が存在してもよい。つまり、通信端末13と検索エンジン15との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、通信端末13と検索エンジン15との間に他の処理ステップが存在した場合でも適用することが可能である。
【0155】
〔第2の実施形態の主な効果〕
以上説明したように本実施形態によれば、通信端末13は、検索エンジン15から受信した検索結果文書情報、URL情報を含む検索処理応答を受信して(ステップS206)、通信端末13自身で類似検索処理を実行し(ステップS207)、実行した類似検索結果をディスプレイ307に表示させる(ステップS208)。これにより、第1の実施形態に係る効果に加えて、通信端末13に入力された入力情報は、外部装置、外部サーバ等を経由させず通信端末13が利用される専用ネットワーク内に留まるため、利用者が入力した入力情報に対するセキュリティを確保することができるという効果を奏する。
【0156】
〔実施形態の補足〕
上述した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたデバイスを含むものとする。このデバイスとは、例えば、プロセッサ、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)、SOC(System on a chip)、GPU(Graphics Processing Unit)、及び従来の回路モジュール等をいう。
【0157】
また、上述した実施形態において、入力情報は、通信端末に入力された文章に係る文章情報及び発話された音声に係る音声情報のうち少なくとも一方を含むものとした。但し、これに限らず、例えば、複数種類のデータを入力し、統合的に処理する深層学習を行うマルチモーダルAI(Artificial Intelligence)が利用されるシステムにおいて利用される情報であってもよい。
【0158】
これまで本発明の一実施形態に係る情報検索システム、情報検索装置、情報検索方法及びプログラムについて説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態の追加、変更又は削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0159】
1 通信システム
2 情報検索システム
3 通信端末
5 検索エンジン
7 情報検索装置
34 表示制御部(表示制御手段の一例)
75 類似検索部(類似検索手段の一例)
134 表示制御部(表示制御手段の一例)
135 類似検索部(類似検索手段の一例)
307 ディスプレイ(表示手段の一例)
707 ディスプレイ(表示手段の一例)
【先行技術文献】
【特許文献】
【0160】