(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-29
(45)【発行日】2024-12-09
(54)【発明の名称】文書検索システム
(51)【国際特許分類】
G06F 16/332 20190101AFI20241202BHJP
【FI】
G06F16/332
(21)【出願番号】P 2021553167
(86)(22)【出願日】2020-10-14
(86)【国際出願番号】 IB2020059619
(87)【国際公開番号】W WO2021079230
(87)【国際公開日】2021-04-29
【審査請求日】2023-09-27
(31)【優先権主張番号】P 2019194187
(32)【優先日】2019-10-25
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000153878
【氏名又は名称】株式会社半導体エネルギー研究所
(72)【発明者】
【氏名】桃 純平
(72)【発明者】
【氏名】郷戸 宏充
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2014-052863(JP,A)
【文献】特開2011-233023(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
入力部と、第1の処理部と、格納部と、第2の処理部と、出力部と、を有し、
前記入力部は、第1の文書を
前記第1の処理部に入力する機能を有し、
前記第1の処理部は、前記第1の文書から、第1のグラフ構造を作成する機能を有し、
前記格納部は、第2のグラフ構造を格納する機能を有し、
前記第2の処理部は、前記第1のグラフ構造と、前記第2のグラフ構造と、の類似度を算出する機能を有し、
前記出力部は、
算出された前記類似度に関する情報を供給する機能を有し、
前記第1の処理部
における前記第1のグラフ構造の作成は、前記第1の文書を複数のトークンに分割する
第1のステップと、前記複数のトークンのそれぞれに品詞を付与する第2のステップと、を経て行われ、
前記第1のグラフ構造のノードおよびエッジは、ラベルを有し、
前記ラベルは、前記複数のトークンから構成される、
文書検索システム。
【請求項2】
請求項
1において、
前記第1の処理部は、
前記第2のステップの後、係り受け解析を行う
第3のステップと、前記係り受け解析の結果に応じて、
前記複数のトークンの一部を連結する
第4のステップと、を経て前記第1のグラフ構造の作成を行う、
文書検索システム。
【請求項3】
請求項2において、
前記第2のステップにて、前記複数のトークンのうち第1のトークンに付与された品詞が名詞であり、かつ、前記複数のトークンのうち前記第1のトークンの直前に位置する第2のトークンに付与された品詞が形容詞である場合、前記第4のステップにおいて、前記第1の処理部は、前記第2のトークンと、前記第1のトークンと、を連結する、
文書検索システム。
【請求項4】
請求項2において、
前記第2のステップにて、前記複数のトークンのうち第3のトークンに付与された品詞が名詞であり、かつ、前記複数のトークンのうち前記第3のトークンの直後に位置する第4のトークンに付与された品詞が名詞である場合、前記第4のステップにおいて、前記第1の処理部は、前記第3のトークンと、前記第4のトークンと、を連結する、
文書検索システム。
【請求項5】
請求項
3または請求項
4において、
前記第1の処理部は、
前記複数のトークンのうち、代表語または上位語が存在するトークンを、前記代表語または前記上位語に置き換える
第5のステップを、前記第4のステップの後に行う、
文書検索システム。
【請求項6】
請求項1乃至請求項
5のいずれか一において、
前記第2のグラフ構造は、前記第1の処理部にて、第2の文書か
ら作成される、
文書検索システム。
【請求項7】
請求項1乃至請求項
6のいずれか一において、
前記第1のグラフ構造が有する
前記エッジの
前記ラベルが、対義語を有する場合、前記第1の処理部は、前記
第1のグラフ構造の前記エッジの向きを反転させ、かつ、前記エッジの
前記ラベルを前記対義語に置き換え
る機能を有する、
文書検索システム。
【請求項8】
請求項1乃至請求項
7のいずれか一において、
前記第2の処理部は、前記第1のグラフ構造
及び前記第2のグラフ構造を、ベクトル化し、ベクトル化された前記第1のグラフ構造と、ベクトル化された前記第2のグラフ構造と、のベクトルの類似度を
算出する機能を有する、
文書検索システム。
【請求項9】
請求項
8において、
前記第2の処理部は、前記第1のグラフ構造
及び前記第2のグラフ構造を、Weisfeiler-Lehmanカーネルによりベクトル化する機能を有する、
文書検索システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一態様は、文書検索システムに関する。また、本発明の一態様は、文書を検索する方法に関する。
【背景技術】
【0002】
文書を検索するための、様々な検索技術が提供されている。従来の文書の検索では、単語(文字列)の検索が主に用いられる。例えば、webページではページランクなどが利用され、特許分野ではシソーラスが利用されている。また、単語の集合を取ってJaccard係数、Dice係数、Simpson係数などを用いて、文書の類似度を表現する方法がある。また、tf-idf、Bag of Words(BoW)、Doc2Vecなどを用いて、文書をベクトル化し、コサイン類似度を比較するといった手法がある。また、ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離などを用いて、文章の文字列の類似度を評価して所望の文書を探す方法がある。また、特許文献1では、文を構成する構成単位をストリング構造に変換し、ストリング構造間の距離を算出することで、文が類似しているかを比較する言語処理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
様々な分野の文書を検索するには、より精度の高い文書検索方法が求められる。例えば、特許書類(明細書、特許請求の範囲など)や契約書などの文書では、似通った単語が多用されることが多い。よって、文書に使われている単語のみならず、文書の概念を考慮した検索技術が重要となる。
【0005】
そこで、本発明の一態様は、文書の概念を考慮した、文書検索システムを提供することを課題の一とする。また、本発明の一態様は、文書の概念を考慮した、文書を検索する方法を提供することを課題の一とする。
【0006】
なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から、自ずと明らかとなるものであり、明細書、図面、請求項などの記載から、これら以外の課題を抽出することが可能である。
【課題を解決するための手段】
【0007】
本発明の一態様は、入力部と、第1の処理部と、格納部と、第2の処理部と、出力部と、を有する文書検索システムである。入力部は、第1の文書を入力する機能を有し、第1の処理部は、第1の文書から、第1のグラフ構造を作成する機能を有し、格納部は、第2のグラフ構造を格納する機能を有し、第2の処理部は、第1のグラフ構造と、第2のグラフ構造と、の類似度を算出する機能を有し、出力部は、情報を供給する機能を有し、第1の処理部は、第1の文書を、複数のトークンに分割する機能を有し、第1のグラフ構造のノードおよびエッジは、ラベルを有し、ラベルは、複数のトークンから構成される。
【0008】
上記文書検索システムにおいて、第1の処理部は、トークンに品詞を付与する機能を有する、ことが好ましい。
【0009】
また、上記文書検索システムにおいて、第1の処理部は、係り受け解析を行う機能を有し、第1の処理部は、係り受け解析の結果に応じて、トークンの一部を連結する機能を有する、ことが好ましい。
【0010】
また、上記文書検索システムにおいて、第1の処理部は、代表語または上位語が存在するトークンを、代表語または上位語に置き換える機能を有する、ことが好ましい。
【0011】
また、上記文書検索システムにおいて、第2のグラフ構造は、第1の処理部にて、第2の文書から、作成される、ことが好ましい。
【0012】
また、上記文書検索システムにおいて、グラフ構造が有するエッジのラベルが、対義語を有する場合、第1の処理部は、グラフ構造のエッジの向きを反転させ、かつ、エッジのラベルを対義語に置き換えることで、新たなグラフ構造を生成する機能を有する、ことが好ましい。
【0013】
また、上記文書検索システムにおいて、第2の処理部は、第1のグラフ構造、および第2のグラフ構造を、ベクトル化し、ベクトル化された第1のグラフ構造と、ベクトル化された第2のグラフ構造と、のベクトルの類似度を評価する機能を有する、ことが好ましい。
【0014】
また、上記文書検索システムにおいて、第2の処理部は、第1のグラフ構造、および第2のグラフ構造を、Weisfeiler-Lehmanカーネルによりベクトル化する機能を有する、ことが好ましい。
【0015】
また、上記文書検索システムにおいて、第1のトークンに付与された品詞が名詞であり、かつ、第1のトークンの直前に位置する第2のトークンに付与された品詞が形容詞である場合、第1の処理部は、第2のトークンと、第1のトークンと、を連結する機能を有する、ことが好ましい。
【0016】
また、上記文書検索システムにおいて、第3のトークンに付与された品詞、および第3のトークンの直後に位置する第4のトークンに付与された品詞がいずれも名詞である場合、第1の処理部は、第3のトークンと、第4のトークンと、を連結する機能を有する、ことが好ましい。
【発明の効果】
【0017】
本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。また、本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。
【0018】
文書の各文を解析して概念的なグラフ構造を取得し、グラフ構造の類似度を算出することで、概念的に近い文書の検索を可能とする。また、従来の検索方法を組み合わせることで、順位付けなどの精度を上げることができる。
【0019】
なお、本発明の一態様の効果は、上記列挙した効果に限定されない。上記列挙した効果は、他の効果の存在を妨げるものではない。なお、他の効果は、以下の記載で述べる、本項目で言及していない効果である。本項目で言及していない効果は、当業者であれば、明細書、図面などの記載から導き出せるものであり、これらの記載から適宜抽出することができる。なお、本発明の一態様は、上記列挙した効果、及び/又は他の効果のうち、少なくとも一つの効果を有するものである。したがって本発明の一態様は、場合によっては、上記列挙した効果を有さない場合もある。
【図面の簡単な説明】
【0020】
図1は、文書検索システムの一例を示す図である。
図2は、文書を検索する方法の一例を示すフローチャートである。
図3A乃至
図3Cは、各工程で得られる結果を示す図である。
図4A乃至
図4Cは、各工程で得られる結果を示す図である。
図5A乃至
図5Dは、各工程で得られる結果を示す図である。
図6A乃至
図6Cは、各工程で得られる結果を示す図である。
図7は、文書検索システムのハードウェアの一例を示す図である。
図8は、文書検索システムのハードウェアの一例を示す図である。
【発明を実施するための形態】
【0021】
実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨およびその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。したがって、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
【0022】
なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。
【0023】
また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。
【0024】
また、本明細書にて用いる「第1」、「第2」、「第3」という序数詞は、構成要素の混同を避けるために付したものであり、数的に限定するものではないことを付記する。
【0025】
(実施の形態1)
本実施の形態では、本発明の一態様の、文書検索システム、および文書を検索する方法について、
図1乃至
図4Cを用いて説明する。
【0026】
<文書検索システム>
図1は、文書検索システム100の構成を示す図である。つまり、
図1は、本発明の一態様である文書検索システムの構成の一例でもあるといえる。
【0027】
文書検索システム100は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けられていてもよい。または、サーバに文書検索システム100の処理部を設け、クライアントPCからネットワーク経由でアクセスして利用する構成としてもよい。
【0028】
文書検索システム100は、
図1に示すように、入力部101、グラフ構造作成部102、類似度算出部103、出力部104、および格納部105を備える。なお、上記処理部は、グラフ構造作成部102、および類似度算出部103を含む。
【0029】
入力部101は、文書20を入力する。文書20は、ユーザが検索用に指定する文書である。文書20は、テキストデータ、音声データ、または画像データである。入力部101として、キーボード、マウス、タッチセンサ、マイク、スキャナ、カメラなどの入力デバイスがある。
【0030】
文書検索システム100は、音声データをテキストデータに変換する機能を有していてもよい。例えば、グラフ構造作成部102が当該機能を有していてもよい。または、文書検索システム100が、さらに、当該機能を有する音声テキスト変換部を有していてもよい。
【0031】
文書検索システム100は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、グラフ構造作成部102が当該機能を有していてもよい。または、文書検索システム100が、さらに、当該機能を有する文字認識部を有していてもよい。
【0032】
格納部105は、文書10_1乃至文書10_n(nは2以上の整数である。)を格納する。文書10_1乃至文書10_nは、文書20の比較対象となる文書である。以降では、文書10_1乃至文書10_nをまとめて、複数の文書10と表記する場合がある。複数の文書10は、入力部101、記憶媒体、通信などを介して、格納部105に格納される。
【0033】
格納部105に格納されている複数の文書10は、テキストデータであることが好ましい。例えば、音声データ、または画像データをテキストデータに変換することで、データサイズを小さくすることができ、格納部105への負荷を小さくすることができる。
【0034】
また、格納部105は、グラフ構造11_1乃至グラフ構造11_nを格納する。グラフ構造11_1乃至グラフ構造11_nは、それぞれ、文書10_1乃至文書10_nに対するグラフ構造である。なお、グラフ構造11_1乃至グラフ構造11_nは、それぞれ、文書10_1乃至文書10_nから、グラフ構造作成部102にて作成される。以降では、グラフ構造11_1乃至グラフ構造11_nをまとめて、複数のグラフ構造11と表記する場合がある。
【0035】
文書10_i(iは1以上n以下の整数である)と、グラフ構造11_iとには、同一のIDが割り振られていることが好ましい。これにより、文書10_iと、グラフ構造11_iとを、関連付けることができる。グラフ構造11_1乃至グラフ構造11_nを予め作成しておくことで、文書を検索するのに要する時間を短縮することができる。
【0036】
なお、格納部105には、文書20が格納されてもよい。また、文書20に対するグラフ構造21が格納されてもよい。なお、グラフ構造21は、文書20から、グラフ構造作成部102にて作成される。
【0037】
グラフ構造作成部102は、文書からグラフ構造を作成する機能を有する。よって、グラフ構造作成部102は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフ構造を作成する機能を有することが好ましい。また、グラフ構造作成部102は、概念辞書112を参照する機能を有する。概念辞書112を参照し、グラフ構造作成部102にて、文書に対するグラフ構造が作成される。当該文書は、文書20、および複数の文書10である。
【0038】
グラフ構造は、有向グラフであることが好ましい。有向グラフとは、ノードと、向きを持つエッジと、により構成されたグラフである。また、グラフ構造は、ノードおよびエッジにラベルが付与された有向グラフであることがより好ましい。ラベルが付与された有向グラフのグラフ構造を用いることで、類似度および検索の精度を向上させることができる。
【0039】
なお、
図1では、概念辞書112が、文書検索システム100とは異なる装置に設けられている構成を示しているが、これに限られない。概念辞書112は、文書検索システム100に備えられてもよい。
【0040】
また、形態素解析を行う機能、および係り受け解析を行う機能は、文書検索システム100とは異なる装置に備えられてもよい。このとき、文書検索システム100は、上記文書を当該装置に送信し、当該装置で行われた形態素解析、および係り受け解析の結果のデータを受信し、受信したデータをグラフ構造作成部102に送信するとよい。
【0041】
類似度算出部103は、第1のグラフ構造と、第2のグラフ構造との類似度を算出する機能を有する。第1のグラフ構造は、グラフ構造21である。第2のグラフ構造は、複数のグラフ構造11のうちの一または複数である。つまり、類似度算出部103にて、第1の文書と、第2の文書との類似度が評価される。第1の文書は、文書20である。第2の文書は、複数の文書10のうちの一または複数である。
【0042】
出力部104は、情報を供給する機能を有する。当該情報とは、類似度算出部103で算出された類似度の結果に関する情報である。例えば、当該情報は、複数の文書10のうち、文書20との類似度が最も高い文書である。または、当該情報は、文書10_iと、文書20および文書10_iの類似度と、の組を、類似度の高い順に並び変えられた結果である。このとき、当該組の数は、2以上n以下である。
【0043】
上記情報は、例えば、文字列、数値、グラフなどの視覚情報、音声情報などとして供給される。出力部104として、ディスプレイ、スピーカーなどの出力デバイスがある。
【0044】
文書検索システム100は、テキストデータを音声データに変換する機能を有していてもよい。例えば、文書検索システム100が、さらに、当該機能を有するテキスト音声変換部を有していてもよい。
【0045】
以上が、文書検索システム100の構成についての説明である。本発明の一態様である文書検索システムを用いることで、文書20と概念的に類似した文書を、複数の文書10の中から検索することができる。また、文書20と概念的に類似した文書の一覧を、複数の文書10の中から検索することができる。
【0046】
本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。
【0047】
<文書を検索する方法>
図2は、文書検索システム100が実行する処理の流れを説明するフローチャートである。つまり、
図2は、本発明の一態様である文書を検索する方法の一例を示すフローチャートでもあるといえる。
【0048】
本発明の一態様の文書を検索する方法では、文書を解析してグラフ構造にしたのちに、グラフ構造の類似度をWeisfeiler-Lehman(WL)カーネルなどによって比較することで、文書の検索を行う。
【0049】
ステップS001は、複数の文書10を取得する工程である。複数の文書10は、格納部105に格納されている文書である。複数の文書10は、入力部101、記憶媒体、通信などを介して、格納部105に格納される。
【0050】
複数の文書10が特許請求の範囲(クレーム)である場合、ステップS002へ進む前に、複数の文書10のそれぞれに対して、文書のクリーニングを行ってもよい。文書のクリーニングとは、例えば、セミコロンを削除する、コロンをカンマに置き換える、などである。文書のクリーニングを行うことで、形態素解析の精度を高めることができる。
【0051】
なお、上記文書のクリーニングは、複数の文書10が特許請求の範囲(クレーム)以外の場合であっても、必要に応じて適宜行うとよい。また、複数の文書10は、上記文書のクリーニングが行われた後に、格納部105に格納されてもよい。
【0052】
ステップS002は、グラフ構造作成部102にて、複数の文書10のそれぞれに対して形態素解析を行う工程である。これにより、複数の文書10のそれぞれは、形態素に分割される。本明細書では、分割された形態素を、トークンと呼ぶ場合がある。
【0053】
ステップS002では、上記分割された形態素(トークン)のそれぞれに対して、形態素(トークン)の品詞を判別し、品詞ラベルを関連付けしておくことが好ましい。形態素(トークン)に品詞ラベルを関連付けしておくことで、係り受け解析の精度の向上を図ることができる。なお、本明細書等では、形態素(トークン)と品詞ラベルを関連付けすることを、形態素(トークン)に品詞を付与すると言い換えることができる。
【0054】
グラフ構造作成部102が、形態素解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた形態素解析プログラム(形態素解析器ともいう。)を用いて、複数の文書10のそれぞれに対して形態素解析を行ってもよい。このとき、ステップS002は、複数の文書10を当該装置に送信し、当該装置にて形態素解析を行い、形態素解析の結果のデータを受信する工程となる。
【0055】
ステップS003は、グラフ構造作成部102にて、係り受け解析を行う工程である。つまり、分割された形態素(トークン)のそれぞれの係り受けに応じて、複数のトークンの一部を結合する工程である。例えば、トークンが特定の条件を満たす場合、条件を満たすトークン同士を結合して、新たなトークンを生成する。
【0056】
文書に日本語が使用されている場合、具体的には、第j(jは2以上の整数である。)のトークンが名詞であり、且つ、第jのトークンの直前に位置するトークン(第(j-1)のトークンと呼ぶ。)が形容詞である場合、第(j-1)のトークンと、第jのトークンとを結合して、新たなトークンを生成する。また、第jのトークンが名詞であり、且つ、第jのトークンの直後に位置するトークン(第(j+1)のトークンと呼ぶ。)が名詞である場合、第jのトークンと、第(j+1)のトークンとを結合して、新たなトークンを生成する。
【0057】
なお、上記の条件は、文書に使用される言語に合わせて、適宜設定するとよい。
【0058】
上記係り受け解析には、複合語解析が含まれることが好ましい。当該係り受け解析を行うことで、複数のトークンの一部を結合し、新たなトークンとして、複合語を生成することができる。これにより、概念辞書112に登録されていない複合語が文書に含まれていても、当該文書のトークンへの分割を高い精度で行うことができる。
【0059】
グラフ構造作成部102が、係り受け解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた係り受け解析プログラム(係り受け解析器ともいう。)を用いて、係り受け解析を行ってもよい。このとき、ステップS003は、分割された形態素(トークン)を当該装置に送信し、当該装置にて係り受け解析を行い、係り受け解析の結果のデータを受信する工程となる。
【0060】
ステップS004は、グラフ構造作成部102にて、トークンを抽象化する工程である。例えば、トークンに含まれる単語を解析して、代表語を取得する。また、当該代表語に上位語があれば、当該上位語を取得する。そして、当該トークンを、取得された当該代表語または当該上位語に置き換える。ここで、代表語とは、同義語群のグループの見出し語(レンマともいう。)である。また、上位語とは、代表語の上位概念に該当する代表語である。つまり、トークンの抽象化とは、トークンを代表語または上位語に置き換えることを指す。なお、トークンが代表語または上位語である場合、当該トークンは置き換えなくてもよい。
【0061】
置き換える上位語の階層の上限は、1以上2以下であることが好ましく、1であることがより好ましい。なお、置き換える上位語の階層の上限は、指定できるようにしてもよい。これにより、トークンが過剰に上位概念化されるのを抑制することができる。
【0062】
トークンの適切な抽象度合いは、分野によって異なる。そこで、分野に応じた機械学習によって、トークンの抽象化を行うことが好ましい。トークンの抽象化は、例えば、トークンを、当該トークンに含まれる形態素でベクトル化して、分類器によって分類することで実施される。なお、当該分類器として、決定木、サポートベクターマシン、ランダムフォレスト、多層パーセプトロンなどのアルゴリズムを用いてもよい。具体的には、「酸化物半導体」、「アモルファス半導体」、「シリコン半導体」、および「GaAs半導体」を「半導体」に分類するとよい。また、「酸化物半導体層」、および「酸化物半導体膜」、「アモルファス半導体層」、「アモルファス半導体膜」、「シリコン半導体層」、「シリコン半導体膜」、「GaAs半導体層」および「GaAs半導体膜」も「半導体」に分類するとよい。
【0063】
また、分類器を用いて、トークンに含まれる形態素を抽出するべきか否かを分類させてもよい。例えば、「酸化物半導体層」というトークンを抽象化する場合、当該トークンを形態素に再び分解し、分解された形態素である「酸化」、「物」、「半導体」、および「層」を分類器に入力する。分類器に入力した結果、「半導体」に分類される場合、当該トークンを「半導体」に置き換える。これにより、当該トークンを抽象化することができる。
【0064】
上記機械学習アルゴリズムのほかに、条件付き確率場(Conditional random field:CRF)を用いてもよい。または、CRFと上記の方法とを組み合わせてもよい。
【0065】
トークンを抽象化することで、文書を概念的に把握することができる。したがって、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。
【0066】
代表語および上位語の取得は、概念辞書を利用してもよいし、機械学習による分類を行ってもよい。当該概念辞書として、文書検索システム100とは異なる装置に設けられている概念辞書112を用いてもよいし、文書検索システム100に備えられた概念辞書を用いてもよい。
【0067】
ステップS005は、グラフ構造作成部102にて、複数のグラフ構造11を作成する工程である。つまり、ステップS004までに用意されたトークンを、ノードまたはエッジとして、グラフ構造を作成する工程である。具体的には、文書中に、名詞句である第1のトークンおよび第2のトークンと、第1のトークンおよび第2のトークンの関係を表す第3のトークンとがある場合、第1のトークンと第2のトークンのそれぞれを、ノードおよび当該ノードのラベルとし、第3のトークンを、エッジおよび当該エッジのラベルとするグラフ構造を作成する。つまり、ノードのラベルおよびエッジのラベルは、ステップS004までに用意されたトークンから構成される。
【0068】
例えば、文書が特許請求の範囲(クレーム)である場合、グラフ構造のノードは構成要素であり、グラフ構造のエッジは構成要素間の関係である。また、文書が契約文書などである場合、グラフ構造のノードは甲および乙であり、グラフ構造のエッジは子細な条件である。
【0069】
グラフ構造は、トークン同士の係り受けの関係から、ルールに基づいて作成してもよい。また、CRFを用いて、トークンのリストを元に、ノードおよびエッジにラベルを付与する機械学習を行ってもよい。これにより、トークンのリストを元に、ノードおよびエッジにラベルを付与することができる。また、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)、長期短期記憶(Long short-term memory:LSTM)などを用いて、トークンのリストを入力して、ノードとエッジの向きを出力させるSeq2Seqモデルの学習を行ってもよい。これにより、トークンのリストから、ノードとエッジの向きを出力することができる。
【0070】
グラフ構造作成部102は、エッジの向きを反転させ、かつ、当該エッジのラベルを当該エッジのラベルの対義語に置き換える機能を有してもよい。例えば、グラフ構造が、第1のエッジと、第1のエッジのラベルと対義語の関係にあるラベルが付与された第2のエッジと、を有する場合、第2のエッジの向きを反転させ、かつ、第2のエッジのラベルを第2のエッジのラベルの対義語(つまり、第1のエッジのラベル)に置き換える処理を行うことで、新たにグラフ構造を作成してもよい。これにより、概念上同じ構造を網羅することができる。したがって、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。
【0071】
なお、上記処理は、文書中の出現頻度が低い方のエッジに対して行うとよい。つまり、第2のエッジの出現頻度が、第1のエッジの出現頻度よりも低いまたは同じである場合、第2のエッジの向きを反転させ、かつ、第2のエッジのラベルを第2のエッジのラベルの対義語(つまり、第1のエッジのラベル)に置き換える処理を行うとよい。これにより、新たなグラフ構造を作成する頻度を減らすことができる。
【0072】
ステップS004およびステップS005の順序は入れ替えてもよい。ステップS004およびステップS005の順序を入れ替える場合、グラフ構造が作成された後、当該グラフ構造に含まれるノードおよびエッジが抽象化される。よって、ステップS004およびステップS005の順序を入れ替えても、文書から、抽象化されたグラフ構造を作成することができる。
【0073】
ステップS001乃至ステップS005により、複数の文書10から、複数のグラフ構造11を作成することができる。なお、ステップS001乃至ステップS005は、類似度を算出する前までに実施されることが好ましい。複数のグラフ構造11を予め作成しておくことで、文書を検索するのに要する時間を短縮することができる。
【0074】
ステップS011は、文書20を取得する工程である。文書20は、入力部101にて入力された文書である。なお、文書20が、音声データまたは画像データの、テキストデータ以外のデータである場合、ステップS012へ進む前に、文書20をテキストデータに変換する。テキストデータへの変換は、グラフ構造作成部102が有する音声データをテキストデータに変換する機能、もしくは音声テキスト変換部、または、グラフ構造作成部102が有する光学文字認識(OCR)機能、もしくは文字認識部を用いるとよい。
【0075】
文書20が特許請求の範囲(クレーム)である場合、ステップS012へ進む前に、文書20に対して、上述した文書のクリーニングを行ってもよい。文書のクリーニングを行うことで、形態素解析の精度を高めることができる。なお、当該文書のクリーニングは、文書20が特許請求の範囲(クレーム)以外の場合であっても、必要に応じて適宜行うとよい。
【0076】
ステップS012は、グラフ構造作成部102にて、文書20に対して形態素解析を行う工程である。なお、ステップS012は、ステップS002と同様の工程であるため、ステップS002の説明を参酌することができる。
【0077】
ステップS013は、グラフ構造作成部102にて、係り受け解析を行う工程である。なお、ステップS013は、ステップS003と同様の工程であるため、ステップS003の説明を参酌することができる。
【0078】
ステップS014は、グラフ構造作成部102にて、トークンを抽象化する工程である。なお、ステップS014は、ステップS004と同様の工程であるため、ステップS004の説明を参酌することができる。
【0079】
ステップS015は、グラフ構造作成部102にて、グラフ構造21を作成する工程である。なお、ステップS015は、ステップS005と同様の工程であるため、ステップS005の説明を参酌することができる。
【0080】
ステップS016は、類似度算出部103にて、文書20と、複数の文書10のそれぞれとの類似度を評価する工程である。具体的には、グラフ構造21、および複数のグラフ構造11をWLカーネルによりベクトル化し、ベクトル化されたグラフ構造21と、ベクトル化された複数のグラフ構造11のそれぞれと、のベクトルの類似度を評価する。
【0081】
ステップS017は、出力部104にて、情報を出力する工程である。当該情報とは、類似度算出部103にて算出された類似度の結果に関する情報である。
【0082】
以上が、文書を検索する方法についての説明である。本発明の一態様である文書を検索する方法を用いることで、検索用に指定する文書と概念的に近い文書を検索することができる。また、検索用に指定する文書と概念的に近い文書を順位付けされた状態で検索することができる。また、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。
【0083】
本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。
【0084】
<<文書からグラフ構造を作成するまでの実例>>
上述した文書を検索する方法のうち、文書からグラフ構造を作成するまでの実例について、
図3A乃至
図6Cを用いて説明する。
【0085】
はじめに、「酸化物半導体層は絶縁体層の上方にある(SANKABUTSUHANDOUTAISOU HA ZETSUENTAISOU NO JOUHOU NI ARU)」(
図3A参照。)という、日本語が使用された文書を例に挙げて説明する。なお、
図3B、
図3C、および
図4Aに示す角丸四角形はトークンであり、角丸四角形の下方には当該トークンに付与された品詞を記載している。
【0086】
まず、上記文書に対して形態素解析を行うことで、上記文書をトークンに分割し、各トークンに品詞を付与する(
図2に示す、ステップS002およびステップS012)。その結果、
図3Bに示すような結果が得られる。具体的には、上記文書は、「“酸化(SANKA)”(名詞)|“物(BUTSU)”(名詞)|“半導体(HANDOUTAI)”(名詞)|“層(SOU)”(名詞)|“は(HA)”(助詞)|“絶縁(ZETSUEN)”(名詞)|“体(TAI)”(名詞)|“層(SOU)”(名詞)|“の(NO)”(助詞)|“上方(JOUHOU)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」のように、トークンに分割され、トークンのそれぞれに品詞が付与される。
【0087】
次に、係り受け解析を行う(
図2に示す、ステップS003およびステップS013)。その結果、
図3Cに示すような結果が得られる。具体的には、“酸化(SANKA)”および“物(BUTSU)”、“物(BUTSU)”および“半導体(HANDOUTAI)”、ならびに、“半導体(HANDOUTAI)”および“層(SOU)”は、ステップS003で説明した条件を満たす。したがって、4つのトークン(“酸化(SANKA)”、“物(BUTSU)”、“半導体(HANDOUTAI)”、“層(SOU)”)は結合され、1つのトークン(“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”)に置き換えることができる。また、“絶縁(ZETSUEN)”および“体(TAI)”、ならびに、“体(TAI)”および“層(SOU)”は、ステップS003で説明した条件を満たす。したがって、3つのトークン(“絶縁(ZETSUEN)”、“体(TAI)”、“層(SOU)”)は結合され、1つのトークン(“絶縁体層(ZETSUENTAISOU)”)に置き換えることができる。これにより、上記文書は、「“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”(名詞)|“は(HA)”(助詞)|“絶縁体層(ZETSUENTAISOU)”(名詞)|“の(NO)”(助詞)|“上方(JOUHOU)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」となる。
【0088】
次に、トークンの抽象化を行う(
図2に示す、ステップS004およびステップS014)。その結果、
図4Aに示すような結果が得られる。具体的には、“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”は、“半導体(HANDOUTAI)”という上位語に置き換えられる。また、“絶縁体層(ZETSUENTAISOU)”は、“絶縁体(ZETSUENTAI)”という上位語に置き換えられる。また、“上方(JOUHOU)”は、“上(UE)”という代表語に置き換えられる。これにより、上記文書は、「“半導体(HANDOUTAI)”(名詞)|“は(HA)”(助詞)|“絶縁体(ZETSUENTAI)”(名詞)|“の(NO)”(助詞)|“上(UE)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」と抽象化される。
【0089】
次に、グラフ構造を作成する(
図2に示す、ステップS005およびステップS015)。その結果、
図4Bに示すような結果が得られる。具体的には、“半導体(HANDOUTAI)”、および“絶縁体(ZETSUENTAI)”は、グラフ構造のノードおよび当該ノードのラベルとなり、“上(UE)”は、グラフ構造のエッジおよび当該エッジのラベルとなる。
【0090】
ここで、“上(UE)”の対義語は“下(SHITA)”である。そこで、
図4Bに示すグラフ構造の矢印を反転させ、かつ、
図4Bに示すグラフ構造のエッジおよび当該エッジのラベルである“上(UE)”を“下(SHITA)”に置き換えることで、
図4Cに示すグラフ構造を新たに生成してもよい。これにより、概念上同じ構造を網羅することができる。
【0091】
図4B、
図4Cに示す矢印は、文書中に先に出現するノード(上記文書の場合、“半導体(HANDOUTAI)”)から、後に出現するノード(上記文書の場合、“絶縁体(ZETSUENTAI)”)に向かうように図示されている。つまり、矢印の始点を、先に出現するノードとし、矢印の終点を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、矢印の向きを決定してもよい。具体的には、矢印の始点を、ラベルが“絶縁体(ZETSUENTAI)”であるノードとし、矢印の終点を、ラベルが“半導体(HANDOUTAI)”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“上(UE)”とするグラフ構造を作成してもよい。これにより、グラフ構造を直感的に理解することができる。ただし、矢印の向きの決定方法は、文書を検索する方法において、統一する必要がある。
【0092】
以上より、上記文書から、抽象化されたグラフ構造を作成することができる。
【0093】
次に、「A semiconductor device comprising:an oxide semiconductor layer over an insulator layer.」(
図5A参照。)という、英語が使用された文書を例に挙げて説明する。なお、
図5C、
図5D、および
図6Aに示す角丸四角形はトークンである。なお、ここでは、トークンに品詞を付与していない例を示すが、トークンに品詞を付与してもよい。
【0094】
まず、上記文書に対して、文書のクリーニングを行う。ここでは、セミコロンを削除する。その結果、
図5Bに示すような結果が得られる。
【0095】
次に、上記文書に対して、形態素解析を行うことで、上記文書をトークンに分割する(
図2に示す、ステップS002およびステップS012)。その結果、
図5Cに示すような結果が得られる。具体的には、上記文書は、「“A”|“semiconductor”|“device”|“comprising”|“an”|“oxide”|“semiconductor”|“layer”|“over”|“an”|“insulator”|“layer”」となる。
【0096】
次に、係り受け解析を行う(
図2に示す、ステップS003およびステップS013)。その結果、
図5Dに示すような結果が得られる。具体的には、3つのトークン(“A”、“semiconductor”、“device”)は結合され、1つのトークン(“A semiconductor device”)に置き換えることができる。また、4つのトークン(“an”、“oxide”、“semiconductor”、“layer”)は結合され、1つのトークン(“an oxide semiconductor layer”)に置き換えることができる。また、3つのトークン(“an”、“insulator”、“layer”)は結合され、1つのトークン(“an insulator layer”)に置き換えることができる。これにより、上記文書は、「“A semiconductor device”|“comprising”|“an oxide semiconductor layer”|“over”|“an
insulator layer”」となる。
【0097】
次に、トークンの抽象化を行う(
図2に示す、ステップS004およびステップS014)。その結果、
図6Aに示すような結果が得られる。具体的には、“A semiconductor device”は、“device”という上位語に置き換えられる。また、“an oxide semiconductor layer”は、“a semiconductor”という上位語に置き換えられる。また、“an insulator layer”は、“an insulator”という上位語に置き換えられる。これにより、上記文書は、「“device”|“comprising”|“a semiconductor”|“over”|“an insulator”」と抽象化される。
【0098】
次に、グラフ構造を作成する(
図2に示す、ステップS005およびステップS015)。その結果、
図6Bに示すような結果が得られる。具体的には、“deveice”、“semiconductor”、および“insulator”のそれぞれは、グラフ構造のノードおよび当該ノードのラベルとなり、“comprising”、および“over”のそれぞれは、グラフ構造のエッジおよび当該エッジのラベルとなる。
【0099】
ここで、“over”の対義語は“under”である。そこで、
図6Bに示すグラフ構造の矢印を反転させ、かつ、
図6Bに示すグラフ構造のエッジおよび当該エッジのラベルである“over”を“under”に置き換えることで、
図6Cに示すグラフ構造を新たに生成してもよい。これにより、概念上同じ構造を網羅することができる。
【0100】
図6B、
図6Cに示す矢印は、文書中に先に出現するノード(上記文書の場合、“semiconductor”)から、後に出現するノード(上記文書の場合、“insulator”)に向かうように図示されている。つまり、矢印の始点を、先に出現するノードとし、矢印の終点を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、矢印の向きを決定してもよい。具体的には、矢印の始点を、ラベルが“insulator”であるノードとし、矢印の終点を、ラベルが“semiconductor”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“over”とするグラフ構造を作成してもよい。これにより、グラフ構造を直感的に理解することができる。ただし、矢印の向きの決定方法は、文書を検索する方法において、統一する必要がある。
【0101】
以上より、上記文書から、抽象化されたグラフ構造を作成することができる。
【0102】
なお、文書からグラフ構造を作成するまでの工程を、日本語が使用された文書、および英語が使用された文書を例に挙げて説明したが、文書の言語は、日本語および英語に限られない。中国語、韓国語、ドイツ語、フランス語、ロシア語、ヒンディー語などの言語が使用された文書においても、同様の工程を経ることで、文書からグラフ構造を作成することができる。
【0103】
本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、1つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
【0104】
(実施の形態2)
本実施の形態では、本発明の一態様の文書検索システムについて
図7及び
図8を用いて説明する。
【0105】
本実施の形態の文書検索システムは、実施の形態1に示す、文書を検索する方法を用いて、文書を容易に検索することができる。
【0106】
<文書検索システムの構成例1>
図7に、文書検索システム200のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部202で行われる処理は、処理によって異なるサーバで実行されることがある。
【0107】
文書検索システム200は、少なくとも、処理部202を有する。
図7に示す文書検索システム200は、さらに、入力部201、記憶部203、データベース204、表示部205、及び伝送路206を有する。
【0108】
[入力部201]
入力部201には、文書検索システム200の外部から文書が供給される。当該文書は、ユーザが検索用に指定する文書であり、実施の形態1に示す文書20に相当する。また、入力部201には、文書検索システム200の外部から複数の文書が供給されてもよい。当該複数の文書は、上記文書の比較対象となる文書であり、実施の形態1に示す複数の文書10に相当する。入力部201に供給された上記複数の文書及び上記文書は、それぞれ、伝送路206を介して、処理部202、記憶部203、またはデータベース204に供給される。
【0109】
上記複数の文書及び上記文書は、例えば、テキストデータ、音声データ、または画像データとして入力される。上記複数の文書は、テキストデータとして入力されることが好ましい。
【0110】
上記文書の入力方法としては、例えば、キーボード、タッチパネルなどを用いたキー入力、マイクを用いた音声入力、記録媒体からの読み込み、スキャナ、カメラなどを用いた画像入力、通信を用いた取得等が挙げられる。
【0111】
文書検索システム200は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部202が当該機能を有していてもよい。または、文書検索システム200が、さらに、当該機能を有する音声変換部を有していてもよい。
【0112】
文書検索システム200は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部202が当該機能を有していてもよい。または、文書検索システム200が、さらに、当該機能を有する文字認識部を有していてもよい。
【0113】
[処理部202]
処理部202は、入力部201、記憶部203、データベース204などから供給されたデータを用いて、演算を行う機能を有する。処理部202は、演算結果を、記憶部203、データベース204、表示部205などに供給することができる。
【0114】
処理部202は、実施の形態1に示すグラフ構造作成部102、および類似度算出部103を含む。すなわち、処理部202は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフ構造を作成する機能を有する。
【0115】
処理部202には、チャネル形成領域に金属酸化物を有するトランジスタを用いてもよい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部202が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部202を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部202をオフ状態にすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システム200の低消費電力化を図ることができる。
【0116】
なお、本明細書等において、チャネル形成領域に酸化物半導体を用いたトランジスタをOxide Semiconductorトランジスタ(OSトランジスタ)と呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。
【0117】
チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジスタのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Mを含むことが好ましい。元素Mは、アルミニウム(Al)、ガリウム(Ga)、またはスズ(Sn)であることが好ましい。元素Mに適用可能な他の元素としては、ホウ素(B)、チタン(Ti)、鉄(Fe)、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハフニウム(Hf)、タンタル(Ta)、タングステン(W)などがある。ただし、元素Mとして、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。
【0118】
チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。チャネル形成領域が有する金属酸化物は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。
【0119】
また、処理部202には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。
【0120】
また、処理部202には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いてもよい。
【0121】
処理部202は、例えば、演算回路または中央演算装置(CPU:Central Processing Unit)等を有する。
【0122】
処理部202は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部202は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部203のうち少なくとも一方に格納される。
【0123】
処理部202はメインメモリを有していてもよい。メインメモリは、RAM等の揮発性メモリ、及びROM等の不揮発性メモリのうち少なくとも一方を有する。
【0124】
RAMとしては、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等が用いられ、処理部202の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部203に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部202に直接アクセスされ、操作される。
【0125】
ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read
Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV-EPROM(Ultra-Violet
Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
【0126】
[記憶部203]
記憶部203は、処理部202が実行するプログラムを記憶する機能を有する。また、記憶部203は、例えば、処理部202が生成した演算結果、及び、入力部201に入力されたデータを記憶する機能を有していてもよい。具体的には、記憶部203は、処理部202で生成したグラフ構造(例えば、実施の形態1に示すグラフ構造21)、算出された類似度の結果などを記憶する機能を有することが好ましい。
【0127】
記憶部203は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部203は、例えば、DRAM、SRAMなどの揮発性メモリを有していてもよい。記憶部203は、例えば、ReRAM(Resistive Random Access
Memory、抵抗変化型メモリともいう)、PRAM(Phase change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部203は、ハードディスクドライブ(Hard Disc Drive:HDD)及びソリッドステートドライブ(Solid State Drive:SSD)等の記録メディアドライブを有していてもよい。
【0128】
[データベース204]
文書検索システム200は、データベース204を有していてもよい。例えば、データベース204は、複数の文書、および当該複数の文書のそれぞれに対する複数のグラフ構造を記憶する機能を有する。例えば、データベース204に記憶された当該複数の文書を対象として、本発明の一態様の文書を検索する方法を用いてもよい。また、データベース204には、概念辞書が格納されてもよい。
【0129】
なお、記憶部203及びデータベース204は互いに分離されていなくてもよい。例えば、文書検索システム200は、記憶部203及びデータベース204の双方の機能を有する記憶ユニットを有していてもよい。
【0130】
なお、処理部202、記憶部203、及びデータベース204が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。
【0131】
[表示部205]
表示部205は、処理部202における演算結果を表示する機能を有する。また、表示部205は、比較された文書および類似度の結果を表示する機能を有する。また、表示部205は、検索用として指定する文書を表示する機能を有していてもよい。
【0132】
なお、文書検索システム200は、出力部を有していてもよい。出力部は、外部にデータを供給する機能を有する。
【0133】
[伝送路206]
伝送路206は、各種データを伝達する機能を有する。入力部201、処理部202、記憶部203、データベース204、及び表示部205の間のデータの送受信は、伝送路206を介して行うことができる。例えば、ユーザが検索用に指定する文書、当該文書の比較対象となる文書に対するグラフ構造などのデータが、伝送路206を介して、送受信される。
【0134】
<文書検索システムの構成例2>
図8に、文書検索システム210のブロック図を示す。文書検索システム210は、サーバ220と、端末230(パーソナルコンピュータなど)と、を有する。
【0135】
サーバ220は、処理部202、伝送路212、記憶部213、及び通信部217aを有する。
図8では図示しないが、サーバ220は、さらに、入出力部などを有していてもよい。
【0136】
端末230は、入力部201、記憶部203、表示部205、伝送路216、通信部217b、及び処理部218を有する。
図8では図示しないが、端末230は、さらに、データベースなどを有していてもよい。
【0137】
文書検索システム210のユーザは、端末230の入力部201に、文書を入力する。当該文書は、ユーザが検索用に指定する文書であり、実施の形態1に示す文書20に相当する。当該文書は、端末230の通信部217bからサーバ220の通信部217aに送信される。
【0138】
通信部217aが受信した上記文書は、伝送路212を介して、記憶部213に保存される。または、上記文書は、通信部217aから、直接、処理部202に供給されてもよい。
【0139】
実施の形態1で説明した、グラフ構造の作成、及び類似度の算出は、高い処理能力が求められる。サーバ220が有する処理部202は、端末230が有する処理部218に比べて処理能力が高い。したがって、グラフ構造の作成、及び類似度の算出は、処理部202で行われることが好ましい。
【0140】
そして、処理部202により類似度が算出される。類似度は、伝送路212を介して、記憶部213に保存される。または、類似度は、処理部202から、直接、通信部217aに供給されてもよい。類似度は、サーバ220の通信部217aから端末230の通信部217bに送信される。類似度は、端末230の表示部205に表示される。
【0141】
[伝送路212及び伝送路216]
伝送路212及び伝送路216は、データを伝達する機能を有する。処理部202、記憶部213、及び通信部217aの間のデータの送受信は、伝送路212を介して行うことができる。入力部201、記憶部203、表示部205、通信部217b、及び処理部218の間のデータの送受信は、伝送路216を介して行うことができる。
【0142】
[処理部202及び処理部218]
処理部202は、記憶部213及び通信部217aなどから供給されたデータを用いて、演算を行う機能を有する。処理部218は、入力部201、記憶部203、表示部205、及び通信部217bなどから供給されたデータを用いて、演算を行う機能を有する。処理部202及び処理部218は、処理部202の説明を参照できる。処理部202は、処理部218に比べて処理能力が高いことが好ましい。
【0143】
[記憶部203]
記憶部203は、処理部218が実行するプログラムを記憶する機能を有する。また、記憶部203は、処理部218が生成した演算結果、通信部217bに入力されたデータ、及び入力部201に入力されたデータなどを記憶する機能を有する。
【0144】
[記憶部213]
記憶部213は、複数の文書、複数の文書のそれぞれに対するグラフ構造、処理部202が生成した演算結果、及び通信部217aに入力されたデータなどを記憶する機能を有する。
【0145】
[通信部217a及び通信部217b]
通信部217a及び通信部217bを用いて、サーバ220と端末230との間で、データの送受信を行うことができる。通信部217a及び通信部217bとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例えば、電波、赤外線など)を用いてもよい。
【0146】
なお、サーバ220と端末230との通信は、World Wide Web(WWW)の基盤であるインターネット、イントラネット、エクストラネット、PAN(Personal Area Network)、LAN(Local Area Network)、CAN(Campus Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、GAN(Global Area Network)等のコンピュータネットワークに接続することで行ってもよい。
【0147】
本実施の形態は、他の実施の形態と適宜組み合わせることができる。
【符号の説明】
【0148】
:10:複数の文書、10_1:文書、10_i:文書、10_n:文書、11:複数のグラフ構造、11_1:グラフ構造、11_i:グラフ構造、11_n:グラフ構造、20:文書、21:グラフ構造、100:文書検索システム、101:入力部、102:グラフ構造作成部、103:類似度算出部、104:出力部、105:格納部、112:概念辞書、200:文書検索システム、201:入力部、202:処理部、203:記憶部、204:データベース、205:表示部、206:伝送路、210:文書検索システム、212:伝送路、213:記憶部、216:伝送路、217a:通信部、217b:通信部、218:処理部、220:サーバ、230:端末