(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-14
(45)【発行日】2022-06-22
(54)【発明の名称】意味的検索のための装置および方法
(51)【国際特許分類】
G06F 16/33 20190101AFI20220615BHJP
G06F 40/20 20200101ALI20220615BHJP
G06F 40/247 20200101ALI20220615BHJP
【FI】
G06F16/33
G06F40/20
G06F40/247
(21)【出願番号】P 2019525873
(86)(22)【出願日】2017-11-08
(86)【国際出願番号】 EP2017078674
(87)【国際公開番号】W WO2018087190
(87)【国際公開日】2018-05-17
【審査請求日】2020-11-04
(32)【優先日】2016-11-11
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】519164932
【氏名又は名称】デンネマイヤー オクティマイン ゲーエムベーハー
(74)【代理人】
【識別番号】100133503
【氏名又は名称】関口 一哉
(72)【発明者】
【氏名】ナッテラー,ミヒャエル
【審査官】田川 泰宏
(56)【参考文献】
【文献】特開2003-157270(JP,A)
【文献】特開2012-247869(JP,A)
【文献】特開2002-063192(JP,A)
【文献】特開2006-065387(JP,A)
【文献】米国特許出願公開第2011/0082839(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/33
G06F 40/20
G06F 40/247
(57)【特許請求の範囲】
【請求項1】
a)複数の第1のテキスト文書と関連付けられた第1のテキスト文書データ(21)を含むデータベースを構築するステップと、
b)クエリ(41)を受信するステップと、
c)前記クエリ(41)を第2のテキスト文書データ(31)へと変換するステップと、
d)第2のテキスト文書データ(31)を第1のテキスト文書データ(21)と比較し、かつ第2のテキスト文書データ(31と第1の文書データ(21)との間の少なくとも1つの類似性測度を計算するステップとを含み、
前記データベースは特許文献関連のテキスト文書を含み、前記データベースを構築し、かつ/または前記クエリ(41)を変換するステップは、特許文献関連のテキスト文書と関連付けられたストップワードを除去することを含
み、
第1のテキスト文書データ(21)内および/または前記クエリ(41)内に含まれるタームと関連付けられたエントロピーを計算し、かつエントロピーが低いタームを除去することによって、特許関連のストップワードを除去し、
前記クエリ(41)を第2のテキスト文書データ(31)へと変換するステップは、少なくとも1つのクエリベクトル(47)を生成することを含み、
前記クエリ(41)からキーワードおよび/またはキーワードの同義語を識別し、かつ多次元ベクトル空間のベクトルのコンポーネントを用いて前記キーワードを識別することによって、前記クエリベクトル(47)を生成している、
テキスト文書を比較するためのコンピュータ実装方法。
【請求項2】
第1のテキスト文書データ(21)は、第1のテキスト文書に含まれるキーワードおよび/または前記キーワードに意味的に関連している単語から生成される文書ベクトル(27)を含む、請求項1に記載の方法。
【請求項3】
前記クエリ(41)は、第2のテキスト文書、および/または前記メモリコンポーネント(20)内にすでに記憶されている前記第1のテキスト文書データ(21)内に含まれる第2のテキスト文書データ(31)と関連付けられた、第2のテキスト文書を識別する情報を含む、請求項1または2のいずれか一項に記載の方法。
【請求項4】
前記クエリ(41)を第2のテキスト文書データ(31)へと変換するステップは、前記クエリ(41)を標準化することを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記クエリを第2のテキスト文書データ(31)へと変換するステップは、前記クエリ(41)を正規化することを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記クエリ(41)を正規化するステップは、少なくとも同義語、上位語、下位語、ストップワード、および/またはサブジェクト固有のストップワードを外部データベースから検索し、かつ前記検索した単語に少なくとも一部基づいて、前記クエリ(41)のキーワードに関するリストを生成することを含む、請求項5に記載の方法。
【請求項7】
ストップワードおよび/またはサブジェクト固有のストップワードを除去し、かつ前記クエリワードの同義語、上位語、および下位語のうちの少なくとも1つを含ませることによって、前記クエリ(41)のキーワードのリストを生成している、請求項6に記載の方法。
【請求項8】
前記クエリベクトル(47)は100個~500個のコンポーネント、好ましくは200個~400個のコンポーネント、さらにより好ましくは200個~300個のコンポーネントを含む、請求項
1に記載の方法。
【請求項9】
前記キーワードに重みを割り当て、前記クエリ(41)の一般的なサブジェクトに少なくとも一部基づいて、前記重みを割り当てている、請求項1から10のいずれか一項に記載、かつ請求項
1の特徴を有する方法。
【請求項10】
f)少なくとも1つの統計アルゴリズムを使用して、前記少なくとも1つの類似性測度を検証するステップと、
g)前記少なくとも1つの類似性測度を出力するステップとを、前記ステップd)の後にさらに含む、請求項1から
9のいずれか一項に記載の方法。
【請求項11】
前記複数の第1のテキスト文書から抽出されたキーワードを含むタームベクトル(7)を生成するステップをさらに含む、請求項1から
10のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ解析およびデータ変換の分野に関する。より詳細には、本発明は意味的検索に関する。より正確には、本発明は、複数のテキスト文書を意味的に比較するように適合された検索エンジンについて述べている。
【背景技術】
【0002】
膨大な量のデータを含むアーカイブまたはデータベース間で類似の文書を検索することは、とりわけインターネット上にかかるアーカイブが出現して以来、解決するのが最も困難な課題の1つであった。この課題に対する解決策の1つは、利用可能なすべての文書で正確なユーザ定義のキーワードを検索する、総当たり手法である。この手法は処理能力の点では効率的だが、いくつかの制限を呈する。すなわち、検討中のトピックによっては、同じキーワードでも意味が大きく異なることがあり、また同義語または類似の表現を使用するということは、関連するすべての検索回答を得るために、検索を複数回繰り返さなければならない可能性があるということを意味する。
【0003】
先行技術調査に関するより具体的な例では、類似特許の検索は、IPC(国際特許分類)クラスを通じて、CPC(協力特許分類)クラスを通じて、または各特許に記載されている引用文献を通じて行われることが多い。この手法は関連性のあるいくつかの検索回答をもたらし得るが、より最近の(そしてまだ引用されていない)類似文書を見落としたり、わずかに関連しているだけの検索回答を膨大に提示してしまう可能性がある(IPCクラスまたはCPCクラスによる検索の場合)。
【0004】
その類似性によって文書を結合するためのより包括的な手法を、意味的検索によって実行することができる。この種の検索では、同義語、複数の単語から成る表現、およびある分野に特有の専門用語を考慮し、かつそれらすべてを組み合わせてより正確な類似性比較を行っている。この種の検索は、種々のタームまたはテキストがベクトルとして定義され得る多次元ベクトル空間を使用して行うことができ、類似性比較はこのベクトル空間上で直接実行されている。
【0005】
特許文献1は、概念的に関連する単語のクラスタに関して文書を特徴付けるシステムを開示している。ある単語のセットを含む文書を受信すると、システムは、その単語のセットに関連した概念的に関連する単語の「候補クラスタ」を選択する。これらの候補クラスタは、概念的に関連する単語のクラスタからその単語のセットがどのように生成されるかを説明するモデルを使用して、選択されている。次いで、システムは文書を特徴付けるためのコンポーネントのセットを構成し、そのコンポーネントのセットは候補クラスタ用のコンポーネントを含む。このコンポーネントのセットにおける各コンポーネントは、該当する候補クラスタがその単語のセットに関連している度合いを示す。
【0006】
特許文献2は、自己学習型の意味的検索エンジンを提供するための方法、機械可読記憶媒体、およびシステムを開示している。意味ネットワークが初期構成で設定され得る。意味ネットワークに結合された検索エンジンは、インデックスおよび意味インデックスを構築することができる。ビジネスデータに対するユーザ要求を受信することができる。検索エンジンには、意味的ディスパッチャを介してアクセスすることができる。そしてこのアクセスに基づいて、検索エンジンはインデックスおよび意味インデックスを更新することができる。
【0007】
特許文献3には、文書のセット、タームのセット、ならびに各タームおよび各文書と関連付けられたベクトルから成るデータセットを検索するためのシステムおよび関連方法が記載されている。この方法は、タームベクトルと文書ベクトルとがまたがるベクトル空間内のベクトルに検索クエリを変換するステップと、ベクトル近接性検索とターム検索とを組み合わせて、一連の結果を生成するステップとを含み、それらの結果は、当該クエリへの関連性を表す種々の測度によって順位付けされ得る。
【先行技術文献】
【特許文献】
【0008】
【文献】米国特許8688720号明細書
【文献】米国特許8935230号明細書
【文献】米国特許出願公開第2014/280088号明細書
【発明の概要】
【課題を解決するための手段】
【0009】
本発明は、特許請求の範囲および以下の説明において特定される。好ましい実施形態については、従属請求項および種々の実施形態の説明において具体的に特定される。
【0010】
上記の特徴について、本発明のさらなる詳細と共に以下の例においてさらに記載しているが、これらは本発明をさらに例示することを意図したものであり、決してその範囲を限定することを意図したものではない。
【0011】
したがって、既知の従来技術を踏まえて、本発明の目的は、以下の特徴のうちの少なくともいくつかを用いて意味的検索を実行するための方法および装置を開示することである。
1)特定の、とりわけ専門化した専門用語の品詞タグ付けを行い、テキストを整理し、ストップワードを除去し、単語を語幹や字句単位まで削減し、スペルミスを訂正し、言語スタイルを標準化し、同義語を訂正し、OCR(光学式文字認識)のエラーを除去し、複数のコンポーネントの重み付けを行い、かつ種々の類似性指数を使用するための種々の方法を実装すること、
2)字句解析および意味解析アルゴリズムならびに仮定を組み込むこと、
3)種々のテキスト関連情報および種々のアルゴリズムを同時に考慮して実装すること、
4)すべての技術分野に及ぶテキストを解析すること、
5)テキストの類似性測度と文献特性との関連性を実装すること、および
6)類似性判定のためのテキストベースの方法と計量文献学的方法とを組み込むこと。
【0012】
本明細書では、「キーワード」、「ターム」、および「意味単位」という単語を互換的に使用することができる。さらに、「キーワード」または「ターム」という単語は、単一の単語ではなく、ある表現を指す場合がある。
【0013】
第1の実施形態では、本発明は複数のテキスト文書を比較するためのコンピュータ実装方法を開示する。本方法は、複数の第1のテキスト文書と関連付けられた第1のテキスト文書データを含むデータベースを構築するステップを含む。本方法は、クエリを受信するステップをさらに含む。本方法は、前記クエリを第2のテキスト文書データへと変換するステップをさらに含む。本方法は、第2のテキスト文書データを第1のテキスト文書データと比較し、かつ第2のテキスト文書データおよび第1の文書データ間の少なくとも1つの類似性測度を計算するステップをさらに含む。かかる類似性測度は、たとえば類似性指数を含み得る。これにより、複数のテキスト文書を互いに比較する定量化可能な方法を有利に提示することができる。
【0014】
なお、クエリは第2のテキスト文書を含み得、その場合は、この第2のテキスト文書を第2のテキスト文書データへと変換することができる。しかし、クエリは、データベース内に第1のテキスト文書データの一部としてすでに収容されている第2のテキスト文書を単に識別することもできる。この場合、第2のテキスト文書データはすでに存在しているため、単にデータベースから取り出され、データベースに収容されている他のデータと比較されるはずである。
【0015】
本方法により、解析され、かつ他のデータと定量的に比較され得るデータへとテキスト文書を変換する効率的かつ信頼できる方法を実現することができる。好ましくはコンピューティングデバイスによってこうした変換および比較を、好ましくは平行的に実行することができる。このように記載している方法は、ユーザインターフェースでアクセス可能なサーバ上に実装することができる。これは、ユーザが種々の用途で類似のテキスト文書を識別できるようにするのに役立ち得る。
【0016】
いくつかの好ましい実施形態では、第1のテキスト文書データは、第1のテキスト文書に含まれるキーワードおよび/または前記キーワードに意味的に関連している単語から生成される文書ベクトルを含む。つまり、第1のテキスト文書をそれぞれ、データベース内に記憶された文書ベクトルと関連付けることができる。
【0017】
データベースは、第1のテキスト文書自体を含んでも含まなくてもよい。データベース内の記憶域を節約するために、第1のテキスト文書と関連付けられた文書ベクトルのみを記憶させると、有利となり得る。これとは逆に、たとえばクエリに対する応答として容易かつ迅速な検索を行うために、第1のテキスト文書も記憶させると、有利となり得る。
【0018】
前記キーワードに意味的に関連している単語は、たとえば同義語、上位語、および/または下位語を含み得る。意味的に関連している単語を正しく識別するために、外部データベースを使用することができる。これらは汎用的なものおよび/またはサブジェクト固有のものであり得る。
【0019】
いくつかの実施形態では、前記クエリは第2のテキスト文書を含み得る。付加的にまたは代替的に、前記クエリは、前記メモリコンポーネント内にすでに記憶されている第2のテキスト文書データと関連付けられた第2のテキスト文書を識別する情報を含み得る。第2の事例では、前記第2のテキスト文書と関連付けられた第2のテキスト文書データを、単に前記データベースから検索し、次いで前記データベース内に残存する第1のテキスト文書データと比較することができる。なお、この場合、第2のテキスト文書データを第1のテキスト文書データ内に含めることができ、混乱を回避するために、これに対して別の方法で言及している。
【0020】
いくつかの実施形態では、前記クエリを第2のテキスト文書データへと変換するステップは、前記クエリを標準化することを含み得る。いくつかの好ましい実施形態では、標準化することは、誤字を訂正し、特定のスペリング規則および物理単位の規則を選択し、かつ前記特定のスペリング規則および物理単位の規則に基づいて前記テキストを調整し、かつ/または標準的な方法で式(たとえば化学式、遺伝子配列および/またはタンパク質表現)を記述することを含み得る。これにより、有利には、異なる規則または異なる単位を使用しながらも、同じサブジェクトに関連しているテキスト文書間で、より信頼性の高い比較を行うことができる。
【0021】
いくつかの実施形態では、前記クエリを第2のテキスト文書データへと変換するステップは、前記クエリを正規化することを含み得る。いくつかの好ましい実施形態では、正規化することは、ストップワードを識別して除去し、共通の語幹まで単語を削減し、同義語に関する語幹を解析し、かつ/または語列および複合語を識別することを含む。
【0022】
いくつかの実施形態では、前記クエリを正規化することは、少なくとも同義語、上位語、下位語、ストップワード、および/またはサブジェクト固有のストップワードを外部データベースから検索し、かつ前記検索した単語に少なくとも一部基づいて、前記クエリのキーワードに関するリストを生成することを含み得る。トピックによって分離された1または複数の外部データベースを設けることができる。単語はサブジェクトによって異なる意味を含むことがあるので、こうすることで有利となり得る。たとえば、「配送システム/送達系」などの表現は、それが物流の文脈で使用されるか、または医学の文脈で使用されるかによって、全く異なる意味を有し得る。したがって、対応する同義語、上位語、下位語、および/または他の意味的に関連している単語もまた、対象の専門分野によって異なり得る。別の例として、本発明が意味的検索のツールの一部として、具体的には特許文献に関連して従来技術を対象に使用される実施形態を考察されたい。特許出願および特許付与に関しては、まったく異なるサブジェクトに関する文書で繰り返される可能性のある、非常に特殊な単語が存在する。「請求項」、「備える」、「装置」、「実施形態」などの単語は特許文献特有のストップワードと見なすことができ、これらをクエリから除去することができる。データベースが特許文献を含む実施形態では、第1のテキスト文書を第1のテキスト文書データへと変換するプロセスにおいて(つまり、データベースを構築または作成するプロセスにおいて)、前記特有のストップワードを前記第1のテキスト文書すべてから除去することもできる。いくつかの実施形態では、ストップワードおよび/またはサブジェクト固有のストップワードを除去し、かつ前記クエリワードの同義語、上位語、および下位語のうちの少なくとも1つを含ませることによって、前記クエリのキーワードのリストを生成することができる。
【0023】
いくつかの実施形態では、前記クエリを第2のテキスト文書データへと変換するステップは、少なくとも1つのクエリベクトルを生成することを含み得る。クエリベクトルは、たとえばクエリのキーワードに関する情報を含み得る。つまり、クエリベクトルのコンポーネントは、クエリのキーワードおよび/または同義語など意味的にこれらに関連している単語に対応し得る。なお、本明細書では「キーワード」はクエリ内に含まれる実際の単語、および/または同義語、上位語および/または下位語など意味的にこれらに関連している単語の両方を指している可能性がある。かかるいくつかの実施形態では、前記クエリからキーワードおよび/またはキーワードの同義語を識別し、かつ多次元ベクトル空間のベクトルのコンポーネントを用いて前記キーワードを識別することによって、前記クエリベクトルを生成することができる。いくつかの実施形態では、前記クエリベクトルは100個~500個のコンポーネント、好ましくは200個~400個のコンポーネント、さらにより好ましくは200個~300個のコンポーネントを含み得る。つまり、かかるいくつかの実施形態では、すべてのキーワードおよび意味的に関連している関連語が、クエリベクトルのコンポーネントと関連付けられているわけではない。これは、たとえばキーワードがまず評価され、次いで種々のパラメータに基づいて重み付けされてから、重みの低いキーワードが破棄されることを意味している。このことは、クエリベクトルに関与しているキーワードの数を削減することにより、クエリベクトルを文書ベクトルと比較するときなどに、クエリベクトルを操作するのに必要な必須処理能力を大幅に軽減することができるので、とりわけ有利となり得る。なお、文書ベクトルも同様に、100個~500個のコンポーネント、好ましくは200個~400個のコンポーネント、さらにより好ましくは200個~300個のコンポーネントを含み得る。データベースに収容され、かつ第1のテキスト文書と関連付けられ、いくつかの実施形態では文書ベクトルを含む第1の文書データを、キーワードまたは意味単位を識別し、かつそれらと関連付けられたエントロピーに基づいて、それらの数を第1のテキスト文書当たり百または数百まで削減することにより、クエリベクトルと同様に生成することができる。
【0024】
いくつかの好ましい実施形態では、前記キーワードに重みを割り当てることができる。かかる実施形態では、前記クエリの一般的なサブジェクトに基づいて、重みを少なくとも一部割り当てることができる。つまり、文脈に応じて、またはテキスト文書のサブジェクトに応じて、同じターム、キーワードおよび/または意味単位に異なる重みを割り当てることができる。つまり、たとえば「周波数/頻度」というタームは、そのクエリが電気通信のサブジェクトに属している場合は電磁波周波数を指している可能性が高く、医学のサブジェクトに属している場合は物事が起こる頻度を指している可能性が高いというように、その場合に応じて異なる重み付けをすることができる。第1のテキスト文書データが文書ベクトルを含む実施形態では、第1のテキスト文書と関連付けられた文書ベクトルにも同じことが当てはまる。つまり、第1のテキスト文書内に含まれるか、またはそれらに含まれる単語に意味的に関連しているキーワード、タームおよび/または意味単位には、サブジェクトに基づいて異なる重みを割り当てることができる。これにより、第1のテキスト文書とクエリとの間でより意味のある比較を行うことができるので、とりわけ有利である。なお、特定のテキスト文書がどの専門分野に属しているかを判定するには、いくつかの方法がある。対象の文書が特許文献を含む場合、その分類を使用することができる。つまり、所与の文書のIPCクラスおよび/またはCPCクラスを使用して、これを特定の技術分野に割り当てることができる。別の方法としては、特定の分野でとりわけ多く見られる特定のサブジェクトまたは分野特有のターム、キーワードおよび/または意味単位を識別し(外部データベースをこの目的に使用することもできる)、次いでこれらのサブジェクト固有のタームが存在していることに基づいて、その専門分野にテキスト文書を割り当てる方法が挙げられる。
【0025】
いくつかの実施形態では、前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および/またはニードルマン・ウンシュアルゴリズムの少なくとも1つ、またはこれらの組み合わせを適用することを含む。つまり、第1のテキスト文書データが文書ベクトルを含み、第2のテキスト文書データがクエリベクトルを含む実施形態ではとりわけ、多次元ベクトル空間におけるこれらの間の距離を計算することによって、これら2つを比較することができる。いくつかの異なる距離定義を使用して、これを実行することができる。なお、これらの異なる距離定義は、異なる用途に使用することができる。
【0026】
いくつかの好ましい実施形態では、テキスト文書を比較する方法は、少なくとも1つの統計アルゴリズムを使用して、前記少なくとも1つの類似性測度を検証するステップをさらに含む。本方法は、前記少なくとも1つの類似性測度を出力するステップをさらに含み得る。つまり、特許文献を比較する例について再度考察されたい。特許出願および/または特許付与には通常、他の同様の文書に対する参考文献が含まれる。これらの参考文献は、明細書自体において引用されるか、または後で審査官によって提供されることが多い。これらの参考文献は従来技術として使用されており、これは、それらの文献が当該明細書と非常に類似していることを意味し得る。このように、クエリとこうした特定の第1のテキスト文書内に提供される参考文献との間の類似性測度を検証することにより、クエリおよび特定の第1のテキスト文書間の類似性測度を検証することができる。この類似性測度が信頼できるものであれば、この検証によってクエリと参考文献との間で同様の類似性測度の取得が期待できる。
【0027】
いくつかの実施形態では、ユーザインターフェースから前記クエリを受信することができ、前記インターフェースを介して前記類似性測度を返すことができる。かかるインターフェースは、アプリケーション、プログラム、および/またはブラウザベースのインターフェースを含み得る。つまり、ユーザが種々のテキスト文書の類似性を定量的かつ確実に比較することを可能にするプログラムの一部として、本方法を実装することができる。
【0028】
いくつかの実施形態では、前記データベースは特許文献関連のテキスト文書を含み、前記データベースを構築し、かつ/または前記クエリを変換するステップは、特許文献関連のテキスト文書と関連付けられたストップワードを除去することを含む。上述のように、かかる特許文献特有のストップワードは「請求項」、「装置」、「実施形態」、および「備える」のような単語を含み得る。いくつかの実施形態では、第1のテキスト文書データ内および/または前記クエリ内に含まれるタームと関連付けられたエントロピーを計算し、かつエントロピーが低いタームを除去することによって、特許関連のストップワードを除去することができる。これについては、以下でさらに述べる。
【0029】
いくつかの好ましい実施形態では、本方法は、前記複数の第1のテキスト文書から抽出されたキーワードを含むタームベクトルを生成するステップをさらに含み得る。つまり、データベース内に収容され、第1のテキスト文書と関連付けられた第1のテキスト文書データに基づいて、タームベクトルを生成することができる。第1のテキスト文書すべてに含まれるすべてのキーワード、タームおよび/または意味単位に基づいて、タームベクトルを生成することができる。かかる実施形態、および第1のテキスト文書データが文書ベクトルを含み、第2のテキスト文書データがクエリベクトルを含み得る実施形態では、前記文書ベクトルおよび前記クエリベクトルのコンポーネントを、前記タームベクトルのコンポーネントに対して生成することができる。つまり、タームベクトルは、クエリと第1のテキスト文書とを比較するための基礎となる共通の基盤を付与し得る。換言すれば、タームベクトルは、比較を行う際の対象となり得る多次元ベクトル空間を定義することができる。これにより、種々のテキスト文書間の定量的かつ数学的比較が可能となるので、とりわけ有利である。
【0030】
いくつかの実施形態では、コサイン指数を使用して、前記クエリベクトルと前記文書ベクトルとの間の距離を計算することにより、第2のテキスト文書データおよび第1の文書データ間の類似性測度を計算することができる。上述のように、コサイン指数を使用して、多次元ベクトル空間内の距離を計算することができる。これにより、2つのベクトルの内積まで距離を縮小することができるので、とりわけ有利となり得る。かかる演算は容易に実装することができるので、これにより、比較の計算時間を大幅に短縮することができる。
【0031】
第2の実施形態では、本発明は、テキスト文書内の類似性を処理するためのコンピュータ実装方法を開示する。本方法は、少なくとも1つの受信クエリを標準化するステップを含む。本方法は、前記少なくとも1つの標準化された受信クエリを正規化するステップをさらに含む。本方法は、前記少なくとも1つの正規化された標準化クエリを使用して、少なくとも1つのクエリベクトルを作成するステップをさらに含む。本方法は、前記少なくとも1つのクエリベクトルおよび少なくとも1つの別のテキスト文書間の少なくとも1つの類似性測度を計算するステップであって、前記少なくとも1つの別のテキスト文書は前記先行ステップを経ている、ステップをさらに含む。
【0032】
なお、別のテキスト文書を第1のテキスト文書と呼ぶこともできる。前記先行ステップを経ることは、前記別のまたは第1のテキスト文書が標準化され、正規化され、かつ文書ベクトルが作成されたことを指し得る。
【0033】
有利には、本方法により、テキストから成る任意のクエリを、クエリと他のデータとの類似性を評価するために他のデータと定量的に比較できるデータへと変換することが可能になる。この変換を、そのメモリに記憶された種々のテキスト文書と関連付けられたデータを有し、かつこのデータを検索して受信クエリと比較できるコンピューティングデバイスによって実行することが好ましい。次いで、コンピューティングデバイスによって実装される種々の技法およびアルゴリズムを使用して、クエリのテキストを解析することができる。
【0034】
いくつかの好ましい実施形態では、前記テキスト文書は、技術的テキスト、科学的テキスト、特許テキスト、および/または製品説明の少なくとも1つまたはそれらの組み合わせを含み得る。
【0035】
いくつかの実施形態では、標準化するステップは、誤字を訂正し、特定のスペリング規則および物理単位の規則を選択し、かつ前記特定のスペリング規則および物理単位の規則に基づいて前記テキストを調整し、かつ/または標準的な方法で式(たとえば化学式、遺伝子配列および/またはタンパク質表現)を記述することを含み得る。
【0036】
いくつかの実施形態では、正規化するステップは、ストップワードを識別して除去し、共通の語幹まで単語を削減し、同義語に関する語幹を解析し、かつ/または語列および複合語を識別することを含み得る。かかる実施形態では、正規化するステップは、好ましくは特定のタイプの複数のテキスト文書におけるタームのエントロピーを計算し、かつエントロピーが低い単語を除去することによって、前記タイプのテキスト文書と関連付けられたストップワードを識別し、かつ除去することをさらに含み得る。
【0037】
いくつかの実施形態では、前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および/またはニードルマン・ウンシュアルゴリズムの少なくとも1つ、またはこれらの組み合わせを適用することを含み得る。かかるアルゴリズムによって、多次元ベクトル空間におけるテキスト文書から生成されたデータの距離に基づいて、テキスト文書間の定量的比較を行うことができる。
【0038】
いくつかの実施形態では、本方法は、少なくとも1つの統計アルゴリズムを使用して、前記少なくとも1つの類似性測度を検証するステップをさらに含み得る。本方法は、前記少なくとも1つの類似性測度を出力するステップをさらに含み得る。
【0039】
なお、第1および第2の実施形態は相補的であり得る。つまり、第1の実施形態の一部として提示している実施形態は、第2の実施形態の一部となり得、逆もまた同様である。
【0040】
第3の実施形態では、本発明はコンピュータ実装システムを開示する。本システムは、第1のテキスト文書と関連付けられた複数の第1のテキスト文書データを含むデータベースを少なくとも記憶するように適合された、少なくとも1つのメモリコンポーネントを含む。本システムは、クエリを受信するように適合された少なくとも1つの入力装置をさらに備える。前記クエリは、第2のテキスト文書および/または第2のテキスト文書を識別する情報を含む。前記第2のテキスト文書は、前記メモリコンポーネント内にすでに記憶されている第1のテキスト文書データ内に含まれる第2のテキスト文書データと関連付けられている。本システムは、クエリを第2のテキスト文書データへと変換し、かつ/または前記少なくとも1つのメモリコンポーネント内の記憶域から、前記クエリと関連付けられた第2のテキスト文書データを検索するように適合された、少なくとも1つの処理コンポーネントをさらに備える。第2のテキスト文書データを前記少なくとも1つのメモリコンポーネント内に記憶されている前記第1のテキスト文書データと比較するように、前記処理コンポーネントをさらに適合させている。本システムは、第1のテキスト文書データと関連付けられた少なくとも1つの類似の第1のテキスト文書を識別する情報を返すように適合された、少なくとも1つの出力装置をさらに備える。前記類似の第1のテキスト文書は、第1のテキスト文書中で前記クエリに最も類似している。
【0041】
なお、前記クエリは、好ましくは2つの形式のうちの一方を含み得る。第1の形式では、クエリは第2のテキスト文書を含み得、その場合、次いでこの第2のテキスト文書は適切に変換され、かつ第2のテキスト文書データと関連付けられ得る。第2の形式では、クエリは、データベース内にすでに収容されている第2のテキスト文書への参考文献を含み得る。たとえば、データベースが特許文献を含む場合、クエリは、特定の第2のテキスト文書を識別できる特許出願番号、または登録番号を含み得る。これは、いわゆる「第2のテキスト文書を識別する情報」というものであり得る。次いで第2のテキスト文書データは、第1の事例では、クエリが含んでいた第2のテキスト文書と関連付けられたデータを含み得る。第2の事例では、クエリの識別情報に基づいて、データベースから第2のテキスト文書データを検索することができる。第2の事例では、第2のテキスト文書データを第1のテキスト文書データ内に含めることができる。
【0042】
換言すれば、本明細書に記載のシステムは、入力装置を介して任意のテキストベースのクエリの入力を受信し、クエリをメモリに記憶されたテキスト文書データと関連付けることができるかどうかを検証し、そうである場合はこのデータを検索し、そうでない場合は、クエリをかかるデータへと変換するように構成されている。本システムは、クエリとメモリに記憶された他の文書とを比較するようにさらに構成されている。この比較は、種々のアルゴリズムを実装することを通じて、処理コンポーネントによって行うことができる。本システムは、出力装置を介して、クエリと最も密接に関連付けられたテキスト文書の形式で、この比較の結果をさらに出力することができる。この比較自体は、変換されるデータのレベルで行うことができ(上記および下記で概説するように、このデータは多次元ベクトル空間内の点を含み得る)、前記入力データおよび前記出力データは、実際のテキスト文書またはその識別子(論文のタイトル、および特許番号など)を含み得る。
【0043】
いくつかの実施形態では、前記第1のテキスト文書データは複数の文書ベクトルを含み得、前記第2のテキスト文書データはクエリベクトルを含み得る。なお、クエリが取り得る2つの形式に再度言及しておくと、クエリベクトルは、クエリが含む第2のテキスト文書のテキストから生成することも、データベースから検索することもできる。後者の場合、クエリベクトルはすでにデータベースに記憶されているため、文書ベクトルの1つであり得る。明瞭かつ一貫して示すために、本明細書では「クエリベクトル」という用語を両方の場合に使用している。好ましい実施形態では、第1のテキスト文書のそれぞれを、データベース内に記憶させることができる文書ベクトルと関連付けることができる。データベースは、第1のテキスト文書と、それに対応する文書ベクトルとの両方、または文書ベクトルのみを記憶することができる。
【0044】
いくつかの実施形態では、前記メモリコンポーネントは、科学論文および/または技術説明および/または特許文献および/または製品説明と関連付けられた、第1のテキスト文書データを含み得る。換言すれば、第1のテキスト文書は特許文献、科学論文、および/または技術説明を含み得る。好ましくは、データベースは少なくとも特許文献関連の第1のテキスト文書データを含み得る。
【0045】
いくつかの実施形態では、前記第2のテキスト文書を標準化かつ正規化して、少なくとも1つのクエリベクトルを作成することにより、第2のテキスト文書データを取得することができる。標準化および正規化については、上記および下記でより詳細に記載する。
【0046】
いくつかの実施形態では、第1のテキスト文書データと第2のテキスト文書データとを比較することにより、類似性指数を生成することができる。かかるいくつかの実施形態では、前記出力装置は、前記類似性指数によって最も類似性の高いものから最も類似性の低いものへと順序付けられた複数の第1のテキスト文書と関連付けられた情報を返すことができ、第1のテキスト文書データと関連付けられた前記第1のテキスト文書は、第2のテキスト文書データに対して最も類似性の高い指数を生成している。つまり、そのクエリに最も類似した一定数の第1のテキスト文書を含むリストを出力するように、本システムを適合させることができる。第1のテキスト文書が特許文献を含む場合、これは先行技術調査を実行する方法としてとりわけ有利となり得る。出力された第1のテキスト文書をデータベースに記憶させることができ、かつ/またはそれらを識別する情報(特許出願番号または特許登録番号など)として出力することができ、かつ/またはその文書にアクセスできる外部データベースへのリンクとして出力することができる。さらに、最も類似した第1のテキスト文書の一部を出力することも、また有利となり得る。たとえば、発明の名称および/または要約および/または図のうちの1つを出力することができる。
【0047】
いくつかの実施形態では、類似性指数は、テキスト文書間の字句比較および/または意味比較に基づき得る。つまり類似性指数は、テキスト間の類似性を定量的に示し得る。これは、たとえばクエリ内および第1のテキスト文書内に存在するキーワードおよび/または意味単位の量を指し得る。なお、類似性指数の取得は、たとえば、ベクトル空間にあるベクトル間の距離を計算することによって行うことができる。しかし、ベクトル自体は字句パラメータおよび/または意味パラメータに基づいて取得することができる。したがって、類似性指数もこれらのパラメータに基づいていると考えることができる。
【0048】
いくつかの実施形態では、前記処理コンポーネントは、受信した前記第2のテキスト文書の標準化および正規化中に、キーワードを識別することができる。キーワードは、テキスト文書の内容に極めて関連性の高い単語を含み得る。キーワードは、単語の語幹(正規化の一部として取得される)、複合語、および/または意味的に結合された一連の単語を含み得る。キーワードは、実際にはテキスト文書には含まれていないが、テキスト文書に含まれている単語と同義語またはこれらに意味的にリンクされた他の単語である単語をさらに含み得る。
【0049】
いくつかの実施形態では、前記処理コンポーネントは、エントロピーアルゴリズムに基づいて前記キーワードに重みを割り当てることができる。つまり、文書内で出現する頻度、および/または特定の専門分野内での関連性の高さに基づいて、一部のキーワードの順位が高くなる可能性がある。その後、キーワードに割り当てられた重みを、第1のテキスト文書データおよび第2のテキスト文書データを比較するときに使用することができる。つまり、より高い重みを有するキーワードは、より低い重みを有するキーワードよりも、文書間の類似性および/または類似性指数により大きく寄与し得る。このことは、文脈内での単語の出現頻度および特定の意味を考慮すると、テキスト間の類似性を判定することがより正確になり得るので、とりわけ有利となり得る。これにより、より安定した比較測度が得られる。
【0050】
いくつかの実施形態では、並列計算のために前記第2のテキスト文書を少なくとも2つの部分、好ましくは少なくとも4つの部分へと分割するように、前記処理コンポーネントを適合させることができる。これにより、処理速度が上昇し、したがってより高い効率をもたらすので有利である。
【0051】
いくつかの実施形態では、前記処理コンポーネントは少なくとも2つ、好ましくは少なくとも4つ、より好ましくは少なくとも8つのカーネルを含み得る。これにより、クエリの処理速度をさらに上昇させることができる。
【0052】
いくつかの実施形態では、前記メモリコンポーネント内に記憶された第1の文書データを定期的に更新するように、前記処理コンポーネントを適合させることができる。つまり、新たな第1のテキスト文書でデータベースを更新することができる。
【0053】
いくつかの実施形態では、類似のテキスト文書が含むべき、かつ/または含んではならない単語および/または文をリスト化することによって、前記クエリを特定できるように、前記入力装置をさらに適合させることができる。すなわち、先行技術調査の例をここで再度考察されたい。クエリと同様に、テキスト文書内に必ず含まれるべき単語または表現を指定できると、とりわけ有用となり得る。付加的にまたは代替的に、類似のテキスト文書内に含まれてはならない単語を指定すると、非常に有用となり得る。
【0054】
いくつかの実施形態では、出力される最も類似したテキスト文書の数を指定することにより、前記クエリを特定できるように、前記入力装置をさらに適合させることができる。
【0055】
いくつかの実施形態では、前記メモリコンポーネントはRAM(ランダム・アクセス・メモリ)を含み得る。これについては、
図1に関連してさらに述べる。
【0056】
いくつかの実施形態では、前記メモリコンポーネントは、複数の前記第1のテキスト文書から抽出されたキーワードを含むタームベクトルをさらに含み得る。タームベクトルについては、第1の実施形態に関連して上述している。かかるいくつかの実施形態では、前記タームベクトルのコンポーネントに対して前記文書ベクトルおよび前記クエリベクトルのコンポーネントを生成するように、前記処理コンポーネントを適合させることができる。第1のテキスト文書データが文書ベクトルを含み、第2のテキスト文書データがクエリベクトルを含むかかるいくつかの実施形態では、前記コサイン指数を使用して、前記クエリベクトルおよび前記文書ベクトル間の距離を計算することにより、前記第2のテキスト文書データを前記第1のテキスト文書データと比較するように、前記処理コンポーネントを適合させることができる。
【0057】
以下に、本発明の一実施形態に関するより正式な説明が続く。具体的には、本発明の文脈内において使用できるエントロピーの概念を明確化し、また種々のテキスト間の類似性を定量化する1つの方法を提供する。
【0058】
エントロピー
を使用して、特許文献特有のストップワードを除去することができる。つまり、「請求項」、「手段」、「発明」、「備える」、または他の類似の単語などの単語である。以下の式を使用することができる。
【数1】
【0059】
上記の式において、
は特許および/または文書の総数を表し、
および
は特許および/または文書を指す指数であり、
は特許および/または文書
におけるターム
の出現頻度を表し、
の合計は、すべての特許および/または文書におけるターム
の出現頻度を表している。
の値は、0~1間に入る。文書間で極めて明確かつ不均一に分布しているタームには、高いエントロピー値で重み付けすることができる。エントロピー値が高いほど、そのタームはより多くの情報を伝達することができる。特許特有のストップワードのリストは、要約、特許請求の範囲、発明の名称、明細書およびそれらのすべての組み合わせに対して、別々に計算することができる。特許における特許請求の範囲は、たとえば明細書とは極めて異なって定式化されているので、この差別化は重要である。
【0060】
種々のストップワードを除去し、それらを語幹処理することによってキーワードを識別した後、これらのキーワードをベクトル空間モデルに実装することができる。次いでこれらの文書を、多次元空間内のオブジェクトとして表すことができる。その次元は、キーワードまたはタームによって特徴付けることができる。このように各文書は、多次元空間内の点および/またはベクトルとして記述することができる。この点の各コンポーネントの値は、当該文書で特定のキーワードまたはタームが検出された回数を表し得る。考慮すべきすべての文書のタームまたはキーワードすべてをタームベクトル
が1回だけ含むように、これを作成することができる。
【数2】
【0061】
つまり、考慮すべき第1のテキスト文書すべてに、
個のタームまたはキーワードの合計を含めることができる。このベクトルに基づいて、ターム・文書行列(TDM)を生成することができる。TDMは、以下の式でタームベクトル
の重みを表す行ベクトルとして、
個の文書および/または特許のそれぞれを含み得る。
【0062】
これは、文書
を数値重みベクトル
で記述できることを意味しており、これを文書ベクトルとも呼ぶことができる。文書ベクトルは、以下のように重みと関連付けることができる。
【数3】
【0063】
ブール表現における短縮された文書ベクトルは、たとえば以下のように見える。
【数4】
【0064】
タームベクトルは、すべての文書からの各タームまたはキーワードを1回だけ含むため、文書ベクトルのほとんどの重み要素
は値ゼロを有する。これにより、ベクトル空間モデルの実装中に2つの問題が発生する可能性がある。第1に、ヌル値が不必要なメモリを占有し、第2に、テキスト文書の比較中にベクトルを操作することにより、ヌル値による不必要な乗算が発生する。したがって、文書ベクトル
を座標-重み対
のセットとして提示すると、より有利かつ実用的である。そこで、上記の式からの文書ベクトルは、次のように記述することができる。
【0065】
二重括弧の最初の部分は座標
を表し、タームベクトル
内の位置および/または指数を表す。この表現では、
行列はその要素
のそれぞれとして二重括弧を含み得、これをテンソルと見なすことができる。
【0066】
このようにして、各文書をベクトル空間内のベクトルとして表すことができる。通常、文書を含む集合体全体またはデータベースのタームベクトルは、100万個以上のコンポーネントを含み得る。しかし、各文書を約100~500個のコンポーネントを有する文書ベクトルへと変換することができる。つまり、文書ベクトルが約100個~500個のキーワードを含むことができるように、文書当たりのキーワード数を削減することができる。
【0067】
ベクトル空間法により、テキスト内に存在するキーワードに基づいて、多次元ベクトル空間内の点および/またはベクトルに異なるテキスト文書を関連付けることによって、これらを定量化することができる。次いで、ベクトル空間内での近接度を計算することによって、異なるテキストを比較することができる。これは、たとえば、参考のために以下に示しているコサイン指数
を使用して、実行することができる。
【数5】
【図面の簡単な説明】
【0068】
当業者であれば、以下に記載される図面が例示のみを目的としたものであることを理解するであろう。これらの図面は、本教示内容の範囲を決して限定しないものとする。
【0069】
【
図1】本発明の一態様による、意味的検索を行う装置の一実施形態を示す。
【0070】
【
図1b】クエリをテキスト文書データへと変換する一実施形態を概略的に示す。
【0071】
【
図1c】ベクトル空間モデルの視覚化に関する一実施形態を概略的に示す。
【0072】
【
図2】本発明の一態様による、意味的検索を行うための方法の一実施形態を示す。
【発明を実施するための形態】
【0073】
以下では、図面を参照しながら、本発明の典型的な実施形態について説明する。これらの例を、その範囲を限定することなく、本発明へのさらなる理解をもたらすために提供する。
【0074】
以下の説明では、一連の特徴および/またはステップを記載している。文脈によって要求されていない限り、これらの特徴およびステップの順序は、結果として生じる構成およびその効果にとって重要ではないことを、当業者なら理解するであろう。また、これらの特徴およびステップの順序に関係なく、記載したステップの一部またはすべてにおいて、ステップ間の時間遅延が生じたり、生じなかったりする可能性があることが、当業者には明らかであろう。
【0075】
図1を参照すると、本発明の構成の一例が示されている。図は、本発明の一態様による、コンピュータ実装システム10を示す。
【0076】
コンピュータ実装システム10は、メモリコンポーネント20を備える。メモリコンポーネント20は、RAMなどの標準的なコンピュータメモリを含み得る。付加的にまたは代替的に、メモリコンポーネント20は、ハードドライブ、サーバの記憶域、フラッシュメモリ、光学式ドライブ、FeRAM、CBRAM、PRAM、SONOS、RRAM(登録商標)、レーストラックメモリ、NRAM、3D XPoint、および/またはミリピードメモリなどの不揮発性メモリコンポーネントを含み得る。
【0077】
メモリコンポーネント20は、第1のテキスト文書データ21を含み得る。第1のテキスト文書データ21は、文書ベクトルを含み得る。文書ベクトルは、テキスト文書から作成することができる。つまり、文書内のキーワードを識別することにより、各テキスト文書を文書ベクトルにマッピングすることができる。1つの文書ベクトルは、個々のキーワードを含む100個~500個のコンポーネント(つまり、次元)を含み得る。
【0078】
コンピュータ実装システム10は、処理コンポーネント30をさらに含み得る。第2のテキスト文書データ31を受信し、これを第1の文書データ21と比較するように、処理コンポーネント30を適合させることができる。第2のテキスト文書データ31は、文書ベクトルをさらに含み得る。たとえばこれは、ユーザ定義のクエリ、および/またはユーザが設定したテキスト文書の識別情報(たとえば特許番号などの)を含み得る。第2のテキスト文書データ31は、すでに第1のテキスト文書データ21の一部である文書ベクトルを含み得る。たとえば、ユーザインターフェースを使用して、すでにコンピュータ実装システム10内のデータベースの一部である(つまり、すでにメモリコンポーネント20における第1のテキスト文書データ21の一部である)特定の特許および/または特許出願に類似した、特許および/または特許出願を検索することができる。
【0079】
入力装置40からクエリ41を受信するように、処理コンポーネント30を適合させることができる。つまり、たとえばユーザインターフェースを介して、この場合には入力装置40として機能することになるアプリケーション、プログラム、および/またはブラウザベースのインターフェースにクエリ41を入力することができる。クエリ41は、テキストおよび/または第2のテキスト文書に関する特定の識別情報(上述のように、これはたとえば、特許番号および/または特許出願番号を含み得る)を含み得る。クエリ41を受信すると、処理コンポーネント30は、たとえばクエリ内のすべてのキーワードを識別し、ストップワードを除去し、語幹処理を実行し、かつクエリ用の文書ベクトルを生成することによって、クエリ41を第2のテキスト文書データ31へと変換することができる。上述のように、すでにメモリコンポーネント20におけるデータベースの(第1のテキスト文書データ21の)一部である文書をクエリが識別した場合、処理コンポーネント30は、第2のテキスト文書データ31と関連付けられた文書ベクトルを単に検索することができる。次いで、処理コンポーネント30は第2のテキスト文書データ31を、メモリコンポーネント20における第1のテキスト文書データのすべてと比較することができる。処理コンポーネント30は、好ましくは多次元ベクトル空間内の文書ベクトル間の距離に基づいて、最も類似した文書(それぞれの文書ベクトルで識別される)を識別することができる。
【0080】
第1のテキスト文書データ21内の最も類似した文書を識別した後、処理コンポーネントはその結果を出力装置50へと送信することができる。次いで出力装置50は、クエリ41に最も類似しており、第1のテキスト文書データ21と関連付けられた、類似した少なくとも1つの第1のテキスト文書51を出力することができる。当然ながら、出力装置50は、クエリ41との類似性に基づいて順位付けされた、類似した複数の第1のテキスト文書51を出力することができる。出力装置50は、たとえばプログラム、アプリケーションおよび/またはコンピューティング装置を介してアクセス可能なブラウザベースのインターフェースなどのインターフェースを含み得る。
【0081】
図1bは、クエリ41をテキスト文書データへと変換する実施形態を概略的に示す。このプロセスは、たとえばコンピューティング装置と関連付けられたCPUを含み得る、処理コンポーネント30内で行うことができる。付加的にまたは代替的に、処理コンポーネントは、たとえば並列処理のために、複数のCPUおよび/または複数のカーネルを有する1つのCPUを含み得る。入力装置40(ここでは図示せず)から処理コンポーネント30へと、クエリ41を転送することができる。まずクエリ41を標準化して、標準化クエリ43を取得することができる。標準化のプロセスについては上述している。次いで、標準化クエリ43を正規化して、正規化された標準化クエリ45を取得することができる。正規化のプロセスについても、より詳細に上述している。
【0082】
次いで、正規化された標準化クエリ45(それぞれ、標準化された正規化クエリ43)をクエリベクトル47へと変換することができる。正規化された標準化クエリ45のキーワードまたは「ターム」を多次元ベクトル空間内のコンポーネントまたは次元と関連付けることにより、クエリベクトル47を生成することができる。次いでクエリベクトル47を、メモリコンポーネント20(ここでは図示せず)内に記憶させることができる文書ベクトル27と比較することができる。
【0083】
なお、文書ベクトル27は、本明細書では第1のテキスト文書データ21を指し得る。明確にするために「文書ベクトル」という用語を使用し得るので、当業者であれば、複数の異なる文書ベクトルを指していることを理解する。クエリベクトル47と文書ベクトル27との比較は、たとえば多次元ベクトル空間内の距離に基づいて行うことができる。当然ながら、かかる比較を行うためには、クエリベクトル47および文書ベクトル27の両方が同じベクトル空間、すなわち同じ次元によって定義されている空間に存在すべきである。これを実現するために、メモリコンポーネント20(図示せず)内に含まれるデータベースはタームベクトルを含み得る。タームベクトルは、データベース内に記憶された第1のテキスト文書すべてに存在する各タームまたはキーワードごとに、1つのコンポーネントまたは1つの次元を含み得る。次いでクエリベクトル47は、文書ベクトル27と同様に、タームベクトルの次元またはコンポーネントに対して、特定の文書内でそれぞれ、クエリ41に存在するキーワードまたはタームを示すことができる。このようにして、一意かつ一貫性のあるベクトル空間を生成することができる。これについては、上記で詳細に説明している。
【0084】
図1cは、ベクトル空間モデルの視覚化に関する一実施形態を概略的に示す。なお、この図は説明のみを目的としており、ベクトル空間モデルの数学的記述には当たらない。タームベクトル7を円として概略的に示している。タームベクトル7は、複数のキーワードまたはタームを含み得る。これらのキーワードまたはタームは、複数のテキスト文書から抽出することができる。好ましい実施形態では、タームベクトル7は、データベース内に収容されるすべてのテキスト文書からのすべてのキーワード(すなわち、第1のテキスト文書からのすべてのキーワード)を含む。図ではこれを大きな円で表している。クエリベクトル47は、クエリ41(ここでは図示せず)内のキーワードから生成することができる。なお、この概略図では、クエリベクトル47はタームベクトル7内に完全に含まれており、これは、クエリ41が含むすべてのキーワードはデータベースに収容される第1のテキスト文書内に含まれ、そこからタームベクトル7が生成されていることを示唆している。しかし、これに当てはまる必要はない。クエリ41が第1のテキスト文書内に含まれていないキーワードを含むことは十分にあり得、したがってクエリベクトル47は、タームベクトル7のキーワードによって生成されるベクトル空間内に完全に含まれる必要はない。しかし、これに当てはまる場合、タームベクトル7内に含まれていないクエリ41のキーワードは、第1のテキスト文書との類似性を何らもたらさないので、最も類似した第1のテキスト文書を検出する目的で、これらを無視することができる。したがって、タームベクトル7で提示済みのキーワードのみを使用して生成されたものとして、クエリベクトル47を見なすことができる。なお、キーワードの同義語も、意味的な類似性の比較に使用することができる。
【0085】
文書ベクトル27を、クエリベクトル47と交差するように図示している。これは、それらが同じキーワードおよび/またはそれらの同義語のいくつかを含んでいることを意味している。したがって、クエリベクトル47と文書ベクトル27との間に、ゼロでない類似性測度を生成することができる。しかし、クエリベクトル47と全く交差していないものとして、文書ベクトル27’を図示している。これは、クエリ41および文書ベクトル27’と関連付けられたテキスト文書が、キーワードまたはそれらの同義語を共有していないことを意味している。これは、クエリベクトル47および文書ベクトル27 ‘にヌル類似性測度が割り当てられることを意味し得る。
【0086】
図2は、本発明の一態様による、テキスト文書における類似性の意味的処理を行うための方法に関する一実施形態を概略的に示す。この図は、受信文書と記憶された文書の既存のプールまたはデータベースとを比較するステップを記載している、フローチャートを示す。
【0087】
例示的なシナリオとして、たとえば特許および/または特許出願書である可能性のある特定のテキストを有するユーザについて、考察されたい。このユーザは、いわゆる「先行技術調査」を必要としている。つまり、このユーザは、自身が有するテキストに近い内容の他の特許文書を取得または検出する必要がある。そこでユーザは、以下の方法で本発明を使用することができる。ユーザは、対象のテキスト文書を本システムに送信またはアップロードすることができる。これは、たとえばインターフェースを介して行うことができる。一実施形態では、本明細書に記載のシステムは、クエリを受信するためのアプリケーションベースまたはブラウザベースのインターフェースを備え得る。そこで、ユーザはインターフェースを使用して、本システムにクエリを送信することができ、その時点で以下のステップが発生し得る。
【0088】
S1では、受信したテキスト文書またはクエリを標準化することができる。つまり、誤字を訂正することができる。さらに、スペルを正規化することができる。たとえば、イギリス英語およびアメリカ英語のスペリング規則から1つの規則を選択でき、2つの規則で異なるすべての単語を選択した規則へと変換することができる。つまり、「colour(色)」、「theatre(劇場)」などの単語を、「color(色)」および「theater(劇場)」へと、あるいはその逆へと変換することができる。さらに、標準化するステップは、異なる物理単位を1つの標準的な単位、および/または1つの特定の単位へと変換することを含み得る。たとえば、インチはメートルに、またポンドはキログラムなどに変換することができる。さらに、標準化するステップは、化学式、遺伝子配列および/またはタンパク質表現などの式を標準表記へと変換することを含み得る。
【0089】
S2では、受信したテキスト文書を正規化することができる。これは、当該文書のテキストに含まれるストップワードを分離して、それらを除去することを含み得る。ストップワードは「そして」、「まず」、「しかし」などの単語を含み得る。ストップワードは、解析中のテキスト文書のタイプに固有のものである場合もある。たとえば特許文献は、ほとんどの特許テキスト文書に存在する「請求項」、「実施形態」、「装置」などの単語を含む。これらの単語を、正規化するステップ中に同様に識別し、かつ除去することができる。さらに、正規化するステップは、単語をそれらの語幹まで削減することを含み得る。つまり、「コンピュータ」および「コンピューティング」などの単語を、たとえばそれらの共通の語幹まで削減することができる。その後、同義語に関してこれらの語幹を解析することができる。さらに、正規化するステップ中に語列および複合語を識別することができる。つまり、「ペーパークリップ」などの単語を識別することができ、複合語の意味を保つようにするために、語幹処理を目的としてこれらを分離させない。
【0090】
S3では、まず標準化かつ/または正規化することができるテキスト文書を使用して、文書ベクトルを作成することができる。この文書ベクトルは、テキスト文書にどの「ターム」、すなわち単語の語幹およびその同義語が含まれているかに関する情報を含む、多次元ベクトルとすることができる。これについては、上記でさらに説明している。なお、いくつかの実施形態では、文書ベクトルはテンソルをさらに含み得る。
【0091】
S4では、生成された文書ベクトルを使用して、受信したテキスト文書と記憶されているテキスト文書との間の類似性測度を計算することができる。つまり、受信したテキスト文書、あるいはその文書ベクトルを、以前に文書ベクトルへと変換されたテキスト文書を含むデータベースと比較することができる。なお、異なる文書ベクトル間で比較を行うための共通のベースラインを得るべく、データベース内のテキスト文書すべてに含まれるすべての「ターム」(すなわち、単語および/または語幹および/または同義語)を含む、1つの「タームベクトル」を設けることができる。
【0092】
個々の文書ベクトルは、そこでタームベクトルに含まれるどのタームが所与の文書に存在しているかを単に示すことができる。次いで、タームベクトルは多次元ベクトル空間を定義することができ、そこでは各タームは1つの次元を含み得る。この多次元ベクトル空間内のドットまたはベクトルとして、各文書ベクトルを記述するか、または視覚化することができる。受信したテキスト文書から生成される文書ベクトルをデータベースに収容される各文書ベクトルと比較するために、それらの間の距離を計算することができる。 なお、ベクトル空間におけるベクトル間の距離を計算することは、受信した文書および記憶されているテキスト文書間の類似性測度を取得するための一方法または一部分であり得る。しかし、字句解析および/または意味解析に基づいて、これを行うための他の方法も存在し得る。また、類似性測度に含まれる別の変数も存在し得る。たとえば、キーワードが当該文書内に出現する頻度および/または当該文書の専門分野に基づくキーワードの重み付けは、そこで文書ベクトル内に組み込むことができ、したがって類似性測度においてある役割を果たすことになる。さらに、テキスト文書の文献変数を使用することができる。特許文献に関する特定の例では、これらはIPCクラス、CPCクラス、出願人、発明者、特許弁護士、引用、参考文献、共引用および共参照情報、画像情報を含み得る。
【0093】
S5では、類似性測度を出力することができる。たとえば、元の入力テキスト文書、またはクエリに対する類似性測度によって順位付けされた、いくつかのテキスト文書を出力することができる。アプリケーションおよび/またはブラウザのインターフェースに関する上記の所与の例に戻ると、同じインターフェースを介して類似性測度を出力することができる。つまり、たとえば最も類似した文書から始まるなど、特定の方法で順位付けされる形式で、受信したテキスト文書またはクエリに類似したテキスト文書のリストを、アプリケーションおよび/またはブラウザを介して表示することができる。なお、「類似性測度を出力する」ということは、本明細書では、クエリに最も類似していると判定された少なくとも1つまたは複数の文書を出力することを指し得る。
【0094】
特許請求の範囲を含む本明細書で使用する場合、文脈で別段指示しない限り、単数形の用語は複数形も含むと解釈すべきであり、逆もまた同様である。 したがって、本明細書で使用する場合、文脈で別段明確に指示しない限り、単数形「1つの(a)」、「1つの(an)」、および「前記(the)」は複数の言及を含むことに留意されたい。
【0095】
本明細書および特許請求の範囲を通して、「備える(comprise)」、「含む(including)」、「有する(having)」、および「包含する(contain)」という用語およびそれらの変形は、「~を含むがこれに限定されない(including but not limited to)」という意味であると理解すべきであり、他のコンポーネントを排除することを意図するものではない。
【0096】
用語、特徴、値、および範囲などが、約(about)、およそ(around)、概して(generally)、ほぼ(substantially)、本質的に(essentially)、少なくとも(at least)などの用語と併せて使用される場合、本発明は正確な用語、特徴、値および範囲なども包含している(すなわち、「約3(about 3)」は正確に3(exactly 3)をも包含しているか、または「ほぼ一定(substantially constant)」は正確に一定(exactly constant)をも包含しているものとする)。
【0097】
「少なくとも1つ(at least one)」という用語は「1または複数(one or more)」を意味していると理解すべきであり、したがって、1または複数のコンポーネントを含む両方の実施形態を含む。 さらに、「少なくとも1つ(at least one)」を有する特徴を述べている独立請求項を参照する従属請求項は、その特徴が「前記(the)」および「前記少なくとも1つ(the at least one)」として同時に言及される場合、同じ意味を有する。
【0098】
本発明の範囲内にありながら、本発明の前述の実施形態に対して変形をなすことができると理解されよう。 特段に明記しない限り、同一、同等、または類似の目的を果たす代替の特徴に、本明細書に開示している特徴を置き換えることができる。したがって、特段に明記しない限り、開示している各特徴は、一連の包括的な同等または類似の特徴の一例を表す。
【0099】
「例として(for instance)」、「など(such as)」、「たとえば(for example)」などの典型的な単語を使用することにより、単に本発明をより良好に例示することを意図しており、そのように主張しない限り、本発明の範囲に対する限定を示すものではない。 本明細書に記載しているあらゆるステップは、文脈で別段明確に指示しない限り、任意の順序で、または同時に行ってもよい。
【0100】
本明細書に開示しているすべての特徴および/またはステップは、少なくともいくつかの特徴および/またはステップが互いに排他的である組み合わせを除いて、任意の組み合わせで結合することができる。 とりわけ、本発明の好ましい特徴は本発明のすべての態様に適用することができ、また任意の組み合わせで使用することができる。