(58)【調査した分野】(Int.Cl.,DB名)
ノードにより、抽出された特徴に一致する候補レコードの各々を比較し、及びノードにより、その比較に基づいて前記抽出された特徴の各々に重み付けされた一致スコア結果を指定する、ことを更に含む、請求項1に記載の方法。
特徴属性は、トピックID、ドキュメント識別子(ドキュメントID)、特徴タイプ、特徴名、信頼性スコア、及び特徴位置より成るグループから選択される、請求項7に記載の方法。
ノードのリンクオンザフライモジュールにより、関連トピックIDの共起及び1つ以上の特徴属性に基づいて2つ以上のデータソースをリンクすることを更に含む、請求項7に記載の方法。
ノードにより、データソースにおける抽出された特徴が第2データソースにおいて共起するかどうかを、その抽出された特徴を第2データソースにおける特徴と比較することで決定し、及び
ノードにより、前期比較に基づいてデータソースの各々をリンクする、
ことを更に含む、請求項1に記載の方法。
前記インストラクションは、更に、ノードにより、抽出された特徴に一致する候補レコードの各々を比較し、及びノードにより、その比較に基づいて前記抽出された特徴の各々に重み付けされた一致スコア結果を指定する、ことを含む、請求項15に記載の非一時的コンピュータ読み取り可能な媒体。
前記インストラクションは、更に、ノードにより、抽出された特徴の各々を、重み付けされた特徴属性のセットに関連付けることを含む、請求項16に記載の非一時的コンピュータ読み取り可能な媒体。
前記インストラクションは、更に、ノードにより、1つ以上の重み付けされた特徴属性に基づいて抽出された特徴の各々の関連度を決定することを含む、請求項17に記載の非一時的コンピュータ読み取り可能な媒体。
前記インストラクションは、更に、ノードの抽出モジュールにより、各特徴に抽出確度スコアを指定することを含む、請求項19に記載の非一時的コンピュータ読み取り可能な媒体。
【発明を実施するための形態】
【0015】
定義
ここで使用する次の用語は、次のような定義を有する。
【0016】
「ドキュメント」は、出発点及び終了点を有する情報の個別の電子的表現を指す。
【0017】
「マルチドキュメント」は、トークン、異なる形式の名前付きエンティティ、及び個別の「bag-of-surface-forms」コンポーネントに編成されるキーフレーズを伴うドキュメントを指す。
【0018】
「データベース」は、1つ以上の集合体を記憶するのに適し且つ1つ以上の質問を処理するのに適したクラスター及びモジュールの組み合わせを含むシステムを指す。
【0019】
「コーパス」は、1つ以上のドキュメントの集合体を指す。
【0020】
「生のコーパス」又は「ドキュメントストリーム」は、新たなドキュメントがネットワークにアップロードされるときに恒常的に供給されるコーパスを指す。
【0021】
「特徴(Features)」は、ドキュメントから少なくとも一部分導出される情報である。
【0022】
「特徴属性」は、特徴に関連したメタデータ、例えば、とりわけ、ドキュメントにおける特徴の位置、信頼スコアを指す。
【0023】
「クラスター」は、特徴の集合体を指す。
【0024】
「エンティティ知識ベース」は、特徴/エンティティを含むベースを指す。
【0025】
「リンクオンザフライモジュール」又は「リンクOTF」は、生のコーパスが更新されるにつれてデータを更新するリンキングモジュールを指す。
【0026】
「メモリ」は、充分に高い速度で情報を記憶し且つその情報を検索するのに適したハードウェアコンポーネントを指す。
【0027】
「モジュール」は、1つ以上の定義されたタスクを実行するのに適したコンピュータソフトウェアコンポーネントを指す。
【0028】
「センチメント(Sentiment)」は、ドキュメント、ドキュメントの一部分、又は特徴に関連した客観的評価を指す。
【0029】
「トピック」は、コーパスから少なくとも一部分導出されるセマティック情報のセットを指す。
【0030】
「トピック識別子」又は「トピックID」は、トピックの特定インスタンスを指す識別子である。
【0031】
「トピック集合体」は、コーパスから導出されるトピックの特定セットを指し、各トピックは、独特の識別子(独特のID)を有する。
【0032】
「トピック分類」は、特定のトピック識別子をドキュメントの特徴として指定することを指す。
【0033】
「質問」は、1つ以上の適当なデータベースから情報を検索するための要求を指す。
【0034】
詳細な説明
添付図面に各々示された好ましい実施形態を以下に詳細に説明する。上述した実施形態は、例示に過ぎない。当業者であれば、ここに述べる特定の実施例について、本発明の範囲内で、多数の別のコンポーネント及び実施形態に置き換えできることが認識されよう。
【0035】
本開示は、非構造化テキストにおける特徴を曖昧性除去する方法について述べる。規範的な実施形態は、本開示に従って特徴を曖昧性除去する慣習について述べるが、ここに述べるシステム及び方法は、本開示の範囲内で適当に使用するように構成できることが意図される。
【0036】
既存の知識ベースは、曖昧さのない特徴及びそれに関連した特徴を含み、これは、信頼性の低いテキスト分析を招く。本開示の観点は、特徴及びエンティティの曖昧性除去精度を高め、それ故、テキスト分析の精度を高める。
【0037】
一実施形態によれば、特徴を曖昧性除去するここに開示する方法は、初期データコーパスに使用されて、ドキュメント取り込み及び特徴抽出を遂行し、初期コーパスに含まれた各ドキュメントに対してトピック分類及び他のテキスト分析を行えるようにする。各特徴は、とりわけ、ドキュメントの名前、タイプ、位置情報、及び信頼性スコアとして識別されそして記録される。
【0038】
図1は、非構造化テキストにおける特徴を曖昧性除去する複数のステップを示す方法100のフローチャートである。一実施形態によれば、特徴曖昧性除去方法100は、既存の知識ベースにおいて新たなドキュメント入力ステップ102が実行されるときに開始する。ドキュメントに対して特徴抽出ステップ104が遂行される。一実施形態によれば、特徴は、とりわけ、トピック識別子(トピックID)、ドキュメント識別子(ドキュメントID)、特徴のタイプ、特徴の名前、信頼性スコア及び特徴の位置のような異なる特徴属性に関連している。
【0039】
種々の実施形態によれば、ステップ102のドキュメント入力は、大量コーパス又は生のコーパス(インターネット又はネットワーク接続のコーパスのような)から供給され、これは、次いで、毎秒供給される。
【0040】
異なる実施形態によれば、特徴抽出ステップ104の間に、ドキュメント入力ステップ102の非構造化テキストを分析するために1つ以上の特徴確認及び抽出アルゴリズムが使用される。抽出された各特徴にスコアが指定される。そのスコアは、正しい属性で正しく抽出される特徴の確度レベルを指示する。
【0041】
加えて、特徴抽出ステップ104の間に、ステップ102のドキュメント入力から1つ以上の一次特徴が識別される。各一次特徴は、特徴属性のセット及び1つ以上の二次特徴に関連付けられる。各二次特徴は、特徴属性のセットに関連付けられる。ある実施形態では、1つ以上の二次特徴は、特徴属性のそれ自身のセットを各々有する1つ以上の三次特徴を有する。
【0042】
特徴属性を考慮して、ステップ102のドキュメント入力内の各特徴の相対的重み又は関連度が決定される。加えて、重み付けされたスコア付けモデルを使用して、特徴と特徴との間の関連付けの関連度が決定される。
【0043】
特徴抽出ステップ104に続いて、ステップ102のドキュメント入力から抽出された特徴及びそれに関連した全ての情報は、ステップ106においてMemDBに特徴を含ませる間に、特徴曖昧性除去要求ステップ108の一部分として、インメモリデータベース(MemDB)にロードされる。
【0044】
一実施形態では、MemDBは、
図1から8に関連して述べるステップを実行する1つ以上のプロセッサを有する曖昧性除去コンピュータサーバー環境の一部分を形成する。ある実施形態では、MemDBは、1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去サブモジュールを含むコンピュータモジュールである。1つのサーチコントローラが1つ以上のサーチノードに選択的に関連付けられる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをそれに関連したサーチコントローラへ返送することができる。
【0045】
特徴の曖昧性除去ステップ108は、MemDB内の曖昧性除去サブモジュールにより遂行される。特徴の曖昧性除去108プロセスは、マシンで発生されるトピックIDを含み、これは、特徴、ドキュメント、又はコーパスを分類するのに使用される。個々の特徴及び特定のトピックIDの関連度は、曖昧性除去アルゴリズムを使用して決定される。あるドキュメントにおいて、そのドキュメント内の特徴の異なる発生のコンテキストに基づき、1つ以上のトピックIDに同じ特徴が関連付けられる。
【0046】
あるドキュメントから抽出された特徴(同じトピック、接近用語及びエンティティ、キーフレーズ、イベント及びファクト)のセットは、異なるドキュメントにわたる2つ以上の特徴が単一の特徴である場合、又はそれらが別々の特徴である場合に、ある精度レベルで定義する曖昧性除去アルゴリズムを使用して、他のドキュメントからの特徴のセットと比較される。ある例では、データベースにおけるドキュメントの集合体にわたる2つ以上の特徴の共起を分析して、特徴曖昧性除去プロセス108の精度を改善する。ある実施形態では、全体的スコア付けアルゴリズムを使用して、特徴が同じである確率を決定する。
【0047】
ある実施形態では、特徴曖昧性除去プロセス108の一部分として、MemDB内に知識ベースが発生される。この知識ベースは、関連する曖昧性除去された一次特徴及びそれに関連する二次特徴のクラスターを一時的に記憶するのに使用される。新たなドキュメントがMemDBにロードされたときに、曖昧性除去された新たな特徴セットを既存の知識ベースと比較し、特徴と特徴との関係を決定し、そして新たな特徴と既に抽出された特徴との間に一致があるかどうか決定する。
【0048】
比較された特徴が一致する場合には、知識ベースが更新され、一致する特徴の特徴IDがユーザ及び/又は要求側アプリケーション又はプロセスへ返送され、そして更に、一致の頻度に基づいて目立った手段を特徴IDと共に取り付けることができ、これは、所与のコーパスにおいてその人気指数を捕らえるものである。比較された特徴が既に抽出された特徴のいずれとも一致しない場合には、曖昧性除去されたエンティティ又は特徴に独特の特徴IDが指定され、その独特の特徴IDは、特徴を定義するクラスターに関連付けられそしてMemDBの知識ベース内に記憶される。その後、ステップ110において、曖昧性除去された特徴の特徴IDがシステムインターフェイスを通してソースへ返送される。ある実施形態では、曖昧性除去された特徴の特徴IDは、二次特徴、特徴のクラスター、関連特徴属性、又は他の要求データを含む。特徴曖昧性除去ステップ108に対して使用される曖昧性除去サブモジュールを、
図2について以下に詳細に述べる。
【0049】
曖昧性除去サブモジュール
図2は、一実施形態により、方法100(
図1)の特徴曖昧性除去ステップ108の非構造化テキストに使用される曖昧性除去サブモジュールにより遂行されるプロセス200のフローチャートである。曖昧性除去プロセス200は、
図1のステップ106においてMemDBに特徴を含ませた後に始まる。ステップ202において与えられる抽出された特徴は、ステップ204において候補サーチを遂行するのに使用され、抽出された特徴についてのサーチは、共起特徴を含めて全ての候補レコードを通して遂行される。
【0050】
種々の実施形態によれば、候補は、特徴の曖昧性除去プロセス108に使用される関連二次特徴のセットを伴う一次特徴である。
【0051】
曖昧性除去結果は、トピックIDの共起とトピックIDの中の関連度とにより改善される。トピックIDの関連度は、異なるトピックモデルにわたるものであっても、トピックIDが指定された大きなコーパスから発見することができる。関連トピックIDをレコードリンケージステップ206の間に使用して、厳密なトピックIDを含まないが1つ以上の関連トピックIDを含むドキュメントへのリンケージを与えることができる。この解決策は、レコードリンケージステップ206に含まれるべき関連特徴のリコールを改善し、そしてあるケースでは、曖昧性除去結果を改善する。
【0052】
潜在的に関連するドキュメントのセットが識別され、そしてそれらのドキュメント内の関連する一次及び二次特徴が抽出されると、特徴の属性、同じドキュメント(意義のあるコンテキスト)の特徴と特徴との間の関係、特徴の相対的重み、及び他の変数をレコードリンケージプロセス206の間に使用して、それらのドキュメントにわたる一次及び二次特徴を曖昧性除去する。次いで、各レコードを他のレコードにリンクして、曖昧性除去された一次特徴及びそれらの関連する二次特徴のクラスターを決定する。レコードリンケージ206に使用されるアルゴリズムは、マイニング非構造化データセットのスペルエラー又は翻字及び他の課題を克服することができる。
【0053】
クラスター比較ステップ208は、比較的一致するスコアを、曖昧性除去された特徴のクラスターに指定することを含み、異なるアプリケーションに対して異なる受け容れスレッシュホールドが定義される。定義された精度レベルは、どのスコアが肯定的一致サーチと考えられそしてどのスコアが否定的一致サーチと考えられるか決定する(ステップ210)。各新たなクラスターは、独特のIDが与えられ、そして知識ベースに一時的に記憶される。各新たなクラスターは、曖昧性除去された新たな一次特徴及び二次特徴のセットを含む。新たなクラスターが、知識ベースに既に記憶されているクラスターに一致する場合には、システムは、ステップ212において知識ベースを更新し、そしてユーザ及び/又は要求側アプリケーション又はプロセスへの一致特徴IDの返送がステップ214において遂行される。知識ベースの更新212は、1つの一次特徴への付加的な二次特徴の関連付け、或いは一次又は二次特徴に以前に関連付けされていない特徴属性の追加を意味する。
【0054】
評価されているクラスターに、肯定的一致サーチ210のスレッシュホールドより低いスコアが指定された場合には、システムは、ステップ216において、クラスターの一次特徴に独特のID指定を遂行し、そしてステップ212において、知識ベースを更新する。その後、システムは、一致ID返送プロセス214を遂行する。レコードリンケージステップ206は、
図3を参照して更に詳細に説明する。
【0055】
リンクオンザフライサブモジュール
図3は、一実施形態により、特徴を曖昧性除去する方法100に使用されるリンクオンザフライ(リンクOTF)サブモジュールにより遂行されるプロセス300のフローチャートである。リンクOTFプロセス300は、情報のフィードを定常的に評価し、スコア付けし、リンクし、そしてクラスター化することができる。リンクOTFサブモジュールは、複数のアルゴリズムを使用してレコードリンケージ206を遂行する。ステップ204の候補サーチ結果は、リンクOTFモジュール300へ定常的にフィードされる。データの入力に続いて、一致スコア付けアルゴリズムが適用され(ステップ302)、ここでは、1つ以上の一致スコア付けアルゴリズムがMemDBの複数のサーチノードに同時に適用される一方、とりわけ、ストリンク編集距離、表音及び意味のような複数の特徴属性を考慮して、関連する結果を評価及びスコア付けするために曖昧キーサーチを遂行する。
【0056】
その後、一致スコア付けアルゴリズム適用ステップ302の間に識別された全ての候補レコードを互いに比較するために、リンキングアルゴリズムの適用ステップ304が追加される。リンキングアルゴリズムの適用304は、MemDBの複数のサーチノードの内部で遂行される曖昧キーサーチのスコア付けされた結果をフィルタリング及び評価できる1つ以上の分析リンキングアルゴリズムの使用を含む。ある例では、MemDBにおける識別された候補レコードの集合体にわたる2つ以上の特徴の共起を分析して、プロセスの精度を改善する。リンキングアルゴリズムの適用304には、異なる特徴属性に関連した異なる重み付けモデル及び信頼性スコアが考慮される。
【0057】
リンキングアルゴリズムの適用ステップ304の後に、リンクされた結果が関連特徴のクラスターに配置され、そしてステップ306において、リンクされたレコードのクラスターの返送の一部分として返送される。
【0058】
図4は、
図1を参照して上述した非構造化テキストにおいて特徴を曖昧性除去するシステム400の一実施形態を例示する図である。このシステム400は、インメモリデータベースをホストし、そして1つ以上のノードを含む。
【0059】
一実施形態によれば、システム400は、1つ以上のドキュメント内の特徴を曖昧性除去するため複数の特殊目的コンピュータモジュール401、402、411、412及び414(以下に述べる)のコンピュータインストラクションを実行する1つ以上のプロセッサを備えている。
図4に示すように、ドキュメント入力モジュール401、402は、インターネットベースのソース及び/又はドキュメントの生のコーパスからドキュメントを受け取る。多数の新たなドキュメントがネットワーク接続404を通してドキュメント入力モジュール402へアップロードされる。それ故、ソースは、常時、新たな知識を得て、ユーザワークステーション406により更新され、そのような新たな知識は、スタティックな仕方で予めリンクされない。従って、評価されるべきドキュメントの数は、無限に増加する。
【0060】
この評価は、MemDBコンピュータ408を経て達成される。MemDB408は、高速の曖昧性除去プロセスを促進し、曖昧性除去プロセスをオンザフライで促進し、これは、MemDB408に貢献しようとする最新情報の受信を促進する。特徴をリンクするための種々の方法が使用され、これは、重み付けされたモデルを本質的に使用して、どのエンティティタイプが最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出及び曖昧性除去がどれほどの信頼性で遂行されたか決定し、且つ正しい特徴が結果の特徴クラスターに向かうことを決定する。
図4に示すように、より多くのシステムノードが並列に機能するほど、プロセスは、より効率的となる。
【0061】
種々の実施形態によれば、新たなドキュメントがドキュメント入力モジュール401、402を経てネットワーク接続404を通してシステム400に到着するとき、特徴抽出が抽出モジュール411を経て遂行され、次いで、特徴の曖昧性除去が新たなドキュメントにおいてMemDB408の特徴曖昧性除去サブモジュール414を経て遂行される。ある実施形態では、新たなドキュメントの特徴曖昧性除去が遂行された後に、抽出された新たな特徴410は、リンクOTFサブモジュール412を通過するためにMemDBに含まれ、ここで、特徴は、比較され及びリンクされ、そして曖昧性除去された特徴110の特徴IDが質問からの結果としてユーザに返送される。特徴IDに加えて、曖昧性除去された特徴を定義する結果の特徴クラスターが任意に返送されてもよい。
【0062】
MemDBコンピュータ408は、装置メインメモリにデータレコードを記憶するように構成されたデータベースマネージメントシステム(DBMS)(図示せず)により制御されるレコードにデータを記憶するデータベースであり、これは、データを「ディスク」メモリに記憶する従来のデータベース及びDBMSモジュールと対照的である。従来のディスクストレージは、装置のハードディスクへの読み取り及び書き込みコマンドをプロセッサ(CPU)が実行することを要求し、従って、CPUがデータのためのメモリ位置を位置付け(即ち、シークし)及び検索するインストラクションを実行した後に、そのメモリ位置におけるデータとのある形式のオペレーションを遂行することを要求する。インメモリデータベースシステムは、メインメモリに入れられて適宜にアドレスされるデータにアクセスし、従って、CPUにより遂行されるインストラクションの数を軽減し、そしてハードディスクのデータをCPUがシークするのに関連したシークタイムを排除する。
【0063】
インメモリデータベースは、ノードの各リソース(例えば、メモリ、ディスク、プロセッサ)をアグリゲートするように構成された1つ以上のノードを含むコンピューティングシステムである分散型コンピューティングアーキテクチャーにおいて実施される。ここに開示されるように、インメモリデータベースをホストするコンピューティングシステムの実施形態は、1つ以上のノードの間でデータベースのデータレコードを分散しそして記憶する。ある実施形態では、これらのノードは、ノードの「クラスター」へと形成される。ある実施形態では、ノードのこれらクラスターは、データベース情報の部分又は「集合体」を記憶する。
【0064】
種々の実施形態は、共起トピック、キーフレーズ、接近用語、イベント、ファクト及びトレンド人気指数のような二次特徴を記憶するように構成された進化する効率的にリンク可能な特徴知識ベースを使用するコンピュータ実行の特徴曖昧性除去技術を提供する。ここに開示する実施形態は、知識ベースに記憶された特徴に対して所与の抽出特徴を分析する上で役立つ関連二次特徴の次元に基づいて簡単な概念的距離尺度から精巧なグラフクラスター化解決策まで変化し得る種々様々なリンキングアルゴリズムを経て遂行される。加えて、それらの実施形態は、既存の特徴エントリの二次特徴を更新するだけでなく、知識ベースに追加できる新たな特徴を発見することでそれを拡張もする能力により既存の特徴知識ベースを進化させる解決策を導入することができる。
【0065】
曖昧性除去解決策の実施形態は、トピックモデリング解決策を使用して、トピック推論としてモデリングされる自動重み付け(全ての二次特徴にわたる)リンキングプロセスを提供する。この自動重み付け型リンキングプロセスをサポートするため、それら実施形態は、多数のコンポーネント(二次特徴)を条件独立としてサポートできるマルチコンポーネントLDA(MC−LDA)と称される新規なトピックモデリング解決策を構築するように従来のLDAトピックモデリングを拡張する。又、モデリング解決策の実施形態は、トレーニング中にコンポーネントの重みを自動的に学習し、そしてそれを曖昧性除去に関する推論(リンキング)のために使用することができる。曖昧性除去のために導入されるMC−LDA解決策は、曖昧性除去精度を高めるために導入できる付加的な数の二次特徴のためにスケーリングすることができる。
【0066】
図5は、上述した
図4のシステム400によって使用されるマルチコンポーネント条件独立のレイテントディリクレアロケーション(MC−LDA)トピックコンピュータモデリング解決策の実施形態のグラフィック表示である。ここに示す実施形態では、各コンポーネントブロックは、例えば、
図5に示すパラメータで初期化される
図4のMemDB408を経て実行される、知識ベースにわたる各二次特徴のモデリングを表す。
【0067】
図6は、上述した
図5に使用されるMC−LDAトピックモデルのギブスサンプリング方程式の実施形態を示す。このサンプリング解決策の実施形態は、個々のコンポーネント(二次特徴)の重みを自動的に且つ効率的にトレーニングする上で
図4のシステム400の助けとなる。
【0068】
図7は、例えば、
図7に示すパラメータで初期化される
図4のシステム400のMemDB408を経て実行される、
図5−6のMC−LDAトピックモデルにおけるトレーニング及び推論のための確率論的変化推論アルゴリズムのコンピュータ実行の実施形態を示す。この推論方法の実施形態は、全ての二次特徴(当該ドキュメントから抽出された)を入力として取り上げそして重み付けされたトピックを出力として与えることにより、リンキング/曖昧性除去プロセスをトピック推論としてモデリングするように容易に適用される。これらの重み付けされたトピックは、次いで、記憶された特徴知識ベースエントリに対して類似性スコアを計算するのに使用できる。
【0069】
図8は、MC−LDAトピックモデルに対するサンプルトピックを示すテーブルである。
図8は、一実施形態により、例えば、
図4のシステム400のMemDB408を経て実行される、モデルの各コンポーネントに対するトップスコア付け表面フォームを示す。
【0070】
例#1は、当該特徴(一次特徴)がフットボール選手のJohn DoeでありそしてユーザがJohn Doeについて言及するニュースの監視を希望する場合に、非構造化テキストにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、John Doeについて述べるドキュメント入力102がネットワークにアップロードされる。ドキュメント入力102の特徴が抽出されて、MemDB408に含まれ、曖昧性除去されて、一次特徴(John Doe)に関連した二次特徴のクラスターにリンクされ、そして同様の特徴の既存のクラスターと比較される。方法100は、異なる特徴ID及び特徴IDの関連クラスターを出力し、これは、John Doeに対する全ての関連二次特徴、例えば、エンジニアのJohn Doe;教師のJohn Doe;及びフットボール選手のJohn Doe;を含む。同様の二次特徴を伴う他の一次特徴、例えば、ニックネーム又は省略名が考えられる。フットボール選手のJohn Doeと同じチームから、同じ年齢及び経験の「JD」フットボール選手は、同じ一次特徴と考えられる。それ故、フットボール選手のJohn Doeに関連した全てのドキュメントは、容易にアクセスすることができる。
【0071】
例#2は、一次特徴が画像である場合に、非構造化ドキュメントにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、方法100は、特徴の抽出104を含み、ここで、特徴は、とりわけ、縁及び形状のような一般的な属性であるか、或いはとりわけ、タンク、個人及び時計のような特定の属性である。例えば、新たな画像が入力され、ここで、画像は、特定の形状(例えば、方形、個人又は車の形状)のような二次特徴を有し、二次特徴が抽出されてMemDB408に含まれ、ここで、同様の二次特徴を有する他の全ての画像の間で一致が見出される。ここに示す実施形態によれば、特徴は、画像のみを含み、即ちテキストは、特徴として含まれない。
【0072】
例#3は、一次特徴がイベントである場合に、非構造化テキストにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、質問がなされたときに、方法100は、ユーザが、とりわけ、地震、火災、又は伝染病の発生のようなイベントに関連した結果を受け取ることができるようにする。方法100は、特徴の抽出104及び特徴の曖昧性除去108を遂行して、イベントに関連した特徴を見出すと共に、曖昧性除去された特徴110の特徴IDを与える。
【0073】
例#4は、1つ以上のイベントの発生の予想がなされる場合の方法100の実施形態である。ある実施形態によれば、ユーザは、オペレーションの前に当該特徴及びイベントを前もって指示し、それ故、当該イベントに関連した異なる特徴間のリンクが前もって確立される。関連特徴が高い発生数でネットワークに現われるとき、方法100は、関連特徴の発生数増加に基づいて、当該事象が発生することを予想する。切迫したイベントが検出されると、ユーザに警報が送られる。例えば、タイからの保健省に対して仕事をするユーザは、デング熱の伝染病発生についての警報を受け取ることを選択する。例えば、ソーシャルネットワークからの他のユーザ406がデング熱の兆候又は包括を含めたコメントを病院へアップロードするとき、方法100は、ソーシャルネットワークからの全ての関連コメントを曖昧性除去し、そして関連情報を含めたユーザ406の数を考慮して、デング熱の伝染病発生が生じることを予想し、保健省の職員に警報する。それ故、保健省の職員は、付加的な形跡を得て、影響のある共同体への更なる対策を取り、伝染病が広がらないようにする。
【0074】
例#5は、一次特徴が地理的な場所の名前である場合の方法100の適用である。一実施形態によれば、方法100は、都市の名前を曖昧性除去するのに使用され、曖昧性除去サブモジュールにおいて二次特徴に異なるスコア付け重みが関連付けられる。例えば、方法100は、Paris、TexasをParis、Franceから曖昧性除去するのに使用される。
【0075】
例#6は、一次特徴が、とりわけ、個人、イベント、又は会社に関連した感情であり、その感情が、とりわけ、個人、イベント、又は会社に関する肯定的又は否定的コメントであって、ソーシャルネットワークを含む適当なソースから供給される場合に、非構造化テキストにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、方法100は、会社が一般大衆の中で有している容認性を確認するために使用される。
【0076】
例#7は、特徴の信頼性スコアを高めるために人間の確認を含む方法100の実施形態である。ある実施形態によれば、リンクOTFプロセス300(
図4)は、ユーザにより支援され、ユーザは、曖昧性除去された特徴が正しく曖昧性除去されたかどうか指示し、そして2つの異なるクラスターが1つでなければならないかどうか指示し、これは、ユーザが知っている2つの異なる一次特徴が同じであるときに方法100が(全ての特徴及びトピック共起情報を考慮して)何を指示するかを意味する。それ故、そのクラスターに関連した信頼性スコアが高くなり、従って、特徴が正しく曖昧性除去されたという確率が高くなる。
【0077】
例#8は、曖昧性除去プロセス200及びリンクOTFプロセス300を使用する方法100の実施形態である。この例では、リンキングアルゴリズムの適用304に使用されるリンキングアルゴリズムは、1000msの期間内に0.85より高い信頼性スコアを与えるように構成される。
【0078】
例#9は、曖昧性除去プロセス200及びリンクOTFプロセス300を使用する方法100の実施形態である。この例では、リンキングアルゴリズムの適用304に使用されるリンキングアルゴリズムは、300ms以下の期間内に0.80より高い信頼性スコアを与えるように構成される。この例に使用されるアルゴリズムは、例#8に使用されるアルゴリズムに比して短い期間内に応答を与えるが、一般的に、低い信頼性スコアを返送する。
【0079】
例#10は、曖昧性除去プロセス200及びリンクOTFプロセス300を使用する方法100の実施形態である。この例では、リンキングアルゴリズムの適用304に使用されるリンキングアルゴリズムは、一般的に3000msを越える期間内に0.90より高い信頼性スコアを与えるように構成される。この例に使用されるアルゴリズムは、例#8に使用されるアルゴリズムにより返送されるものより一般的に大きな信頼性スコアをもつ応答を与えるが、著しく長い期間を一般的に要求する。
【0080】
例#11は、複数のソースからのドキュメントの大きなコーパスにおいてeディスカバリーを遂行するために非構造化テキストにおける特徴を曖昧性除去する方法100の一例である。複数のリソースからのドキュメントの大きなコーパスが与えられると、それらドキュメントにおける全ての特徴を曖昧性除去するための方法100の適用は、コーパスにおいて全ての特徴を発見できるようにする。発見された特徴の集合体は、特徴に関連した全てのドキュメントの発見及び関連特徴の発見に更に使用することができる。
【0081】
以上の方法の説明及びプロセスフロー図は、単なる例示として示されたもので、種々の実施形態のステップを、提示した順序で遂行しなければならないことを要求し又は意味することは意図されない。当業者に明らかなように、前記実施形態におけるステップは、任意の順序で遂行されてもよい。「次いで(then)」、「次に(next)」、等のワードは、ステップの順序を限定するものではなく、これらのワードは、単に、方法の説明を通して読者を誘導するのに使用されるだけである。プロセスフロー図は、オペレーションを一連のプロセスとして示すが、多数のオペレーションを並列に又は同時に遂行することもできる。加えて、オペレーションの順序は、再構成してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラム、等に対応する。プロセスが機能に対応するとき、その終了は、コーリング機能又はメイン機能への機能の復帰に対応する。
【0082】
ここに開示する実施形態に関連して述べた種々の例示的論理ブロック、モジュール、回路及びアルゴリズムステップは、電子的ハードウェア、コンピュータソフトウェア又はその両方の組み合わせとして具現化されてもよい。ハードウェア及びソフトウェアのこの互換性を明確に示すために、種々の例示的コンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能に関して一般的に説明された。そのような機能がハードウェアとして具現化されるかソフトウェアとして具現化されるかは、システム全体に課せられる特定アプリケーション及び設計上の制約に依存する。当業者であれば、ここに述べた機能を特定アプリケーションごとに色々な仕方で具現化できるが、そのような具現化の判断は、本発明の範囲から逸脱すると解釈されてはならない。
【0083】
コンピュータソフトウェアで具現化される実施形態は、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はその組み合わせで具現化される。コードセグメント又はマシン実行可能なインストラクションは、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、或いはインストラクション、データ構造体又はプログラムステートメントの組合せを表わす。コードセグメントは、情報、データ、アーギュメント、パラメータ又はメモリコンテンツを通し及び/又は受け取ることにより別のコードセグメント又はハードウェア回路に結合される。情報、アーギュメント、パラメータ、データ、等は、メモリ共有、メッセージ通過、トークン通過、ネットワーク送信、等を含む適当な手段を経て通され、転送され又は送信される。
【0084】
これらのシステム及び方法を実施するのに使用される実際のソフトウェアコード又は特殊な制御ハードウェアは、本発明を限定するものではない。従って、システム及び方法のオペレーション及び振舞いは、ここでの記載に基づいてシステム及び方法を実施するようにソフトウェア及び制御ハードウェアを設計できることを理解して、特定のソフトウェアコードを参照せずに説明した。
【0085】
ソフトウェアで実施されるときに、機能は、非一時的コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に1つ以上のインストラクション又はコードとして記憶される。ここに開示する方法又はアルゴリズムのステップは、コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に存在するプロセッサ実行可能なソフトウェアモジュールにおいて実施される。非一時的なコンピュータ読み取り可能な又はプロセッサ読み取り可能な媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にするコンピュータストレージ媒体及び有形のストレージ媒体の両方を含む。非一時的なプロセッサ読み取り可能なストレージ媒体は、コンピュータによりアクセスされる利用可能な媒体である。これに限定されないが、一例として、そのような非一時的なプロセッサ読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM又は他の光学ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージ装置、或いはインストラクション又はデータ構造体の形態で望ましいプログラムコードを記憶するのに使用され且つコンピュータ又はプロセッサによりアクセスされる他の有形のストレージ媒体を含む。ここで使用するディスク(disk & disc)とは、コンパクトディスク(CD)、レーザーディスク(登録商標)、光学ディスク、デジタル多様性ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ここで、ディスク(disk)は、通常、データを磁気的に再生するものであり、一方、ディスク(disc)は、データをレーザで光学的に再生するものである。前記の組み合わせも、コンピュータ読み取り可能な媒体の範囲内に包含される。加えて、方法又はアルゴリズムのオペレーションは、コンピュータプログラム製品に合体される非一時的プロセッサ読み取り可能な媒体及び/又はコンピュータ読み取り可能な媒体にコード及び/又はインストラクションの1つ又は組み合わせ或いはセットとして存在する。
【0086】
技術の種々のコンポーネントは、分散型ネットワーク及び/又はインターネットの遠隔部分に、或いは専用のセキュア、アンセキュア及び/又は暗号化システム内に配置できることが明らかである。従って、システムのコンポーネントは、1つ以上の装置に結合するか、又はテレコミュニケーションネットワークのような分散型ネットワークの特定ノードに共通配置できることが明らかである。以上の説明から明らかなように、計算効率の理由で、システムのコンポーネントは、システムのオペレーションに影響することなく、分散型ネットワーク内の任意の位置に配置することができる。更に、それらのコンポーネントは、専用マシンに埋め込むこともできる。
【0087】
更に、エレメントを接続する種々のリンクは、ワイヤード又はワイヤレスリンク又はその組み合わせ、或いは接続されたエレメントへ及びそこからデータを供給及び/又は通信することのできる他の既知の又は今後開発されるエレメントであることが明らかである。ここで使用するモジュールという語は、エレメントに関連した機能を遂行できる既知の又は今後開発されるハードウェア、ソフトウェア、ファームウェア、又はその組み合わせを指す。又、ここで使用する決定、計算及びコンピューティング、並びにその変形の語は、交換可能に使用され、そして任意のタイプの方法、プロセス、数学演算又は技術を包含する。
【0088】
ここに開示する実施形態の前記説明は、当業者が本発明を実施又は利用できるようにするためになされたものである。これら実施形態に対する種々の変更は、当業者に容易に明らかであり、そしてここに定義する一般的な原理は、本発明の精神又は範囲から逸脱せずに他の実施形態に適用される。従って、本発明は、ここに示す実施形態に限定されるものではなく、特許請求の範囲並びにここに開示した原理及び新規な特徴に一致する最も広い範囲と調和されるべきである。
【0089】
以上に述べた実施形態は、例示に過ぎない。当業者であれば、ここに述べた特定例に対して置き換えられ且つ依然として本発明の範囲内に入る多数の代替的コンポーネント及び実施形態が認識されよう。