IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許74967742ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム
<>
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図1
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図2
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図3
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図4
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図5
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図6
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図7
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図8
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図9
  • 特許-2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-30
(45)【発行日】2024-06-07
(54)【発明の名称】2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240531BHJP
   G06F 40/216 20200101ALI20240531BHJP
【FI】
G06F16/35
G06F40/216
【請求項の数】 14
(21)【出願番号】P 2020533829
(86)(22)【出願日】2018-12-12
(65)【公表番号】
(43)【公表日】2021-02-25
(86)【国際出願番号】 IB2018059906
(87)【国際公開番号】W WO2019123113
(87)【国際公開日】2019-06-27
【審査請求日】2021-05-25
【審判番号】
【審判請求日】2023-08-25
(31)【優先権主張番号】15/845,023
(32)【優先日】2017-12-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】福田 剛志
(72)【発明者】
【氏名】菊地 弘晶
(72)【発明者】
【氏名】四倉 晋平
【合議体】
【審判長】吉田 美彦
【審判官】林 毅
【審判官】大塚 俊範
(56)【参考文献】
【文献】特開2009-93650(JP,A)
【文献】米国特許出願公開第2017/0004208(US,A1)
【文献】国際公開第2015/140492(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F16/35
G06F40/216
(57)【特許請求の範囲】
【請求項1】
コンピュータの情報処理により実行される、ファセットに基づいたテキスト・マイニングによって複数の文書における非構造化データを分析する方法であって、
記複数の文書のセット内の前記文書と関連付けられた複数のファセットを判断するために、ファセット統計量を計算し、計算したファセット統計量に基づいて前記セットを絞り込む処理を繰り返すことと、
絞り込まれた記複数の文書の前記セットと関連付けられた前記複数のファセットの間又は当該複数のファセットと時間との関係を表す相関マトリックスである2ディメンション・ファセット・キューブを生成することと、
前記相関マトリックスにおいて、前記複数のファセットを少なくとも1つのクラスタにグループ化することと、
前記クラスタの中心を計算することと、
計算された前記クラスタの前記中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
を含む、方法。
【請求項2】
前記相関マトリックスは、前記複数のファセットの間の関係を表し、同じファセットを表す行と列との交点を含む自己相関マトリックスを含む、請求項1に記載の方法。
【請求項3】
前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表されるファセットとファセットとについて又はファセットと時間とについての相関値を有する、請求項1に記載の方法。
【請求項4】
記複数のファセットをグループ化することは、
前記相関マトリックスのファセットを表す行又は列についての相関ベクトルを生成することと、
前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
をさらに含む、請求項3に記載の方法。
【請求項5】
前記クラスタ内のファセットについての距離相関を計算することをさらに含む、請求項4に記載の方法。
【請求項6】
前記距離相関に基づいて、前記クラスタの前記中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも1つを識別することを含む、請求項5に記載の方法。
【請求項7】
ファセットに基づいたテキスト・マイニングによって複数の文書における非構造化データを分析するためのシステムであって、動作を実行するようにプログラムされた1つ又は複数のコンピュータを備え、前記動作は、
記複数の文書のセット内の前記文書と関連付けられた複数のファセットを判断するために、ファセット統計量を計算し、計算したファセット統計量に基づいて前記セットを絞り込む処理を繰り返すことと、
絞り込まれた記複数の文書の前記セットと関連付けられた前記複数のファセットの間又は当該複数のファセットと時間との関係を表す相関マトリックスである2ディメンション・ファセット・キューブを生成することと、
前記相関マトリックスにおいて、前記複数のファセットを少なくとも1つのクラスタにグループ化することと、
前記クラスタの中心を計算することと、
計算された前記クラスタの前記中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
を含む、システム。
【請求項8】
前記相関マトリックスは、前記複数のファセットの間の関係を表し、同じファセットを表す行と列との交点を含む自己相関マトリックスを含む、請求項7に記載のシステム。
【請求項9】
前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表されるファセットとファセットとについて又はファセットと時間とについての相関値を有する、請求項7に記載のシステム。
【請求項10】
記複数のファセットをグループ化することは、
前記相関マトリックスのファセットを表す行又は列についての相関ベクトルを生成することと、
前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
をさらに含む、請求項9に記載のシステム。
【請求項11】
前記動作は、前記クラスタ内のファセットについての距離相関を計算することをさらに含む、請求項10に記載のシステム。
【請求項12】
前記動作は、前記距離相関に基づいて、前記クラスタの前記中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも1つを識別することを含む、請求項11に記載のシステム。
【請求項13】
請求項1から請求項6までのいずれか1項に記載の方法をコンピュータに実行させるコンピュータ・プログラム。
【請求項14】
請求項13に記載のコンピュータ・プログラムを格納したコンピュータ可読ストレージ媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト・マイニングに関し、より具体的には、2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラムに関する。
【背景技術】
【0002】
多数の検索方法がある。ナビゲーション検索は、階層構造又はタクソノミ(taxonomy)を用いて、ユーザが情報を閲覧するのを可能にする。直接検索(direct search)は、ユーザが、1つ又は複数のキーワードを用いて情報を照会するのを可能にする。ファセット検索(faceted search)は、多くの場合、複数のフィルタ及び/又はキーワードをファセット階層に適用してユーザが情報を探索するのを可能にすることにより、ナビゲーション検索及び直接検索の両方の要素を組み合わせる。
【0003】
ファセット階層は、ファセット(facet)と呼ばれるディメンション(dimension)に沿って情報を分類する。ファセットは、情報のプロパティに対応し、種々の抽出技術を用いてテキスト又は文書の分析により、又は情報と関連付けられたメタデータから、導出されることが多い。例えば、オンライン小売業者は、タイプ、ブランド、価格等のような製品属性を反映するファセット階層を用いることが多い。ファセット値をファセット階層に手作業で付加すること、又はテキスト・マイニング・ソフトウェアを用いて自動的に抽出することが可能である。
【0004】
ファセットを用いて、nディメンション・ファセット・キューブを生成することができ、ファセット・キューブにより、データへのマルチ・ディメンションのアクセスが可能になる。各ファセットは、ファセット・キューブの別個のディメンションであり、所定期間に販売された特定のタイプ、ブランド及び価格の全ての製品などの、2又はそれより多いディメンションの交点を計算し、表示することができる。これは、ユーザが、ファセット値における複雑な関係を照会し、ファセット値における以前は未知であった関係を発見することを可能にする。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、本技術分野において、ファセット値を導出する改善された技術に対する必要性がある。
【課題を解決するための手段】
【0006】
本明細書で与えられる本発明は、例えば、テキスト・マイニングのために2ディメンション・ファセット・キューブ上のファセットをクラスタ化するためのコンピュータ実施方法及びシステムを実装するのに有用な多数の実施形態を有する。
【0007】
方法及びシステムは、1つ又は複数の文書内の非構造化データを分析するために、ファセットに基づいたテキスト・マイニングを実行する。1つ又は複数の文書のセットと関連付けられた1つ又は複数のファセットについての相関マトリックスである2ディメンション・ファセット・キューブが生成される。相関マトリックスにおいて、1つ又は複数のファセットが少なくとも1つのクラスタにグループ化される。クラスタの中心が計算される。クラスタの計算された中心付近に位置するファセットが、クラスタを代表するものとして識別される。
【0008】
相関マトリックスは、自己相関マトリックスを含むことができる。相関マトリックスの指定された行と列との交点は、指定された行と列とにより表されるファセットについての相関値を有する。
【0009】
相関マトリックスにおいてファセットをクラスタにグループ化することは、相関マトリックスの行又は列についての相関ベクトルを生成することと、相関ベクトルにおいてファセットをクラスタにグループ化することとをさらに含む。
【0010】
方法及びシステムは、クラスタ内のファセットについての距離相関を計算すること、及び、距離相関に基づいて、クラスタの中心を計算し、クラスタの中心に最も近いクラスタ内のファセットの少なくとも1つを識別することをさらに含むことができる。
【0011】
方法及びシステムは、セット内の文書と関連付けられたファセットを判断するために、ファセット統計量を繰り返し計算すること、及びファセット統計量に基づいてセットを絞り込む(refine)ことをさらに含むことができる。
【0012】
結果として、本発明は、非構造化テキストの文章を分析するための改善された技術を提供する。具体的には、本発明は、文書をテキスト・マイニングすることにより、ファセット値を自動的に導出する。ファセット値の動的クラスタ化は、相関マトリックスであるnディメンション・ファセット・キューブを用いて自動的に実行される。結果は、ファセット値の間、並びに文書自体の間の関係の発見を含む。
【0013】
ここで図面を参照し、そこでは、全体を通して同様の参照番号が対応する部分を表す。
【図面の簡単な説明】
【0014】
図1】1つの実施形態による、コンテンツ分析システムの実施形態を示す。
図2】ファセットの統計量の計算からの結果を示すユーザ・インターフェースを示す。
図3】テキスト・マイナ(text miner)が、文書のセットについてのファセット統計量を繰り返し計算し、ファセットの統計量に基づいて文書のセットを絞り込むことを示す。
図4】テキスト・マイナが、各ファセットの頻度を計算することを含む、文書のセットに関するファセット統計量の計算を実行することを示す。
図5】テキスト・マイナを用いて作業負荷を低減させるための1つの手法を示す。
図6】テキスト・マイナが、相関マトリックスを用いて、クラスタ化を実行する方法を示す。
図7】相関マトリックスの行及び/又は列において、テキスト・マイナにより、ファセットのクラスタ化を実行する方法を示す。
図8】ファセットのリアルタイムの動的クラスタ化を実行するために相関マトリックスを用いることにより得られる利点を示す。
図9】1つの実施形態による、テキスト・マイナにより実行されるステップを示すフローチャートである。
図10】ファセットのリアルタイムの動的クラスタ化を文書のコーパスに適用することにより生じる経験的結果を示すユーザ・インターフェースを示す。
【発明を実施するための形態】
【0015】
以下の説明において、本明細書の一部を形成する添付図面を参照し、図面には、本発明を実施できる1つ又は複数の特定の実施形態が実例として示される。他の実施形態を利用することもでき、本発明の範囲から逸脱することなく、構造的及び機能的変更を行い得ることを理解されたい。
【0016】
概要
文書内に見出されるテキストなどの非構造化データを分析する改善された技術に対する必要性が増大している。ファセットに基づいたテキスト・マイニングは、非構造化データを分析するためのより効果的な方法の1つである。
【0017】
この文脈において、ファセットは、1つ又は複数の文書のセットと関連付けられた「タグ」である。具体的には、ファセットは、1つ又は複数の特定条件を満たす文書と関連付けられる。特定条件の例として、特定のキーワードが文書内に現れる、文書が特定の日付範囲で作成された、文書が特定のトピックを含む等を挙げることができる。
【0018】
本発明は、文書又は他の非構造化テキストのテキスト・マイニングにより、ファセット値を自動的に導出し、次に、nディメンション・ファセット・キューブを生成し、ファセットをクラスタ化する。これにより、ファセットの間並びに文書自体の間の関係の発見が可能になる。
【0019】
ファセット処理
図1は、ネットワーク106上で1又は複数のクライアント・コンピュータ104から受け取った要求を処理する1又は複数のサーバ・コンピュータ102を含むコンテンツ分析システム100の実施形態を示す。サーバ102は、テキスト・データ及び他のデータから構成されるデータ・ストア108を維持する。以下により詳細に説明されるように、サーバ102は、1つ又は複数の文書112を分析し、文書112のためのファセット114を生成するテキスト・マイナ110を実行する。具体的には、テキスト・マイナ110は、テキスト分析を文書112に適用し、ファセット114についての値を求める。テキスト分析は、文書112から、例えばコンテンツ、トピック等のような情報及び知識を抽出し、その情報をファセット114の値として分類する技術である。
【0020】
ファセット114の値は、1つ又は複数の文書112から判断されるべき特定のタイプの情報を含むことができる。例えば、ファセット114の値は、文書112のトピックを含むことができ、これは、そのコンテンツに関して文書112をテキスト・マイニングすることによって判断される。
【0021】
図2に示されるように、ファセット114についての統計量を計算することにより、文書112についての概要を生成することができる。具体的には、図2は、例えば、1つ又は複数の文書112についての、ファセット114の相関202、傾向204、偏差206、及びファセット・ペアの間の関係208を示す4つの象限202~208を有する、クライアント104上に表示されるユーザ・インターフェース200を示す。具体的には、第1の象限202は、ファセット114のサイズが1つ又は複数の文書112との相関を示すワード・クラウド(word cloud)を表示し(例えば、ファセット114が大きいほど、文書112との相関が大きくなる)、第2の象限204は、1つ又は複数の文書112における各ファセット114の発生の傾向を日付順に示す傾向グラフを表示し、第3の象限206は、1つ又は複数の文書112における各ファセット114の発生の時間バイアスを日付順に示す偏差のグラフを表示し、第4の象限208は、1つ又は複数の文書112におけるファセット114の間の関係を示すファセット・ペアのグラフを表示する(円が大きいほど、文書112においてファセット114が一緒により多く現れる)。象限204及び206は、類似しているように見えるが、第2の象限204における傾向のグラフは、傾向を計算するために、過去数ヵ月間のデルタ(すなわち、差)を使用し、第3の象限206における偏差のグラフは、バイアスを計算するために特定期間のファセット114の絶対カウントを使用するという点で、計算がわずかに異なっている。
【0022】
図3は、テキスト・マイナ110が、ファセット114の統計量を繰り返し計算し、ファセット114の統計量に基づいて文書112のセットを絞り込み、概念、トピック、又は文書112によって述べられる他の事実など、文書112と関連付けられたファセットを求めることを示す。
【0023】
この例において、テキスト・マイナ110は、文書112のセット302aについてのファセット114の統計量の計算300aを実行する。これらの計算300aに基づいて、初期絞り込み304aのために、文書112の1つ又は複数の別のセット302b、すなわちセット302aのサブセット302bが選択される。
【0024】
この初期絞り込み304aにおいて、テキスト・マイナ110は、文書112のサブセット302bについてのファセット114の統計量の計算300bを再び実行する。これらの計算300bに基づいて、反復絞り込み304bのために、文書112の1つ又は複数の別のセット302c、すなわちサブセット302bのサブセット302cが選択される。
【0025】
この反復絞り込み304bにおいて、テキスト・マイナ110は、選択された文書112のサブセット302cに関するファセット114の統計量の計算300cを再び実行する。これらの計算300cに基づいて、選択された文書112のサブセット302cについて、特定の情報及び知識、この例では1つ又は複数のトピック306を含むファセット114が取得される。文書112と関連付けられたファセット114を識別するために、必要に応じて、さらなる反復絞り込み304及び計算300を実行することができる。
【0026】
ファセット114の統計量の計算300は、絞り込み304に適した少なくとも1つのファセット114を見つけるために、各ファセット114の頻度、相関、時系列等を計算し、文書112のセット302から情報及び知識を取得することを含むことができる。文書112のセット302の絞り込み304は、ファセット114の統計量の計算300に基づいて、1つ又は複数のファセット114を含む文書112のサブセット302を抽出することを含む。
【0027】
例えば、ファセット114の統計量の計算300を繰り返し、文書112のセット302の絞り込み304を繰り返すことは、トピック306について述べる文書112のセット302など、ファセット114の1つ又は複数と関連付けられた文書112のセット302を抽出するための主要な操作である。
【0028】
図4は、テキスト・マイナ110が、各ファセット114の頻度を計算することを含む、文書112のセット302についてのファセット114の統計量の計算300を実行することを示す。これらの計算300に基づいて、高頻度のファセット114(すなわち、ファセット1 114a、ファセット2 114b、ファセット3 114c、ファセット4 114d、ファセット5 114e、...)のリスト400が生成される。
【0029】
ユーザが、リスト400から高い相関のファセット114の値を発見したいと仮定する。リスト400内の高頻度のファセット114の数が大きい場合、高頻度のファセット114を手作業で相関させる作業負荷402は大きすぎることがある。
【0030】
作業負荷402は、一般的には、成功又はプロセスの停止まで継続される様々な試みの繰り返しにより特徴付けられる試行錯誤(trial-and-error)プロセスを要するであろう。その結果として、文書112の現在のセット302から知識を取得できない場合には、テキスト・マイナ110は、絞り込み304をする前の文書112のセット302に戻り、別のファセット114で絞り込み304を試みることができる。その目的は、試行錯誤プロセスの試行数を減らすことである。
【0031】
図5は、テキスト・マイナ110を用いて作業負荷402を減らすための1つの手法を示す。この例において、テキスト・マイナ110は、リスト400内の高頻度のファセット114に対してクラスタ化500を実行し、そこで、ファセット114は、トピック306に基づいて、クラスタ502にグループ化される。
【0032】
具体的には、同じトピック306に属するファセット114は、1つのクラスタ502にグループ化され、ファセット1 114a及びファセット3 114cは、トピックA 306aと関連付けられたクラスタ502aにグループ化され、ファセット2 114b及びファセット7 114gは、トピックB 306bと関連付けられたクラスタ502bにグループ化され、ファセット4 114d及びファセット5 114eは、トピックC 306cと関連付けられたクラスタ502cにグループ化され、ファセット6 114fは、トピックD 306dと関連付けられたクラスタ502dにグループ化される。ファセット114をトピック306に基づいて適切にクラスタ化500することにより、試行錯誤プロセスに関与する時間が低減される。
【0033】
図6は、テキスト・マイナ110が、クラスタ化500を用いて、相関マトリックス600を生成する方法を示す。相関マトリックス600は、n=2である、nディメンション・ファセット・キューブであり、そこで、各ファセット114は、別個のディメンションであり、2つのディメンションの交点を計算し、表示することができる。この例では、相関マトリックス600は、同じファセット114の値を有する交点を含む自己相関マトリックス600である。
【0034】
相関マトリックス600において、同じファセット114の値(「engine(エンジン)」、「day(日)」、「sun(太陽)」、「hear(聞く)」、「noise(ノイズ)」、「meter(メーター)」)は、マトリックス600の行及び列の両方にラベルとして配置される。指定された行及び列の交点における各セルは、指定された列及び行により表されるファセット114の値についての相関値(又は絶対頻度)を有する。
【0035】
さらに、相関マトリックス600の行及び/又は列について、相関ベクトル602を生成することができる。この例では、相関ベクトル602は、ファセット114の値「noise」を表す行に対して生成され、そこで、相関ベクトル602は、「noise」行と「engine」列の交点におけるセルについての「高」相関値、「noise」行と「hear」列の交点におけるセルについての「高」相関値、「noise」行と「noise」列の交点におけるセルについての「高」相関値、並びに「noise」行と「day」列の交点、「noise」行と「sun」列の交点、及び「noise」行と「meter」列の交点における残りのセルにおけるヌル(空白)の相関値から構成される。従って、「noise」のファセット114の値は、「engine」及び「hear」のファセット114の値と大きく相関するが、「day」、「sun」及び「meter」のファセット114の値とはそれほど相関しない。
【0036】
図7は、ファセット114のクラスタ化500が、トピック306を含むファセット114を用いて、相関マトリックス600の行又は列においてテキスト・マイナ110により実行される方法を示す。
【0037】
この例では、文書112は、自動車に関連したコーパスからのものである。トピックA 306aは、「engine」、「hear」及び「noise」の高相関のファセット114の値を含み、例えば、ノイズはエンジンから聞こえ、一方、トピックB 306bは、「day」、「sun」及び「meter」の高相関のファセット114の値を含み、例えば、晴れた日に速度メーターを確認するのは困難である。
【0038】
具体的には、クラスタ化500は、相関ベクトル602に基づき、そこでは、同じトピック306に属する相関ベクトル602内の高関連のファセット114の値が、クラスタ502にグループ化される、又は一緒に集約される。テキスト・マイナ110はまた、クラスタ502の各々におけるファセット114の値の距離相関、すなわち統計的依存、並びに、クラスタ502の中心付近のファセット114の値を識別するために用いられる距離相関に基づいたクラスタ502の各々の中心も計算する。
【0039】
図8は、リアルタイムの動的クラスタ化500を実行するために相関マトリックス600を用いることにより得られる利点を示す。具体的には、相関マトリックス600を用いて、テキスト・マイナ110により、クラスタ化500を動的に実行することができる。さらに、コンテンツ分析システム100は、大規模分散システムにおいてさえ、nディメンションのキューブ構造を計算するためのインデックス構造を提供し、これを適用して、相関マトリックス600を用いてリアルタイムでクラスタ化500を実行することができる。
【0040】
例えば、図8において、相関マトリックス600の列ファセット114の値は、行ファセット114の値の時系列分析を実行するために動的に変更されている。具体的には、相関マトリックス600の列についてのファセット114の値は、「Jan」(1月)、「Feb」(2月)、「Mar」(3月)、「Apr」(4月)、「May」(5月)及び「June」(6月)に変更されている。相関マトリックス600から、「engine」、「hear」、及び「noise」のファセット114の値を含むトピックA 306aは、1月及び2月においてクラスタ502と高く相関し、一方、「day」、「sun」及び「meter」のファセット114の値を含むトピックB 306bは、4月及び5月においてクラスタ502と高く相関する。
【0041】
最終結果は、テキスト・マイナ110により実行されるリアルタイムの動的クラスタ化500である。リアルタイムの動的クラスタ化500を用いて、エンドユーザは、ファセット114の値の分析をリアルタイムで動的に変更することができる。
【0042】
フローチャート
図9は、1つの実施形態による、1つ又は複数の文書112における非構造化データを分析するための、ファセット114に基づいたテキスト・マイニング110を示すフローチャートである。
【0043】
ブロック900は、テキスト・マイナ110が、1つ又は複数の文書112のセット(D)302に対するファセット・クラスタ化要求を受け取ることを表す。
【0044】
ブロック902は、テキスト・マイナ110が、セット(D)302と関連付けられた1つ又は複数のファセットについての相関マトリックス600である2ディメンション・ファセット・キューブを生成することを示す。
【0045】
ブロック904は、テキスト・マイナ110が、相関マトリックス600内の相関ベクトル602において1つ又は複数のファセット114を少なくとも1つのクラスタ502にグループ化することを含む、相関マトリックス600の1つ又は複数の行をクラスタ化すること500を表す。
【0046】
ブロック906は、テキスト・マイナ110が、クラスタ502の各々についての中心を計算することを表す。
【0047】
ブロック908は、テキスト・マイナ110が、クラスタ502の各々の計算された中心付近に位置するファセット114を、そのクラスタ502を代表するものとして識別することにより、受け取った要求に応答することを表す。
【0048】
経験的結果
図10は、例えば、車の問題報告書を含む文書112のコーパスに本発明を適用することにより生じる経験的結果を示す、クライアント104上に表示されたユーザ・インターフェース1000を示す。この例において、ユーザ・インターフェース1000は、相関ベクトル空間上に選択及びプロットされた、各ファセット114についての2ディメンション相関ベクトルのグラフを含み、そこで、x軸及びy軸は、主成分分析(PCA)により低減又は圧縮された相関ベクトル・ディメンションである。
【0049】
例えば、1002は、リコールの根拠を形成し得る下部ボール・ジョイントの問題を報告する多くの文書112があることを示す「下部(low)」、「ボール(ball)」及び「ジョイント(joint)」のファセット114の値の相関を表す。
【0050】
コンピュータ・プログラム製品
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
【0051】
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
【0052】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
【0053】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
【0054】
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
【0055】
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
【0056】
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
【0057】
図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
【0058】
結論
本発明の種々の実施形態の説明は、例証の目的のために提示されたが、これらは、網羅的であること、又は本発明を開示した実施形態に限定することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書に開示される実施形態を理解するのを可能にするために選択された。
【符号の説明】
【0059】
102:サーバ・コンピュータ
104:クライアント・コンピュータ
106:ネットワーク
108:データ・ストア
100:コンテンツ分析システム
120:テキスト・マイナ
112:文書
114:ファセット
200:ユーザ・インターフェース
202、204、206、208:象限
300、300a、300b:計算
304、304a、304b:反復絞り込み
306:トピック
400:リスト
402:作業負荷
500:クラスタ化
502:クラスタ
600:相関マトリックス
602:相関ベクトル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10