(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6741110
(24)【登録日】2020年7月29日
(45)【発行日】2020年8月19日
(54)【発明の名称】イベント発見方法、装置、機器及びプログラム
(51)【国際特許分類】
G06F 16/34 20190101AFI20200806BHJP
G06F 40/30 20200101ALI20200806BHJP
【FI】
G06F16/34
G06F40/30
【請求項の数】18
【全頁数】14
(21)【出願番号】特願2019-68633(P2019-68633)
(22)【出願日】2019年3月29日
(65)【公開番号】特開2019-212292(P2019-212292A)
(43)【公開日】2019年12月12日
【審査請求日】2019年3月29日
(31)【優先権主張番号】201810559050.1
(32)【優先日】2018年6月1日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】110000877
【氏名又は名称】龍華国際特許業務法人
(72)【発明者】
【氏名】チェン、ユグアン
(72)【発明者】
【氏名】チェン、ウェンハオ
(72)【発明者】
【氏名】ゾウ、フイ
(72)【発明者】
【氏名】ゼン、ユーホン
(72)【発明者】
【氏名】チェン、ウェイナ
【審査官】
後藤 彰
(56)【参考文献】
【文献】
特開2010−287143(JP,A)
【文献】
菊池 匡晃,”ブログエントリからの地域イベント情報抽出”,マルチメディア,分散,協調とモバイル(DICOMO2009)シンポジウム論文集,日本,社団法人情報処理学会,2009年 7月 1日,p.218-225
【文献】
黒橋 禎夫,”情報爆発時代のWebのサーチ・分析技術”,電子情報通信学会誌,日本,社団法人電子情報通信学会,2011年 8月 1日,第94巻,第8号,p.673-678
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/34
G06F 40/30
(57)【特許請求の範囲】
【請求項1】
イベント発見方法であって、前記方法はイベント発見装置に実行され、前記方法は、
目的キーワードを含む複数のテキストを取得するステップと、
前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出するステップと、
抽出されたフレーズに対しクラスタリングを行い、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成するステップと
を含むイベント発見方法。
【請求項2】
目的キーワードを含む複数のテキストを取得する前記ステップは、
目的検索エンジンにおける同一の検索ワードの検索回数を監視し、予め設定された時間帯内における検索回数が予め設定されたバースト閾値を超えたキーワードを目的キーワードとする
ことを含む請求項1に記載のイベント発見方法。
【請求項3】
目的検索エンジンにおける同一の検索ワードの検索回数を監視し、予め設定された時間帯内における検索回数が予め設定されたバースト閾値を超えたキーワードを目的キーワードとする前に、
目的検索エンジンにおける予め設定された過去の時間帯内の各検索ワードの検索回数の平均値及び検索回数の標準偏差を確定することと、
各検索ワードに対応する検索回数の平均値及び検索回数の標準偏差に基づき、各検索ワードに対応するバースト閾値を確定することと
をさらに含む請求項2に記載のイベント発見方法。
【請求項4】
前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出する前記ステップは、
予め設定された文法構造に基づき、前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出する
ことを含む請求項1に記載のイベント発見方法。
【請求項5】
前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出する前記ステップは、
前記複数のテキストのタイトルから区切り記号及び/又は空白で区切られたフレーズを、独立してイベント情報を記述するフレーズとして抽出する
ことを含む請求項1に記載のイベント発見方法。
【請求項6】
前記抽出されたフレーズに対しクラスタリングを行い、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成する前記ステップは、
抽出された各フレーズに対し、前記複数のテキストから前記フレーズを含むテキストを取得して目的テキストすることと、
前記目的テキストの特徴ワードを前記フレーズの特徴ワードとすることと、
各フレーズの特徴ワードに基づき、各フレーズの類似度を算出することと、
互いの類似性が予め設定された閾値より高いフレーズの位置するテキストをまとめて、イベントを作成することと
を含む請求項1に記載のイベント発見方法。
【請求項7】
前記目的テキストの特徴ワードを前記フレーズの特徴ワードとすることは、
前記目的テキストのタイトルから特徴ワードを抽出し、前記特徴ワードを前記フレーズの特徴ワードとする
ことを含む請求項6に記載のイベント発見方法。
【請求項8】
イベントを作成した後に、
イベントとフレーズの相関関係を表示する
ことをさらに含む請求項1〜7のいずれか1項に記載のイベント発見方法。
【請求項9】
目的キーワードを含む複数のテキストを取得する取得モジュールと、
前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出するフレーズマイニングモジュールと、
抽出されたフレーズに対しクラスタリングを行い、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成するクラスタリングモジュールと
を含むイベント発見装置。
【請求項10】
前記取得モジュールは、
目的検索エンジンにおける同一の検索ワードの検索回数を監視し、予め設定された時間帯内における検索回数が予め設定されたバースト閾値を超えたキーワードを目的キーワードとする監視サブモジュール
を含む請求項9に記載のイベント発見装置。
【請求項11】
目的検索エンジンにおける予め設定された過去の時間帯内の各検索ワードの検索回数の平均値及び検索回数の標準偏差を確定する第1の確定モジュールと、
各検索ワードに対応する検索回数の平均値及び検索回数の標準偏差に基づき、各検索ワードに対応するバースト閾値を確定する第2の確定モジュールと
をさらに含む請求項10に記載のイベント発見装置。
【請求項12】
前記フレーズマイニングモジュールは、
予め設定された文法構造に基づき、前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出する第1のマイニングサブモジュール
を含む請求項9に記載のイベント発見装置。
【請求項13】
前記フレーズマイニングモジュールは、
前記複数のテキストのタイトルから区切り記号及び/又は空白で区切られたフレーズを抽出して、独立してイベント情報を記述するフレーズとする第2のマイニングサブモジュール
を含む請求項9に記載のイベント発見装置。
【請求項14】
前記クラスタリングモジュールは、
抽出された各フレーズに対し、前記複数のテキストから前記フレーズを含むテキストを取得して目的テキストとする取得サブモジュールと、
前記目的テキストの特徴ワードを前記フレーズの特徴ワードとする確定サブモジュールと、
各フレーズの特徴ワードに基づき、各フレーズの類似度を算出する算出サブモジュールと、
互いの類似性が予め設定された閾値より高いフレーズの位置するテキストをまとめて、イベントを作成するイベント作成サブモジュールと
を含む請求項9に記載のイベント発見装置。
【請求項15】
前記確定サブモジュールは、具体的に、
前記目的テキストのタイトルから特徴ワードを抽出し、前記特徴ワードを前記フレーズの特徴ワードとする
請求項14に記載のイベント発見装置。
【請求項16】
イベントとフレーズの相関関係を表示する表示モジュール
をさらに含む請求項9〜15のいずれか1項に記載のイベント発見装置。
【請求項17】
1つ又は複数のプロセッサと、
イベント内のテキスト、及び/又はイベントとフレーズの相関関係を表示する表示手段と、
前記1つ又は複数のプロセッサによって実行される時、前記1つ又は複数のプロセッサに請求項1〜8のいずれか1項に記載のイベント発見方法を実行させるための1つ又は複数のプログラムを記憶する記憶装置と
を含むコンピュータ機器。
【請求項18】
コンピュータに、請求項1〜8のいずれか1項に記載のイベント発見方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータの分野に関し、より詳しくは、イベント発見方法、装置、機器及びプログラムに関する。
【背景技術】
【0002】
インターネットの発展に伴い、インターネット上の情報は爆発的に増加するなか、誰もが大容量の情報を目の前にして悩むことはあるかもしれない。ユーザは、ある人物や会社を知りたい場合、整理されていない大量のニュース情報に直面することになる。インターネット上の大量の情報を「イベント」単位で整理し、ユーザに表示することができれば、ユーザが情報を取得するのに要する時間は、大幅に短縮されるであろう。
【0003】
従来のイベントを発見する方法には主に、クラスタリング方法、バースト検知方法、クラスタリングとバースト検知を組み合わせた方法の3つがある。そのうち、クラスタリング方法は、特定のテキストリソースに対し、予め設定された類似度アルゴリズムに基づき、テキストの本文に対しクラスタリング処理を行うものであった。クラスタリングを行う時の基本単位は一般的に、ニュースやネット掲示板への投稿等イベント情報を反映するリソースである。バースト検知は、キーワードの出現頻度を監視し、出現頻度が急激に増加するキーワードを認識して抽出するものであった。両者を組み合わせた方法は、バースト検知を行ううえに、バースト検知で得た結果に基づきニュースを再現し、さらに、再現されたニュースに基づきクラスタリングを行うものであった。
【0004】
しかしながら、バースト検知の対象となるキーワード又は検索ワードが短いため、一部のキーワード又はエンティティにバーストが生じることは認識できるが、バーストを引き起こしたイベント又は一連のイベントをマイニングにより特定することはできないため、イベントの再現率は低かった。クラスタリング方法、及びクラスタリングとバースト検知を組み合わせた方法は、クラスタリング操作を行う際、クラスタリングの対象がいずれもニュースやネット掲示板への投稿であるため、得られたクラスタの純度が低かったり、スーパークラスタが発生したりするといった問題が生じやすく、イベントの発見における正答率は低いのが現状である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、イベントの発見における正答率及びイベントの再現率を向上させるためになされるものであり、イベント発見方法、装置、機器及び記憶媒体を提供する。
【課題を解決するための手段】
【0006】
本発明の第1の態様として、イベント発見方法を提供する。当該方法は、目的キーワードを含む複数のテキストを取得するステップと、前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出するステップと、抽出されたフレーズに対しクラスタリングを行い、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成するステップとを含む。
【0007】
本発明の第2の態様として、イベント発見装置を提供する。当該装置は、目的キーワードを含む複数のテキストを取得する取得モジュールと、前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出するフレーズマイニングモジュールと、抽出されたフレーズに対しクラスタリングを行い、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成するクラスタリングモジュールとを含む。
【0008】
本発明の第3の態様として、コンピュータ機器を提供する。当該機器は、1つ又は複数のプロセッサと、イベント内のテキスト、及び/又はイベントとフレーズの相関関係を表示する表示手段と、前記1つ又は複数のプロセッサにより実行されることにより、前記1つ又は複数のプロセッサに上記本発明の第1の態様に係る方法を実行させるための1つ又は複数のプログラムを記憶する記憶装置とを含む。
【0009】
本発明の第4の態様として、プロセッサによって実行されることにより、上記本発明の第1の態様に係る方法を実行するためのコンピュータプログラムが記録されるコンピュータ読み取り可能な記憶媒体を提供する。
【発明の効果】
【0010】
上記本発明の各態様によれば、目的キーワードを含む複数のテキストを取得し、当該複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出し、抽出されたフレーズに対しクラスタリングを行うことにより、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成するように構成される。本発明の方法において、目的キーワードを含む複数のテキストを取得した後、クラスタリングの方法を採用してイベントを作成するため、キーワードが短いためイベントの再現率が低いという問題を防ぐことができ、イベントの再現率が向上する。さらに、本発明の方法において、クラスタリングの方法を採用してイベントを作成する際、独立してイベント情報を記述可能なフレーズに基づきクラスタリングを行うため、テキストの本文に基づきクラスタリングを行う従来の技術と比較すると、スーパークラスタの発生を防ぐことができ、さらに、テキストの本文と比べてフレーズは一般的に1つのイベントのみを含むため、本発明の方法は、1つのクラスタが1つのイベントのみを含むようにすることにより、クラスタの純度を向上させることができ、すなわち本発明の方法は、イベントの発見における正答率を向上させることができる。
【0011】
なお、上記説明されている内容は、本発明の実施形態の主旨や重要な特徴を限定するためのものでもなければ、本発明の範囲を限定するためのものでもない。本発明のその他の特徴も分かりやすくするために、以下のとおりにさらに説明する。
【図面の簡単な説明】
【0012】
【
図1】本発明の一実施形態に係るイベント発見方法のフローチャートである。
【
図2】本発明の一実施形態に係るバースト閾値の算出方法のフローチャートである。
【
図3】本発明の一実施形態に係る方法のステップS13の実行方法のフローチャートである。
【
図4】本発明の一実施形態に係るイベント発見装置の構造を概略的に示す図である。
【
図5】本発明の一実施形態に係る装置のクラスタリングモジュール43の構造を概略的に示す図である。
【発明を実施するための形態】
【0013】
以下、各図を参照しながら、本発明の実施形態を詳細に説明する。当然ながら、関連する各図において本発明のいくつかの実施形態を示しているが、本発明はこれら以外にも様々な形態によって実施することができ、ここに示す実施形態に限定されるものではない。これらの実施形態は、本発明をより明確かつ完全に理解できるようにするためのものである。そのため、本明細書における各図及び実施形態は、例示的なものに過ぎず、本発明の保護範囲を限定するものではない。
【0014】
本発明の明細書、特許請求の範囲及び上記各図の説明に用いられる用語「第1」、「第2」、「第3」、「第4」等(該当部品が存在する場合)は、順序を規定したり部品間の前後関係を示したりするものではなく、類似する対象を区分するために用いられるものである。本明細書に記載される実施形態は、各図に示される又は説明されるものと異なる順序でも実施できるように、場合によっては、部品の番号を示すこれらの用語を入れ替えて用いてもよい。また、「含む」、「備える」及びこれらに準じるその他の用語は、非排他的な包括の場合を含むことを意図するために用いられるものであり、例えば、いくつかのステップ又はユニットを含むプロセス、方法、システム、製品もしくは機器は、必ずしも明記されているステップ又はユニットに限定されるものではなく、明記されないその他のステップ又はユニットや、当該プロセス、方法、製品又は機器にとって固有のその他ステップ又はユニットを含んでもよい。
【0015】
本発明を理解しやすくするために、各実施形態に係る専門用語について説明しておく。
1.クラスタ:クラスタリング操作の結果であり、1つのクラスタに、類似する複数のデータを含み、本発明の各実施形態において、フレーズクラスタリングに基づいて得られたクラスタは、類似する複数のフレーズを含む。
【0016】
2.イベント:テキストのクラスタであり、当該クラスタ内のテキストは、いずれも同一のイベントの情報を記述している。なお、本発明の各実施形態におけるテキストは、ニュースによるテキスト及び/又はネット掲示板への投稿によるテキストを指してもよく、これらに限定されない。
【0017】
3.独立してイベント情報を記述するフレーズ:イベントを完全かつ一意に記述する文節である。
【0018】
従来技術において、バースト検知に基づくイベント発見方法には、イベントの再現率が低いという問題があり、クラスタリングに基づく又はクラスタリングとバースト検知を組み合わせたイベント発見方法には、スーパークラスタが発生したりクラスタに複数のイベントが含まれるため、クラスタの純度が低かったりするという問題がある。これらの問題を解決するためになされた本発明は、クラスタリングとバースト検知を組み合わせることにより、テキスト内の独立してイベント情報を記述可能なテキストに対しクラスタリングを行うことでイベントを得るというイベント発見方法を提供する。本発明はクラスタリングとバースト検知を組み合わせた方法によりイベント発見を行うため、バースト検知方法のみを採用するためイベントの再現率が低いという問題を解決することできる。さらに、クラスタリング方法を採用してイベントを作成する際、独立してイベント情報を記述可能なフレーズに基づきクラスタリングを行うという本発明の方法は、テキストの本文に基づきクラスタリングを行う従来の技術と比較すると、スーパークラスタの発生を防ぐことができ、さらに、テキストの本文と比べてフレーズは一般的に1つのイベントのみを含むため、本発明の方法は、1つのクラスタが1つのイベントのみを含むようにすることにより、クラスタの純度を向上させることができ、すなわち本発明の方法は、イベントの発見における正答率を向上させることができる。
【0019】
以下、本発明の各実施形態を、関連する各図を参照しながら詳細に説明する。
【0020】
図1は、本発明の一実施形態に係るイベント発見方法のフローチャートであり、当該方法は、イベント発見装置によって実行されてもよい。
図1に示すように、当該方法は、ステップS11〜ステップS13を含む。
【0021】
ステップS11において、目的キーワードを含む複数のテキストを取得する。
【0022】
なお、目的キーワードは、ユーザがユーザインタフェースによって入力するキーワードであってもよいし、バースト検知方法により検出されたキーワードであってもよい。バースト検知とは、予め設定された時間帯内において、目的検索エンジンにおけるキーワードが検索された回数を集計し、同一のキーワードの予め設定された時間帯内における検索回数が予め設定されたバースト閾値を超えた場合、当該キーワードを目的キーワードに確定することを指す。
【0023】
バースト検知方法に基づき目的キーワードを取得する際、予め設定されたバースト閾値は1つのみを有する可能性があり、この場合に、全てのキーワードに対しバースト検知を行う際にいずれも同一のバースト閾値を採用する。別の可能な構成として、予め設定されたバースト閾値を複数設定し、異なるキーワードに対しバースト検知を行う際に異なるバースト閾値を採用してもよい。極端的には、キーワード毎に1つの対応するバースト閾値を設定してもよく、当該バースト閾値の設定に際し、経験に基づき設定してもよいし、予め設定されたアルゴリズムに基づき算出してもよい。例えば、1つの例示的な実施形態において、以下の方法に基づき算出することができる。
【0024】
図2は、本発明の一実施形態に係るバースト閾値の算出方法のフローチャートであり、
図2に示すように、バースト閾値は以下の方法により算出することができる。
【0025】
ステップS21:目的検索エンジンにおける予め設定された過去の時間帯内の各検索ワードの検索回数の平均値及び検索回数の標準偏差を確定する。
【0026】
ステップS22:各検索ワードに対応する検索回数の平均値及び検索回数の標準偏差に基づき、各検索ワードに対応するバースト閾値を確定する。
【0027】
例えば、過去20日間内におけるキーワードaの1日当たりの検索数がそれぞれpv
1、pv
2……pv
20であるとすると、pv
1、pv
2……pv
20に基づき、過去20日間内におけるキーワードaの検索回数の平均値pv
v及び検索回数の標準偏差Ep
vを算出し、pv
v及びEp
vを以下の式に代入すると、キーワードaに対応するバースト閾値を得ることができる。
Q=g・pv
v+h・Ep
v
ここで、Qはバースト閾値であり、g及びhは予め設定された重みパラメータであり、g及びhは定数である。
【0028】
同様に、上記バースト閾値の算出方法に基づき、過去20日間内におけるその他のキーワードのバースト閾値を算出することもできる。当然ながら上記内容は、分かりやすく説明するために挙げられた1つの可能な例に過ぎず、本発明を限定するものではない。
【0029】
さらに、本実施形態において目的キーワードは、1つ又は複数のキーワードを含み、テキストを取得する際に全ての目的キーワードを含むテキストを取得する必要がある。例えば、目的キーワードは(芸能人Aさん、結婚)である場合に、取得したテキストは「芸能人Aさん」及び「結婚」と2つのキーワードを含む必要がある。
【0030】
当然ながら、上記内容は、例示的に説明したものに過ぎず、本発明を限定するものではない。
【0031】
さらに、本実施形態においてテキストは、予め設定されたデータベースから取得してもよいし、クローリング技術によりネットワークメディアから取得してもよい。本実施形態では、テキストの取得位置及び取得方法を限定しない。
【0032】
ステップS12:前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出する。
【0033】
一般的には、テキストのタイトルが本文に記述された内容と一致する。すなわち、テキストのタイトルは一般的に、本文に記述されたイベントの情報を含む。これらの情報は一般的に、独立してイベント情報を記述する1つ又は複数のフレーズに含まれ、テキストのタイトルからこれらのフレーズを抽出することにより、テキストに記述されたイベントの概ねを知ることができ、そしてテキストのクラスタリングを行うための条件を整えることができる。また、本実施形態においてテキストのタイトルからフレーズを抽出するのは、テキストのタイトルが本文の趣旨を反映していることに加え、テキストの本文には独立してイベント情報を記述可能なフレーズが多く含まれ、本文から抽出したフレーズには対象イベントとは無関係の多くの情報が含まれるのに対し、テキストのタイトルが短いうえに無駄な情報も少なく含まれるため、テキストのタイトルに基づきフレーズを抽出することにより、データ量を低減し、処理効率を高めるだけでなく、より重要なのは、テキストのタイトルに基づきフレーズを抽出することが、スーパークラスタの発生を回避し、さらに、イベント発見における正答率を確保することができるのに対し、テキストの本文に基づき抽出する場合にこうした効果は得られないということである。
【0034】
さらに、テキストのタイトルから、独立してイベント情報を記述するフレーズを抽出する際、本実施形態に係る方法は様々である。
【0035】
1つの可能な方法において、予め統計的解析の方法に基づき普遍的な文法構造を取得し、当該文法構造に合致するフレーズは独立してイベント情報を記述しているものと設定する。そのため、上記フレーズの抽出操作を実行する際、予め設定された文法解析アルゴリズムに基づきテキストのタイトルの文法構造を解析し、解析された文法構造に上記文法構造に合致するフレーズが存在する場合に、当該フレーズをテキストのタイトルから抽出し、当該フレーズとテキストの相関関係を記録する。
【0036】
別の可能な方法において、テキストのタイトルに区切り記号及び/又は空白を含む場合に、テキストのタイトルから区切り記号及び/又は空白で区切られたフレーズを抽出し、当該フレーズを、独立してイベント情報を記述するフレーズとする。例えば、記事のタイトルが「比特幣大跌迎新年,价格暴跌的原因終于曝光了(新年早々ビットコイン大暴落、その理由はついに解明)」である場合に、当該タイトルから抽出されるフレーズは「比特幣大跌迎新年」及び「价格暴跌的原因終于曝光了」である。当然ながら、これは例示的に説明しているものに過ぎず、本発明を限定するものではない。
【0037】
ステップS13:抽出されたフレーズに対しクラスタリングを行い、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成する。
【0038】
例えば、テキストのタイトルから抽出された上記フレーズに「xx楽隊主唱去世(xxバンドのボーカル死去)」、「xx楽隊主唱xx逝世享年50(xxバンドのボーカル死去、享年50歳)」及び「xx楽隊12月発布新専輯(xxバンド、12月新アルバムを発売)」が含まれるとする。そのうち、「xx楽隊主唱去世」及び「xx楽隊主唱xx逝世享年50」はクラスタリングを行うと同じクラスタに属し、且つフレーズ「xx楽隊主唱去世」を含むテキストはq、w、eを含み、フレーズ「xx楽隊主唱xx逝世享年50」を含むテキストはp、o、iを含む。テキストq、w、e、p、o、iをまとめて、イベントを作成する。
【0039】
当然ながら、上記内容は例示的な説明に過ぎず、本発明を限定するものではない。
【0040】
本実施形態は、目的キーワードを含む複数のテキストを取得し、当該複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出し、抽出されたフレーズに対しクラスタリングを行うことにより、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成するように構成される。本実施形態の方法において、目的キーワードを含む複数のテキストを取得した後、クラスタリングの方法を採用してイベントを作成するため、キーワードが短いためイベントの再現率が低いという問題を防ぐことができ、イベントの再現率が向上する。さらに、本実施形態の方法において、クラスタリングの方法を採用してイベントを作成する際、独立してイベント情報を記述可能なフレーズに基づきクラスタリングを行うため、テキストの本文に基づきクラスタリングを行う従来の技術と比較すると、スーパークラスタの発生を防ぐことができ、さらに、テキストの本文と比べてフレーズは一般的に1つのイベントのみを含むため、本実施形態の方法は、1つのクラスタが1つのイベントのみを含むようにすることにより、クラスタの純度を向上させることができ、すなわち本実施形態の方法は、イベントの発見における正答率を向上させることができる。
【0041】
以下、関連する図を参照しながら、上記実施形態についての改良とその拡張を説明する。
【0042】
図3は、本発明の一実施形態に係る方法のステップS13の実行方法のフローチャートであり、
図3に示すように、当該方法は、
図1の実施形態に基づくものであり、ステップS31〜ステップS34を含む。
【0043】
ステップS31:抽出された各フレーズに対し、前記複数のテキストから前記フレーズを含むテキストを取得して目的テキストとする。
【0044】
ステップS32:前記目的テキストの特徴ワードを前記フレーズの特徴ワードとする。
【0045】
ステップS33:各フレーズの特徴ワードに基づき、各フレーズの類似度を算出する。
【0046】
ステップS34:互いの類似性が予め設定された閾値より高いフレーズの位置するテキストをまとめて、イベントを作成する。
【0047】
例えば、上記実施形態に係る方法のステップS11によりテキストs、d、f、g、jを取得しており、テキストs、d、f、g、jのタイトルから抽出されたフレーズはフレーズm及びフレーズnを含み、テキストs、d、f、g、jのうち、テキストs、dがフレーズmを含み、テキストg、jがフレーズnを含むとすると、テキストs、dから特徴ワードを抽出してフレーズmの特徴ワードとし、テキストg、jから特徴ワードを抽出してフレーズnの特徴ワードとし、さらに、フレーズm及びフレーズnの特徴ワードに基づき、フレーズmとフレーズnの類似度を算出し、フレーズmとフレーズnの類似度が予め設定された閾値より大きい場合に、テキストs、d、g、jをまとめて、イベントを作成する。なお、フレーズの位置するテキストから特徴ワードを抽出する際は、テキストの本文又は要約から抽出してもよいし、テキストのタイトルから抽出してもよく、本実施形態では限定しない。
【0048】
さらに、本実施形態において、イベントを取得した後に、イベントとフレーズの相関関係を確立してもよい。そして、ユーザがあるイベントを検索する時、イベントとフレーズの相関関係をユーザに表示することにより、ユーザはイベントに含まれる複数のテキストの中から1つのテキストを選択して閲覧するか、又はイベント内のあるテキストとフレーズの相関関係のみを表示し、ユーザが当該テキストを閲覧する際に、イベント内の他のテキストのアドレスを推薦リンクとして当該テキストに添える。
【0049】
本実施形態の方法は、独立してイベント情報を記述するフレーズに基づきクラスタリングを行うため、テキストの本文に基づきクラスタリングを行う従来の技術と比較すると、スーパークラスタの発生を防ぐことができ、さらに、テキストの本文と比べてフレーズは一般的に1つのイベントのみを含むため、本実施形態の方法は、1つのクラスタが1つのイベントのみを含むようにすることにより、クラスタの純度を向上させることができ、すなわち本実施形態の方法は、イベントの発見における正答率を向上させることができる。
【0050】
図4は、本発明の一実施形態に係るイベント発見装置の構造を概略的に示す図であり、
図4に示すように、装置40は、目的キーワードを含む複数のテキストを取得する取得モジュール41と、
前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出するフレーズマイニングモジュール42と、
抽出されたフレーズに対しクラスタリングを行い、同じクラスタに属するフレーズの位置するテキストをまとめて、イベントを作成するクラスタリングモジュール43とを含む。
【0051】
1つの可能な構成として、取得モジュール41は、目的検索エンジンにおける同一の検索ワードの検索回数を監視し、予め設定された時間帯内における検索回数が予め設定されたバースト閾値を超えたキーワードを目的キーワードとする監視サブモジュールを含む。
【0052】
1つの可能な構成として、装置40は、目的検索エンジンにおける、予め設定された過去の時間帯内における各検索ワードの検索回数の平均値及び検索回数の標準偏差を確定する第1の確定モジュールと、
各検索ワードに対応する検索回数の平均値及び検索回数の標準偏差に基づき、各検索ワードに対応するバースト閾値を確定する第2の確定モジュールとをさらに含む。
【0053】
1つの可能な構成として、前記フレーズマイニングモジュールは、予め設定された文法構造に基づき、前記複数のテキストのタイトルから、独立してイベント情報を記述するフレーズを抽出する第1のマイニングサブモジュールを含む。
【0054】
1つの可能な構成として、前記フレーズマイニングモジュールは、前記複数のテキストのタイトルから区切り記号及び/又は空白で区切られたフレーズを抽出して、独立してイベント情報を記述するフレーズとする第2のマイニングサブモジュールを含む。
【0055】
本実施形態に係るイベント発見装置は、
図1の実施形態に係る方法を実行するために用いることでき、その実行方法と有益な効果は、いずれも前述したものと類似するため説明を省略する。
【0056】
図5は、本発明の一実施形態に係る装置のクラスタリングモジュール43の構造を概略的に示す図であり、
図5に示すように、本実施形態は、
図4の実施形態に基づくものであり、クラスタリングモジュール43は、抽出された各フレーズに対し、前記複数のテキストから前記フレーズを含むテキストを取得して目的テキストとする取得サブモジュール431と、
前記目的テキストの特徴ワードを前記フレーズの特徴ワードとする確定サブモジュール432と、
各フレーズの特徴ワードに基づき、各フレーズの類似度を算出する算出サブモジュール433と、
互いの類似性が予め設定された閾値より高いフレーズの位置するテキストをまとめて、イベントを作成するイベント作成サブモジュール434とを含む。
【0057】
1つの可能な構成として、確定サブモジュール432は、具体的に、前記目的テキストのタイトルから特徴ワードを抽出し、前記特徴ワードを前記フレーズの特徴ワードとするために用いられる。
【0058】
1つの可能な構成として、装置40は、イベントとフレーズの相関関係を表示する表示モジュールをさらに含む。
【0059】
本実施形態に係るイベント発見装置は、
図3の実施形態に係る方法を実行するために用いることでき、その実行方法と有益な効果は、いずれも前述したものと類似するため説明を省略する。
【0060】
本発明は、1つ又は複数のプロセッサと、
イベント内のテキスト、及び/又はイベントとフレーズの相関関係を表示する表示手段と、
前記1つ又は複数のプロセッサによって実行されることにより、前記1つ又は複数のプロセッサに上記いずれか1つの実施形態に係る方法を実行させるための1つ又は複数のプログラムを記憶する記憶装置とを含むコンピュータ機器をさらに提供する。
【0061】
本発明は、プロセッサによって実行されることにより、上記いずれか1つの実施形態に係る方法を実行するためのコンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0062】
本明細書に説明されている各機能は少なくとも部分的に、1つ又は複数のハードウェア論理部品によって実行され得る。例えば、限定を加えないが使用可能なハードウェア論理部品としては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け汎用品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)等が挙げられる。
【0063】
本発明に係る方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語を任意に組み合わせて書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行される時、関連するフローチャート及び/又はブロック図に規定される機能/操作が実行されるように、汎用コンピュータ、専用コンピュータ又はその他のプログラミング可能データ処理装置のプロセッサ又はコントローラにおいて用いることができる。プログラムコードは、完全に機器において実行されるか、もしくは部分的に機器において実行されるか、又は独立したソフトウェアパッケージとして、一部が機器において実行され、一部が遠隔機器において実行されるか、又は完全に遠隔機器もしくはサーバにおいて実行されてもよい。
【0064】
本明細書において、機器読み取り可能な媒体は、コマンドを実行するシステム、装置又は機器によって使用されるか、又はコマンドを実行するシステム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶する物理的な媒体であってもよい。当該機器読み取り可能媒体は、機器読み取り可能な信号媒体又は機器読み取り可能な記憶媒体であってもよい。機器読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的もしくは半導体システム、装置又は機器、又はこれらの任意の適切な組み合わせを含むが、これらに限定されない。機器読み取り可能な記憶媒体のさらなる具体的な例は、1つ又は複数のバスを用いた電気的接続、ポータブルコンピュータのハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD−ROM)、光学的記憶機器、磁気的記憶機器、又は上記機器の任意の適切な組み合わせ等を含む。
【0065】
また、特定の順序で各操作を説明しているが、これらの操作は、示された特定の順序又は順に実行されるべきである、又は所望の効果を得るために、示されたすべての操作が実行されるべきであるということは理解できる。特定の状況において、マルチタスク及び並行処理が好適である可能性がある。同様のように、上記の説明において実施の際の詳細はいくつか含まれているが、これらは本発明の範囲を限定するためのものではない。単独の実施形態について説明されるいくつかの特徴は、組み合わせて1つの実施形態にて実施することもできれば、単独の実施形態について説明される様々な特徴は、単独で又はその一部を取り出して適切な任意の組み合わせにして、複数の実施形態にて実施することもできる。
【0066】
なお、構造特徴及び/又は方法のロジック動作に特化した形で、本発明の主旨を説明しているが、添付の特許請求の範囲に記載される主旨は必ずしも本明細書に説明されている特定の特徴又は動作に限定されるものではない。これらの特定の特徴及び動作は、特許請求の範囲を実施する形態の例に過ぎない。