【文献】
岡本 昌之,ブログからの地域イベント情報抽出,情報処理,日本,社団法人情報処理学会,2010年 1月15日,第51巻 第1号,14−17ページ
(58)【調査した分野】(Int.Cl.,DB名)
前記イベント位置検出手段は、前記イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込むことを特徴とする請求項1に記載のタグ付け装置。
前記イベント位置検出手段は、所定時間帯に投稿された多数のコメント文章の中で、位置情報を含むコメント文章のみを抽出し、且つ、投稿者自身が主張する文章が記述されていないコメント文章を除外して絞り込むことを特徴とする請求項1又は2に記載のタグ付け装置。
前記イベント位置検出手段は、前記イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込むことを特徴とする請求項1から3のいずれか1項に記載のタグ付け装置。
前記イベント位置検出手段は、前記コメント文章に含まれる位置情報を要素として、DBSCAN(Density-Based Spatial Clustering)アルゴリズムを用いて、前記イベント位置を検出することを特徴とする請求項1から4のいずれか1項に記載のタグ付け装置。
前記タグ付け手段によって記憶された前記イベント位置を指し示す地図情報と、その地図上の当該イベント位置の部分に記述すべき前記コメントキーワードとを、ユーザ操作可能な端末へ送信する地図情報送信手段を更に有することを特徴とする請求項1から5のいずれか1項に記載のタグ付け装置。
前記コメントキーワード抽出手段は、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的単語を、前記コメントキーワードとして抽出する
ことを特徴とする請求項1から6のいずれか1項に記載のタグ付け装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1に記載の技術によれば、イベント位置を検出できるものの、そのイベントの内容までは検出することができない。即ち、イベント名や、カテゴリ(スポーツ、花火、事故など)、その詳細内容(イベント関連Web情報など)を検出することはできない。特にジオタグ付きtweetsの場合、その位置情報のみがコメント文章に付加されているだけであって、そのイベントの内容まで特定するものではない。結果的に、イベントに基づくコメント文章は、ハッシュタグによって収集する必要がある。但し、ハッシュタグによって収集したコメント文章は、その地域に滞在しないユーザの端末からも投稿することができ、その地域に実際に滞在するユーザの端末から投稿されたコメント文章とは、その性質が異なってくる。
【0006】
そこで、本発明によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けする装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明によれば、不特定多数の第三者から投稿された投稿時刻及び位置情報
(緯度経度)を含む
ジオタグ付きコメント文章を蓄積したタグ付け装置であって、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲
(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置
(緯度経度)を検出するイベント位置検出手段と、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
イベント位置毎に、コメントキーワードをタグとして対応付けるタグ付け手段と
を有することを特徴とする。
【0008】
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込むことも好ましい。
【0009】
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、所定時間帯に投稿された多数のコメント文章の中で、位置情報を含むコメント文章のみを抽出し、且つ、投稿者自身が主張する文章が記述されていないコメント文章を除外して絞り込むことも好ましい。
【0010】
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込むことも好ましい。
【0011】
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、コメント文章に含まれる位置情報を要素として、DBSCAN(Density-Based Spatial Clustering)アルゴリズムを用いて、イベント位置を検出することも好ましい。
【0012】
本発明のタグ付け装置における他の実施形態によれば、タグ付け手段によって記憶されたイベント位置を指し示す地図情報と、その地図上の当該イベント位置の部分に記述すべきコメントキーワードとを、ユーザ操作可能な端末へ送信する地図情報送信手段を更に有することも好ましい。
【0013】
本発明のタグ付け装置における他の実施形態によれば、コメントキーワード抽出手段は、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的単語を、コメントキーワードとして抽出することも好ましい。
【0014】
本発明のタグ付け装置における他の実施形態によれば、
コメント文章は、ブログ(Web log)サーバ又は掲示板サイトサーバから取得されたものであり、
ブログサーバ又は掲示板サイトサーバから、コメント文章を収集するコメント
文章収集手段を更に有することも好ましい。
【0015】
本発明のタグ付け装置における他の実施形態によれば、
ブログサーバは、ミニブログサーバのtwitter(登録商標)サーバであり、
コメントキーワード抽出手段は、ハッシュタグを、コメントキーワードとして抽出することも好ましい。
【0016】
本発明のタグ付け装置における他の実施形態によれば、
ハッシュタグを含むコメント文章を、twitter(登録商標)サーバを用いて更に検索するコメントキーワード再検索手段を更に有し、
コメントキーワード再検索手段によって取得されたコメント文章を、コメント文章収集手段によって取得されたものとする
ことも好ましい。
【0017】
本発明によれば、
装置に搭載されたコンピュータを機能させるタグ付けプログラムであって、
ブログサーバから、
不特定多数の第三者によって投稿された投稿時刻及び位置情報
(緯度経度)を含む
ジオタグ付きコメント文章を収集するコメント
文章収集手段と、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲
(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置
(緯度経度)を検出するイベント位置検出手段と、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
イベント位置毎に、コメントキーワードをタグとして対応付けるタグ付け手段と
してコンピュータを機能させることを特徴とする。
【0018】
本発明によれば、
装置のタグ付け方法であって、
ブログサーバから、
不特定多数の第三者によって投稿された投稿時刻及び位置情報
(緯度経度)を含む
ジオタグ付きコメント文章を収集する第1のステップと、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲
(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置
(緯度経度)を検出する第2のステップと、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する第3のステップと、
イベント位置毎に、コメントキーワードをタグとして対応付ける第4のステップと
を有することを特徴とする。
【発明の効果】
【0019】
本発明のタグ付け装置、プログラム及び方法によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けすることができる。
【発明を実施するための形態】
【0021】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0022】
図1は、本発明におけるシステム構成図である。
【0023】
図1によれば、不特定多数の第三者から投稿されたコメント文章を公開するブログ(Web log)サーバ(又は掲示板サイトサーバ)2が、インターネットに接続されている。ブログサーバ2は、例えばtwitterサーバのようなミニブログサーバである。
【0024】
ここで、
図1によれば、特定の地域範囲で、地域イベントが開催されているとする。地域イベントとは、普段と異なる特別な動向が見られる地域、即ち、お祭りのようにその日時間帯だけ人が集中するような地域であるとする。このイベント位置には多数のユーザが滞在しており、各ユーザは、自ら所持する端末3を用いて、ミニブログサーバ2へコメント文章を投稿することができる。端末3は、ユーザと共に移動可能なものであって、携帯電話機やスマートフォンのような携帯端末である。
【0025】
また、
図1によれば、本発明を構成するタグ付けサーバ(装置)1が、インターネットに更に接続されている。タグ付けサーバ1は、ミニブログサーバ2から多数のコメント文章を収集する。勿論、ミニブログサーバ2と通信することは必須の構成要素ではなく、タグ付け装置(サーバ)1が、多数のコメント文章を予め蓄積したものであってもよい。そして、タグ付けサーバ1は、これらコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けする。また、他のユーザは、自ら所持する端末4を用いて、タグ付けサーバ1へアクセスし、イベント位置とそのキーワードとを紐付けて閲覧することができる。
【0026】
図2は、本発明におけるタグ付けサーバの機能構成図である。
【0027】
図2によれば、タグ付けサーバ1は、インターネットに接続された通信インタフェース部10と、コメント文章収集部111と、イベント位置検出部112と、コメントキーワード抽出部113と、タグ付け部114と、イベント位置記憶部115と、地図情報送信部116と、コメントキーワード再検索部117とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
【0028】
[コメント文章収集部111]
コメント文章収集部111は、ミニブログサーバ(例えばtwitterサーバ)2から、投稿時刻及び位置情報を含むコメント文章を収集する。これらコメント文章は、ジオタグ付きtweetsであり、ユーザid(user_id)、発信時間(created_at)、位置情報(loc_lat, loc_lng)(緯度・経度情報)、テキスト(texts)を含む。ここで、コメント文章収集部111は、所定時間帯に投稿されたコメント文章のみを収集することも好ましい。地域イベントは、一定の時間帯でのみ開催されるものであるからである。勿論、コメント文章収集部111に代えて、多数のコメント文章を予め蓄積したコメント文章蓄積部であってもよい。
【0029】
コメント文章内における位置情報は、例えば以下のように表される。
「I'm at (場所名) http://t.co/BNw9NbL2」
「@XXX http://t.co/3acyFI3K」
「(場所名)にタッチ! http://t.co/4a7dabK」
【0030】
また、コメント文章収集部111は、例えばtwitterサーバに対して、StreamingAPIを用いることも好ましい。twitterのAPIは基本的にpull型であるのに対し、StreamingAPIは、クライアントが、twitterサーバへ接続を開き、リクエストを送信した後、切断されるまで接続を維持することできる。その間、サーバは、レスポンス(投稿されたコメント文章)をリアルタイムに、クライアント(タグ付けサーバ1)へ送信し続けることができる。また、StreamingAPIによれば、位置情報を含むコメント文章のみや、特定キーワードを含むコメント文章のみを収集するよう設定することもできる。そして、コメント文章収集部111によって収集されたコメント文章は、イベント位置検出部112へ出力される。
【0031】
[イベント位置検出部112]
イベント位置検出部112は、所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出する。
【0032】
図3は、イベント検出部におけるフローチャートである。
【0033】
(S31)イベント位置候補の検出(位置情報のクラスタリング)
イベントが開催されている地域では、投稿数が集中していると想定する。そこで、最初に、イベント位置検出部112は、コメント文章に付加された緯度経度情報を平面上にプロットし、その位置をクラスタリングすることによって、コメント文章が集中するイベント位置(密集地)を検出する。このクラスタリングには、例えばDBSCAN(Density-Based Spatial Clustering)を用いることができる。k-meansによれば、クラスタ数kを事前に与える必要があるのに対し、DBSCANによれば、クラスタ数を事前に与えことなく、比較的に直感的なクラスタを抽出できる。
【0034】
DBSCANは、超球状ではない任意形状のクラスタの抽出を目的としたクラスタリング方法であって、2つの点における直接密度到達可能(directly density-rechable)を導出するものである。あるseed点から、直接密度到達可能な関係を推移的に辿って、到達可能な極大集合を1つのクラスタとして抽出する。
【0035】
DBSCANによれば、Eps(epsilon、距離)及びMinPts(minimum points、最低ポイント)の2つのパラメータを用いる。例えばEps=0.0005及びMinPts=10を事前に与えるものであってもよい。また、これらパラメータを、測位の所定時間周期や最終的な住所居所推定の結果によって変更するものであってもよい。
【0036】
(S32)日常的に所定数以上の投稿数がある位置情報の除外
次に、イベント位置検出部112は、S31におけるイベント位置の候補の中から、日常的に、所定数以上の投稿数がある位置情報の除外して絞り込む。常に投稿数が多い場所として、例えば「駅」がある。駅のような場所は、普段と異なる特別な動向が見られるイベント位置ではない。そのために、日常的に投稿数が多い位置は、イベント位置候補からために、除外する。
【0037】
(S33)所定割合以下のユーザ数しか存在しないイベント位置の除外
イベント位置検出部112は、イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込む。このようなイベント位置では、同一ユーザが多数回、コメント文章を投稿しており、多数のユーザが集まるイベント位置ではないことが多い。そこで、このようなイベント位置の候補は除外する。例えば、その地域における投稿数の半分より少ない場合(10個のコメント文章が投稿された地域について、そのユーザ数が4人以下である場合)、このイベント位置を候補から除外する。
【0038】
(S34)投稿者自身が主張する文章が記述されていないコメント文章の除外
イベント位置検出部112は、所定時間帯に投稿された多数のコメント文章の中で、投稿者自身が主張する文章が記述されていないコメント文章を除外する。例えば、「I'm at (場所)」や「(場所)にタッチ!」など、位置情報登録サイト特有の言い回しのみで構成される場合が多い。このため、このような言い回しのコメント文章のみで、且つ、投稿者自身が主張する文章が記述されていないコメント文章を、除外する。このようなコメント文章は、その地域イベントを特定するに適したキーワードが含まれていないためである。
【0039】
×のコメント文章は、投稿者自身が主張する文章が記述されておらず、S33によって除外される。
(コメント文章1)○ 着いた。さっきの学生さん達は、A大でした。@都庁西新宿ビル http://t.co/3acyFI3K
(コメント文章2)○ OSC 2011 Tokyo/Fall にやってまいりました #osc11tk (@ 都庁 西新宿ビル w/ 3 others) http://t.co/BNw9NbL2
(コメント文章3)× I'm at 都庁西新宿ビル 28階http://t.co/v66BR2Iv
(コメント文章4)○ ついた (@都庁西新宿ビル w/ 4 others) http://t.co/RZkmuSG8',
(コメント文章5)× I'm at 都庁西新宿ビル w/ @hirokazu_nishi http://t.co/HdCZoVD4',
(コメント文章6)○ #osc11tkに参加。いやぁしかし、広いキャンパスだなぁ。(@都庁西新宿ビル w/ 7 others) http://t.co/V1YAzqZg
(コメント文章7)× I'm at 都庁西新宿ビル w/ @minky0 http://t.co/5aYa34CN
(コメント文章8)× I'm at 都庁西新宿ビル D2-1-1, C市) w/ 10 others http://t.co/Uxcc0IrB
【0040】
(S35)所定閾値以上の出現頻度のキーワードが検出されないイベント位置の除外
イベント位置検出部112は、イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込む。イベント位置である場合、そのイベントの内容に応じて、一定以上の出現頻度のキーワードが必ず検出されると考えられる。即ち、そのキーワードは、そのイベントの内容を表すに適切なものである場合が多い。一方で、一定以上の出現頻度のキーワードが検出されないということは、特定のイベントが開催されていないと考えられる。従って、そのようなイベント位置の候補は、除外する。
【0041】
[コメントキーワード抽出部113]
コメントキーワード抽出部113は、イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する。抽出されたコメントキーワードは、タグ付け部114へ出力される。
【0042】
コメントキーワード抽出部113は、最初に、複数のコメント文章から形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。
【0043】
ここで、形態素解析には、例えばオープンソースの形態素解析エンジン「MeCab」を用いることができる。このエンジンによれば、階層化された品詞体系を有し、形態素の品詞も解析することができる。形態素毎に、「名詞」「固有名詞」「組織」「地域」「一般」・・・等の品詞も出力される。但し、本発明によれば、コメントキーワードからは、地名や住所を除外することが好ましい。地名自体は、そのイベントの内容を表さないからである。
【0044】
次に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的なキーワードを、コメントキーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文書をベクトル空間で表し、文書とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。
【0045】
また、コメントキーワード抽出部113は、例えばtwitterサーバから収集したコメント文章については、ハッシュタグ(#)を、コメントキーワードとして更に抽出することも好ましい。ハッシュタグは、共通の話題についてコメント文章同士を紐付けるものである。
【0046】
[タグ付け部114]
タグ付け部114は、イベント位置毎に、コメントキーワードをタグとして対応付ける。そして、イベント位置(緯度経度情報)+コメントキーワードは、イベント位置記憶部115へ出力される。
【0047】
[イベント位置記憶部115]
イベント位置記憶部115は、イベント位置(緯度経度情報)+コメントキーワードを記憶する。
【0048】
[地図情報送信部116]
地図情報送信部116は、地図情報と、その地図に含まれるイベント位置に描画されるコメントキーワードとを、ユーザ操作可能な端末3へ送信する。
【0049】
図4は、本発明における地図上のイベント位置にキーワードを表示した画面図である。
【0050】
図4によれば、地図上のイベント位置に、特徴的なコメントキーワードが表示されている。ここでは、
図3のコメント文章に基づいて、都庁西新宿のイベント位置に、コメントキーワード「#osc11tk」「OSC2011 Tokyo/Fall」「A大学」が表示されている。閲覧者は、この地図を見ることによって、都庁西新宿の位置に、コメントキーワードに基づくイベントが開催されていることを、直感的に認識することができる。
【0051】
[コメントキーワード再検索部117]
コメントキーワード再検索部117は、コメントキーワード抽出部113から出力されたコメントキーワードをキーとして、twitter(登録商標)サーバを用いて更に検索する。コメントキーワードは、例えばハッシュタグ(#)やイベント固有名詞を含み、これらを含むコメント文章を再検索する。
【0052】
例えばtwitterの場合、ジオタグ付き付きコメント文章は、全体の0.5%程度(日本の2010年統計)しか存在しない。一方で、そのイベント位置から投稿されているにも拘わらず、位置情報が付加されていないコメント文章も数多く存在する。そこで、コメントキーワード再検索部117によって、コメントキーワードを含むコメント文章を更に検索し、これらコメント文章を、コメント文章収集部111へ出力される。これによって、コメント文章収集部111によって収集可能なコメント文章の数を増大させることができる。位置情報が付加されたいないコメント文章からも、そのイベント位置に基づく特徴的なキーワードが更に抽出される。
【0053】
例えばtwitterサーバよれば、以下のように指定したキーワードを含むコメント文章(tweets)を検索することができる。例えば、キーワード"OSC2011
Tokyo/Fall"が含まれるtweetsを検索する場合、以下のURL(Uniform Resource Locator)を指定する。
http://search.twitter.com/search.atom?phrase="OSC2011 Tokyo/Fall"
【0054】
また、例えばtwitterによれば、ハッシュタグ(#)が付加されたコメント文章tweetsのみを収集することもできる。twitterの場合、ハッシュタグを用いることで、話題を共通化することできる。例えば、ハッシュタグ"#osc11tk"が付加されたtweetを検索する場合、以下のURLを指定する。
http://search.twitter.com/search.atom?q=%23osc11tk
また、日付を指定することによって、最大1週間分のtweetsを検索することもできる。
【0055】
他の実施形態として、コメントキーワードが抽出されたコメント文章について、そのコメント文章を投稿したユーザを検出し、そのユーザから投稿されたコメント文章を更に再検索することも好ましい。このユーザのコメント文章の全体から、当該イベントの終了時刻を抽出することもできる。例えば「終了」「閉館」「閉会」のようなキーワードを検出し、その投稿時刻を抽出することもできる。このようにして抽出された終了時刻に基づいて、イベント位置記憶部115に記憶されたアイテム(イベント位置−キーワード群)を削除することもできる。
【0056】
また、他の実施形態として、コメントキーワードの意味を表すカテゴリを、地図上に更に付与することも好ましい。
図4によれば、「OSC2011 Tokyo/Fall」と記述されているが、例えば「OSC2011
Tokyo/Fall(学会)」とカテゴリも加えて記述する。このような記述を実現するためには、イベント毎に、予め準備しておいたイベント関連語リストを作成しておく必要がある。イベント関連語リストには、例えば「OSC -> 学会」が記憶されており、「OSC」を含むことよって、カテゴリ「学会」が検索される。このように、コメントキーワードに加えて、カテゴリも付加することによって、閲覧者に、更に直感的に理解させることができる。
【0057】
以上、詳細に説明したように、本発明のタグ付け装置、プログラム及び方法によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けすることができる。特定の地域について、投稿者が発信した所定のイベントに関する投稿文から、その地域で何が起きているかを検出し、そのキーワードをその位置に付与することができる。そして、閲覧者は、位置(イベント位置)にコメントキーワードが紐付けらえた地図を閲覧することによって、その位置でどのようなイベントが開催されていることを、直感的に認識することができる。
【0058】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。