【新規性喪失の例外の表示】特許法第30条第2項適用 (1)ウェブサイトの掲載日 平成26年11月5日 (2)ウェブサイトのアドレス http://tr.twipple.jp/news/ (3)公開者 ビッグローブ株式会社 (4)公開された発明の内容 ビッグローブ株式会社が上記のアドレスのウェブサイトで公開している「ついっぷるトレンドサイト」の「ニュースランキング」で松村憲和が発明した「サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム」を公開した。
【文献】
永田 一八,著名人も続々と参加! 話題沸騰のウェブサービスの魅力とは? いまさら聞けないTwitter入門,PCfan,日本,(株)毎日コミュニケーションズ,2010年 4月 1日,第17巻,第4号,p.75−84
【文献】
畦地 真太郎、外7名,パブリック・オピニオン・チャネル,人工知能学会誌,日本,(社)人工知能学会,2001年 1月 1日,第16巻,第1号,p.130−138
【文献】
矢島 竜児,ソリューション ポイントは分析結果の“活かし方” NRI・IBM・NEC−3社のテキストマイニング新サービス,Computer TELEPHONY,日本,株式会社リックテレコム,2004年 9月20日,第7巻,第10号,p.38−41
(58)【調査した分野】(Int.Cl.,DB名)
前記第2のクラスタリング手段は、前記コメントを分割し、単語を抽出し、複数の前記コメントの内の2つの前記コメント間の単語数の比と一方の前記コメントに含まれる単語数の割合とをもとに、2つの前記コメント間の類似度を算出し、複数の前記コメントの内で、1のコメントと他のコメントとの前記類似度の平均値を算出し、前記平均値が最少であるコメントを前記代表コメントとすることを特徴とする請求項1または2に記載の情報処理装置。
前記ページ作成手段は、前記代表コメントを前記まとめページの下部領域にローテーション表示することを特徴とした請求項1から3の何れか1つに記載の情報処理装置。
前記ページ作成手段は、前記コメントを評判分析して分類分けし、分類分けした分類名と各分類の度数を前記まとめページの下部領域に掲載することを特徴とした請求項1から3の何れか1つに記載の情報処理装置。
【発明を実施するための形態】
【0012】
<構 成>
図1は、本発明のまとめサイトシステムに係るブロック図の一例である。
図1に示すまとめサイトシステム10は、3台の情報処理装置11,12,13で構成されたシステムである。情報処理装置11は、データ取得サーバーとして機能し、情報処理装置12はクラスタリングサーバーとして機能し、情報処理装置13は表示サーバーとして機能する。
尚、本発明はこれに限定されるものではなく、1台の情報処理装置のHDD(Hard Disk Drive)をパーテーションで区分けしてパーテーション毎にクラスタリングサーバー、データサーバー、及び表示サーバーとして機能するように構成してもよい。
【0013】
情報処理装置11は、CPU(Central Processing Unit)14、ROM(Read Only Memory)15、RAM(Random Access Memory)16、表示部17、HDD18、LAN(Local Area Network)接続部19、操作部20、ネットワーク接続部21、及びバスライン22を有する。
【0014】
CPU14は、情報処理装置11を統括制御する装置であり、例えばマイクロプロセッサが挙げられる。ROM15は、制御プログラムが格納されたデバイスであり、例えばマスクROMやEPROM (Erasable Programmable Read Only Memory)が挙げられる。RAM16は、一時的にプログラムやデータを保存するデバイスであり、例えばDRAM(Dynamic RAM)やフラッシュメモリが挙げられる。表示部17は、情報処理装置11にて処理した情報や操作画面などを表示する装置であり、例えば液晶表示装置が挙げられる。HDD18は、OS(Operating System)や各種アプリケーションソフトウェアを保存したりネットワーク24を介して配信されたニュース記事情報やSNS(Social Networking Site)上で流れている投稿情報などの文章情報を保存したりする装置である。LAN接続部19は情報処理装置11が情報処理装置12,13に接続する装置である。操作部20は、情報処理装置11を操作するのに必要な電源スイッチ、テンキー等のスイッチを有する装置であり、例えばキーボードやマウスが挙げられるが、表示部17と一体化したタッチパネルであってもよい。ネットワーク接続部21は、情報処理装置11を、インターネットなどのネットワーク24を介して端末装置23a,23b,…、もしくはニュース記事情報を発信するニュースサーバや、SNSサーバーと接続して情報を授受する装置である。
【0015】
図2は、
図1に示した情報処理装置11の機能ブロック図の一例である。
図2に示す情報処理装置11は、URL(Uniform Resource Locator)情報取得手段31、HTML(Hyper Text Markup Language)ページ取得手段32、文字列取得手段33、コメント取得手段34、単語ベクトル作成手段35、クラスタリング手段36、データベース手段37、表示手段38、及び制御手段39を有する。
【0016】
URL情報取得手段31は、既定のタイミング(例:5分毎)にて、SNSサーバーが提供するAPIを用いて、SNS上で流れている投稿情報を取得し、投稿情報内に含まれるURL情報を抽出して取得したり、各Webサイトが発信しているRSS(Really Simple Syndication)情報を定期的に取得し、RSSに記載されている新着のURL情報を抽出して取得したりする。URL情報取得手段31は、各サイトからURL情報を取得する手段であり、例えば、CPU14、ROM15、RAM16、及びネットワーク接続部21によって実現される。
HTMLページ取得手段32は、URL情報取得手段31にて取得した、投稿情報内に含まれるURL情報やRSSに記載されている新着のURL情報を基に、そのURL(例えば、ニュースサーバなど)にアクセスし、HTMLページ(例えば、ニュース記事など)を取得する。HTMLページ取得手段32は、URLにアクセスし、HTMLページを取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びネットワーク接続部21によって実現される。
文字列取得手段33は、HTMLページ取得手段32にて取得したHTMLページのHTML構造を解析し、<title>タグまたは<meta property="og:title">タグとそれらの終了タグを用いて記述されたタグ間のタイトルや、<description>タグまたは<meta property="og:description">タグとそれらの終了タグを用いて記述されたタグ間の概要文などの文字列を取得し、HTMLページのURL情報に対応付けて、タイトルおよび概要文をデータベースに記憶する。文字列取得手段33は、HTMLページからタイトルと概要文を取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。
コメント取得手段34は、URL情報取得手段31にて取得したURL情報が含まれる投稿情報をコメントとして取得したり、HTMLページ取得手段32にて取得したコメント記載欄があるHTMLページ(ニュース記事などに対する閲覧者からのコメントの記入を許可しているWebページで、「comment」という文字列を含むタグ間に存在する「コメント」などの文字や送信ボタンタグなどによって判断する)のコメントを取得したりし、投稿情報やコメントなどのコメント情報をURL情報に対応付けて、データベースに記憶する。コメント取得手段34は、コメント情報を取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。また、コメント取得手段34は、ニュース記事などの同じURL情報への投稿情報の数やニュース記事などのHTMLページに対するコメントの数を取得して、URL情報に対応付けてデータベースに記憶する。
単語ベクトル作成手段35は、文字列取得手段33にて取得した各HTMLページのタイトル及び概要文を連結した文章に対して、言語解析処理をして接続語などを削除して単語単位に分割したワードを単語ベクトルとして、データベースにてHTMLページのURL情報に対応付けて記憶する。単語ベクトル作成手段35は、タイトル及び概要文から単語ベクトルを作成する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。
【0017】
ここで、HDD18内に構成されるデータベース手段37に記憶されているデータベースには、既定の期間内のニュース記事などのHTMLページのタイトル、概要の文章、HTMLページのURL情報(IDに相当する)、タイトルと概要の文章から抽出した単語ベクトル、ニュース記事などのHTMLページに対する閲覧者のコメント、ニュース記事などに対するコメント数、及びコメントの文章から抽出したコメントベクトルを保存しておく。データベース手段37は、例えば、HDD18によって実現される。
表1は、HTMLページのURL情報、HTMLページのタイトル、概要の文章、単語ベクトルが対応付けられて記憶されたデータベースの一例である。
また、表1のデータベースに示すタイトルは、HTMLページ構造において、例えば、<title>A国にE病気感染者の疑い</title>におけるタグ<title>とタグ</title>とで挟まれた文字列「A国にE病気感染者の疑い」であり、概要文は、<description>A国にE病気の疑いがある感染者が・・・</description>におけるタグ<description>とタグ</description>とで挟まれた文字列「A国にE病気の疑いがある感染者が・・・」である。
【0019】
表2はURL情報、コメント、コメントベクトル、及びコメント数のデータベースの一例である。
【0021】
表1、表2に示したデータベースは一定時間毎(例えば、5分毎)に取得されたデータが追加されて蓄積される。2時間のニュース記事などのHTMLページのまとめページランキングを作成するときは、表2のデータベースから、日時が直近2時間のURL情報を抽出(URL情報が既定数(例:500件)以上場合は、抽出したURL情報の内、URL情報単位での合計コメント数が既定の上位数(例:500件)のURL情報を抽出)し、表1のデータベースにて、抽出したURL情報に対応する単語ベクトルを抽出し、ニュース記事などのHTMLページをまとめる(クラスタリングする)。また、表2のデータベースを参照し、抽出したURL情報に対応するコメントベクトルから代表コメントを選出し、まとめたニュース記事などのHTMLページに対応するURL情報に対応するコメント数を、表2を参照して合計し、まとめたニュース記事などのHTMLページと他のまとめたニュース記事などのHTMLページとの間の掲載順位付けに用いる。尚、蓄積されたデータのうち重複したデータや不要なデータは消去される。
クラスタリング手段36は、既定のタイミングにて、既定の期間分(例:直近2時間分、1日間分など)URL情報を表2のデータベースから抽出し、抽出したURL情報に対応する単語ベクトルを表1のデータベースから取得し、内容ベースで同じ内容のURL情報でまとめ上げる(後述するクラスタリング処理)手段であり、例えば、CPU14、ROM15、RAM16、及びHDD18によって実現される。
【0022】
表示手段38は、ページ作成手段40にて、まとめられた文章情報を掲載するまとめページを表示する手段であり、例えば、表示部17によって実現される。ただし、情報処理装置11がサーバー装置である場合は、無くても良い。
制御手段39は、情報処理装置11の各手段を統括制御し、各手段への命令やデータを受け渡しする手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びバスライン22によって実現される。
また、クラスタリング手段36は、まとめた同じ内容のURL情報に紐付られてデータベース手段37に記憶されている複数のコメントに対し、クラスタリング処理を施し、重複コメント及び類似のコメントを削除し、代表コメントを既定の上位件数(例:上位1件)残す。
ページ作成手段40、クラスタリング手段36にて、まとめた同じ内容のURL情報のニュース記事などのタイトルまたは概要文の少なくとも1つをまとめて(例えば、時系列順、コメント数の多い順で)掲載する文章情報表示領域と、画面下部にそのURL情報に対応し、クラスタリング手段36にて、選別した代表コメントを横方向にローテーション表示するコメント表示領域と、を有するWebページであるまとめページを作成し、端末装置23a、23bにネットワーク24を介して公開する。ページ作成手段40、まとめページを作成し公開する手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びネットワーク接続部21によって実現される。また、ページ作成手段40、コメント表示領域の代わりに、もしくは、追加して、まとめた同じ内容のURL情報のニュース記事などに対応する各コメントに対し、評判分析を行い、各分類(肯定、否定、喜怒哀楽等)を割り当て、割り当てられた分類名とその分類の度数のグラフを表示する評判表示領域をまとめページに作成してもよい。これにより、例えば一つの件についてあるサイトでは「怖い」という分類を付けることができ、別のサイトでは「驚く」という分類をつけることができる。「怖い」の数や「驚く」の数をグラフ化(図では棒グラフであるが、グラフの種類は限定されない)することができる。
尚、各コメントに対し、評判分析に基づく「怖い」や「驚く」等の複数の分類(形容詞もしくは副詞等の単語)を同時に表示してもよい。
【0023】
図1のように、ハードウェアブロック構成が同様である情報処理装置11,12,13を用いて、例えば、情報処理装置11をURL情報取得手段31とHTMLページ取得手段32、文字列取得手段33、コメント取得手段34、単語ベクトル作成手段35、データベースを記憶作成するデータベース手段37を有するデータ取得サーバー、情報処理装置12を、クラスタリング手段36を有するクラスタリングサーバー、及び情報処理装置13を、ページ作成手段40を有するページ表示サーバーとして機能させることで、複数の装置を用いて、まとめサイトシステム10を構成してもよいし、情報処理装置11のみで、本発明の各手段を機能させるサーバー装置でもよい。データベース手段37は、NAS(Network Attached Storage)を用いて、情報処理装置11,12,13とは別の装置として、各情報処理装置11,12,13と読み書き可能に接続するように構成しても良い。ここで、情報処理装置11が、各端末装置23にまとめページを提供するサーバー装置ではなく、利用者が操作する端末装置23の1つである場合は、ページ作成手段は、作成したまとめページを各端末装置23に公開するのではなく、作成したまとめページを表示部17に表示する。
【0024】
<動 作>
図3は、
図1に示した情報処理装置11の動作を説明するためのフローチャートの一例である。
【0025】
先ずURL情報取得手段31が、既定のタイミングにて、各サイトからURL情報を取得し(ステップS1)、HTMLページ取得手段32が、URL情報取得手段31にて取得されたURL情報を基に、URLにアクセスし、HTMLページを取得し(ステップS2)、文字列取得手段33が、HTMLページ取得手段32にて取得されたHTMLページのタイトル及び概要文を取得し、表1のデータベースに記憶する(ステップS3)。
ここで、コメント取得手段34は、URL情報取得手段31にて取得したURL情報が含まれる投稿情報をコメントとして取得し、表2のデータベースに記憶する。また、コメント取得手段34は、HTMLページ取得手段32にて取得されたHTMLページ内に閲覧者からのコメントがあるか否かを判断する(ステップS4)。閲覧者からのコメントがある場合(ステップS4/Yes)、HTMLページのコメントを取得し、表2のデータベースに記憶してステップS5へ進み(ステップS5)、ユーザーからのコメントが無い場合(ステップS4/No)、ステップS6へ進む。
【0026】
単語ベクトル作成手段35は、文字列取得手段33にて取得されたタイトル及び概要文を連結した連結文章にし、連結文章に対し、言語解析処理を施して、連結文章を分割して、単語ベクトルを作成し、表1のデータベースに記憶してステップS7へ進む(ステップS6)。
クラスタリング手段36が、既定のタイミングにて、表2のデータベースにて、既定の期間分のURL情報を抽出し、抽出したURL情報に対応する、単語ベクトル作成手段35作成された単語ベクトルを用いて、内容ベースで各URL情報のまとめ上げるためのクラスタリング処理を施し(ステップS7)、クラスタリング手段36が、まとめたURL情報に紐づく複数のコメントに対し、クラスタリング処理を施し、既定の上位件数の代表コメントを抽出する(ステップS8)。
ページ作成手段40は、クラスタリング手段36にてまとめたURL情報に対応するタイトルまたは概要文の少なくとも1つを対応するURL情報へのリンクを付けて、まとめて掲載し、ページ下部にクラスタリング手段36にて抽出した代表コメントをローテーション表示するまとめページを作成する(ステップS9)。尚、ステップS9にて、ページ作成手段40は、ページ下部の代表コメントの代わりに、クラスタリング手段36にて、まとめたURL情報に紐づく複数のコメントに対して、評判分析を行い、複数のコメントを肯定、否定、もしくは喜怒哀楽などを表す分類を付与し、その分類と評判分析結果のグラフを表示するまとめページを作成してもよい。まとめページは、まとめURL情報(クラスター)毎に作成する。ただし、まとめページは、まとめたURL情報(クラスター)毎に作成しなくても、1つのまとめページに複数のまとめURL情報(クラスター)を掲載しても良い。その際は、まとめたURL情報に対応するコメント数の合計順に上位から第2の文章情報のまとまり毎に順番に掲載する、まとめページを作成する。
【0027】
<画面掲載例>
図4は、
図1に示したまとめサイトシステムにより得られた画面と比較例である。
図4において左側のニュースランキングの図が比較例であり、右側のニュースランキングが本発明による掲載画面の一例である。ランキングの順位基準は、左側のニュースランキングの図がニュース記事個別のコメント数であり、右側のニュースランキングがまとめたニュース記事のコメント数の合計である。
同一の単語(例、リベリア・エボラ等)を多く含むニュース記事のHTMLページを自動的にまとめ上げたものである。
左側の比較例では上から野球チームHのニュース記事、水族館のニュース記事、エボラ熱のニュース記事、アイドルAのニュース記事、ピザ専門店のニュース記事が羅列されている。
【0028】
これに対し、右側のニュースランキングでは、エボラ関連のニュース記事が集約されることで、コメント数の合計が最大になり、最上段に掲載され、野球チームHのニュース記事、アイドルAのニュース記事、水族館のニュース記事、…の順に羅列されている。すなわち、分散されていた情報が内容毎にまとめ上げられている。尚、ランキング処理は話題ベースとなるため、順位変動が生じる。
【0029】
図5は、
図1に示したまとめサイトシステムを用いたニュース記事などのHTMLページ及びコメントに対するクラスタリング処理の前後の関係を示す概念図である。
図5の左側のクラスタリング処理前において、Aサイト〜CサイトにはE病気、アイドルA、及び野球チームHのニュース記事などのHTMLページ及びコメントが散在している。
このようなニュース記事などのHTMLページ及びコメントが散在している状態のとき、クラスタリング処理を施すと、
図5の右側のように各HTMLページの内容である、E病気、野球チームH、及びアイドルAについてのニュース記事などのHTMLページ及びコメントが集約されることになる。
【0030】
図6は、
図1に示したまとめサイトシステムを用いたE病気に対する評判分析についての説明図である。
図6の左側の図は、クラスタリング処理を施して得られたE病気についてのニュース記事などのHTMLページが集約された図である。四つのニュース記事などのHTMLページに紐づく各コメントを分析する。感情を表現する単語についての感情辞書には「怖い」、「恐ろしい」、「震える」は「怖い」に分類され、「驚く」、「衝撃」、「ビックリ」は「驚く」に分類されている。
【0031】
そこで、評判分析において、E病気のニュース記事などのHTMLページに対して各端末装置の閲覧者から寄せられたコメントを分析すると、AサイトのHTMLページに対するコメントでは「E病気が怖い。」とあるので、「怖い」分類を付与することが可能である。BサイトのHTMLページに対するコメントでは「病気が上陸、ビックリ。」とあるので、「驚く」分類を付与することが可能である。CサイトのHTMLページに対するコメントでは「E病気恐ろしい」とあるので、「怖い」分類を付与することが可能である。
【0032】
一方、四つのニュース記事に紐づいて時系列最新順、または、コメント数順にソートを行うと、E病気のニュース記事などのHTMLページについてBサイトニュース記事、Aサイトニュース記事、及びCサイトニュース記事の順に時系列順、または、コメント数順に掲載されるまとめページが作成される。各サイトニュース記事の下側に分類「怖い」、「驚く」の分類についての量がグラフ化されて表示されるまとめページが作成される。
尚、右下の図において、内容が一致しているニュース記事は削除されている。
【0033】
図7は、
図1に示したまとめサイトシステムを用いたE病気に対するコメントのクラスタリングと表示についての概念図である。
左の図におけるクラスタリンクでまとめられたE病気に対する四つのニュース記事のHTMLページに紐づくコメントについてもう一度クラスタリングを行う。ニュース記事の各クラスター毎に代表コメントを既定の上位件数(この例では1件)のみを残し、類似重複内容のコメントを削除する。コメントを既定の上位件数のみ残す方法については後述する。
E病気に対するニュース記事のクラスターについては、右下の図において、E病気ニュース記事についてBサイトニュース記事、Aサイトニュース記事、Cサイトニュース記事及びDサイトニュース記事の順に時系列順、または、コメント数順にまとめページに掲載される。まとめページのニュース記事の下側に代表コメント表示領域を設定し、その表示領域に「E病気が上陸、ビックリ。」のような代表コメントが横方向、例えば左から右にローテーション表示される。このローテーション表示の欄に「驚く」のような喜怒哀楽を表す単語が常時表示されていてもよい。クラスタリングによりまとめられた他のアイドルAのニュース記事、野球チームHのニュース記事も同様に各々のまとめページを作成する。
【0034】
<クラスタリング方法>
次にクラスタリング方法について述べる。
(i)各ニュース記事などのHTMLページから抽出したタイトル及び概要文を連結した連結文章を言語解析により、ワード単位に分割する。
例えば、あるニュース記事xの連結文章が「A国でE病気か A国にE病気の感染者の疑い。」である場合、ニュース記事xの単語ベクトルであるベクトルxは「A国」、「E病気」、「感染者」、及び「疑い」となる。他のニュース記事yの連結文章が「E病気、A国で感染者 E病気がA国で感染者が現れた。政府は早急に対策を検討。」である場合、単語ベクトルであるベクトルyは「E病気」、「A国」、「感染者」、「現れる」、「政府」、「早急」、「対策」、及び「検討」となる。
(ii)ニュース記事などのHTMLページ間の距離(全組合せ)を測定する。
ベクトル間の距離は近ければ近いほどそのHTMLページ同士の内容は類似している。
ベクトル単語間の距離の一種であるJaccard距離
Jdは数式(1)により求まる。
【0036】
上記の例ベクトルxとベクトルyの例を用いると、
n
11=3(A国、E病気、感染者)
n
10=1(疑い)
n
01=5(現れる、政府、早急、対策、検討)
また、ベクトルxとベクトルyとの関係を表3に示す。
【0038】
表3におけるベクトルxまたはベクトルyの1は「単語が存在する」を意味し、0は「単語が存在しない」を意味する。また、例えば、表1のnの添え字が「11」のn
11は、ベクトルx及びベクトルyに共通に存在する単語が「A国」、「E病気」、「感染者」の3個であるため、要素数は「3」となる。同様にn
10は、ベクトルxには存在し、ベクトルyには存在しない単語が「疑い」だけなので要素数は「1」となる。n
01は、ベクトルxには存在せず、ベクトルyには存在する単語が「現れる」、「政府」、「早急」、「対策」、「検討」なので要素数は「5」となる。
従ってJaccard距離
Jdは数式(1)より、
Jd=(1+5)/(3+1+5)=2/3=0.667となる。
【0039】
しかしながら、数式(1)を用いた場合、ベクトルyがベクトルxをほぼ包含していても、ベクトルx、y内の要素数に開きがある場合、単語間の距離が遠くなって精度が低下しまうという問題点がある。
そこで、本発明は数式(1)を改良した数式(2)により精度を向上する。
【0041】
数式(2)の数式(1)との相違点は、数式(1)に単語数を考慮して重み付け(単語数に応じて重みを減らす乗算をする)することにより、ベクトルyがベクトルxをほぼ包含しており、ベクトルx、y内の要素数に開きがある場合であっても、単語間の距離が遠くなることがなくなり、精度が向上するようにした点である。すなわち、短い文章と長い文章との距離の差があっても最適な距離が求まるのである。ここで、Wxはベクトルxの単語の数であり、Wyはベクトルyの単語の数を示す。
【0042】
図8(a)〜(c)は、数式(2)を用いてニュース記事などのHTMLページに対応するベクトル間の距離を算出した場合の説明図である。
(iii)最も距離が近いニュース記事(またはニュース記事をまとめたクラスター)同士を抽出し、閾値dmin以下の場合、同一内容ニュース記事とみなし、クラスターを形成(それらのニュース記事をまとめる)する。新規に形成されたクラスターに対する距離のみ再計算して、最小距離を抽出する。閾値が下回る限り繰り返し、閾値を下回るニュース記事やクラスターがなければ終了する。
図8の例では、ニュース記事Aからニュース記事Dまでの各距離は、ニュース記事A〜ニュース記事Bが0.2、ニュース記事A〜ニュース記事Cが0.8、ニュース記事A〜ニュース記事Dが0.9、ニュース記事B〜ニュース記事Cが0.6、ニュース記事B〜ニュース記事Dが0.3、ニュース記事C〜ニュース記事Dが0.4となる。閾値dmin=0.6と設定したとする。従って、ニュース記事A〜ニュース記事Bが最小の0.2であるため、最もベクトル間の距離が近く、閾値dmin=0.6以下であるため、ニュース記事Aとニュース記事Bが類似していることになり、まとまる(
図8(a))。
ニュース記事A及びニュース記事Bを一つの新たなクラスター(ニュース記事A+ニュース記事B:図では(A,B))としてまとめ、ニュース記事C及びニュース記事Dとの間の距離を求めると、ニュース記事A+ニュース記事B(A,B)クラスターとニュース記事Cとの間の距離は平均値を取り、(0.8+0.6)/2=0.7となり、ニュース記事A+ニュース記事B(A,B)とニュース記事Dとの間の距離は(0.9+0.3)/2=0.6となる。従って、ニュース記事Cとニュース記事Dとの間の距離が0.4と、最もベクトル間の距離が近く、閾値dmin=0.6以下であるため、ニュース記事Cとニュース記事Dをひとまとめにする(
図8(b))。
ニュース記事Cとニュース記事Dとが新たなクラスター(ニュース記事C+ニュース記事D)となる。ニュース記事A+ニュース記事B(A,B)クラスターとニュース記事C+ニュース記事D(C,D)クラスターとの間の距離は(0.8+0.6+0.9+0.3)/4=0.65となる。他にニュース記事やクラスターが無いので、この時点で最小距離=0.65が閾値dmin=0.6を上回るので計算を終了する。このまとめたクラスターから、ニュース記事Aとニュース記事Bとは同一内容のニュース記事であることが分かる。ニュース記事AとB、ニュース記事CとDとでそれぞれひとまとめにすることができる(
図8(c))。その後、まとめたクラスター内のニュース記事AとB、ニュース記事CとDの各URL情報に対応するコメント数をそれぞれのまとめたクラスター毎に合計する。
【0043】
<クラスターで代表コメントを規定の上位件数(例:1件)残す方法>
図9は、クラスターで代表コメントを1件残す方法の説明図である。
(α)ニュース記事などのHTMLページ対するコメントの集合であるクラスター内に2つのコメントがある場合
コメントの投稿日時、コメントの文字数、コメントを発信した発信者のアカウントの強さ(フォロワー数、友達の人数)等が最大のものを既定の上位件数(例:1件)抽出する。
【0044】
(β)ニュース記事などのHTMLページ対するコメントの集合であるクラスター内に3つ以上のコメントがある場合
クラスター内の全コメントに関して、コメントの文章を言語解析し、単語に分解し、コメントベクトルを生成し、他のコメントベクトルとの距離の平均値を求め、その平均値が最も小さい値から順に既定の上位件数のコメントを代表コメントとする。この例では、上位1件として、説明する。
図9に示す例では、コメントAのベクトルからコメントDのベクトルまでの距離を前述のように数式(2)を用いて算出すると、コメントA〜コメントBが0.2、コメントA〜コメントCが0.8、コメントA〜コメントDが0.9、コメントB〜コメントCが0.6、コメントB〜コメントDが0.3、コメントC〜コメントDが0.4となる。更に、コメントAから他のコメントまでの距離の平均値が(0.8+0.9+0.2)/3=0.63、コメントBから他のコメントまでの距離の平均値が(0.2+0.6+0.3)/3=0.37、コメントCから他のコメントまでの距離の平均値が(0.8+0.6+0.4)/3=0.6、コメントDから他のコメントまでの距離の平均値が(0.3+0.9+0.4)/3=0.53となる。
従って、コメントBの平均値0.37が最小値となり上位1件なので、コメントBが代表コメントとなる。ここで、上位2件の場合は、コメントBに加えて、次に平均値が小さいコメントDも代表コメントも代表コメントとなる。
尚、前述と同様に、コメントの投稿日時、コメントの文字数、コメント発信者のアカウントの強さ(フォロワー数、友達の人数)等が最大のものを1件抽出してもよい。
【0045】
<プログラム>
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばサーバー装置、パーソナルコンピュータやワークステーションなどの汎用的なものが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
【0046】
例えば、
情報処理装置のコンピュータが読取可能なプログラムであって、
コンピュータに、
ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得ステップと、
URL情報が示す第2の文章情報を、ネットワークを介して取得する文章取得ステップと、
第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得ステップと、
第2の文章情報に対するコメントを取得するコメント取得ステップと、
第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリングステップと、
コメントから代表する代表コメントを抽出する第2のクラスタリングステップと、
まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、代表コメントとを掲載するまとめページを作成するページ作成ステップと、
を実行させるためのプログラムが挙げられる。
【0047】
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。
【0048】
<記憶媒体>
ここで、記憶媒体としては、例えばCD-ROM、フレキシブルディスク(FD)、CD-R等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
【0049】
CD-ROMは、Compact Disc Read Only Memoryの略である。フレキシブルディスクは、Flexible Disk:FDを意味する。CD-Rは、CD Recordableの略である。RAMは、Random-Access Memoryの略であるFeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。
【0050】
<作用効果>
本発明によれば、ネットワークを介して配信されるサイトの情報からニュース記事などのWebページの情報を収集して集約し、類似のニュース記事毎に内容ベースで区分けしたページを生成することにより、ユーザーがどれだけツイートしているのか、どれだけコメントを発しているのかがわかる(反響)。
また、本発明によれば、コメントを含むニュース記事を、タイトル及び概要に分割し、タイトル及び概要文を分割して単語ベクトルとしてタイトル間の単語ベクトル同士及び概要文間の単語ベクトル同士の距離が閾値以下のニュース記事を同一内容のニュース記事とみなして内容ベースで区分けしてランキングすることにより、反響にもランキングすることができる。処理量が多くても精度よくランキング処理することができる。例えば、コメント数やニュース記事数が百件程度の場合には数秒程度、ニュース記事数が千件程度の場合には十秒程度でニュース記事の仕分け及びランキングの処理が可能である。また、ローテーション表示により見やすくすることができる。
【0051】
尚、上述した実施の形態で、ニュース記事を例に説明したが、ニュース記事以外でも、ブログやコラム、宿泊施設の予約サイト、本や商品、サービスのレビューサイト、ECサイト、Web販売店比較サイトなどのWebページのように、ネットワーク上に公開された文章ページであればよく、HTMLページ以外のフォーマットを用いたページでもよい。また、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。