特許第5711689号(P5711689)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許5711689話題語抽出装置、話題語抽出方法、およびプログラム
<>
  • 特許5711689-話題語抽出装置、話題語抽出方法、およびプログラム 図000005
  • 特許5711689-話題語抽出装置、話題語抽出方法、およびプログラム 図000006
  • 特許5711689-話題語抽出装置、話題語抽出方法、およびプログラム 図000007
  • 特許5711689-話題語抽出装置、話題語抽出方法、およびプログラム 図000008
  • 特許5711689-話題語抽出装置、話題語抽出方法、およびプログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5711689
(24)【登録日】2015年3月13日
(45)【発行日】2015年5月7日
(54)【発明の名称】話題語抽出装置、話題語抽出方法、およびプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150416BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 170A
   G06F17/30 210A
【請求項の数】10
【全頁数】20
(21)【出願番号】特願2012-70736(P2012-70736)
(22)【出願日】2012年3月27日
(65)【公開番号】特開2013-205864(P2013-205864A)
(43)【公開日】2013年10月7日
【審査請求日】2014年7月31日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100122426
【弁理士】
【氏名又は名称】加藤 清志
(72)【発明者】
【氏名】成 智愛
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2004−185572(JP,A)
【文献】 特開2006−323654(JP,A)
【文献】 特開2010−224624(JP,A)
【文献】 松尾 豊,電子掲示板における会話からのハイライト部分の抽出,第47回 人工知能基礎論研究会資料 (SIG−FAI−A103),日本,社団法人人工知能学会,2002年 1月25日,37−42ページ
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置であって、
前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得するコミュニケーション情報取得手段と、
取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する形態素解析手段と、
前記形態素解析手段で抽出された単語毎の重要度を算出する重要度算出手段と、
前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得するユニークユーザ数取得手段と、
前記ユニークユーザ数取得手段で取得されたユニークユーザ数と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する重み付け係数算出手段と、
前記重要度算出手段で算出された単語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記形態素解析手段で抽出された単語から話題語を抽出する話題語抽出手段と、
を備える話題語抽出装置。
【請求項2】
前記コミュニケーション情報が、他のユーザにより発信されたコミュニケーション情報を再発信しているか否かを示す再発信情報を含み、
前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、前記再発信情報に基づいて、前記他のユーザにより発信されたコミュニケーション情報を再発信しているコミュニケーション情報の数を示す再発信コミュニケーション情報数を取得する再発信コミュニケーション情報数取得手段を備え、
前記重み付け係数算出手段が、前記再発信コミュニケーション情報数取得手段で取得された再発信コミュニケーション情報数と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、コミュニケーション情報の伝搬度合を考慮する重み付け係数を算出することを特徴とする請求項1に記載の話題語抽出装置。
【請求項3】
前記コミュニケーション情報蓄積サーバは、前記ユーザ間のリンク関係を管理し、
前記コミュニケーション情報蓄積サーバから、ユーザ間のリンク関係を取得するリンク関係取得手段と、
前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、各単語を含む前記コミュニケーション情報を発信したユニークユーザを取得し、取得されたユニークユーザと前記リンク関係取得手段で取得された前記リンク関係とに基づいて、当該取得されたユニークユーザの中で他のユニークユーザとリンクしているリンクユーザ数を取得するリンクユーザ数取得手段と、
を備え、
前記重み付け係数算出手段が、前記リンクユーザ数取得手段で取得されたリンクユーザ数と、前記ユニークユーザ数取得手段で取得されたユニークユーザ数とに基づいて、前記ユーザ間のリンク関係を考慮する重み付け係数を算出することを特徴とする請求項1または2に記載の話題語抽出装置。
【請求項4】
前記インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、前記コミュニケーション情報に含まれるテキスト情報の内容の特徴を表す重要語でない単語を格納する、予め用意された辞書を用いて、前記形態素解析手段で抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する重要語抽出手段を備え、
前記重要度算出手段が、前記重要語抽出手段で抽出された重要語毎の重要度を算出し、
前記話題語抽出手段が、前記重要度算出手段で算出された重要語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記重要度算出手段で算出された重要語から話題語を抽出することを特徴とする請求項1から3のいずれかに記載の話題語抽出装置。
【請求項5】
前記辞書が、指示代名詞を格納する指示代名詞辞書、挨拶に用いる単語を格納する挨拶辞書、および時節帯毎に、時節に関連する単語を格納する時節別単語辞書を含むことを特徴とする請求項4に記載の話題語抽出装置。
【請求項6】
前記重要語抽出手段が、前記形態素解析手段で抽出された単語から、前記指示代名詞辞書、および前記挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、
抽出された重要語候補の単語毎に、当該単語を含むテキスト情報のコミュニケーション情報の発信日時に基づいて特定される当該単語の時節と当該単語との組み合わせが前記時節別単語辞書に記憶されているか否かを判断し、前記時節別単語辞書に記憶されていない単語を重要語として抽出することを特徴とする請求項5に記載の話題語抽出装置。
【請求項7】
前記挨拶に用いる単語には、会話において本題に入る前や、前記会話の終了時に交わされる雑談に用いる単語も含むことを特徴とする請求項5または6に記載の話題語抽出装置。
【請求項8】
前記時節は、季節、曜日、および時間帯であることを特徴とする請求項5から7のいずれかに記載の話題語抽出装置。
【請求項9】
コミュニケーション情報取得手段、形態素解析手段、重要度算出手段、ユニークユーザ数取得手段、重み付け係数算出手段、および話題語抽出手段を備え、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置における話題語抽出方法であって、
前記コミュニケーション情報取得手段が、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する第1のステップと、
前記形態素解析手段が、前記第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する第2のステップと、
前記重要度算出手段が、前記形態素解析手段で抽出された単語毎の重要度を算出する第3のステップと、
前記ユニークユーザ数取得手段が、前記第1のステップで取得されたコミュニケーション情報を参照して、前記第3のステップで抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する第4のステップと、
前記重み付け係数算出手段が、前記第4のステップで取得されたユニークユーザ数と、前記第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する第5のステップと、
前記話題語抽出手段が、前記第3のステップで算出された単語毎の重要度と、前記第5のステップで算出された重み付け係数とに基づいて、前記第3のステップで抽出された単語から話題語を抽出する第6のステップと、
を含むことを特徴とする話題語抽出方法。
【請求項10】
コミュニケーション情報取得手段、形態素解析手段、重要度算出手段、ユニークユーザ数取得手段、重み付け係数算出手段、および話題語抽出手段を備え、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置における話題語抽出方法をコンピュータに実行させるためのプログラムであって、
前記コミュニケーション情報取得手段が、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する第1のステップと、
前記形態素解析手段が、前記第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する第2のステップと、
前記重要度算出手段が、前記形態素解析手段で抽出された単語毎の重要度を算出する第3のステップと、
前記ユニークユーザ数取得手段が、前記第1のステップで取得されたコミュニケーション情報を参照して、前記第3のステップで抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する第4のステップと、
前記重み付け係数算出手段が、前記第4のステップで取得されたユニークユーザ数と、前記第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する第5のステップと、
前記話題語抽出手段が、前記第3のステップで算出された単語毎の重要度と、前記第5のステップで算出された重み付け係数とに基づいて、前記第3のステップで抽出された単語から話題語を抽出する第6のステップと、
をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットを介したユーザ間のコミュニケーションのために発信された情報から話題語を抽出する話題語抽出装置、話題語抽出方法、およびプログラムに関する。
【背景技術】
【0002】
近年、Eメール、ブログ、SNS、TWITTER(登録商標)等による、インターネットを介したユーザ間のコミュニケーションが爆発的に増加している。インターネットを介したユーザ間のコミュニケーションのためにEメールやブログ等により発信された情報には、ユーザの感情表現や消費動向が現れており、また、口コミとしての宣伝効果もある。そのため、インターネットを介したユーザ間のコミュニケーションのために発信された情報を収集、分析することは重要となっている。そこで、インターネットを介したユーザ間のコミュニケーションのために発信された情報から、発信された情報の内容の特徴を表わし、話題になっている単語(以下、話題語という)を抽出することが益々重要となっている。
【0003】
例えば、文書のキーワードを抽出する従来例として、統計的な手法で文書のキーワードを抽出する方法としてtf−idf法がある(非特許文献1参照)。この「tf−idf法」は、処理対象の文書において、ある単語の出現頻度と、その単語が出現した文書の数とに基づいて、処理対象文書中で多数出現し、他の文書での出現数が少ない単語に、高い重要度を算出し、この算出された重要度に基づいて、キーワードを抽出する方法である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Gerard Salton, Michael J. McGill“Introduction to Modern Information Retrieval”,McGraw−Hill,1983.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、インターネットを介したユーザ間のコミュニケーションのために発信された情報は、会話文に近く、コミュニケーションを円滑にするための言葉が、話題とは関係なく頻繁に用いられるという特徴がある。そのため、出現数が多い単語を話題語としてしまうと、コミュニケーションを円滑にするための言葉が含まれてしまい、真の話題語以外の単語も話題語として抽出されてしまい、非特許文献1の「tf−idf法」を用いて、インターネットを介したユーザ間のコミュニケーションのために発信された情報から抽出した話題語は、精度が悪く、そのままでは分析に用いることができないという問題点があった。
【0006】
そこで、本発明は、上述の課題に鑑みてなされたものであり、インターネットを介したユーザ間のコミュニケーションのために発信された情報から真の話題語を抽出する話題語抽出装置、話題語抽出方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0008】
(1) 本発明は、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置であって、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得するコミュニケーション情報取得手段(例えば、図1のコミュニケーション情報取得部110に相当)と、取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する形態素解析手段(例えば、図1の形態素解析部120に相当)と、前記形態素解析手段で抽出された単語毎の重要度を算出する重要度算出手段(例えば、図1の重要度算出部130に相当)と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得するユニークユーザ数取得手段(例えば、図1のユニークユーザ数取得部140に相当)と、前記ユニークユーザ数取得手段で取得されたユニークユーザ数と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する重み付け係数算出手段(例えば、図1の重み付け係数算出部150に相当)と、前記重要度算出手段で算出された単語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記形態素解析手段で抽出された単語から話題語を抽出する話題語抽出手段(例えば、図1の話題語抽出部160に相当)と、を備える話題語抽出装置を提案している。
【0009】
この発明によれば、コミュニケーション情報取得手段は、コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する。形態素解析手段は、取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する。重要度算出手段は、形態素解析手段で抽出された単語毎の重要度を算出する。ユニークユーザ数取得手段は、コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、形態素解析手段で抽出された単語毎に、各単語をテキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する。重み付け係数算出手段は、ユニークユーザ数取得手段で取得されたユニークユーザ数と、コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する。話題語抽出手段は、重要度算出手段で算出された単語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記形態素解析手段で抽出された単語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報に含まれるテキスト情報の単語の中から、ユニークユーザ数を考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。
【0010】
(2) 本発明は、(1)の話題語抽出装置について、前記コミュニケーション情報が、他のユーザにより発信されたコミュニケーション情報を再発信しているか否かを示す再発信情報を含み、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、前記再発信情報に基づいて、前記他のユーザにより発信されたコミュニケーション情報を再発信しているコミュニケーション情報の数を示す再発信コミュニケーション情報数を取得する再発信コミュニケーション情報数取得手段(例えば、図3の再発信コミュニケーション情報数取得部210に相当)を備え、前記重み付け係数算出手段が、前記再発信コミュニケーション情報数取得手段で取得された再発信コミュニケーション情報数と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、コミュニケーション情報の伝搬度合を考慮する重み付け係数を算出することを特徴とする話題語抽出装置を提案している。
【0011】
この発明によれば、コミュニケーション情報が、他のユーザにより発信されたコミュニケーション情報を再発信しているか否かを示す再発信情報を含む。再発信コミュニケーション情報数取得手段は、コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、形態素解析手段で抽出された単語毎に、再発信情報に基づいて、他のユーザにより発信されたコミュニケーション情報を再発信しているコミュニケーション情報の数を示す再発信コミュニケーション情報数を取得する。重み付け係数算出手段は、再発信コミュニケーション情報数取得手段で取得された再発信コミュニケーション情報数と、コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、コミュニケーション情報の伝搬度合を考慮する重み付け係数を算出する。したがって、コミュニケーション情報の伝搬度合を考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、ユーザ間に伝搬している真の話題語を抽出することができる。
【0012】
(3) 本発明は、(1)または(2)の話題語抽出装置について、前記コミュニケーション情報蓄積サーバは、前記ユーザ間のリンク関係を管理し、前記コミュニケーション情報蓄積サーバから、ユーザ間のリンク関係を取得するリンク関係取得手段(例えば、図3のリンク関係取得部220に相当)と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、各単語を含む前記コミュニケーション情報を発信したユニークユーザを取得し、取得されたユニークユーザと前記リンク関係取得手段で取得された前記リンク関係とに基づいて、当該取得されたユニークユーザの中で他のユニークユーザとリンクしているリンクユーザ数を取得するリンクユーザ数取得手段(例えば、図3のリンクユーザ数取得部230に相当)と、を備え、前記重み付け係数算出手段が、前記リンクユーザ数取得手段で取得されたリンクユーザ数と、前記ユニークユーザ数取得手段で取得されたユニークユーザ数とに基づいて、前記ユーザ間のリンク関係を考慮する重み付け係数を算出することを特徴とする話題語抽出装置を提案している。
【0013】
この発明によれば、コミュニケーション情報蓄積サーバは、ユーザ間のリンク関係を管理する。リンク関係取得手段は、コミュニケーション情報蓄積サーバから、ユーザ間のリンク関係を取得する。リンクユーザ数取得手段は、コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、形態素解析手段で抽出された単語毎に、各単語を含むコミュニケーション情報を発信したユニークユーザを取得し、取得されたユニークユーザとリンク関係取得手段で取得されたリンク関係とに基づいて、取得されたユニークユーザの中で他のユニークユーザとリンクしているリンクユーザ数を取得する。重み付け係数算出手段は、リンクユーザ数取得手段で取得されたリンクユーザ数と、ユニークユーザ数取得手段で取得されたユニークユーザ数とに基づいて、ユーザ間のリンク関係を考慮する重み付け係数を算出する。したがって、ユーザ間のリンク関係を考慮した重要度に基づいて話題語を抽出することにより、リンク関係にあるユーザ間で話題になっている話題語を抽出することができる。
【0014】
(4) 本発明は、(1)から(3)の話題語抽出装置について、前記インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、前記コミュニケーション情報に含まれるテキスト情報の内容の特徴を表す重要語でない単語を格納する、予め用意された辞書を用いて、前記形態素解析手段で抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する重要語抽出手段(例えば、図4の重要語抽出部310に相当)を備え、前記重要度算出手段が、前記重要語抽出手段で抽出された重要語毎の重要度を算出し、前記話題語抽出手段が、前記重要度算出手段で算出された重要語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記重要度算出手段で算出された重要語から話題語を抽出することを特徴とする話題語抽出装置を提案している。
【0015】
この発明によれば、重要語抽出手段が、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、コミュニケーション情報に含まれるテキスト情報の内容の特徴を表す重要語でない単語を格納する、予め用意された辞書を用いて、形態素解析手段で抽出された単語から辞書に格納されている単語を除いて、重要語を抽出する。重要度算出手段が、重要語抽出手段で抽出された重要語毎の重要度を算出する。話題語抽出手段が、重要度算出手段で算出された重要語毎の重要度と、重み付け係数算出手段で算出された重み付け係数とに基づいて、重要度算出手段で算出された重要語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、コミュニケーションの内容の特徴を表す重要語でない単語を話題語から除くことができる。
(5) 本発明は、(4)の話題語抽出装置について、前記辞書が、指示代名詞を格納する指示代名詞辞書(例えば、図4の指示代名詞辞書321に相当)、挨拶に用いる単語を格納する挨拶辞書(例えば、図4の挨拶辞書322に相当)、および時節毎に、時節に関連する単語を格納する時節別単語辞書(例えば、図4の時節別単語辞書323に相当)を含むことを特徴とする話題語抽出装置を提案している。
【0016】
この発明によれば、辞書は、指示代名詞を格納する指示代名詞辞書、挨拶に用いる単語を格納する挨拶辞書、および時節毎に、時節に関連する単語を格納する時節別単語辞書を含む。したがって、コミュニケーション情報に含まれるテキスト情報から抽出された単語から、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられる単語である指示代名詞、挨拶、および時節に関連する単語を除くことによって、コミュニケーションの内容の特徴を表す重要語を抽出することができる。
【0017】
(6) 本発明は、(5)の話題語抽出装置について、前記重要語抽出手段が、前記形態素解析手段で抽出された単語から、前記指示代名詞辞書、および前記挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、抽出された重要語候補の単語毎に、当該単語を含むテキスト情報のコミュニケーション情報の発信日時に基づいて特定される当該単語の時節と当該単語との組み合わせが前記時節別単語辞書に記憶されているか否かを判断し、前記時節別単語辞書に記憶されていない単語を重要語として抽出することを特徴とする話題語抽出装置を提案している。
【0018】
この発明によれば、重要語抽出手段が、形態素解析手段で抽出された単語から、指示代名詞辞書、および挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、抽出された重要語候補の単語毎に、単語を含むコミュニケーション情報の発信日時に基づいて特定される単語の時節と単語との組み合わせが時節別単語辞書に記憶されているか否かを判断し、時節別単語辞書に記憶されていない単語を重要語として抽出する。したがって、時節別単語辞書を用いる前に、指示代名詞辞書および挨拶辞書に格納されている単語を除くことによって、時節を特定する単語の数を減すことができ、その結果効率よく重要語を抽出することができる。
【0019】
(7) 本発明は、(5)または(6)の話題語抽出装置について、前記挨拶に用いる単語には、会話において本題に入る前や、前記会話の終了時に交わされる雑談に用いる単語も含むことを特徴とする話題語抽出装置を提案している。
【0020】
この発明によれば、挨拶に用いる単語には、会話において本題に入る前や、会話の終了時に交わされる雑談に用いる単語も含む。したがって、広い意味で挨拶に含まれる、本題に入る前に互いに関する情報や天候や前後の無関係な雑談や会話の終了時に別れる場合に行われる雑談、に用いられる単語を挨拶辞書に含めることにより、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、重要語でない単語を除くことにより、コミュニケーションの内容の特徴を表す重要語を抽出することができる。
【0021】
(8) 本発明は、(5)から(7)の話題語抽出装置について、前記時節は、季節、曜日、時間帯であることを特徴とする話題語抽出装置を提案している。
【0022】
この発明によれば、時節は、季節、曜日、および時間帯である。したがって、インターネットを介したユーザ間のコミュニケーションを円滑にするためによく用いられる、季節、曜日、および時間帯に関連する単語を除き、コミュニケーションの内容の特徴を表す重要語を抽出することができる。
【0023】
(8) 本発明は、コミュニケーション情報取得手段、形態素解析手段、重要度算出手段、ユニークユーザ数取得手段、重み付け係数算出手段、および話題語抽出手段を備え、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置における話題語抽出方法であって、前記コミュニケーション情報取得手段が、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する第1のステップ(例えば、図2のステップS1)と、前記形態素解析手段が、前記第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する第2のステップ(例えば、図2のステップS2)と、前記重要度算出手段が、前記形態素解析手段で抽出された単語毎の重要度を算出する第3のステップ(例えば、図1のステップS3)と、前記ユニークユーザ数取得手段が、前記第1のステップで取得されたコミュニケーション情報を参照して、前記第3のステップで抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する第4のステップ(例えば、図2のステップS4)と、前記重み付け係数算出手段が、前記第4のステップで取得されたユニークユーザ数と、前記第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する第5のステップ(例えば、図2のステップS5)と、前記話題語抽出手段が、前記第3のステップで算出された単語毎の重要度と、前記第5のステップで算出された重み付け係数とに基づいて、前記第3のステップで抽出された単語から話題語を抽出する第6のステップ(例えば、図2のステップS6)と、を含むことを特徴とする話題語抽出方法を提案している。
【0024】
この発明によれば、まず、第1のステップにおいて、コミュニケーション情報取得手段が、コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する。次に、第2のステップにおいて、形態素解析手段が、第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する。次に、第3のステップにおいて、重要度算出手段が、形態素解析手段で抽出された単語毎の重要度を算出する。次に、第4のステップにおいて、ユニークユーザ数取得手段が、第1のステップで取得されたコミュニケーション情報を参照して、第3のステップで抽出された単語毎に、各単語をテキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する。次に、第5のステップにおいて、重み付け係数算出手段が、第4のステップで取得されたユニークユーザ数と、第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する。次に、第6のステップにおいて、話題語抽出手段が、第3のステップで算出された単語毎の重要度と、第5のステップで算出された重み付け係数とに基づいて、第3のステップで抽出された単語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報に含まれるテキスト情報の単語の中から、ユニークユーザを考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。
【0025】
(9) 本発明は、コミュニケーション情報取得手段、形態素解析手段、重要度算出手段、ユニークユーザ数取得手段、重み付け係数算出手段、および話題語抽出手段を備え、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置における話題語抽出方法をコンピュータに実行させるためのプログラムであって、前記コミュニケーション情報取得手段が、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する第1のステップ(例えば、図2のステップS1)と、前記形態素解析手段が、前記第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する第2のステップ(例えば、図2のステップS2)と、前記重要度算出手段が、前記形態素解析手段で抽出された単語毎の重要度を算出する第3のステップ(例えば、図1のステップS3)と、前記ユニークユーザ数取得手段が、前記第1のステップで取得されたコミュニケーション情報を参照して、前記第3のステップで抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する第4のステップ(例えば、図2のステップS4)と、前記重み付け係数算出手段が、前記第4のステップで取得されたユニークユーザ数と、前記第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する第5のステップ(例えば、図2のステップS5)と、前記話題語抽出手段が、前記第3のステップで算出された単語毎の重要度と、前記第5のステップで算出された重み付け係数とに基づいて、前記第3のステップで抽出された単語から話題語を抽出する第6のステップ(例えば、図2のステップS6)と、コンピュータに実行させるためのプログラムを提案している。
【0026】
この発明によれば、まず、第1のステップにおいて、コミュニケーション情報取得手段が、コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する。次に、第2のステップにおいて、形態素解析手段が、第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する。次に、第3のステップにおいて、重要度算出手段が、形態素解析手段で抽出された単語毎の重要度を算出する。次に、第4のステップにおいて、ユニークユーザ数取得手段が、第1のステップで取得されたコミュニケーション情報を参照して、第3のステップで抽出された単語毎に、各単語をテキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する。次に、第5のステップにおいて、重み付け係数算出手段が、第4のステップで取得されたユニークユーザ数と、第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する。次に、第6のステップにおいて、話題語抽出手段が、第3のステップで算出された単語毎の重要度と、第5のステップで算出された重み付け係数とに基づいて、第3のステップで抽出された単語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報に含まれるテキスト情報の単語の中から、ユニークユーザを考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。
【発明の効果】
【0027】
本発明によれば、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報に含まれるテキスト情報の単語の中から、ユニークユーザ数、情報の伝搬度合、ユーザ間のリンク関係の少なくとも1つを考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。

【図面の簡単な説明】
【0028】
図1】本発明の第1の実施形態に係る話題語抽出装置の機能構成を示す図である。
図2】本発明の第1の実施形態に係る話題語抽出処理のフロー図である。
図3】本発明の第2の実施形態に係る話題語抽出装置の機能構成を示す図である。
図4】本発明の第3の実施形態に係る話題語抽出装置の機能構成を示す図である。
図5】本発明の第3の実施形態に係る重要語を抽出処理の一例を示すフロー図である。
【発明を実施するための形態】
【0029】
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含むさまざまなバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0030】
<第1の実施形態>
図1および図2を用いて、本発明の第1の実施形態について説明する。
【0031】
<話題語抽出装置の機能構成>
図1は、本発明の第1の実施形態に係る話題語抽出装置100の機能構成を示す図である。話題語抽出装置100は、通信ネットワークを介してコミュニケーション情報蓄積サーバ10と接続される。
【0032】
コミュニケーション情報蓄積サーバ10は、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報を蓄積、管理する。ここで、コミュニケーション情報は、例えば、Eメールや、ブログ、SNSおよびTWITTER等のソーシャル・ネット・ワーキングサービスへの投稿情報や、インスタントメッセージである。本実施形態のコミュニケーション情報には、コミュニケーションの内容を示すテキスト情報、コミュニケーション情報が発信された日時(以下、発信日時とする)、およびコミュニケーション情報を発信したユーザを一意に特定する情報(例えば、ユーザIDやユーザ名)が含まれる。
【0033】
話題語抽出装置100は、図1に示すように、コミュニケーション情報取得部110、形態素解析部120、重要度算出部130、ユニークユーザ数取得部140、重み付け係数算出部150、および話題語抽出部160を備える。
【0034】
コミュニケーション情報取得部110は、所定期間について、コミュニケーション情報蓄積サーバ10からコミュニケーション情報を取得する。例えば、コミュニケーション情報蓄積サーバを提供している事業者が提供しているAPIを利用して、コミュニケーション情報蓄積サーバ10からコミュニケーション情報を取得する。ここで、所定期間は、コミュニケーション情報の分析を行う分析者が任意に設定することができ、直近の1カ月間や、昨年12カ月間等と設定することができる。
【0035】
形態素解析部120は、コミュニケーション情報取得部110で取得されたコミュニケーション情報を形態素解析し、単語を抽出する。なお、形態素解析部120は、形態素解析部120で形態素解析された単語から、予め設定された特定の品詞を抽出してもよい。
【0036】
重要度算出部130は、形態素解析部120で抽出された単語それぞれの重要度を算出する。重要度を算出する方法としては、tf−idf(Term Frequency Inverse Document Frequency)を計算し、そのスコアを重要度として利用する方法がある。
【0037】
ユニークユーザ数取得部140は、まず、形態素解析部120で抽出された単語毎に、コミュニケーション情報取得部110で取得したコミュニケーション情報から、各単語を含むテキスト情報のコミュニケーション情報を抽出する。そして、ユニークユーザ数取得部140は、単語毎に、抽出したコミュニケーション情報のユーザ情報に基づいて、ユニークユーザ数をカウントし、取得する。ここで、ユニークユーザ数とは、単語を含むテキスト情報のコミュニケーション情報を発信したユニークなユーザの数であって、同じユーザが同じ単語を含むコミュニケーション情報を何度してもまとめて1回の発信としてカウントした、単語を使用したユーザの正味人数である。
【0038】
重み付け係数算出部150は、まず、形態素解析部120で抽出された単語毎に、コミュニケーション情報取得部110で取得したコミュニケーション情報から、各単語を含むコミュニケーション情報の数(以下、コミュニケーション情報数とする)をカウントし、取得する。次に、重み付け係数算出部150は、形態素解析部120で抽出された単語毎に、数1に示すように、取得したコミュニケーション情報数で、ユニークユーザ数取得部140で取得されたユニークユーザ数を割った商を重み付け係数αとして算出する。重み付け係数αは、ユニークユーザ数が少ない、すなわち、特定ユーザの使用頻度が高い単語に場合には、値が小さくなり、一方、ユニークユーザ数が大きい、すなわち、特定ユーザの使用頻度が低く、多くのユニークユーザが使用している単語の場合には、値が大きくなる。
【0039】
【数1】
【0040】
話題語抽出部160は、重要度算出部130で算出された重要度に、重み付け係数算出部150で算出された重み付け係数αを乗算し、重み付け係数αが乗算された重要度に基づいて、形態素解析部120で抽出された単語の中から話題語を抽出する。例えば、話題語抽出部160は、重み付け係数αが乗算された重要度が、予め設定されたしきい値以上である単語を話題語として抽出する。また、話題語抽出部160は、形態素解析部120で抽出された単語を、重み付け係数αが乗算された重要度が高い順に並べ、上位から所定の数の単語を話題語としてもよい。
【0041】
話題語を抽出する際に用いる重要度として、tf−idf等により算出された重要度にユニークユーザを考慮した重み付け係数αを乗算した値を用いることにより、特定ユーザの使用頻度が高い単語の重要度を下げ、一方、多くのユニークユーザが使用している単語の重要度を上げることができる。その結果、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが使用している真の話題語を抽出することができる。
【0042】
<話題語抽出処理フロー>
図2は、本発明の第1の実施形態に係る話題語抽出処理フローを示す図である。
【0043】
まず、ステップS1において、コミュニケーション情報取得部110は、コミュニケーション情報蓄積サーバ10からコミュニケーション情報を取得する。
【0044】
次に、ステップS2において、形態素解析部120は、ステップS1で取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する。
【0045】
次に、ステップS3において、重要度算出部130は、ステップS2で抽出された単語の重要度を算出する。
【0046】
次に、ステップS4において、ユニークユーザ数取得部140は、ステップS2で抽出された単語毎に、単語を含むテキスト情報のコミュニケーション情報を発信したユニークユーザ数をカウントし、取得する。
【0047】
次に、ステップS5において、重み付け係数算出部150は、ステップS4で取得されたユニークユーザ数を、ステップS1で取得されたコミュニケーション情報の数で割った商を、ユニークユーザを考慮した重み付け係数αとして算出する。
【0048】
次に、ステップS6において、話題語抽出部160は、ステップS3で算出された重要度に、ステップS5で算出された重み付け係数αを乗算し、重み付け係数αが乗算された重要度に基づいて、ステップS2で抽出された単語の中から話題語を抽出する。
【0049】
以上説明したように、本実施形態によれば、インターネットを介したユーザ間のコミュニケーションにおいて発信されたコミュニケーション情報のテキスト情報に含まれる単語の中から、tf−idf等により算出された重要度にユニークユーザ数を考慮した重み付け係数αを乗算した重要度に基づいて、話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。
【0050】
<第2の実施形態>
図3を用いて、本発明の第2の実施形態について説明する。なお、本実施形態における話題語抽出装置は、単語の伝搬度合や、単語を使用しているユーザのリンク関係も加味して、話題語を抽出する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
【0051】
図3は、本発明の第2の実施形態に係る話題語抽出装置200の機能構成を示す図である。話題語抽出装置200は、通信ネットワークを介してコミュニケーション情報蓄積サーバ10と接続される。
【0052】
本実施形態において、コミュニケーション情報蓄積サーバ10が記憶、管理するコミュニケーション情報には、コミュニケーション情報が発信された日時(以下、発信日時とする)、およびコミュニケーション情報を発信したユーザを一意に特定する情報(例えば、ユーザIDやユーザ名)とともに、再発信情報が含まれている。ここで、再発信情報とは、コミュニケーション情報のテキスト情報に、他のユーザのコミュニケーション情報のテキスト情報の全部または一部が含まれているか否かを示す情報であって、例えば、TWITTERのリツイートであるか否かを示す情報である。
【0053】
話題語抽出装置200は、図1に示すように、コミュニケーション情報取得部110、形態素解析部120、重要度算出部130、ユニークユーザ数取得部140、再発信コミュニケーション情報数取得部210、リンク関係取得部220、リンクユーザ数取得部230、重み付け係数算出部151、および話題語抽出部161を備える。
【0054】
再発信コミュニケーション情報数取得部210は、コミュニケーション情報取得部110で取得されたコミュニケーション情報に含まれる再発信情報に基づいて、他のユーザにより発信されたコミュニケーション情報を再発信しているコミュニケーション情報の数(以下、再発信コミュニケーション情報数という)を取得する。
【0055】
リンク関係取得部220は、コミュニケーション情報蓄積サーバ10から、ユーザ間のリンク関係を取得する。例えば、ユーザBはユーザAとリンク関係を結んでいるといった情報である。なお、何階層目までのリンク関係を取得するかは任意であるが、2、3階層目までが望ましい。
【0056】
リンクユーザ数取得部230は、まず、抽出したコミュニケーション情報のユーザ情報に基づいて、単語毎に、単語を含むコミュニケーション情報を発信したユニークユーザを抽出する。次に、リンクユーザ数取得部230は、単語毎に、抽出したユニークユーザを、リンク関係取得部220で取得したリンク関係に基づいて、リンクユーザと被リンクユーザとに分ける。ここで、リンクユーザは、他のユーザに対してリンクを結んでいるユーザであって、例えば、TWITTERのフォロワーである。一方、被リンクユーザは、他のユーザからリンク関係を結ばれたユーザであって、例えば、TWITTERのフォローされている人である。そして、リンクユーザ数取得部230は、単語毎に、リンクユーザの数(以下、リンクユーザ数という)をカウントし、取得する。
【0057】
重み付け係数算出部151は、まず、形態素解析部120で抽出された単語毎に、コミュニケーション情報取得部110で取得したコミュニケーション情報から、各単語を含むコミュニケーション情報を検索し、単語毎のコミュニケーション情報数を取得する。次に、重み付け係数算出部151は、形態素解析部120で抽出された単語毎に、数2に示すように、取得したコミュニケーション情報数で、再発信コミュニケーション情報数取得部210で取得された再発信コミュニケーション情報数を割った商を、重み付け係数βとして算出する。重み付け係数βは、再発信コミュニケーション情報数が少ない、すなわち、コミュニケーション情報があまり伝搬していない単語の場合には、値が小さくなり、一方、再発信コミュニケーション情報数が大きい、すなわち、コミュニケーション情報が広く伝搬している単語の場合には、値が大きくなる。
【0058】
【数2】
【0059】
また、重み付け係数算出部151は、形態素解析部120で抽出された単語毎に、数3に示すように、ユニークユーザ数取得部140で取得されたユニークユーザ数で、リンクユーザ数取得部230で取得されたリンクユーザ数を割った商を重み付け係数γとして算出する。重み付け係数γは、リンクユーザ数が多い、すなわち、リンク関係にあるユーザ間での使用頻度が高い単語の場合には、値が大きくなり、一方、リンクユーザ数が小さい、すなわち、リンク関係にあるユーザ間以外での使用頻度が高い単語の場合には、値が小さくなる。
【0060】
【数3】
【0061】
話題語抽出部161は、重要度算出部130で算出された重要度に、重み付け係数算出部151で算出された重み付け係数αおよび重み付け係数βを乗算し、重み付け係数αおよびβが乗算された重要度に基づいて、形態素解析部120で抽出された単語の中から話題語を抽出する。例えば、話題語抽出部161は、重み付け係数αおよびβが乗算された重要度が、予め設定されたしきい値以上である単語を話題語として抽出する。また、話題語抽出部161は、形態素解析部120で抽出された単語を、重み付け係数αおよびβが乗算された重要度が高い順に並べ、上位から所定の数の単語を話題語としてもよい。
【0062】
話題語を抽出する際に用いる重要度として、tf−idf等により算出された重要度にユニークユーザを考慮した重み付け係数αとともに、単語の伝搬度合を考慮する重み付け係数βを乗算した値を用いることにより、ユーザ間に伝搬していない単語の重要度を下げ、一方、ユーザ間に広く伝搬している単語の重要度を上げることができる。その結果、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが使用し、かつ広く伝搬している真の話題語を抽出することができる。
【0063】
また、話題語抽出部161は、重要度算出部130で算出された重要度に、重み付け係数算出部151で算出された重み付け係数αおよび重み付け係数γを乗算し、重み付け係数αおよびγが乗算された重要度に基づいて、形態素解析部120で抽出された単語の中から話題語を抽出する。例えば、話題語抽出部161は、重み付け係数αおよびγが乗算された重要度が、予め設定されたしきい値以上である単語を話題語として抽出する。また、話題語抽出部161は、形態素解析部120で抽出された単語を、重み付け係数αおよびγが乗算された重要度が高い順に並べ、上位から所定の数の単語を話題語としてもよい。
【0064】
話題語を抽出する際に用いる重要度として、tf−idf等により算出された重要度にユニークユーザを考慮した重み付け係数αとともに、ユーザ間のリンク関係を考慮する重み付け係数γを乗算した値を用いることにより、リンク関係にあるユーザ間以外での使用頻度が高い単語の重要度を下げ、一方、リンク関係にあるユーザ間の使用頻度が高い単語の重要度を上げることができる。その結果、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが使用し、かつリンク関係にあるユーザ間の使用頻度が高い単語、すなわち、一部のユーザで話題になっている単語であって、これからユーザ間に伝搬し話題になる可能性のある単語を話題語として抽出することができる。
【0065】
なお、話題語抽出部161は、重み付け係数αとともに、重み付け係数βおよび重み付け係数γの両方を乗算した重要度を話題語の抽出に用いてもよい。
【0066】
以上説明したように、本実施形態によれば、インターネットを介したユーザ間のコミュニケーションにおいて発信されたコミュニケーション情報のテキスト情報に含まれる単語の中から、tf−idf等により算出された重要度に、ユニークユーザを考慮した重み付け係数αとともに書き込み情報の伝搬度合を考慮した重み付け係数βを乗算した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、ユーザ間に伝搬している真の話題語を抽出することができる。
【0067】
更に、インターネットを介したユーザ間のコミュニケーションにおいて発信されたコミュニケーション情報のテキスト情報に含まれる単語の中から、tf−idf等により算出された重要度に、ユニークユーザを考慮した重み付け係数αとともにユーザ間のリンク関係を考慮した重み付け係数γを乗算した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、一部のユーザで話題になっている単語であって、これからユーザ間に伝搬し話題になる可能性のある単語を話題語として抽出することができる。
【0068】
<第3の実施形態>
図4および図5を用いて、本発明の第3の実施形態について説明する。
【0069】
<話題語抽出装置の機能構成>
図4は、本発明の第3の実施形態に係る話題語抽出装置300の機能構成を示す図である。話題語抽出装置300は、通信ネットワークを介してコミュニケーション情報蓄積サーバ10と接続される。
【0070】
話題語抽出装置300は、図4に示すように、コミュニケーション情報取得部110、形態素解析部120、重要度算出部132、ユニークユーザ数取得部142、重み付け係数算出部152、話題語抽出部162、重要語抽出部310、および辞書記憶部320を備える。
【0071】
重要語抽出部310は、形態素解析部120で形態素解析された単語から、予め用意された、辞書記憶部320に記憶されている単語を除くことによって、重要語を抽出する。重要語の抽出処理については後述する。
【0072】
辞書記憶部320は、予め用意された辞書を記憶する。辞書には、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、コミュニケーションの内容の特徴を表す重要語でない単語が格納されている。なお、重要語とは、コミュニケーションの内容の特徴を表す単語である。
【0073】
本実施形態において、辞書記憶部320には、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられる単語であって、コミュニケーションにおいて重要語にはならない単語である指示代名詞、挨拶に用いられる単語、および時節関連単語をそれぞれ格納する、指示代名詞辞書321、挨拶辞書322、および時節別単語辞書323が記憶される。なお、辞書記憶部320に記憶される辞書は、追加および削除することができる。
【0074】
指示代名詞辞書321は、指示代名詞が格納され、例えば、テキスト情報が日本語の場合には、彼、彼女、これ、それ等が格納されている。
【0075】
挨拶辞書322は、挨拶に用いられる単語、例えば、こんにちわ、さようなら、ありがとう等が格納されている。
【0076】
なお、挨拶に用いられる単語には、会話において本題に入る前や、会話の終了時に交わされる雑談に用いる単語を含んでもよい。コミュニケーション情報は、インターネットを介したユーザ間のコミュニケーションのために発信されるので、テキスト情報は会話文に近い。そのため、会話において一般的に行われる、本題に入る前に互いに関する情報や天候や本題の前後の無関係な雑談や会話の終了時に別れる場合に行われる雑談が、書き込み情報にも含まれることがよくある。これらの雑談に含まれる単語は、こんにちわ、さようなら等と同様に、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられる単語であって、コミュニケーション情報において重要語にはならない単語であるので、これらの単語も挨拶辞書322に含めることにより、コミュニケーション情報を円滑にするために用いられる単語を重要語から除くことができる。
【0077】
時節別単語辞書323は、時節毎に、時節に関連する単語を格納する。ここで、時節とは、時間帯、曜日、季節等である。時節別単語辞書323は、例えば、時間帯「朝」に対応付けて、例えば、朝に関連する「朝」や「朝食」等の単語を格納し、曜日「日曜日」に対応付けて、日曜日に関連する「日曜」や「休日」の単語を格納する。
【0078】
ここで、辞書記憶部320に記憶されている指示代名詞辞書321、挨拶辞書322、および時節別単語辞書323を用いた、重要語抽出部310による重要語の抽出処理の一例について、図5を用いて、説明する。
【0079】
まず、ステップS11において、重要語抽出部310は、形態素解析部120で解析された単語から、指示代名詞辞書321に記憶されている単語を除く。
【0080】
次に、ステップS12において、重要語抽出部310は、ステップS11の結果残った単語から、挨拶辞書322に記憶されている単語を除く。ここで、ステップS12の結果残った単語を重要語候補とする。なお、ステップS11とステップS12とは、順序が逆であってもよい。
【0081】
次に、ステップS13において、重要語抽出部310は、重要語候補から1つの単語を抽出する。なお、抽出した単語は、重要語候補から除く。
【0082】
次に、ステップS14において、重要語抽出部310は、ステップS13で抽出された単語を含む書き込み情報の投稿日時に基づいて、ステップS13で抽出された単語の時節を特定する。
【0083】
次に、ステップS15において、重要語抽出部310は、ステップS14で特定された時節に対応付けてステップS13で抽出された単語が、時節別単語辞書323に格納されているか否かを判断する。時節別単語辞書323に格納されている場合(YES)には、ステップS13で抽出された単語を重要語として抽出せず、ステップS17に処理を進める。一方、時節別単語辞書323に格納されていない場合(NO)には、ステップS16に処理を進める。
【0084】
ステップS16において、重要語抽出部310は、ステップS13で抽出された単語を重要語に含める。
【0085】
ステップS17において、重要語抽出部310は、重要語候補が残っているか否かを判断する。重要語候補が残っている場合(YES)には、ステップS13に処理を戻し、一方、重要語候補が残っていない場合(NO)には、処理を終了する。
【0086】
このように、時節別単語辞書を用いる前に、指示代名詞辞書および挨拶辞書に格納されている単語を除くことによって、時節を特定する単語の数を減すことができ、その結果、効率よく重要語を抽出することができる。
【0087】
ユニークユーザ数取得部140は、まず、重要語抽出部310で抽出された重要語毎に、コミュニケーション情報取得部110で取得したコミュニケーション情報から、各重要語を含むコミュニケーション情報を抽出する。そして、ユニークユーザ数取得部140は、重要語毎に、抽出したコミュニケーション情報のユーザ情報に基づいて、ユニークユーザ数をカウントし、取得する。ここで、ユニークユーザ数とは、重要語を含むコミュニケーション情報を発信したユニークなユーザの数であって、同じユーザが同じ重要語を含むコミュニケーション情報を何度してもまとめて1回の発信としてカウントした、重要語を使用したユーザの正味人数である。
【0088】
重み付け係数算出部152は、まず、重要語抽出部310で抽出された重要語毎に、コミュニケーション情報取得部110で取得したコミュニケーション情報から、各重要語を含むコミュニケーション情報数をカウントし、取得する。次に、重み付け係数算出部152は、重要語抽出部310で抽出された重要語毎に、第1の実施形態で示した数1に示すように、取得したコミュニケーション情報数で、ユニークユーザ数取得部142で取得されたユニークユーザ数を割った商を重み付け係数αとして算出する。重み付け係数αは、ユニークユーザ数が少ない、すなわち、特定ユーザの使用頻度が高い重要語の場合には、値が小さくなり、一方、ユニークユーザ数が大きい、すなわち、特定ユーザの使用頻度が低く、多くのユニークユーザが使用している重要語の場合には、値が大きくなる。
【0089】
話題語抽出部162は、重要度算出部130で算出された重要度に、重み付け係数算出部152で算出された重み付け係数αを乗算し、重み付け係数αが乗算された重要度に基づいて、重要語抽出部310で抽出された重要語の中から話題語を抽出する。例えば、話題語抽出部160は、重み付け係数αが乗算された重要度が、予め設定されたしきい値以上である重要語を話題語として抽出する。また、話題語抽出部160は、重要語抽出部310で抽出された重要語を、重み付け係数αが乗算された重要度が高い順に並べ、上位から所定の数の重要語を話題語としてもよい。
【0090】
以上説明したように、本実施形態によれば、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、コミュニケーションの内容の特徴を表す重要語でない単語を除いた重要語の中から、tf−idf等により算出された重要度に、ユニークユーザを考慮した重み付け係数αを乗算した重要度に基づいて話題語を抽出することにより、ソーシャル・メディアの多くのユーザが話題にしている真の話題語を抽出することができる。
【0091】
なお、話題語抽出装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを、話題語抽出装置を構成する各機器に読み込ませ、実行することによって本発明の話題語抽出装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0092】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0093】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0094】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0095】
10 コミュニケーション情報蓄積サーバ
100 話題語抽出装置
110 コミュニケーション情報取得部
120 形態素解析部
130 重要度算出部
140 ユニークユーザ数取得部
150 重み付け係数算出部
160 話題語抽出部
図1
図2
図3
図4
図5