【課題を解決するための手段】
【0007】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0008】
(1) 本発明は、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置であって、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得するコミュニケーション情報取得手段(例えば、
図1のコミュニケーション情報取得部110に相当)と、取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する形態素解析手段(例えば、
図1の形態素解析部120に相当)と、前記形態素解析手段で抽出された単語毎の重要度を算出する重要度算出手段(例えば、
図1の重要度算出部130に相当)と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得するユニークユーザ数取得手段(例えば、
図1のユニークユーザ数取得部140に相当)と、前記ユニークユーザ数取得手段で取得されたユニークユーザ数と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する重み付け係数算出手段(例えば、
図1の重み付け係数算出部150に相当)と、前記重要度算出手段で算出された単語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記形態素解析手段で抽出された単語から話題語を抽出する話題語抽出手段(例えば、
図1の話題語抽出部160に相当)と、を備える話題語抽出装置を提案している。
【0009】
この発明によれば、コミュニケーション情報取得手段は、コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する。形態素解析手段は、取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する。重要度算出手段は、形態素解析手段で抽出された単語毎の重要度を算出する。ユニークユーザ数取得手段は、コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、形態素解析手段で抽出された単語毎に、各単語をテキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する。重み付け係数算出手段は、ユニークユーザ数取得手段で取得されたユニークユーザ数と、コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する。話題語抽出手段は、重要度算出手段で算出された単語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記形態素解析手段で抽出された単語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報に含まれるテキスト情報の単語の中から、ユニークユーザ数を考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。
【0010】
(2) 本発明は、(1)の話題語抽出装置について、前記コミュニケーション情報が、他のユーザにより発信されたコミュニケーション情報を再発信しているか否かを示す再発信情報を含み、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、前記再発信情報に基づいて、前記他のユーザにより発信されたコミュニケーション情報を再発信しているコミュニケーション情報の数を示す再発信コミュニケーション情報数を取得する再発信コミュニケーション情報数取得手段(例えば、
図3の再発信コミュニケーション情報数取得部210に相当)を備え、前記重み付け係数算出手段が、前記再発信コミュニケーション情報数取得手段で取得された再発信コミュニケーション情報数と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、コミュニケーション情報の伝搬度合を考慮する重み付け係数を算出することを特徴とする話題語抽出装置を提案している。
【0011】
この発明によれば、コミュニケーション情報が、他のユーザにより発信されたコミュニケーション情報を再発信しているか否かを示す再発信情報を含む。再発信コミュニケーション情報数取得手段は、コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、形態素解析手段で抽出された単語毎に、再発信情報に基づいて、他のユーザにより発信されたコミュニケーション情報を再発信しているコミュニケーション情報の数を示す再発信コミュニケーション情報数を取得する。重み付け係数算出手段は、再発信コミュニケーション情報数取得手段で取得された再発信コミュニケーション情報数と、コミュニケーション情報取得手段で取得されたコミュニケーション情報の数とに基づいて、コミュニケーション情報の伝搬度合を考慮する重み付け係数を算出する。したがって、コミュニケーション情報の伝搬度合を考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、ユーザ間に伝搬している真の話題語を抽出することができる。
【0012】
(3) 本発明は、(1)または(2)の話題語抽出装置について、前記コミュニケーション情報蓄積サーバは、前記ユーザ間のリンク関係を管理し、前記コミュニケーション情報蓄積サーバから、ユーザ間のリンク関係を取得するリンク関係取得手段(例えば、
図3のリンク関係取得部220に相当)と、前記コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、前記形態素解析手段で抽出された単語毎に、各単語を含む前記コミュニケーション情報を発信したユニークユーザを取得し、取得されたユニークユーザと前記リンク関係取得手段で取得された前記リンク関係とに基づいて、当該取得されたユニークユーザの中で他のユニークユーザとリンクしているリンクユーザ数を取得するリンクユーザ数取得手段(例えば、
図3のリンクユーザ数取得部230に相当)と、を備え、前記重み付け係数算出手段が、前記リンクユーザ数取得手段で取得されたリンクユーザ数と、前記ユニークユーザ数取得手段で取得されたユニークユーザ数とに基づいて、前記ユーザ間のリンク関係を考慮する重み付け係数を算出することを特徴とする話題語抽出装置を提案している。
【0013】
この発明によれば、コミュニケーション情報蓄積サーバは、ユーザ間のリンク関係を管理する。リンク関係取得手段は、コミュニケーション情報蓄積サーバから、ユーザ間のリンク関係を取得する。リンクユーザ数取得手段は、コミュニケーション情報取得手段で取得されたコミュニケーション情報を参照して、形態素解析手段で抽出された単語毎に、各単語を含むコミュニケーション情報を発信したユニークユーザを取得し、取得されたユニークユーザとリンク関係取得手段で取得されたリンク関係とに基づいて、取得されたユニークユーザの中で他のユニークユーザとリンクしているリンクユーザ数を取得する。重み付け係数算出手段は、リンクユーザ数取得手段で取得されたリンクユーザ数と、ユニークユーザ数取得手段で取得されたユニークユーザ数とに基づいて、ユーザ間のリンク関係を考慮する重み付け係数を算出する。したがって、ユーザ間のリンク関係を考慮した重要度に基づいて話題語を抽出することにより、リンク関係にあるユーザ間で話題になっている話題語を抽出することができる。
【0014】
(4) 本発明は、(1)から(3)の話題語抽出装置について、前記インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、前記コミュニケーション情報に含まれるテキスト情報の内容の特徴を表す重要語でない単語を格納する、予め用意された辞書を用いて、前記形態素解析手段で抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する重要語抽出手段(例えば、
図4の重要語抽出部310に相当)を備え、前記重要度算出手段が、前記重要語抽出手段で抽出された重要語毎の重要度を算出し、前記話題語抽出手段が、前記重要度算出手段で算出された重要語毎の重要度と、前記重み付け係数算出手段で算出された重み付け係数とに基づいて、前記重要度算出手段で算出された重要語から話題語を抽出することを特徴とする話題語抽出装置を提案している。
【0015】
この発明によれば、重要語抽出手段が、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、コミュニケーション情報に含まれるテキスト情報の内容の特徴を表す重要語でない単語を格納する、予め用意された辞書を用いて、形態素解析手段で抽出された単語から辞書に格納されている単語を除いて、重要語を抽出する。重要度算出手段が、重要語抽出手段で抽出された重要語毎の重要度を算出する。話題語抽出手段が、重要度算出手段で算出された重要語毎の重要度と、重み付け係数算出手段で算出された重み付け係数とに基づいて、重要度算出手段で算出された重要語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、コミュニケーションの内容の特徴を表す重要語でない単語を話題語から除くことができる。
(5) 本発明は、(4)の話題語抽出装置について、前記辞書が、指示代名詞を格納する指示代名詞辞書(例えば、
図4の指示代名詞辞書321に相当)、挨拶に用いる単語を格納する挨拶辞書(例えば、
図4の挨拶辞書322に相当)、および時節毎に、時節に関連する単語を格納する時節別単語辞書(例えば、
図4の時節別単語辞書323に相当)を含むことを特徴とする話題語抽出装置を提案している。
【0016】
この発明によれば、辞書は、指示代名詞を格納する指示代名詞辞書、挨拶に用いる単語を格納する挨拶辞書、および時節毎に、時節に関連する単語を格納する時節別単語辞書を含む。したがって、コミュニケーション情報に含まれるテキスト情報から抽出された単語から、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられる単語である指示代名詞、挨拶、および時節に関連する単語を除くことによって、コミュニケーションの内容の特徴を表す重要語を抽出することができる。
【0017】
(6) 本発明は、(5)の話題語抽出装置について、前記重要語抽出手段が、前記形態素解析手段で抽出された単語から、前記指示代名詞辞書、および前記挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、抽出された重要語候補の単語毎に、当該単語を含むテキスト情報のコミュニケーション情報の発信日時に基づいて特定される当該単語の時節と当該単語との組み合わせが前記時節別単語辞書に記憶されているか否かを判断し、前記時節別単語辞書に記憶されていない単語を重要語として抽出することを特徴とする話題語抽出装置を提案している。
【0018】
この発明によれば、重要語抽出手段が、形態素解析手段で抽出された単語から、指示代名詞辞書、および挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、抽出された重要語候補の単語毎に、単語を含むコミュニケーション情報の発信日時に基づいて特定される単語の時節と単語との組み合わせが時節別単語辞書に記憶されているか否かを判断し、時節別単語辞書に記憶されていない単語を重要語として抽出する。したがって、時節別単語辞書を用いる前に、指示代名詞辞書および挨拶辞書に格納されている単語を除くことによって、時節を特定する単語の数を減すことができ、その結果効率よく重要語を抽出することができる。
【0019】
(7) 本発明は、(5)または(6)の話題語抽出装置について、前記挨拶に用いる単語には、会話において本題に入る前や、前記会話の終了時に交わされる雑談に用いる単語も含むことを特徴とする話題語抽出装置を提案している。
【0020】
この発明によれば、挨拶に用いる単語には、会話において本題に入る前や、会話の終了時に交わされる雑談に用いる単語も含む。したがって、広い意味で挨拶に含まれる、本題に入る前に互いに関する情報や天候や前後の無関係な雑談や会話の終了時に別れる場合に行われる雑談、に用いられる単語を挨拶辞書に含めることにより、インターネットを介したユーザ間のコミュニケーションを円滑にするために用いられるが、重要語でない単語を除くことにより、コミュニケーションの内容の特徴を表す重要語を抽出することができる。
【0021】
(8) 本発明は、(5)から(7)の話題語抽出装置について、前記時節は、季節、曜日、時間帯であることを特徴とする話題語抽出装置を提案している。
【0022】
この発明によれば、時節は、季節、曜日、および時間帯である。したがって、インターネットを介したユーザ間のコミュニケーションを円滑にするためによく用いられる、季節、曜日、および時間帯に関連する単語を除き、コミュニケーションの内容の特徴を表す重要語を抽出することができる。
【0023】
(8) 本発明は、コミュニケーション情報取得手段、形態素解析手段、重要度算出手段、ユニークユーザ数取得手段、重み付け係数算出手段、および話題語抽出手段を備え、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置における話題語抽出方法であって、前記コミュニケーション情報取得手段が、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する第1のステップ(例えば、
図2のステップS1)と、前記形態素解析手段が、前記第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する第2のステップ(例えば、
図2のステップS2)と、前記重要度算出手段が、前記形態素解析手段で抽出された単語毎の重要度を算出する第3のステップ(例えば、
図1のステップS3)と、前記ユニークユーザ数取得手段が、前記第1のステップで取得されたコミュニケーション情報を参照して、前記第3のステップで抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する第4のステップ(例えば、
図2のステップS4)と、前記重み付け係数算出手段が、前記第4のステップで取得されたユニークユーザ数と、前記第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する第5のステップ(例えば、
図2のステップS5)と、前記話題語抽出手段が、前記第3のステップで算出された単語毎の重要度と、前記第5のステップで算出された重み付け係数とに基づいて、前記第3のステップで抽出された単語から話題語を抽出する第6のステップ(例えば、
図2のステップS6)と、を含むことを特徴とする話題語抽出方法を提案している。
【0024】
この発明によれば、まず、第1のステップにおいて、コミュニケーション情報取得手段が、コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する。次に、第2のステップにおいて、形態素解析手段が、第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する。次に、第3のステップにおいて、重要度算出手段が、形態素解析手段で抽出された単語毎の重要度を算出する。次に、第4のステップにおいて、ユニークユーザ数取得手段が、第1のステップで取得されたコミュニケーション情報を参照して、第3のステップで抽出された単語毎に、各単語をテキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する。次に、第5のステップにおいて、重み付け係数算出手段が、第4のステップで取得されたユニークユーザ数と、第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する。次に、第6のステップにおいて、話題語抽出手段が、第3のステップで算出された単語毎の重要度と、第5のステップで算出された重み付け係数とに基づいて、第3のステップで抽出された単語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報に含まれるテキスト情報の単語の中から、ユニークユーザを考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。
【0025】
(9) 本発明は、コミュニケーション情報取得手段、形態素解析手段、重要度算出手段、ユニークユーザ数取得手段、重み付け係数算出手段、および話題語抽出手段を備え、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報から話題語を抽出する話題語抽出装置における話題語抽出方法をコンピュータに実行させるためのプログラムであって、前記コミュニケーション情報取得手段が、前記コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する第1のステップ(例えば、
図2のステップS1)と、前記形態素解析手段が、前記第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する第2のステップ(例えば、
図2のステップS2)と、前記重要度算出手段が、前記形態素解析手段で抽出された単語毎の重要度を算出する第3のステップ(例えば、
図1のステップS3)と、前記ユニークユーザ数取得手段が、前記第1のステップで取得されたコミュニケーション情報を参照して、前記第3のステップで抽出された単語毎に、各単語を前記テキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する第4のステップ(例えば、
図2のステップS4)と、前記重み付け係数算出手段が、前記第4のステップで取得されたユニークユーザ数と、前記第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する第5のステップ(例えば、
図2のステップS5)と、前記話題語抽出手段が、前記第3のステップで算出された単語毎の重要度と、前記第5のステップで算出された重み付け係数とに基づいて、前記第3のステップで抽出された単語から話題語を抽出する第6のステップ(例えば、
図2のステップS6)と、コンピュータに実行させるためのプログラムを提案している。
【0026】
この発明によれば、まず、第1のステップにおいて、コミュニケーション情報取得手段が、コミュニケーション情報を蓄積している1以上のコミュニケーション情報蓄積サーバから、所定期間のコミュニケーション情報を取得する。次に、第2のステップにおいて、形態素解析手段が、第1のステップで取得したコミュニケーション情報に含まれるテキスト情報を形態素解析し、単語を抽出する。次に、第3のステップにおいて、重要度算出手段が、形態素解析手段で抽出された単語毎の重要度を算出する。次に、第4のステップにおいて、ユニークユーザ数取得手段が、第1のステップで取得されたコミュニケーション情報を参照して、第3のステップで抽出された単語毎に、各単語をテキスト情報に含むコミュニケーション情報を発信したユニークユーザ数を取得する。次に、第5のステップにおいて、重み付け係数算出手段が、第4のステップで取得されたユニークユーザ数と、第1のステップで取得されたコミュニケーション情報の数とに基づいて、ユニークユーザを考慮する重み付け係数を算出する。次に、第6のステップにおいて、話題語抽出手段が、第3のステップで算出された単語毎の重要度と、第5のステップで算出された重み付け係数とに基づいて、第3のステップで抽出された単語から話題語を抽出する。したがって、インターネットを介したユーザ間のコミュニケーションのために発信されたコミュニケーション情報に含まれるテキスト情報の単語の中から、ユニークユーザを考慮した重要度に基づいて話題語を抽出することにより、インターネットを介したユーザ間のコミュニケーションにおいて、多くのユーザが話題にしている真の話題語を抽出することができる。