(58)【調査した分野】(Int.Cl.,DB名)
前記特定部は、前記複数のワードそれぞれと前記テーマ情報との関連付けの強度を算出し、算出された強度に基づいて、前記テーマ情報を介して繋がる前記ワード同士の関連付けの強度を特定する、
ことを特徴とする請求項5に記載の情報処理装置。
前記テーマ情報選択部は、前記複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと繋がりを有するテーマ情報を除去するテーマ情報として選択する、
ことを特徴とする請求項2に記載の情報処理装置。
前記テーマ情報選択部は、前記複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去するテーマ情報として選択する、
ことを特徴とする請求項2又は7に記載の情報処理装置。
前記テーマ情報選択部は、前記複数のワードを複数のワードクラスタにクラスタリングするとともに、ワードクラスタとの繋がりが多い順に所定の数のテーマ情報を除去するテーマ情報として選択する、
ことを特徴とする請求項2に記載の情報処理装置。
前記ワード選択部は、前記複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと繋がりを有するワードを除去するワードとして選択する、
ことを特徴とする請求項3に記載の情報処理装置。
前記ワード選択部は、前記複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたワードを除去するワードとして選択する、
ことを特徴とする請求項3又は10に記載の情報処理装置。
前記ワード選択部は、前記複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、テーマ情報クラスタとの繋がりが多い順に所定の数のワードを除去するワードとして選択する、
ことを特徴とする請求項3に記載の情報処理装置。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、以下の実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔1.情報処理装置の動作〕
最初に、本実施形態の情報処理装置の一例である情報処理装置30を備える情報処理システム1を例に、情報処理装置の動作を説明する。
【0011】
図1は、実施形態に係る情報処理システム1の動作を示す図である。情報処理システム1は、端末装置10
1、10
2、10
3と、サービス提供サーバ20と、情報処理装置30と、を備える。なお、
図1の例では、端末装置が3つ示されているが、端末装置は3つより少なくてもよいし、3つより多くてもよい。以下の説明では、端末装置10
1、10
2、10
3等を総称して端末装置10と記載することがある。
【0012】
端末装置10は、例えば、スマートデバイス(スマートフォン、或いはタブレット)、携帯電話、パーソナルコンピュータ等のユーザ端末である。端末装置10は、ネットワークを介してサービス提供サーバ20と通信する。例えば、端末装置10は、ユーザが投稿することを可能にするためのページ(例えば、Twitter(登録商標))の情報を取得する。また、端末装置10は、ユーザの投稿情報をサービス提供サーバ20に送信する。
【0013】
サービス提供サーバ20は、クライアント端末に対して各種サービスを提供するサーバ用ホストコンピュータである。サービス提供サーバ20は、ポータルサイト、SNS(Social Networking Service)サイト、検索サイト、掲示板サイト、ゲーム情報配信サイト、ニュースサイト、オークションサイト、天気予報サイト、ショッピングサイト、ファイナンス(株価)サイト、路線検索サイト、地図提供サイト、旅行サイト、飲食店紹介サイト等として機能する。
【0014】
本実施形態の場合、サービス提供サーバ20は、ユーザが情報を投稿することを可能にするサービスを提供するサーバである。例えば、サービス提供サーバ20は、Twitter(登録商標)、Facebook(登録商標)、Instagram(登録商標)、mixi(登録商標)、LINE(登録商標)等のソーシャルネットワーキングサービス(SNS)を提供するサーバである。なお、サービス提供サーバ20が提供するサービスは、SNSに限定されない。ユーザが情報を投稿できるのであれば、サービス提供サーバ20は、上記したSNS以外のサービスを提供するサーバであってもよい。例えば、サービス提供サーバ20は、掲示板サービスを提供するサーバであってもよい。ユーザが購入商品のレビュー等を投稿できるよう構成されているのであれば、サービス提供サーバ20は、ショッピングサービスを提供するサーバであってもよい。なお、以下の説明では、ユーザが情報を投稿することを可能にするサービスのことを投稿サービスといい、ユーザが投稿サービスを使って投稿した情報のことを投稿情報という。ユーザは、サービス提供サーバ20が提供するサービスを介して、他のユーザとコミュニケーションを行う。
【0015】
なお、ネットワーク上のコミュニケーションでは、バズワードと呼ばれる一時的に多くのユーザに使用されるワードが発生することがある。なお、バズワードは、バズトピック、急上昇ワード、流行語等、他の呼び方で呼ばれることもある。サービス提供サーバ20は、データベースに投稿情報を登録するとともに、データベースに登録された複数の投稿情報からバズワードを抽出する。バズワードを抽出する方法は様々な方法を使用可能である。例えば、サービス提供サーバ20は、投稿情報を形態素解析してワード単位に分解するとともに、分解された複数のワードから所定の基準を満たすワードを選択し、データベースに登録する。サービス提供サーバ20は、この処理を全ての投稿情報について繰り返す。そして、サービス提供サーバ20は、データベースに登録されたワードそれぞれについて、登録数等に基づいてバズワードか否かを決定する。
【0016】
情報処理装置30は、ユーザが投稿情報に関する分析を行うことを可能にするための装置である。具体的には、情報処理装置30は、投稿情報から抽出されたバズワード同士の関連を特定するとともに、関連を特定したバズワードを複数のクラスタに分類する。
【0017】
以下、
図1を参照しながら、情報処理装置30を備える情報処理システム1の動作を説明する。上述したように、情報処理装置30は、ユーザが投稿情報に関する分析を行うことを可能にするための処理を行う。情報処理装置30は、バズワード情報に基づき処理を行う。バズワード情報は、投稿情報から抽出されたバズワードが記録された情報である。バズワード情報の取得は、サービス提供サーバ20が行う。情報処理装置30の動作を説明する前に、サービス提供サーバ20の動作について説明する。
【0018】
〔1−1.バズワード情報の取得〕
まず、サービス提供サーバ20は、ユーザが操作する端末装置10と投稿サービスに関する通信を行う(ステップS1a〜ステップS1c)。サービス提供サーバ20は、端末装置10から投稿情報を取得すると、取得した投稿情報を投稿情報データベースに登録する(ステップS2)。
図2は、投稿情報データベースの一例を示す図である。サービス提供サーバ20は、端末装置10から取得した投稿情報それぞれに一意のIDを付して、投稿情報データベースに登録する。
図2の例の場合、「内容」の項目に登録されている情報が投稿情報である。データベースには、投稿情報が投稿された日時の情報が含まれていてもよい。
【0019】
なお、ユーザは情報の投稿の際、投稿情報にテーマ情報を付すことが可能である。テーマ情報は、投稿情報に関する情報である。例えば、テーマ情報は、投稿情報を検索容易にするためのタグ情報である。テーマ情報は、投稿情報の内容に関する情報であってもよい。例えば、テーマ情報は、投稿情報を特徴づけるワード(例えば、投稿情報で話題となっている場所や人物名)であってもよい。また、テーマ情報は、投稿情報の配信元等を示す情報(例えば、新聞社やポータルサイトの名前)であってもよい。
図2の例の場合、“#”が先頭に付された情報がテーマ情報である。
図2のID001の例であれば、“#日本代表”がテーマ情報である。“#”を除いた“日本代表”の部分をテーマ情報とみなしてもよい。なお、テーマ情報は、投稿情報の一部とみなすことも可能であるし、投稿情報の外部の情報とみなすことも可能である。本実施形態では、テーマ情報は投稿情報の外部の情報であるものとする。
図2のID001の例であれば、“選手Aがんばれ”が投稿情報であり、“#日本代表”がテーマ情報である。
【0020】
サービス提供サーバ20は、投稿情報データベースに登録された複数の投稿情報からバズワードを抽出する。
図3は、投稿情報データベースから抽出されたバズワード情報を示す図である。
図3には、複数の投稿情報から抽出された複数のバズワードが示されている。バズワードには順位が付されている。順位は、バズワードの複数の投稿情報での出現頻度等に基づき決定されてもよい。また、
図3に示すバズワードそれぞれには、1又は複数のテーマ情報が関連付けられている。バズワードに関連付けられたテーマ情報は、該当のバズワードが使用された複数の投稿情報から抽出された複数のテーマ情報のうち、所定の基準を満たすテーマ情報である。例えば、バズワードに関連付けられたテーマ情報は、付与回数或いは付与率が所定の閾値以上のテーマ情報である。或いは、テーマ情報は、付与回数が多い順或いは付与率が高い順に選択された所定数のテーマ情報である。なお、テーマ情報は、付与回数が多い順或いは付与率が高い順に並べられていてもよい。
【0021】
ここで、付与回数とは、該当のバズワードが使用された投稿情報のうち、該当のテーマ情報が付与された回数のことをいう。例えば、“選手A”が使用された投稿情報が10000個あったとし、10000個の投稿情報のうち1000個の投稿情報に“#日本代表”が付与されていたとする。このとき、“選手A”が使用された投稿情報への“#日本代表”の付与回数は1000回である。また、付与率とは、該当のバズワードが使用された投稿情報のうち、該当のテーマ情報が付与された率のことをいう。例えば、該当のバズワード(例えば、“選手A”)が使用された投稿情報が10000個あったとし、10000個の投稿情報のうち1000個の投稿情報に“#日本代表”が付与されていたとする。このとき、“選手A”が使用された投稿情報への“#日本代表”の付与率は10%である。
【0022】
〔1−2.投稿情報の分析〕
次に、情報処理装置30の動作について説明する。情報処理装置30は、ユーザから処理の開始命令を取得すると、投稿情報の分析に関する処理を開始する。
【0023】
まず、情報処理装置30は、サービス提供サーバ20からバズワード情報を取得する(ステップS3)。上述したように、バズワード情報には、複数の投稿情報から抽出された複数のワードと、複数の投稿情報に付与された複数のテーマ情報と、が含まれている。そして、情報処理装置30は、バズワード情報に含まれる複数のテーマ情報に基づいて、バズワード同士の関連を特定する(ステップS4)。具体的には、情報処理装置30は、テーマ情報を介して繋がるバズワードを関連付ける。
【0024】
図4は、
図3に示すバズワード情報に含まれるバズワード及びテーマ情報の関係を示す図である。具体的には、
図4は、バズワード情報に含まれるバズワードとそのバズワードに関連付けられたテーマ情報とを連結したグラフである。
図4の例では、楕円で囲まれた文字がバズワードであり、先頭に“#”が付された文字がテーマ情報である。情報処理装置30は、テーマ情報を介して繋がるバズワードを関連付ける。例えば、情報処理装置30は、
図3に示すバズワード情報から同じテーマ情報が付されたバズワードを特定し、特定したバズワード同士を関連付けていく。
図5は、テーマ情報を介して繋がるバズワードを連結したグラフである。
【0025】
次に、情報処理装置30は、ステップS4で特定されたバズワード同士の関連に基づいて、複数のバズワードを複数のワードクラスタにクラスタリングする。例えば、情報処理装置30は、ワード同士の関連付けの強度に基づいて複数のバズワードを複数のワードクラスタにクラスタリングする。ここで、ワードクラスタとは、1又は複数のワードで構成されるクラスタのことをいう。以下、情報処理装置30が、複数のバズワードを複数のワードクラスタにクラスタリングする動作について説明する。
【0026】
まず、情報処理装置30は、ワード同士の関連付けの強度を算出する(ステップS5)。情報処理装置30は、ワード同士の関連付けの強度を、複数のワードそれぞれとテーマ情報との関連付けの強度に基づき算出してもよい。
図6は、複数のバズワードそれぞれとテーマ情報との関連付けの強度を示す強度情報の一例である。「強度」の項目に示された値がバズワードとテーマ情報との関連付けの強度を示している。値が大きいほど強く関連付けられていることを示す。バズワードとテーマ情報との関連付けの強度は、上述した付与回数或いは付与率に基づき算出されてもよいし、該当のバズワード中のテーマ情報の順位に基づき算出されてもよい。強度の算出方法は様々な方法を採用可能である。
【0027】
情報処理装置30は、バズワードとテーマ情報との関連付けの強度に基づきワード同士の関連付けの強度を算出する。例えば、第1のテーマ情報を介して繋がる第1のバズワードと第2のバズワードがあるとする。このとき、情報処理装置30は、第1のテーマ情報と第1のバズワードの関連付けの強度と、第1のテーマ情報と第2のバズワードの関連付けの強度と、を加算した値を第1のバズワードと第2のバズワードとの関連付けの強度として算出する。例えば、
図4の例の場合、“選手A”と“選手B”は、“#日本代表”を介して繋がっている。
図6に示すように、“選手A”と“#日本代表”の関連付けの強度は0.568であり、“選手B”と“#日本代表”の関連付けの強度は0.698である。情報処理装置30は、0.568と0.698を加算した1.266を“選手A”と“選手B”の関連付けの強度として算出する。
【0028】
また、第1のバズワードと第2のバズワードが第1のテーマ情報及び第2のテーマ情報の2つを介して繋がっていたとする。このとき、情報処理装置30は、第1のテーマ情報と第1のバズワードの関連付けの強度と、第1のテーマ情報と第2のバズワードの関連付けの強度と、第2のテーマ情報と第1のバズワードの関連付けの強度と、第2のテーマ情報と第2のバズワードの関連付けの強度と、を加算した値を第1のバズワードと第2のバズワードとの関連付けの強度として算出する。例えば、
図4の例の場合、“ゲームE”と“ゲームF”は、“#攻略”と“#RPG”の2つのテーマ情報を介して繋がっている。
図6に示すように“ゲームE”と“#攻略”の関連付けの強度は0.695であり、“ゲームF”と“#攻略”の関連付けの強度は0.569である。また、“ゲームE”と“#RPG”の関連付けの強度は0.354であり、“ゲームF”と“#RPG”の関連付けの強度は0.236である。情報処理装置30は、0.695と0.569と0.354と0.236とを加算した1.854を“ゲームE”と“ゲームF”の関連付けの強度として算出する。なお、バズワードが2より多くのテーマ情報で繋がっている場合、情報処理装置30は、上記と同様に、全ての繋がりを考慮してバズワード同士の関連付けの強度を算出する。
【0029】
そして、情報処理装置30は、バズワード同士の関連付けの強度に基づいて、バズワードを複数のワードクラスタに仮にクラスタリングする(ステップS6)。このとき、情報処理装置30は、予め設定された強度以上で繋がるバズワードを同じクラスタに分類してもよい。
図5の例では、情報処理装置30は、8つのバズワードを3つのワードクラスタ(クラスタC11、C12、C13)にクラスタリングしている。クラスタC11には、“選手A”、“選手C”、“テレビ”が属しており、クラスタC12には、“ゲームE”、“ゲームF”、“ABCグループ”が属しており、クラスタC13には、“選手B”、“歌手D”が属している。
【0030】
なお、テーマ情報の中には、投稿情報の内容にあまり関係のないテーマ情報が含まれることがある。例えば、新聞社、雑誌等が運営するサイトやポータルサイトの中には、これらのサイトの運営者が投稿する情報の全てに、一律に“#Yニュース”等の自身を示すテーマ情報を付すことがある。この場合、多くの投稿情報に“#Yニュース”等のあまり意味をなさないテーマ情報が付され、結果として、多くのバズワードが“#Yニュース”等のテーマ情報を通じて無意味に関連付けられることになる。多くのバズワードが無意味に関連付けられると、場合によっては、情報処理装置30は、不自然なクラスタリングを行う。
図5の例では、アイドルグループと思われるABCグループがゲームE、ゲームFと同一のクラスタに不自然に分類されている。また、サッカー選手と思われる選手BがABCグループの一員と思われる歌手Dと同一のクラスタに不自然に分類されている。
【0031】
そこで、情報処理装置30は、“#Yニュース”等、バズワードの関連付けにあまり意味をなさないテーマ情報を、複数のテーマ情報から除去する。このとき、情報処理装置30は、クラスタリング結果に基づき、複数のテーマ情報から除去するテーマ情報(以下、除去テーマ情報という。)を選択する(ステップS7)。例えば、情報処理装置30は、所定の数より多くのワードクラスタと所定の基準を満たす繋がりを有するテーマ情報を除去テーマ情報として選択する。このとき、情報処理装置30は、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去テーマ情報として選択してもよい。多くのワードクラスタと所定の強度以上で繋がるテーマ情報は、多くのワードクラスタと繋がるテーマ情報の中でも、特に、ワード間の結びつきを無意味に強くしているテーマ情報である可能性が高い。このようなテーマ情報は情報処理装置30のクラスタリングを特に妨害している可能性が高い。多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去することで、情報処理装置30は精度の高いクラスタリングを実現できる。勿論、情報処理装置30は、所定の数より多くのワードクラスタと所定の強度以下で関連付けられたテーマ情報を除去テーマ情報として選択してもよい。
【0032】
なお、ワードクラスタに関連付けられているテーマ情報は、そのワードクラスタ中のいずれかのバズワードと繋がっているテーマ情報である。ワードクラスタとバズワードとの関連付けの強度は、ワードクラスタに含まれるバズワードとの関連付けの強度と同じであってもよい。勿論、情報処理装置30は、単純に所定の数のクラスタと関連付けられたテーマ情報を除去テーマ情報として選択してもよい。所定の数は、2つであってもよいし、2より大きな数であってもよい。
【0033】
なお、除去テーマ情報の選択方法は上記に限られない。例えば、情報処理装置30は、ワードクラスタとの繋がりが多い順に、所定の数(例えば、200件)のテーマ情報を除去テーマ情報として選択してもよい。例えば、テーマ情報がN件あるとする。Nは任意の整数である。情報処理装置30は、N件のテーマ情報をワードクラスタとの繋がりの数が多い順に並べる。そして、情報処理装置30は、ワードクラスタとの繋がりの数が多い順に並べられたN件のテーマ情報のうち上位n件を除去テーマ情報として選択する。このときnはNより小さい任意の整数である。
【0034】
本実施形態では、情報処理装置30は、2以上のワードクラスタと関連付けられているテーマ情報を全て除去する。
図7は、
図5に示す3つのクラスタC11、C12、C13にテーマ情報を関連付けたグラフである。クラスタ内のバズワードの記載は省略している。
図7の例の場合、“#Yニュース”がクラスタC11〜C13の3つのワードクラスタに関連付けられており、“#発売日”がクラスタC12、C13の2つのワードクラスタに関連付けられている。情報処理装置30は、“#Yニュース”と“#発売日”の2つのテーマ情報を
図7に示す7つのテーマ情報から除去する。
図8は、
図4に示すグラフから、選択したテーマ情報を除去した様子を示す図である。
【0035】
なお、バズワードの中には、“テレビ”等、投稿情報の内容にあまり依存せず、多くの投稿情報に出現するワード(例えば、一般用語)が含まれることがある。“テレビ”等の一般用語は、多くの場合、投稿情報等の内容を特徴づけるものではなく、また、多くの場面で使用される。このようなワードは、多くのワードと無意味に結びつき、クラスタの範囲を広げる。この結果、クラスタリングの精度を低下させる。そこで、情報処理装置30は、“テレビ”等、多くの投稿情報に出現するバズワードを複数のバズワードから除去する。具体的には、情報処理装置30は、以下の処理を行う。
【0036】
まず、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングする。クラスタリングする複数のテーマ情報は、ステップS7で選択されたテーマ情報が除去されたテーマ情報であってもよい。このとき、情報処理装置30は、テーマ情報同士の関連付けの強度に基づいて複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングしてもよい。テーマ情報クラスタとは、1又は複数のテーマ情報で構成されるクラスタのことをいう。情報処理装置30は、テーマ情報同士の関連付けの強度を、テーマ情報とワードとの関連付けの強度に基づき算出してもよい。
図9は、複数のテーマ情報をクラスタリングした様子を示す図である。
図9の例では、情報処理装置30は、5つのテーマ情報を3つのテーマ情報クラスタ(クラスタC21、C22、C23)にクラスタリングしている。
【0037】
情報処理装置30は、テーマ情報のクラスタリングの結果に基づいて複数のバズワードから除去するバズワード(以下、除去ワードという。)を選択する(ステップS8)。例えば、情報処理装置30は、所定の数より多くのテーマ情報クラスタと所定の基準を満たす繋がりを有するバズワードを除去ワードとして選択する。例えば、情報処理装置30は、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたバズワードを除去ワードとして選択してもよい。勿論、情報処理装置30は、所定の数より多くのテーマ情報クラスタと所定の強度以下で関連付けられたバズワードを除去テーマ情報として選択してもよい。所定の数は、2つであってもよいし、2より大きな数であってもよい。なお、本実施形態の場合、複数のテーマ情報クラスタと関連付けられているテーマ情報を全て除去する。
図10は、
図9に示す3つのクラスタC21、C22、C23にテーマ情報を関連付けたグラフである。クラスタ内のテーマ情報の記載は省略している。
図10の例の場合、“テレビ”がクラスタC21、C22と繋がっている。そこで、情報処理装置30は、“テレビ”を
図10に示す8つのバズワードから除去する。
図11は、
図8に示すグラフから、選択したバズワードを除去した様子を示す図である。
【0038】
なお、除去ワードの選択方法は上記に限られない。例えば、情報処理装置30は、テーマ情報クラスタとの繋がりが多い順に、所定の数(例えば、200件)のワードを除去ワードとして選択してもよい。例えば、ワードがM件あるとする。Mは任意の整数である。情報処理装置30は、M件のワードをテーマ情報クラスタとの繋がりの数が多い順に並べる。そして、情報処理装置30は、テーマ情報クラスタとの繋がりの数が多い順に並べられたM件のワードのうち上位m件を除去ワードとして選択する。このときmはMより小さい任意の整数である。
【0039】
情報処理装置30は、選択されたワードが除去された複数のバズワードをクラスタリングする(ステップS9)。例えば、情報処理装置30は、ステップS7で選択されたテーマ情報が除去された複数のテーマ情報に基づいて、ステップS8で選択されたバズワードが除去された複数のバズワードの関連を再度特定する。
図12は、テーマ情報を介して繋がるバズワードを関連付けた様子を示す図である。そして、情報処理装置30は、再度特定された関連に基づいて複数のバズワードをクラスタリングする。
図12の例では、情報処理装置30は、7つのバズワードを3つのワードクラスタ(クラスタC31、C32、C33)にクラスタリングしている。
【0040】
情報処理装置30は、クラスタリングの結果をユーザに出力する(ステップS10)。情報処理装置30は、
図12に示すグラフを生成するためのデータをクラスタリングの結果をユーザに出力する。
【0041】
本実施形態によれば、情報処理装置30は、テーマ情報を使ってバズワードを関連付けている。そのため、ユーザは、バズワード同士の関連を容易に把握できるので、投稿情報に関する精度の高い分析ができる。
【0042】
また、情報処理装置30は、バズワード同士の関連に基づいて、バズワードをクラスタリングしている。クラスタリングの際、情報処理装置30は、多くのワードクラスタと繋がるテーマ情報を除去している。また、クラスタリングの際、情報処理装置30は、多くのテーマ情報クラスタと繋がるバズワードを除去している。これにより、情報処理装置30は、精度よくバズワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0043】
〔2.情報処理システムの構成例〕
以上、本実施形態の情報処理装置の一例である情報処理装置30を備える情報処理システム1を例に、情報処理装置の動作を述べたが、以下、本実施形態の情報処理装置の構成を説明する。以下の説明では、情報処理システム1を例に情報処理装置の構成を説明する。上述したように、情報処理システム1は、端末装置10と、サービス提供サーバ20と、情報処理装置30と、を備える。端末装置10、サービス提供サーバ20、及び情報処理装置30は、ネットワークを介して接続される。ネットワークは、LAN(Local Area Network)、WAN(Wide Area Network)、電話網(携帯電話網、固定電話網等)、地域IP(Internet Protocol)網、インターネット等の通信ネットワークである。ネットワークには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。
【0044】
〔3.端末装置の構成例〕
図13は、実施形態に係る端末装置10の構成例を示す図である。端末装置10は、ユーザがページの閲覧に使用する情報表示装置(情報処理装置)である。端末装置10は、例えば、スマートフォン、タブレット、携帯電話等の通信端末である。通信機能を備えるのであれば、端末装置10は、パーソナルコンピュータ(ノートPC、デスクトップPC)、PDA(Personal Digital Assistant)等の情報処理端末であってもよい。この場合、情報処理端末も通信端末の一種である。端末装置10は、ネットワークを介してサービス提供サーバ20と接続する。端末装置10は、
図13に示すように、通信部11と、入力部12と、記憶部13と、出力部14と、制御部15と、を備える。なお、
図13に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。
【0045】
通信部11は、外部の装置と通信する通信インタフェースである。通信部11は、ネットワークインタフェースであってもよいし、機器接続インタフェースであってもよい。例えば、通信部11は、NIC(Network Interface Card)等のLANインタフェースであってもよいし、USB(Universal Serial Bus)ホストコントローラ、USBポート等により構成されるUSBインタフェースであってもよい。また、通信部11は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部11は、端末装置10の通信手段として機能する。通信部11は、制御部15の制御に従ってサービス提供サーバ20と通信する。
【0046】
入力部12は、外部から各種入力を受け付ける入力装置である。例えば、入力部12は、キーボードやマウスや操作キー等、ユーザが各種操作を行うための操作装置である。入力部12は、端末装置10の入力手段として機能する。なお、端末装置10にタッチパネルが採用される場合には、タッチパネルも入力部12に含まれる。この場合、ユーザは、指やスタイラスで画面をタッチすることにより各種操作を行う。
【0047】
記憶部13は、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部13は、端末装置10の記憶手段として機能する。記憶部13は、ウェブブラウザ等のアプリケーションソフトのデータが格納されている。ユーザはアプリケーションソフトを介してサービス提供サーバ20と通信する。
【0048】
出力部14は、音、光、振動、画像等、外部に各種出力を行う装置である。出力部14は、端末装置10の出力手段として機能する。出力部14は、各種情報を表示する表示装置を備える。表示装置は、例えば、液晶ディスプレイ、有機ELディスプレイである。なお、端末装置10にタッチパネルが採用される場合には、表示装置は入力部12と一体であってもよい。出力部14は、制御部15の制御に従って、画面に画像を表示する。
【0049】
制御部15は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、端末装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部15は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0050】
〔4.サービス提供サーバの構成例〕
次に、サービス提供サーバ20の構成について詳細に説明する。サービス提供サーバ20は、端末装置10、情報処理装置30等のクライアントコンピュータからの要求を処理するサーバ用ホストコンピュータ(以下、単に「サーバ」という。)である。サービス提供サーバ20は、PCサーバであってもよいし、ミッドレンジサーバであってもよいし、メインフレームサーバであってもよい。また、サービス提供サーバ20は、1つのサーバにより構成されていてもよいし、協働して処理を実行する複数のサーバにより構成されていてもよい。サービス提供サーバ20が複数のサーバで構成される場合、これらサーバの設置場所は離れていてもよい。設置場所が離れていたとしても、協働して処理を実行するのであれば、これらサーバは1つのサービス提供サーバとみなすことができる。
【0051】
図14は、実施形態に係るサービス提供サーバ20の構成例を示す図である。サービス提供サーバ20は、通信部21と、記憶部22と、制御部23と、を備える。なお、
図14に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。
【0052】
通信部21は、外部の装置と通信する通信インタフェースである。通信部21は、ネットワークインタフェースであってもよいし、機器接続インタフェースであってもよい。例えば、通信部21は、NIC等のLANインタフェースであってもよいし、USBホストコントローラ、USBポート等により構成されるUSBインタフェースであってもよい。また、通信部21は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部21は、サービス提供サーバ20の通信手段として機能する。通信部21は、制御部23の制御に従って端末装置10と通信する。
【0053】
記憶部22は、DRAM、SRAM、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部22は、サービス提供サーバ20の記憶手段として機能する。記憶部22は、例えば、
図2に示すような投稿情報データベースを記憶する。投稿情報データベースは、「ID」、「内容」、「日時」等の項目を有する。「ID」には、ユーザの投稿に付された識別情報が記録される。「内容」には、ユーザの投稿内容が記録される。「内容」には投稿情報とその投稿情報に付されたテーマ情報が記録される。「日時」には、ユーザが情報を投稿した日時が記録される。投稿情報データベースは、ユーザの投稿の度に更新される。
【0054】
制御部23は、コントローラであり、例えば、CPU、MPU等のプロセッサによって、サービス提供サーバ20内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部23は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。制御部23は、投稿情報データベースからバズワード及びテーマ情報を抽出し、
図3に示すようなバズワード情報を生成する。
【0055】
バズワード情報は、「順位」、「バズワード」、「テーマ情報」等の項目を有する。「順位」には、バズワードの順位が記録される。例えば、「順位」には、バズワードの投稿情報への出現頻度の順位が記録される。「バズワード」には、
図2に示す投稿情報データベースから抽出されたバズワードが記録される。「バズワード」には、バズワード(以下、親ワードともいう。)と関連する子ワードの情報が含まれていてもよい。子ワードは、例えば、親ワードの共起語である。1つの親ワードに複数個の子ワードが関連付けられていてもよい。「テーマ情報」には、投稿情報に関連付けられたテーマ情報が記録される。上述したように、バズワードには順位が付される。バズワード情報には、所定の順位までの複数のバズワード(例えば、1位から200位までの200個のバズワード)が記録される。なお、制御部23は、所定時間間隔でバズワード情報を生成してもよい。例えば、制御部23は、毎日、8:00〜25:00までの17時間、15分間隔でバズワード情報を生成してもよい。この場合、制御部23は、1週間で476件(=(17時間/15分)×7日)のバズワード情報を取得する。
【0056】
〔5.情報処理装置の構成例〕
次に、情報処理装置30の構成について詳細に説明する。情報処理装置30は、オークションに関する分析を行うコンピュータである。情報処理装置30は端末装置であってもよいしサーバ装置であってもよい。情報処理装置30を端末装置とする場合、情報処理装置30は、スマートフォン、タブレット、携帯電話、パーソナルコンピュータ、PDA等の情報処理端末であってもよい。また、情報処理装置30をサーバ装置とする場合、情報処理装置30は、PCサーバであってもよいし、ミッドレンジサーバであってもよいし、メインフレームサーバであってもよい。このとき、情報処理装置30は、1つのサーバにより構成されていてもよいし、協働して処理を実行する複数のサーバにより構成されていてもよい。情報処理装置30が複数のサーバで構成される場合、これらサーバの設置場所は離れていてもよい。設置場所が離れていたとしても、協働して処理を実行するのであれば、これらサーバは1つのサーバ装置とみなすことができる。
【0057】
図15は、実施形態に係る情報処理装置30の構成例を示す図である。情報処理装置30は、通信部31と、記憶部32と、制御部33と、を備える。なお、
図15に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。
【0058】
通信部31は、外部の装置と通信する通信インタフェースである。通信部31は、ネットワークインタフェースであってもよいし、機器接続インタフェースであってもよい。例えば、通信部31は、NIC等のLANインタフェースであってもよいし、USBホストコントローラ、USBポート等により構成されるUSBインタフェースであってもよい。また、通信部31は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部31は、情報処理装置30の通信手段として機能する。通信部31は、制御部33の制御に従って端末装置10及びサービス提供サーバ20と通信する。
【0059】
記憶部32は、DRAM、SRAM、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部32は、情報処理装置30の記憶手段として機能する。記憶部32は、バズワード情報データベース321、強度情報データベース322、クラスタ情報データベース323を記憶する。
【0060】
バズワード情報データベース321は、バズワード情報を記憶するデータベースである。
図16は、バズワード情報データベース321に格納される情報の一例を示す図である。
図16に示した例では、バズワード情報データベース321は、「日時」、「バズワード情報」等の項目を有している。
【0061】
「日時」は、バズワード情報を取得した日時を示す。
図16は、情報処理装置30がサービス提供サーバ20から15分毎にバズワード情報を取得した例を示している。
図16の例では、“2017/10/1 8:00”、“2017/10/1 8:15”等の情報が格納されている。
【0062】
「バズワード情報」は、サービス提供サーバ20から取得したバズワード情報を示す。1つのバズワード情報には、複数件のバズワードに関する情報が格納されている。
図17はバズワード情報の一例を示す図である。バズワード情報は、「順位」、「親ワード」、「子ワード」等の項目を有している。「順位」は、バズワードの順位を示す。「親ワード」には、バズワードそのものが格納される。親ワードには、複数個(例えば、5個)の子ワードが関連付けられている。「子ワード」は、親ワードと関連するワードを示す。例えば、子ワードは親ワードの共起語を示す。
【0063】
強度情報データベース322は、強度情報を記憶するデータベースである。
図18は、強度情報データベース322に格納される情報の一例を示す図である。
図18に示した例では、強度情報データベース322は、「バズワード」、「テーマ情報」、「強度」等の項目を有している。
【0064】
「バズワード」は、投稿情報から抽出されたバズワードを示す。
図18の例では、バズワードには、“選手A”、“選手B”等の情報が格納されている。バズワードには、子ワードの情報が格納されていてもよい。
【0065】
「テーマ情報」は、バズワードが使用された複数の投稿情報から抽出された複数のテーマ情報のうち、所定の基準を満たすテーマ情報を示す。例えば、テーマ情報には、付与回数が多い順或いは付与率が高い順に選択された所定数(例えば、5個)のテーマ情報が格納される。
図18の例では、テーマ情報には、“#日本代表”、“#ヨーロッパサッカー”等の情報が格納されている。
【0066】
「強度」は、バズワードとテーマ情報の関連付けの強度を示す。
図18の例では、強度には、“0.568”、“0.279”等の情報が格納されている。値が大きいほど、バズワードとテーマ情報が強く結びついていることを示す。
【0067】
クラスタ情報データベース323は、クラスタ情報を記憶するデータベースである。
図19は、クラスタ情報データベース323に格納される情報の一例を示す図である。
図19に示した例では、クラスタ情報データベース323は、「クラスタID」、「バスワード」等の項目を有している。
【0068】
「クラスタID」は、ワードクラスタに付与される識別情報を示す。
図19の例では、クラスタIDには、C31、C32等の情報が格納されている。
【0069】
「バズワード」は、クラスタIDで識別されるワードクラスタに属するバズワードを示す。
図19の例では、バズワードには、“選手A”、“選手B”等の情報が格納されている。
【0070】
図15に戻り、制御部33は、コントローラであり、例えば、CPU、MPU等のプロセッサによって、情報処理装置30内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部33は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
【0071】
制御部33は、
図15に示すように、取得部331と、特定部332と、クラスタリング部333と、テーマ情報選択部334と、ワード選択部335と、出力制御部336と、を備える。制御部33を構成するブロック(取得部331〜出力制御部336)はそれぞれ制御部33の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア(マイクロプログラムを含む。)で実現される1つのソフトウェアモジュールであってもよいし、半導体チップ(ダイ)上の1つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ1つのプロセッサ或いは1つの集積回路であってもよい。機能ブロックの構成方法は任意である。なお、制御部33は上述の機能ブロックとは異なる機能単位で構成されていてもよい。
【0072】
取得部331は、複数の投稿情報から抽出された複数のワードと、複数の投稿情報に付与された複数のテーマ情報と、を取得する。
【0073】
特定部332は、複数のテーマ情報に基づいて、ワード同士の関連を特定する。また、特定部332は、複数のテーマ情報に基づいて、ワード同士の関連付けの強度を特定する。例えば、特定部332は、複数のワードそれぞれとテーマ情報との関連付けの強度を算出し、算出された強度に基づいて、テーマ情報を介して繋がるワード同士の関連付けの強度を特定する。また、特定部332は、テーマ情報選択部334で選択されたテーマ情報が除去された複数のテーマ情報に基づいて、ワード同士の関連を再度特定する。
【0074】
クラスタリング部333は、特定部332で特定されたワード同士の関連に基づいて複数のワードをクラスタリングする。例えば、クラスタリング部333は、特定部332で算出されたワード同士の関連付けの強度に基づいて複数のワードをクラスタリングする。また、クラスタリング部333は、特定部332で再度特定された関連に基づいて複数のワードをクラスタリングしてもよい。また、クラスタリング部333は、ワード選択部335で選択されたワードが除去された複数のワードをクラスタリングしてもよい。
【0075】
テーマ情報選択部334は、複数のワードをクラスタリングするとともに、ワードのクラスタリング結果に基づいて、複数のテーマ情報から除去するテーマ情報を選択する。例えば、テーマ情報選択部334は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと繋がりを有するテーマ情報を除去するテーマ情報として選択する。このとき、テーマ情報選択部334は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去するテーマ情報として選択してもよい。また、テーマ情報選択部334は、複数のワードを複数のワードクラスタにクラスタリングするとともに、ワードクラスタとの繋がりが多い順に所定の数のテーマ情報を除去するテーマ情報として選択してもよい。
【0076】
ワード選択部335は、複数のテーマ情報をクラスタリングするとともに、テーマ情報のクラスタリング結果に基づいて、複数のワードから除去するワードを選択する。例えば、ワード選択部335は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと繋がりを有するワードを除去するワードとして選択する。このとき、ワード選択部335は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたワードを除去するワードとして選択してもよい。また、ワード選択部335は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、テーマ情報クラスタとの繋がりが多い順に所定の数のワードを除去するワードとして選択してもよい。
【0077】
出力制御部336は、クラスタリング部333によるクラスタリングの結果をユーザに出力する。
【0078】
〔6.情報処理装置の処理フロー〕
次に、
図20を参照しながら、情報処理装置30が実行する処理の手順について説明する。
図20は、クラスタリング処理の一例を示すフローチャートである。情報処理装置30は、情報処理装置30を操作するユーザから処理の開始命令を受け取ると、クラスタリング処理を開始する。
【0079】
まず、情報処理装置30は、サービス提供サーバ20からバズワード情報を取得する(ステップS11)。このとき、情報処理装置30は、15分毎の複数件のバズワード情報を取得してもよい。また、バズワード情報それぞれには複数個のバズワードが含まれていてもよい。バズワードは順位付けされていてもよい。また、バズワードそれぞれには複数のテーマ情報が関連付けられていてもよい。複数のテーマ情報は順位付けされていてもよい。また、バズワードそれぞれには複数の子ワードが関連付けられていてもよい。複数の子ワードは順位付けされていてもよい。
【0080】
そして、情報処理装置30は、バズワード情報に含まれる複数のテーマ情報に基づいて、バズワード同士の関連を特定する(ステップS12)。例えば、情報処理装置30は、
図5に示すように、テーマ情報を介して繋がるバズワードを関連付ける。バズワード情報に子ワードの情報が含まれる場合は、情報処理装置30は、バズワードに子ワードを関連付けてもよい。
【0081】
続いて、情報処理装置30は、バズワードとテーマ情報の関連付けの強度を算出する(ステップS13)。情報処理装置30は、所定の基準に従ってバズワードとテーマ情報の関連付けの強度を算出する。例えば、第1のバズワードと第1のテーマ情報の関連付けの強度を算出するとする。このとき、情報処理装置30は、(1)バズワード情報中の第1のバズワードの順位、(2)第1のバズワードに関連付けられている複数のテーマ情報中の第1のテーマ情報の順位、(3)所定期間中のバズワード情報のうち、第1のバズワードと第1のテーマ情報のペアの出現頻度(出現回数)に基づき、第1のバズワードと第1のテーマ情報の関連付けの強度を算出する。子ワードとテーマ情報の関連付けの強度を算出するのであれば、情報処理装置30は、上述の(1)〜(3)に加えて、(4)第1のバズワードに関連付けられている複数の子ワード中の該当の子ワードの順位を考慮要素に入れてもよい。なお、(3)の所定期間は、1週間であってもよいし、半年であってもよいし、1年であってもよい。勿論、所定期間は、1週間、半年、1年に限定されない。
【0082】
続いて、情報処理装置30は、バズワード同士の関連付けの強度を算出する(ステップS14)。例えば、情報処理装置30は、バズワード同士の関連付けの強度を、バズワードとテーマ情報との関連付けの強度に基づき算出する。
【0083】
続いて、情報処理装置30は、バズワードのクラスタリングを実行する(ステップS15)。例えば、情報処理装置30は、ステップS14で算出した強度に基づいてバズワードを複数のワードクラスタにクラスタリングする。
【0084】
続いて、情報処理装置30は、複数のテーマ情報から除外するテーマ情報を選択する(ステップS16)。例えば、情報処理装置30は、所定の数より多くのワードクラスタと関連付けられたテーマ情報を除去テーマ情報として選択する。
【0085】
続いて、情報処理装置30は、テーマ情報同士の関連付けの強度を算出する(ステップS17)。例えば、情報処理装置30は、テーマ情報同士の関連付けの強度に基づいて複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングする。
【0086】
続いて、情報処理装置30は、テーマ情報のクラスタリングを実行する(ステップS18)。例えば、情報処理装置30は、ステップS17で算出した強度に基づいてテーマ情報を複数のテーマ情報クラスタにクラスタリングする。
【0087】
続いて、情報処理装置30は、除外するバズワードを選択する(ステップS19)。例えば、情報処理装置30は、所定の数より多くのテーマ情報クラスタと繋がりを有するバズワードを除去ワードとして選択する。
【0088】
続いて、情報処理装置30は、バズワード同士の関連付けの強度を再度算出する(ステップS20)。このとき、情報処理装置30は、除去テーマ情報が除去された複数のテーマ情報に基づいて、バズワード同士の関連付けの強度を算出する。
【0089】
続いて、情報処理装置30は、バズワードのクラスタリングを実行する(ステップS21)。例えば、情報処理装置30は、ステップS20で算出した強度に基づいてバズワードを複数のワードクラスタにクラスタリングする。クラスタリングする複数のバズワードは、除去ワードが除去されたものであってもよい。
【0090】
クラスタリングが完了したら、情報処理装置30は、クラスタリングの結果を
図19に示すようにクラスタ情報データベース323に保存する。保存が完了したら情報処理装置30は、クラスタリング処理を終了する。
【0091】
〔7.変形例〕
上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。
【0092】
例えば、上述の実施形態では、情報処理装置30はバズワード同士の関連を特定した。しかし、情報処理装置30が関連を特定するのはバズワードに限定されない。情報処理装置30は、投稿情報から所定の基準で抽出されたワード同士の関連を特定してもよい。このとき、ワードには、バズワードが含まれていてもよい。情報処理装置30は、特定した関連に基づいて、複数のワードを複数のワードクラスタにクラスタリングしてもよい。
【0093】
また、上述の実施形態では、情報処理装置30が関連を特定するワード(バズワード)は、投稿情報から抽出されるものとしたが、バズワードは、投稿情報以外の情報から抽出されてもよい。例えば、バズワードは、ウェブページから抽出されてもよい。
【0094】
また、ワード及びテーマ情報の抽出は、サービス提供サーバ20が実行するものとしたが、情報処理装置30が実行してもよい。
【0095】
また、情報処理装置30は、ワード同士の関連の情報やクラスタリングの結果に基づいてウェブサービス(例えば、検索サービス)を実行してもよい。例えば、情報処理装置30は、検索クエリにバズワードが含まれる場合には、検索クエリと関連付けられた他のバズワードが含まれる検索結果を優先的に検索結果として出力してもよい。
【0096】
本実施形態の情報処理装置30を制御する制御装置は、専用のコンピュータシステムによって実現してもよいし、通常のコンピュータシステムにより実現してもよい。例えば、上述の動作を実行するためのプログラムを、光ディスク、半導体メモリ、磁気テープ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に格納して配布し、該プログラムをコンピュータにインストールし、上述の処理を実行することによって制御装置を構成してもよい。制御装置は、情報処理装置30の外部の装置(例えば、パーソナルコンピュータ)であってもよいし、内部の装置(例えば、制御部33)であってもよい。また、上記プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、OS(Operating System)とアプリケーションソフトとの協働により実現してもよい。この場合には、OS以外の部分を媒体に格納して配布してもよいし、OS以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。
【0097】
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0098】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0099】
また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0100】
〔8.ハードウェア構成〕
実施形態及び変形例に係る情報処理装置30は、例えば
図21に示すような構成のコンピュータ1000によっても実現可能である。
図21は、情報処理装置30の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM1200、ROM1300、HDD(Hard Disk Drive)1400、通信インタフェース(I/F)1500、入出力インタフェース(I/F)1600、及びメディアインタフェース(I/F)1700を有する。
【0101】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0102】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インタフェース1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
【0103】
CPU1100は、入出力インタフェース1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インタフェース1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インタフェース1600を介して出力装置へ出力する。
【0104】
メディアインタフェース1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインタフェース1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0105】
例えば、コンピュータ1000が実施形態に係る情報処理装置30として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部33の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0106】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0107】
〔9.効果〕
本実施形態によれば、情報処理装置30は、複数の投稿情報から抽出された複数のワードと、複数の投稿情報に付与された複数のテーマ情報と、を取得する。そして、情報処理装置30は、複数のテーマ情報に基づいて、ワード同士の関連を特定する。これにより、ユーザは、ワード同士の関連を容易に把握できるので、投稿情報に関する精度の高い分析ができる。
【0108】
また、情報処理装置30は、特定されたワード同士の関連に基づいて複数のワードをクラスタリングする。これにより、ユーザは、ワード同士の関連がさらに容易に把握できるので、投稿情報に関する精度の高い分析ができる。
【0109】
また、情報処理装置30は、複数のテーマ情報に基づいて、ワード同士の関連付けの強度を特定する。そして、情報処理装置30は、算出された強度に基づいて複数のワードをクラスタリングする。これにより、ユーザは、ワード同士の関連がさらに容易に把握できるので、投稿情報に関する精度の高い分析ができる。
【0110】
また、情報処理装置30は、複数のワードそれぞれとテーマ情報との関連付けの強度を算出し、算出された強度に基づいて、テーマ情報を介して繋がるワード同士の関連付けの強度を特定する。これにより、ユーザは、ワード同士の関連がさらに容易に把握できるので、投稿情報に関する精度の高い分析ができる。
【0111】
また、情報処理装置30は、複数のワードをクラスタリングするとともに、該ワードのクラスタリング結果に基づいて、複数のテーマ情報から除去するテーマ情報を選択する。そして、情報処理装置30は、選択されたテーマ情報が除去された複数のテーマ情報に基づいて、ワード同士の関連を再度特定する。そして、情報処理装置30は、再度特定された関連に基づいて複数のワードをクラスタリングする。
【0112】
また、情報処理装置30は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の基準を満たす繋がりを有するテーマ情報を除去するテーマ情報として選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0113】
また、情報処理装置30は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去するテーマ情報として選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0114】
また、情報処理装置30は、複数のワードを複数のワードクラスタにクラスタリングするとともに、ワードクラスタとの繋がりが多い順に所定の数のテーマ情報を除去するテーマ情報として選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0115】
また、情報処理装置30は、複数のテーマ情報をクラスタリングするとともに、該テーマ情報のクラスタリング結果に基づいて、複数のワードから除去するワードを選択する。そして、情報処理装置30は、選択されたワードが除去された複数のワードをクラスタリングする。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0116】
また、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと繋がりを有するワードを除去するワードとして選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0117】
また、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたワードを除去するワードとして選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0118】
また、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、テーマ情報クラスタとの繋がりが多い順に所定の数のワードを除去するワードとして選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
【0119】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0120】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。