特許第6261479号(P6261479)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6261479ユーザ分析装置、ユーザ分析方法、およびプログラム
<>
  • 特許6261479-ユーザ分析装置、ユーザ分析方法、およびプログラム 図000002
  • 特許6261479-ユーザ分析装置、ユーザ分析方法、およびプログラム 図000003
  • 特許6261479-ユーザ分析装置、ユーザ分析方法、およびプログラム 図000004
  • 特許6261479-ユーザ分析装置、ユーザ分析方法、およびプログラム 図000005
  • 特許6261479-ユーザ分析装置、ユーザ分析方法、およびプログラム 図000006
  • 特許6261479-ユーザ分析装置、ユーザ分析方法、およびプログラム 図000007
  • 特許6261479-ユーザ分析装置、ユーザ分析方法、およびプログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6261479
(24)【登録日】2017年12月22日
(45)【発行日】2018年1月17日
(54)【発明の名称】ユーザ分析装置、ユーザ分析方法、およびプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20180104BHJP
   G06Q 50/00 20120101ALI20180104BHJP
【FI】
   G06F17/30 419B
   G06F17/30 220Z
   G06F17/30 210D
   G06Q50/00 300
【請求項の数】9
【全頁数】15
(21)【出願番号】特願2014-190479(P2014-190479)
(22)【出願日】2014年9月18日
(65)【公開番号】特開2016-62364(P2016-62364A)
(43)【公開日】2016年4月25日
【審査請求日】2017年2月1日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100122426
【弁理士】
【氏名又は名称】加藤 清志
(72)【発明者】
【氏名】小林 亮博
(72)【発明者】
【氏名】帆足 啓一郎
【審査官】 山本 俊介
(56)【参考文献】
【文献】 特開2013−140535(JP,A)
【文献】 特開2009−99088(JP,A)
【文献】 特開2014−142738(JP,A)
【文献】 特開2013−195129(JP,A)
【文献】 米国特許出願公開第2009/0292526(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06Q 10/00−99/00
(57)【特許請求の範囲】
【請求項1】
Web上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置であって、
前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する小集団分割手段と、
前記小集団分割手段で分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する隣接小集団特定手段と、
分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出するキーワード抽出手段と、
を備え、
抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析装置。
【請求項2】
前記交流情報に基づいて算出された、前記小集団の各構成ユーザの当該小集団内での他構成ユーザとの接続状態に基づいて、分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団を抽出する小集団抽出手段を備え、
前記隣接小集団特定手段が、前記小集団抽出手段で抽出された小集団から、一の小集団の構成ユーザが属する他の小集団を当該一の小集団の隣接小集団として特定することを特徴とする請求項1に記載のユーザ分析装置。
【請求項3】
前記小集団抽出手段が、Smirnov−Grubbs検定またはTietjen−Moore検定を用いて、各構成ユーザの接続数について1つも外れ値を持たない小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とする請求項2に記載のユーザ分析装置。
【請求項4】
前記小集団抽出手段が、他の構成ユーザとの接続数が1である構成ユーザの割合が閾値以下の小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とする請求項2に記載のユーザ分析装置。
【請求項5】
分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度との比較に基づいて、当該小集団に特有のキーワードを抽出することを特徴とする請求項1から請求項4のいずれかに記載のユーザ分析装置。
【請求項6】
前記小集団分割手段が、階層的リンククラスタリング法またはファジーC平均法を用いて、前記コミュニケーションネットワークを小集団に分割することを特徴とする請求項1から請求項5のいずれかに記載のユーザ分析装置。
【請求項7】
前記コミュニケーションネットワークを提供するコミュニケーションサーバから前記交流情報を取得する交流情報取得手段と、
前記コミュニケーションサーバから前記投稿情報および前記プロフィール情報を取得するユーザ情報取得手段と、
を備えることを特徴とする請求項1から請求項6のいずれかに記載のユーザ分析装置。
【請求項8】
Web上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法であって、
前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、
前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第1のステップと、
前記隣接小集団特定手段が、前記第1のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第2のステップと、
前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第2のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第3のステップと、
を含み、
抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法。
【請求項9】
Web上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法をコンピュータに実行させるためのプログラムであって、
前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、
前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第1のステップと、
前記隣接小集団特定手段が、前記第1のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第2のステップと、
前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第2のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第3のステップと、
を含み、
抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの潜在的なプロフィール情報を分析するユーザ分析装置、ユーザ分析方法、およびプログラムに関する。
【背景技術】
【0002】
近年、Twitter(登録商標)やFacebook(登録商標)等のソーシャル・ネットワーキング・サービス(以下、SNS)が普及している。SNSでは、インターネットを介してユーザは様々な情報を投稿するとともに、投稿された情報を閲覧することで、他ユーザと交流を行い繋がることができる。また、SNSでは、ユーザは自身のプロフィール情報を公開することもできる。
【0003】
ユーザのプロフィール情報は、ユーザが新たな友人を探す際に参照されたり、投稿された情報と合わせて、共通点がある等の友人候補ユーザをSNS側で自動的に紹介したり、SNSをマーケティングに利用したりする際に用いられる。そのため、ユーザのプロフィール情報は、できる限り正確なものであるのが望ましいが、ユーザ自ら記述するものであるために、プロフィール情報を明確に記述していない場合も多い。
【0004】
そこで、Twitterのフォロー/フォロワー関係やFacebookの友人関係といった、SNSのユーザ間の交流関係を用いて、交流関係にある他ユーザのプロフィール情報から対象ユーザのプロフィール情報を推定する技術が提案されている(特許文献1参照)。また、Twitterといったマイクロブログシステムから小集団を抽出し、抽出した小集団の投稿情報およびプロフィール情報から、小集団に共通の興味を示すキーワードを自動的に抽出する技術が提案されている(特許文献2参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2013−196070号公報
【特許文献2】特開2013−140535号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載の技術では、予め設定された属性のうちどの属性に当てはまるかによって潜在的なプロフィール情報を推定しているため、予め設定されていない属性については推定することができず、また、予め設定する属性の数や各属性の細分化度合に応じて推定精度が変わってしまうという問題点があった。
【0007】
また、特許文献2に記載の技術では、プロフィール情報を推定したいユーザの属する小集団のキーワードを抽出することができるが、各ユーザは複数の小集団に属していることが多いために、プロフィール情報を推定したいユーザの属する小集団のメンバーが、自身が属する他の小集団に向けて投稿した投稿情報もキーワード抽出に用いられてしまっていた。そのため、プロフィール情報を推定したいユーザの属する小集団に特有の単語以外もキーワードとして抽出されてしまい、それを潜在的なプロフィール情報とするには推定精度が低いという問題点があった。
【0008】
そこで、本発明は、上記課題に鑑み、SNSといったWeb上のコミュニケーションネットワークにおけるユーザ間の交流関係を用いて、交流関係にある他ユーザの情報からユーザの潜在的なプロフィール情報を、高精度に分析するユーザ分析装置、ユーザ分析方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0010】
(1) 本発明は、Web上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置であって、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する小集団分割手段(例えば、図1の小集団分割部130に相当)と、前記小集団分割手段で分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する隣接小集団特定手段(例えば、図1の隣接小集団特定部140に相当)と、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出するキーワード抽出手段(例えば、図1のキーワード抽出部160に相当)と、を備え、抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析装置を提案している。
【0011】
この発明によれば、分析対象ユーザが属する小集団とその小集団の隣接小集団との単語を比較して、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。
【0012】
(2) 本発明は、(1)のユーザ分析装置において、前記交流情報に基づいて算出された、前記小集団の各構成ユーザの当該小集団内での他構成ユーザとの接続状態に基づいて、分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団を抽出する小集団抽出手段(例えば、図6の小集団抽出部170に相当)を備え、前記隣接小集団特定手段が、前記小集団抽出手段で抽出された小集団から、一の小集団の構成ユーザが属する他の小集団を当該一の小集団の隣接小集団として特定することを特徴とするユーザ分析装置を提案している。
【0013】
この発明によれば、構成ユーザの同質性が高い小集団および隣接小集団について抽出され単語を用いてキーワードを抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、より高精度に分析することができる。
【0014】
(3) 本発明は、(2)のユーザ分析装置において、前記小集団抽出手段が、Smirnov−Grubbs検定またはTietjen−Moore検定を用いて、各構成ユーザの接続数について1つも外れ値を持たない小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とするユーザ分析装置を提案している。
【0015】
この発明によれば、各構成ユーザの接続数の外れ値に基づいて、一部の構成ユーザを中心としていて各構成ユーザの交流が密でない小集団以外を抽出することにより、構成メンバーの同質性が高い小集団を判断することができる。
【0016】
(4) 本発明は、(2)のユーザ分析装置において、前記小集団抽出手段が、他の構成ユーザとの接続数が1である構成ユーザの割合が閾値以下の小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とするユーザ分析装置を提案している。
【0017】
この発明によれば、接続数が1である構成ユーザの割合に基づいて、一部の構成ユーザを中心としていて各構成ユーザの交流が密でない小集団以外を抽出することにより、構成メンバーの同質性が高い小集団を判断することができる。
【0018】
(5) 本発明は、(1)から(4)のユーザ分析装置において、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度との比較に基づいて、当該小集団に特有のキーワードを抽出することを特徴とするユーザ分析装置を提案している。
【0019】
この発明によれば、出現頻度に基づいて、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、より高精度に分析することができる。
【0020】
(6) 本発明は、(1)から(5)のユーザ分析装置において、前記小集団分割手段が、階層的リンククラスタリング法またはファジーC平均法を用いて、前記コミュニケーションネットワークを小集団に分割することを特徴とするユーザ分析装置を提案している。
【0021】
この発明によれば、コミュニケーションネットワークを、階層的リンククラスタリング法またはファジーC平均法を用いて、小集団に分割することができる。
【0022】
(7) 本発明は、(1)から(6)のユーザ分析装置において、前記コミュニケーションネットワークを提供するコミュニケーションサーバから前記交流情報を取得する交流情報取得手段(例えば、図1の交流情報取得部120に相当)と、前記コミュニケーションサーバから前記投稿情報および前記プロフィール情報を取得するユーザ情報取得手段(例えば、図1のユーザ情報取得部150に相当)と、を備えることを特徴とするユーザ分析装置を提案している。
【0023】
この発明によれば、分析に用いる交流情報、投稿情報、およびプロフィール情報を、コミュニケーションネットワークを提供するコミュニケーションサーバから取得することができる。
【0024】
(8) 本発明は、Web上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法であって、前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第1のステップ(例えば、図5のステップS2に相当)と、前記隣接小集団特定手段が、前記第1のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第2のステップ(例えば、図5のステップS3に相当)と、前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第2のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第3のステップ(例えば、図5のステップS5に相当)と、を含み、抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法を提案している。
【0025】
この発明によれば、分析対象ユーザが属する小集団とその小集団の隣接小集団との単語を比較して、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。
【0026】
(9) 本発明は、Web上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法をコンピュータに実行させるためのプログラムであって、前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第1のステップ(例えば、図5のステップS2に相当)と、前記隣接小集団特定手段が、前記第1のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第2のステップ(例えば、図5のステップS3に相当)と、前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第2のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第3のステップ(例えば、図5のステップS5に相当)と、を含み、抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法をコンピュータに実行させることを特徴とするプログラムを提案している。
【0027】
この発明によれば、分析対象ユーザが属する小集団とその小集団の隣接小集団との単語を比較して、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。
【発明の効果】
【0028】
本発明によれば、Web上のコミュニケーションネットワークにおけるユーザ間の交流関係を用いて、交流関係にある他ユーザの投稿情報およびプロフィール情報から、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。
【図面の簡単な説明】
【0029】
図1】本発明の第1の実施形態に係るユーザ分析装置の機能構成を示す図である。
図2】本発明の第1の実施形態に係る小集団分割部で、SNSの複数のユーザを小集団に分割した結果の一例を示す図である。
図3】本発明の第1の実施形態に係る対象小集団および隣接小集団を示す図である。
図4】本発明の第1の実施形態に係る対象小集団に特有のキーワードの抽出イメージを示す図である。
図5】本発明の第1の実施形態に係るユーザ分析装置のユーザ分析処理フローを示す図である。
図6】本発明の第2の実施形態に係ユーザ分析装置の機能構成を示す図である。
図7】SNSにおける小集団の形状を示す図である。
【発明を実施するための形態】
【0030】
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0031】
<第1の実施形態>
<ユーザ分析装置の機能構成>
図1は、本発明の第1の実施形態に係るユーザ分析装置100の機能構成を示す図である。ユーザ分析装置100は、ソーシャル・ネットワーキング・サービス(以下、SNS)のSNSサーバ10と接続され、SNSサーバ10から取得したユーザ間の交流関係および交流関係にある他ユーザの情報からユーザの潜在的なプロフィール情報を、高精度に分析する装置であって、図1に示すように、通信部110、交流情報取得部120、小集団分割部130、隣接小集団特定部140、ユーザ情報取得部150、およびキーワード抽出部160を備える。
【0032】
なお、ユーザ分析装置100は、SNSサーバ10から取得する情報を予め蓄積していてもよい。この場合には、ユーザ分析装置100は、SNSサーバ10と通信を行わなくてもよい。
【0033】
SNSサーバ10は、Web上で、ユーザが投稿した情報(以下、投稿情報)を介してユーザ同士がコミュニケーションを行うSNSといったコミュニケーションネットワークを提供するサーバであって、例えば、Twitter(登録商標)やFacebook(登録商標)、google+(登録商標)のサーバである。具体的には、SNSサーバ10は、投稿情報、SNSのユーザのプロフィール情報、およびSNSにおけるユーザ間の交流関係を示す交流情報を蓄積および管理する。なお、図1には、SNSサーバ10は1台しか図示していないが、複数台であってもよい。
【0034】
通信部110は、SNSサーバ10と通信を行う。具体的には、通信部110は、SNSサーバ10のAPI(Application Programming Interface)と通信を行う。
【0035】
交流情報取得部120は、通信部110およびSNSサーバ10のAPIを介して、SNSサーバ10から交流情報を取得する。
【0036】
ここで、交流情報とは、SNSにおけるユーザ間の交流関係を示す情報であって、Twitterでは「フォロウィー/フォロワー」関係の情報、Facebookでは「友達」関係の情報、google+では、「サークル」関係の情報である。例えば、交流情報は、SNSにおいて交流関係にあるユーザ同士のユーザIDを対応付けたものである。
【0037】
小集団分割部130は、交流情報取得部120で取得した交流情報に基づいて、SNSの複数のユーザを1以上の小集団に分割する。具体的には、小集団分割部130は、階層的リンククラスタリング法(非特許文献1:Y.−Y.Ahn,J.P.Bagrow,and S.LEHMANN,“LINK COMMUNITIES REVEAL multiscale COMPLEXITY in NETWORKS”,NATURE 466,761 (2010).)やファジーC平均法(非特許文献2:J.C.Bezdek,“PATTERN RECOGNITION WITH FUZZY OBJECTIVE FUNCTION ALGORITHMS”,PLENUM PRESS,New York,(1981).)といったソフトクラスタリング手法を用いて、SNSの複数のユーザを1以上の小集団に分割する。
【0038】
小集団分割部130で、SNSの複数のユーザを小集団に分割した結果の一例を図2に示す。各ノードはユーザを表し、リンクはユーザ間の交流関係を表し、矢印の方向は投稿情報の閲覧先、Twitterでいうフォロー先を示している。図2では、SNSの複数のユーザが、グループA200、グループB300、およびグループC400の小集団に分割されたことを示す。また、小集団に分割されたユーザは、ユーザα201がグループA200とグループB300との2つの属するように、複数の小集団に属してもよい。なお、グループB300、およびグループC400のリンクについては、矢印を省略している。
【0039】
隣接小集団特定部140は、小集団分割部130で分割された小集団毎に、隣接小集団を特定する。ここで、隣接小集団とは、一の小集団を構成する構成ユーザが属する他の小集団をいい、図2において、グループA200の隣接小集団は、グループA200の構成ユーザであるユーザα201が属するグループB300、およびグループA200の構成ユーザであるユーザβ202が属するグループC400である。
【0040】
ユーザ情報取得部150は、通信部110およびSNSサーバ10のAPIを介して、SNSサーバ10から投稿情報およびプロフィール情報を取得する。投稿情報は、投稿内容および投稿したユーザのユーザIDを少なくとも含み、プロフィール情報は、ユーザIDと、そのユーザの性別、年齢、居住地といったプロフィールとを少なくとも含む。ユーザ情報取得部150は、SNSサーバ10から投稿情報を取得する期間や投稿情報に含まれるキーワードといった取得条件に応じて、投稿情報を取得してもよい。
【0041】
キーワード抽出部160は、ユーザ情報取得部150で取得した投稿情報およびプロフィール情報に基づいて、分析対象ユーザの小集団(以下、対象小集団)、および対象小集団の隣接小集団に関する単語を抽出する。そして、キーワード抽出部160は、対象小集団および隣接小集団それぞれに関する単語を比較し、対象小集団にしか出現しない単語を、対象小集団に特有のキーワードとして抽出する。このように、隣接小集団に関する単語と比較することにより、対象小集団に関する単語の中から適切な単語を、対象小集団に特有のキーワードとして抽出することができる。
【0042】
ここで、分析対象ユーザは、外部から指定されたユーザであってもよいし、SNSのユーザの中から所定条件に合致するとして自動的に選択されたユーザであってもよいし、SNSの全ユーザであってもよい。
【0043】
具体的には、キーワード抽出部160は、まず、ユーザ情報取得部150で取得した投稿情報およびプロフィール情報に基づき、特許文献2に記載の技術を用いて、対象小集団に関する単語を抽出する。抽出した対象小集団に関する単語を、特許文献2では、対象小集団に特有のキーワードとしている。しかしながら、抽出した対象小集団に関する単語には、対象小集団に特有でない単語も含まれている。図3を用いて、その理由について説明する。
【0044】
図3では、グループD500およびグループE600の2つの小集団があり、グループD500のユーザγ501が、グループE600にも属している。この場合、グループE600は、グループD500の隣接集団として隣接小集団特定部140で特定される。
【0045】
図3の状態において、特許文献2に記載の技術を用いて、グループD500に関する単語を抽出する場合に、ユーザγ501のフォロウィー数に対するフォロワー数の比がグループ内で最も大きいと、ユーザγ501の投稿情報およびプロフィール情報から抽出された単語に重み付けがされ、ユーザγ501に関する単語がグループD500に関する単語として抽出される。
【0046】
ところで、ユーザγ501の投稿情報には、グループD500に向かってされているものと、グループE600に向かってされているものとがある。そのため、特許文献2の技術を用いて抽出されたグループD500に関する単語には、グループE600に関する単語が含まれている可能性があり、グループD500に特有のキーワードとは限らなかった。
【0047】
そこで、キーワード抽出部160は、対象小集団に関する単語を抽出した後、対象小集団の隣接小集団に関する単語を特許文献2の技術を用いて抽出し、対象小集団および隣接小集団それぞれに関する単語を比較して、対象小集団にしか出現しない単語を、対象小集団に特有のキーワードとして抽出する。
【0048】
図4に、対象小集団に特有のキーワードの抽出イメージ図を示す。対象小集団をグループD500とし、その隣接小集団をグループE600、グループF700、グループG800、およびグループH900とし、それぞれに関する単語(いずれも特許文献2の技術を用いて求めたもの)を四角枠でグループの横に示す。グループD500に特有のキーワードは、グループD500に関する単語と、隣接小集団グループE600、グループF700、グループG800、およびグループH900それぞれに関する単語と、を比較し、隣接小集団に関する単語を除いた残りの「Word3」および「Word4」となる。
【0049】
また、キーワード抽出部160は、小集団および隣接小集団それぞれに関する単語の出現頻度の比較し、小集団にしか出現しない単語を、小集団に特有のキーワードとして抽出してもよい。この場合、隣接小集団に関する単語の抽出個数(ここではM個とする)が予め設定される。
【0050】
まず、キーワード抽出部160は、ユーザ情報取得部150で取得した投稿情報およびプロフィール情報に基づいて、対象小集団および隣接小集団それぞれに関する単語を、DF/IDF値を用いて、新聞等で一般的使われる出現頻度と比較してM個抽出する。次に、キーワード抽出部160は、抽出されたM個の単語それぞれについて、隣接小集団の構成ユーザの投稿情報およびプロフィール情報における出現頻度をIDF値、対象小集団の構成ユーザの投稿情報およびプロフィール情報における出現頻度をDF値として、DF/IDF値を算出する。そして、キーワード抽出部160は、DF/IDF値の高い順に、予め設定されたキーワードの抽出個数(ここではN個とする)を、キーワードとして抽出する。
【0051】
小集団と隣接小集団とを比較する際、全隣接小集団をまとめて比較してもよいし、隣接小集団それぞれと個々に比較してもよい。全隣接小集団をまとめて比較する場合には、隣接小集団全てにおける出現頻度を合算した値をIDF値とする。隣接小集団それぞれと個々に比較する場合には、隣接小集団毎にDF/IDF値を算出し、それぞれにおいて、DF/IDF値の高い順にN個のキーワードリストを作成する。そして、全リスト中、一定割合のリストに含まれるキーワードを対象小集団に特有のキーワードとして抽出する。
【0052】
<投稿者分析処理フロー>
図5は、本発明の第1の実施形態に係るユーザ分析装置100のユーザ分析方法の処理フローを示す図である。
【0053】
まず、ステップS1において、交流情報取得部120は、通信部110およびSNSサーバ10のAPIを介して、SNSサーバ10から交流情報を取得する。
【0054】
次に、ステップS2において、小集団分割部130は、ステップS1で取得した交流情報に基づいて、ソフトクラスタリング手法を用いて、SNSの複数のユーザを小集団に分割する。
【0055】
次に、ステップS3において、隣接小集団特定部140は、ステップS2で分割された小集団毎に、小集団の構成ユーザが属する他の小集団を隣接小集団として特定する。
【0056】
次に、ステップS4において、ユーザ情報取得部150は、通信部110およびSNSサーバ10のAPIを介して、SNSサーバ10から投稿情報およびプロフィール情報を取得する。
【0057】
次に、ステップS5において、キーワード抽出部160は、ステップS4で取得した投稿情報およびプロフィール情報に基づいて、分析対象者が属する対象小集団、および対象小集団の隣接小集団に関する単語を抽出し、対象小集団および隣接集団それぞれに関する単語を比較し、対象小集団にしか出現しない単語を、対象小集団に特有のキーワードとして抽出する。抽出された対象小集団に特有のキーワードは、分析対象者の潜在的プロフィール情報として、蓄積されたり、SNSサーバ10に提供されたりする。
【0058】
以上、説明したように、本実施形態によれば、分析対象ユーザが属する小集団とその小集団の隣接小集団との単語を比較して、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。
【0059】
<第2の実施形態>
図6を用いて、本発明の第2の実施形態について説明する。本実施形態は、小集団の形状を考慮して、プロフィール情報の推定精度をより高くすることができる。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
【0060】
<ユーザ分析装置の機能構成>
図6は、本発明の第2の実施形態に係るユーザ分析装置101を示す図である。ユーザ分析装置101は、ソーシャル・ネットワーキング・サービス(以下、SNS)のSNSサーバ10と接続され、SNSサーバ10から取得したユーザ間の交流関係および交流関係にある他ユーザの情報から投稿者の潜在的なプロフィール情報を、高精度に分析する装置であって、図6に示すように、通信部110、交流情報取得部120、小集団分割部130、小集団抽出部170、隣接小集団特定部141、ユーザ情報取得部150、およびキーワード抽出部160を備える。
【0061】
なお、ユーザ分析装置101は、SNSサーバ10から取得する情報を予め蓄積していてもよい。この場合には、ユーザ分析装置100は、SNSサーバ10と通信を行わなくてもよい。
【0062】
小集団抽出部170は、交流情報取得部120で取得された交流情報に基づいて算出された、小集団の各構成ユーザの小集団内での他構成ユーザとの接続状態に基づいて、小集団分割部130で分割された小集団の中から、小集団の構成ユーザ同士の交流が密接である小集団を抽出する。
【0063】
小集団の構成ユーザ同士の交流が密接である小集団は、図7(a)のようないわゆる団子型形状をしている。団子型形状の小集団の構成ユーザは同質性が高く、この小集団に特有のキーワードは構成ユーザの潜在的なプロフィール情報として適切であると言える。一方、小集団の構成ユーザ同士の交流が密接でない小集団は、図7(b)のようないわゆるスター型形状をしている。スター型形状の小集団の構成ユーザは同質性が低く、この小集団に特有のキーワードは構成ユーザの潜在的なプロフィール情報として適切でないと言える。
【0064】
そのため、本実施形態においては、小集団分割部130で分割された小集団の中から、スター型形状でない、すなわち団子型形状の小集団を抽出して、抽出した小集団を用いて、分析対象ユーザが属する対象小集団に特有のキーワードを抽出し、分析対象ユーザの潜在的なプロフィール情報とする。
【0065】
具体的には、小集団抽出部170は、与えられたグラフから密な構造を見つけ出す技術(非特許文献5:宇野毅明,「擬似クリークを列挙する多項式時間遅延アルゴリズム」,情報処理学会研究報告.AL,アルゴリズム研究会報告 2007(23),97−104,2007−03−09)を用いて、小集団分割部130で分割された小集団の中から、小集団の構成ユーザ同士の交流が密接である団子型形状の小集団を抽出する。
【0066】
また、小集団抽出部170は、Smirnov−Grubbs検定(非特許文献3:Grubbs,F.E.“Procedures for detecting outlying observations in samples“,Technimetrics 11,1−21.(1969).)またはTietjen−Moore検定(非特許文献4:Tietjen and Moore,”Some Grubbs−Type Statistics for the Detection of Outliers,Technometrics“,14(3),pp.583−597.(August 1972))といった外れ値検定を用いて、各構成ユーザの接続数について1つも外れ値を持たない小集団を、小集団分割部130で分割された小集団の中から、小集団の構成ユーザ同士の交流が密接である団子型形状の小集団として抽出してもよい。
【0067】
更に、小集団抽出部170は、小集団分割部130で分割された小集団の中から、小集団内で1人の他の構成ユーザとしか接続していない構成ユーザの割合が閾値以下である小集団を、小集団の構成ユーザ同士の交流が密接である団子型形状の小集団として抽出してもよい。小集団内で1人の他の構成ユーザとしか接続していない構成ユーザの割合は、一人の構成ユーザとしか接続していないユーザ数/小集団の構成ユーザ数として算出される。
【0068】
隣接小集団特定部141は、小集団抽出部170で抽出された小集団毎に、小集団抽出部170で抽出された小集団の中から隣接小集団を特定する。
【0069】
以上、説明したように、本実施形態によれば、構成ユーザ同士の交流が密接である団子型形状の小集団であって、構成ユーザの同質性が高い、対象小集団および隣接小集団について抽出され単語を用いて、対象小集団に特有のキーワードを抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、より高精度に分析することができる。
【0070】
なお、ユーザ分析装置の処理をコンピュータシステムが読み取り可能な記録媒体に記録し、この記録媒体に記録されたユーザ分析装置に読み込ませ、実行することによって本発明のユーザ分析装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0071】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0072】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0073】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0074】
10 SNSサーバ
100,101 ユーザ分析装置
110 通信部
120 交流情報取得部
130 小集団分割部
140,141 隣接小集団特定部
150 ユーザ情報取得部
160 キーワード抽出部
170 小集団抽出部
図1
図2
図3
図4
図5
図6
図7