IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人 東京大学の特許一覧

<>
  • 特許-情報分析装置及びプログラム 図1
  • 特許-情報分析装置及びプログラム 図2
  • 特許-情報分析装置及びプログラム 図3
  • 特許-情報分析装置及びプログラム 図4
  • 特許-情報分析装置及びプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-21
(45)【発行日】2023-05-01
(54)【発明の名称】情報分析装置及びプログラム
(51)【国際特許分類】
   G06F 16/9032 20190101AFI20230424BHJP
   G06F 16/906 20190101ALI20230424BHJP
   G06Q 50/00 20120101ALI20230424BHJP
【FI】
G06F16/9032
G06F16/906
G06Q50/00 300
【請求項の数】 4
(21)【出願番号】P 2018160577
(22)【出願日】2018-08-29
(65)【公開番号】P2020035148
(43)【公開日】2020-03-05
【審査請求日】2021-08-18
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100122275
【弁理士】
【氏名又は名称】竹居 信利
(72)【発明者】
【氏名】山崎 俊彦
(72)【発明者】
【氏名】張 軼威
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2015-138500(JP,A)
【文献】特開2018-124966(JP,A)
【文献】米国特許出願公開第2018/0129940(US,A1)
【文献】三村 乃那、外1名,SNSからファン層は見えるのか?,第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会) [online] ,日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2017年07月06日,p.1-7,Internet<URL:http://db-event.jpn.org/deim2017/papers/317.pdf>
【文献】落合 桂一、外4名,Twitter投稿文章とプロフィール情報を用いたPOI公式アカウント分類手法,情報処理学会 論文誌(トランザクション) データベース(TOD),日本,情報処理学会,2017年03月16日,第9巻,第2号,p.11-22
【文献】山下 晃弘、外3名,SNSプライバシー保護とリスク管理の検討,情報処理学会 デジタルプラクティス,日本,情報処理学会,2016年11月07日,第6巻,第2号,p.150-158
【文献】和田 なぎさ、外2名,Twitterにおけるアカウント乗っ取りによるスパムツイートの検出,第5回データ工学と情報マネジメントに関するフォーラム (第11回日本データベース学会年次大会),日本,電子情報通信学会データ工学研究専門委員会 日本デー,2013年06月05日,p.1-6
【文献】石川 尚季、外4名,Q&Aサイトにおいて1つの質問に対して複数のアカウントを用いて複数の回答を投稿するユーザの検出,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2011年01月20日,第110巻,第400号,p.1-6
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-50/00
(57)【特許請求の範囲】
【請求項1】
所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、
前記購読者ごとに、当該購読者の投稿に含まれる情報を、当該購読者に関係する購読者関係情報として収集する収集手段と、
当該収集した購読者関係情報に含まれる語彙情報を用いてベクトル値を生成する手段であって、意味または用法が互いに類似する複数の語彙情報のベクトル値が互いに近接するよう機械学習したモデルを用いて、前記語彙情報に係るベクトル値を得る手段と、
前記語彙情報を、対応するベクトル値を用いてクラスタリングする分類手段と、
分析対象アカウントの購読者ごとの前記購読者関係情報に含まれる語彙情報に係るクラスタの出現頻度の情報を得て、当該得られた出現頻度の情報を用いて、一対の分析対象アカウント間の類似性を判定する判定手段と、
前記判定した一対の分析対象アカウント間の類似性を出力する手段と、
を含む情報分析装置。
【請求項2】
請求項1に記載の情報分析装置であって、
前記ベクトル値を生成する手段は、購読者関係情報に含まれる語彙情報の投稿ごとの出現頻度と、購読者関係情報に含まれる語彙情報の出現する投稿の数とに基づいて、投稿によらずに頻出する語彙情報を除外してベクトル値を得る情報分析装置。
【請求項3】
請求項1または2に記載の情報分析装置であって、
前記購読者関係情報は、投稿に含まれるタグである情報分析装置。
【請求項4】
コンピュータを、
所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、
前記購読者ごとに、当該購読者の投稿に含まれる情報を、当該購読者に関係する購読者関係情報として収集する収集手段と、
当該収集した購読者関係情報に含まれる語彙情報を用いてベクトル値を生成する手段であって、意味または用法が互いに類似する複数の語彙情報のベクトル値が互いに近接するよう機械学習したモデルを用いて、前記語彙情報に係るベクトル値を得る手段と、
前記語彙情報を、対応するベクトル値を用いてクラスタリングする分類手段と、
分析対象アカウントの購読者ごとの前記購読者関係情報に含まれる語彙情報に係るクラスタの出現頻度の情報を得て、当該得られた出現頻度の情報を用いて、一対の分析対象アカウント間の類似性を判定する判定手段と、
前記判定した一対の分析対象アカウント間の類似性を出力する手段と、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報分析装置及びプログラムに関する。
【背景技術】
【0002】
近年では、企業等の組織の広告宣伝のために、いわゆるソーシャルネットワークサービス(SNS)が広く用いられている。ソーシャルネットワークサービス等では、企業側からユーザへの情報提供は、企業等の組織が発信した情報を、ユーザが購読する(フォローする)ことで行われる。このとき、購読する側のユーザは「フォロワー(follower)」と呼ばれる。
【0003】
また、各組織は、各ソーシャルネットワークサービスにおいて一つずつのアカウント(情報発信元)を用いるのではなく、組織が有するブランド(企業名だけでなく、商品のコンセプトをブランド化している場合のブランドや、サービスマークのブランドなどを含む)ごとに異なるアカウントを設定して、それぞれのアカウントから対応するブランドに関する情報を提供する例もある。
【0004】
特許文献1には、フォロワーの情報をマーケティングに利用するため、フォロワーを特定する情報を取得して、案内の送信先として用いる例が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特表2013-511778号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
複数の組織や複数のブランドの間で、それぞれの組織やブランドのファンがどれだけ重複しているかを知ることは、ブランド等の戦略を立案する上で重要な情報となる。例えば、ブランドAと、ブランドBとのファン層が互いに重複していないならば(つまり、ブランドA,Bが互いに類似しないブランドであるならば)、ブランドAを取り扱う店舗のある地域に、ブランドBを扱う店舗を出店しても、ブランドAの店舗と競合することはないと考えられる。
【0007】
このように、組織間、あるいはブランド間の類似性(例えばそれぞれのファン層の類似性)は、経営上重要な情報であるにも関わらず、従来、このような分析は売り上げ情報に依存せざるを得ず、そうなると具体的な売り上げ情報が存在しない場合には情報が得られないこととなって、限られた場面でしか組織間、あるいはブランド間の類似性を評価することができなかった。
【0008】
本発明は上記実情に鑑みて為されたもので、組織間、あるいはブランド間、組織とブランドの間、ユーザとブランドの間、ユーザ間…など、ソーシャルネットワークサービスのアカウント間の類似性等を、情報発信サイトにおける複数の分析対象アカウントの類似性により評価し、広い場面で組織やブランド等の間の類似性を評価できる情報分析装置、及びプログラムを提供することを、その目的の一つとする。
【課題を解決するための手段】
【0009】
上記従来例の問題点を解決する本発明は、情報分析装置であって、所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、前記購読者ごとに、購読者に関係する購読者関係情報を収集する手段と、前記複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定する判定手段と、前記判定した一対の分析対象アカウント間の類似性を出力する手段とを含むこととしたものである。
【発明の効果】
【0010】
本発明によると、情報発信サイトにおける複数の分析対象アカウントの類似性により評価でき、広い場面で組織やブランドなどの間の類似性を評価できる。
【図面の簡単な説明】
【0011】
図1】本発明の実施の形態に係る情報分析装置の構成例を表すブロック図である。
図2】本発明の実施の形態に係る情報分析装置の例を表す機能ブロック図である。
図3】本発明の実施の形態に係る情報分析装置が保持する購読者関係情報と、それを特徴づける値との関係の例を表す説明図である。
図4】本発明の実施の形態に係る情報分析装置の学習処理の例を表すフローチャート図である。
図5】本発明の実施の形態に係る情報分析装置の推定処理の例を表すフローチャート図である。
【発明を実施するための形態】
【0012】
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報分析装置1は、図1に例示するように、制御部11と、記憶部12と、操作部13と、表示部14と、通信部15とを含んで構成されている。
【0013】
制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムを実行する。本実施の形態では、この制御部11は、所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得し、購読者ごとに、購読者に関係する購読者関係情報を収集する。またこの制御部11は、複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定し、当該判定した一対の分析対象アカウント間の類似性を出力する。この制御部11の詳しい動作については後に述べる。
【0014】
記憶部12は、メモリデバイスやディスクデバイス等であり、制御部11によって実行されるプログラムを保持する。本実施の形態ではこのプログラムは、コンピュータ可読かつ非一時的な、DVD等の記録媒体に格納されて提供され、この記憶部12に格納されたものであってもよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。
【0015】
操作部13は、マウスやキーボード等であり、利用者の指示操作を受け入れて、当該指示操作の内容を表す情報を、制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11が出力する指示に従って情報を表示する。
【0016】
通信部15は、ネットワークインタフェース等であり、制御部11が出力する指示に従い、ネットワークを介して接続されるサーバ等に対して情報を送出する。また、この通信部15は、ネットワークを介して接続されるサーバ等から情報を受信して制御部11に出力する。
【0017】
次に、制御部11の処理について説明する。本実施の形態の制御部11は、機能的には図2に例示するように、学習処理部21と、推定処理部22とを含んで構成されている。また学習処理部21は、情報取得部31と、購読者関係情報収集部32と、関係情報学習部33と、関係情報統合部34とを含んで構成される。推定処理部22は、判定処理部41と、出力部42とを含む。
【0018】
学習処理部21の情報取得部31は、分析の対象とする情報発信サイトの指定を利用者から受けて、当該指定された情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する。ここで情報発信サイトの指定は、当該情報発信サイトのURL(Uniform Resource Locator)等でよい。
【0019】
また分析対象アカウントは当該情報発信サイトに登録されているすべてのアカウント(登録者)でもよいし、予め利用者が指定したアカウントを分析対象アカウントとしてもよい。
【0020】
情報取得部31は、購読者の情報として、分析対象アカウントの名義で行われた投稿(以下、アカウントの名義で行われた投稿を、当該アカウントの投稿という)を購読している購読者のアカウントを表す情報(例えば当該アカウントのユーザ名など、アカウントに固有の情報)を取得する。
【0021】
購読者関係情報収集部32は、分析対象アカウントごとに情報取得部31が取得した購読者の各アカウントの投稿に含まれる所定の情報を、投稿ごとに、購読者関係情報として収集する。ここで収集する購読者関係情報は例えばアカウントの投稿に含まれる文字情報、あるいは当該文字情報のうち予め定めたパターンに合致する部分、または当該投稿に含まれる画像の情報であってもよい。本実施の形態の以下の説明では、アカウントの投稿のうち、投稿者自身が当該投稿の内容を特徴づける語として投稿に含めた単語(タグ)を抽出するものとする。
【0022】
具体的にツイッター(登録商標)や、インスタグラム(登録商標)等のSNSサービスでは、「#」記号に続いて入力される文字列(次の「#」または改行等までの文字列)はタグとして扱われるので、購読者関係情報収集部32は、アカウントの投稿のうち、当該タグ部分を抽出して購読者関係情報として収集してもよい。
【0023】
関係情報学習部33は、投稿ごとに収集された購読者関係情報のリストを購読者関係情報収集部32から受け入れる。そして、関係情報学習部33は、生成された投稿ごとの購読者関係情報のリストを用いて、購読者関係情報の特徴量を演算する。
【0024】
具体的な例として、この関係情報学習部33は、タグ情報つきの動画データの分析に用いられるtag2vec(https://arxiv.org/abs/1612.04061)などを用いて購読関係情報の特徴量を演算する。一例では、この関係情報学習部33は、取得された購読者関係情報に基づいて語彙リストを生成する。この語彙リストは、取得したすべての投稿に含まれる購読者関係情報を、重複を省いてリストとしたものである。以下、この語彙リストに含まれる情報を、語彙情報と呼ぶ。
【0025】
そして関係情報学習部33は、tag2vecに対応する処理として次の処理を行う。すなわち関係情報学習部33は、この語彙リストに含まれる語彙情報とのそれぞれについて、予め定めたn次元のベクトル(例えばn=300となどする)を初期化する。初期化の方法はベクトルの各成分の値をランダムな値とすることで行えばよいが、各ベクトルはそれぞれ大きさが「1」(単位ベクトル)となるように規格化しておく。関係情報学習部33は、語彙リストのj番目(j=1,2…)にある語彙情報に対応するベクトルをj列目に配した行列Mを記憶部12に格納して記憶する。
【0026】
関係情報学習部33は、投稿ごとに、当該投稿に含まれる購読者関係情報を順次取り出し、当該取り出した購読者関係情報(注目関係情報と呼ぶ)に対応する語彙情報のベクトルviと、当該投稿に含まれる、注目関係情報以外の購読者関係情報に対応する語彙情報のベクトルvjとの内積uiを求め、そのsoftmaxの値と、当該分析対象アカウントの投稿を購読するアカウントの投稿に含まれる購読者関係情報のワン・ホット・ベクトル(購読者関係情報に対応する語彙情報が語彙リストのj番目の位置にある場合にj番目の成分を「1」、その他の成分を「0」としたベクトル)との間の差により、注目関係情報に対応する語彙情報のベクトルviと、当該投稿に含まれる、注目関係情報以外の購読者関係情報に対応する語彙情報のベクトルvjとを機械学習する(この機械学習の方法はスキップグラム(skip-gram)モデルに相当する)。
【0027】
関係情報学習部33は、このような、tag2vecなどの機械学習により、語彙リストに含まれる語彙情報のそれぞれについてのベクトル表現を得る。このとき、スキップグラムモデルに従い、同じ投稿に含まれやすい複数の語彙情報のベクトルvが互いに近接するように機械学習された状態となる。
【0028】
関係情報統合部34は、購読者関係情報の語彙リストに含まれる各語彙情報を、互いに類似する概念(例えば類語)ごとに分類する。一例としてこの関係情報統合部34は、関係情報学習部33の機械学習により得られた、語彙情報のベクトルviを、クラスタリング処理して互いに類似するベクトルごとのグループに分類する。
【0029】
ここでのクラスタリングの方法は、kmeans法、階層的クラスタリング法など、広く知られた方法を採用でき、またクラスタリングを行う際のベクトル間の距離の演算方法としては、例えば一対のベクトルの情報vi,vjの距離をコサイン類似度Dcos
【数1】
を用いて定める(類似度は値が大きいほどより類似することを表し、距離は値が小さい(0に近い)ほどより類似することを表すため、逆数を用いるなどしてクラスタリングの処理に適応させる)こととすればよい。ここで|v|は、ベクトルvの大きさを意味する。また、この距離の演算方法は、ユークリッド距離など、他の方法で求めてもよい。
【0030】
この関係情報統合部34の動作により、互いに類似する関係にある語彙情報ごとのクラスタに、語彙リストに含まれる語彙情報が分類される。関係情報統合部34は、語彙リストに含まれる語彙情報ごとに、クラスタリング処理により当該語彙情報が属することとなったクラスタを特定する情報(クラスタ特定情報)を関連付けて記憶部12に格納する(図3)。
【0031】
例えば関係情報統合部34は、クラスタリング処理によって得られた各クラスタを代表するベクトル情報(各クラスタに属する購読者関係情報のベクトルの算術平均ベクトルなど中心ないし重心でもよいし、当該重心等に最も近い距離にある購読者関係情報のベクトルであってもよい。以下代表ベクトルと呼ぶ)を得て、各代表ベクトルのそれぞれに固有な情報(代表ベクトルを表す情報)を、クラスタを特定する情報として、代表ベクトルの情報に関連付けて記憶部12に格納しておく。
【0032】
そして関係情報統合部34は、語彙情報ごとに、当該語彙情報が属するクラスタの代表ベクトルを表す情報を関連付けて記憶部12に格納する。
【0033】
推定処理部22の判定処理部41は、利用者により指定された複数の分析対象アカウントに含まれる、一対の分析対象アカウント(一対の分析対象アカウントの組み合わせのすべてとしてよい)間の類似性を、当該一対の分析対象アカウントのそれぞれの分析対象アカウントの購読者の購読者関係情報に基づいて判定する。
【0034】
具体的には、判定処理部41は、指定された分析対象アカウントごとに、その購読者の購読者関係情報を取得する。そして判定処理部41は、取得した購読者関係情報ごとに、購読者関係情報に対応する語彙情報が属するクラスタ(関係情報統合部34により得られたクラスタ)を特定する情報として、クラスタの代表ベクトルを表す情報Vcxを取り出して列挙する。
【0035】
ここで判定処理部41が生成した、購読者関係情報に含まれる語彙情報のリスト(重複を許したリスト)を、以下、購読者関係語彙リストと呼ぶ。
【0036】
そして判定処理部41は、購読者関係語彙リストに含まれる語彙ごとに、当該語彙に対応する代表ベクトルを表す情報を取得して列挙し、クラスタ情報リストを生成する。判定処理部41は、このクラスタ情報リストに含まれる、代表ベクトルを表す情報の出現頻度を表すヒストグラムを生成し、分析対象アカウントを特徴づけるベクトルVack(分析対象アカウントの特徴量)とする。判定処理部41は、指定された(N個の)分析対象アカウントk(k=1,2,…N)ごとに、この処理を行って、対応するベクトルVack(k=1,2,…N)を求める。
【0037】
判定処理部41は、一対の分析対象アカウントのそれぞれについて上述のように求められたベクトルの情報Vaci,Vacj(i≠j)の距離の情報(各分析対象アカウントに係る購読者関係情報の分類ごとの代表ベクトルを表す情報のヒストグラム間の距離の情報)を求める。ここで求める距離の情報は、コサイン類似度((1)式で規定される類似度)を用いた距離であってもよいし、ユークリッド距離であってもよい。またこの距離の情報は、これら以外であっても、ベクトルの情報間の類似度を定義できるものであれば、どのようなものであってもよい。ここで求められる距離の情報が、本発明における購読者関係情報の分類間の類似性に相当する。
【0038】
出力部42は、判定処理部41が距離の情報の演算に用いた一対の分析対象アカウントのそれぞれを表す情報と、当該一対の分析対象アカウント間の距離の情報とを表示部14等に表示出力する。複数の対について距離の情報が求められた場合は、出力部42は、各距離の情報に係る一対の分析対象アカウントのそれぞれを表す情報と、当該距離の情報とを出力する。
【0039】
[動作]
本実施の形態は以上の構成を備えており、次のように動作する。以下の例では、予め、所定の情報発信サイトにおいて登録された、ブランドA,B,Cのアカウントを分析対象アカウントとするものとする。
【0040】
また、各ブランドA,B,Cのアカウント(以下、アカウントA,B,Cとして示す)について、それぞれフォロワー(購読者)が
アカウントAのフォロワー:α,β
アカウントBのフォロワー:γ,ε
アカウントCのフォロワー:κ,μ
となっているものとする。
【0041】
さらにフォロワーα,β,γ,ε,κ,μのそれぞれが情報発信サイト(上記所定の情報発信サイトであっても、フォロワーと同一人物が投稿するアカウントであると知られていれば他の情報発信サイトであってもよい)において次のようなタグを付したテキストデータを投稿しているものとする。なお、ここではタグから「#」など、タグを表す文字列は除外している。
αの第1の投稿に含まれるタグ(以下これをα1などと略して記す):「pink」,「love」,「cosmetic」,「l4l(like for like)」
α2:「cosmetic」,「fashion」,「l4l(like for like)」

β1:「summer」,「white」,「style」
β2:「pink」,「lovely」,「cute」

γ1:「son」,「mama」,「school」
γ2:「mother」,「family」

ε1:「daughter」,「son」,「kindergarten」
ε2:「children」,「sibling」,「family」

κ1:「work」,「coffee」,「f4f(follow for follow)」
κ2:「fashionable」,「black」,「simple」,「f4f(follow for follow)」

μ1:「trend」,「mode」,「white」,「fff(follow for follow)」
μ2:「mode」,「fff(follow for follow)」
【0042】
情報分析装置1は、図4に例示するように、まず学習処理を実行する。この学習処理では、情報分析装置1は、分析対象アカウント(となり得る候補のアカウント)ごとに、その購読者のアカウントを表す情報を取得する(S1)。ここでは、上述のように、アカウントAについてα,β、アカウントBについてγ,ε…というように、購読者のアカウントを表す情報を取得する。
【0043】
情報分析装置1は、分析対象アカウントごとに情報取得部31が取得した購読者の各アカウントの投稿に含まれる情報を、投稿ごとに購読者関係情報として収集する(S2)。そして情報分析装置1は、取得された購読者関係情報を、重複を省いてリストとし、語彙リストを生成する(S3)。
【0044】
情報分析装置1は、生成した語彙リストに含まれる情報(語彙情報)のそれぞれについて、予め定めた次元のベクトル量(特徴量)をランダムに決定するなどして初期化し、投稿ごとに共通して含まれる語彙情報間のベクトルが互いに近接するように更新しつつ機械学習を行う(S4)。
【0045】
このような機械学習方法は、既に述べたように、スキップグラムモデル等として広く知られた方法を用いることができる。これにより、一つ投稿に含まれやすい複数の語彙情報のベクトルvが、互いに近接するように機械学習された状態となる。
【0046】
さらに情報分析装置1は、この語彙情報のベクトルvを、クラスタリング処理する(S5)。上記の例において、例えば、αやβの投稿に含まれる「love」や「lovely」という語は、いずれも「pink」の語と同じ投稿に(ここでの例では)含まれやすいこととなっているので、これら「love」や「lovely」の語(語彙情報)に対応するベクトルv_love,v_lovelyは、互いに近接したベクトルとして機械学習される。
【0047】
一方、「work」と「son」とは、それぞれの語と同じ投稿に含まれる語のうちに共通した語が(ここでの例では)ないため、これら「work」や「son」の語(語彙情報)に対応するベクトルv_work,v_son間の距離は、ベクトルv_love,v_lovely間の距離に比べて離れたものとなるよう機械学習される。
【0048】
従って、クラスタリング処理では、例えば、「love」や「lovely」の語は一つの共通したクラスタに属する語となり、「work」や「son」の語は互いに異なるクラスタに属する語となる。
【0049】
情報分析装置1は、こうして得たクラスタリングの結果、及び、各語彙情報のベクトルの情報、分析対象アカウントごとの購読者を表す情報、各購読者の投稿に含まれる語彙情報を表す情報等から、指定された複数の分析対象アカウントに含まれる一対の分析対象アカウントの類似性を判定する処理を実行する(図5)。
【0050】
具体的に情報分析装置1は、分析対象アカウントの指定を受け入れ(S11)、指定された分析対象アカウントの一対の組み合わせごとに次の処理を繰り返す。情報分析装置1は、上述の例のように学習された情報がある場合に分析対象アカウントとしてブランドA,B,Cが指定された場合、例えばまず、ブランドAとブランドBとの間の類似性を次のようにして求める。
【0051】
すなわち、情報分析装置1は、アカウントAのフォロワーα,βの投稿に含まれる語彙情報と、アカウントBのフォロワー:γ,εとのそれぞれの投稿に含まれる語彙情報とを、それぞれアカウントA,Bの購読者関係情報として列挙する(S12)。
【0052】
上述の例では、
アカウントAの購読者関係情報:「pink」,「love」,「cosmetic」,「l4l(like for like)」,「cosmetic」,「fashion」,「l4l(like for like)」,「summer」,「white」,「style」,「pink」,「lovely」,「cute」…
アカウントBの購読者関係情報:「son」,「mama」,「school」,「mother」,「family」,「daughter」,「son」,「kindergarten」,「children」,「sibling」,「family」…
というように取得されることになる。なおここでは重複を許して取得しているが、重複は排除することとしてもよい。
【0053】
情報分析装置1は、取得した各購読者関係情報についてそれぞれに含まれる語彙情報を、当該語彙情報が属するクラスタを特定する情報(各クラスタの代表ベクトルを表す情報)で置き換える(S13)。例えば「pink」,「love」,「lovely」…が番号「1」で特定されるクラスタ、「son」,「mama」,「school」,「kindergarten」…が番号「2」で特定されるクラスタ…というように分類されているとすると、上述の、類似性を求める一対の分析対象アカウントごとに取得した各購読者関係情報に含まれる語彙情報について、
アカウントA:「1」(「pink」が属するクラスタの代表ベクトルを表す情報、以下同様),「1」,「3」,「4」,「3」,「5」,「4」,「6」,「6」,「5」,「1」,「1」,「1」…
アカウントB:「2」,「2」,「2」,「2」,「7」,「2」,「2」,「2」,「7」,「7」,「7」…
などといった代表ベクトルを表す情報のリスト(クラスタ情報リスト)が得られることとなる。
【0054】
情報分析装置1は、分析対象アカウントごとに得られたクラスタ情報リストに含まれる代表ベクトルを表す情報の出現数をそれぞれカウントしてヒストグラムを生成して、分析対象アカウントを特徴づけるベクトルVackとする(S14)。
【0055】
上述の例では(i番目のクラスタの代表ベクトルをVrep_iとすると)、分析対象アカウントを特徴づけるベクトルVackは、
アカウントA:Vaca=(Ca(Vrep_1),Ca(Vrep_2)…)
アカウントB:Vacb=(Cb(Vrep_1),Cb(Vrep_2)…)
といったように演算される。ここで、Cp(V)は、アカウントPについて得られたクラスタの代表ベクトルVの数(カウント数)を表す。つまり、Ca(Vrep_1)は、アカウントAについての購読者関係情報に含まれる語彙情報のうち、クラスタ番号「1」に属している語彙情報の数(クラスタ情報リストに、クラスタ番号「1」の代表ベクトルが現れた数)を表す。また、各分析対象アカウントを特徴づけるベクトルの第i番目の成分は、いずれも共通の、i番目のクラスタの代表ベクトルのカウント数を表すものとする。
【0056】
情報分析装置1は、ここで求められたベクトルVaca,Vacbの距離の情報を求めて(S15)、一対の分析対象アカウントである、ブランドAとブランドBとの類似性として出力する(S16)。
情報分析装置1は、分析対象アカウントとして指定された複数のブランドの一対の組み合わせごとに上記の処理を繰り返して行う。
【0057】
すなわち、ブランドA,B,Cが指定されたときには、ブランドA,B間、ブランドA,C間、ブランドB,C間のそれぞれについて上述の処理を繰り返して行い、それぞれ
ブランドA,B間:ベクトルVaca,Vacbの距離の情報、
ブランドA,C間:ベクトルVaca,Vaccの距離の情報、
ブランドB,C間:ベクトルVacb,Vaccの距離の情報
をそれぞれのブランド間の類似性を表す情報として出力する。
【0058】
これらベクトルVaca,Vacb等の間の距離の情報は、各分析対象アカウントに係る購読者関係情報に含まれる語彙情報の、分類ごとの代表ベクトルの総和間の距離に相当するものであり、ここでのベクトルVaca,Vacb等の間の距離の情報は、コサイン類似度を用いるものでも、ユークリッド距離でもその他の距離の情報でも構わないが、距離が短いほど(互いに類似するほど)小さい値となるように調整して出力してもよい。例えばコサイン類似度の場合は、その逆数などとしてもよい。
【0059】
[画像を購読者関係情報として用いる場合]
ここまでの説明において、購読者関係情報は、情報発信サイトにおいて投稿された文字列の情報であるものとしたが、本実施の形態は、これらが文字列である場合に限られない。
【0060】
例えば、購読者関係情報は、情報発信サイトにおいて投稿された写真等の画像データであってもよい。すなわち、本実施の形態の購読者関係情報は、その特徴量が、購読者関係情報間の類似性に対応する距離が定められた値(ここまでの例における、スキップグラムで学習されたベクトル量など)として表現できればよい。
【0061】
購読者関係情報が画像データである場合、特徴量は、例えば予め定められた画像データのセットで機械学習された画像分類器の分類判定の基礎となるベクトル量(多層のニューラルネットが用いられる場合、最終層の一つ手前の層の出力でよい)を用いることができる。
【0062】
[出現頻度を用いる場合]
さらに、上述の例では、制御部11が推定処理部22の判定処理部41として動作する際に、指定された分析対象アカウントごとに、その購読者の購読者関係情報を取得し、取得した購読者関係情報に含まれる語彙情報ごとに、語彙情報が属するクラスタの代表ベクトルの情報Vcxを取り出していたが、本実施の形態では、購読者関係情報に含まれる語彙情報自体の出現頻度の情報をさらに用いてもよい。
【0063】
一例として、投稿ごとの購読者関係情報について、制御部11は投稿ごとの出現頻度tfと、購読者関係情報に含まれる語彙情報が出現する投稿の数dfの逆数(またはその対数の逆数)idfとを用いて、tf-idfの値を求める。
【0064】
そして制御部11は、このtf-idfの値によって、投稿によらず頻出する語彙情報については比較的一般的に使われ、特徴を表さない語彙情報であるものとして除外してもよい。この場合、制御部11は、分析対象アカウントごとに、当該除外した後に残っている語彙情報について、各語彙情報が属するクラスタの代表ベクトルの情報Vcxを取り出して、各代表ベクトルを表す情報のヒストグラムを生成し、当該ヒストグラムを、分析対象アカウントの特徴量としてもよい。
【0065】
[実施の形態の効果]
本実施の形態によれば、情報発信サイトにおける複数の分析対象アカウントの類似性により評価するので、売り上げの情報が得られない場合などであっても組織間、やブランド間の類似性、あるいは、組織とユーザ(人)との間の類似性など、複数のアカウントの間の類似性を、当該複数のアカウントが同質もの(例えばブランドのみ、組織のみ、など)からなっていても、また、異質なものを含む(例えばブランドとユーザ、組織とユーザなど)場合であっても、数値的に評価できる。
【符号の説明】
【0066】
1 情報分析装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部、21 学習処理部、22 推定処理部、31 情報取得部、32 購読者関係情報収集部、33 関係情報学習部、34 関係情報統合部、41 判定処理部、42 出力部。
図1
図2
図3
図4
図5