【文献】
三輪哲,第8章 傾向スコア法によるワーキングパーソンWeb調査補正の可能性,信頼できるインターネット調査法の確立に向けて,SSJDA−42,2009年 3月31日,第123−132頁
【文献】
Robert P. Berrnes,The Advent of Internet Surveys for Political Research: A Comparison of Telephone and Internet Samples,Polytical Analysis,2003年12月31日,Vol.11,pp.1-22
【文献】
星野 崇宏 ,情報の信頼性評価,人工知能学会誌 第23巻 第6号,(社)人工知能学会,2008年11月 1日,第23巻
【文献】
Andranik Tumasjan et al,Predicting Elections with Twitter: What 140 Charaters Reveal about Political Sentiment,Proceedings of the Fourth International AAAI Conference on Webloges and Social Media,2010年,pp.178−185,URL,http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/view/1441
【文献】
橋本 和幸 外3名,センチメント分析とトピック抽出によるマイクロブログからの評判傾向抽出 Reputation Trend Extraction from Microblogging Using Sentiment Analysis and Topic Extraction,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2011年11月 1日,第J94−D巻 第11号 ,pp.1762−1772
(58)【調査した分野】(Int.Cl.,DB名)
前記第1の取得部は、複数のカテゴリの何れかに属する複数の対象の各対象について、当該各対象に関する現実社会における調査で得られた評価の度合いを示す前記第1の評価情報を取得し、
前記第2の取得部は、前記複数の対象の各対象について、当該各対象に関する前記インターネットメディア上の評価の度合いを示す前記第2の評価情報を取得し、
前記推定部は、前記複数の対象の各対象についての前記第1の評価情報により示される評価の度合いに対する前記第2の評価情報により示される評価の度合いの隔たりを示す情報を目的変数とし、当該各対象が前記複数のカテゴリの各々に属するかどうかを示す情報を説明変数として回帰することにより、前記インターネットメディア上の情報におけるバイアスを推定する、請求項1又は請求項2の装置。
【発明を実施するための形態】
【0024】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。本実施の形態は、インターネットメディア上の統計情報とリアルの統計情報とのギャップを分析する統計情報分析装置を提供するものである。尚、以下では、インターネットメディアをSNSで代表させて説明するが、これは、SNS以外のインターネットメディア(例えば、電子掲示板、マイクロブログ、動画サイト等)を除外する趣旨ではない。
【0025】
[統計情報分析装置のハードウェア構成]
図1は、本実施の形態における統計情報分析装置10のハードウェア構成例を示した図である。図示するように、統計情報分析装置10は、演算手段であるCPU(Central Processing Unit)10aと、M/B(マザーボード)チップセット10bを介してCPU10aに接続されたメインメモリ10cと、同じくM/Bチップセット10bを介してCPU10aに接続された表示機構10dとを備える。また、M/Bチップセット10bには、ブリッジ回路10eを介して、ネットワークインターフェイス10fと、磁気ディスク装置(HDD)10gと、音声機構10hと、キーボード/マウス10iと、フレキシブルディスクドライブ10jとが接続されている。
【0026】
尚、
図1において、各構成要素は、バスを介して接続される。例えば、CPU10aとM/Bチップセット10bの間や、M/Bチップセット10bとメインメモリ10cの間は、CPUバスを介して接続される。また、M/Bチップセット10bと表示機構10dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構10dがPCI Express対応のビデオカードを含む場合、M/Bチップセット10bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路10eと接続する場合、ネットワークインターフェイス10fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置10gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス10i、及び、フレキシブルディスクドライブ10jについては、USB(Universal Serial Bus)を用いることができる。
【0027】
[統計情報分析装置の機能構成]
図2は、本実施の形態における統計情報分析装置10の機能構成例を示したブロック図である。図示するように、統計情報分析装置10は、テーマカテゴリ受付部21と、リアル関連統計値抽出部22と、リアル関連統計値記憶部23と、SNS関連統計値抽出部24と、SNS関連統計値記憶部25と、バイアス算出部26と、バイアス記憶部27とを備えている。また、SNSテーマ統計値受付部31と、SNSテーマ統計値記憶部32と、リアルテーマ統計値予測部33と、リアルテーマ統計値記憶部34と、情報出力部35とを備えている。
【0028】
テーマカテゴリ受付部21は、統計のテーマのカテゴリ(以下、「テーマカテゴリ」という)を受け付ける。統計のテーマとは、統計をとることによって調べるテーマであり、例えば、ある対象に対する評価(対象が政策である場合の賛成及び反対の割合、対象が商品である場合の良い及び悪いの割合等)が該当する。また、テーマカテゴリとは、統計のテーマが属するカテゴリとして事前に設定されるものであり、対象が政策であれば、その政策を打ち出した政党や、その政策が関連する事案(その政策が子供関連政策である場合の「子供」、その政策がエネルギー関連政策である場合の「エネルギー」等)がある。ここでは、統計のテーマとして、ある政策に対する賛成及び反対の割合を例にとり、テーマカテゴリとして、その政策を打ち出した政党P及びその政策が関連する事案Qを受け付けるものとする。尚、テーマカテゴリを設定する方法としては、統計のテーマごとに人間が設定する方法、ニュース記事等に付与されているタグを使う方法、統計のタイトルや説明文に出て来る単語や句によって設定する方法等がある。
【0029】
リアル関連統計値抽出部22は、リアルの過去の統計値から、テーマカテゴリ受付部21が受け付けたテーマカテゴリに関連する統計値を抽出する。ここで、リアルの過去の統計値とは、現実社会における調査(世論調査等)で得られた統計値であり、例えば、20XX年の内閣の支持率、消費税増税の賛成率等を含む。そして、リアルの過去の統計値にはテーマカテゴリが付与されているので、テーマカテゴリに関連する統計値を抽出できるようになっている。尚、以下では、この抽出された統計値を「リアル関連統計値」と称し、テーマカテゴリCに関連するリアル関連統計値をX
Ci(i=1,2,…,m
c)と表記するものとする。本実施の形態では、所定の対象に関する現実社会における調査で得られた評価の度合いを示す第1の評価情報の一例として、また、各政策に関する現実の肯定的な評価の度合いを示す値である第1の評価値の一例として、リアル関連統計値を用いており、第1の評価情報又は第1の評価値を取得する第1の取得部の一例として、リアル関連統計値抽出部22を設けている。
【0030】
リアル関連統計値記憶部23は、リアル関連統計値抽出部22が抽出したリアル関連統計値X
Ciを記憶する。
【0031】
SNS関連統計値抽出部24は、SNS[k]の過去の統計値から、テーマカテゴリ受付部21が受け付けたテーマカテゴリに関連する統計値を抽出する。ここで、SNS[k]とは、複数存在するSNSのうちのk番目のSNSを意味している(k=1,2,…,K)。また、SNS[k]の過去の統計値とは、SNS[k]の情報から既に分かっている統計値であり、例えば、SNS[k]におけるアンケートで得られた統計値、SNS[k]の書き込み内容から単語、句等のパターンによって抽出された賛成、反対等の表現の件数に基づく統計値等がある。その際、これらの統計値から、なりすまし等によるバイアスを除去するようにしてもよい。そして、SNS[k]の過去の統計値にもテーマカテゴリが付与されているので、テーマカテゴリに関連する統計値を抽出できるようになっている。尚、以下では、この抽出された統計値を「SNS関連統計値」と称し、SNS[k]の過去の統計値から抽出されたテーマカテゴリCに関連するSNS関連統計値をY
kCi(i=1,2,…,m
c)と表記するものとする。本実施の形態では、所定の対象に関するインターネットメディア上の評価の度合いを示す第2の評価情報の一例として、また、各政策に関するインターネットメディア上の肯定的な評価の度合いを示す値である第2の評価値の一例として、SNS関連統計値を用いており、第2の評価情報又は第2の評価値を取得する第2の取得部の一例として、SNS関連統計値抽出部24を設けている。
【0032】
SNS関連統計値記憶部25は、SNS関連統計値抽出部24が抽出したSNS関連統計値Y
kCiを記憶する。
【0033】
バイアス算出部26は、リアル関連統計値記憶部23に記憶されたリアル関連統計値X
Ciと、SNS関連統計値記憶部25に記憶されたSNS関連統計値Y
kCiとに基づいて、SNS[k]におけるバイアスB
kを算出する。本実施の形態では、インターネットメディア上の情報におけるバイアスを推定する推定部の一例として、バイアス算出部26を設けている。
【0034】
バイアス記憶部27は、バイアス算出部26が算出したSNS[k]におけるバイアスB
kを記憶する。
【0035】
SNSテーマ統計値受付部31は、SNS[k]の現在のテーマ統計値Z
kを受け付ける。現在のテーマとは、現在調べようとしている統計のテーマであり、現在のテーマ統計値とは、そのテーマの統計値である。ここでは、現在のテーマを、政党Pが打ち出した事案Qに関連する特定の政策とし、SNS[k]の情報から得られたこの特定の政策の賛成率を、SNS[k]の現在のテーマ統計値Z
kとして取得するものとする。尚、SNS[k]の現在のテーマ統計値Z
kは、上述したSNS[k]の過去の統計値と同様の方法で取得した統計値であってよい。本実施の形態では、他の対象に関するインターネットメディア上の評価の度合いを示す第3の評価情報の一例として、また、調査の対象の政策に関するインターネットメディア上の肯定的な評価の度合いを示す値である第3の評価値の一例として、SNS[k]の現在のテーマ統計値を用いており、第3の評価情報又は第3の評価値を取得する第3の取得部の一例として、SNSテーマ統計値受付部31を設けている。
【0036】
SNSテーマ統計値記憶部32は、SNSテーマ統計値受付部31が受け付けたSNS[k]の現在のテーマ統計値Z
kを記憶する。
【0037】
リアルテーマ統計値予測部33は、SNSテーマ統計値記憶部32に記憶されたSNS[k]の現在のテーマ統計値Z
kに対して、バイアス記憶部27に記憶されたSNS[k]におけるバイアスB
kを減ずる補正を行うことにより、SNS[k]の補正済みテーマ統計値を算出する。そして、SNS[k]の補正済みテーマ統計値の全てのSNSについての平均をとることで、リアルの現在のテーマ統計値を予測する。本実施の形態では、他の対象に関する現実の評価を予測する予測部との一例として、また、調査の対象の政策に関する現実の肯定的な評価の度合いを予測する予測部の一例として、リアルテーマ統計値予測部33を設けている。
【0038】
リアルテーマ統計値記憶部34は、リアルテーマ統計値予測部33が予測したリアルの現在のテーマ統計値を記憶する。
【0039】
情報出力部35は、バイアス記憶部27に記憶されたSNS[k]におけるバイアスB
kと、リアルテーマ統計値記憶部34に記憶されたリアルの現在のテーマ統計値とを出力する。ここで、SNS[k]におけるバイアスB
kは、テーマカテゴリごとに出力してもよい。
【0040】
尚、これらの機能部は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、CPU10aが、テーマカテゴリ受付部21、リアル関連統計値抽出部22、SNS関連統計値抽出部24、バイアス算出部26、SNSテーマ統計値受付部31、リアルテーマ統計値予測部33、情報出力部35を実現するプログラムを例えば磁気ディスク装置10gからメインメモリ10cに読み込んで実行することにより、これらの機能部は実現される。また、リアル関連統計値記憶部23、SNS関連統計値記憶部25、バイアス記憶部27、SNSテーマ統計値記憶部32、リアルテーマ統計値記憶部34は、例えば磁気ディスク装置10gにより実現される。
【0041】
[統計情報分析装置の第1の動作]
図3は、統計情報分析装置10の第1の動作例を示したフローチャートである。尚、この第1の動作例では、テーマカテゴリとして、政党P及び事案Qが与えられるものとする。
【0042】
動作が開始すると、まず、テーマカテゴリ受付部21は、テーマカテゴリとして政党P及び事案Qを受け付ける(ステップ101)。尚、これらのテーマカテゴリは、テーマカテゴリ受付部21からリアル関連統計値抽出部22及びSNS関連統計値抽出部24へと渡される。
【0043】
次に、リアル関連統計値抽出部22は、リアルの過去の統計値から、ステップ101で受け付けた政党Pに関連するリアル関連統計値X
Piと、ステップ101で受け付けた事案Qに関連するリアル関連統計値X
Qiとを抽出する(ステップ102)。例えば、リアル関連統計値X
Piとして、政党Pの政策Rの賛成率X
P1と、政党Pの政策Sの賛成率X
P2と、政党Pの政策Tの賛成率X
P3とを抽出し、リアル関連統計値X
Qiとして、事案Qに関連する政策Rの賛成率X
Q1と、事案Qに関連する政策Uの賛成率X
Q2とを抽出する。尚、このリアル関連統計値X
Pi及びリアル関連統計値X
Qiは、リアル関連統計値記憶部23に記憶される。
【0044】
また、SNS関連統計値抽出部24は、SNS[k]の過去の統計値から、ステップ101で受け付けた政党Pに関連するSNS関連統計値Y
kPiと、ステップ101で受け付けた事案Qに関連するSNS関連統計値Y
kQiとを抽出する(ステップ103)。例えば、SNS関連統計値Y
kPiとして、政党Pの政策Rの賛成率Y
kP1と、政党Pの政策Sの賛成率Y
kP2と、政党Pの政策Tの賛成率Y
kP3とを抽出し、SNS関連統計値Y
kQiとして、事案Qに関連する政策Rの賛成率Y
kQ1と、事案Qに関連する政策Uの賛成率Y
kQ2とを抽出する。尚、このSNS関連統計値Y
kPi及びSNS関連統計値Y
kQiは、SNS関連統計値記憶部25に記憶される。
【0045】
このように、リアル関連統計値X
Pi,X
Qiがリアル関連統計値記憶部23に記憶され、SNS関連統計値Y
kPi,Y
kQiがSNS関連統計値記憶部25に記憶されると、バイアス算出部26は、リアル関連統計値X
Pi,X
QiとSNS関連統計値Y
kPi,Y
kQiとに基づいて、SNS[k]におけるバイアスB
kを算出する。即ち、各テーマカテゴリに関連するSNS関連統計値のリアル関連統計値に対する相対的な値を、全てのテーマカテゴリについて平均化することにより、バイアスB
kを算出する(ステップ104)。ここで、SNS関連統計値のリアル関連統計値に対する相対的な値とは、SNS関連統計値とリアル関連統計値とのギャップ(隔たり)であり、SNS関連統計値とリアル関連統計値との差、SNS関連統計値のリアル関連統計値に対する割合、SNS関連統計値とリアル関連統計値との差をリアル関連統計値で正規化したもの等がある。例えば、最も単純なバイアスの算出方法は、テーマカテゴリごとのSNS関連統計値のリアル関連統計値に対する割合を平均する方法であり、次の式によって実現される。
【0047】
尚、このバイアスB
kは、バイアス記憶部27に記憶される。
【0048】
一方で、SNSテーマ統計値受付部31は、SNS[k]の現在のテーマ統計値Z
kを受け付ける(ステップ105)。尚、このSNS[k]の現在のテーマ統計値Z
kは、SNSテーマ統計値記憶部32に記憶される。
【0049】
その後、リアルテーマ統計値予測部33は、SNS[k]の現在のテーマ統計値Z
kをSNS[k]におけるバイアスB
kで補正することにより、SNS[k]の補正済みテーマ統計値を算出し、その全てのSNSについて平均化することでリアルの現在のテーマ統計値を予測する(ステップ106)。ここで、SNS[k]の補正済みテーマ統計値は、例えば、SNS[k]の現在のテーマ統計値Z
kにSNS[k]におけるバイアスB
kの逆数を乗ずることにより、つまり、Z
k/B
kという計算を行うことにより、算出すればよい。また、SNS[k]の補正済みテーマ統計値の平均化は、次の式によって行うとよい。
【0051】
また、SNS[k]の補正済みテーマ統計値の平均化の方法としては、このような相加平均の他に、相乗平均、SNSの利用者数やページ閲覧数等による加重平均等も考えられる。
【0052】
そして、最後に、情報出力部35は、バイアス記憶部27に記憶されたSNS[k]におけるバイアスB
kと、リアルテーマ統計値記憶部34に記憶されたリアルの現在のテーマ統計値とを出力する(ステップ107)。
【0053】
ここで、このような動作の結果、統計情報分析装置10の各記憶部に記憶される情報について具体的に説明する。
【0054】
図4(a),(b)は、リアル関連統計値記憶部23に記憶される情報の一例を示した図である。
【0055】
(a)は、ステップ102で抽出されてリアル関連統計値記憶部23に記憶された政党Pに関連するリアル関連統計値X
Piについての情報の一例である。ここでは、政党Pが打ち出した政策Rの賛成率X
P1と、政党Pが打ち出した政策Sの賛成率X
P2と、政党Pが打ち出した政策Tの賛成率X
P3とが示されている。
【0056】
(b)は、ステップ102で抽出されてリアル関連統計値記憶部23に記憶された事案Qに関連するリアル関連統計値X
Qiについての情報の一例である。ここでは、事案Qに関連する政策Rの賛成率X
Q1と、事案Qに関連する政策Uの賛成率X
Q2とが示されている。
【0057】
図5(a),(b)は、SNS関連統計値記憶部25に記憶される情報の一例を示した図である。
【0058】
(a)は、ステップ103で抽出されてSNS関連統計値記憶部25に記憶された政党Pに関連するSNS関連統計値Y
kPiについての情報の一例である。ここでは、SNS[1]について、政党Pが打ち出した政策Rの賛成率Y1
P1と、政党Pが打ち出した政策Sの賛成率Y1
P2と、政党Pが打ち出した政策Tの賛成率Y1
P3とが示されている。また、SNS[2]について、政党Pが打ち出した政策Rの賛成率Y2
P1、政党Pが打ち出した政策Sの賛成率Y2
P2、政党Pが打ち出した政策Tの賛成率Y2
P3とが示されている。
【0059】
(b)は、ステップ103で抽出されてSNS関連統計値記憶部25に記憶された事案Qに関連するSNS関連統計値Y
kQiについての情報の一例である。ここでは、SNS[1]について、事案Qに関連する政策Rの賛成率Y1
Q1、事案Qに関連する政策Uの賛成率Y1
Q2が示されている。また、SNS[2]について、事案Qに関連する政策Rの賛成率Y2
Q1、事案Qに関連する政策Uの賛成率Y2
Q2が示されている。
【0060】
図6は、バイアス記憶部27に記憶される情報の一例を示した図である。ここでは、ステップ104で算出されたSNS[1]におけるバイアスB
1、SNS[2]におけるバイアスB
2、SNS[3]におけるバイアスB
3が、それぞれ、図示するような計算で求められる値であることが示されている。
【0061】
[統計情報分析装置の第2の動作]
図7は、統計情報分析装置10の第2の動作例を示したフローチャートである。尚、この第2の動作例でも、テーマカテゴリとして、政党P及び事案Qが与えられるものとする。
【0062】
動作が開始すると、まず、テーマカテゴリ受付部21は、テーマカテゴリとして政党P及び事案Qを受け付ける(ステップ151)。尚、これらのテーマカテゴリは、テーマカテゴリ受付部21からリアル関連統計値抽出部22及びSNS関連統計値抽出部24へと渡される。
【0063】
次に、リアル関連統計値抽出部22は、リアルの過去の統計値から、ステップ151で受け付けた政党P及び事案Qの両方に関連するリアル関連統計値X
PQiを抽出する(ステップ152)。例えば、リアル関連統計値X
PQiとして、政党Pの政策であって事案Qに関連する政策である政策Rの賛成率X
PQ1を抽出する。尚、このリアル関連統計値X
PQiは、リアル関連統計値記憶部23に記憶される。
【0064】
また、SNS関連統計値抽出部24は、SNS[k]の過去の統計値から、ステップ151で受け付けた政党P及び事案Qの両方に関連するSNS関連統計値Y
kPQiを抽出する(ステップ153)。例えば、SNS関連統計値Y
kPQiとして、政党Pの政策であって事案Qに関連する政策である政策Rの賛成率Y
kPQ1を抽出する。尚、このSNS関連統計値Y
kPQiは、SNS関連統計値記憶部25に記憶される。
【0065】
次いで、リアル関連統計値抽出部22は、リアルの過去の統計値から、ステップ151で受け付けた政党Pに関連し事案Qに関連しないリアル関連統計値X
Piを抽出する(ステップ154)。例えば、リアル関連統計値X
Piとして、政党Pの政策であって事案Qに関連しない政策である政策Sの賛成率X
P1と、政党Pの政策であって事案Qに関連しない政策である政策Tの賛成率X
P2とを抽出する。尚、このリアル関連統計値X
Piは、リアル関連統計値記憶部23に記憶される。
【0066】
また、SNS関連統計値抽出部24は、SNS[k]の過去の統計値から、ステップ151で受け付けた政党Pに関連し事案Qに関連しないSNS関連統計値Y
kPiを抽出する(ステップ155)。例えば、SNS関連統計値Y
kPiとして、政党Pの政策であって事案Qに関連しない政策である政策Sの賛成率Y
kP1と、政党Pの政策であって事案Qに関連しない政策である政策Tの賛成率Y
kP2とを抽出する。尚、このSNS関連統計値Y
kPiは、SNS関連統計値記憶部25に記憶される。
【0067】
次いで、リアル関連統計値抽出部22は、リアルの過去の統計値から、ステップ151で受け付けた政党Pに関連せず事案Qに関連するリアル関連統計値X
Qiを抽出する(ステップ156)。例えば、リアル関連統計値X
Qiとして、政党Pの政策でなく事案Qに関連する政策である政策Uの賛成率X
Q1を抽出する。尚、このリアル関連統計値X
Qiは、リアル関連統計値記憶部23に記憶される。
【0068】
また、SNS関連統計値抽出部24は、SNS[k]の過去の統計値から、ステップ151で受け付けた政党Pに関連せず事案Qに関連するSNS関連統計値Y
kQiを抽出する(ステップ157)。例えば、SNS関連統計値Y
kQiとして、政党Pの政策でなく事案Qに関連する政策である政策Uの賛成率Y
kQ1を抽出する。尚、このSNS関連統計値Y
kQiは、SNS関連統計値記憶部25に記憶される。
【0069】
このように、リアル関連統計値X
PQi,X
Pi,X
Qiがリアル関連統計値記憶部23に記憶され、SNS関連統計値Y
kPQi,Y
kPi,Y
kQiがSNS関連統計値記憶部25に記憶されると、バイアス算出部26は、リアル関連統計値X
PQi,X
Pi,X
QiとSNS関連統計値Y
kPQi,Y
kPi,Y
kQiとに基づいて、SNS[k]におけるバイアスB
kを算出する。即ち、ある統計のテーマに関するSNS関連統計値のリアル関連統計値に対する相対的な値を目的変数とし、その統計のテーマが属するテーマカテゴリに対応する要素を「1」、その統計のテーマが属しないテーマカテゴリに対応する要素を「0」とするベクトルを説明変数として、回帰することにより、バイアスB
kを算出する(ステップ158)。ここで、SNS関連統計値のリアル関連統計値に対する相対的な値とは、SNS関連統計値とリアル関連統計値とのギャップ(隔たり)であり、SNS関連統計値とリアル関連統計値との差、SNS関連統計値のリアル関連統計値に対する割合、SNS関連統計値とリアル関連統計値との差をリアル関連統計値で正規化したもの等がある。また、回帰する際には、説明変数(u,v)の要素u、vを、それぞれ、政党Pへの関連の有無、事案Qへの関連の有無を表す変数とし、各説明変数に対して、目的変数を(Y
k−X)/Xと定める。つまり、説明変数(1,1)に対して、目的変数を(Y
kPQi−X
PQi)/X
PQiとし、説明変数(1,0)に対して、目的変数を(Y
kPi−X
Pi)/X
Piとし、説明変数(0,1)に対して、目的変数を(Y
kQi−X
Qi)/X
Qiとする。そして、回帰した結果、次の回帰式が得られ、(a
k,b
k)がSNS[k]におけるバイアスB
kとなる。
【0071】
ここで、このSNS[k]におけるバイアスB
kには、テーマカテゴリに関連する統計のテーマがSNS[k]においてどれだけ支持され易くなるかという情報が含まれることになる。
【0072】
また、上記のバリエーションとして、統計のテーマとテーマカテゴリとの関連を「0」、「1」だけでなく、関連しないことを示す指標(極性)、関連の度合いを示す指標(関連度)等を示す連続的な値として与えてもよい。
【0073】
一方で、SNSテーマ統計値受付部31は、SNS[k]の現在のテーマ統計値Z
kを受け付ける(ステップ159)。尚、このSNS[k]の現在のテーマ統計値Z
kは、SNSテーマ統計値記憶部32に記憶される。
【0074】
その後、リアルテーマ統計値予測部33は、SNS[k]の現在のテーマ統計値Z
kをSNS[k]におけるバイアスB
kで補正することにより、SNS[k]の補正済みテーマ統計値を算出し、その全てのSNSについて平均化することでリアルの現在のテーマ統計値を予測する(ステップ160)。ここで、SNS[k]の補正済みテーマ統計値は、例えば、SNS[k]の現在のテーマ統計値Z
kを上記回帰式のY
kに代入してXについて解くことにより、算出すればよい。即ち、上記回帰式を用いた場合は、次の式によって求めるとよい。
【0076】
また、SNS[k]の補正済みテーマ統計値の平均化の方法としては、相加平均、相乗平均、SNSの利用者数やページ閲覧数等による加重平均等が考えられる。
【0077】
そして、最後に、情報出力部35は、バイアス記憶部27に記憶されたSNS[k]におけるバイアスB
kと、リアルテーマ統計値記憶部34に記憶されたリアルの現在のテーマ統計値とを出力する(ステップ161)。
【0078】
ここで、このような動作の結果、統計情報分析装置10の各記憶部に記憶される情報について具体的に説明する。
【0079】
図8(a)〜(c)は、リアル関連統計値記憶部23に記憶される情報の一例を示した図である。
【0080】
(a)は、ステップ152で抽出されてリアル関連統計値記憶部23に記憶された政党P及び事案Qの両方に関連するリアル関連統計値X
PQiについての情報の一例である。ここでは、政党Pが打ち出した事案Qに関連する政策Rの賛成率X
PQ1が示されている。
【0081】
(b)は、ステップ154で抽出されてリアル関連統計値記憶部23に記憶された政党Pに関連し事案Qに関連しないリアル関連統計値X
Piについての情報の一例である。ここでは、政党Pが打ち出した事案Qに関連しない政策Sの賛成率X
P1と、政党Pが打ち出した事案Qに関連しない政策Tの賛成率X
P2とが示されている。
【0082】
(c)は、ステップ156で抽出されてリアル関連統計値記憶部23に記憶された政党Pに関連せず事案Qに関連するリアル関連統計値X
Qiについての情報の一例である。ここでは、政党Pが打ち出していない事案Qに関連する政策Uの賛成率X
Q1が示されている。
【0083】
図9(a)〜(c)は、SNS関連統計値記憶部25に記憶される情報の一例を示した図である。
【0084】
(a)は、ステップ153で抽出されてSNS関連統計値記憶部25に記憶された政党P及び事案Qの両方に関連するSNS関連統計値Y
kPQiについての情報の一例である。ここでは、政党Pが打ち出した事案Qに関連する政策Rの賛成率Y
kPQ1が示されている。
【0085】
(b)は、ステップ155で抽出されてSNS関連統計値記憶部25に記憶された政党Pに関連し事案Qに関連しないSNS関連統計値Y
kPiについての情報の一例である。ここでは、政党Pが打ち出した事案Qに関連しない政策Sの賛成率Y
kP1と、政党Pが打ち出した事案Qに関連しない政策Tの賛成率Y
kP2とが示されている。
【0086】
(c)は、ステップ157で抽出されてSNS関連統計値記憶部25に記憶された政党Pに関連せず事案Qに関連するSNS関連統計値Y
kQiについての情報の一例である。ここでは、政党Pが打ち出していない事案Qに関連する政策Uの賛成率Y
kQ1が示されている。
【0087】
図10は、バイアス記憶部27に記憶される情報の一例を示した図である。ここでは、ステップ158で算出されたSNS[1]におけるバイアスB
1、SNS[2]におけるバイアスB
2、SNS[3]におけるバイアスB
3が、それぞれ、図示するような回帰計数で与えられることが示されている。
【0088】
以上述べたように、本実施の形態では、リアルの過去の統計値からテーマカテゴリに該当するリアル関連統計値を抽出し、SNSの過去の統計値からテーマカテゴリに該当するSNS関連統計値を抽出し、リアル関連統計値とSNS関連統計値とのギャップに基づいて、SNSにおけるバイアスを算出するようにした。これにより、SNSの情報におけるバイアスを把握した上でその情報に基づく調査を行えるようになった。
【0089】
このように、本実施の形態では、SNSの情報に基づく調査のためにバイアスを用いるようにしたが、この限りではない。SNSの変化(例えば右傾化してきた等)を把握するために、バイアスを用いるようにしてもよい。
【0090】
ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
【0091】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。