(58)【調査した分野】(Int.Cl.,DB名)
前記第1調査データは、前記第1調査のみに含まれる第1調査独自項目に対する回答内容を含むことを特徴とする請求項1乃至4のいずれか1項に記載の調査データ処理装置。
【発明を実施するための形態】
【0028】
以下、本発明の一実施形態(以下、本実施形態)について図面を参照しながら説明する。
本実施形態においては、メディア接触に関する調査の一例である視聴率調査を第1調査とし、生活者属性、商品関与及びメディア接触等について多面的に捉えるアンケート調査を第2調査とするケースを例に挙げて説明する。なお、ここでは、両調査の関係において、視聴率調査を主とし、アンケート調査を従として説明する。
また、以下の説明において、「シングルソースデータ」とは、同一のモニタ(回答者)から収集した比較的多数(例えば数百問)の質問への回答内容を示すデータであり、購買、広告接触、ライフスタイル等の多面的情報を採取したデータである。具体的には、同データが示す情報には、モニタの属性に関する質問への回答内容、具体的にはデモグラフィック(人口統計学的属性)に関する情報、及び、サイコグラフィック(心理学的属性)に関する情報等が含まれている。
なお、メディア接触に関する調査とは、本実施形態のようなテレビ番組(CM含む)の視聴状況に関する調査に限らず、ラジオ番組等(CM含む)の視聴状況、携帯電話・スマートフォン・タブレット・PC等によってインターネット上で閲覧・視聴できる情報(ウェブサイト等)の閲覧状況や動画・音楽等の視聴状況、新聞・雑誌等の購読状況等であってもよい。
【0029】
<<調査データ処理サービスについて>>
先ず、本発明により実現される調査データ処理サービスについて
図1を参照しながら説明する。
図1は、調査データ処理サービスに関する説明図である。
【0030】
調査データ処理サービスは、本発明の調査データ処理装置を管理する調査会社によって提供されるものであり、互いに異なるモニタに対して実施した複数の調査(本実施形態では、第1調査及び第2調査の二種類の調査)の調査結果を示す調査データを融合するための一連のデータ処理を実行するサービスである。
【0031】
具体的に説明すると、調査会社は、第1調査として視聴率調査を実施する。この視聴率調査は、無作為に抽出したモニタに対してテレビ番組等の視聴状況に関する調査を実施するものであり、調査会社は、それらの視聴状況に関する情報を各モニタから収集すると、それらの情報を集約して第1調査データとして保管する。
なお、視聴率には、世帯視聴率と個人視聴率の二種類の視聴率があるが、本実施形態では、個人視聴率を利用するものとする。ただし、これに限定されるものではなく、調査対象者を世帯単位とした世帯視聴率であっても適用することができる。
個人視聴率とは、調査対象者を世帯に属する構成員単位とし、世帯内の所定年齢以上(例えば4歳以上)の家族全員の中で、誰がどれくらいどのようなテレビ番組を視聴したかを示す割合であり、本実施形態のように、視聴者を、性別等に分けて、どのような属性の個人がどれくらい見ていたかを知りたいとき等に利用されている。一方、世帯視聴率とは、調査対象者を世帯単位とし、テレビ所有世帯のうち、どのくらいの世帯がテレビ番組を視聴していたかを示す割合である。
【0032】
また、調査会社は、第2調査としてアンケート調査を実施する。このアンケート調査は複数のモニタを対象にして複数の質問をするものであり、調査会社は、全ての質問に対する回答を各モニタから回収すると、モニタ人数に相当する分の回答を集約して第2調査データとして保管する。
アンケート調査では、生活者属性、商品関与、メディア接触という3つの視点を同一モニタに調査し、生活者を多角的に捉えることを目的とし、各モニタに対して比較的多数の質問を出す。具体的には、質問は数百問程度に及び、その内容には、モニタのデモグラフィック属性やサイコグラフィック属性を含む。つまり、調査会社が第2調査として実施するアンケート調査の回答結果を示す調査データは、シングルソースデータに相当する。
なお、アンケート調査のモニタは、視聴率調査のモニタとは異なるモニタとする。また、調査会社がアンケート調査を依頼するモニタの人数については自由に設定可能であるが、シングルソースデータとして十分な情報を収集することが可能な規模でモニタを確保するのが望ましい。
【0033】
調査会社は、第1調査である視聴率調査で取得した第1調査データと、第2調査であるアンケート調査で取得したシングルソースデータとしての第2調査データとを融合する。この結果、上記2つの調査データを融合した融合データが生成される。
以上のように、調査会社は、データ融合処理を実行して第1調査と第2調査の回答結果を集約し、その結果を融合データという形で得ることができ、融合前のデータでは不可能な集計等も可能となる。また、この融合データは、メーカ等の顧客企業に提供することもでき、融合データの提供を受けた顧客企業は、その融合データが示す情報を分析し、その情報に基づいて効果的なメディアプランニングを立案することが可能となる。
【0034】
<<調査データ処理サービスの提供システムについて>>
次に、上述したデータ処理サービスを提供するためのシステム構成について、
図2を参照しながら説明する。
図2は、本発明の調査データ処理装置を含む通信システムを示した図である。
調査会社は、上記のデータ処理サービスを提供するために、コンピュータ、より厳密にはサーバコンピュータ(以下、サーバ1)を保有している。このサーバ1は、本発明の調査データ処理装置に相当し、上述したデータ処理サービスをASPサービスとして提供する。
【0035】
サーバ1の機能について概説すると、サーバ1は、
図2に示すように、インターネット等の情報通信網N1を介して、視聴率調査の対象となる各世帯と通信可能に接続されている。
【0036】
具体的に説明すると、調査会社は、抽出された世帯に対して測定機21を配布する。この測定機21は、抽出された世帯の自宅内(厳密にはテレビの設置箇所周辺)に配置され、世帯全体の中の各構成員を一の調査対象者として、テレビ番組の視聴状況を測定するために使用される。測定機21により生成されたテレビ番組の視聴状況を示すデータは、情報通信網N1を通じて外部の機器に向けて送信される。この測定機21が送信するデータ(以下、視聴率データ)は、どの調査対象者がどのテレビ番組をいつどれだけ視聴したのかを示すデータである。
ちなみに、本実施形態では、世帯の構成員(すなわち、個人)を調査対象者としたが、世帯自体を調査対象者として取り扱ってもよい。
【0037】
また、サーバ1は、
図2に示すように、インターネット等の情報通信網N2を介してモニタ保有の回答用端末31と通信可能に接続されている。そして、サーバ1は、各回答用端末31と通信することにより、アンケート調査の各質問に対する各モニタの回答データ(以下、個別回答データ)を受信する。
【0038】
ここで、回答用端末31とは、アンケート調査の回答を依頼した各モニタに対して調査会社が配布したタブレット型の通信端末である。つまり、モニタは、回答用端末31に搭載されたタッチパネルを見てアンケート調査の各質問を確認し、タッチパネル上でのタッチ操作を通じて回答する。そして、回答用端末31がモニタによる回答操作を受け付けると、その回答内容を示す個別回答データを生成し、生成したデータをサーバ1に向けて送信する。
なお、回答用端末31については、タブレット型の端末に限定されるものではなく、スマートフォンやノートPC等、他の通信端末であってもよい。また、回答用端末31に代えて、調査会社が各モニタにアンケート用紙を配付し、回収した回答済みのアンケート用紙の内容に基づいて調査会社側でデータ化する方法であってもよい。
【0039】
また、サーバ1は、規定の問題数に相当する数の個別回答データを各回答用端末31から受信すると、各データが示す情報を取りまとめて全モニタ分の回答結果として集約し、その集約したデータ、すなわち、第2調査データをサーバ1内に記憶させておく。
【0040】
また、サーバ1は、同サーバ1内に記憶された第1調査データと第2調査データとを融合して融合データを生成する処理、すなわち、データ融合処理を実行する。ここで、融合データを生成するとは、元データである2つの調査データとは別のデータを生成するケースに限られず、元データである2つの調査データのうちの一方を他方に組み込んだ内容に更新する形で融合データを生成するケースを含むものとする。
なお、データ融合処理及び融合データについては、後の項で詳細に説明する。
【0041】
さらに、サーバ1に、調査会社の担当者が操作する各端末や顧客企業端末が通信可能に接続されている場合は、その不図示の各端末や顧客企業端末が入力操作を受け付けることで生成するデータ配信要求を受信すると、生成した融合データを要求の発信元である各端末や顧客企業端末に向けて配信することもできる。
【0042】
<<調査データについて>>
次に、視聴率調査に関する第1調査データ、及び、アンケート調査に関する第2調査データについて、
図3を参照しながら説明する。
図3中の(A)は、第1調査である視聴率調査の調査結果の内容の一例を示している。
図3中の(B)は、第2調査であるアンケート調査に対する調査結果の内容の一例を示している。
【0043】
視聴率調査の結果を示す視聴率データを集計した第1調査データD1には、性別等のモニタの属性に関する内容、すなわち、デモグラフィック(人口統計学的属性)に関する情報と、テレビXの視聴の有無等に関する情報を含む。また、各項目は「0」又は「1」の数値で二値化されている。ただし、これに限定されず、各項目が「0」及び「1」のいずれかを入力する方法以外の方法で入力されることとしてもよい。
【0044】
これに対して、アンケート調査の結果を示す個別回答データを集計した第2調査データD2は、前述したようにシングルソースデータとなっており、数百問分の個別回答データを例えば1万人超のモニタから回収して集約したものになっている。
例えば、性別等のモニタの属性に関する内容、すなわち、デモグラフィック(人口統計学的属性)に関する情報と、テレビXの視聴の有無等に関する情報の他、ビールAの購入の有無等、サイコグラフィック(心理学的属性)に関する情報を含む。また、第2調査データD2においても、各項目は「0」又は「1」の数値で二値化されているが、これに限定されず、各項目が「0」及び「1」のいずれかを入力する方法以外の方法で入力されることとしてもよい。
【0045】
第1調査データD1及び第2調査データD2には、
図3(A)及び(B)に示すように、両調査間で共通する項目(以下、共通項目)が含まれている。この共通項目は、後のデータ融合処理においてキーとなる項目であり、
図3に示すケースではモニタ属性に関する項目(性別等)及びテレビ番組の視聴状況に関する項目(テレビXの視聴の有無等)が、共通項目に該当する。
一方、第2調査データD2には、第1調査には含まれず、且つ、第2調査のみにしか含まれない独自の項目(独自項目)が存在する。この項目は、世間の動向を把握するため、生活者属性、商品関与、メディア接触という3つの視点を同一モニタに調査し、生活者を多角的に捉えることを目的として、調査会社が実施するアンケート調査において特別に設定されたものであり、一例を挙げると、
図3(B)に示したビールAの購入の有無等を問う項目が、この独自項目に該当する。
【0046】
<<サーバの構成について>>
次に、サーバ1の構成について
図4を参照しながら説明する。
図4は、サーバ1のハードウェア構成を示した図である。
サーバ1は、
図4に示すように、CPU1a、ROM1b、RAM1c、通信用インタフェース(
図4中、通信用I/Fと表記)1d、ハードディスクドライブ(
図4中、HDDと表記)1e、マウスやキーボード等の入力装置1f、及びディスプレイやプリンタ等の出力装置1gを構成要素として有する。また、サーバ1には、その機能を発揮させるためのプログラム(以下、データ処理プログラム)が予めインストールされている。このデータ処理プログラムがCPU1aに読み取られて実行されることで、サーバ1によるデータ処理サービスが提供されることになる。
【0047】
サーバ1のハードウェア構成については上述の通りであるが、以下、
図5を参照しながらサーバ1の構成を機能面から改めて説明する。
図5は、サーバ1の構成を機能面から示した図である。
サーバ1は、
図5に示すように、データ受信部11、データ集約部12、データ記憶部13、処理実行部14及びデータ配信部15を有する。これらは、サーバ1が実行する各種処理を担うものであり、サーバ1を構成する上述のハードウェア構成機器と上述のデータ処理プログラムとが協働することによって構成されている。以下、上述したサーバ1の機能部の各々について説明する。
【0048】
データ受信部11は、情報通信網N1,N2を介してサーバ1と接続された機器と通信して当該機器からデータを受信するものであり、例えば、各世帯に配置された測定機21から視聴率データを受信し、また、回答用端末31から個別回答データを受信する。
【0049】
データ集約部12は、データ受信部11が、視聴率データ又は個別回答データを受信すると、当該視聴率データ又は個別回答データを解析して同データが示す情報を特定し、さらにその情報を
図3に図示したテーブル形式でまとめる。すなわち、データ集約部12は、各世帯に配置された測定機21から送信された視聴率データを、全モニタ分且つ全項目分の第1調査データD1として集約するものである。また、回答用端末31から送信された個別回答データを、全モニタ分且つ全項目分の第2調査データD2として集約するものである。
【0050】
データ記憶部13は、各種のデータを記憶しておくものであり、サーバ1に搭載されたハードディスクドライブ1eを主たる構成要素としている。データ記憶部13に記憶されるデータの中には、データ集約部12によって生成された第1調査データD1や第2調査データD2が含まれている。さらに、データ記憶部13には、後述の処理実行部14がデータ融合処理を実行することで生成される融合データが記憶される。
【0051】
なお、本実施形態では、第1調査データD1及び第2調査データD2がサーバ1内のハードディスクドライブ1eに記憶されることとしたが、これに限定されるものではない。つまり、第1調査データD1及び第2調査データD2を記憶する記憶装置については、サーバ1と別に設けられていることとしてもよく、例えば、サーバ1と通信可能なデータベースサーバを第1調査データD1及び第2調査データD2の記憶装置として用いることとしてもよい。
【0052】
処理実行部14は、データ記憶部13に記憶された第1調査データD1及び第2調査データD2を読み出し、これらのデータを融合するデータ融合処理を実行して融合データを生成するものである。
以下、
図6を参照しながらデータ融合処理について概説する。
図6は、データ融合処理の内容を概念的に示した図である。
【0053】
データ融合処理は、互いに異なるモニタに対して実施した第1調査及び第2調査の各々の調査結果を示す調査データ同士を、当該各々の共通項目に対する回答内容をキーとして融合する処理である。かかる処理により、
図6下段に示すように、第1調査の調査結果に対して第2調査にのみ含まれた独自項目(第2調査独自項目に相当)に対する回答内容を付加した情報を示すデータ、すなわち、融合データが生成される。
【0054】
データ融合処理では、先ず、視聴率調査の調査結果を示す第1調査データD1と、アンケート調査の調査結果を示す第2調査データD2とを対比する。具体的に説明すると、上記2つの調査に回答したモニタ同士の間で両調査に含まれる共通項目を特定して、その共通項目への回答の類似度合いを算出する。
ここで、共通項目は、前述したように、性別等のモニタ属性に関する項目とテレビ番組の視聴状況(テレビ視聴行動)に関する項目とを含んでいる。
【0055】
より詳しく説明すると、データ融合処理では、第1調査である視聴率調査を依頼したモニタA(以下、モニタA)の各々について、第2調査であるアンケート調査を依頼したモニタB(以下、モニタB)の中から共通項目に対する回答内容が最も類似しているモニタを探索する。かかる目的のため、モニタAとモニタBとの間の類似度合いを算出する。なお、類似度合いの算出方法については後の項で説明する。
【0056】
類似度合いの算出後には、類似度合いが高いモニタの組み合わせを探索する。具体的に説明すると、モニタAに対して、モニタBの中から上記の類似度合いが最も高いモニタを探索する。探索されたモニタ(モニタB)、及び、基準とされたモニタ(モニタA)は、以降、一組のモニタとして扱われる。
【0057】
そして、一組のモニタのうち、モニタAに対して、モニタBが回答した独自項目の回答内容と同一の回答内容を割り当てる。
ここで、独自項目は、前述したように、ビールAの購入の有無等の商品・サービス関与に関する項目の他、日常生活意識・行動、メディア・広告関与、メディア接触等に関する項目等を含んでいる。
【0058】
モニタAは、視聴率調査に含まれる項目、具体的には、共通項目のみに対して回答しており、アンケート調査のみに含まれる独自項目に対しては回答していない。したがって、モニタBが回答した独自項目の回答内容と同一の回答内容を割り当てることにより、アンケート調査に回答していないモニタ(モニタA)に対して、独自項目への仮想回答が付与されることになる。
【0059】
以上の手順に従ってモニタA全てに対して仮想回答が割り当てられることにより、視聴率調査の結果を示す視聴率データを集計した第1調査データD1と、アンケート調査の結果を示す個別回答データを集計した第2調査データD2とが融合するようになる。
この結果、異なるモニタに対して実施された異なる調査の調査結果における共通項目と独自項目を含む擬似的調査データとして、融合データが生成され、生成された融合データは、データ記憶部13に記憶される。
【0060】
なお、融合データについて付言しておくと、融合データの数は、モニタAの数又はモニタBの数と必ずしも同数になるとは限らず、例えば、モニタBの数が、モニタAの数の倍数となっていない場合には、両モニタ数の最小公倍数に相当する数のデータを含む融合データが生成される場合がある。
【0061】
データ配信部15は、サーバ1に通信可能に接続されている不図示の各端末や顧客企業端末から発された融合データの配信要求をデータ受信部11が受信することにより、データ記憶部13から融合データを読み出して上記の各端末や顧客企業端末に向けて同データを配信するものである。
【0062】
<<調査データ処理方法>>
次に、本実施形態に係る調査データ処理方法について説明する。
本実施形態に係る調査データ処理方法は、コンピュータであるサーバ1を用いて行われる。換言すると、サーバ1がASPサービスとして実行するデータ処理(以下、データ処理サービス)では、本実施形態に係る調査データ処理方法が適用されていることになる。以下では、本実施形態に係る調査データ処理方法の説明として、サーバ1によるデータ処理サービスの流れと同サービス中の各工程について説明することとする。
【0063】
サーバ1によるデータ処理サービスは、
図7に示す流れに従って進行する。
図7は、データ処理サービスに係る一連の処理についての大まかな流れを示した図である。
【0064】
データ処理サービスは、先ず、第1調査データを取得する工程(S001)から始まる。ここで、第1調査データは、視聴率調査の結果を示す視聴率データを集計したものである。
本工程S001について詳しく説明すると、データ受信部11が、各世帯に配置された測定機21から視聴率データを受信する。そして、一定期間経過後、データ集約部12が、これらの視聴率データを集約して、全モニタ分の第1調査データを生成する。そして、本工程S001で取得した第1調査データは、データ記憶部13に記憶される。
このように、本実施形態では、データ受信部11とデータ集約部12との協働によって第1調査データが取得される。かかる観点において、データ受信部11及びデータ集約部12は、第1調査データを取得する第1調査データ取得部を構成している。
【0065】
第1調査データを取得した後、第2調査データを取得する工程(S002)が実行される。
本工程S002について詳しく説明すると、データ受信部11が、各モニタの回答用端末31から個別回答データを受信する。その後、全項目分の個別回答データを全モニタから回収した時点で、データ集約部12が、これらの個別回答データを集約して、全モニタ分且つ全項目分の第2調査データを生成する。そして、本工程S002で取得した第2調査データは、データ記憶部13に記憶される。
このように、本実施形態では、データ受信部11とデータ集約部12との協働によって第2調査データが取得される。かかる観点において、データ受信部11及びデータ集約部12は、第2調査データを取得する第2調査データ取得部を構成している。
【0066】
なお、本実施形態では、第1調査データを取得した後に第2調査データを取得することとしたが、これに限定されるものではなく、第2調査データを取得した後に第1調査データを取得することとしてもよいし、第1調査データと第2調査データを同時に取得することとしてもよい。
また、第1調査データ又は第2調査データの片方又は双方が動的に変化するデータである場合は、その変化した分のデータのみ取得することとしてもよい。
【0067】
以上までの工程S001、S002により2つの調査データ(第1調査データ及び第2調査データ)がデータ記憶部13に記憶されると、その後にサーバ1の処理実行部14が、これらの第1調査データ及び第2調査データを読み出してデータ融合処理を実行する(S003)。
本工程S003により、視聴率調査及びアンケート調査の双方の回答内容を示す融合データが生成され、本工程S003において生成された融合データは、データ記憶部13に記憶される。なお、本工程S003は、それ以前の工程S001、S002によって第1調査データ及び第2調査データがデータ記憶部13に記憶されると自動的に実行されることとしてもよく、又は、サーバ1のユーザ(例えば、調査会社の従業員)による所定の入力操作をサーバ1側で受け付けたことを契機として実行されることとしてもよい。
【0068】
その後、必要に応じて、例えば、各端末や顧客企業端末を通じて融合データの配信が要求されると、当該要求をデータ受信部11が受信することによって、サーバ1のデータ配信部15がデータ記憶部13から融合データを読み出し、当該データを各端末や顧客企業端末に向けて配信する(S004)。
以上の一連の工程が終了した段階で、ある時点(例えば時点t)における1回のデータ処理サービスが完了することとなる。
【0069】
次に、上述したデータ処理サービスのうち、データ融合処理を実行する工程S003について
図8を参照しながらより詳細に説明する。
図8は、ある時点(時点t)におけるデータ融合処理の流れを示す図である。
サーバ1の処理実行部14により実行されるデータ融合処理は、
図8の流れにしたがって進行する。以下、各工程について説明する。
【0070】
データ融合処理では、先ず、データ記憶部13に記憶された第1調査データと第2調査データを読み出し、第1調査データと第2調査データの双方に含まれる共通項目を指定する(S101)。
具体的には、処理実行部14が、第1調査データの内容を解析し、第1調査データに含まれる一のモニタAが共通質問に対して回答した回答内容を特定する。同様に、第2調査データを解析し、第2調査データに含まれる一のモニタBが共通質問に対して回答した回答内容を特定する。
なお、本実施形態では、性別等のモニタ属性とテレビ視聴行動についての回答内容が、共通項目として指定される。
【0071】
次に、モニタAの一人が、モニタBのどの人と最も類似しているかを特定するために、モニタAとモニタBのそれぞれに共通項目を用いて合成変数(主成分分析により得られる主成分得点算出関数等)を作成し(S102)、工程S102により算出した合成変数(主成分分析により得られる主成分得点算出関数等)又は予め設定した任意の関数をデータ記憶部13に保存する(S103)。
具体的には、処理実行部14が、第1調査のモニタAと第2調査のモニタBとの距離を求めるために必要な値(距離計算用スコア群)を算出する際に使用する融合パラメータとなる関数を設定する。合成変数の作成には、例えば、統計学における主成分分析を行い生成される主成分得点を用いても良いし、共通項目それぞれに任意の係数を掛け合わせ、その後得られる総和を用いても良い。また、合成変数は単一でもよく、複数あってもよい。
【0072】
次に、第1調査データと第2調査データの双方の共通項目に上記の関数を適用して、距離計算用スコア群を算出する(S104)。
具体的には、処理実行部14が、上記関数と共通項目を用いることにより、第1調査データと第2調査データの各モニタA、Bの値を求める。このとき、距離計算用スコア群が目的変数となり、共通項目が説明変数となる。
【0073】
次に、上記工程S104により算出した距離計算用スコア群を比較して、第1調査データの各モニタAと第2調査データの各モニタBとの類似度合いを示す距離について距離計算を実行する(S105)。
本実施形態では、共通項目の各々について回答内容の違いを距離で表し、共通項目ごとの距離計算用スコア群を合計した総距離を以てモニタ間の類似度合いとしており、その総距離が小さい値になる程、属性が近いモニタであることを示している。具体的には、処理実行部14が、各項目の距離計算用スコア群を合算し、その結果を以てモニタ間の類似度合いとする。
【0074】
次に、上記工程S105によって距離計算を実行した後、第1調査データの各モニタAについて、総距離が近いモニタを第2調査データのモニタBの中から特定し、同一のモニタとみなして紐付けて融合する(S106)。
このとき、本実施形態においては、第1調査データのモニタAと第2調査データのモニタBとの割り当てパターンを設定する際に、「制約なし統計的マッチング」又は「制約付き統計的マッチング」のいずれの手法を用いてもよい。
【0075】
例えば、処理を簡素化して、効率的に大量のデータを処理することが可能な「制約なし統計的マッチング」の手法を採用して、割り当てパターンを設定することができる。ここでは、事案を簡素化するために、
図9に示すケースを例に挙げて説明することとする。
図9は、上記のような「制約なし統計的マッチング」を採用してデータ融合処理を実施した場合の説明図である。
【0076】
図9に示すように、処理実行部14は、第1調査データのモニタAについて、上記工程106にて算出した類似度合いが最も高い第2調査データのモニタB、すなわち、最も類似した第2調査データのモニタBを一つ選択して紐付ける。例えば、ここでは、第1調査データのモニタA(A00001)については、第2調査データのモニタB(B00002)を、第1調査データのモニタA(A00002)については、第2調査データのモニタB(B00003)を、最も類似するモニタと特定し、融合する。
これにより、第1調査データのモニタA(A00001)には第2調査データのモニタB(B00002)の回答と同一の回答内容が仮想回答として割り当てられ、第1調査データのモニタA(A00002)には第2調査データのモニタB(B00003)の回答と同一の回答が仮想回答として割り当てられる。すなわち、仮想回答が各モニタA00001、A00001に対して割り当てられた結果、データ同士が融合し、最終的に、
図9の下段に示す融合データが生成される。
【0077】
一方、融合データは、元データ(第1調査データ及び第2調査データ)の平均・分散を維持できるように、「制約付き統計的マッチング」の手法を採用して、割り当てパターンを設定することもできる。この「制約付き統計的マッチング」では、処理実行部14が、モニタ同士間の類似度合いに基づいて割り当てパターンを統計的解法に従って設定する。
【0078】
具体的には、処理実行部14は、割り当てパターンを設定するため手法として輸送問題の解法を採用し、当該解法により下記の前提条件(A)、(B)の双方を満たすような割り当てパターンを設定することとしている。
(A)第1調査に関する集計結果については、融合前の第1調査データと融合データとの間で同一とする。
(B)第2調査に関する集計結果については、融合前の第2調査データと融合データとの間で同一とする。
ここで、第1調査又は第2調査に関する集計結果とは、同調査に対する回答内容別にモニタ人数を集計した際の人数比率のことである。
また、輸送問題の解法により割り当てパターンを設定するにあたり、第1調査の各モニタ及び第2調査の各モニタに対して重み(ウェイト)を設定する。ここで、第1調査データの各モニタAに対して設定される重みは、輸送問題における需要量に相当し、第2調査データの各モニタBに対して設定される重みは、供給量に相当する。
【0079】
ここでは、事案を簡素化するために、
図10に示すケースを例に挙げて説明することとする。
図10は、上記のような「制約付き統計的マッチング」を採用してデータ融合処理を実施した場合の説明図である。
【0080】
例えば、
図10に示すように、データ融合に係る2つの調査データのうちの一方(第1調査データ)がモニタ数2人(A00001〜A00002)のデータであり、他方(第2調査データ)がモニタ数3人(B00001〜B00003)である場合、第1調査データのモニタAを第2調査データのモニタBのいずれか一人以上と結びつけ、第2調査データのモニタBを第1調査データのモニタAのいずれか一人以上と結びつける。このとき、第2調査データのモニタBは、第1調査データのモニタ1人と重み3で結びついてもよいし、
図10に示すように、第1調査データのモニタ1人と重み1(A00001とB00002、A00002とB00002)、他の第1調査データのモニタ1人と重み2(A00001とB00001、A00002とB00003)で結びついてもよい。また、第1調査データのモニタAは、第2調査データのモニタ1人と重み2(A00001とB00001、A00002とB00003)で結びついてもよいし、第1調査のモニタ1人と重み1(A00001とB00002)、他の第1調査のモニタ1人と重み1(A00002とB00002)で結びついてもよい。
ただし、結びついた重みと第1調査データのモニタAと第2調査データのモニタBとの間の類似度(上記値から算出した類似度)の総和が最も小さくなるよう結び付ける。その結果、融合データは、元データ(第1調査データ及び第2調査データ)の平均・分散を維持することができる。この「制約付き統計的マッチング」では、このように設定した重み配分こそが、割り当てパターンに相当する。
【0081】
これにより、第1調査データのモニタA(A00001)には第2調査データのモニタB(B00001)の回答及び第2調査データのモニタB(B00002)の回答と同一の回答内容が仮想回答として割り当てられ、前者はモニタ2人分の回答、後者はモニタ1人分の回答として扱われる。また、第1調査データのモニタA(A00002)には第2調査データのモニタB(B00002)の回答及び第2調査データのモニタB(B00003)の回答と同一の回答内容が仮想回答として割り当てられ、前者はモニタ1人分の回答、後者はモニタ2人分の回答として扱われる。すなわち、仮想回答が各モニタA00001、A00001に対して割り当てられた結果、データ同士が融合し、最終的に、
図10の下段に示す融合データが生成される。
【0082】
その後、融合結果(融合データ)を保存する処理(S107)が実行され、融合データがデータ記憶部13に記憶されるようになる。そして、この時点でデータ融合処理が完了する。
【0083】
なお、融合処理は、共通項目のうち、男女別等の特定項目の値別に融合することとしてもよい。その場合は、上記工程S104〜S106の処理はその値別に実行する。また、その場合は、融合結果を一つのファイルにして保存する。
【0084】
ここで、本実施形態においては、第1調査及び第2調査は、モニタのローテーションを行う調査であり、第1調査データD1及び第2調査データD2は、時間の経過と共に動的に変化するデータとなる。
具体的には、同一モニタを長い間調査していると、調査慣れや学習効果による影響が出てくることがあり、また、標本となるモニタが母集団の変化に対応しなくなることがあるので、このような状況を避けるため、本実施形態では、一定期間経過後に、第1調査及び第2調査のモニタA,Bの一部又は全部を遂次組み替えること(ローテーション)を行っている。また、上記のような定期的なローテーション以外にも、脱落したモニタを補充するため、新たなモニタを追加することにより、不規則にモニタを入れ替えるような場合もある。
なお、本実施形態における動的に変化するデータとは、アンケート調査等の調査データに限らず、各種機器から自動的に取得できる稼働ログデータや、Webログ、購買履歴、アプリ利用履歴等、又は、常に変化し続ける大量の顧客データ(いわゆるビッグデータ)等も、全て含み、本実施形態において適用することができる。
【0085】
本実施形態においては、第1調査と第2調査は、変化のタイミングが異なるものである。具体的には、第1調査は、時点tから1経過するごとに所定割合でモニタAの一部を逐次入れ替えるものである。また、第2調査は、時点tからn経過するごとにモニタBの全部を総入れ替えするものである。
なお、本実施形態においては、モニタBの全部を総入れ替えするものとして説明するが、これに限定されることはなく、第2調査のモニタBは、第1調査のモニタAと変化のタイミングが異なるものであればよく、例えば、時点tからn経過するごとにモニタBの半分や1/3を部分的に入れ替えるものであってもよい。
【0086】
以下、第1調査データが動的に変化するデータである場合の具体的な事例について、
図11乃至
図13を例に挙げて説明する。
図11及び
図13は、第1調査データが変化した状態を概念的に示す図である。
図12は、融合実施後の時点t+1におけるデータ融合処理の流れ示す図である。
【0087】
図11に示すように、融合実施時点(時点t)では、第1調査のモニタAと第2調査のモニタBとは全て融合できているが、融合実施後(時点t+1)には、融合していたモニタAの一部が第1調査データの中から存在しなくなり、融合実施時点(時点t)には存在しなかった新たなモニタA’が、第1調査データの中に加わることになる。そのため、新たなモニタA’について、第2調査データの中から紐付ける相手を特定する必要がある。
【0088】
上記のような場合、融合実施後の時点t+1における、上述したデータ処理サービスのうち、データ融合処理を実行する工程S003について、
図12を参照しながら説明する。
融合実施後の時点t+1において、サーバ1の処理実行部14により実行されるデータ融合処理は、
図12の流れにしたがって進行する。
【0089】
融合実施後のt+1時点におけるデータ融合処理では、先ず、第1調査データのうち新規の第1調査データを特定する(S201)。
具体的には、処理実行部14が、データ記憶部13に記憶された第1調査データの内容を解析し、その第1調査データの中から新規の第1調査データ(モニタA’の回答内容に相当するデータ)を特定する。
【0090】
次に、その新規の第1調査データと第2調査データの双方の共通項目に、上述の時点tにおけるデータ融合処理のS103にて保存した関数を適用して、距離計算用スコア群を算出する(S202)。
具体的には、処理実行部14が、上記関数と共通項目を用いることにより、新規の第1調査データと第2調査データの各モニタA’、Bの合成変数を求める。このとき、新規の第1調査データについてのみ、上記処理を行うこと以外は、上述した時点tにおけるデータ融合処理のS104と同様の処理を実行する。
【0091】
このように、第1調査データに新規のモニタA’が加わった場合も、距離計算用スコア群を算出する際に使用する関数を再計算せず、既に使用し有効であると実証済みの関数を再利用することにより、処理が簡素化され、大量の新規調査データであっても、迅速に処理することができる。
【0092】
このとき、例えば、特定期間Aのテレビの視聴傾向のように、共通項目が時点tに依存する等の理由により、新規の第1調査データが融合データ(又は第2調査データ)と全く同一の共通項目を保持していない場合があり得る。すなわち、
図11に示すように、融合実施時点(時点t)においては、共通項目r(t)は、第1調査データ(モニタA)及び第2調査データ(モニタB)の双方に含まれているが、融合実施後(時点t+1)においては、新たなモニタA’の第1調査データの共通項目は、時点の経過に伴って共通項目r(t+1)と変化し、融合データ(又は第2調査データ)と全く同一の共通項目を保持していないことになる。
そのため、本実施形態では、時点tより後ろ(t+1以降)の時点において、例えば、特定期間Bのテレビ視聴傾向の平均値等の統計量を算出し、時点tにおける共通項目r(t)に代替する。これにより、厳密には、時点tの特定期間Aのテレビの視聴傾向とは異なるが、近似する時期の視聴傾向ということで代替でき、同一の共通項目を保持している場合と差異なく、新規の調査データを融合することができる。
【0093】
次に、上記工程S202により算出した距離計算用スコア群を比較して、新規の第1調査データの各モニタA’と第2調査データの各モニタBとの類似度合いを示す距離について距離計算を実行する(S203)。
具体的には、処理実行部14が、新規の第1調査データの各モニタA’について各項目の距離計算用スコア群を合算し、その結果を以てモニタ間の類似度合いとする。
【0094】
次に、上記工程S203によって距離計算を実行した後、新規の第1調査データの各モニタA’について、総距離が近いモニタを第2調査データのモニタBの中から特定し、同一のモニタとみなして紐付けて融合する(S204)。
このとき、本実施形態においては、新規の第1調査データのモニタA’と第2調査データのモニタBとの割り当てパターンを設定する際に、処理の簡素化を目的として、「制約なし統計的マッチング」を採用してデータ融合処理を実施する。
具体的には、処理実行部14は、新規の第1調査データのモニタA’について、上記工程203にて算出した類似度合いが最も高い第2調査データのモニタB、すなわち、最も類似した第2調査データのモニタBを一つ選択して紐付け、そのモニタBを最も類似するモニタと特定し、融合する。これにより、新規の第1調査データのモニタA’にも第2調査データ内のいずれかのモニタBの回答と同一の回答内容が仮想回答として割り当てられ、最終的に、新たな融合データが生成される。
【0095】
なお、本実施形態では、時点t+1において、第1調査データのモニタAがモニタA’に変化したときに、融合相手であるモニタA,Bがその時点で未だ存在するモニタA,Bについてはそのままの融合相手を引継ぎ、新規の第1調査データのモニタA’についてのみ時点t+1におけるデータ融合処理をあらためて実行する。これにより、既に融合処理済みの融合データを生かすと共に、新規の第1調査データのモニタA’についても、正確且つ効率的に融合することができる。
【0096】
その後、融合結果(融合データ)を保存する処理(S205)が実行され、融合データがデータ記憶部13に記憶されるようになる。これにより、時点t+1におけるデータ融合処理が完了する。
【0097】
また、他の事例として、以下、第2調査データが動的に変化するデータである場合の具体的な事例について、
図14を例に挙げて説明する。
図14は、第2調査データが変化した状態を概念的に示す図である。
【0098】
上述のように、第1調査と第2調査は、変化のタイミングが異なるものであり、第2調査は、時点tからn経過するごとにモニタBの全部を総入れ替えするものである。
上述の
図11に示すように、融合実施時点(時点t)では、第1調査のモニタAと第2調査のモニタBとは全て融合できているが、
図14に示すように、融合実施後(時点t+n)には、融合していたモニタBの全部が第2調査データの中から存在しなくなり、第2調査データは融合実施時点(時点t)には存在しなかった新たなモニタB’に総入れ替えとなる。そのため、新たなモニタB’について、第1調査データの中から紐付ける相手を特定する必要がある。
この場合は、原則として、
図8に示す融合実施の時点tにおいてサーバ1の処理実行部14により実行されるデータ融合処理と同様の処理をあらためて実行する。なお、
図12に示す融合実施後の時点t+1においてサーバ1の処理実行部14により実行されるデータ融合処理と同様の処理を、第2調査データのモニタB’について実行することとしてもよい。
【0099】
また、さらに、融合実施後(時点t+n+1)には、第2調査データのモニタB’と融合していたモニタAの一部が第1調査データの中から存在しなくなり、融合実施時点(時点t+n)には存在しなかった新たなモニタA’が、第1調査データの中に加わることになる。そのため、新たなモニタA’について、第2調査データの中から紐付ける相手を特定する必要があるが、この場合も
図12に示す融合実施後の時点t+1において、サーバ1の処理実行部14により実行されるデータ融合処理と同様の処理を実行する。
【0100】
<<その他の実施形態>>
上記の実施形態には、主として本発明の調査データ処理装置及び調査データ処理方法について説明した。しかし、上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることはもちろんである。
【0101】
上記の実施形態では、第1調査及び第2調査共に一の調査会社が実施している例について説明したが、これに限定されるものではない。例えば、第1調査を調査会社が実施し、第2調査を他の会社が実施する等、本発明は、異なる主体によって実施された調査結果を示す調査データを融合する場合であっても適用可能である。こうすることにより、顧客企業にとっては、独自に実施したアンケート調査等(例えば、自社が販売する商品や提供するサービスについて世間の反応を把握する目的から実施するアンケート調査等)の結果と、調査会社が実施した調査(例えば、視聴率調査等)とを融合することができ、各顧客企業のニーズに則した効果的なメディアプランニングを立案することが可能となる。
【0102】
また、上記の実施形態では、独自項目が存在するのは第2調査だけとし、第1調査は共通項目のみで独自項目を含んでいないが、これに限定されるものではない。すなわち、本発明は、第1調査においても、第2調査には含まれず、且つ、第1調査のみにしか含まれない独自の項目(第1調査独自項目)が存在する場合であっても適用可能である。
【0103】
また、上記の実施形態では、2つの調査データを融合することにより、融合データを生成することとしたが、これに限定されるものではない。すなわち、3つ以上の複数の調査データであっても、共通項目が存在すれば、それらを融合して融合データを生成することができるので、そのようなケースについても本発明を適用することが可能である。
【0104】
また、上記の実施形態では、シングルソースデータと非シングルソースデータとを融合して擬似シングルソースデータとしての融合データを生成するケースを例に挙げて説明したが、これに限定されるものではない。すなわち、本発明は、非シングルソースデータ同士を融合して融合データを生成するケース、及び、シングルソースデータ同士を融合して融合データを生成するケースのいずれにも適用可能である。
【0105】
また、上記の実施形態では、第1調査のモニタAと第2調査のモニタBとの間の類似度合いを評価する上で、両調査に共通して含まれる共通項目全ての回答内容を評価対象とすることとしたが、これに限定されるものではない。すなわち、複数ある共通項目のうち、一部のみを評価対象とすることとしてもよい。
【課題】互いに異なるモニタに対して実施した第1調査及び第2調査の各々の調査結果を示す調査データの片方又は双方が動的に変化する調査データであっても、その回答内容を正確且つ効率的に融合し、融合データとして有効に活用するためのデータ処理サービスを提供する。
【解決手段】第1調査データのうち新規の第1調査データを特定する(S201)。新規の第1調査データと第2調査データの双方の共通項目に関数を適用して距離計算用スコア群を算出する(S202)。距離計算用スコア群を比較して、新規の第1調査データの各モニタA’と第2調査データの各モニタBとの類似度合いを示す距離について距離計算を実行する(S203)。新規の第1調査データの各モニタA’について、総距離が近いモニタを第2調査データのモニタBの中から特定し、同一のモニタとみなして融合する(S204)。融合データを保存する(S205)。