IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ビデオリサーチの特許一覧

特開2024-38687データ処理装置、データ処理方法、およびプログラム
<>
  • 特開-データ処理装置、データ処理方法、およびプログラム 図1
  • 特開-データ処理装置、データ処理方法、およびプログラム 図2
  • 特開-データ処理装置、データ処理方法、およびプログラム 図3
  • 特開-データ処理装置、データ処理方法、およびプログラム 図4
  • 特開-データ処理装置、データ処理方法、およびプログラム 図5
  • 特開-データ処理装置、データ処理方法、およびプログラム 図6
  • 特開-データ処理装置、データ処理方法、およびプログラム 図7
  • 特開-データ処理装置、データ処理方法、およびプログラム 図8
  • 特開-データ処理装置、データ処理方法、およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024038687
(43)【公開日】2024-03-21
(54)【発明の名称】データ処理装置、データ処理方法、およびプログラム
(51)【国際特許分類】
   G06Q 30/0242 20230101AFI20240313BHJP
   G06Q 10/04 20230101ALI20240313BHJP
【FI】
G06Q30/02 382
G06Q10/04
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022142900
(22)【出願日】2022-09-08
(11)【特許番号】
(45)【特許公報発行日】2023-01-04
(71)【出願人】
【識別番号】591101434
【氏名又は名称】株式会社ビデオリサーチ
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】田村 玄
(72)【発明者】
【氏名】鈴木 暁
(72)【発明者】
【氏名】小泉 健二
(72)【発明者】
【氏名】坂田 耕太
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA04
5L049BB08
(57)【要約】      (修正有)
【課題】複数のデータの関連性を実態に即して適切に予測する。
【解決手段】データ処理装置において、プロセッサ11は、第2コンテンツへの接触頻度の確率分布を計算する第1計算部、各対象者の第2コンテンツへの接触頻度の確率分布を第1コンテンツへの接触頻度が同一の対象者の単位で積算し、シングルソースデータに基づく第1コンテンツへの接触頻度と第2コンテンツへの接触頻度のマトリクスを計算する第2計算部、マトリクスにおける第1コンテンツへの接触頻度の分布が第1の実データにおける第1コンテンツへの接触頻度の人数分布と同じになるようにマトリクスにおける第1コンテンツへの接触頻度毎の値を修正する第3計算部及びマトリクスにおける第2コンテンツへの接触頻度の分布が第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるようにマトリクスにおける第2コンテンツへの接触頻度毎の値を修正する第4計算部を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
第1コンテンツへの接触頻度の人数分布を示す第1の実データを取得する第1データ取得部と、
第2コンテンツへの接触頻度の人数分布を示す第2の実データを取得する第2データ取得部と、
複数の対象者について、各対象者の前記第1コンテンツへの接触頻度と、前記第2コンテンツが視聴可能な情報媒体の利用状況とを含む、シングルソースデータを取得する第3データ取得部と、
各対象者について、前記情報媒体の利用状況に基づいて、前記第2コンテンツへの接触頻度の確率分布を計算する第1計算部と、
各対象者の前記第2コンテンツへの接触頻度の確率分布を、前記第1コンテンツへの接触頻度が同一の対象者の単位で積算し、前記シングルソースデータに基づく前記第1コンテンツへの接触頻度と前記第2コンテンツへの接触頻度のマトリクスを計算する第2計算部と、
前記マトリクスにおける前記第1コンテンツへの接触頻度の分布が、前記第1の実データにおける第1コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第1コンテンツへの接触頻度毎の値を修正する第3計算部と、
前記マトリクスにおける前記第2コンテンツへの接触頻度の分布が、前記第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第2コンテンツへの接触頻度毎の値を修正する第4計算部と、を備えたデータ処理装置。
【請求項2】
前記シングルソースデータにおける前記第2コンテンツが視聴可能な情報媒体の利用状況は、前記情報媒体の起動時間であり、
前記第1計算部は、
全ての対象者の前記起動時間の合計に占める1の対象者の前記起動時間の割合に基づいて、各対象者の前記第2コンテンツへの接触頻度の期待値を算出し、前記期待値に基づいて、各対象者の前記第2コンテンツへの接触頻度の確率分布を計算する、請求項1に記載のデータ処理装置。
【請求項3】
前記第1計算部は、
前記期待値に基づいて、前記第2コンテンツへの接触頻度毎の確率がポワソン分布に従うように、各対象者の前記第2コンテンツへの接触頻度の確率分布を計算する、請求項2に記載のデータ処理装置。
【請求項4】
前記第4計算部は、
前記マトリクスにおける確率分布が前記第2の実データの人数分布と比較して大きい接触頻度から、小さい接触頻度へ再配分を行うことにより、前記マトリクスにおける前記第2コンテンツへの接触頻度の分布が、前記第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第2コンテンツへの接触頻度毎の値を修正する、請求項1に記載のデータ処理装置。
【請求項5】
プロセッサが、第1コンテンツへの接触頻度の人数分布を示す第1の実データを取得する工程と、
プロセッサが、第2コンテンツへの接触頻度の人数分布を示す第2の実データを取得する工程と、
プロセッサが、複数の対象者について、各対象者の前記第1コンテンツへの接触頻度と、前記第2コンテンツが視聴可能な情報媒体の利用状況とを含む、シングルソースデータを取得する工程と、
プロセッサが、各対象者について、前記情報媒体の利用状況に基づいて、前記第2コンテンツへの接触頻度の確率分布を計算する工程と、
プロセッサが、各対象者の前記第2コンテンツへの接触頻度の確率分布を、前記第1コンテンツへの接触頻度が同一の対象者の単位で積算し、前記シングルソースデータに基づく前記第1コンテンツへの接触頻度と前記第2コンテンツへの接触頻度のマトリクスを計算する工程と、
プロセッサが、前記マトリクスにおける前記第1コンテンツへの接触頻度の分布が、前記第1の実データにおける第1コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第1コンテンツへの接触頻度毎の値を修正する工程と、
プロセッサが、前記マトリクスにおける前記第2コンテンツへの接触頻度の分布が、前記第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第2コンテンツへの接触頻度毎の値を修正する工程と、を備えたデータ処理方法。
【請求項6】
コンピュータを、
第1コンテンツへの接触頻度の人数分布を示す第1の実データを取得する第1データ取得部と、
第2コンテンツへの接触頻度の人数分布を示す第2の実データを取得する第2データ取得部と、
複数の対象者について、各対象者の前記第1コンテンツへの接触頻度と、前記第2コンテンツが視聴可能な情報媒体の利用状況とを含む、シングルソースデータを取得する第3データ取得部と、
各対象者について、前記情報媒体の利用状況に基づいて、前記第2コンテンツへの接触頻度の確率分布を計算する第1計算部と、
各対象者の前記第2コンテンツへの接触頻度の確率分布を、前記第1コンテンツへの接触頻度が同一の対象者の単位で積算し、前記シングルソースデータに基づく前記第1コンテンツへの接触頻度と前記第2コンテンツへの接触頻度のマトリクスを計算する第2計算部と、
前記マトリクスにおける前記第1コンテンツへの接触頻度の分布が、前記第1の実データにおける第1コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第1コンテンツへの接触頻度毎の値を修正する第3計算部と、
前記マトリクスにおける前記第2コンテンツへの接触頻度の分布が、前記第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第2コンテンツへの接触頻度毎の値を修正する第4計算部として、機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、データ処理方法、およびプログラムに関する。
【背景技術】
【0002】
近年、テレビコマーシャルとデジタル広告など、複数のメディアのコンテンツへの接触者数の規模を調査することが行われている。
【0003】
例えば、特許文献1には、テレビCMへの接触者数のデータと、デジタル広告への接触者数のデータ、および複数の対象者の各々について、当該テレビCMの視聴有無と当該デジタル広告が掲載されたサイトの閲覧回数を示すデータ(シングルソースデータ)を用いて、テレビCMとデジタル広告の少なくとも一方への接触者数を算出する方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-160657号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
シングルソースデータは、複数のメディアのコンテンツへの接触状況の関連性を調査する上で有用である。しかし、データ取得の都合上、データ形式が必ずしもそれぞれのコンテンツ自体への接触状況を直接的に示すものではない場合もある。このような場合、取得可能なシングルソースデータに基づいて、それぞれのコンテンツへの接触状況を示すデータを予測・導出する必要があるが、実態に即したデータを取得するための方法は知られていなかった。
【0006】
そこで、本発明は、複数のデータの関連性を実態に即して適切に予測する方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係るデータ処理装置は、第1コンテンツへの接触頻度の人数分布を示す第1の実データを取得する第1データ取得部と、第2コンテンツへの接触頻度の人数分布を示す第2の実データを取得する第2データ取得部と、複数の対象者について、各対象者の前記第1コンテンツへの接触頻度と、前記第2コンテンツが視聴可能な情報媒体の利用状況とを含む、シングルソースデータを取得する第3データ取得部と、各対象者について、前記情報媒体の利用状況に基づいて、前記第2コンテンツへの接触頻度の確率分布を計算する第1計算部と、各対象者の前記第2コンテンツへの接触頻度の確率分布を、前記第1コンテンツへの接触頻度が同一の対象者の単位で積算し、前記シングルソースデータに基づく前記第1コンテンツへの接触頻度と前記第2コンテンツへの接触頻度のマトリクスを計算する第2計算部と、前記マトリクスにおける前記第1コンテンツへの接触頻度の分布が、前記第1の実データにおける第1コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第1コンテンツへの接触頻度毎の値を修正する第3計算部と、前記マトリクスにおける前記第2コンテンツへの接触頻度の分布が、前記第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第2コンテンツへの接触頻度毎の値を修正する第4計算部と、を備える。
【0008】
本発明に係るデータ処理方法は、プロセッサが、第1コンテンツへの接触頻度の人数分布を示す第1の実データを取得する工程と、プロセッサが、第2コンテンツへの接触頻度の人数分布を示す第2の実データを取得する工程と、プロセッサが、複数の対象者について、各対象者の前記第1コンテンツへの接触頻度と、前記第2コンテンツが視聴可能な情報媒体の利用状況とを含む、シングルソースデータを取得する工程と、プロセッサが、各対象者について、前記情報媒体の利用状況に基づいて、前記第2コンテンツへの接触頻度の確率分布を計算する工程と、プロセッサが、各対象者の前記第2コンテンツへの接触頻度の確率分布を、前記第1コンテンツへの接触頻度が同一の対象者の単位で積算し、前記シングルソースデータに基づく前記第1コンテンツへの接触頻度と前記第2コンテンツへの接触頻度のマトリクスを計算する工程と、プロセッサが、前記マトリクスにおける前記第1コンテンツへの接触頻度の分布が、前記第1の実データにおける第1コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第1コンテンツへの接触頻度毎の値を修正する工程と、プロセッサが、前記マトリクスにおける前記第2コンテンツへの接触頻度の分布が、前記第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第2コンテンツへの接触頻度毎の値を修正する工程と、を備える。
【0009】
本発明に係るプログラムは、コンピュータを、第1コンテンツへの接触頻度の人数分布を示す第1の実データを取得する第1データ取得部と、第2コンテンツへの接触頻度の人数分布を示す第2の実データを取得する第2データ取得部と、複数の対象者について、各対象者の前記第1コンテンツへの接触頻度と、前記第2コンテンツが視聴可能な情報媒体の利用状況とを含む、シングルソースデータを取得する第3データ取得部と、各対象者について、前記情報媒体の利用状況に基づいて、前記第2コンテンツへの接触頻度の確率分布を計算する第1計算部と、各対象者の前記第2コンテンツへの接触頻度の確率分布を、前記第1コンテンツへの接触頻度が同一の対象者の単位で積算し、前記シングルソースデータに基づく前記第1コンテンツへの接触頻度と前記第2コンテンツへの接触頻度のマトリクスを計算する第2計算部と、前記マトリクスにおける前記第1コンテンツへの接触頻度の分布が、前記第1の実データにおける第1コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第1コンテンツへの接触頻度毎の値を修正する第3計算部と、前記マトリクスにおける前記第2コンテンツへの接触頻度の分布が、前記第2の実データにおける第2コンテンツへの接触頻度の人数分布と同じになるように、前記マトリクスにおける前記第2コンテンツへの接触頻度毎の値を修正する第4計算部として、機能させる。
【発明の効果】
【0010】
本発明によれば、複数のデータの関連性を実態に即して適切に予測する方法を提供することができる。
【図面の簡単な説明】
【0011】
図1】本発明の実施の形態による、データ処理装置1の構成を示すブロック図。
図2】本発明の実施の形態による、データ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールを示すブロック図。
図3】本発明の実施の形態による、データ処理装置1の動作のフローチャート。
図4】本発明の実施の形態による、3種類の入力データを説明する図。
図5】本発明の実施の形態による、各パネリストのWEBCMへの接触回数の確率分布を例示する図。
図6】本発明の実施の形態による、シングルソースデータによるTVCMへの接触回数とWEBCMへの接触回数のマトリクスを例示する図。
図7】本発明の実施の形態による、シングルソースデータによるTVCMへの接触回数分布を実データに合わせる方法を説明する図。
図8】本発明の実施の形態による、シングルソースデータによるWEBCMへの接触回数分布を実データに合わせる方法を説明する図。
図9】本発明の実施の形態による、TVCMへの接触回数毎の人数とWEBCMへの接触回数毎の人数のクロス集計表を例示する図。
【発明を実施するための形態】
【0012】
次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
実施の形態
図1は、本発明の実施の形態によるデータ処理装置1の構成を示すブロック図である。データ処理装置1は、1台または通信回線で接続された複数のコンピュータによって構成される。データ処理装置1は、プロセッサ11と、メインメモリ12と、入出力インタフェース13と、通信インタフェース14と、記憶装置15を備えている。記憶装置15は、半導体メモリ(例えば、揮発性メモリや不揮発性メモリ)、またはディスク媒体(例えば、磁気記録媒体や光磁気記録媒体)などのコンピュータ読み取り可能な記録媒体である。記憶装置15には、プロセッサ11に実行させるためのプログラムや、各種データ等が記憶されている。プログラムは、記憶装置15からメインメモリ12に読み込まれ、プロセッサ11により解釈及び実行されることにより、各種機能が実行される。
【0013】
図2は、データ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールを示すブロック図である。図3に示すように、学習装置1のプロセッサ11によって実行される機能モジュールには、第1データ取得部101、第2データ取得部102、第3データ取得部103、第1計算部104、第2計算部105、第3計算部106、第4計算部107が含まれる。
【0014】
次に、図3のフローチャートを用いて、データ処理装置1の動作について説明する。本実施形態では、特定のテレビのCM(第1コンテンツ、以下TVCM)への接触回数(接触頻度)毎の人数と、特定の動画サイトのCM(第2コンテンツ、以下WEBCM)への接触回数(接触頻度)毎の人数とのクロス集計表(TVCMへの接触回数がm回かつWEBCMへの接触回数がn回の人数を示す表)を作成する。なお、第2コンテンツは動画サイトのCMに限定されず、他の形態のデジタル広告等であってもよい。
【0015】
クロス集計表の作成には、入力データとして図4に示す3種類のデータを用いる。1つは、一定期間におけるTVCMへの接触回数毎の人数を示す実際のデータ(第1の実データ)D1、1つは、一定期間におけるWEBCMへの接触回数毎の人数を示す実際のデータ(第2の実データ)D2、1つは複数のパネリスト(対象者)について、一定期間における各人のTVCMへの接触回数と、WEBCMが視聴可能なアプリケーションAPの起動時間(情報媒体の利用状況)を示すデータ(シングルソースデータ)D3である。なお、シングルソースデータには、アプリケーションAPの起動時間以外に、ウェブページの遷移数や、ウェブ上での滞在時間(ブラウザの起動時間)などが含まれていてもよい。
【0016】
まず、第1データ取得部101は、TVCMへの接触回数毎の人数を示す実データD1を取得する(ステップS101)。実データD1は、テレビ視聴率の調査を行う企業等が提供するデータを利用することができる。実データD1の「TVCM接触回数」と人数とを掛け合わせて全て合計したものが全国のTVCM総接触回数であり、「人数」を合計したものが全国のTVCM接触人数となる。
【0017】
次に、第2データ取得部102は、WEBCMへの接触回数毎の人数を示す実データD2を取得する(ステップS102)。実データD2は、インターネット視聴率の調査を行う企業等が提供するデータを利用することができる。実データD2の「WEBCM接触回数」と人数とを掛け合わせて全て合計したものが全国のWEBCM総接触回数であり、「人数」を合計したものが全国のウェブCM接触人数となる。
【0018】
次に、第3データ取得部103は、複数のパネリストを対象としたシングルソースデータD3を取得する(ステップS103)。ここではパネリストは、テレビとウェブの両方の環境を持つ個人である。上述のように、シングルソースデータD3は、各パネリストについてのTVCMへの接触回数と、WEBCMが視聴可能なアプリケーションAPの起動時間の情報を含んでいる。すなわち、TVCMに関しては、接触回数毎の人数をデータから直接集計することができるが、WEBCMに関しては、各パネリストの接触回数をデータから直接知ることはできない。一般にウェブ広告については、同じ時間帯に同じサイトを閲覧していても人によって異なる広告が表示されることがあるため、実際の接触有無を調査するのは困難であることが多い。
【0019】
このため、第1計算部104は、各パネリストのアプリケーションAPの起動時間に基づいて、WEBCMへの接触回数の確率分布を計算する(ステップS104)。
【0020】
まず、第1計算部104は、全パネリストのアプリケーションAPの起動時間の合計(例えば、12000分)に占める、あるパネリストPの起動時間(例えば、1200分)の割合を計算する。計算した値に、全国のWEBCMへの平均接触回数を掛けることにより、パネリストPのWEBCMへの接触回数の期待値λを算出する。全国のWEBCMへの平均接触回数は、実データD2における全国のWEBCM総接触回数を全国のウェブCM接触人数で割ることにより得られる(下記式1参照)。
【0021】
パネリストPのWEBCMへの接触回数の期待値λ=(パネリストPのアプリケーションAP起動時間/全パネリストのアプリケーションAP起動時間の合計)×(全国のWEBCM総接触回数/全国のウェブCM接触人数) …(1)
【0022】
さらに第1計算部104は、WEBCMへの接触回数の確率はポワソン分布に従うという前提のもと、各パネリストがk回WEBCMに接触する確率を、算出した期待値λに基づいて計算する。
【0023】
図5に、ステップS104で計算した各パネリストのWEBCMへの接触回数の確率分布の例を示す。図5に示すように、例えば、アプリケーションの起動時間が1200分のID1のパネリストは、接触回数が0回の確率は60%、1回の確率は30%である。また、アプリケーションの起動時間が40分のID2のパネリストは、接触回数が0回の確率は85%、1回の確率は15%である。
【0024】
次に、第2計算部105は、ステップS104で求めた各パネリストのWEBCMへの接触回数の確率分布を、TVCMへの接触回数が同一のパネリストの単位で積算する。これにより、シングルソースデータに基づくTVCMへの接触回数毎の人数分布とWEBCMへの接触回数の人数分布のマトリクスMTを計算する(ステップS105)。
【0025】
図6に、ステップS105で計算したTVCMへの接触回数とWEBCMへの接触回数のマトリクスMTの例を示す。例えば図6のマトリクスMTの1行目は、TVCMへの接触回数が0回だったパネリストについて、WEBCMへの接触回数毎の確率を積算し、該当するパネリストの人数で割った値を示している。例えば、1行1列の値「0.8386」は、TVCMへの接触回数が0回だったパネリスト(例えば、8人)の、WEBCMへの接触回数が0回の確率を足し合わせ、人数(8人)で割った値である。人数で割っているため、各行の要素の合計値は「1」になる。
【0026】
次に、第3計算部106は、ステップS105で計算したマトリクスMTにおけるTVCMへの接触回数の分布が、実データD1におけるTVCMへの接触回数の人数分布と同じになるように、マトリクスMTにおけるTVCMへの接触回数毎の値を修正する(ステップS106)。
【0027】
図7を用いて、ステップS106の処理について具体的に説明する。図7(A)は、図6のマトリクスMTにおけるWEBCMへの接触回数がk(k=0,1,2,…)回であるときの、TVCMへの接触回数の分布を示したグラフである。例えば横軸のWEBCM接触回数が「0」の棒グラフにおいて、g0m(m=0,1,2,…)で表す部分は、WEBCMへの接触回数が0回でTVCMへの接触回数がm回の人の割合、すなわち、マトリクスMTの0列のm行の値に対応している。同様に、WEBCM接触回数が「k」の棒グラフにおいて、gkmで表す部分は、WEBCMへの接触回数がk回でTVCMへの接触回数がm回の人の割合(マトリクスMTのk列のm行の値)に対応している。
【0028】
第3計算部106は、WEBCMへの接触回数がkであるときのTVCMへの接触回数の人数分布が、実データD1と同じになるように、マトリクスMTの各要素の値に実データD1の割合を掛けて調整する。例えば、実データD1において、TVCMへの接触回数の人数割合が、0回:45%、1回:33%、2回:8%、…の場合には、マトリクスMTのk列0行の値に0.45を掛ける。すなわち、WEBCMへの接触回数が0でTVCMへの接触回数が0の要素の値は、0.8386×0.45に置き換えられる。また、k列1行の値に0.33を掛ける。すなわち、WEBCMへの接触回数が0でTVCMへの接触回数が1の要素の値は、0.7762×0.33に置き換えられる。同様に、k列2行の値に0.08を掛ける。これにより、行単位で見ると実データD1のTVCMへの接触回数の人数割合と整合する。
【0029】
図7(B)は、マトリクスMTの全要素の値を上記の方法で調整した後の、WEBCMへの接触回数がk回であるときの、TVCMへの接触回数の分布を示したグラフである。図に示すように、TVCMへの接触回数の分布が図7(A)とは異なっている。
【0030】
次に、第4計算部107は、ステップS106で実データD1に合わせて調整したマトリクスMTにおけるWEBCMへの接触回数の分布が、実データD2におけるWEBCMへの接触回数の人数分布と同じになるように、マトリクスMTにおけるWEBCMへの接触回数毎の値を修正する(ステップS107)。
【0031】
図7(B)に例示するグラフでは、WEBCMへの接触回数の分布はステップS104で計算したポワソン分布を前提とした理論上の分布になっている。一方、実データD2における実際の分布では、接触回数が0回の割合が高く1回の割合が低い等、ポワソン分布とは差分がある。
【0032】
このため、第4計算部107は、マトリクスMTにおける分布が実データD2の分布と比較して大きい接触回数から、小さい接触回数への再配分を行うことにより、実データD2の分布に合わせる。例えば、実データD2における接触回数0回の割合が、マトリクスMTの割合よりも多い場合には、図8に示すように、マトリクスMTの接触回数1回に割り当てられている人数の一部を0回へ移すことにより、実データD2の分布に合わせる。回数1の人数を全て移しても足りない場合は、さらに回数2から回数0へ移すようにしてもよい。逆に、実データD2における接触回数0回の割合が、マトリクスMTの割合よりも少ない場合には、余剰の分を0回から1回のほうへ移すようにしてもよい。このように、隣接する回数との間で人数の再配分を行うことにより、実データD2の分布に合わせることができる。なお、人数の一部を移す際には、図8に示すように、TVCMへの接触回数の割合が変わらないように移す(グラフを縦切りにする)。これにより、再配分後もTVCMへの接触回数の人数割合は変化しない。
【0033】
ステップS106でTVCMへの接触回数の分布を実データD1に合わせ、ステップS107でWEBCMへの接触回数の分布を実データD2に合わせたことにより、マトリクスMTは、シングルソースデータD3に基づくTVCMへの接触回数とWEBCMへの接触回数の関連性を反映すると共に、TVCMへの接触回数毎の人数の割合とWEBCMへの接触回数毎の人数の割合は、実際のデータの分布と一致したものとなる。このように調整したマトリクスMTの各要素に人口を掛けると、図9に示すようなTVCMへの接触回数がm回でWEBCMへの接触回数がn回の人数を示すクロス集計表が得られる。図9において、各行の合計値は実データD1と一致し、各列の合計値は実データD2と一致する。
【0034】
以上のように、本実施形態によれば、各パネリストにおけるTVCMへの接触回数と、WEBCMを視聴可能なアプリケーションの起動時間を含むシングルソースデータを取得し、各パネリストについてアプリケーションの起動時間に基づいて、WEBCMへの接触回数の確率分布を計算する。次に、各パネリストのWEBCMへの接触回数の確率分布をTVCMへの接触回数が同じパネリスト単位で積算することで、TVCMへの接触回数毎の人数分布とWEBCMへの接触回数毎の人数分布のマトリクスを作成する。さらに、マトリクスにおけるTVCMへの接触回数毎の人数分布とWEBCMへの接触回数毎の人数分布をそれぞれ実データに合わせて修正するようにした。
【0035】
上記の構成により、TVCMへの接触とWEBCMへの接触の関連性(重複関係)を表すシングルソースデータと、それぞれの接触者数を表す実際のデータに基づいて、実態に即したクロス集計表を作成することができる。
【0036】
また、シングルソースデータに含まれるWEBCMを視聴可能なアプリケーションの起動時間に基づいて、WEBCMへの接触回数の確率分布を計算するようにしたので、妥当な接触回数を予測することができる。このように、元のデータにWEBCMへの接触回数を直接表すデータが含まれていない場合でも、計算処理によりクロス集計表の作成に利用することができる。
【0037】
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。また、各処理ステップ間に他のステップを追加してもよい。また、1ステップとして記載されているステップを、複数ステップに分けて実行してもよいし、複数ステップに分けて記載されているものを、1ステップとして把握することもできる。
【符号の説明】
【0038】
1…データ処理装置
11…プロセッサ
12…メインメモリ
13…入出力インタフェース
14…通信インタフェース
15…記憶装置
101…第1データ取得部
102…第2データ取得部
103…第3データ取得部
104…第1計算部
105…第2計算部
106…第3計算部
107…第4計算部
図1
図2
図3
図4
図5
図6
図7
図8
図9