(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-06-24
(45)【発行日】2024-07-02
(54)【発明の名称】データ処理装置、データ処理方法、およびプログラム
(51)【国際特許分類】
G06Q 30/0242 20230101AFI20240625BHJP
【FI】
G06Q30/0242
(21)【出願番号】P 2024024830
(22)【出願日】2024-02-21
【審査請求日】2024-02-22
(31)【優先権主張番号】P 2023202728
(32)【優先日】2023-11-30
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】591101434
【氏名又は名称】株式会社ビデオリサーチ
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】河原 達也
(72)【発明者】
【氏名】鈴木 暁
(72)【発明者】
【氏名】田村 玄
(72)【発明者】
【氏名】青島 弘幸
(72)【発明者】
【氏名】坂田 耕太
【審査官】藤原 拓也
(56)【参考文献】
【文献】特開2022-028370(JP,A)
【文献】特開2020-160657(JP,A)
【文献】特開2018-028859(JP,A)
【文献】特開2005-032234(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、
前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、
生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、
前記接触頻度割り当て部は、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、データ処理装置。
【請求項2】
前記対象コンテンツへの接触状況を示すデータは、接触頻度の分布データであり、
前記接触頻度割り当て部は、
各々の疑似標本を、前記第1のメディアの利用時間の長さに応じて順位付けし、前記対象コンテンツへの接触頻度の分布データに基づいて、前記第1の接触頻度を割り当てる、請求項1に記載のデータ処理装置。
【請求項3】
前記対象コンテンツへの接触状況を示すデータは、接触有無の比率を示すデータであり、
前記接触頻度割り当て部は、
各々の疑似標本を、前記第1のメディアの利用時間の長さに応じて順位付けし、前記対象コンテンツへの接触有無の比率を示すデータに基づいて、各々の疑似標本に前記対象コンテンツへの接触有無を割り当て、前記対象コンテンツへの接触有りが割り当てられた疑似標本について、前記第1のメディアの利用時間の長さに基づいて前記第1の接触頻度を割り当てる、請求項1に記載のデータ処理装置。
【請求項4】
前記接触頻度割り当て部は、
前記対象コンテンツへの接触有りが割り当てられた疑似標本について、前記第1のメディアの利用時間の長さに比例する期待値を持つ確率分布に従う乱数を前記第1の接触頻度として割り当てる、請求項3に記載のデータ処理装置。
【請求項5】
前記シングルソースデータは、前記第2のメディアを介して前記対象コンテンツへ接触した第2の接触頻度を含み、
前記接触頻度割り当て部は、
各々の疑似標本を、前記第2の接触頻度に応じて順位付けし、前記第2のメディアにおける前記対象コンテンツへの状況を示すデータに基づいて、前記第2の接触頻度の割り当てなおしを行う、請求項1または3に記載のデータ処理装置。
【請求項6】
プロセッサが、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する工程と、
プロセッサが、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する工程と、
プロセッサが、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する工程と、を備え、
前記第1の接触頻度を算出する工程では、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、データ処理方法。
【請求項7】
コンピュータを、
シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、
前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、
生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部として機能させ、
前記接触頻度割り当て部は、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツへの接触状況を、疑似標本を用いて増幅させたデータを用いて分析するデータ処理装置、データ処理方法、およびプログラムに関する。
【背景技術】
【0002】
近年、ある商品の広告についてテレビコマーシャルと動画サイトの広告など、複数のメディアでの接触者数の規模を調査することが行われている。
【0003】
例えば、特許文献1には、テレビCMへの接触者数のデータと、デジタル広告への接触者数のデータ、および複数の対象者の各々について、当該テレビCMの視聴有無と当該デジタル広告が掲載されたサイトの閲覧回数を示すデータ(シングルソースデータ)を用いて、テレビCMとデジタル広告の少なくとも一方への接触者数を算出する方法が開示されている。
【0004】
また、例えば、特許文献2に記載されているように、コンテンツへの接触状況の調査において、実際の標本データに基づいて作成された疑似標本データを用いて、データ数を増幅させることが知られている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2020-160657号公報
【文献】特開2022-028370号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
一般にシングルソースデータには、同一個人についての、複数のメディアへの接触状況を示す情報が含まれているが、複数のメディアを介した対象広告への接触頻度を示す情報が含まれているとは限らない。しかし、複数のメディアを介した対象広告への接触状況を分析するためには、各々のメディアでの実態に即した接触状況を示す情報を含むデータが求められていた。
【0007】
本発明は、複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にすることを目的とする。
【課題を解決するための手段】
【0008】
本発明に係るデータ処理装置は、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、前記接触頻度割り当て部は、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。
【0009】
本発明に係るデータ処理方法は、プロセッサが、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する工程と、プロセッサが、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する工程と、プロセッサが、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する工程と、を備え、前記第1の接触頻度を算出する工程では、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。
【0010】
本発明に係るプログラムは、コンピュータを、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部として機能させ、前記接触頻度割り当て部は、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。
【発明の効果】
【0011】
本発明によれば、複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にすることができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施の形態1による、データ処理装置1の構成を示すブロック図。
【
図2】本発明の実施の形態1による、データ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールを示すブロック図。
【
図3】本発明の実施の形態1による、データ処理装置1の動作のフローチャート。
【
図4】本発明の実施の形態1による、シングルソースデータと疑似標本の具体例を示す図。
【
図5】本発明の実施の形態1による、疑似標本数の決定に利用する、テレビ所有者人口の性別/年齢構成の統計データを例示する図。
【
図6】本発明の実施の形態1による、動画サイトでの広告Cへの接触回数の算出方法について説明する図。
【
図7】本発明の実施の形態1による、テレビでの広告Cへの接触回数の算出方法について説明する図。
【
図8】本発明の実施の形態2による、動画サイトでの広告Cへの接触回数の算出方法について説明する図。
【
図9】本発明の実施の形態2による、動画サイトでの広告Cへの接触回数の算出方法について説明する図。
【発明を実施するための形態】
【0013】
次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1によるデータ処理装置1の構成を示すブロック図である。データ処理装置1は、1台または通信回線で接続された複数のコンピュータによって構成される。データ処理装置1は、プロセッサ11と、メインメモリ12と、入出力インタフェース13と、通信インタフェース14と、記憶装置15を備えている。記憶装置15は、半導体メモリ(例えば、揮発性メモリや不揮発性メモリ)、またはディスク媒体(例えば、磁気記録媒体や光磁気記録媒体)などのコンピュータ読み取り可能な記録媒体である。記憶装置15には、プロセッサ11に実行させるためのプログラムや、各種データ等が記憶されている。プログラムは、記憶装置15からメインメモリ12に読み込まれ、プロセッサ11により解釈及び実行されることにより、各種機能が実行される。
【0014】
図2は、データ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールを示すブロック図である。
図2に示すように、データ処理装置1のプロセッサ11によって実行される機能モジュールには、実データ取得部101、疑似データ生成部102、接触頻度割り当て部103、集計部104が含まれる。
【0015】
記憶装置15には、実測のシングルソースデータ(実データ)や実データに基づいて生成した疑似標本データが記憶されている。シングルソースデータとは、シングルユーザ(同一個人)における複数のメディアへの接触状況を測定した結果を含むデータである。本実施形態では、一例として、同一個人における、テレビ利用時間、テレビで広告に接触した回数、および動画サイト(YouTube(登録商標)等)の利用時間の計測結果を含むデータをシングルソースデータとして利用する。
【0016】
次に、
図3のフローチャートを用いて、データ処理装置1による、データ処理の流れについて説明する。データ処理装置1は、ある広告C(対象コンテンツ)について、テレビ(第2のメディア)での広告Cへの接触状況と、ウェブの動画サイト(第1のメディア)での広告Cへの接触状況を分析するためのデータを生成する。なお、ここでは、複数メディアでの対象広告への接触状況を分析する例を挙げているが、接触状況を分析する対象コンテンツは広告には限られず、例えば特定の番組や動画等であってもよい。
【0017】
まず、実測データ取得部101は、テレビ(第2のメディア)の利用履歴とウェブの動画サイト(第1のメディア)の利用履歴に関するシングルソースデータ(実データ)を取得する(ステップS101)。
図4(A)は、シングルソースデータの具体例を示す図である。
図4(A)に示すように、シングルソースデータには、各々の調査対象ユーザ(Sno001,002,…)についての所定の調査期間(例えば、1週間)におけるテレビ利用時間(分)(利用状況を示す第2の値)、テレビで広告Cに接触した回数(回)、動画サイト(Youtube等)の利用時間(分)(利用状況を示す第1の値)を含んでいる。なお、シングルソースデータには、動画サイトにおける広告Cへの接触回数は含まれていない。
【0018】
また、シングルソースデータは、ユーザの属性情報(性別、年齢等)を含んでいてもよい。
図4(A)の例では、属性情報として性別・年齢区分を含んでおり、図に示すように18~24歳の男性(M18-24)のユーザに関するシングルソースデータが取得されている。
【0019】
次に、疑似データ生成部102は、取得したシングルソースデータと同様のデータ項目を持ち、同様の分布を持つ疑似標本データを生成する(ステップS102)。
図4(B)は、
図4(A)のシングルソースデータに基づいて生成した疑似標本データを例示する図である。疑似データ生成部102は、ステップS101で取得したシングルソースデータに基づいて、データを構成する3項目(テレビ利用時間、テレビ広告接触回数、動画サイトの利用時間)についての3次元正規分布を求める。さらに、求めた3次元正規分布に従って、ランダムに疑似標本データを生成する。疑似データ生成部102は、生成した疑似標本データにおいて、各項目(テレビ利用時間、テレビ広告接触回数、動画サイトの利用時間)の平均および項目間の相関係数が、元のシングルソースデータにおける平均および相関係数と同じになるように疑似標本データを生成する。なお、
図4(B)の例では、疑似標本の各項目の数値には正規分布乱数が割り当てられているため、例えばテレビ広告接触回数についても、自然数ではなく小数点以下を含む数値となっている。
【0020】
また、疑似データ生成部102が生成する疑似標本の数は調査の目的に応じて設定することができる。
図4(B)の例では、
図5に例示するテレビ所有者人口の性別/年齢構成の統計データに基づいて疑似標本数を決定している。
図5は、疑似標本人数を10万人とした場合の各性別/年齢区分におけるテレビ所有者人口を示しており、MF、M、Fはそれぞれ男女、男性、女性を表し、その横の数字が年齢層を表している。
図4(B)は、18~24歳の男性(M18-24)の実データに基づいて生成された疑似標本であり、
図5によれば、全TV所有者人口を10万人とした場合、そのうちの18~24歳の男性の人数は3346人となるため、
図4(B)の例では3346件の疑似標本を生成している。なお、ここでは性別/年齢区分毎のテレビ所有者人口を想定したデータを用いているが、テレビ所有者人口のみならず、例えば性別/年齢区分毎の全人口などを想定することもできる。
【0021】
次に、接触頻度割り当て部103は、生成した各々の疑似標本について、動画サイトを介して広告Cに接触した回数(第1の接触頻度)を算出する(ステップS103)。
【0022】
図6を用いて、接触頻度割り当て部103による動画サイトでの広告Cへの接触回数の算出方法について説明する。接触回数の算出には、公式データとして提供されている動画サイトにおける広告Cへの接触回数の分布データを利用する。
図6(A)の表の2列目には、所定の母集団における広告Cへの接触回数(0回~10回以上)の分布(公式データ)が例示されており、3列目には、ステップS102で生成した疑似標本(
図4(B)の例では3346人分のデータ)を、2列目の分布に合わせて各接触回数(0回~10回以上)に割り当てた標本数(データ数)が示されている。また、4列目には、3列目の数値の小数点以下を四捨五入し、接触回数10回以上の人数を調整して合計が3346人になるようにした結果を示している。
【0023】
図6(B)は、ステップS102で生成した各疑似標本に、テレビCMの接触回数の順位(表3列目)と動画サイトの利用時間の順位(表6列目)を付与した例を示す図である。テレビCMの接触回数の順位(表3列目)は、表4列目のテレビで広告Cに接触した回数が小さい順に、順位が付与されている。一方、動画サイトの利用時間の順位(表6列目)は、動画サイトの利用時間が短い順に順位が付与されている。
【0024】
接触頻度割り当て部103は、
図6(A)に示す動画サイトにおける広告Cへの接触回数の分布に基づいて、
図6(B)の各疑似標本についての動画サイトにおける広告Cへの接触回数を算出する。
図6(A)の4列目を参照すると、疑似標本の3346件のうち、1255件については、動画サイトにおける広告Cへの接触回数は「0」回である。このため、接触頻度割り当て部103は、
図6(B)の疑似標本のうち、動画サイトの利用時間が短い順に1255番目までの疑似標本について、広告Cへの接触回数を「0」回とする。同様に、1256番目から1690番目までの標本については、広告Cへの接触回数を「1」回、1691番目から2008番目までは「2」回、2009番目から2319番目までは「3」回、2320番目から2677番目までは「4」回とする。
図6(B)の例で、Sno001,002の標本は1255番目までに含まれるため広告Cへの接触回数は0回となる。一方、Sno003の標本は、2320番目から2677番目の範囲に含まれるため、広告Cへの接触回数は4回となる。以上のようにして、疑似標本データにおける動画サイトでの広告Cへの接触回数を設定することができる。
【0025】
また、テレビCMの接触回数については疑似標本に既に値が含まれているが、テレビCMの接触回数の順位に基づいて、改めて設定するようにしてもよい。具体的には、動画サイトでの広告Cへの接触回数と同様に、公式データとして提供されているテレビでの広告Cへの接触回数の分布データ(
図7の2列目)を利用し、3346人分のデータを各接触回数(例えば、0回~10回以上)に割り当てて(
図7の3列目)、各接触回数の割り当てデータ数を求め(
図7の4列目)、
図6(B)の3列目の順位にしたがって、テレビでの広告Cへの接触回数を割り当てていくようにしてもよい。これにより、テレビ広告についても、公式データの分布に整合する接触回数分布を持った疑似標本を作成することができる。例えば、
図6(B)の例で、Sno001は、疑似標本に元々示されているテレビCMの接触回数は5.6回であるが、テレビCMのランクが2253番目のため、
図7の分布に従うと接触回数は2回となる。また、Sno002は、疑似標本に元々示されているテレビCMの接触回数は3.3回であるが、テレビCMのランクが1521番目のため、
図7の分布に従うと接触回数は0回となる。
【0026】
以上のステップS101~S103の手順によって、テレビ利用時間、テレビにおける広告Cへの接触回数、および動画サイトの利用時間を含む限られた件数のシングルソースデータ(実データ)から、テレビにおける広告Cへの接触回数と動画サイトにおける広告Cへの接触回数を含む所望の件数の疑似標本を取得することができる。
【0027】
(統合リーチ・重複リーチの分析)
集計部104は、生成した疑似標本を用いて統合リーチや重複リーチの推定を行う。統合リーチとは、複数の事象の少なくとも1つが成立する割合であり、上記の実施例ではテレビ広告と動画サイト広告の少なくとも一方に接触しているユーザの割合を示す。また、重複リーチとは、複数の事象の全てが成立する割合であり、上記の実施例ではテレビ広告と動画サイト広告の両方に接しているユーザの割合を示す。すなわち、上記の実施例では統合リーチと重複リーチは、例えば下記の式(1)、(2)で算出することができる。なお、下記の式(1)、(2)では、1回でも接触したユーザはリーチしたとみなすという前提で統合リーチ・重複リーチを計算している。リーチの定義はこれに限らず、例えば2回以上、3回以上接触した場合にリーチしたと判定する場合には、下記式において「接触回数≧2」、「接触回数≧3」と置き換えて計算することができる。
【0028】
統合リーチ=([テレビ広告の接触回数≧1のユーザの人数]+[動画サイト広告の接触回数≧1のユーザの人数]-[テレビ広告と動画サイト広告の両方の接触回数≧1のユーザの人数])/3346 …(1)
重複リーチ=[テレビ広告と動画サイト広告の両方の接触回数≧1のユーザの人数]
/3346 …(2)
【0029】
生成した疑似標本を用いて統合リーチを求めることにより、テレビ広告と動画サイト広告それぞれへの接触率と、統合リーチの関係を分析し、効率の良い広告展開を行うために活用することができる。
【0030】
なお、上記の実施例では、テレビ広告と動画サイト広告への接触回数を含むシングルソースの疑似標本を取得しているが、疑似標本に含める項目は、分析目的によって調整することができる。例えば、動画サイトの広告Cに、テレビ画面で接触した場合とスマートフォンで接触した場合を区別するようにしてもよい。また、テレビの広告Cへの接触について、局別の接触回数を含むようにしてもよい。また、特定の時間帯や特定のサイトにおける接触回数も同様の手順で算出することができる。
【0031】
以上のように、本実施形態によれば、複数のメディアの利用時間を含むシングルソースデータを利用して、項目間の相関係数が変わらないように疑似標本を生成し、さらに、各メディアにおける対象広告Cへの接触回数の分布データを利用し、疑似標本における当該メディアの利用時間に基づいて、広告Cへの接触回数を割り当てるようにした。これにより、メディアの利用時間の情報しか含まれていないシングルソースデータを利用して、実態に即した接触回数を推定することができる。これにより、複数のメディアを介した広告Cへの接触状況の分析に活用できる疑似標本データを生成することができる。また、作成した疑似標本を用いて分析等を行っても、実測データを用いて分析した場合の結果と矛盾しない結果を得られることが期待できる。
【0032】
本実施形態では、テレビ広告と動画サイトの広告への接触状況を示す疑似標本データを作成しているが、メディアの数や種類はこれに限られず、テレビやウェブの他に新聞やラジオなど複数のメディアへの接触状況に関する疑似標本の作成に利用することができる。また、統合リーチ、重複リーチ以外にも、シングルソースデータに基づいて分析、算出できる種々の指標や統計データを作成することができる。また、2種類のメディアの統合リーチや重複リーチに限らず、任意のメディア数の統合リーチや重複リーチ、その他の分析に対応することができる。
【0033】
また、作成した疑似標本データは、統合リーチ・重複リーチの分析だけでなく、例えば、以下のような用途にも利用することができる。
(1)広告接触者の属性プロフィールを描写に利用する。
(2)他のデータソースと融合させることにより、さらに様々な用途に利用することができる。具体的には以下のような例があげられる。
(2)-1:広告配信事業者のデータと融合し、リーチを補完するための効果的な配信を実現する。
(2)-2:ブランド評価データと融合し、ブランド評価への広告効果の分析に利用する。
(2)-3:購買履歴データと融合し、購買への広告効果の分析に利用する。
(2)-4:生活者の属性プロフィールデータと融合し、広告接触者の詳細なプロフィールの取得に利用する。
【0034】
(実施の形態2)
本発明の実施の形態2によるデータ処理装置1の構成およびデータ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールは、
図1,2に示す実施の形態1と同様である。また、データ処理装置1によるデータ処理の流れは、
図3のフローチャートに示す流れと同様である。すなわち、
図4(A)に例示するようなシングルソースデータに基づいて、実施の形態1と同様に
図4(B)に例示するような疑似標本データを生成する。さらに、接触頻度割り当て部103は、生成した各々の疑似標本について、動画サイトを介して広告Cに接触した回数(第1の接触頻度)を算出する。実施の形態2では、実施の形態1とは異なる方法で、動画サイトを介して広告Cに接触した回数を算出する。
【0035】
実施の形態1では、公式データとして、
図6(A)に示すような動画サイトにおける広告Cへの接触回数の分布データが提供されており、これを利用して、各疑似標本における動画サイトを介して広告Cに接触した回数を算出した。一方、多くの動画サイトでは、上記のような広告Cへの接触回数の分布データは提供されていない。代わりに、当該動画サイトにおける広告Cへの接触の有無の比率を示すデータが提供されている場合がある。具体的には、所定の母集団(例えば、18~24歳の男性(M18-24))において、下記のように定義される値が提供されている。
接触有りの割合=動画サイトにおける広告Cへの接触者数/母集団の人数
接触無しの割合=1-(接触有りの割合)
【0036】
また、併せて広告Cへの接触有りの集団における平均接触回数が提供されている場合がある。具体的には、下記のように定義される値が提供されている。
平均接触回数=動画サイトにおける広告Cの総表示回数/動画サイトにおける広告Cへの接触者数
【0037】
実施の形態2では、動画サイトにおける広告Cへの接触の有無の比率を示すデータと、接触有りの集団における平均接触回数を利用して、各疑似標本における動画サイトを介して広告Cに接触した回数を算出する。
【0038】
まず、接触頻度割り当て部103は、各疑似標本に、当該動画サイトにおける広告Cへの接触有無を割り当てる。
図8(A)の表の2列目は、公式データとして得られるデータであり、所定の母集団(例えば、18~24歳の男性(M18-24))における動画サイトでの広告Cへの接触有無の比率が例示されている。3列目は、疑似標本(ここでは17964人分)を、2列目の比率に合わせて接触無し・接触有りに割り当てた人数を示している。また、4列目は、3列目の数値の小数点以下を四捨五入し、接触無しの人数を調整して合計が17964人になるようにした結果を示している。
【0039】
図8(B)は、疑似標本に、動画サイトの利用時間の順位(表8列目)を付与した例を示す図である。動画サイトの利用時間の順位は、動画サイトの利用時間(表7列目)が短い順に順位が付与されている。接触頻度割り当て部103は、
図8(A)に示す動画サイトにおける広告Cへの接触有無の比率に基づいて、
図8(B)の各疑似標本に、動画サイトにおける広告Cへの接触有無を割り当てる。
図8(A)の4列目を参照すると、疑似標本の17964人のうち、15719人については、動画サイトにおける広告Cへの接触は無しである。このため、接触頻度割り当て部103は、
図8(B)の疑似標本のうち、動画サイトの利用時間が短い順に15719番目までの疑似標本について、広告Cへの接触「無し」を割り当てる。同様に、15720番目から17964番目までの標本については、広告Cへの接触「有り」を割り当てる。
【0040】
次に、接触頻度割り当て部103は、広告Cへの接触「有り」の標本に対し、広告接触回数の期待値を割り当てる。接触頻度割り当て部103は、以下の3条件を満たす関係に基づき期待値を割り当てる。
条件1:期待値は、動画サイトの利用時間に比例する。
条件2:期待値の平均は、公式データの接触「有り」の集団における平均接触回数に一致する。
条件3:接触「有り」が割り当てられた疑似標本の中で、動画サイトの利用時間が最も短い標本の期待値は「1」になる。
【0041】
条件1~3を満たす関係に基づき期待値を求める手順について具体的に説明する。まず、接触頻度割り当て部103は、
図9に示すような(X,Y)=(利用時間,接触回数の期待値)で定義される平面における以下の2点を通る直線(条件1)の式Y=c+bXを求める。
点P1(条件3):(接触「有り」の標本における利用時間の最小値,1)
点P2(条件2):(接触「有り」の標本から算出した利用時間の平均At,期待値の平均Ar(ただし、期待値の平均Ar=公式データの「平均広告接触回数」))
【0042】
求められた直線の式(1)に、各標本の動画サイト利用時間(X)を代入して、各標本の広告接触回数の期待値Yを求める。
広告接触回数の期待値(Y)=c+b×動画サイト利用時間(X)…(1)
(c、bは定数)
【0043】
さらに、接触頻度割り当て部103は、求められた各標本の期待値を利用して、各標本の広告接触回数を算出する。接触頻度割り当て部103は、例えば、期待値が各標本の期待値と一致する切断ポアソン分布に従う乱数を1つ発生させて、当該標本の広告接触回数とするようにしてもよい。広告接触回数は1以上の整数であるため、定義域が1以上である切断ポアソン分布を用いるようにしてよい。なお、切断ポアソン分布の乱数を発生させるために、切断前のポアソン分布の期待値(λ)が必要な場合には、各標本の期待値の範囲に応じて個別にλを計算するようにしてもよい。1以上で切断された切断ポアソン分布の期待値Eと切断前のポアソン分布の期待値λには下記の式の関係がある。
E=λ/(1-exp(-λ))
【0044】
実施の形態2によれば、動画サイトにおける広告接触回数分布のデータが得られない場合でも、広告接触有無の比率と平均広告接触回数のデータが得られれば、疑似標本の実態に即した広告接触回数を推定することができる。これにより、実施の形態1と同様に、複数のメディアを介した広告Cへの接触状況の分析に活用できる疑似標本データを生成することができる。また、作成した疑似標本を用いて分析等を行っても、実測データを用いて分析した場合の結果と矛盾しない結果を得られることが期待できる。
【0045】
なお、期待値から広告接触回数を発生させるのに用いる確率分布は切断ポアソン分布に限られない。例えば、二項分布、負の二項分布、幾何分布、ベータ二項分布などを用いることもできる。また、実施の形態1と同様に、テレビCMの接触回数についても、テレビCMの接触回数の順位に基づいて、改めて設定するようにしてもよい。
【0046】
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。また、各処理ステップ間に他のステップを追加してもよい。また、1ステップとして記載されているステップを、複数ステップに分けて実行してもよいし、複数ステップに分けて記載されているものを、1ステップとして把握することもできる。
【符号の説明】
【0047】
1…データ処理装置
11…プロセッサ
12…メインメモリ
13…入出力インタフェース
14…通信インタフェース
15…記憶装置
101…実データ取得部
102…疑似データ生成部
103…接触頻度割り当て部
104…集計部
【要約】
【課題】複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にする。
【解決手段】シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、第1の値と第2の値の相関係数が複数のユーザについてのシングルソースデータと変わらないように、シングルソースデータの疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、接触頻度割り当て部は、第1のメディアにおける対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における第1の値に基づいて、第1の接触頻度を算出する。
【選択図】
図3