【文献】
山田 雄二, 牧本 直樹,計算で学ぶファイナンス −MATLABによる実装−,株式会社朝倉書店 朝倉 邦造,2008年 1月25日,第6巻, 第1版,pp.131-140
(58)【調査した分野】(Int.Cl.,DB名)
第1のコンテンツに関する利用者の行動を示す第1の指標値と、第2のコンテンツに関する当該利用者の行動を示す第2の指標値とに基づいて、前記第1のコンテンツに関して推定される利用者の行動を示す推定指標値を、前記第1のコンテンツに関する標本ごとに算出する算出部と、
前記標本ごとに算出された前記推定指標値に基づいて、各標本間の有意差を判定する判定部と
を有することを特徴とする判定装置。
前記算出部は、前記第2の指標値として、前記第1のコンテンツとは異なるウェブサイトに関するコンテンツである前記第2のコンテンツにおいて前記利用者が行った行動を示す第2の指標値を用いて、前記推定指標値を算出する
ことを特徴とする請求項1〜3のうちいずれか1つに記載の判定装置。
前記算出部は、前記第1の指標値の平均値から、所定の係数と前記第2の指標値の平均値との積を減算し、前記所定の係数と前記第2の指標値の期待値との積を加算した値を前記推定指標値とする
ことを特徴とする請求項1〜4のうちいずれか1つに記載の判定装置。
前記算出部は、前記第1のコンテンツについて複数の利用者が行った行動を示す第1の指標値と、前記第2のコンテンツについて複数の利用者が行った行動を示す指標値であって、前記第1の指標値が示す行動を行った複数の利用者のうち、所定の数の利用者を含む複数の利用者が行った行動を示す第2の指標値とを用いて、前記推定指標値を算出する
ことを特徴とする請求項1〜5のうちいずれか1つに記載の判定装置。
前記算出部は、前記第2の指標値として、前記第2のコンテンツに関する前記利用者の行動と、当該利用者の属性を示す属性情報とを示す第2の指標値を用いて、前記推定指標値を算出する
ことを特徴とする請求項1〜7のうちいずれか1つに記載の判定装置。
第1のコンテンツに関する利用者の行動を示す第1の指標値と、第2のコンテンツに関する当該利用者の行動を示す第2の指標値とに基づいて、前記第1のコンテンツに関して推定される利用者の行動を示す推定指標値を、前記第1のコンテンツに関する標本ごとに算出する算出手順と、
算出された前記推定指標値に基づいて、前記第1の指標値が有する有意差を判定する判定手順と
をコンピュータに実行させるための判定プログラム。
【発明を実施するための形態】
【0010】
以下に、本願に係る判定装置、判定方法および判定プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る判定装置、判定方法および判定プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0011】
[実施形態]
〔1−1.判定装置の一例〕
まず、
図1を用いて、判定装置が実行する判定処理の一例について説明する。
図1は、実施形態に係る判定装置が実行する判定処理の一例を示す図である。
図1では、判定装置10は、インターネット等の所定のネットワークNを介して、所定のコンテンツを配信するコンテンツサーバ51、52や、管理者端末200と通信可能である。なお、判定装置10は、ネットワークNを介して、利用者U01が使用する端末装置101、利用者U02が使用する端末装置102と通信可能であってもよい。
【0012】
端末装置101、102は、スマートフォンやタブレット等のスマートデバイスであり、3G(3rd Generation)やLTE(Long Term Evolution)等の無線通信網を介して、コンテンツサーバ51、52といった任意のサーバ装置と通信を行うことができる携帯端末装置である。なお、端末装置101、102は、スマートデバイスのみならず、デスクトップPCやノートPC等の情報処理装置であってもよい。なお、以下の説明では、各利用者U01、U02が使用する端末装置101、102を端末装置100と総称する場合がある。また、以下の説明では、利用者U01、利用者U02以外にも、任意の数の利用者が使用する任意の数の端末装置100がコンテンツサーバ51、52等と通信可能であるものとする。
【0013】
コンテンツサーバ51、52は、端末装置100に対してウェブページ、ウィジェット、静止画像、動画像、ゲーム等といった各種のウェブコンテンツ(以下、「コンテンツ」と記載する。)を配信するサーバ装置である。例えば、コンテンツサーバ51は、所定のドメインに含まれる第1コンテンツを端末装置100に送信する。また、コンテンツサーバ52は、所定のドメインに含まれるコンテンツであって、第1コンテンツとは異なるコンテンツ、すなわち、クロスドメインに含まれる第2コンテンツを端末装置100に送信する。なお、コンテンツサーバ51、52は、同一のサーバ装置により実現されてもよい。また、以下の説明では、コンテンツサーバ51、52をコンテンツサーバ50と総称する場合がある。
【0014】
管理者端末200は、判定装置10の管理を行う管理者が使用する端末装置であり、例えば、PCやサーバ装置等により実現される。なお、管理者端末200は、判定装置10の管理者のみならず、判定装置10による判定処理の結果を所望する利用者が使用する端末装置であれば、任意の利用者が使用する端末装置であってよい。
【0015】
判定装置10は、同一の事象に含まれる標本の有意差を判定する判定装置であり、例えば、サーバ装置やクラウドシステム等により実現される。より具体的な例を説明すると、判定装置10は、コンテンツサーバ51が配信した第1コンテンツにおける利用者の行動を示す情報から複数の情報をランダムに選択することで複数の標本を抽出し、抽出した標本同士に統計学的に有意な差が存在するか否かを判定する。より具体的には、判定装置10は、第1コンテンツにおける利用者の行動を示す標本について、t検定やZ検定等といった任意の検定手法により標本の有意差を判定する判定装置である。以下の説明では、Z検定を用いた検定を行う例について説明するが、判定装置10は、以下に説明する判定方法を、任意の検定手法に適用してよい。
【0016】
〔1−2.コントロールバリエーションについて〕
ここで、一般的な検定手法においては、有意差の判定対象となる標本ごとに平均値を算出し、算出した平均値を用いて有意差が存在するか否かを判定する。例えば、Z検定といわれる手法においては、情報の母集団から1つ以上の情報をランダムに抽出した標本Y
(t)および標本Y
(c)を生成し、以下の式(1)の値が所定の閾値よりも多い場合には、標本Y
(t)および標本Y
(c)に有意差があると判定する。なお、式(1)においてオーバーラインを付したY
(t)は、標本Y
(t)として抽出された値の平均値を示し、オーバーラインを付したY
(c)は、標本Y
(c)として抽出された値の平均値を示す。なお、以下の説明では、オーバーラインを付した記号は、その記号が示す値の平均値を示すものとする。
【0018】
ここで、標本Yにn個の値y
iが含まれる場合、標本Yの平均値は、以下の式(2)で示すことができる。
【0020】
ここで、式(2)を用いた場合、標本の選択や事象の内容、すなわち、第1コンテンツにおける利用者の行動の情報によっては、平均値の分散が必ずしも小さいとは言えない場合がある。しかしながら、標本の平均値の分散が増大した場合には、有意差の検出精度が悪化する場合がある。
【0021】
そこで、コントロールバリエーション(Control Variates)と呼ばれる式を用いて所定の推定量(以下、「推定指標値」と記載する。)を算出し、式(1)に示した平均値に代えて、各標本の推定指標値を用いて、有意差を評価するCUPEDと呼ばれる手法が知られている。例えば、CUPIDにおいては、以下の式(3)で示される推定指標値を標本ごとに算出する。ここで、式(3)では、推定指標値をY
cvで示した。また、式(3)に示すXは、標本Yとは独立して選択される値であり、θは、Xの値に応じて最適値が定まる係数である。また、式(3)に示すEXは、Xの値の期待値を示す。
【0023】
ここで、サンプルサイズを無限大に近づけた場合、式(3)は、式(2)と同じ式になる。このため、判定装置10は、式(3)に示される推定指標値を用いて、式(1)から有意差を判定しても、適切に有意差を判定できると考えられる。さらに、式(3)で示される推定指標値の分散を算出すると、以下の式(4)を得ることができる。
【0025】
ここで、式(4)の右辺は、標本Yの平均値の分散と(1−ρ
2)との積で示すことができるが、(1−ρ
2)は1よりも小さい値を取る。つまり、ある標本Yについての推定指標値の値は、平均値の値よりも分散が小さくなる。このため、判定装置10は、式(3)に示される推定指標値を用いて、式(1)から有意差を判定した場合は、有意差を精度良く算出することができる。
【0026】
〔1−3.判定処理について〕
ここで、推定指標値を算出する際のXの値は、任意の値を採用することができる。一方で、有意差の検出力は、採用される情報のカバレッジを増加させた場合や、採用される情報間の相関性を強化した場合に増大する。
【0027】
そこで、判定装置10は、以下の判定処理を実行する。まず、判定装置10は、第1コンテンツに関する利用者の行動を示す第1の指標値と、第2コンテンツに関する利用者の行動を示す第2の指標値とに基づいて、第1のコンテンツに関して推定される利用者の行動を示す推定指標値を、第1のコンテンツに関する標本ごとに算出する。そして、判定装置10は、標本ごとに算出された推定指標値に基づいて、各標本間の有意差を判定し、判定結果を出力する。
【0028】
例えば、判定装置10は、第1コンテンツの閲覧中に利用者がクリックしたリンクや、利用者が入力したクエリの値、クリックやクエリの入力を行ったか否か等、第1コンテンツの閲覧時において利用者が実行可能な行動を示す値を第1の指標値として選択する。例えば、判定装置10は、クエリの入力を行った利用者に対して、第1の指標値「1」を選択する。続いて、判定装置10は、第1コンテンツの閲覧中に利用者が行った行動を示す値の中から、所定の数の値をランダムに抽出した第1の標本と第2の標本とを抽出する。そして、判定装置10は、各標本ごとに以下の処理を実行することで、推定指標値を算出する。
【0029】
まず、判定装置10は、第1の指標値として、第1コンテンツの閲覧中に利用者が行った行動を示す値を、式(2)や式(3)に示すYの値とする。より具体的には、判定装置10は、第1の標本として抽出した値をY
(t)とし、第2の標本として抽出した体をY
(c)とする。そして、判定装置10は、Y
(t)、Y
(c)の平均値をそれぞれ算出する。
【0030】
同様に、判定装置10は、第2の指標値として、第2コンテンツの閲覧中に利用者が行った行動を示す値を式(3)におけるXの値とする。より具体的には、判定装置10は、第1コンテンツとは異なるウェブサイトに関するコンテンツである第2コンテンツ、例えば、第1コンテンツのクロスドメインに含まれる第2コンテンツの閲覧に際し、利用者が行った行動を示す第2の指標値をXの値とする。
【0031】
例えば、判定装置10は、第1の標本に含まれる値が示す行動を行った利用者を特定し、特定した利用者が第2コンテンツの閲覧中に利用者が行った行動を示す値を収集する。そして、判定装置10は、収集した値をX
(t)とする。同様に、判定装置10は、第2の標本に含まれる値が示す行動を行った利用者を特定し、特定した利用者が第2コンテンツの閲覧中に利用者が行った行動を示す値を収集する。そして、判定装置10は、収集した値をX
(c)とする。
【0032】
そして、判定装置10は、Y
(t)の値の平均値から、所定の係数θとX
(t)の値の平均値との積を減算し、さらに、所定の係数θとX
(t)の値の期待値との積を加算した値を、第1の標本の推定指標値Y
(t)cvとする。また、判定装置10は、Y
(c)の値の平均値から、所定の係数θとX
(c)の値の平均値との積を減算し、さらに、所定の係数θとX
(c)の値の期待値との積を加算した値を、第2の標本の推定指標値Y
(c)cvの値とする。すなわち、判定装置10は、第1コンテンツに関して推定される利用者の行動を示す推定指標値を標本ごとに算出する。
【0033】
そして、判定装置10は、Y
(t)cvをY
(t)の平均値とし、Y
(c)cvをY
(c)の平均値として、上述した式(1)の値を算出し、算出した値が所定の閾値を超えるか否かに基づいて、第1の標本および第2の標本の有意差を判定する。
【0034】
このように、判定装置10は、第1コンテンツに関する利用者の行動の標本間の有意差を判定する際に、第1コンテンツに関する利用者の行動を示す指標値のみならず、その利用者が第2コンテンツの閲覧中に行った行動を示す第2の指標値をも用いて、標本ごとに推定指標値を算出し、算出した推定指標値に基づき、標本間の有意差を判定する。この結果、判定装置10は、標本のカバレッジを向上させることができるので、有意差の判定精度を向上させることができる。また、判定装置10は、同じ利用者が第2コンテンツの閲覧中に行った行動を示す値を用いるので、XとYとの相関性を向上させる結果、有意差の判定精度を向上させることができる。
【0035】
ここで、カバレッジを向上させるため、第2の指標値として、第1コンテンツに関する利用者の行動であって、第1の指標値の元となる行動よりも過去に取得された行動に基づく指標値を用いる手法が考えられる。しかしながら、このような手法では、第1コンテンツが新規なコンテンツである場合や、第1コンテンツの配信先に新規な利用者が存在する場合には、過去に出力された情報が存在しないため、推定指標値の分散が上昇する恐れがある。
【0036】
しかしながら、判定装置10は、第2の指標値として、第1コンテンツではなく第2コンテンツに関する利用者の行動を示す指標値を用いて、推定指標値の値を算出する。このため、判定装置10は、第1コンテンツを初めて所定の利用者に配信した場合であっても、その利用者が他のコンテンツを閲覧中に行った行動を示す値を第2の指標値とすることで、推定指標値の分散を減少させることができる。この結果、判定装置10は、有意差の判定精度を向上させることができる。
【0037】
〔1−4.第2コンテンツについて〕
ここで、判定装置10は、第1コンテンツと異なるコンテンツであれば、任意のコンテンツを第2コンテンツとしてよい。例えば、判定装置10は、第1コンテンツがウェブ検索を受付けるポータルサイト等である場合、ポータルサイトとクロスドメインのサイトやポータルサイトからリンクが設定されているサイト等における利用者の行動を示す値を第2の指標値とする。このようなサイトには、例えば、オークション、経路検索、電子商店街、ゲーム、宿泊予約、ファイナンス、天気予報、レストランの情報サイト、不動産サイト、自動車関連のサイト、各種の掲示板やブログ、レシピ等の提供を行うウェブサイトが含まれる。また、判定装置10は、ウェブサイトのみならず、第1コンテンツと関連するアプリケーションやウィジェットにおける利用者の行動を示す値を第2の指標値としてもよい。
【0038】
〔1−5.利用者の共通性について〕
また、判定装置10は、第1の指標値が示す行動を行った利用者と、第2の指標値が示す行動を行った利用者とを完全に同一にせずともよく、第1の指標値が示す行動を行った利用者と、第2の指標値が示す行動を行った利用者との一部が共通するように、第2の指標値を取得してもよい。すなわち、判定装置10は、第1コンテンツについて複数の利用者が行った行動を示す第1の指標値と、第2のコンテンツについて複数の利用者が行った行動を示す指標値であって、第1の指標値が示す行動を行った複数の利用者のうち、所定の数の利用者を含む複数の利用者が行った行動を示す第2の指標値とを用いて、推定指標値を算出すればよい。
【0039】
〔1−6.指標値が示す行動について〕
ここで、判定装置10は、例えば、第1コンテンツおよび第2コンテンツに関する利用者の行動を示す指標値として、第1コンテンツおよび第2コンテンツを閲覧中に利用者が行ったクリックの有無やクリックしたリンク又はコンテンツ等を示す値を指標値とする。しかしながら、実施形態は、これに限定するものではない。例えば、判定装置10は、クリック以外にも、例えば、ウェブ検索を行う際に入力したクエリの内容やクエリを入力した回数を指標値としてもよい。すなわち、判定装置10は、任意の行動を示す値を指標値としてよい。
【0040】
また、判定装置10は、第1の指標値が示す行動と、第2の指標値が示す行動とを異なる行動にしてもよい。例えば、判定装置10は、ポータルサイトにおけるクリックの内容を示す値を第1の指標値とする場合、オークションサイトにおいて入札を行ったか否か、出品を行ったか否か、入札履歴や出品履歴、電子商店街における購入履歴等、クリックの内容以外の行動を示す値を第2の指標値としてよい。すなわち、判定装置10は、ある程度同じ利用者による行動を示す指標値であって、それぞれ異なるコンテンツに関する指標値であるならば、それぞれ異なる種別や内容のコンテンツに関する値を第1の指標値および第2の指標値としてもよく、それぞれ異なる種別の行動を示す値を第1の指標値および第2の指標値としてもよい。
【0041】
例えば、判定装置10は、第1コンテンツに対して行った利用者の評価や、利用者が入力した第1コンテンツに対する興味の具合を示す値を第1の指標値とし、第1コンテンツとはクロスドメインの関係にある第2コンテンツにおける利用者の行動(例えば、クリックの履歴や電子商店街における購買履歴等)を示す値を第2の指標値としてもよい。すなわち、判定装置10は、第1の指標値と第2の指標値とが共通する利用者に関連するKPI(Key Performance Indicator)であるならば、任意の指標値を第1の指標値および第2の指標値として採用してよい。
【0042】
〔2.判定処理の一例について〕
次に、
図1を用いて、判定装置10が実行する処理の一例について説明する。なお、以下の説明では、第1コンテンツおよび第2コンテンツに関する利用者の行動を示す情報として、第1コンテンツおよび第2コンテンツを閲覧中に利用者が行ったクリックの履歴を示す情報を用いる処理の一例について説明する。
【0043】
まず、コンテンツサーバ51は、端末装置100からの要求に従って、第1コンテンツを端末装置100に送信する(ステップS1)。そして、コンテンツサーバ51は、第1コンテンツの閲覧中に利用者が行ったクリックの内容を示すクリック履歴を収集する(ステップS2)。また、コンテンツサーバ52は、端末装置100からの要求に従って、第2コンテンツを端末装置100に送信する(ステップS3)。そして、コンテンツサーバ52は、第2コンテンツの閲覧中に利用者が行ったクリックの内容を示すクリック履歴を収集する(ステップS4)。
【0044】
続いて、判定装置10は、第1コンテンツに関するクリック履歴をコンテンツサーバ51から収集するとともに(ステップS5)、第2コンテンツに関するクリック履歴をコンテンツサーバ52から収集する(ステップS6)。そして、判定装置10は、各クリック履歴が示すクリックの内容を行動内容とし、クリックを行った利用者の利用者IDと対応付けて行動履歴データベース31に登録する。
【0045】
また、判定装置10は、第1コンテンツに関する標本の有意差を判定する場合、第1コンテンツのクリック履歴から第1の指標値を標本ごとに算出する(ステップS7)。例えば、判定装置10は、第1コンテンツのクリック履歴から、所定の数のクリック履歴を第1の標本としてランダムに選択し、第1の標本として選択したクリック履歴の内容を示す値の集合を第1の指標値Y
(t)とする。同様に、判定装置10は、第1コンテンツのクリック履歴から、所定の数のクリック履歴を第2の標本としてランダムに選択し、第2の標本として選択したクリック履歴の内容を示す値の集合を第1の指標値Y
(c)とする。
【0046】
また、判定装置10は、第2コンテンツのクリック履歴から第2の指標値を標本ごとに算出する(ステップS8)。例えば、判定装置10は、第1の標本として選択されたクリック履歴が示すクリックを行った利用者を特定し、特定した利用者が第2コンテンツの閲覧中に行ったクリックを示すクリック履歴を抽出する。そして、判定装置10は、抽出したクリック履歴の内容を示す値の集合を第2の指標値X
(t)とする。同様に、判定装置10は、第2の標本として選択されたクリック履歴が示すクリックを行った利用者を特定し、特定した利用者が第2コンテンツの閲覧中に行ったクリックを示すクリック履歴を抽出し、抽出したクリック履歴の内容を示す値の集合を第2の指標値X
(c)とする。
【0047】
そして、判定装置10は、第1コンテンツについて推定される平均的な利用者の行動を示す値、すなわち、推定指標値を標本ごとに算出する(ステップS9)。例えば、判定装置10は、第1の指標値Y
(t)と第2の指標値X
(t)とを用いて、Y
(t)cvの値を式(3)から算出し、第1の指標値Y
(c)と第2の指標値X
(c)とを用いて、Y
(c)cvの値を式(3)から算出する。そして、判定装置10は、算出した推定指標値を用いて、標本感の有意差を判定する(ステップS10)。例えば、判定装置10は、Y
(t)cvの値をY
(t)の平均値とし、Y
(c)cvの値をY
(c)の平均値として、Z検定を行い、有意差が存在するか否かを判定する。そして、判定装置10は、検定結果を管理者端末200へと提供する(ステップS11)。
【0048】
〔3.判定装置の構成〕
以下、上記した判定処理を実現する判定装置10が有する機能構成の一例について説明する。
図2は、実施形態に係る判定装置の構成例を示す図である。
図2に示すように、判定装置10は、通信部20、記憶部30、および制御部40を有する。
【0049】
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、端末装置100や信用情報提供サーバ300との間で情報の送受信を行う。
【0050】
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、行動履歴データベース31、およびユーザデータベース32(以下、「各データベース31、32」と総称する場合がある。)を記憶する。
【0051】
行動履歴データベース31には、第1コンテンツおよび第2コンテンツに関する利用者の行動を示す情報、すなわち、行動履歴が格納される。例えば、
図3は、実施形態に係る行動履歴データベースに登録される情報の一例を示す図である。
図3に示すように、行動履歴データベース31には、「コンテンツID」、「利用者ID」、「行動内容」等といった項目を有する情報が登録されている。なお、行動履歴データベース31には、
図3に示す情報以外にも、任意の情報が登録されていてもよい。
【0052】
ここで、「コンテンツID」とは、コンテンツの識別子である。また、「利用者ID」とは、対応付けられた行動履歴が示す行動を行った利用者の識別子である。また、「行動内容」とは、利用者の行動を示す情報であり、例えば、クリックの内容を示す情報である。例えば、
図3に示す例では、コンテンツID「コンテンツ#1」、利用者ID「User#1」、および行動内容「Click#1」とが対応付けて登録されている。このような情報は、コンテンツID「コンテンツ#1」が示すコンテンツを閲覧中に、利用者ID「User#1」が示す利用者が、行動内容「Click#1」が示すクリックを行った旨を示す情報である。なお、行動内容は、どのようなクリックが行われたかのみならず、クリックの有無を示す情報であってもよい。
【0053】
図2に戻り説明を続ける。ユーザデータベース32には、利用者の識別子であるユーザIDと利用者の属性情報とが、属性情報の項目ごとに対応付けて登録されている。例えば、
図4は、実施形態に係る属性データベースに登録される情報の一例を説明する図である。例えば、
図4に示す例では、ユーザデータベース32には、「利用者ID」、「属性項目」、および「属性情報」といった項目を有する情報が、「利用者ID」ごとに複数登録されている。「属性項目」とは、属性情報の項目を示す情報であり、例えば、「性別」、「年齢」、「住所」等といった情報が登録される。また、「属性情報」とは、対応付けられたユーザIDが示す利用者の属性情報であって、対応付けられた属性項目が示す内容の属性情報である。
【0054】
例えば、
図4に示す例では、利用者ID「User#1」に対し、属性項目「性別」および属性情報「男性」が対応付けて登録され、属性項目「年齢」(「年代」でもよい。)および属性情報「30代」が対応付けて登録され、属性項目「住所」および属性情報「A市」が対応付けて登録されている。このような情報は、例えば、ユーザID「ID#01」が示す利用者の性別が男性であり、年齢が30代に含まれる年齢であり、住所がA市である旨を示している。なお、ユーザデータベース32には、
図4に示す属性項目や属性情報以外にも、任意の属性項目や属性情報が登録されていてよい。また、ユーザデータベース32には、必ずしも全ての属性項目について属性情報が登録されている必要はなく、利用者が登録した、または、利用者の行動履歴から推定された属性情報のみが登録されていてもよい。
【0055】
図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、判定装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0056】
図2に示すように、制御部40は、収集部41、選択部42、算出部43、判定部44、および出力部45を有する。収集部41は、第1コンテンツおよび第2コンテンツに関する利用者の行動を示す行動履歴をコンテンツサーバ50から収集する。より具体的には、収集部41は、行動を行った利用者の利用者IDと、利用者が行った行動の内容を示す行動内容と、利用者が閲覧していたコンテンツを示すコンテンツIDとを対応付けた情報を行動履歴としてコンテンツサーバ50から収集する。そして、収集部41は、収集した行動履歴を行動履歴データベース31に登録する。すなわち、収集部41は、行動履歴を収集し、利用者が閲覧していたコンテンツ毎に行動履歴をまとめて行動履歴データベース31に登録する。
【0057】
選択部42は、行動履歴データベース31に登録された情報から、第1の標本および第2の標本を選択する。例えば、選択部42は、管理者端末200から第1コンテンツに関する標本の有意差を判定する旨の要求を受付けた場合、第1コンテンツを示すコンテンツID(例えば、コンテンツID「コンテンツ#1」)を含む行動履歴を行動履歴データベース31から特定する。また、選択部42は、第1の標本および第2の標本として、特定した行動履歴からランダムに所定の数の行動履歴をそれぞれ選択する。
【0058】
算出部43は、第1のコンテンツに関する利用者の行動を示す第1の指標値と、第2のコンテンツに関する当該利用者の行動を示す第2の指標値とに基づいて、第1のコンテンツに関して推定される利用者の行動を示す推定指標値を、第1のコンテンツに関する標本ごとに算出する。具体的には、算出部43は、第1のコンテンツについて複数の利用者が行った行動を示す第1の指標値と、第2のコンテンツについて複数の利用者が行った行動を示す指標値であって、第1の指標値が示す行動を行った複数の利用者のうち、所定の数の利用者を含む複数の利用者が行った行動を示す第2の指標値とを用いて、推定指標値を算出する。
【0059】
また、算出部43は、第1の指標値として、第1のコンテンツの閲覧中に行った選択操作の内容を示す値の平均値から、推定指標値を算出する。また、算出部43は、第2の指標値として、第2のコンテンツの閲覧中に行った選択操作の内容を示す値の平均値から、推定指標値を算出する。また、算出部43は、第2の指標値として、第1のコンテンツとは異なるウェブサイトに関するコンテンツである第2のコンテンツにおいて利用者が行った行動を示す第2の指標値を用いて、推定指標値を算出する。より具体的には、算出部43は、第1の指標値の平均値に対し、所定の係数と第2の指標値の平均値との積を減算し、所定の係数と第2の指標値の期待値との積を加算した値を推定指標値とする。
【0060】
例えば、算出部43は、選択部42が選択した第1の標本に含まれる複数の行動履歴をそれぞれ数値化し、第1の指標値Y
(t)とする。また、算出部43は、第2の標本に含まれる複数の行動履歴をそれぞれ数値化し、第1の指標値Y
(c)とする。続いて、算出部43は、第1の標本に含まれるユーザIDと対応づけられた行動履歴であって、第1のコンテンツとは異なるコンテンツを示すコンテンツIDと対応付けられた行動履歴の中から、所定の数の行動履歴をランダムに選択し、選択した行動履歴をそれぞれ数値化して第2の指標値X
(t)とする。
【0061】
同様に、算出部43は、第2の標本に含まれるユーザIDと対応づけられた行動履歴であって、第1のコンテンツとは異なるコンテンツを示すコンテンツIDと対応付けられた行動履歴の中から、所定の数の行動履歴をランダムに選択し、選択した行動履歴をそれぞれ数値化して第2の指標値X
(c)とする。なお、算出部43は、第1の標本に含まれるユーザIDと対応づけられた行動履歴であって、第1のコンテンツとは異なるコンテンツを示すコンテンツIDと対応付けられた全ての行動履歴を数値化して第2の指標値としてもよい。そして、算出部43は、第1の指標値Y
(t)と第2の指標値X
(t)とを用いて、第1の標本に係る推定指標値Y
(t)cvの値を式(3)から算出し、第1の指標値Y
(c)と第2の指標値X
(c)とを用いて、第2の標本に係る推定指標値Y
(c)cvの値を式(3)から算出する。
【0062】
判定部44は、標本ごとに算出された推定指標値に基づいて、各標本間の有意差を判定する。具体的には、判定部44は、算出部43が算出した推定指標値Y
(t)cvおよびY
(c)cvを用いて、式(1)から標本間の有意差を示す値を算出し、算出した値が所定の閾値よりも多いか否かを判定する。そして、判定部44は、算出した値が所定の閾値よりも多い場合には、有意差が存在すると判定し、算出した値が所定の閾値よりも少ない場合には、有意差が存在しないと判定する。
【0063】
出力部45は、判定部44による判定結果を管理者端末200に出力する。例えば、出力部45は、判定部44が実行する判定結果に基づいて、判定結果を示す結果画面C10を生成し、生成した結果画面C10を管理者端末200に配信する。
【0064】
例えば、
図5は、実施形態に係る判定装置が生成する結果画面の一例を示す図である。例えば、判定装置10は、第1コンテンツに関する利用者の行動履歴からランダムに選択した第1の標本と第2の標本との組を複数組抽出し、抽出した組ごとに上述した判定処理を実行することで、有意差を示す値を算出する。そして、判定装置10は、
図5に示すような結果画面C10を生成し、生成した結果画面C10を管理者端末200に表示させる。
【0065】
例えば、判定装置10は、
図5に示すように、標本の組ごとに有意差を示す値を算出し、算出結果を用いて、横軸方向に標本の組、縦軸方向に有意差を示す値を設定したグラフを生成する。そして、判定装置10は、グラフのうち、有意差の値が所定の閾値を超える範囲を太線で示し、有意差の値が所定の閾値以下となる範囲を点線で示す。また、判定装置10は、
図5に示すグラフ中の黒丸印で示すように、管理者端末200の管理者がグラフ上の位置を選択した場合には、選択された位置に対応する標本の組に含まれる行動履歴をそれぞれ表示する結果画面C10を生成する。
【0066】
〔4.判定処理の流れの一例〕
続いて、
図6を用いて、判定装置10が実行する処理の流れについて説明する。
図6は、実施形態にかかる判定装置が実行する判定処理の流れの一例を示すフローチャートである。例えば、判定装置10は、各利用者の行動履歴を収集する(ステップS101)。そして、判定装置10は、収集した行動履歴をコンテンツごとにまとめる(ステップS102)。続いて、判定装置10は、第1コンテンツに関する第1の指標値を標本ごとに算出し(ステップS103)、各標本と関連する利用者と同じ利用者についての第2のコンテンツに関する第2の指標値を、標本ごとに算出する(ステップS104)。
【0067】
そして、判定装置10は、式(3)、すなわち、コントロールバリエーションと呼ばれる式に基づいて、推定指標値を標本ごとに算出し(ステップS105)、推定指標値を用いて、標本間の有意差を判定する(ステップS106)。その後、判定装置10は、判定結果を出力し(ステップS107)、処理を終了する。
【0068】
〔5.変形例〕
上記では、判定装置10による判定処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、判定装置10が実行する判定処理のバリエーションについて説明する。
【0069】
〔5−1.コントロールバリエーションについて〕
ここで、判定装置10は、第1コンテンツに関する第1の指標値のみならず、第2コンテンツに関する第2の指標値を用いて、第1コンテンツに関する指標値の有意差を判定するのであれば、式(3)として示した式以外の式を用いてもよい。また、判定装置10は、第1の指標値および第2の指標値から、θの値やEXの値を任意の手法により求めてもよい。
【0070】
〔5−2.第2の指標値について〕
ここで、式(3)として示したコントロールバリエーションの式においては、Xに任意の情報を適用可能である。そこで、判定装置10は、第1の指標値に関する利用者のクラスタリングに関する情報を、第2の指標値としてもよい。例えば、判定装置10は、第1の標本に行動履歴が含まれる利用者を特定し、特定した利用者の属性情報をユーザデータベース32から抽出する。そして、判定装置10は、抽出した属性情報に基づいて、利用者のクラスタリングを行い、クラスタリングの結果を示す値を第2の指標値(すなわち、式(3)におけるXの値)としてもよい。
【0071】
例えば、判定装置10は、利用者が男性である場合には、第2の指標値の値を「1」とし、利用者が女性である場合には、第2の指標値の値を「0」としてもよい。より具体的には、判定装置10は、利用者が男性である場合には、第2の指標値に含まれる値のうち、その利用者と対応する値を「0」としてもよい。
【0072】
また、例えば、判定装置10は、属性情報に基づいて、それぞれ異なる番号が付与されたグループに複数の利用者をクラスタリングする。そして、判定装置10は、ある利用者がクラスタリングされたグループの番号を、第2の指標値に含まれる値のうち、その利用者と対応する値としてもよい。
【0073】
なお、判定装置10は、任意の手法を用いて、利用者のクラスタリングを行ってよい。例えば、判定装置10は、ディープラーニングやサポートベクターマシン等といった任意のモデルを用いて、利用者のクラスタリングを行い、クラスタリングの結果を示す値を第2の指標値としてもよい。また、判定装置10は、クラスタリングの結果を第2の指標値とした際に、推定指標値の分散の値が小さくなるように、利用者のクラスタリングを行うモデルの学習を行ってもよい。
【0074】
また、判定装置10は、第2の指標値として、第2のコンテンツに関する利用者の行動に加えて、利用者の属性を示す属性情報を示す第2の指標値を用いて、推定指標値を算出してもよい。例えば、判定装置10は、行動履歴を収集した全ての利用者をクラスタリングの対象として、予めクラスタリングを行っておく。また、判定装置10は、第1コンテンツに関する行動履歴から第1の標本と第2の標本とを選択する。また、判定装置10は、各標本について、第1コンテンツの閲覧中に利用者が行った行動を示す第1の指標値と、その利用者が第2コンテンツを閲覧中に行った行動およびその利用者がクラスタリングされたグループの組み合わせを示す第2の指標値とを取得する。そして、判定装置10は、第1の指標値と第2の指標値とから、推定指標値を各標本ごとに算出し、推定指標値に基づいて、各標本の有意差を判定すればよい。なお、判定装置10は、行動履歴を収集した全ての利用者をクラスタリングの対象とする必要はなく、例えば、第1の標本にユーザIDが含まれる利用者のみをクラスタリングの対象としてもよい。
【0075】
〔5−3.判定対象や判定内容について〕
ここで、判定装置10は、第1コンテンツに関する利用者の行動を示す第1の指標値を用いて、推定指標値を算出し、推定指標値を用いて、標本の有意差を判定した。すなわち、判定装置10は、第1コンテンツに関する利用者の行動を示す情報の有意差を判定した。ここで、判定装置10は、第1コンテンツに関する利用者の行動を示すのであれば、任意の行動を示す情報を第1の指標値とし、その情報の有意差を判定してもよい。例えば、判定装置10は、ABテストの結果、商品や任意の投稿に対する評価、音楽や映画等の各種コンテンツに対する評価等、第1コンテンツに対して利用者が行った評価の内容を第1の指標値としてもよく、有意差の判定対象としてもよい。
【0076】
また、判定装置10は、上述した推定指標値を用いて、Z検定以外にも、t検定等、任意の統計学的な検定手法を用いて、各標本が有する有意差の判定を行ってよい。
【0077】
〔5−4.装置構成〕
判定装置10は、端末装置100や管理者端末200と情報のやり取りを行うフロントエンドサーバと、コンテンツサーバ50と情報をやり取りし、上述した判定処理を実行するバックエンドサーバとにより実現されてもよい。このような場合、フロントエンドサーバには、
図2に示す出力部45が配置され、バックエンドサーバには、収集部41、選択部42、算出部43、判定部44、行動履歴データベース31、およびユーザデータベース32が配置されることとなる。また、記憶部30に格納された各データベース31、32は、判定装置10の内部ではなく、例えば、外部のストレージサーバ等に格納されていてもよい。
【0078】
〔5−5.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0079】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0080】
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0081】
〔6.プログラム〕
また、上述してきた実施形態に係る判定装置10は、例えば
図7に示すような構成のコンピュータ1000によって実現される。
図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0082】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
【0083】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0084】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0085】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0086】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0087】
例えば、コンピュータ1000が判定装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
【0088】
〔7.効果〕
上述したように、判定装置10は、第1のコンテンツに関する利用者の行動を示す第1の指標値と、第2のコンテンツに関する当該利用者の行動を示す第2の指標値とに基づいて、第1のコンテンツに関して推定される利用者の行動を示す推定指標値を、第1のコンテンツに関する標本ごとに算出する。そして、判定装置10は、標本ごとに算出された推定指標値に基づいて、各標本間の有意差を判定する。この結果、判定装置10は、有意差の判定に用いる情報の相関性を悪化させることなく、カバレッジを向上させることができるので、推定指標値の分散を低下させ、有意差の検出精度を向上させることができる。
【0089】
また、判定装置10は、第1の指標値として、第1のコンテンツの閲覧中に行った選択操作の内容を示す値の平均値から、推定指標値を算出する。また、判定装置10は、第2の指標値として、第2のコンテンツの閲覧中に行った選択操作の内容を示す値の平均値から、推定指標値を算出する。このため、判定装置10は、推定指標値を適切に算出することができる。
【0090】
また、判定装置10は、第2の指標値として、第1のコンテンツとは異なるウェブサイトに関するコンテンツである第2のコンテンツにおいて利用者が行った行動を示す第2の指標値を用いて、推定指標値を算出する。この結果、判定装置10は、有意差の判定に用いる情報の相関性を悪化させることなく、カバレッジを向上させることができるので、有意差の検出精度を向上させることができる。
【0091】
また、判定装置10は、第1の指標値の平均値に対し、所定の係数と第2の指標値の平均値との積を減算し、所定の係数と第2の指標値の期待値との積を加算した値を推定指標値とする。このため、判定装置10は、推定指標値の分散を通常の平均値よりも低下させることができるので、有意差の検出精度を向上させることができる。
【0092】
また、判定装置10は、第1のコンテンツについて複数の利用者が行った行動を示す第1の指標値と、第2のコンテンツについて複数の利用者が行った行動を示す指標値であって、第1の指標値が示す行動を行った複数の利用者のうち、所定の数の利用者を含む複数の利用者が行った行動を示す第2の指標値とを用いて、推定指標値を算出する。このため、判定装置10は、適切に有意差を判定することができる。
【0093】
また、判定装置10は、判定部による判定結果を出力する。このため、判定装置10は、管理者等に対して判定結果を提供することができる。
【0094】
また、判定装置10は、第2の指標値として、第2のコンテンツに関する利用者の行動と、利用者の属性を示す属性情報とを示す第2の指標値を用いて、推定指標値を算出する。このため、判定装置10は、有意差の判定に用いる情報の相関性を悪化させずに、カバレッジを向上させることができるので、有意差の検出精度を向上させることができる。
【0095】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0096】
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、配信部は、配信手段や配信回路に読み替えることができる。
【解決手段】本願に係る判定装置は、第1のコンテンツに関する利用者の行動を示す第1の指標値と、第2のコンテンツに関する当該利用者の行動を示す第2の指標値とに基づいて、前記第1のコンテンツに関して推定される利用者の行動を示す推定指標値を、前記第1のコンテンツに関する標本ごとに算出する算出部と、算出された前記推定指標値に基づいて、前記第1の指標値が有する有意差を判定する判定部とを有することを特徴とする。