IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許7428858情報処理装置、情報処理方法、及び情報処理プログラム
<>
  • 特許-情報処理装置、情報処理方法、及び情報処理プログラム 図1
  • 特許-情報処理装置、情報処理方法、及び情報処理プログラム 図2
  • 特許-情報処理装置、情報処理方法、及び情報処理プログラム 図3
  • 特許-情報処理装置、情報処理方法、及び情報処理プログラム 図4
  • 特許-情報処理装置、情報処理方法、及び情報処理プログラム 図5
  • 特許-情報処理装置、情報処理方法、及び情報処理プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-30
(45)【発行日】2024-02-07
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
   G06F 16/28 20190101AFI20240131BHJP
   G06F 16/35 20190101ALI20240131BHJP
   G06Q 30/0241 20230101ALI20240131BHJP
   G06Q 30/0201 20230101ALI20240131BHJP
【FI】
G06F16/28
G06F16/35
G06Q30/0241
G06Q30/0201
【請求項の数】 10
(21)【出願番号】P 2021045124
(22)【出願日】2021-03-18
(65)【公開番号】P2022144213
(43)【公開日】2022-10-03
【審査請求日】2022-06-17
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110000637
【氏名又は名称】弁理士法人樹之下知的財産事務所
(72)【発明者】
【氏名】香田 夏輝
(72)【発明者】
【氏名】中村 征良
(72)【発明者】
【氏名】田中 祐介
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2002-073994(JP,A)
【文献】特開2007-179441(JP,A)
【文献】特開2016-212552(JP,A)
【文献】保田 時男,「大規模サンプルに対する一般化χ2 適合度検定」, [online],JGSS研究論文集[3],2004年03月,p.175-186,[令和5年5月30日検索], インターネット<https://jgss.daishodai.ac.jp/research/monographs/jgssm3/jgssm3_13.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 30/0241
G06Q 30/0201
(57)【特許請求の範囲】
【請求項1】
対象に関する第一情報と、前記第一情報とは異なる前記対象に関する第二情報と、を含む対象情報を取得する対象情報取得部と、
複数の前記対象情報から、所定の目的に対応した前記対象情報を抽出する抽出部と、
抽出された複数の前記対象情報とそれ以外の前記対象情報との前記第一情報に基づいて独立性検定処理を実施し、前記独立性検定処理の検定結果に応じて前記対象情報を1以上の組み合わせに分類する第一検定部と、
前記組み合わせに属する前記対象情報の前記第二情報に基づいて適合度検定処理を実施し、前記組み合わせに対する前記対象情報の前記第二情報の特徴を判定する第二検定部と、を備え、
前記第一検定部は、
前記独立性検定処理において統計的に有意と判断される第一レベルを設定する第一レベル設定部と、
前記第一レベルを用いた前記独立性検定処理を実施する第一分析判定部と、を有し、
前記第二検定部は、
前記適合度検定処理において統計的に有意と判断される第二レベルを設定する第二レベル設定部と、
前記第二レベルを用いた前記適合度検定処理を実施する第二分析判定部と、を有する、情報処理装置。
【請求項2】
前記第二検定部は、前記第一検定部で分類された前記組み合わせに属する前記対象情報の前記第二情報を集計する集計部をさらに有し、
前記第二分析判定部は、前記適合度検定処理により、前記第二情報に特徴がないとする帰無仮説に対する確率値であるP値を、前記組み合わせに属する前記対象情報の各前記第二情報に対して算出し、前記第二情報を算出された前記P値を基準にソートし、前記第二情報に特徴がないとする帰無仮説が棄却される場合の最小のFDR閾値であるQ値を各前記第二情報に対して算出し、前記Q値が所定の有意水準以下となる前記第二情報を、前記組み合わせに対する特徴として選出する、
請求項に記載の情報処理装置。
【請求項3】
前記第二検定部により判定された前記第二情報を複数のクラスタに分類する分類部を備え、
前記分類部は、前記第二検定部により判定された前記第二情報が所定数以上である場合に、エルボー法を用いた階層クラスタリングによりクラスタ数を決定して、前記第二情報を複数のクラスタに分類する、
請求項または請求項に記載の情報処理装置。
【請求項4】
前記分類部は、前記第二情報に特徴がないとする帰無仮説に対する確率値であるP値に基づいて前記第二情報の特徴の強さを示すエントロピーを算出し、各前記クラスタの平均エントロピーに基づいて、前記クラスタの順位付けを行う、
請求項に記載の情報処理装置。
【請求項5】
前記エントロピーに応じて前記第二情報を強調表示させた画像情報を生成する特徴画像生成部をさらに備える、
請求項に記載の情報処理装置。
【請求項6】
前記第二情報は、前記対象に係る履歴を示した履歴情報である、
請求項から請求項のいずれか1項に記載の情報処理装置。
【請求項7】
前記第一情報は、前記対象が有する属性に関する情報である、
請求項1から請求項のいずれか1項に記載の情報処理装置。
【請求項8】
前記対象は、ユーザであり、
前記第一情報は、前記ユーザのデモグラフィックデータを含むユーザ属性情報であり、
前記第二情報は、前記ユーザが実施した行動履歴に関するユーザ行動履歴情報である、
請求項から請求項のいずれか1項に記載の情報処理装置。
【請求項9】
コンピュータにより複数の対象の特徴を判定する情報処理方法であって、
前記コンピュータは、対象情報取得部、抽出部、第一検定部、及び第二検定部を備え、
前記対象情報取得部が、前記対象に関する第一情報と、前記第一情報とは異なる前記対象に関する第二情報と、を含む対象情報を取得する対象情報取得ステップと、
前記抽出部が、複数の前記対象情報から、所定の目的に対応した前記対象情報を抽出する抽出ステップと、
前記第一検定部が、抽出された複数の前記対象情報とそれ以外の前記対象情報との前記第一情報に基づいて独立性検定処理を実施し、前記独立性検定処理の検定結果に応じて前記対象情報を1以上の組み合わせに分類する第一検定ステップと、
前記第二検定部が、前記組み合わせに属する前記対象情報の前記第二情報に基づいて適合度検定処理を実施し、前記組み合わせに対する前記対象情報の前記第二情報の特徴を判定する第二検定ステップと、を実施し、
前記第一検定ステップでは、前記独立性検定処理において統計的に有意と判断される第一レベルを設定し、前記第一レベルを用いた前記独立性検定処理を実施し、
前記第二検定ステップでは、前記適合度検定処理において統計的に有意と判断される第二レベルを設定し、前記第二レベルを用いた前記適合度検定処理を実施する
する、情報処理方法。
【請求項10】
コンピュータにより実行可能な情報処理プログラムであって、
前記コンピュータを請求項1から請求項のいずれか1項に記載の情報処理装置として機能させる、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の要素から得られる多数の情報から、要素群の特徴を分析する情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
近年、インターネット技術の発達により、個人や組織等の要素から多数の情報が得られるようになった。
従来、各要素から得られる情報に基づいて、要素群や全体の特徴(傾向)を分析する手法として、χ二乗検定が知られている(例えば、特許文献1参照)。
特許文献1に記載の装置では、ユーザごとのコンバージョン数の集合をある母集団として扱い、この母集団の母数を推定する。母集団が負の二項分布に従うモデルに近似するものと仮定し、この負の二項分布に基づいて、平均μおよび分散σを母数として推定する。そして、推定された平均μおよび分散σに基づいて、仮想的な第1疑似母集団を生成し、さらに、第1疑似母集団の平均μを増加または減少させたリフト平均μ#と第1疑似母集団の分散σとに基づいて、第2疑似母集団を生成する。第1疑似母集団から、サンプル数が互いに異なる複数種類のコントロールバケットを抽出し、第2疑似母集団から、サンプル数が互いに異なる複数種類のテストバケットを抽出する。そして、抽出されたコントロールバケットおよびテストバケットに基づいて、t検定およびカイ二乗検定の一方または双方を行い、検定結果として、第一種過誤が生じる確率α(Type 1 error)第二種過誤が生じる確率βに基づく値(検出力)とを出力する。ここで、Type 1 errorは、コントロールバケットとテストバケットとの間に本来有意差がない場合でも有意差があると判定する確率である。検出力は、1から第二種過誤が生じる確率βを減算した値であり、コントロールバケットとテストバケットとの間に有意差がある場合に、有意差があると判定する確率でType 1 errorが小さく、且つ検出力が大きいほど、精度良く検定が行われていると評価する。
このような特許文献1の装置では、データ数が大きくなった場合に、コントロールバケットとテストバケットとの間に本来有意差がない場合でも有意差があると判定する確率が小さくなり、精度の高いユーザ群の特徴判定を行うことができる。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-73341号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の装置では、元となるデータ群からサンプリングされたデータを用いてカイ二乗検定を実施する。しかしながら、サンプリング数が大きくなりすぎると、サンプリングされたデータに基づいてカイ二乗検定を実施した際に、有意差の小さいものも有意であると判定される可能性がある。よって、元となるデータ群のデータ数に対して、サンプリング数をどの程度に設定するかを、適宜制御する必要がある。
【0005】
本発明は、データ数によらず、分析者の意図する任意のスケールを基準とした検定を実施できる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の情報処理装置は、対象に関する第一情報を含む対象情報を取得する対象情報取得部と、複数の前記対象情報から、所定の目的に対応した前記対象情報を抽出する抽出部と、抽出された複数の前記対象情報とそれ以外の前記対象情報との前記第一情報に基づいて独立性検定処理を実施し、前記独立性検定処理の検定結果に応じて前記対象情報を1以上の組み合わせに分類する第一検定部と、を備え、前記第一検定部は、前記独立性検定処理において統計的に有意と判断される第一レベルを設定する第一レベル設定部と、前記第一レベルを用いた前記独立性検定処理を実施する第一分析判定部と、を有する。
【発明の効果】
【0007】
本発明では、第一レベル設定部により設定された第一レベルを用いた独立性検定処理を行い、複数の対象情報に対する特徴を判定する。この場合、設定する第一レベルによって、独立性検定処理において、有意とされる基準を変化させることができる。つまり、従来のようにカイ二乗検定を行う場合では、データ数が大きくなる程、小さな差であってもその差が有意であると判定されてしまう傾向が強くなり、複数の対象における特徴が分かりにくくなる。これに対して、本発明では、どの程度の差を特徴とみなすかを、設定する第一レベルによって、分析者が任意に制御することができる。例えば、第一レベルを大きくすることで、複数の対象の第一情報にわずかな差しかない場合では、有意とみなされることがなくなる。一方、第一レベルを小さくすることで、複数の対象の集まりに関するより詳細な分析を行うことができる、以上のように、本発明では、分析者の意図する任意のスケールを基準とした検定を実施できる。
【図面の簡単な説明】
【0008】
図1】本発明の一実施形態に係る情報処理装置であるサーバ装置を含む情報処理システムの概略構成を示すブロック図。
図2】本実施形態のサーバ装置の概略構成を示すブロック図。
図3】本実施形態における情報処理方法を示すフローチャート。
図4】本実施形態において、第一非心率に対する、各ユーザ属性のP値の一例を示す図。
図5】本実施形態において、「男性20代」の属性組み合わせに属するユーザの検索クエリとP値とQ値との一例を示す図。
図6】特徴画像生成部によって生成されるワードクラウドの一例を示す図。
【発明を実施するための形態】
【0009】
以下、本発明に係る第一実施形態の情報処理装置について説明する。
図1は、本実施形態に係る情報処理装置であるサーバ装置10を含む情報処理システムの概略構成を示す図である。
図1に示すように、情報処理システム1は、サーバ装置10と、サーバ装置10にネットワーク(例えばインターネット等)を介して通信可能に接続される複数の端末装置20とにより構築されている。ここで、サーバ装置10を構成するコンピュータの数は特に限定されない。例えば、1台のコンピュータによってサーバ装置10が構成されてもよく、複数のコンピュータをネットワークで接続して構築されるクラウドサーバをサーバ装置10としてもよい。
【0010】
本実施形態のサーバ装置10は、複数のユーザ(対象)の検索処理における検索クエリに基づいて、コンバージョンに至ったユーザ(コンバージョンユーザ)の集合であるコンバージョンユーザ群の特徴(傾向)を判定する。ここで述べるコンバージョンユーザとは、ある対象物に対して、所定の行動に至ったユーザである。例えば、対象物が、広告依頼主が販売する商品やサービスであり、広告依頼主が商品やサービスを購入するユーザの特徴を知りたい場合、コンバージョンユーザは、当該商品やサービスを購入したユーザとなり、広告依頼主が商品やサービスを紹介するウェブコンテンツを閲覧するユーザの特徴を知りたい場合、コンバージョンユーザは、ウェブコンテンツにアクセスしたユーザとなる。
【0011】
なお、ここでは、サーバ装置10によりユーザ群の特徴を判定する例を一例として示すが、サーバ装置10は、さらに、判定されたコンバージョンユーザ群の特徴に各種処理を実施してもよい。例えば、広告依頼主から所定サービスを購入するコンバージョンユーザ群の特徴を依頼された場合、判定されたコンバージョンユーザ群の特徴を、広告依頼主の端末装置20に送信してもよい。あるいは、サーバ装置10は、判定されたコンバージョンユーザ群の特徴に基づいて、各コンバージョンユーザ群に属するユーザに対して、その特徴に応じた広告等のコンテンツを配信してもよい。
【0012】
[サーバ装置10の構成]
図2は、本実施形態のサーバ装置10の概略構成を示すブロック図である。
本実施形態のサーバ装置10は、コンピュータにより構成され、通信部11と、記憶部12と、プロセッサ13と、等を含んで構成されている。
通信部11は、ネットワークに接続されており、ネットワークを介して端末装置20や、ネットワーク上のその他の装置と通信する。
【0013】
記憶部12は、例えばメモリ、ハードディスク等により構成されたデータ記録装置である。この記憶部12は、本発明の分類対象であるユーザに関する各種データを記録するユーザ情報記録領域(ユーザDB121)や、ユーザを分類したコンバージョンユーザ群に関する情報を記録するグループ情報記録領域(コンバージョンDB122)等を備える。
なお、本実施形態では、サーバ装置10の記憶部12に、ユーザDB121、及びコンバージョンDB122が設けられる例を示すが、サーバ装置10とネットワークを介して通信可能に接続された他のデータサーバやクラウドストレージに、これらの、ユーザDB121、及びコンバージョンDB122が設けられる構成としてもよい。
【0014】
ユーザDB121は、各ユーザの特徴を示す複数の属性データを記録したユーザ情報が複数記録されたデータベースである。このユーザ情報は、例えば、ユーザ識別情報(ユーザID)、ユーザ属性情報、ユーザ行動履歴情報等を含む。
ユーザ識別情報は、各ユーザを識別するための情報であり、ユーザ毎にそれぞれ異なる。
ユーザ属性情報は、ユーザの特徴を示す情報であり、例えば、年齢、性別、家族構成、職業等のデモグラフィックデータが記録される。
ユーザ行動履歴情報は、ユーザの行動に関する履歴情報であり、例えば、ユーザが端末装置20を操作して実施した検索処理において入力した検索クエリ、ユーザがインターネット上で購入した商品やサービス、ユーザがアクセスしたウェブコンテンツやクリックした広告等が含まれる。また、端末装置20がスマートフォン等の携帯型装置である場合、端末装置20に搭載される位置検出センサー(例えばGPS等)で検出されたユーザの移動履歴が含まれていてもよい。また、電子決済アプリケーションによる商品やサービスの購入履歴等が含まれていてもよい。その他、ユーザの端末装置20の操作履歴等が含まれてもよい。
また、ユーザ情報として、ユーザが属するコンバージョンユーザ群に関する情報がさらに記録されていてもよい。
【0015】
コンバージョンDB122は、サーバ装置10により判定されたコンバージョンユーザ群を記録するデータベースである。コンバージョンDB122には、例えば、コンバージョン目的情報、ユーザ群情報、及び特徴表示画像等を含む。
【0016】
コンバージョン目的情報は、コンバージョンユーザ群が、どのような目的のユーザの集まりであるかを示す情報である。例えば、広告依頼主が、商品を購入したユーザのコンバージョンユーザ群を知りたい場合では、対象となる商品と、当該商品の購入を目的とする旨が記録され、商品を紹介する広告をクリックしたユーザのコンバージョンユーザ群を知りたい場合では、対象となる商品と、当該商品の広告のクリックを目的とする旨が記録される。
ユーザ群情報は、コンバージョン対象情報に対して、サーバ装置10で判定されたコンパ―ジョンユーザ群に関する情報、つまり、コンバージョンユーザ群の特徴(傾向)が記録される。例えば、コンバージョンユーザ群の特徴として、当該コンバージョンユーザ群に属するユーザの行動履歴情報(本実施形態では検索クエリを例示)、及び各行動履歴情報に対する特徴度が記録される。また、詳細は後述するが、本実施形態では、一般化カイ二乗検定を用いた検定結果によりコンバージョンユーザ群を判定する。この際、非心率を適宜調整することで、例えば、全ユーザにおけるコンバージョンユーザ群の特徴、所定のデモグラフィックに対するコンバージョンユーザ群の特徴の分析をそれぞれ行うことができる。したがって、ユーザ群情報としては、設定された非心率と、当該非心率に対して分類された複数のコンバージョンユーザ群とが記録されていることが好ましい。
【0017】
特徴表示画像は、各コンバージョンユーザ群における行動履歴情報と、その特徴度を画像として示したものであり、コンバージョンユーザ群ごとに生成される。
特徴表示画像の詳細な説明については後述する。
【0018】
また、記憶部12は、プロセッサ13により実行させる複数のプログラムを記録する。これらのプログラムとしては、サーバ装置10の各部を制御するオペレーティングシステムを実行するためのプログラム、オペレーティングシステム上で実行される各種アプリケーションプログラム(本発明の情報処理プログラム等)を含む。
【0019】
プロセッサ13は、CPU(Central Processing Unit)等の演算回路、RAM(Random Access Memory)等の記録回路により構成される。プロセッサ13は、記憶部12等に記録されているプログラムをRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。そして、プロセッサ13は、記憶部12に記録された情報処理プログラムを読み込み実行することで、図2に示すように、ユーザ情報取得部131(対象情報取得部)、対象ユーザ抽出部132(抽出部)、第一検定部133、第二検定部134、分類部135、及び特徴画像生成部136として機能する。
【0020】
ユーザ情報取得部131は、例えば端末装置20からユーザ情報(ユーザ属性情報、ユーザ行動履歴情報等)を取得し、ユーザDB121に蓄積記録する。
【0021】
対象ユーザ抽出部132は、本発明の抽出部として機能し、ユーザDB121から、コンバージョンユーザ群の特徴と判定するためのユーザを抽出する。すなわち、対象ユーザ抽出部132は、コンバージョンユーザ群の抽出目的(以降、コンバージョン目的)に基づいて、当該コンバージョン目的に対応するユーザ情報を、ユーザDB121から抽出する。
【0022】
第一検定部133は、抽出されたユーザにデモグラフィックデータ等のユーザ属性情報に特徴があるか否かの独立性検定処理(属性検定)を検定する。本実施形態では、第一検定部133は、統計的に有意とされるレベルがユーザによって設定可能な独立性検定を実施する。本実施形態では、当該独立性検定処理として、一般化カイ二乗検定を用いた検定を実施する。この一般化カイ二乗検定は、公知の技術であり、例えば、「保田 時男著、大規模サンプルに対する一般化χ2適合度検定-JGSSデータへの適用例-、日本版 General Social Surveys研究論文集[3]JGSSで見た日本人の意識と行動、日本、東京大学社会科学研究所、2004年3月発行、P.175-186」に記載の技術を利用できる。
具体的には、第一検定部133は、第一非心率設定部133A、及び、第一分析判定部133Bとして機能する。
【0023】
第一非心率設定部133Aは、独立性検定処理において統計的に有意と判断される第一レベルを設定する第一レベル設定部として機能する。例えば、カイ二乗検定のような従来の手法を用いて検定を実施する場合、サンプル数の増大により小さな差でも統計的に有意であると判定される不都合がある。これに対して、本実施形態では、第一非心率設定部133Aは、どの程度の差までが統計的に有意であると判定すべきかを示すレベルを設定する。具体的には、本実施形態では、独立性検定処理として、一般化カイ二乗検定を実施し、第一非心率設定部133Aは、一般化カイ二乗検定で用いる非心率(第一非心率)を第一レベルとして設定する。第一非心率は、例えば、サーバ装置10にアクセスして、コンバージョンユーザ群の特徴分析を行う分析者により設定入力される値であってもよく、予め複数の第一非心率が設定されており、分析者によって選択されてもよい。通常のカイ二乗分布では、平均値と分布の自由度νとが一致するのに対し、一般化カイ二乗検定で用いる非心カイ二乗分布では、「自由度ν+第一非心率δ」が平均値となる。つまり、第一非心率設定部133Aにより第一非心率δが設定されることで、非心カイ二乗分布の形状が決定される。なお、第一非心率δはδ=0であってもよく、この場合、通常のカイ二乗適合度検定となる。
【0024】
第一分析判定部133Bは、あるユーザ属性情報に対し、コンバージョンの有無を、第一非心率設定部133Aにより設定された第一非心率δに応じた非心カイ二乗分布を用いた独立性検定処理(一般化カイ二乗検定)を、指定したユーザ属性だけ実施する。第一分析判定部133Bの詳細な処理については後述する。
【0025】
第二検定部134は、第一検定部133で検定結果に基づいた分類範囲に対して、さらに適合度検定処理を実施してユーザ行動履歴情報毎の特徴を検定する。すなわち、第一検定部133において、抽出されたユーザ情報に、デモグラフィックデータ等のユーザ属性情報に特徴がない(コンバージョンユーザとそれ以外のユーザとにおいてユーザ属性情報が独立である)との検定結果が出力される場合、第二検定部134は、ユーザ全体に対して検定を実施する。一方、第一検定部133において、抽出されたユーザ情報に、デモグラフィックデータ等のユーザ属性情報に特徴がある(コンバージョンユーザとそれ以外のユーザとにおいてユーザ属性情報が独立ではない)との検定結果が出力される場合、第二検定部134は、特徴があるとされたユーザ属性毎に検定を実施する。なお、本実施形態では、ユーザ行動履歴情報として、ユーザにより実施された検索処理の検索クエリを例示する。つまり、コンバージョンユーザ群に属するユーザが実施した検索処理で入力された検索クエリの特徴を検出する。
より具体的には、第二検定部134は、集計部134A、第二非心率設定部134B、及び第二分析判定部134Cとして機能する。
【0026】
集計部134Aは、第一検定部133の検定結果に基づいてユーザ情報を集計する。
第二非心率設定部134Bは、第一非心率設定部133Aと同様、適合度検定処理において統計的に有意と判断される第二レベルを設定する第二レベル設定部として機能する。具体的には、本実施形態では、適合度検定処理として、一般化カイ二乗検定を実施し、第二非心率設定部134Bは、一般化カイ二乗検定で用いる非心率(第二非心率)を第二レベルとして設定する。
第二分析判定部134Cは、第二非心率設定部134Bで設定された第二非心率を用いた適合度検定処理(行動検定)を実施する。適合度検定としては、仮定した分布から実際の分布の偏りを検定できる統計手法を選択でき、例えば、本実施形態では、大サンプルの際に小さな差が有意とされる不都合を解消可能な一般化カイ二乗検定を実施する。
つまり、第二分析判定部134Cは、「検索クエリに特徴がない(つまり、ユーザ比の二項分布に従う)」ことを帰無仮説として適合度検定を実施する。この際、多数の検索クエリに対して、それぞれ一般化カイ二乗検定を実施する多重検定となるので、本来、真の帰無仮説であるにもかかわらず棄却されてしまうことがある(偽陽性が高くなる)。そこで、第二分析判定部134Cは、多重検定による偽陽性の上昇を抑制する検定法として、BH法(Benjamini and Hochbergの方法)を取り入れた検定を実施する、このBH法は、公知の技術であり、「松田眞一著、FDRの概説とそれを制御する多重検定法の比較、計量生物学Vol.29, No.2、日本計量生物学会、2008年12月発行、P.125-139」に記載の技術を用いることができる。
【0027】
分類部135は、第二検定部134による検定結果に基づいて、特徴的な検索クエリ(ユーザ行動履歴情報)を近い意味のクラスタに分割する。
【0028】
特徴画像生成部136は、分類部135でクラスタリングされた各クラスタを、例えばワードクラウド等の表示用画像を生成する。
【0029】
[端末装置20の構成]
端末装置20は、ユーザ情報を送信するユーザが操作するコンピュータであり、例えばスマートフォンやタブレット端末、パーソナルコンピュータ等により構成される。端末装置20の具体的な構成の図示は省略するが、端末装置20は、一般的なコンピュータが有する基本的な構成を有する。すなわち、端末装置20は、ユーザの操作を受け付ける入力操作部、画像情報を表示させるディスプレイ、各種情報を記録する記録装置、各種情報を演算処理する演算回路(CPU等)を備えている。
【0030】
[情報処理システムの動作]
次に、本実施形態における情報処理システムにおける情報処理方法、特に、サーバ装置10におけるコンバージョンユーザ群の特徴判定方法について説明する。
図3は、本実施形態における情報処理方法を示すフローチャートである。
ここで、サーバ装置10のユーザ情報取得部131は、予め、ユーザが操作する端末装置20から送信されるユーザ情報を受信し、ユーザ情報を生成または更新する処理(対象情報取得ステップ)を実施しているものとする。すなわち、ユーザ情報取得部131は、ユーザ情報を有さないユーザからのアクセスがあった場合に、新規登録を促す案内情報を送信し、ユーザ属性情報の登録を促す。ユーザが端末装置20を操作してユーザ属性情報を入力することで、ユーザ情報取得部131は、ユーザ情報を作成しユーザDB121に登録し、ユーザIDやパスワード等のログイン情報を発行する。また、当該ユーザがログイン情報を用いて所定の行動処理(例えば検索処理)を実施すると、端末装置20は、そのユーザ行動履歴情報(例えば検索処理における検索クエリ)をサーバ装置10に送信する。これにより、ユーザ情報取得部131は、送信された検索クエリを、対応するユーザのユーザ情報に記録する。
【0031】
サーバ装置10において、コンバージョンユーザ群の特徴を判定(分析)する処理は、サーバ装置10の管理者(分析者)が任意のタイミングで分析指令を入力することで実施される。分析指令はサーバ装置10と通信可能に接続された分析者の端末装置20から入力されてもよく、サーバ装置10を直接操作することで実施されてもよい。なお、分析者は、サーバ装置10の管理者でなく、例えば、所定のサービスを提供するサービス提供者であってもよい。この場合、サービス提供者が端末装置20からサーバ装置10にアクセスし、サービス提供者が提供するサービスに関するコンバージョンユーザ群の特徴を判定させる旨の分析指令を入力してもよい。
この分析指令には、少なくとも、コンバージョン目的が含まれる。なお、分析指令には、その他、対象とするユーザ属性が含まれていてもよい。例えば、所定のサービスを購入したユーザのコンバージョンユーザ群を含む分析指令であってもよく、この場合、全ユーザのうち、当該サービスを購入したユーザの特徴を分析する。所定のサービスを購入した20代女性ユーザのコンバージョンユーザ群を含む分析指令であってもよく、この場合、全ユーザのうち、ユーザ属性として「20代」、「女性」を含むユーザで、当該サービスを購入したユーザの特徴を分析する。
【0032】
サーバ装置10の対象ユーザ抽出部132は、分析指令を受けると、分析指令に基づいて、コンバージョン目的に対応するユーザ情報をユーザDB121から抽出する(ステップS1)。
次に、第一検定部133は、ステップS1で抽出されたユーザのユーザ属性情報に特徴があるかの検定を実施する。
これには、まず、第一非心率設定部133Aは、一般化カイ二乗検定において設定する非心率(第一非心率)を設定する(ステップS2)。第一非心率設定部133Aは、例えば、分析者に対して、第一非心率の設定入力を促す表示を行い、分析者によって入力された非心率を一般化カイ二乗検定に用いる第一非心率δとして設定する。第一非心率の設定としては、分析者が非心率の値を直接入力または選択してもよく、コンバージョンユーザ群の特徴を分析するスケールを選択してもよい。分析者がコンバージョンユーザ群の特徴を分析するスケールを選択する場合、当該スケールに応じた第一非心率δを予め記憶部12に記憶しておき、選択されたスケールに応じた第一非心率δを選択する。
【0033】
次に、第一分析判定部133Bは、ステップS2で設定された第一非心率δに応じた非心カイ二乗分布モデルを用いた一般化カイ二乗検定を実施する(ステップS3:第一検定ステップ)。
つまり、第一分析判定部133Bは、「抽出されたコンバージョンユーザとそれ以外のユーザとについて、デモグラフィックデータ(ユーザ属性情報)が独立である(ユーザ属性に特徴がない)」ことを帰無仮説として、当該帰無仮説が成立するか否かを検定する。例えば、ユーザ属性についての独立性検定を実施する場合、「コンバージョンユーザとそれ以外のユーザとにおいて、性別(男女)は独立ではある」との帰無仮説が成立するか否かを検定する。当該帰無仮説が棄却される場合、「コンバージョンユーザとそれ以外のユーザとにおいて性別は独立ではない」、つまり、「コンバージョンユーザは性別と関係がある」と判断できる。
なお、この際に用いる有意水準は予め設定された値(例えば5%)であってもよい。
【0034】
より具体的には、第一非心率δに応じた非心カイ二乗分布モデルを予め記憶しておき、第一分析判定部133Bは、ステップS2で設定された第一非心率δに応じた非心カイ二乗分布モデルを読み出して検定を実施する。
上記のように、第一非心率設定部133Aによって第一非心率δが任意の値に設定可能であり、分析者が求めるスケールでの分析を行うことが可能となる。例えば、第一非心率δを小さく設定することで、非常に小さい差であっても帰無仮説を棄却して有意とする可能性が高くなる。一方、第一非心率δを大きく設定することで、非常に小さい差によって帰無仮説が棄却される可能性が小さくなる。
第一検定部133は、設定する帰無仮説として、「年齢層(20代、30代等)に特徴がない」、「性別に特徴がない」、「性別×年齢層に特徴がない」等、のユーザ属性毎の帰無仮説を設定し、それぞれの確率値(P値)を算出する。
【0035】
図4は、第一非心率δに対する、各ユーザ属性のP値の一例を示す図である。図4に示すように、設定された第一非心率δにより、分析者の意図するスケールでユーザ属性を切り出すことができる。図4に示す例では、第一非心率δを5%に設定することで、性別×年齢層のP値が最小となり、「性別×年齢層」を特徴的なユーザ属性と判定することができる。特徴的と判定された属性の組み合わせを、以降、属性組み合わせを称する。なお、第一非心率δを20%に設定することで、ユーザ属性の特徴をなくすことができ、この場合、ユーザ全体を属性組み合わせとすることができる。
【0036】
次に、第二検定部134は、ステップS3により特徴的とされた属性組み合わせに対して、ユーザ行動履歴情報に基づいた特徴分析を実施する。
例えば、ステップS3で、どのユーザ属性情報に対しても特徴がない、との判定結果が出される場合、ユーザ全体が属性組み合わせとなり、ユーザ全体に対するユーザ行動履歴情報の特徴と判定する。また、「性別」×「年齢層」を特徴的な属性組み合わせとして判定している場合では、例えば、「男性20代」「男性30代」「女性20代」「女性30代」といった各ユーザグループが属性組み合わせとなり、それぞれのグループにおけるユーザ行動履歴情報の特徴を判定する。
【0037】
具体的には、第二検定部134の集計部134Aは、まず、ステップS3により設定された属性組み合わせについて、それぞれのユーザ情報のユーザ行動履歴情報(本例では、検索クエリを例示)を集計する(ステップS4)。つまり、各属性組み合わせにおいて、コンバージョンユーザが所定の検索クエリを入力した数(正例値)と、当該検索クエリに特徴がないとした場合に当該検索クエリが入力されると予測される数(理論値)とを算出する。
【0038】
次に、集計部134Aは、各検索クエリのうち、正例値が理論値よりも高い検索クエリを抽出する(ステップS5)。図5は、ステップS5で抽出されたデータの一例であり、例えば、属性組み合わせが「性別」×「年齢層」であり、そのうちの「男性20代」において、抽出された検索クエリとP値とQ値との一例を示す図である。
【0039】
この後、第二非心率設定部134Bは、非心率(第二非心率δ´)を設定する。第二非心率δ´の設定はステップS2と同様であり、例えば分析者により設定された値を設定する(ステップS6)。なお、第二非心率δ´は、予め設定された値であってもよい。
【0040】
そして、第二分析判定部134Cは、一般化カイ二乗検定を実施し、各検索クエリに対して、コンバージョンユーザ群に当該検索クエリの特徴がないとした帰無仮説が肯定される確率値(P値)を算出する(ステップS7)。
さらに、第二分析判定部134Cは、BH法を用いて多重検定による偽陽性を低減させる。つまり、第二分析判定部134Cは、各検索クエリを、P値で昇順にソートし(ステップS8)、検定結果が有意と判断される場合の最小のFDR閾値であるQ値を算出する(ステップS9)。P値をソートした場合の順位をiとし、サンプル数をNとした場合に、i番目のP値pに対するQ値qは、qi=p*N/iとなる。
そして、第二分析判定部134Cは、Q値が所定の有意水準(例えば1%)よりも小さいものを、特徴的な検索クエリであるとして採用(選出)する(ステップS10)。
第二分析判定部134Cは、ステップS7からステップS10の処理を、属例組み合わせの各組(例えば、「男性20代」「男性30代」「女性20代」「女性30代」・・・の属性組み合わせ)に対して実施する。
【0041】
この後、分類部135は、ステップS10によって選出された検索クエリを、複数のクラスタに分割する。
まず、分類部135は、各属性組み合わせにおいて、ステップS10で選出された検索クエリが所定数(例えば30個)以上であるか否かを判断する(ステップS11)。
ステップS11でNoと判定される場合、その属性組み合わせの検索クエリを1つのクラスタとして処理する(ステップS12)。
【0042】
一方、ステップS11でYesと判定される場合、分類部135は、エルボー法を適用してクラスタ数を自動で決定した上で、階層クラスタリングによりクラスタを生成する(ステップS13)。つまり、分類部135は、word2vec等の手法により各検索クエリをベクトル化し、k-means法で用いられるSSE(Sum of Squared errors of prediction)を算出する。例えば、分類部135は、クラスタ数が2~21個のそれぞれの場合のSSEを計算する。クラスタ数がiの場合と、i+1の場合とのSSEの差をdi,i+1として、iが2~20の時の各di,i+1をそれぞれ算出し、これらの標準偏差σを算出する。そして、分類部135は、di,i+1<2σとなるiを選出してクラスタ数として決定し、階層クラスタリングにより検索クエリをクラスタリングする。この際、k-means法におけるセントロイド(つまり、クラスタの核となるもの)を階層クラスタリングに対応させる。具体的には、クラスタ数が決定した際に、クラスタ毎に所属するデータの重心をセントロイドとみなす。
【0043】
この後、分類部135は、クラスタ毎の特徴度を算出し、コンバージョンDB122に記憶する(ステップS14)。
具体的には、分類部135は、各クラスタにおいて、ステップS10で選出された各検索クエリに対して算出されたP値に基づいて、各検索クエリのエントロピーE(E=-log(P値))を算出する。つまり、本実施形態では、コンバージョンユーザ群における各検索クエリの特徴度として、一般化カイ二乗検定で算出される確率値(P値)に基づいたエントロピーEを算出する。
また、分類部135は、各クラスタにおける平均エントロピーEAVを算出し、各クラスタを順位付けする。
エントロピーEが大きいほど、その検索クエリが特徴的であることを示ており、平均エントロピーEAVが大きいクラスタほど特徴的なクラスタであることを示している。
【0044】
そして、本実施形態では、さらに、特徴画像生成部136は、ステップS13により判定された特徴度に基づいて、各クラスタに対する分析用画像を生成する(ステップS15)。
例えば、特徴画像生成部136は、各属例組み合わせに対して生成された各クラスタに含まれる検索クエリをワードクラウドとして作成する。この際、各ワードクラウドにおける検索クエリの表示形態をエントロピーEに応じて強調表示させ、かつ、各クラスタの順序を平均エントロピーEAVが大きい順にソートして表示する。これにより、コンバージョンユーザ群の特徴を視覚的に容易に判別可能となる。
【0045】
図6は、ステップS15で生成されるワードクラウドの一例である。
特徴画像生成部136は、各属性組み合わせに対して、それぞれ図6に示すようなワードクラウドを生成する。例えば、図6に示すように、エントロピーEの大きさに応じて、文字サイズを大きくしたワードクラウドを生成する。
また、特徴画像生成部136は、クラスタの平均エントロピーEAVが大きい順に、各クラスタをソートして、各クラスタに対応したワードクラウドを並べて表示させる。
【0046】
[本実施形態の作用効果]
本実施形態のサーバ装置10は、プロセッサ13が記憶部12に記憶された情報処理プログラムを読み込み実行することで、ユーザ情報取得部131、対象ユーザ抽出部132、第一検定部133として機能する。ユーザ情報取得部131は、ユーザに関するユーザ属性情報(第一情報)を含むユーザ情報(対象情報)を取得する。対象ユーザ抽出部132は、複数のユーザ情報から、所定のコンバージョン目的に対応したユーザ情報を抽出する。第一検定部133は、第一非心率を取得する第一非心率設定部133A、及び第一分析判定部133Bとして機能し、第一分析判定部133Bは、第一非心率を用いた一般化カイ二乗検定処理を実施し、その検定結果に応じてユーザ情報を1以上の属性組み合わせに分類する。
このような本実施形態では、データ数に関わらず、信頼性の高い検定処理を実施することができ、かつ、分析者の意図する任意のスケールを基準とした検定を実施できる。
つまり、従来のように、カイ二乗検定を実施する場合では、データ数が増大すると、ユーザの特徴を分析する上で解釈できないほどの小さな差しかない場合でも、「コンバージョンの有無とユーザ属性に関連はない」とした帰無仮説が棄却されてしまい、有意であると判定される可能性が高くなる。これに対して、本実施形態では、分析者が望む第一非心率によって、一般化カイ二乗検定を実施するので、データ数が増大したとしても、全てのユーザ属性が有意とされる不都合がなく、分析者の意図するスケールで、ユーザ情報を複数の属性組み合わせに分割することができる。
【0047】
本実施形態では、ユーザ情報は、ユーザが行動の履歴を記録したユーザ行動履歴情報を含む。そして、プロセッサ13は、第二検定部134として機能する。この第二検定部134は、第二非心率を取得する第二非心率設定部134B、及び第二非心率を用いた一般化カイ二乗検定処理を実施する第二分析判定部134Cとして機能する。
これにより、第二検定部134は、各属性組み合わせに含まれるユーザ情報の検索クエリに、どのような特徴があるかを適切に判定することができる。
【0048】
また、本実施形態では、第二検定部134は、第一検定部133で分類された属性組み合わせに属するユーザ情報の検索クエリを集計する集計部134Aをさらに有する。
そして、第二分析判定部134Cは、検索クエリに特徴がないとする帰無仮説に対する確率値であるP値を、各検索クエリに対して算出し、検索クエリを算出されたP値を基準にソートし、さらに、各検索クエリに対してQ値を算出し、Q値が所定の有意水準以下となる検索クエリを、属性組み合わせに対する特徴として選出する。
つまり、本実施形態では、第二分析判定部134Cは、一般化カイ二乗検定に対して、さらにBH法を適用する。これにより、多重検定を実施する場合の偽陽性の増大を抑制することができ、信頼性の高い検定結果により、コンバージョンユーザ群の特徴を判定することができる。
【0049】
本実施形態のサーバ装置10のプロセッサ13は、第二検定部134により判定された特徴的な検索クエリを複数のクラスタに分類する分類部135としても機能する。この分類部135は、第二検定部により判定された検索クエリが所定数以上である場合に、エルボー法を用いた階層クラスタリングによりクラスタ数を決定して、検索クエリをクラスタリングする。
これにより、検索クエリが多大である場合でも、クラスタ数が増大することがなく、適切なクラスタ数に検索クエリを分類することができる。
【0050】
さらに、本実施形態では、分類部135は、第二検定部134により算出された各検索クエリのP値に基づいて各検索クエリの特徴の強さを示すエントロピーEを算出し、各クラスタの平均エントロピーEAVに基づいて、クラスタの順位付けを行う。
これにより、検定結果に基づいて、コンバージョンユーザ群に特徴的な検索クエリのクラスタを適切に判定することができる。
【0051】
本実施形態では、分類部135は、第二検定部134により算出された各検索クエリのP値に基づいて各検索クエリの特徴の強さを示すエントロピーEを算出する。そして、特徴画像生成部136は、エントロピーEに応じて検索クエリを強調表示させたワードクラウド(画像情報)を生成する。
ワードクラウドでワードを強調表示させる場合、従来、そのワードの使用回数が用いられる。例えば、検索クエリを表示させるワードクラウドでは、その検索クエリが入力された回数に基づいてワードクラウドが生成される。これに対して、本実施形態では、検索クエリに対して算出されたP値から算出したエントロピーに基づいてワードクラウドを生成する。このため、各クラウドにおいて、コンバージョンユーザ群の特徴をよりよく示し検索クエリが強調表示されることとなり、分析者は、ワードクラウドに基づいてコンバージョンユーザ群の特徴を視覚的に容易に確認することができる。
【0052】
[変形例]
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
【0053】
(変形例1)
上記実施形態では、対象としてユーザを例示するが、例えば、企業等の組織であってもよく、商品やサービス等であってもよい。
例えば、商品やサービスを対象とする場合、ユーザが購入する商品やサービスの特徴や傾向を分析する場合、各商品やサービスの属性に係る第一情報と、当該商品が購入された日時等に係る第二情報とを含むサービス情報を用いる。
この場合、ステップS1において抽出する情報は、当該ユーザが購入した商品やサービスに対応したサービス情報である。この後、ステップS2で第一非心率を設定してステップS3を実施することで、分析者が意図するスケールで属性組み合わせをカットすることができる。例えば、第一非心率を大きくすることで、商品やサービスの種別に関係なく、全ての商品やサービスに対する特徴を判定することができる。また、第一非心率を小さくすることで、例えば、食品や衣服などといったカテゴリで、属性組み合わせを設定できる。
また、ステップS4からステップS10の処理を実施することで、各属性組み合わせに対して、各サービスの購入タイミングや、購入店舗等の傾向を判定することができる。例えば、第二情報として、サービスを購入した場所を用いることで、ユーザがそのサービスを店舗で購入したか、オンラインショッピングで購入したかの特徴を判定することができる。
【0054】
(変形例2)
上記実施形態では、ユーザ行動履歴情報のうち、ユーザが検索処理を実施した際の検索クエリを第二情報として、第二検定部134による行動検定を実施したが、第二情報としては、検索クエリに限定されるものではない。例えば、ユーザが閲覧したウェブページであってもよく、ユーザが購入した商品やサービスであってもよく、ユーザの位置履歴等であってもよい。これにより、コンバージョンユーザ群が、例えばどのようなウェブコンテンツを閲覧する傾向にあるか、どのような商品を購入する傾向があるか、どのような場所に行く傾向があるか、等を第二検定部134により分析することが可能となる。
【0055】
(変形例3)
上記実施形態では、第一情報をユーザ情報のユーザ属性情報とし、第二情報をユーザ情報のユーザ行動履歴情報とする例を示したが、これに限定されない。例えば、第一検定部133が、ユーザ行動履歴情報に基づいて、ユーザを複数の組み合わせに分割し、第二検定部134が、各組み合わせに対して、ユーザ属性情報に基づいて、ユーザを様々な属性でクラスタリングしてもよい。
【0056】
(変形例4)
上記実施形態では、第一検定部133は、第一非心率を用いた独立性検定として一般化カイ二乗検定を実施する例を示したが、これに限定されない。例えば、第一検定部133は、一般化カイ二乗検定のように統計的有意と判断するスケールを任意に決定でき、かつ独立性検定を実施できる、いかなる検定手法を用いてもよい。
【0057】
(変形例5)
上記実施形態では、第二検定部134は、第二非心率を用いた適合度検定として一般化カイ二乗検定を実施する例を示したが、これに限定されない。例えば、第二検定部134は、一般化カイ二乗検定のように統計的有意と判断するスケールを任意に決定でき、かつ適合度検定を実施できる、いかなる検定手法を用いてもよい。
【0058】
その他、本発明の実施の際の具体的な構造及び手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。
【符号の説明】
【0059】
10…サーバ装置(情報処理装置)、12…記憶部、13…制御部、20…端末装置、131…ユーザ情報取得部(対象情報取得部)、132…対象ユーザ抽出部(抽出部)、133…第一検定部、133A…第一非心率設定部、133B…第一分析判定部、134…第二検定部、134A…集計部、134B…第二非心率設定部、134C…第二分析判定部、135…分類部、136…特徴画像生成部。
図1
図2
図3
図4
図5
図6