特許第6535564号(P6535564)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エヌ・ティ・ティ・データの特許一覧

特許6535564情報処理装置、情報処理方法、およびプログラム
<>
  • 特許6535564-情報処理装置、情報処理方法、およびプログラム 図000002
  • 特許6535564-情報処理装置、情報処理方法、およびプログラム 図000003
  • 特許6535564-情報処理装置、情報処理方法、およびプログラム 図000004
  • 特許6535564-情報処理装置、情報処理方法、およびプログラム 図000005
  • 特許6535564-情報処理装置、情報処理方法、およびプログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6535564
(24)【登録日】2019年6月7日
(45)【発行日】2019年6月26日
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
   G06F 16/00 20190101AFI20190617BHJP
【FI】
   G06F17/30 210D
   G06F17/30 340B
   G06F17/30 370Z
   G06F17/30 419A
【請求項の数】6
【全頁数】20
(21)【出願番号】特願2015-191937(P2015-191937)
(22)【出願日】2015年9月29日
(65)【公開番号】特開2017-68483(P2017-68483A)
(43)【公開日】2017年4月6日
【審査請求日】2018年3月30日
(73)【特許権者】
【識別番号】000102728
【氏名又は名称】株式会社エヌ・ティ・ティ・データ
(74)【代理人】
【識別番号】110001634
【氏名又は名称】特許業務法人 志賀国際特許事務所
(72)【発明者】
【氏名】佐藤 新
(72)【発明者】
【氏名】後藤 大樹
(72)【発明者】
【氏名】森本 俊彦
【審査官】 後藤 彰
(56)【参考文献】
【文献】 特開2010−73189(JP,A)
【文献】 特開2002−259440(JP,A)
【文献】 白井 康之,”人気感度と先行ポイントを利用した顧客セグメント化とその応用”,オペレーションズ・リサーチ 経営の科学,日本,公益社団法人日本オペレーションズ・リサーチ学会,2014年 2月,第59巻,第2号,p.88-95
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00
(57)【特許請求の範囲】
【請求項1】
複数のユーザそれぞれのユーザ属性を示すデータを取得し、前記データのうち特定の期間に該当するデータの前記ユーザ属性に基づいて前記ユーザを複数のノードのいずれかにそれぞれ分類する決定木を、前記期間を変えて複数算出する決定木算出部と、
前記ノードに分類された前記ユーザの数に基づく指標である代表指標の値を算出する代表指標算出部と、
前記代表指標算出部によって算出された前記代表指標の値に基づいて、前記決定木算出部によって算出された複数の決定木の中から、いずれかの決定木を選択する検証評価部と、
前記検証評価部によって選択された決定木を示すデータと前記代表指標算出部が算出した代表指標の値を示すデータとに基づいて算出される決定木を含む分析結果情報を出力する出力部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記検証評価部は、前記代表指標算出部によって算出された前記ノードごとの代表指標の値の分散を、前記複数の異なる期間ごとの決定木についてそれぞれ算出し、最も前記分散が大きい決定木を選択することによって、より前記代表指標の値に特徴が表れた決定木を選択する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記代表指標は、前記ノードに分類されたユーザの数のうち分析対象となる行動をしたユーザの数の比率である、
ことを特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記代表指標は、前記ノードに分類されたユーザの数のうち分析対象となる行動をしたユーザの数の比率に、前記ノードに分類されたユーザの一人当たり平均売上高を乗算した値である、
ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報処理装置。
【請求項5】
コンピュータを用いた情報処理方法であって、
前記コンピュータが備える決定木算出部が、複数のユーザそれぞれのユーザ属性を示すデータを取得し、前記データのうち特定の期間に該当するデータの前記ユーザ属性に基づいて前記ユーザを複数のノードのいずれかにそれぞれ分類する決定木を、前記期間を変えて複数算出する決定木算出ステップと、
前記コンピュータが備える代表指標算出部が、前記ノードに分類された前記ユーザの数に基づいて算出される代表指標の値を算出する代表指標算出ステップと、
前記コンピュータが備える検証評価部が、前記代表指標算出ステップにおいて算出された前記代表指標の値に基づいて、前記決定木算出ステップによって算出された複数の決定木の中から、いずれかの決定木を選択する検証評価ステップと、
前記コンピュータが備える出力部が、前記検証評価ステップにおいて選択された決定木を示すデータと前記代表指標算出ステップにおいて算出された代表指標の値を示すデータとに基づいて算出される決定木を示す分析結果情報を出力する出力ステップと、
を有することを特徴とする情報処理方法。
【請求項6】
コンピュータに、
複数のユーザのユーザ属性を示すデータを取得し、前記データのうち特定の期間に該当するデータの前記ユーザ属性に基づいて前記ユーザを複数のノードのいずれかにそれぞれ分類する決定木を、前記期間を変えて複数算出する決定木算出ステップと、
前記ノードに分類された前記ユーザの数に基づいて算出される代表指標の値を算出する代表指標算出ステップと、
前記代表指標算出ステップにおいて算出された前記代表指標の値に基づいて、前記決定木算出ステップによって算出された複数の決定木の中から、いずれかの決定木を選択する検証評価ステップと、
前記検証評価ステップにおいて選択された決定木を示すデータと前記代表指標算出ステップにおいて算出された代表指標の値を示すデータとに基づいて算出される決定木を示す分析結果情報を出力する出力ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
分析者からの分析要求を受けて、ユーザ(例えば、Webサイト閲覧者)の行動履歴や嗜好情報などのユーザ属性情報を示すデータを用いてユーザの行動傾向を分析する技術がある。行動履歴とは、例えば、Webサイトの閲覧履歴、またはWebサイトを介しての商品の購入履歴などである。また、その行動傾向の分析結果に基づいて、特定のユーザ属性情報を持つユーザ群の行動傾向を示す分析結果を分析者へ提示する技術がある。そして、分析者は、得られた分析結果に基づいて、分析の目的である各種の業務、例えば、広告を配信する配信対象ユーザの選定、などを行う。
例えば、特許文献1に記載の商品購入データ処理システムは、特定の属性を持つ顧客の購買履歴から、顧客属性に応じた購入傾向を分析する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−216369号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、ユーザの行動傾向を分析するための分析手法として、決定木分析が用いられることがある。決定木分析は、分析対象となるユーザのユーザ属性情報および行動履歴などを示すデータから、木構造のデータ形式で表した決定木を算出する。決定木は、分類を表すノードと、その分類に至るまでの特徴の集まりを表すルール(枝)とによって木構造を成す。決定木分析は、決定木を算出することよってユーザを分類し、分類したユーザごとの行動傾向を示す分析結果データを視覚化して提示することができる分析手法である。このような決定木分析の分析結果は、ユーザに対するサービス提供内容や提供方法についての意思決定支援に用いられることがある。
【0005】
分析者は、算出された決定木の中で特徴的であると判断したノードを選択し、選択したノードが示す分類に属するユーザ群に対して、分析の目的とする業務(例えば、広告配信)を行う。ここで、ノードの選択は、分析の目的とする業務へ与える効果が大きくなるようになされることが好ましい。効果とは、例えば、新規ユーザの獲得、既存ユーザの再訪率の向上、または売上高の拡大などである。
しかしながら、分析対象となるユーザのユーザ属性情報および行動履歴などを示すデータを分析に用いる際、どの期間内のデータを分析に用いれば分析の目的とする業務へ与える効果が大きくなるかについて把握することは容易ではない。例えば、直近一か月分のデータを用いた分析が効果的であるか、または、直近一年分のデータを用いた分析が効果的であるかは、分析の目的とする業務や分析の対象とする業種によって異なる。
【0006】
本発明は上記の点に鑑みてなされたものであり、分析対象期間が異なる複数の分析結果の中で、より特徴が強く表れた分析結果を提示することができる情報処理装置、情報処理方法、およびプログラムを提供する。
【課題を解決するための手段】
【0007】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様としては、複数のユーザそれぞれのユーザ属性を示すデータを取得し、前記データのうち特定の期間に該当するデータの前記ユーザ属性に基づいて前記ユーザを複数のノードのいずれかにそれぞれ分類する決定木を、前記期間を変えて複数算出する決定木算出部と、前記ノードに分類された前記ユーザの数に基づく指標である代表指標の値を算出する代表指標算出部と、前記代表指標算出部によって算出された前記代表指標の値に基づいて、前記決定木算出部によって算出された複数の決定木の中から、いずれかの決定木を選択する検証評価部と、前記検証評価部によって選択された決定木を示すデータと前記代表指標算出部が算出した代表指標の値を示すデータとに基づいて算出される決定木を含む分析結果情報を出力する出力部と、を備えることを特徴とする情報処理装置である。
【0008】
(2)また、本発明の一態様としては、前記検証評価部は、前記代表指標算出部によって算出された前記ノードごとの代表指標の値の分散を、前記複数の異なる期間ごとの決定木についてそれぞれ算出し、最も前記分散が大きい決定木を選択することによって、より前記代表指標の値に特徴が表れた決定木を選択する、ことを特徴とする(1)に記載の情報処理装置である。
【0009】
(3)また、本発明の一態様としては、前記代表指標は、前記ノードに分類されたユーザの数のうち分析対象となる行動をしたユーザの数の比率である、ことを特徴とする(1)または(2)に記載の情報処理装置である。
【0010】
(4)また、本発明の一態様としては、前記代表指標は、前記ノードに分類されたユーザの数のうち分析対象となる行動をしたユーザの数の比率に、前記ノードに分類されたユーザの一人当たり平均売上高を乗算した値である、ことを特徴とする(1)から(3)のいずれか一つに記載の情報処理装置である。
【0011】
(5)また、本発明の一態様としては、コンピュータを用いた情報処理方法であって、前記コンピュータが備える決定木算出部が、複数のユーザそれぞれのユーザ属性を示すデータを取得し、前記データのうち特定の期間に該当するデータの前記ユーザ属性に基づいて前記ユーザを複数のノードのいずれかにそれぞれ分類する決定木を、前記期間を変えて複数算出する決定木算出ステップと、前記コンピュータが備える代表指標算出部が、前記ノードに分類された前記ユーザの数に基づいて算出される代表指標の値を算出する代表指標算出ステップと、前記コンピュータが備える検証評価部が、前記代表指標算出ステップにおいて算出された前記代表指標の値に基づいて、前記決定木算出ステップによって算出された複数の決定木の中から、いずれかの決定木を選択する検証評価ステップと、前記コンピュータが備える出力部が、前記検証評価ステップにおいて選択された決定木を示すデータと前記代表指標算出ステップにおいて算出された代表指標の値を示すデータとに基づいて算出される決定木を示す分析結果情報を出力する出力ステップと、を有することを特徴とする情報処理方法である。
【0012】
(6)また、本発明の一態様としては、コンピュータに、複数のユーザのユーザ属性を示すデータを取得し、複前記データのうち特定の期間に該当するデータの前記ユーザ属性に基づいて前記ユーザを複数のノードのいずれかにそれぞれ分類する決定木を、前記期間を変えて複数算出する決定木算出ステップと、前記ノードに分類された前記ユーザの数に基づいて算出される代表指標の値を算出する代表指標算出ステップと、前記代表指標算出ステップにおいて算出された前記代表指標の値に基づいて、前記決定木算出ステップによって算出された複数の決定木の中から、いずれかの決定木を選択する検証評価ステップと、前記検証評価ステップにおいて選択された決定木を示すデータと前記代表指標算出ステップにおいて算出された代表指標の値を示すデータとに基づいて算出される決定木を示す分析結果情報を出力する出力ステップと、を実行させるためのプログラムである。
【発明の効果】
【0013】
本発明によれば、分析対象期間が異なる複数の分析結果の中で、より特徴が強く表れた分析結果を提示することができる。
【図面の簡単な説明】
【0014】
図1】本実施形態に係る情報処理システムの概要を示す概略図である。
図2】本実施形態に係る情報処理装置の機能構成を示すブロック図である。
図3】本実施形態に係る情報処理装置の足切り値格納部に格納されるノード選択実績テーブルの一例を示す図である。
図4】本実施形態に係る情報処理装置の出力部によって出力される画像の一例を示す図である。
図5】本実施形態に係る情報処理装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0015】
(実施形態)
以下、本実施形態に係る情報処理システムの概要について、図面を参照しながら説明する。
図1は、本実施形態に係る情報処理システムの概要を示す概略図である。
本実施形態に係る情報処理システムは、ウェブ広告(以下、Web広告という)配信担当者の意思決定の支援をするためのWeb広告配信支援システムである。情報処理システムは、Web広告配信対象ユーザの選定における、Web広告配信担当者(以下、分析者という)の意思決定を支援する。
【0016】
図示するように、情報処理システムは、情報処理装置1と、Webサーバ2と、Web広告配信業者端末3と、によって構成される。
情報処理装置1は、Web広告配信対象ユーザの選定における、分析者の意思決定を支援するWeb広告配信支援装置である。情報処理装置1は、例えば、分析者が所属する企業の構内に設置される。情報処理装置1は、例えば、パーソナルコンピュータ、または汎用コンピュータなどを含んで構成される。
【0017】
Webサーバ2は、通信ネットワーク(例えば、インターネット)を介してWebサイトを公開するサーバ装置である。Webサイトは、例えば、EC(Electronic Commerce;電子商取引)サイトなどである。図1においては、説明を簡略化するため、Webサーバ2を1つのみ記載しているが、Webサーバ2の数は複数であってもかまわない。
また、複数のWebサーバ2には、分析者が所属する企業が運営するWebサイト(以下、自社Webサイトとも言う)を公開するサーバ装置のほか、分析者が所属する企業以外の企業が運営するWebサイト(以下、他社Webサイトとも言う)を公開するサーバ装置が含まれていてもよい。
【0018】
Web広告配信業者端末3は、情報処理装置1から入力されるデータに基づくWeb広告配信の実行指示に従って、ユーザへWeb広告を配信する端末装置である。Web広告配信業者端末3は、Web広告配信業者の構内に設置され、通信ネットワークによって情報処理装置1と通信接続された端末装置である。Web広告配信業者とは、例えば、DSP(Demand−Side Platform;オンライン広告において広告主側の広告効果最大化を支援するためのプラットフォーム)を運用するDSP業者である。Web広告配信業者端末3は、例えば、パーソナルコンピュータ、または汎用コンピュータなどを含んで構成される。
【0019】
情報処理装置1は、自社Webサイトを公開するWebサーバ2から、自社Webサイトの閲覧者(以下、ユーザとも言う)ごとの自社Webサイトの閲覧履歴を示すログデータを取得する。また、情報処理装置1は、他社Webサイトを公開するWebサーバ2から、ユーザごとの他社Webサイトの閲覧履歴を示すログデータを取得する。
【0020】
情報処理装置1は、分析者によって入力されるデータに基づく分析要求を受けて、ユーザの行動傾向を分析する。分析者からの分析要求の内容は、例えば、特定の商品(例えば、商品A)を購入したユーザの行動傾向の分析を要求することなどである。
情報処理装置1は、Webサーバ2から取得した、ユーザごとの自社Webサイトの閲覧履歴を示すログデータ、およびユーザごとの他社Webサイトの閲覧履歴を示すログデータに基づいて、ユーザのユーザ属性情報を分析する。ユーザ属性情報には、嗜好情報および成果情報が含まれる。
【0021】
嗜好情報とは、ユーザが興味を持っている物事を示すデータ、例えば、ユーザが閲覧したWebサイトの内容に含まれるジャンル(例えば、スポーツ、映画など)を示すデータである。また、成果情報とは、ユーザのWebサイトにおける行動を示すデータ、例えば、商品購入がなされたか否か、または資料請求がなされたか否かなどを示すデータである。
【0022】
情報処理装置1は、ユーザ属性情報に基づいて、ユーザ属性ごとにユーザを分類したユーザ群を示す分析結果データを出力する。例えば、情報処理装置1は、ある特定の期間において「科学」のジャンルに属するWebページを参照した回数が20回以上であったユーザ群と、20回未満であったユーザ群とに分類する。そして、情報処理装置1は、それぞれのユーザ群について、例えば商品Aを購入したユーザの比率を分析し、分析結果データを出力する。
なお、本実施形態に係る情報処理装置1は、決定木分析の手法を用いてユーザを分類するが、詳細は後述する。
【0023】
情報処理装置1は、分析結果データに含まれる複数のユーザ群の中から分析者によって選択されたユーザ群を示すデータの入力を受け付ける。情報処理装置1は、当該ユーザ群を示すデータをWeb広告配信業者端末3へ送信する。
Web広告配信業者端末3は、情報処理装置1から入力されたデータに基づくユーザ群に含まれるユーザの端末へWeb広告を配信する。
なお、本実施形態においては、Web広告配信業者端末3は、ユーザの端末へ直接Web広告を配信するものとしたが、これに限られない。例えば、Web広告配信業者端末3が、電子メールを介してユーザへ広告を配信するような構成であってもよい。すなわち、Web広告配信業者端末3が、ユーザのメールアドレスへ、広告が記載された電子メール、またはWeb広告が掲載されたWebページのURL(Uniform Resource Locator;統一資源位置指定子)が記載された電子メールなどを送信するような構成であっても構わない。
【0024】
(情報処理装置の構成)
以下、本発明の実施形態に係る情報処理装置1の機能構成について、図面を参照しながら詳細に説明する。
図2は、本実施形態に係る情報処理装置1の機能構成を示すブロック図である。
情報処理装置1は、制御部10と、入力部11と、履歴記憶部12と、サイト嗜好定義部13と、シミュレーション検証評価部14と、決定木算出部15と、代表指標算出部16と、足切り値格納部17と、出力部18と、広告配信部19と、表示方法記憶部20と、を含んで構成される。
【0025】
制御部10は、情報処理装置1の各種の処理を制御する。制御部10は、例えば、CPU(Central Processing Unit;中央処理演算装置)を含んで構成される。
入力部11は、分析者によって入力される分析要求を受け付ける。入力部11は、入力された分析要求を示すデータを、制御部10へ出力する。入力部11は、例えば、マウス、キーボード、またはタッチパネルなどを含んで構成される。
【0026】
履歴記憶部12は、ユーザごとの自社Webサイト閲覧履歴を示すログデータを記憶する。履歴記憶部12は、自社Webサイト閲覧履歴を示すログデータを、Webサーバ2から取得する。ここで言う自社Webサイトとは、Webサーバ2によって通信ネットワークを介して公開されたWebサイトである。Webサーバ2は、例えば、分析者が所属する企業が運営するECサイトのWebサーバである。また、自社Webサイト閲覧履歴には、自社Webサイト内においてアクセスされたWebページの名称、アクセス日時、および成果(例えば、商品購入がなされたか否か、または、資料請求がなされたか否かなど)を示すデータなどが含まれる。
【0027】
また、履歴記憶部12は、ユーザごとの他社Webサイト閲覧履歴を示すログデータを記憶する。履歴記憶部12は、他社Webサイト閲覧履歴を示すログデータを、例えば、Webサーバ2に記憶されたリファラ情報を参照することによって、Webサーバ2から取得する。ここで言う他社Webサイトとは、他社(すなわち、例えば分析者が所属する企業以外の企業)が運営するWebサイトである。他社Webサイト閲覧履歴には、アクセスしたユーザのクッキー(Cookie)情報などを基とした他社Webサイト内においてアクセスされたWebページの名称、およびアクセス日時などが含まれる。
【0028】
履歴記憶部12は、記憶媒体、例えば、ハードディスクドライブ(HDD;Hard Disk Drive)、フラッシュメモリ、イーイープロム(EEPROM;Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory;読み出し専用メモリ)、RAM(Random Access read/write Memory;読み書き可能なメモリ)、またはそれらの任意の組み合わせを含んで構成される。
【0029】
サイト嗜好定義部13は、他社Webサイト内のWebページの属性情報と、他社Webサイト内のWebページを識別する情報と、を対応付けて予め記憶している。
他社Webサイト内のWebページの属性情報とは、例えば、Webサイトに含まれるコンテンツのジャンル(例えば、スポーツ、映画)を示すデータなどである。他社Webサイト内のWebページの属性情報は、決定木分析において、ユーザの嗜好情報として活用される。
また、他社Webサイト内のWebページを識別する情報は、例えば、他社Webサイト内のWebページの名称、またはURLなどである。
【0030】
サイト嗜好定義部13は、記憶媒体、例えば、ハードディスクドライブ、フラッシュメモリ、イーイープロム、ROM、RAM、またはそれらの任意の組み合わせを含んで構成される。
【0031】
履歴記憶部12は、他社Webサイト内でユーザがアクセスしたWebページの識別情報と、サイト嗜好定義部13に記憶された他社Webサイト内のWebページの識別情報とを紐付ける。これにより、履歴記憶部12は、他社Webサイト内でユーザがアクセスしたWebページの属性情報を取得することができる。すなわち、履歴記憶部12は、例えば、各ユーザがアクセスした他社Webサイト内のWebページの内容が属するジャンルを示すデータを取得することができる。
【0032】
制御部10は、分析者からの分析要求を示すデータが入力部11から入力されると、当該データをシミュレーション検証評価部14へ出力する。
シミュレーション検証評価部14は、分析者からの分析要求を示すデータが制御部10から入力されると、ユーザごとのユーザ属性情報、すなわち、成果情報および嗜好情報(例えば、ユーザが閲覧した他社WebサイトのWebページのジャンルなど)を示すログデータを、履歴記憶部12から取得する。
【0033】
シミュレーション検証評価部14は、履歴記憶部12から取得したログデータのうち、特定の期間内に記録されたログデータを抽出する。シミュレーション検証評価部14は、抽出したログデータを、制御部10を介して決定木算出部15へ出力し、決定木算出部15に当該ログデータに基づく決定木を算出させる。シミュレーション検証評価部14は、決定木算出部15に算出させた決定木を示すデータを、制御部10を介して取得する。
【0034】
シミュレーション検証評価部14は、上述した、特定の期間内に記録されたログデータの抽出を、期間を変えて、複数の期間について同様に行う。
このログデータの抽出対象とする複数の期間は、例えば、「直近一週間」、「直近一か月」、および「直近一年間」のように、期間の長さが異なる複数の期間である。または、このログデータの抽出対象とする複数の期間は、例えば、「10日前から昨日までの期間」、「20日前から11日前までの期間」、および「30日前から21日前までの期間」のように、期間の始期と終期が異なる複数の期間でもよい。または、このログデータの抽出対象とする複数の期間は、上述した、期間の長さが異なる複数の期間と、期間の始期と終期が異なる複数の期間との組み合わせであってもよい。
【0035】
シミュレーション検証評価部14は、抽出した複数の期間のログデータを、それぞれ制御部10を介して決定木算出部15へ出力し、決定木算出部15に複数の期間のログデータに基づく決定木をそれぞれ算出させる。シミュレーション検証評価部14は、決定木算出部15に算出させた複数の期間それぞれの決定木を示すデータを、制御部10を介して取得する。
【0036】
決定木算出部15は、シミュレーション検証評価部14から制御部10を介して入力されたユーザごとの成果情報および嗜好情報に基づいて決定木分析を行い、決定木を算出する。算出された決定木には、ノードごとに、「数」、「比率」、および「占(占有率)」の値が含まれる。「数」は、それぞれのノードに対応する条件に該当するユーザ数を表す。「比率」は、それぞれのノードに対応する条件での各セグメントの比率を表す。「占」は、それぞれのノードに対応する条件に該当するセグメントのボリュームを表す。
シミュレーション検証評価部14は、決定木算出部15から制御部10を介して取得した複数の期間それぞれの決定木を示すデータを、制御部10を介して代表指標算出部16へ出力する。
【0037】
代表指標算出部16は、シミュレーション検証評価部14から制御部10を介して入力されたデータに基づく複数の期間それぞれの決定木の各ノードについて、代表指標を算出する。代表指標とは、目的を設定した時の期待の大きさを示したものである。本実施形態においては、代表指標は、各ノードにおける「比率」の値そのものであるものとするが、これに限られない。代表指標は、分析の目的に応じた適切な計算方法によって求められる指標であることが好ましい。
【0038】
例えば、分析の目的が商品購入率の向上を図ることであるならば、代表指標には、例えば、各ノードにおける「比率」の値そのものが用いられる。すなわち、この場合の代表指標は、各ノードに含まれるユーザの商品購入率の期待値である。
また、例えば、分析の目的が、期待売上高を拡大することであるならば、代表指標は、例えば、各ノードにおける「比率」に当該ノードに含まれるユーザの一人当たり平均売上高を乗算した値が用いられる。すなわち、この場合の代表指標は、各ノードに含まれるユーザの一人あたりの平均売上高の期待値である。
その他、分析の目的に応じて、各ノードに含まれるユーザの、商品リピート購入率、Webサイト訪問時間、Webページ閲覧数、または前回の商品購入(訪問)時からの間隔などが代表指標として用いられてもよい。
【0039】
代表指標算出部16は、複数の期間それぞれの決定木の各ノードの代表指標の値を示すデータと、複数の期間それぞれの決定木を示すデータとを、制御部10を介してシミュレーション検証評価部14へ出力する。
シミュレーション検証評価部14は、複数の期間それぞれの決定木の各ノードの代表指標の値に基づいて、代表指標の値の特徴が最も明確に表れている決定木を選択する。例えば、シミュレーション検証評価部14は、複数の期間それぞれの決定木ごとに、決定木の各ノードの代表指標の値の分散を算出する。そして、シミュレーション検証評価部14は、算出した結果に基づいて、分散が最も大きい決定木を選択する。
シミュレーション検証評価部14は、選択した決定木を示すデータを、制御部10を介して代表指標算出部16へ出力する。
【0040】
足切り値格納部17には、例えば、過去の分析における熟練の分析者によって選択されたノードの「数」の値(以下、足切り値と言う)が格納されている。足切り値格納部17は、記憶媒体、例えば、ハードディスクドライブ、フラッシュメモリ、イーイープロム、ROM、RAM、またはそれらの任意の組み合わせを含んで構成される。
【0041】
図3は、本実施形態に係る情報処理装置1の足切り値格納部17に格納されるノード選択実績テーブルの一例を示す図である。
図示するように、ノード選択実績テーブルは、「分析者のスキルレベル」および「選択されたノードに含まれるユーザの「数」」の2つの項目の列からなる、2次元の表形式のデータである。このノード選択実績テーブルの各行は、それぞれ、過去の分析者によるノードの選択の実績に相当する。
【0042】
例えば、図3に示すノード選択実績テーブルにおける先頭の(最上段の)データ行には、「高い」および「54」というデータが格納されている。これは、このデータ行が示すノード選択を行った分析者のスキルレベルが「高い」(スキルレベルが高い分析者である)ことを示す。また、このデータ行が示すノード選択において選択されたノードに含まれるユーザの数が54人であることを示す。
また、例えば、図3に示すノード選択実績テーブルにおける2つめのデータ行には、「標準」および「42」というデータが格納されている。これは、この行が示すノード選択を行った分析者のスキルレベルが「標準」(標準的なスキルレベルの分析者である)ことを示す。また、このデータ行が示すノード選択において選択されたノードに含まれるユーザの数が42人であることを示す。
【0043】
代表指標算出部16は、上記でシミュレーション検証評価部14が選択した決定木の各ノードにおける「数」の値について、熟練の分析者によって選択されたノードの「数」の値を下回る値であるならば、当該ノードの代表指標の値を0にする。すなわち、各ノードにおけるユーザ数が足切り値に満たないならば、代表指標の値は0となる。
【0044】
なお、どのスキルレベルの分析者までを「熟練の分析者」とするか(例えば、スキルレベルが「高い」分析者のみを「熟練の分析者」とするか、または、スキルレベルが「高い」分析者とスキルレベルが「標準」の分析者とをあわせて「熟練の分析者」とするかなど)は、予め設定される。
【0045】
本来、代表指標である「比率」の値がより大きいノードに含まれるユーザに対し広告配信をするほど、ユーザからのより高い反応率が期待できるため、効率的な広告配信を行うことができる。しかしながら、分析者が選択したノードの「比率」の値が大きかったとしても、当該ノードに含まれるユーザの数が少なすぎる場合には、配信された広告に対して反応するユーザの数(ボリューム)も多くはならない。そのような、ユーザの数が少なすぎるユーザ群に対し広告配信をすることは効率的ではない。
【0046】
しかしながら、広告を配信するユーザの数が少なくともどの程度の数であれば効果的であるかは、例えば、広告の内容(例えば、宣伝する商品)に依存する。そのため、広告を配信するユーザの数が少なくともどの程度の数であるならば効果的な広告配信ができそうかを見極める判断は、熟練の分析者による広告配信の経験等に基づいて行われることが好ましい。
上記の理由により、本実施形態に係る情報処理装置1の代表指標算出部16は、熟練の分析者の過去の分析における判断に基づいて決められる「足切り値」によって、ユーザ数の少ないノードを足切りする。情報処理装置1は、足切りに応じて、分析結果である決定木の出力内容(ノードの表示状態、例えば、ノードの枠内の色の濃度)を異ならせることによって、当該ノードを分析者に選択させ難くする。なお、決定木の出力例については後述する。
【0047】
制御部10は、決定木算出部15が算出した決定木を示すデータ、代表指標算出部16によって算出された各ノードの代表指標の値、および後述する表示方法記憶部20に記憶された表示方法情報に基づいて、決定木を視覚化した画像を示すデータ(分析結果情報)を生成し、出力部18に当該画像を出力させる。
出力部18は、ディスプレイ、例えば、例えば、液晶ディスプレイ、または有機EL(Electro Luminescence;エレクトロルミネッセンス)ディスプレイを含んで構成される。
【0048】
(決定木の出力例)
以下に、出力部18が出力する決定木の画像の一例について説明する。
図4は、本実施形態に係る情報処理装置1の出力部18によって出力される画像の一例を示す図である。
図示するように、本例における決定木dt1は、13個のノード(ノードnd0、ノードnd1、ノードnd2、・・・、ノードnd12)を含む。最上位階層のノードnd0を除く12個のノード(ノードnd1、ノードnd2、ノードnd3、・・・、ノードnd12)は、一階層上位のノードとそれぞれルール(ルールed1、ルールed2、ルールed3、・・・、ルールed12)で結ばれている。これにより、決定木dt1は木構造を成している。
【0049】
最上位階層のノードであるノードnd0の下部には、「全体」と表示されている。各ノードの下部に表示される文言は、分析対象データを分類する分類条件を表す。すなわち、ノードnd0は、分析対象のユーザ全体に対して集計した結果を表すノードである。
また、ノードnd0の枠内の上段には、「数:99000:1000」と表示されている。これは、分析対象となるユーザの行動の有無(本例においては、商品Aの購入履歴の有無)によって分析対象ユーザを分類し、それぞれの行動の有無に該当するユーザの数を表す。本例においては、左側の数字が購入履歴の無いユーザの数を表し、右側の数字が購入履歴のあるユーザの数を表す。すなわち、ノードnd0の枠内の上段の数字は、99000人は商品Aの購入履歴が無く、1000人は商品Aの購入履歴が有る、ということを示す。なお、これらの数字から分かるように、本例における分析対象ユーザの全体数は、99000人と1000人の合計値であり、100000人である。
【0050】
また、ノードnd0の枠内の下段には、「比率:99.0:1.0」と表示されている。これは、分析対象となるユーザの行動の有無(本例においては、商品Aの購入履歴の有無)によって分析対象ユーザを分類し、それぞれの行動の有無に該当するユーザの数の比率を表す。本例においては、左側の数字が購入履歴の無いユーザの比率を表し、右側の数字が購入履歴のあるユーザの比率を表す。すなわち、ノードnd0の枠内の中段の数字は、ノードnd0に含まれるユーザ(すなわち、分析対象ユーザ全体)のうち、99.0%のユーザは商品Aの購入履歴が無く、1.0%のユーザは商品Aの購入履歴が有る、ということを示す。
【0051】
ノードnd0は、ノードnd0の左下方向に表示されているノードnd1と、ルールeg1によって結ばれている。また、ノードnd0は、ノードnd0の右下方向に表示されているノードnd2と、ルールeg2によって結ばれている。ノードnd1およびノードnd2は、ノードnd0より一段階下位の階層にあたるノードである。
【0052】
ノードnd1の下部には、「科学<20」と表示されている。上述したように、各ノードの下部に表示される文言は、分析対象データを分類する分類条件を表す。すなわち、ノードnd1は、分析対象のユーザ全体の中で「科学<20」に該当するユーザに対して集計した結果を表すノードである。「科学<20」によって表される分類条件は、本例においては、科学に関連するWebページを参照した回数に基づく分類条件であるものとする。すなわち、ノードnd1は、分析対象のユーザ全体の中で、科学に関連するWebページを参照した回数が20回より少ないユーザに対して集計した結果を表すノードである。
同様に、ノードnd2の下部には、「科学>=20」と表示されている。すなわち、ノードnd1は、分析対象のユーザ全体の中で、科学に関連するWebページを参照した回数が20回以上であるユーザに対して集計した結果を表すノードである。
【0053】
このように、決定木dt1は、あるノードに含まれるユーザ群を、特定の分類条件(例えば、科学に関連するWebページを参照した回数が20回以上であるか否か)に従って2つのユーザ群に分類し、分類したそれぞれのユーザ群に該当するノードを一段階下位の階層のノードとしてそれぞれ表示する決定木である。
【0054】
ノードnd1の枠内の上段には、「数:98992:998」と表示されている。これは、ノードnd1に含まれるユーザ(すなわち、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少ないユーザ)を、商品Aの購入履歴の有無によって分類し、それぞれの行動の有無に該当するユーザの数を表している。すなわち、ノードnd1の枠内の上段の数字は、ノードnd1に含まれるユーザのうち、98992人は商品Aの購入履歴が無く、998人は商品Aの購入履歴が有る、ということを示す。なお、これらの数字から分かるように、ノードnd1に含まれるユーザ(すなわち、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少ないユーザ)の数は、98992人と998人の合計値であり、99990人である。
【0055】
また、ノードnd1の枠内の中段には、「比率:99.0:1.0」と表示されている。これは、ノードnd1に含まれるユーザを、商品Aの購入履歴の有無によって分類し、それぞれの行動の有無に該当するユーザの数の比率を表している。すなわち、ノードnd1の枠内の中段の数字は、ノードnd1に含まれるユーザ(すなわち、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少ないユーザ)のうち、99.9%のユーザは商品Aの購入履歴が無く、1.0%のユーザは商品Aの購入履歴が有る、ということを示す。
【0056】
また、ノードnd1の枠内の下段には、「占:100.0:99.8」と表示されている。この左側の数字である「100.0」は、分析対象となるユーザの行動(本例においては、商品Aを購入したこと)が無いユーザ全体における、ノードnd1に含まれるユーザにおいて分析対象となるユーザの行動が無いユーザの占有率を表している。すなわち、この左側の数字である「100.0」は、商品Aの購入履歴が無いユーザ全体における、科学に関連するWebページを参照した回数が20回より少ないユーザでの商品Aの購入履歴が無いユーザの占有率を表している。
【0057】
なお、上述したように、商品Aの購入履歴が無いユーザの全体数は99000人であり、科学に関連するWebページを参照した回数が20回より少ないユーザでの商品Aの購入履歴が無いユーザの数は98992人であることから、占有率は「99.9919・・・%」となるが、本例における決定木dt1は小数点以下一桁までを表示する。これにより、ノードnd0の枠内の下段ことから、「99.9919・・・%」が四捨五入された値である「100.0%」が表示されている。
【0058】
また、同様に、ノードnd1の枠内の下段の右側の数字である「99.8」は、分析対象ユーザ全体において分析対象となるユーザの行動(本例においては、商品Aの購入)が有るユーザの全体数の中で、ノードnd1に含まれるユーザにおいて分析対象となるユーザの行動が有るユーザの占有率を表している。すなわち、この右側の数字である「99.8」は、商品Aの購入履歴が有るユーザの全体数における、科学に関連するWebページを参照した回数が20回より少ないユーザでの商品Aの購入履歴が有るユーザの数の占有率を表している。
【0059】
次に、ノードnd2の枠内の上段には、「数:8:2」と表示されている。すなわち、ノードnd2の枠内の上段の数字は、ノードnd2に含まれるユーザのうち、8人は商品Aの購入履歴が無く、2人は商品Aの購入履歴が有る、ということを示す。なお、これらの数字から分かるように、ノードnd2に含まれるユーザの数は、8人と2人の合計値であり、10人である。
【0060】
また、ノードnd2の枠内の中段には、「比率:80.0:2.0」と表示されている。すなわち、ノードnd2の枠内の中段の数字は、ノードnd2に含まれるユーザ(すなわち、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少ないユーザ)のうち、80.0%のユーザは商品Aの購入履歴が無く、20.0%のユーザは商品Aの購入履歴が有る、ということを示す。
【0061】
また、ノードnd2の枠内の下段には、「占:0.0:0.2」と表示されている。すなわち、この左側の数字である「0.0」は、商品Aの購入履歴が無いユーザの全体数における、科学に関連するWebページを参照した回数が20回以上であるユーザでの商品Aの購入履歴が無いユーザの数の占有率を表している。
【0062】
なお、上述したように、商品Aの購入ユーザの全体数は99000人であり、科学に関連するWebページを参照した回数が20回以上であるユーザでの商品Aの購入ユーザ数は8人であることから、占有率は「0.0080・・・%」となるが、四捨五入された値である「0.0%」が表示されている。
【0063】
また、同様に、ノードnd2の枠内の下段の右側の数字である「0.2」は、商品Aの購入履歴が有るユーザの全体数における、科学に関連するWebページを参照した回数が20回以上であるユーザでの商品Aの購入履歴が有るユーザの数の占有率を表している。
【0064】
次に、ノードnd1の一段階下位の階層のノードであるノードnd3の枠内の上段には、「数:83682:758」と表示されている。すなわち、ノードnd3の枠内の上段の数字は、ノードnd3に含まれるユーザ(すなわち、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回より少ない(すなわち、参照していない)ユーザ)のうち、83682人は商品Aの購入履歴が無く、758人は商品Aの購入履歴が有る、ということを示す。なお、これらの数字から分かるように、ノードnd3に含まれるユーザの数は、83682人と758人の合計値であり、84440人である。
【0065】
また、ノードnd3の枠内の中段には、「比率:99.1:0.9」と表示されている。すなわち、ノードnd3の枠内の中段の数字は、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回より少ない(すなわち、参照していない)ユーザのうち、99.1%のユーザは商品Aの購入履歴が無く、0.9%のユーザは商品Aの購入履歴が有る、ということを示す。
【0066】
また、ノードnd3の枠内の下段には、「占:84.5:75.8」と表示されている。すなわち、この左側の数字である「84.5」は、商品Aの購入履歴が無いユーザの全体数における、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回より少ない(すなわち、参照していない)ユーザでの商品Aの購入履歴が無いユーザの数の占有率を表している。
【0067】
また、同様に、ノードnd3の枠内の下段の右側の数字である「75.8」は、商品Aの購入履歴が有るユーザの全体数における、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回より少ない(すなわち、参照していない)ユーザでの商品Aの購入履歴が有るユーザの数の占有率を表している。
【0068】
次に、ノードnd1の一段階下位の階層のもう1つのノードであるノードnd4の枠内の上段には、「数:15310:240」と表示されている。すなわち、ノードnd4の枠内の上段の数字は、ノードnd4に含まれるユーザ(すなわち、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回以上であるユーザ)のうち、15310人は商品Aの購入履歴が無く、240人は商品Aの購入履歴が有る、ということを示す。なお、これらの数字から分かるように、ノードnd3に含まれるユーザの数は、15310人と240人の合計値であり、15550人である。
【0069】
また、ノードnd4の枠内の中段には、「比率:98.5:1.5」と表示されている。すなわち、ノードnd4の枠内の中段の数字は、分析対象ユーザの中で、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回以上であるユーザのうち、98.5%のユーザは商品Aの購入履歴が無く、1.5%のユーザは商品Aの購入履歴が有る、ということを示す。
【0070】
また、ノードnd4の枠内の下段には、「占:15.5:24.0」と表示されている。すなわち、この左側の数字である「15.5」は、商品Aの購入履歴が無いユーザの全体数における、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回以上であるユーザでの商品Aの購入履歴が無いユーザの数の占有率を表している。
【0071】
また、同様に、ノードnd4の枠内の下段の右側の数字である「24.0」は、商品Aの購入履歴が有るユーザの全体数における、科学に関連するWebページを参照した回数が20回より少なく、かつ、健康に関連するWebページを参照した回数が1回以上であるユーザでの商品Aの購入履歴が有るユーザの数の占有率を表している。
【0072】
その他のノードである、ノードnd5、ノードnd6、ノードnd7、・・・、ノードnd12に表示されている内容の意味についても、上記説明したノードnd3、およびノードnd4に表示されている内容の意味と同様であるため、説明を省略する。
【0073】
図4に図示するように、決定木dt1に含まれる各ノード間を結ぶルール(枝)はそれぞれ異なる太さで表示されている。本実施形態における決定木dt1は、ルールの太さの違いによって、各ノードに含まれるユーザの数の多さを視覚的に表現する。
例えば、ルールは、当該ルールが結ぶ下位側のノードに含まれるユーザの数に比例した太さで表示される。例えば、ノードnd0とノードnd1とを結ぶルールeg1は、ノードnd1に含まれるユーザの数である「99990人」に対応する太さで表現される。同様に、例えば、ノードnd0とノードnd2とを結ぶルールeg2は、ノードnd2に含まれるユーザの数である「10人」に対応する太さで表現される。したがって、ルールeg1の太さはルールeg2の太さよりも太く表示される。
【0074】
また、図4に図示するように、ノードによって、ノードの枠内の色は異なる濃度で表示されている。例えば、ノードnd6およびノードnd10の枠内は濃色で表示されており、ノードnd2およびノードnd12はやや濃色で表示されている。本実施形態における決定木dt1は、各ノードの枠内の色の濃度によって、上述した代表指標の値の大きさを視覚的に表現する。
【0075】
例えば、上述したように、本実施形態における代表指標は「比率」の値そのものであり、図4に示す決定木dt1においては、代表指標の値が50以上であるノードについては当該ノードの枠内は濃色で表示される。また、代表指標の値が20以上であるノードについては当該ノードの枠内はやや濃色で表示される。また、代表指標の値が20未満であるノードについては当該ノードの枠内は白色で表示される。
図2に示す表示方法記憶部20には、このような、代表指標の値に応じたノードの表示方法を示す表示方法情報が記憶されている。表示方法情報は、例えば、代表指標の値を示す項目とノードの表示方法を示す項目との2つの項目の列からなる、二次元の表形式のデータである。表示方法記憶部20は、例えば、記憶媒体、例えば、ハードディスクドライブ、フラッシュメモリ、イーイープロム、ROM、RAM、またはそれらの任意の組み合わせを含んで構成される。
【0076】
ここで、「比率」の値とは、各ノードの比率の欄の右側の値、すなわち、各ノードに含まれるユーザにおいて商品Aを購入しているユーザの比率である。例えば、ノードnd2の枠内の中段には「比率:80.0:20.0」と表示されている。この表示中の右側の数字(すなわち、代表指標の値)は「20.0」であり、20以上の値であることから、ノードnd2の枠内はやや濃色で表示される。また、例えば、ノードnd6の枠内の中段には「比率:0.0:100.0」と表示されている。この表示中の右側の数字(すなわち、代表指標の値)は「100.0」であり、80以上の値であることから、ノードnd2の枠内は濃色で表示される。
【0077】
なお、決定木dt1の各ノードにおいて、商品Aを購入しているユーザの数(すなわち、各ノードの枠内の上段の右側に表示される数)が、上述した足切り値以下であるならば、「比率」の値が高かったとしても、当該ノードの枠内の色は濃色またはやや濃色で表示はされない(白色で表示される)。
例えば、図4に図示する決定木dt1は、足切り値の値が「1」である場合の決定木である。枠内が濃色またはやや濃色で表示されたノードnd2、ノードnd6、ノードnd10、およびノードnd12は、いずれも各ノードにおいて、商品Aを購入しているユーザの数(すなわち、各ノードの枠内の上段の右側に表示される数)が、1より大きいことから、枠内が白色では表示されない。もし足切り値が「3」であったとしたならば、商品Aを購入しているユーザの数が3以下であるノードnd2、ノードnd6、およびノードnd12の枠内は、白色で表示されることになる。
【0078】
以上、説明したように、各ルールの太さによって各ノードに含まれるユーザの数が視覚的に表示されることによって、ユーザの数が多いノードが分析者によって認識され易くなる。
また、代表指標の値が大きいノードの枠内の色の濃度が高く表示され強調表示されることによって、代表指標の値が大きいノードが分析者によって認識され易くなる。これにより、分析者は、代表指標である「比率」の値が高い、すなわち、商品Aの購入率が高いユーザ群を含むノードを容易に認識することができる。
【0079】
さらに、過去に熟練者によって選択されたノードに含まれるユーザの数に基づいて設定された足切り値を下回るユーザの数であるノードの枠内の色については、濃度が高く表示されないことにより、当該ノードは分析者に認識されにくくなる(または、熟練者には選択されにくいノードであることが分析者に認識され易くなる)。
【0080】
再び図2を参照しながら、情報処理装置1のその他の機能構成について説明する。
出力部18によって決定木dt1を含む画像が出力されることにより、決定木dt1が分析者に提示される。分析者は、出力部18に表示された画像に基づく決定木dt1の中からノードを選択し、選択したノードを示すデータを入力部11によって入力する。
【0081】
入力部11は、分析者によって選択されたノードを示すデータを広告配信部19へ出力する。
広告配信部19は、入力部11から入力されたデータに基づくノードに含まれるユーザ群を示すデータを、Web広告配信業者端末3へ出力する。
【0082】
また、入力部11は、分析者によって選択されたノードと分析者のスキルレベルを示すデータとを制御部10へ出力する。または、入力部11は、選択されたノードを示すデータを入力した分析者が熟練者である場合に、分析者によって選択されたノードを示すデータを制御部10へ出力するようにしてもよい。
なお、情報処理装置1は、分析者のスキルレベルを予め認識可能であるものとする。例えば、情報処理装置1に、分析者ごとのスキルレベルを示すテーブル(図示せず)が予め記憶されており、分析者が情報処理装置1の使用を開始する際に認証をすることによって、情報処理装置1が分析者のスキルレベルを認識できるようにしてもよい。これにより、情報処理装置1は、分析者のスキルレベル(例えば、分析者が熟練者であるか否か)を認識することができる。
【0083】
制御部10は、入力部11から入力されたデータに基づくノードに対応する「数」の値を決定木算出部15から取得し、代表指標算出部16を介して足切り値格納部17に記憶させる。これにより、情報処理装置1は、熟練者が選択したノードに含まれるユーザの数を蓄積することができる。情報処理装置1は、蓄積したデータに基づいて、上述した足切り値の値を学習していくことができる。
【0084】
なお、足切り値は、例えば、足切り値格納部17に記憶された「数」の値の中の最小値であることとしてもよいし、足切り値格納部17に記憶された「数」の値の平均値であることとしてもよい。
【0085】
また、過去の分析において熟練の分析者によって複数のノードが選択された場合には、足切り値格納部17に記憶される「数」の値は、選択された複数のノードに含まれるそれぞれのユーザの数の中の最小値であってもよいし、ユーザの数の平均値または合計値であってもよい。
【0086】
(情報処理装置の動作)
以下、図面を参照しながら、情報処理装置1の動作を説明する。
図5は、本実施形態に係る情報処理装置1の動作を示すフローチャートである。
本フローチャートが示す処理は、情報処理装置1の入力部11に、分析者からの分析要求を示すデータが入力された際に開始される。
【0087】
(ステップS101)入力部11は、分析者からの分析要求を受け付ける。入力部11は、分析者から入力された、分析要求を示すデータを制御部10へ出力する。その後、ステップS102へ進む。
【0088】
(ステップS102)制御部10は、分析者からの分析要求を示すデータが入力部11から入力されると、当該データをシミュレーション検証評価部14へ出力する。シミュレーション検証評価部14は、履歴記憶部12から分析対象データを取得する。分析対象データには、ユーザごとのユーザ属性情報、例えば、商品Aの購入履歴、閲覧したWebページ、および閲覧したWebページのコンテンツが属するジャンル(すなわち、ユーザの嗜好を示すデータ)が含まれる。シミュレーション検証評価部14は、履歴記憶部12から取得した分析対象データから、複数の異なる期間における分析対象データをそれぞれ抽出し、制御部10を介して決定木算出部15へそれぞれ出力する。その後、ステップS103へ進む。
【0089】
(ステップS103)決定木算出部15は、シミュレーション検証評価部14から制御部10を介して入力された複数の異なる期間における分析対象データに基づいて、それぞれ決定木を算出する。決定木算出部15は、算出したそれぞれの決定木を示すデータを、制御部10を介してシミュレーション検証評価部14へ出力する。シミュレーション検証評価部14は、複数の異なる期間における分析対象データに基づく決定木を示すデータを、制御部10を介して代表指標算出部16へ出力する。その後、ステップS104へ進む。
【0090】
(ステップS104)代表指標算出部16は、制御部10から入力されたデータに基づく決定木の各ノードについて、それぞれ代表指標を算出する。その後、ステップS105へ進む。
【0091】
(ステップS105)代表指標算出部16は、複数の期間それぞれの決定木の各ノードの代表指標の値を示すデータと、複数の期間それぞれの決定木を示すデータとを、制御部10を介してシミュレーション検証評価部14へ出力する。
シミュレーション検証評価部14は、複数の期間それぞれの決定木の各ノードの代表指標の値に基づいて、代表指標の値の特徴が最も明確に表れている決定木を選択する。シミュレーション検証評価部14は、選択した決定木を示すデータを、制御部10を介して代表指標算出部16へ出力する。その後、ステップS106へ進む。
【0092】
(ステップS106)代表指標算出部16は、シミュレーション検証評価部14によって選択された決定木の各ノードにおける「数」の値について、熟練の分析者によって選択されたノードの「数」の値である「足切り値」を下回る値であるならば、当該ノードの代表指標の値を0にする。すなわち、ユーザ数が足切り値に満たないノードの代表指標の値を0とする。代表指標算出部16は、決定木を示すデータ、および各ノードの代表指標を示すデータを、制御部10へ出力する。その後、ステップS107へ進む。
【0093】
(ステップS107)制御部10は、代表指標算出部16から入力された、決定木を示すデータ、および各ノードの代表指標を示すデータに基づいて、決定木を含む画像を示すデータを生成する。制御部10は、算出した決定木を含む画像を示すデータを、出力部18へ出力する。その後、ステップS108へ進む。
【0094】
(ステップS108)出力部18は、制御部10から入力されたデータに基づく決定木を含む画像を出力する。これにより、決定木を含む画像が、分析者へ提示される。その後、ステップS109へ進む。
【0095】
(ステップS109)分析者によって決定木の中のノードが選択され(すなわち、広告配信対象とするユーザ群を含むノードが選択され)、選択されたノードを示すデータの入力を入力部11が受け付けた場合、ステップS110へ進む。そうでない場合は、ステップS109に留まる。
【0096】
(ステップS110)入力部11は、選択されたノードを示すデータを広告配信部19へ出力する。広告配信部19は、入力部11から入力されたデータに基づくノードに含まれるユーザ群に対して、Web広告配信業者を介して、Web広告を配信する。その後、ステップS111へ進む。
【0097】
(ステップS111)入力部11は、選択されたノードを示すデータを入力した分析者が熟練者である場合、ステップS112へ進む。そうでない場合は、本フローチャートの処理を終了する。
【0098】
(ステップS112)入力部11は、分析者によって選択されたノードを示すデータを制御部10へ出力する。制御部10は、入力部11から入力されたデータに基づくノードに対応する「数」の値を決定木算出部15から取得する。制御部10は、決定木算出部15から取得したデータに基づく「数」の値を、代表指標算出部16を介して、足切り値格納部17に記憶させる。これにより、情報処理装置1は熟練者が選択したノードに含まれるユーザの数を蓄積し、情報処理装置1は足切り値を学習する。以上で、本フローチャートの処理を終了する。
【0099】
以上、説明したように、本実施形態に係る情報処理装置1は、複数の分析対象期間を設定し、それぞれの分析対象期間に基づくログデータ(ユーザ属性情報)に基づいて、それぞれ決定木を算出する。情報処理装置1は、算出した決定木の各ノードの代表指標の値を算出する。情報処理装置1は、それぞれの決定木の代表指標の値に基づいて、代表指標の値の特徴が最も明確に表れている決定木を選択する。情報処理装置1は、代表指標の値の特徴が最も明確に表れている決定木を選択して分析者へ提示することにより、分析の目的とする業務への効果をより大きくしうる決定木を分析者へ提示することができる。
以上により、本実施形態に係る情報処理装置1は、分析対象期間が異なる複数の分析結果の中で、より特徴が強く表れた分析結果を提示することができる。
【0100】
以上、この発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0101】
なお、上述した実施形態における情報処理装置1の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
【0102】
なお、ここでいう「コンピュータシステム」とは、情報処理装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0103】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信回線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0104】
また、上述した実施形態における情報処理装置1を、LSI(Large Scale Integration)等の集積回路として実現してもよい。情報処理装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【符号の説明】
【0105】
1・・・情報処理装置、2・・・Webサーバ、3・・・Web広告配信業者端末、10・・・制御部、11・・・入力部、12・・・履歴記憶部、13・・・サイト嗜好定義部、14・・シミュレーション検証評価部、15・・・決定木算出部、16・・・代表指標算出部、17・・・足切り値格納部、18・・・出力部、19・・・広告配信部、20・・・表示方法記憶部
図1
図2
図3
図4
図5