(58)【調査した分野】(Int.Cl.,DB名)
第1グループのユーザが入力した検索クエリの履歴に関する情報である第1検索情報と前記第1グループとは異なる第2グループのユーザが入力した検索クエリの履歴に関する情報である第2検索情報とを、検索サーバから、通信部を介して取得し、取得した第1検索情報に基づいて、前記第1グループのユーザの第1特徴量を検索クエリ毎に算出すると共に、取得した第2検索情報に基づいて、前記第2グループのユーザの第2特徴量を検索クエリ毎に算出する取得部と、
前記取得部によって算出された前記第1特徴量と前記第2特徴量とに基づいて得られる特徴量である前記第1グループのユーザの第3特徴量として、前記第1特徴量と前記第2特徴量との差分を検索クエリ毎に抽出し、検索クエリ毎に抽出した第3特徴量の値に基づいて、前記第1グループのユーザの特徴を示す検索クエリを抽出する抽出部と、
前記取得部によって取得された第2検索情報に基づいて、前記第2グループのユーザのうち、前記抽出部によって抽出された検索クエリを入力した履歴を有するユーザをコンテンツの配信先として決定すると共に、前記抽出部によって抽出された検索クエリに関するコンテンツを配信対象のコンテンツとして配信することを決定する決定部と、
を備えることを特徴とする抽出装置。
第1グループのユーザが入力した検索クエリの履歴に関する情報である第1検索情報と前記第1グループとは異なる第2グループのユーザが入力した検索クエリの履歴に関する情報である第2検索情報とを、検索サーバから、通信部を介して取得し、取得した第1検索情報に基づいて、前記第1グループのユーザの第1特徴量を検索クエリ毎に算出すると共に、取得した第2検索情報に基づいて、前記第2グループのユーザの第2特徴量を検索クエリ毎に算出する取得手段と、
前記取得手段によって算出された前記第1特徴量と前記第2特徴量とに基づいて得られる特徴量である前記第1グループのユーザの第3特徴量として、前記第1特徴量と前記第2特徴量との差分を検索クエリ毎に抽出し、抽出した第3特徴量の値に基づいて、前記第1グループのユーザの特徴を示す検索クエリを抽出する抽出手段と、
前記取得手段によって取得された第2検索情報に基づいて、前記第2グループのユーザのうち、前記抽出手段によって抽出された検索クエリを入力した履歴を有するユーザをコンテンツの配信先として決定すると共に、前記抽出手段によって抽出された検索クエリに関するコンテンツを配信対象のコンテンツとして配信することを決定する決定手段と、
をコンピュータに実行させることを特徴とする抽出プログラム。
【発明を実施するための形態】
【0009】
以下に、本願に係る抽出装置、抽出方法及び抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法及び抽出プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔1.抽出処理の一例〕
まず、
図1を用いて、実施形態に係る抽出処理の一例について説明する。
図1は、実施形態に係る抽出処理の一例を示す図である。
図1では、抽出装置100が、第1グループの第1ユーザの第1特徴量として、第1グループの第1ユーザによって入力された検索クエリ(以下、適宜、「第1検索クエリ」と呼ぶ。)の第1グループにおける出現確率の重みを取得する例を示す。また、抽出装置100が、第2グループの第2ユーザの特徴量であって第1特徴量と異なる第2特徴量として、第2グループの第2ユーザによって入力された検索クエリ(以下、適宜、「第2検索クエリ」と呼ぶ。)の第2グループにおける出現確率の重みを取得する例を示す。そして、抽出装置100が、第1検索クエリの第1グループにおける出現確率の重みと第2検索クエリの第2グループにおける出現確率の重みとの差分をとることにより、第1グループの第1ユーザの第3特徴量として、各検索クエリの出現確率の重みの差分を抽出する例を示す。
【0011】
図1に示すように、抽出システム1には、検索サーバ20と、広告配信サーバ30と、抽出装置100とが含まれる。これらの各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、
図1に示す抽出システム1には、複数台の検索サーバ20や、複数台の広告配信サーバ30が含まれてもよい。また、本実施形態では、検索サーバ20、広告配信サーバ30および抽出装置100は、事業者T1によって管理されているものとする。
【0012】
検索サーバ20は、ユーザから検索クエリの入力を受け付けて、ウェブページ等のコンテンツの検索結果を返す情報処理装置である。また、検索サーバ20は、ユーザが入力した検索クエリや検索日時に関する情報を検索履歴記憶部に格納する。そして、検索サーバ20は、後述する抽出装置100からの要求に応じて、検索履歴記憶部に格納したユーザの検索クエリに関する情報を抽出装置100に送信する。
【0013】
広告配信サーバ30は、後述する抽出装置100によって決定される広告コンテンツの配信先に抽出装置100によって決定された配信対象の広告コンテンツを配信する情報処理装置である。また、広告配信サーバ30は、広告コンテンツや広告コンテンツに設定されたキーワードに関する情報を広告情報記憶部に格納する。そして、広告配信サーバ30は、後述する抽出装置100からの要求に応じて、広告情報記憶部に格納した広告コンテンツに設定されたキーワードに関する情報を抽出装置100に送信する。
【0014】
抽出装置100は、特定のユーザ群の検索クエリの特定のユーザ群における出現確率の重みと他のユーザ群の検索クエリの他のユーザ群における出現確率の重みとの差分をとることにより、特定のユーザ群の検索クエリの出現確率の重みの差分を抽出する情報処理装置である。抽出装置100は、特定のユーザ群に属するユーザの検索クエリの送信要求を検索サーバ20に送って、特定のユーザ群に属するユーザの検索クエリを検索サーバ20から取得する。また、抽出装置100は、広告コンテンツに設定されたキーワードに関する情報の送信要求を広告配信サーバ30に送って、広告コンテンツに設定されたキーワードに関する情報を広告配信サーバ30から取得する。
【0015】
以下、
図1を用いて、抽出処理の一例を説明する。
図1に示す例では、抽出装置100は、検索サーバ20から第1検索クエリを取得する。抽出装置100は、第1検索クエリとして、検索クエリQ1、検索クエリQ2、検索クエリQ3、検索クエリQ4、検索クエリQ5、…を取得する(ステップS1)。
【0016】
続いて、抽出装置100は、各第1検索クエリの第1グループにおける出現確率の重みを算出する。抽出装置100は、各第1検索クエリを単純ベイズ分類器に入力して、第1グループの第1ユーザのみによって検索される確率が高いか否かに関する重みを算出する(ステップS2)。そして、抽出装置100は、第1グループの第1ユーザの第1特徴量として、各第1検索クエリの第1グループにおける出現確率の重みを取得する。例えば、第1グループの第1ユーザが100人いる場合、100人中90人が検索クエリQ1を入力したとすると、検索クエリQ1の第1グループにおける出現確率は90%である。そして、抽出装置100は、検索クエリQ1の第1グループにおける出現確率の重みとして0.9を取得する。
【0017】
続いて、抽出装置100は、検索サーバ20から第2検索クエリを取得する。抽出装置100は、第2検索クエリとして、検索クエリQ1、検索クエリQ2、検索クエリQ3、検索クエリQ4、検索クエリQ5、…を取得する(ステップS3)。
【0018】
続いて、抽出装置100は、各第2検索クエリの第2グループにおける出現確率の重みを算出する。抽出装置100は、各第2検索クエリを単純ベイズ分類器に入力して、第2グループの第2ユーザのみによって検索される確率が高いか否かに関する重みを算出する(ステップS4)。そして、抽出装置100は、第2グループの第2ユーザの第2特徴量として、各第2検索クエリの第2グループにおける出現確率の重みを取得する。例えば、第2グループの第2ユーザが1000人いる場合に、1000人中100人が検索クエリQ1を入力したとすると、検索クエリQ1の第2グループにおける出現確率は10%である。そして、抽出装置100は、検索クエリQ1の第2グループにおける出現確率の重みとして0.1を取得する。
【0019】
続いて、抽出装置100は、各検索クエリの第1グループにおける出現確率の重みから各検索クエリの第2グループにおける出現確率の重みを引く(ステップS5)。例えば、抽出装置100は、検索クエリQ1の第1グループにおける出現確率の重み0.9から検索クエリQ1の第2グループにおける出現確率の重み0.1を引く。
【0020】
続いて、抽出装置100は、第1グループの第1ユーザの第3特徴量として、各検索クエリの出現確率の重みの差分を抽出する(ステップS6)。例えば、抽出装置100は、検索クエリQ1の第1グループにおける出現確率の重み0.9から検索クエリQ1の第2グループにおける出現確率の重み0.1を引くことにより、検索クエリQ1の出現確率の重みの差分として0.8を抽出する。ここで、検索クエリの出現確率の重みの差分の値が大きいことは、第1グループの第1ユーザのみによって検索される確率が高いことを意味する。したがって、抽出装置100は、出現確率の重みの差分の値が大きい検索クエリほど、第1グループの第1ユーザのみによって検索される確率が高い検索クエリなので、第1グループの第1ユーザに特有の検索クエリであると判定する。そして、抽出装置100は、第1グループの第1ユーザに特有の検索クエリを第3検索クエリとして抽出する。
【0021】
続いて、抽出装置100は、抽出した第1グループの第1ユーザの第3検索クエリに基づいて、広告コンテンツの配信先を決定する(ステップS7)。
【0022】
また、抽出装置100は、抽出した第1グループの第1ユーザの第3検索クエリに関連する広告コンテンツを配信対象の広告コンテンツとして決定する。このように、抽出装置100は、抽出した第1グループの第1ユーザの第3検索クエリに基づいて、配信対象の広告コンテンツを決定する(ステップS8)。
【0023】
続いて、抽出装置100は、第1グループの第1ユーザの第3検索クエリに基づいて決定した広告コンテンツの配信先と広告コンテンツとを広告配信サーバ30に送信する(ステップS9)。
【0024】
上述したように、抽出装置100は、第1グループの第1ユーザの第1特徴量として、第1グループの第1ユーザによって入力された検索クエリ(第1検索クエリ)の第1グループにおける出現確率の重みを取得する。また、抽出装置100は、第2グループの第2ユーザの特徴量であって第1特徴量と異なる第2特徴量として、第2グループの第2ユーザによって入力された検索クエリ(第2検索クエリ)の第2グループにおける出現確率の重みを取得する。そして、抽出装置100は、各検索クエリの第1グループにおける出現確率の重みから各検索クエリの第2グループにおける出現確率の重みを引くことにより、第1グループの第1ユーザの第3特徴量として、各検索クエリの出現確率の重みの差分を抽出する。そして、抽出装置100は、各検索クエリの出現確率の重みの差分の値が大きい検索クエリを第3検索クエリとして抽出する。
【0025】
このように、抽出装置100は、各検索クエリの出現確率の重みの差分を抽出することにより、第1グループの第1ユーザのみによって検索される確率が高い第3検索クエリを抽出することができる。これにより、抽出装置100は、第1グループの第1ユーザに特有の検索クエリである第3検索クエリを高精度に抽出することができる。また、第1グループの第1ユーザに特有の検索クエリである第3検索クエリは、第1グループの第1ユーザの特徴を反映する情報である。したがって、抽出装置100は、特定のユーザ群の特徴を高精度に抽出することができる。
【0026】
なお、
図1に示す例の抽出システム1は、以下のような前提のサービスに適用できる。例えば、CRM(Customer Relationship Management)業務の代行サービスを提供する事業者Xと優良顧客の獲得を希望する事業者Yがいるとする。この場合、事業者Xは、事業者Yの優良顧客の顧客リストと事業者Yの既存顧客の顧客リストとに基づいて、抽出システム1を適用する。具体的には、事業者Yの優良顧客の検索クエリの事業者Yの優良顧客における出現確率の重みから事業者Yの既存顧客の検索クエリの事業者Yの既存顧客における出現確率の重みを引くことにより、事業者Yの優良顧客に特有の検索クエリを第3検索クエリとして抽出する。そして、事業者Xは、事業者Yの既存顧客のうち、事業者Yの優良顧客の第3検索クエリと同じような検索クエリを入力したユーザを広告コンテンツの配信先として決定し、事業者Yに提案する。また、事業者Xは、事業者Yの優良顧客の第3検索クエリに基づいて、事業者Yの優良顧客の第3検索クエリと同じような検索クエリを入力したユーザに対して配信する広告コンテンツを決定し、事業者Yに提案する。このように、事業者Xは、
図1に示す例の抽出システム1により、事業者Yの優良顧客を獲得するために有効な提案をすることができる。したがって、事業者Xは、
図1に示す例の抽出システム1により、事業者Yの既存顧客へのアップセル、クロスセルを促すことができる。
【0027】
また、
図1に示す例の抽出システム1は、以下のような前提のサービスに適用できる。具体的には、CRM業務の代行サービスを提供する事業者Xと新規顧客の獲得を希望する事業者Zがいるとする。この場合、事業者Xは、事業者Zの既存顧客の顧客リストと事業者Zの顧客ではない一般ユーザのリストとに基づいて、抽出システム1を適用する。具体的には、事業者Zの既存顧客の検索クエリの事業者Zの既存顧客における出現確率の重みから事業者Zの顧客ではない一般ユーザの検索クエリの事業者Zの顧客ではない一般ユーザにおける出現確率の重みを引くことにより、事業者Zの既存顧客に特有の検索クエリを第3検索クエリとして抽出する。そして、事業者Xは、事業者Zの顧客ではない一般ユーザのうち、事業者Zの既存顧客の第3検索クエリと同じような検索クエリを入力したユーザを事業者Zの広告コンテンツの配信先として決定し、事業者Zに提案する。また、事業者Xは、事業者Zの既存顧客の第3検索クエリに基づいて、事業者Zの既存顧客の第3検索クエリと同じような検索クエリを入力した一般ユーザに対して配信する広告コンテンツを決定し、事業者Zに提案する。このように、事業者Xは、
図1に示す例の抽出システム1により、事業者Zの新規顧客を獲得するために有効な提案をすることができる。したがって、事業者Xは、
図1に示す例の抽出システム1により、事業者Zの新規顧客獲得を促すことができる。
【0028】
また、
図1に示す例では、抽出装置100が、ユーザの特徴量として、ユーザによって入力された検索クエリのそのユーザが属するユーザ群における出現確率の重みに基づいて特定のユーザ群の特徴を抽出する例を示したが、ユーザの特徴量として、ユーザの購入商品、利用サービス、または検索サイト等のそのユーザが属するユーザ群における出現確率の重みに基づいて特定のユーザ群の特徴を抽出してもよい。また、抽出装置100は、ユーザのデモグラフィック属性やサイコグラフィック属性、行動属性等のそのユーザが属するユーザ群における出現確率の重みに基づいて特定のユーザ群の特徴を抽出してもよい。なお、抽出装置100は、出現確率の重みではなく、ユーザの検索クエリ、購入商品、利用サービス、検索サイト、デモグラフィック属性、サイコグラフィック属性、または行動属性等に基づいて特定のユーザ群の特徴を抽出してもよい。
【0029】
また、
図1に示す例では、抽出装置100が、ユーザの特徴量として、ユーザによって入力された検索クエリそのものを用いる例を示したが、ユーザによって入力された検索クエリのグループを用いてもよい。例えば、抽出装置100は、ひらがなの「すいか」とカタカナの「スイカ」と漢字の「西瓜」を検索クエリのグループとして、グループの検索クエリは同義のものとして扱ってもよい。
【0030】
また、
図1に示す例では、抽出装置100と広告配信サーバ30とは、別装置である場合を示したが、抽出装置100と広告配信サーバ30とが一体であってもよい。例えば、抽出装置100は、広告配信サーバ30の機能を有し、広告配信サーバ30の広告配信、および特定のユーザ群の検索クエリの抽出と広告コンテンツの配信先の決定、配信対象の広告コンテンツの決定の両方を行ってもよい。
【0031】
〔2.抽出装置の構成〕
次に、
図2を用いて、実施形態に係る抽出装置100について説明する。
図2は、実施形態に係る抽出装置100の構成例を示す図である。
図2に示すように、抽出装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0032】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、例えば、検索サーバ20、広告配信サーバ30との間で情報の送受信を行う。
【0033】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、
図2に示すように、検索クエリ記憶部121を有する。
【0034】
(検索クエリ記憶部121)
検索クエリ記憶部121は、検索サーバ20から取得したユーザの検索クエリに関する各種情報を記憶する。
図3に、実施形態に係る検索クエリ記憶部121の一例を示す。
図3に示す例では、検索クエリ記憶部121は、「ユーザID」、「検索クエリ」、「日時」といった項目を有する。
【0035】
図3に示す例において、1レコード目は、ユーザID「U1」により識別されるユーザ(ユーザU1)が日時「2017年8月1日10:00」に検索クエリ「Q1」を検索したことを示す。
【0036】
(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、抽出装置100内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0037】
図2に示すように、制御部130は、取得部131と、抽出部132と、決定部133とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0038】
(取得部131)
取得部131は、第1グループの第1ユーザの第1特徴量と第2グループの第2ユーザの特徴量であって第1特徴量と異なる第2特徴量を取得する。取得部131は、第1特徴量として、第1グループの第1ユーザと第1ユーザに関する各要素との各関連度を取得し、第2特徴量として、第2グループの第2ユーザと第2ユーザに関する各要素との各関連度を取得する。具体的には、取得部131は、第1特徴量および第2特徴量として、第1グループの第1ユーザおよび第2グループの第2ユーザが入力した検索クエリに関する情報を取得する。例えば、取得部131は、第1特徴量として、第1グループの第1ユーザが検索クエリを入力した回数に基づいて、第1ユーザと第1ユーザに関する各検索クエリとの各関連度として、第1検索クエリの第1グループにおける出現確率の重みを取得する。また、取得部131は、第2特徴量として、第2グループの第2ユーザが検索クエリを入力した回数に基づいて、第2検索クエリの第2グループにおける出現確率の重みを取得する。
【0039】
取得部131は、ユーザに関する各要素として、ユーザが入力した検索クエリの他に、ユーザが購入した購入商品、ユーザが利用したサービス、または、ユーザが閲覧したサイト等を取得してもよい。例えば、取得部131は、第1特徴量として、第1グループの第1ユーザが商品を購入した回数に基づいて、第1ユーザと第1ユーザに関する各購入商品との各関連度として、購入商品の第1グループにおける購入確率の重みを取得してもよい。例えば、取得部131は、第1特徴量として、第1グループの第1ユーザがサービスを利用した回数に基づいて、第1ユーザと第1ユーザに関する各利用サービスとの各関連度として、利用サービスの第1グループにおける利用確率の重みを取得してもよい。例えば、取得部131は、第1特徴量として、第1グループの第1ユーザがサイトを閲覧した回数に基づいて、第1ユーザと第1ユーザに関する各閲覧サイトとの各関連度として、閲覧サイトの第1グループにおける閲覧確率の重みを取得してもよい。取得部131は、第1特徴量と同様にして、第2特徴量を取得する。
【0040】
具体的には、取得部131は、第1グループの第1ユーザが入力した第1検索クエリと第2グループの第2ユーザが入力した検索クエリであって第1検索クエリと異なる第2検索クエリの送信要求を検索サーバ20に送信する。続いて、取得部131は、第1ユーザに関する各要素として、第1ユーザが入力した第1検索クエリを検索サーバ20から取得する。また、取得部131は、第2ユーザに関する各要素として、第2ユーザが入力した第2検索クエリを検索サーバ20から取得する。
【0041】
続いて、取得部131は、第1検索クエリの第1グループにおける出現確率の重みを算出する。具体的には、取得部131は、第1検索クエリを単純ベイズ分類器に入力して、第1グループの第1ユーザのみによって検索される確率が高いか否かに関する重みを算出する。そして、取得部131は、第1グループの第1ユーザの第1特徴量として、第1検索クエリの第1グループにおける出現確率の重みを取得する。
【0042】
続いて、取得部131は、第2検索クエリの第2グループにおける出現確率の重みを算出する。具体的には、取得部131は、第2検索クエリを単純ベイズ分類器に入力して、第2グループの第2ユーザのみによって検索される確率が高いか否かに関する重みを算出する。そして、取得部131は、第2グループの第2ユーザの第2特徴量として、第2検索クエリの第2グループにおける出現確率の重みを取得する。
【0043】
取得部131は、第2特徴量として、第1グループを包含するグループのユーザの特徴量を取得する。例えば、第1グループが優良顧客、第2グループが優良顧客を包含する既存顧客であるとする。この場合、取得部131は、第1特徴量として、優良顧客の検索クエリの優良顧客における出現確率の重みを取得する。そして、取得部131は、第2特徴量として、優良顧客を包含する既存顧客の検索クエリの優良顧客を包含する既存顧客における出現確率の重みを取得する。また、例えば、第1グループが既存顧客、第2グループが顧客ではない一般ユーザであるとする。この場合、取得部131は、第1特徴量として、既存顧客の検索クエリの既存顧客における出現確率の重みを取得する。そして、取得部131は、第2特徴量として、顧客ではない一般ユーザの検索クエリの顧客ではない一般ユーザにおける出現確率の重みを取得する。
【0044】
取得部131は、第2特徴量として、第1特徴量を取得したのとは異なる時期における第1グループの第1ユーザの特徴量を取得する。例えば、取得部131は、第1グループの第1ユーザの第1検索クエリの第1グループにおける出現確率の重みを2017年9月に取得する。そして、取得部131は、第1グループの第1ユーザの第2検索クエリの第1グループにおける出現確率の重みを2017年12月に取得する。
【0045】
(抽出部132)
抽出部132は、取得部131によって取得された第1特徴量と取得部131によって取得された第2特徴量とに基づいて得られる特徴量である第1グループの第1ユーザの第3特徴量を抽出する。抽出部132は、取得部131によって取得された第1特徴量と取得部131によって取得された第2特徴量との差分をとることにより、第3特徴量を抽出する。具体的には、抽出部132は、取得部131によって取得された第1グループの第1ユーザと第1ユーザに関する各要素との各関連度と第2グループの第2ユーザと第2ユーザに関する各要素との各関連度との差分をとることにより、第1グループの第1ユーザの第3特徴量として、各要素の各関連度の差分を抽出する。そして、抽出部132は、各要素の各関連度の差分の値が大きい要素を第3要素として抽出する。そして、抽出装置100は、第1グループの第1ユーザに特有の要素を第3要素として抽出する。
【0046】
例えば、抽出部132は、第1特徴量である第1検索クエリの第1グループにおける出現確率の重みと第2特徴量である第2検索クエリの第2グループにおける出現確率の重みとの差分をとることにより、第1グループの第1ユーザの第3特徴量として各検索クエリの出現確率の重みの差分を抽出する。続いて、抽出部132は、抽出した出現確率の重みの差分の値が大きい順に検索クエリを並べる。抽出部132は、抽出した出現確率の重みの差分の値が大きい順に検索クエリに順位を付けてもよい。そして、抽出部132は、各検索クエリの出現確率の重みの差分の値が大きい検索クエリを第3検索クエリとして抽出する。
【0047】
抽出部132は、抽出した出現確率の重みの差分の値が、正の値であって絶対値が大きい検索クエリほど、第1グループの第1ユーザのみによって検索される確率が高い検索クエリであるから、第1グループの第1ユーザに特有の検索クエリであると判定する。すなわち、抽出部132は、出現確率の重みの差分の値が、正の値であって絶対値が大きいほど、第1グループの第1ユーザに特有の検索クエリであると判定する。したがって、抽出装置100は、出現確率の重みの差分の値が正の値であって絶対値が大きい検索クエリを第3検索クエリとして抽出する。
【0048】
なお、抽出部132は、抽出した出現確率の重みの差分の値が、負の値であって絶対値が大きい検索クエリほど、第1グループの第1ユーザのみによって検索される確率が低い検索クエリであるから、第1グループの第1ユーザに特有の検索クエリではないと判定する。すなわち、抽出部132は、出現確率の重みの差分の値が、負の値であって絶対値が大きいほど、第1グループの第1ユーザに特有の検索クエリではないと判定する。したがって、抽出装置100は、出現確率の重みの差分の値が負の値であって絶対値が大きい検索クエリは第3検索クエリとして抽出しない。
【0049】
また、抽出部132は、抽出した出現確率の重みの差分の値が0である場合は、第1グループの第1ユーザのみによって検索される確率と第2グループの第2ユーザのみによって検索される確率が同じ検索クエリであるから、第1グループの第1ユーザに特有の検索クエリではないと判定する。すなわち、抽出部132は、出現確率の重みの差分の値が0である場合は、第1グループの第1ユーザに特有の検索クエリではないと判定する。したがって、抽出装置100は、出現確率の重みの差分の値が0である検索クエリは第3検索クエリとして抽出しない。
【0050】
例えば、抽出部132は、取得部131によって取得された優良顧客の検索クエリの優良顧客における出現確率の重みと取得部131によって取得された既存顧客の検索クエリの既存顧客における出現確率の重みとの差分をとることにより、優良顧客の検索クエリの出現確率の重みの差分を抽出する。そして、抽出部132は、各検索クエリの出現確率の重みの差分の値が大きい検索クエリを優良顧客の第3検索クエリとして抽出する。
【0051】
例えば、抽出部132は、取得部131によって取得された既存顧客の検索クエリの既存顧客における出現確率の重みと取得部131によって取得された顧客ではない一般ユーザの検索クエリの顧客ではない一般ユーザにおける出現確率の重みとの差分をとることにより、既存顧客の検索クエリの出現確率の重みの差分を抽出する。そして、抽出部132は、各検索クエリの出現確率の重みの差分の値が大きい検索クエリを既存顧客の第3検索クエリとして抽出する。
【0052】
(決定部133)
決定部133は、抽出部132によって抽出された第3特徴量に基づいてコンテンツの配信を制御する。具体的には、決定部133は、抽出部132によって抽出された第3特徴量に基づいて抽出された第3検索クエリに基づいてコンテンツの配信を制御する。例えば、広告コンテンツに設定されたキーワードに関する情報の送信要求を広告配信サーバ30に送る。続いて、決定部133は、広告コンテンツに設定されたキーワードに関する情報を広告配信サーバ30から取得する。そして、決定部133は、広告コンテンツに設定されたキーワードと抽出部132によって抽出された第3検索クエリとに基づいてコンテンツの配信を制御する。
【0053】
決定部133は、抽出部132によって抽出された第3特徴量に基づいて配信対象のコンテンツを決定する。具体的には、決定部133は、抽出部132によって抽出された第3特徴量に基づいて抽出された第3検索クエリに基づいて配信対象のコンテンツを決定する。決定部133は、取得部131によって取得された第2特徴量と抽出部132によって抽出された第3特徴量とに基づいて、第3特徴量と類似する特徴量を有する第2グループのユーザに対する配信対象のコンテンツを決定する。例えば、決定部133は、取得部131によって取得された第2検索クエリと抽出部132によって抽出された第3検索クエリとに基づいて、第3検索クエリと類似する検索クエリを入力した第2グループの第2ユーザに対する配信対象のコンテンツを決定する。例えば、決定部133は、第3検索クエリと類似するキーワードが設定された広告コンテンツを第2グループの第2ユーザに対する配信対象のコンテンツとして決定する。
【0054】
また、決定部133は、抽出部132によって抽出された第3特徴量に基づいてコンテンツの配信先を決定する。具体的には、決定部133は、抽出部132によって抽出された第3特徴量に基づいて抽出された第3検索クエリに基づいてコンテンツの配信先を決定する。決定部133は、取得部131によって取得された第2特徴量と抽出部132によって抽出された第3特徴量とに基づいて、第3特徴量と類似する特徴量を有する第2グループのユーザをコンテンツの配信先として決定する。例えば、決定部133は、取得部131によって取得された第2検索クエリと抽出部132によって抽出された第3検索クエリとに基づいて、第3検索クエリと類似する検索クエリを入力した第2グループの第2ユーザをコンテンツの配信先として決定する。
【0055】
また、決定部133は、第3検索クエリのなかから、重み順に並べた順位が所定の順位以内である検索クエリに基づいて、配信対象の広告コンテンツを決定してもよい。例えば、決定部133は、配信対象の広告コンテンツとして、重み順に並べた順位が所定の順位以内であるような第3検索クエリと類似するキーワードが設定されている広告コンテンツを決定してもよい。また、決定部133は、第3検索クエリのなかから、重み順に並べた順位が所定の順位以内である検索クエリに基づいて、広告コンテンツの配信先を決定してもよい。
【0056】
また、決定部133は、第3検索クエリのなかから、算出した重みが所定の閾値以上である検索クエリに基づいて、配信対象の広告コンテンツを決定してもよい。例えば、決定部133は、配信対象の広告コンテンツとして、算出した重みが所定の閾値以上であるような第3検索クエリと類似するキーワードが設定されている広告コンテンツを決定してもよい。また、決定部133は、第3検索クエリのなかから、算出した重みが所定の閾値以上である検索クエリに基づいて、広告コンテンツの配信先を決定してもよい。
【0057】
また、決定部133は、抽出部132によって抽出された優良顧客の第3検索クエリに基づいて配信対象の広告コンテンツを決定してもよい。例えば、決定部133は、優良顧客の第3検索クエリに基づいて、優良顧客の第3検索クエリと同じような検索クエリを入力した既存顧客に対して配信する広告コンテンツを決定してもよい。また、決定部133は、抽出部132によって抽出された優良顧客の第3検索クエリに基づいて広告コンテンツの配信先を決定してもよい。例えば、決定部133は、既存顧客のうち、優良顧客の第3検索クエリと同じような検索クエリを入力した既存顧客を広告コンテンツの配信先として決定してもよい。
【0058】
また、決定部133は、抽出部132によって抽出された既存顧客の第3検索クエリに基づいて配信対象の広告コンテンツを決定してもよい。例えば、決定部133は、既存顧客の第3検索クエリに基づいて、既存顧客の第3検索クエリと同じような検索クエリを入力した顧客ではない一般ユーザに対して配信する広告コンテンツを決定してもよい。また、決定部133は、抽出部132によって抽出された既存顧客の第3検索クエリに基づいて広告コンテンツの配信先を決定してもよい。例えば、決定部133は、顧客ではない一般ユーザのうち、既存顧客の第3検索クエリと同じような検索クエリを入力した顧客ではない一般ユーザを広告コンテンツの配信先として決定してもよい。
【0059】
〔3.抽出処理のフロー〕
次に、
図5を用いて、実施形態に係る抽出処理の手順について説明する。
図5は、実施形態に係る抽出処理手順を示すフローチャートである。
【0060】
図5に示すように、抽出装置100は、第1グループのユーザの検索クエリを取得する(ステップS101)。
【0061】
続いて、抽出装置100は、各検索クエリの第1グループにおける出現確率の重みを算出する(ステップS102)。
【0062】
続いて、抽出装置100は、第2グループのユーザの検索クエリを取得する(ステップS103)。
【0063】
続いて、抽出装置100は、各検索クエリの第2グループにおける出現確率の重みを算出する(ステップS104)。
【0064】
続いて、抽出装置100は、各検索クエリの第1グループにおける出現確率の重みから各検索クエリの第2グループにおける出現確率の重みを引いて、各検索クエリの出現確率の重みの差分を抽出する(ステップS105)。
【0065】
〔4.変形例〕
上述した実施形態に係る抽出システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、抽出システム1の他の実施形態について説明する。
【0066】
〔4−1.差分ベクトルの大きさに基づいてターゲットユーザを決定する〕
図4を用いて、変形例に係る決定処理の一例について説明する。
図4は、変形例に係る決定処理の一例を示す図である。
図4では、抽出装置100が、所定のグループのユーザの特徴量ベクトルと他のグループのユーザの特徴量ベクトルとの差分ベクトルの大きさに基づいて、ターゲットユーザを決定する例を示す。
【0067】
図4に示す例は、第1グループ〜第3グループのユーザの検索クエリの各グループにおける出現確率の重みがN次元の特徴量ベクトル空間に点で表されている。
図4に示す縦軸や横軸は、具体的には、個々の検索クエリであってもよいし、あるいは、同義と扱われる検索クエリのグループであってもよい。
図4に示す縦軸や横軸は、例えば、「野球」という一つの検索クエリであってもよいし、あるいは、ひらがなの「すいか」とカタカナの「スイカ」と漢字の「西瓜」を同義のものとして扱う検索クエリのグループであってもよい。
【0068】
抽出装置100は、第1グループの第1ユーザの特徴量ベクトルとして、事業者Zの既存顧客の検索クエリの事業者Zの既存顧客における出現確率の重みを取得する。また、抽出装置100は、第2グループの第2ユーザの特徴量ベクトルとして、事業者Zの競合他社である事業者Wの既存顧客の検索クエリの事業者Wの既存顧客における出現確率の重みを取得する。また、抽出装置100は、第3グループのユーザの特徴量ベクトルとして、事業者Zの競合他社である事業者Vの既存顧客の検索クエリの事業者Vの既存顧客における出現確率の重みを取得する。
【0069】
続いて、抽出装置100は、事業者Zの既存顧客の検索クエリの事業者Zの既存顧客における出現確率の重みと事業者Wの既存顧客の検索クエリの事業者Wの既存顧客における出現確率の重みとの差分をとることにより、両者の差分ベクトルを算出する。また、抽出装置100は、事業者Zの既存顧客の検索クエリの事業者Zの既存顧客における出現確率の重みと事業者Vの既存顧客の検索クエリの事業者Vの既存顧客における出現確率の重みとの差分をとることにより、両者の差分ベクトルを算出する。
【0070】
図4に示すとおり、第1グループである事業者Zの既存顧客の検索クエリの事業者Zの既存顧客における出現確率の重みと第2グループである事業者Wの既存顧客の検索クエリの事業者Wの既存顧客における出現確率の重みとの差分ベクトルの大きさよりも、第1グループである事業者Zの既存顧客の検索クエリの事業者Zの既存顧客における出現確率の重みと第3グループである事業者Vの既存顧客の検索クエリの事業者Vの既存顧客における出現確率の重みとの差分ベクトルの大きさの方が小さい。
【0071】
したがって、抽出装置100は、事業者Zの既存顧客と事業者Wの既存顧客との類似度よりも、事業者Zの既存顧客と事業者Vの既存顧客との類似度の方が高いと判定する。そして、抽出装置100は、事業者Zの競合他社の既存顧客を新規顧客として獲得するため、事業者Zの既存顧客との類似度がより高い事業者Vの既存顧客をターゲットユーザとして決定する。
【0072】
〔4−2.検索クエリそのものの差分に基づいて決定する〕
図1に示す例では、抽出装置100は、検索クエリごとに出現確率の重みの差分を抽出する例を示したが、検索クエリそのものの差分を抽出してもよい。具体的には、抽出装置100は、第1グループの第1ユーザによって入力された第1検索クエリを検索サーバ20から取得する。例えば、抽出装置100は、第1検索クエリとして、検索クエリQ11、検索クエリQ12、…、検索クエリQ15、検索クエリQ16、検索クエリQ17、…、検索クエリQ20、…を検索サーバ20から取得する。
【0073】
続いて、抽出装置100は、第2グループの第2ユーザによって入力された第2検索クエリを検索サーバ20から取得する。例えば、抽出装置100は、第2検索クエリとして、検索クエリQ16、検索クエリQ17、…、検索クエリQ20、…を検索サーバ20から取得する。
【0074】
続いて、抽出装置100は、第1グループの第1ユーザの第1検索クエリから第2グループの第2ユーザの第2検索クエリと共通する検索クエリを除くことにより、第1グループの第1ユーザの第3検索クエリを抽出する。例えば、抽出装置100は、第1グループの第1ユーザの第3検索クエリとして、検索クエリQ11、検索クエリQ12、…、検索クエリQ15、…を抽出する。このように、抽出装置100は、第1グループの第1ユーザの第1検索クエリと第2グループの第2ユーザの第2検索クエリとの差分をとることにより、第1グループの第1ユーザの第3検索クエリを抽出する。
【0075】
続いて、抽出装置100は、抽出した第1グループの第1ユーザの第3検索クエリに基づいて、広告コンテンツの配信先を決定する。
【0076】
また、抽出装置100は、抽出した第1グループの第1ユーザの第3検索クエリに関連する広告コンテンツを配信対象の広告コンテンツとして決定する。このように、抽出装置100は、抽出した第1グループの第1ユーザの第3検索クエリに基づいて、配信対象の広告コンテンツを決定する。
【0077】
続いて、抽出装置100は、第1グループの第1ユーザの第3検索クエリに基づいて決定した広告コンテンツの配信先と広告コンテンツとを広告配信サーバ30に送信する。
【0078】
上述したように、抽出装置100は、第1グループの第1ユーザの第1特徴量として、第1グループの第1ユーザによって入力された検索クエリを取得する。また、抽出装置100は、第2グループの第2ユーザの特徴量であって第1特徴量と異なる第2特徴量として、第2グループの第2ユーザによって入力された検索クエリを取得する。そして、抽出装置100は、第1グループの第1ユーザの第1検索クエリと第2グループの第2ユーザの第2検索クエリとの差分をとることにより、第1グループの第1ユーザの第3検索クエリを抽出する。
【0079】
このように、抽出装置100は、第1グループの第1ユーザの第1検索クエリから第2グループの第2ユーザの第2検索クエリと共通する検索クエリを除くことにより、第1グループの第1ユーザに特有の検索クエリである第3検索クエリを高精度に抽出することができる。また、第1グループの第1ユーザに特有の検索クエリである第3検索クエリは、第1グループの第1ユーザの特徴を反映する情報である。したがって、抽出装置100は、特定のユーザ群の特徴を高精度に抽出することができる。
【0080】
〔5.効果〕
上述してきたように、実施形態に係る抽出装置100は、取得部131と、抽出部132とを有する。取得部131は、第1グループの第1ユーザの第1特徴量と第2グループの第2ユーザの特徴量であって第1特徴量と異なる第2特徴量を取得する。抽出部132は、取得部131によって取得された第1特徴量と取得部131によって取得された第2特徴量とに基づいて得られる特徴量である第1グループの第1ユーザの第3特徴量を抽出する。また、抽出部132は、取得部131によって取得された第1特徴量と取得部131によって取得された第2特徴量との差分をとることにより、第3特徴量を抽出する。
【0081】
このように、実施形態に係る抽出装置100は、第1グループの第1ユーザの第1特徴量から第2グループの第2ユーザの第2特徴量と共通する特徴量を除くことにより、第1グループの第1ユーザに特有の第3特徴量を高精度に抽出することができる。また、第1グループの第1ユーザに特有の第3特徴量は、第1グループの第1ユーザの特徴を反映する情報である。したがって、抽出装置100は、特定のユーザ群の特徴を高精度に抽出することができる。
【0082】
また、取得部131は、第1特徴量として、第1グループの第1ユーザと第1ユーザに関する各要素との各関連度を取得し、第2特徴量として、第2グループの第2ユーザと第2ユーザに関する各要素との各関連度を取得する。また、抽出部132は、取得部131によって取得された第1グループにおける各関連度と第2グループにおける各関連度との差分をとることにより、第1グループの第1ユーザの第3特徴量を抽出する。
【0083】
このように、実施形態に係る抽出装置100は、グループ間で各要素の各関連度の差分を抽出することにより、第1グループの第1ユーザのみに関連度が高い第3要素を抽出することができる。これにより、抽出装置100は、第1グループの第1ユーザに特有の要素である第3要素を高精度に抽出することができる。また、第1グループの第1ユーザに特有の要素である第3要素は、第1グループの第1ユーザの特徴を反映する情報である。したがって、抽出装置100は、特定のユーザ群の特徴を高精度に抽出することができる。
【0084】
また、取得部131は、第2特徴量として、第1グループを包含するグループのユーザの特徴量を取得する。
【0085】
これにより、抽出装置100は、第2グループに包含される第1グループの第1ユーザの特徴を高精度に抽出することができる。
【0086】
また、取得部131は、第2特徴量として、第1特徴量を取得したのとは異なる時期における第1グループの第1ユーザの特徴量を取得する。
【0087】
これにより、抽出装置100は、同一グループのユーザについて時期のトレンドを反映した特徴を高精度に抽出することができる。
【0088】
また、実施形態に係る抽出装置100は、抽出部132によって抽出された第3特徴量に基づいてコンテンツの配信を制御する決定部133をさらに有する。具体的には、決定部133は、抽出部132によって抽出された第3特徴量に基づいて配信対象のコンテンツを決定する。また、決定部133は、抽出部132によって抽出された第3特徴量に基づいてコンテンツの配信先を決定する。例えば、決定部133は、取得部131によって取得された第2特徴量と抽出部132によって抽出された第3特徴量とに基づいて、第3特徴量と類似する特徴量を有する第2グループの第2ユーザに対する配信対象のコンテンツを決定する。また、決定部133は、取得部131によって取得された第2特徴量と抽出部132によって抽出された第3特徴量とに基づいて、第3特徴量と類似する特徴量を有する第2グループの第2ユーザをコンテンツの配信先として決定する。
【0089】
これにより、抽出装置100は、第2グループの第2ユーザのうち、第1グループの第1ユーザと類似する特徴を有するユーザをターゲットユーザとして決定することができる。したがって、抽出装置100は、第2グループの第2ユーザのうち、第1グループの第1ユーザと類似する特徴を有するユーザをターゲットユーザとして決定することにより、第2グループから第1グループの新しいユーザを獲得することができる。そして、抽出装置100は、第2グループの第2ユーザのうち、第1グループの第1ユーザと類似する特徴を有するユーザをターゲットユーザとして決定することにより、第2グループから第1グループへのアップセル、クロスセルを促すことができる。
【0090】
また、取得部131は、第1特徴量および第2特徴量として、第1グループの第1ユーザおよび第2グループの第2ユーザが入力した検索クエリに関する情報を取得する。
【0091】
検索クエリはユーザのトレンドを高精度に反映する。したがって、抽出装置100は、特定のユーザ群のトレンドを反映する特徴を高精度に抽出することができる。
【0092】
〔6.ハードウェア構成〕
また、上述してきた実施形態に係る抽出装置100は、例えば
図6に示すような構成のコンピュータ1000によって実現される。
図6は、抽出装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0093】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0094】
HDD1400は、CPU1100によって実行されるプログラム、及び、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0095】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0096】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、係るプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0097】
例えば、コンピュータ1000が実施形態に係る抽出装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムまたはデータを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムまたはデータを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムまたはデータを取得してもよい。
【0098】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0099】
〔7.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0100】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0101】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0102】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、抽出部は、抽出手段や抽出回路に読み替えることができる。