IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-165686学習装置、学習方法、および学習プログラム
<>
  • 特開-学習装置、学習方法、および学習プログラム 図1
  • 特開-学習装置、学習方法、および学習プログラム 図2
  • 特開-学習装置、学習方法、および学習プログラム 図3
  • 特開-学習装置、学習方法、および学習プログラム 図4
  • 特開-学習装置、学習方法、および学習プログラム 図5
  • 特開-学習装置、学習方法、および学習プログラム 図6
  • 特開-学習装置、学習方法、および学習プログラム 図7
  • 特開-学習装置、学習方法、および学習プログラム 図8
  • 特開-学習装置、学習方法、および学習プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165686
(43)【公開日】2024-11-28
(54)【発明の名称】学習装置、学習方法、および学習プログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20241121BHJP
   G06Q 30/0201 20230101ALI20241121BHJP
【FI】
G06F16/906
G06Q30/0201
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023082077
(22)【出願日】2023-05-18
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】國▲吉▼ 翔平
【テーマコード(参考)】
5B175
5L030
5L049
【Fターム(参考)】
5B175FA03
5L030BB02
5L049BB02
(57)【要約】
【課題】モデルに基づくCV予測値の精度の低下を抑制する。
【解決手段】学習装置100は、所定の利用者に関する複数の利用者情報のうち所定の種別の利用者情報を抽出する。学習装置100は、抽出された所定の種別の利用者情報を複数のカテゴリに分類する。学習装置100は、分類の結果を用いて、ユーザの行動に基づくカテゴリごとの強度を算出する。学習装置100は、複数の利用者情報とカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。
【選択図】図2
【特許請求の範囲】
【請求項1】
所定の利用者に関する複数の利用者情報のうち所定の種別の利用者情報を抽出する抽出部と、
前記抽出部により抽出された前記所定の種別の利用者情報を複数のカテゴリに分類する分類部と、
前記分類部による分類の結果を用いて、利用者の行動に基づくカテゴリごとの強度を算出する算出部と、
前記複数の利用者情報と前記カテゴリごとの強度とに基づいて、前記所定の利用者を分類する分類モデルを学習する学習部と、
を備えることを特徴とする学習装置。
【請求項2】
前記学習部は、前記複数の利用者情報と、前記カテゴリごとの強度とのそれぞれについて重要度を推定し、
前記重要度が所定の条件を満たす前記複数の利用者情報もしくは前記カテゴリごとの強度の少なくともどちらか一方を用いて、前記分類モデルを学習する、
ことを特徴とする請求項1に記載の学習装置。
【請求項3】
前記学習部は、リッジ回帰またはラッソ回帰に基づいて、前記複数の利用者情報と、前記カテゴリごとの強度とのそれぞれについて重要度を推定する、
ことを特徴とする請求項2に記載の学習装置。
【請求項4】
前記学習部は、時系列で変化する前記カテゴリごとの強度を用いて、前記分類モデルを学習する、
ことを特徴とする請求項1または2に記載の学習装置。
【請求項5】
前記抽出部は、前記所定の種別の利用者情報としてウェブコンテンツの閲覧履歴を抽出し、
前記分類部は、前記ウェブコンテンツの閲覧履歴を複数のウェブコンテンツに係るカテゴリに分類し、
前記算出部は、アクセス回数と予測CVRのうち少なくともいずれか一方を前記強度として、前記カテゴリごとの強度を算出する、
ことを特徴とする請求項1に記載の学習装置。
【請求項6】
前記抽出部は、前記所定の種別の利用者情報として検索クエリを抽出し、
前記分類部は、前記検索クエリを複数の検索クエリに係るカテゴリに分類し、
前記算出部は、入力回数を前記強度として、前記カテゴリごとの強度を算出する、
ことを特徴とする請求項1に記載の学習装置。
【請求項7】
前記抽出部は、前記所定の種別の利用者情報として購買履歴、クリックしたコンテンツ、アンケートの回答結果、訪問場所、電子機器の買い替え意欲のうち少なくともいずれか1つを抽出する、
ことを特徴とする請求項1に記載の学習装置。
【請求項8】
前記算出部は、CV予測の指標または前記所定の利用者の興味の強度のうち少なくともいずれか一方を前記強度として、前記カテゴリごとの強度を算出する、
ことを特徴とする請求項1、2、5、6、7のいずれか1つに記載の学習装置。
【請求項9】
所定の利用者に関する複数の利用者情報のうち所定の種別の利用者情報を抽出する抽出工程と、
前記抽出工程により抽出された前記所定の種別の利用者情報を複数のカテゴリに分類する分類工程と、
前記分類工程による分類の結果を用いて、利用者の行動に基づくカテゴリごとの強度を算出する算出工程と、
前記複数の利用者情報と前記カテゴリごとの強度とに基づいて、前記所定の利用者を分類する分類モデルを学習する学習工程と、
を含むことを特徴とする学習方法。
【請求項10】
所定の利用者に関する複数の利用者情報のうち所定の種別の利用者情報を抽出する抽出手順と、
前記抽出手順により抽出された前記所定の種別の利用者情報を複数のカテゴリに分類する分類手順と、
前記分類手順による分類の結果を用いて、利用者の行動に基づくカテゴリごとの強度を算出する算出手順と、
前記複数の利用者情報と前記カテゴリごとの強度とに基づいて、前記所定の利用者を分類する分類モデルを学習する学習手順と、
をコンピュータに実行させることを特徴とする学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、学習方法、および学習プログラムに関する。
【背景技術】
【0002】
インターネットを利用するユーザの属性や行動履歴に関する情報に基づいて、ユーザの行動を推定する技術が知られている。例えば、ユーザの複数の検索行動の内容に基づき導出した複数の検索行動の間の類似度を用いて、購買等といった各種コンバージョン(以降は「CV」と表記)の予測値を算出する技術が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-020939号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した技術では、モデルに基づくCV予測値の精度が低下する場合があるという課題があった。例えば、従来は、ユーザの属性や行動履歴に関する情報を学習データとしてモデルを訓練し、当該モデルに基づいてCV予測値を算出する。しかしながら、モデルに基づき算出されたCV予測値に、実際にはCVに至らないユーザに係る予測値が偽陽性として含まれる場合があり、結果としてCV予測値の精度が低下するという場合があった。
【課題を解決するための手段】
【0005】
上記の課題を解決し目的を達成するために、本発明の学習装置は、所定の利用者に関する複数の利用者情報のうち所定の種別の利用者情報を抽出する抽出部と、前記抽出部により抽出された前記所定の種別の利用者情報を複数のカテゴリに分類する分類部と、前記分類部による分類の結果を用いて、利用者の行動に基づくカテゴリごとの強度を算出する算出部と、前記複数の利用者情報と前記カテゴリごとの強度とに基づいて、前記所定の利用者を分類する分類モデルを学習する学習部と、を備えることを特徴とする。
【発明の効果】
【0006】
本発明によれば、モデルに基づくCV予測値の精度の低下を抑制する効果を奏する。
【図面の簡単な説明】
【0007】
図1図1は、本実施形態に係るモデルの学習と予測の概要を示す図である。
図2図2は、本実施形態に係る学習装置の構成例を示す図である。
図3図3は、本実施形態に係る利用者情報の一例を示すテーブル図である。
図4図4は、本実施形態に係るカテゴリごとのCV数の一例を示すテーブル図である。
図5図5は、本実施形態に係る所定の種別のカテゴリおよび強度分類の一例を示すテーブル図である。
図6図6は、本実施形態に係るCVスコアの比較の一例を示すテーブル図である。
図7図7は、変形例に係る学習に用いるCV予測スコアの一例を示すテーブル図である。
図8図8は、本実施形態に係るモデルの学習手順の一例を示すフローチャートである。
図9図9は、実施形態に係る学習装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0008】
以下、本実施形態について図面を参照しつつ、詳細に説明する。なお、以降の説明は、本実施形態に係る学習装置、学習方法、および学習プログラムを限定するものではない。また、以下の本実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。
【0009】
〔1.序論〕
まず、図1を用いて、本実施形態に係るモデルの学習、および当該モデルに基づくCV予測の概要を説明する。図1は、本実施形態に係るモデルの学習と予測の概要を示す図である。
【0010】
従来、インターネットやインターネット上のサービスを利用する利用者に関する情報(以降、単に「利用者情報」と表記)を説明変数として、所定のCV予測値を目的変数として出力するモデルに基づくCV予測が行われる場合がある。なお、本実施形態においてCV予測は、コンテンツの閲覧やクリック、規定のページ(成果地点)への到達、購入完了、資料請求完了等の利用者の行動の結果であるCVが、どの程度発生するかを予測することを意味する。
【0011】
しかしながら、モデルに基づくCV予測は、様々な理由で精度が低下することが知られている。例えば、図1の(1-1)および(1-2)に示すように、利用者Aと利用者Bは、性別「男性」、年齢「25」、職業「会社員」、興味関心「自動車」等のように利用者間の属性情報や特徴量が同一または類似する場合にCV予測の精度が低下する場合があった。このような状況において、利用者情報に基づいてCV予測を行う場合、本来CVが発生しない利用者であっても利用者情報の類似等に起因して「CVが発生する可能性がある」等の偽陽性の予測がされる場合がある。
【0012】
他方で、上記した偽陽性に起因するCV予測の精度低下は、対象とする業界、商材の種類等のカテゴリによって変動することが知られており、従来のモデルに基づくCV予測では、複数の対象について一律に精度の高いCV予測の結果を得ることが難しい。そのため、CV予測精度の向上のためカテゴリごとにモデルの精度が高まるようにチューニングを実施する必要があるが、都度チューニングを実施するには負荷が大きい、精度が十分に高まらないという課題があった。そこで、本実施形態に係る学習装置100は、CV予測の精度低下を抑制し、精度の高い予測結果を得ることが可能なモデルの学習技術を提供する。
【0013】
なお、本実施形態において「モデル」は、利用者情報とカテゴリごとの強度とに基づき利用者を分類し、CV予測スコア等の所定のスコアを出力する「分類モデル」である前提で説明する。ただし、前述した分類モデルはあくまで一例であり、本実施形態に係る学習装置100が学習するモデルは、分類モデルに限定されず、例えば、学習モデル、算出モデル等であってもよい。
【0014】
また、上記した「カテゴリ」は、利用者情報を所定の分類にて分類したグループ分けのことで、例えば、自動車、人材等の業界カテゴリ等である。また、上記した「強度」は、カテゴリごとに分類された利用者の行動に基づいて取得された利用者情報についての度数を意味し、例えば、回数、頻度、割合等の指標の分布度合いを示す指標である。なお、本実施形態において強度は、「強さの度合い」といった意味以外にも、「利用者とカテゴリとの結びつきの強さ」、「利用者とカテゴリとの関係性の強さ」の意味を含む。また、本実施形態における「強度」は、「度数」に読み替えられてよい。その場合、「度数」は、「利用者とカテゴリとの関係性を示す度数(スコア)」、「カテゴリに対する利用者の興味を示す度数(スコア)」等のように、利用者とカテゴリとの間の関係性を示す数値であるという意味を含む。
【0015】
図1に示すように、学習装置100は、利用者の属性情報や行動履歴に関する情報等を含む「利用者情報」と、「カテゴリごとの強度」とを用いて、CV予測値を算出する分類モデルを学習する(図1の(2))。
【0016】
次に、学習装置100は、学習済みの分類モデルを出力する(図1の(3))。例えば、学習装置100は、上述した学習方法に基づいて学習を実施した分類モデルを、CV予測を行う予測装置200等に出力できる。そして、予測装置200は、学習装置100により学習された分類モデルを用いて、CV予測を実施する(図1の(4))。なお、学習装置100がCV予測を実施する機能を有する場合は、学習した分類モデルに基づいて、CV予測を実施することができる(図1の(5))。
【0017】
予測装置200は、図1の(6-1)および(6-2)に示すような予測結果を出力する。例えば、予測装置200は、利用者AについてのCVスコア(自動車購入)を「0.9」と予測する(図1の(6-1))。他方、予測装置200は、利用者BについてのCVスコア(自動車購入)を「0.5」と予測する(図1の(6-2))。
【0018】
このように、学習装置100は、利用者情報に加えて、所定のカテゴリに分類された当該利用者情報に基づき算出された「カテゴリごとの強度」を分類モデルの学習に用いることにより、これまでよりも高い精度でCV予測が可能な分類モデルを生成することを可能とする。そのため、本実施形態に係る学習装置100により学習された分類モデルは、特徴量の類似度が高い利用者間であっても、高い精度でのCV予測を可能とする。したがって、学習装置100は、対象の業界や商材等を問わずに高い精度でのCV予測を可能とする効果を提供する。
【0019】
〔2.学習装置の構成〕
続いて、実施形態に係る学習装置100の構成について、図2を用いて説明する。図2は、本実施形態に係る学習装置100の構成例を示す図である。図2に示すように、学習装置100は、通信部110と、記憶部120と、制御部130と、を有する。なお、図2に図示していないが、学習装置100は、各種操作を受け付ける入力部(例えば、タッチパネルや、キーボードや、マウス等)を備えてもよい。
【0020】
(通信部110)
通信部110は、ネットワークと有線または無線で接続され、学習装置100と外部の装置との間で情報の送受信を行う。そして、通信部110は、ネットワークアダプタ(Network Adapter)やネットワークインタフェースカード(Network Interface Card)等によって実現される。例えば、図2に図示していないが、学習装置100は、通信部110を介して、予測装置200への学習済みの分類モデルの出力を行うことができる。
【0021】
(記憶部120)
記憶部120は、学習装置100が機能するためのプログラムや、制御部130の各機能部が処理を行うための各種情報等を記憶し、保持する。そして、記憶部120は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。さらに、記憶部120は、利用者情報記憶部121と、強度情報記憶部122と、モデル記憶部123とを有する。以下の項目において、上記した記憶部120が有する各機能部について説明する。
【0022】
(利用者情報記憶部121)
利用者情報記憶部121は、インターネットやインターネット上で提供されるサービス等の利用者に関する情報(利用者情報)を記憶する。具体的には、利用者情報記憶部121は、利用者情報として、利用者のデモグラフィックデータやサイコグラフィックデータ等の属性情報や、購買履歴や閲覧履歴、検索履歴等の履歴情報等を記憶する。
【0023】
例えば、利用者情報記憶部121は、利用者情報として利用者の年齢、性別、家族構成、職業、学歴、年収、ライフステージ等のデモグラフィックデータを記憶できる。また、利用者情報記憶部121は、利用者情報として、利用者の価値観、パーソナリティ、興味、関心、趣味、趣向、志向性、こだわり、習慣等のサイコグラフィックデータを記憶できる。また、利用者情報記憶部121は、利用者情報として購入日時、購入商品、商品ジャンル、価格、購入数、購入店舗等の購買履歴を記憶できる。また、利用者情報記憶部121は、利用者情報として閲覧したWEBサイト、閲覧日時、所定期間内における閲覧回数や閲覧頻度等の閲覧履歴を記憶できる。また、利用者情報記憶部121は、利用者情報としてキーワード検索における検索日時、検索キーワード、所定期間内における検索回数や検索頻度等の検索履歴を記憶できる。
【0024】
ここで、図3を用いて、利用者情報記憶部121により記憶される利用者情報の一例を説明する。図3は、本実施形態に係る利用者情報の一例を示すテーブル図である。図3に示すように、利用者情報記憶部121は、項目として「利用者識別情報」により識別される、年齢、性別、家族構成、職業、学歴、年収、居住地域、興味関心、購買履歴、閲覧履歴等を記憶できる。例えば、利用者情報記憶部121は、利用者識別情報「利用者A」、年齢「25」、性別「男性」、家族構成「1人」、職業「会社員」、学歴「〇〇大学卒」、年収「500万円」、居住地域「東京」、興味関心「自動車」、購買履歴「AAA」、閲覧履歴「BBB」を記憶できる。
【0025】
なお、上記した内容はあくまで一例であり、利用者情報記憶部121は、所定の利用者に係る利用者情報の範疇に含まれる情報であれば、限定無く記憶できる。また、上記した購買行動の項目は、一例として「AAA」と記載されているが、購入日時、購入商品、商品ジャンル、価格、購入数、購入店舗等が含まれてよい。他方、上記した閲覧履歴の項目は、一例として「BBB」と記載されているが、閲覧したWEBサイト、閲覧日時、所定期間内における閲覧回数や閲覧頻度等が含まれてよい。
【0026】
(強度情報記憶部122)
図2に戻り説明を続ける。強度情報記憶部122は、後述の算出部134により算出されたカテゴリごとの強度に関する情報を記憶する。具体的には、強度情報記憶部122は、後述の分類部133により所定のカテゴリに分類された利用者情報に基づいて、当該所定のカテゴリの項目ごとに利用者の行動に基づく強度を記憶することができる。
【0027】
ここで、図4を用いて、強度情報記憶部122により記憶されるカテゴリごとの強度の一例について説明する。図4は、本実施形態に係るカテゴリごとのCV数の一例を示すテーブル図である。図4に示すように、強度情報記憶部122は、所定の識別情報により識別されるカテゴリごとの強度を一覧表形式で記憶することができる。図4の一例では、強度情報記憶部122は、所定の識別情報として「利用者識別情報」と、所定のカテゴリごとの強度として「C1からC30のカテゴリごとのCV数」を記憶できる。例えば、強度情報記憶部122は、利用者識別情報「利用者A」で識別される、カテゴリごとのCV数についてC2が「8」、C27が「16」といった情報を記憶できる。
【0028】
なお、図4に示したテーブル図は、あくまで一例であり、強度情報記憶部122により記憶されるカテゴリごとの強度の内容や形式はこれに限定されない。例えば、強度情報記憶部122は、所定の識別情報として「利用者識別情報」ではなく、「企業の識別情報」等の異なる種類の識別情報を用いることができる。また、強度情報記憶部122は、カテゴリごとの強度として、「CV数」ではなく、「予測CVR(Conversion Rate)」や「利用者の興味関心を示す指標」等の異なる強度を記憶することができる。
【0029】
また、図4では、カテゴリの種類をC1・・・C30等のように表記したが、当該表記はあくまで一例であり、強度情報記憶部122は、例えば、業界、業種、利用者の趣味嗜好の分類等の予め設定された所定のカテゴリを記憶できる。また、上記したカテゴリの種類は、C1からC30までの30個であるが、これに限定されず、例えば、30個未満や30個以上であってもよい。
【0030】
ここで、図5を用いて、強度情報記憶部122により記憶されるカテゴリおよび強度分類の一例を説明する。図5は、本実施形態に係る所定の種別のカテゴリおよび強度分類の一例を示すテーブル図である。
【0031】
図5に示すように、強度情報記憶部122は、様々な種類の利用者情報について、カテゴリごとの強度を記憶することができる。例えば、図5に示す通り強度情報記憶部122は、利用者情報の種類としてウェブコンテンツ、検索クエリ、購買履歴、クリックしたコンテンツ、アンケートの回答結果、訪問場所、電子機器の買い替え意欲等についてのカテゴリごとの強度を記憶できる。
【0032】
また、強度情報記憶部122は、利用者情報の種類に対応するカテゴリの種類と強度分類に基づいて、カテゴリごとの強度を記憶することができる。例えば、利用者情報の種類が「ウェブコンテンツ」の場合、カテゴリの種類が「ウェブコンテンツのカテゴリ」、強度分類が「アクセス回数」として、カテゴリごとの強度を記憶することができる。なお、その他の利用者情報の種類ごとのカテゴリの種類および強度分類の対応は、図5に示す通りであるため説明を省略する。
【0033】
(モデル記憶部123)
図2に戻り説明を続ける。モデル記憶部123は、利用者情報およびカテゴリごとの強度を説明変数として、所定のCV予測値を目的変数として出力する所定のモデルを記憶する。例えば、モデル記憶部123は、所定のモデルとして、複数の利用者情報とカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを記憶できる。
【0034】
(制御部130)
制御部130は、取得部131と、抽出部132と、分類部133と、算出部134と、学習部135と、出力部136とを有する。なお、制御部130は、プロセッサ(Processor)や、MPU(Micro Processing Unit)や、CPU(Central Processing Unit)等が、学習装置100の記憶部120に記憶されている各種プログラムについて、RAMを作業領域として実行することにより、実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のIC(Integrated Circuit)により実現される。
【0035】
(取得部131)
取得部131は、分類モデルの学習に用いるための利用者情報を取得する。例えば、取得部131は、予め外部の装置等に記憶された利用者情報を取得することができる。なお、取得部131が利用者情報を取得する方法は特に限定されず、例えば、記憶媒体等を介して入力された利用者情報を受け付けることで、取得してもよい。
【0036】
(抽出部132)
抽出部132は、所定の利用者に関する複数の利用者情報のうち所定の種別の利用者情報を抽出する。具体的には、抽出部132は、利用者情報記憶部121により記憶された利用者情報から所定の抽出条件に基づいて利用者情報を抽出する。
【0037】
一例として、学習装置100が「自動車に関するウェブサイトの閲覧」をコンバージョン条件としてCV予測値を算出するために用いる分類モデルを学習する場合について説明する。その場合、抽出部132は、利用者の識別情報に基づいて、年齢、性別、家族構成、職業、学歴、年収、居住地域、興味関心、購買履歴、閲覧履歴等を利用者情報から抽出できる。なお、上記した抽出項目はあくまで一例であり、抽出部132は、CV予測の対象に応じた利用者情報を抽出できる。
【0038】
(分類部133)
分類部133は、抽出部132により抽出された所定の種別の利用者情報を複数のカテゴリに分類する。具体的には、分類部133は、抽出部132により抽出された利用者情報をCV予測の対象に応じたカテゴリごとに分類する。
【0039】
例えば、学習装置100が「自動車に関するウェブサイトの閲覧のCV予測値の算出」に係る分類モデルを学習する場合、分類部133は、前述の抽出部132により抽出された「閲覧履歴」に含まれる「アクセス回数」をカテゴリごとに分類できる。なお、上記した分類対象の項目はあくまで一例であり、分類部133は、抽出部132により抽出された利用者情報として、例えば、年齢、性別、家族構成、職業、学歴、年収、居住地域、興味関心、購買履歴等に含まれる情報をカテゴリごとに分類できる。
【0040】
(算出部134)
算出部134は、分類部133による分類の結果を用いて、利用者の行動に基づくカテゴリごとの強度を算出する。具体的には、算出部134は、分類部133によりカテゴリごとに分類された利用者情報に基づいて、カテゴリごとの強度を算出する。
【0041】
例えば、学習装置100が「自動車に関するウェブサイトの閲覧のCV予測値の算出」に係る分類モデルを学習する場合、算出部134は、前述の分類部133により分類された「アクセス回数」についてのカテゴリごとの強度を算出できる。
【0042】
ここで、再び図4を用いて、算出部134によるカテゴリごとの強度の算出について説明する。例えば、図4に示すカテゴリごとのCV数が「アクセス回数」である場合、算出部134は、利用者の識別情報「利用者A」で識別される、カテゴリごとのCV数についてC2が「8」、C27が「16」等のように、カテゴリごとのアクセス回数(強度)を算出できる。なお、上記した分類対象の項目はあくまで一例であり、算出部134は、分類部133により分類された利用者情報として、例えば、年齢、性別、家族構成、職業、学歴、年収、居住地域、興味関心、購買履歴等に含まれる情報に基づいてカテゴリごとの強度を算出できる。
【0043】
(学習部135)
ここで、再び図2に戻り説明を続ける。学習部135は、複数の利用者情報とカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。具体的には、学習部135は、取得部131により取得された利用者情報と算出部134に算出されたカテゴリごとの強度とを学習データとして、分類モデルを学習する。
【0044】
例えば、学習部135は、利用者情報として「自動車に関するウェブサイトの閲覧履歴」と、カテゴリごとの強度として「自動車に関するウェブサイトのアクセス回数に基づくカテゴリごとの強度」とを用いて、「自動車に関するウェブサイトの閲覧のCV予測値の算出」に係る分類モデルを学習できる。
【0045】
また、学習部135は、所定の重み付けがなされた学習データを用いて分類モデルを学習してもよい。具体的には、学習部135は、複数の利用者情報と、カテゴリごとの強度とのそれぞれについて重要度を推定する。そして、学習部135は、重要度が所定の条件を満たす複数の利用者情報もしくはカテゴリごとの強度の少なくともどちらか一方を用いて、分類モデルを学習する。
【0046】
例えば、学習装置100が「自動車に関するウェブサイトの閲覧のCV予測値の算出」に係る分類モデルを学習する場合、学習部135は、所定の利用者情報(例えば、年収、興味関心等)について重要度が高くなるように重み付けできる。このように、学習部135は、特定の利用者情報について重み付けを行い「自動車に関するウェブサイトの閲覧のCV予測値の算出」に影響を及ぼす利用者項目に基づいて分類モデルを学習することで、学習効率を高めることができる。
【0047】
上記した重要度の推定については、学習部135は、リッジ回帰またはラッソ回帰に基づいて、複数の利用者情報と、カテゴリごとの強度とのそれぞれについて重要度を推定できる。なお、ここでいうリッジ回帰またはラッソ回帰は、公知の技術であるため詳細な説明を省略する。
【0048】
また、学習部135は、時系列で変化するカテゴリごとの強度を用いて、分類モデルを学習できる。具体的には、学習部135は、「3か月」等の所定の期間や、「3月」等の所定の時期に基づくカテゴリごとの強度を用いて分類モデルを学習できる。例えば、学習装置100が「自動車に関するウェブサイトの閲覧のCV予測値の算出」に係る分類モデルを学習する場合、学習部135は、自動車の販売台数が多くなる3月におけるカテゴリごとの強度を用いることにより、より効率的な学習ができる。
【0049】
なお、分類モデルの学習は、機械学習に関する種々の公知の技術を適宜用いて行われてもよい。例えば、分類モデルの学習は、SVM(Support Vector Machine)等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、分類モデルの学習は、教師なし学習の機械学習に関する技術を用いて行われてもよい。また、分類モデルの学習は、深層学習(ディープラーニング)の技術を用いて行われてもよい。また、分類モデルの学習は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて行われてもよい。なお、上記分類モデルの学習に関する記載は例示であり、分類モデルの学習は、取得可能な情報等に応じて適宜選択された学習手法により行われてもよい。
【0050】
(出力部136)
出力部136は、学習部135により学習された学習済みの分類モデルを出力する。例えば、出力部136は、CV予測を行う予測装置200等に学習済みの分類モデルを出力することができる。なお、出力部136による分類モデルの出力について、出力先や出力形式については特に限定されない。
【0051】
〔3.実験例〕
ここから、本実施形態に係る学習装置100が実現する分類モデルの学習による、CV予測値の精度の変動について、図6を用いて説明する。図6は、本実施形態に係るCVスコアの比較の一例を示すテーブル図である。具体的には、図6は、所定の業界ごと、かつ分類モデルの学習に用いた学習データ(特徴量)ごとのROC_AUCの変動を表したテーブル図である。
【0052】
図6のテーブル図に示す「業界」は、自動車、消費財、人材等の業界の分類を意味する。なお、本実施形態では、一例として「業界Aから業界H」と表記しているが、実際にはこれに限定されない。
【0053】
「特徴量数」は、学習データとして用いたデータの種別を表している。例えば、特徴量数の「従来」は、利用者情報のみを用いた学習データである。また、特徴量数の「従来+カテゴリごと強度」は、利用者情報と算出されたカテゴリごとの強度とを用いた学習データである。また、特徴量数の「カテゴリごと強度」は、算出部134により算出されたカテゴリごとの強度を用いた学習データである。なお、図6の特徴量数の項目に記載された数値は、学習データとして用いられた利用者情報の項目数やカテゴリ数、または利用者情報の項目数とカテゴリ数との合計値である。
【0054】
「ROC_AUC」は、ROC(Receiver Operating Characteristic curve)曲線におけるAUC(Area Under an ROC Curve)を意味している。AUCは、ROC曲線の下部の面積を意味しており、AUCの値が1に近いほど精度が高い(すなわち、本実施形態では偽陽性率が低い)と言える。なお、ROC_AUCにおける「従来」、「従来+カテゴリごとの強度」、「カテゴリごとの強度」は、上記した内容と同様のため省略する。
【0055】
そして、図6に示す通り、本実施形態に係る学習装置100により、カテゴリごとの強度を用いて学習された分類モデルによるCV予測値の算出結果は、従来技術よりも精度が高い(すなわち、偽陽性率が低い)という結果となった。例えば、業界「業界A」については、ROC_AUCの従来が「0.890」であるのに対し、従来+カテゴリごとの強度が「0.925」、カテゴリごとの強度が「0.911」とROC_AUCがより1に近づくという結果となった。上記の結果は、業界Cおよび業界Dを除く各業界において同様の傾向がみられており、本実施形態に係る学習装置100が生成する分類モデルによりCV予測値の精度が向上する効果が得られていると言える。
【0056】
また、学習データとして用いる特徴量数について、「従来」と比べて、「従来+カテゴリごとの強度」、「カテゴリごとの強度」に用いる特徴量数が少ないことから、本実施形態に係る学習装置100は、より効率的な分類モデルの学習が可能であると言える。
【0057】
〔4.変形例〕
ここから、本実施形態に係る学習装置100が実現する分類モデルの学習の変形例について説明する。変形例として、学習装置100(抽出部132)は、所定の種別の利用者情報としてウェブコンテンツの閲覧履歴、検索クエリ、購買履歴、クリックしたコンテンツ、アンケートの回答結果、訪問場所、電子機器の買い替え意欲のうち少なくともいずれか1つを抽出する。以下の項目にて、上記した利用者情報ごとの学習の一例を、個別に説明する。
【0058】
(ウェブコンテンツの閲覧履歴)
学習装置100は、利用者情報としてウェブコンテンツの閲覧履歴を用いてカテゴリごとの強度を算出し、分類モデルを学習することができる。具体的には、抽出部132は、所定の種別の利用者情報としてウェブコンテンツの閲覧履歴を抽出する。分類部133は、ウェブコンテンツの閲覧履歴を複数のウェブコンテンツに係るカテゴリに分類する。算出部134は、アクセス回数と予測CVRのうち少なくともいずれか一方を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報とウェブコンテンツに係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。
【0059】
(検索クエリ)
また、学習装置100は、利用者情報として検索クエリを用いてカテゴリごとの強度を算出し、分類モデルを学習することができる。具体的には、抽出部132は、所定の種別の利用者情報として検索クエリを抽出する。分類部133は、検索クエリを複数の検索クエリに係るカテゴリに分類する。算出部134は、入力回数を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報と検索クエリに係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。
【0060】
(購買履歴)
また、学習装置100は、利用者情報として購買履歴を用いてカテゴリごとの強度を算出し、分類モデルを学習することができる。具体的には、抽出部132は、所定の種別の利用者情報として購買履歴を抽出する。分類部133は、購買履歴を複数の購買履歴に係るカテゴリに分類する。算出部134は、購入回数を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報と購買履歴に係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。
【0061】
(クリックしたコンテンツ)
また、学習装置100は、利用者情報としてクリックしたコンテンツを用いてカテゴリごとの強度を算出し、分類モデルを学習することができる。具体的には、抽出部132は、所定の種別の利用者情報としてクリックしたコンテンツを抽出する。分類部133は、クリックしたコンテンツを複数のクリックしたコンテンツに係るカテゴリに分類する。算出部134は、クリック回数を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報とクリックしたコンテンツに係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。
【0062】
(アンケートの回答結果)
また、学習装置100は、利用者情報としてアンケートの回答結果を用いてカテゴリごとの強度を算出し、分類モデルを学習することができる。具体的には、抽出部132は、所定の種別の利用者情報としてアンケートの回答結果を抽出する。分類部133は、アンケートの回答結果を複数のアンケートの回答結果に係るカテゴリに分類する。算出部134は、回答回数を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報とアンケートの回答結果に係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。
【0063】
(訪問場所)
また、学習装置100は、利用者情報として訪問場所を用いてカテゴリごとの強度を算出し、分類モデルを学習することができる。具体的には、抽出部132は、所定の種別の利用者情報として訪問場所を抽出する。分類部133は、訪問場所を複数の訪問場所に係るカテゴリに分類する。算出部134は、訪問回数を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報と訪問場所に係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。
【0064】
(電子機器の買い替え意欲)
また、学習装置100は、利用者情報として電子機器の買い替え意欲を用いてカテゴリごとの強度を算出し、分類モデルを学習することができる。具体的には、抽出部132は、所定の種別の利用者情報として電子機器の買い替え意欲を抽出する。分類部133は、電子機器の買い替え意欲を複数の電子機器の買い替え意欲に係るカテゴリに分類する。算出部134は、意欲スコアを強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報と電子機器の買い替え意欲に係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。なお、ここでいう意欲スコアとは、利用者が所定の購買行動を起こす可能性を表す指標であってよい。
【0065】
(その他のカテゴリごとの強度)
学習装置100は、本実施形態においてCV予測スコアや所定の利用者の興味の強度を、カテゴリごとの強度として用いることができる。具体的には、算出部134は、CV予測の指標または所定の利用者の興味の強度のうち少なくともいずれか一方を強度として、カテゴリごとの強度を算出する。
【0066】
ここで、上記したCV予測の指標(CV予測スコア)について、図7を用いて説明する。図7は、変形例に係る学習に用いるCV予測スコアの一例を示すテーブル図である。図7には、利用者ごと、かつ企業ごとのCV予測スコアが示されている。なお、ここでいうCV予測スコアとは、各利用者が、対象の企業ごとに定められた所定のコンバージョン条件を達成するか否かの可能性を示す指標である。すなわち、CV予測スコアは、対象の企業に対する興味関心の強さの度合いと言い換えることができる。
【0067】
図7に示す一例では、同じ業界における4つの企業(A社からD社)が示されている。そして、利用者ごとに企業ごとのCV予測スコアが示されている。例えば、利用者AのCV予測スコアは、A社が「0.9」、B社が「0.97」、C社が「0.73」、D社が「0.77」と示されている。また、利用者BのCV予測スコアは、A社が「0.9」、B社が「0.86」、C社が「0.78」、D社が「0.62」と示されている。また、利用者CのCV予測スコアは、A社が「0.9」、B社が「0.82」、C社が「0.99」、D社が「0.86」と示されている。また、利用者DのCV予測スコアは、A社が「0.9」、B社が「0.85」、C社が「0.85」、D社が「0.74」と示されている。このように、業界は同じでも、利用者ごとに企業ごとに対する興味関心度合いの強さが異なっていることがわかる。
【0068】
したがって、学習装置100は、上記したようなCV予測スコアを含むカテゴリごとの強度を学習データとして用いることで、利用者の属性情報には表れない利用者の興味関心の度合いを反映した上で、分類モデルを学習することができる。
【0069】
〔5.処理手順〕
次に、図8を用いて、実施形態に係る学習装置100による分類モデルの学習の手順について説明する。図8は、本実施形態に係る分類モデルの学習手順の一例を示すフローチャートである。なお、以下に記載する各ステップは、異なる順序で実行されてもよいし、省略される処理があってもよい。
【0070】
まず、取得部131は、所定の利用者に関する利用者情報を取得する(工程S101)。例えば、取得部131は、予め外部の装置等に記憶された利用者情報を取得することができる。次に、抽出部132は、利用者情報のうち所定の種別の利用者情報を抽出する(工程S102)。例えば、抽出部132は、利用者情報記憶部121により記憶された利用者情報から、予め設定された抽出条件に基づいて利用者情報を抽出する。
【0071】
分類部133は、所定の種別の利用者情報を複数のカテゴリに分類する(工程S103)。例えば、分類部133は、抽出部132により抽出された利用者情報をCV予測の対象に応じたカテゴリごとに分類する。次に、算出部134は、分類の結果に基づいて、カテゴリごとの強度を算出する(工程S104)。例えば、算出部134は、分類部133によりカテゴリごとに分類された利用者情報に基づいて、カテゴリごとの強度を算出する。
【0072】
学習部135は、複数の利用者情報とカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する(工程S105)。例えば、学習部135は、取得部131により取得された利用者情報と算出部134に算出されたカテゴリごとの強度とを学習データとして、分類モデルを学習する。
【0073】
ここで、所定の学習終了条件を満たさない場合(工程S106のNo)、学習装置100は、工程を戻り処理を継続する。なお、ここでいう所定の学習終了条件とは、例えば、学習の実施回数、モデルの精度を示す指標が閾値を超えるか否か等であってよい。
【0074】
他方、所定の学習終了条件を満たす場合(工程S106のYes)、出力部136は、分類モデルを出力する(工程S107)。そして、学習装置100は、工程を終了する。
【0075】
〔6.効果〕
ここまで述べてきたように、本実施形態の学習装置100の抽出部132は、所定の利用者に関する複数の利用者情報のうち所定の種別の利用者情報を抽出する。次に、学習装置100の分類部133は、抽出部132により抽出された所定の種別の利用者情報を複数のカテゴリに分類する。次に、学習装置100の算出部134は、分類部133による分類の結果を用いて、利用者の行動に基づくカテゴリごとの強度を算出する。そして、学習装置100の学習部135は、複数の利用者情報とカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。そのため、本実施形態に係る学習装置100は、モデルに基づくCV予測値の精度の低下を抑制する効果を提供する。
【0076】
学習装置100の学習部135は、複数の利用者情報と、カテゴリごとの強度とのそれぞれについて重要度を推定する。なお、学習部135は、リッジ回帰またはラッソ回帰に基づいて、複数の利用者情報と、カテゴリごとの強度とのそれぞれについて重要度を推定できる。そして、学習部135は、重要度が所定の条件を満たす複数の利用者情報もしくはカテゴリごとの強度の少なくともどちらか一方を用いて、分類モデルを学習する。上記したように、本実施形態に係る学習装置100は、CV予測に及ぼす影響が大きい利用者情報やカテゴリごとの強度に重み付けをすることで、分類モデルの学習効率や精度の向上を実現できる。そのため、学習装置100は、従来よりも高い精度でのCV予測を可能とする分類モデルの学習を可能とする。
【0077】
学習装置100の学習部135は、時系列で変化するカテゴリごとの強度を用いて、分類モデルを学習する。利用者の行動は、例えば、季節による行動の変化、時間帯による行動の変化、利用者のライフステージの変化による行動変化等の時系列で変化する場合がある。そのため、本実施形態に係る学習装置100は、時系列で変化するカテゴリごとの強度を用いることにより、連続する時系列における1点のみの情報を用いて学習する分類モデルよりも精度の高いCV予測を可能とする分類モデルの学習を可能とする。
【0078】
学習装置100の抽出部132は、所定の種別の利用者情報としてウェブコンテンツの閲覧履歴を抽出する。次に、分類部133は、ウェブコンテンツの閲覧履歴を複数のウェブコンテンツに係るカテゴリに分類する。次に、算出部134は、アクセス回数と予測CVRのうち少なくともいずれか一方を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報とウェブコンテンツに係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。そのため、本実施形態に係る学習装置100は、閲覧したWEBサイト、閲覧日時、所定期間内における閲覧回数や閲覧頻度等の閲覧履歴に基づいた分類モデルの学習を可能とする。それにより、学習装置100は、従来よりも高い精度で予測する分類モデルを提供することができる。
【0079】
学習装置100の抽出部132は、所定の種別の利用者情報として検索クエリを抽出する。次に、分類部133は、検索クエリを複数の検索クエリに係るカテゴリに分類する。次に、算出部134は入力回数を強度として、カテゴリごとの強度を算出する。そして、学習部135は、複数の利用者情報と検索クエリに係るカテゴリごとの強度とに基づいて、所定の利用者を分類する分類モデルを学習する。そのため、本実施形態に係る学習装置100は、利用者の検索ワードや検索ワードごとの入力回数、すなわち利用者の興味関心に基づいた分類モデルの学習を可能とする。それにより、学習装置100は、従来よりも高い精度で予測する分類モデルを提供することができる。
【0080】
学習装置100の抽出部132は、所定の種別の利用者情報として購買履歴、クリックしたコンテンツ、アンケートの回答結果、訪問場所、電子機器の買い替え意欲のうち少なくともいずれか1つを抽出する。そのため、本実施形態に係る学習装置100は、前述してきたウェブコンテンツや検索クエリに限定されず、様々な利用者情報に基づいてカテゴリごとの強度を算出することができる。したがって、学習装置100は、対象とする業界、商材の種類等のカテゴリによってCV予測の精度が変動する場合においても、従来よりも高い精度で予測する分類モデルを提供することができる。
【0081】
学習装置100の算出部134は、CV予測の指標または所定の利用者の興味の強度のうち少なくともいずれか一方を強度として、カテゴリごとの強度を算出する。そのため、本実施形態に係る学習装置100は、利用者情報以外にも利用者ごとのCV予測や利用者の興味関心に関する指標の強度に基づいてカテゴリごとの強度を算出することができる。したがって、学習装置100は、利用者ごとに、かつ対象とするカテゴリごとCV予測の精度が変動する場合においても、従来よりも高い精度で予測する分類モデルを提供することができる。
【0082】
〔7.ハードウェア構成〕
前述した、実施形態に係る学習装置100は、例えば図9に示すような構成のコンピュータ1000によって実現される。図9は、学習装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
【0083】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが記憶される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
【0084】
出力I/F1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0085】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0086】
ネットワークI/F1080は、ネットワークNWを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNWを介して演算装置1030が生成したデータを他の機器へ送信する。
【0087】
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0088】
例えば、コンピュータ1000が学習装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、学習装置100の制御部130の機能を実現する。
【0089】
〔8.その他〕
以上、本実施形態の詳細を説明したが、前述してきた内容により本実施形態が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。
【0090】
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0091】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0092】
また、前述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能であり、「部(section、module、unit)」は、「手段」や「回路」等に読み替えることができる。
【符号の説明】
【0093】
100 学習装置
110 通信部
120 記憶部
121 利用者情報記憶部
122 強度情報記憶部
123 モデル記憶部
130 制御部
131 取得部
132 抽出部
133 分類部
134 算出部
135 学習部
136 出力部
200 予測装置
1000 コンピュータ
1010 出力装置
1020 入力装置
1030 演算装置
1040 一次記憶装置
1050 二次記憶装置
1060 出力I/F
1070 入力I/F
1080 ネットワークI/F
1090 バス
NW ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9