(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-19
(45)【発行日】2022-04-27
(54)【発明の名称】特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム
(51)【国際特許分類】
G06F 16/907 20190101AFI20220420BHJP
【FI】
G06F16/907
(21)【出願番号】P 2019040394
(22)【出願日】2019-03-06
【審査請求日】2021-01-20
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100124084
【氏名又は名称】黒岩 久人
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】牛 コウ
(72)【発明者】
【氏名】米川 慧
(72)【発明者】
【氏名】黒川 茂莉
(72)【発明者】
【氏名】小林 亜令
【審査官】佐賀野 秀一
(56)【参考文献】
【文献】特開2010-055227(JP,A)
【文献】特開2016-118931(JP,A)
【文献】米国特許第10115124(US,B1)
【文献】特開2015-106178(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00- 16/958
(57)【特許請求の範囲】
【請求項1】
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報
が出現する時間帯における、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報
の出現率である第1出現率と、前記第1アイテム関連情報が出現しない時間帯における前記第2アイテム関連情報の出現率である第2出現率とに基づいて、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報を特定する共起関係特定部と、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部と、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
を備える特徴ベクトル生成装置。
【請求項2】
前記共起関係特定部は、前記第1アイテム関連情報が出現しない時間帯の長さを、前記第1アイテム関連情報が出現する時間帯の長さに基づいて定める、
請求項
1に記載の特徴ベクトル生成装置。
【請求項3】
前記共起関係特定部は、前記第1アイテム関連情報が出現しない時間帯の開始時刻及び終了時刻の少なくともいずれかを、前記第1アイテム関連情報が出現する時間帯の開始時刻及び終了時刻の少なくともいずれかに基づいて定める、
請求項
1又は
2に記載の特徴ベクトル生成装置。
【請求項4】
前記統合部は、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に対応する前記第1出現率と、前記第2出現率との関係に基づいて共起度合いを特定し、特定した共起度合いに基づいて、前記第1時系列データに、共起する前記第2アイテム関連情報を挿入することにより、前記統合時系列データを生成する、
請求項
1から
3のいずれか1項に記載の特徴ベクトル生成装置。
【請求項5】
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部と、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて、前記第1時系列データに前記第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入して統合時系列データを生成し、前記第2時系列データに前記第2アイテム関連情報と共起する前記第1アイテム関連情報を挿入して前記統合時系列データを生成することにより、前記統合時系列データを複数生成する統合部と、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
を備える特徴ベクトル生成装置。
【請求項6】
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部と、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて、前記第1時系列データに含まれる前記第1アイテム関連情報に隣接して、当該第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入して統合時系列データを生成し、前記第2時系列データに含まれる前記第2アイテム関連情報に隣接して、当該第2アイテム関連情報と共起する前記第1アイテム関連情報を挿入して前記統合時系列データを生成することにより、複数の統合時系列データを生成する統合部と、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
を備える特徴ベクトル生成装置。
【請求項7】
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部と、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部と、
前記統合部により統合された複数の前記統合時系列データに含まれる前記複数のアイテム関連情報の関係を解析することにより、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
を備える特徴ベクトル生成装置。
【請求項8】
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第2ドメインの時系列データである第2時系列データと、所定のイベントに関連する前記アイテム関連情報と、前記所定のイベントとは異なるイベントに関連する前記アイテム関連情報との少なくともいずれかが含まれている第1ドメインの時系列データである第1時系列データとを取得する時系列データ取得部と、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部と、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部と、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成し、前記第1時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第1時系列データに対応するユーザの特徴ベクトルを第1特徴ベクトルとして生成するとともに、前記第2時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第2時系列データに対応するユーザの特徴ベクトルを第2特徴ベクトルとして生成する特徴ベクトル生成部と、
複数の前記第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが前記所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、前記所定のイベントを発生させたユーザと、前記所定のイベントを発生させなかったユーザとに分類する分類器を生成し、生成した前記分類器に前記第2特徴ベクトルを入力することにより、前記第2特徴ベクトルに対応するユーザを、前記所定のイベントを発生させると予測されるユーザと、前記所定のイベントを発生させないと予測されるユーザとに分類する予測部と、
を備える特徴ベクトル生成装置。
【請求項9】
コンピュータが実行する、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報
が出現する時間帯における、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報
の出現率である第1出現率と、前記第1アイテム関連情報が出現しない時間帯における前記第2アイテム関連情報の出現率である第2出現率とに基づいて、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報を特定するステップと、
特定された、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成するステップと、
統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成するステップと、
を備える特徴ベクトル生成方法。
【請求項10】
コンピュータが実行する、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定するステップと、
特定された、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて、前記第1時系列データに前記第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入して統合時系列データを生成し、前記第2時系列データに前記第2アイテム関連情報と共起する前記第1アイテム関連情報を挿入して前記統合時系列データを生成することにより、前記統合時系列データを複数生成するステップと、
統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成するステップと、
を備える特徴ベクトル生成方法。
【請求項11】
コンピュータが実行する、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定するステップと、
特定された、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて、前記第1時系列データに含まれる前記第1アイテム関連情報に隣接して、当該第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入して統合時系列データを生成し、前記第2時系列データに含まれる前記第2アイテム関連情報に隣接して、当該第2アイテム関連情報と共起する前記第1アイテム関連情報を挿入して前記統合時系列データを生成することにより、複数の統合時系列データを生成するステップと、
統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成するステップと、
を備える特徴ベクトル生成方法。
【請求項12】
コンピュータが実行する、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定するステップと、
特定された、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成するステップと、
統合された複数の前記統合時系列データに含まれる前記複数のアイテム関連情報の関係を解析することにより、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成するステップと、
を備える特徴ベクトル生成方法。
【請求項13】
コンピュータが実行する、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第2ドメインの時系列データである第2時系列データと、所定のイベントに関連する前記アイテム関連情報と、前記所定のイベントとは異なるイベントに関連する前記アイテム関連情報との少なくともいずれかが含まれている第1ドメインの時系列データである第1時系列データとを取得するステップと、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定するステップと、
特定された、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成するステップと、
統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成するステップと、
前記第1時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第1時系列データに対応するユーザの特徴ベクトルを第1特徴ベクトルとして生成するとともに、前記第2時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第2時系列データに対応するユーザの特徴ベクトルを第2特徴ベクトルとして生成するステップと、
複数の前記第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが前記所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、前記所定のイベントを発生させたユーザと、前記所定のイベントを発生させなかったユーザとに分類する分類器を生成するステップと、
生成された前記分類器に前記第2特徴ベクトルを入力することにより、前記第2特徴ベクトルに対応するユーザを、前記所定のイベントを発生させると予測されるユーザと、前記所定のイベントを発生させないと予測されるユーザとに分類するステップと、
を備える特徴ベクトル生成方法。
【請求項14】
コンピュータを、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報
が出現する時間帯における、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報
の出現率である第1出現率と、前記第1アイテム関連情報が出現しない時間帯における前記第2アイテム関連情報の出現率である第2出現率とに基づいて、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報を特定する共起関係特定部、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部、及び、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、
として機能させる特徴ベクトル生成プログラム。
【請求項15】
コンピュータを、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて、前記第1時系列データに前記第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入して統合時系列データを生成し、前記第2時系列データに前記第2アイテム関連情報と共起する前記第1アイテム関連情報を挿入して前記統合時系列データを生成することにより、前記統合時系列データを複数生成する統合部、及び、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、
として機能させる特徴ベクトル生成プログラム。
【請求項16】
コンピュータを、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて、前記第1時系列データに含まれる前記第1アイテム関連情報に隣接して、当該第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入して統合時系列データを生成し、前記第2時系列データに含まれる前記第2アイテム関連情報に隣接して、当該第2アイテム関連情報と共起する前記第1アイテム関連情報を挿入して前記統合時系列データを生成することにより、複数の統合時系列データを生成する統合部、及び、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、
として機能させる特徴ベクトル生成プログラム。
【請求項17】
コンピュータを、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部、及び、
前記統合部により統合された複数の前記統合時系列データに含まれる前記複数のアイテム関連情報の関係を解析することにより、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、
として機能させる特徴ベクトル生成プログラム。
【請求項18】
コンピュータを、
イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第2ドメインの時系列データである第2時系列データとを、所定のイベントに関連する前記アイテム関連情報と、前記所定のイベントとは異なるイベントに関連する前記アイテム関連情報との少なくともいずれかが含まれている第1ドメインの時系列データである第1時系列データとを取得する時系列データ取得部、
前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部、
前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部、
前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成し、前記第1時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第1時系列データに対応するユーザの特徴ベクトルを第1特徴ベクトルとして生成するとともに、前記第2時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第2時系列データに対応するユーザの特徴ベクトルを第2特徴ベクトルとして生成する特徴ベクトル生成部、及び、
複数の前記第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが前記所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、前記所定のイベントを発生させたユーザと、前記所定のイベントを発生させなかったユーザとに分類する分類器を生成し、生成した前記分類器に前記第2特徴ベクトルを入力することにより、前記第2特徴ベクトルに対応するユーザを、前記所定のイベントを発生させると予測されるユーザと、前記所定のイベントを発生させないと予測されるユーザとに分類する予測部、
として機能させる特徴ベクトル生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラムに関する。
【背景技術】
【0002】
幅広い業種で時系列データ分析が使われている。時系列データ分析では、過去のデータに基づいて将来のデータを推定する場面が多い。従来、線形の時系列解析手法(例えば、自己回帰和分移動平均モデル)がよく使われてきたが、機械学習手法も提案されている。機械学習手法は、非線形な時系列データや複雑な周期の時系列データにも効果的に対応できる。
【0003】
近年、機械学習手法として、時系列データの各アイテムに特徴ベクトルを割り当てることにより、アイテムのクラスタリングや時系列パターンの分類等を行う方法が提案されている。例えば、非特許文献1には、Word2Vec(Doc2Vec)を利用して、全ユーザの時系列データセットの各アイテムに特徴ベクトルを割り当て、当該特徴ベクトルに基づいて、ユーザにアイテムの推薦を行うことが開示されている。また、非特許文献2には、時系列データのアイテム間の間隔を考慮して、各アイテムに特徴ベクトルの割り当てを行うことが開示されている。
【0004】
非特許文献1や非特許文献2に示される技術は、1つのドメインに対応する時系列データセットについて、各アイテムに特徴ベクトルを割り当てるものであり、異なるドメインの各アイテムに特徴ベクトルを割り当てることについては考慮されていない。したがって、異なるドメインのそれぞれに対応する時系列データセット間の転移学習を行う場合、これらのデータセットの関連性を考慮できず、転移学習を精度良く行うことができないという問題があった。
【0005】
これに対し、非特許文献3では、異なるドメインの時系列データにおける共通のユーザを特定し、共通のユーザの時系列データを統合し、統合した時系列データに基づいて各アイテムに特徴ベクトルを割り当てることが開示されている。
【先行技術文献】
【非特許文献】
【0006】
【文献】Ozsoy, Makbule Gulcin. "From word embeddings to item recommendation." arXiv preprint arXiv:1601.01356, 2016年
【文献】Hong, Shenda, et al. "Event2vec: Learning Representations of Events on Temporal Sequences." Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint Conference on Web and Big Data. Springer, Cham,2017年
【文献】Hao Niu, et al. "Transfer Learning Among Time Series Data." The 21st Information-Based Induction Sciences Workshop. Sapporo, 2018年
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、異なるドメインの時系列データにおいて、ユーザを識別する情報が漏洩することを防止するためにユーザに関する情報が含まれていなかったり、暗号化されていたりすると、共通のユーザを特定するのが困難であり、時系列データを統合できないという問題が発生する。
【0008】
そこで、本発明はこれらの点に鑑みてなされたものであり、ユーザを識別する情報を用いずに、異なるドメインに対応するアイテムに関連性を持たせて特徴ベクトルを生成することができる特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の第1の態様に係る特徴ベクトル生成装置は、イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部と、前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部と、前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、を備える。
【0010】
前記共起関係特定部は、前記第1アイテム関連情報が出現する時間帯における前記第2アイテム関連情報の出現率である第1出現率と、前記第1アイテム関連情報が出現しない時間帯における前記第2アイテム関連情報の出現率である第2出現率とに基づいて、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報を特定してもよい。
【0011】
前記共起関係特定部は、前記第1アイテム関連情報が出現しない時間帯の長さを、前記第1アイテム関連情報が出現する時間帯の長さに基づいて定めてもよい。
前記共起関係特定部は、前記第1アイテム関連情報が出現しない時間帯の開始時刻及び終了時刻の少なくともいずれかを、前記第1アイテム関連情報が出現する時間帯の開始時刻及び終了時刻の少なくともいずれかに基づいて定めてもよい。
前記統合部は、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に対応する前記第1出現率と、前記第2出現率との関係に基づいて共起度合いを特定し、特定した共起度合いに基づいて、前記第1時系列データに、共起する前記第2アイテム関連情報を挿入することにより、前記統合時系列データを生成してもよい。
【0012】
前記統合部は、前記第1時系列データに前記第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入することにより、前記統合時系列データを生成し、前記第2時系列データに前記第2アイテム関連情報と共起する前記第1アイテム関連情報を挿入することにより、前記統合時系列データを生成してもよい。
【0013】
前記統合部は、前記第1時系列データに含まれる前記第1アイテム関連情報に隣接して、当該第1アイテム関連情報と共起する前記第2アイテム関連情報を挿入することにより、前記統合時系列データを生成してもよい。
【0014】
前記特徴ベクトル生成部は、複数の前記統合時系列データに含まれる前記複数のアイテム関連情報の関係を解析することにより、複数のアイテム関連情報のそれぞれの特徴ベクトルを生成してもよい。
【0015】
第1時系列データには、所定のイベントと、前記所定のイベントとは異なるイベントとの少なくともいずれかが含まれており、前記特徴ベクトル生成部は、前記第1時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第1時系列データに対応するユーザの特徴ベクトルを第1特徴ベクトルとして生成するとともに、前記第2時系列データに含まれる複数のアイテム関連情報のそれぞれの前記特徴ベクトルに基づいて、前記第2時系列データに対応するユーザの特徴ベクトルを第2特徴ベクトルとして生成し、前記特徴ベクトル生成装置は、複数の前記第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、前記所定のイベントを発生させたユーザと、前記所定のイベントを発生させなかったユーザとに分類する分類器を生成し、生成した前記分類器に前記第2特徴ベクトルを入力することにより、前記第2特徴ベクトルに対応するユーザを、前記所定のイベントを発生させると予測されるユーザと、前記所定のイベントを発生させないと予測されるユーザとに分類する予測部をさらに備えてもよい。
【0016】
本発明の第2の態様に係る特徴ベクトル生成方法は、コンピュータが実行する、イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定するステップと、特定された、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成するステップと、統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成するステップと、を備える。
【0017】
本発明の第3の態様に係る特徴ベクトル生成プログラムは、コンピュータを、イベントに対応するアイテムに関連するアイテム関連情報と、前記イベントが発生した時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、前記第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、前記第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する共起関係特定部、前記共起関係特定部が特定した、共起する前記第1アイテム関連情報及び前記第2アイテム関連情報に基づいて前記第1時系列データと前記第2時系列データとを統合することにより統合時系列データを複数生成する統合部、及び、前記統合部により統合された複数の前記統合時系列データに基づいて、複数の前記統合時系列データに含まれる複数の前記アイテム関連情報の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、として機能させる。
【発明の効果】
【0018】
本発明によれば、ユーザを識別する情報を用いずに、異なるドメインに対応するアイテムに関連性を持たせて特徴ベクトルを生成することができるという効果を奏する。
【図面の簡単な説明】
【0019】
【
図1】本実施形態に係る特徴ベクトル生成装置の概要を説明する図である。
【
図2】本実施形態に係る特徴ベクトル生成装置の構成を示す図である。
【
図3】複数の第1時系列データにおいてアイテムI
e,mが出現する時間帯と、アイテムI
e,mが出現しない時間帯とにおけるアイテムI
w,nの出現状態を示す図である。
【
図4】
図3に示す時系列データに基づいて生成した特徴ベクトルを特徴空間に配置した例を示す図である。
【
図5】本実施形態に係る第1特徴ベクトルに基づいて分類器を学習させた例を示す図である。
【
図6】本実施形態に係る分類器により第2特徴ベクトルが分類された例を示す図である。
【
図7】本実施形態に係る特徴ベクトル生成装置がアイテムの特徴ベクトルを生成するときの処理の流れを示すフローチャートである。
【
図8】本実施形態に係る特徴ベクトル生成装置が所定のイベントを発生させるユーザを予測するときの処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0020】
[特徴ベクトル生成装置の概要]
図1は、本実施形態に係る特徴ベクトル生成装置の概要を説明する図である。特徴ベクトル生成装置は、異なるドメインの時系列データを統合し、当該時系列データに含まれるアイテムの特徴を示す特徴ベクトルを生成するコンピュータである。
【0021】
特徴ベクトル生成装置は、第1ドメインの時系列データである第1時系列データを取得するとともに、第2ドメインの時系列データである第2時系列データを取得する(
図1の(1))。本実施形態においてドメインは、時系列データの種別に基づいて時系列データを分類するための領域である。本実施形態では、第1ドメインは、例えば、EC(Electronic Commerce)サイトにおけるアイテムの購入に関するユーザの行動を示す時系列データを含む領域であり、第2ドメインは、例えば、任意のウェブサイトにおけるユーザの閲覧行動を示す時系列データを含む領域である。時系列データには、イベントに対応するアイテムに関連するアイテム関連情報と、イベントが発生した時刻とが含まれている。
【0022】
特徴ベクトル生成装置は、第2時系列データに含まれるアイテム関連情報の中から、第1時系列データに含まれるアイテム関連情報と共起するアイテム関連情報を特定する(
図1の(2))。そして、特徴ベクトル生成装置は、アイテム関連情報の共起関係に基づいて第1時系列データと、第2時系列データとを統合することにより、統合時系列データを複数生成する(
図1の(3))。
【0023】
特徴ベクトル生成装置は、生成した複数の統合時系列データのそれぞれに含まれる複数のアイテム関連情報の特徴を示す特徴ベクトルを生成する(
図1の(4))。このようにすることで、特徴ベクトル生成装置は、ユーザを識別する情報が時系列データに含まれていない場合であっても、異なるドメインに対応する時系列データのアイテム関連情報に関連性を持たせて特徴ベクトルを生成することができる。これにより、特徴ベクトル生成装置は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
以下、特徴ベクトル生成装置の構成について説明する。
【0024】
[特徴ベクトル生成装置1の構成例]
図2は、本実施形態に係る特徴ベクトル生成装置1の構成を示す図である。特徴ベクトル生成装置1は、記憶部11と、制御部12とを備える。
【0025】
記憶部11は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等である。記憶部11は、特徴ベクトル生成装置1を機能させるための各種プログラムを記憶する。例えば、記憶部11は、特徴ベクトル生成装置1の制御部12を、時系列データ取得部121、共起関係特定部122、統合部123、特徴ベクトル生成部124及び予測部125として機能させる特徴ベクトル生成プログラムを記憶する。
【0026】
制御部12は、例えばCPU(Central Processing Unit)である。制御部12は、記憶部11に記憶されている各種プログラムを実行することにより、特徴ベクトル生成装置1に係る機能を制御する。制御部12は、記憶部11に記憶されているプログラムを実行することにより、時系列データ取得部121、共起関係特定部122、統合部123、特徴ベクトル生成部124及び予測部125として機能する。
【0027】
[アイテム関連情報の特徴ベクトルの生成]
本実施形態において、時系列データ取得部121、共起関係特定部122、統合部123、特徴ベクトル生成部124は、協働することにより、時系列データに含まれるアイテム関連情報の特徴ベクトルを生成する。以下、アイテム関連情報の特徴ベクトルの生成に係る時系列データ取得部121、共起関係特定部122、統合部123及び特徴ベクトル生成部124の機能について説明する。
【0028】
[時系列データの取得]
時系列データ取得部121は、第1時系列データと第2時系列データとを取得する。例えば、時系列データ取得部121は、複数のユーザのECサイトにおけるアイテムの閲覧及び購買履歴を示す情報を第1時系列データとして取得するとともに、複数のユーザのそれぞれのウェブサイトの閲覧履歴を示す情報を第2時系列データとして取得する。時系列データ取得部121は、例えば、第1時系列データと第2時系列データとを収集する情報収集サーバ(不図示)から、複数の第1時系列データと、複数の第2時系列データとを所定時間おきに取得する。
【0029】
ここで、第1時系列データに対応する複数のユーザと、第2時系列データに対応する複数のユーザとには、同一の端末によりECサイトにおけるアイテムの閲覧及び購買を行うとともにウェブサイトを閲覧する共通ユーザが含まれているものとする。
【0030】
第1時系列データには、複数のイベントのそれぞれに対応するイベントデータが含まれている。イベントデータは、イベントに対応するアイテムに関連するアイテム関連情報と、イベントが発生した時刻とを含む。第1時系列データにおけるイベントは、例えば、アイテムの購入又はアイテムの説明ページの閲覧である。アイテムは、例えば、商品やサービスである。また、アイテム関連情報は、例えば、イベントの種別やアイテムの名称やアイテムが属するカテゴリである。
【0031】
第1時系列データは、例えば、ECサイトにおけるアクセス履歴であり、ECサイトに対応するURLと、当該URLへのアクセス時刻とを関連付けたイベントデータが複数含まれている。ECサイトにおけるURLには、アイテムが購入された場合に端末に表示される購入完了ページのURL及びアイテムを説明するページのURLが含まれている。また、URLへのアクセス時刻は、イベントが発生した時刻に対応している。
【0032】
ECサイトに対応するURLには、パラメータとしてアイテム関連情報が含まれている。例えば、アイテムが購入された場合に端末に表示される購入完了ページのURLには、アイテム関連情報として、アイテムが購入されたことを示すイベント種別と、アイテムの名称又はカテゴリを示す情報とが含まれている。アイテムを説明するページのURLには、アイテム関連情報として、アイテムの閲覧イベントを示すイベント種別と、アイテムの名称又はカテゴリを示す情報とが含まれている。
【0033】
複数の第1時系列データには、M個のアイテム関連情報が含まれているものとする。複数の第1時系列データに含まれているアイテム関連情報の集合を、{Ie,1,Ie,2,Ie,3,…,Ie,M}とする。なお、以下の説明において、複数の第1時系列データに含まれているアイテム関連情報に対応するアイテムの集合を、第1アイテム集合ともいう。また、以下の説明において、アイテム関連情報Ie,m(ただし、1≦m≦M)を、アイテムIe,mともいう。
【0034】
第2時系列データには、第1時系列データと同様に、複数のイベントのそれぞれに対応するイベントデータが含まれている。第2時系列データにおけるイベントは、例えば、アイテムを示す情報を含むウェブサイトの閲覧である。
【0035】
第2時系列データは、例えば、ウェブサイトにおけるアクセス履歴であり、ウェブサイトに対応するURLと、当該URLへのアクセス時刻とを関連付けたイベントデータが複数含まれている。ウェブサイトに対応するURLには、アイテムを説明するページのURLが含まれている。アイテムを説明するページのURLには、パラメータとしてアイテム関連情報が含まれている。例えば、アイテムを説明するページのURLには、アイテム関連情報として、アイテムの名称又はカテゴリを示す情報が含まれている。
【0036】
複数の第2時系列データには、N個のアイテム関連情報が含まれているものとする。複数の第2時系列データに含まれているアイテム関連情報の集合を、{Iw,1,Iw,2,Iw,3,…,Iw,N}とする。以下の説明において、複数の第2時系列データに含まれているアイテム関連情報の集合を、第2アイテム集合ともいう。なお、また、以下の説明において、アイテム関連情報Iw,n(ただし、1≦n≦N)を、アイテムIw,nともいう。また、第1時系列データと、第2時系列データとには、同じアイテムを示すアイテム関連情報が含まれていてもよい。例えば、Ie,1と、Iw,1とが同じアイテムを示すアイテム関連情報であってもよい。
【0037】
[共起関係の特定]
共起関係特定部122は、第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する。
【0038】
具体的には、まず、共起関係特定部122は、第1アイテム集合に含まれる複数のアイテム関連情報のそれぞれについて、第1時系列データにおいて第1アイテム関連情報が出現する時間帯である第1時間帯と、第1時系列データにおいて第1アイテム関連情報が出現しない時間帯である第2時間帯とを特定する。ここで、共起関係特定部122は、第1時系列データにおいて第1アイテム関連情報が出現しない時間帯(第2時間帯)の長さを、第1アイテム関連情報が出現する時間帯(第1時間帯)の長さに基づいて定める。例えば、共起関係特定部122は、第2時間帯の長さを第1時間帯の長さと同じ長さとする。
【0039】
なお、共起関係特定部122は、第1時系列データにおいて第1アイテム関連情報が出現しない時間帯(第2時間帯)の開始時刻及び終了時刻の少なくともいずれかを、第1アイテム関連情報が出現する時間帯(第1時間帯)の開始時刻及び終了時刻の少なくともいずれかに基づいて定めてもよい。例えば、共起関係特定部122は、第2時間帯の開始時刻を、第1時間帯が出現した日とは別の日における、当該第1時間帯の開始時刻と同じ時刻としてもよい。
【0040】
このようにすることで、第1時間帯における第2アイテム関連情報の出現率と、第2時間帯における第2アイテム関連情報の出現率とを同じ基準により算出できるので、共起する第2アイテム関連情報を精度良く特定することができる。
【0041】
続いて、共起関係特定部122は、第1アイテム集合に含まれるアイテム関連情報に対応する第1時間帯における、第2アイテム関連情報の出現率である第1出現率PAと、第2時間帯における第2アイテム関連情報の出現率である第2出現率PNAとを算出する。共起関係特定部122は、第1アイテム集合に含まれる複数のアイテム関連情報のそれぞれについて、第2アイテム集合に含まれる複数のアイテム関連情報のそれぞれに対応する第1出現率PAと、第2出現率PNAとを算出する。
【0042】
そして、共起関係特定部122は、第1出現率PAと、第2出現率PNAとに基づいて、共起する第1アイテム関連情報及び第2アイテム関連情報を特定する。例えば、共起関係特定部122は、第1出現率PA/第2出現率PNAが閾値thよりも大きい場合、当該第1出現率PAに対応する第1アイテム関連情報及び第2アイテム関連情報が共起関係にあると特定する。
【0043】
ここで、第1出現率PAと、第2出現率PNAとに基づいて、第1アイテム関連情報及び第2アイテム関連情報の共起関係を特定することの信頼性について説明する。
【0044】
第1時系列データ及び第2時系列データにユーザ識別情報が含まれており、これらのユーザ識別情報に基づいて、第1時系列データと、第2時系列データとにおける共通ユーザが特定できる場合を考える。例えば、第1時系列データに対応するユーザUe,1、Ue,2、Ue,3、…、Ue,Cと、第2時系列データに対応するユーザUw,1、Uw,2、Uw,3、…、Uw,Cとが共通ユーザであるものとする。また、第1時系列データに対応するユーザとして、共通ユーザ以外のユーザUe,C+1、Ue,C+2、Ue,C+3、…、Ue,X、第2時系列データに対応するユーザとして、共通ユーザ以外のユーザUw,C+1、Uw,C+2、Uw,C+3、…、Uw,Yが存在するものとする。ただし、C≦X、C≦Yである。
【0045】
共通ユーザは、第1時系列データに含まれるアイテムI
e,mを閲覧又は購買する場合に、当該アイテムI
e,mと共起関係がある、第2時系列データに含まれるアイテムI
w,nを閲覧する可能性が高い。
図3は、複数の第1時系列データにおいてアイテムI
e,mが出現する時間帯(第1時間帯)と、アイテムI
e,mが出現しない時間帯(第2時間帯)とにおけるアイテムI
w,nの出現状態を示す図である。
【0046】
図3に示すユーザU
e,1~U
e,Xのそれぞれの右側に示される矢印は、各ユーザの第1時系列データを示している。U
w,1~U
w,Yのそれぞれの右側に示される矢印は、各ユーザの第2時系列データを示している。また、
図3に示すTA1~TA3及びTB1~TB2は、第1時間帯を示し、TC1~TC4は、第2時間帯を示している。また、第1時間帯のうち、TA1~TA3は、共通ユーザがアイテムI
e,mを閲覧した時間帯、TB1~TB2は、共通ユーザ以外のユーザがアイテムI
e,mを閲覧した時間帯である。
【0047】
複数の第1時系列データにおいて共通ユーザがアイテムIe,mを閲覧又は購買する第1時間帯の数をL1、共通ユーザ以外のユーザがアイテムIe,mを閲覧又は購買する第1時間帯の数をL2、ユーザがアイテムIe,mを閲覧又は購買しない第2時間帯の数をL3とする。
【0048】
また、同一のユーザがアイテムIe,mを閲覧する場合におけるアイテムIw,nの出現率をP1、アイテムIe,mが出現しない場合におけるアイテムIw,nの出現率をP2、条件を付さない場合におけるアイテムIw,nの出現率をP、共通ユーザの数をC、第2時系列データに対応するユーザの数をYとする。
【0049】
この場合において、アイテムIw,nが出現する時間帯(第1時間帯)における出現率である第1出現率PAは、以下の式(1)により示される。
PA={L1(P1+P2(C-1)+P(Y-C))+L2(P2C+P(Y-C))}/(L1+L2)・・・(1)
【0050】
アイテムIe,mと、アイテムIw,nとが共起する場合、P1≧P2であるので、以下の式(2)が成り立つ。
PA>={L1(P2+P2(C-1)+P(Y-C))+L2(P2C+P(Y-C))}/(L1+L2)・・・(2)
【0051】
また、(2)の右辺については、下記の式(3)が成り立つ。
{L1(P2+P2(C-1)+P(Y-C))+L2(P2C+P(Y-C))}/(L1+L2)
=P2C+P(Y-C)
=(L3P2C+L3P(Y-C))/L3・・・(3)
【0052】
(L3P2C+L3P(Y-C))/L3は、アイテムIe,mが出現しない時間帯(第2時間帯)のアイテムIw,nの出現率PNAであることから、式(1)~(3)に基づいて、アイテムIe,mとアイテムIw,nとが共起する場合、PA≧PNAとなる。したがって、PAとPNAとの関係に基づいて、ユーザ識別情報を得ることなく、第1アイテム関連情報と、第2アイテム関連情報とが共起するか否かを特定することができる。なお、アイテムIe,mとアイテムIw,nとが共起していないのであれば、P1=P2となり、結果として、PA=PNA=Pとなる。
【0053】
[時系列データの統合]
統合部123は、共起関係特定部122が特定した、共起する第1アイテム関連情報及び第2アイテム関連情報に基づいて、第1時系列データと第2時系列データとを統合することにより統合時系列データを複数生成する。
【0054】
具体的には、まず、統合部123は、時系列データ取得部121が取得した第1時系列データに含まれるアイテム関連情報に関連付けられているイベントの発生時刻に基づいて、アイテム関連情報のシーケンスデータを生成する。例えば、統合部123は、時系列データ取得部121が取得した第1時系列データに対して、以下に示すアイテム関連情報のシーケンスデータDe,1~De,Xを生成する。
【0055】
De,1:Ie,1,Ie,2,…
De,2:Ie,3,Ie,4,Ie,2,Ie,5,…
De,3:Ie,5,…
…
De,X:Ie,5,Ie,2,…
【0056】
同様に、統合部123は、時系列データ取得部121が取得した第2時系列データに対して、以下に示すアイテム関連情報のシーケンスデータDw,1~Dw,Yを生成する。
Dw,1:Iw,1,Iw,2,Iw,3,Iw,4,Iw,5,…
Dw,2:Iw,6,Iw,5,Iw,7,…
Dw,3:Iw,8,Iw,10,…
…
Dw,Y:Iw,7,Iw,5,…
【0057】
統合部123は、共起する第1アイテム関連情報及び第2アイテム関連情報に対応する第1出現率PAと、第2出現率PNAとの関係に基づいて共起度合いを特定する。共起度合いは、例えば、tanh(PA/PNA)により求められる。tanh()は、ハイパボリックタンジェントである。統合部123は、特定した共起度合いに基づいて、第1時系列データに基づいて生成したシーケンスデータに、共起する第2アイテム関連情報を挿入することにより、統合時系列データを生成する。例えば、統合部123は、特定した共起度合いを、アイテム関連情報を挿入する確率とする。統合部123は、第1時系列データに基づいて生成したシーケンスデータに、共起度合いに対応する確率で、共起する第2アイテム関連情報を挿入する。
【0058】
ここで、第1時系列データに第2アイテム関連情報を挿入する場合、第1時系列データ上では、第2アイテム関連情報の発生時刻が規定されていない。そこで、統合部123は、第1時系列データに基づいて生成したシーケンスデータに含まれる第1アイテム関連情報に隣接して、当該第1アイテム関連情報と共起する第2アイテム関連情報を挿入することにより、統合時系列データを生成する。
【0059】
また、統合部123は、第2時系列データに基づいて生成したシーケンスデータに第2アイテム関連情報と共起する第1アイテム関連情報を挿入することにより、統合時系列データを生成する。このようにすることで、特徴ベクトル生成装置1は、第1時系列データに第2アイテム関連情報を挿入して統合時系列データを生成するだけではなく、第2時系列データに第1アイテム関連情報を挿入して統合時系列データを生成するので、多くの統合時系列データを生成することができる。
【0060】
例えば、アイテム関連情報Ie,2とアイテム関連情報Iw,5とが共起している場合、統合部123は、上述したシーケンスデータDe,1~De,Xに対して、Ie,2とIw,5との共起度合いに基づいて、以下に示すようにIw,5を挿入する。なお、下記の例において、[Iw,5]は、Iw,5が新たに挿入されたことを示している。ここで、Iw,5はIe,2とIw,5との共起度合いに基づいて挿入されることから、Ie,2が含まれるシーケンスデータに対してIw,5が必ず挿入されるわけではない。例えば、シーケンスデータDe,2に対しては、Iw,5が挿入されていないことが確認できる。
【0061】
De,1:Ie,1,[Iw,5],Ie,2,…
De,2:Ie,3,Ie,4,Ie,2,Ie,5,…
De,3:Ie,5,…
…
De,X:Ie,5,[Iw,5],Ie,2,…
【0062】
同様に、統合部123は、上述したシーケンスデータDw,1~Dw,Yに対して、Ie,2とIw,5との共起度合いに基づいて、以下に示すようにIe,2を挿入する。なお、下記の例において、[Ie,2]は、Ie,2が新たに挿入されたことを示している。
【0063】
Dw,1:Iw,1,Iw,2,Iw,3,Iw,4,Iw,5,…
Dw,2:Iw,6,[Ie,2],Iw,5,Iw,7,…
Dw,3:Iw,8,Iw,10,…
…
Dw,Y:Iw,7,[Ie,2],Iw,5,…
【0064】
以下の説明では、第2アイテム関連情報が挿入された第1時系列データに対応するシーケンスデータ、及び、第1アイテム関連情報が挿入された第2時系列データに対応するシーケンスデータをまとめて、統合時系列データという。
【0065】
特徴ベクトル生成部124は、統合部123により統合された複数の統合時系列データに基づいて、複数の統合時系列データのそれぞれに含まれる複数のアイテム関連情報の特徴を示す特徴ベクトルを生成する。具体的には、特徴ベクトル生成部124は、複数の統合時系列データのそれぞれに含まれる複数のアイテム関連情報の関係を解析することにより、複数のアイテム関連情報のそれぞれの特徴ベクトルを生成する。
【0066】
例えば、特徴ベクトル生成部124は、統合時系列データに含まれる複数のアイテム関連情報のそれぞれを1つの単語とみなし、複数の統合時系列データのそれぞれにおいて、当該単語を連結した文章を生成する。特徴ベクトル生成部124は、生成した複数の文章について、例えば、Word2Vecを用いることにより、複数のアイテム関連情報のそれぞれの特徴ベクトルを生成する。特徴ベクトルの要素数は、例えば、アイテム関連情報の数に対応するものとする。
【0067】
図4は、
図3に示す時系列データに基づいて生成した特徴ベクトルを特徴空間に配置した例を示す図である。なお、
図4では、説明の便宜上、特徴空間を二次元に圧縮して特徴空間に配置した例を示している。
図4には、マークM1とマークM2とがそれぞれ複数配置されている。これらのマークは、特徴空間上のアイテムの位置を示している。マークM1は、第1時系列データに対応する第1イベント関連情報を示しており、マークM2は、第2時系列データに対応する第2イベント関連情報を示している。また、マークM1の近傍には、第1アイテム関連情報に対応する符号I
e,1~I
e,10が示されており、マークM2の近傍には、第2アイテム関連情報に対応する符号I
w,1~I
w,12が示されている。
【0068】
上述した例では、アイテム関連情報I
e,2とI
w,5とが共起しているものとしたが、
図4では、I
e,2とI
w,5とが特徴空間において他のアイテムに比べて近い位置に配置されており、共起していることが確認できる。
【0069】
[転移学習及び所定のイベントの発生予測]
本実施形態において、特徴ベクトル生成部124及び予測部125は、協働することにより、異なるドメインに対応する時系列データ間の転移学習を行うとともに、第2時系列データに対応するユーザが、所定のイベントを発生させるか否かを予測する。これにより、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を行う学習装置、及び第2時系列データに対応するユーザが所定のイベントを発生させるか否かを予測する予測装置として機能する。以下、転移学習及び所定のイベントの発生予測に係る特徴ベクトル生成部124及び予測部125の機能について説明する。
【0070】
特徴ベクトル生成部124は、第1時系列データに含まれる複数のアイテム関連情報のそれぞれに対応する特徴ベクトルに基づいて、第1時系列データに対応するユーザの特徴ベクトルを第1特徴ベクトルとして生成する。
【0071】
例えば、特徴ベクトル生成部124は、統合部123と同様に、第1時系列データに基づいて統合時系列データを生成する。特徴ベクトル生成部124は、複数のユーザのそれぞれに対して生成した統合時系列データについて、当該統合時系列データに含まれる複数のアイテム関連情報のそれぞれに対して生成された特徴ベクトルの平均値(例えば、算術平均値や加重平均値)を算出する。特徴ベクトル生成部124は、1つの統合時系列データについて生成された特徴ベクトルの平均値を、当該統合時系列データに対応するユーザに対応する第1特徴ベクトルとする。なお、特徴ベクトル生成部124は、統合時系列データを生成し、当該統合時系列データに基づいて第1特徴ベクトルを生成したが、これに限らない。特徴ベクトル生成部124は、第1時系列データに基づいて第1特徴ベクトルを生成してもよい。
【0072】
予測部125は、複数の第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、所定のイベントを発生させたユーザと、当該所定のイベントを発生させなかったユーザとに分類する分類器を生成する。
【0073】
例えば、予測部125は、第1特徴ベクトルの生成に用いた第1時系列データに基づく統合時系列データのうち、所定のアイテムの購入イベントを含む統合時系列データを正例データとし、所定のアイテムの購入イベントを含まない統合時系列データを負例データとする。そして、予測部125は、これらの正例データ及び負例データに基づいて機械学習を行うことにより、ユーザの特徴ベクトルの入力に対して、当該ユーザを、アイテムの購入イベントを発生させたユーザと、アイテムの購入イベントを発生させなかったユーザとに分類する分類器を生成する。
【0074】
図5は、本実施形態に係る第1特徴ベクトルに基づいて分類器を学習させた例を示す図である。なお、
図5では、説明の便宜上、第1特徴ベクトルを二次元に圧縮して特徴空間に配置した例を示している。
図5に示すマークM3は、正例データに対応する第1特徴ベクトルを示し、マークM4は、負例データに対応する第1特徴ベクトルを示している。また、境界線Lは、分類器により第1特徴ベクトルを正例データと負例データとを分類したときの境界線を示している。なお、境界線は、説明の便宜上示すものであり、実際には境界線は生成されるものではない。
【0075】
特徴ベクトル生成部124は、第2時系列データに含まれる複数のアイテム関連情報のそれぞれの特徴ベクトルに基づいて、第2時系列データに対応するユーザの特徴ベクトルである第2特徴ベクトルを生成する。例えば、特徴ベクトル生成部124は、統合部123と同様に、第2時系列データに基づいて統合時系列データを生成する。そして、特徴ベクトル生成部124は、第2時系列データに基づく統合時系列データに含まれる複数のアイテム関連情報のそれぞれに対して生成された特徴ベクトルの平均値を算出することにより、第2特徴ベクトルを生成する。なお、特徴ベクトル生成部124は、統合時系列データを生成し、当該統合時系列データに基づいて第2特徴ベクトルを生成したが、これに限らない。特徴ベクトル生成部124は、第2時系列データに基づいて第2特徴ベクトルを生成してもよい。
【0076】
予測部125は、生成した分類器に第2特徴ベクトルを入力することにより、第2特徴ベクトルに対応するユーザを、所定のイベントを発生させると予測されるユーザと、所定のイベントを発生させないと予測されるユーザとに分類し、分類結果を示す情報を出力する。
【0077】
図6は、本実施形態に係る分類器により第2特徴ベクトルが分類された例を示す図である。
図6に示す例は、
図5に対応する分類器により第2特徴ベクトルを分類した例を示しており、
図5と同じ境界線Lが表示されている。
図6に示すマークM5は、所定のイベントを発生させると予測されたユーザに対応する第2特徴ベクトルを示している。また、マークM6は、所定のイベントを発生させないと予測されたユーザに対応する第2特徴ベクトルを示している。このようにすることで、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
【0078】
[特徴ベクトル生成装置1における処理の流れ]
続いて、特徴ベクトル生成装置1における処理の流れの一例について説明する。まず、特徴ベクトル生成装置1がアイテム関連情報の特徴ベクトルを生成するときの処理の流れについて説明する。
図7は、本実施形態に係る特徴ベクトル生成装置1がアイテムの特徴ベクトルを生成するときの処理の流れを示すフローチャートである。
【0079】
まず、時系列データ取得部121は、複数の第1時系列データと複数の第2時系列データとを取得する(S1)。
続いて、共起関係特定部122は、複数の第1時系列データと複数の第2時系列データとに基づいて、第1アイテム関連情報と共起する第2アイテム関連情報を特定する(S2)。
【0080】
続いて、統合部123は、共起する第1アイテム関連情報及び第2アイテム関連情報に基づいて、統合時系列データを生成する(S3)。統合部123は、複数の第1時系列データと複数の第2時系列データとに基づいて、複数の統合時系列データを生成する。
【0081】
続いて、特徴ベクトル生成部124は、複数の統合時系列データに基づいて、複数の統合時系列データのそれぞれに含まれる複数のアイテム関連情報の特徴ベクトルを生成する(S4)。
【0082】
続いて、特徴ベクトル生成装置1が所定のイベントを発生させるユーザを予測するときの処理の流れについて説明する。
図8は、本実施形態に係る特徴ベクトル生成装置1が所定のイベントを発生させるユーザを予測するときの処理の流れを示すフローチャートである。なお、本フローチャートの開始時に、時系列データ取得部121が複数の第1時系列データと複数の第2時系列データとを取得しており、特徴ベクトル生成部124が複数のアイテム関連情報のそれぞれの特徴ベクトルを生成しているものとする。
【0083】
まず、特徴ベクトル生成部124は、時系列データ取得部121が取得した第1時系列データに基づいて統合時系列データを生成する(S11)。具体的には、特徴ベクトル生成部124は、時系列データ取得部121が取得した第1時系列データに、当該第1時系列データに含まれる第1アイテム関連情報と共起する第2アイテム関連情報を挿入することにより統合時系列データを生成する。
【0084】
続いて、特徴ベクトル生成部124は、S11において生成された統合時系列データについて、当該時系列データに含まれるアイテム関連情報の特徴ベクトルに基づいて第1特徴ベクトルを生成する(S12)。
【0085】
続いて、予測部125は、S12において生成された第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベント(アイテムの購入イベント)を発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、所定のイベントを発生させたユーザと、当該所定のイベントを発生させなかったユーザとに分類する分類器を生成する(S13)。
【0086】
続いて、特徴ベクトル生成部124は、時系列データ取得部121が取得した第2時系列データに基づいて統合時系列データを生成する(S14)。具体的には、特徴ベクトル生成部124は、時系列データ取得部121が取得した第2時系列データに、当該第2時系列データに含まれる第2アイテム関連情報と共起する第1アイテム関連情報を挿入することにより統合時系列データを生成する。
【0087】
続いて、特徴ベクトル生成部124は、S14において生成された統合時系列データについて、当該統合時系列データに含まれるアイテム関連情報の特徴ベクトルに基づいて第2特徴ベクトルを生成する(S15)。
【0088】
続いて、予測部125は、S13において生成された分類器に、S15において生成された第2特徴ベクトルを入力することにより、当該第2特徴ベクトルに対応するユーザを、所定のイベントを発生させると予測されるユーザと、所定のイベントを発生させないと予測されるユーザとに分類する(S16)。
続いて、予測部125は、S16における分類結果を出力する(S17)。例えば、予測部125は、分類結果を示す情報を含むファイルを生成し、当該ファイルを記憶部11に記憶させる。
【0089】
なお、本フローチャートでは、特徴ベクトル生成部124は、S11及びS14において統合時系列データを生成し、当該統合時系列データに基づいて第1特徴ベクトル及び第2特徴ベクトルを生成したが、これに限らない。特徴ベクトル生成部124は、上述したように、第1時系列データに基づいて第1特徴ベクトルを生成するとともに、第2時系列データに基づいて第2特徴ベクトルを生成してもよい。
【0090】
[本実施形態における効果]
以上の通り、本実施形態に係る特徴ベクトル生成装置1は、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得し、第1時系列データに含まれるアイテム関連情報である第1アイテム関連情報と共起する、第2時系列データに含まれるアイテム関連情報である第2アイテム関連情報を特定する。そして、特徴ベクトル生成装置1は、共起する第1アイテム関連情報及び第2アイテム関連情報に基づいて第1時系列データと第2時系列データとを統合することにより統合時系列データを複数生成し、統合時系列データに含まれる複数のアイテム関連情報の特徴を示す特徴ベクトルを生成する。このようにすることで、特徴ベクトル生成装置1は、ユーザを識別する情報を用いずに、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成することができる。これにより、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
【0091】
以上、本発明を上記の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。
【0092】
例えば、上述の実施形態では、イベントデータをユーザが発生させたものとしたが、これに限らず、デバイスが発生させたものであってもよい。また、上述の実施形態では、特徴ベクトル生成装置1は、第1ドメインの第1時系列データと、第2ドメインの第2時系列データとを統合することにより統合時系列データを生成し、当該統合時系列データに基づいて、アイテム関連情報の特徴を示す特徴ベクトルを生成したが、これに限らない。特徴ベクトル生成装置1は、3つ以上のドメインのそれぞれに対応する時系列データを統合することにより統合時系列データを生成し、当該統合時系列データに基づいて、アイテムの特徴を示す特徴ベクトルを生成してもよい。
【0093】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0094】
1・・・特徴ベクトル生成装置、11・・・記憶部、12・・・制御部、121・・・時系列データ取得部、122・・・共起関係特定部、123・・・統合部、124・・・特徴ベクトル生成部、125・・・予測部