IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7286259特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム
<>
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図1
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図2
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図3
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図4
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図5
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図6
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図7
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図8
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図9
  • 特許-特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-26
(45)【発行日】2023-06-05
(54)【発明の名称】特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム
(51)【国際特許分類】
   G06F 16/908 20190101AFI20230529BHJP
   G06N 20/00 20190101ALI20230529BHJP
【FI】
G06F16/908
G06N20/00
【請求項の数】 6
(21)【出願番号】P 2020149783
(22)【出願日】2020-09-07
(65)【公開番号】P2022044249
(43)【公開日】2022-03-17
【審査請求日】2022-06-16
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】米川 慧
(72)【発明者】
【氏名】牛 コウ
(72)【発明者】
【氏名】黒川 茂莉
【審査官】木村 大吾
(56)【参考文献】
【文献】特開2020-052518(JP,A)
【文献】特開2010-204966(JP,A)
【文献】特開2018-205860(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
所定のユーザが発生させたイベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻を示すイベント発生時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、
前記第1時系列データに含まれる前記アイテム情報の件数と、前記第2時系列データに含まれる前記アイテム情報の件数とが略同一となるように、前記第1時系列データに含まれる当該アイテム情報の件数と前記第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整する調整部と、
前記調整部により前記件数が調整された後の前記第1時系列データである第1調整データに含まれる前記イベント発生時刻と、前記調整部により前記件数が調整された後の前記第2時系列データである第2調整データに含まれる前記イベント発生時刻に基づいて、前記第1調整データの一部と前記第2調整データの一部とを統合することにより統合データを複数生成する統合部と、
前記統合部により統合された複数の前記統合データに基づいて、複数の前記統合データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
を有する特徴ベクトル生成装置。
【請求項2】
前記調整部は、前記第1時系列データに含まれる前記アイテム情報の件数である第1件数と、前記第2時系列データに含まれる前記アイテム情報の件数である第2件数とを算出し、当該アイテム情報が含まれる件数が多い時系列データに含まれる当該アイテム情報を前記第1件数と前記第2件数とに基づいて設定される確率で消去することにより、前記第1時系列データに含まれる前記アイテム情報の件数と前記第2時系列データに含まれる前記アイテム情報の件数のいずれかを調整する、
請求項1に記載の特徴ベクトル生成装置。
【請求項3】
前記調整部は、前記第1時系列データと前記第2時系列データとを統合した場合に、同じドメインの前記アイテム情報が連続して出現するとき、当該アイテム情報のいずれかを前記第1件数と前記第2件数とに基づいて設定される確率で消去し、異なるドメインの前記アイテム情報が連続して出現するとき、当該アイテム情報を消去しないように制御する、
請求項2に記載の特徴ベクトル生成装置。
【請求項4】
前記調整部は、前記第1時系列データに含まれる前記アイテム情報の件数である第1件数と、前記第2時系列データに含まれる前記アイテム情報の件数である第2件数とを算出し、前記第1件数と前記第2件数とに基づいて、当該アイテム情報が含まれる件数が少ない時系列データに当該アイテム情報を追加することにより、前記第1時系列データに含まれる前記アイテム情報の件数と前記第2時系列データに含まれる前記アイテム情報の件数のいずれかを調整する、
請求項1に記載の特徴ベクトル生成装置。
【請求項5】
コンピュータが実行する、
所定のユーザが発生させたイベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻を示すイベント発生時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、
前記第1時系列データに含まれる前記アイテム情報の件数と、前記第2時系列データに含まれる前記アイテム情報の件数とが略同一となるように、前記第1時系列データに含まれる当該アイテム情報の件数と前記第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整するステップと、
前記件数が調整された後の前記第1時系列データである第1調整データに含まれる前記イベント発生時刻と、前記件数が調整された後の前記第2時系列データである第2調整データに含まれる前記イベント発生時刻に基づいて、前記第1調整データの一部と前記第2調整データの一部とを統合することにより統合データを複数生成するステップと、
複数の前記統合データに基づいて、複数の前記統合データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成するステップと、
を有する特徴ベクトル生成方法。
【請求項6】
コンピュータを、
所定のユーザが発生させたイベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻を示すイベント発生時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、
前記第1時系列データに含まれる前記アイテム情報の件数と、前記第2時系列データに含まれる前記アイテム情報の件数とが略同一となるように、前記第1時系列データに含まれる当該アイテム情報の件数と前記第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整する調整部、
前記調整部により前記件数が調整された後の前記第1時系列データである第1調整データに含まれる前記イベント発生時刻と、前記調整部により前記件数が調整された後の前記第2時系列データである第2調整データに含まれる前記イベント発生時刻に基づいて、前記第1調整データの一部と前記第2調整データの一部とを統合することにより統合データを複数生成する統合部、及び、
前記統合部により統合された複数の前記統合データに基づいて、複数の前記統合データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、
として機能させる特徴ベクトル生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラムに関する。
【背景技術】
【0002】
幅広い業種で時系列データ分析が使われている。時系列データ分析では、過去のデータに基づいて将来のデータを推定する場面が多い。従来、線形の時系列解析手法(例えば、自己回帰和分移動平均モデル)がよく使われてきたが、機械学習手法も提案されている。機械学習技術は非線形な時系列データや複雑な周期の時系列データにも効果的に対応できる。
【0003】
近年、時系列データの各アイテムに特徴ベクトルを割り当てることにより、アイテムのクラスタリングや時系列パターンの分類等を行う機械学習技術が提案されている。例えば、非特許文献1には、Word2Vec(Doc2Vec)を利用して、全ユーザの時系列データセットの各アイテムに特徴ベクトルを割り当て、当該特徴ベクトルに基づいて、ユーザにアイテムの推薦を行うことが開示されている。また、非特許文献2には、時系列データのアイテム間の間隔を考慮して、各アイテムに特徴ベクトルの割り当てを行うことが開示されている。さらには、特許文献1には、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成することが開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2020-52518号公報
【非特許文献】
【0005】
【文献】Ozsoy, Makbule Gulcin. "From word embeddings to item recommendation." arXiv preprint arXiv:1601.01356, 2016年
【文献】Hong, Shenda, et al. "Event2vec: Learning Representations of Events on Temporal Sequences." Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint Conference on Web and Big Data. Springer, Cham,2017年
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に示される、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成する技術では、異なるドメイン間の時系列データセットの量的な不均衡が考慮されていないという問題があった。例えば、第1ドメインのデータの件数と第2ドメインのデータの件数に大きく差がある場合、データの件数が多く、アイテムの件数が多いドメインに偏って特徴ベクトルが生成されることにより、異なるドメインのアイテム間の関連性を十分に捉えられず、転移学習を精度良く行うことができないという問題がある。
【0007】
そこで、本発明はこれらの点に鑑みてなされたものであり、一方のドメインに偏ることなく特徴ベクトルを生成することを目的とする。
【課題を解決するための手段】
【0008】
本発明の第1の態様に係る特徴ベクトル生成装置は、所定のユーザが発生させたイベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻を示すイベント発生時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、前記第1時系列データに含まれる前記アイテム情報の件数と、前記第2時系列データに含まれる前記アイテム情報の件数とが略同一となるように、前記第1時系列データに含まれる当該アイテム情報の件数と前記第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整する調整部と、前記調整部により前記件数が調整された後の前記第1時系列データである第1調整データに含まれる前記イベント発生時刻と、前記調整部により前記件数が調整された後の前記第2時系列データである第2調整データに含まれる前記イベント発生時刻に基づいて、前記第1調整データの一部と前記第2調整データの一部とを統合することにより統合データを複数生成する統合部と、前記統合部により統合された複数の前記統合データに基づいて、複数の前記統合データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、を有する。
【0009】
前記調整部は、前記第1時系列データに含まれる前記アイテム情報の件数である第1件数と、前記第2時系列データに含まれる前記アイテム情報の件数である第2件数とを算出し、当該アイテム情報が含まれる件数が多い時系列データに含まれる当該アイテム情報を前記第1件数と前記第2件数とに基づいて設定される確率で消去することにより、前記第1時系列データに含まれる前記アイテム情報の件数と前記第2時系列データに含まれる前記アイテム情報の件数のいずれかを調整してもよい。
【0010】
前記調整部は、前記第1時系列データと前記第2時系列データとを統合した場合に、同じドメインの前記アイテム情報が連続して出現するとき、当該アイテム情報のいずれかを前記第1件数と前記第2件数とに基づいて設定される確率で消去し、異なるドメインの前記アイテム情報が連続して出現するとき、当該アイテム情報を消去しないように制御してもよい。
【0011】
前記調整部は、前記第1時系列データに含まれる前記アイテム情報の件数である第1件数と、前記第2時系列データに含まれる前記アイテム情報の件数である第2件数とを算出し、前記第1件数と前記第2件数とに基づいて、当該アイテム情報が含まれる件数が少ない時系列データに当該アイテム情報を追加することにより、前記第1時系列データに含まれる前記アイテム情報の件数と前記第2時系列データに含まれる前記アイテム情報の件数のいずれかを調整してもよい。
【0012】
本発明の第2の態様に係る特徴ベクトル生成方法は、コンピュータが実行する、所定のユーザが発生させたイベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻を示すイベント発生時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、前記第1時系列データに含まれる前記アイテム情報の件数と、前記第2時系列データに含まれる前記アイテム情報の件数とが略同一となるように、前記第1時系列データに含まれる当該アイテム情報の件数と前記第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整するステップと、前記件数が調整された後の前記第1時系列データである第1調整データに含まれる前記イベント発生時刻と、前記件数が調整された後の前記第2時系列データである第2調整データに含まれる前記イベント発生時刻に基づいて、前記第1調整データの一部と前記第2調整データの一部とを統合することにより統合データを複数生成するステップと、複数の前記統合データに基づいて、複数の前記統合データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成するステップと、を有する。
【0013】
本発明の第3の態様に係る特徴ベクトル生成プログラムは、コンピュータを、所定のユーザが発生させたイベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻を示すイベント発生時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、前記第1時系列データに含まれる前記アイテム情報の件数と、前記第2時系列データに含まれる前記アイテム情報の件数とが略同一となるように、前記第1時系列データに含まれる当該アイテム情報の件数と前記第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整する調整部、前記調整部により前記件数が調整された後の前記第1時系列データである第1調整データに含まれる前記イベント発生時刻と、前記調整部により前記件数が調整された後の前記第2時系列データである第2調整データに含まれる前記イベント発生時刻に基づいて、前記第1調整データの一部と前記第2調整データの一部とを統合することにより統合データを複数生成する統合部、及び、前記統合部により統合された複数の前記統合データに基づいて、複数の前記統合データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、として機能させる。
【発明の効果】
【0014】
本発明によれば、一方のドメインに偏ることなく特徴ベクトルを生成することができるという効果を奏する。
【図面の簡単な説明】
【0015】
図1】第1実施形態に係る特徴ベクトル生成装置の概要を説明する図である。
図2】第1実施形態に係る特徴ベクトル生成装置の構成を示す図である。
図3】第1実施形態に係る第1時系列データ及び第2時系列データの例を示す図である。
図4】第1実施形態に係る調整部による時系列データの調整例を示す図である。
図5】第1実施形態に係る統合データの生成例を示す図である。
図6】第1実施形態に係る第1特徴ベクトルに基づいて分類器を学習させた例を示す図である。
図7】第1実施形態に係る第2部分時系列データを含む部分時系列データに基づいて生成された第1特徴ベクトルを含めて分類器を学習させた例を示す図である。
図8】第1実施形態に係る分類器により第2特徴ベクトルが分類された例を示す図である。
図9】第1実施形態に係る特徴ベクトル生成装置がアイテムの特徴ベクトルを生成するときの処理の流れを示すフローチャートである。
図10】第1実施形態に係る特徴ベクトル生成装置が所定のイベントを発生させるユーザを予測するときの処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0016】
<第1実施形態>
[特徴ベクトル生成装置の概要]
図1は、第1実施形態に係る特徴ベクトル生成装置の概要を説明する図である。特徴ベクトル生成装置は、異なるドメインの時系列データを統合し、当該時系列データに含まれるアイテムの特徴を示す特徴ベクトルを生成するコンピュータである。
【0017】
特徴ベクトル生成装置は、第1ドメインの時系列データである第1時系列データを取得するとともに、第2ドメインの時系列データである第2時系列データを取得する(図1の(1))。第1実施形態においてドメインは、時系列データの種別に基づいて時系列データを分類するための領域である。第1実施形態では、第1ドメインは、例えば、EC(Electronic Commerce)サイトにおけるアイテムの購入に関するユーザの行動を示す時系列データを含む領域であり、第2ドメインは、例えば、任意のウェブサイトにおけるユーザの閲覧行動を示す時系列データを含む領域である。
【0018】
また、時系列データには、所定のユーザが発生させたイベントに対応するアイテムを示すアイテム情報と、当該イベントが発生した時刻を示すイベント発生時刻とが含まれている。
【0019】
第1時系列データと第2時系列データとにおいて、アイテム情報の件数が大幅に異なる場合、アイテム情報が含まれている件数が多いドメインに偏って特徴ベクトルが生成されることにより、第1ドメインと第2ドメインとのアイテム間の関連性を十分に捉えられず、転移学習を精度良く行うことができないという問題がある。そこで、第1実施形態に係る特徴ベクトル生成装置1は、第1時系列データに含まれるアイテム情報の件数と第2時系列データに含まれるアイテム情報の件数とが略同一となるように、第1時系列データに含まれる当該アイテム情報の件数と第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整する(図1の(2))。
【0020】
特徴ベクトル生成装置は、件数が調整された後の第1時系列データである第1調整データに含まれるイベント発生時刻と、件数が調整された後の第2時系列データである第2調整データに含まれるイベント発生時刻とに基づいて、第1調整データの一部と、第2調整データの一部とを統合することにより、統合データを複数生成する(図1の(3))。
【0021】
その後、特徴ベクトル生成装置は、生成した複数の統合データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する(図1の(4))。このようにすることで、特徴ベクトル生成装置は、取得した第1時系列データと第2時系列データに含まれるアイテム情報の件数が大幅に異なる場合であっても、第1時系列データと第2時系列データとにおける当該アイテム情報の件数を調整し、一方のドメインに偏ることなく特徴ベクトルを生成することができる。これにより、特徴ベクトル生成装置は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
以下、特徴ベクトル生成装置の構成について説明する。
【0022】
[特徴ベクトル生成装置1の構成例]
図2は、第1実施形態に係る特徴ベクトル生成装置1の構成を示す図である。特徴ベクトル生成装置1は、記憶部11と、制御部12とを備える。
【0023】
記憶部11は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等である。記憶部11は、特徴ベクトル生成装置1を機能させるための各種プログラムを記憶する。例えば、記憶部11は、特徴ベクトル生成装置1の制御部12を、時系列データ取得部121、調整部122、統合部123、特徴ベクトル生成部124及び予測部125として機能させる特徴ベクトル生成プログラムを記憶する。
【0024】
制御部12は、例えばCPU(Central Processing Unit)である。制御部12は、記憶部11に記憶されている各種プログラムを実行することにより、特徴ベクトル生成装置1に係る機能を制御する。制御部12は、記憶部11に記憶されているプログラムを実行することにより、時系列データ取得部121、調整部122、統合部123、特徴ベクトル生成部124及び予測部125として機能する。
【0025】
[アイテムの特徴ベクトルの生成]
第1実施形態において、時系列データ取得部121、調整部122、統合部123、特徴ベクトル生成部124は、協働することにより、時系列データに含まれるアイテムの特徴ベクトルを生成する。以下、アイテムの特徴ベクトルの生成に係る時系列データ取得部121、調整部122、統合部123及び特徴ベクトル生成部124の機能について説明する。
【0026】
時系列データ取得部121は、所定のユーザが発生させたイベントに対応するアイテム情報と、当該イベントが発生した時刻を示すイベント発生時刻とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する。例えば、時系列データ取得部121は、所定のユーザのECサイトにおけるアイテムの閲覧及び購買履歴を示す情報を第1時系列データとして取得するとともに、当該所定のユーザのウェブサイトの閲覧履歴を示す情報を第2時系列データとして取得する。時系列データ取得部121は、例えば、第1時系列データと第2時系列データとを収集する情報収集サーバ(不図示)から、所定のユーザの第1時系列データと、第2時系列データとを取得する。
【0027】
図3は、第1実施形態に係る第1時系列データ及び第2時系列データの例を示す図である。図3(a)には、第1時系列データD1が示されており、図3(b)には、第2時系列データD2が示されている。
【0028】
第1時系列データには、イベントに対応するアイテムを示すアイテム情報と、イベント発生時刻と、イベントを発生させたユーザを識別するためのユーザ識別情報とを関連付けたイベントデータが複数含まれている。図3に示す例において、v1~v7、p1、w1~w3は、イベントデータを示している。図3に示す例において、イベントデータの表示形態は、イベントの種別を示している。
【0029】
ここで、アイテムは、例えば、商品やサービスである。第1実施形態において、イベントデータに付した符号を、アイテムを識別するための識別情報とする。なお、異なる符号のアイテムは、同じアイテムであってもよいし、異なるアイテムであってもよい。例えば、イベントデータp1に対応するアイテムと、イベントデータv1に対応するアイテムは、同じであってもよいし、異なっていてもよい。
【0030】
第1時系列データには、所定のイベントに対応するアイテム情報と、所定のイベントとは異なるイベントに対応するアイテム情報との少なくともいずれかが含まれている。また、第2時系列データにも、所定のイベントとは異なるイベントに対応するアイテム情報が含まれている。
【0031】
例えば、第1時系列データにおいて、所定のイベントは、ユーザがECサイト上でアイテムを購入するイベントである。また、第1時系列データにおいて、所定のイベントとは異なるイベントは、ユーザがECサイトを閲覧するイベントである。図3(a)に示す例では、イベントデータv1~v7に対応するイベントは、ECサイトを閲覧するイベントであり、イベントデータp1に対応するイベントは、ECサイト上でアイテムを購入するイベントである。また、第2ドメインにおいて、所定のイベントとは異なるイベントは、ウェブサイトを閲覧するイベントである。図3(b)に示す例では、イベントデータw1~w3に対応するイベントは、ウェブサイトを閲覧するイベントである。
【0032】
また、図3に示される矢印は、イベントの発生時刻に対応している。例えば、第1時系列データD1では、ECサイト上で、イベントデータv1~v7に対応するアイテムが順番に閲覧され、その後、イベントデータp1に対応するアイテムが購入されたことを示している。
【0033】
ユーザ識別情報は、ユーザを一意に特定するための情報であり、例えば、ユーザが使用する端末に割り当てられたIPアドレスである。なお、ユーザ識別情報として、ECサイトにおいてユーザを識別するために用いられるユーザIDが用いられてもよいし、各ウェブサイトにおいてユーザを識別するために用いられるユーザIDが用いられてもよい。
【0034】
第1時系列データは、例えば、ECサイトにおけるアクセス履歴であり、ECサイトにアクセスした所定のユーザが使用する端末のIPアドレスと、ECサイトにおけるURLと、当該URLへのアクセス時刻とを関連付けたイベントデータが複数含まれている。ECサイトにおけるURLには、アイテムが購入された場合に端末に表示される購入完了ページのURL及びアイテムを説明するページのURLが含まれている。アイテムが購入された場合に端末に表示される購入完了ページのURLは、アイテムの購入イベントに対応するアイテム情報に対応しており、アイテムを説明するページのURLは、アイテムの閲覧イベントを示すアイテム情報に対応している。また、URLへのアクセス時刻が、イベントが発生した時刻に対応している。
【0035】
第2時系列データは、例えば、ウェブサイトにおけるアクセス履歴であり、ウェブサイトにアクセスした所定のユーザが使用する端末のIPアドレスと、ウェブサイトにおけるURLと、当該URLへのアクセス時刻とを関連付けたイベントデータが複数含まれている。ウェブサイトにおけるURLには、アイテムを説明するページのURLが含まれている。アイテムを説明するページのURLは、ウェブサイトにおけるアイテムの閲覧イベントに対応するアイテム情報に対応しており、URLへのアクセス時刻が、イベントが発生した時刻に対応している。
【0036】
調整部122は、第1時系列データに含まれるアイテム情報の件数と、第2時系列データに含まれるアイテム情報の件数とが略同一となるように、第1時系列データに含まれる当該アイテム情報の件数と第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整する。
【0037】
具体的には、まず、調整部122は、第1時系列データに含まれるアイテム情報の件数である第1件数と、第2時系列データに含まれるアイテム情報の件数である第2件数とを算出する。続いて、調整部122は、第1時系列データ及び第2時系列データのうち、アイテム情報が含まれる件数が多い時系列データに含まれるアイテム情報を、第1件数と第2件数とに基づいて設定される確率で消去することにより、第1時系列データに含まれるアイテム情報の件数と第2時系列データに含まれるアイテム情報の件数のいずれかを調整する。
【0038】
より具体的には、調整部122は、第1時系列データと第2時系列データとを統合して1つの統合データを生成した場合に、当該統合データにおいて第1ドメインに対応するアイテム情報が含まれる確率である第1生起確率p1と、第2ドメインに対応するアイテム情報が含まれる確率である第2生起確率p2とを算出する。第1件数をf1、第2件数をf2とすると、第1生起確率p1、第2生起確率p2は、以下の式(1)、(2)で示される。
【0039】
【数1】
【数2】
【0040】
調整部122は、第1生起確率p1が第2生起確率p2よりも高い場合、以下の式(3)に示すように、第1時系列データに含まれる複数のアイテム情報wiそれぞれを消去する消去確率P(wi)を定義する。ここで、アイテム情報の数はn個であるものとし、iは0からnまでの任意の整数であるものとする。
【数3】
【0041】
そして、調整部122は、第1生起確率p1が第2生起確率p2よりも高い場合、第1時系列データに含まれる複数のアイテム情報wiのそれぞれに対し、式(3)により定義された消去確率P(wi)に基づいて消去するか否かを決定する。調整部122は、消去することを決定したアイテム情報wiを第1時系列データから消去する。
【0042】
また、調整部122は、第2生起確率p2が第1生起確率p1よりも高い場合、以下の式(4)に示すように、対象アイテムwiに対応する消去確率P(wi)を定義する。
【数4】
【0043】
そして、調整部122は、第2生起確率p2が第1生起確率p1よりも高い場合、第2時系列データに含まれる複数のアイテム情報wiのそれぞれに対し、式(4)により定義された消去確率P(wi)に基づいて消去するか否かを決定する。調整部122は、消去することを決定したアイテム情報wiを第2時系列データから消去する。
【0044】
これにより、アイテム情報wiが消去された後の第1時系列データに含まれるアイテム情報の数と、第2時系列データに含まれるアイテム情報の数とは略同一となる。図4は、第1実施形態に係る調整部122による時系列データの調整例を示す図である。図4(a)は、調整部122による調整が行われる前の第1時系列データと第2時系列データとを統合して一つの統合データを生成したときの、当該統合データに含まれる複数のアイテム情報それぞれの生起確率を示すグラフである。図4(b)は、調整部122による調整が行われた後の第1時系列データと第2時系列データとを統合して一つの統合データを生成したときの、当該統合データに含まれる複数のアイテム情報それぞれの生起確率を示すグラフである。
【0045】
図4に示す例では、説明を簡単にするため、第1時系列データに7種類のアイテム情報が含まれ、第2時系列データに3種類のアイテム情報が含まれるものとする。図4(a)、(b)に示すグラフの縦軸は、各アイテム情報の生起確率を示し、横軸は、各アイテム情報が属するドメインを示す値を示している。アイテム情報が属するドメインが第1ドメインである場合、ドメインを示す値は1であり、アイテム情報が属するドメインが第2ドメインである場合、ドメインを示す値は2である。
【0046】
図4(a)に示すように、第1時系列データに含まれるアイテム情報の件数が、第2時系列データに含まれるアイテム情報の件数よりも多い場合、第2時系列データに含まれるアイテム情報の生起確率が低いことが確認できる。これに対し、調整部122による調整が行われた後では、第1時系列データに含まれるアイテム情報の件数と、第2時系列データに含まれるアイテム情報の件数とが略同一となり、第1時系列データに含まれる7種類のアイテム情報の生起確率の合計と、第2時系列データに含まれる3種類のアイテム情報の生起確率の合計とがともに約0.5となっていることが確認できる。
【0047】
なお、調整部122は、アイテム情報が含まれる件数が多い時系列データからアイテム情報を消去する際に、同一の長さの複数の期間それぞれに含まれるアイテム情報がほぼ同数となるようにアイテム情報を消去してもよい。
【0048】
また、調整部122は、アイテム情報が含まれる件数が多い時系列データから、アイテム情報を消去することにより、第1時系列データに含まれるアイテム情報の件数と第2時系列データに含まれるアイテム情報の件数のいずれかを調整したが、これに限らない。
【0049】
調整部122は、第1件数と第2件数とに基づいて、アイテム情報が含まれる件数が少ない時系列データに当該アイテム情報を追加することにより、第1時系列データに含まれるアイテム情報の件数と前記第2時系列データに含まれるアイテム情報の件数の少なくともいずれかを調整してもよい。
【0050】
例えば、調整部122は、第1時系列データに含まれるアイテム情報の件数である第1件数が、第2時系列データに含まれるアイテム情報の件数である第2件数に比べて少ない場合、第1時系列データに当該アイテム情報を追加し、第1件数と第2件数とが等しくなるようにしてもよい。調整部122は、第1時系列データにアイテム情報を追加する場合に、第1時系列データに既に含まれているアイテム情報と同じアイテム情報を追加する。また、調整部122は、同一の長さの複数の期間それぞれに含まれるアイテム情報がほぼ同数となるようにアイテム情報を追加してもよい。このようにすることで、一方の時系列データにおいてアイテム情報の件数が著しく少ない場合に、アイテム情報の数を増加させて、双方の時系列データに含まれるアイテム情報の件数のバランスをとることができる。
【0051】
また、調整部122は、第1時系列データ及び第2時系列データのうち、いずれか一方の時系列データのアイテム情報を消去したり追加したりしてアイテム情報の件数を調整したが、これに限らない。調整部122は、第1時系列データ及び第2時系列データの双方のアイテム情報を消去したり追加したりしてアイテム情報の件数を調整してもよい。
【0052】
統合部123は、調整部122により件数が調整された後の第1時系列データである第1調整データに含まれるイベント発生時刻と、調整部122により件数が調整された後の第2時系列データである第2調整データに含まれるイベント発生時刻に基づいて、第1調整データの一部と第2調整データの一部とを統合することにより統合データを複数生成する。
【0053】
具体的には、統合部123は、第1調整データから、当該第1調整データに含まれる所定のイベントの発生時刻を含み、当該発生時刻以前の期間に対応する時系列データである第1部分時系列データを抽出する。例えば、統合部123は、第1調整データから、所定のイベントの発生時刻から30分前までの期間をデータ抽出期間に特定し、データ抽出期間に対応する時系列データを第1部分時系列データとして抽出する。
【0054】
続いて、統合部123は、第2調整データから、当該所定のイベントの発生時刻以前の期間に対応する時系列データである第2部分時系列データを抽出する。例えば、統合部123は、当該第2調整データから、第1部分時系列データに対して特定されたデータ抽出期間と同じ期間に対応する時系列データを第2部分時系列データとして抽出する。そして、統合部123は、当該第1部分時系列データと、当該第2部分時系列データとを統合することにより統合データを生成する。
【0055】
図5は、第1実施形態に係る統合データの生成例を示す図である。図5では、第1調整データから抽出された第1部分時系列データD1Aと、第2調整データから抽出された第2部分時系列データD2Aが統合され、統合データd1が生成されていることが確認できる。
【0056】
ここで、統合部123は、統合データに含まれるアイテム情報の数が予め定められた数となるように統合データを生成してもよい。例えば、統合部123は、第1部分時系列データに含まれるアイテム情報の数が第1の数になるように第1部分時系列データを抽出するとともに、第2部分時系列データに含まれるアイテム情報の数が第2の数になるよう第2部分時系列データを抽出してもよい。
【0057】
例えば、統合部123は、第1調整データにおいて、第1部分時系列データに含まれるアイテム情報の数が第1の数となるデータ抽出期間を特定する。そして、統合部123は、特定したデータ抽出期間に対応する第2調整データを第2部分時系列データとして抽出する。
【0058】
なお、統合部123は、第1調整データにおいて、第1部分時系列データに含まれるアイテム情報の数が第1の数となるようにデータ抽出期間を特定し、当該データ抽出期間に基づいて統合データを生成したが、これに限らない。統合部123は、統合データに含まれるイベントデータに対応するイベントが発生した期間が予め定められた所定期間となるように統合データを生成してもよい。このようにすることで、特徴ベクトル生成装置1は、第1の数及び第2の数に基づいてデータ抽出期間を設定することにより、当該期間が大幅に長くなり、所定のイベントとは関係がないイベントに対応するアイテム情報が統合データに含まれてしまうことを抑制することができる。
【0059】
また、統合部123は、統合データに含まれる所定のイベントとしてのアイテムの購入イベントに対応するイベントデータが予め定められた数となるように統合データを生成するようにしてもよい。例えば、統合部123は、購入イベントに対応するイベントデータが統合データに1つのみ含まれるように統合データを生成してもよい。例えば、アイテムの購入が短期間に連続した場合、第1のアイテムの購入前のアイテムの閲覧イベントと、第2のアイテムの購入前のアイテムの閲覧イベントとは関係がない可能性が高い。これに対し、特徴ベクトル生成装置1は、アイテムの購入イベントが短期間に連続した場合に、アイテムの購入イベントに関係する可能性が高いアイテムの閲覧イベントに対応するイベントデータのみを統合データに含めることができる。
【0060】
また、統合部123は、所定のイベントに対応するイベントデータが含まれるように統合データを生成したが、これに限らない。統合部123は、第1調整データに所定のイベントに対応するイベントデータが含まれていない場合には、第1調整データから、任意の期間に対応する時系列データを第1部分時系列データとして抽出してもよい。この場合、統合部123は、第2調整データから、当該任意の期間に対応する時系列データを第2部分時系列データとして抽出し、当該第1部分時系列データと当該第2部分時系列データとを統合することにより統合データを生成してもよい。このようにすることで、特徴ベクトル生成装置1は、アイテムの購入が行われなかった場合におけるアイテム閲覧状況に基づく特徴ベクトルを生成することができる。
【0061】
特徴ベクトル生成部124は、統合部123により統合された複数の統合データに基づいて、複数の統合データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する。
【0062】
具体的には、特徴ベクトル生成部124は、複数の統合データに含まれるイベントデータに含まれているアイテム情報を抽出する。特徴ベクトル生成部124は、抽出した複数のアイテム情報が示すアイテムの関係を解析することにより、複数のアイテムのそれぞれの特徴を示す特徴ベクトルを生成する。
【0063】
例えば、特徴ベクトル生成部124は、複数のアイテムのそれぞれを1つの単語とみなし、複数の統合データのそれぞれにおいて、当該単語を連結した文章を生成する。特徴ベクトル生成部124は、生成した複数の文章について、例えば、Word2Vecを用いることにより、複数のアイテムのそれぞれの特徴ベクトルを生成する。特徴ベクトルの要素数は、例えば、アイテムの数に対応するものとする。
【0064】
[転移学習及び所定のイベントの発生予測]
第1実施形態において、特徴ベクトル生成部124及び予測部125は、協働することにより、異なるドメインに対応する時系列データ間の転移学習を行うとともに、第2調整データに対応するユーザが、所定のイベントを発生させるか否かを予測する。これにより、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を行う学習装置、及び第2調整データに対応するユーザが所定のイベントを発生させるか否かを予測する予測装置として機能する。以下、転移学習及び所定のイベントの発生予測に係る特徴ベクトル生成部124及び予測部125の機能について説明する。
【0065】
特徴ベクトル生成部124は、第1調整データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの特徴ベクトルに基づいて、第1調整データに対応するユーザの特徴ベクトルを第1特徴ベクトルとして生成する。
【0066】
例えば、特徴ベクトル生成部124は、統合部123と同様に、第1調整データから、当該第1調整データに含まれる所定のイベントであるアイテムの購入イベントの発生時刻を含み、当該発生時刻以前の期間に対応する時系列データである第1部分時系列データを抽出する。ここで、特徴ベクトル生成部124は、第1部分時系列データに含まれるイベントデータの数が第1の数となるように第1部分時系列データを抽出する。
【0067】
また、特徴ベクトル生成部124は、第1調整データから、所定のイベントであるアイテムの購入イベントに対応するイベントデータが含まれていない期間に対応し、第1の数のイベントデータを含む第1部分時系列データを抽出する。
【0068】
そして、特徴ベクトル生成部124は、第1部分時系列データに含まれる複数のアイテム情報のそれぞれに対して生成された特徴ベクトルの平均値(例えば、算出平均値や加重平均値)を算出することにより、第1特徴ベクトルを生成する。
【0069】
予測部125は、複数の第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、所定のイベントを発生させたユーザと、当該所定のイベントを発生させなかったユーザとに分類する分類器を生成する。
【0070】
例えば、予測部125は、第1特徴ベクトルの生成元となった第1部分時系列データのうち、アイテムの購入イベントを含む部分時系列データを正例データとし、アイテムの購入イベントを含まない部分時系列データを負例データとする。そして、予測部125は、これらの正例データ及び負例データに基づいて機械学習を行うことにより、ユーザの特徴ベクトルの入力に対して、当該ユーザを、アイテムの購入イベントを発生させたユーザと、アイテムの購入イベントを発生させなかったユーザとに分類する分類器を生成する。
【0071】
図6は、第1実施形態に係る第1特徴ベクトルに基づいて分類器を学習させた例を示す図である。なお、図6では、説明の便宜上、第1特徴ベクトルを二次元に圧縮して特徴空間に配置した例を示している。図6に示すマークM3は、正例データに対応する第1特徴ベクトルを示し、マークM4は、負例データに対応する第1特徴ベクトルを示している。また、境界線Lは、分類器により第1特徴ベクトルを正例データと負例データとを分類したときの境界線を示している。なお、境界線は、説明の便宜上示すものであり、実際には境界線は生成されるものではない。
【0072】
なお、予測部125は、分類器を生成するにあたり、統合部123が生成した、第2部分時系列データを含む統合データに基づいて第1特徴ベクトルを生成し、当該第1特徴ベクトルを含めて分類器を生成してもよい。図7は、第1実施形態に係る第2部分時系列データを含む統合データに基づいて生成された第1特徴ベクトルを含めて分類器を学習させた例を示す図である。図7には、図6と同様に正例データに対応する第1特徴ベクトルを示すマークM3と、負例データに対応する第1特徴ベクトルを示すマークM4とともに、これらのマークと異なるマークM5と、マークM6とが表示されている。
【0073】
図7に示すマークM5は、正例データに対応する第1特徴ベクトルであって、第2部分時系列データを含む統合データに基づいて生成された第1特徴ベクトルを示している。また、マークM6は、負例データに対応する第1特徴ベクトルであって、第2部分時系列データを含む統合データに基づいて生成された第1特徴ベクトルを示している。また、境界線L2は、分類器により第1特徴ベクトルを正例データと負例データとを分類したときの境界線を示している。図7に示す例は、図6に示す例に比べて正例データと負例データとが増加したことにより、境界線L2の位置が境界線Lに比べて若干異なっていることが確認できる。
【0074】
特徴ベクトル生成部124は、調整部122が調整した第2調整データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの特徴ベクトルに基づいて、第2調整データに対応するユーザの特徴ベクトルを第2特徴ベクトルとして生成する。例えば、特徴ベクトル生成部124は、第2調整データのうち、最新の時刻から所定期間に含まれるイベントデータに基づいて第2部分時系列データを生成する。そして、特徴ベクトル生成部124は、第2部分時系列データに含まれる複数のアイテム情報のそれぞれに対して生成された特徴ベクトルの平均値を算出することにより、第2特徴ベクトルを生成する。
【0075】
予測部125は、生成した分類器に第2特徴ベクトルを入力することにより、第2特徴ベクトルに対応するユーザを、所定のイベントを発生させると予測されるユーザと、所定のイベントを発生させないと予測されるユーザとに分類し、分類結果を示す情報を出力する。
【0076】
図8は、第1実施形態に係る分類器により第2特徴ベクトルが分類された例を示す図である。図8に示す例は、図6に対応する分類器により第2特徴ベクトルを分類した例を示しており、図6と同じ境界線Lが表示されている。図8に示すマークM7は、所定のイベントを発生させると予測されたユーザに対応する第2特徴ベクトルを示している。また、マークM8は、所定のイベントを発生させないと予測されたユーザに対応する第2特徴ベクトルを示している。このようにすることで、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
【0077】
[特徴ベクトル生成装置1における処理の流れ]
続いて、特徴ベクトル生成装置1における処理の流れの一例について説明する。まず、特徴ベクトル生成装置1がアイテムの特徴ベクトルを生成するときの処理の流れについて説明する。図9は、第1実施形態に係る特徴ベクトル生成装置1がアイテムの特徴ベクトルを生成するときの処理の流れを示すフローチャートである。
【0078】
まず、時系列データ取得部121は、所定ユーザの第1時系列データと第2時系列データを取得する(S1)。
続いて、調整部122は、第1時系列データに含まれるアイテム情報の件数と、第2時系列データに含まれるアイテム情報の件数とが略同一となるように、第1時系列データ又は第2時系列データに含まれるアイテム情報の件数を調整する(S2)。
【0079】
続いて、統合部123は、調整部122により調整が行われた後の第1時系列データである第1調整データ及び第2調整データに含まれるイベント発生時刻に基づいて、第1調整データの一部と第2調整データの一部とを統合することにより統合データを複数生成する(S3)。
【0080】
続いて、特徴ベクトル生成部124は、複数の統合データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する(S4)。
【0081】
続いて、特徴ベクトル生成装置1が所定のイベントを発生させるユーザを予測するときの処理の流れについて説明する。図10は、第1実施形態に係る特徴ベクトル生成装置1が所定のイベントを発生させるユーザを予測するときの処理の流れを示すフローチャートである。なお、本フローチャートの開始時に、調整部122が第1調整データ及び第2調整データを生成しており、特徴ベクトル生成部124が複数のアイテムの特徴ベクトルを生成しているものとする。
【0082】
まず、特徴ベクトル生成部124は、第1調整データに基づいて第1部分時系列データを複数生成する(S11)。
続いて、特徴ベクトル生成部124は、S11において生成された複数の第1部分時系列データのそれぞれについて、当該第1部分時系列データに含まれるアイテム情報が示すアイテムの特徴ベクトルに基づいて第1特徴ベクトルを複数生成する(S12)。
【0083】
続いて、予測部125は、S12において生成された複数の第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベント(アイテムの購入イベント)を発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、所定のイベントを発生させたユーザと、当該所定のイベントを発生させなかったユーザとに分類する分類器を生成する(S13)。
【0084】
続いて、特徴ベクトル生成部124は、第2調整データに基づいて第2部分時系列データを生成する(S14)。
続いて、特徴ベクトル生成部124は、S14において生成された複数の第2部分時系列データのそれぞれについて、当該第2部分時系列データに含まれるアイテム情報が示すアイテムの特徴ベクトルに基づいて第2特徴ベクトルを複数生成する(S15)。
【0085】
続いて、予測部125は、S13において生成された分類器に、S15において生成された第2特徴ベクトルを入力することにより、当該第2特徴ベクトルに対応するユーザを、所定のイベントを発生させると予測されるユーザと、所定のイベントを発生させないと予測されるユーザとに分類する(S16)。
続いて、予測部125は、S16における分類結果を出力する(S17)。例えば、予測部125は、分類結果を示す情報を含むファイルを生成し、当該ファイルを記憶部11に記憶させる。
【0086】
[第1実施形態における効果]
以上の通り、第1実施形態に係る特徴ベクトル生成装置1は、複数の第1時系列データ及び第2時系列データに含まれる時刻と、第1時系列データ及び第2時系列データに含まれるユーザ識別情報の対応関係とに基づいて、第1時系列データの一部と第2時系列データの一部とを統合することにより統合データを複数生成する。そして、特徴ベクトル生成装置1は、統合された複数の統合データに基づいて、複数の統合データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する。このようにすることで、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成することができる。これにより、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
【0087】
<第2実施形態>
続いて、第2実施形態に係る特徴ベクトル生成装置1の説明を行う。第1実施形態に係る特徴ベクトル生成装置1の調整部122は、第1時系列データに含まれる前記アイテム情報の件数と、第2時系列データに含まれるアイテム情報の件数とが略同一となるように、第1時系列データに含まれる当該アイテム情報の件数と第2時系列データに含まれる当該アイテム情報の件数の少なくともいずれかを調整した。
【0088】
しかしながら、第1時系列データに含まれるアイテム情報の件数と、第2時系列データに含まれるアイテム情報の件数とが略同一となっても、異なるドメインのアイテムに遷移する確率が少ないと、ドメイン間の遷移を考慮した学習を十分に行うことができないという問題が発生する。これに対し、第2実施形態に係る特徴ベクトル生成装置1は、異なるドメインのアイテムに遷移する確率である遷移確率を第1実施形態における当該遷移確率に比べて高くする。以下、第2実施形態に係る特徴ベクトル生成装置1について説明する。なお、第1実施形態と同じ部分については、説明を適宜省略する。
【0089】
第2実施形態において、調整部122は、第1時系列データと第2時系列データとを統合した場合に、同じドメインのアイテム情報が連続して出現するとき、当該アイテム情報のいずれかを第1件数と第2件数とに基づいて設定される確率で消去し、異なるドメインのアイテム情報が連続して出現するとき、当該アイテム情報を消去しないように制御する。
【0090】
具体的には、まず、調整部122は、式(5)に基づいて、第1時系列データと第2時系列データとを統合した場合に異なるドメインに遷移する確率pk|lを算出する。
【0091】
【数5】
【0092】
そして、調整部122は、第1生起確率p1が第2生起確率p2よりも高い場合において、第1時系列データと第2時系列データとを統合した時系列データに含まれるアイテム情報wiが、先頭のアイテム情報であるとき、式(3)に基づいて消去確率を定義する。また、調整部122は、第2生起確率p2が第1生起確率p1よりも高い場合において、第1時系列データと第2時系列データとを統合した時系列データに含まれるアイテム情報wiが、先頭のアイテム情報であるとき、式(4)に基づいて消去確率を定義する。
【0093】
また、調整部122は、アイテム情報が先頭ではない場合において、アイテム情報wiが属するドメインと、アイテム情報wjが属するドメインとが異なるときにはアイテム情報wiを消去しない。他方、調整部122は、アイテム情報wiが属するドメインと、アイテム情報wjが属するドメインとが同じであるとき、式(5)に示される遷移確率と、以下の式(6)とに基づいて、アイテム情報wjの後にアイテム情報wiが出現したときの消去確率を算出する。ここで、d(wi)は、アイテム情報のドメインを返す関数であるものとする。
【数6】
【0094】
例えば、第1生起確率p1が第2生起確率p2よりも高い場合、式(6)に基づき、第1ドメインに属するアイテム情報が連続して出現するときの消去確率は、第2ドメインに属するアイテム情報が連続して出現するときの消去確率に比べて高くなる。
【0095】
なお、本実施形態では、調整部122は、アイテム情報wiと、アイテム情報wiの直前のアイテム情報wjの属するドメインが異なるか否かで消去確率を調整したが、これに限らない。例えば、調整部122は、アイテム情報wiと、アイテム情報wiの直前に出現する複数のアイテム情報の属するドメインが異なるか否かで消去確率を調整してもよい。また、調整部122は、アイテム情報wiの直前の複数のアイテム情報が属するドメインから、アイテム情報wiの直後のアイテム情報のドメインを予測するように学習したLSTM(Long Short Term Memory)等の機械学習のモデルを用いて、アイテム情報のドメインを予測し、当該予測の結果に基づくドメインの遷移状況に基づいて消去確率を調整してもよい。
【0096】
[第2実施形態における効果]
以上の通り、第2実施形態に係る特徴ベクトル生成装置1は、調整部122は、第1時系列データと第2時系列データとを統合した場合に、同じドメインのアイテム情報が連続して出現するとき、当該アイテム情報のいずれかを第1件数と第2件数とに基づいて設定される確率で消去し、異なるドメインのアイテム情報が連続して出現するとき、当該アイテム情報を消去しないように制御する。このようにすることで、特徴ベクトル生成装置1は、第1実施形態に係る特徴ベクトル生成装置1に比べて、異なるドメインのアイテムに遷移する遷移確率を高めて、ドメイン間の遷移を考慮した学習を適切に行うことができる。
【0097】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【0098】
また、例えば、上述の実施形態では、イベントデータをユーザが発生させたものとしたが、これに限らず、デバイスが発生させたものであってもよい。この場合、イベントデータに対応するユーザ識別情報は、デバイスを識別するデバイス識別情報であってもよい。
【0099】
また、上述の実施形態では、特徴ベクトル生成装置1は、第1ドメインの第1時系列データの一部と、第2ドメインの第2時系列データの一部とを統合することにより統合データを生成し、当該統合データに基づいて、アイテムの特徴を示す特徴ベクトルを生成したが、これに限らない。特徴ベクトル生成装置1は、3つ以上のドメインのそれぞれに対応する時系列データの一部を統合することにより統合データを生成し、当該統合データに基づいて、アイテムの特徴を示す特徴ベクトルを生成してもよい。
【0100】
また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0101】
1・・・特徴ベクトル生成装置、11・・・記憶部、12・・・制御部、121・・・時系列データ取得部、122・・・調整部、123・・・統合部、124・・・特徴ベクトル生成部、125・・・予測部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10