(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-09-30
(45)【発行日】2022-10-11
(54)【発明の名称】情報処理システム、コンピュータプログラム、及び情報処理方法
(51)【国際特許分類】
G06F 16/28 20190101AFI20221003BHJP
G06Q 30/02 20120101ALI20221003BHJP
G06F 16/2458 20190101ALI20221003BHJP
【FI】
G06F16/28
G06Q30/02 314
G06F16/2458
(21)【出願番号】P 2022049442
(22)【出願日】2022-03-25
【審査請求日】2022-03-25
【早期審査対象出願】
(73)【特許権者】
【識別番号】507009009
【氏名又は名称】株式会社博報堂DYホールディングス
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】熊谷 雄介
(72)【発明者】
【氏名】道本 龍
(72)【発明者】
【氏名】三浦 慎平
【審査官】早川 学
(56)【参考文献】
【文献】国際公開第2019/073959(WO,A1)
【文献】特開2017-097717(JP,A)
【文献】特開2010-211385(JP,A)
【文献】中国特許出願公開第111159152(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 30/02
(57)【特許請求の範囲】
【請求項1】
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される第一取得部と、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される第二取得部と、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される対応付け部と、
を備え
、
前記対応付け部は、
互いに共通するエンティティを有する第一のクラスタ及び第二のクラスタのペアである第一のペア、及び、互いに共通するエンティティを有さない第一のクラスタ及び第二のクラスタのペアである第二のペアのうち、前記第一のペアに対応する第一のクラスタ特徴データと第二のクラスタ特徴データとを、前記第二のペアより優先的に対応付けるように、前記複数の第一のクラスタ特徴データのそれぞれを、前記複数の第二のクラスタ特徴データのうちの一つ以上に対応付け、
少なくとも前記第二のペアに関しては、前記第一のクラスタ特徴データ及び前記第二のクラスタ特徴データから判別される前記第一のクラスタと前記第二のクラスタとの間の特徴空間上の位置関係に基づき、互いに対応付ける前記第一のクラスタと前記第二のクラスタとのペアを判別し、前記第一のクラスタ特徴データと前記第二のクラスタ特徴データとを対応付ける情報処理システム。
【請求項2】
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される第一取得部と、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される第二取得部と、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される対応付け部と、
を備え、
前記対応付け部は、前記複数の第一のクラスタのうち、それぞれが前記共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付けるように構成され
、
前記複数の第一のクラスタのうち、前記特定クラスタ以外の非特定クラスタに関しては、前記第一のクラスタ特徴データ及び前記第二のクラスタ特徴データから判別される前記第一のクラスタと前記第二のクラスタとの間の特徴空間上の位置関係に基づき、互いに対応付ける前記第一のクラスタと前記第二のクラスタとのペアを判別し、前記第一のクラスタ特徴データと前記第二のクラスタ特徴データとを対応付ける情報処理システム。
【請求項3】
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される第一取得部と、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される第二取得部と、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される対応付け部と、
を備え、
前記対応付け部は、前記複数の第一のクラスタのうち、それぞれが前記共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付けるように構成され、
前記対応付け部は、前記複数の第一のクラスタのうち、前記特定クラスタ以外の残りの一以上のクラスタである一以上の非共通第一クラスタ、及び、前記複数の第二のクラスタのうち、前記特定クラスタと対応付けられるクラスタ以外の残りの一以上のクラスタである一以上の非共通第二クラスタに関しては、前記一以上の非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データと前記一以上の非共通第二クラスタのそれぞれの前記第二のクラスタ特徴データとに基づき、前記非共通第一クラスタのそれぞれと前記非共通第二クラスタのそれぞれとの間の関係を判別し、前記非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データを、前記非共通第二クラスタの少なくとも一つの前記第二のクラスタ特徴データに対応付けるように構成され
る情報処理システム。
【請求項4】
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される第一取得部と、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される第二取得部と、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される対応付け部と、
を備え、
前記第一のクラスタ特徴データは、前記対応する第一のクラスタの第一の特徴空間上の点を定義し、
前記第二のクラスタ特徴データは、前記対応する第二のクラスタの第二の特徴空間上の点を定義し、
前記対応付け部は、
前記第一の特徴空間上の前記複数の第一のクラスタのそれぞれの点を前記第二の特徴空間に写す写像を、評価関数を用いて探索する処理と、
前記写像により写される前記第二の特徴空間上の前記複数の第一のクラスタのそれぞれの点と、前記第二の特徴空間上の前記複数の第二のクラスタのそれぞれの点との間の位置関係に基づいて、前記複数の第一のクラスタ特徴データのそれぞれを、前記複数の第二のクラスタ特徴データのうちの一つ以上に対応付ける処理と、
を実行し、
前記評価関数は、
同じエンティティを含む前記第一のクラスタと前記第二のクラスタとのペアである特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力し、
前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、前記特定方向とは逆方向に変化する値を出力する
ように設計される関数であ
る情報処理システム。
【請求項5】
前記第一のクラスタ特徴データは、前記対応する第一のクラスタの第一の特徴空間上の点を定義し、
前記第二のクラスタ特徴データは、前記対応する第二のクラスタの第二の特徴空間上の点を定義し、
前記対応付け部は、
前記第一の特徴空間上の前記特定クラスタを含む前記複数の第一のクラスタのそれぞれの点を前記第二の特徴空間に写す写像を、評価関数を用いて探索する処理と、
前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付ける処理と、
前記写像により写される前記第二の特徴空間上の前記非共通第一クラスタのそれぞれの点と、前記第二の特徴空間上の前記非共通第二クラスタのそれぞれの点との間の位置関係に基づいて、前記非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データを、前記非共通第二クラスタの少なくとも一つの前記第二のクラスタ特徴データに対応付ける処理と、
を実行し、
前記評価関数は、
同じエンティティを含む前記第一のクラスタと前記第二のクラスタとのペアである特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力し、
前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、前記特定方向とは逆方向に変化する値を出力する
ように設計される関数である請求項3記載の情報処理システム。
【請求項6】
前記評価関数は、
前記特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、小さい値を出力し、
前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、大きい値を出力する
ように設計され、
前記対応付け部は、前記評価関数の出力を最小にする前記写像を探索する請求項4又は請求項5記載の情報処理システム。
【請求項7】
前記一以上の共通エンティティは、複数の共通エンティティであり、
前記複数の第一のクラスタは、前記複数の共通エンティティが前記複数の第一のクラスタに分散して配置されるように、前記第一のグループをクラスタリングして定義されるクラスタの集合であり、
前記複数の第二のクラスタは、前記複数の共通エンティティが前記複数の第二のクラスタに分散して配置されるように、前記第二のグループをクラスタリングして定義されるクラスタの集合である請求項1~請求項6のいずれか一項記載の情報処理システム。
【請求項8】
前記一以上の共通エンティティは、複数の共通エンティティであり、
前記複数の第一のクラスタは、前記複数の共通エンティティのそれぞれが互いに異なる第一のクラスタに属するように、前記第一のグループをクラスタリングして定義されるクラスタの集合であり、
前記複数の第二のクラスタは、前記複数の共通エンティティのそれぞれが互いに異なる第二のクラスタに属するように、前記第二のグループをクラスタリングして定義されるクラスタの集合である請求項1~請求項6のいずれか一項記載の情報処理システム。
【請求項9】
前記第一のクラスタ特徴データは、前記対応する第一のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり、
前記第二のクラスタ特徴データは、前記対応する第二のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データである請求項1~請求項8のいずれか一項記載の情報処理システム。
【請求項10】
前記エンティティは、消費者であり、前記エンティティの前記特徴データは、前記消費者の特徴を説明する特徴データである請求項9記載の情報処理システム。
【請求項11】
請求項1~請求項10のいずれか一項記載の情報処理システムにおける前記第一取得部、前記第二取得部、及び前記対応付け部として、コンピュータを機能させるためのコンピュータプログラム。
【請求項12】
コンピュータにより実行される情報処理方法であって、
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することと、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することと、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることと、
を含
み、
前記対応付けることは、
互いに共通するエンティティを有する第一のクラスタ及び第二のクラスタのペアである第一のペア、及び、互いに共通するエンティティを有さない第一のクラスタ及び第二のクラスタのペアである第二のペアのうち、前記第一のペアに対応する第一のクラスタ特徴データと第二のクラスタ特徴データとを、前記第二のペアより優先的に対応付けるように、前記複数の第一のクラスタ特徴データのそれぞれを、前記複数の第二のクラスタ特徴データのうちの一つ以上に対応付け、
少なくとも前記第二のペアに関しては、前記第一のクラスタ特徴データ及び前記第二のクラスタ特徴データから判別される前記第一のクラスタと前記第二のクラスタとの間の特徴空間上の位置関係に基づき、互いに対応付ける前記第一のクラスタと前記第二のクラスタとのペアを判別し、前記第一のクラスタ特徴データと前記第二のクラスタ特徴データとを対応付けることを含む情報処理方法。
【請求項13】
コンピュータにより実行される情報処理方法であって、
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することと、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することと、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることと、
を含み、
前記対応付けることは、
前記複数の第一のクラスタのうち、それぞれが前記共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付けることと、
前記複数の第一のクラスタのうち、前記特定クラスタ以外の非特定クラスタに関しては、前記第一のクラスタ特徴データ及び前記第二のクラスタ特徴データから判別される前記第一のクラスタと前記第二のクラスタとの間の特徴空間上の位置関係に基づき、互いに対応付ける前記第一のクラスタと前記第二のクラスタとのペアを判別し、前記第一のクラスタ特徴データと前記第二のクラスタ特徴データとを対応付けることと、
を含む情報処理方法。
【請求項14】
コンピュータにより実行される情報処理方法であって、
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することと、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することと、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることと、
を含み、
前記対応付けることは、
前記複数の第一のクラスタのうち、それぞれが前記共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付けることと、
前記複数の第一のクラスタのうち、前記特定クラスタ以外の残りの一以上のクラスタである一以上の非共通第一クラスタ、及び、前記複数の第二のクラスタのうち、前記特定クラスタと対応付けられるクラスタ以外の残りの一以上のクラスタである一以上の非共通第二クラスタに関しては、前記一以上の非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データと前記一以上の非共通第二クラスタのそれぞれの前記第二のクラスタ特徴データとに基づき、前記非共通第一クラスタのそれぞれと前記非共通第二クラスタのそれぞれとの間の関係を判別し、前記非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データを、前記非共通第二クラスタの少なくとも一つの前記第二のクラスタ特徴データに対応付けることと、
を含む情報処理方法。
【請求項15】
コンピュータにより実行される情報処理方法であって、
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することと、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することと、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることと、
を含み、
前記第一のクラスタ特徴データは、前記対応する第一のクラスタの第一の特徴空間上の点を定義し、
前記第二のクラスタ特徴データは、前記対応する第二のクラスタの第二の特徴空間上の点を定義し、
前記対応付けることは、
前記第一の特徴空間上の前記複数の第一のクラスタのそれぞれの点を前記第二の特徴空間に写す写像を、評価関数を用いて探索することと、
前記写像により写される前記第二の特徴空間上の前記複数の第一のクラスタのそれぞれの点と、前記第二の特徴空間上の前記複数の第二のクラスタのそれぞれの点との間の位置関係に基づいて、前記複数の第一のクラスタ特徴データのそれぞれを、前記複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることと、
を含み、
前記評価関数は、
同じエンティティを含む前記第一のクラスタと前記第二のクラスタとのペアである特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力し、
前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、前記特定方向とは逆方向に変化する値を出力する
ように設計される関数である情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
異なる手段で収集した消費者に関する複数のデータセットを対応付けるデータフュージョン技術が既に知られている。例えば、出願人は、消費者の第一のグループをクラスタリングして定義される複数のクラスタの特徴データと、消費者の第二のグループをクラスタリングして定義される複数のクラスタの特徴データと、をクラスタの類似性に基づいて、対応付ける技術を既に開示している(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
消費者個人の特徴データを、クラスタの特徴データに置き換えることは、個人情報を保護しながら、消費者データを授受する目的で役立つ。
【0005】
しかしながら、クラスタの類似性を特徴データの内容に基づき評価するだけでは、高精度に対応付けを行うことができない場合がある。すなわち、従来技術には、対応付けの精度について改善の余地があった。
【0006】
そこで、本開示の一側面によれば、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタ、及び、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関して、クラスタ間の特徴データの適切な対応付けを実現可能な新規技術を提供できることが望ましい。
【課題を解決するための手段】
【0007】
本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、第一取得部と、第二取得部と、対応付け部と、を備える。
【0008】
第一取得部は、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される。
【0009】
第二取得部は、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される。
【0010】
対応付け部は、第一のグループと第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される。
【0011】
このように構成された情報処理システムによれば、第一のデータセットに対応するエンティティの第一のグループと、第二のデータセットに対応するエンティティの第二のグループとの間に共通するエンティティの情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。
【0012】
本開示の一側面によれば、対応付け部は、複数の第一のクラスタのうち、それぞれが共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、特定クラスタのそれぞれの第一のクラスタ特徴データを、同じエンティティを含む第二のクラスタの第二のクラスタ特徴データと対応付けるように構成され得る。
【0013】
このように構成された情報処理システムによれば、共通エンティティが属する第一のクラスタと第二のクラスタとの関係に整合するように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。
【0014】
本開示の一側面によれば、対応付け部は、複数の第一のクラスタのうち、特定クラスタ以外の残りの一以上のクラスタである一以上の非共通第一クラスタ、及び、複数の第二のクラスタのうち、特定クラスタと対応付けられるクラスタ以外の残りの一以上のクラスタである一以上の非共通第二クラスタに関しては、一以上の非共通第一クラスタのそれぞれの第一のクラスタ特徴データと一以上の非共通第二クラスタのそれぞれの第二のクラスタ特徴データとに基づき、非共通第一クラスタのそれぞれと非共通第二クラスタのそれぞれとの間の関係を判別し、非共通第一クラスタのそれぞれの第一のクラスタ特徴データを、非共通第二クラスタの少なくとも一つの第二のクラスタ特徴データに対応付けるように構成され得る。
【0015】
このように構成された情報処理システムによれば、共通エンティティの有無と整合するように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。
【0016】
本開示の一側面によれば、第一のクラスタ特徴データは、対応する第一のクラスタの第一の特徴空間上の点を定義するデータであり得る。第二のクラスタ特徴データは、対応する第二のクラスタの第二の特徴空間上の点を定義するデータであり得る。
【0017】
本開示の一側面によれば、対応付け部は、第一の特徴空間上の複数の第一のクラスタのそれぞれの点を第二の特徴空間に写す写像を、評価関数を用いて探索する処理を実行し得る。
【0018】
本開示の一側面によれば、評価関数は、同じエンティティを含む第一のクラスタと第二のクラスタとのペアである特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力するように設計され得る。
【0019】
本開示の一側面によれば、評価関数は、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、特定方向とは逆方向に変化する値を出力するように設計され得る。この場合、対応付け部は、評価関数の出力を特定方向側の限界値にする写像を探索するように構成され得る。
【0020】
本開示の一側面によれば、評価関数は、特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、小さい値を出力し、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、大きい値を出力するように設計され得る。この場合、対応付け部は、評価関数の出力を最小にする写像を探索するように構成され得る。
【0021】
本開示の一側面によれば、対応付け部は、写像により写される第二の特徴空間上の複数の第一のクラスタのそれぞれの点と、第二の特徴空間上の複数の第二のクラスタのそれぞれの点との間の位置関係に基づいて、複数の第一のクラスタ特徴データのそれぞれを、複数の第二のクラスタ特徴データのうちの一つ以上に対応付ける処理を実行するように構成され得る。
【0022】
このように構成された情報処理システムによれば、共通エンティティに注目して、適切な第一の特徴空間から第二の特徴空間への写像を求めた上で、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができるので、高精度な対応付けを実現することができる。
【0023】
本開示の一側面によれば、対応付け部は、特定クラスタのそれぞれの第一のクラスタ特徴データを、同じエンティティを含む第二のクラスタの第二のクラスタ特徴データと対応付ける処理を実行する一方で、写像により写される第二の特徴空間上の非共通第一クラスタのそれぞれの点と、第二の特徴空間上の非共通第二クラスタのそれぞれの点との間の位置関係に基づいて、非共通第一クラスタのそれぞれの第一のクラスタ特徴データを、非共通第二クラスタの少なくとも一つの第二のクラスタ特徴データに対応付ける処理を実行するように構成され得る。
【0024】
本開示の一側面によれば、一以上の共通エンティティは、複数の共通エンティティであり得る。複数の第一のクラスタは、複数の共通エンティティが複数の第一のクラスタに分散して配置されるように、第一のグループをクラスタリングして定義されるクラスタの集合であり得る。複数の第二のクラスタは、複数の共通エンティティが複数の第二のクラスタに分散して配置されるように、第二のグループをクラスタリングして定義されるクラスタの集合であり得る。
【0025】
共通エンティティを複数のクラスタに分散させて、一つのクラスタに多数の共通エンティティが含まれないように、第一のグループ及び第二のグループをクラスタリングすれば、共通エンティティを通じて第一のクラスタと第二のクラスタとの間の対応関係を精度よく判別することができ、第一のクラスタ特徴データと、第二のクラスタ特徴データとを精度よく対応付けることができる。
【0026】
本開示の一側面によれば、複数の第一のクラスタは、複数の共通エンティティのそれぞれが互いに異なる第一のクラスタに属するように、第一のグループをクラスタリングして定義されるクラスタの集合であり得る。複数の第二のクラスタは、複数の共通エンティティのそれぞれが互いに異なる第二のクラスタに属するように、第二のグループをクラスタリングして定義されるクラスタの集合であり得る。
【0027】
本開示の一側面によれば、第一のクラスタ特徴データは、対応する第一のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり得る。第二のクラスタ特徴データは、対応する第二のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり得る。
【0028】
エンティティ個々の情報を隠すために、エンティティの特徴が統計化されたクラスタ特徴データが、データ保持者から提供され得る。本開示の一側面によれば、こうした統計処理がなされたクラスタ特徴データ間の対応付けを、適切に行うことができる。
【0029】
本開示の一側面によれば、エンティティは、消費者であり得る。エンティティの特徴データは、消費者の特徴を説明する特徴データであり得る。
【0030】
本開示の一側面によれば、上述した情報処理システムが有する機能を少なくとも部分的に実現するためのコンピュータプログラムが提供されてもよい。本開示の一側面によれば、上述した情報処理システムにおける第一取得部、第二取得部、及び対応付け部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な一時的でない記録媒体に記録され得る。
【0031】
本開示の一側面によれば、上述した情報処理システムに対応する情報処理方法が提供されてもよい。本開示の一側面によれば、コンピュータにより実行される情報処理方法が提供されてもよい。
【0032】
本開示の一側面によれば、情報処理方法は、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することを含み得る。
【0033】
情報処理方法は、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することを含み得る。
【0034】
情報処理方法は、第一のグループと第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることを含み得る。
【0035】
この情報処理方法によっても、上述した情報処理システムと同様に、第一のデータセットに対応するエンティティの第一のグループと、第二のデータセットに対応するエンティティの第二のグループとの間に共通するエンティティの情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。
【図面の簡単な説明】
【0036】
【
図1】情報処理システムの構成を表すブロック図である。
【
図2】
図2Aは、データ提供システムにおける動作を説明する図であり、
図2Bは、例示的なクラスタ特徴データの構成を表す図である。
【
図3】共通消費者(白丸)及び非共通消費者(黒丸)を含む消費者グループのクラスタリングに関する説明図である。
【
図4】情報処理システムのプロセッサが実行する取得関連処理を表すフローチャートである。
【
図5】
図5Aは、第一のクラスタ消費者関係表を表す図であり、
図5Bは、第二のクラスタ消費者関係表を表す図であり、
図5Cは、クラスタ関係表を表す図である。
【
図6】情報処理システムのプロセッサが実行する分析処理を表すフローチャートである。
【
図7】
図7Aは、分析処理における一部手順の第一例を表すフローチャートであり、
図7Bは、分析処理における一部手順の第二例を表すフローチャートである。
【
図8】
図8Aは、クラスタリング処理の第一例を表すフローチャートであり、
図8Bは、クラスタリング処理の第二例を表すフローチャートである。
【
図9】変形例の分析処理を表すフローチャートである。
【発明を実施するための形態】
【0037】
以下に本開示の例示的実施形態を、図面を参照しながら説明する。
本実施形態の情報処理システム1は、汎用コンピュータに専用のコンピュータプログラムPrがインストールされて構成される。情報処理システム1は、
図1に示すように、プロセッサ11と、メモリ13と、ストレージ15と、ユーザインタフェース17と、通信インタフェース19とを備える。
【0038】
プロセッサ11は、ストレージ15に格納されたコンピュータプログラムPrに従う処理を実行する。メモリ13は、RAMを備える一次記憶装置であり、プロセッサ11による処理の実行時に作業エリアとして使用される。
【0039】
ストレージ15は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムPrの他、コンピュータプログラムPrに従う処理の実行時に供される各種データを記憶する。
【0040】
ユーザインタフェース17は、情報処理システム1を操作するユーザからの操作信号をプロセッサ11に入力するための入力デバイスと、ユーザに対して各種情報を表示するためのディスプレイと、を備える。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。
【0041】
通信インタフェース19は、広域ネットワークに接続される。情報処理システム1は、通信インタフェース19を通じて、第一のデータ提供システム31及び第二のデータ提供システム32と通信可能に構成される。
【0042】
プロセッサ11は、コンピュータプログラムPrに従う処理の実行により、通信インタフェース19を通じて第一のデータ提供システム31から第一のデータセット15Aを取得し、第二のデータ提供システム32から第二のデータセット15Bを取得する。
【0043】
プロセッサ11は、取得した第一のデータセット15Aに、第二のデータセット15Bを結合することにより、データリッチ化した第一のデータセット15Aである拡張データセット15Cを生成する。
【0044】
第一のデータセット15Aは、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表すクラスタ特徴データを備えるデータセットである。
【0045】
第二のデータセット15Bは、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表すクラスタ特徴データを備えるデータセットである。
【0046】
本実施形態によれば、エンティティは、消費者である。すなわち、第一のデータセット15Aは、消費者の第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、クラスタ特徴データを備える。
【0047】
図2Aに示すように、第一のデータ提供システム31は、第一のグループにおける複数の消費者の消費者特徴データを記憶する。各消費者特徴データは、対応する消費者の特徴を表す。第一のデータ提供システム31は、クラスタリング処理を実行することにより、第一のグループを、複数の第一のクラスタにクラスタリングする。
【0048】
第一のデータ提供システム31は更に、第一のクラスタ毎に、この第一のクラスタに関する消費者特徴データの一群を統計処理して、第一のクラスタ毎のクラスタ特徴データを生成する。
【0049】
クラスタ特徴データのそれぞれは、対応するクラスタに属する複数の消費者の消費者特徴データを統計処理により統合して生成される。統計処理は、例えば個人情報保護のために行われる。第一のデータ提供システム31は、このように生成した第一のクラスタ毎のクラスタ特徴データを備える第一のデータセット15Aを情報処理システム1に提供する。
【0050】
第一のデータ提供システム31は、プロセッサ311及びメモリ312を備える。プロセッサ311は、メモリ312が記憶するコンピュータプログラムに従って、クラスタリング処理及び統計処理を実行する。
【0051】
第二のデータ提供システム32もまた、プロセッサ321及びメモリ322を備える。プロセッサ321は、第一のデータ提供システム31と同様に、メモリ322が記憶するコンピュータプログラムに従って、第二のデータ提供システム32が保持する消費者特徴データの一群に対し、クラスタリング処理及び統計処理を実行する。
【0052】
これにより、第二のデータ提供システム32は、消費者の第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表すクラスタ特徴データを備える第二のデータセット15Bを生成し、情報処理システム1に提供する。
【0053】
消費者特徴データは、対応する消費者の特徴を、複数の要素の値によりベクトル表現する。クラスタ特徴データもまた、対応するクラスタの特徴を、複数の要素の値によりベクトル表現する。
【0054】
クラスタ特徴データにおける各要素の値は、対応するクラスタに属する消費者集合における、対応する要素の統計的な代表値である。代表値は、消費者集合における対応する要素の平均値、中央値、平均値と分散との組合せ、及び、最大値と最小値との組合せの一以上を含み得る。
【0055】
図2Bに示すクラスタ特徴データは、クラスタの識別コードであるクラスタIDに関連付けて、対応するクラスタの特徴を表す各要素の値と、クラスタサイズと、を記述する。クラスタサイズは、対応するクラスタを構成する消費者の数に対応する。
【0056】
本実施形態では更に、第一のデータ提供システム31が消費者特徴データを保持する消費者の第一のグループと、第二のデータ提供システム32が消費者特徴データを保持する消費者の第二のグループとの間に、共通する消費者が存在する可能性を考慮して、情報処理システム1が、第一のデータ提供システム31及び第二のデータ提供システム32と通信する。
【0057】
これにより、情報処理システム1は、第一のグループと第二のグループとの間に共通して存在する消費者の一群を、共通消費者の一群として判別し、これら共通消費者のリストを、第一のデータ提供システム31及び第二のデータ提供システム32に送信する。
【0058】
第一のデータ提供システム31は、共通消費者のリストに基づいて、第一のグループを、共通消費者の一群が複数の第一のクラスタに分散して配置されるように、第一のグループをクラスタリングする。共通消費者の数がクラスタ数以下である場合には、複数の共通消費者のそれぞれが互いに異なるクラスタに属するように、第一のグループをクラスタリングする。
【0059】
図3は、白丸及び黒丸で表される消費者の集合を、一つのクラスタに含まれる共通消費者が可能な限り少なくなるように、理想的には一つのクラスタに含まれる共通消費者が一人になるように、クラスタリングすることを説明している。丸い破線で囲われた部位が、一つのクラスタに対応する。白丸のそれぞれは、共通消費者の一人を示し、黒丸のそれぞれは、共通消費者ではない消費者、すなわち非共通消費者の一人を示す。
【0060】
第二のデータ提供システム32も同様に、第二のグループを、共通消費者の一群が複数の第二のクラスタに分散して配置されるように、第二のグループをクラスタリングする。共通消費者の数がクラスタ数以下である場合には、複数の共通消費者のそれぞれが互いに異なる第二のクラスタに属するように、第二のグループをクラスタリングする。
【0061】
情報処理システム1は、このようなクラスタリングにより生成された第一のクラスタ毎のクラスタ特徴データを含む第一のデータセット15Aを、第一のデータ提供システム31から取得し、第二のクラスタ毎のクラスタ特徴データを含む第二のデータセット15Bを、第二のデータ提供システム32から取得する。
【0062】
図4には、第一のデータセット15A及び第二のデータセット15Bの取得のために、情報処理システム1のプロセッサ11が実行する取得関連処理の詳細を示す。プロセッサ11は、ユーザインタフェース17を通じたユーザからの指示に基づき、取得関連処理を開始する。
【0063】
取得関連処理を開始すると、プロセッサ11は、第一のデータ提供システム31から第一のグループに属する消費者のリストを、第一消費者リストとして取得する(S110)。第一消費者リストは、第一のグループに属する消費者毎に、対応する消費者の識別コードである消費者IDの情報を有する。
【0064】
プロセッサ11は更に、第二のデータ提供システム32から第二のグループに属する消費者のリストを、第二消費者リストとして取得する(S120)。第二消費者リストは、第二のグループに属する消費者毎に、消費者IDの情報を有する。
【0065】
共通消費者の判別のために、第一消費者リスト及び第二消費者リストには、同種の消費者IDが記述され得る。消費者IDは、例えば、広告IDであり得る。あるいは、消費者IDは、多数の消費者に付与されたIDであり得る。
【0066】
第一消費者リストで使用される消費者IDである第一消費者IDは、第二消費者リストで使用される消費者IDである第二消費者IDとは異なる種類の識別コードであってもよい。この場合には、同一人物を判別するために、第一消費者IDと第二消費者IDとの間の対応関係を示すテーブルが必要になり得る。
【0067】
続くS130において、プロセッサ11は、第一消費者リストに列挙された消費者IDと、第二消費者リストに列挙された消費者IDとの比較により、第一のグループと第二のグループとの間で共通する一以上の消費者である一以上の共通消費者を判別し、共通消費者のリストを生成する。
【0068】
続くS140において、プロセッサ11は、S130で作成した共通消費者のリストを、第一及び第二のデータ提供システム31,32に送信し、第一及び第二のデータ提供システム31,32に、このリストに基づき、上述した第一のデータセット15A及び第二のデータセット15Bを生成させる。
【0069】
続くS150において、プロセッサ11は、第一のデータ提供システム31から、第一のデータセット15Aを取得すると共に、第一のクラスタ消費者関係表を取得する。第一のクラスタ消費者関係表は、例えば、
図5Aに示すように、共通消費者の消費者ID毎に、対応する消費者が属する第一のクラスタの識別コードである第一クラスタIDを記述する。第一のデータ提供システム31は、第一のデータセット15Aと共に、第一のクラスタ消費者関係表を情報処理システム1に送信するように構成される。
【0070】
プロセッサ11は、第二のデータ提供システム32から、第二のデータセット15Bを取得すると共に、第二のクラスタ消費者関係表を取得する(S160)。第二のクラスタ消費者関係表は、例えば、
図5Bに示すように、共通消費者の消費者ID毎に、対応する消費者が属する第二のクラスタの識別コードである第二クラスタIDを記述する。第二のデータ提供システム32は、第二のデータセット15Bと共に、第二のクラスタ消費者関係表を情報処理システム1に送信するように構成される。
【0071】
続くS170において、プロセッサ11は、取得した第一及び第二のクラスタ消費者関係表に基づき、同じ消費者が含まれる第一のクラスタと第二のクラスタとの組合せを示した
図5Cに示すクラスタ関係表を生成する。クラスタ関係表は、共通消費者のそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に対応する。
図5Cに例示されるクラスタ関係表は、同じ共通消費者が含まれる第一のクラスタと、第二のクラスタとの組合せを、第一のクラスタのクラスタIDと第二のクラスタのクラスタIDとの組み合わせにより示す。
【0072】
続くS180において、プロセッサ11は、S170で生成したクラスタ関係表を、第一のデータセット15A及び第二のデータセット15Bと共に、ストレージ15に保存して
図4に示す処理を終了する。
【0073】
続いて、プロセッサ11が実行する分析処理の詳細を、
図6を用いて説明する。分析処理は、例えばユーザインタフェース17を通じたユーザからの指示に基づいて実行される。
【0074】
分析処理を開始すると、プロセッサ11は、ユーザから指定された第一のデータセット15Aをストレージ15から読み出し、読み出した第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データに基づき、配列Dfを生成する(S210)。
【0075】
例えば、クラスタがK1個であり、K1個のクラスタ特徴データのそれぞれが、L1個の要素を有するL1次元特徴ベクトルでクラスタの特徴を表すとき、配列Dfは、K1行L1列の二次元配列である。
【0076】
配列Dfの各行ベクトルDf[i]=(xi[1],xi[2],xi[3],…,xi[L1])は、対応するi番目の第一のクラスタのL1次元特徴ベクトルである。ここでのiは、配列Dfの行番号に対応し、クラスタ数K1に対応する値1から値K1までの整数値を取る。
【0077】
以下では、第一のデータセット15Aに含まれるクラスタ特徴データによって表現される特徴ベクトルDf[i]に対応するL1次元空間のことを第一の特徴空間と表現する。特徴ベクトルDf[i]は、対応する第一のクラスタが第一の特徴空間上において配置される点を定義する。第一の特徴空間は、特徴ベクトルDf[i]が有するL1個の要素のそれぞれに対応する次元を有するL1次元空間である。
【0078】
続くS220において、プロセッサ11は、ユーザから指定された第二のデータセット15Bをストレージ15から読み出し、読み出した第二のデータセット15Bに含まれる第二のクラスタ毎のクラスタ特徴データに基づき、配列Dsを生成する。
【0079】
例えば、クラスタがK2個であり、K2個のクラスタ特徴データのそれぞれが、L2個の要素を有するL2次元特徴ベクトルでクラスタの特徴を表すとき、配列Dsは、K2行L2列の二次元配列である。
【0080】
配列Dsの各行ベクトルDs[j]=(yj[1],yj[2],yj[3],…,yj[L2])は、対応するj番目の第二のクラスタのL2次元特徴ベクトルである。ここでのjは、配列Dsの行番号に対応し、クラスタ数K2に対応する値1から値K2までの整数値を取る。
【0081】
以下では、第二のデータセット15Bに含まれるクラスタ特徴データによって表現される特徴ベクトルDs[j]に対応するL2次元空間のことを第二の特徴空間と表現する。特徴ベクトルDs[j]は、対応する第二のクラスタが第二の特徴空間上で配置される点を定義する。第二の特徴空間は、特徴ベクトルDs[j]が有するL2個の要素のそれぞれに対応する次元を有するL2次元空間である。
【0082】
続くS230において、プロセッサ11は、次に示す評価関数Eを最小にする関数gを探索することにより、第一のデータセット15Aから特定される第一の特徴空間上の共通消費者に対応する点を、第二のデータセット15Bから特定される第二の特徴空間上の同一人物の点近くに、最もよく写す写像を探索する。
【0083】
【数1】
上式におけるmは、第一のデータセット15Aにクラスタ特徴データが記述されるK1個の第一のクラスタに対応する消費者群のうちのm番目の消費者を意味する。
【0084】
ここでの消費者群は、第一のクラスタのそれぞれには、クラスタサイズに対応する複数の消費者が存在するとみなしたときに解釈されるK1個の第一のクラスタに対応する消費者群であり得る。あるいは、消費者群は、クラスタのそれぞれに一人の代表する消費者が存在するとみなしたときに解釈されるK1個の第一のクラスタに対応するK1人の消費者群であり得る。Af
-1[m]は、m番目の消費者が所属する第一のクラスタが、K1個のクラスタのうち、Af
-1[m]番目のクラスタであることを意味する。
【0085】
上式におけるnは、第二のデータセット15Bにクラスタ特徴データが記述されるK2個の第二のクラスタに対応する消費者群のうちのn番目の消費者を意味する。ここでの消費者群は、第二のクラスタのそれぞれには、クラスタサイズに対応する複数の消費者が存在するとみなしたときに解釈されるK2個の第二のクラスタに対応する消費者群であり得る。あるいは、消費者群は、クラスタのそれぞれに一人の代表する消費者が存在するとみなしたときに解釈されるK2個の第二のクラスタに対応するK2人の消費者群であり得る。As
-1[n]は、n番目の消費者が所属する第二のクラスタが、K2個のクラスタのうち、As
-1[n]番目のクラスタであることを意味する。
【0086】
d(v1,v2)は、距離関数であり、ベクトルv1とベクトルv2との間の距離(例えばマハラノビス距離)を表す。τは、設計パラメータであり、ユーザにより、換言すれば分析者により定められる。
【0087】
評価関数Eの第一項及び第二項のそれぞれは、第一のグループにおけるm番目の消費者が所属するAf
-1[m]番目の第一のクラスタの第一の特徴空間上の点Df[Af
-1[m]]を、写像としての関数gにより第二の特徴空間上の点に写したときの、第二の特徴空間上の点g(Df[Af
-1[m]])と、第二のグループにおけるn番目の消費者が所属するAs
-1[n]番目の第二のクラスタの第二の特徴空間上の点Ds[As
-1[n]]との間の距離d(g(Df[Af
-1[m]]),Ds[As
-1[n]])の総和Σd(g(Df[Af
-1[m]]),Ds[As
-1[n]])を表す。
【0088】
但し、評価関数Eの第一項は、クラスタ関係表によれば、Af
-1[m]番目の第一のクラスタとAs
-1[n]番目の第二のクラスタとの間に同じ消費者が存在するm,nの組合せの集合M1についての総和Σd(g(Df[Af
-1[m]]),Ds[As
-1[n]])である。すなわち、同じ消費者の組合せ(m,n)についての総和Σd(g(Df[Af
-1[m]]),Ds[As
-1[n]])である。
【0089】
評価関数Eの第二項は、クラスタ関係表によれば、Af
-1[m]番目の第一のクラスタとAs
-1[n]番目の第二のクラスタとの間に同じ消費者が存在しないm,nの組合せの集合M2についての総和Σd(g(Df[Af
-1[m]]),Ds[As
-1[n]])である。すなわち、異なる消費者の組合せ(m,n)についての総和Σd(g(Df[Af
-1[m]]),Ds[As
-1[n]])である。
【0090】
この評価関数Eは、同じ消費者を含む第一のクラスタと第二のクラスタとのペアである特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、小さい値を出力し、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、大きい値を出力する関数である。
【0091】
従って、評価関数Eを最小にする関数gを探索することによれば、第一のデータセット15Aから特定される第一の特徴空間上の共通消費者に対応する点を、第二のデータセット15Bから特定される第二の特徴空間上の同一人物の点に近い位置に、最もよく写す写像を探索することができる。この写像によれば、非同一人物間の距離は、第二の特徴空間上で遠くなる。関数gは、変換直交行列であってもよいし、多層パーセプトロンであってもよい。
【0092】
S230における評価関数Eを最小にする関数gの探索後、プロセッサ11は、探索された関数gにより写されるK1個の第一のクラスタの第二の特徴空間上の点g(Df[Af
-1[m]])と、K2個の第二のクラスタの第二の特徴空間上の点Ds[As
-1[n]]との間の位置関係(換言すれば相対位置)に基づいて、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S240)。
【0093】
例えば、プロセッサ11は、各点には、対応するクラスタのクラスタサイズに一致する人数の消費者が存在するとみなして、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける。
【0094】
例えば、プロセッサ11は、S240において
図7Aに示す処理を実行することができる。この処理によれば、プロセッサ11は、クラスタ関係表に基づき、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の距離を特定値εに設定する(S241)。値εは、例えばゼロ又はゼロに近い値であり得る。
【0095】
プロセッサ11は、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアに関しては、特徴ベクトルg(Df[Af
-1[m]])及び特徴ベクトルDs[As
-1[n]]から特定される第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離をそのまま用いて、上記最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S243)。
【0096】
あるいは、プロセッサ11は、S240において
図7Bに示す処理を実行することができる。この処理によれば、プロセッサ11は、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、ペア毎に、クラスタ特徴データを参照せず、一律に、第一のクラスタをペアに対応する第二のクラスタに対応付ける(S245)。
【0097】
同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に関しては、ペア毎に、クラスタ特徴データから特定される第一のクラスタの第二の特徴空間上の点g(Df[Af
-1[m]])と、第二のクラスタの第二の特徴空間上の点Ds[As
-1[n]]との間の位置関係に基づいて、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S247)。
【0098】
例えば、プロセッサ11は、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に限って、これに対する最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S247)。
【0099】
このようしてS240での処理を終了すると、プロセッサ11は、第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データを、第二のデータセット15Bに含まれる、S240の処理で対応付けられた一以上の第二のクラスタのクラスタ特徴データと結合するように、第一のデータセット15Aと第二のデータセット15Bとを結合する。この結合(すなわち、データフュージョン)により、プロセッサ11は、拡張データセット15Cを生成し、ストレージ15に保存する(S250)。その後、プロセッサ11は、分析処理を終了する。
【0100】
以上に説明した本実施形態の情報処理システム1によれば、第一のデータセット15Aに対応する消費者の第一のグループと、第二のデータセット15Bに対応する消費者の第二のグループとの間に共通する消費者の情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。特には、同じ消費者を有する第一のクラスタと第二のクラスタとを対応付けるように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。
【0101】
ところで、対応付けの精度向上のためには、第一のデータ提供システム31及び第二のデータ提供システム32において、一つのクラスタに含まれる共通消費者が可能な限り少なくなるように、理想的には一つのクラスタに含まれる共通消費者が一人になるように、クラスタリング処理が実行されることが好ましい。
【0102】
このために、第一のデータ提供システム31及び第二のデータ提供システム32では、k-means法を改良した
図8Aに示すクラスタリング処理が実行され得る。
【0103】
すなわち、第一のデータ提供システム31のプロセッサ311は、クラスタリング処理として、次のペナルティ付き評価関数Hが最小となるように、第一のグループを所定数K個のクラスタにクラスタリングする処理(S300)を実行することができる。
【0104】
【数2】
評価関数Hの第一項は、k-means法に従う評価関数であり、評価関数Hの第二項は、一つのクラスタに複数の共通消費者が存在するときに、ペナルティλを加算する項である。
【0105】
評価関数Hにおけるmは、消費者のインデックスであり、kは、クラスタのインデックスである。A[k]は、第kクラスタを構成する消費者集合である。指示関数I(m∈A[k])は、第m消費者が第kクラスタを構成する消費者集合に存在するとき、値1を返し、それ以外の場合には値0を返す関数である。W[m]は、第m消費者の重みである。重みWは1と理解されてもよい。
【0106】
C[k]は、第kクラスタの中心ベクトルであり、D[m]は、第m消費者の消費者特徴データから特定される第m消費者の特徴ベクトルである。A-1[i]は、第i消費者が所属するクラスタが、K個のクラスタのうち、第A-1[i]クラスタであることを示す。
【0107】
指示関数I(A-1[i]==A-1[j])は、共通消費者の集合Qのうち、第i消費者と第j消費者とが同じクラスタに存在するとき値1を返し、第i消費者と第j消費者とが同じクラスタに存在しないとき値0を返す関数である。
【0108】
すなわち、評価関数Hの第二項は、共通消費者の集合Qであって、i≠jである消費者の組合せについての値I(A-1[i]==A-1[j])の和にペナルティλを掛けた項である。ペナルティλは正の値として設計者により定められ得る。
【0109】
第二のデータ提供システム32のプロセッサ321も、第一のデータ提供システム31と同様にペナルティ付き評価関数Hに従って、第二のグループを複数の第二のクラスタにクラスタリングすることができる。
【0110】
別例として、第一のデータ提供システム31のプロセッサ311は、
図8Bに示すクラスタリング処理を実行してもよい。
【0111】
図8Bに示すクラスタリング処理によれば、プロセッサ311は、所定数K個の空のクラスタを設定する(S410)。その後、プロセッサ311は、消費者の第一のグループのうち、第二のグループと共通する共通消費者の一人を、対象消費者としてランダムに選択する(S420)。
【0112】
続いて、プロセッサ311は、設定されたK個のクラスタの中に、共通消費者が割り当てられていない空のクラスタが存在するかを判断する(S430)。プロセッサ311は、空のクラスタが存在すると判断すると(S430でYes)、対象消費者を、空のクラスタの一つに割り当てる(S440)。
【0113】
続くS450において、プロセッサ311は、共通消費者の全てをK個のクラスタのいずれかに割り当てたかを判断する。ここで否定判断すると(S450でNo)、プロセッサ311は、S420において新たに共通消費者を一人、対象消費者に選択し、選択した対象消費者についてS430以降の処理を実行する。
【0114】
このようにして、プロセッサ311は、共通消費者毎にS430以降の処理を実行し、共通消費者のそれぞれを、K個のクラスタのいずれかに割り当てる。
【0115】
クラスタ数より共通消費者数が少ない場合には、S430で否定判断されることなく、共通消費者がK個のクラスタのいずれかに割り当てられる。一方、クラスタ数より共通消費者数が多い場合、K人の共通消費者を空のクラスタに割り当てた後、残りの共通消費者を新たに対象消費者に選択するとき、プロセッサ311は、S430で空のクラスタが存在しないと判断する。
【0116】
S430で空のクラスタが存在しないと判断すると、プロセッサ311は、対象消費者を、次の評価関数R=d(C[k],D[i])が最小となるクラスタに割り当てる(S445)。
【0117】
評価関数Rにおける、C[k]は、第kクラスタの中心ベクトルであり、D[i]は、対象消費者である第i消費者の消費者特徴データから特定される第i消費者の特徴ベクトルである。d()は、距離関数である。
【0118】
S445におけるクラスタの割当後、プロセッサ311は、S450の処理を実行する。S450において共通消費者の全てをK個のクラスタのいずれかに割り当てたと判断すると、プロセッサ311は、第一のグループにおける残りの非共通消費者のそれぞれを、k-means法と同様に、当該消費者の特徴ベクトルとクラスタの中心ベクトルとの間の距離の総和が最も短くなるように、近傍のクラスタに割り当てる(S460)。
【0119】
プロセッサ311は、このようにして、第一のグループに属する消費者のそれぞれをK個のクラスタのいずれかに割り当てることにより、消費者の第一のグループをK個のクラスタにクラスタリングする。その後、
図8Bに示すクラスタリング処理を終了する。
【0120】
このクラスタリング処理によれば、共通消費者の数がクラスタ数より少ないときには、一つのクラスタに含まれる共通消費者が一人になるように、共通消費者を複数のクラスタに分散して配置することができる。従って、情報処理システム1における第一のクラスタと第二のクラスタとの対応付けを、共通消費者の情報に基づいて、高精度に行うことが可能である。
【0121】
以上に説明した本開示の技術は、上述した実施形態に限定されるものではなく、種々の態様を採り得る。
【0122】
上述した実施形態は、第一のデータセット15Aに含まれるクラスタ特徴データと、第二のデータセット15Bに含まれるクラスタ特徴データとの間に、クラスタの特徴を説明する要素として共通する要素が存在しない場合でも、写像(関数g)の探索により、第一のクラスタと第二のクラスタとを対応付け可能である。
【0123】
一方、第一のデータセット15Aに含まれるクラスタ特徴データと、第二のデータセット15Bに含まれるクラスタ特徴データとの間に、クラスタの特徴を説明する要素として共通する要素が存在する場合、すなわち、第一のデータセット15Aに含まれるクラスタ特徴データの特徴ベクトル(xi[1],xi[2],xi[3],…,xi[L1])と、第二のデータセット15Bに含まれるクラスタ特徴データの特徴ベクトル(yj[1],yj[2],yj[3],…,yj[L2])との間に共通する変数が存在する場合は、この共通変数のみに基づいて最適輸送問題を解くことにより、第一のクラスタと第二のクラスタとの間の対応付けを行ってもよい。
【0124】
具体的に、プロセッサ11は、
図6に示す分析処理に代えて、
図9に示す分析処理を実行することができる。
図9に示す分析処理を開始すると、プロセッサ11は、S510において、指定された第一のデータセット15Aをストレージ15から読み出し、読み出した第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データに基づき、第一のクラスタ毎に共通変数のみの特徴ベクトルD
f
*[i]=(x
i[1],x
i[2],x
i[3],…,x
i[L0])を生成する。
【0125】
ここでは、第一のデータセット15Aにおいて第一のクラスタの特徴を説明するL1個の要素のうちのL0個の要素xi[1],xi[2],xi[3],…,xi[L0]と、第二のデータセット15Bにおいて第二のクラスタの特徴を説明するL2個の要素のうちのL0個の要素yj[1],yj[2],yj[3],…,yj[L0]と、が共通変数であるとの前提を置く。
【0126】
続くS520において、プロセッサ11は、指定された第二のデータセット15Bをストレージ15から読み出し、読み出した第二のデータセット15Bに含まれる第二のクラスタ毎のクラスタ特徴データに基づき、第二のクラスタ毎に共通変数のみの特徴ベクトルDs
*[j]=(yj[1],yj[2],yj[3],…,yj[L0])を生成する。
【0127】
続くS540において、プロセッサ11は、第一のクラスタと第二のクラスタとの組合せ毎の、特徴ベクトルDf
*[i]と特徴ベクトルDs
*[j]との間の特徴空間上の距離に基づいて、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一つ以上に対応付ける。
【0128】
S540において、プロセッサ11は、
図7Aに示す処理と同様に、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の距離を特定値εに設定して、最適輸送問題を解くことができる。
【0129】
あるいは、プロセッサ11は、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、ペア毎に、クラスタ特徴データを参照せず、一律に、第一のクラスタをペアに対応する第二のクラスタに対応付けることができる。その後、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に関しては、特徴ベクトルDf
*[i]と特徴ベクトルDs
*[j]との間の特徴空間上の距離に基づいて、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一つ以上に対応付けることができる。
【0130】
続くS550においてプロセッサ11は、S540での対応付けに従って、第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データを、第二のデータセット15Bに含まれる、対応付けられた一つ以上の第二のクラスタのクラスタ特徴データと結合するように、第一のデータセット15Aと第二のデータセット15Bとを結合する。この結合により、拡張データセット15Cを生成し、これをストレージ15に保存する。その後、プロセッサ11は、分析処理を終了する。
【0131】
図9に示す分析処理によれば、共通変数に注目して負荷の低い手順で、第一のデータセット15Aと第二のデータセット15Bとの間のデータフュージョンを実現することができる。
【0132】
以上には、消費者の特徴データを含むデータセットの結合に、本開示の技術を適用した例を説明したが、消費者以外の、情報端末及び自動車を例に含む様々なものに対して、本開示の技術は適用され得る。すなわち、エンティティは、消費者以外及び人以外であってもよい。
【0133】
上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
【符号の説明】
【0134】
1…情報処理システム、11…プロセッサ、13…メモリ、15…ストレージ、15A…第一のデータセット、15B…第二のデータセット、15C…拡張データセット、17…ユーザインタフェース、19…通信インタフェース、31…第一のデータ提供システム、32…第二のデータ提供システム、311…プロセッサ、312…メモリ、321…プロセッサ、322…メモリ、Pr…コンピュータプログラム。
【要約】
【課題】クラスタ間の特徴データの適切な対応付けを実現可能な新規技術を提供する。
【解決手段】エンティティの第一のグループにおける複数のクラスタに関し、クラスタ毎に、対応するクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットが取得される。エンティティの第二のグループにおける複数のクラスタに関し、クラスタ毎に、対応するクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットが取得される。共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれが、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けられる(S210~S250)。
【選択図】
図6