(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-04-10
(45)【発行日】2023-04-18
(54)【発明の名称】情報処理システム、コンピュータプログラム、及び情報処理方法
(51)【国際特許分類】
G06F 16/906 20190101AFI20230411BHJP
【FI】
G06F16/906
(21)【出願番号】P 2022136165
(22)【出願日】2022-08-29
【審査請求日】2022-08-29
【早期審査対象出願】
(73)【特許権者】
【識別番号】507009009
【氏名又は名称】株式会社博報堂DYホールディングス
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】熊谷 雄介
(72)【発明者】
【氏名】道本 龍
【審査官】原 秀人
(56)【参考文献】
【文献】国際公開第2017/175434(WO,A1)
【文献】特開2017-097717(JP,A)
【文献】特開2021-131783(JP,A)
【文献】Steven S. Skiena,データサイエンス設計マニュアル,第1版,株式会社オライリー・ジャパン,2020年01月24日,pp. 293-297
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、
の間の比較であって、前記第一の集合の近傍グラフに対応するグラフラプラシアン行列及び前記第二の集合の近傍グラフに対応するグラフラプラシアン行列を用いた比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
【請求項2】
情報処理システムであって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備え
、
前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットから判別される前記対応する集合における前記複数の要素間の類似度に基づく前記対応する集合の近傍グラフと、前記第一の集合の近傍グラフとの間の比較に基づき、前記対応する評価対象のデータセットと前記第一のデータセットとの間の前記データ構造に関する類似性を評価し、
前記情報処理システムは、更に、
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
前記第一のデータセットと、前記結合対象に選択されたデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
を備える情報処理システム。
【請求項3】
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出するように構成される第一の類似度算出部と、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出するように構成される第二の類似度算出部と、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される第一の固有値算出部と、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される第二の固有値算出部と、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
【請求項4】
前記評価部は、固有値の大きさを基準に順位付けされる、前記第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、前記第一の固有値の一群における順位、及び、前記第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、前記第二の固有値の一群における順位に基づき、前記複数の第一の固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する請求項
3記載の情報処理システム。
【請求項5】
前記評価部は、前記第一の固有値の一群に含まれる固有値の大きい順に第1位から所定順位までの固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する請求項
4記載の情報処理システム。
【請求項6】
前記評価部は、誤差の二乗和により前記データ構造に関する類似性の評価値を算出するように構成され、前記誤差のそれぞれは、前記複数の第一の固有値のうちの、対応する順位の第一の固有値と、前記複数の第二の固有値のうちの、前記対応する順位の第二の固有値との差である請求項
4記載の情報処理システム。
【請求項7】
前記第一のグラフラプラシアン行列は、前記複数の第一の要素のそれぞれを、前記第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であり、
前記第二のグラフラプラシアン行列は、前記複数の第二の要素のそれぞれを、前記第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列である請求項
3記載の情報処理システム。
【請求項8】
前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記第二の類似度算出部は、前記複数の評価対象のデータセットのそれぞれについて、前記対応する集合における前記複数の要素間の類似度を算出し、
前記第二の固有値算出部は、前記複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、前記対応する集合における前記複数の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出し、
前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく前記比較対象の固有値の一群と、前記第一の固有値の一群との間の比較に基づき、前記第一のデータセットと前記対応する評価対象のデータセットとの間の前記データ構造に関する類似性を評価する
請求項
3記載の情報処理システム。
【請求項9】
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
前記第一のデータセットと、前記結合対象に選択された前記第二のデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
を備える請求項
8記載の情報処理システム。
【請求項10】
前記第一のデータセットは、前記複数の第一の要素として、前記第一の集合における複数の人の特徴を記述するデータセットであり、前記第二のデータセットは、前記複数の第二の要素として、前記第二の集合における複数の人の特徴を記述するデータセットである請求項1~請求項
9のいずれか一項記載の情報処理システム。
【請求項11】
請求項1記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
【請求項12】
請求項2記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、前記評価部、前記選択部、及び前記結合部としてコンピュータを機能させるためのコンピュータプログラム。
【請求項13】
請求項
3~請求項
8のいずれか一項記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、前記第一の類似度算出部、前記第二の類似度算出部、前記第一の固有値算出部、前記第二の固有値算出部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
【請求項14】
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、
の間の比較であって、前記第一の集合の近傍グラフに対応するグラフラプラシアン行列及び前記第二の集合の近傍グラフに対応するグラフラプラシアン行列を用いた比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。
【請求項15】
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含
み、
前記第二のデータセットを取得することは、前記第二のデータセットとして、複数の評価対象のデータセットを取得することを含み、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記評価することは、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットから判別される前記対応する集合における前記複数の要素間の類似度に基づく前記対応する集合の近傍グラフと、前記第一の集合の近傍グラフとの間の比較に基づき、前記対応する評価対象のデータセットと前記第一のデータセットとの間の前記データ構造に関する類似性を評価することを含み、
前記情報処理方法は、更に、
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択することと、
前記第一のデータセットと、前記結合対象に選択された前記第二のデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合することと、
を含む情報処理方法。
【請求項16】
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出することと、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出することと、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することと、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することと、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
従来、商品の販売データに基づき消費者の購買行動を分析することが行われている。消費者のマスメディアやネットワークコンテンツへの接触行動を分析することも行われている。
【0003】
異なる手段で収集した複数のデータを共通変数に基づいて結合するデータフュージョン技術も知られている。特許文献1は、第一の消費者群に関する第一のデータセットと、第二の消費者群に関する第二のデータセットとを、第一のデータセットと第二のデータセットとの間で共通する変数を用いて結合する技術を開示する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
第一のデータセットに第二のデータセットを結合しようとするとき、結合対象の第二のデータセットの候補として、複数種類のデータセットを用意できる場合がある。例えば、第一のデータセットに、第二のデータセットとして消費者の購買行動に関するデータセットを結合しようとするとき、上記候補として、異なる消費者集合の購買行動に関する複数のデータセットを、複数のデータベンダから取得できる場合がある。
【0006】
あるいは、購買行動を異なるパラメータを用いて記述する複数のデータセットを、POSデータなどの販売履歴の加工により用意できる場合がある。パラメータの例には、商品の購入数及び購入金額などが含まれる。
【0007】
ここで、第一のデータセットが、全年齢及び全性別の消費者がおよそ一様に存在する消費者集合に関するデータセットである場合を考える。この場合、結合対象の第二のデータセットとして、女性のみの消費者集合のデータセットを選択するよりも、全年齢及び全性別の消費者がおよそ一様に存在する消費者集合のデータセットを選択するほうが、データフュージョンの精度は向上すると考えられる。
【0008】
すなわち、第二のデータセットが取り扱う消費者集合によって、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、変化すると考えられる。同様に、第二のデータセットが記述する購買行動のパラメータの種類によっても、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、変化すると考えられる。特徴空間上の消費者の分布がパラメータの種類によって変化するためである。
【0009】
このように、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、第一のデータセットと第二のデータセットとの間のデータ構造の類似性に依存する。この依存は、購買行動のデータセットに限定されない。
【0010】
そこで、本開示の一側面によれば、様々な種類のデータセットに関して、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価可能なシステム及び方法を提供できることが望ましい。
【課題を解決するための手段】
【0011】
本開示の一側面によれば、第一の取得部と、第二の取得部と、評価部とを備える情報処理システムが提供される。第一の取得部は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される。第二の取得部は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される。
【0012】
評価部は、第一のデータセットから判別される複数の第一の要素間の類似度に基づく第一の集合の近傍グラフと、第二のデータセットから判別される複数の第二の要素間の類似度に基づく第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される。
【0013】
上記近傍グラフは、複数の要素の特徴空間上の分布に関連する。従って、上記比較によれば、第一のデータセットのデータ構造と、第二のデータセットのデータ構造との間の類似性を評価することができる。
【0014】
本開示の一側面によれば、第一の取得部と、第二の取得部と、第一の類似度算出部と、第二の類似度算出部と、第一の固有値算出部と、第二の固有値算出部と、評価部とを備える別の情報処理システムが提供されてもよい。
【0015】
第一の取得部は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される。第二の取得部は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される。
【0016】
第一の類似度算出部は、第一のデータセットに基づき、複数の第一の要素間の類似度を算出するように構成される。第二の類似度算出部は、第二のデータセットに基づき、複数の第二の要素間の類似度を算出するように構成される。
【0017】
第一の固有値算出部は、複数の第一の要素間の類似度に基づき、第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される。第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列である。
【0018】
第二の固有値算出部は、複数の第二の要素間の類似度に基づき、第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、類似度の高さが所定条件を満足する第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列である。
【0019】
評価部は、第一の固有値の一群と第二の固有値の一群との間の比較に基づき、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される。
【0020】
近傍グラフは、複数の要素の特徴空間上の分布に関連する。二つの近傍グラフが類似するとき、対応する二つのグラフラプラシアン行列の固有値の一群も類似する。上記比較によれば、第一の集合に関する近傍グラフと、第二の集合に関する近傍グラフの類似性を評価することができる。
【0021】
近傍グラフは、対応するデータセットのデータ構造に対応する。従って、上記比較によれば、第一のデータセットのデータ構造と、第二のデータセットのデータ構造との間の類似性を評価することができる。
【0022】
この評価は、例えば、第一のデータセットと第二のデータセットとの間のデータフュージョンに関する相性の判別に役立つ。評価は、例えばデータフュージョンにおける結合対象のデータセットの選択に役立つ。但し、評価は、データフュージョンの用途に限定されない。
【0023】
本開示の一側面によれば、評価部は、固有値の大きさを基準に順位付けされる、第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、第一の固有値の一群における順位、及び、第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、第二の固有値の一群における順位に基づき、複数の第一の固有値のそれぞれを、複数の第二の固有値のうちの同一順位の固有値と比較することにより、データ構造に関する類似性を評価してもよい。こうした評価によれば、データセット間のデータ構造に関する類似性を、一層適切に評価可能である。
【0024】
本開示の一側面によれば、評価部は、第一の固有値の一群に含まれる固有値の大きい順に第1位から所定順位までの固有値のそれぞれを、複数の第二の固有値のうちの同一順位の固有値と比較することにより、データ構造に関する類似性を評価してもよい。
【0025】
本開示の一側面によれば、評価部は、誤差の二乗和によりデータ構造に関する類似性の評価値を算出するように構成されてもよい。誤差のそれぞれは、複数の第一の固有値のうちの、対応する順位の第一の固有値と、複数の第二の固有値のうちの、対応する順位の第二の固有値との差であり得る。誤差の二乗和を用いることによれば、データセット間のデータ構造に関する類似性を、一層適切に評価可能である。
【0026】
本開示の一側面によれば、第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であってもよい。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列であってもよい。
【0027】
本開示の一側面によれば、第二の取得部は、第二のデータセットとして、複数の評価対象のデータセットを取得してもよい。複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり得る。複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり得る。
【0028】
第二の類似度算出部は、複数の評価対象のデータセットのそれぞれについて、対応する集合における複数の要素間の類似度を算出してもよい。第二の固有値算出部は、複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、対応する集合における複数の要素のそれぞれを、類似度の高さが所定条件を満足する対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出してもよい。
【0029】
評価部は、複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく比較対象の固有値の一群と、第一の固有値の一群との間の比較に基づき、第一のデータセットと、対応する評価対象のデータセットと、の間のデータ構造に関する類似性を評価してもよい。
【0030】
本開示の一側面によれば、情報処理システムは、選択部を更に備えてもよい。選択部は、複数の評価対象のデータセットのうち、データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成され得る。
【0031】
本開示の一側面によれば、情報処理システムは、結合部を更に備えてもよい。結合部は、第一のデータセットと、結合対象に選択された第二のデータセットとを、第一の集合と、対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように、結合する構成にされ得る。
【0032】
こうした選択によれば、第一のデータセットとの結合に相応しい第二のデータセットを、複数のデータセットの中から選択することができる。従って、第一のデータセットと第二のデータセットと間の高精度なデータフュージョンを実現可能である。
【0033】
本開示の一側面によれば、第一のデータセットは、複数の第一の要素として、第一の集合における複数の人の特徴を記述するデータセットであってもよい。第二のデータセットは、複数の第二の要素として、第二の集合における複数の人の特徴を記述するデータセットであってもよい。
【0034】
本開示の一側面によれば、上述した情報処理システムにおける少なくとも一部の機能をコンピュータに実現させるためのコンピュータプログラムが提供されてもよい。本開示の一側面によれば、第一の取得部、第二の取得部、及び評価部の少なくとも一部としてコンピュータを機能させるためのコンピュータプログラムが提供されてもよい。
【0035】
本開示の一側面によれば、第一の取得部、第二の取得部、第一の類似度算出部、第二の類似度算出部、第一の固有値算出部、第二の固有値算出部、及び評価部の少なくとも一部としてコンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な非一時的記録媒体に記録され得る。
【0036】
本開示の一側面によれば、情報処理方法が提供されてもよい。情報処理方法は、コンピュータにより実行されてもよい。情報処理方法は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することを含んでいてもよい。
【0037】
情報処理方法は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することを含んでいてもよい。
【0038】
情報処理方法は、第一のデータセットから判別される複数の第一の要素間の類似度に基づく第一の集合の近傍グラフと、第二のデータセットから判別される複数の第二の要素間の類似度に基づく第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価することを含んでいてもよい。
【0039】
本開示の一側面によれば、別の情報処理方法が提供されてもよい。別の情報処理方法は、コンピュータにより実行されてもよい。別の情報処理方法は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することを含んでいてもよい。
【0040】
別の情報処理方法は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することを含んでいてもよい。
【0041】
別の情報処理方法は、第一のデータセットに基づき、複数の第一の要素間の類似度を算出することを含んでいてもよい。別の情報処理方法は、第二のデータセットに基づき、複数の第二の要素間の類似度を算出することを含んでいてもよい。
【0042】
別の情報処理方法は、複数の第一の要素間の類似度に基づき、第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することを含んでいてもよい。第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する第一の集合内の一以上の第一の要素と接続した近傍グラフに対応するグラフラプラシアン行列であり得る。
【0043】
別の情報処理方法は、複数の第二の要素間の類似度に基づき、第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することを含んでいてもよい。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、類似度の高さが所定条件を満足する第二の集合内の一以上の第二の要素と接続した近傍グラフに対応するグラフラプラシアン行列であり得る。
【0044】
別の情報処理方法は、第一の固有値の一群と第二の固有値の一群との間の比較に基づき、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価することを含んでいてもよい。
【0045】
上述の情報処理方法によれば、様々な種類のデータセットに関して、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価可能である。上述の情報処理システム及び情報処理方法は、データフュージョンの用途に限定されない。
【図面の簡単な説明】
【0046】
【
図1】情報処理システムの構成を表すブロック図である。
【
図2】データフュージョンによる拡張データセットの生成例を説明する図である。
【
図3】プロセッサが実行する評価処理を表すフローチャート(その1)である。
【
図4】プロセッサが実行する評価処理を表すフローチャート(その2)である。
【
図5】プロセッサが実行する拡張処理を表すフローチャート(その1)である。
【
図6】プロセッサが実行する拡張処理を表すフローチャート(その2)である。
【発明を実施するための形態】
【0047】
以下に本開示の例示的実施形態を、図面を参照しながら説明する。
本実施形態の情報処理システム1は、汎用コンピュータに専用のコンピュータプログラムPrがインストールされて構成される。情報処理システム1は、
図1に示すように、プロセッサ11と、メモリ13と、ストレージ15と、ユーザインタフェース17と、通信インタフェース19とを備える。
【0048】
プロセッサ11は、ストレージ15に格納されたコンピュータプログラムPrに従う処理を実行するように構成される。メモリ13は、RAMを備える一次記憶装置であり、プロセッサ11による処理の実行時に作業エリアとして使用される。
【0049】
ストレージ15は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムPrの他、コンピュータプログラムPrに従う処理の実行時に供される各種データを記憶する。
【0050】
ユーザインタフェース17は、情報処理システム1を操作するユーザからの操作信号をプロセッサ11に入力するための入力デバイスと、ユーザに各種情報を表示するためのディスプレイと、を備える。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。
【0051】
通信インタフェース19は、LAN(ローカルエリアネットワーク)インタフェース及びUSB(ユニバーサル・シリアル・シリアル)インタフェースを含み、外部装置との通信に使用される。情報処理システム1は、通信インタフェース19を通じて外部装置との間でデータ送受する。
【0052】
プロセッサ11は、コンピュータプログラムPrに従う処理の実行により、ストレージ15に記憶された第一のデータセット15Aを、ストレージ15に記憶された第二のデータセット15Bを用いて拡張した拡張データセット15Cを生成する。第一のデータセット15A及び第二のデータセット15Bは、例えば通信インタフェース19を通じて外部装置から予め取得され、ストレージ15に格納される。
【0053】
第一のデータセット15Aは、第一の集合に関する第一の特徴を記述するデータセットであり、第一のエンティティ毎の特徴データを、第一の特徴データとして備える。第一のエンティティのそれぞれは、第一の集合に含まれる複数の要素のそれぞれに対応する。第一の集合は、第一のエンティティの集合である。第一の集合は、第一の消費者集合であり得る。一例によれば、第一のエンティティは、消費者、すなわち人である。
【0054】
第一のエンティティ毎の第一の特徴データは、対応する第一のエンティティの第一の特徴を記述するデータである。例えば、第一のデータセット15Aは、
図2に示すように、第一の消費者集合の購買行動に関するデータセットであり得る。この場合、第一の特徴データは、対応する消費者の購買行動の特徴を記述するデータであり得る。第一の特徴データは、例えば、複数の商品に関して、商品毎の購買有無を記述するデータであり得る。
【0055】
第二のデータセット15Bは、第二の集合に関する第二の特徴を記述するデータセットであり、第二の特徴データとして、第二のエンティティ毎の特徴データを備える。第二のエンティティのそれぞれは、第二の集合に含まれる複数の要素のそれぞれに対応する。
【0056】
第二の集合は、第二のエンティティの集合である。第二の集合は、第二の消費者集合であり得る。第二の消費者集合は、第一の消費者集合と同じ又は異なる消費者集合であり得る。一例によれば、第二のエンティティは、消費者、すなわち人である。
【0057】
第二のエンティティ毎の第二の特徴データは、対応する第二のエンティティの第二の特徴を記述するデータである。第二の特徴データは、第二の特徴として、第一の特徴データが説明する第一の特徴と、同じ又は異なる特徴を記述するデータであり得る。すなわち、第二のデータセット15Bは、第二の集合及び第二の特徴の少なくとも一方が、第一の集合及び第一の特徴とは異なるデータセットである。
【0058】
例えば、第二のデータセット15Bは、
図2に示すように、第二の消費者集合のオンライン行動に関するデータセットであり得る。
図2に示す例によれば、オンライン行動は、ウェブサイトへの訪問行動であり得る。第二の特徴データは、例えば、複数のウェブサイトに関して、ウェブサイト毎の訪問有無を記述するデータであり得る。
【0059】
拡張データセット15Cは、第一のデータセット15Aに、第二のデータセット15Bが備える情報を付加したデータセットである。拡張により、第一のエンティティに関する情報量は増大する。情報量の増大は、人の行動分析や広告配信に役立つ。
【0060】
本実施形態によれば、プロセッサ11は、ユーザからの指示に従って
図3及び
図4に示す評価処理を実行するように構成される。評価処理によれば、ユーザが、データフュージョンにより結合しようとする第一のデータセット15Aと第二のデータセット15Bとの間のデータ構造の類似性が評価され、これによりデータフュージョンの精度が事前評価される。データフュージョンの精度は、データフュージョンにより生成される拡張データセット15Cが説明する情報の確度(すなわち正確性)に対応する。
【0061】
第一のデータセット15A及び第二のデータセット15Bのデータ構造は、それぞれ、第一のデータセット15A及び第二のデータセット15Bにおけるエンティティ間の類似性をグラフで表現したときの当該グラフの構造に対応する。グラフは、周知のように、ノード(換言すれば点)及びリンク(換言すれば辺)の集合により構成される。
【0062】
評価処理では、第一のデータセット15Aに対応するグラフとして、特徴空間上において、第一の集合における第一のエンティティのそれぞれのノードを、類似度が最も高い第一のエンティティのノードに接続して構成される最近傍グラフが用いられる。
【0063】
同様に、第二のデータセット15Bに対応するグラフとして、特徴空間上において、第二の集合における第二のエンティティのそれぞれのノードを、類似度が最も高い第二のエンティティのノードに接続して構成される最近傍グラフが用いられる。
【0064】
図3に示す評価処理を開始すると、プロセッサ11は、ユーザインタフェース17を通じてユーザから指定された第一のデータセット15Aを、ストレージ15から読み出す。プロセッサ11は、読み出した第一のデータセット15Aに基づき、第一の集合に含まれる複数の第一のエンティティについて、第一のエンティティ毎の特徴ベクトルxを生成する(S110)。
【0065】
具体的には、プロセッサ11は、第一のエンティティ毎に、第一のデータセット15Aが有する対応する第一のエンティティの特徴データに基づいて、対応する第一のエンティティの特徴ベクトルx=(x1,x2,…,xM1)を生成する。M1は、特徴ベクトルxの次元数に対応する。
【0066】
第一のデータセット15Aが
図2に例示される消費者の購買行動の特徴を表すデータセットである場合、特徴ベクトルxは、商品毎のベクトル要素を備えることができる。各商品のベクトル要素は、対応する消費者の対応する商品の購買有無を表す。
【0067】
続くS120において、プロセッサ11は、ユーザインタフェース17を通じてユーザから指定された第二のデータセット15Bを、ストレージ15から読み出す。プロセッサ11は、読み出した第二のデータセット15Bに基づき、第二の集合に含まれる複数の第二のエンティティについて、第二のエンティティ毎の特徴ベクトルyを生成する。
【0068】
具体的には、プロセッサ11は、第二のエンティティ毎に、第二のデータセット15Bが有する対応する第二のエンティティの特徴データに基づいて、対応する第二のエンティティの特徴ベクトルy=(y1,y2,…,yM2)を生成する。M2は、特徴ベクトルyの次元数に対応する。
【0069】
第二のデータセット15Bが
図2に例示される消費者のオンライン行動の特徴を表すデータセットである場合、特徴ベクトルyは、ウェブサイト毎のベクトル要素を備えることができる。各ウェブサイトのベクトル要素は、対応する消費者の対応するウェブサイトへの訪問有無を表す。
【0070】
続くS130において、プロセッサ11は、第一の集合に含まれる第一のエンティティ間の類似度R1を算出する。プロセッサ11は、第一の集合において採り得る二つの第一のエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つの第一のエンティティ間の類似度R1を、特徴ベクトルxを用いて算出する。
【0071】
類似度R1は、例えば、組合せを構成する二つの第一のエンティティの特徴ベクトルxの正規化された内積で算出されるコサイン類似度であり得る。但し、類似度R1は、コサイン類似度に限定されない。
【0072】
続くS140において、プロセッサ11は、第一のエンティティ間の類似度R1に基づき、第一のグラフラプラシアン行列L1を算出する。第一のグラフラプラシアン行列L1は、第一のデータセット15Aの最近傍グラフのグラフラプラシアン行列である。第一のグラフラプラシアン行列L1は、最近傍グラフの次数行列D1及び隣接行列A1を用いて、式L1=D1-A1により算出され得る。
【0073】
第一のデータセット15Aの最近傍グラフは、複数の第一のエンティティのうちの一つを、処理対象のエンティティに選択し、処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度R1が最も高い一つの第一のエンティティのノードに向けて、リンク(換言すれば有向辺)を張る手順を、第一の集合における複数の第一のエンティティのすべてについて実行して定義される有向グラフであり得る。
【0074】
続くS150において、プロセッサ11は、第一のグラフラプラシアン行列L1の固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を算出する。値N1は、固有値の数である。
【0075】
固有値λ1[i](i=1,2,…,N1)のインデックスiは、固有値の大きさを基準に順位付けされる、固有値λ1[i]の、固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]の一群における順位を表す。すなわち、λ1[1]≧λ1[2]≧…≧λ1[N1]である。
【0076】
続くS160において、プロセッサ11は、固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ1[K1]の順位K1を判別する。αは、例えば値0.9であり得る。すなわち、プロセッサ11は、下記条件式を満足する最小の値K1を判別する。
【0077】
【0078】
続くS170において、プロセッサ11は、第二の集合に含まれる第二のエンティティ間の類似度R2を算出する。プロセッサ11は、第二の集合において採り得る二つの第二のエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つの第二のエンティティの類似度R2を、特徴ベクトルyを用いて算出する。
【0079】
類似度R2は、例えば、組合せを構成する二つの第二のエンティティの特徴ベクトルyの正規化された内積で算出されるコサイン類似度であり得る。但し、類似度R2は、コサイン類似度に限定されない。
【0080】
続くS180において、プロセッサ11は、第二のエンティティ間の類似度R2に基づき、第二のグラフラプラシアン行列L2を算出する。第二のグラフラプラシアン行列L2は、第二のデータセット15Bの最近傍グラフのグラフラプラシアン行列である。
【0081】
第二のグラフラプラシアン行列L2は、最近傍グラフの次数行列D2及び隣接行列A2を用いて、式L2=D2-A2により算出され得る。最近傍グラフは、複数の第二のエンティティのうちの一つを、処理対象のエンティティに選択し、選択した処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度R2が最も高い一つの第二のエンティティのノードに向けて、リンク(換言すれば有向辺)を張る手順を、第二の集合における複数の第二のエンティティのすべてについて実行して定義される有向グラフであり得る。
【0082】
続くS190において、プロセッサ11は、第二のグラフラプラシアン行列L2の固有値λ2[1],λ2[2],…,λ2[i],…,λ2[N2]を算出する。値N2は、固有値の数である。
【0083】
固有値λ2[i](i=1,2,…,N2)のインデックスiは、固有値の大きさを基準に順位付けされる、固有値λ2[i]の、固有値λ2[1],λ2[2],…,λ2[i],…,λ2[N2]の一群における順位を表す。すなわち、λ2[1]≧λ2[2]≧…≧λ2[N2]である。
【0084】
続くS200において、プロセッサ11は、固有値λ2[1],λ2[2],…,λ2[i],…,λ2[N2]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ2[K2]の順位K2を判別する。すなわち、プロセッサ11は、下記条件式を満足する最小の値K2を判別する。αは、例えば値0.9であり得る。
【0085】
【0086】
続くS210において、プロセッサ11は、値K1,K2のうち小さい方の値min{K1,K2}を、値Kに設定する。
【0087】
続くS220において、プロセッサ11は、第一のデータセット15Aと第二のデータセット15Bとの間のデータ構造の類似性に関する評価値Eとして、次式に従い固有値の誤差の二乗和を算出する。
【0088】
【0089】
誤差のそれぞれは、第一のグラフラプラシアン行列L1の固有値λ1[1],λ1[2],…,λ1[i],…,λ1[K]のうちの、対応する順位の固有値λ1[i]と、第二のグラフラプラシアン行列L2の固有値λ2[1],λ2[2],…,λ2[i],…,λ2[K]のうちの、対応する順位の固有値λ2[i]との差(λ1[i]-λ2[i])であり得る。
【0090】
誤差の二乗和を算出することは、第一のグラフラプラシアン行列L1の固有値の一群λ1[1],λ1[2],…,λ1[i],…,λ1[N1]に含まれる第1位から所定順位までの固有値λ1[1],λ1[2],…,λ1[i],…,λ1[K]のそれぞれを、第二のグラフラプラシアン行列L2の固有値λ2[1],λ2[2],…,λ2[i],…,λ2[K]のうちの同一順位の固有値と比較することを含む。
【0091】
続くS230において、プロセッサ11は、S220で算出した評価値Eを、ユーザインタフェース17のディスプレイを通じて、ユーザに表示する。その後、評価処理を終了する。
【0092】
この評価処理によれば、ユーザは、表示された評価値Eに基づき、第一のデータセット15Aと第二のデータセット15Bとの間のデータフュージョンの精度を、事前に予測することができる。
【0093】
具体的には、ユーザは、表示される評価値Eの値が小さいほど、第一のデータセット15Aと第二のデータセット15Bとの間のデータ構造の類似性が高いと判別することができる。ユーザは、表示される評価値Eの値が小さいほど、第一のデータセット15Aと第二のデータセット15Bとの間において、高精度なデータフュージョンを実現可能であると判別することができる。それにより、ユーザは、情報確度の高い拡張データセット15Cを得ることができると判別することができる。
【0094】
続いて、ユーザインタフェース17を通じてユーザから拡張処理の実行指示が入力されると、プロセッサ11が実行する拡張処理の詳細を、
図5及び
図6を用いて説明する。実行指示と併せて、ユーザからは、第一のデータセット15Aに対する結合対象の第二のデータセット15Bの候補として、複数のデータセットがユーザインタフェース17を通じて指定される。複数のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり得る。
【0095】
拡張処理では、これらの複数のデータセットのうち、上述した評価処理と同様の手法で算出した評価値Eが最小のデータセットが、結合対象の第二のデータセット15Bとして選択される。第一のデータセット15Aには、選択された第二のデータセット15Bが、データフュージョンにより結合される。
【0096】
拡張処理を開始すると、プロセッサ11は、S110での処理と同様に、ユーザインタフェース17を通じてユーザから指定された第一のデータセット15Aを、ストレージ15から読み出す。プロセッサ11は、読み出した第一のデータセット15Aに基づき、第一のエンティティ毎の特徴ベクトルxを生成する(S310)。更に、プロセッサ11は、結合対象の第二のデータセット15Bの候補として指定された複数のデータセットをストレージ15から読み出すことにより取得する(S320)。
【0097】
その後、プロセッサ11は、S130~S160での処理と同様に、S330~S360の処理を実行する。すなわち、S330において、プロセッサ11は、第一のエンティティ間の類似度R1を算出する。
【0098】
S340において、プロセッサ11は、第一のエンティティ間の類似度R1に基づき、第一のグラフラプラシアン行列L1を算出する。続くS350において、プロセッサ11は、第一のグラフラプラシアン行列L1の固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を算出する。値N1は、固有値の数である。固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]は、条件式λ1[1]≧λ1[2]≧…≧λ1[N1]を満足する。
【0099】
続くS360において、プロセッサ11は、固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ1[K1]の順位K1を判別する。αは、例えば値0.9であり得る。
【0100】
続くS370において、プロセッサ11は、上記候補の複数のデータセットの中から、評価対象のデータセットを一つ選択する。続くS380において、プロセッサ11は、評価対象のデータセットに基づき、エンティティ毎に、対応するエンティティの特徴ベクトルyを生成する。
【0101】
ここでいうエンティティは、評価対象のデータセットが取り扱う情報の標本集合における要素である。標本集合は、消費者集合に対応し得る。エンティティは、消費者集合に含まれる複数の消費者のそれぞれであり得る。
【0102】
評価対象のデータセットは、エンティティ毎に、対応するエンティティの特徴を記述する特徴データを備える。S380におけるエンティティ毎の特徴ベクトルyの生成は、第二のデータセット15Bに関するS120での処理と同様に行われる。
【0103】
続くS390において、プロセッサ11は、S170での処理と同様に、評価対象のデータセットが取り扱う標本集合に含まれるエンティティ間の類似度R3を、特徴ベクトルyに基づいて算出する。
【0104】
プロセッサ11は、標本集合において採り得る二つのエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つのエンティティの類似度R3を、特徴ベクトルyを用いて算出する。類似度R3は、コサイン類似度であり得る。
【0105】
続く400において、プロセッサ11は、S180での処理と同様に、エンティティ間の類似度R3に基づき、グラフラプラシアン行列L3を算出する。
【0106】
グラフラプラシアン行列L3は、評価対象のデータセットの最近傍グラフのグラフラプラシアン行列である。最近傍グラフは、標本集合における複数のエンティティのうちの一つを、処理対象のエンティティに選択し、選択した処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度R3が最も高い一つのエンティティのノードに向けて、リンク(換言すれば有向辺)を張る手順を、標本集合における複数のエンティティのすべてについて実行して定義される有向グラフであり得る。
【0107】
続くS410において、プロセッサ11は、S190での処理と同様に、グラフラプラシアン行列L3の固有値λ3[1],λ3[2],…,λ3[i],…,λ3[N3]を算出する。値N3は、固有値の数であり、固有値λ3[1],λ3[2],…,λ3[i],…,λ3[N3]は、条件式λ3[1]≧λ3[2]≧…≧λ3[N3]を満足する。
【0108】
続くS420において、プロセッサ11は、S200での処理と同様に、固有値λ3[1],λ3[2],…,λ3[i],…,λ3[N3]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ3[K3]の順位K3を判別する。αは、例えば値0.9であり得る。
【0109】
続くS430において、プロセッサ11は、プロセッサ11は、値K1,K3のうち小さい方の値min{K1,K3}を、値Kに設定する。
【0110】
続くS440において、プロセッサ11は、第一のデータセット15Aと評価対象のデータセットとの間のデータ構造の類似性に関する評価値Eとして、次式に従い固有値の誤差の二乗和を算出する。
【0111】
【0112】
続くS450において、プロセッサ11は、候補として指定された複数のデータセットのすべてについて、S370~S440の処理を実行したかを判断する。実行していないと判断すると(S450でNo)、プロセッサ11は、候補の中から、評価対象として未選択のデータセットを、評価対象のデータセットとして新たに一つ選択する(S370)。新たに選択した評価対象のデータセットに関して、S380~S440の処理を実行する。
【0113】
このようにしてプロセッサ11は、候補として指定された複数のデータセットのすべてについてS370~S440の処理を実行するまで、S450で否定判断して、S370~S440の処理を繰返し実行する。これにより、候補として指定された複数のデータセットに関して、データセット毎に評価値Eを算出する。
【0114】
複数のデータセットのすべてについてS370~S440の処理を実行したと判断すると(S450でYes)、プロセッサ11は、候補として指定された複数のデータセットのうち、評価値Eが最小のデータセットを、第一のデータセット15Aとのデータ構造の類似性が最も高いデータセットとして判別する(S460)。
【0115】
そして、プロセッサ11は、候補として指定された複数のデータセットのうち、評価値Eが最小のデータセットを、第一のデータセット15Aに対する結合対象の第二のデータセット15Bとして選択する(S460)。
【0116】
その後、プロセッサ11は、データフュージョン技術を用いて、第一のデータセット15Aに、第二のデータセット15Bを結合することにより、第一のデータセット15Aを、選択した第二のデータセット15Bを用いて拡張した拡張データセット15Cを生成する(S470)。
【0117】
第一のデータセット15Aと第二のデータセット15Bとの間の結合は、関係する第一のエンティティの特徴データと第二のエンティティの特徴データとを結合することにより行われる。二つの特徴データの結合は、二つの特徴データを関連付けることに対応する。
【0118】
第一例によれば、特徴が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとが結合される。第二例によれば、特徴空間上での第一の集合における各第一のエンティティの相対位置と、第二の集合における各第二のエンティティの相対位置とに基づいて、相対位置が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとが結合される。
【0119】
その後、プロセッサ11は、生成した拡張データセット15Cを出力する(S480)。具体的には、プロセッサ11は、拡張データセット15Cをストレージ15に書き込む。ストレージ15に書き込まれた拡張データセット15Cは、例えば消費者行動を分析するために役立てられる。
【0120】
ここでデータフュージョン技術について追加的に説明する。出願人は、既にいくつかのデータフュージョン技術を、先行する特許出願により開示している。第一のデータセット15A及び第二のデータセット15Bに、デモグラフィック属性等の第一のエンティティと第二のエンティティとの間で共通する変数が含まれる場合、プロセッサ11は、共通変数により判別される特徴が類似する第一のエンティティの特徴データと、第二のエンティティの特徴データとを、結合するように、第一のデータセット15Aと第二のデータセット15Bとを結合することができる。
【0121】
あるいは、プロセッサ11は、第一のデータセット15Aと第二のデータセット15Bとの間に共通変数が含まれない場合、特徴空間上での第一の集合における第一のエンティティの相対位置と、特徴空間上での第二の集合における第二のエンティティの相対位置と、が類似する第一のエンティティと第二のエンティティとの組合せを判別して、相対位置が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとを結合するように、第一のデータセット15Aに第二のデータセット15Bを結合することができる。
【0122】
以上に説明した本実施形態の情報処理システム1によれば、データセット間のデータ構造の類似性を、最近傍グラフに基づくグラフラプラシアン行列の固有値に基づいて評価する。
【0123】
最近傍グラフは、対応するデータセットのデータ構造に対応する。最近傍グラフは、集合を構成する複数の要素の特徴空間上の分布に関連する。二つの近傍グラフが類似するとき、対応する二つのグラフラプラシアン行列の固有値の一群も類似する。
【0124】
従って、固有値の比較によれば、第一の集合に関する最近傍グラフと、第二の集合に関する最近傍グラフとの間の類似性を評価することができる。結果として、第一のデータセット15Aのデータ構造と、第二のデータセット15Bのデータ構造との間の類似性を評価することができる。
【0125】
この評価は、データフュージョンにおける結合対象のデータセットの選択に役立つ。第一のデータセット15Aを、データ構造の類似性が高い第二のデータセット15Bと、データフュージョン技術により結合することによれば、拡張された情報に関する確度の高い拡張データセット15Cを生成することができる。
【0126】
すなわち、データ構造が大きく異なる二つのデータセットを結合するよりも、互いのデータ構造が近い二つのデータセットを結合したほうが、データセット全体において、エンティティ間の特徴データの結合を良好に行うことができる。
【0127】
特に本実施形態では、大きい固有値ほど、データ構造の評価に重要であるという考えの下、更には、固有値の和の固有値の総和に占める割合が大きいほど、和に対応する固有値の各値は、総和に対応する固有値の全体を代表しているという考えの下で、値K1,K2,K3が算出され、値Kが判別されている。
【0128】
そして、上述のようにK個の誤差の二乗和により、評価値Eが算出されている。すなわち、本実施形態の評価値Eの算出方法によれば、比較対象のデータセット間の固有値の数が異なる場合でも、固有値を比較して、データ構造の類似性に関する評価値Eを適切に算出することができる。従って、本実施形態によれば、データ構造の類似性に関する良好な評価、及び、この評価に基づく良好なデータフュージョンを実現可能である。
【0129】
[その他の実施形態]
本開示は、上記実施形態に限定されるものではなく、種々の態様を採ることができる。例えば、グラフラプラシアン行列は、k近傍グラフのグラフラプラシアン行列であってもよい。例えば、第一のグラフラプラシアン行列L1は、第一の集合における第一のエンティティのそれぞれのノードを、類似度R1が高い順に第一の集合内の一以上のk個の第一のエンティティのノードと接続したk近傍グラフ、に対応するグラフラプラシアン行列であってもよい。
【0130】
第二のグラフラプラシアン行列L2は、第二の集合における第二のエンティティのそれぞれのノードを、類似度R2が高い順に第二の集合内の一以上のk個の第二のエンティティのノードと接続したk近傍グラフ、に対応するグラフラプラシアン行列であってもよい。k近傍グラフは、有向グラフであってもよいし、無向グラフであってもよい。同様に、グラフラプラシアン行列L3は、k近傍グラフであり得る。
【0131】
上記実施形態では、近傍グラフの比較が、グラフラプラシアン行列の固有値の比較を通じて行われた。しかしながら、近傍グラフの比較は、この例に限定されない。近傍グラフの構造を、任意の手法で数値表現し、二つの近似グラフに対応する数値の比較により、近傍グラフの構造が比較されてもよい。そのような近傍グラフの構造の比較により、対応する二つのデータセットのデータ構造の類似性が評価されてもよい。ここでいう数値には、ベクトルが含まれ得る。
【0132】
上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
【0133】
[本明細書が開示する技術思想]
本明細書には、次の技術思想が開示されていると理解することができる。
[項目1]
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
[項目2]
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出するように構成される第一の類似度算出部と、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出するように構成される第二の類似度算出部と、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される第一の固有値算出部と、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される第二の固有値算出部と、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
[項目3]
前記評価部は、固有値の大きさを基準に順位付けされる、前記第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、前記第一の固有値の一群における順位、及び、前記第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、前記第二の固有値の一群における順位に基づき、前記複数の第一の固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する項目2記載の情報処理システム。
[項目4]
前記評価部は、前記第一の固有値の一群に含まれる固有値の大きい順に第1位から所定順位までの固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する項目3記載の情報処理システム。
[項目5]
前記評価部は、誤差の二乗和により前記データ構造に関する類似性の評価値を算出するように構成され、前記誤差のそれぞれは、前記複数の第一の固有値のうちの、対応する順位の第一の固有値と、前記複数の第二の固有値のうちの、前記対応する順位の第二の固有値との差である項目3又は項目4の記載の情報処理システム。
[項目6]
前記第一のグラフラプラシアン行列は、前記複数の第一の要素のそれぞれを、前記第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であり、
前記第二のグラフラプラシアン行列は、前記複数の第二の要素のそれぞれを、前記第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列である項目2~項目5のいずれか一項記載の情報処理システム。
[項目7]
前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記第二の類似度算出部は、前記複数の評価対象のデータセットのそれぞれについて、前記対応する集合における前記複数の要素間の類似度を算出し、
前記第二の固有値算出部は、前記複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、前記対応する集合における前記複数の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出し、
前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく前記比較対象の固有値の一群と、前記第一の固有値の一群との間の比較に基づき、前記第一のデータセットと前記対応する評価対象のデータセットとの間の前記データ構造に関する類似性を評価する
項目2~項目6のいずれか一項記載の情報処理システム。
[項目8]
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
前記第一のデータセットと、前記結合対象に選択された前記第二のデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
を備える項目7記載の情報処理システム。
[項目9]
前記第一のデータセットは、前記複数の第一の要素として、前記第一の集合における複数の人の特徴を記述するデータセットであり、前記第二のデータセットは、前記複数の第二の要素として、前記第二の集合における複数の人の特徴を記述するデータセットである項目1~項目8のいずれか一項記載の情報処理システム。
[項目10]
項目1記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
[項目11]
項目2~項目7のいずれか一項記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、前記第一の類似度算出部、前記第二の類似度算出部、前記第一の固有値算出部、前記第二の固有値算出部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
[項目12]
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。
[項目13]
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出することと、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出することと、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することと、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することと、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。
【符号の説明】
【0134】
1…情報処理システム、11…プロセッサ、13…メモリ、15…ストレージ、17…ユーザインタフェース、19…通信インタフェース、Pr…コンピュータプログラム。
【要約】
【課題】データセット間のデータ構造に関する類似性を評価する。
【解決手段】第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットが取得される(S110)。第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットが取得される(S120)。複数の第一の要素間の類似度に基づく第一の集合の近傍グラフと、複数の第二の要素間の類似度に基づく第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性が評価される(S130-S220)。
【選択図】
図4