IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社博報堂DYホールディングスの特許一覧

特許7557101情報処理システム、コンピュータプログラム、及び情報処理方法
<>
  • 特許-情報処理システム、コンピュータプログラム、及び情報処理方法 図1
  • 特許-情報処理システム、コンピュータプログラム、及び情報処理方法 図2
  • 特許-情報処理システム、コンピュータプログラム、及び情報処理方法 図3
  • 特許-情報処理システム、コンピュータプログラム、及び情報処理方法 図4
  • 特許-情報処理システム、コンピュータプログラム、及び情報処理方法 図5
  • 特許-情報処理システム、コンピュータプログラム、及び情報処理方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-09-17
(45)【発行日】2024-09-26
(54)【発明の名称】情報処理システム、コンピュータプログラム、及び情報処理方法
(51)【国際特許分類】
   G06F 18/25 20230101AFI20240918BHJP
   G06F 16/9032 20190101ALI20240918BHJP
   G06Q 30/06 20230101ALN20240918BHJP
   G06Q 30/0241 20230101ALN20240918BHJP
【FI】
G06F18/25
G06F16/9032
G06Q30/06
G06Q30/0241
【請求項の数】 10
(21)【出願番号】P 2024077148
(22)【出願日】2024-05-10
【審査請求日】2024-05-10
【早期審査対象出願】
(73)【特許権者】
【識別番号】507009009
【氏名又は名称】株式会社博報堂DYホールディングス
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】牛久 雅崇
(72)【発明者】
【氏名】熊谷 雄介
【審査官】福西 章人
(56)【参考文献】
【文献】国際公開第2023/182163(WO,A1)
【文献】国際公開第2019/73959(WO,A1)
【文献】特開2017-97717(JP,A)
【文献】特開2010-211385(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/00-18/40
G06F 16/00-16/958
G06Q 30/06
G06Q 30/0241
(57)【特許請求の範囲】
【請求項1】
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得するように構成される第一取得部と、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得するように構成される第二取得部と、
前記第一のデータセット及び前記第二のデータセットに基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成される対応付け部と、
を備え、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付け部は、前記複数の第一のエンティティ及び前記複数の第二のエンティティに関して、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティに対応付けられる二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の対応付けの正当性を高く評価する方式であって、前記共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の対応付けの正当性を更に高く評価する方式を用いて、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の最適な対応付けを探索するように構成され、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理システム。
【請求項2】
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得するように構成される第一取得部と、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得するように構成される第二取得部と、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成される対応付け部と、
を備え、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付け部は、
前記複数の第一のエンティティと前記複数の第二のエンティティとの間の輸送コストとして、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティの輸送先に対応する二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、小さい輸送コストを設定し、
前記共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の輸送コストを更に小さく設定し、
前記複数の第一のエンティティを前記複数の第二のエンティティに輸送する際の前記輸送コストの総和を低減する、前記複数の第一のエンティティから前記複数の第二のエンティティへの輸送を、前記最適輸送理論に従って探索することによって、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成され、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理システム。
【請求項3】
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得するように構成される第一取得部と、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得するように構成される第二取得部と、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成される対応付け部と、
を備え、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付け部は、
前記複数の第一のエンティティのうちの二つの第一のエンティティi,k間の前記第一の特徴量に関する類似度C(i,k)と、前記複数の第二のエンティティのうちの二つの第二のエンティティj,lであって前記二つの第一のエンティティi,kに対応付けられる前記二つの第二のエンティティj,l間の前記第二の特徴量に関する類似度C(j,l)と、の差L[C(i,k),C(j,l)]と、
前記第一のエンティティi及び前記第二のエンティティjの前記共通変数の値に基づく、前記第一のエンティティiから前記第二のエンティティjへの輸送コストに関する補正量d(i,j)と、
前記第一のエンティティiから前記第二のエンティティjへの輸送量Γi,j及び前記第一のエンティティkから前記第二のエンティティlへの輸送量Γk,lと、
指数p,q及び設計変数αと、
を含む式
【数1】
に従う輸送行列Γに基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成され、
前記第一の特徴量に関する類似度C(i,k)は、前記二つの第一のエンティティi,k間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度C(j,l)は、前記二つの第二のエンティティj,l間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記補正量d(i,j)は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値が一致しないとき前記共通変数の値が一致するときよりも大きい値を示す補正量、又は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値の類似度が基準より低いとき前記共通変数の値の類似度が前記基準より高いときよりも大きい値を示す補正量である
情報処理システム。
【請求項4】
請求項3記載の情報処理システムであって、
前記差L[C(i,k),C(j,l)]は、式
【数2】
に従う値である情報処理システム。
【請求項5】
請求項4記載の情報処理システムであって、
前記対応付け部は、p=1及びq=2である前記式
【数3】
に従う輸送行列Γを算出することにより、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付ける
情報処理システム。
【請求項6】
請求項3記載の情報処理システムであって、
前記補正量d(i,j)は、前記第一のエンティティiと前記第二のエンティティjとの間で前記共通変数の値が一致しないとき値0より大きい正の実数を示し、前記共通変数の値が一致するとき値0を示す
情報処理システム。
【請求項7】
請求項1~請求項6のいずれか一項記載の情報処理システムにおける前記第一取得部、前記第二取得部、及び前記対応付け部としての機能を、コンピュータに実現させるためのコンピュータプログラム。
【請求項8】
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得することと、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得することと、
前記第一のデータセット及び前記第二のデータセットに基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることと、
を含み、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付けることは、前記複数の第一のエンティティ及び前記複数の第二のエンティティに関して、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティに対応付けられる二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の対応付けの正当性を高く評価する方式であって、前記共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の対応付けの正当性を更に高く評価する方式を用いて、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の最適な対応付けを探索することを含み、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理方法。
【請求項9】
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得することと、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得することと、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることと、
を含み、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付けることは、
前記複数の第一のエンティティと前記複数の第二のエンティティとの間の輸送コストとして、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティの輸送先に対応する二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、小さい輸送コストを設定し、
前記共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の輸送コストを更に小さく設定し、
前記複数の第一のエンティティを前記複数の第二のエンティティに輸送する際の前記輸送コストの総和を低減する、前記複数の第一のエンティティから前記複数の第二のエンティティへの輸送を、前記最適輸送理論に従って探索することによって、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けること
を含み、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理方法。
【請求項10】
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得することと、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得することと、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることと、
を含み、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付けることは、
前記複数の第一のエンティティのうちの二つの第一のエンティティi,k間の前記第一の特徴量に関する類似度C(i,k)と、前記複数の第二のエンティティのうちの二つの第二のエンティティj,lであって前記二つの第一のエンティティi,kに対応付けられる前記二つの第二のエンティティj,l間の前記第二の特徴量に関する類似度C(j,l)と、の差L[C(i,k),C(j,l)]と、
前記第一のエンティティi及び前記第二のエンティティjの前記共通変数の値に基づく、前記第一のエンティティiから前記第二のエンティティjへの輸送コストに関する補正量d(i,j)と、
前記第一のエンティティiから前記第二のエンティティjへの輸送量Γi,j及び前記第一のエンティティkから前記第二のエンティティlへの輸送量Γk,lと、
指数p,q及び設計変数αと、
を含む式
【数4】
に従う輸送行列Γに基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることを含み、
前記第一の特徴量に関する類似度C(i,k)は、前記二つの第一のエンティティi,k間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度C(j,l)は、前記二つの第二のエンティティj,l間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記補正量d(i,j)は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値が一致しないとき前記共通変数の値が一致するときよりも大きい値を示す補正量、又は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値の類似度が基準より低いとき前記共通変数の値の類似度が前記基準より高いときよりも大きい値を示す補正量である
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
従来、商品の販売データに基づき顧客の購買行動を分析することが行われている。顧客によるマスメディアやネットワークコンテンツへの接触行動を分析することも行われている。アンケート形式や対面での質問形式により、顧客に関する多様な情報を収集することも行われている。
【0003】
異なる手段で収集した複数のデータを共通変数に基づいて結合するデータフュージョン技術も知られている。特には、複数の第一の顧客に関して、顧客毎の第一の特徴データを備える第一のデータセットと、複数の第二の顧客に関して、顧客毎の第二の特徴データを備える第二のデータセットと、を結合する技術が既に開示されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2016-126609号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来のデータフュージョン技術では、共通変数を用いて近しい顧客を判別するために、結合対象の第一のデータセットと第二のデータセットとの間に、顧客に関する多くの種類の共通変数が必要である。
【0006】
共通変数が第一のデータセットと第二のデータセットとの間に存在していても、共通変数の種類が少ない環境では、共通変数の同一性に基づいて同一性の高い顧客を判別することは難しい。例えば、年齢及び性別等の、多くの顧客が同じ値を示すような共通変数のみを拠り所に、適切なデータフュージョンを行うことは難しい。
【0007】
そこで、本開示の一側面によれば、共通変数の種類が少ない場合でも、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを適切に行うことが可能な技術を提供できることが望ましい。
【課題を解決するための手段】
【0008】
本開示の一側面に係る情報処理システムは、第一取得部と、第二取得部と、対応付け部と、を備える。第一取得部は、複数の第一のエンティティに関する第一のデータセットであって、複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得するように構成される。
【0009】
第二取得部は、複数の第二のエンティティに関する第二のデータセットであって、複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得するように構成される。
【0010】
対応付け部は、第一のデータセット及び第二のデータセットに基づき、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けるように構成される。
【0011】
第一の特徴量及び第二の特徴量は、第一の特徴量と第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含む。
【0012】
対応付け部は、複数の第一のエンティティ及び複数の第二のエンティティに関して、二つの第一のエンティティ間の第一の特徴量に関する類似度と、二つの第一のエンティティに対応付けられる二つの第二のエンティティ間の第二の特徴量に関する類似度との差が小さいほど、複数の第一のエンティティと複数の第二のエンティティとの間の対応付けの正当性を高く評価する方式であって、共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の対応付けの正当性を更に高く評価する方式を用いて、複数の第一のエンティティと複数の第二のエンティティとの間の最適な対応付けを探索する。
【0013】
上記第一の特徴量に関する類似度は、二つの第一のエンティティ間における第一の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。上記第二の特徴量に関する類似度は、二つの第二のエンティティ間における第二の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。
【0014】
この情報処理システムによれば、類似度に関して、複数の第一のエンティティ間の関係と、複数の第二のエンティティ間の関係とが、近くなるように、複数の第一のエンティティと複数の第二のエンティティとの間の対応付けを行うことができる。この情報処理システムによれば更に、共通変数が一致する又は類似する第一のエンティティと第二のエンティティとの対応付けに重みを置くことができる。
【0015】
したがって、複数の第一のエンティティ及び複数の第二のエンティティが、共通変数を有し、特徴空間上で同じような距離構造を有する場合において、この情報処理システムは、共通変数を利用しつつ、かつ、共通変数のみに頼らず、第一のエンティティと第二のエンティティとの対応付けを適切に行うことができる。
【0016】
このため、本開示の一側面に係る情報処理システムによれば、共通変数の種類が少ない場合でも、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを適切に行うことができる。
【0017】
本開示の別側面によれば、情報処理システムは、上述の対応付け部に代えて、次の対応付け部を備えてもよい。すなわち、情報処理システムは、第一のデータセット及び第二のデータセットに基づき、最適輸送理論に従って、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けるように構成される対応付け部を備えていてもよい。
【0018】
対応付け部は、複数の第一のエンティティと複数の第二のエンティティとの間の輸送コストとして、二つの第一のエンティティ間の第一の特徴量に関する類似度と、二つの第一のエンティティの輸送先に対応する二つの第二のエンティティ間の第二の特徴量に関する類似度との差が小さいほど、小さい輸送コストを設定し、共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の輸送コストを更に小さく設定するように構成され得る。
【0019】
対応付け部は、複数の第一のエンティティを複数の第二のエンティティに輸送する際の輸送コストの総和を低減する、複数の第一のエンティティから複数の第二のエンティティへの輸送を、最適輸送理論に従って探索することによって、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けるように構成され得る。
【0020】
こうした探索によっても、第一のエンティティと第二のエンティティとの対応付けを適切に行うことができる。
【0021】
本開示の更なる別側面によれば、情報処理システムは、第一のデータセット及び第二のデータセットに基づき、最適輸送理論に従って、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けるように構成される対応付け部であって、次のように構成される対応付け部を、上述の対応付け部に代えて備えていてもよい。
【0022】
すなわち、対応付け部は、次式に従う輸送行列Γに基づいて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けるように構成されてもよい。
【0023】
【数1】
【0024】
上式に含まれるL[C(i,k),C(j,l)]は、複数の第一のエンティティのうちの二つの第一のエンティティi,k間の第一の特徴量に関する類似度C(i,k)と、複数の第二のエンティティのうちの二つの第二のエンティティj,lであって二つの第一のエンティティi,kに対応付けられる二つの第二のエンティティj,l間の第二の特徴量に関する類似度C(j,l)と、の差L[C(i,k),C(j,l)]である。
【0025】
上式に含まれるd(i,j)は、第一のエンティティi及び第二のエンティティjの共通変数の値に基づく、第一のエンティティiから第二のエンティティjへの輸送コストに関する補正量d(i,j)である。
【0026】
上式に含まれるΓi,j及びΓk,lは、第一のエンティティiから第二のエンティティjへの輸送量Γi,j及び第一のエンティティkから第二のエンティティlへの輸送量Γk,lである。上式に含まれるp,qは、指数p,qである。上式に含まれるαは、設計変数αである。
【0027】
第一の特徴量に関する類似度C(i,k)は、二つの第一のエンティティi,k間における第一の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。
【0028】
第二の特徴量に関する類似度C(j,l)は、二つの第二のエンティティj,l間における第二の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。
【0029】
補正量d(i,j)は、第一のエンティティiと第二のエンティティjとの間の共通変数の値が一致しないとき共通変数の値が一致するときよりも大きい値を示す補正量、又は、第一のエンティティiと第二のエンティティjとの間の共通変数の値の類似度が基準より低いとき共通変数の値の類似度が基準より高いときよりも大きい値を示す補正量である。
【0030】
こうした探索によっても、第一のエンティティと第二のエンティティとの対応付けを適切に行うことができる。
【0031】
本開示の更なる別側面によれば、差L[C(i,k),C(j,l)]は、次式に従う値であってもよい。
【0032】
【数2】
【0033】
対応付け部は、p=1及びq=2である次式に従う輸送行列Γを算出することにより、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けるように構成されてもよい。
【0034】
【数3】
【0035】
補正量d(i,j)は、第一のエンティティiと第二のエンティティjとの間で共通変数の値が一致しないとき値0より大きい正の実数を示し、共通変数の値が一致するとき値0を示すように定められてもよい。
【0036】
本開示の更なる別側面によれば、上述した情報処理システムにおける第一取得部、第二取得部、及び対応付け部としての機能を、コンピュータに実現させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な記録媒体に記録されてもよい。
【0037】
本開示の更なる別側面によれば、上述した情報処理システムに対応する情報処理方法が提供されてもよい。
【0038】
情報処理方法は、複数の第一のエンティティに関する第一のデータセットであって、複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得することを含み得る。
【0039】
情報処理方法は、複数の第二のエンティティに関する第二のデータセットであって、複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得することを含み得る。
【0040】
情報処理方法は、第一のデータセット及び第二のデータセットに基づき、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることを含み得る。
【0041】
第一の特徴量及び第二の特徴量は、第一の特徴量と第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含む特徴量であり得る。
【0042】
対応付けることは、複数の第一のエンティティ及び複数の第二のエンティティに関して、二つの第一のエンティティ間の第一の特徴量に関する類似度と、二つの第一のエンティティに対応付けられる二つの第二のエンティティ間の第二の特徴量に関する類似度との差が小さいほど、複数の第一のエンティティと複数の第二のエンティティとの間の対応付けの正当性を高く評価する方式であって、共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の対応付けの正当性を更に高く評価する方式を用いて、複数の第一のエンティティと複数の第二のエンティティとの間の最適な対応付けを探索することを含み得る。第一の特徴量に関する類似度は、二つの第一のエンティティ間における第一の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。第二の特徴量に関する類似度は、二つの第二のエンティティ間における第二の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。こうした情報処理方法は、上述の情報処理システムと同様の効果を奏し得る。
【0043】
本開示の更なる別側面によれば、対応付けることは、次のように変更されてもよい。すなわち、情報処理方法は、第一のデータセット及び第二のデータセットに基づき、最適輸送理論に従って、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることを含んでいてもよい。
【0044】
対応付けることは、複数の第一のエンティティと複数の第二のエンティティとの間の輸送コストとして、二つの第一のエンティティ間の第一の特徴量に関する類似度と、二つの第一のエンティティの輸送先に対応する二つの第二のエンティティ間の第二の特徴量に関する類似度との差が小さいほど、小さい輸送コストを設定し、共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の輸送コストを更に小さく設定することを含んでいてもよい。
【0045】
対応付けることは、複数の第一のエンティティを複数の第二のエンティティに輸送する際の輸送コストの総和を低減する、複数の第一のエンティティから複数の第二のエンティティへの輸送を、最適輸送理論に従って探索することによって、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることを含んでいてもよい。
【0046】
本開示の更なる別側面によれば、情報処理方法は、第一のデータセット及び第二のデータセットに基づき、最適輸送理論に従って、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることであって、次式に従う輸送行列Γに基づいて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることを含んでいてもよい。
【0047】
【数4】
【0048】
上式に含まれるL[C(i,k),C(j,l)]は、複数の第一のエンティティのうちの二つの第一のエンティティi,k間の第一の特徴量に関する類似度C(i,k)と、複数の第二のエンティティのうちの二つの第二のエンティティj,lであって二つの第一のエンティティi,kに対応付けられる二つの第二のエンティティj,l間の第二の特徴量に関する類似度C(j,l)と、の差L[C(i,k),C(j,l)]である。
【0049】
上式に含まれるd(i,j)は、第一のエンティティi及び第二のエンティティjの共通変数の値に基づく、第一のエンティティiから第二のエンティティjへの輸送コストに関する補正量d(i,j)である。
【0050】
上式に含まれるΓi,j及びΓk,lは、第一のエンティティiから第二のエンティティjへの輸送量Γi,j及び第一のエンティティkから第二のエンティティlへの輸送量Γk,lである。上式は更に、指数p,q及び設計変数αを含む。
【0051】
第一の特徴量に関する類似度C(i,k)は、二つの第一のエンティティi,k間における第一の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。
【0052】
第二の特徴量に関する類似度C(j,l)は、二つの第二のエンティティj,l間における第二の特徴量のうちの少なくとも非共通変数の値の比較に基づく類似度である。
【0053】
補正量d(i,j)は、第一のエンティティiと第二のエンティティjとの間の共通変数の値が一致しないとき共通変数の値が一致するときよりも大きい値を示す補正量、又は、第一のエンティティiと第二のエンティティjとの間の共通変数の値の類似度が基準より低いとき共通変数の値の類似度が基準より高いときよりも大きい値を示す補正量である。
【0054】
こうした情報処理方法は、上述の情報処理システムと同様の効果を奏し得る。本開示の更なる別側面によれば、上述した情報処理方法を、コンピュータに実行させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な記録媒体に記録され得る。
【図面の簡単な説明】
【0055】
図1】情報処理システムの構成を表すブロック図である。
図2図2Aは、第一のデータセットの構成を例示する図であり、図2Bは、第二のデータセットの構成を例示する図である。
図3】プロセッサが実行する分析処理を表すフローチャート(その1)である。
図4】プロセッサが実行する分析処理を表すフローチャート(その2)である。
図5】対応表の構成を例示する図である。
図6】拡張データセットの構成を例示する図である。
【発明を実施するための形態】
【0056】
以下に本開示の例示的実施形態を、図面を参照しながら説明する。
図1に示す本実施形態の情報処理システム1は、汎用コンピュータに専用のコンピュータプログラムPrをインストールすることによって構成される。情報処理システム1は、プロセッサ11と、メモリ13と、ストレージ15と、ユーザインタフェース17と、通信インタフェース19とを備える。
【0057】
プロセッサ11は、ストレージ15に格納されたコンピュータプログラムPrに従う処理を実行する。メモリ13は、RAMを備える一次記憶装置であり、プロセッサ11による処理の実行時に作業エリアとして使用される。
【0058】
ストレージ15は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムPrの他、コンピュータプログラムPrに従う処理の実行時に供される各種データを記憶する。
【0059】
ユーザインタフェース17は、入力デバイスと、ディスプレイとを備える。入力デバイスは、情報処理システム1を操作するユーザからの操作信号をプロセッサ11に入力するために設けられる。ディスプレイは、ユーザに対して各種情報を表示するために設けられる。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。
【0060】
通信インタフェース19は、LAN(ローカルエリアネットワーク)インタフェース及びUSB(ユニバーサル・シリアル・シリアル)インタフェースを含み、外部装置との通信に使用される。情報処理システム1は、通信インタフェース19を通じて外部装置との間でデータ送受する。
【0061】
本実施形態によれば、プロセッサ11は、コンピュータプログラムPrに従う処理の実行により、通信インタフェース19を通じて外部装置から取得した第一のデータセット15Aを、第二のデータセット15Bを用いて拡張した拡張データセット15Cを生成する。
【0062】
第一のデータセット15Aは、複数の第一のエンティティに関するデータセットであって、第一のエンティティのそれぞれの特徴を記述するデータセットである。エンティティは、例えば人である。人は、消費者を含む。人は、個人であり得る。
【0063】
第一のデータセット15Aは、第一の特徴データの集合である。第一の特徴データのそれぞれは、複数の第一のエンティティ(換言すれば第一のエンティティの集合)のうちの対応する一つの第一のエンティティの特徴を、第一の特徴量を用いて記述する。
【0064】
第二のデータセット15Bは、複数の第二のエンティティに関するデータセットであって、第二のエンティティのそれぞれの特徴を記述するデータセットである。第二のデータセット15Bは、第二の特徴データの集合である。
【0065】
第二の特徴データのそれぞれは、複数の第二のエンティティ(換言すれば第二のエンティティの集合)のうちの対応する一つの第二のエンティティの特徴を、第二の特徴量を用いて記述する。
【0066】
第一のエンティティの集合、及び、第二のエンティティの集合は、例えば、互いに共通する母集団の、互いに異なる部分集合である。母集団は、例えば人(又は消費者)の集合である。人(又は消費者)は、個人又はクラスタであり得る。例えば第一のエンティティの集合は、第一の企業の顧客に対応する人の集合であり得る。例えば第二のエンティティの集合は、第一の企業とは異なる第二の企業の顧客に対応する人の集合であり得る。
【0067】
あるいは、第一のエンティティの集合は、第一の行動の収集対象とされる人の集合であり得る。第二のエンティティの集合は、第二の行動の収集対象とされる人の集合であり得る。
【0068】
第一のエンティティの集合及び第二のエンティティの集合は、互いに共通する一以上のエンティティを有し得る。すなわち、第一のエンティティの集合のうちの、一以上の第一のエンティティが、第二のエンティティの集合のうちの、一以上の第二のエンティティと同じエンティティ(例えば同一人物)であり得る。
【0069】
図2Aに示される第一のデータセット15Aは、第一の人の集合に関するデータであり、人毎の購買行動に関する第一の特徴データを備える。第一の人の集合は、第一の個人の集合であると理解されてもよい。
【0070】
第一の特徴データは、対応する人のID及びデモグラフィック属性DMに関連付けて、対応する人による複数の商品P1,P2,P3,…のそれぞれの購買量を記述する。第一の特徴データは、複数の商品P1,P2,P3,…のそれぞれの購買量として、対応する商品を、対応する人が購入したか否かを1又は0の2値で表し得る。
【0071】
第一の特徴データは、デモグラフィック属性DMを説明する値として、対応する人の性別、年齢、及び職業を説明する値を含み得る。ここでいう年齢は、1年刻みの年齢であると理解されてもよいし、複数年刻みの年齢層と理解されてもよい。
【0072】
第一の特徴量は、このデモグラフィック属性DM及び商品P1,P2,P3,…の購買量の組合せに対応する。第一の特徴量は、デモグラフィック属性DM及び商品P1,P2,P3,…の購買量を要素に有する特徴ベクトルに対応する。
【0073】
図2Bに示される第二のデータセット15Bは、第二の人の集合に関するデータであり、人毎のウェブコンテンツの閲覧行動に関する第二の特徴データを備える。第二の人の集合は、第二の個人の集合であると理解されてもよい。
【0074】
第二の特徴データは、対応する人のID及びデモグラフィック属性DMに関連付けて、対応する人による複数のウェブサイトS1,S2,S3,…のそれぞれの閲覧量を記述する。第二の特徴データは、複数のウェブサイトS1,S2,S3,…のそれぞれの閲覧量として、対応するウェブサイトを、対応する人が訪問してウェブコンテンツを閲覧したか否かを1又は0の2値で表し得る。
【0075】
第二の特徴データも第一の特徴データと同様に、デモグラフィック属性DMを説明する値として、対応する人の性別、年齢、及び職業を説明する値を含み得る。第二の特徴量は、このデモグラフィック属性DM及びウェブサイトS1,S2,S3,…の閲覧量の組合せに対応する。
【0076】
第二の特徴量は、デモグラフィック属性DM及びウェブサイトS1,S2,S3,…の閲覧量を要素に有する特徴ベクトルに対応する。第二の特徴量は、第一の特徴量と共通する変数である共通変数としてデモグラフィック属性DMに関する一以上の変数を有する。
【0077】
図2A及び図2Bに例示される、第一の特徴量及び第二の特徴量は、第一の特徴量と第二の特徴量との間で共通する共通変数として、性別、年齢、及び職業を有する。ただし、共通変数は、この例に限定されない。第一の特徴量及び第二の特徴量は、共通変数以外の、互いに共通しない変数である非共通変数を更に含む。
【0078】
図2A及び図2Bに例示される、第一の特徴量の非共通変数は、商品P1,P2,P3,…の購買量であり、第二の特徴量の非共通変数は、ウェブサイトS1,S2,S3,…の閲覧量である。
【0079】
拡張データセット15Cは、第一のデータセット15Aに対して、第二のデータセット15Bが備える情報を付加したデータセットである(図6参照)。第一のデータセット15Aが備える複数の第一のエンティティのそれぞれの特徴データには、第二のデータセット15Bが備える複数の第二のエンティティの特徴データのうちの、対応する一つの第二のエンティティの特徴データが付加される。
【0080】
拡張により、第一のデータセット15Aが記述する各エンティティの情報量は増大する。情報量の増大は、拡張データセット15Cに基づいた人の行動分析や広告配信に有意義に機能する。
【0081】
本実施形態によれば、プロセッサ11は、ユーザインタフェース17を通じて実行指令が入力されると、拡張データセット15Cの生成のために、図3及び図4に示す分析処理を実行する。
【0082】
図3及び図4に示す分析処理を開始すると、プロセッサ11は、データフュージョン対象の第一のデータセット15Aと第二のデータセット15Bと、を取得する(S110,S120)。
【0083】
S110,S120において、プロセッサ11は、ストレージ15に予め格納された第一のデータセット15A及び第二のデータセット15Bを、ストレージ15から読み出すことができる。これにより、プロセッサ11は、第一のデータセット15A及び第二のデータセット15Bを取得することができる。
【0084】
取得すべき第一のデータセット15A及び第二のデータセット15Bは、ユーザから指定され得る。ユーザは、データフュージョン対象の第一のデータセット15A及び第二のデータセット15Bを予め収集してストレージ15に格納することができる。
【0085】
あるいは、プロセッサ11は、通信インタフェース19を用いた通信により、第一の外部装置から第一のデータセット15Aを取得し、第二の外部装置から第二のデータセット15Bを取得することができる。
【0086】
続くS130において、プロセッサ11は、第一のデータセット15Aに基づき、第一のエンティティの集合に関する行列Xを生成する。行列Xは、N1行M1列の行列である。N1は、第一のエンティティの数に対応し、M1は、第一の特徴量の次元数に対応する。
【0087】
第一の特徴量は、M1次元の特徴ベクトルx=[x1,x2,x3,…]である。特徴ベクトルxの要素x1,x2,x3,…は、対応する人のデモグラフィック属性DM及び商品P1,P2,P3,…の購買量を表し得る。特徴ベクトルxは、対応する人の第一の特徴データから特定される。
【0088】
行列Xは、各行に、対応する一つの第一のエンティティの第一の特徴量を記述する。すなわち、行列Xは、i=1,…,N1について、第i行に、複数の第一のエンティティのうちの参照番号iの第一のエンティティの特徴ベクトルx=x(i)を記述する。特徴ベクトルxは、正規化された特徴ベクトルとして行列Xに組み込まれ得る。
【0089】
ここでは、複数の第一のエンティティのそれぞれを区別するために参照番号i=1,…,N1を用いる。以下において、参照番号iの第一のエンティティと表現したときには、行列Xにおいて第i行に第一の特徴量が記述された第一のエンティティであると理解されたい。参照番号kについても同様である。すなわち、参照番号kの第一のエンティティと表現したときには、行列Xにおいて第k行に第一の特徴量が記述された第一のエンティティであると理解されたい。
【0090】
続くS140において、プロセッサ11は、第二のデータセット15Bに基づき、第二のエンティティの集合に関する行列Yを生成する。行列Yは、N2行M2列の行列である。N2は、第二のエンティティの数に対応し、M2は、第二の特徴量の次元数に対応する。
【0091】
第二の特徴量は、M2次元の特徴ベクトルy=[y1,y2,y3,…]である。特徴ベクトルyの要素y1,y2,y3,…は、対応する人のデモグラフィック属性DM及びウェブサイトS1,S2,S3,…の閲覧量を表し得る。特徴ベクトルyは、対応する人の第二の特徴データから特定される。
【0092】
行列Yは、各行に、対応する一つの第二のエンティティの第二の特徴量を記述する。すなわち、行列Yは、j=1,…,N2について、第j行に、複数の第二のエンティティのうちの参照番号jの第二のエンティティの特徴ベクトルy=y(j)を記述する。特徴ベクトルyは、正規化された特徴ベクトルとして行列Yに組み込まれ得る。
【0093】
ここでは、複数の第二のエンティティのそれぞれを区別するために参照番号j=1,…,N2を用いる。以下において、参照番号jの第二のエンティティと表現したときには、行列Yにおいて第j行に第二の特徴量が記述された第二のエンティティであると理解されたい。参照番号l(エル)についても同様である。
【0094】
続くS150において、プロセッサ11は、第一の類似度行列Cを、行列Xに基づいて算出する。第一の類似度行列Cは、N1行N1列の正方行列である。第一の類似度行列Cは、第i行第k列において、参照番号iの第一のエンティティと、参照番号kの第一のエンティティとの間の第一の特徴量に関する類似度C(i,k)を表す。
【0095】
すなわち、第一の類似度行列Cは、第i行第k列において、複数の第一のエンティティのうちの参照番号iの第一のエンティティの第一の特徴量と、参照番号kの第一のエンティティの第一の特徴量と、の間の類似度C(i,k)を表す。類似度C(i,k)は、例えばコサイン類似度であり得る。類似度C(i,k)は、コサイン距離、マンハッタン距離(Lノルム)、又はユークリッド距離(Lノルム)であってもよい。コサイン距離、マンハッタン距離(Lノルム)、又はユークリッド距離(Lノルム)を類似度の指標として採用する場合、類似度が高いことは、距離が短いことに対応し、類似度が低いことは、距離が長いことに対応する。
【0096】
類似度C(i,k)としてコサイン類似度を算出する例によれば、第一の類似度行列Cを、式C=XXに従って算出することができる。上付きTは、転置を意味する。以下の式で使用される上付きTも同様に、転置を意味する。
【0097】
続くS160において、プロセッサ11は、第二の類似度行列Cを、行列Yに基づき算出する。第二の類似度行列Cは、N2行N2列の正方行列である。第二の類似度行列Cは、第j行第l列において、参照番号jの第二のエンティティと、参照番号lの第二のエンティティとの間の第二の特徴量に関する類似度C(j,l)を表す。
【0098】
すなわち、第二の類似度行列Cは、第j行第l列において、複数の第二のエンティティのうちの参照番号jの第二のエンティティの第二の特徴量と、参照番号lの第二のエンティティの第二の特徴量と、の類似度C(j,l)を表す。類似度C(j,l)は、例えばコサイン類似度であり得る。類似度C(j,l)は、類似度C(i,k)と同様に、コサイン距離、マンハッタン距離(Lノルム)、又はユークリッド距離(Lノルム)であってもよい。
【0099】
類似度C(j,l)としてコサイン類似度を算出する例によれば、第二の類似度行列Cを、式C=YYに基づき算出することができる。
【0100】
続くS170において、プロセッサ11は、各要素の値がすべて1/N1であるN1行1列の行列μ=[1/N1,1/N1,…,1/N1]、及び、各要素の値がすべて1/N2であるN2行1列の行列μ=[1/N2,1/N2,…,1/N2]を生成する。
【0101】
続くS180において、プロセッサ11は、補正行列Cを算出する。補正行列Cは、N1行N2列の行列であり、第i行第j列の要素は、補正量d(i,j)として、値0又は値τを示す。τは、値0より大きい正の実数で定められる設計変数である。τは、例えば値1に設定される。
【0102】
参照番号iの第一のエンティティと参照番号jの第二のエンティティとの間で、共通変数であるデモグラフィック属性DMが完全に一致するとき、補正行列Cの第i行第j列の要素は、値d(i,j)=0を示す。
【0103】
参照番号iの第一のエンティティと参照番号jの第二のエンティティとの間で、共通変数であるデモグラフィック属性DMが完全には一致しないとき、補正行列Cの第i行第j列の要素は、値d(i,j)=τを示す。
【0104】
別例として、補正量d(i,j)は、参照番号iの第一のエンティティと参照番号jの第二のエンティティとの間における共通変数の一致度が低いほど、大きい値を示すように設計されてもよい。
【0105】
続くS190において、プロセッサ11は、次式(1)に従う行列Cを算出する。次式(1)に含まれる演算子〇は、アダマール積を意味する。
【0106】
【数5】
【0107】
上式(1)において、1N2 は、全要素が値1の1行N2列の行列であり、1N1は、全要素が値1のN1行1列の行列である。
【0108】
続くS200において、プロセッサ11は、N1行N2列の輸送行列Γを初期化する。続くS210において、プロセッサ11は、次式(2)にしたがって、行列CΓを更新する。
【0109】
【数6】
【0110】
続くS220において、プロセッサ11は、SINKHORN_KNOPP関数を含む次式(3)にしたがって、輸送行列Γを更新する。SINKHORN_KNOPP関数への入力変数εは、正則化パラメータであり、正値実数であり、定数である。
【0111】
【数7】
【0112】
SINKHORN_KNOPP関数は、最適輸送距離の良い近似として知られるSinkhorn距離を、Sinkhorn-knoppアルゴリズムに従って計算し、Sinkhorn距離に対応する輸送行列Γを出力する関数であると理解されてよい。Sinkhorn距離を算出する過程で、対応する輸送行列Γが得られる。S220の処理は、輸送コストがCΓで定義されるときに、輸送コストの総和を低減する輸送行列Γを算出することに対応する。
【0113】
プロセッサ11は、S210,S220の処理を、S230において輸送行列Γが収束したと判断するまで繰り返し実行する。ここでは、収束した輸送行列Γを、輸送行列Γと表現する。輸送行列Γは、輸送コストの総和を最小化する最適輸送行列に対応する。ここでいう最適輸送行列は、輸送コストの総和を近似的に最小化する輸送行列を含むものと広義に解釈されたい。この輸送行列は、局所解であってもよい。すなわち、最適輸送行列は、輸送コストの総和を極小化する輸送行列であってもよい。
【0114】
プロセッサ11は、輸送行列Γが収束したと判断すると(S230でYes)、S240に移行し、上記収束した輸送行列Γに従って、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付ける。
【0115】
輸送行列Γにおける第i行第j列の要素は、参照番号iの第一のエンティティから参照番号jの第二のエンティティへの輸送量を表す。この輸送量は、参照番号iの第一のエンティティを参照番号jの第二のエンティティに対応付けることに対する正当性の高さを表す。すなわち、輸送行列Γにおける第i行第j列の要素の値は、参照番号iの第一のエンティティを参照番号jの第二のエンティティに対応付けることに対する正当性の高さを評価した値に対応する。ここでいう正当性の高さは、「対応度合いの強さ」であると理解されてもよい。
【0116】
したがって、プロセッサ11は、輸送行列Γに従って、例えば次の手法で、複数の第一のエンティティのそれぞれを、第二のエンティティの少なくとも一つに対応付けることができる。
【0117】
(手法1)輸送行列Γの第i行において、値が最大の要素を探索する。値が最大の要素が第c列である場合には、第一のエンティティの集合のうちの参照番号iの第一のエンティティを、第二のエンティティの集合のうちの参照番号cの第二のエンティティに対応付ける。これを全ての行について行う。
【0118】
ただし、上記手法1では、第二のエンティティの一つに、複数の第一のエンティティが対応付けられる可能性がある。この可能性を抑制するために、近傍検索が行われてもよい。
【0119】
(手法2)厳密な一対一の対応付けを行うために、輸送行列Γを入力とした最適割当問題を解くことにより、複数の第一のエンティティのそれぞれを、重複しない第二のエンティティの一つに対応付ける。
【0120】
S240において、プロセッサ11は、第一のエンティティと第二のエンティティとの間の対応関係を説明するテーブルとして、図5に示す対応表を出力することができる。すなわち、第一のエンティティのそれぞれのIDに関連付けて、対応する第二のエンティティのIDを記述する対応表を出力して、ストレージ15に記憶することができる。
【0121】
続くS250において、プロセッサ11は、データフュージョン処理を実行する。データフュージョン処理において、プロセッサ11は、上記対応付けの結果、又は上記対応表に基づいて、第一のデータセット15Aと、第二のデータセット15Bとを結合して、拡張データセット15Cを生成する。
【0122】
拡張データセット15Cは、複数の拡張データを備える。図6に示すように、複数の拡張データのそれぞれは、対応する一つの第一の特徴データと第二の特徴データとの結合データである。
【0123】
すなわち、プロセッサ11は、対応表に基づき、第一のデータセット15Aに含まれる複数の第一の特徴データのそれぞれに、第二のデータセット15Bに含まれる複数の第二の特徴データのうちの一つを結合することによって、拡張データセット15Cを生成する。
【0124】
プロセッサ11は、対応表によって、参照番号iの第一のエンティティと、参照番号jの第二のエンティティとが対応付けられているとき、参照番号iの第一のエンティティの特徴を説明する第一の特徴データと、参照番号jの第二のエンティティの特徴を説明する第二の特徴データとを結合して、上記参照番号iの第一のエンティティの拡張データを生成することができる。
【0125】
このようにして生成された拡張データセット15Cは、ストレージ15に格納される。ストレージ15に格納された拡張データセット15Cは、例えばユーザインタフェース17を通じて入力されるユーザからの指令に基づき、通信インタフェース19を通じて別のシステムに転送される。
【0126】
別のシステムは、例えば広告配信システムであり得る。広告配信システムは、拡張データセット15Cに基づき、広告配信先のエンティティを判別し、当該エンティティに広告を配信することができる。S250において、データフュージョン処理を終了すると、プロセッサ11は、図3及び図4に示す分析処理を終了する。
【0127】
以上に説明した分析処理における対応付けは、Gromov-Wasserstein距離を用いて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティのうちの一つに対応付けることに対応する。
【0128】
Gromov-Wasserstein距離を用いた対応付けによれば、第一のエンティティ間の距離構造と、第二のエンティティ間の距離構造と、が適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティのうちの一つに対応付けることができる。ここでいう距離は、特徴空間上の距離、すなわち、エンティティ間の類似度に対応する。
【0129】
すなわち、この対応付けによれば、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることができる。
【0130】
この対応付けは、第一の特徴空間における複数の第一のエンティティの分布が、第二の特徴空間における複数の第二のエンティティの分布に適合するように、第一の特徴空間上の複数の第一のエンティティを第二の特徴空間にマッピングするための写像として、輸送行列Γを探索する動作を含むと言える。
【0131】
本実施形態によれば、更に、共通変数を指標とした第一のエンティティと第二のエンティティとの間の同一性に基づく補正量d(i,j)を用いるため、上記距離構造を考慮しつつも、共通変数を有意義に活用して、複数の第一のエンティティと複数の第二のエンティティとの間の適切な対応付けを行うことができる。
【0132】
上述した分析処理における輸送行列Γの算出は、一般化すると、次式(4)にしたがって、輸送行列Γを算出することに対応する。次式は、Fused Gromov-Wasserstein距離に対応する輸送行列Γを算出する式である。
【0133】
【数8】
【0134】
すなわち、輸送行列Γを算出することは、次式(5)の値を最小化する輸送行列Γを算出することに対応する。上式(4)及び次式(5)において、Γi,jは、輸送行列Γの第i行第j列の要素に対応し、参照番号iの第一のエンティティから参照番号jの第二のエンティティへの輸送量に対応する。Γk,lは、輸送行列Γの第k行第l列の要素に対応し、参照番号kの第一のエンティティから参照番号lの第二のエンティティへの輸送量に対応する。
【0135】
【数9】
【0136】
i,kは、1≦i,k≦N1を満足する自然数であり、j,lは、1≦j,l≦N2を満足する自然数である。輸送行列Γ,Γは、各要素が非負の実数であるN1行N2列の行列である。輸送行列Γは、第i行第j列の要素Γi,jが次の条件を満足する範囲内で探索される。
【0137】
【数10】
【0138】
上式(4)及び式(5)におけるC(i,k)は、上述した第一の類似度行列Cの第i行第k列の要素に対応する。すなわち、C(i,k)は、複数の第一のエンティティのうちの二つの第一のエンティティi,kである、参照番号iの第一のエンティティと参照番号kの第一のエンティティとの間の第一の特徴量に関する類似度C(i,k)を表す。
【0139】
(j,l)は、上述した第二の類似度行列Cの第j行第l列の要素に対応する。すなわち、C(j,l)は、複数の第二のエンティティのうちの二つの第二のエンティティj,lであって、二つの第一のエンティティi,kに対応付けられる二つの第二のエンティティj,lである、参照番号jの第二のエンティティと、参照番号lの第二のエンティティとの間の第二の特徴量に関する類似度C(j,l)を表す。
【0140】
L[C(i,k),C(j,l)]は、類似度C(i,k)と類似度C(j,l)との間の距離、換言すれば、類似度C(i,k)と類似度C(j,l)との間の差の評価値に対応する。αは、設計変数である。αは、ゼロより大きい任意の実数に設定される(α>0)。
【0141】
d(i,j)は、上述した補正行列Cにおける第i行第j列の要素の補正量d(i,j)に対応する。上述した通り、d(i,j)は、参照番号iの第一のエンティティと参照番号jの第二のエンティティとの間における共通変数の一致度に応じた値を示す。
【0142】
d(i,j)は、参照番号iの第一のエンティティと参照番号jの第二のエンティティとの間の共通変数の値が一致しないとき共通変数の値が一致するときよりも大きい値を示す、参照番号iの第一のエンティティから参照番号jの第二のエンティティへの輸送コストに関する補正量である。例えば共通変数の値が一致するとき、d(i,j)は、値ゼロであり、共通変数の値が一致するとき、値ゼロより大きい正の実数τである。
【0143】
上式(4)及び式(5)におけるp,qは指数である。p,qは、いずれもゼロより大きい正の実数の範囲で任意に定められる(p,q>0)。
【0144】
式(5)を最小化する輸送行列Γを算出することは、類似度C(i,k)と類似度C(j,l)との差が小さいほど、複数の第一のエンティティと複数の第二のエンティティとの間の対応付けの正当性を高く評価する方式で、輸送行列Γを探索することに対応する。
【0145】
換言すれば、式(5)を最小化する輸送行列Γを算出することは、類似度C(i,k)と類似度C(j,l)との差が小さいほど、小さい輸送コストを設定して、輸送コストの総和を最小化する輸送行列Γを探索することに対応する。
【0146】
式(5)を最小化する輸送行列Γを算出することは、補正量d(i,j)を用いて、共通変数の値が一致する第一のエンティティと第二のエンティティとの間の対応付けの正当性を更に高く評価する方式で、輸送行列Γを探索することに対応する。
【0147】
換言すれば、式(5)を最小化する輸送行列Γを算出することは、共通変数の値が一致する第一のエンティティと第二のエンティティとの間の輸送コストを更に小さく設定して、輸送コストの総和を最小化する輸送行列Γを探索することに対応する。輸送行列Γを探索することは、複数の第一のエンティティと複数の第二のエンティティとの間の最適な対応付けを探索することに対応する。
【0148】
分析処理における輸送行列Γの算出(S210~S230)は、具体的には、L[C(i,k),C(j,l)]を次式に従って設定したときの、上式(4)の近似解を算出することに対応する。
【0149】
【数11】
【0150】
分析処理における輸送行列Γの算出(S210~S230)は、特に、p=1に設定し、q=2に設定し、L[C(i,k),C(j,l)]を上式(8)に従って設定したときの、上式(4)の近似解を算出することに対応する。上述した分析処理における輸送行列Γの算出は、次式(9)の近似解を算出することに対応する。
【0151】
【数12】
【0152】
本実施形態では、Gromov-Wasserstein距離に基づく最適輸送問題に対し、共通変数の不一致に応じた補正量d(i,j)=τを導入することにより、共通変数が一致する第一のエンティティと第二のエンティティとの間の輸送コストを小さく設定し、共通変数が一致しない第一のエンティティと第二のエンティティとの間の輸送コストを大きく設定する。
【0153】
これにより、本実施形態では、単にGromov-Wasserstein距離を用いて対応付けを行う場合よりも、共通変数を有効活用して、高精度な対応付けを行うことができる。また、共通変数がない場合よりも、高精度な対応付けを行うことができる。
【0154】
本実施形態では、互い対応付ける第一のエンティティの集合と、第二のエンティティの集合とが、相互に一致する、類似する、又は、関係する距離構造を有すると仮定して、Gromov-Wasserstein距離に基づく最適輸送問題を解くことにより、共通変数の種類が少ない環境でも、高精度な対応付けを実現できるようにした。
【0155】
このような仮定は、第一のエンティティの集合と、第二のエンティティの集合とが、同じ母集団からの部分集合であるとき、およそ満足される。したがって、第一のエンティティ及び第二のエンティティが人であるとき、すなわち、第一のデータセット15A及び第二のデータセット15Bとして、人に関する特徴を表すデータセットが取り扱われるとき、本実施形態の技術は、有意義に機能する。
【0156】
特に人の行動は、デモグラフィック属性に応じた傾向を示すことが多い。したがって、第一のデータセット15A及び第二のデータセット15Bが、デモグラフィック属性の分布が互いに類似すると推定される集団からの収集データに基づいたデータセットであるとき、エンティティ間の適切な対応付けを実現可能である。
【0157】
以上に、本開示の例示的実施形態を説明したが、本開示は、上記実施形態に限定されるものではなく、種々の態様を採ることができる。
【0158】
上述した例によれば、行列Xの第i行には、参照番号iの第一のエンティティの特徴量として、共通変数及び非共通変数の値が記述される。しかしながら、行列Xの第i行には、参照番号iの第一のエンティティの第一の特徴量のうち、非共通変数の値のみが記述されてもよい。
【0159】
すなわち、共通変数に関する情報は行列Xに含まれなくてもよい。第一の類似度行列Cにおける第i行第k列の類似度C(i,k)は、第一の特徴量に関する類似度であって、二つの第一のエンティティi,k間における非共通変数の値の類似度を示すものであってもよい。すなわち、類似度C(i,k)は、二つの第一のエンティティi,k間の非共通変数の値の比較に基づく類似度であってもよい。この類似度は、非共通変数の値の比較に基づくコサイン類似度、コサイン距離、マンハッタン距離、又はユークリッド距離であり得る。
【0160】
同様に、共通変数に関する情報は行列Yに含まれなくてもよい。第二の類似度行列Cにおける第j行l列の類似度C(j,l)は、第二の特徴量に関する類似度であって、二つの第二のエンティティj,l間における非共通変数の値の類似度を示すものであってもよい。すなわち、類似度C(j,l)は、類似度C(i,k)と同様、二つの第二のエンティティj,l間の非共通変数の値の比較に基づく類似度であってもよい。
【0161】
第一のエンティティの集合及び第二のエンティティの集合は、共通するエンティティを有さなくてもよい。この他、補正量d(i,j)は、二つのエンティティの間において、共通変数の値の類似度が低いほど、大きい値を示す関数で定義されてもよい。補正量d(i,j)は、二つのエンティティの間において、共通変数の値の類似度が基準値より低いとき、類似度が、基準値より高いときよりも大きい値を示す補正量であってもよい。補正量d(i,j)は、非負の値として定義され得る。
【0162】
補正量d(i,j)は、非共通変数に関する特徴空間上における参照番号iのエンティティと、参照番号jのエンティティとの間の距離が長いほど、大きな値を採る距離関数で定義されてもよい。距離は、コサイン距離であってもよいし、ユークリッド距離やマンハッタン距離であってもよい。
【0163】
上述した例によれば、第一のデータセット15Aは、第一の集団に属する複数の人のそれぞれの購買行動に関する特徴を記述するデータセットであり、第二のデータセット15Bは、第二の集団に属する複数の人のそれぞれのウェブサイト訪問行動及び/又はウェブコンテンツ閲覧行動に関する特徴を記述するデータセットである。
【0164】
別例によれば、第一のデータセット15A及び第二のデータセット15Bの一方には、テレビ視聴行動などの人のメディア接触行動に関する特徴を記述するデータセットが用いられてもよい。第一のデータセット15A及び第二のデータセット15Bの一方には、スマートフォン等の携帯端末の使用状況に関する特徴を記述するデータセットが用いられてもよい。
【0165】
第一のデータセット15A及び第二のデータセット15Bの一方には、オフライン空間(すなわち現実空間)における人の移動に関する特徴を記述するデータセットが用いられてもよい。データセットは、オフライン空間における人の移動に関する特徴として、例えば複数の場所への訪問、移動経路、及び/又は、移動手段に関する特徴を記述し得る。
【0166】
第一のデータセット15A及び第二のデータセット15Bの一方には、オンライン空間における人の移動に関する特徴を記述するデータセットが用いられてもよい。データセットは、オンライン空間における人の移動に関する特徴として、仮想現実(VR)空間における人の移動やネットサ―フィンに関する特徴を記述し得る。第一のデータセット15A及び第二のデータセット15Bの一方には、アンケートにより収集されたデータに基づくデータセットが使用されてもよい。
【0167】
第一のデータセット15Aと第二のデータセット15Bとの組合せとして、アンケートにより収集されたデータセットと、テレビ視聴行動に関するデータセットとの組合せ、又は、移動履歴に関するデータセットと、購買に関するデータセットとの組合せが採用されてもよい。
【0168】
以上には、指数p=1及び指数q=2であるFused Gromov-Wasserstein距離を用いて、輸送行列Γを算出する例を説明したが、指数p,qの値は、これに限定されない。C(i,k)とC(j,l)との間の距離L[C(i,k),C(j,l)]は、|C(i,k)-C(j,l)|に限定されない。距離L[C(i,k),C(j,l)]は、|C(i,k)-C(j,l)|以外の距離関数で定義されてもよい。
【0169】
S130,S140において、第一の特徴量に対応する特徴ベクトルx及び第二の特徴量に対応する特徴ベクトルyは、次元削減処理により、低次元化されてもよい。すなわち、特徴ベクトルxを低次元化した特徴ベクトルを用いて、行列Xは定義されてもよい。同様に、特徴ベクトルyを低次元化した特徴ベクトルを用いて、行列Yは定義されてもよい。
【0170】
上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
【0171】
[本明細書が開示する技術思想]
本明細書には、次の技術思想が開示されていると理解することができる。
[項目1]
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得するように構成される第一取得部と、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得するように構成される第二取得部と、
前記第一のデータセット及び前記第二のデータセットに基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成される対応付け部と、
を備え、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付け部は、前記複数の第一のエンティティ及び前記複数の第二のエンティティに関して、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティに対応付けられる二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の対応付けの正当性を高く評価する方式であって、前記共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の対応付けの正当性を更に高く評価する方式を用いて、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の最適な対応付けを探索するように構成され、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理システム。
[項目2]
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得するように構成される第一取得部と、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得するように構成される第二取得部と、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成される対応付け部と、
を備え、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付け部は、
前記複数の第一のエンティティと前記複数の第二のエンティティとの間の輸送コストとして、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティの輸送先に対応する二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、小さい輸送コストを設定し、
前記共通変数の値が一致する第一のエンティティと第二のエンティティとの間の輸送コストを更に小さく設定し、
前記複数の第一のエンティティを前記複数の第二のエンティティに輸送する際の前記輸送コストの総和を低減する、前記複数の第一のエンティティから前記複数の第二のエンティティへの輸送を、前記最適輸送理論に従って探索することによって、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成され、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理システム。
[項目3]
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得するように構成される第一取得部と、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得するように構成される第二取得部と、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成される対応付け部と、
を備え、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付け部は、
前記複数の第一のエンティティのうちの二つの第一のエンティティi,k間の前記第一の特徴量に関する類似度C(i,k)と、前記複数の第二のエンティティのうちの二つの第二のエンティティj,lであって前記二つの第一のエンティティi,kに対応付けられる前記二つの第二のエンティティj,l間の前記第二の特徴量に関する類似度C(j,l)と、の差L[C(i,k),C(j,l)]と、
前記第一のエンティティi及び前記第二のエンティティjの前記共通変数の値に基づく、前記第一のエンティティiから前記第二のエンティティjへの輸送コストに関する補正量d(i,j)と、
前記第一のエンティティiから前記第二のエンティティjへの輸送量Γi,j及び前記第一のエンティティkから前記第二のエンティティlへの輸送量Γk,lと、
指数p,q及び設計変数αと、
を含む式
【数13】
に従う輸送行列Γに基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けるように構成され、
前記第一の特徴量に関する類似度C(i,k)は、前記二つの第一のエンティティi,k間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度C(j,l)は、前記二つの第二のエンティティj,l間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記補正量d(i,j)は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値が一致しないとき前記共通変数の値が一致するときよりも大きい値を示す補正量、又は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値の類似度が基準より低いとき前記共通変数の値の類似度が前記基準より高いときよりも大きい値を示す補正量である
情報処理システム。
[項目4]
項目3記載の情報処理システムであって、
前記差L[C(i,k),C(j,l)]は、式
【数14】
に従う値である情報処理システム。
[項目5]
項目4記載の情報処理システムであって、
前記対応付け部は、p=1及びq=2である前記式
【数15】
に従う輸送行列Γを算出することにより、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付ける
情報処理システム。
[項目6]
項目3~項目5のいずれか一項記載の情報処理システムであって、
前記補正量d(i,j)は、前記第一のエンティティiと前記第二のエンティティjとの間で前記共通変数の値が一致しないとき値0より大きい正の実数を示し、前記共通変数の値が一致するとき値0を示す
情報処理システム。
[項目7]
項目1~項目6のいずれか一項記載の情報処理システムにおける前記第一取得部、前記第二取得部、及び前記対応付け部としての機能を、コンピュータに実現させるためのコンピュータプログラム。
[項目8]
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得することと、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得することと、
前記第一のデータセット及び前記第二のデータセットに基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることと、
を含み、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付けることは、前記複数の第一のエンティティ及び前記複数の第二のエンティティに関して、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティに対応付けられる二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の対応付けの正当性を高く評価する方式であって、前記共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の対応付けの正当性を更に高く評価する方式を用いて、前記複数の第一のエンティティと前記複数の第二のエンティティとの間の最適な対応付けを探索することを含み、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理方法。
[項目9]
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得することと、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得することと、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることと、
を含み、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付けることは、
前記複数の第一のエンティティと前記複数の第二のエンティティとの間の輸送コストとして、二つの第一のエンティティ間の前記第一の特徴量に関する類似度と、前記二つの第一のエンティティの輸送先に対応する二つの第二のエンティティ間の前記第二の特徴量に関する類似度との差が小さいほど、小さい輸送コストを設定し、
前記共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の輸送コストを更に小さく設定し、
前記複数の第一のエンティティを前記複数の第二のエンティティに輸送する際の前記輸送コストの総和を低減する、前記複数の第一のエンティティから前記複数の第二のエンティティへの輸送を探索することによって、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けること
を含み、
前記第一の特徴量に関する類似度は、前記二つの第一のエンティティ間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度は、前記二つの第二のエンティティ間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度である
情報処理方法。
[項目10]
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセットを取得することと、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットを取得することと、
前記第一のデータセット及び前記第二のデータセットに基づき、最適輸送理論に従って、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることと、
を含み、
前記第一の特徴量及び前記第二の特徴量は、前記第一の特徴量と前記第二の特徴量との間で共通する変数である共通変数と、共通しない変数である非共通変数と、を含み、
前記対応付けることは、
前記複数の第一のエンティティのうちの二つの第一のエンティティi,k間の前記第一の特徴量に関する類似度C(i,k)と、前記複数の第二のエンティティのうちの二つの第二のエンティティj,lであって前記二つの第一のエンティティi,kに対応付けられる前記二つの第二のエンティティj,l間の前記第二の特徴量に関する類似度C(j,l)と、の差L[C(i,k),C(j,l)]と、
前記第一のエンティティi及び前記第二のエンティティjの前記共通変数の値に基づく、前記第一のエンティティiから前記第二のエンティティjへの輸送コストに関する補正量d(i,j)と、
前記第一のエンティティiから前記第二のエンティティjへの輸送量Γi,j及び前記第一のエンティティkから前記第二のエンティティlへの輸送量Γk,lと、
指数p,q及び設計変数αと、
を含む式
【数16】
に従う輸送行列Γに基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けることを含み、
前記第一の特徴量に関する類似度C(i,k)は、前記二つの第一のエンティティi,k間における前記第一の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記第二の特徴量に関する類似度C(j,l)は、前記二つの第二のエンティティj,l間における前記第二の特徴量のうちの少なくとも前記非共通変数の値の比較に基づく類似度であり、
前記補正量d(i,j)は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値が一致しないとき前記共通変数の値が一致するときよりも大きい値を示す補正量、又は、前記第一のエンティティiと前記第二のエンティティjとの間の前記共通変数の値の類似度が基準より低いとき前記共通変数の値の類似度が前記基準より高いときよりも大きい値を示す補正量である
情報処理方法。
【符号の説明】
【0172】
1…情報処理システム、11…プロセッサ、13…メモリ、15…ストレージ、15A…第一のデータセット、15B…第二のデータセット、15C…拡張データセット、17…ユーザインタフェース、19…通信インタフェース、Pr…コンピュータプログラム。
【要約】
【課題】エンティティ間の対応付けを適切に実行可能な技術を提供する。
【解決手段】複数の第一のエンティティのそれぞれの特徴を第一の特徴量を用いて記述する第一のデータセット、及び、複数の第二のエンティティのそれぞれの特徴を第二の特徴量を用いて記述する第二のデータセットが取得される。これらのデータセットに基づき、複数の第一のエンティティのそれぞれが、複数の第二のエンティティの一つに対応付けられる。最適な対応付けのために、二つの第一のエンティティ間の第一の特徴量に関する類似度と、二つの第一のエンティティに対応付けられる二つの第二のエンティティ間の第二の特徴量に関する類似度との差が小さいほど、複数の第一のエンティティと複数の第二のエンティティとの間の対応付けの正当性が高く評価される。共通変数の値が一致する又は類似する第一のエンティティと第二のエンティティとの間の対応付けの正当性が高く評価される。
【選択図】図1
図1
図2
図3
図4
図5
図6