(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-19
(45)【発行日】2024-08-27
(54)【発明の名称】情報処理方法、プログラム、記憶媒体および情報処理装置
(51)【国際特許分類】
G06Q 10/04 20230101AFI20240820BHJP
【FI】
G06Q10/04
(21)【出願番号】P 2024520737
(86)(22)【出願日】2023-11-01
(86)【国際出願番号】 JP2023039412
【審査請求日】2024-04-04
(31)【優先権主張番号】P 2022177646
(32)【優先日】2022-11-04
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】316016852
【氏名又は名称】株式会社マクロミル
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】西村 広之
(72)【発明者】
【氏名】安野 将央
(72)【発明者】
【氏名】池田 孝恒
(72)【発明者】
【氏名】西尾 洋平
(72)【発明者】
【氏名】北村 和良
(72)【発明者】
【氏名】井上 賢
【審査官】山崎 誠也
(56)【参考文献】
【文献】特開2018-156299(JP,A)
【文献】特開2016-038780(JP,A)
【文献】国際公開第2019/142597(WO,A1)
【文献】膨大な消費者バネルデータから、シングルソースデータを高速生成する独自ツールを開発。多面的な分析を実現,[online],2021年11月24日,p.1-3,[検索日 2023.11.14], インターネット<URL:https://prtimes.jp/main/html/rd/p/000000590.000000624.html>
【文献】美原 義行,自治体を軸とした業界横断型データ流通プラットフォームの開発,情報処理学会 論文誌 コンシューマ・デバイス&システム,情報処理学会,2020年03月03日,Vol. 10 No.1,p.15-25
【文献】星野 崇宏,学習科学研究の妥当性向上へ向けた統計解析法と複数データの統合手法について,教育システム情報学会誌,教育システム情報学会,2007年07月01日,Vol.24 No.3,p.216-224
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
情報処理装置が、ユーザに関する複数の変数を有する第1のデータソースを取得する取得ステップであって、前記複数の変数には前記ユーザの属性情報に関する変数が含まれる、取得ステップと、
前記情報処理装置が、前記第1のデータソースに含まれる前記複数の変数から説明変数および目的変数を選択する選択ステップであって、前記説明変数には、前記属性情報に関する変数と、少なくとも1つの前記属性情報とは異なる変数が含まれており、前記目的変数は複数選択される、選択ステップと、
前記情報処理装置が、前記第1のデータソースを教師データとして、選択された前記説明変数から前記複数の目的変数を予測する予測モデルを作成する、作成ステップと、
前記情報処理装置が、前記予測モデルを、選択された前記説明変数を変数として含む第2のデータソースに適用して、疑似シングルソースデータを生成する、生成ステップと、を有することを特徴とする情報処理方法。
【請求項2】
前記疑似シングルソースデータは、同一の前記ユーザに関する複数の変数を有するシングルソースデータを擬似的に生成したものである
ことを特徴とする請求項1に記載の情報処理方法。
【請求項3】
前記生成ステップにおいては、
前記情報処理装置が、前記ユーザの個人識別子を含まない前記第2のデータソースを用いて前記疑似シングルソースデータを生成する
ことを特徴とする請求項1または2に記載の情報処理方法。
【請求項4】
前記作成ステップにおいては、
前記情報処理装置が、選択された複数の前記説明変数と、選択された複数の前記目的変数と、の間の関係性を示す情報を利用して、前記予測モデルを作成し、
前記生成ステップにおいては、
前記情報処理装置が、前記予測モデルを前記第2のデータソースに適用して、前記疑似シングルソースデータを生成する
ことを特徴とする請求項1または2に記載の情報処理方法。
【請求項5】
前記作成ステップにおいては、
前記情報処理装置が、選択された複数の前記説明変数と、選択された複数の前記目的変数と、の間の分散共分散構造を利用して、前記予測モデルを作成し、
前記生成ステップにおいては、
前記情報処理装置が、前記予測モデルを前記第2のデータソースに適用して、前記第1のデータソースの分散共分散構造に類似する分散共分散構造を持つ疑似シングルソースデータを生成する
ことを特徴とする請求項4に記載の情報処理方法。
【請求項6】
前記作成ステップにおいては、
前記情報処理装置が、選択された複数の前記変数の、平均値、歪度、および尖度のうち少なくとも1つをさらに用いて、前記予測モデルを作成する
ことを特徴とする請求項5に記載の情報処理方法。
【請求項7】
前記作成ステップにおいては、
前記情報処理装置が、前記選択ステップで前記第1のデータソースから選択された複数の前記変数のうち少なくとも1つの変数に対してノイズを付加したのち、前記予測モデルを作成する
ことを特徴とする請求項1または2に記載の情報処理方法。
【請求項8】
前記作成ステップにおいては、
前記情報処理装置が、ラプラスメカニズム、ガウシアンメカニズム、または指数メカニズムのいずれかを用いて、前記ノイズを付加する
ことを特徴とする請求項7に記載の情報処理方法。
【請求項9】
前記作成ステップにおいては、
前記情報処理装置が、前記ユーザに対して差分プライバシーの機能を提供するように、前記第1のデータソースに含まれる前記変数に対して前記ノイズを付加する
ことを特徴とする請求項7に記載の情報処理方法。
【請求項10】
情報処理装置が、ユーザに関する複数の変数を有する第1のデータソースを取得する取得ステップであって、前記複数の変数には前記ユーザの属性情報に関する変数が含まれる、取得ステップと、
前記情報処理装置が、前記第1のデータソースに含まれる前記複数の変数から説明変数および目的変数を選択する選択ステップであって、前記説明変数には、前記属性情報に関する変数と、少なくとも1つの前記属性情報以外の変数とが含まれており、前記目的変数は複数選択される、選択ステップと、
前記情報処理装置が、前記第1のデータソースを元に、選択された前記複数の説明変数と前記複数の目的変数を含むデータの分散共分散行列を計算する、計算ステップと、
前記情報処理装置が、前記第1のデータソースとは異なる第2のデータソースであって、変数として、前記第1のデータソースで選択された前記複数の説明変数を含む第2のデータソースを取得する、第2の取得ステップと、
前記情報処理装置が、前記第2のデータソースに最適化計算を適用して前記複数の目的変数の値を生成し、生成された前記複数の目的変数の値を含む疑似シングルソースデータを生成する、生成ステップと、
を有することを特徴とする情報処理方法。
【請求項11】
前記生成ステップにおいては、
前記情報処理装置が、前記計算ステップで計算された前記分散共分散行列と、前記複数の変数の平均値が再現されるように、式(1)および式(2)を用いて最適化計算を行うものであり、
式(3)および式(4)に示す勾配法を用いて前記最適化計算を行う
ことを特徴とする請求項10に記載の情報処理方法。
【数1】
【数2】
【数3】
【数4】
【請求項12】
情報処理装置が、オブジェクトに関する複数の変数を有する第1のデータソースを取得する取得ステップであって、前記複数の変数には前記オブジェクトの属性情報に関する変数が含まれる、取得ステップと、
前記情報処理装置が、前記第1のデータソースに含まれる前記複数の変数から説明変数および目的変数を選択する選択ステップであって、前記説明変数には、前記属性情報に関する変数と、少なくとも1つの前記属性情報とは異なる変数が含まれており、前記目的変数は複数選択される、選択ステップと、
前記情報処理装置が、前記第1のデータソースを教師データとして、選択された前記説明変数から前記複数の目的変数を予測する予測モデルを作成する、作成ステップと、
前記情報処理装置が、前記予測モデルを、選択された前記説明変数を変数として含む第2のデータソースに適用して、疑似シングルソースデータを生成する、生成ステップと、を有することを特徴とする情報処理方法。
【請求項13】
請求項1、2、10、11および12のいずれか1項に記載の情報処理方法を情報処理装置に実行させるプログラム。
【請求項14】
請求項1、2、10、11および12のいずれか1項に記載の情報処理方法を情報処理装置に実行させるプログラムを格納した、前記情報処理装置により読み取り可能な非一時的な記憶媒体。
【請求項15】
請求項1、2、10、11および12のいずれか1項に記載の情報処理方法を実行する、情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、プログラム、記憶媒体および情報処理装置に関する。
【背景技術】
【0002】
従来、マーケティングなどに使用する目的で、多数のユーザから情報を収集・保存し、解析することが行われている。情報としては性別、年齢、居住地などの属性情報、趣味や嗜好などの情報、購買履歴や訪問ロケーション情報などの行動履歴など様々な観点のものが取得されており、目的に応じて利用される。またインターネットの利用拡大に伴い、インターネットを取り巻く個人情報、例えばウェブサイト訪問履歴や、通信販売での購買履歴、サービスの利用履歴、インターネット広告への接触履歴なども収集されるようになっている。インターネット上で情報を収集するために、ユーザが利用する情報端末にサイト訪問の情報を一時的に記録するCookieの技術が広く用いられている。Cookieを活用することで、ユーザの情報端末を起点に様々な行動データを収集することができ、当該ユーザの属性や嗜好情報に加えて、マーケティングを行うことが可能となる。
【0003】
しかし近年のプライバシー重視の傾向に伴い、ユーザが知らない間に情報収集されて第三者に提供されることへの抵抗が高まっており、法的規制や技術的規制が進められている。法的規制は世界各国において進められているユーザの個人情報保護の法制定などであり、例えば個人情報収集および活用に対する同意取得の義務化が含まれている。また技術的規制としては例えば、ブラウザにおける3rd Party Cookieの利用制限や、モバイル情報端末における端末IDの利用制限などが進められている。
【0004】
そのため、Cookieなどを用いた従来のデータ収集の方法に対する見直しが進められており、マーケティングに必要なユーザ情報の取得ハードルが高まっている。特に、属性、購買データ、アクセスログ、インターネット広告の接触データなどを一貫性のある形で個人識別子と紐付けた情報(シングルソースデータ)の取得は困難になっている。
【0005】
このようなCookieレス化に伴い、個人識別子を利用しない方法が模索されている。例えば特許文献1(特許第6511186号)は、Cookieに属性情報の紐づけが困難なユーザに対しても適切な広告を配信するための推定処理を行っている。すなわち、既知のユーザアクセス情報を所定のパターンに分解した結果と、未知のユーザのアクセス情報を所定のパターンに分解した結果を比較し、属性の推定を行っている。
【0006】
また特許文献2(特表2020-526828号公報)では、Cookieを使用せずにインターネット広告のコンバージョンを測定するために、個人識別子に基づかない形で広告視聴に関するイベント情報を収集している。
【0007】
また特許文献3(特許第5793794号公報)には、糊代として機能する特徴データ内のパラメータを用いて、単一顧客のデータから複数顧客の特徴が混合された仮想顧客のデータを作成することが開示されている。加えて、作成された特徴データに基づき、特徴が一致又は類似する特徴データ同士を結合することで、複数のデータベースを統合している。
【先行技術文献】
【特許文献】
【0008】
【文献】特許第6511186号公報
【文献】特表2020-526828号公報
【文献】特許第5793794号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献1のようなアクセス情報のみに基づく方法では、属性推定の精度に限界がある。また特許文献2では、情報端末の識別情報とともに収集したデータを管理しており、ユーザの個人情報保護の点で懸念が残る。
【0010】
そこで、個人識別子を使用しないことを前提に、実際のシングルソースデータに類似する情報を取得する方法として、別々のデータソースを統合して擬似的なシングルソースデータを生成することが考えられる。このような擬似的シングルソースデータを精度良く生成できれば、個人情報の保護と、マーケティングに有益な情報の提供と、を両立させることができると期待される。
【0011】
本発明は上記の課題に鑑みてなされたものであり、その目的は、精度良く擬似的なシングルソースデータを生成するための技術を提供することにある。
【課題を解決するための手段】
【0012】
上記の目的を達成するため、本発明は以下のような構成を採用する。すなわち、
ユーザに関する複数の変数を有する第1のデータソースを取得する取得ステップであって、前記複数の変数には前記ユーザの属性情報に関する変数が含まれる、取得ステップと、
前記第1のデータソースに含まれる前記複数の変数から説明変数および目的変数を選択する選択ステップであって、前記説明変数には、前記属性情報に関する変数と、少なくとも1つの前記属性情報とは異なる変数が含まれており、前記目的変数は複数選択される、選択ステップと、
前記第1のデータソースを教師データとして、選択された前記説明変数から前記複数の目的変数を予測する予測モデルを作成する、作成ステップと、
前記予測モデルを、選択された前記説明変数を変数として含む第2のデータソースに適用して、疑似シングルソースデータを生成する、生成ステップと、
を有することを特徴とする情報処理方法である。
【0013】
本発明はまた、以下の構成を採用する。すなわち、
ユーザに関する複数の変数を有する第1のデータソースを取得する取得ステップであって、前記複数の変数には前記ユーザの属性情報に関する変数が含まれる、取得ステップと、
前記第1のデータソースに含まれる前記複数の変数から説明変数および目的変数を選択する選択ステップであって、前記説明変数には、前記属性情報に関する変数と、少なくとも1つの前記属性情報以外の変数とが含まれており、前記目的変数は複数選択される、選択ステップと、
前記第1のデータソースを元に、選択された前記複数の説明変数と前記複数の目的変数を含むデータの分散共分散行列を計算する、計算ステップと、
前記第1のデータソースとは異なる第2のデータソースであって、変数として、前記第1のデータソースで選択された前記複数の説明変数を含む第2のデータソースを取得する、第2の取得ステップと、
前記第2のデータソースに最適化計算を適用して前記複数の目的変数の値を生成し、生成された前記複数の目的変数の値を含む疑似シングルソースデータを生成する、生成ステップと、
を有することを特徴とする情報処理方法である。
【0014】
本発明はまた、以下の構成を採用する。すなわち、
オブジェクトに関する複数の変数を有する第1のデータソースを取得する取得ステップであって、前記複数の変数には前記オブジェクトの属性情報に関する変数が含まれる、取得ステップと、
前記第1のデータソースに含まれる前記複数の変数から説明変数および目的変数を選択する選択ステップであって、前記説明変数には、前記属性情報に関する変数と、少なくとも1つの前記属性情報とは異なる変数が含まれており、前記目的変数は複数選択される、選択ステップと、
前記第1のデータソースを教師データとして、選択された前記説明変数から前記複数の目的変数を予測する予測モデルを作成する、作成ステップと、
前記予測モデルを、選択された前記説明変数を変数として含む第2のデータソースに適用して、疑似シングルソースデータを生成する、生成ステップと、
を有することを特徴とする情報処理方法である。
【発明の効果】
【0015】
本発明によれば、精度良く擬似的なシングルソースデータを生成するための技術を提供することができる。
【図面の簡単な説明】
【0016】
【
図1】情報処理システムの全体構成を説明するブロック図
【
図2】実施例1の制御ブロックの構成を説明するブロック図
【
図6】第1の比較例における擬似的シングルソースデータの生成を説明する図
【
図7】第2の比較例における擬似的シングルソースデータの生成を説明する図
【発明を実施するための形態】
【0017】
以下に図面を参照しつつ、本発明の好適な実施の形態を説明する。ただし、以下に記載されている構成ブロックやそれらの相対配置などは、発明が適用されるシステムの各種条件により適宜変更されるべきものであり、この発明の範囲を以下の記載に限定する趣旨のものではない。
【0018】
本発明は、別々のデータソースから統計的に単一のデータソース(シングルソースデータ)を生成する技術の一種であり、複数のデータ群に共通する変数から複数桁のデータを同時に予測することで、擬似的なシングルソースデータを生成する技術に関する。本発明は、かかる処理を行う情報処理方法または情報処理システムとして捉えられる。本発明はまた、かかる情報処理方法に用いられる、またはかかる情報処理システムを構成する、情報処理装置としても捉えられる。本発明はまた、情報処理システムまたは情報処理装置の制御方法としても捉えられる。本発明はまた、情報処理装置の演算資源を利用して動作し、情報処理方法の各工程を実行するプログラムや、当該プログラムが格納された記憶媒体としても捉えられる。記憶媒体は、コンピュータにより読み取り可能な非一時的な記憶媒体であってもよい。
【0019】
以下の実施例において、ユーザは行動を行う主体であり、データ収集の対象(サンプル)である。典型的なマーケティングにおいては、ユーザは商品やサービスを購買する主体となる消費者である。調査者は、ユーザに関する様々な情報を収集し、実際の又は擬似的なシングルソースデータを生成する。シングルソースデータとは、同一のユーザから多角的な情報を取得したデータである。これに含まれる情報の例として、上述の通り、性別、年齢、居住地、未既婚、学歴、職業などの属性情報の他、趣味、嗜好、価値観、同居者、所有、収入、ライフスタイル情報、購買履歴、ウェブ関連情報などがあり、ユーザのウェブ関連情報としては、ウェブサイト訪問履歴、インターネット広告接触履歴、通信販売での購買履歴やサービスの利用履歴などがある。ただし情報の種類はこれらに限定されない。また、データの収集方法も任意であり、アンケート調査、パネル調査、小売店などの販売データ、ウェブ解析など、取得する情報の種類に応じて適切な方法を使い分けることができる。
【0020】
[比較例の検討]
(シングルソースデータに関する課題)
ここで、発明者による検討によれば、近年、シングルソースデータの生成において問題が生じていることが分かった。シングルソースデータに含まれる情報は膨大であり、種類も多岐にわたるため、単一の方法では取得が難しい。そこで従来は、共通の個人識別子(例えばアンケートであればモニタ組織の会員ID、購買データであれば顧客ID、ウェブ関連情報であればCookieなど)を介してデータ結合を行い、シングルソースデータを生成していた。しかしながら、上述した通り、個人情報保護の流れ伴う法的規制・技術的規制の強化により、共通の識別子を用いたデータ連携が困難になってきており、個人識別子に依存しない方法が求められている。
【0021】
(比較例1)
個人識別子に依存しない第1の方法として、データ融合(データフュージョン)技術が考えられる。これは、別々のデータソースを、各データソースに共通する変数(共変量)をキーとして統計的に結合する方法である。例えば
図6(a)において、第1のデータソース501はユーザの購買データであり、3人のユーザ505~507について、「性別502、年齢503、購買履歴504」という変数が取得済みである。また
図6(b)において、第2のデータソース511はユーザの広告接触データであり、3人のユーザ516~518について、「性別512、年齢513、広告接触履歴514、接触した広告媒体515」が取得済みである。ここで、第1のデータソース501と第2のデータソース511を融合して、
図6(c)のような、変数として「性別522、年齢523、購買履歴524、広告接触履歴525、広告媒体526」を持つ第3のデータソース521を生成することを考える。
【0022】
この例で、第1のデータソース501と第2のデータソース511の共変量は、性別および年齢である。例えば、破線の枠で示した
図6(a)のユーザ505と
図6(b)のユーザ518のように、「女性・30代」という特徴が類似するユーザ同士のデータを統計的に結合させて、
図6(c)のユーザ527のデータを生成する。このようなデータ結合の結果として得られたのが、擬似的なシングルソースデータとしての第3のデータソース521である。
【0023】
しかし、この第1の方法は、データ融合に用いる共変量の選択や(例えば、性別および年齢を選択すること)、変数の値の類似性の設定(例えば、年齢が34と30は近しいと判断する評価指標の設定)を適切に設定するために多くの試行錯誤を要する。第1の方法では、第1のデータソースと第2のデータソースに条件付き独立性を仮定し、これらをデータ融合する。この操作を統計学的に正当化するためには、理想的には正解となる第3のデータソース(シングルソースデータ)が手元にある状態で共変量を固定したときに、第1のデータソースと第2のデータソースが無相関となるような共変量を探索しなければならない。しかしながら、そもそもそのような正解となる第3のデータソースは取得できないため、統計学的な正当性をもって共変量を選択することはできない。
【0024】
また第1の方法によってデータ融合された第3のデータソースの中で共変量を固定した場合、第1のデータソースと第2のデータソースは無相関になるという性質を持っている。これは共変量として性・年代を選択してデータ融合された第3のデータソースに対して、例えば女性・30代というデータに着目した場合に、第1のデータソースと第2のデータソースの無相関性により、意味のある情報を抽出することができないことを意味している。通常マーケティングでは、性・年代毎にデータを仕分けして、それぞれの集団毎の趣味嗜好、購買特性やそれらの関係性について分析を行うものであるが、第1の方法によって生成された擬似的なシングルソースデータは、このような通常のマーケティング用途に利用することはできない。更に付け加えると、変数の値の類似性を評価するための指標にはいくつかの選択肢があり、指標の選択によって生成される擬似的なシングルソースデータも変化する。共変量の選択と同様、類似性の指標の選択もまたなんらかの根拠をもってこれを選択することができないため、結局のところ第1の方法は、正当な根拠のないまま擬似的なシングルソースデータの作成者の判断に委ねられる。
【0025】
さらに第1の方法によって生成された疑似的なシングルソースデータは、第1のデータソースと第2のデータソースとの間に共変量を介した疑似相関を持つ場合がある。例えば、第1のデータソースの生成モデルとして多変量正規分布、第2の生成モデルとして同じく多変量正規分布を仮定した場合、条件付き独立性を仮定してデータ融合した擬似的なシングルソースデータの生成モデルもまた多変量正規分布となるが、このとき第1のデータソースと第2のデータソースの間には共変量を介した擬似相関が生じることを示すことができる。実際の場面では、第1のデータソースと第2のデータソースの生成モデルが予め分かっていることはなく、このような解析的な検証は不可能である。したがって解析的な検証ができない以上、第1の方法によって生成された擬似シングルソースデータについて、第1のデータソースと第2のデータソースの間に相関があった場合、その相関は共変量を介した擬似相関であることを否定することはできない。例えば、ユーザの性別や年齢などの基本属性を共変量にしてデータ融合をした場合、当該基本属性と、第1のデータソース501および第2のデータソース511それぞれに含まれるデータ(例えば、購買履歴504と、広告接触履歴514や広告媒体515)が相関を持つ可能性があるが、これが疑似相関でないことは証明できない。つまり、データ融合による疑似的なシングルソースデータ生成は、作成者の都合によって生じた擬似相関をなんらかの意味のある相関と誤解し、投資効果のないマーケティング活動を企画してしまう恐れがあり、マーケティングの実施に悪影響を与える。
【0026】
尚、特徴データを用いて仮想顧客のデータを作成する特許文献3(特許第5793794号)においては、作成された特徴データに基づき、特徴が一致又は類似する特徴データ同士を結合することで、複数のデータベースを統合している。このとき特許文献3では、結合手段にデータ融合を用いて、特徴が類似するデータ同士を結合しデータベースを生成している。つまり、第1の方法における問題と同様の問題が内在していると考えてよい。
【0027】
(比較例2)
個人識別子に依存しない第2の方法として、変数(要素)一つずつのデータを予測して補う方法が考えられる。これは、別々のデータソースの共変量から予測モデルを構築し、データを生成する方法である。例えば
図7(a)および
図7(b)はそれぞれ、
図7(a)および
図7(b)と同様の第1のデータソース501および第2のデータソース511であり、ここから、
図7(c)に示すような変数を持つ第3のデータソース521を生成することを考える。
【0028】
ここで、第1のデータソース501のデータ構造においては、ユーザの属性情報である性別502および年齢503と、ユーザの行動履歴である購買履歴504の間に何らかの関係があると想定する。そこで第2の方法においては、取得済みのデータを教師データとした機械学習を行い、性別502および年齢503を説明変数とし、購買履歴504を目的変数とする、購買商品予測モデル531を構築する。同様に、第2のデータソース511においても、性別512および年齢513を説明変数とし、広告接触履歴514を目的変数とする広告接触履歴予測モデル532と、広告媒体515を目的変数とする広告媒体予測モデル533を構築する。そして、各ユーザに性別522および年齢523を説明変数とする各予測モデル531~533を適用して、第3のデータソース521を生成する。
【0029】
しかし、この第2の方法では、変数ごとに予測モデルを構築し、データ生成時にも変数ごとに処理を行う必要があるため、時間や演算コストの点で効率が低下する。また、多くの場合において説明変数は目的変数の予測に対してそれほど大きな説明力を持たない。例えば、性別・年代は説明変数として外すことができない変数ではあるが、かといってこの2つの説明変数で説明できる部分は少ない。この場合、「女性・30代」のように説明変数が同じユーザについては、一律のデータが生成されうる。これは現実には想定し難いデータの傾向であり、マーケティング等への利用の点で問題がある。一律なデータ生成を防ぐために、予測モデルによる予測値にベルヌーイ乱数などを適用してバラつきを与えることも考えられる。しかしその場合、一見してもっともらしいデータが得られたとしても、複数の変数間のデータ構造を考慮していないため、複数の変数同士の関係性が失われている恐れがある。例えば、仮に第2のデータソース511において広告接触履歴と広告媒体に関連があったとしても、その関連が見えにくくなる可能性がある。本来、あったはずの変数同士の関係性が失われることは、同様にマーケティング等への利用の点で問題がある。これは第2の方法が、複数の目的変数間のデータ構造を考慮せず、目的変数ごとに予測モデルを構築し、予測しているために起こりうる問題である。
【0030】
上記の比較例を参照して述べたように、従来技術の延長として考えうる擬似的シングルソースデータの生成方法においては、データ結合の精度や、生成されたデータの品質などの点で問題が残る。そのため、マーケティングなどの使用に耐えるような、実際のシングルソースデータに近い性質を持つデータ生成方法が求められている。
【0031】
[実施例1]
(システムの構成)
図1を参照して、本発明にかかる情報処理システム1の全体的な構成を説明する。情報処理システム1は、調査者が使用する情報処理装置10の他に、ユーザ端末20、回答者端末30、店舗端末40、データ提供者端末50を備えている。情報処理装置10は、他の構成要素との間で情報の送受信を可能なように、Webや専用回線等の通信ネットワークを介して相互に接続されている。
【0032】
調査者は、情報処理装置10を用いて、シングルソースデータ生成を含む様々な情報処理を実施する。情報処理装置10としては、CPU等の制御部1001、ROM、RAMやHDD等の記憶部1002、通信アダプタ等の通信部1003、マウスやキーボード等の入力部1004、ディスプレイやスピーカ等の通知部1005などの演算資源を備える。情報処理装置10は、メモリに展開されたプログラムの指示やインタフェースを介したユーザ指示によって動作する、PCやワークステーションなどの情報処理装置が好適である。なお、情報処理装置10として、クラウド上の演算資源を利用するクラウドサーバを用いてもよい。また、ネット回線または直接的に接続された複数のPC等を組み合わせて情報処理装置10としてもよい。
【0033】
ユーザ端末20は、ユーザが日々の様々な情報処理を行うための端末であり、PC、スマートフォン、タブレットデバイスなどを利用できる。ユーザ端末20は、ユーザによるウェブサイト訪問履歴、通信販売での購買履歴やサービスの利用履歴、インターネット広告への接触履歴などを収集し、調査者の情報処理装置10に送信する。
【0034】
回答者端末30は、調査者のモニタ組織に属する回答者の情報端末である。回答者は回答者端末30を利用して、自らの基本属性や、趣味、嗜好、所有等に関するアンケートに回答し、調査者の情報処理装置10に送信する。
【0035】
店舗端末40は、商品を販売する店舗に設置される、ユーザによる購買データを収集し、調査者の情報処理装置10に送信する情報端末である。店舗とは、実店舗であっても良いし、インターネット上の店舗であっても良い。店舗端末として、商品購入時のレジ処理においてPOS(Point of Sale)情報を取得するPOS端末を利用しても良い。
【0036】
データ提供者端末50は、シングルソースデータに利用可能なデータを販売する業者等のデータ提供者が使用する情報端末である。データ提供者は、自ら収集したデータや購入したデータを、調査者の所望の形式に加工し、情報処理装置10に送信する。
【0037】
調査者が、ユーザ端末20、回答者端末30、店舗端末40、データ提供者端末50から受信したユーザに関するデータには、典型的にはユーザの基本属性と関連付けた形で、様々な変数の値が格納されている。なお、シングルソースデータに含まれる情報は上記の例には限定されない。また、データの取得元も、上記例のユーザ端末等には限定されない。なお、データの取得は、調査者自身による取得かどうかを問わず、ユーザの同意を得るなど法制や規制を遵守した形で行われることは言うまでもない。
【0038】
(制御ブロックの構成)
図2を参照して、情報処理装置10の仮想的な制御ブロックの構成を説明する。
図2は、情報処理装置10においてプログラムの機能モジュールにより実現される、データ送受信とデータ処理について説明するブロック図である。ただし、本発明の情報処理を実現可能であればブロック構成はこれに限定されない。
【0039】
本実施例の制御部1001は、データ取得部1010、疑似データ生成部1020、データ解析部1030を有する。データ取得部1010は、データ分類部1011、行列計算部1012、学習実行部1013を含む。疑似データ生成部1020は、データ選択部1021、モデル適用部1022、データ整理部1023を含む。データ解析部1030は、解析設定部1031、解析実施部1032を含む。これら各ブロックの処理については後述する。
【0040】
<処理フロー>
図3を参照して、本実施例の処理フローについて説明する。本フローにおいて、調査者は、好ましくはユーザの基本属性を共通する変数として、あるユーザについての様々なデータソースを統合したシングルソースデータを生成する。ここでは性別と年齢(年代)を基本属性とする。以下の処理では、実際のシングルソースデータを生成することが困難であることを踏まえ、ユーザ端末20、回答者端末30、店舗端末40、データ提供者端末50などの各データソースから得たデータを融合して擬似的なシングルソースデータを作成する。
【0041】
ステップS101において、情報処理装置10の通信部1003を介して、データ取得部1010に各データソースからのデータが送信される。本フローでは各データに性別と年齢(年代)が含まれており、後述するように説明変数として利用されるが、変数はこれらに限られない。様々なデータソースを用いる関係上、1つのレコードには未記入のフィールドが多数存在する。そして、データ分類部1011が、テーブルにデータを分類・格納する。データ分類部1011はこのとき、データの所定の形式への変換(例えば、年齢から年代を求める等)や、異常値の除外処理、複数の同種のデータソースの単純レコード結合など、種々のデータ整形処理を行ってもよい。なお、テーブルは記憶部1002のデータベース上に定義されたものを使用している。本実施例のシングルソースデータのテーブルは、カラムとして性別と年代を少なくとも含む、様々な項目を保持している。データ分類部1011は、性別と年代を共通する変数として、取得したデータをレコードとしてデータベースに追加していく。
【0042】
ステップS102において、行列計算部1012は、例えば
図4(a)のような第1のデータソース201を元に共分散行列を計算する。第1のデータソース201は、ユーザの性別sexおよび年代ageの他、Y
1~Y
nまでn個の変数を持つ、1000レコードからなるデータである。説明を簡単にするため、各変数は真(1)または偽(0)いずれかの値を取る二値変数とする。なお、自由回答や数値データなど、二値変数以外の場合は、データ分類部1011が所定の基準に基づいてクラス分類するなどして、情報処理装置での計算が可能な形式にする。
【0043】
ここで分散共分散行列とは、n個の変数についてのn×n行列において、同じ変数間の交点に当たる対角成分には、当該変数のデータの散らばり具合である分散が設定され、異なる変数間の交点に当たる非対角成分には、当該変数同士の関係性を示す指標である共分散が設定された行列を言う。したがって、変数xの分散をσ
2x、変数xと変数yの共分散をCov(x,y)のように書くと、分散共分散行列211は、
図4(b)のように表される。
【0044】
ここで、比較例にて説明したような従来技術の延長におけるデータ予測では、
図4(b)に破線212で示した範囲における情報を利用し、説明変数であるsex又はageに基づいて、目的変数であるY
1~Y
nのうち一つの値を予測していた。上述したように性別・年代だけでは、十分な説明力を持たないため、生成データが一律化する問題が生じていた。また、乱数を用いてバラつきを与えた場合でも、目的変数間の関係性を無視していることから、実際のデータの構造が失われるという問題があった。一方、本フローでは、破線213で示した範囲における情報も利用してデータ予測を行う。すなわち、説明変数として、変数Y
1~Y
nのうち予測対象となる変数以外の変数も用いる。例えば変数Y
2の値を予測する場合、性別および年代に加え、変数Y
1~Y
n(Y
2除く)も説明変数として用いる。これにより、変数Y
1~Y
n間の相関に関する情報を利用した予測が可能となり、予測精度の向上も期待できる。なお、この場合でも、必ずしも変数Y
2以外の全てを用いる必要はなく、適宜説明変数を選択してよい。
【0045】
ここで行列計算部1012は、説明変数として性別および年代に加えてその他の変数を含む、第1のデータソース201中の複数の変数間の関係性をモデル化する。行列計算部1012は、第1のデータソース201を読み込むと、教師データとなる複数の変数の間の分散共分散行列と、それぞれの変数の平均値を計算し、目的変数間の関係性を指標化している。
【0046】
ステップS103において、疑似データ生成部1020のデータ選択部1021は、モデルの適用対象として、第1のデータソース201とは異なる第2のデータソースを選択する。第2のデータソースは、ステップS102で作成されたモデルにおける説明変数を含んでいる。ステップS104において、モデル適用部1022は、第2のデータソースにモデルと最適化計算を適用して目的変数の値を生成する。このとき、教師データにおける分散共分散行列と、平均値が再現されるように下式(1)および(2)の最適化問題を定義する。
【数1】
【数2】
ここで、上式(1)は説明変数と目的変数間の関係性を整合させるための最適化問題であり、また上式(2)は目的変数間の関係性を整合させるための最適化問題である。
【0047】
更に上式(1)および上式(2)を解くために、下式(3)および下式(4)の勾配法を用いて最適化計算処理を行う。λ、κ、νはチューニングパラメータである。これらの計算処理により、分散共分散行列と平均値を維持しながら目的変数を同時に予測する。式(1)、(3)において変数Xは説明変数である。成分i,jは説明変数とそれに対応する目的変数の成分であり、i列目の説明変数とj列目の目的変数を意味している。式(1)、(3)は、従来のような、
図4(b)において破線212の部分の構造を復元するプロセスに相当する。一方、式(2)、(4)は、本発明において採用される、破線213の部分の構造を復元するプロセスに相当する。
【数3】
【数4】
ここで、上式(3)は上式(1)の最適化問題を勾配法を用いて解くための式であり、上式(4)は上式(2)の最適化問題を同じく勾配法を用いて解くための式である。例えば、第1のデータソース201に示す変数Y
2が目的変数である場合、変数Y
2の予測値として真(1)または偽(0)が出力される。これは目的変数が複数桁Y
1~Y
nでも同様である。
【0048】
ここで上記式(1)の最適化問題を説明する。下記の第一項は、教師データとなる分散共分散行列と、生成した予測データの分散共分散行列の誤差を表している。誤差の絶対値が1よりも小さくなることが予想されることから、誤差の評価には絶対値が1未満の誤差を厳しく評価するために絶対値(所謂L1ノルム)を用いている。
下記の第二項は、教師データとなる平均値と、生成した予測データの平均値の誤差を表している。誤差の評価には二乗誤差を用いているが、誤差をより厳しく評価するために絶対値を用いることもできる。
下記の第三項は、生成された予測データが真(1)または偽(0)の二値変数となるように制約を表している。記号〇はアダマール積を意味している。この制約はまたペナルティーととらえることもできる。予測データの絶対値が1より大きくなった場合に大きなペナルティーを科すために所謂L2ノルムを採用している。
勾配法による最適化計算処理である式(3)は、これらの分散共分散行列や平均値の誤差を最小にし、且つ二値制約を満たす最適解の探索を行っている。チューニングパラメータλ、κ、νは、最適化計算処理を制御するパラメータであり、調査者が決定することができる。式(4)に対しても同様の解釈ができる。
【0049】
ステップS105において、データ整理部1023は、第2のデータソースに第1のデータソースの複数の予測値を含めたデータを、シングルソースデータとして保存する。このとき、その他の既に記憶部1002に保存済みのシングルソースデータとの統合を行ってもよい。様々なデータソースに対して疑似データ生成部1020における処理を実行することで、高品質な疑似シングルソースデータが生成される。
【0050】
ステップS106からの処理は、データ解析部1030により行われる。解析設定部1031は、調査者の指示などに基づくデータ解析の準備として、記憶部1002に保存されたシングルソースデータから、調査目的に適合した変数を持つデータ群を選択する。選択されるデータは、疑似シングルソースデータに加えて実際のシングルソースデータを含んでいてもよい。ステップS107において、解析実施部1032はシングルソースデータを解析して調査者が必要とする情報を取得し、通知部1005を介して通知する。データ解析の内容は特に限定されず、調査者に情報を提供できるのであれば、いかなる方法を採用してもよい。
【0051】
以上のように本フローでは、従来のような性別と年代を説明変数として変数Y1~Ynそれぞれに対応するn個の予測モデルを作成する方法とは異なり、分散共分散構造を維持して目的変数を同時に予測する。これにより、従来技術が抱えていたデータ間の関係性が変化してしまう問題を低減することができ、精度良く擬似的なシングルソースデータを生成することで、マーケティングへの活用が期待できる。
【0052】
発明者が当該プログラムを用いて生成された疑似シングルソースデータの分散共分散行列を可視化したところ、実際のシングルソースデータの分散共分散行列のデータ構造を良好に復元していることを確認できた。
図5(a)は、実際の33変数のシングルソースデータに基づく分散共分散行列である。また
図5(b)は、本フローの手法による疑似シングルソースデータに基づく分散共分散行列である。一方、
図5(c)は、従来手法、すなわち変数ごとに予測モデルを構築して算出した予測値に、乱数を用いたバラつきを与えたデータに基づく分散共分散行列である。いずれの図でも、関連性が高いほど色が明るくなり、関連性が低くなると色が暗くなるように可視化している。
図5(a)と
図5(c)を比較すると、
図5(c)においては非対角成分における色が全体的に暗くなっており、目的変数同士の相関が見出しにくくなっていることが分かる。このようなデータは、マーケティングにおける利用価値が低下してしまう。一方、
図5(b)は、非対角成分におけるパターンが
図5(a)と類似しており、実際のシングルソースデータの構造を保持できていることが分かる。なお、分散共分散構造の類似性については、例えば
図5のように画像の類似度に基づいて判断する方法がある。その場合、既知の方法により画像をベクトル化して特徴抽出し、類似度を判定し、類似度が所定の値以上であれば類似していると判断できる。また、教師データと、生成データの分散共分散行列の差の直接比較や、対角要素を含む上三角部分について行列要素の差の絶対値を足し合わせた計算の差で類似性を判定することもできる。ただし、類似性の判断方法はこれに限定されず、任意の方法を採用することができる。
【0053】
[実施例2]
続いて本発明の実施例2について説明する。実施例1と共通する構成については同じ符号を付し、説明を簡略化する。
【0054】
実施例1では、比較例を参照して述べたように、従来技術の問題を解決するため、目的変数の間の分散共分散構造を利用して、統計的構造を維持した疑似シングルソースデータを生成する方法を説明してきた。しかしデータの性質や課題によっては、分散共分散構造に加えて(または分散共分散構造に代えて)、他の統計的構造を維持することで、精度のよい疑似シングルソースデータを生成することも可能である。
【0055】
ここで、統計学的には、分散共分散行列は2次のモーメントとして考えることができる。このとき、データの性質が正規分布に従うような傾向であれば、実施例1にて述べた方法による高品質な疑似シングルソースデータの生成に好適である。しかし、マーケティングに利用するデータは、必ずしも正規分布に従うとは限らない。このとき、多次元データの変数間における複雑な依存関係を捉えるためには、3次のモーメントである歪度や、4次のモーメントである尖度を利用することで、分布の非対称性を表現することができる。つまり、より複雑な統計的構造を維持した疑似シングルソースデータを生成できると言える。
【0056】
例えば、3次のモーメントまで利用する場合を検討する。このとき、本実施例の第1のデータソースには、変数の一部に連続変数が含まれていてもよい。
図3のステップS102に相当する処理において、行列計算部1012は、第1のデータソースを読み込むと、教師データとなる複数の変数の間の分散共分散行列と、それぞれの変数の平均値、そして歪度を計算し、目的変数間の関係性を指標化する。
【0057】
続いてステップS103において、疑似データ生成部1020のデータ選択部1021は、モデルの適用対象として、第1のデータソースとは異なる第2のデータソースを選択する。第2のデータソースは、ステップS102で作成されたモデルにおける説明変数を含んでいる。
【0058】
ステップS104において、モデル適用部1022は、第2のデータソースにモデルと最適化計算を適用して目的変数の値を生成する。このとき、上で述べたように、教師データにおける分散共分散行列と、平均値、歪度が再現されるように最適化問題を定義する。このとき、実施例1の式(1)に、歪度が再現される項が追加される。また式(2)には、歪度の再現に必要なチューニングパラメータτが追加される。変数に連続変数が含まれる場合は、さらに、式(1)、式(2)の第三項の制約式が、連続変数に対応できるように変更される。これらのプログラムの変更によって、分散共分散行列や平均値、歪度の誤差を最小にして、最適解の探索が行われる。
【0059】
続いてステップS105において、データ整理部1023は、第2のデータソースに第1のデータソースの複数の予測値を含めたデータを、シングルソースデータとして保存する。以上述べたように、本実施例では、より複雑な統計的構造を維持した高品質な疑似シングルソースデータを生成できる。本実施例では、3次のモーメントである歪度を利用しているが、4次のモーメントである尖度を利用することもできる。データの性質や目的に応じて、平均値、分散共分散行列、歪度、尖度などの統計分布の特徴量を用いて処理を行うことで、効果が得られる。
【0060】
[実施例3]
上記の実施例1、実施例2では、教師データの統計的構造を維持して目的変数を同時に予測することで、実際のシングルソースデータの構造を保持できている精度の良い疑似シングルソースデータを生成していた。しかし、データの利用目的次第ではあるが、精度の良い疑似シングルソースデータは、プライバシーの観点で懸念を抱かれるおそれがある。そこで本実施例では、プライバシーに関する情報を取り除きながらデータを利活用することを目的とした「差分プライバシー」の機能を提供し、プライバシーに関する問題を回避する方法を説明する。
【0061】
ここで、差分プライバシーの機能は、第1のデータソースに対して適切なノイズを付与することによって、統計的な有用性を維持したまま、数学的に証明可能なデータに変更することを可能にする。これは、適切なノイズを付与することで、ある特定の個人がデータセットに含まれていてもいなくても、同じような統計量を出力するからである。つまり差分プライバシーは、教師データの統計的構造を維持したまま、データに含まれる個人データを推測困難にするメカニズムである。ノイズ付与のメカニズムは調査者が適宜決定してよく、例えば既知のラプラスメカニズム、ガウシアンメカニズム、または指数メカニズム等を採用できる。
【0062】
例えば、属性情報がユーザの性別と年齢であり、変数が収入であるデータソースを考える。このとき本実施例では、
図3のステップS102に相当する処理において、行列計算部1012は、各ユーザの収入に、ラプラスメカニズムを適用してノイズ値を付加する。ノイズが付与されたデータの統計的構造は、付与前と大きく乖離しない。また行列計算部1012は、既知の方法により、求めるプライバシーの強度が維持できる要件に適合するようにノイズを付加することが好ましい。このようにノイズが付与されたデータは、個人データとしては存在しない近似値であり、プライバシーが保護されたデータとなる。
【0063】
これ以降の処理は実施例1、実施例2と同様に実施できる。すなわち、変更後の第1のデータソースを読み込み、教師データとなる複数の変数の間の関係性を指標化することで、精度が高く、かつプライバシーが保護された疑似シングルソースデータを生成できる。
【0064】
[実施例4]
本実施例では、疑似データ生成部1020で生成された疑似シングルソースデータの特性およびユースケースについて、例示的に説明する。
【0065】
(1)データの完全性の向上
ここで、第1のデータソースを、特定のデータを取得できている第1のグループとする。例えば第1のデータソースがアンケート調査の結果である場合、そのアンケートの質問に含まれる特定のデータについては取得済みだと考えられる。また、第2のデータソースを、上記の特定のデータが取得できていない第2のグループとする。このとき、本発明の方法で疑似シングルソースデータを作成することで、第1のグループでは取得できているデータを、当該データが取得できなかった第2のグループに拡大して適用することができる。また逆に、第2のグループでは取得できていた特定のデータが、第1のグループでは取得できていなかった場合、第2のグループから第1のグループにデータを拡大して適用することができる。このように本発明の方法によれば、一部の変数に抜けがある複数のデータソースが、互いに補い合うような形で疑似シングルソースデータを生成されるので、データの完全性が向上する。
【0066】
(2)機械学習のインプットデータ
本発明によって作成された疑似シングルソースデータは、機械学習を用いたマーケティングにも利用可能である。一般的に機械学習においては、説明変数と目的変数のデータ間の関係性に着目して予測式を立てている。ここで、例えば
図4(b)の破線212の分散共分散行列も、データ間の関係性の一種に該当する。そこで、本発明で得られた疑似シングルソースデータを、機械学習を用いたマーケティングのデータセットとして利用できる。特に本発明の疑似シングルソースデータは、実際のシングルソースデータに見られる複雑な統計的構造を維持しているため、機械学習の教師データとして好適である。
【0067】
[実施例5]
上記各実施例では、ユーザに関して疑似的なシングルソースデータを作成していた。しかし本発明の手法は、ユーザ以外の様々なオブジェクトに関する疑似シングルソースデータを作成するためにも利用できる。すなわち本発明は、第1のデータソースと、それを補完するために関連する変数を含む第2のデータソースが存在する様々なケースに適用できる。
【0068】
例えば、オブジェクトとして、家やビルなどの建築物を例に挙げる。建築物の中でも特に、都市中心部のオフィスビルは、都市全体のエネルギー消費の大部分を占めている。気候変動やエネルギーコストの上昇を背景に、都市行政やビルオーナーはエネルギーの最適化や省エネへの取り組みを強化している。このような背景から、エネルギー消費の最適化や省エネ効果の評価を目的として、建築物に関する第1のデータソースを基に、建築物に関する他のデータソースを適用することで、適切なデータベースを提供することができる。具体的には、複数データ群に共通する変数として、建築物のサイズ、構造、建築年数、設備、使用目的、地理的要因、人的要因などの変数を用いて、電気使用量データ、ガス使用量データ、設備の稼働ログデータ、発電量データなどのデータソースを統合して、疑似シングルソースデータを生成する。これにより、建築物の特徴ごとのエネルギー使用量やエネルギー使用効率(平米あたりのエネルギー使用量など)を計算できる。このデータベースは、エネルギー使用の最適化や設備投資の判断、他の建築物との比較、エネルギー効率向上策の検討に好適である。
【0069】
また、別のオブジェクトとして、移動体として自動車の例を挙げる。例えば、タクシーやバス、自家用自動車は多くの人々にとって欠かせない移動手段となっているが、都市部においては日々の交通渋滞や道路工事、大規模なイベントなど、様々な要因によりスムーズな運行ができない場面が見受けられる。交通流の最適化を目的として、移動体に関する第1のデータソースを基に、他のデータソースを適用することで、適切なデータベースを提供することができる。具体的には、複数データ群に共通する変数には地理的変数や時刻変数を用いて、移動体のGPSデータ、交通渋滞データ、工事情報データ、交通事故データ、気象データ、イベント情報データなどのデータソースを統合して、疑似シングルソースデータを生成する。これにより、特定エリアにおける時空間の特徴に基づき、交通流の可視化や渋滞・事故の発生率を計算できる。このデータベースは、交通渋滞を回避する運行ルートの最適化や、公共交通機関の乗車率向上施策、運賃調整など、都市交通の運行戦略の検討に好適である。
【符号の説明】
【0070】
10:情報処理装置、1001:制御部、1010:データ取得部、1020:疑似データ生成部
【要約】
ユーザに関する複数の変数を有する第1のデータソースを取得する取得ステップであって、複数の変数にはユーザの属性情報に関する変数が含まれる、取得ステップと、第1のデータソースに含まれる複数の変数から説明変数および目的変数を選択する選択ステップであって、説明変数には、属性情報に関する変数と、少なくとも1つの属性情報とは異なる変数が含まれており、目的変数は複数選択される、選択ステップと、第1のデータソースを教師データとして、選択された説明変数から複数の目的変数を予測する予測モデルを作成する、作成ステップと、予測モデルを、選択された説明変数を変数として含む第2のデータソースに適用して、疑似シングルソースデータを生成する、生成ステップと、を有する情報処理方法を用いる。