(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-16
(45)【発行日】2024-02-27
(54)【発明の名称】差分プライベートな頻度の重複排除
(51)【国際特許分類】
G06F 16/21 20190101AFI20240219BHJP
G06F 21/62 20130101ALI20240219BHJP
【FI】
G06F16/21
G06F21/62 345
(21)【出願番号】P 2022574588
(86)(22)【出願日】2021-06-23
(86)【国際出願番号】 US2021038716
(87)【国際公開番号】W WO2021262868
(87)【国際公開日】2021-12-30
【審査請求日】2022-12-02
(31)【優先権主張番号】PCT/US2020/039209
(32)【優先日】2020-06-23
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ジャユ・ペン
(72)【発明者】
【氏名】シェン・ナ・マ
(72)【発明者】
【氏名】シチェン・ファン
(72)【発明者】
【氏名】ジェームズ・ロバート・ケーラー
(72)【発明者】
【氏名】ル・ジャン
【審査官】原 秀人
(56)【参考文献】
【文献】特開2020-047103(JP,A)
【文献】米国特許出願公開第2018/0349620(US,A1)
【文献】特開2012-133320(JP,A)
【文献】特表2015-517163(JP,A)
【文献】米国特許出願公開第2019/0332681(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
複数の提供者にわたってデータセットの重複を排除するためのデータ構造を生成するための方法であって、
1つまたは複数のプロセッサおよびメモリを備えるデータ処理システムによって、データベースにおいて、複数のユーザと前記複数の提供者のうちのある提供者との間のインタラクションを各々が特定する記録のデータセットを維持するステップと、
前記データ処理システムによって、複数のベクトルデータ構造を初期化するステップであって、前記複数のベクトルデータ構造の各ベクトルデータ構造が、複数の頻度のそれぞれの頻度に対応する、ステップと、
前記データ処理システムによって、前記複数のユーザの各ユーザに対して、記録の前記データセットに基づいて前記ユーザと前記提供者との間の前記インタラクションの頻度データを決定するステップであって、前記ユーザの前記頻度データが、標的インタラクションタイプを有する前記ユーザと前記提供者との間の前記インタラクションの数を表す、ステップと、
前記データ処理システムによって、前記複数のユーザの各ユーザの前記頻度データに基づいて前記複数のベクトルデータ構造を更新するステップであって、前記複数のベクトルデータ構造のうちの第1のベクトルデータ構造が、前記複数の頻度の第1の頻度値に対応し、前記複数のベクトルデータ構造が差分プライベートであるように、前記第1の頻度値と一致するインタラクションの数を示す頻度データを有する前記複数のユーザのうちのあるユーザの識別子を符号化するように更新される、ステップと、
前記データ処理システムによって、前記複数の提供者にわたる記録の前記データセットの重複排除のために、前記複数のベクトルデータ構造を分析サーバに送信するステップとを備える、方法。
【請求項2】
前記分析サーバが、前記複数のベクトルデータ構造を第2の提供者からの第2の複数のベクトルデータ構造と組み合わせて、重複排除された分布を生成する、請求項1に記載の方法。
【請求項3】
前記複数のベクトルデータ構造の各々が複数のカウンタのための座標を定義し、前記複数のベクトルデータ構造を更新するステップが、前記複数のベクトルデータ構造の中の少なくとも1つのカウンタを更新して、前記ユーザの前記識別子を符号化するステップを備える、請求項1に記載の方法。
【請求項4】
前記複数のベクトルデータ構造を更新するステップがさらに、前記ユーザの前記識別子のハッシュ関数に基づいて前記複数のベクトルデータ構造の第1の座標を決定するステップを備える、請求項3に記載の方法。
【請求項5】
前記複数のベクトルデータ構造が各々、1と定められた頻度閾値との間の特定の頻度に対応する、請求項1に記載の方法。
【請求項6】
前記複数のユーザの識別情報が、前記複数のベクトルデータ構造の1つだけのベクトルデータ構造へと符号化される、請求項5に記載の方法。
【請求項7】
複数の提供者とのユーザインタラクションの頻度に対応するデータセットの重複を排除するための方法であって
1つまたは複数のプロセッサおよび1つまたは複数のメモリを備えるデータ処理システムによって、前記複数の提供者のうちの第1の提供者から2つ以上のベクトルデータ構造の第1の集合を受信するステップであって、2つ以上のベクトルデータ構造の前記第1の集合の各々が、差分プライバシーを用いて、2つ以上のベクトルデータ構造の前記第1の集合の各々のそれぞれの頻度と一致する、標的インタラクションタイプを有する前記第1の提供者とのインタラクションの回数に関連するユーザ識別子を符号化する、ステップと、
前記データ処理システムによって、前記複数の提供者のうちの第2の提供者から2つ以上のベクトルデータ構造の第2の集合を受信するステップであって、2つ以上のベクトルデータ構造の前記第2の集合の各々が、差分プライバシーを用いて、2つ以上のベクトルデータ構造の前記第2の集合の各々のそれぞれの頻度と一致する、前記標的インタラクションタイプを有する前記第2の提供者とのインタラクションの回数に関連するユーザ識別子を符号化する、ステップと、
前記データ処理システムによって、2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合を、複数の頻度の各々に対して、前記第1の提供者と前記第2の提供者の両方にわたり前記標的インタラクションタイプを有するユーザインタラクションの全体の頻度を定義する、重複排除された頻度分布へと組み合わせるステップとを備える、方法。
【請求項8】
前記データ処理システムによって、前記重複排除された頻度分布の表現を備えるグラフィカルユーザインターフェースデータを生成するステップをさらに備える、請求項7に記載の方法。
【請求項9】
前記データ処理システムによって、閾値の頻度を前記複数の提供者に送信するステップをさらに備え、前記複数の頻度が前記閾値の頻度によって定義される、請求項7に記載の方法。
【請求項10】
2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合が各々、1と前記閾値の頻度との間の特定の頻度に対応する、請求項9に記載の方法。
【請求項11】
前記
ユーザ識別子が、2つ以上のベクトルデータ構造の前記第1の集合の1つだけのベクトルデータ構造および2つ以上のベクトルデータ構造の前記第2の集合の1つだけのベクトルデータ構造へと符号化される、請求項10に記載の方法。
【請求項12】
2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合が、カウントのベクトル(VOC)である、請求項7に記載の方法。
【請求項13】
2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合が、任意分布ブルームフィルタ(ADBF)である、請求項7に記載の方法。
【請求項14】
2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合を、前記重複排除された頻度分布へと組み合わせるステップが、
前記データ処理システムによって、2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合を2つ以上のベクトルデータ構造の第1の組み合わせられた集合へと組み合わせるステップと、
前記データ処理システムによって、前記複数の提供者のうちの第3の提供者から2つ以上のベクトルデータ構造の第3の集合を受信するステップと、
2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合を2つ以上のベクトルデータ構造の前記第1の組み合わせられた集合へと組み合わせたことに応答して、前記データ処理システムによって、2つ以上のベクトルデータ構造の前記第1の組み合わせられた集合を前記第3の提供者からの2つ以上のベクトルデータ構造の前記第3の集合と、2つ以上のベクトルデータ構造の第2の組み合わせられた集合へと組み合わせるステップとを備える、請求項7に記載の方法。
【請求項15】
2つ以上のベクトルデータ構造の前記第1の集合および2つ以上のベクトルデータ構造の前記第2の集合を、前記重複排除された頻度分布へと組み合わせるステップが、
2つ以上のベクトルデータ構造の前記第1の集合の第1のベクトルデータ構造と、2つ以上のベクトルデータ構造の前記第2の集合の第2のベクトルデータ構造との積集合を決定するステップと、
前記第1のベクトルデータ構造と前記第2のベクトルデータ構造との前記積集合において符号化されるユーザの数を決定するステップと、
前記決定されたユーザの数に基づいて前記重複排除された頻度分布を更新するステップとを備える、請求項7に記載の方法。
【請求項16】
複数の提供者から受信されたデータセットを縮小するためのシステムであって、
前記複数の提供者に関連する複数のサーバと通信するように構成されるネットワークインターフェースと、
前記ネットワークインターフェースおよびメモリに結合される1つまたは複数のプロセッサとを備え、前記メモリは記憶された命令を備え、前記命令が、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、
前記ネットワークインターフェースを介して、前記複数の提供者のうちの第1の提供者から差分プライベートなスケッチの第1の集合を受信させ、差分プライベートなスケッチの前記第1の集合の各々が、差分プライバシーを用いて、差分プライベートなスケッチの前記第1の集合の各々のそれぞれの頻度と一致する、標的インタラクションタイプを有する前記第1の提供者とのインタラクションの回数に関連するユーザ識別子を符号化し、
前記ネットワークインターフェースを介して、前記複数の提供者のうちの第2の提供者から差分プライベートなスケッチの第2の集合を受信させ、差分プライベートなスケッチの前記第2の集合の各々が、差分プライバシーを用いて、差分プライベートなスケッチの前記第2の集合の各々のそれぞれの頻度と一致する、前記標的インタラクションタイプを有する前記第2の提供者とのインタラクションの回数に関連するユーザ識別子を符号化し、
差分プライベートなスケッチの前記第1の集合および差分プライベートなスケッチの前記第2の集合を使用して、組み合わせられた分布を生成させ、前記組み合わせられた分布が、差分プライベートなスケッチの前記第1の集合および差分プライベートなスケッチの前記第2の集合によって表される前記データセットの重複を排除し、複数の頻度の各々に対して、前記第1の提供者と前記第2の提供者の両方にわたり前記標的インタラクションタイプを有するユーザインタラクションの全体の頻度を定義し、
データベースへ、前記組み合わせられた分布を記憶させる、
システム。
【請求項17】
前記1つまたは複数のプロセッサがさらに、
差分プライベートなスケッチの前記第1の集合および差分プライベートなスケッチの前記第2の集合を差分プライベートなスケッチの統合された集合へと組み合わせ、
前記データベースに、差分プライベートなスケッチの前記統合された集合を記憶する
ようになされる、請求項16に記載のシステム。
【請求項18】
前記1つまたは複数のプロセッサがさらに、
前記複数の提供者のうちの第3の提供者から差分プライベートなスケッチの第3の集合を受信し、
差分プライベートなスケッチの前記統合された集合および差分プライベートなスケッチの前記第3の集合を組み合わせて、差分プライベートなスケッチの新しい統合された集合を生成し、
前記データベースに、差分プライベートなスケッチの前記新しい統合された集合を記憶する
ようになされる、請求項17に記載のシステム。
【請求項19】
差分プライベートなスケッチの前記第1の集合および差分プライベートスケッチの前記第2の集合が、カウントのベクトル(VOC)である、請求項16に記載のシステム。
【請求項20】
差分プライベートなスケッチの前記第1の集合および差分プライベートなスケッチの前記第2の集合が、任意分布ブルームフィルタ(ADBF)である、請求項16に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、差分プライベートな頻度の重複排除に関する。
【背景技術】
【0002】
多くの事例において、コンピューティングおよびデータ分析システムは、データの分析または処理の一部として、大量のデータセットの積集合または和集合を決定し得る。複数のソースにわたって分散する大量のデータセットの和集合、積集合、または頻度を計算することは通常、複数のソース間で大量のデータセットについての情報を共有することを伴う。各ソースからの情報は、秘密のまたは保護対象の情報を含むことがあり、そのような情報の共有はプライバシーおよびセキュリティに悪影響を及ぼし得る。
【発明の概要】
【課題を解決するための手段】
【0003】
この技術的解決策の少なくとも1つの態様は、提供者のグループにわたってデータセットの重複を排除するためのデータ構造を生成するための方法に関し、この方法は、1つまたは複数のプロセッサおよびメモリを備えるデータ処理システムによって、データベースにおいて、複数のユーザと複数の提供者のうちのある提供者との間のインタラクションに対応する記録のデータセットを維持するステップと、データ処理システムによって、複数のベクトルデータ構造を生成するステップであって、複数のベクトルデータ構造が複数の頻度に対応する、ステップと、データ処理システムによって、記録のデータセットに基づいて複数のユーザおよび提供者の頻度データを決定するステップと、データ処理システムによって、頻度データに基づいて複数のベクトルデータ構造を更新するステップであって、複数のベクトルデータ構造のうちの少なくとも1つのベクトルデータ構造が、ユーザの頻度データに基づいて複数のユーザのうちのあるユーザの識別情報を符号化するために更新される、ステップと、データ処理システムによって、複数の提供者にわたるデータセットの重複排除のために複数のベクトルデータ構造を分析サーバに送信するステップとを備える。
【0004】
いくつかの実装形態では、分析サーバは、複数のベクトルデータ構造を第2の提供者からの第2の複数のベクトルデータ構造と組み合わせて、重複排除された分布を生成する。
【0005】
いくつかの実装形態では、ベクトルデータ構造は複数のカウンタのための座標を定義し、複数のベクトルデータ構造を更新することは、複数のベクトルデータ構造の中の少なくとも1つのカウンタを更新して、ユーザの識別情報を符号化することを備える。
【0006】
いくつかの実装形態では、複数のベクトルデータ構造を更新することはさらに、ユーザの識別情報のハッシュ関数に基づいて複数のベクトルデータ構造の第1の座標を決定することを備える。
【0007】
いくつかの実装形態では、複数のベクトルデータ構造は各々、1と定められた頻度閾値との間の特定の頻度に対応する。
【0008】
いくつかの実装形態では、複数のユーザの識別情報は、複数のベクトルデータ構造の1つだけのベクトルデータ構造へと符号化される。
【0009】
本開示の様々な態様は、複数の提供者とのユーザのインタラクションの頻度に対応するデータセットの重複を排除するための方法に関し、方法は、1つまたは複数のプロセッサおよび1つまたは複数のメモリを備えるデータ処理システムによって、複数の提供者のうちの第1の提供者から2つ以上のベクトルデータ構造の第1の集合を受信し、複数の提供者のうちの第2の提供者から2つ以上のベクトルデータ構造の第2の集合を受信するステップであって、ベクトルデータ構造が複数の頻度に対応し、ベクトルデータ構造の各々が識別子を識別子に関連するインタラクションの頻度に従って符号化する、ステップと、データ処理システムによって、2つ以上のベクトルデータ構造の第1の集合と2つ以上のベクトルデータ構造の第2の集合を重複排除された頻度分布へと組み合わせるステップであって、重複排除された頻度分布が、第1の提供者と第2の提供者の両方にわたって識別子に関連するユーザのユーザインタラクションの全体の頻度を定義する、ステップとを備える。
【0010】
いくつかの実装形態では、方法はさらに、データ処理システムによって、重複排除された頻度分布の表現を備えるグラフィカルユーザインターフェースデータを生成するステップを備える。
【0011】
いくつかの実装形態では、方法はさらに、データ処理システムによって、閾値の頻度を複数の提供者に送信するステップを備え、複数の頻度は閾値の頻度によって定義される。
【0012】
いくつかの実装形態では、2つ以上のベクトルデータ構造の第1の集合の中の、および2つ以上のベクトルデータ構造の第2の集合の中のベクトルデータ構造は各々、1と閾値の頻度との間の特定の頻度に対応する。
【0013】
いくつかの実装形態では、識別子は、2つ以上のベクトルデータ構造の第1の集合の1つだけのベクトルデータ構造および2つ以上のベクトルデータ構造の第2の集合の1つだけのベクトルデータ構造へと符号化される。
【0014】
いくつかの実装形態では、ベクトルデータ構造はカウントのベクトル(VOC)である。
【0015】
いくつかの実装形態では、ベクトルデータ構造は、任意分布ブルームフィルタ(any distribution bloom filter)である。
【0016】
いくつかの実装形態では、2つ以上のベクトルデータ構造の第1の集合および2つ以上のベクトルデータ構造の第2の集合を重複排除された頻度分布へと組み合わせるステップは、データ処理システムによって、2つ以上のベクトルデータ構造の第1の集合および2つ以上のベクトルデータ構造の第2の集合を2つ以上のベクトルデータ構造の第1の組み合わせられた集合へと組み合わせるステップと、データ処理システムによって、複数の提供者のうちの第3の提供者から2つ以上のベクトルデータ構造の第3の集合を受信するステップと、2つ以上のベクトルデータ構造の第1の集合および2つ以上のベクトルデータ構造の第2の集合を2つ以上のベクトルデータ構造の第1の組み合わせられた集合へと組み合わせたことに応答して、データ処理システムによって、2つ以上のベクトルデータ構造の第1の組み合わせられた集合と第3の提供者からの2つ以上のベクトルデータ構造の第3の集合を、2つ以上のベクトルデータ構造の第2の組み合わせられた集合へと組み合わせるステップとを備える。
【0017】
いくつかの実装形態では、2つ以上のベクトルデータ構造の第1の集合および2つ以上のベクトルデータ構造の第2の集合を重複排除された頻度分布へと組み合わせるステップは、2つ以上のベクトルデータ構造の第1の集合の第1のベクトルデータ構造と2つ以上のベクトルデータ構造の第2の集合の第2のデータ構造との積集合を決定するステップと、第1のベクトルデータ構造と第2のベクトルデータ構造との積集合において符号化されるユーザの数を決定するステップと、決定されたユーザの数に基づいて重複排除された頻度分布を更新するステップとを備える。
【0018】
本開示の様々な態様はまた、複数の提供者から受信されたデータセットを縮小するためのシステムに関し、このシステムは、複数の提供者に関連する複数のサーバと通信するように構成されるネットワークインターフェースと、ネットワークインターフェースおよびメモリに結合される1つまたは複数のプロセッサとを備え、メモリは、命令を記憶し、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、ネットワークインターフェースを介して、複数の提供者のうちの第1の提供者からのプライベートスケッチ(private sketch)の第1の集合および複数の提供者のうちの第2の提供者からのプライベートスケッチの第2の集合を受信させ、プライベートスケッチが識別子のデータセットを表し、プライベートスケッチが複数の頻度に対応し、プライベートスケッチの第1の集合およびプライベートスケッチの第2の集合を使用して組み合わせられた分布を生成させ、組み合わせられた分布がプライベートスケッチの第1の集合およびプライベートスケッチの第2の集合によって表されるデータセットの重複を排除し、データベースへ組み合わせられた分布を記憶させる。
【0019】
いくつかの実装形態では、1つまたは複数のプロセッサはさらに、プライベートスケッチの第1の集合およびプライベートスケッチの第2の集合をプライベートスケッチの統合された集合へと組み合わせ、データベースにプライベートスケッチの統合された集合を記憶するようになされる。
【0020】
いくつかの実装形態では、1つまたは複数のプロセッサはさらに、複数の提供者のうちの第3の提供者からプライベートスケッチの第3の集合を受信し、プライベートスケッチの統合された集合およびプライベートスケッチの第3の集合を組み合わせてプライベートスケッチの新しい統合された集合を生成し、データベースにプライベートスケッチの新しい統合された集合を記憶するようになされる。
【0021】
いくつかの実装形態では、プライベートスケッチはカウントのベクトル(VOC)である。
【0022】
いくつかの実装形態では、プライベートスケッチは、任意分布ブルームフィルタである。
【0023】
本技術のこれらのおよび他の特徴および特性、ならびに動作の方法、および構造の関連する要素の機能、および部品の組合せ、および製造の経済性が、添付の図面を参照して以下の説明および添付の特許請求の範囲を考慮すればより明らかになり、それらのすべてが本明細書の一部を形成し、同様の参照番号は様々な図面において対応する部分を指定する。しかしながら、図面は例示および説明を目的とするものにすぎず、本発明の限界を定めるものとして意図されないことが、明らかに理解されるべきである。本明細書および特許請求の範囲において使用される場合、単数形の「a」、「an」、および「the」は、文脈が別段明らかに示さない限り、複数の指示物を含む。
【0024】
添付の図面は、縮尺通りに描かれることは意図されない。様々な図面における同様の参照番号および名称は、同様の要素を示す。わかりやすくするために、あらゆる図面のあらゆる構成要素が標識されてはいないことがある。この技術的な解決策のこれらのおよび他の態様および特徴は、添付の図面に関連して以下の説明を検討すれば、当業者に明らかになるだろう。
【図面の簡単な説明】
【0025】
【
図1】プライベートスケッチの集合を生成してデバイス識別子のカウントおよび頻度を決定するためのシステムの例示的な実装形態を示すブロック図である。
【
図2】プライベートスケッチの集合へとデータセットを符号化するためのプロセスの流れ図である。
【
図3】ブルームフィルタを更新することの説明のための例を示す図である。
【
図4A】任意分布ブルームフィルタの説明のための例を示す図である。
【
図4B】任意分布ブルームフィルタの説明のための例を示す図である。
【
図4C】任意分布ブルームフィルタの説明のための例を示す図である。
【
図5】データセットを任意分布ブルームフィルタへと符号化するためのプロセスの流れ図である。
【
図6】複数の提供者からのデータセットの重複を排除して単一の分布を生成するためのプロセスの流れ図である。
【
図7】プライベートスケッチの集合を逐次統合してプライベートスケッチの単一の集合を生成するための流れ図である。
【
図8A】システムの様々な実験パラメータの比較と、逐次統合アルゴリズムを使用して得られた計算に対するそれらのパラメータの影響とを示す、例示的なデータグラフである。
【
図8B】システムの様々な実験パラメータの比較と、逐次統合アルゴリズムを使用して得られた計算に対するそれらのパラメータの影響とを示す、例示的なデータグラフである。
【
図8C】システムの様々な実験パラメータの比較と、逐次統合アルゴリズムを使用して得られた計算に対するそれらのパラメータの影響とを示す、例示的なデータグラフである。
【
図8D】システムの様々な実験パラメータの比較と、逐次統合アルゴリズムを使用して得られた計算に対するそれらのパラメータの影響とを示す、例示的なデータグラフである。
【
図9A】システムの様々な実験パラメータの比較と、ペアワイズ重複(pairwise-overlap)アルゴリズムを使用して得られた計算に対するそれらのパラメータの影響とを示す、例示的なデータグラフである。
【
図9B】システムの様々な実験パラメータの比較と、ペアワイズ重複アルゴリズムを使用して得られた計算に対するそれらのパラメータの影響とを示す、例示的なデータグラフである。
【
図10】本明細書において論じられる計算/処理デバイスおよび回路のいずれかを実装するために利用され得る、説明のためのコンピュータシステムの一般的なアーキテクチャを示す図である。
【発明を実施するための形態】
【0026】
データの交換および記憶のサイズおよび複雑さについての要件を下げながら、正確さおよびプライバシーが向上した頻度ごとのリーチデータのプライベートスケッチを生成して組み合わせる、方法、装置、およびシステムに関連する様々な概念、ならびにその実装形態の詳細な説明が以下にある。説明される概念はどのような特定の実装方式にも限定されないので、上で紹介され以下でより詳しく論じられる様々な概念は多数の方法のいずれで実装されてもよい。具体的な実装形態および応用の例は、主に説明を目的に与えられる。
【0027】
提供者のグループは各々、集団中の個人とインタラクションを行うことがあり、前記インタラクションの発生および頻度を個別に記録することがある。ここで、個人(「ユーザ」、「クライアント」、または「顧客」と交換可能に使用される)は、特定のタイプのインタラクション(たとえば、特定のコンテンツキャンペーン、特定のコンテンツアイテム、特定のコンテンツアイテムの集合、特定のタイプ/フォーマットのコンテンツアイテム、特定のカテゴリのコンテンツなど)についてその個人が提供者とのインタラクションを行った回数を表す頻度と関連付けられ得る。各提供者により維持されるデータセットは、提供者がインタラクションを行う個人のプライバシーを確保するために保護されるので、提供者は自身の記録されたデータセットの詳細をグループ中の他の提供者と自由に共有できない。それでも、提供者のグループは、各インタラクション頻度ごとの、提供者のグループ全体にわたる個人に対するインタラクションの全体の分布を理解することに関心を持つことがある。たとえば、提供者またはアナリストは、集団中のどれだけの個人が提供者のグループと全体で3回のインタラクションを行ったか、またはどれだけが提供者のグループと全体で5回以上のインタラクションを行ったかなどを、知るのを望むことがある。
【0028】
1つの方法は、符号化されたプライベートスケッチを使用して全体のリーチを理解するために複数の提供者のデータセットの重複を排除すること(すなわち、グループの少なくとも1名の提供者とインタラクションを行った個人の数を決定すること)を含む。プライベートスケッチは、プライベートスケッチに含まれるユーザの識別情報を明らかにすることなく、ユーザの識別情報に関する符号化された情報を提供するデータ構造である。プライベートスケッチは、アナリストまたは自動化されたサーバがデータセットの重複を排除できるように構築される。重複排除は、データセットに複数回含まれ得るエントリを取り除くことを指す。たとえば、第1の提供者は、個人Aおよび個人Bの各々とのインタラクションを記録することがあり、一方で第2の提供者は個人Aおよび個人Cとのインタラクションを記録するが、これらの2つのデータセットを組み合わせるとき、全体で3人の個人が第1および第2の提供者にわたる全体のリーチとして記録されるように、個人Aは一度だけ記録されるべきである。
【0029】
それでも、データセット重複排除のそのような方法は、保護された個人情報の秘匿化により、頻度ごとの分析(たとえば、頻度ごとのリーチまたは分布)を許可しない。たとえば、識別情報をプライベートスケッチへと符号化することによって、提供者は、個人の関連付けられた頻度データをプライベートスケッチへと符号化することを阻まれ、これは、アナリストが頻度に従ってデータセットを正確に重複排除する能力を制約する。上で使用される説明のための例を再び参照すると、頻度ごとの分析においてデータセットの重複を排除することは、個人Aが第1の提供者と2回、第2の提供者と1回インタラクションを行う場合に、個人Aが全体で3という頻度を割り当てられ、または別様に3という頻度を有するものとしてカウントされるように、データセットが重複排除されるべきであることを意味する。そのような方法を使用してユーザ識別子に関連する頻度データを含めようとすると、データ交換プロトコルのサイズ、複雑さ、および誘発される誤差が増大する。秘匿化された情報の記憶および送信の改善のために、データセットのサイズおよび複雑さを低減するのが一般に望ましい。
【0030】
同様に、提供者は匿名化されたデータセットの共有を制限され、それは、提供者が普遍的な識別子に基づいて個人を再識別できるからである。秘匿化されたデータセットにおけるデータプライバシーのための1つの基準は、データセットが差分プライバシーを維持するのを確実にすることである。差分プライバシーは一般に、データセットに含まれる特定のユーザのプライバシーがデータセット中にない個人のプライバシーと概ね同じであることを要求する。言い換えると、差分プライバシーは、特定のユーザがデータセットに含まれていたか、または含まれていなかったかを決定するための能力を弱める。
【0031】
本開示は、データ交換処理システムにおいて頻度ごとの分析のためにデータセットの重複を排除するためのプロトコルと関連する方法を定義することによって、これらの問題に対する解決策を提供する。一般に、提供者のグループは各々、あらかじめ定められた数のプライベートスケッチを生成し、各プライベートスケッチは、個人と提供者とのインタラクションの特定の頻度に対応する。各提供者は次いで、全体の分布が生成され得るように自身のプライベートスケッチのセットを共有することができる。全体の分布は、提供者のグループ全体とのインタラクションの総数(すなわち、総頻度)によって個人を匿名で分類するので、提供者またはアナリストは、どれだけのユニークな個人が提供者のグループと1回インタラクションを行ったか、どれだけの個人がグループと2回インタラクションを行ったかなどを理解することができる。したがって、保護対象の情報を曝すことなく、交換されたデータセットのサイズと複雑さを減らし、ならびに提供者のグループにわたってより正確にデータセットの重複を排除するための、差分プライベートなデータ交換プロトコルが利用され得る。
【0032】
説明のための実装形態に従って、プロトコルのより詳細な概要が以下で提供される。
【0033】
まず、s名の提供者のグループに対して、閾値の頻度がすべての提供者により合意され、これはkとして指定され得る。
【0034】
提供者のグループ中の各提供者iは次いで、提供者iがインタラクションを行った個人に関連する識別子を秘密に符号化するために、k個のプライベートスケッチを生成する。k個のプライベートスケッチが指定される。
【0035】
スケッチ#1: 頻度f=1の識別子
【0036】
スケッチ#2: 頻度f=2の識別子
【0037】
…
【0038】
スケッチ#(k-1): 頻度f=(k-1)の識別子
【0039】
スケッチ#k: 頻度f>=kの識別子(f=k+と交換可能に使用される)
【0040】
したがって、提供者の記録の中の各識別子は、個人と提供者iとのインタラクションの回数に基づいて、k個のプライベートスケッチのうちの1つだけに符号化され得る。
【0041】
提供者iがインタラクションを行わなかった個人が存在する場合(大抵はそうである)、個人は提供者iのためのプライベートスケッチのいずれにも符号化されない。
【0042】
s名の提供者の各々がk個のプライベートスケッチの集合を生成し、これはすべてのs名の提供者にわたる全体の分布を形成するために組み合わせられ得る。特定の頻度wに対する頻度ごとのリーチ(すなわち、提供者のグループにわたる特定の回数のインタラクションを伴う個人の総数)を、以下の表記によって表すことができ、
Rw=R(f1+f2+…+ fs=w)
各Rは、s名の提供者の各々における頻度の様々な組合せに基づいて、全体の頻度がwであるユニークな個人の総数を出力する関数である。説明のための例として、w=3に対して、たとえばある個人が提供者(1)と2回インタラクションを行い(f1=2)、提供者(2)と1回インタラクションを行い(f2=1)、残りの提供者のいずれともインタラクションを行わなかった(f3,...,fs=0)場合、その個人は頻度ビンの全体のリーチR3においてカウントされる。
【0043】
頻度ごとのリーチRwを推定するためにいくつかの方法が使用されてもよく、これは後続のセクションにおいてより詳しく説明される。1つのそのような方法は、提供者の個々のスケッチを組み合わせてスケッチの組み合わせられた集合を生成し、その集合から全体の分布を計算することができる。別のそのような方法は、個々のスケッチの積集合および和集合に基づいて、スケッチの集合から直接全体の分布を生成する。
【0044】
開示される方法およびシステムの技術的な利点は、秘匿化されたデータセットの送信および記憶のための、サイズおよび複雑の低減である。上で説明されたように、データセットはプライベートスケッチへと符号化され、これはデータセットの全体のサイズを減らす。加えて、本解決策は、頻度ごとの分析のために設計される他の差分プライベートな交換プロトコルと比較して、頻度ごとの差分プライベートなデータセットの複雑さを低減する。
【0045】
第2の技術的な利点は、秘匿化されたデータ構造からの重複排除されたデータセットの正確さを改善することにおいて実現される。差分プライバシー(DP)は、個人がデータセットに含まれるかどうかを統計的に決定する際の信頼性のレベルに対応する0ではない誤差値εを定義することによってテストされ得る。ε値は、ある個人を含むかまたは含まないかという点のみが異なる、2つの同一のデータセット間のわずかな違いであると考えられる。信頼度のレベルがε未満であるとき、差分プライバシーが維持される。より小さいデータセットでは、データセットの変化は比例してより大きくなり、ノイズ(DPノイズと呼ばれることがある)がε-DP閾値を維持するためにデータセットに追加されることがある。同様に、前述の方法を使用して頻度データを符号化するときにはそうであろうが、分布の偏差がより大きい場合、より高い割合の量のDPノイズが差分プライバシーを維持するために追加されるので、全体の分布の推定において誤差の増大をもたらす。識別子に関連してプライベートスケッチの中の頻度データを符号化しないことによって、本解決策は重複排除されたデータの正確さを高める。
【0046】
ここで説明されるシステムおよび方法の例示的な使用事例は、医療産業に関連し得る。たとえば、病院のグループは各々サービスをある都市または地域に提供することがあるが、各病院は特定の患者とのインタラクションの回数を内部で記録することができ、病院は、病院のグループにわたって患者がどれだけ頻繁に提供されたサービス(たとえば、救急外来)を受けているかを理解することに関心があり得る。しかしながら、保護対象の個人情報を共有することについての法的な制約により、病院は、サービスを提供した患者の識別情報を共有することが許可されないことがあるので、データを自由に共有して、患者がどれだけ頻繁にサービスを受けたかについての重複排除された分布を計算することができない。本解決策は、全体の分布の推定をそれでも可能にする、秘匿化された患者情報を共有するための複数の病院のデータ処理システムに対するセキュアな方法を提供する。
【0047】
ここで説明されるシステムおよび方法の別の例示的な使用事例は、オンライン広告に関連し得る。オンラインマーケターは、複数のウェブサイトに広告を表示させるために代金を払うことがある。マーケターは、潜在的な顧客をより理解するために、複数のウェブサイトにわたってインターネットユーザがどれだけ頻繁に自身の広告を見たかを理解するのを望むことがある。しかしながら、やはりオンラインでのユーザデータのプライバシーの問題により、ウェブサイトサーバは、ウェブサイトに誰がアクセスしたか、または広告を含むウェブページを特定のユーザが何回見たかを、他者と共有することが許可されないことがある。本明細書において説明される解決策は、取り扱いに注意を要するユーザ情報を曝すことなく、ウェブサイトが秘密を保ったままマーケティングデータを共有することを可能にするので、広告主は、どれだけの人が何回広告を見たかを理解することができる。
【0048】
ここで
図1を参照すると、インタラクションデータの全体のリーチの分布を生成するために、複数の提供者からのデータセットの頻度重複を排除するための、システム100が示されている。システム100は、少なくとも1つのデータ処理システム105A-S(全般にデータ処理システム105と呼ばれることがある)、少なくとも1つのネットワーク110、少なくとも1つの重複排除サーバ115(分析サーバと交換可能に使用される)、および少なくとも1つのアナリストデバイス120を含み得る。いくつかの実装形態では、システム100は、少なくとも1つのクライアントデバイス135A-N(全般にクライアントデバイス135と呼ばれることがある)を含む。データ処理システム105は、少なくとも1つのプロセッサ107を伴う処理回路106と、少なくとも1つのベクトル生成器140、少なくとも1つの頻度特定器145、少なくとも1つのベクトル選択器150、少なくとも1つのデータ記録ハッシャ155、および少なくとも1つのベクトルエンコーダ160を備える、記憶媒体108とを含む。データベース125は、クライアント識別子132および対応する属性134を含み得る、少なくとも1つのデータ記録130を含むことができる。同様に、重複排除サーバ115は、少なくとも1つのプロセッサ117を伴う処理回路116と、少なくとも1つのプロトコル協調器165、少なくとも1つのベクトル重複排除器170、少なくとも1つの分布生成器175、および少なくとも1つのGUI生成器180を備える、記憶媒体118とを含む。
【0049】
システム100の構成要素(たとえば、データ処理システム105、ネットワーク110、重複排除サーバ115、アナリストデバイス120、クライアントデバイス135)の各々は、ハードウェア構成要素、ソフトウェア(1つまたは複数のコンピュータ可読記憶媒体に記憶される命令)、またはこれらの組合せ(たとえば、
図10に関連して本明細書において詳述される、コンピューティングシステム1000のハードウェア構成要素、またはハードウェア構成要素とソフトウェアの組合せ)を使用して実装され得る。たとえば、データ処理システム105は、サーバまたは他のコンピューティングデバイスを含み得る。アナリストデバイス120は、サーバまたは他のコンピューティングデバイスを含み得る。同様に、データ処理システム105および重複排除サーバ115の部分構成要素(たとえば、ベクトル生成器140、頻度特定器145、ベクトル選択器150、データ記録ハッシャ155、ベクトルエンコーダ160、プロトコル協調器165、ベクトル重複排除器170、分布生成器175、およびGUI生成器180)は、本明細書において詳述される機能を実行するために、別個のまたは組み合わせられたハードウェアおよび/またはソフトウェアとして実装され得る。
【0050】
ネットワーク110は、インターネット、ローカルネットワーク、ワイドネットワーク、メトロエリアネットワークまたは他のエリアネットワーク、イントラネット、衛星ネットワーク、音声またはデータの携帯電話通信ネットワークなどの他のコンピュータネットワーク、およびこれらの組合せなどの、コンピュータネットワークを含み得る。システム100のデータ処理システム105は、たとえば、別のデータ処理システム105A-S、重複排除サーバ115、および/またはアナリストデバイス120と、ネットワーク110を介して通信することができる。ネットワーク110は、重複排除サーバ115、データ処理システム105、およびウェブサーバなどの1つまたは複数の他のソースの間で情報を中継する、任意の形態のコンピュータネットワークであり得る。いくつかの実装形態では、ネットワーク110は、インターネット、および/または、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、セルラーネットワーク、衛星ネットワーク、もしくは他のタイプのデータネットワークなどの、他のタイプのデータネットワークを含み得る。ネットワーク110は、ネットワーク110内でデータを受信および/または送信するように構成される、任意の数のコンピューティングデバイス(たとえば、コンピュータ、サーバ、ルータ、ネットワークスイッチなど)も含み得る。ネットワーク110はさらに、任意の数の有線および/またはワイヤレス接続を含み得る。重複排除サーバ115は、ネットワーク110の中の他のコンピューティングデバイスに(たとえば、光ファイバケーブル、CAT5ケーブルなどを介して)有線接続されるトランシーバと、(たとえば、WiFi、セルラー、無線などを介して)ワイヤレスに通信し得る。重複排除サーバ115はまた、プロキシデバイス(たとえば、ルータ、ネットワークスイッチ、またはゲートウェイ)を介して、ネットワーク110のコンピューティングデバイスとワイヤレスに通信し得る。
【0051】
データ処理システム105は、少なくとも1つのプロセッサおよびメモリ、すなわち処理回路を含み得る。メモリは、プロセッサによって実行されると、本明細書において説明される動作の1つまたは複数をプロセッサに実行させる、プロセッサ実行可能命令を記憶する。プロセッサは、マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、またはこれらの組合せを含み得る。メモリは、限定はされないが、プログラム命令をプロセッサに提供することが可能な、電気的な、光学的な、磁気的な、または任意の他の記憶デバイスもしくは送信デバイスを含み得る。メモリはさらに、フロッピーディスク、CD-ROM、DVD、磁気ディスク、メモリチップ、ASIC、FPGA、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、電気的消去可能プログラマブルROM(EEPROM)、消去可能プログラマブルROM(EPROM)、フラッシュメモリ、光学媒体、またはプロセッサがそれから命令を読み取ることができる任意の他の適切なメモリを含み得る。命令は、任意の適切なコンピュータプログラミング言語からのコードを含み得る。データ処理システム105は、たとえば本明細書において説明される機能または方法を含む、様々な機能を実行できる1つまたは複数のコンピューティングデバイスまたはサーバを含み得る。
【0052】
データベース125は、本明細書において説明される情報のいずれかを記憶および/または維持するように構成されるデータベースであり得る。データベース125は、本明細書において説明される値、複数のもの、または閾値の各々を含むことができる、またはインデクシングすることができる、1つまたは複数のデータ構造を維持することができる。データベース125は、1つまたは複数のメモリアドレスまたはインデックス値を使用してアクセスされ得る。データベース125は、データ処理システム105の構成要素によって、またはいくつかの実装形態ではアナリストデバイス120によって、ネットワーク110を介してアクセスされ得る。いくつかの実装形態では、データベース125は、データ処理システム105の外部に存在することができ、ネットワーク110を介してアクセスされてもよい。データベース125は、多くの異なるコンピュータシステムまたは記憶要素にわたって分散していてもよく、ネットワーク110または適切なコンピュータバスインターフェースを介してアクセスされてもよい。データ処理システム105は、データベース125に、適切な値でインデクシングされた1つまたは複数のデータ構造における、任意のもしくはすべての計算、決定、選択、特定、生成、構築、または算出の結果を記憶することができ、それらの各々が、本明細書において説明される機能性または機能のいずれかを実行するために、データ処理システム105またはクライアントデバイス135によってアクセスされ得る。
【0053】
アナリストデバイス120は、データ処理システム105によって提供される指示(たとえば、クライアント識別子132、属性134、頻度値、または本明細書において説明される任意の他の値などの集合の濃度を表示する指示)などのデータを表示するために、ネットワーク110を介して通信するように構成されるコンピューティングデバイスであり得る。アナリストデバイス120は、とりわけ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、携帯情報端末、モバイルデバイス、コンシューマコンピューティングデバイス、サーバ、クライアント、デジタルビデオレコーダ、テレビ向けのセットトップボックス、ビデオゲームコンソール、またはネットワーク110を介して通信するように構成される任意の他のコンピューティングデバイスであり得る。アナリストデバイス120は、1つもしくは複数のクライアント識別子132または1つもしくは複数の属性134をデータ処理システム105に送信し、または受信することができる。アナリストデバイス120は、いくつかの実装形態では、それぞれのアナリストデバイス120に関連してクライアント識別子132または属性134を記憶するために、少なくとも1つのデータベース125と通信し得る。
【0054】
アナリストデバイス120は、プロセッサおよびメモリ、すなわち処理回路を含み得る。メモリは、プロセッサによって実行されると、本明細書において説明される動作の1つまたは複数をプロセッサに実行させる、機械命令を記憶する。プロセッサは、マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、またはこれらの組合せを含み得る。メモリは、限定はされないが、プログラム命令をプロセッサに提供することが可能な、電気的な、光学的な、磁気的な、または任意の他の記憶デバイスもしくは送信デバイスを含み得る。メモリはさらに、フロッピーディスク、CD-ROM、DVD、磁気ディスク、メモリチップ、ASIC、FPGA、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、電気的消去可能プログラマブルROM(EEPROM)、消去可能プログラマブルROM(EPROM)、フラッシュメモリ、光学媒体、またはプロセッサがそれから命令を読み取ることができる任意の他の適切なメモリを含み得る。命令は、任意の適切なコンピュータプログラミング言語からのコードを含み得る。
【0055】
アナリストデバイス120は、1つまたは複数のユーザインターフェースデバイスを含み得る。一般に、ユーザインターフェースデバイスは、感覚情報(たとえば、ディスプレイ上での視覚化、1つまたは複数の音など)を生成することによってデータをユーザに伝える、かつ/または、ユーザからの受け取られた感覚情報を電気信号に変換する、任意の電子デバイス(たとえば、キーボード、マウス、ポインティングデバイス、タッチスクリーンディスプレイ、マイクロフォンなど)を指す。1つまたは複数のユーザインターフェースデバイスは、アナリストデバイス120のハウジングの内部にあってもよく(たとえば、内蔵ディスプレイ、マイクロフォンなど)、または、アナリストデバイス120のハウジングの外部にあってもよい(たとえば、アナリストデバイス120に接続されるモニタ、アナリストデバイス120に接続されるスピーカーなど)。いくつかの実装形態では、アナリストデバイス120は電子ディスプレイを含んでもよく、これは、アナリストデバイス120上で実行されるオペレーティングシステムによって提供される、データベース125から取り出される、またはデータ処理システム105によって提供されるインターフェースデータを使用して、インターフェースを視覚的に表示する。
【0056】
クライアントデバイス135は、データ処理システム105によって提供される指示(たとえば、識別子132、属性134、頻度値、または本明細書において説明される任意の他の値などの集合の濃度を表示する指示)などのデータを表示するために、ネットワーク110を介して通信するように構成されるコンピューティングデバイスであり得る。クライアントデバイス135は、とりわけ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、携帯情報端末、モバイルデバイス、コンシューマコンピューティングデバイス、サーバ、クライアント、デジタルビデオレコーダ、テレビ向けのセットトップボックス、ビデオゲームコンソール、またはネットワーク110を介して通信するように構成される任意の他のコンピューティングデバイスであり得る。クライアントデバイス135は、1つもしくは複数のクライアント識別子132または1つもしくは複数の属性134をデータ処理システムに送信し、または受信することができる。クライアントデバイス135は、それぞれのクライアントデバイス135に関連してクライアント識別子132または属性134を記憶するために、少なくとも1つのデータベース125と通信することができる。
【0057】
クライアントデバイス135は、プロセッサおよびメモリ、すなわち処理回路を含み得る。メモリは、プロセッサによって実行されると、本明細書において説明される動作の1つまたは複数をプロセッサに実行させる、機械命令を記憶する。プロセッサは、マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、またはこれらの組合せを含み得る。メモリは、限定はされないが、プログラム命令をプロセッサに提供することが可能な、電気的な、光学的な、磁気的な、または任意の他の記憶デバイスもしくは送信デバイスを含み得る。メモリはさらに、フロッピーディスク、CD-ROM、DVD、磁気ディスク、メモリチップ、ASIC、FPGA、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、電気的消去可能プログラマブルROM(EEPROM)、消去可能プログラマブルROM(EPROM)、フラッシュメモリ、光学媒体、またはプロセッサがそれから命令を読み取ることができる任意の他の適切なメモリを含み得る。命令は、任意の適切なコンピュータプログラミング言語からのコードを含み得る。
【0058】
クライアントデバイス135は、1つまたは複数のユーザインターフェースデバイスを含み得る。一般に、ユーザインターフェースデバイスは、感覚情報(たとえば、ディスプレイ上での視覚化、1つまたは複数の音など)を生成することによってデータをユーザに伝える、かつ/または、ユーザからの受け取られた感覚情報を電気信号に変換する、任意の電子デバイス(たとえば、キーボード、マウス、ポインティングデバイス、タッチスクリーンディスプレイ、マイクロフォンなど)を指す。1つまたは複数のユーザインターフェースデバイスは、クライアントデバイス135のハウジングの内部にあってもよく(たとえば、内蔵ディスプレイ、マイクロフォンなど)、または、クライアントデバイス135のハウジングの外部にあってもよい(たとえば、クライアントデバイス135に接続されるモニタ、クライアントデバイス135に接続されるスピーカーなど)。いくつかの実装形態では、クライアントデバイス135は電子ディスプレイを含んでもよく、これは、クライアントデバイス135上で実行されるオペレーティングシステムによって提供される、データベース125から取り出される、またはデータ処理システム105によって提供されるインターフェースデータを使用して、インターフェースを視覚的に表示する。
【0059】
したがって、クライアントデバイス135は、特定のカテゴリ、アイテム、または製品に関する提供者のコンテンツキャンペーンと関連付けられるコンテンツなどの、ウェブページまたはアプリケーションを介した提供者コンテンツの送信を介して、1つまたは複数の提供者のデータ処理システム105とのインタラクションを行い得る。ユーザと提供者との間のインタラクションは、ウェブページのダウンロード、登録、ビュー、クリック、または任意の他のタイプのインタラクションを含み得る。
【0060】
データ処理システム105は、データベース125において、少なくとも1つのデータ記録130を維持することができる。データ記録130は、たとえば、少なくとも1つのクライアント識別子132および少なくとも1つの属性134を含み得る。クライアント識別子132は、ユーザ(クライアントと交換可能に使用される)、クライアントデバイス135、またはユーザに関連する他の代理物に対応し得る。属性134は、データ記録130の中のクライアント識別子132と関連付けられ、それぞれのクライアントの属性についての情報を含み得る。属性は、たとえば、とりわけ、クライアントデバイス位置データ、クライアントデバイスメタデータ、クライアントデバイスパラメータ、設定、および他の情報、ユーザプロファイルデータ、クライアントデバイス135によって実行されるインタラクション、アプリケーションブラウジング履歴、ウェブページブラウジング履歴、活動情報、デバイス特性、クライアントデバイス135がコンテンツアイテムを見たか、またはそれとのインタラクションを行ったかどうか、ネットワーク利用率情報、電力利用率情報、ならびにデバイスのオペレーティングシステムのバージョン、設定、および他の情報を含み得る。データ処理システムは、クライアントデバイス135の各々からデバイス識別子および属性データを受信し、それぞれのクライアントデバイス135に対応するそれぞれのデータ記録を生成し、データベース125に維持することができる。いくつかの実装形態では、データ処理システム105の各々は、ユーザまたはクライアントデバイス135の特定のセットから、クライアントデバイスの識別子および情報のみを受信し得る。データ処理システム105A-Sは、他のデータ処理システム105A-Sがアクセスできない固有のデータベース125にそれぞれのデータ記録を維持し得る。いくつかの実装形態によれば、ユーザの異なるグループは、異なる識別子サーバ(たとえば、データ処理システム105)によってサービスされてもよく、各データ処理システムは、自身のユーザの集合のそれぞれ1つに対応するデータ記録の自身固有の集合を維持してもよい。
【0061】
様々な実装形態において、データ処理システム105A-Sの各々は、提供者のグループの中の提供者と関連付けられ得る。したがって、データ処理システム105A-Sは、それぞれの提供者と集団中の個人とのインタラクションに関するデータを記録して管理し得る。いくつかの実装形態では、提供者のグループの中の提供者は、本明細書において説明される機能を実装するために、複数のデータ処理システム105を活用し得る。いくつかの実装形態では、データ処理システム105A-Sは、ネットワーク110を介してユーザに関連するクライアントデバイス135と通信し、関連するクライアントデバイス135とのインタラクションを記録するように構成され得る。
【0062】
データ処理システム105は、データセットを符号化するためのベクトルデータ構造を生成するように構成され得るベクトル生成器140を含むものとして示されている。ベクトル生成器140は、複数の座標を備えるベクトルを生成することができる。ベクトルを生成するために、ベクトル生成器140は、少なくとも1つのカウンタレジスタを収容するために、データ処理システム105の中のメモリの1つまたは複数の領域を割り振ることができる。割り振られたカウンタレジスタは、ベクトルの少なくとも1つの座標に対応し得る。1つまたは複数のカウンタレジスタのためにメモリを生成して割り振ることによって、ベクトル生成器140は、カウンタレジスタを備えるベクトルを生成することができる。ベクトル生成器140は、ベクトルのカウンタレジスタの各々を初期化値、たとえば0または1に初期化することができる。ベクトル生成器140は、任意の数のカウンタレジスタ(「バケット」と呼ばれることがある)を有するように、ブルームフィルタに対応し得るベクトルを生成することができる。たとえば、ベクトル生成器140は、n個のバケットを伴うブルームフィルタを生成するための指示を受信することができ、または、外部コンピューティングデバイスによって提供される、バケットまたはカウンタレジスタの数によりブルームフィルタのサイズを指定する内部構成設定にアクセスしてもよい。
【0063】
同様に、ベクトル生成器140は、ベクトルの集合のために生成すべきベクトルの数の指示を受信するように構成され得る。いくつかの実装形態では、ベクトル生成器140は、生成されたベクトルの集合と関連付けるべき頻度ビンの指定を受信することができる。ベクトル生成器140は、ベクトルの集合の中の各ベクトルを、頻度指定の中の対応する頻度でアノテートし、または別様にそれと関連付け得る。いくつかの実装形態では、この指定は重複排除サーバ115から受信され得る。いくつかの実装形態では、頻度は各々単一の頻度に対応する。いくつかの実装形態では、一部の指定は頻度の範囲に対応し得る。一実装形態では、頻度指定は頻度ビンの集合(1, 2, ..., k-1, k+)を指定する。理解されるように、頻度指定の異なる構成が、プライベートスケッチの集合のために使用され得る。たとえば、1+を表すプライベートスケッチなどの、追加のプライベートスケッチが含まれ得る。いくつかの実装形態では、集合の中のプライベートスケッチは各々、(1+, 2+, ..., k+)のうちの1つに対応し得る。
【0064】
頻度特定器145は、クライアント識別子132に関連する頻度データを決定するように構成される。いくつかの実装形態では、頻度特定器145は、属性134に記憶されているデータに基づいて、クライアント識別子132の頻度データを決定し得る。たとえば、頻度特定器145は、データ記録130にクライアント識別子が現れる回数を決定し得る。いくつかの実装形態では、頻度特定器145は、特定のサービスまたはインタラクションの頻度を決定するので、クライアント識別子に関連するすべてのインタラクションをカウントしないことがある。いくつかの実装形態では、頻度特定器145は、クライアント識別子132に関連して属性134の一部として頻度データを記憶する。いくつかの実装形態では、頻度特定器145は、クライアント識別子132のための頻度データを定期的にまたは継続的に更新し得る。頻度特定器145によって決定される頻度データは続いて、識別子に関連する頻度データに対応するプライベートスケッチへと識別子を符号化するために使用されるように、ベクトル選択器150がアクセス可能なものになることがあり、または別様にそれに通信され得る。
【0065】
ベクトル選択器150は、識別子をその中で符号化すべきスケッチの集合の中の適切なスケッチを決定するように構成される。ベクトル選択器150は、関連する頻度に対応する適切なスケッチを決定するために、頻度特定器145によって生成される頻度データにアクセスし、またはそれを別様に取り出し得る。いくつかの実装形態では、ベクトル選択器150は、識別子を符号化するためにベクトルの集合の中の単一のスケッチを決定する。他の実装形態では、ベクトル選択器150は、複数のベクトルにおいて識別子を符号化するかどうかを決定し得る。
【0066】
データ記録ハッシャ155は、ベクトルデータ構造におおいて識別子を符号化するために使用可能である1つまたは複数のハッシュ関数をハッシュ関数のリストから特定することができる。たとえば、ハッシュのリストにおいて特定されるハッシュの各々は、正規分布または入力値に基づくランダムネスの期待値を提供することができる。すなわち、たとえば、ハッシュ関数への類似する入力は、必ずしもハッシュ関数への類似する出力を有しない。ハッシュ関数は、ブルームフィルタのための最適なハッシュ関数として選ばれ得る。たとえば、データ記録ハッシャ155は、独立な一様分布のハッシュ関数を選ぶことができる。そのようなハッシュ関数は、とりわけ、たとえば、murmurハッシュ、Fowler-Noll-Vo seriesハッシュ、またはJenkinsハッシュを含み得る。データ記録ハッシャ155は、いくつかのハッシュ関数を選択または特定し、各ハッシュ関数を各データ記録に適用してデータ記録のハッシュされた集合を生成することができる。
【0067】
データ記録ハッシャ155は、それぞれのデータ処理システム105によって維持されるデータ記録の各々をハッシュして、ハッシュされたデータ記録のそれぞれの集合を作成することができる。ハッシュをデータ記録に適用することは、データ記録ハッシャ155によって特定されたハッシュ関数への引数としてデータ記録を使用することを含み得る。データ記録ハッシャ155は、特定されたハッシュの各々を使用してデータ記録の各々をハッシュすることができ、それにより、データ記録のそれぞれ1つに対応するある数のハッシュされた値が生じる。したがって、データ記録ハッシャ155は、データ記録の各々をループで繰り返し、ハッシュ関数の各々を、それらが選択されるにつれて各データ記録に適用することができる。ハッシュ関数を適用した後、データ記録ハッシャ155は、それぞれのデータ処理システム105のメモリに、ハッシュされたデータ記録の各々をそれぞれのデータ記録に関連して記憶することができる。データ記録ハッシャ155はさらに、それぞれのデータ処理システム105によって維持されるデータ記録の各々に対応するハッシュされたデータ記録の各々からレジスタ識別子を抽出することができる。ハッシュされたデータ記録セットのハッシュされたデータ記録の各々は、ベクトル生成器140によって生成されたベクトルのカウンタレジスタに対応することができる。対応するカウンタレジスタを特定するために、データ記録ハッシャ155は、ハッシュされたデータ記録の各々からレジスタ識別子を抽出することができる。データ記録ハッシャ155は、たとえば、ベクトルの中のカウンタレジスタの数を用いて、各々のハッシュされたデータ識別子に対して剰余演算を実行することによって、レジスタ識別子を抽出することができる。
【0068】
ベクトルエンコーダ160は、データ記録ハッシャ155の出力に基づいて、ベクトルの中のカウンタレジスタを更新するように構成される。たとえば、ベクトルエンコーダ160は、識別子をその中で符号化すべき、ベクトルデータ構造の座標をデータ記録ハッシャ155から受信してもよく、ベクトルエンコーダ160はそれに従ってカウンタレジスタを更新する。ベクトルエンコーダ160は、たとえばブルームフィルタまたはカウントのベクトルなどの、様々なカウント構造のうちの1つを実装し得る。ベクトルエンコーダ160は、識別子がベクトルの少なくとも1つへとすでに符号化されているかどうかを決定するように構成され得る。いくつかのそのような実装形態では、ベクトルエンコーダ160は、データのエントリがスケッチへと符号化されたかどうかを指定する属性134を記憶し得る。ベクトルエンコーダ160は、データエントリのセットについて繰り返して、頻度特定器145、ベクトル特定器150、およびデータ記録ハッシャ155との通信を介して、ベクトル生成器140によって生成されるベクトルの集合へのデータセットの符号化を促進するように構成され得る。いくつかの実装形態では、ベクトルエンコーダ160は、データベース125などのメモリに、更新されたベクトルを記憶するように構成され得る。
【0069】
重複排除サーバ115に関連して、重複排除サーバ115は、データ処理システム105が通信する別個のサーバとして構成され得る。いくつかの実装形態では、重複排除サーバ115の機能および特徴は、1つまたは複数のデータ処理システム105に含まれるので、データ処理システム105は、他のデータ処理システム105との直接通信を介して複数のデータセットの重複を排除する。たとえば、データ処理システム105Aは、データ処理システム105B-Sにクエリを行って各データ処理システムのプライベートスケッチの集合を要求してもよく、それらのプライベートスケッチから、データ処理システム105Aはデータセットの重複排除された分布を生成する。別の例では、データ処理システム105A-Sは、所定の時間間隔またはトリガ(たとえば、毎日、毎月、毎年など)に従って、プライベートスケッチのそれぞれの集合を自動的に生成して、他のデータ処理システム105に送信するように構成される。一実装形態では、重複排除サーバ115の機能は、複数のデータ処理システム105にわたって分散している。
【0070】
重複排除サーバ115は、プロトコル協調器165を含むものとして示されている。プロトコル協調器165は、データ処理システム105の各々に標準化されたプロトコルパラメータを通信し得る。プロトコルパラメータは、限定はされないが、頻度の指定、データ構造のタイプ、データ構造の長さまたはサイズ、およびハッシュ関数を含み得る。プロトコル協調器165は、アナリストデバイス120などのユーザデバイスから受け取られたユーザ入力に基づいて、プロトコルパラメータを決定し得る。プロトコル協調器165は、各提供者のためのプライベートスケッチの集合を取り出すための、データ処理システム105への要求を促進し得る。プロトコル協調器165は、後で参照するために、重複排除サーバ115のメモリにプロトコルパラメータを記憶し得る。
【0071】
ベクトル重複排除器170は、データ処理システム105から受信されたベクトルの集合の重複を排除するように構成される論理を備える。ベクトル重複排除器170は、積集合、和集合、または差集合などのベクトル演算を含み得る、重複排除のための1つまたは複数のアルゴリズムを実装し得る。いくつかの実装形態では、ベクトル重複排除器170は、データセットのサイズまたは数に基づいて、好ましい重複排除アルゴリズムを決定する。いくつかの実装形態では、ベクトル重複排除器170は、網羅的なデータセットを表すベクトルデータ構造の重複排除された集合を生成する。そのような実装形態では、ベクトル重複排除器170は、複数の符号化されたデータセットに基づいてベクトルの集合を生成して記憶するように構成され得る。
【0072】
分布生成器175は、全体の分布の頻度ごとのカウント(ヒストグラムと交換可能に使用される)を決定するように構成される。いくつかの実装形態では、分布生成器175は、ベクトル重複排除器170から受信されたベクトルの組み合わせられた集合に基づいて、全体の重複排除された分布を決定する。いくつかの実装形態では、分布生成器175は、受信されたスケッチから直接全体の分布を推定する。特定の頻度に対するカウントを決定するために、分布生成器175は、ベクトルの濃度を決定し得る。いくつかの実装形態では、HyperLogLog(HLL)が濃度推定器として使用される。濃度推定器は、実際には非常に大きい何らかの多重集合Mの中の要素の数を推定することができる。HLLは、低いエラーレート、低い分散、および低いメモリ使用量により特徴付けられ得る。その上、2つのHLLの和集合は計算するには些細であることがあり、これはHLLが分散カウンティングの適用例において実装され得ることを意味する。FreqLogLog(FLL)と呼ばれるHLLの拡張は、Mの中の要素の数とともにそれらの頻度の推定を可能にし得る。他のカウンティング推定器が、分布生成器175によって使用され得る。分布生成器175は、重複排除サーバ115のメモリに全体の分布を記憶し得る。いくつかの実装形態では、分布生成器175は、データ処理システム105またはアナリストデバイス120に分布データを送信する。
【0073】
GUI生成器180は、生成された分布の表現を備えるグラフィカルユーザインターフェース(GUI)に関するデータを生成するように構成される。一実装形態では、GUI生成器180は、アナリストへの表示のために分布の視覚的な表現を提供するグラフィカル要素を生成する。いくつかの実装形態では、GUI生成器180は、分布の表現を備えるウェブページデータを維持し、ネットワーク110を介してアクセス可能である。GUI生成器180は、生成されたGUIデータを、アナリストデバイス120などの表示のためのユーザデバイスに送信し得る。他の実装形態では、GUIデータは、重複排除サーバ115から受信されたデータに基づいて、アナリストデバイス120によって生成される。
【0074】
ここで
図2を参照すると、いくつかの実装形態による、k個のベクトルデータ構造の集合を生成するためのプロセス200が示されている。プロセス200は、処理システム105A-Sのいずれかなどの、メモリに結合される1つまたは複数のプロセッサによって実行され得る。プロセス200は一般に、提供者とユーザとのインタラクションに対応するデータセットを圧縮して、プライベートスケッチの集合へと秘匿化する。したがって、k個のベクトルデータ構造の生成された集合は、データセットのサイズを減らし、識別子の値の差分プライバシーを維持する。
【0075】
202において、1つまたは複数のプロセッサは、提供者のグループの中の特定の提供者とのユーザインタラクションに対応するデータ記録を維持する。特定の提供者とユーザがインタラクションを行うにつれて、データ記録がデータベースにおいて経時的に維持される。データ記録は、限定はされないが、ユーザを一意に識別する識別子、インタラクションのタイプ、インタラクションに関連するタイムスタンプ、または頻度データ、およびこれらの組合せを含み得る。いくつかの実装形態では、データ記録は、保護対象の個人情報を含むことがあり、暗号化され、または前記秘密の情報を保護するような方式で別様に記憶されることがある。
【0076】
いくつかの実装形態では、1つまたは複数のプロセッサは、プライベートスケッチを生成する際に使用するための頻度の指定を受信する。いくつかの実装形態では、頻度指定はあらかじめ定義された集合として受信され得る。いくつかの実装形態では、指定は頻度閾値kであり、指定される頻度ビンは集合{1, 2, ..., k-1, k+}として定義されるものと理解される。生成されるべきプライベートスケッチのタイプ、プライベートスケッチのサイズ、ハッシュ関数、またはプライベートスケッチを実装するために使用されるデータ構造の他のパラメータなどの、他のプロトコル情報も204において受信され得る。
【0077】
いくつかの実装形態では、提供者のデータセットに関する全般的な情報は、データ交換プロトコルのパラメータをカスタマイズするために中央サーバ(たとえば、重複排除サーバ115)に送信され得る。たとえば、提供者は、データセットの中の個人の総数を決定し、決定された数を中央サーバに送信し得る。中央サーバは次いで、たとえば、プロトコルにおいて定義すべき、使用すべき最適なベクトルサイズを決定してもよく、これはステップ204においてグループの中の提供者によって受信されてもよい。
【0078】
204において、複数のベクトルデータ構造が、頻度指定に基づいて生成される。一実装形態では、複数のベクトルデータ構造の中の各ベクトルは、特定の頻度ビンに対応する。頻度ビンは、単一の頻度、複数の頻度、または頻度の範囲を表し得る。様々な実装形態において、複数のベクトルデータ構造はVoCであり得る。いくつかの実装形態において、複数のベクトルデータ構造はブルームフィルタであり得る。ベクトルデータ構造は、複数のカウンティングレジスタに対応する座標を定義し得る。複数のベクトルデータ構造は、レジスタの各々の中の初期値で初期化され得る。
【0079】
206において、データセットの中の対応する属性データに基づいて、維持されているデータセットの中のユーザに関連する識別子に対して、頻度データが決定される。たとえば、識別子に関わる繰り返しの頻度を決定するために、識別子を特定するデータセットにおける繰り返しの数がカウントされ得る。いくつかの実装形態では、頻度データは、特定のサービスまたはインタラクションのタイプに対して決定される。いくつかの実装形態では、頻度データは、データセットの中の取り出された属性の一部として記憶される。ベクトルデータ構造の集合の中のベクトルは、頻度データに基づいて選択される。選択されたベクトルは、識別子に関連する頻度データを包含する頻度ビンに対応するベクトルであり得る。
【0080】
208において、集合の中の少なくとも1つのベクトルが、識別子を符号化するために更新される。選択されたベクトルを更新することは、1つまたは複数のハッシュ関数に基づいてベクトルの中の座標を決定することと、特定された座標に対応する1つまたは複数のカウンティングレジスタをインクリメントすることとを含み得る。いくつかの実装形態では、各識別子は、識別子に関連する頻度データに基づいて、集合の1つのベクトルへと符号化されるだけである。いくつかの実装形態では、カウンティングレジスタは、カウンティングプロトコルおよびカウンティングレジスタに現在記憶されている値に基づいて、更新されない。ベクトル符号化の詳細は、後続のセクションで説明される。
【0081】
いくつかの実装形態では、プロセッサは、データセットの中のエントリまたは識別子に対して繰り返しデータ記録を取り出し、各識別子に対する頻度データを個々に決定し、データセットの中の次のエントリについて繰り返しを行う前に集合の1つまたは複数のベクトルを更新し得る。
【0082】
210において、関心対象のすべてのデータエントリが複数のベクトルデータ構造へと符号化されると、プライベートスケッチの集合が処理のために要求サーバに送信される。いくつかの実装形態では、プライベートスケッチの集合は、後で使用または更新するために、一時的にまたは長期間記憶され得る。たとえば、サーバは、データセットの中の新しいエントリがプロセッサによって記録されるにつれて、複数のベクトルデータ構造を増分的に更新し得る。
【0083】
プライベートスケッチの構成の様々な実装形態が、以下でより詳しく論じられる。
【0084】
開示されるシステムおよび方法において使用され得るプライベートスケッチの1つのタイプは、カウントのベクトル(VoC)である。VoCは一般に、ベクトルの中の様々なエントリに対応する複数のカウンタ(バケット、ビンなど)を伴うベクトルとして表され得る。VoCは、複数のカウンタ値を定義する一次元ベクトルであり得る。VoCはベクトルデータ構造として実装されてもよく、このとき、定義されたカウンタに対応するデータ構造によって定義されるメモリ位置からの記憶されている値に対して、プロセッサが演算を実施し、その値を取り出すことができるように、ベクトルデータ構造は一般に、コンピュータメモリの指定または構成として定義される。ベクトルデータ構造の中のカウンタは、ビット、1つまたは複数のバイト、または別のより高次のデータタイプとして構成され得る。
【0085】
本解決策において使用され得る別のタイプのプライベートスケッチは、ブルームフィルタである。ブルームフィルタは、集合の小型の表現を提供することができる。ブルームフィルタは、ベクトルデータ構造としても実装されてもよく、insertメソッドとcontainsメソッドの両方を実施することができる。しかしながら、小型の表現であることにより、方法がフォールスポジティブを返す確率が低いながらもある。これは、ある要素が集合の中にない可能性があるときに、その要素が集合の中にあると言われる可能性があることを意味する。一方、フォールスネガティブは排除され、すなわちcontainsメソッドが偽を返す場合、それは常に正しい可能性がある。
【0086】
空のブルームフィルタは、そのビットのすべてが0に設定された、サイズmのビットアレイであり得る。要素xは、mを法としてそれをk個のハッシュ関数に通し、次いでブルームフィルタの中の対応するビットを1に設定することによって、挿入され得る(以下の例を参照されたい)。この方法は、同様の方式で機能することができ、mを法とするxのすべてのk個のハッシュが1に設定される場合には真を返し、それ以外の場合には偽を返し得る。
【0087】
この(たとえば、HLLに関する)比較的高いメモリ要件により、ブルームフィルタは、濃度推定には通常は使用されないことがあるが、ブルームフィルタの濃度は、以下の式を評価することによって決定され得る。
【数1】
ここで、xはブルームフィルタの中の1(アクティブビット)の数であり、mはブルームフィルタの中のビットの数であってもよく、nはブルームフィルタの濃度の推定の数であってもよい。
【0088】
推定器の分散は、以下の式によって近似される。
【数2】
ここで、nはブルームフィルタにおける真の集合の濃度である。
【0089】
分散はテイラー展開に基づいて導出され得る。
【0090】
このセクションにおいて説明されるスケッチは、「任意分布ブルームフィルタ」(ADBF)とも一般に呼ばれ得る。このセクションにおいて説明されるスケッチは、一様分布または指数関数以外の、代替の分布関数に対応することができるビット分布を許容することを含み得る。たとえば、本明細書において説明される技法は、線形に減衰するブルームフィルタ(BF)、双曲線BF、または一様BFおよび指数関数BFの混合を実装することができる。1つまたは複数のデータ処理システムまたはサーバ(たとえば、データ処理システム105または重複排除サーバ115)によって、ノイズ補正が効率的に適用され得る。
【0091】
さらに、データ処理システムまたはサーバ(たとえば、データ処理システム105または重複排除サーバ115)によって実施される推定技法は、参照リージョン(reference legion)のビットのみが使用される参照リージョンベースの実装形態とは異なり、スケッチのすべてのビットが濃度推定に寄与できるように実装され得る。参照リージョンを選択する代わりに、データ処理システムは、スケッチの中の各ビットの重みを調節することができ、重み値は、最終的な濃度推定に対するスケッチの中のビットの寄与を示す。スケッチのパラメータに基づいて、データ処理システムは、濃度推定の全体的な正確さを改善するために、スケッチの中の各ビットに対する最適な重みを導くことができる。
【0092】
ここで
図3を参照すると、少なくとも1つのデータ処理システム(たとえば、データ処理システム105の少なくとも1つなど)によるブルームフィルタへのデータ記録Xの挿入を示す流れ
図300の例が図示されている。ブロック302において、データ処理システムは、ブルームフィルタに挿入すべきデータ記録を示すことができる。示されたデータ記録は、たとえば、データベース(たとえば、データベース125)から選択され得る。データ処理システムは、ここではh1、h2、およびh3として示される、いくつかのハッシュ関数を選択することができる。3つのハッシュ関数のみが示されているが、データ処理システムは、標準的なブルームフィルタにデータ記録を挿入するために任意の数のハッシュ関数を利用できることを理解されたい。ブロック304A-Cにおいて、データ処理システムは、特定されたハッシュ関数の各々を使用して少なくとも一度、データ記録Xを複製してハッシュすることができる。ハッシュ関数は、たとえば、本明細書において説明されるようなElGamalハッシュ、または、とりわけSHA-1、SHA-2、MD5などの任意の他のタイプのハッシュであり得る。データ記録Xを3回複製してハッシュすることによって、データ処理システムは、h1(x)、h2(x)、およびh3(x)として
図3において示されている3つのハッシュされたデータ記録を生成した。さらにブロック304A-Cを参照すると、データ処理システムは、ハッシュされたデータ記録の各々からインデックス値を抽出することができる。抽出されたインデックス値は、ブルームフィルタの中の少なくとも1つのそれぞれの位置に対応し得る。
図3Aにおいて提供される例では、各ハッシュは11を法として計算され、これはブルームフィルタの中のレジスタ位置の数である。11個だけのレジスタ位置がそのブルームフィルタにおいて使用されるが、ブルームフィルタを実装するために任意の数のカウンティングレジスタを使用できることを理解されたい。
【0093】
図3のさらなる詳細では、h1(x)のmod 11は1に等しく、h2(x)のmod 11は3に等しく、h3(x)のmod 11は9に等しい。これらの値の各々は、ブルームフィルタの中のそれぞれの位置に関連するカウンタレジスタへのポインタ(たとえば、ID値など)として、データ処理システムによって使用され得る。たとえば、1に等しいh1(x)のmod 11は、ブルームフィルタの中の位置「1」を指すことができ、3に等しいh2(x)のmod 11は、ブルームフィルタの中の位置「3」を指すことができ、以下同様である。これらは、ブルームフィルタに関する動作を示すことを目的とする、純粋に説明のための値であり、それはブルームフィルタを説明する実装形態の範囲を限定するものとして解釈されるべきではない。データ処理システムは、それぞれのハッシュ関数によって指し示されるカウンタレジスタの各々のビットをアクティブ化することによって、ブルームフィルタを更新する(たとえば、データ記録を挿入する)ことができ、更新されたブルームフィルタ306が得られる。
図3は、1だけインクリメントされる各カウンタレジスタを図示するが、データ処理システムは、任意の量の値だけ、たとえばある数のバイト、ビットだけ、または本明細書において説明される任意の他の値、閾値、もしくは推定に対して相対的に、カウンタレジスタのいずれかをインクリメントできることが理解されるべきであることに留意されたい。
【0094】
ADBFの実装形態を説明することを目的に、probabilistic counting and stochastic averaging (PSCA)を実装する例示的なADBFが説明される。
【0095】
PSCAベースの技法は、ビットマップデータ構造を利用することができる。ビットマップデータ構造は、とりわけ、レジスタによって定義される座標およびレジスタ内のビット位置を伴うベクトルデータ構造、vector-of-vectorsデータ構造などの、いくつかの方法で実装され得る。
図4AはPCSA 3×2ビットマップを示す。各セル値は、1または0のいずれかに等しいビットであり得る。ここで、特定のセルの位置を記述するために、汎用的な記述子「行」および「列」が使用される。行はレジスタとも呼ばれ得る。PSCAスケッチにおいて、識別子はそのビットシーケンスに基づいてセルに割り当てられ得る。たとえば、各行は、全母集団識別子の1/nrows(我々の例では1/3)の部分を取り込むことができる。列は、全母集団識別子の指数関数的に減衰する部分を有し得る。たとえば、列1は1/2を有してもよく、列2は1/4を有してもよく、以下同様である。したがって、セルは、母集団の1/nrows*(1/2)^column_idの部分を取り込む。3x2のPSCAスケッチの例示的な表現が以下に含まれる。
【0096】
PCSAビットマップは、
図4Bに示されるようなビットベクトルへと平坦化され得る。ベクトルは、セルを列の順序に並べる。第1の列からの3つのセルの第1のセグメント。それらは各々母集団idの1/6を取り込む。第2の列からの3つのセルの第2のセグメント。それらは各々母集団の1/12を取り込む。ビットマップおよびビットベクトルが等価であり、互いに1-1でマッピングされ得ることは明らかである。
【0097】
ADBFスケッチは、そのようなスケッチの一般化された形式であり得る。ADBFスケッチは、
図4Cにおいて一般的な形式で示されるような、母集団のあらゆる確率をとることができる。
【0098】
スケッチの中の各位置に対する確率の分布は任意の値へと一般化され得るので、本明細書において説明される他の構造が結果として生じ得る。たとえば、すべての確率値が1/mへと等しく重み付けられ、mがスケッチの中の位置の数である場合、古典的なブルームフィルタの実装形態が出現する。同様に、「滝」のような確率が各セグメントに割り当てられるとき、PSCA様のスケッチが出現する。さらに、
【数3】
であるような指数関数的なpの値が使用され、iがスケッチの中の位置のインデックスであり、cが正規化係数であり、mがスケッチの中の位置の数である場合、リキッドリージョン(liquid legions)タイプのスケッチが出現する。
【0099】
以下で本明細書において説明される指数関数的なブルームフィルタの事例は、エレガントな統計的モデルおよび解釈を伴う、閉形式の最大尤度の解を有する。次に、識別子からADBFを構築すること、ノイズを追加すること、1つのADBFのユニークカウントを計算すること、および多数の組み合わせられたADBFのユニークカウントを計算することを含む、ADBFおよびいくつかの理論的な定式化が説明される。ブルームフィルタ、PCSA/CL、およびADBFを比較するためのシミュレーション結果が与えられる。
【0100】
一般化されたブルームフィルタ(ADBF)は、次のように提供者のコンピューティングデバイス(たとえば、データ処理システム105A-S)によって構築され得る。カッパパラメータは、1という値に設定されてもよいが1未満であってもよい、調節可能なパラメータである。データ処理システムは、ADBFデータ構造を構築するために利用すべき、1つまたは複数のデータ記録(たとえば、識別子および属性、またはある基準を持たす識別子など)にアクセスすることができる。たとえば、データ処理システムは、構築されたADBFスケッチへと挿入するために使用すべき1つまたは複数のデータ記録にアクセスするために、データベース(たとえば、データベース125など)にアクセスし得る。ADBFスケッチは、データ処理システムのメモリに維持されてもよく、異なるスケッチの実装形態に関して先行するセクションにおいて本明細書で説明されたような初期化値に初期化されてもよい。たとえば、ADBFスケッチを構築するための手順は、カスケーディングリージョン(cascading legions)スケッチまたはリキッドリージョンスケッチと実質的に同様であってもよく、データ処理システムのメモリに記憶される、または別のデバイスから受信されるパラメータに基づくことがある。
【0101】
構築の後、データ記録は、次の技法を使用してADBFの中の位置にマッピングされ得る。ADBFスケッチは、いくつかのバケットkおよび任意の確率ベクトル(p
1, p
2, ..., p
k)を含むように構築されてもよく、iが1からkの範囲にわたる場合のすべてのp
iの合計はカッパに等しい。カッパの値は1に等しくてもよいが、1に等しい必要はない。確率ベクトルは、確率ベクトルの中の各座標が、ADBFスケッチの中の単一のバケットまたはレジスタに割り当てられ得るようなものである。データ記録(たとえば、データベース125に維持されるデータ記録など)の各識別子は、確率p
iでADBFスケッチのバケットiへと挿入され得る。実際には、hを、識別子空間(たとえば、データ記録空間など)を(0, 2^64)へと一様にマッピングするデータ処理システム105により識別されるハッシュとする。そして、データ記録xは、表現
【数4】
が満たされる場合、バケットiに挿入され得る。データ記録のセットに対して(データ記録は「識別子」という用語と交換可能に使用され得る)、その対応するNBFは、セットの中の少なくとも1つのデータ記録がバケットiに挿入される場合は要素i=1を有し、それ以外の場合は0に等しい。セクションDにおいて本明細書で説明されるリキッドリージョン技法は、p
iが指数関数的な分布に基づいて決定されるようなADBFの事例であり得ることに留意されたい。
【0102】
それらのスケッチの差分プライバシーを維持するために、提供者のコンピューティングデバイスの各々(たとえば、データ処理システム105A-Sなど)は、所定の確率でいくつかのビットを反転させることができる。ノイズを追加するためにビットを反転させるプロセスは、本明細書では「ブリッピング」と呼ばれることがあり、確率的なビット反転を通じてノイズがもたらされているスケッチは、「ブリッピングされた」と呼ばれることがある。データ処理システム(たとえば、データ処理システム105A-S、重複排除サーバ115など)によって実装される推定器はさらに、データ処理システム105によって生成されるノイズを追加された(たとえば、ブリッピングされた)ADBFスケッチの和集合の濃度を正確に計算するように拡張され得る。
【0103】
このセクションにおいて説明されるBLIP技法は、差分プライバシーの点で安全であり得る。具体的には、ADBF+BLIPは、生のNBFの各バケットを反転させることによって得られる。同じ確率pで、二進の0が二進の1に反転させられてもよく、二進の1が二進の0に反転させられてもよい。いくつかの実装形態では、二進の0の値は確率pで二進の1に反転させられてもよく、二進の1の値は確率qで二進の0に反転させられてもよい。
【0104】
ABDFスケッチの和集合の濃度は、特定のカウントまたはリーチを決定するために推定され得る。推定器は、推定器を実行するコンピューティングデバイス(たとえば、データ処理システム105、重複排除サーバ115など)のメモリからの一連の調節パラメータを含み、またはそれを取り出すことができる。本明細書において説明される1つまたは複数のコンピューティングデバイスによって実行される、実施される、または別様に行われる推定器は、ノイズが除去されたADBFスケッチ(たとえば、ノイズが組み込まれていないADBFスケッチなど)の重複を排除することができる。ノイズが除去されたADBFスケッチを統合するとき、b=[b
1, b
2, ..., b
k]と表記される、和集合のADBFを観察する。1≦i≦kに対して、和集合からの少なくとも1つのデータ記録がそのバケットにマッピングされる場合、b
i=1であり、それ以外の場合は0に等しい。b
1, b
2, ..., b
kから和集合を推定するために、モーメント法が使用され得る。任意のデータ記録がバケットiへとマッピングされる確率を表記するために、p
iが使用されることに留意されたい。uの和集合濃度を考慮すると、u個のデータ記録のいずれもがバケットiに該当しない確率は、(1-p
i)
uに等しい。すなわち、P(b
i=0)=(1-p
i)
uであるので、E(b
i=1|u)=1-(1-p
i)
uである。したがって、1の総数は期待値
【数5】
を有する。したがって、観察されたb
iをプラグイン(plug in)することによって、uの推定を得ることができる。
【0105】
ここで
図5を参照すると、任意分布ブルームフィルタを生成して更新するためのプロセス500が示されている。プロセス500は、単一のブルームフィルタ(BF)を更新するものとして
図5において示されているが、プロセス500は、上で説明されたようなプロセス200に組み込まれてもよく、したがって、それに関連して説明されたあらゆる特徴を組み込んでもよい。たとえば、プロセス500は、どのベクトルが所与のエントリのために選択されるかに応じて、ベクトルデータ構造の集合の中の様々なベクトルのためにステップ208を実行するために、プロセス200に組み込まれ得る。プロセス500は、データ処理システム105のいずれかなどの、メモリに結合される1つまたは複数のプロセッサによって実行され得る。
【0106】
502において、N個のデータエントリの集合の中のk番目のデータエントリが、BFへと符号化するために取り出される。k番目のデータエントリは、BFへと符号化されるべき識別子を定義し得る。504において、識別子は1つまたは複数のハッシュ関数を使用してハッシュされる。1つまたは複数のハッシュ関数は、入力として識別子を受信し、BFにおいて座標を定義する入力に基づいてハッシュ値を出力するように構成される。506において、BFの中のM個の座標は、1つまたは複数のハッシュ関数の1つまたは複数の出力に基づいて特定される。いくつかの実装形態では、1つまたは複数のハッシュ関数の1つまたは複数の出力は、BFの中の有効な座標に出力を変換するために、剰余演算器に通され得る。
【0107】
次いで、506において特定された1つまたは複数の座標が、BF(カウンタjによって表される)を更新するために繰り返され得る。508において、j番目の座標に対応するカウンタレジスタが選択される。いくつかの実装形態では、j番目の座標は、対応するカウンティングレジスタのメモリ位置を定義する。510において、選択されたレジスタは、適切である場合、k番目の識別子を符号化するためにインクリメントされる。たとえば、選択されたレジスタが現在0という二進値を持つ場合、レジスタはインクリメントされて二進値1を持ち得る。反対の例として、選択されたレジスタが現在1という二進値を持つ場合、レジスタはすでに二進値1を持っているので、レジスタはインクリメントされなくてもよい。512における決定は、k番目の閾値に対するM個の特定された座標について繰り返す。512における基準が満たされない場合、jカウンタをインクリメントするためにステップ514が実行され、次の座標に対してステップ508-512を反復する。
【0108】
512における基準が満たされる場合、プロセス500は決定516に続く。決定516は、すべてのデータエントリがBFへと符号化されたかどうかを決定する。516における基準が満たされない場合、カウンタkが518においてインクリメントされ、次のデータエントリに対してプロセス500が反復される。516における基準が満たされる場合、BFの更新は完了し、520においてベクトルが処理システムに送信され、または別様にストレージに出力され得る。
【0109】
ここで
図6を参照すると、複数の提供者からのデータセットを集約して重複排除されたデータセットを生成するためのプロセス600が示されている。プロセス600は、重複排除サーバ115またはデータ処理システム105などの、メモリと結合される1つまたは複数のプロセッサによって実施され得る。プロセス600は、複数の提供者間での秘匿化されたデータ交換プロトコルの実施を促進する中央サーバデバイスによって実行されてもよく、または、複数の提供者のうちの個々の提供者によって実行されてもよい。一般に、プロセス600は、第1の提供者および第2の提供者の処理システムによって生成されるプライベートスケッチの集合を組み合わせ、これは、たとえばプロセス200を介して生成され得る。プロセス600は2名の提供者からのデータセットのみを含むものとして示されているが、プロセス600は、重複排除された分布を生成するために任意の数の提供者からのデータセットを含み得る。
【0110】
602において、プライベートスケッチの第1の集合は第1の提供者から受信され、プライベートスケッチの第2の集合は第2の提供者から受信される。プライベートスケッチの第1の集合およびプライベートスケッチの第2の集合の中の各プライベートスケッチは、第1の提供者および第2の提供者の各々とのインタラクションに関連する識別子を符号化し、各プライベートスケッチは、特定の頻度または頻度範囲に対応する。プライベートスケッチは、VoCまたはADBFなどのベクトルデータ構造として構成され受信され得る。プライベートスケッチは差分プライベートであり得るので、プライベートスケッチにおいて符号化されるユーザの識別子は曖昧にされ得る。
【0111】
604において、プライベートスケッチの第1の集合およびプライベートスケッチの第2の集合を使用して、組み合わせられて重複排除された分布が生成される。重複排除されたデータセットを生成するために、いくつかの方法が実行され得る。一実装形態では、プライベートスケッチの第1の集合はプライベートスケッチの第2の集合と組み合わせられて、2つのデータセットの重複を排除するプライベートスケッチの統合された集合を生成する。次いで、全体の分布が、プライベートスケッチの統合された集合から推定され得る。別の実装形態では、頻度ごとの分布は、個々のスケッチ間の積集合、和集合、および差集合などの集合演算を使用して、プライベートスケッチの集合から直接推定され得る。
【0112】
606において、重複排除された分布がデータベースに記憶される。いくつかの実装形態では、データベースには、レビューのために複数の提供者処理システムがアクセス可能である。プライベートスケッチの2つの集合へと符号化される2つのデータセットが単一の重複排除されたデータセットに縮小されるという技術的な利点が、プロセス600において実現される。したがって、単一のデータセットは、複数の提供者にわたる分布データを記憶することのメモリ要件のサイズおよび複雑さを下げ、それは、同じ情報またはほぼ同じ情報を維持するために、より少数のデータしか記憶される必要がないからである。608において、重複排除された分布の表現を表示するために、ユーザインターフェースが生成され得る。ユーザインターフェースは、処理システムに関連するディスプレイに出力され、または表示のために別個の処理デバイスに送信され得る。
【0113】
いくつかの実装形態では、第1の提供者および第2の提供者に頻度指定が送信される。頻度指定は一般に、秘匿化されたデータ交換プロトコルの1つまたは複数のパラメータを示し得る。いくつかの実装形態では、頻度指定は、集合{1, 2, ..., k-1, k+}の中の頻度ビンに各々対応する各提供者からk個のプライベートスケッチが要求されることを示す、最大頻度閾値kを定義し得る。いくつかの実装形態では、頻度指定は、「オフライン」媒体を介して、たとえば対面会議または口頭の合意を介して各提供者に送信されるので、ステップ602は実行される必要がない。
【0114】
重複排除のためのいくつかの方法が以下でさらに詳しく説明される。
【0115】
頻度ごとのリーチRkを推定するための1つの方法は、逐次統合アルゴリズムを使用することである。逐次統合アルゴリズムは、第1の提供者および第2の提供者からのスケッチを統合して、統合されたスケッチの第1の集合を作成し、これは次いで第3の提供者からのスケッチと統合され、s名のすべての提供者が統合されるまで続く。統合されたスケッチの最終的な集合の集約が、全体の分布を得るために使用される。
【0116】
逐次統合アルゴリズムは全般に、次のように表され得る。
【0117】
第1の提供者がスケッチの第1の集合{x1, x2, ..., xk-1, xk+}を発行し、第2の提供者がスケッチの第2の集合{y1, y2, ..., yk-1, yk+}を発行すると仮定する。
【0118】
まず、1+の頻度リーチを表現するために、各提供者に対するスケッチが生成される。各提供者のスケッチが互いに素であるとすると、1+のスケッチは次のように生成され得る。
【数6】
かつ
【数7】
【0119】
k未満の特定の頻度jに対して、第1の提供者および第2の提供者の組合せを表す第jのスケッチを、
【数8】
と計算することができ、(∪)は和集合演算子であり、(∩)は積集合演算子であり、(\)は差集合演算子である。この式は、1からk-1までのjの値に対して反復されて、k-1個のスケッチを生成する。
【0120】
k+の組み合わせられたスケッチを生成するために、組合せが次のように計算され得る。
【数9】
【0121】
上の式はx0およびyk+の積集合を考慮し、これは以下の式から得ることができることに留意されたい。
(x0∩yk+)= yk+\(x1+∩yk+)
【0122】
したがって、k個のスケッチは、集合{z
1, z
2, ..., z
k-1, z
k+}として表される、第1の提供者のスケッチの集合および第2の提供者のスケッチの集合の組合せとして生成され得る。s名の提供者のグループの中の追加の提供者を統合するために、逐次統合方法は、組合せ集合{z
1, z
2, …, z
k-1, z
k+}、および第3の提供者によって生成されたスケッチを組合せ、次いで第4の提供者によって生成されたスケッチを組合せ、以下同様のことを行うことによって、再帰的に反復され得る。s名の提供者からのスケッチのs個の集合を組み合わせた後、最終的な組合せ集合
【数10】
が、すべての提供者にわたる最終的な分布を生成するために使用され得る。
【0123】
ここで
図7を参照すると、プロセス700は全般に、s名の提供者の各々からのk個のスケッチを逐次統合するための上記の方法を示す。
【0124】
702において、プロセス700の再帰統合動作における操作対象のベクトルの集合(working set of vectors)とするために、空のベクトルの集合が生成される。空のベクトルの集合は、複数の提供者の合意されたプロトコルと同じ数のベクトルを含み、複数の提供者から受信されたベクトルと同じ方法で構成される。704において、複数の提供者のうちの第1の提供者から受信されたk個のベクトルが、操作対象のベクトルの集合へとコピーされる。いくつかの実装形態では、第1の提供者は、複数の提供者からランダムに選択され得る。
【0125】
706において、残りのs-1名の提供者について繰り返すために、カウンタjが定義される。カウンタjは、第1の提供者が繰り返しから除外されるように、2に初期化されるものとして示されている。708において、j番目の提供者からのベクトルの集合が取り出される。次いで、710において、j番目の提供者からのk個のベクトルが、操作対象の集合の中のk個のベクトルと組み合わせられて、ベクトルの統合された集合を生成する。k個のベクトルの2つの集合が、上で説明された式を使用して組み合わせられ得る。712において、k個のベクトルの統合された集合が次いで、操作対象のベクトルの集合として記憶される。したがって、712における更新は、以前の操作対象の集合を、統合されたベクトルの最新の集合で置き換え得る。
【0126】
714において、s名の提供者のグループの中のすべての提供者が操作対象のベクトルの集合へと統合されたかどうかの決定が行われる。714における決定が、すべての提供者が統合されてはいないというものである場合、716においてカウンタjがインクリメントされ、次の提供者についてステップ708-714が反復される。したがって、すべてのデータセットが統合されるまで、プライベートスケッチの各集合が、統合されたベクトルの以前の集合(すなわち、操作対象の集合)と逐次統合される。判断714におけるそのような決定に際して、718において、操作対象のk個のベクトルの集合に基づいて、最終的な分布が推定される。上で説明されたように、頻度ごとの分布は、各スケッチの濃度推定に基づいて推定され得る。
【0127】
図8Aを参照すると、逐次統合アルゴリズムを使用して生成される第1のテスト集合の推定される分布を、第1のテスト集合の実際の(真の)分布と比較するための、例示的なヒストグラムが提示される。ここで、第1のテスト集合は、全体で200,000個の識別子という母集団サイズ、2^14個のバケットを備えるベクトル、独立したデータセットを持つ2名の提供者の重複排除(すなわち、データセット間の重複なし)、および5という最大頻度(第5の頻度ビンが「5+」を表す場合)を表す。
【0128】
図8Bを参照すると、逐次統合アルゴリズムを使用して生成される第2のテスト集合の推定される分布を、第2のテスト集合の実際の(真の)分布と比較する、別の例示的なヒストグラムが提示される。ここで、第2のテスト集合は、全体で200,000個の識別子という母集団サイズ、2^14個のバケットを備えるベクトル、5名の提供者の重複排除、DPノイズの追加なし、および10という最大頻度(第10の頻度ビンが「10+」を表す場合)を表す。
【0129】
図8Cは、
図8Bの第2のテスト集合のテストデータを示し、組合せの前に、DPノイズε=log(3)の追加が各スケッチへと最初に導入される。
【0130】
図8Dは、逐次統合アルゴリズムを使用して生成される第3のテスト集合の推定される分布を、第3のテスト集合の実際の(真の)分布と比較する、別の例示的なヒストグラムを示す。ここで、第3のテスト集合は、全体で200,000個の識別子という母集団サイズ、2^14個のバケットを備えるベクトル、5名の提供者の重複排除、DPノイズε=log(3)、および10という最大頻度(第10の頻度ビンが「10+」を表す場合)を表す。
【0131】
s名の提供者のプライベートスケッチを組み合わせるための別の方法は、Chow-Liuモデルに基づく。頻度ビンkの頻度ごとのリーチを計算するために、
【数11】
である。
【0132】
ここで、R(*)は特定の条件(*)を満たすユーザの数(すなわち、リーチ)を表し、jはj番目の提供者におけるユーザの頻度である。
【0133】
Chow-Liuモデルを使用すると、各項の推定
【数12】
を、以下の式に基づいて見出すことができる。
P(f
1=j
1, f
2=j
2,…,f
s=j
s )=P(f
1=j
1)*P(f
2=j
2|f
1=j
1 )*…*P(f
s=j
s|f
s-1=j
s-1)
これは、
【数13】
であることを示唆し、
【数14】
と書き直すことができる。
【0134】
Chow-Liuモデルは、提供者の任意の線形木(linear tree)を仮定することに留意されたい。具体的には、1→2→...→sの線形木は、直線の系列における隣接する提供者間のペアワイズ重複を生み出す。
【数15】
を計算するために使用される(j
1, j
2, ..., j
s)の中の少なくとも1つの値が0に等しいという条件がある。しかしながら、プライバシーの問題により、個々の提供者は、自身がインタラクションを行わなかった(すなわち、頻度0の)個人のリストを知らない。2つの頻度値のうちの1つが0であるペアワイズ重複は、次のように計算され得る。
R(f
u=0,f
v=j
v)=R(f
v=j
v)-R(f
u≧1,f
v=j
v)
【数16】
を計算するために使用される(j
1, j
2, ..., j
s)の中の複数の値が0に等しいとき、線形木の中の提供者は、jの値が0に等しいすべての提供者が線形木の始めに移動されるように、並べ替えられ得る。線形木を並べ替えた後、最初のq名の提供者はすべて(f
1,f
2,…,f
q=0)という頻度値を有し、木の中の残りの提供者は、(f
q+1,f
q+2,…,f
s)に対して0ではない値を有するままであると仮定する。Chow-Liuモデルの導出は、以下のことを示す。
P(f
1=j
1, f
2=j
2,…,f
s=j
s)=P(f
1=…=f
q=0)*P(f
q+1=j
q+1| f
q=0)*…*P(f
s=j
s|f
s-1=j
s-1)
=P(f
1=…=f
q=0,f
q+1=j
q+1)*…*P(f
s=j
s|f
s-1=j
s-1)
=[P(f
q+1=j
q+1)-P(f
1+…+f
q≧1, f
q+1=j
q+1)]*…*P(f
s=j
s|f
s-1=j
s-1)
【0135】
これは次いで、
【数17】
を以下の式により計算するために使用され得る。
P(f
1=j
1, f
2=j
2,…,f
s=j
s)=[R(f
q+1=j
q+1)-R(f
1+…+f
q≧1,f
q+1=j
q+1)]*R(f
q+2)=j
q+2|f
q+1=j
q+1)*…*R(f
s=j
s| f
s-1)=j
s-1)
【0136】
したがって、分析システムは、s名の提供者のグループからのプライベートスケッチの重複を排除して、上で説明されたアルゴリズムを使用してグループ全体にわたる全体のリーチ分布を推定することができる。
【0137】
図9Aを参照すると、ペアワイズ重複アルゴリズムを使用して生成される第1のテスト集合の推定される分布を、第1のテスト集合の実際の(真の)分布と比較するための、例示的なヒストグラムが提示される。ここで、第1のテスト集合は、全体で200,000個の識別子という母集団サイズ、2^14個のバケットを備えるベクトル、独立ポアソンモデルを使用して生成される5名の提供者の重複排除、および5という最大頻度(第5の頻度ビンが「5+」を表す場合)を表す。
【0138】
図9Bは、ペアワイズ重複アルゴリズムを使用して生成される第2のテスト集合の推定される分布を、第2のテスト集合の実際の(真の)分布と比較する、別の例示的なヒストグラムを示す。ここで、第2のテスト集合は、全体で200,000個の識別子という母集団サイズ、2^14個のバケットを備えるベクトル、逆の相関するデータセットを使用して生成される5名の提供者の重複排除、および5という最大頻度(第5の頻度ビンが「5+」を表す場合)を表す。第2のテスト集合は、ペアワイズ重複アルゴリズムのストレステストを行うために設計される。
【0139】
頻度ごとのリーチRkを推定するための第3の方法は、独立した仮定に基づく。独立した仮定は母集団サイズ(U)の値を必要とし、これはワーカーまたはアナリストにより推定され得る。
【0140】
頻度ごとのリーチR
kの式を再び分析すると、独立モデルを次のように計算することができ、
【数18】
【0141】
ただし、
【数19】
は、独立した仮定を使用して、
【数20】
と計算される。
【0142】
言い換えると、各提供者によって提供される頻度ごとのカウントは、個々のスケッチから推定されて、提供者のグループにわたる頻度ごとの分布を推定するために上の式へと直接入力され得る。したがって、分析システムは、上の式を実施して、各提供者からの頻度ごとのリーチデータを組み合わせて、重複排除されたデータセットの推定された分布を生成する、論理を用いて構成され得る。
【0143】
図10は、たとえば、説明のためのデータ処理システム105、説明のための重複排除サーバ115、説明のためのアナリストデバイス120、説明のためのクライアントデバイス135、および/または本開示において説明される様々な他の説明のためのシステムを実装するために使用され得る、コンピュータシステム1000を図示する。コンピューティングシステム1000は、情報を通信するためのバス1005または他の通信構成要素、および情報を処理するためのバス1005に結合されたプロセッサ1010を含む。コンピューティングシステム1000はまた、情報、およびプロセッサ1010によって実行されるべき命令を記憶するための、バス1005に結合されるランダムアクセスメモリ(RAM)または他のダイナミックストレージデバイスなどの、メインメモリ1015を含む。メインメモリ1015はまた、位置情報、時間変数、またはプロセッサ1010による命令の実行の間の他の中間情報を記憶するために使用され得る。コンピューティングシステム1000はさらに、プロセッサ1010のための静的情報および命令を記憶するための、バス1005に結合された読み取り専用メモリ(ROM)1020および他のスタティックストレージデバイスを含み得る。情報および命令を永続的に記憶するための、ソリッドステートデバイス、磁気ディスク、または光学ディスクなどの記憶デバイス1025が、バス1005に結合される。
【0144】
コンピューティングシステム1000は、情報をユーザに表示するための、液晶ディスプレイ、またはアクティブマトリックスディスプレイなどのディスプレイ1035に、バス1005を介して結合され得る。情報およびコマンド選択をプロセッサ1010に通信するために、英数字キーおよび他のキーを含むキーボードなどの入力デバイス1030がバス1005に結合され得る。別の実装形態では、入力デバイス1030は、タッチスクリーンディスプレイ1035を有する。入力デバイス1030は、方向情報およびコマンド選択をプロセッサ1010に通信するための、およびディスプレイ1035上でカーソルの動きを制御するための、マウス、トラックボール、またはカーソル方向キーなどの、カーソルコントロールを含み得る。
【0145】
いくつかの実装形態では、コンピューティングシステム1000は、ネットワーキングアダプタなどの通信アダプタ1040を含み得る。通信アダプタ1040は、バス1005に結合されてもよく、コンピューティングネットワークもしくは通信ネットワーク1045および/または他のコンピューティングシステムとの通信を可能にするように構成されてもよい。様々な説明のための実装形態では、有線(たとえば、Ethernet(登録商標)を介した)、ワイヤレス(たとえば、WiFi(登録商標)、Bluetooth(登録商標)などを介した)、あらかじめ構成された、アドホック、LAN、WANなどの通信アダプタ1040を使用して、任意のタイプのネットワーキング構成が達成され得る。
【0146】
様々な実装形態によれば、本明細書において説明される説明のための実装形態を遂行するプロセスは、メインメモリ1015に含まれる命令の構成をプロセッサ1010が実行することに応答して、コンピューティングシステム1000によって達成され得る。そのような命令は、記憶デバイス1025などの別のコンピュータ可読媒体からメインメモリ1015へと読み取られ得る。メインメモリ1015に含まれる命令の構成の実行は、コンピューティングシステム1000に、本明細書において説明される説明のためのプロセスを実行させる。マルチプロセシングの構成における1つまたは複数のプロセッサは、メインメモリ1015に含まれる命令を実行するためにも利用され得る。代替の実装形態では、説明のための実装形態を実施するために、ソフトウェア命令の代わりに、またはそれと組み合わせて、ハードワイヤード回路が使用され得る。したがって、実装形態は、ハードウェア回路およびソフトウェアのどのような特定の組合せにも限定されない。
【0147】
本開示において説明されるようなシステムおよび方法は、任意のタイプのサードパーティコンテンツアイテムに対して(すなわち、リソース上に表示されるべき任意のタイプのコンテンツアイテムに対して)実施可能であり得る。一実装形態では、コンテンツアイテムは広告を含み得る。一実装形態では、コンテンツアイテムは、任意のテキスト、画像、ビデオ、ストーリー(たとえば、新しいストーリー)、ソーシャルメディアコンテンツ、リンク、または、ファーストパーティコンテンツ提供者のリソース上で表示するためにサードパーティにより提供される任意の他のタイプのコンテンツを含み得る。本明細書のコンテンツ可視化方法が使用されるコンテンツアイテムのタイプは、限定するものではない。
【0148】
例示的な処理システムが
図10で説明されているが、本明細書において説明された主題および機能的動作の実装形態は、他のタイプのデジタル電子回路を使用して、または本明細書において開示される構造およびそれらの構造的均等物を含む、コンピュータソフトウェア、ファームウェア、もしくは、ハードウェアにおいて、またはそれらのうちの1つもしくは複数の組合せにおいて実行され得る。
【0149】
主題の実施形態および本明細書において説明される動作は、デジタル電子回路で、または本明細書において開示される構造およびその構造的均等物を含む、有形媒体上で具現化されるコンピュータソフトウェア、ファームウェア、もしくはハードウェアで、またはそれらのうちの1つもしくは複数の組合せで実装され得る。本明細書において説明された主題の実装形態は、データ処理装置による実行のために、またはデータ処理装置の動作を制御するために、コンピュータ記憶媒体上で符号化された1つまたは複数のコンピュータプログラム、すなわち、コンピュータプログラム命令の1つまたは複数のコンポーネントとして実装され得る。プログラム命令は、データ処理装置による実行のために、適切な受信機装置への送信のために情報を符号化するために生成される、人工的に生成された伝搬信号、たとえば、機械で生成された電気信号、光信号、または電磁信号上で符号化され得る。コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムもしくはシリアルアクセスメモリアレイもしくはデバイス、もしくはそれらの任意の組合せであり得るか、またはそれらに含まれ得る。その上、コンピュータ記憶媒体は伝搬信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝搬信号において符号化されたコンピュータプログラム命令のソースまたは宛先を含み得る。コンピュータ記憶媒体はまた、1つまたは複数の別個の物理構成要素もしくは媒体(たとえば、複数のCD、ディスク、フラッシュメモリ、ソリッドステートメモリ、または他の記憶デバイス)であり得るか、またはそれらに含まれ得る。
【0150】
本明細書において開示される特徴は、ラップトップコンピュータもしくは他のパーソナルコンピュータ、スマートフォン、他の携帯電話、ハンドヘルドコンピュータ、タブレットPC、または他のコンピューティングデバイス上で実装され得る。
【0151】
本明細書において説明される動作は、1つもしくは複数のコンピュータ可読記憶デバイス上に記憶されたまたは他のソースから受信されたデータに対してデータ処理装置によって実行される動作として実施され得る。
【0152】
「データ処理装置」、「データ処理システム」、「ユーザデバイス」、「クライアントデバイス」、「ワーカーデバイス」、「ワーカー」、「ワーカーコンピューティングデバイス」、「パブリッシャ」、または「コンピューティングデバイス」という用語は、例として、プログラマブルプロセッサ、コンピュータ、システムオンチップ、または上記の複数のもの、もしくは上記のものの組合せを含む、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含する。装置は、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含み得る。装置はまた、ハードウェアに加えて、当該のコンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想機械、またはそれらの任意の組合せを構成するコードを含み得る。装置および実行環境は、ウェブサービス、分散コンピューティングおよびグリッドコンピューティングインフラストラクチャなどの、様々な異なるコンピューティングモデルインフラストラクチャを実現することができる。
【0153】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られている)は、コンパイル型言語もしくはインタプリタ型言語、宣言型言語、関数型言語、または手続き型言語を含む任意の形態のプログラミング言語で書かれてもよく、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、オブジェクト、もしくはコンピューティング環境において使用するのに適した他のユニットとしてを含めて、任意の形態で展開されてもよい。コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、そうである必要はない。プログラムは、他のプログラムもしくはデータ(たとえば、マークアップ言語文書の中に記憶された1つまたは複数のスクリプト)を保持するファイルの一部分の中に、当該のプログラムに専用の単一のファイルの中に、または複数の協調ファイル(たとえば、1つまたは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイル)の中に記憶され得る。コンピュータプログラムは、1つのコンピュータ上で、または1つの場所に配置されるかもしくは複数の場所に分散しており通信ネットワークによって相互接続される、複数のコンピュータ上で実行されるように展開され得る。
【0154】
本明細書において説明されたプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって活動を実行するために、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実行されてもよく、装置は、それらとしても実装されてもよい。
【0155】
コンピュータプログラムの実行に適したプロセッサは、例として、汎用および特殊目的マイクロプロセッサの両方、ならびにどの種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般にプロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から命令およびデータを受け取る。コンピュータの要素は、命令に従って活動を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスを含む。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、フラッシュメモリ、ソリッドステートデバイス、もしくは光ディスクを含み、または、それらからデータを受信することもしくはそれらにデータを転送すること、あるいはその両方を行うために、動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。その上、コンピュータは、たとえば、別のデバイス、たとえば、携帯電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)に組み込まれ得る。コンピュータプログラム命令およびデータを記憶するのに適したデバイスは、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路構成によって補完され得るか、または専用論理回路構成に組み込まれ得る。
【0156】
ユーザとの対話を行うために、本明細書において説明される主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)、プラズマ、またはLCD(液晶ディスプレイ)モニタ、ならびに、ユーザがそれによってコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールを有する、コンピュータ上で実装され得る。他の種類のデバイスも、ユーザとの対話を行うために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックを含んでもよく、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受け取られてもよい。加えて、コンピュータは、文書をユーザによって使用されるデバイスに送信し、文書をそのデバイスから受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答してウェブページをそのウェブブラウザに送信することによって、ユーザと対話することができる。
【0157】
本明細書において説明される主題の実装形態は、たとえば、データサーバとして、バックエンド構成要素を含むか、またはミドルウェア構成要素、たとえば、アプリケーションサーバを含むか、またはフロントエンド構成要素、たとえば、ユーザがそれを通じて本明細書において説明される主題の一実装形態と対話できるグラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータを含むか、あるいは1つまたは複数のそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組合せを含む、コンピューティングシステムにおいて実装され得る。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、たとえば、通信ネットワークによって相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(たとえば、インターネット)、ならびにピアツーピアネットワーク(たとえば、アドホックピアツーピアネットワーク)を含む。
【0158】
データ処理システム105などのコンピューティングシステムは、クライアントおよびサーバを含み得る。たとえば、データ処理システム105は、1つまたは複数のデータセンターまたはサーバファームの中の1つまたは複数のサーバを含み得る。クライアントおよびサーバは一般に、互いに離れており、通常は通信ネットワークを通じて対話する。クライアントとサーバとの関係は、コンピュータプログラムがそれぞれのコンピュータ上で実行し互いにクライアントとサーバの関係を有することによって生じる。いくつかの実装形態では、サーバは、(たとえば、クライアントデバイスと対話するユーザにデータを表示するとともにそのユーザからユーザ入力を受け取るために)データ(たとえば、HTMLページ)をクライアントデバイスへ送信する。クライアントデバイスにおいて生成されたデータ(たとえば、ユーザ対話の結果)は、サーバにおいてクライアントデバイスから受信され得る。
【0159】
本明細書は多くの特定の実装形態の詳細を含むが、これらはいずれの実装形態の範囲または特許請求され得るものの範囲を限定するものとして解釈されるべきではなく、むしろ本明細書において説明されるシステムおよび方法の特定の実装形態に固有の特徴の説明として解釈されるべきである。別々の実装形態の文脈で本明細書において説明される特定の特徴は、単一の実装形態で組み合わせて実装され得る。逆に、単一の実装形態の文脈で説明される様々な特徴は、複数の実装形態で別々に、または任意の適切な部分組合せでも実装され得る。さらに、特徴は何らかの組合せにおいて働くものとして上で説明され、そのようなものとして最初に特許請求されることさえあるが、特許請求される組合せからの1つまたは複数の特徴が、その組合せから除去されてもよく、特許請求される組合せは、部分組合せまたは部分組合せの変形を対象とすることがある。
【0160】
同様に、動作は、特定の順序で図面に示されるが、これは、望ましい結果を達成するために、そのような動作が図示された特定の順序でもしくは順番に行われること、または例示したすべての動作が行われることを必要とするものと理解されるべきではない。場合によっては、特許請求の範囲において列挙される活動は、異なる順序で実行されることがあるが、それでも望ましい結果を達成することができる。加えて、添付の図面に示されるプロセスは、望ましい結果を達成するために、必ずしも図示の特定の順序または逐次的な順序を必要とするとは限らない。
【0161】
状況によっては、マルチタスキングおよび並列処理が有利であり得る。その上、上で説明された実装形態における様々なシステム構成要素の分離は、すべての実装形態においてそのような分離を必要とするものとして理解されるべきではなく、説明されたプログラム構成要素およびシステムは一般に、単一のソフトウェア製品に一緒に組み込まれ得るか、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。たとえば、データ処理システム105は、1つまたは複数の処理モジュール、1つまたは複数のサーバ、またはクラウドコンピューティング環境の一部を有する、単一のモジュール、論理デバイスであり得る。
【0162】
いくつかの説明のための実装形態を説明してきたが、上記は限定するものではなく例示するものであり、例として提示されていることが明らかである。具体的には、本明細書において提示される例の多くは、方法の行為またはシステム要素の特定の組合せを伴うが、それらの行為およびそれらの要素は、同じ目的を達成するために他の方法で組み合わせられ得る。1つの実装形態だけに関連して論じられる行為、要素、および特徴が、他の実装形態において類似する役割から排除されることは意図されない。
【0163】
本明細書において使用される語句および用語は、説明を目的とするものであり、限定するものとして見なされるべきではない。本明細書において、「含む」、「備える」、「有する」、「含有する」、「伴う」、「により特徴付けられる」、「を特徴とする」およびそれらの変形の本明細書における使用は、それらの後に列挙された項目、それらの均等物、および追加の項目、ならびに、それらの後に列挙された項目からなる代替の実装形態を、排他的に包含することが意図される。一実装形態では、本明細書において説明されるシステムおよび方法は、説明された要素、行為、または構成要素の、1つ、1つより多くのうちの各々の組合せ、またはすべてからなる。
【0164】
単数形で言及される本明細書のシステムおよび方法の実装形態または要素または行為へのあらゆる言及は、複数のこれらの要素を含む実装形態も包含することがあり、本明細書における任意の実装形態または要素または行為への複数形でのあらゆる言及は、単一の要素のみを含む実装形態も包含することがある。単数形または複数形での言及は、ここで開示されるシステムまたは方法、それらの構成要素、行為、もしくは要素を、単一のまたは複数の構成に限定することは意図されない。いずれかの情報、行為、または要素に基づくものとしてのいずれかの行為または要素への言及は、その行為または要素が、いずれかの情報、行為、または要素に少なくとも一部基づくような実装形態を含み得る。
【0165】
本明細書において開示されるいずれの実装形態も、いずれの他の実装形態と組み合わせられてもよく、「実装形態」、「いくつかの実装形態」、「代替の実装形態」、「様々な実装形態」、「一実装形態」などへの言及は、必ずしも互いに排他的ではなく、実装形態に関連して説明される具体的な特徴、構造、または特性が少なくとも1つの実装形態に含まれ得ることを示すことが意図される。本明細書において使用されるそのような用語は、必ずしもすべてが同じ実装形態を指してはいない。いずれの実装形態も、本明細書において開示される態様および実装形態と矛盾しないあらゆる方式で、包含的にまたは排他的に、いずれの他の実装形態とも組み合わせられ得る。
【0166】
「または」への言及は包含的であると解釈され得るので、「または」を使用して記述されるあらゆる語は、記述される語の1つ、1つより多く、およびすべてのいずれをも示し得る。
【0167】
図面、詳細な説明、および任意の請求項において技術的な特徴の後に参照符号がある場合、参照符号は、図面、詳細な説明、および請求項のわかりやすさを高めることのみを目的に含まれている。したがって、参照符号も、参照符号がないことも、請求項の要素の範囲を制限する効果をまったく持たない。
【0168】
本明細書において説明されるシステムおよび方法は、それらの特性から逸脱することなく、他の特定の形式で具現化され得る。本明細書において提供される例は、情報リソースのコンテンツの表示を制御することに関するが、本明細書において説明されるシステムおよび方法は、他の環境に適用されることを含み得る。前述の実装形態は、説明されたシステムおよび方法を限定するものではなく、例示するものである。したがって、本明細書において説明されるシステムおよび方法の範囲は、前述の説明ではなく添付の請求項により示され、請求項の意図および範囲の均等性の範囲内にある変更は請求項に包含される。
【0169】
上で説明されたシステムおよび方法は、1つまたは複数の製造物品、たとえばコンピュータ可読媒体に、またはその中に記録される1つまたは複数のコンピュータプログラムの中の命令として提供され得ることを、理解されたい。製造物品は、フロッピーディスク、ハードディスク、CD-ROM、フラッシュメモリカード、PROM、RAM、ROM、または磁気テープであり得る。一般に、コンピュータプログラムは、LISP、Perl、Python、C、C++、C#、PROLOGなどの任意のプログラミング言語、またはJAVA(登録商標)などの任意のバイトコード言語で実装され得る。ソフトウェアプログラムは、オブジェクトコードとして、1つまたは複数の製造物品に、またはその中に記憶され得る。
【0170】
方法およびシステムのいくつかの実施形態を説明したが、本開示の概念を組み込む他の実施形態が使用され得ることが、ここで当業者には明らかになるだろう。したがって、本開示は、いくつかの実施形態に限定されるべきではなく、以下の請求項の趣旨および範囲によってのみ限定されるべきである。
【符号の説明】
【0171】
105 データ処理システム
106 処理回路
107 プロセッサ
108 記憶媒体
110 ネットワーク
115 重複排除サーバ
116 処理回路
117 プロセッサ
118 記憶媒体
120 アナリストデバイス
125 データベース
130 データ記録
132 クライアント識別子
134 属性
135 クライアントデバイス
140 ベクトル生成器
145 頻度特定器
150 ベクトル選択器
155 データ記録ハッシャ
160 ベクトルエンコーダ
165 プロトコル協調器
170 ベクトル重複排除器
175 分布生成器
180 GUI生成器
1000 コンピュータシステム
1005 バス
1010 プロセッサ
1015 メインメモリ
1020 ROM
1025 記憶デバイス
1030 入力デバイス
1035 ディスプレイ
1040 通信アダプタ
1045 ネットワーク