IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ライブランプ インコーポレーテッドの特許一覧

特許7046970漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法
<>
  • 特許-漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法 図1
  • 特許-漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法 図2
  • 特許-漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法 図3
  • 特許-漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法 図4
  • 特許-漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-25
(45)【発行日】2022-04-04
(54)【発明の名称】漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法
(51)【国際特許分類】
   G06F 21/16 20130101AFI20220328BHJP
【FI】
G06F21/16
【請求項の数】 19
(21)【出願番号】P 2019550566
(86)(22)【出願日】2018-03-09
(65)【公表番号】
(43)【公表日】2020-04-23
(86)【国際出願番号】 US2018021853
(87)【国際公開番号】W WO2018169802
(87)【国際公開日】2018-09-20
【審査請求日】2020-12-04
(31)【優先権主張番号】62/472,853
(32)【優先日】2017-03-17
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519161872
【氏名又は名称】ライブランプ インコーポレーテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】特許業務法人浅村特許事務所
(72)【発明者】
【氏名】コールマン、アーサー
(72)【発明者】
【氏名】パワーズ、シボン
(72)【発明者】
【氏名】レオン、ズー リン クリスティーナ
(72)【発明者】
【氏名】ローズ、マーティン
(72)【発明者】
【氏名】ルバロン、マット
【審査官】宮司 卓佳
(56)【参考文献】
【文献】特開2003-316914(JP,A)
【文献】特開2008-171131(JP,A)
【文献】特開2006-140944(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/16
(57)【特許請求の範囲】
【請求項1】
コンピュータが、漏洩の疑いのあるワイルド・ファイルに関して有罪性を測定するための方法であって、前記コンピュータが、
a. 前記ワイルド・ファイルにおける複数のソルトのうちの1つに対して第1の検索を実施するステップであって、各ソルトが受領者IDに関連付けられており、次いで、そのそれぞれが、受領者データ・ファイルに関連付けられており、前記第1の検索が、結果としてビット数の組となり、それぞれが、前記受領者IDにおける各ビット位置に対するビット値を含む、第1の検索を実施するステップと、
b. ヒューリスティック値を各ビット値に割り当てて、有罪の疑いがある信頼できる第三者機関(TTP)の第1の計算を求めるために所定のヒューリスティックを各ビット位置に適用するステップと、
c. 各有罪の疑いがあるTTPの有罪の確率を有罪の疑いがあるTTPの数で除算するステップと、
d. 第1の有罪性スコアを生成するために各有罪の疑いがあるTTPの有罪の前記確率を、検出の間に前記受領者IDにマッチしたビットの数に関連付けられた係数で重み付けするステップと、
e. 前記ワイルド・ファイルにおける複数のソルトのうちの1つに対して第2の検索を適用するステップと、;
f. 検出された受領者IDに関連付けられた各受領者ファイルに対する前記漏洩の疑いのあるワイルド・ファイルの第2の有罪性スコアを計算するステップと、
g. 前記第1の検索及び第2の検索の両方の後に、検出された受領者IDの重みを増加させるステップと、
h. 第3の有罪性スコアを生成するために、前記漏洩の疑いのあるワイルド・ファイルにおけるデータの統計的分布を前記検出された受領者IDに対応する受領者ファイルと比較するステップと、
i. 第4の有罪性スコアを生成するために、主成分解析による混合データ・フィンガープリンティングを前記ワイルド・ファイルに適用するステップと、
j. 前に計算した第1、第2、第3、及び第4の有罪性スコアを平均することによって最終有罪性スコアを計算するステップとを実行する、方法。
【請求項2】
前記所定のヒューリスティックが、80~20ヒューリスティックである、請求項1に記載の方法。
【請求項3】
前記ヒューリスティック値が、1、0、及び未知数からなる組から選択される、請求項2に記載の方法。
【請求項4】
識別された前記ビット値の数が最小ビット値未満である場合、漏洩された疑いがある受領者ファイルに関連付けられた受領者IDのプールに前記識別された前記ビット値を含まない、請求項3に記載の方法。
【請求項5】
各有罪の疑いがあるTTPの有罪の前記確率を、検出の間に前記受領者IDにマッチしたビットの数に関連付けられた係数で重み付けする前記ステップが、前記受領者IDをグループに分け、前記グループごとに重み付け測定基準を適用することを含む、請求項4に記載の方法。
【請求項6】
前記瓶ベースの重み付け測定基準が、11から20の合計に対してマッチした受領者IDの第1の特定の値、21から30の合計に対してマッチした受領者IDの第2の特定の値、及び30を超える合計に対してマッチしたIDの第3の特定の値である、請求項5に記載の方法。
【請求項7】
前記第1の検索及び第2の検索の両方に対する前記瓶ベースの重み付け測定基準が、合計した瓶ベースの重み付け測定基準を作り出すために一緒に追加される、請求項5に記載の方法。
【請求項8】
前記漏洩の疑いがあるファイルにおけるデータの前記統計的分布を前記検出された受領者IDに対応するファイルと比較する前記ステップが、データが前記漏洩の疑いがあるファイルにおいて分配されたに違いないデータ範囲を識別するステップをさらに含む、請求項1に記載の方法。
【請求項9】
前記漏洩の疑いがあるファイルにおけるデータの前記統計的分布を前記検出された受領者IDに対応するファイルと比較する前記ステップが、検出された受領者IDに対応する前記ファイルにおけるレコード・フィールドを前記漏洩の疑いがあるファイルにおけるレコードと比較するステップと、任意のマッチしないファイルに対する任意の検出された受領者IDに対応する受領者ファイルを除外するステップとを含む、請求項8に記載の方法。
【請求項10】
前記漏洩の疑いがあるファイルにおけるデータの前記統計的分布を前記検出された受領者IDに対応するファイルと比較する前記ステップが、前記検出された受領者IDに対応する受領者ファイルと、前記漏洩の疑いのあるワイルド・ファイルとのメタ特性をマッチさせるステップを含む、請求項9に記載の方法。
【請求項11】
前記メタ特性が、値型、値の数、値の名前、及び充足率のうちの少なくとも1つを含む、請求項10に記載の方法。
【請求項12】
前記漏洩の疑いがあるファイルにおけるデータの前記統計的分布を前記検出された受領者IDに対応するファイルと比較する前記ステップが、マッチするメタ特性を有する各受領者IDに対応する基準ファイルにおいて少なくとも1つの属性を用いてカイ二乗適合度解析を実施するステップをさらに含む、請求項10に記載の方法。
【請求項13】
マッチした列の数を得るために、前記漏洩の疑いのあるワイルド・ファイルと、マッチした受領者IDに対応する受領者ファイルとの間の属性がマッチしたセルにおける値を比較するステップをさらに含む、請求項12に記載の方法。
【請求項14】
マッチするセル値の数を生じるために、マッチした列の総数をマッチした行の数で乗算することによって可能なセル・マッチの総数を計算するステップをさらに含む、請求項13に記載の方法。
【請求項15】
前記マッチするセル値のそれぞれを履歴情報に関係した属性特有の係数で重み付けするステップをさらに含む、請求項14に記載の方法。
【請求項16】
前記履歴情報が、属性/列分配頻度、専有状態、及び際立った属性の特徴のうちの少なくとも1つを含む、請求項15に記載の方法。
【請求項17】
前記最終有罪性スコアが、所定の受領者リスク・プロファイル・スコアに基づいて重み付けされる、請求項1に記載の方法。
【請求項18】
前記所定の受領者リスク・プロファイル・スコアが、整数値範囲を含む、請求項17に記載の方法。
【請求項19】
前記所定の受領者リスク・プロファイル・スコアの前記整数値範囲が、分配するデータに関連付けられた潜在的な責任に寄与する、受領者の財務及び/又は信用履歴、経営実施、並びに追加の特性のうちの1つ又は複数を含む複数の要因から導き出される、請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野は、データが不適切に複写又は使用されたかどうかを判定し、そうである場合、データを不適切に複写又は使用した当事者を識別するためのデータの所有権の検証である。
【背景技術】
【0002】
この背景の節に述べられた参考文献は、本発明に関して先行技術であると認められないものとする。
【0003】
データ漏洩は、所有者又は正規ユーザ以外の誰かによるデータの不正使用と定義することができる。データ漏洩は、2019年までには数兆ドルの問題になると推定される。現在売上の損失において1年に約$10億になるデータ漏洩の解決策は、或る種類のデータに関してしばらくの間存在していた。データが実際には所有者のファイアウォールの外側に暗号化されていない文章で露出されていると、図形、映像、音声、又は文書(すなわち、テキスト又は.pdf)データの所有権をアサートするために解決策が存在していた。組織体は、それらの知的財産(IP)を悪用から保護するために、周知のように、これらのウォーターマーキング解決策を使用する。それらにより、データ所有者は無許可使用の損傷を回復することが可能になる。何故なら、それらは、所有権及び著作権侵害の証拠として裁判所においてウォーターマークを使用することができるからである。そのような法的救済策が存在することにより、個人又は集団がその著作権のある資料を所有者の許可なく取得し、次いで、使用したいと望むのが抑止される
【0004】
悲しむべきことに、テキスト及びデータベース・ファイルのデータ漏洩は、暗号化されていない文章で通過したか、又は使用の時点で解読されたかにかかわらず、未解決の問題のままである。消費者データの所有者(「データ所有者」)は、しばしば、それらのデータを、金融業務におけるRegulation Bなどの契約要求事項又はデータ処理規則又は地方自治体、州政府又は連邦政府によって制定されたプライバシー法に従って法的なやり方でのみ当該データを使用することが信用されている個人又は組織体(「信頼できる第三者機関」又は「TTP」)に与え、貸し、又は販売する。このデータは、通常、一連のデータベース・テーブル(例えば、.sqlフォーマット)、テキスト・ファイル(例えば、.csv、.txt、.xls、.doc、又は.rtpフォーマット)として、又は実時間データ・フィード(例えば、XML又はJSON)として伝送される。これにもかかわらず、データ所有者のデータが(漏洩されたファイルは、本明細書では「漏洩されたサブセット」と定義される)適切な許可なく又はさらには違法に、故意にか又は無意識にかのいずれかでデータを使用する他者(悪人)の手に漏洩することがしばしば起きる。これは、例えば、TTPがデータを故意に公開し、それ自体が悪人であり、TTPの従業員がデータを故意に又はうっかり公開し、又はデータ所有者自体の従業員が故意に又は無意識にデータを漏洩するので起きることがある。
【0005】
本明細書に関する本発明者は、理想的な有罪性割当てモデルが、データ・セット内の独自の属性の分配履歴を追跡すること、及びデータを漏洩したことのそれらの確率を求めることとともに潜在的に有罪のTTPの識別を処理すると信じる。この種類の先行技術の方法によって対処されていない以下の利点をもたらす有罪性得点法が望ましい。すなわち、データの元の受領者を識別できる能力、データ・ファイル内の所有権属性を識別できる能力、及び初期TTPへのデータの元の分配の日付を識別できる能力である。
【先行技術文献】
【特許文献】
【0006】
【文献】国際特許出願番号PCT/US2017/062612
【発明の概要】
【課題を解決するための手段】
【0007】
或る実装例における本発明は、有罪性割当てモデル及び上記に概要を述べた目的を実現する得点法を対象としている。まず、それはデータの機密性及び機密保護のビジネス機能を果たす。「ワイルド・ファイル」は、違法に分配された専有データを潜在的に含む、以前は未知の起源の記録のリストと定義することができる。このファイルは、無数の発生源から発見することができる。次いで、属性、メタデータ及び値のアーカイブしたバックログである、「履歴属性の参照データベース」が採用される。このデータベースは、この有罪性割当てサービスのすべてのユーザからのデータに対して存在する。本発明は、全体の累積的有罪性割当てスコアに加重寄与を行うデータ識別技法の独自に階層化された統合を利用する。それは、専有データを販売する、又は他の方法で分配するビジネスを対象としている。したがって、本発明により、組織体は、意図的にか又は非意図的にかのいずれかで、暗号化されていない文章で(すなわち、暗号化なしの)それらのファイアウォールの外側に分配された文字情報の所有権を識別し、アサートすることが可能になり、データを悪用する当事者に有罪性を割り当てることが可能になる。
【0008】
有罪性割当てシステム及び方法は、特定のTTPが、実際に、データを違法に分配した、又は悪人がデータを違法に分配することを可能にした悪人である統計的確率を生成する。有罪性を割り当てることは、データをデータ所有者から受け取る数千のTTPがあるとき、潜在的に困難である。ウォーターマーキング及びフィンガープリンティングでは、漏洩者の正体に関して理想的に100%の確実性が得られる。正しく行われた場合、ウォーターマーキング又はフィンガープリンティングは、ほとんどのTTPを除外し、少数の潜在的な疑わしい容疑者だけを残し、そのそれぞれは、漏洩源であることの異なる統計的尤度を有する。本発明の或る実装例における有罪性割当てサービスは、各当事者間の統計的「距離」を最大化するように設計され、したがって、1つのTTPは、しばしば、他のものよりも発生源であった可能性が顕著であると判明する。有罪性割当てシステムは、データ・セット内の特異なパターンを捕獲し、それらのパターンの系列をデータの初期受領者までさかのぼって追跡する多層情報検出システムとして設計される。有罪性割当てシステムには、いくつかの層のデータ解析が関与し、それぞれがすべての識別された潜在的な悪人の全有罪性スコアに対して加重寄与を行う。
【0009】
或る実装例において、本発明は、複数の層で動作する。個々の層において、各層は、データの際立った特徴に関する新たな情報にそれがソース・データに関するとき寄与する。相互作用層において、各層は、可能な犯人又は受領者IDの数を最小限に抑えることに寄与する。データ内のいくつかの属性は、有罪性スコアを他のものよりも重視する。
【0010】
本発明のこれらの及び他の特徴、目的及び利点は、以下に説明する図面と併せて、好ましい実施例の以下の詳細な説明及び添付の特許請求の範囲の検討からよりよく理解されることになるであろう。
【図面の簡単な説明】
【0011】
図1】本発明の実施例を使用する実例においてビット観察カウントを示す図表である。
図2】本発明の実施例を使用するデータ・ファイルにおいて属性にマッチさせるためのカイ二乗適合度検定の適用の図である。
図3】本発明の実施例を使用する実例においてワイルド・ファイル・データの基準データに対する比較を示す略図である。
図4】本発明の実施例を使用する実例において統計的プロファイル評価中の加重及び非加重属性を示すテーブルの組である。
図5】本発明の実施例のデータ・フロー図である。
【発明を実施するための形態】
【0012】
特に記載のない限り、本明細書に使用するすべての技術及び科学用語は、本発明が属する当技術分野の当業者によって一般に理解されるものと同じ意味を有する。本明細書に説明するものと同様又は同等の任意の方法及び資料は、本発明の実施又は検査に使用することもできるが、限定した数の例示的な方法及び資料は、本明細書に説明する。さらに多くの変更が本明細書における本発明概念から逸脱することなく可能であることは当業者には明らかであろう。ウォーターマーキング及びフィンガープリンティングは、データ保護に階層化方式を採用するが、有罪性検出は、特定の層の存在に依存しない。ワイルド・ファイルは、1つ又は複数の層に任意のレベルの有罪性を用いて検出することができる。
【0013】
データ漏洩に対する第1の線の保護として、顧客特有のウォーターマーキング・メカニックが適用される。まず、独自の受領者IDが生成され、1つがデータベースにおける各クライアントに無作為に割り当てられる。受領者IDの長さは、一意性を保証するのに十分な長さである限り任意の長さであることができる。
【0014】
層1、ウォーターマーク検出が、以下のやり方で進められる。ソルティング処理は、独自のデータ(ソルト)をデータのサブセットに挿入するメカニックであり、したがって、データが漏洩した場合、データのサブセットに含まれるデータは、データ所有者までさかのぼって識別することができる。ソルトは、この受領者特定のIDにリンクされる。疑わしいワイルド・ファイルを受領し次第、ソルトは受領者IDにおける各ビット位置(「ビット位置」)の0及び1(「ビット値」)に関連付けられたカウントの組(「ビット数」)を生じる検索プロトコルを開始することによってチェックされる。80~20ヒューリスティックなどの、ただし、それに限定されない、事前に定義されたヒューリスティックが、そのビット位置が各ビット値に関連付けられたカウントに基づいて0、1、又は未知数に割り当てられるべきなのかどうかを判定するために適用される。すなわち、所与のビット位置のカウントの80パーセント以上がそのビット値(「パーセント・ビット値」)に関連付けられる場合、ビット値が1又は0として割り当てられる。どちらのビットもカウントの80パーセントを有さない任意のビット位置において、それは未知数(「検出ビット」)とみなされる。図1は、11のビット位置に適用されたこの方法の例示的な実例を提供する。
【0015】
検出された受領者IDは、回復されたビットの変数を有する。受領者IDが10ビット未満で検出された場合、最大10ビットまでに無作為にマッチする確率がおおよそ0.1%であるので、それは受領者IDプールに含まれない。したがって、受領者IDがウォーターマーク検出層の間に「回復された」とみなされた場合、データ所有者は、それが当該データを最初に分配した顧客に関して99.9%超の信頼度を有する。ウォーターマーク検出フェーズの間に検出された受領者IDは、有罪の疑いのあるTTPの初期プールを含む。
【0016】
初期ウォーターマーク検出(層1)の後、有罪の確率は、検出された受領者IDの数で割られた100である。次いで、この値は、検出された受領者IDにおいてマッチしたビットの数に関する情報に基づいて重み付けされる。例えば、ソルトにおいて検出された3つの受領者IDがある場合、各受領者IDに割り当てられた初期有罪性スコアは33である。次いで、この値は、検出中に受領者IDにマッチしたビットの数に関連付けられた係数で重み付けされる。すべての受領者IDは、最大少なくとも11ビットまで検出の基準としてマッチされるが、11ビット超にマッチする確率は、ビットの数が増加するにつれて大幅に減少する。瓶ベースの重み付け測定基準が適用され、11から20の間でマッチした受領者IDは、特定の値(例えば、1.1)で重み付けされ、21から30ビットの間でマッチしたIDは、異なる値(例えば、1.35)で重み付けされ、30超のマッチしたビットを有するIDは、第3の値(例えば、1.55)で重み付けされる。所与の有罪性スコアの重みは、ビット・マッチ率に関係しており、より多くのマッチしたビットを有する受領者IDは、層1処理の終わりまでにより高い有罪性スコアが割り当てられる。例えば、3つの検出された受領者IDのプールにおいて、受領者IDがマッチした12ビットを有する場合、層1(初期ウォーターマーク検出)の終わりまでに、それは36.3の加重有罪性スコアを受け取り、25ビットがマッチした受領者IDは、45の加重有罪性スコアを受け取り、35ビットがマッチした受領者IDは、51の加重有罪性スコアを受け取るであろう。
【0017】
層2(高度なウォーターマーク検出)に移動すると、顧客への分配の前にデータに埋め込まれた追加のソルト関連パターンを検出するための別の検索プロセスが開始される。検索プロセスの方法は、初期ウォーターマーク検出手順と同じであるが、他のデータ値に適用され、それは図1に示すものと同じ種類のビット・ストリングを生じる。ビット・ストリングは、層1において使用されたものと同じ受領者IDのプールにマッチする。同じ受領者IDプールとマッチさせることによって、したがって、顧客-データ・リンクによって、層2は悪い行為をすることが疑われるTTPのプールを増加させる。
【0018】
高度なウォーターマーク検出(層2)の後、有罪性スコアが、あらゆる検出された受領者IDに対して計算される。同じ受領者IDが層1及び2の両方に関係している場合、層2は、有罪の確率、したがって、それらの受領者IDに関連付けられたTTPの有罪性スコアの増加を生じる。言い換えれば、重複受領者IDが、受領者IDプールにおけるそれらの頻度により重み付けされる。例えば、層2の終わりに、さらに2つのIDが受領者IDプールに追加され、それらが層1においてマッチした25及び30ビットを有する2つのIDと同じである場合、それらの受領者IDのベースの有罪性スコアは40であり、プールにおいて一度だけ表れる受領者IDでは、ベースの有罪性スコアは20である。上記に説明したものと同じ重み付け測定基準例(1.1、1.35、及び1.55)及び同じ受領者IDビットの数(40)を使用して重みを有罪性スコアに因数分解すると、層2の後の結果として得られる3つの受領者IDの有罪性スコアは、25及び30ビットがマッチした受領者IDに対して、それぞれ、54及び62である。このシナリオにおいて、12のマッチしたビットを有する受領者IDの有罪性スコアは44である。
【0019】
高度なウォーターマーク検出の後、解析の第3の層が適用され、ワイルド・ファイルにおけるデータの統計的分布が、参照データベースにおける対応するデータ内の分配と比較される。これは、本明細書においてレベル3、統計的プロファイル検出と称される。層2から生じる受領者IDプールは、悪い行為をしていると疑われるTTPのリストとしての役割を果たす。ワイルド・ファイル内に含まれる情報を使用して、日付範囲が識別され、その中で、データは分配されていたに違いない。
【0020】
レベル3における統計的プロファイル検出の方法は以下のように進められる。すなわち、
【0021】
1)ワイルド・ファイルにおけるレコードは、ワイルド・ファイルにおける利用可能な個人識別情報(例えば、名前及び住所)を有する疑わしい受領者IDファイルに関連付けられた疑わしいTTPのそれぞれにおけるものとマッチする。マッチするレコードだけがさらに評価される(ステップ4において)。層1及び2がいずれかの疑わしい受領者IDを生じない場合、システムは、層3フィンガープリントの検出のために企業のマスター・データ・ファイル、データ所有者セットを使用する。
【0022】
2)参照データベースにおける属性(図2参照)とマッチさせるのに使用される、各ワイルド・ファイル列のデータの値型、値の数、値の名前及び充足率などのメタ特性を含むがそれに限定されない、いくつかのマッチするメカニックが採用される。
【0023】
3)カイ二乗
適合度解析が、ワイルド・ファイルの各列を、マッチするメタ特性を有する基準ファイルにおける各属性と比較するのに適用される。カイ二乗適合度解析とは、データ・セット内のカテゴリーが同じやり方で分配されている、したがって、同じ「母集団」から来る、又は、この場合、同じ属性を表すと推定されるかどうかを判定するのに使用することができる統計的検定である。この文脈で0.05未満のp値を有する、結果として得られる
統計値は、ワイルド・ファイル属性が、TTP受領者ファイルにおける場合と同じ属性である可能性が95%であることを示唆する。これはこの実例においては属性のマッチとみなされ、TTP受領者ファイル属性が、さらに比較を受けるデータのサブセットに追加される。異なるp値切り捨てを、本発明の代替実施例において採用することができる。比較プロセスは、ワイルド・ファイルにおけるあらゆる属性にわたって、及び受領者IDプールにおけるあらゆる疑わしい悪人に分配されたデータのワイルド・ファイルと共通の属性の組を生じるすべての潜在的なソース・ファイルにわたって反復される。図2は、
適合度解析がワイルド・ファイルにおける属性をTTP受領者ファイルにおける属性とマッチさせるのにどのように使用されるのかの実例である。
【0024】
4)TTP受領者ファイルにおけるマッチしたレコード及びマッチした属性のサブセット(図3に示すように)は、さらに有罪性評価解析を受ける。ワイルド・ファイルの各セルにおけるデータは、図3に示すように、受領者ベンダー・ファイルの各レコード及び属性がマッチしたセルにおけるデータと比較される。
【0025】
5)各潜在的な悪人に対して、各疑わしい悪人の各ソース・ファイルにおいて統計的にマッチしたワイルド・ファイルにおける列の数、各ソース・ファイルにおける名前及び住所を介してマッチしたワイルド・ファイルにおける行の数、及びソース・ファイルにおけるセルと同じ値を有したワイルド・ファイルにおけるセルの数を表す値が得られる。次いで、可能なセル・マッチの総数が、マッチした行の数をマッチした列の数で乗算することによって計算され、次いでマッチするセル値の数を計算する。
【0026】
6)次いで、マッチするセル値の数は、属性/列分配頻度に関する履歴情報、専有状態、及び際立った属性特徴に関係する属性特有の係数で重み付けされる。この情報は、属性参照データベースに記憶される。属性の重みは、0から1の範囲にわたり、0は「年齢」又は「性」などの相対的により頻繁に分配される属性に割り当てられ、1は、例えば、めったに分配されない、又は周知の専有データに明示的にリンクされたヘッダー又は値ラベルを含む属性に割り当てられる。単一の属性に対する層3の有罪性スコア計算の間、より少ない頻度の属性に対して1よりも大きい属性ベースの重みが、セル・マッチの総数で乗算される。同様に、専有ヘッダー名又は値ラベルを有する属性が、1よりも大きく重み付けされる。このようにして、いくつかの属性からのデータの検出は、他のものよりも多くの重みを有罪性スコアに付加する。
【0027】
実例として、図3において、4つのファイル(1つのワイルド・ファイルと3つの受領者ファイル)にわたって表される6つの異なる属性がある。すなわち、「運転者」、「ヨガ実践者」、「親」、「性別」、「年齢」、及び「コンピュータ技術者」である。これらの属性のうちの3つは、ワイルド・ファイルに存在し(「運転者」、「ヨガ実践者」、及び「親」)、したがって、受領者ファイルの有罪性を割り当てる際の重要な要因である。「運転者」及び「親」の属性は、「ヨガ実践者」の属性よりもしばしばTTPに分配される。したがって、この文脈において、「ヨガ実践者」の属性からであると判定されたデータ(層3における)は、有罪性スコアにおいて「運転者」及び「親」の属性であると判定されたデータよりも強い重みを担持する。図4は、図3のシナリオから作成された属性加重有罪性スコア計算を示す。
【0028】
層4のフィンガープリンティング、PCAMixの有罪性割当てメカニックを以下に文書で説明する。PCAMixフィンガープリントを実施するためのプロセスは、「Mixed Data Fingerprinting with Principal Components Analysis」という名称の国際特許出願no. PCT/US2017/062612に開示されている。
【0029】
ワイルド・ファイルは、ワイルド・ファイルにおいて利用可能な個人識別情報(例えば、名前及び住所)を有する、疑わしい受領者IDファイルに関連付けられた疑わしいTTPのそれぞれのものを用いて処理される。マッチするレコードだけがさらに評価される。層1及び2がいずれかの疑わしい受領者IDを生じない場合、システムは、層4フィンガープリントの検出のために企業のマスター・データ・ファイル、データ所有者セットを使用する。データ所有者セットは、以下に有罪性スコア計算を示すために実例として使用される。
【0030】
1) 固有値のベクトルは、データ所有者セット及びワイルド・ファイルのために、それぞれ、データ所有者固有値及びワイルド・ファイル固有値として生成される。これにより、固有値、関連付けられた固有ベクトルによって説明される分散の量、及び説明される累積的分散が得られる。元の変数の間に相関がある場合、固有値は、固有ベクトルの低減された組がデータ・セットにおける分散のほとんどを占めるが、分散の少量を占めるものは、それに続く解析のために廃棄又は無視することができることを示す。固有ベクトル行列は、データ所有者及びワイルド・ファイルのために、それぞれ、データ所有者固有ベクトル及びワイルド・ファイル固有ベクトルとして生成される。これらの行列は、データ・セットの圧縮されたシグネチャー、又はむしろそれが基づいている変数のサブセットである。元の変数と同数の固有ベクトルがある。各固有ベクトルは、元の変数の重みである要素を有するベクトルである。重みは、異なる固有ベクトルにおける特定の変数の重要性を示す。データ・セットが同一である場合、固有ベクトル行列は同一である。それらが同一でない場合、2つの固有ベクトル行列は異なる。
【0031】
2) 次のステップは、スコア生成である。固有ベクトル・スコアの行列は、データ所有者セット及びワイルド・ファイルのために生成される。各観察が元の変数の値を有するのとまったく同じように、それらは、固有ベクトルの各1つに対してもスコアを有する。類似性スコアは、データ所有者セット及びワイルド・ファイルからの固有値の比較からの出力である。両方の解析が同じ観察及び変数に対して実施されていた場合、ファイルが同じならば、固有値は多かれ少なかれ同一であるはずである。この場合、層4のスコアは1である。
【0032】
3) 1ではない場合、又はそれに非常に近い場合、それらは統計的に有意な差を示さないはずである。この場合、固有値が0.8以上であるとき、固有値ごとにスコアを出す。すなわち、固有値が0.85である場合、スコアは0.85である。次いで、固有値が0.8未満であるとき、層4のスコアは0である。
【0033】
最終評価層の後、すべての層に対する有罪性スコアの平均を計算し、それは各受領者ファイル又はデータ所有者セットのためにスコアを用いて検出されている。次いで、この値は、所定の受領者リスク・プロファイル・スコアに基づいて最終重み付けを受ける。リスク・プロファイル・スコアは、整数値範囲、例えば、1から4であり、データをTTP企業に分配するリスクを表す。リスク・プロファイル・スコアは、貴重なデータを企業に分配することに関連付けられた潜在的な責任に寄与する、企業の財務及び/又は信用履歴、経営実施、及び追加の特性に関するいくつかの要因の解析から導き出される。最低のプロファイル・スコア(すなわち、1)は、最高レベルの信用性に関連付けられ、又は最低のリスク及び最高の値のスコア(すなわち、4)は、企業が低いレベルの信用性又は最高のリスクを有することを示唆する。1のリスク・スコアを受け取る企業又はファイル上に情報が何もない企業は、有罪性割当ての最終層の後、追加の重み付けを何も受け取らない。4のリスク・スコアを受け取る企業は、有罪性割当ての最終層の後、最強の重み付けを受け取る。すべての場合において、リスク・スコアが1よりも大きい場合、リスク・プロファイルの重みは、所与のTPP受領者の有罪性スコアを増加させる。
【0034】
この有罪性割当てプロセスの出力は、それぞれが、当該ファイルを漏洩する相対的有罪可能性を表す有罪性スコアを有する有罪の疑いがあるTTPのリストである。図5は、有罪性評価プロセスの層全体にわたる有罪性評価モデル及び有罪性スコア重み調整を通じた情報の流れを示す。複数の受領者IDが層1及び2において検出された場合、累積的有罪性スコアが、TTPの間の潜在的な相対的有罪性を順位づけするのにも使用される。
【0035】
次にプロセスを概略で説明するために図5を参照すると、層1におけるウォーターマーク検出が、ブロック12において行われ、入力がフィンガープリント検出10を入力として変更する。ビット・マッチ率重み計算14が、図1の実例に示し、上記に説明したように計算される。処理は、上記に説明したように計算された、別個のビット・マッチ重み16及び受領者ID頻度重み18を使用して、ブロック22で行われる、層2における高度なウォーターマーク検出に進む。受領者IDが受領者ファイル・データベース20から引き出され、それは別個の受領者ファイル24のすべてからなることに留意することができる。ブロック26における統計的プロファイル・フィンガープリント検出層3に移動すると、受領者・ファイル・データベース20は、この処理、並びに属性参照データベース30への入力である。属性参照データベース30は、属性頻度重み28を作るのに使用される。ブロック38におけるPCAMixフィンガープリントの層4に移動すると、マッチした個々のレコード及びマッチした属性が、この処理に入力される。PCAMix固有値スコア40が入力として受け取られ、その機能は上記に説明したとおりである。次いで、プロセスは、ブロック32における全有罪性スコアに至る、追加の重み係数に移動する。ここで、入力は、前の層からの受領者プロファイル・スコア・データベース36並びに平均有罪性スコアを含み、受領者プロファイル・スコア・データベース36は、受領者正当性重み34を計算するのに使用される。出力は、ブロック32における全有罪性スコア層からの全有罪性スコアである。
【0036】
本明細書に使用するすべての用語は、文脈に一致した、可能な限り最も広いやり方で解釈すべきである。本明細書においてグループ化を使用したとき、集団のすべての個々の成員及び集団の可能なすべての組合せ及び部分的組合せが、個別に含まれることが意図されている。範囲が本明細書において記載されているとき、範囲は、すべての部分的な範囲及び範囲内の個々の点を含むことが意図されている。本明細書において引用されたすべての参考文献は、本明細書の開示との不一致がない限り参照により本明細書に組み込まれる。
【0037】
添付の特許請求の範囲に記載されているように、例示的だけであることが意図されており、本発明の全範囲に限定されない、或る好ましい及び代替の実施例を参照して本発明を説明してきた。
図1
図2
図3
図4
図5