(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-21
(54)【発明の名称】プライベート且つセキュアなデータリンクの為のコンテキストデータマスキングのシステム及び方法
(51)【国際特許分類】
G06F 21/62 20130101AFI20230214BHJP
【FI】
G06F21/62 354
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022545978
(86)(22)【出願日】2021-01-29
(85)【翻訳文提出日】2022-09-09
(86)【国際出願番号】 IB2021050740
(87)【国際公開番号】W WO2021152542
(87)【国際公開日】2021-08-05
(32)【優先日】2020-01-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522060009
【氏名又は名称】コリブラ エヌブイ
【氏名又は名称原語表記】COLLIBRA NV
(74)【代理人】
【識別番号】100107364
【氏名又は名称】斉藤 達也
(72)【発明者】
【氏名】ゴエル,サティエンダー
(72)【発明者】
【氏名】チャチラ,アップワン
(72)【発明者】
【氏名】クシュマン ザ セカンド,ジェームス ビー.
(57)【要約】
本開示は、コンテキストデータマスキング及び登録の為の方法及びシステムに関するものである。データマスキングプロセスは、取り込まれたデータのセキュリティ/プライバシーを維持しながら、取り込まれたデータを分類すること、データを処理すること、及びデータをトークン化することを含んでもよい。データマスキングプロセスは、取り込まれたデータの匿名化されたラベルを生成すること、取り込まれたデータの属性を検証すること、その属性を標準化フォーマットに標準化すること、及び1つ以上のルールエンジンによってデータを処理することを含むデータ設定を含み得る。1つのルールエンジンは、クライアントデータを外部に送信することなく、取り込まれたデータの列に対する洞察を提供できる標準住所のリストを生成する住所標準化を含み得る。マスキングされたデータは、取り込まれたデータのインプレッションをセキュアに維持し、取り込まれたデータに対する洞察を生成する為に、データマスキングプロセスの一部としてトークン化され得る。
【特許請求の範囲】
【請求項1】
データをセキュアに分類し、トークン化する為のコンピュータ実装方法であって、
クライアントに対応するデータセットを取り込むステップと、
前記データセットを検査して、前記データセットに含まれる属性の特性を示す分類子を特定するステップと、
前記データセットに含まれる情報のタイプを示す匿名化されたラベルのリストを含むクライアント固有の暗号化情報及びクライアント固有の設定情報を取得するステップと、
前記特定された分類子に基づいて、前記属性内の情報のタイプに対応する匿名化されたラベルのリストに含まれるラベルを特定するステップと、
前記データセットの前記属性を処理して、標準化フォーマットに修正された修正属性を生成するステップと、
前記修正属性のトークン化されたバージョンを生成するステップとを含み、前記修正属性のトークン化されたバージョンを生成するステップが、
前記クライアント固有の暗号化情報に含まれるハッシュソルト及び暗号化キーを用いて前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成するステップと、
前記ラベルを、一連のクライアント固有のタグを含むタグストアと比較して、前記ラベルに対応する第1のタグを特定するステップと、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成するステップと、を含む、コンピュータ実装方法。
【請求項2】
前記データセットに含まれるデータの少なくとも一部は、個人特定情報(PII)を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記分類子は、ドメイン分類子、サブドメイン分類子、属性分類子、及びエンティティ分類子の何れかを含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記クライアント固有の暗号化情報は、セキュアサーバから取得され、前記クライアント固有の暗号化情報は、ハッシュメッセージ認証コード(HMAC)プロトコルを使用して暗号化されるか、又はTLSプロトコルを介して送信され、前記ハッシュソルトは、コンピュータにより生成されたSHA2 512/256トークンとAES256暗号化キーとを含む請求項1に記載のコンピュータ実装方法。
【請求項5】
前記データセットの前記属性を処理して前記修正属性を生成するステップが更に、
前記属性に対応する検証ルールのセット及び標準化ルールのセットを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するかどうかを示すルールを提供し、前記標準化ルールのセットは、前記属性を前記標準化フォーマットに修正するルールを提供する、ステップと、
前記属性を前記検証ルールのセットと比較して、前記属性が前記ラベルに対応するかどうかを判断するステップと、
前記属性が前記ラベルに対応すると判断したことに応答して、前記標準化ルールのセットに従って前記属性を前記標準化フォーマットに修正するステップを含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記データセットの前記属性を処理して前記修正属性を生成するステップが更に、
前記属性が名前を示していると判断したことに応答して、前記属性を、関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンと、
前記属性が住所を示すと判断したことに応答して、前記属性を前記クライアントに関連する住所ライブラリに追加する住所ライブラリエンジンと、
を含む一連のルールエンジンを使用して、前記属性を処理することを含む、請求項1に記載のコンピュータ実装方法。
【請求項7】
更に、前記ハッシュ化された修正属性を、64文字のトークンから44文字の文字列にBase64エンコーディング方式で圧縮するステップを含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
更に、前記クライアント固有の暗号化情報に含まれるクライアント固有の暗号化キーを用いて、前記ハッシュ化された修正属性を暗号化するステップを含む、請求項1に記載のコンピュータ実装方法。
【請求項9】
更に、前記ラベルを特定したことに応答して、前記ラベル及び前記属性に基づいて、前記データセットの第1の洞察セットを生成するステップと、
前記修正属性を生成したことに応答して、前記修正属性に基づいて前記データセットの洞察の第2のセットを生成するステップと、
前記第1の洞察のセットと前記第2の洞察のセットをネットワークアクセス可能なサーバシステムに格納するステップと、を含む請求項1に記載のコンピュータ実装方法。
【請求項10】
クライアントデータのトークン化されたインプレッションを生成する為にコンピューティングノードによって実行される方法であって、
クライアントに対応するデータのストリームをクライアントノードから取得し、前記データのストリームは一連のデータセットを含む、ステップと、
前記データストリームに含まれる各データセットに対して、
前記データセットを検査して、前記データセットに含まれる属性の特性を示す分類子を特定するステップと、
クライアント固有のラベルのリストに含まれる、前記データセットに対応するラベルを特定するステップと、
一連のルールエンジンに従って前記属性を修正するように構成された前記一連のルールエンジンを使用して、前記属性を処理するステップと、
前記修正属性のトークン化されたバージョンを含むトークンを生成するステップと、
前記データのストリームに対して生成されたトークンを前記生成されたトークンを維持するように構成されたネットワークアクセス可能なサーバシステムに送信するステップと、
を含む方法。
【請求項11】
ハッシュコード及びクライアント固有の暗号化キーを含むクライアント固有の暗号化情報をセキュアサーバから取得するステップと、
前記データセットに含まれる情報のタイプを示すクライアント固有のラベルのリストを含むクライアント固有の設定情報を取得し、各ラベルは、前記ラベルを使用して前記データのストリームに関連する情報を識別することが、前記クライアント固有の設定情報を使用してのみ識別可能であるように、前記データのストリームに関連する情報を匿名化するように構成される、ステップと、
を含む、請求項10に記載の方法。
【請求項12】
前記修正属性のトークン化されたバージョンを生成するステップが、
前記クライアント固有の暗号化情報に含まれる前記ハッシュコードを使用して前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成するステップと、
前記分類子を、一連のクライアント固有のタグを含むタグストアと比較して、前記分類子に対応する第1のタグを特定するステップと、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成し、前記トークンは、前記コンテキスト化されたトークンを含むステップと、を含む請求項11に記載の方法。
【請求項13】
更に、前記クライアント固有の暗号化情報に含まれる前記クライアント固有の暗号化キーを使用して前記修正属性を暗号化するステップを含む、請求項11に記載の方法。
【請求項14】
前記分類子を特定するステップが更に、
ドメイン分類子のリストからドメイン分類子を決定し、各ドメイン分類子は、前記データセットに含まれる情報のタイプを示す、ステップと、
サブドメイン分類子のリストからサブドメイン分類子を確定し、各サブドメイン分類子は、前記ドメイン分類子において識別された選択済み情報のタイプのサブセットを示す、ステップと、
属性分類子のリストから属性分類子を確定し、各属性分類子は、前記データセットに含まれる識別可能な情報のタイプを示す、ステップと、
エンティティ分類子のリストからエンティティ分類子を確定し、各エンティティ分類子は、前記クライアントに関連する組織の部門を示す、ステップと、
を含む請求項10に記載の方法。
【請求項15】
前記一連のルールエンジンを用いて前記属性を処理する前記ステップが、
前記ラベルに対応する検証ルールのセット及び標準化ルールのセットを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するかどうかを示すルールを提供し、前記標準化ルールのセットは、前記属性を標準化フォーマットに修正する為のルールを提供するステップと、
前記属性を検証ルールのセットと比較して、前記属性が前記ラベルに対応するかどうかを判断する、ステップと、
前記属性が前記ラベルに対応すると判断したことに応答して、前記標準化ルールのセットに従って前記属性を前記標準化フォーマットに修正するステップと、を含む請求項10に記載の方法。
【請求項16】
命令を格納した有形・非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
前記データセットに含まれる属性の特性を示す分類子を特定させ、
前記データセットに含まれる情報のタイプを示す匿名化されたラベルのリストを含むクライアント固有の暗号化情報及びクライアント固有の設定情報を取得させ、
前記特定された分類子に基づいて、前記属性に含まれる情報のタイプに対応する前記匿名化されたラベルのリストに含まれるラベルを特定させ、
前記データセットの前記属性を修正させて、修正属性を生成させ、
以下を含めて前記修正属性のトークン化されたバージョンを生成させる:
前記クライアント固有の暗号化情報に含まれるハッシュコードを使用して前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成し、
前記ラベルを、一連のクライアント固有のタグを含むタグストアと比較して、前記ラベルに対応する第1のタグを特定し、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成する、
有形・非一時的コンピュータ可読媒体。
【請求項17】
前記属性は、前記データセットを維持するクライアントノードからの前記データセットの送信を防止しながら前記データセットに含まれるデータのインプレッションを含む、請求項16に記載のコンピュータ可読媒体。
【請求項18】
前記分類子は、前記データストリームに含まれる情報のタイプを示すドメイン分類子、前記ドメイン分類子で識別された前記選択された情報タイプのサブセットを示すサブドメイン分類子、前記データセットに含まれる識別可能な情報のタイプを示す属性分類子、及び前記クライアントに関連する組織の部門を示すエンティティ分類子の何れかを含む、請求項16に記載のコンピュータ可読媒体。
【請求項19】
前記クライアント固有の暗号化情報はセキュアサーバから取得され、前記クライアント固有の暗号化情報は、ハッシュ化メッセージ認証コード(HMAC)プロトコルを使用して暗号化され、前記ハッシュコードは、コンピュータによって生成されたSHA2 512/256トークンを含む、請求項16に記載のコンピュータ可読媒体。
【請求項20】
前記データセットの前記属性を処理して前記修正属性を生成するステップは更に、
前記ラベルに対応する検証ルールのセットと標準化ルールのセットとを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するか否かを示すルールを提供し、前記標準化ルールのセットは、前記属性を標準化フォーマットに修正するルールを提供し、
前記属性を前記検証ルールのセットと比較して、前記属性が前記ラベルに対応するかを決定し、
前記属性が前記ラベルに対応しているという判断に応答して、前記属性を、前記標準化ルールのセットに従って前記標準化フォーマットに修正することを含む、請求項16に記載のコンピュータ可読媒体。
【請求項21】
前記データセットの前記属性を処理して前記修正属性を生成するステップは更に、
前記属性が名前を示していると判断したことに応答して、前記属性を、関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンと、
前記属性が住所を示していると判断したことに応答して、前記クライアントに関連付けられた住所のライブラリに前記属性を追加する住所ライブラリエンジンと、
を含む一連のルールエンジンを使用して、前記属性を処理することを含む、請求項16に記載のコンピュータ可読媒体。
【請求項22】
更に、前記プロセッサに、
前記クライアント固有の暗号化情報に含まれるクライアント固有の暗号化キーを使用して前記ハッシュ化された修正属性を暗号化させる、請求項16に記載のコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年1月29日に出願された米国特許出願第16/776,293号の利益と優先権を主張し、その開示内容は参照により全体が本明細書に組み込まれる。
【0002】
本開示は、データ処理に関し、特に、データに対する洞察を導出する為にデータをセキュア且つプライベートに処理することに関する。
【背景技術】
【0003】
様々なエンティティが、様々なコンピューティングデバイス上で大量のデータをデジタル的に維持することがある。例えば、或る組織は、一連の相互接続されたサーバ上にデータの列を維持することがある。データの様々な特性に対する様々な洞察を確定する為に、これらのボリュームのデータを検査することが一般に望ましくあり得る。しかし、大量のデータを検索し処理することは、計算資源集約的になる可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
多くの場合、クライアントデータは、データ検査の為に、クライアントコンピューティングデバイスから外部コンピューティングデバイスに送信され得る。しかしながら、クライアントデータは、個人特定情報(PII)を含むクライアントデータ等、機密/プライベート情報を含み得る。このような場合、クライアントデータを外部に送信すると、この機密データを不正アクセスに対して脆弱にする可能性がある。その為、クライアントデータへの外部からのアクセスを制限しつつ、クライアントデータの特性を特定することが望ましくあり得る。
【0005】
本技術の様々な特徴及び特性は、図面と併せて詳細な説明を検討することで、当業者にとってより明らかになるであろう。本技術の実施形態は、図面において例として示され、限定されるものではなく、図面では、同様の参照符号は同様の要素を示し得る。
【図面の簡単な説明】
【0006】
【
図1】本実施形態が実装され得るネットワークアーキテクチャの一例の図である。
【
図2】例示的なデータマスキングプロセスを示すブロック図である。
【
図3】例示的なデータカタログ化/分類プロセスを示すブロック図である。
【
図4】データのメタデータ処理の一例示的プロセスを示すブロック図である。
【
図5】データプロファイリングプロセスの一例を示すブロック図である。
【
図6】トークン化プロセスの一例を示すブロック図である。
【
図7】データマスキングプロセスにおいてデータをセキュアに分類しトークン化する方法の一例を示すブロック図である。
【
図8】本明細書に記載された少なくとも幾つかの動作が実装され得る処理システムの一例を示すブロック図である。
【発明を実施するための形態】
【0007】
図面は、例示のみを目的とした様々な実施形態を描いている。当業者であれば、本技術の原理から逸脱することなく、代替の実施形態を採用できることを認識するであろう。従って、特定の実施形態が図面に示されているが、本技術は、様々な変更が可能である。
【0008】
多くのエンティティ(例えば、企業、組織)が大量のデータを維持している。このデータは、コンピューティングデバイス内の様々なレジストリ又はデータベースに格納され得る。多くの場合、これらのエンティティは、データセットに対する洞察を得るだけでなく、異種のデータセット間でレコードを特定及び照合する必要があり得る。例えば、或る組織は、複数の類似のデータセットに鑑みて、類似のデータセットの中から高品質で正確なデータセットを特定し、選択しようとすることがある。
【0009】
しかしながら、多くの場合、全てのデータセットを検査して洞察を検出することは、計算資源集約的になる可能性がある。例えば、複数のデータセットを検索して表示することは、計算資源の非効率的な使用であり得る。更に、多くの場合、これらのデータセットは、処理の為に外部デバイスに送信されることがある。しかし、これらのデータセットが機密データ(例えば、個人特定情報(PII)を含むデータ)を含む場合、そのようなデータを外部デバイスに送信すると、データを不正アクセスに対して脆弱にする可能性がある。従って、エンティティは、エンティティに関連するコンピューティングデバイスからのデータの送信/アクセスを制限してもよい。
【0010】
本発明の諸実施形態は、基礎データに対して強化されたセキュリティで実行されるコンテキストデータマスキングに関連する。特に、データ匿名化プロセスは、データのプライバシー/セキュリティを維持しながらデータをセキュアに維持するように、基礎データに含まれるデータのタイプを表す取り込まれたデータを分類し、データをマスキングし、データをトークン化してもよい。
【0011】
データは、データマスキングプロセスにおいてデータを取り込む為に、タイプ、ドメイン、サブドメイン、ビジネスエンティティ、データクラス、及び/又はデータグループレベル毎に分類され得る。データ取り込みプロセスの間、データマスキング及び/又はトークン化は、データに対する分類の認可に基づいて行われ得る。データマスキングは、登録されたデータソース間でデータをトークン化する為に実行され得る。データマスキングプロセスは、セキュアに(例えば、クライアントネットワークのファイアウォールの内側にあるノード/アプリケーションによって)実行され得る。トークン化されコンテキストマスキングされたデータは、資産照合の為にネットワークアクセス可能なサーバシステムに格納され得る。格納されたデータは、データのセキュリティ/プライバシーを維持しながら、データ品質に関する様々な洞察を生成する際に利用され得る。
【0012】
データマスキングプロセスは、クライアントコンピューティングデバイスにおけるクライアントデータの自動レビュー/検査を含んでもよい。匿名化され、トークン化された、データのプライベートなインプレッションが生成され得る。データのインプレッションは、クライアントデータに追跡可能とならずにクライアントデータに関連する情報を提供できる。データマスキングは、クラスを使用してデータ型を照合できる。クラスの例は、ファーストネーム、住所、電話番号、生年月日、社会保障番号等を含み得る。しかしながら、任意の適切なタイプのクラスが、取り込まれたデータに関連付けられ得る。データのクラスを特定することを用いて、ソースデータを外部コンピューティングデバイスに送信することなく、データに対する洞察を提供できる。
【0013】
データマスキングプロセスは、基礎データ(例えば、個人特定情報(PII)を含むデータ)が識別可能でない状態で、取り込まれたメタデータに対する洞察を提供し得る分類されたデータの匿名ラベルを生成することを含み得る、データ設定プロセスを含んでもよい。
【0014】
データマスキングプロセスは、クライアントデータの属性の検証、属性の標準化フォーマットへの標準化、及び1つ以上のルールエンジンによるデータの処理を含み得る。
【0015】
データマスキングプロセスで処理済みのデータは、ネットワークアクセス可能なサーバシステムによってトークン化され、維持され得る。トークン化されたデータに基づいて、基礎データ自体にアクセス/基礎データ自体を伝送することなく、基礎データに対する洞察を生成することができる。これにより、データをネットワーク経由で外部のコンピューティングデバイスに送信することなく、データに基づいて洞察を生成できる為、データのプライバシーとセキュリティを向上させることができる。
【0016】
データマスキングは、データに対するプライベートでセキュアな洞察を生成することを可能にし得る。洞察の例は、レコードレベルでのソース重複率だけでなく、ソースシステム内の重複を示すエンティティ洞察を含み得る。他の例示的洞察は、重複の割合を含めて、ドメイン内及びドメイン間のデータ属性の重複又は複数インスタンスを含み得る。更なる例として、洞察は、正規化及び標準化からのデータ品質レポート(標準対非標準が何パーセントか)又はラベル処理に基づく傾向(例えば、同じアドレスを有するレコード)を含み得る。
【0017】
以下に示す実施形態は、当業者が実施形態を実践する為に必要な情報を表し、実施形態を実践する為のベストモードを示すものである。添付の図に照らして以下の説明を読めば、当業者は、本開示の概念を理解し、本明細書で特に言及されていないこれらの概念の応用を認識するであろう。これらの概念及び応用は、本開示及び添付の特許請求の範囲の範囲に含まれる。
【0018】
実施形態は、特定のコンピュータプログラム、システム設定、ネットワーク等を参照して説明されることがある。しかし、当業者は、これらの特徴が、他のコンピュータプログラムのタイプ、システム設定、ネットワークのタイプ等にも同様に適用可能であることを認識するであろう。例えば、「Wi-Fiネットワーク」という用語は、ネットワークを説明する為に使用され得るが、関連する実施形態は、別のタイプのネットワークに配備され得る。
【0019】
更に、開示された技術は、特殊用途のハードウェア(例えば、回路)、ソフトウェア及び/又はファームウェアで適切にプログラムされたプログラマブル回路、又は特殊用途のハードウェアとプログラマブル回路の組み合わせを用いて具現化され得る。従って、実施形態は、本明細書に記載のようにデータを検査し、そのデータを処理する為にコンピューティングデバイス(例えば、コンピューティングデバイス又はネットワークアクセス可能なサーバシステム)をプログラムする為に使用され得る命令を有する機械可読媒体を含んでもよい。
【0020】
用語
本明細書で使用する用語の目的は、実施形態を説明する為のみであり、本開示の範囲を限定することを意図するものではない。文脈が許す限り、単数形又は複数形を用いる語は、夫々複数形又は単数形をも含み得る。
【0021】
本明細書で使用する場合、特に断らない限り、「処理」、「コンピューティング」、「計算」、「確定」、「表示」、「生成」等の用語は、コンピュータのメモリ又はレジスタ内で物理(電子)量として表されるデータを、コンピュータのメモリ、レジスタ、又は他のそのような記憶媒体、伝送若しくは表示デバイス内で物理量として同様に表される他のデータに操作し変換するコンピュータ又は同様の電子計算装置の動作及び処理を指す。
【0022】
本明細書で使用する場合、「接続された」、「結合された」等の用語は、2つ以上の要素間の直接的又は間接的な任意の接続又は結合を指し得る。要素間の結合又は接続は、物理的、論理的、又はそれらの組み合わせであり得る。
【0023】
「一実施形態」又は「1つの実施形態」への言及は、説明される特定の特徴、機能、構造、又は特性が、少なくとも1つの実施形態に含まれることを意味する。このようなフレーズの出現は、必ずしも同じ実施形態を指すものではなく、又、必ずしも互いに排他的な複数の代替実施形態を指すものでもない。
【0024】
文脈上特に明記されていない限り、単語「備える(comprise)」及び「備えた(comprising)」は、排他的又は網羅的な意味ではなく、包括的な意味(即ち、「含むが限定されない」の意味)で解釈されるものとする。
【0025】
用語「に基づく」も、排他的又は網羅的な意味ではなく、包括的な意味で解釈されるものとする。従って、特に断らない限り、用語「に基づく」は、「少なくとも部分的に~に基づく」を意味することを意図している。
【0026】
「モジュール」という用語は、ソフトウェアコンポーネント、ハードウェアコンポーネント、及び/又はファームウェアコンポーネントを広く指す。モジュールは、一般的に、指定された入力に基づいて有用なデータ又は他の出力(複数可)を生成できる機能部品である。モジュールは自己完結型であってもよい。コンピュータプログラムは1つ以上のモジュールを含み得る。従って、コンピュータプログラムは、異なるタスクの完了を担当する複数のモジュール、又は複数のタスクの完了を担当する単一のモジュールを含み得る。
【0027】
複数の項目のリストに関して使用される場合、単語「又は」は、リスト内の項目の何れか、リスト内の項目の全て、及びリスト内の項目の任意の組み合わせという解釈の全てをカバーすることを意図している。
【0028】
本明細書に記載されたプロセスの何れかにおいて実行されるステップのシーケンスは、例示的なものである。しかしながら、物理的可能性に反しない限り、ステップは、様々なシーケンス及び組み合わせで実行され得る。例えば、ステップは、本明細書に記載されるプロセスに追加され得るか、又はプロセスから削除され得る。同様に、ステップは、置換、又は順序が変更され得る。従って、何れのプロセスの説明も、オープンエンドであることを意図している。
【0029】
環境の概要
図1は、本実施形態が実装され得るネットワークアーキテクチャ100の一例である。
図1に示すように、ネットワークアーキテクチャ100はリモートノード102を含み得る。リモートノード102は、クライアントデバイスと内部コンピューティングデバイスの両方と通信できるコンピューティングデバイスを含み得る。例えば、リモートノード102は、クライアントノード104と通信し、クライアントノード104に格納されたクライアントデータを検査することができる。多くの場合、リモートノード102は、クライアントノード104へのアクセスを許可され得る(例えば、リモートノード102は、クライアントネットワークに実装されるファイアウォールの内側で許可される)。後述するように、リモートノード102は、クライアントノード104によって維持されるクライアントデータを検査し、そのデータに対する分類を生成して、クライアントノード104から基礎データを削除せずにデータに対する洞察を提供できる。
【0030】
リモートノード102は、以下に説明するように、様々なデータ抽出及び処理タスクを実行できる。例えば、リモートノード102は、データ分類の為にクライアントデータをマッピングして、クライアントデータの適切なクラスを識別できる。ソースデータの分類済み部分(例えば、クライアントデータのサブセット)は、更なる処理の為にリモートノード102によって抽出され得る。更に、リモートノード102は、本明細書に記載のように、任意のデータマスキング処理タスクを実行できる。
【0031】
リモートノード102は、ネットワーク106を介して、ネットワークアクセス可能なサーバシステム108と通信できる。ネットワークアクセス可能なサーバシステム108は、本明細書に記載のようにデータを処理し維持できる1つ以上の相互接続されたサーバを含み得る。幾つかの実施形態では、ネットワークアクセス可能なサーバシステム108は、クラウドベースのコンピューティング環境を促進することができる。幾つかの実施例では、リモートノード102は、非識別化クライアントデータ及び生成されたデータ分類をネットワークアクセス可能なサーバシステム108に送信できる。ネットワークアクセス可能なサーバシステム108は、取得したデータを処理し、本明細書に記載のように更なる処理タスクを実行できる。幾つかの実施例では、ネットワークアクセス可能なサーバシステム108は、設定ファイル生成器に含まれる様々な設定パラメータ及びユーザ認証情報をリモートノード102に通信できる。
【0032】
リモートノード102は、ネットワーク110を介してセキュアサーバ112と通信できる。セキュアサーバ112は、セキュアデータのセキュリティを確保する為にアクセスが制限されたコンピューティングデバイス(例えば、サーバ、相互接続された一連のサーバ)を含み得る。セキュアサーバ112は、リモートノード102にシード及びキー情報を提供することができる。例えば、セキュアサーバ112は、ハッシュコード生成器(例えば、SEED SHA2(512/256))及び/又はクライアント/ソース固有の暗号化キー(例えば、高度暗号化標準キー(AES256))を維持することができる。セキュアサーバ112とリモートノード102は、ネットワーク110のハッシュメッセージ認証コード(HMAC)層又はトランスポート層セキュリティ(TLS)層を介して情報(例えば、シード及びキー情報)を通信できる。
【0033】
データマスキングプロセスの概要
上述のように、データマスキングプロセスは、クライアントデータを分類し、データのインプレッション(匿名化されたクライアントデータ)を生成することを含み得、クライアントデータに対する洞察を生成する為に使用され得る。多くの場合、クライアントデータは、個人又は組織を示す情報を含み得る個人特定情報(PII)を含み得る。クライアントデータを匿名化するPII又はビジネス機密データクラスを含むクライアントデータのインプレッションを作成することにより、クライアントデータのセキュリティ及びデータプライバシーを向上させることができる。
【0034】
図2は、例示的なデータマスキングプロセス200を示すブロック図である。クライアントデータは、クライアントデータに対する分類(複数可)を決定する為に取り込まれ、検査され得る。例えば、データの複数の列は、セキュアコンピューティングデバイス(例えば、リモートノード102)によって取り込まれ/検査され得る。
【0035】
クライアントデータは、202でカタログ化/分類され得る。クライアントデータをカタログ化/分類することは、クライアントデータを検査することと、データセットに含まれる情報のタイプ(複数可)を識別することとを含み得る。例示的な分類子は、名前、電話番号、電子メールアドレス、生年月日、クレジットカード番号等を含み得る。幾つかの実施例では、データの列又はデータセットに対して複数の分類を提供することができ、複数の分類は、複数のタイプのデータがデータの列又はデータセットに含まれることを示し得る。
【0036】
データの分類は、データマスキング204の為に転送され得る。幾つかの実施例では、クライアントデータに対する確定した分類と、クライアントデータのサブセット(例えば、個人特定情報を含まないクライアントデータ)の両方が、データマスキング処理を介して処理され得る。
【0037】
データマスキングはメタデータマスキング206を含み得る。メタデータマスキング206は、データ及びデータに関連するメタデータに対する確定した分類を検査して、分類及び/又はメタデータを匿名化できるラベル(複数可)を生成することを含み得る。例えば、データの列に対する分類が「ファーストネーム」を分類として識別する場合、その分類に対してラベル「la1」が生成され得る。従って、ラベル(例えば、ラベル「la1」)は、ラベルをクライアントデータに含まれるデータのタイプに変換できるデバイスに対してデータのタイプを示すのみであり得る。
【0038】
多くの場合、ラベルは、データの複数の属性に対応し得る。例えば、ラベルは、ファーストネーム、姓、及び生年月日に対応する情報を含み得る。従って、一連のラベルは、取り込まれたデータの任意の数の属性及び/又は特徴に対応し得る。一連のラベルは、各クライアントに対して一意であり得、取り込まれたデータの属性及び/又は特徴の任意の組み合わせを含み得る。各ラベルは、取り込まれたデータに関連するメタデータに、マスキングされた洞察を提供して、データのプライバシー及び/又はセキュリティを高めつつ、取り込まれたデータに関連する更なる情報を提供できる。ラベルは、取り込まれたデータのメタデータを非識別化する為に利用され得る。
【0039】
クライアントに対応する一連のラベルは、クライアントに関連する設定情報から取得され得る。設定情報は、ネットワークアクセス可能なサーバシステム(例えば、ネットワークアクセス可能なサーバシステム108)において維持され得る。設定情報は、クライアントに固有の一連のラベル、及び/又は、セキュアサーバによって維持されるクライアント固有の暗号化情報(例えば、暗号化キー、ハッシュコード情報)の場所を特定するアドレスを提供できる。幾つかの実施形態では、一連のラベル及び設定ファイル生成器の何れもが、クライアントに固有であり得る。
【0040】
データマスキングは、プロファイリング処理208を介してデータを処理することを含み得る。データのプロファイリングは、マスキングされたデータを処理することから生成された洞察の精度及び効率を最適化する為の幾つかの処理ステップを含み得る。データのプロファイリングは、クライアントデータの属性を取得することを含み得る。属性の例は、クライアントデータに対する生成されたラベル、クライアントデータに対するメタデータ、及び非識別化クライアントデータのうちの何れかを含み得る。
【0041】
クライアントデータは、検証され標準化されトークン化されて、情報の均一なセットを生成できる。例えば、名前は、全てのアルファベット文字が大文字にされる共通フォーマットに標準化され得る。多くの場合、データクラスに基づいて、複数のルールエンジンが利用され得る。
【0042】
データのプロファイリングでは、データは、組み合わせルーチンエンジン210とレコードエンジン212の複数の値の何れかで処理され得る。組み合わせルーチンエンジン210は、データセットに対して複数のラベル/分類を組み合わせることができる。幾つかの実施例では、ラベルは、クラスのサブ部分に対応し得る。例えば、ラベルは、関連するクラス又は属性を示し得る。
【0043】
レコードエンジン212の複数の値は、レコードに対して複数の値があるデータセットを標準化できる。例えば、或る人は、自宅の住所と勤務先の住所という複数の住所を含み得る。これらの住所は両方とも個人に関連付けられ、両方の住所が住所として識別されるように標準化され得る。
【0044】
処理済みデータは214でトークン化され得る。トークン化は、データをハッシュ化してデータのトークン化されたバージョンを生成することを含み得る。幾つかの実施形態では、トークン化されたデータは、クライアント固有の暗号化キーを使用して暗号化され、インターメディア暗号化されたトークンを生成できる。
【0045】
暗号化されたトークンは、メタデータでタグ付けされ、コンテキスト化されたトークンを生成できる。コンテキスト化されたトークンは、データに対する分類(複数可)を、各分類タイプに関連付けられたタグのリストを保持する設定ファイル生成器216と比較することによって生成され得る。設定ファイル生成器216は、ソース固有のラベル、コンテキスト化されたトークンを作成する為のキー及びハッシュへのパス等、様々な設定情報を提供してもよい。
【0046】
ハッシュキー及び暗号化キーは、セキュアサーバストア(複数可)218で維持され得る。セキュアストア218は、例えば、暗号化キー等、様々なセキュリティ情報を含み得る。トークン化されたデータは、更なる処理の為に、ネットワークアクセス可能なサーバシステム108によって維持され得る。
【0047】
データの分類
上述したように、クライアントデータは、クライアントデータの分類を生成する為に取り込まれ、検査され得る。
図3は、例示的なデータカタログ化/分類プロセスを示すブロック
図300である。
【0048】
図3に示すように、データは302で取り込まれ得る。データを取り込むことは、クライアントコンピューティングデバイス(例えば、クライアントノード104)からクライアントデータを取得すること及び/又は検査することを含み得る。例えば、データを取り込むことは、クライアントデータの列を検査することを含み得る。
【0049】
クライアントデータを取り込むことは、クライアントデータの特徴を特定することを含み得る。例えば、リモートノードは、クライアントデータを検査して、クライアントデータのテキスト/フレーズ、クライアントデータのメタデータ、又はクライアントデータの分類を生成する為に使用され得るクライアントデータに含まれる他の任意の特徴を特定できる。幾つかの実施形態では、分類情報は、クライアントサーバから取得され得るか、又は設定ファイル生成器によって提供され得る。
【0050】
幾つかの実施例では、取り込まれたデータは、クライアントデータの分類308を生成する為に、304でカタログ化/分類され得る。例えば、クライアントデータの分類は、ドメイン306a、サブドメイン306b、属性306c、又はエンティティ分類306dの何れかに基づき得る。取り込まれたデータに関連する分類は、取り込まれたデータに対する洞察を生成する際に利用され得る、取り込まれたデータに対するコンテキストを提供し得る。
【0051】
ドメイン306aは、クライアントデータのセットが関連する、より広いドメインを含み得る。例えば、ドメイン分類子は、「人」、「組織」、「製品」等の何れかを含み得る。別の例として、ドメイン分類子は、クライアントデータがPIIを含むか否かを示し得る。
【0052】
サブドメイン306bは、クライアントデータが収集されるより狭いドメインを含み得る。例えば、サブドメインは、クライアント(例えば、雇用主、銀行)を含み得る。例えば、クライアントデータは、「人」ドメインに含まれる雇用主に対する雇用主契約に関連し得る。クライアントデータは、検査され、サブドメイン分類子が雇用主を特定できると判断され得る。別の例として、クライアントデータは、クライアントデータに含まれるフォームのタイプを識別する為に検査され得る。
【0053】
属性306cは、クライアントデータに含まれるデータのタイプを示し得る。例えば、属性306cは、クライアントデータに含まれる名前、電話番号、電子メール、社会保障番号、クレジットカード番号、地理的位置、言語等のうちの何れかを含み得る。
【0054】
エンティティ分類306dは特定のエンティティを示し得る。例えば、エンティティ分類306dは特定のクライアントを示し得る。別の例として、銀行が個人口座と住宅ローン口座の両方を有する場合、エンティティ分類306dは、クライアントデータが銀行の住宅ローン口座に関連することを指定することができる。
【0055】
メタデータ処理
データマスキングプロセスはメタデータ処理を含んでもよい。メタデータ処理は、取得した分類及びクライアントデータを処理して、クライアントデータに含まれる情報の匿名化された表現を提供するラベルを生成することを含み得る。場合によっては、ラベル及び/又はクライアントデータは暗号化され得る。
【0056】
図4は、データのメタデータ処理の為の例示的なプロセスを示すブロック
図400である。
図4に示すように、データマスキング406は、生成された分類402及び/又は取り込まれたクライアントデータ404の何れかを取得することを含み得る。幾つかの実施例では、データマスキング406は、クライアントデータに提供されるクライアント固有の設定情報(例えば、クライアント固有のラベル)を取得することを含み得る。更に、データマスキング406は、クライアント固有の暗号化情報及びハッシュ化情報を取得することを含み得る。例えば、暗号化情報は、クライアント固有の暗号化キー(例えば、E-EKEY)を含み得る。ハッシュ化情報は、ハッシュSALT(例えば、H-SALT)を含み得る。ハッシュSALTは、例えば、SHA2 512/256を介してコンピュータで生成され得る。
【0057】
タグストア(又は「設定ファイル生成器」)418は、ラベルを生成する為にラベル作成412において利用され得る。ラベルは、クライアントデータのサブセットに含まれる情報のタイプのクライアント固有のインジケータであり得る。ラベルは、クライアント固有の設定情報を用いてのみ変換され得るクライアントデータの属性を匿名化してもよい。ラベルは、取り込まれたデータ404及び分類402に関連するメタデータ410を取得し、ラベル作成プロセス412を実行することに基づいて生成され得る。ラベル作成プロセス412は、入力情報をクライアント固有のラベルセットと比較して、入力情報に対応するラベルを特定することを含み得る。
【0058】
一例として、クライアントが、データクラス「ファーストネーム」に対応するデータベースフィールド名「FirstName」を使用する場合、対応するラベルは、「La1」を含み得る。クライアント固有の設定情報を使用して、認定デバイス(例えば、ネットワークアクセス可能なサーバシステム108)は、ラベルLa1を変換して、クライアントデータがデータクラス「ファーストネーム」に関連することを特定できる。従って、この例では、ラベルが匿名化されているので、非認定エンティティ(例えば、クライアント固有の設定情報にアクセスできないエンティティ)は、ラベルによって示される情報のタイプを確認できないであろう。
【0059】
生成されたラベルは、クライアントデータの様々な属性に対応するクライアントデータのインプレッションを提供できる。幾つかの実施例では、ラベルは、クライアントデータの複数の属性に対応し得る。例えば、ラベルは、「ファーストネーム」を示す第1の属性と、「住所」を示す第2の属性とを含む取り込まれたデータを識別することができる。幾つかの実施形態では、一連のラベルは属性の階層を含み得る。例えば、ラベルの階層は、名前、住所等の属性の第1の階層を含むラベルのサブセットを含み得る。この例をさらに進めると、ラベルの階層は、名前属性の3文字や名前属性のサウンデックス(Soundex)等、第1層の属性を更に定義する第2層の属性を含み得る。
【0060】
データプロファイリング
データマスキングプロセスはデータプロファイリングを含んでもよい。データプロファイリングは、データに対する洞察を生成する為のマッチング精度を最適化する為に、入力情報を修正する幾つかの処理ステップを含み得る。例えば、データプロファイリングは、プロファイリングされたデータをトークン化する前に、データを標準化及び変化させることができる。
【0061】
図5は、例示的なデータプロファイリングプロセスを示すブロック
図500である。
図5に示すように、データプロファイリング500は入力情報を取得することを含み得る。例示的な入力情報は、生成されたラベル502及び/又は取り込まれたデータ504を含み得る。取り込まれたデータ504は、非識別化されたクライアントデータを含み得る。
【0062】
データプロファイリング500のプロセスは、属性506を定義することを含み得る。属性506は、クライアントデータの特性又は特徴を示し得る。例えば、属性506は、生年月日(例えば、1990年1月1日)を含み得る。これは、月の日付、日、年の日付、及び/又は完全な生年月日(DOB)を含み得る。他の例示的な属性506は、住所、名前、電子メールアドレス、性別、電話番号、社会保障番号等を含み得る。属性506は又、クライアントデータを示すラベル/分類を含み得る。
【0063】
データプロファイリング500は、属性506の標準化508を含み得る。標準化508は、属性506に含まれるデータが属性に対応することの検証、及び属性506のフォーマットを統一フォーマットに標準化することを含み得る。データプロファイリング500は、様々なタイプの属性を標準化できる複数の標準化プロセスを含み得る。多くの場合、標準化は、水平方向及び/又は垂直方向にモジュール化され得る。
【0064】
標準化された属性は、1つ以上のルールエンジン510を介して処理され得る。ルールエンジンは、標準化された属性を更に処理することができ、それにより、標準化された属性からより多くの洞察を導出できる。例示的なルールエンジン510は、ニックネームエンジン512a、住所ライブラリエンジン512b、又は任意の他の数のルールエンジン(例えば、ルールエンジンN512n)を含み得る。
【0065】
ニックネームエンジン512は、関連する名前を共通の識別子と関連付けることができる。例えば、リックという名前は、リチャードという名前に対する一般的なニックネームである。ニックネームエンジン512は、属性を検査して、或る名前に、名前に関連する一般的なニックネームがあるかどうかを確定できる。例えば、ニックネームエンジン512aは、名前リチャードがリックという一般的なニックネームを有していることを特定することができる。そのような事例では、ニックネームエンジン512aは、そのニックネームを特定する属性の後続のラベル又はインプレッションを作成することができる。プロファイリングされたデータ514は、一般的なニックネームを示す二次的インプレッションを含み得る。この二次的インプレッションは、任意の属性又は属性の組み合わせを示し得る。
【0066】
住所ライブラリエンジン512bは、属性が住所を含むかどうかを識別することと、住所を、様々な住所を含むリポジトリ/リストに追加することとを含み得る。住所ライブラリエンジン512bは、住所をクライアント/エンティティに関連付けることができる。ルールエンジン(複数可)510を介して処理されると、データプロファイリングは、プロファイリングされたデータ514を出力できる。
【0067】
幾つかの実施形態では、データをマスキングする為の例示的な方法は、クライアントに対応するデータのストリームを取り込むことを含み得る。クライアントに対応するデータのストリームは、クライアントデータの1つ以上の列を含んでもよい。上述のように、データマスキング処理は、クライアントデータがクライアントサーバの外部に露出されないように、任意のPIIを除去して匿名化されたデータのインプレッションを作成してもよい。
【0068】
幾つかの実施形態では、データのストリームは、属性の特性を示す1つ以上の分類子を含み得る。特性は、第1のラベルを特定する際に利用され得る。分類子は、データのストリームに含まれる情報のタイプを示すドメイン分類子、ドメイン分類子で特定された選択された情報タイプのサブセットを示すサブドメイン分類子、データのストリームに含まれる特定可能な情報のタイプを示す属性分類子、及びクライアントに関連する組織の部門を示すエンティティ分類子の何れかを含んでもよい。
【0069】
本方法は、データのストリームから属性を特定することを含んでもよい。属性は、データのストリームを維持するクライアントノードからのデータのストリームに含まれる情報の送信を防止する、データのストリームに含まれるデータの一部分のインプレッションを含んでもよい。幾つかの実施形態では、属性は、クライアントデータのセキュリティ/プライバシーが維持されるように、任意のPIIが除去されたデータを含んでもよい。
【0070】
本方法は、ラベルのリストを含むクライアント固有の設定情報を取得することを含み得る。ラベルのリストにおける各ラベルは、データセットに含まれる情報のタイプのクライアント固有の指示を提供できる。ラベルは、クライアント固有の設定情報へのアクセスを有する認定エンティティのみがラベルによって示される情報を特定できるように匿名化され得る。
【0071】
本方法は、属性内の情報のタイプに対応するラベルのリストに含まれる第1のラベルを特定することを含み得る。例えば、属性が生年月日である場合、第1のラベルは、生年月日を示し得る。
【0072】
本方法は、データプロファイリングプロセスを介して、属性及び第1のラベルを処理することを含んでもよい。データプロファイリングプロセスは、第1のラベルに対応する検証ルールのセットと標準化ルールのセットとを取得することを含んでもよい。検証ルールのセットは、属性がラベルに対応するか否かを示すルールを提供できる。標準化ルールのセットは、属性を標準化フォーマットに修正するルールを提供してもよい。
【0073】
データプロファイリングプロセスは、属性を検証ルールのセットと比較して、属性がラベルに対応するかどうかを判断することを含み得る。属性がラベルに対応すると判断された場合、属性は、以下に記載するように修正され得る。
【0074】
他の実施形態では、本方法は、属性が第1のラベルに対応する一連の検証ルールに則していないと判断することを含み得る。これらの実施形態では、属性が一連の検証ルールに則していないと判断されたことに応答して、第1のラベルは、属性から切り離されてもよい。第1のラベルとは異なる第2のラベルが特定されてもよく、属性は、属性が第2のラベルに対応する第2の一連の検証ルールに則したものであると判断することによって検証されてもよい。
【0075】
データプロファイリングプロセスは、標準化ルールのセットに従って、属性を標準化フォーマットに修正することを含んでもよい。これは、属性が第1のラベルに対応することを判断したことに応答して実行されてもよい。
【0076】
データプロファイリングプロセスは、複数のルールエンジンを介して属性を処理することを含んでもよい。ルールエンジンは、属性が名前を示していると判断したことに応答して、属性を関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンを含んでもよい。ルールエンジンは、属性が住所を示すと判断したことに応答して、クライアントに関連付けられた住所のライブラリに属性を追加する住所ライブラリエンジンも含んでもよい。
【0077】
幾つかの実施形態では、本方法は、セキュアサーバからクライアント固有の暗号化情報のセットを取得することを含んでもよい。クライアント固有の暗号化情報は、クライアントに固有のハッシュソルトと、クライアントに固有の暗号化キーとを含んでもよい。属性は、ハッシュソルトを使用してハッシュ化され、ハッシュ化された属性を生成できる。ハッシュ化された属性は、暗号化キーを用いて暗号化されてもよい。幾つかの実施形態では、第1のラベルは、一連のクライアント固有のタグを含むタグストアと比較され、第1のラベルに対応する第1のタグを特定してもよい。ハッシュ化された属性及び第1のタグを含むコンテキスト化されたトークンが生成されてもよい。これらの実施形態において、コンテキスト化されたトークンは、ネットワークアクセス可能なサーバシステムに送信され得る。
【0078】
幾つかの実施形態では、クライアント固有の暗号化情報は、ハッシュ化メッセージ認証コード(HMAC)プロトコルを使用して暗号化されてもよく、又はTLS機構を介して送信されてもよく、ハッシュコードは、コンピュータによって生成されたSHA2 512/256トークンを含んでもよい。
【0079】
幾つかの実施形態では、本方法は、ラベルのリストに含まれる複数のラベルを特定することを含んでもよい。複数のラベルは、属性に含まれる複数のタイプの情報を表してもよい。属性が複数のラベルに関連付けられると判断することに応答して、複数のラベルは、組み合わせルーチンを介して、属性に含まれる複数のタイプの情報を識別する組み合わせラベルに結合されてもよい。
【0080】
幾つかの実施形態では、本方法は、第1のラベルが、クライアントに対応するデータのストリーム内の以前に特定された属性に対する以前に特定されたラベルと一致すると判断することを含んでもよい。本方法は、以前に特定された属性と属性の両方が以前に特定されたラベルに対応するように、第1のラベルを以前に特定されたラベルと結合することも含んでもよい。
【0081】
本方法は、処理された属性及び第1のラベルをネットワークアクセス可能なサーバシステムに出力することを含んでもよい。ネットワークアクセス可能なサーバシステムは、マスキングされたデータに関連する一連の処理された属性又はトークンを維持し、クライアントデータに対する洞察を生成してもよい。
【0082】
データトークン化
データマスキングプロセスは、トークン化プロセスを含んでもよい。トークン化は、クライアントデータに対する洞察を生成する為にデータを格納し、検査することができるように、プロファイリングされたデータを符号化することを含み得る。データをトークン化することは、クライアントデータの追加のセキュリティを提供できる。
【0083】
図6は、例示的なトークン化プロセスを示すブロック
図600である。トークン化プロセスは、本明細書に記載のように、データマスキングプロセスで処理済みのデータを含むプロファイリングデータ602を取得することを含み得る。プロファイル化されたデータは、ハッシュコード生成器(例えば、SALT604)を使用してハッシュ化され得る。ハッシュコード生成器はランタイムで呼び出され得る。ハッシュソルトは、セキュアハッシュアルゴリズム(SHA512/256)等のNIST標準暗号ハッシュ関数を使用してデータをハッシュ化する際に使用され得る。データをハッシュ化することにより、データ606のトークン化されたバージョンを生成できる。例えば、ハッシュ化されたデータは、64文字のトークンを含み得る。トークン606は、符号化技術(例えば、Base64エンコーディング)を使用して、44文字の文字列に更に圧縮され得る。
【0084】
幾つかの実施形態では、トークン606は、クライアント固有の暗号化キー(例えば、E-EKEY)を使用して暗号化され、中間暗号化トークン(例えば、ETOKEN608)を生成できる。これは、クライアントデータの暗号化及びセキュリティの追加層を提供して、クライアントデータへの不正アクセスのリスクを更に軽減し得る。
【0085】
トークン606(又は、場合によっては、暗号化トークン608)は、メタデータでタグ付けされて、コンテキスト化トークン610を生成できる。幾つかの実施形態では、コンテキスト化トークン610は、クライアント固有のタグでタグ付けされて、クライアント固有のコンテキスト化されたトークン(例えば、CTOKEN610)を生成できる。コンテキスト化されたトークン610は、タグストア612に維持された情報に基づいて生成され得る。
【0086】
幾つかの実施形態では、コンテキスト化されたトークン610は、暗号化プロセス及び/又はコンテキスト化プロセスの何れかを使用して生成され得る。暗号化プロセスは、クライアントに固有の暗号化情報を使用してトークン化された情報を暗号化することを含み得る。コンテキスト化プロセスは、トークン化された情報に、クライアントのコンテキスト情報を追加することを含み得る。コンテキスト情報は、クライアント固有のものか、又は複数のクライアントに亘って利用されるものの何れかであり得る。
【0087】
タグストア612は、様々な分類タイプに対応する一連のタグを含み得る。例えば、タグストア612は、エンティティ分類タグ(EE)、ドメイン分類(DD)、及びサブドメイン分類(SDSD)を維持できる。幾つかの場合において、タグは、最大8文字の長さを有し得る。タグストア612は、各クライアントに対して一意のタグ付けスキームを維持できる。タグストア612は、暗号化キーと関連付けられた暗号化された情報を含み得る。タグストア612に含まれる情報は、コンテキスト化されたトークンを生成する為にトークン化されたデータをタグ付けする時に提供され得る。タグストア612は、ネットワークアクセス可能なサーバシステムによってセキュアに維持され得るものであり、タグストアへのアクセスは、認定ユーザにのみ提供され得る。
【0088】
コンテキスト化されたトークン610は、クライアントの為にコンテキスト化されたトークン610を維持し、データに対する洞察を生成するように構成されたネットワークアクセス可能なサーバシステムで維持され得る。場合によっては、トークンは、データ照合及び洞察生成の為に、リモートノードからネットワークアクセス可能なサーバシステムに送信され得る。
【0089】
データマスキングプロセスを実装する為の例示的な方法
図7は、データマスキングプロセスにおいてデータをセキュアに分類し、トークン化する為の例示的な方法700のブロック図である。
図7に示すように、本方法は、クライアントに対応するデータセットを取り込むこと(ブロック702)を含んでもよい。データセットは、クライアントに関連するデータの一連の列を含んでもよい。この情報はクライアントノードで維持され得る。場合によっては、データセットに含まれるデータの少なくとも一部は、個人特定情報(PII)を含む。
【0090】
本方法は、データセットを検査して、データセットに含まれる属性の特性を示す分類子を特定することを含み得る(ブロック704)。幾つかの実施形態では、分類子は、ドメイン分類子、サブドメイン分類子、属性分類子、及びエンティティ分類子のうちの何れかを含む。幾つかの実施例において、各分類子は、データセットを検査することに基づいて決定され得る。
【0091】
本方法は、データセットに含まれる情報のタイプを示す匿名化されたラベルのリストを含むクライアント固有の暗号化情報及びクライアント固有の設定情報を取得することを含み得る(ブロック706)。幾つかの実施形態において、クライアント固有の暗号化情報は、セキュアサーバから取得され得、クライアント固有の暗号化情報は、ハッシュメッセージ認証コード(HMAC)プロトコルを使用して暗号化され得、ハッシュコードは、コンピュータによって生成されたSHA2 512/256トークンを含み得る。
【0092】
本方法は、特定された分類子に基づいて、属性内の情報のタイプに対応する、匿名化されたラベルのリストに含まれるラベルを特定することを含み得る(ブロック708)。ラベルは、属性に表される情報のタイプの匿名化された識別子を提供できる。ラベルは、属性及び分類子の何れかに基づいて生成され得る。例えば、属性が名前に関連する場合、対応するラベルは、「La1」であり得る。これらの実施形態では、ラベルに対応する情報のリストにアクセスできるエンティティのみが、各ラベルによって識別される情報のタイプを識別でき、それによってデータを匿名化する。
【0093】
本方法は、データセットの属性を処理して、標準化フォーマットに修正された修正属性を生成することを含み得る(ブロック710)。これは、本明細書に記載のようなプロファイリング処理を含み得る。
【0094】
幾つかの実施形態では、データセットの属性を処理して、修正属性を生成することは、ラベルに対応する検証ルールのセット及び標準化ルールのセットを取得することを更に含む。検証ルールのセットは、属性がラベルに対応するかどうかを示すルールを提供できる。標準化ルールのセットは、属性を標準化フォーマットに変更する為のルールを提供できる。属性を検証ルールのセットと比較して、属性がラベルに対応するかどうかを判断できる。属性は、属性がラベルに対応すると判断したことに応答して標準化ルールのセットに従って標準化フォーマットに修正され得る。
【0095】
幾つかの実施形態では、データセットの属性を処理して、修正属性を生成することは、一連のルールエンジンを使用して属性を処理することを更に含む。ルールエンジンは、属性が名前を示していると判断したことに応答して属性を、関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンを含み得る。ルールエンジンは、属性が住所を示していると判断したことに応答して、クライアントに関連付けられた住所のライブラリに属性を追加する住所ライブラリエンジンも含み得る。
【0096】
本方法は、修正属性のトークン化されたバージョンを生成することを含み得る(ブロック712)。修正属性のトークン化されたバージョンを生成することは、ラベル固有のトークンを生成する為に、修正属性(又は属性の組み合わせ)をトークン化及び暗号化することを含み得る(ブロック714)。これは、クライアント固有の暗号化情報に含まれるハッシュコードを使用して、修正属性をハッシュ化し、ハッシュ化された修正属性を生成することを含み得る。ハッシュ化された修正属性は、符号化スキームを用いて、64文字のトークンから44文字の文字列に圧縮され得る。
【0097】
修正属性のトークン化されたバージョンを生成することは、ラベルを、一連のクライアント固有のタグを含むタグストアと比較して、ラベルに対応する第1のタグを特定することも含み得る(ブロック716)。修正属性のトークン化されたバージョンを生成することは、第1のタグを含む修正属性のコンテキスト化されたトークンを生成することも含み得る(ブロック718)。
【0098】
幾つかの実施形態では、修正属性のトークン化されたバージョンは、リモートノードからネットワークアクセス可能なサーバシステムに送信され得る。
【0099】
幾つかの実施形態では、ラベルを特定したことに応答して、本方法は、ラベル及び属性に基づいて、データセットの洞察の第1のセットを生成することを含んでもよい。修正属性を生成したことに応答して、本方法は、修正属性に基づくデータセットの洞察の第2のセットを生成することも含んでもよい。洞察の第1のセット及び洞察の第2のセットは、ネットワークアクセス可能なサーバシステムに格納され得る。
【0100】
処理システムの例
図8は、本明細書に記載の少なくとも幾つかの動作が実装され得る処理システム800の例を示すブロック図である。
図8に示すように、処理システム800は、バス816に通信可能に接続される1つ以上の中央処理装置(「プロセッサ」)802、メインメモリ806、不揮発性メモリ810、ネットワークアダプタ812(例えば、ネットワークインターフェース)、ビデオディスプレイ818、入/出力装置820、制御装置822(例えば、キーボード及びポインティング装置)、記憶媒体826を含む駆動装置824、及び信号生成装置830を含み得る。バス816は、適切なブリッジ、アダプタ、又はコントローラによって接続された任意の1つ以上の別個の物理バス、ポイントツーポイント接続、又はその両方を表す抽象的なものとして図示されている。従って、バス816は、例えば、システムバス、ペリフェラルコンポーネントインターコネクト(PCI)バス又はPCI-Expressバス、HyperTransport又は業界標準アーキテクチャ(ISA)バス、スモールコンピュータシステムインタターフェース(SCSI)バス、ユニバーサルシリアルバス(USB)、IIC(I2C)バス、又は「Firewire」とも呼ばれる米国電気電子学会(IEEE)標準1394バス等を含み得る。
【0101】
様々な実施形態において、処理システム800は、ユーザデバイスの一部として動作するが、処理システム800は、ユーザデバイスに(例えば、有線又は無線で)接続されてもよい。ネットワーク型配備において、処理システム800は、クライアントサーバネットワーク環境においてサーバ若しくはクライアントマシンの能力で、又はピアツーピア(又は分散)ネットワーク環境においてピアマシンとして動作してよい。
【0102】
処理システム800は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ、タブレット、ラップトップコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、プロセッサ、ウェブアプライアンス、ネットワークルータ、スイッチ又はブリッジ、ゲーム機、携帯型ゲーム機、音楽プレーヤー、ネットワーク接続型(「スマート」)テレビ、テレビ接続型装置、或いは処理システム800によって行われるべき動作を指定する命令セット(シーケンシャル又はその他)を実行できる任意の携帯デバイス又は機械であってよい。
【0103】
メインメモリ806、不揮発性メモリ810、及び記憶媒体826(「機械可読媒体」とも呼ばれる)は、単一の媒体として示されているが、用語「機械可読媒体」及び「記憶媒体」は、1組以上の命令828を記憶する単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース、及び/又は関連するキャッシュとサーバ)を含むように解釈されるべきである。「機械可読媒体」及び「記憶媒体」という用語は、コンピューティングシステムによる実行の為の命令のセットを記憶、符号化、又は担持することができ、コンピューティングシステムに、本発明で開示の実施形態の方法論の何れか1つ以上を実行させる任意の媒体を含むとも解釈されるものとする。
【0104】
一般に、本開示の実施形態を実装する為に実行されるルーチンは、オペレーティングシステム又は「コンピュータプログラム」と呼ばれる特定のアプリケーション、コンポーネント、プログラム、オブジェクト、モジュール又は命令のシーケンスの一部として実装され得る。コンピュータプログラムは、典型的には、コンピュータ内の様々なメモリ及び記憶装置に様々なタイミングで設定された1つ以上の命令(例えば、命令804、808、828)を含み、命令は、1つ以上の処理ユニット又はプロセッサ802によって読み取られ実行されると、処理システム800に本開示の様々な態様に関わる要素を実行する動作を実行させる。
【0105】
更に、実施形態は、完全に機能するコンピュータ及びコンピュータシステムの文脈で説明されてきたが、当業者は、様々な実施形態が様々な形態のプログラム製品として配布可能であり、配布を実際に行う為に使用される特定のタイプの機械又はコンピュータ可読媒体に係らず、本開示が同様に適用されることを理解されるであろう。例えば、本明細書に記載された技術は、仮想マシン又はクラウドコンピューティングサービスを使用して実装され得る。
【0106】
機械可読記憶媒体、機械可読媒体、又はコンピュータ可読(記憶)媒体の更なる例としては、揮発性及び不揮発性メモリデバイス810、フロッピーディスク及び他のリムーバブルディスク、ハードディスクドライブ、光ディスク(例えば、コンパクトディスクリードオンリーメモリ(CD ROMS)、デジタル多用途ディスク(DVD))等の記録型媒体と、デジタル及びアナログ通信リンク等の伝送型媒体があるが、それらに限定されない。
【0107】
ネットワークアダプタ812は、処理システム800が、処理システム800と外部エンティティによってサポートされる任意の既知及び/又は便利な通信プロトコルによって、処理システム800の外部であるエンティティとネットワーク814内のデータを媒介することを可能にする。ネットワークアダプタ812は、ネットワークアダプタカード、無線ネットワークインターフェースカード、ルータ、アクセスポイント、無線ルータ、スイッチ、多層スイッチ、プロトコル変換器、ゲートウェイ、ブリッジ、ブリッジルータ、ハブ、デジタルメディア受信機、及び/又は中継器のうちの1つ以上を含み得る。
【0108】
ネットワークアダプタ812は、幾つかの実施形態において、コンピュータネットワーク内のデータへのアクセス/プロキシへの許可を統括及び/又は管理し、異なるマシン及び/又はアプリケーション間の様々な信頼レベルを追跡できるファイアウォールを含み得る。ファイアウォールは、例えば、特定のセットのマシンとアプリケーションとの間、マシンとマシンとの間、及び/又はアプリケーションとアプリケーションとの間でアクセス権の所定のセットを実施し、これらの変化するエンティティ間のトラフィックの流れ及びリソース共有を規制できるハードウェア及び/又はソフトウェアコンポーネントの任意の組み合わせを有する任意の数のモジュールであり得る。ファイアウォールは、更に、例えば、個人、マシン、及び/又はアプリケーションによるオブジェクトのアクセス権及び操作権、並びに許可権が基づく状況を含む、許可権を詳述するアクセス制御リストを管理し、及び/又はアクセス権を有し得る。
【0109】
上述のように、ここで導入される技術は、例えば、ソフトウェア及び/又はファームウェアでプログラムされたプログラマブル回路(例えば、1つ以上のマイクロプロセッサ)、特殊用途のハードワイヤード(即ち、非プログラマブル)回路内で全面的に、又は組み合わせ又はそのような形態で実施される。特殊用途回路は、例えば、1つ以上の特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)等の形態であり得る。
【0110】
上記から、本発明の特定の実施形態は、説明の目的で本明細書に記載されたが、本発明の範囲から逸脱することなく様々な変更が可能であることが理解されるであろう。従って、本発明は、添付の特許請求の範囲による場合を除き、限定されるものではない。
【符号の説明】
【0111】
100 ネットワークアーキテクチャ
102 リモートノード
104 クライアントノード
106 ネットワーク
108 ネットワークアクセス可能なサーバシステム
110 ネットワーク
112 セキュアサーバ
800 処理システム
802 プロセッサ
810 不揮発性メモリデバイス
812 ネットワークアダプタ
816 バス
818 ビデオディスプレイ
820 入/出力装置
822 制御装置
824 駆動装置
826 記憶媒体
830 信号生成装置
【手続補正書】
【提出日】2022-09-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データをセキュアに分類し、トークン化する為のコンピュータ実装方法であって、
クライアントに対応するデータセットを取り込むステップと、
前記データセットを検査して、前記データセットに含まれる属性の特性を示す分類子を特定するステップと、
前記データセットに含まれる情報のタイプを示す匿名化されたラベルのリストを含むクライアント固有の暗号化情報及びクライアント固有の設定情報を取得するステップと、
前記特定された分類子に基づいて、前記属性内の情報のタイプに対応する匿名化されたラベルのリストに含まれるラベルを特定するステップと、
前記データセットの前記属性を処理して、標準化フォーマットに修正された修正属性を生成するステップと、
前記修正属性のトークン化されたバージョンを生成するステップとを含み、前記修正属性のトークン化されたバージョンを生成するステップが、
前記クライアント固有の暗号化情報に含まれるハッシュソルト及び暗号化キーを用いて前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成するステップと、
前記ラベルを、一連のクライアント固有のタグを含むタグストアと比較して、前記ラベルに対応する第1のタグを特定するステップと、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成するステップと、を含む、コンピュータ実装方法。
【請求項2】
前記データセットに含まれるデータの少なくとも一部は、個人特定情報(PII)を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記分類子は、ドメイン分類子、サブドメイン分類子、属性分類子、及びエンティティ分類子の何れかを含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記クライアント固有の暗号化情報は、セキュアサーバから取得され、前記クライアント固有の暗号化情報は、ハッシュメッセージ認証コード(HMAC)プロトコルを使用して暗号化されるか、又はTLSプロトコルを介して送信され、前記ハッシュソルトは、コンピュータにより生成されたSHA2 512/256トークンとAES256暗号化キーとを含む請求項1に記載のコンピュータ実装方法。
【請求項5】
前記データセットの前記属性を処理して前記修正属性を生成するステップが更に、
前記属性に対応する検証ルールのセット及び標準化ルールのセットを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するかどうかを示すルールを提供し、前記標準化ルールのセットは、前記属性を前記標準化フォーマットに修正するルールを提供する、ステップと、
前記属性を前記検証ルールのセットと比較して、前記属性が前記ラベルに対応するかどうかを判断するステップと、
前記属性が前記ラベルに対応すると判断したことに応答して、前記標準化ルールのセットに従って前記属性を前記標準化フォーマットに修正するステップを含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記データセットの前記属性を処理して前記修正属性を生成するステップが更に、
前記属性が名前を示していると判断したことに応答して、前記属性を、関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンと、
前記属性が住所を示すと判断したことに応答して、前記属性を前記クライアントに関連する住所ライブラリに追加する住所ライブラリエンジンと、
を含む一連のルールエンジンを使用して、前記属性を処理することを含む、請求項1に記載のコンピュータ実装方法。
【請求項7】
更に、前記ハッシュ化された修正属性を、64文字のトークンから44文字の文字列にBase64エンコーディング方式で圧縮するステップを含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
更に、前記クライアント固有の暗号化情報に含まれるクライアント固有の暗号化キーを用いて、前記ハッシュ化された修正属性を暗号化するステップを含む、請求項1に記載のコンピュータ実装方法。
【請求項9】
更に、前記ラベルを特定したことに応答して、前記ラベル及び前記属性に基づいて、前記データセットの第1の洞察セットを生成するステップと、
前記修正属性を生成したことに応答して、前記修正属性に基づいて前記データセットの洞察の第2のセットを生成するステップと、
前記第1の洞察のセットと前記第2の洞察のセットをネットワークアクセス可能なサーバシステムに格納するステップと、を含む請求項1に記載のコンピュータ実装方法。
【請求項10】
クライアントデータのトークン化されたインプレッションを生成する為にコンピューティングノードによって実行される方法であって、
クライアントに対応するデータのストリームをクライアントノードから取得し、前記データのスト
リームは一連のデータセットを含む、ステップと、
ハッシュコード及びクライアント固有の暗号化キーを含むクライアント固有の暗号化情報をセキュアサーバから取得するステップと、
前記データセットに含まれる情報のタイプを示すクライアント固有のラベルのリストを含むクライアント固有の設定情報を取得し、各ラベルは、前記ラベルを使用して前記データのストリームに関連する情報を識別することが、前記クライアント固有の設定情報を使用してのみ識別可能であるように、前記データのストリームに関連する情報を匿名化するように構成される、ステップと、
前記データストリームに含まれる各データセットに対して、
前記データセットを検査して、前記データセットに含まれる属性の特性を示す分類子を特定するステップと、
クライアント固有のラベルのリストに含まれる、前記データセットに対応するラベルを特定するステップと、
一連のルールエンジンに従って前記属性を修正するように構成された前記一連のルールエンジンを使用して、前記属性を処理するステップと、
前記修正属性のトークン化されたバージョンを含むトークンを生成するステップ
であって、
前記クライアント固有の暗号化情報に含まれる前記ハッシュコードを使用して前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成するステップと、
前記分類子を、一連のクライアント固有のタグを含むタグストアと比較して、前記分類子に対応する第1のタグを特定するステップと、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成し、前記トークンは、前記コンテキスト化されたトークンを含むステップと、を含むステップと、
前記データのストリームに対して生成されたトークンを前記生成されたトークンを維持するように構成されたネットワークアクセス可能なサーバシステムに送信するステップと、
を含む方法。
【請求項11】
命令を格納した有形・非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
前記データセットに含まれる属性の特性を示す分類子を特定させ、
前記データセットに含まれる情報のタイプを示す匿名化されたラベルのリストを含むクライアント固有の暗号化情報及びクライアント固有の設定情報を取得させ、
前記特定された分類子に基づいて、前記属性に含まれる情報のタイプに対応する前記匿名化されたラベルのリストに含まれるラベルを特定させ、
前記データセットの前記属性を修正させて、修正属性を生成させ、
以下を含めて前記修正属性のトークン化されたバージョンを生成させる:
前記クライアント固有の暗号化情報に含まれるハッシュコードを使用して前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成し、
前記ラベルを、一連のクライアント固有のタグを含むタグストアと比較して、前記ラベルに対応する第1のタグを特定し、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成する、
有形・非一時的コンピュータ可読媒体。
【請求項12】
前記属性は、前記データセットを維持するクライアントノードからの前記データセットの送信を防止しながら前記データセットに含まれるデータのインプレッションを含む、請求項11に記載のコンピュータ可読媒体。
【請求項13】
前記分類子は、前記データストリームに含まれる情報のタイプを示すドメイン分類子、前記ドメイン分類子で識別された前記選択された情報タイプのサブセットを示すサブドメイン分類子、前記データセットに含まれる識別可能な情報のタイプを示す属性分類子、及び前記クライアントに関連する組織の部門を示すエンティティ分類子の何れかを含む、請求項11に記載のコンピュータ可読媒体。
【請求項14】
前記クライアント固有の暗号化情報はセキュアサーバから取得され、前記クライアント固有の暗号化情報は、ハッシュ化メッセージ認証コード(HMAC)プロトコルを使用して暗号化され、前記ハッシュコードは、コンピュータによって生成されたSHA2 512/256トークンを含む、請求項11に記載のコンピュータ可読媒体。
【請求項15】
前記データセットの前記属性を処理して前記修正属性を生成するステップは更に、
前記ラベルに対応する検証ルールのセットと標準化ルールのセットとを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するか否かを示すルールを提供し、前記標準化ルールのセットは、前記属性を標準化フォーマットに修正するルールを提供し、
前記属性を前記検証ルールのセットと比較して、前記属性が前記ラベルに対応するかを決定し、
前記属性が前記ラベルに対応しているという判断に応答して、前記属性を、前記標準化ルールのセットに従って前記標準化フォーマットに修正することを含む、請求項11に記載のコンピュータ可読媒体。
【請求項16】
前記データセットの前記属性を処理して前記修正属性を生成するステップは更に、
前記属性が名前を示していると判断したことに応答して、前記属性を、関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンと、
前記属性が住所を示していると判断したことに応答して、前記クライアントに関連付けられた住所のライブラリに前記属性を追加する住所ライブラリエンジンと、
を含む一連のルールエンジンを使用して、前記属性を処理することを含む、請求項11に記載のコンピュータ可読媒体。
【請求項17】
更に、前記プロセッサに、
前記クライアント固有の暗号化情報に含まれるクライアント固有の暗号化キーを使用して前記ハッシュ化された修正属性を暗号化させる、請求項11に記載のコンピュータ可読媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0110
【補正方法】変更
【補正の内容】
【0110】
上記から、本発明の特定の実施形態は、説明の目的で本明細書に記載されたが、本発明の範囲から逸脱することなく様々な変更が可能であることが理解されるであろう。従って、本発明は、添付の特許請求の範囲による場合を除き、限定されるものではない。
〔付記1〕
データをセキュアに分類し、トークン化する為のコンピュータ実装方法であって、
クライアントに対応するデータセットを取り込むステップと、
前記データセットを検査して、前記データセットに含まれる属性の特性を示す分類子を特定するステップと、
前記データセットに含まれる情報のタイプを示す匿名化されたラベルのリストを含むクライアント固有の暗号化情報及びクライアント固有の設定情報を取得するステップと、
前記特定された分類子に基づいて、前記属性内の情報のタイプに対応する匿名化されたラベルのリストに含まれるラベルを特定するステップと、
前記データセットの前記属性を処理して、標準化フォーマットに修正された修正属性を生成するステップと、
前記修正属性のトークン化されたバージョンを生成するステップとを含み、前記修正属性のトークン化されたバージョンを生成するステップが、
前記クライアント固有の暗号化情報に含まれるハッシュソルト及び暗号化キーを用いて前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成するステップと、
前記ラベルを、一連のクライアント固有のタグを含むタグストアと比較して、前記ラベルに対応する第1のタグを特定するステップと、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成するステップと、を含む、コンピュータ実装方法。
〔付記2〕
前記データセットに含まれるデータの少なくとも一部は、個人特定情報(PII)を含む、付記1に記載のコンピュータ実装方法。
〔付記3〕
前記分類子は、ドメイン分類子、サブドメイン分類子、属性分類子、及びエンティティ分類子の何れかを含む、付記1に記載のコンピュータ実装方法。
〔付記4〕
前記クライアント固有の暗号化情報は、セキュアサーバから取得され、前記クライアント固有の暗号化情報は、ハッシュメッセージ認証コード(HMAC)プロトコルを使用して暗号化されるか、又はTLSプロトコルを介して送信され、前記ハッシュソルトは、コンピュータにより生成されたSHA2 512/256トークンとAES256暗号化キーとを含む付記1に記載のコンピュータ実装方法。
〔付記5〕
前記データセットの前記属性を処理して前記修正属性を生成するステップが更に、
前記属性に対応する検証ルールのセット及び標準化ルールのセットを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するかどうかを示すルールを提供し、前記標準化ルールのセットは、前記属性を前記標準化フォーマットに修正するルールを提供する、ステップと、
前記属性を前記検証ルールのセットと比較して、前記属性が前記ラベルに対応するかどうかを判断するステップと、
前記属性が前記ラベルに対応すると判断したことに応答して、前記標準化ルールのセットに従って前記属性を前記標準化フォーマットに修正するステップを含む、付記1に記載のコンピュータ実装方法。
〔付記6〕
前記データセットの前記属性を処理して前記修正属性を生成するステップが更に、
前記属性が名前を示していると判断したことに応答して、前記属性を、関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンと、
前記属性が住所を示すと判断したことに応答して、前記属性を前記クライアントに関連する住所ライブラリに追加する住所ライブラリエンジンと、
を含む一連のルールエンジンを使用して、前記属性を処理することを含む、付記1に記載のコンピュータ実装方法。
〔付記7〕
更に、前記ハッシュ化された修正属性を、64文字のトークンから44文字の文字列にBase64エンコーディング方式で圧縮するステップを含む、付記1に記載のコンピュータ実装方法。
〔付記8〕
更に、前記クライアント固有の暗号化情報に含まれるクライアント固有の暗号化キーを用いて、前記ハッシュ化された修正属性を暗号化するステップを含む、付記1に記載のコンピュータ実装方法。
〔付記9〕
更に、前記ラベルを特定したことに応答して、前記ラベル及び前記属性に基づいて、前記データセットの第1の洞察セットを生成するステップと、
前記修正属性を生成したことに応答して、前記修正属性に基づいて前記データセットの洞察の第2のセットを生成するステップと、
前記第1の洞察のセットと前記第2の洞察のセットをネットワークアクセス可能なサーバシステムに格納するステップと、を含む付記1に記載のコンピュータ実装方法。
〔付記10〕
クライアントデータのトークン化されたインプレッションを生成する為にコンピューティングノードによって実行される方法であって、
クライアントに対応するデータのストリームをクライアントノードから取得し、前記データのストリームは一連のデータセットを含む、ステップと、
前記データストリームに含まれる各データセットに対して、
前記データセットを検査して、前記データセットに含まれる属性の特性を示す分類子を特定するステップと、
クライアント固有のラベルのリストに含まれる、前記データセットに対応するラベルを特定するステップと、
一連のルールエンジンに従って前記属性を修正するように構成された前記一連のルールエンジンを使用して、前記属性を処理するステップと、
前記修正属性のトークン化されたバージョンを含むトークンを生成するステップと、
前記データのストリームに対して生成されたトークンを前記生成されたトークンを維持するように構成されたネットワークアクセス可能なサーバシステムに送信するステップと、
を含む方法。
〔付記11〕
ハッシュコード及びクライアント固有の暗号化キーを含むクライアント固有の暗号化情報をセキュアサーバから取得するステップと、
前記データセットに含まれる情報のタイプを示すクライアント固有のラベルのリストを含むクライアント固有の設定情報を取得し、各ラベルは、前記ラベルを使用して前記データのストリームに関連する情報を識別することが、前記クライアント固有の設定情報を使用してのみ識別可能であるように、前記データのストリームに関連する情報を匿名化するように構成される、ステップと、
を含む、付記10に記載の方法。
〔付記12〕
前記修正属性のトークン化されたバージョンを生成するステップが、
前記クライアント固有の暗号化情報に含まれる前記ハッシュコードを使用して前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成するステップと、
前記分類子を、一連のクライアント固有のタグを含むタグストアと比較して、前記分類子に対応する第1のタグを特定するステップと、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成し、前記トークンは、前記コンテキスト化されたトークンを含むステップと、を含む付記11に記載の方法。
〔付記13〕
更に、前記クライアント固有の暗号化情報に含まれる前記クライアント固有の暗号化キーを使用して前記修正属性を暗号化するステップを含む、付記11に記載の方法。
〔付記14〕
前記分類子を特定するステップが更に、
ドメイン分類子のリストからドメイン分類子を決定し、各ドメイン分類子は、前記データセットに含まれる情報のタイプを示す、ステップと、
サブドメイン分類子のリストからサブドメイン分類子を確定し、各サブドメイン分類子は、前記ドメイン分類子において識別された選択済み情報のタイプのサブセットを示す、ステップと、
属性分類子のリストから属性分類子を確定し、各属性分類子は、前記データセットに含まれる識別可能な情報のタイプを示す、ステップと、
エンティティ分類子のリストからエンティティ分類子を確定し、各エンティティ分類子は、前記クライアントに関連する組織の部門を示す、ステップと、
を含む付記10に記載の方法。
〔付記15〕
前記一連のルールエンジンを用いて前記属性を処理する前記ステップが、
前記ラベルに対応する検証ルールのセット及び標準化ルールのセットを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するかどうかを示すルールを提供し、前記標準化ルールのセットは、前記属性を標準化フォーマットに修正する為のルールを提供するステップと、
前記属性を検証ルールのセットと比較して、前記属性が前記ラベルに対応するかどうかを判断する、ステップと、
前記属性が前記ラベルに対応すると判断したことに応答して、前記標準化ルールのセットに従って前記属性を前記標準化フォーマットに修正するステップと、を含む付記10に記載の方法。
〔付記16〕
命令を格納した有形・非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
前記データセットに含まれる属性の特性を示す分類子を特定させ、
前記データセットに含まれる情報のタイプを示す匿名化されたラベルのリストを含むクライアント固有の暗号化情報及びクライアント固有の設定情報を取得させ、
前記特定された分類子に基づいて、前記属性に含まれる情報のタイプに対応する前記匿名化されたラベルのリストに含まれるラベルを特定させ、
前記データセットの前記属性を修正させて、修正属性を生成させ、
以下を含めて前記修正属性のトークン化されたバージョンを生成させる:
前記クライアント固有の暗号化情報に含まれるハッシュコードを使用して前記修正属性をハッシュ化して、ハッシュ化された修正属性を生成し、
前記ラベルを、一連のクライアント固有のタグを含むタグストアと比較して、前記ラベルに対応する第1のタグを特定し、
前記第1のタグを含む前記修正属性のコンテキスト化されたトークンを生成する、
有形・非一時的コンピュータ可読媒体。
〔付記17〕
前記属性は、前記データセットを維持するクライアントノードからの前記データセットの送信を防止しながら前記データセットに含まれるデータのインプレッションを含む、付記16に記載のコンピュータ可読媒体。
〔付記18〕
前記分類子は、前記データストリームに含まれる情報のタイプを示すドメイン分類子、前記ドメイン分類子で識別された前記選択された情報タイプのサブセットを示すサブドメイン分類子、前記データセットに含まれる識別可能な情報のタイプを示す属性分類子、及び前記クライアントに関連する組織の部門を示すエンティティ分類子の何れかを含む、付記16に記載のコンピュータ可読媒体。
〔付記19〕
前記クライアント固有の暗号化情報はセキュアサーバから取得され、前記クライアント固有の暗号化情報は、ハッシュ化メッセージ認証コード(HMAC)プロトコルを使用して暗号化され、前記ハッシュコードは、コンピュータによって生成されたSHA2 512/256トークンを含む、付記16に記載のコンピュータ可読媒体。
〔付記20〕
前記データセットの前記属性を処理して前記修正属性を生成するステップは更に、
前記ラベルに対応する検証ルールのセットと標準化ルールのセットとを取得し、前記検証ルールのセットは、前記属性が前記ラベルに対応するか否かを示すルールを提供し、前記標準化ルールのセットは、前記属性を標準化フォーマットに修正するルールを提供し、
前記属性を前記検証ルールのセットと比較して、前記属性が前記ラベルに対応するかを決定し、
前記属性が前記ラベルに対応しているという判断に応答して、前記属性を、前記標準化ルールのセットに従って前記標準化フォーマットに修正することを含む、付記16に記載のコンピュータ可読媒体。
〔付記21〕
前記データセットの前記属性を処理して前記修正属性を生成するステップは更に、
前記属性が名前を示していると判断したことに応答して、前記属性を、関連する名前のリストに含まれる一般的に関連する名前と関連付ける名前エンジンと、
前記属性が住所を示していると判断したことに応答して、前記クライアントに関連付けられた住所のライブラリに前記属性を追加する住所ライブラリエンジンと、
を含む一連のルールエンジンを使用して、前記属性を処理することを含む、付記16に記載のコンピュータ可読媒体。
〔付記22〕
更に、前記プロセッサに、
前記クライアント固有の暗号化情報に含まれるクライアント固有の暗号化キーを使用して前記ハッシュ化された修正属性を暗号化させる、付記16に記載のコンピュータ可読媒体。
【国際調査報告】