(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-24
(54)【発明の名称】コンテキスト駆動型データプロファイリング
(51)【国際特許分類】
G06F 16/215 20190101AFI20230316BHJP
【FI】
G06F16/215
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022561421
(86)(22)【出願日】2021-04-09
(85)【翻訳文提出日】2022-11-28
(86)【国際出願番号】 IB2021052964
(87)【国際公開番号】W WO2021205396
(87)【国際公開日】2021-10-14
(32)【優先日】2020-04-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522060009
【氏名又は名称】コリブラ エヌブイ
【氏名又は名称原語表記】COLLIBRA NV
(74)【代理人】
【識別番号】100107364
【氏名又は名称】斉藤 達也
(72)【発明者】
【氏名】ゴエル,サティエンダー
(72)【発明者】
【氏名】ジョシ,オーコ
(72)【発明者】
【氏名】フロイエン,ヴィッキー
(72)【発明者】
【氏名】チャチラ,アップワン
(72)【発明者】
【氏名】デ レーンヘール,ピーター
(72)【発明者】
【氏名】クシュマン,ジェームス ビー.
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FB03
5B175FB04
(57)【要約】
本開示は、データプロファイリングプロセスによってデータを処理する方法及びシステムに関する。データプロファイリングは、ソースデータに含まれる属性を修正し、ソースデータの態様を識別することを含んでよい。データプロファイリングプロセスは、妥当性検査ルールのセットに従って属性を処理して、属性に含まれる情報を妥当性検査することを含んでよい。このプロセスは又、標準化ルールのセットに従って属性を処理して、属性を修正して標準化フォーマットにすることを含んでよい。このプロセスは又、ルールエンジンのセットに従って属性を処理することを含んでよい。修正された属性は、更なる処理の為に出力されてよい。データプロファイリングプロセスは又、属性の価値スコア及び使用率ランクを導出することを含んでよく、これらは、ソースデータについてのインサイトを導出することに使用されてよい。
【特許請求の範囲】
【請求項1】
クライアントに対応するデータのストリームを取り込むステップと、
データの前記ストリームに含まれる属性を識別するステップと、
前記属性をデータプロファイリングプロセスにおいて処理するステップであって、前記データプロファイリングプロセスは、
前記属性に対応する妥当性検査ルールのセット及び標準化ルールのセットを検索するステップと、
前記属性を妥当性検査ルールの前記セットと比較して、前記属性に含まれる情報を妥当性検査するステップと、
妥当性検査ルールの前記セットに従って、前記属性に含まれる前記情報が妥当性確認されていると判定された場合に、標準化ルールの前記セットに従って前記属性を修正して標準化フォーマットにするステップと、
前記修正された属性をルールエンジンのセットによって処理するステップと、
を含む、前記データプロファイリングプロセスにおいて前記属性を処理する前記ステップと、
前記処理された属性を、ネットワークアクセス可能なサーバシステムに出力するステップと、
を含むコンピュータ実施方法。
【請求項2】
前記属性は、データの前記ストリームを保持するクライアントノードからデータの前記ストリームに含まれる情報が送信されることを防ぐ、データの前記ストリームに含まれるデータの一部のインプレッションを含む、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記修正された属性をルールエンジンの前記セットによって処理する前記ステップは更に、
前記属性が名前を表すと判定された場合に、前記修正された属性を名前エンジンによって処理するステップであって、前記名前エンジンは、前記属性を、関連付けられた名前のリストに含まれる関連付けられた名前に関連付ける、前記名前エンジンによって処理する前記ステップと、
前記属性がアドレスを表すと判定された場合に、前記修正された属性をアドレスライブラリエンジンによって処理するステップであって、前記アドレスライブラリエンジンは、前記属性を、前記クライアントに関連付けられたアドレスのライブラリに追加する、前記アドレスライブラリエンジンによって処理する前記ステップと、
を含む、請求項1に記載のコンピュータ実施方法。
【請求項4】
前記属性の幾つかのインスタンスを、データの前記ストリーム内の他の属性と相対的に比較するステップと、
前記属性に関する使用率ランクを生成するステップであって、前記使用率ランクは、データの前記ストリーム内の前記属性のインスタンスの前記数に基づいており、前記使用率ランクは、前記属性から導出されることが可能なインサイトの数を表す、前記生成するステップと、
を更に含む、請求項1に記載のコンピュータ実施方法。
【請求項5】
前記属性に関連付けられたフィーチャの系列を識別するステップであって、フィーチャの前記系列はデータの前記ストリーム内の他の属性に対して相対的に識別される、前記識別するステップと、
フィーチャの前記系列の集約に基づいて、前記属性に関する価値スコアを導出するステップと、
を更に含む、請求項1に記載のコンピュータ実施方法。
【請求項6】
フィーチャの前記系列の前記集約に基づいて、前記属性に関する前記価値スコアを導出する前記ステップは更に、
前記属性を処理して、前記属性の品質フィーチャを導出するステップであって、前記品質フィーチャは、データの前記ストリーム内で識別された前記属性と、標準化ルールの前記セットに従って修正された前記修正済み属性との間の幾つかの差異を識別する、前記品質フィーチャを導出する前記ステップと、
前記属性を処理して、前記属性の可用性フィーチャを導出するステップであって、前記可用性フィーチャは、データの前記ストリーム内のデータの、前記属性に対応する部分にあるヌルエントリの数を表す、前記可用性フィーチャを導出する前記ステップと、
前記属性を処理して、前記属性のカーディナリティフィーチャを導出するステップであって、前記カーディナリティフィーチャは、前記属性の、データの前記ストリーム内の他の属性との相対的な差異を表す、前記カーディナリティフィーチャを導出する前記ステップと、
前記属性の、前記導出された品質フィーチャ、前記導出された可用性フィーチャ、及び前記導出されたカーディナリティフィーチャを集約して、前記属性に関する前記価値スコアを生成するステップと、
を含む、請求項5に記載のコンピュータ実施方法。
【請求項7】
前記属性を妥当性検査ルールの前記セットと比較して、前記属性に含まれる情報を妥当性検査する前記ステップは更に、
妥当性検査ルールの前記セット内で識別されたヌル値を前記属性が含むかどうかを判定するステップであって、前記属性が前記ヌル値を含まないと判定された場合には、前記属性が妥当性検査される、前記判定するステップ
を含む、請求項5に記載のコンピュータ実施方法。
【請求項8】
ラベルのリストを含む、クライアント固有の構成情報を検索するステップであって、ラベルの前記リスト内の各ラベルは、データの前記ストリームに含まれる情報のタイプの、クライアント固有のインジケーションを提供する、前記検索するステップと、
ラベルの前記リストに含まれる、前記属性に含まれる情報を表す第1のラベルを識別するステップであって、妥当性検査ルールの前記セット及び標準化ルールの前記セットは前記第1のラベルに対応する、前記識別するステップと、
を更に含む、請求項1に記載のコンピュータ実施方法。
【請求項9】
コンピューティングノードによって実施される、データセットの修正された属性を生成する方法であって、
クライアントに対応するデータセットをクライアントノードから取り込むステップと、
前記データセット内のデータの一部のインプレッションを含む属性を前記データセットから識別するステップと、
前記属性の幾つかのインスタンスを、前記データセット内の他の属性と相対的に比較するステップと、
前記データセット内の前記属性のインスタンスの前記数に基づいて前記属性に関する使用率ランクを生成するステップと、
前記属性に関連付けられたフィーチャの系列を識別するステップであって、フィーチャの前記系列は前記データセット内の他の属性に対して相対的に識別される、前記系列を前記識別する前記ステップと、
フィーチャの前記系列の集約に基づいて、前記属性に関する価値スコアを導出するステップと、
前記属性に対応する妥当性検査ルールのセット及び標準化ルールのセットを検索するステップと、
前記属性を妥当性検査ルールの前記セットと比較して、前記属性に含まれる情報を妥当性検査するステップと、
妥当性検査ルールの前記セットに従って、前記属性に含まれる前記情報が妥当性確認されていると判定された場合に、標準化ルールの前記セットに従って前記属性を修正して標準化フォーマットにするステップと、
前記修正された属性をルールエンジンのセットによって処理するステップと、
前記処理された属性を、ネットワークアクセス可能なサーバシステムに出力するステップと、
を含む方法。
【請求項10】
前記修正された属性をルールエンジンの前記セットによって処理する前記ステップは更に、
前記属性が名前を表すと判定された場合に、前記修正された属性を名前エンジンによって処理するステップであって、前記名前エンジンは、前記属性を、関連付けられた名前のリストに含まれる関連付けられた名前に関連付ける、前記名前エンジンによって処理する前記ステップと、
前記属性がアドレスを表すと判定された場合に、前記修正された属性をアドレスライブラリエンジンによって処理するステップであって、前記アドレスライブラリエンジンは、前記属性を、前記クライアントに関連付けられたアドレスのライブラリに追加する、前記アドレスライブラリエンジンによって処理する前記ステップと、
を含む、請求項9に記載の方法。
【請求項11】
フィーチャの前記系列の前記集約に基づいて、前記属性に関する前記価値スコアを導出する前記ステップは更に、
前記属性を処理して、前記属性の品質フィーチャを導出するステップであって、前記品質フィーチャは、前記データセット内で識別された前記属性と、標準化ルールの前記セットに従って修正された前記修正済み属性との間の幾つかの差異を識別する、前記品質フィーチャを導出する前記ステップと、
前記属性を処理して、前記属性の可用性フィーチャを導出するステップであって、前記可用性フィーチャは、前記データセット内のデータの、前記属性に対応する部分にあるヌルエントリの数を表す、前記可用性フィーチャを導出する前記ステップと、
前記属性を処理して、前記属性のカーディナリティフィーチャを導出するステップであって、前記カーディナリティフィーチャは、前記属性の、前記データセット内の他の属性との相対的な差異を表す、前記カーディナリティフィーチャを導出する前記ステップと、
前記属性の、前記導出された品質フィーチャ、前記導出された可用性フィーチャ、及び前記導出されたカーディナリティフィーチャを集約して、前記属性に関する前記価値スコアを生成するステップと、
を含む、請求項9に記載の方法。
【請求項12】
前記属性を妥当性検査ルールの前記セットと比較して、前記属性に含まれる情報を妥当性検査する前記ステップは更に、
妥当性検査ルールの前記セット内で識別されたヌル値を前記属性が含むかどうかを判定するステップであって、前記属性が前記ヌル値を含まないと判定された場合には、前記属性が妥当性検査される、前記判定するステップ
を含む、請求項9に記載のコンピュータ実施方法。
【請求項13】
ラベルのリストを含む、クライアント固有の構成情報を検索するステップであって、ラベルの前記リスト内の各ラベルは、前記データセットに含まれる情報のタイプの、クライアント固有のインジケーションを提供する、前記検索するステップと、
ラベルの前記リストに含まれる、前記属性に含まれる情報を表す第1のラベルを識別するステップであって、妥当性検査ルールの前記セット及び標準化ルールの前記セットは前記第1のラベルに対応する、前記識別するステップと、
を更に含む、請求項9に記載の方法。
【請求項14】
命令が記憶された、有形の非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、
クライアントに対応するデータのストリームを取り込むステップと、
データの前記ストリームに含まれる属性を識別するステップと、
前記属性をデータプロファイリングプロセスにおいて処理するステップであって、前記データプロファイリングプロセスは、
前記属性に対応する妥当性検査ルールのセット及び標準化ルールのセットを検索するステップと、
前記属性を妥当性検査ルールの前記セットと比較して、前記属性に含まれる情報を妥当性検査するステップと、
妥当性検査ルールの前記セットに従って、前記属性に含まれる前記情報が妥当性確認されていると判定された場合に、標準化ルールの前記セットに従って前記属性を修正して標準化フォーマットにするステップと、
前記修正された属性をルールエンジンのセットによって処理するステップと、
を含む、前記データプロファイリングプロセスにおいて前記属性を処理する前記ステップと、
前記処理された属性を、ネットワークアクセス可能なサーバシステムに出力するステップと、
を前記プロセッサに実施させる、コンピュータ可読媒体。
【請求項15】
前記属性は、データの前記ストリームを保持するクライアントノードからデータの前記ストリームに含まれる情報が送信されることを防ぐ、データの前記ストリームに含まれるデータの一部のインプレッションを含む、請求項14に記載のコンピュータ可読媒体。
【請求項16】
前記修正された属性をルールエンジンの前記セットによって処理する前記ステップは更に、
前記属性が名前を表すと判定された場合に、前記修正された属性を名前エンジンによって処理するステップであって、前記名前エンジンは、前記属性を、関連付けられた名前のリストに含まれる関連付けられた名前に関連付ける、前記名前エンジンによって処理する前記ステップと、
前記属性がアドレスを表すと判定された場合に、前記修正された属性をアドレスライブラリエンジンによって処理するステップであって、前記アドレスライブラリエンジンは、前記属性を、前記クライアントに関連付けられたアドレスのライブラリに追加する、前記アドレスライブラリエンジンによって処理する前記ステップと、
を含む、請求項14に記載のコンピュータ可読媒体。
【請求項17】
前記属性の幾つかのインスタンスを、データの前記ストリーム内の他の属性と相対的に比較するステップと、
前記属性に関する使用率ランクを生成するステップであって、前記使用率ランクは、データの前記ストリーム内の前記属性のインスタンスの前記数に基づいており、前記使用率ランクは、前記属性から導出されることが可能なインサイトの数を表す、前記生成するステップと、
前記属性に関連付けられたフィーチャの系列を識別するステップであって、フィーチャの前記系列はデータの前記ストリーム内の他の属性に対して相対的に識別され、フィーチャの前記系列は、前記属性に関する価値スコアを識別する為に使用される、前記識別するステップと、
を更に前記プロセッサに実施させる、請求項14に記載のコンピュータ可読媒体。
【請求項18】
前記属性を処理して、前記属性の品質フィーチャを導出するステップであって、前記品質フィーチャは、データの前記ストリーム内で識別された前記属性と、標準化ルールの前記セットに従って修正された前記修正済み属性との間の幾つかの差異を識別する、前記品質フィーチャを導出する前記ステップと、
前記属性を処理して、前記属性の可用性フィーチャを導出するステップであって、前記可用性フィーチャは、データの前記ストリーム内のデータの、前記属性に対応する部分にあるヌルエントリの数を表す、前記可用性フィーチャを導出する前記ステップと、
前記属性を処理して、前記属性のカーディナリティフィーチャを導出するステップであって、前記カーディナリティフィーチャは、前記属性の、データの前記ストリーム内の他の属性との相対的な差異を表す、前記カーディナリティフィーチャを導出する前記ステップと、
前記属性の、前記導出された品質フィーチャ、前記導出された可用性フィーチャ、及び前記導出されたカーディナリティフィーチャを集約して、前記属性に関する前記価値スコアを導出するステップと、
を更に前記プロセッサに実施させる、請求項17に記載のコンピュータ可読媒体。
【請求項19】
前記属性を妥当性検査ルールの前記セットと比較して、前記属性に含まれる情報を妥当性検査する前記ステップは更に、
妥当性検査ルールの前記セット内で識別されたヌル値を前記属性が含むかどうかを判定するステップであって、前記属性が前記ヌル値を含まないと判定された場合には、前記属性が妥当性検査される、前記判定するステップ
を含む、請求項14に記載のコンピュータ可読媒体。
【請求項20】
ラベルのリストを含む、クライアント固有の構成情報を検索するステップであって、ラベルの前記リスト内の各ラベルは、データの前記ストリームに含まれる情報のタイプの、クライアント固有のインジケーションを提供する、前記検索するステップと、
ラベルの前記リストに含まれる、前記属性に含まれる情報を表す第1のラベルを識別するステップであって、妥当性検査ルールの前記セット及び標準化ルールの前記セットは前記第1のラベルに対応する、前記識別するステップと、
を更に含む、請求項14に記載のコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、参照により開示内容が完全な形で本明細書に組み込まれている、2020年4月9日に出願された米国特許出願第16/844,927号の優先権の利益を主張するものである。
【0002】
本開示はデータプロファイリングに関し、特に、データプロファイリングを実施してデータについてのインサイトを導出することに関する。
【背景技術】
【0003】
様々なエンティティが様々なコンピュータ装置上に大量のデータをデジタル形式で保持する場合がある。例えば、ある団体が、相互接続された一連のサーバ上にデータのカラムを保持する場合がある。データの様々な特性についての様々なインサイトを決定する為には、これらの大量のデータを詳細に調べて評価することが通常は望ましいであろう。しかしながら、大量のデータを検索して処理することは、コンピュータ的に膨大なリソースを必要とする場合がある。更に、大量のデータの中に大量の情報が含まれる場合にはデータの質を求めることは一般に困難であろう。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、上記従来の技術における課題を解決するためになされたものである。
【課題を解決するための手段】
【0005】
本技術の様々な特徴及び特性については、当業者であれば、「発明を実施するための形態」を図面と併せて研究することにより一層明らかになるであろう。本技術の実施形態は、限定ではなく例示として図面に示されており、図面において類似の参照符号は類似の要素を示しうる。
【0006】
図面には各種実施形態があくまで例示を目的として描かれている。当業者であれば理解されるように、本技術の原理から逸脱しない限り、代替実施形態が使用されてよい。従って、図面には特定の実施形態が示されているが、本技術は様々な実施形態に適用できる。
【図面の簡単な説明】
【0007】
【
図1】本発明の実施形態を実施できるネットワークアーキテクチャの一例である。
【
図2】データプロファイリングプロセスの一例を示すブロック図である。
【
図3】妥当性検査及び標準化のプロセスの一例を示すブロック図である。
【
図4】様々な属性に関する価値スコアの例を生成するブロック図である。
【
図5】データプロファイリングプロセスを実施する方法の一例のブロック図である。
【
図6】データレジストリプロセスにおいてデータをセキュアに分類及びトークン化する方法の一例のブロック図である。
【
図7】本明細書に記載の少なくとも幾つかの動作を実施できる処理システムの一例を示すブロック図である。
【発明を実施するための形態】
【0008】
多くのエンティティ(例えば、企業、団体)が大量のデータを保持している。このデータは、コンピューティング装置の様々なレジスタ又はデータベースに保存可能である。多くの場合、これらのエンティティは、異種データセット間でレコードの識別及びマッチングを行うこと、並びにそれらのデータセットについてのインサイトを取得することを必要としうる。例えば、ある団体が、複数の類似のデータセットに関して、それらの類似のデータセットの中から良質且つ正確なデータセットを識別及び選択しようとする場合がある。
【0009】
本発明の実施形態は、データを処理し、取り込まれたデータについてのインサイトを生成することに関する。データプロファイリングプロセスは、クライアントデータの属性を妥当性検査することと、その属性を標準化フォーマットに標準化することと、そのデータを1つ以上のルールエンジンで処理することと、を含んでよい。取得された入力情報に基づいて、他の情報(例えば、使用率ランクや価値スコア)が生成されてよい。
【0010】
データプロファイリングプロセスは、データ品質を高めるデータについてのインサイトを生成することを可能にしうる。インサイトの例として、1つのドメイン内又は複数のドメイン間でのデータ属性の重複インスタンス又は複数インスタンスがあってよく、これは重なり率を含む。インサイトの別の例として、正規化及び標準化(何%が標準であり何%が非標準か)によるデータ品質レポート、或いは、ラベル処理(例えば、同じホームアドレスを有するレコード)に基づくトレンドがあってよい。
【0011】
以下で説明する実施形態は、当業者が実施形態を実施することを可能にするのに必要な情報を表し、実施形態を実施することの最良の態様を例示するものである。当業者であれば、添付図面を参照しながら以下の説明を読むことにより、本開示の概念を理解され、これらの概念の、本明細書に具体的に示していない適用例を認識されるであろう。これらの概念及び適用例は、本開示及び添付の特許請求項の範囲に含まれる。
【0012】
実施形態の説明は、特定のコンピュータプログラム、システム構成、ネットワーク等を参照して行うことになる。しかしながら、当業者であれば理解されるように、それらの特徴は、他のコンピュータプログラムタイプ、システム構成、ネットワークタイプ等にも等しく適用可能である。例えば、「Wi-Fiネットワーク」という用語はネットワークを説明する為に使用されうるが、当該実施形態は別のタイプのネットワークでもデプロイ可能である。
【0013】
更に、本開示の技術は、専用ハードウェア(例えば、回路)、ソフトウェア及び/又はファームウェアで適切にプログラムされたプログラム可能回路、又は専用ハードウェアとプログラム可能回路の組み合わせを使用して実施可能である。従って、実施形態は、データを検査し、そのデータを本明細書に記載のように処理するようにコンピューティング装置(例えば、コンピューティング装置又はネットワークアクセス可能なサーバシステム)をプログラムすることに使用可能な命令を有するマシン可読媒体を含んでよい。
術語
【0014】
本明細書で使用する術語の目的は、実施形態を説明することにとどまり、本開示の範囲を限定することを意図するものではない。文脈上許容される場合には、単数形の語句が複数形を包含することも可能であり、複数形の語句が単数形を包含することも可能である。
【0015】
本明細書では、特に断らない限り、「処理する(processing)」、「計算する(computing)」、「計算する(calculating)」、「判定する(determining)」、「表示する(displaying)」、「生成する(generating)」等のような用語は、コンピュータのメモリ又はレジスタ内の物理量(電子量)として表されたデータをマニピュレートして、同様に、コンピュータのメモリ、レジスタ、又は他のそのような記憶媒体、伝送装置、又は表示装置内の物理量として表された他のデータに変換する、コンピュータ又は同様の電子コンピューティング装置のアクション及びプロセスを意味する。
【0016】
本明細書では、「接続された(connected)」、「結合された(coupled)」等のような用語は、2つ以上の要素の間の直接又は間接の任意の接続又は結合を意味しうる。要素間の結合又は接続は、物理的、論理的、又はそれらの組み合わせであってよい。
【0017】
「一実施形態(an embodiment)」又は「一実施形態(one embodiment)」への参照は、説明されている特定の特徴、機能、構造、又は特性が少なくとも1つの実施形態に含まれることを意味する。そのような文言の出現は、必ずしも同じ実施形態を参照するものではなく、必ずしも、相互に排他的な別の実施形態を参照するものでもない。
【0018】
文脈上他の意味に解すべき場合を除き、「含む(comprise)」及び「含む(comprising)」という語は、排他的又は網羅的な意味ではなく包含的な意味に(即ち、「を含むが、これに限定されない」の意味に)解釈されるべきである。
【0019】
「に基づく(based on)」という語句も、排他的又は網羅的な意味ではなく包含的な意味に解釈されるべきである。従って、特に断らない限り、「に基づく(based on)」という語句は「に少なくともある程度は基づく(based at least in part on)」を意味するものとする。
【0020】
「モジュール(module)」という用語は、ソフトウェア構成要素、ハードウェア構成要素、及び/又はファームウェア構成要素を広く意味する。モジュールは、典型的には、指定された入力に基づいて有用なデータ又は他の出力を生成できる機能構成要素である。モジュールは自己完結型であってよい。コンピュータプログラムは、1つ以上のモジュールを含んでよい。従って、コンピュータプログラムは、それぞれが異なるタスクの遂行を担う複数のモジュール、又は複数のタスクの遂行を担う単一モジュールを含んでよい。
【0021】
「又は(or)」という語は、複数アイテムのリストの参照において使用される場合には、「リスト中のアイテムのうちの任意のアイテム」、「リスト中のアイテムのうちの全てのアイテム」、及び「リスト中のアイテムの任意の組み合わせ」という解釈の全てを包含するものとする。
【0022】
本明細書に記載のいずれのプロセスにおいても、実施される各ステップの順序は例示的である。しかしながら、物理的に可能であることに反しない限り、各ステップは様々な順序及び組み合わせで実施されてよい。例えば、本明細書に記載のプロセスに追加されるステップがあってよく、プロセスから省かれるステップがあってもよい。同様に、置き換えられるステップや並べ替えられるステップがあってよい。従って、どのプロセスの説明もオープンエンドであるものとする。
データプロファイリングの概要
【0023】
コンテキスト駆動型データプロファイリングプロセスは、ソースデータのデータ品質を判定することを支援することが可能である。データプロファイリングは、マッチング精度の最適化のような用途に役立つ、データについてのインサイトを生成する為に入力情報を修正する幾つかの処理ステップを含んでよい。例えば、データプロファイリングでは、プロファイリングされたデータをトークン化する前にデータの標準化及び妥当性検査を行うことが可能である。
【0024】
図1は、プロファイリングフローの一例100のブロック図である。データプロファイラは、フレキシブルなデータフローを含んでよい。データは、データソースからの様々なバッチ、連続ストリーム、又はバルクロードの形でアクセス及び/又は処理してよい。データソース102は、データを保存/保守するように構成されたノード(例えば、装置104a~d)を含んでよい(例えば、データレイク106a、データベース106b、単層ファイル106c、データストリーム106d)。例えば、データソース102は、データの単一カラム、データの複数のテーブルを有するリレーショナルデータベースの系列、又は多数のデータアセットを有するデータレイクを含んでよい。
【0025】
データ品質は、ユースケースごと又はクライアントごとにデータプロファイラ内で解決可能である。例えば、コンテキストは、データのカラム、データのカラムの組み合わせ、又はデータソースに基づいてよい。データプロファイリングプロセス中に、様々なデータが抽出されてよく、それらのデータのサマリが生成されてよい。例えば、データのカラムのサマリが、データスケッチの形式で識別されてよい。データスケッチは、数値データ及び/又は文字列データを含んでよい。データスケッチに含まれる数値データの例として、欠測値の数、数値データの平均/分散/最大値/最小値、分布又はヒストグラムの生成に使用可能な、数値データの近似分位点推定値等のいずれがあってもよい。文字列データの例として、欠測値の数、最大文字長、最小文字長、平均文字長、ラベルの頻度テーブル、頻度アイテムセット、固有値推定値等があってよい。
【0026】
データのサマリの中で一連のメトリクスのいずれかが計算されれば、データプロファイリングスコアが計算されてよい。データプロファイリングスコアは、データ品質を判定すること、及び/又は、最良データ、データ構成、及びターゲティングデータ品質強化アクティビティを識別することに使用されてよい。ユーザが設定した間隔で、データプロファイリングを再実行して、メトリクスを再計算してよい。これは、データライフサイクルにおけるデータスコアの履歴を追跡すること、及びデータ品質問題のフラグ付けを可能にすることに使用されてよい。
【0027】
幾つかの実施形態では、データのサマリは、特定の正規表現(例えば、基準データ)に従う値の割合を含んでよい。例えば、特定のフォーマットに従う電話番号に関しては、データのサマリは、存在する幾つかのフォーマットを示すものであってよい。
【0028】
幾つかの実施形態では、データのサマリは、幾つかの匿名値を含んでよい。例えば、匿名値を含むデータの割合を判定する為に、ソースデータ中で既知の匿名の名前(例えば、ジョン・ドウ(John Doe))が識別されてよい。
【0029】
別の実施形態では、データのサマリは、データ品質ルールのライブラリに基づくデータ品質メトリクスのセットを含んでよい。データのサマリは、属性に関連付けられた基準データに基づいてデータ品質ルールを学習することを可能にする為に利用されてよい。データのサマリは又、ソースデータから直接、データ品質ルールを学習することを可能にする為に利用されてよい(例えば、ソースデータはどの値の間に含まれるべきか、何が最小文字長であるべきか)。
【0030】
一実施例として、ソースデータを検査して、データ品質スコアを導出してよい。データ品質スコアは、ソースデータのカラムレベル又はレコードレベルで計算されたスコアを含んでよい。データ品質スコアは、データのサマリに含まれる任意のメトリクスを計算することによって導出されてよい。
【0031】
別の実施例として、ソースデータを検査して、品質データを識別してよい。各データソースのデータの各カラムのデータプロファイリングスコアに関しては、特定のクライアントに対して可能な最良のデータセットをマッチングすることが可能である。例えば、カラム/属性のセット(例えば、名前、アドレス、電話番号、生年月日、電子メールアドレス)、それらのカラム/属性が存在する様々なソース(CRM、ERP、注文管理、ウェブ)のデータプロファイリングスコアを示すテーブルを用意できる。そのようなテーブルに含まれるデータを使用して、特定のクライアントに関してデータの品質が最高であるデータセットを選択することが可能である。場合によっては、複数のソースをマッチングして、可能な限り最高品質のデータを受け取ることが可能である。これは、ソースデータを過度に処理することなく実施可能である。
【0032】
別の実施例として、ソースデータを検査して、履歴データプロファイリングスコアを導出し、what-if分析を実施してよい。what-if分析は、データに対して他の(特定の)ルールが発動されていたとしたらどのような事態になっていたかの分析を含んでよい。これらの計算を容易化する為に、what-if分析は、メトリクスステージの計算中に作成されたデータサマリから収集されたサンプルデータに対して行われてよい。what-if分析の結果が十分であれば、what-if分析において選択された新しいルールを使用してメトリクスのフル計算を新たに実施してよい。
【0033】
データソース(例えば、データレイク106a、データベース106b、単層ファイル106c、データストリーム106d)から抽出されたデータは、データフィード108を介してプロファイラ(例えば、プロファイラ110a~n)にフィードされてよい。データフィード108は、プロファイラへのデータのバッチ、バルク、又は連続フィードを含んでよい。プロファイラにフィードされたデータは、属性(例えば、属性112a~n)を含んでよい。属性は、テーブル内のデータの一部であってよく、又はソース内にあってよく、又は同じレコードの一部であってよい。
【0034】
図1に示した実施形態では、第1のプロファイラ110aが属性1(112a)を処理してよく、第2のプロファイラ110bが属性2(112b)を処理してよい。任意の適切な数のプロファイラ(例えば、プロファイラN(110n))が、任意の数の属性(例えば、属性N(112n))を処理してよい。各プロファイラ110a~nが、標準化ルールのセット114a~n及びルールエンジンのセット116a~nを含んでよい。標準化ルール114a~n及び/又はルールエンジン116a~nはモジュールであってよく、1つの属性に関してルールの各セットが処理されてよい。各プロファイラは、対応する属性を、対応する標準化ルールセットと、ルールエンジンセットと、を使用して処理してよい。幾つかの実施形態では、各プロファイラは、属性を処理する際のデータ品質を高める為に、様々な機械学習技術及び/又は人工知能技術並びに統計ツールを実装してよい。各プロファイラ110a~nからの結果データは、属性の様々なフィーチャを表すインサイト118を含んでよい。
【0035】
幾つかの実施形態では、データ品質ルールは調節可能であり、それによって、データ品質向上タスクの実行時に異なる判定が行われるようにすることが可能である。例えば、あるデータセットが良好なスコアを有するかもしれないが、「ジョン・ドウ」という名前が匿名値(偽値又は人工値)であることが以前は知られていなかった。「ジョン・ドウ」が匿名値であると識別するようにルールを更新することにより、データプロファイリングスコアが変更され、スコアの履歴が修正されてよい。こうしたデータプロファイリングスコアの変更により、データセットに含まれる様々なデータの識別を可能にできる。
【0036】
別の実施例として、ソースデータを検査して、自動データ品質向上リクエストを導出してよい。特定の属性又は属性の系列のデータプロファイリングスコアにトリガを関連付けてよい。トリガは、データプロファイリングスコアが閾値を下回る場合に、属性に関連付けられたソースデータを検査することが可能である、と記述されてよい。ソースデータは、そのデータが様々なコンテキストにおいてどのように使用されるかを表す識別された値を有する場合には、潜在的に改良可能である。
【0037】
別の実施例として、ソースデータを検査して、データインサイトを導出してよい。ソースデータのデータプロファイリングスコアを処理することにより、そのデータの別の分析を開始する前にそのデータのフィーチャを理解することに利用可能なデータ分布及び他のインサイトを生成することが可能である。
【0038】
別の実施例として、ソースデータを検査して、スマートデータ品質ベースのデータ選択意思決定を導出してよい。同様の属性を有する別のデータセットのデータ品質スコアが優れている場合に、ソースデータをモデル(例えば、規範的モデル)にマッピングすることに基づいて、高度に相関したプロファイリング/サンプリング出力、相関定義、及び/又は同様のエンドポイント消費関係パターンが、検査に値する置換の推奨を提示することが可能である。ユーザが起動したリクエストに応じて対照比較を実施することにより、ユーザがオーバラップの量を識別して相対的選好を表現することを支援することが可能である。これは、ユーザ固有の長期ニーズで較正された推奨を提示する為に、ユーザ及びコミュニティの横に保存/ログ記録されてよい。
【0039】
図2は、データプロファイリングプロセスの一例を示すブロック
図200である。
図2に示すように、データプロファイリング200は、入力情報を取得することを含んでよい。入力情報の例として、生成されたコンテキスト/分類情報(即ち「ラベル」)202及び/又は取り込まれたデータ204があってよい。取り込まれたデータ204は、クライアントデータを含んでよい。
【0040】
データプロファイリング200のプロセスは、属性206を定義することを含んでよい。属性206は、クライアントデータの特性又はフィーチャを表すものであってよい。例えば、属性206は生年月日(例えば、1990年1月1日)を含んでよい。これは、月日、日、年月日、及び/又はフル生年月日(DOB)を含んでよい。属性206の他の例は、アドレス、名前、電子メールアドレス、性別、電話番号、社会保障番号等を含んでよい。属性206は又、クライアントデータを表すラベル/分類を含んでよい。
【0041】
データプロファイリング200は、属性206の標準化208を含んでよい。標準化208は、属性206に含まれる、当該属性に対応するデータを検証することと、属性206のフォーマットを統一フォーマットに標準化することと、を含んでよい。データプロファイリング200は、様々なタイプの属性を標準化することが可能な複数の標準化プロセスを含んでよい。多くの場合、標準化は、水平方向及び/又は垂直方向にモジュール式であってよい。属性の標準化については、
図3に関して詳細に論じる。
【0042】
標準化された属性は、1つ以上のルールエンジン210によって処理されてよい。標準化された属性からより多くのインサイトが導出されることを可能にするルールエンジンが、標準化された属性を更に処理してよい。ルールエンジン例210は、ニックネームエンジン212a、アドレスライブラリエンジン512b、又は他の任意の数のルールエンジン(例えば、ルールエンジンN(212n))を含んでよい。
【0043】
アドレスライブラリエンジン512bは、属性がアドレスを含むかどうかを識別し、そのアドレスを、様々なアドレスを含むリポジトリ/リストに追加することを含んでよい。アドレスライブラリエンジン512bは、アドレスをクライアント/エンティティに関連付けてよい。ルールエンジン210による処理が行われると、直ちにデータプロファイリングはプロファイリングされたデータ514を出力することが可能である。
【0044】
図2に示すように、プロファイリングプロセスは、使用率ランク216及び/又は価値スコア518のどれでも出力できる。使用率ランク216は、1つの属性タイプのランクを他の属性タイプとの関連で表してよい。例えば、「ファーストネーム」の属性は、「性別」の属性より高ランクであってよい。使用率ランク216は、1つの属性タイプについての情報の品質、及び/又はその属性タイプに関連付けられたインサイトの数を表してよい。例えば、1つの属性タイプの使用率ランク216がより高いことは、その属性タイプに関してより多くのインサイトを導出できることを表しうる。
【0045】
一例として、使用率ランク216は、各属性についてのデータの品質を表しうる。例えば、医療のコンテキストは、データは、患者に関する可用性に基づいてリンクされてよい。この例では、社会保障番号(SSN)のような識別子の中のデータの価値は一般的には高いであろうが、医療コンテキストでは患者識別子の中のデータの価値のほうがSSNのそれより高い場合がある。この例では、使用率ランクは、患者を識別する最も一意的な識別子を表すスコアの系列であってよく、これは、結果として得られるデータの品質がより高価値でありうる為である。従って、この例では、患者識別子の属性は、SSNのそれよりも使用率ランクが高いことになる。
【0046】
別の例として、企業のコンテキストでは、雇用主は、従業員を表すSSNが(例えば、給与支払名簿用として)従業員の識別に使用されるとした場合に、そのSSNに最高の使用率ランクを与えうる。
【0047】
価値スコア218は、一属性タイプの様々なフィーチャを表す値であってよい。例えば、価値スコア218は、当該属性タイプの様々な特性を他の属性タイプとの関連で表す集約された値であってよい。価値スコアは、取り込まれたデータの属性についての追加インサイトを提供しうる。価値スコアについては、
図4に関して詳細に論じる。
【0048】
使用率ランク及び価値スコアは、ネットワークアクセス可能なサーバシステムに提供されてよい。幾つかの実施形態では、プロファイリング200は、入力情報を処理して正規化する一連のステップを実施することを含んでよい。例えば、入力情報を処理することは、生データから例外値(例えば、外字)や不正値を除去することを含んでよい。これにより、入力情報を正規化し、データの品質に関する様々なレベルのインサイトの情報を提供することが可能である。
【0049】
図3は、妥当性検査及び標準化のプロセスの一例を示すブロック
図300である。このプロセスは、属性を取得して処理して、その属性を含む情報を妥当性検査及び標準化することを含んでよい。
【0050】
上述のように、属性の一例が、名前、日付、アドレス等を含んでよい。
図3に示す例では、属性302は生年月日を含んでよい。生年月日は複数のフィーチャを含んでよく、例えば、月304a、日304b、年304c、及びフル生年月日(DOB)304d等を含んでよい。例えば、生年月日は「1990年1月1日」のように提示されてよい。
【0051】
属性は、妥当性検査プロセス306で妥当性検査されてよい。妥当性検査ルールのセット308が属性の各フィーチャ(例えば、304a~d)と比較されて、その属性が当該属性として正しく識別されていると判定されてよい。例えば、妥当性検査ルールは、生年月日の各フィーチャが実際に生年月日を表しているかどうかを判定することが可能である。例えば、属性が生年月日ではなくクレジットカード番号であった場合、妥当性検査ルールは、その属性が生年月日として正しく識別されていないと識別することが可能である。そのような場合、その属性は、クレジットカード番号に関連する別の妥当性検査及び標準化プロセスによって処理されてよい。属性が妥当性検査ルールに反する場合、属性はヌル又は空310となりうる。
【0052】
妥当性検査ルール308は、属性302が当該属性を表す情報を含むかどうかを識別する、属性302の特性の系列を含んでよい。例えば、妥当性検査ルール308は、属性を検査して、属性がヌル値かどうかを判定してよい。例えば、属性がヌル値を含む場合、その属性は生年月日を識別せず、ヌル値310として識別されることになる。妥当性検査ルール308の別の例は、属性が、ファーストネームの少なくとも1つの文字を含むかどうか、米国内の電話番号の10桁以下を含むかどうか、ダッシュ、スラッシュ、ピリオド以外の句読点を含まないかどうか等を判定することを含んでよい。妥当性検査ルールのセット308は、属性のタイプごとに用意されてよい。場合によっては、妥当性検査ルールは、いずれかの妥当性検査ルールを修正/追加/削除するように更新されてよい。
【0053】
処理された属性を検査して、その属性に関する価値スコアを生成してよい。価値スコアは、取り込まれたデータの1つの属性の様々なフィーチャに関連する情報を集約した値を含んでよい。
【0054】
図4は、様々な属性に関する価値スコアの例を生成するブロック
図400である。
図4に示すように、取り込まれたデータの様々な属性402を検査して、各属性402に関する価値スコアを導出してよい。属性例は、アドレス404a、名前404b、電話番号404c、及び任意の数の他の属性タイプ(例えば、属性1(404d)、属性N(404n))を含んでよい。
【0055】
価値スコアを生成することには、各属性の様々なフィーチャが利用されてよい。例えば、各属性を検査して、その属性の品質フィーチャ406を導出してよい。品質フィーチャ406は、属性とその属性の標準化されたバージョンとの間の相対的差異を表してよい。一般に、属性がその属性の標準化されたバージョンとかなり一致していれば、その属性の全体的な品質は高くなりうる。従って、品質フィーチャ406は、1つの属性を標準化フォーマットで提示する為の、その属性の幾つかの修正を表してよい。属性を標準化フォーマットで提示する為の、その属性に対する幾つかの修正は、品質スコア406に関する値に変換されてよい。
【0056】
フィーチャの別の例は可用性フィーチャ408を含んでよい。可用性フィーチャ408は、取り込まれたデータのサブセット内の1つの属性のヌル/空エントリの数を表してよい。例えば、データの1つのカラムに関してヌル/空エントリの数が増えると、データのそのカラムのその属性の全体品質が低下する可能性がある。従って、可用性フィーチャ408に関する価値は、他の属性タイプとの関連でのその属性タイプに関するヌル/空エントリの数に基づいて導出されてよい。
【0057】
価値スコアは、任意の適切な数のフィーチャ(例えば、フィーチャ1(410)、フィーチャN(412))に基づいてよい。属性タイプの任意のフィーチャを導出することは、取り込まれたデータのサブセット(例えば、データのカラム)を検査し、取り込まれたデータの特性を他の属性タイプと比較して、属性タイプのフィーチャを導出することを含んでよい。一例として、フィーチャ412は属性のカーディナリティを含んでよく、これは、その属性の一意性を他の属性との関連で表しうる。
【0058】
価値スコアは、他の属性との関連での各属性の重み414に基づいてよい。各属性タイプは、属性タイプに関する他のフィーチャの価値を調節することが可能な、基準データセット内の他のデータに基づいて重み付けされてよい。
【0059】
各フィーチャ(例えば、フィーチャ406、408、410、412)及び属性に関して決定された重み414を利用して、デフォルトスコア416を導出してよい。デフォルトスコア416は、1つの属性タイプに関するフィーチャに関連付けられた価値を集約した初期価値/スコアであってよく、その属性タイプに関する重み414に基づいて調節可能である。幾つかの実施形態では、様々な技術(例えば、機械学習、ニューラルネットワーク)を利用して、属性に関するデフォルトスコアの正確さを高めることが可能である。例えば、デフォルトスコア416の正確さを高めることが可能なトレーニングデータを使用して、デフォルトスコアを動的に調節することが可能である。
【0060】
価値スコア418は、デフォルトスコア416に基づいて導出されてよい。上述のように、価値スコア418は、1つの属性タイプに関する様々なフィーチャの集約を含んでよい。場合によっては、価値スコア418は、暗号化されて、ネットワークアクセス可能なサーバシステムによって保持されてよい。
データプロファイリングプロセスを実施する方法の例
【0061】
図5は、データプロファイリングプロセスを実施する方法の一例のブロック
図500である。本方法は、クライアントに対応するデータのストリームを取り込むステップ(ブロック502)を含んでよい。クライアントに対応するデータのストリームは、クライアントデータの1つ以上のカラムを含んでよい。
【0062】
本方法は、データのストリームから1つの属性を識別するステップ(ブロック504)を含んでよい。本方法は、データプロファイリングプロセスによりその属性を処理するステップ(ブロック506)を含んでよい。データプロファイリングプロセスは、その属性に対応する妥当性検査ルールのセット及び標準化ルールのセットを検索するステップ(ブロック508)を含んでよい。妥当性検査のセットは、その属性が当該属性と一致するかどうかを表すルールを備えてよい。標準化ルールのセットは、その属性を修正して標準化フォーマットにするルールを備えてよい。
【0063】
データプロファイリングプロセスは、その属性を妥当性検査ルールのセットと比較して、その属性が当該属性と一致するかどうかを判定するステップ(ブロック510)を含んでよい。その属性が当該属性と一致すると判定された場合には、その属性は、本明細書に記載のように修正されてよい。幾つかの実施形態では、その属性を妥当性検査するステップは、妥当性検査ルールのセット内で識別されたヌル値をその属性が含むかどうかを判定するステップを含んでよい。その属性がヌル値を含まないと判定された場合には、その属性が妥当性検査されてよい。
【0064】
データプロファイリングプロセスは、標準化ルールのセットに従って属性を修正して標準化フォーマットにするステップ(ブロック512)を含んでよい。これは、属性が妥当性検査ルールによって妥当性確認されたと判定された場合に実施されてよい。
【0065】
データプロファイリングプロセスは、その属性を複数のルールエンジンによって処理するステップ(ブロック514)を含んでよい。ルールエンジンは名前エンジンを含んでよく、名前エンジンは、属性が名前を表すと判定された場合に、属性を、関連付けられた名前のリストに含まれる共通に関連付けられた名前に関連付ける。ルールエンジンは又、アドレスライブラリエンジンを含んでよく、アドレスライブラリエンジンは、属性がアドレスを表すと判定された場合に、属性を、クライアントに関連付けられたアドレスのライブラリに追加する。
【0066】
幾つかの実施形態では、修正された属性をルールエンジンのセットによって処理するステップは、属性が名前を表すと判定された場合に、修正された属性を名前エンジンによって処理するステップを含んでよく、名前エンジンは、属性を、関連付けられた名前のリストに含まれる関連付けられた名前に関連付ける。修正された属性をルールエンジンのセットによって処理するステップは又、属性がアドレスを表すと判定された場合に、修正された属性をアドレスライブラリエンジンによって処理するステップを含んでよく、アドレスライブラリエンジンは、属性を、クライアントに関連付けられたアドレスのライブラリに追加する。
【0067】
幾つかの実施形態では、本方法は、属性の幾つかのインスタンスを、そのデータのストリーム内の他の属性と相対的に比較するステップを含んでよい。属性に関して使用率ランクが生成されてよい。使用率ランクは、データのストリーム内の属性のインスタンスの数に基づいてよく、使用率ランクは、属性から導出されることが可能なインサイトの数を表しうる。
【0068】
幾つかの実施形態では、属性に関連付けられたフィーチャの系列が識別されてよく、データのストリーム内の他の属性に対して相対的に識別されてよい。フィーチャの系列のフィーチャの例として、品質フィーチャ、可用性フィーチャ、カーディナリティフィーチャ等があってよい。フィーチャの系列の集約に基づいて、属性に関する価値スコアが導出されてよい。
【0069】
幾つかの実施形態では、フィーチャの系列の集約に基づいて属性に関する価値スコアを導出するステップは、属性を処理して、属性の品質フィーチャを導出するステップを含んでよく、品質フィーチャは、データのストリーム内で識別された属性と、標準化ルールのセットに従って修正された修正済み属性との間の幾つかの差異を識別する。フィーチャの系列の集約に基づいて属性に関する価値スコアを導出するステップは又、属性を処理して、属性の可用性フィーチャを導出するステップを含んでよく、可用性フィーチャは、データのストリーム内のデータの、属性に対応する部分にあるヌルエントリの数を表す。フィーチャの系列の集約に基づいて属性に関する価値スコアを導出するステップは又、属性を処理して、属性のカーディナリティフィーチャを導出するステップを含んでよく、カーディナリティフィーチャは、属性の、データのストリーム内の他の属性との相対的な差異を表す。フィーチャの系列の集約に基づいて属性に関する価値スコアを導出するステップは又、属性の、導出された品質フィーチャ、可用性フィーチャ、及びカーディナリティフィーチャを集約して、属性に関する価値スコアを生成するステップを含んでよい。
【0070】
本方法は、属性の処理されたインサイト/プロファイル/ランク/スコアを、ネットワークアクセス可能なサーバシステムに出力するステップ(ブロック516)を含んでよい。ネットワークアクセス可能なサーバシステムは、処理された属性の系列に関するインサイト/プロファイル/ランク/スコアを保持し、クライアントデータについてのデータ品質インサイトを生成してよい。
データレジストリプロセスを実施する方法の例
【0071】
幾つかの実施形態では、本明細書に記載のデータプロファイリングプロセスは、データレジストリプロセスの一例の一部として実施されてよい。
図6は、データレジストリプロセスにおいてデータをセキュアに分類及びトークン化する方法の一例600のブロック図である。
図6に示すように、本方法は、クライアントに対応するデータセットを取り込むステップ(ブロック602)を含んでよい。データセットは、クライアントに関連するデータのカラムの系列を含んでよい。この情報は、クライアントノードで保持されてよい。場合によっては、データセットに含まれるデータの少なくとも一部が、個人を特定できる情報(PII)を含んでよい。
【0072】
本方法は、データセットを検査して、データセットに含まれる属性の特性を表す分類子を識別するステップ(ブロック604)を含んでよい。幾つかの実施形態では、分類子は、ドメイン分類子、サブドメイン分類子、属性分類子、及びエンティティ分類子のいずれかを含んでよい。場合によっては、各分類子は、データセットの検査に基づいて決定されてよい。
【0073】
本方法は、クライアント固有の暗号化情報及びクライアント固有の構成情報を検索するステップを含んでよく、これらは、データセットに含まれる情報のタイプを表す匿名化されたラベルのリストを含む(ブロック606)。幾つかの実施形態では、クライアント固有の暗号化情報はセキュアサーバから検索されてよく、クライアント固有の暗号化情報は、ハッシュメッセージ認証コード(HMAC)プロトコルを使用して暗号化されてよく、ハッシュコードは、コンピュータで生成されたSHA2 512/256トークンを含んでよい。
【0074】
本方法は、匿名化されたラベルのリストに含まれる、属性内の情報のタイプに対応する第1のラベルを、識別された分類子に基づいて識別するステップ(ブロック608)を含んでよい。ラベルは、属性内で表された情報のタイプの匿名化された識別子を提供しうる。ラベルは、属性及び分類子のいずれかに基づいて生成されてよい。例えば、属性が名前に関連する場合、対応するラベルは「La1」であってよい。これらの実施形態では、ラベルに対応する情報のリストにアクセスできるエンティティだけが、各ラベルによって識別される情報のタイプを識別してデータを匿名化することが可能である。
【0075】
本方法は、データセットの属性を処理して、修正されて標準化フォーマットになった修正された属性を生成するステップ(ブロック610)を含んでよい。これは、本明細書に記載のプロファイリングプロセスを含んでよい。
【0076】
幾つかの実施形態では、データセットの属性を処理して修正済み属性を生成するステップは更に、第1のラベルに対応する妥当性検査ルールのセット及び標準化ルールのセットを検索するステップを含む。妥当性検査ルールのセットは、属性が第1のラベルに対応するかどうかを表すルールを備えてよい。標準化ルールのセットは、属性を修正して標準化フォーマットにするルールを備えてよい。属性を妥当性検査ルールのセットと比較して、属性が第1のラベルに対応するかどうかを判定してよい。属性が第1のラベルに対応すると判定された場合には、標準化ルールのセットに従って属性を修正して標準化フォーマットにしてよい。
【0077】
幾つかの実施形態では、データセットの属性を処理して修正済み属性を生成するステップは更に、ルールエンジンの系列を使用して属性を処理するステップを含む。ルールエンジンは名前エンジンを含んでよく、名前エンジンは、属性が名前を表すと判定された場合に、属性を、関連付けられた名前のリストに含まれる共通に関連付けられた名前に関連付ける。ルールエンジンは又、アドレスライブラリエンジンを含んでよく、アドレスライブラリエンジンは、属性がアドレスを表すと判定された場合に、属性を、クライアントに関連付けられたアドレスのライブラリに追加する。
【0078】
本方法は、修正された属性のトークン化されたバージョンを生成するステップ(ブロック612)を含んでよい。修正された属性のトークン化されたバージョンを生成するステップは、クライアント固有の暗号化情報に含まれるハッシュコードを使用して修正済み属性をハッシュ化して、ハッシュ化された修正済み属性を生成するステップ(ブロック614)を含んでよい。ハッシュ化された修正済み属性は、一エンコード方式を使用して、64文字のトークンから44文字の文字列に圧縮されてよい。
【0079】
修正された属性のトークン化されたバージョンを生成するステップは又、第1のラベルを、クライアント固有のタグの系列を含むタグストアと比較して、第1のラベルに対応する第1のタグを識別するステップ(ブロック616)を含んでよい。修正された属性のトークン化されたバージョンを生成するステップは又、第1のタグを含む、修正された属性のコンテキスト化されたトークンを生成するステップ(ブロック618)を含んでよい。
【0080】
幾つかの実施形態では、修正された属性のトークン化されたバージョンは、リモートノードから、ネットワークアクセス可能なサーバシステムに送られてよい。
【0081】
幾つかの実施形態では、本方法は、第1のラベルが識別されると、第1のラベル及び属性に基づいてデータセットのインサイトの第1のセットを生成するステップを含んでよい。本方法は又、修正された属性が生成されると、修正された属性に基づいてデータセットに関するインサイトの第2のセットを生成するステップを含んでよい。インサイトの第1のセット及びインサイトの第2のセットは、ネットワークアクセス可能なサーバシステムに記憶されてよい。
処理システムの例
【0082】
図7は、本明細書に記載の少なくとも幾つかの動作を実施できる処理システムの一例700を示すブロック図である。
図7に示すように、処理システム700は、1つ以上の中央処理ユニット(「プロセッサ」)702と、主メモリ706と、不揮発性メモリ710と、ネットワークアダプタ712(例えば、ネットワークインタフェース)と、ビデオディスプレイ718と、入出力装置720と、制御装置722(例えば、キーボード及びポインティングデバイス)と、記憶媒体726を内蔵するドライブユニット724と、信号発生装置730と、を含んでよく、これらはバス716に通信可能に接続されている。バス716は、適切なブリッジ、アダプタ、又はコントローラで接続された、任意の1つ以上の個別物理バス、ポイントツーポイント接続、又はその両方を表す抽象概念として示されている。従って、バス716は、例えば、システムバス、ペリフェラルコンポーネントインターコネクト(PCI)バス又はPCI-Expressバス、ハイパートランスポート(HyperTransport)又は業界標準アーキテクチャ(ISA)バス、スモールコンピュータシステムインタフェース(SCSI)バス、ユニバーサルシリアルバス(USB)、IIC(I2C)バス、又は電気電子技術者協会(IEEE)標準1394バス(「ファイヤワイヤ」とも呼ばれる)を含んでよい。
【0083】
様々な実施形態では、処理システム700はユーザ装置の一部として動作するが、処理システム700は、ユーザ装置に(例えば、有線又は無線で)接続されてもよい。ネットワーク化されたデプロイメントでは、処理システム700は、クライアントサーバネットワーク環境ではサーバマシン又はクライアントマシンの能力の範囲内で動作可能であり、ピアツーピア(又は分散)ネットワーク環境ではピアマシンとして動作可能である。
【0084】
処理システム700は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ、タブレット、ラップトップコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、プロセッサ、ウェブアプライアンス、ネットワークルータ、スイッチ又はブリッジ、コンソール、手持ち式コンソール、ゲーム機、音楽プレーヤ、ネットワーク接続された(「スマート」)テレビ、テレビに接続された装置、又は、処理システム700によって実施されるアクションを指定する(順次又はそれ以外の)命令セット実行することが可能な任意の可搬式の装置又はマシンであってよい。
【0085】
主メモリ706、不揮発性メモリ710、及び記憶媒体726(「マシン可読媒体」とも呼ばれる)は単一媒体として図示されているが、「マシン可読媒体」及び「記憶媒体」という用語は、1つ以上の命令セット728を記憶する単一媒体又は複数媒体(例えば、集中データベース又は分散データベース、及び/又は関連付けられたキャッシュ及びサーバ)を包含するものと解釈されたい。「マシン可読媒体」及び「記憶媒体」という用語は又、コンピューティングシステムによって実行される命令セットを記憶、エンコード、又は搬送することが可能であって、本開示の実施形態の方法論のうちの任意の1つ以上をコンピューティングシステムに実施させる任意の媒体を包含するものと解釈されたい。
【0086】
一般に、本開示の実施形態を実施する為に実行されるルーチンは、オペレーティングシステム又は特定のアプリケーション、コンポーネント、プログラム、オブジェクト、モジュール、又は「コンピュータプログラム」と呼ばれる命令シーケンスの一部として実施されてよい。コンピュータプログラムは、典型的には、コンピュータ内の様々なメモリ及び記憶装置に様々なタイミングで設定された1つ以上の命令(例えば、命令704、708、728)を含み、1つ以上の処理ユニット又はプロセッサ702で読み取られて実行されると、本開示の様々な態様を含む要素を実行する操作を処理システム700に行わせる。
【0087】
更に、フルに機能するコンピュータ及びコンピュータシステムの文脈で実施形態を説明してきたが、当業者であれば理解されるように、様々な実施形態が、様々な形態のプログラム製品として配布されることが可能であり、本開示は、配布を実際に行うことに使用されるマシン又はコンピュータ可読媒体の個々のタイプに関係なく、等しく適用される。例えば、本明細書に記載の技術は、仮想マシン又はクラウドコンピューティングサービスを使用して実施されてよい。
【0088】
マシン可読記憶媒体、マシン可読媒体、又はコンピュータ可読(記憶)媒体の別の例として、記録可能なタイプの媒体、例えば、揮発性又は不揮発性のメモリ装置710、フロッピーディスク及び他のリムーバブルディスク、ハードディスクドライブ、光ディスク(例えば、コンパクトディスク読み出し専用メモリ(CDROM)、デジタル多用途ディスク(DVD))、及び伝送型媒体(例えば、デジタル又はアナログの通信リンク)があり、これらに限定されない。
【0089】
ネットワークアダプタ712は、処理システム700が、処理システム700の外部にあるエンティティを有するネットワーク714にデータを仲介することを可能にし、これは、処理システム700及び外部エンティティがサポートする任意の既知の且つ/又は便利な通信プロトコルによって行われる。ネットワークアダプタ712は、ネットワークアダプタカード、無線ネットワークインタフェースカード、ルータ、アクセスポイント、無線ルータ、スイッチ、多層スイッチ、プロトコルコンバータ、ゲートウェイ、ブリッジ、ブリッジルータ、ハブ、デジタルメディアレシーバ、及び/又はリピータのうちの1つ以上を含んでよい。
【0090】
ネットワークアダプタ712はファイアウォールを含んでよく、ファイアウォールは、幾つかの実施形態では、コンピュータネットワーク内のデータにアクセスすること/データをプロキシすることに対する許可を統御及び/又は管理し、異なるマシン及び/又はアプリケーションの間の様々なレベルの信頼を追跡することが可能である。ファイアウォールは、マシンとアプリケーション、マシンとマシン、及び/又はアプリケーションとアプリケーションの特定のセットの間でアクセス権の所定のセットに実効性を持たせること(それによって、例えば、これらの様々なエンティティの間のトラフィックのフロー及びリソース共有を調整すること)が可能なハードウェアコンポーネント及び/又はソフトウェアコンポーネントの任意の組み合わせを有する任意の数のモジュールであってよい。ファイアウォールは更に、アクセス制御リストへのアクセス権を管理及び/又は所有してよい。アクセス制御リストは、例えば、個人、マシン、及び/又はアプリケーションごとのオブジェクトのアクセス権及び操作権、並びに許可権が有効である状況を含めて、許可について詳述したものである。
【0091】
上述のように、ここで紹介した技術は、例えば、ソフトウェア及び/又はファームウェアでプログラムされたプログラム可能回路(例えば、1つ以上のマイクロプロセッサ)で実施されるか、完全に専用ハードワイヤード(即ち、非プログラム可能)回路の形で実施されるか、そのような形態の組み合わせで実施される。専用回路は、例えば、1つ以上の特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)等の形態であってよい。
【0092】
前述の内容から理解されるように、本明細書では例示を目的として本発明の特定の実施形態について説明してきたが、本発明の範囲から逸脱しない限り、様々な修正が行われてよい。従って、本発明は、添付の特許請求項による以外では限定されない。
【国際調査報告】