特開2023-164780 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ストライダーテクノロジーズインコーポレイテッドの特許一覧

特開2023-164780データを取り込んで分類するシステムとその方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
7C
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023164780

(43)【公開日】2023-11-14

(54)【発明の名称】データを取り込んで分類するシステムとその方法

(51)【国際特許分類】

G06F 16/245 20190101AFI20231107BHJP

【ＦＩ】

G06F16/245

【審査請求】有

【請求項の数】20

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023074138

(22)【出願日】2023-04-28

(31)【優先権主張番号】17/734,083

(32)【優先日】2022-05-01

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．Ｌｉｎｕｘ

２．ｉＯＳ

(71)【出願人】

【識別番号】523161505

【氏名又は名称】ストライダーテクノロジーズインコーポレイテッド

【氏名又は名称原語表記】ＳＴＲＩＤＥＲＴＥＣＨＮＯＬＯＧＩＥＳ，ＩＮＣ．

(74)【代理人】

【識別番号】100087653

【弁理士】

【氏名又は名称】鈴江正二

(72)【発明者】

【氏名】マイケルブラウン

(72)【発明者】

【氏名】グレッグレベスク

(72)【発明者】

【氏名】エリックハーンデン

(72)【発明者】

【氏名】ジョナサンレンツ

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175FB03

5B175FB04

(57)【要約】

【課題】データを取り込んで分類する方法を改良する。
【解決手段】第１コンテンツの中からテーブルを少なくとも１つ見つける。このテーブルは第１群の行と第１群の列とを含む。第１群の行のうちの第１行、第１群の列のうちの第１列に、人名を示す第１用語が含まれると判断する。第１群の行の中から第２行が特定される。この第２行は少なくとも、第１列に第１人名を含み、第１群の列のうちの第２列に個人識別情報の第１項目を含む。第１人名と個人識別情報の第１項目とを示す第１データが抽出される。第１データは、第１人名に関連付けられている第１プロフィールに追加される。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１コンテンツの中から、第１群の行と第１群の列とを含むテーブルを少なくとも１つ見つけるステップと、
前記第１群の行のうちの第１行、前記第１群の列のうちの第１列に、人名を示す第１用語が含まれると判断するステップと、
前記第１群の行の中から、
少なくとも、前記第１列には第１人名を含み、前記第１群の列のうちの第２列には個人識別情報の第１項目を含む第２行
を特定するステップと、
前記第１人名と前記個人識別情報の第１項目とを示す第１データを抽出するステップと、
前記第１データを、前記第１人名に関連付けられている第１プロフィールに追加するステップと
を備えている方法。

【請求項2】

前記第２行が更に、前記第１群の列のうちの第３列に個人識別情報の第２項目を含み、
前記個人識別情報の第２項目を示す第２データを抽出するステップと、
前記第２データを前記第１プロフィールに追加するステップと
を更に備えている、請求項１に記載の方法。

【請求項3】

第２コンテンツの中から、第２群の行と第２群の列とを含む別のテーブルを見つけるステップと、
前記第２群の行のうちの第１行、前記第２群の列のうちの第１列に、人名を示す第２用語が含まれると判断するステップと、
前記第２群の行の中から、
前記第２群の列のうちの第１列には前記第１人名を含み、
前記第２群の列のうちの第２列には、前記個人識別情報の第１項目と第２項目とのうち少なくとも１つを含み、
前記第２群の列のうちの第３列には個人識別情報の第３項目を含む第２行
を特定するステップと、
前記個人識別情報の第３項目を示す第３データを抽出するステップと、
前記第３データを前記第１プロフィールに追加するステップと
を更に備えている、請求項２に記載の方法。

【請求項4】

前記人名を示す第２用語が、前記人名を示す第１用語とは異なる、請求項３に記載の方法。

【請求項5】

前記第２群の行のうちの第２行を特定するステップに基づき、前記個人識別情報の第１項目、第２項目、および第３項目のうち少なくとも１つをある個人に関連付けるステップ
を更に備えている、請求項３に記載の方法。

【請求項6】

前記第１プロフィールが前記個人に関連付けられている、請求項５に記載の方法。

【請求項7】

第３コンテンツの中から、第３群の行と第３群の列とを含む更に別のテーブルを見つけるステップと、
前記第３群の行のうちの第１行、前記第３群の列のうちの第１列に、人名を示す第３用語が含まれると判断するステップと、
前記第３群の行の中から、
前記第３群の列のうちの第１列には前記第１人名を含み、
前記第３群の列のうちの第２列には前記個人識別情報の第３項目を含み、
前記第３群の列のうちの第３列には個人識別情報の第４項目を含む第２行
を特定するステップと、
前記個人識別情報の第４項目を示す第４データを抽出するステップと、
前記第４データを前記第１プロフィールに追加するステップと
を更に備えている、請求項３に記載の方法。

【請求項8】

前記第３群の行のうちの第２行が前記個人識別情報の第１項目または第２項目を含まない、請求項３に記載の方法。

【請求項9】

前記第３群の行のうちの第２行を特定するステップに基づき、前記個人識別情報の第１項目、第２項目、第３項目、および第４項目をある個人に関連付けるステップ
を更に備えている、請求項８に記載の方法。

【請求項10】

第２コンテンツの中から、第２群の行と第２群の列とを含む別のテーブルを見つけるステップと、
前記第２群の行のうちの第１行、前記第２群の列のうちの第１列に、人名を示す第２用語が含まれると判断するステップと、
前記第２群の行の中から、
前記第２群の列のうちの第１列には前記第１人名を含み、
前記第２群の列のうちの第２列には前記個人識別情報の第２項目を含む第２行
を特定するステップと、
前記第１人名と前記個人識別情報の第２項目とを示す第２データを抽出するステップと、
前記個人識別情報の第２項目が前記個人識別情報の第１項目と矛盾するという判断に基づき、前記第２データを、前記第１人名に関連付けられている第２プロフィールに維持するステップと
を更に備えている、請求項２に記載の方法。

【請求項11】

前記個人識別情報の第２項目が前記個人識別情報の第１項目と矛盾するという判断が、
前記個人識別情報の第１項目が第１個人に関連付けられており、
前記個人識別情報の第２項目が第２個人に関連付けられている
という判断を含む、請求項１０に記載の方法。

【請求項12】

前記第１プロフィールが前記第１個人に関連付けられており、
前記第２プロフィールが前記第２個人に関連付けられている、
請求項１１に記載の方法。

【請求項13】

前記個人識別情報の第１項目が、第１個人に固有の識別子を含み、
前記個人識別情報の第２項目が前記個人識別情報の第１項目と矛盾するという判断が、
前記個人識別情報の第２項目が、第２個人に固有の識別子を含む
という判断を含む、請求項１０に記載の方法。

【請求項14】

前記第１個人に固有の識別子が、前記第１個人のＥメールアドレス、住所、電話番号、および職業のうち少なくとも１つを示し、
前記第２個人に固有の識別子が、前記第２個人のＥメールアドレス、住所、電話番号、および職業のうち少なくとも１つを示す、
請求項１３に記載の方法。

【請求項15】

ドキュメントに関する言語を決めるステップ
を更に備え、
前記第１群の行のうちの第１行、前記第１群の列のうちの第１列に、人名を示す第１用語が含まれると判断するステップが、
前記言語に関連する単語、句、文字、および数字のうち少なくとも１つであって、人名を示すが、ある個人の姓または名を含まないものを特定するステップ
を含む、請求項１に記載の方法。

【請求項16】

前記人名を示す第１用語がある個人の姓または名を含まない、請求項１に記載の方法。

【請求項17】

前記第１人名がある個人の姓と名とのうち少なくとも１つを含む、請求項１に記載の方法。

【請求項18】

前記個人識別情報の第１項目が、前記第１プロフィールに関連付けられている個人のＥメールアドレス、住所、電話番号、および職業のうち少なくとも１つを示す、請求項１に記載の方法。

【請求項19】

前記第１コンテンツを第１ウェブサイトから受け付けるステップ
を更に備えている、請求項１に記載の方法。

【請求項20】

前記第１プロフィールに、前記第１データを前記第１コンテンツに関連付ける旨の指示を追加するステップ
を更に備えている、請求項１に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明はデータ処理に関し、特にデータ分類に関する。

【背景技術】

【0002】

企業や個人等にとって、様々なデータ源から得られるデータの分析、抽出、分類、その他の処理がますます必要となっている。しかし、実際には、利用可能なデータ源の規模の大きさおよび／または複雑さがデータ処理の実行を妨げているようである。したがって、データを取り込んで分類する方法の改良が望まれている。

【発明の概要】

【0003】

データを取り込んで分類する方法とシステムとを開示する。それらの実施形態では、第１コンテンツの中からテーブルを少なくとも１つ見つける。このテーブルは第１群の行と第１群の列とを含む。第１コンテンツは、たとえば第１ウェブサイトから得られるコンテンツを含む。第１群の行のうちの第１行、第１群の列のうちの第１列に、人名を示す第１用語が含まれると判断する。第１群の行の中から第２行を特定する。この第２行は少なくとも、第１列には第１人名を含み、第１群の列のうちの第２列には個人識別情報の第１項目を含む。第１人名と個人識別情報の第１項目とを示す第１データを抽出する。この第１データを、第１人名に関連付けられている第１プロフィールに追加する。

【図面の簡単な説明】

【0004】

添付の図面は、この明細書の一部を構成するものであり、実施形態を表し、発明の詳細な説明と共に、発明による方法とシステムとの原理を説明する役割を果たす。

【0005】

【図1】環境の一例を示すブロック図である。

【図2】個人識別情報を含むテーブルの一例である。

【図3】個人識別情報を含むテーブルの一例である。

【図4】個人識別情報を含むテーブルの一例である。

【図5】個人識別情報を含むテーブルの一例である。

【図6】プロフィール群の一例である。

【図7A】データを取り込んで分類する方法の一例である。

【図7B】データを取り込んで分類する方法の一例である。

【図7C】データを取り込んで分類する方法の一例である。

【図8】データを取り込んで分類する方法の一例である。

【図9】コンピュータ装置の一例を示すブロック図である。

【発明を実施するための形態】

【0006】

企業または個人等が、１人以上の個人に関連付けられている個人情報を取り込みたい場合はある。個人情報には、たとえば、電話番号、住所、職業、Ｅメールアドレス、その他の個人識別情報が含まれうる。そのような個人情報を企業等は、数十、数百、数千、数百万のウェブサイト、ドキュメント、ファイル等、多様なデータ源を通して見つけられるだろう。企業等はまた、取り込んだ個人情報を個人別に分類もしたいだろう。たとえば、企業等は多数のデータ源から、第１個人に関連する第１個人情報と、第２個人に関連する第２個人情報とを取り込む。企業等は、第１個人に関連付けられている第１中央位置に第１個人情報を位置づけたいだろうし、同様に、第２個人に関連付けられている第２中央位置に第２個人情報を位置づけたいだろう。このようにすれば、企業等は、特定の個人に関連する個人情報のすべてを一括して迅速に把握できるだろう。

【0007】

しかし、現在、利用可能なデータ源は大規模であるので、企業等にとって、必要な個人情報を含むデータ源のすべての所在を特定することは困難であり、不可能であるかも知れない。たとえば、数百、数千、数百万のデータ源の所在を手作業で特定するのは、企業等にとって不可能だろう。たとえ、何とかして、数百、数千、数百万のデータ源から所望の個人情報の所在を特定してそれらを取り込んだとしても、データ源の規模が大きいので、企業等は取り込んだ個人情報を正確に、かつ効率良く、個人別に整理することができないだろう。

【0008】

したがって、データをより効率良く、より正確に取り込んで分類する技術が望まれる。そのような技術は、個人識別情報を含むテーブルを複数のデータ源の中から自動的に特定すること、それらのテーブルから個人識別情報を抽出すること、および、抽出された個人識別情報を個人別に分類することを含む。この技術は、データを取り込んで分類する従来の技術とは異なり、データの取得と分類とを効率良く、一括して行うことができる。これにより、企業等は、様々な個人の個人情報のすべてを、多数のデータ源にわたって手作業で整理する必要なく、一括して把握することを容易にできる。

【0009】

図１は、この明細書で説明されるシステムと方法とが実装可能なハードウェア／ネットワークの構成の一例を示す。そのようなハードウェア／ネットワークのシステム１００はプロセッサ１０２、データベース１１０、少なくとも１台のユーザインタフェースデバイス１１４、および少なくとも１つのコンテンツ源１２０を含む。これらはネットワーク１１６を通して通信する。プロセッサ１０２はデータベース１１０と通信可能であり、データベース１１０にデータを保存させることができ、および／または、データベース１１０から保存されているデータを受信することができる。データベース１１０は様々なデータを保存可能である。

【0010】

プロセッサ１０２、電子ストレージ１１０、ユーザインタフェースデバイス１１４、およびコンテンツ源１２０はそれぞれ、１台以上のコンピュータ装置および／またはネットワーク装置を含む。ネットワーク１１６は１つ以上のパブリックネットワーク（たとえばインターネット）および／または１つ以上のプライベートネットワークを含む。プライベートネットワークには、無線ローカルエリアネットワーク（ＷＬＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、携帯電話網、またはイントラネットが含まれる。ネットワーク１１６は有線でも無線でもよい。

【0011】

プロセッサ１０２は、データを受信し、取り込み、分類するように構成されており、様々な要素を含む。たとえば、プロセッサは、コンテンツ分析部１０４、データ抽出部１０６、および／またはデータ分類部１０８を含む。これらの要素１０４、１０６、１０８の１つ以上が、大規模なデータ源からデータを取り込んで分類するのに利用可能である。

【0012】

発明の実施形態では、プロセッサ１０２がコンテンツ分析部１０４を含む。コンテンツ分析部１０４は、コンテンツ源１２０からコンテンツ１２２を受け付けるように構成されている。コンテンツ１２２には、デジタルコンテンツも、アナログであるがデジタル化可能なコンテンツも含まれ、たとえば、ドキュメント、ファイル、記事、ウェブページが含まれる。コンテンツ源１２０には、デジタルコンテンツ源もアナログコンテンツ源も含まれ、ウェブサイトプロバイダ、デジタルコンテンツプロバイダ、書籍、冊子、パンフレットが含まれるが、これらには限られない。コンテンツ源１２０が、数十、数百、数千、または数百万存在してもよい。コンテンツ１２２を受け付ける目的でコンテンツ分析部１０４がコンテンツ１２２を検索してもよい。その他に、コンテンツ１２２がコンテンツ分析部１０４へ送信されてもよい。

【0013】

コンテンツ分析部１０４は、受け付けられたコンテンツ１２２が１以上のテーブルを含むかを判断するように構成されている。テーブルは、以下で説明されるように、行列によって構成的に表されるような一連のデータを含む。受け付けられたコンテンツ１２２の特定の項目が１以上のテーブルを含むかを判断する目的で、コンテンツ分析部１０４がコンテンツ１２２をスキャンしても、テーブルの存在（または欠落）を特定する他の適当な技術を用いてもよい。コンテンツ１２２の特定の項目がテーブルを１つも含まない場合、プロセッサ１０２がその特定の項目に対し、その後の処理を行わなくてもよい。

【0014】

コンテンツ分析部１０４は、コンテンツ１２２の特定の項目に１以上のテーブルが含まれると判断した場合、それらのテーブルがヘッダ行を含むかを判断するように構成されている。「ヘッダ行」は、以下で用いられるもののように、テーブルの行のうち、各列に、その列の他の行に格納されているデータの種類を示すラベルを含む行である。ヘッダ行は通常、テーブルの最初の行であるが、実施形態によっては最後の行または２番目の行等であってもよい。特定されたテーブルがヘッダ行を含むかを判断する目的で、コンテンツ分析部１０４はそのテーブルをスキャンしても、ヘッダ行の存在（または欠落）を特定する他の適当な技術を用いてもよい。たとえば、コンテンツ分析部１０４は、テーブルの行の中から、ヘッダ行に通常含まれるラベルを含む行を探してもよい。特定されたテーブルがヘッダ行を含まない場合、プロセッサ１０２がそのテーブルに対し、その後の処理を行わなくてもよい。

【0015】

コンテンツ分析部１０４は、特定された１以上のテーブルがヘッダ行を含むと判断した場合、そのヘッダ行がいずれかの列に、人名を示すラベルを含むか判断するように構成されている。人名を示すラベルは実際の人名ではなく、たとえば、任意の言語で書かれた「名前」という単語もしくは文字、「法的名称」を表す句、「英語表記の名前」、または「姓名」であってもよい。ただし、人名を示すこれらのラベルは単なる例に過ぎず、代わりに人名を示す他のどのようなラベルがヘッダ行に含まれてもよいことは、理解されるはずである。人名を示すラベルをヘッダ行が含むかと判断する目的で、コンテンツ分析部１０４はテーブルをスキャンしても、ラベルの存在（または欠落）を特定する他の適当な技術を用いてもよい。特定されたテーブルのヘッダ行が、人名を示すラベルを含まない場合、プロセッサ１０２がそのテーブルに対し、その後の処理を行わなくてもよい。

【0016】

ある実施形態ではコンテンツ分析部１０４がコンテンツに関する言語を決めてもよい。たとえば、コンテンツ分析部１０４は、コンテンツが、英語、スペイン語、フランス語、ロシア語、中国語等を含むか判断してもよい。コンテンツ分析部１０４は、その言語で人名を示すラベルを、ヘッダ行がいずれかの列に含むかを判断してもよい。たとえば、コンテンツ分析部１０４は、その言語に関する単語、句、文字、または数字のうち少なくとも１つであって、人名を示すが個人の姓名を含まないものを、ヘッダ行がいずれかの列に含むか判断してもよい。

【0017】

コンテンツ分析部１０４は、特定のテーブルのヘッダ行が第１列に人名を示すラベルを含む場合、そのテーブルの他の列のうちの少なくとも１つが個人識別情報を含むか判断するように構成されている。たとえば、コンテンツ分析部１０４は、そのテーブルの他の列のうちの少なくとも１つが、電話番号、住所、職業、Ｅメールアドレス、または、個人識別情報の他の項目を含むか判断するように構成されている。テーブルの他の列のうちの少なくとも１つが個人識別情報を含むか判断する目的で、コンテンツ分析部１０４はテーブルをスキャンしても、個人識別情報の存在（または欠落）を特定する他の適当な技術を用いてもよい。特定されたテーブルが、個人識別情報を含む列を１つも含まない場合、プロセッサ１０２がそのテーブルに対し、その後の処理を行わなくてもよい。

【0018】

実施形態ではプロセッサ１０２がデータ抽出部１０６を含む。コンテンツ分析部１０４は、特定された１以上のテーブルが、人名を示すラベルを第１列に含むヘッダ行と、個人識別情報を含む他の列との両方を含むと判断した場合、そのテーブルをデータ抽出部１０６へ送信（すなわち転送）するように構成されている。データ抽出部１０６は、そのテーブルを受信するように構成されている。

【0019】

データ抽出部１０６は、テーブルからヘッダ行以外の任意またはすべての行を抽出するように構成されている。たとえば、データ抽出部１０６は、１０行のテーブルのヘッダ行が最初の行である場合、そのテーブルから、最初の行に続く他の９行すべてを抽出するように構成されている。抽出された各行は、たとえば、人名と、その人名に対応する個人識別情報の１以上の項目とを含む。たとえば、ある個人に対応する人名と、その個人に関する、電話番号、住所、職業、Ｅメールアドレス、個人識別情報の他の項目のうち１以上とを含む。データ抽出部１０６は、空行、または１以上の列にデータがない列を抽出しなくてもよい。

【0020】

実施形態ではプロセッサ１０２がデータ分類部１０８を含む。データ分類部１０８は、抽出されたデータを人名に応じて（すなわち個人別に）分類するように構成されている。たとえば、データ分類部１０８は特定の行に人名のハッシュ値を生成し、その人名に、同じ行に含まれる個人識別情報の１以上の項目を示す他の生データのすべてを関連付ける。こうして、データ分類部１０８は抽出されたデータを、人名に応じて配置されるように並べ換える。この並べ換えによって企業等は、特定の個人に関する個人情報を迅速に、かつ一括して取得できる。

【0021】

実施形態ではデータ分類部１０８が、分類されたデータをデータベース１１０へ送信したり、データベース１１０に残したりするように構成されている。データベース１１０は分類されたデータを受信し、人名に応じてプロフィールに維持する。たとえば、データベース１１０は、第１人名のハッシュ値と、それに関連付けられている個人識別情報の１以上の項目を示す生データとを受信し、その生データを、第１人名に関連付けられているプロフィールに維持する。プロフィールは、たとえば企業等により、１台以上のユーザインタフェースデバイス１１４を通して閲覧可能である。ユーザインタフェースデバイス１１４には、タブレット、電話、スマートフォン、コンピュータ、ノートパソコン、テレビ等のうち少なくとも１つが含まれる。プロフィールの一例については後で、図６を参照しながら説明する。

【0022】

実施形態では、同じ人名を含む２以上のテーブルをコンテンツ分析部１０４が特定し、データ抽出部１０６が更に処理する。図２－図５はそれぞれ、同じ人名を１以上含むテーブルの例を示す。２以上のテーブルが同じ人名を含む場合、各テーブルがその人名の個人に関する個人識別情報を含む。この場合、これらの個人識別情報のすべてが２以上のテーブルのそれぞれから抽出され、データ分類部１０８により、その個人に関する単一のプロフィールに分類される。

【0023】

たとえば、コンテンツ分析部１０４が図２に示されているテーブル２００を特定する。テーブル２００は、ヘッダ行２０２、後続の行２０４ａ－ｄ、および列２０１ａ－ｃを含む。コンテンツ分析部１０４はテーブル２００をコンテンツ１２２の第１項目の中から、たとえば第１ウェブサイトから得られるドキュメントまたはファイルの中から特定する。ヘッダ行２０２は列２０１ａに人名を示すラベル２０３を含む。ラベル２０３は「人名」である。しかし、他の実施形態では（任意の言語の）他の単語、句、または文字の集合が代わりに人名を示すラベルであってもよいことは理解されるはずである。他の列２０１ｂ－ｃは個人識別情報を含む。たとえば、列２０１ｂは個人識別情報の第１項目（すなわち職業）を含み、列２０１ｃは個人識別情報の第２項目（すなわちＥメールアドレス）を含む。

【0024】

後続の行２０４ａ－ｄのそれぞれは、列２０１ａに挙げられている人名を持つ特定の個人に関する。たとえば、行２０４ａは「アン」という名前の個人に関する。行２０４ａの他の列はアンの職業「副社長」とＥメールアドレス「anne＠company1.com」とを示す。行２０４ｂは「ベン」という名前の個人に関する。行２０４ｂの他の列はベンの職業「秘書」とＥメールアドレス「ben＠company1.com」とを示す。行２０４ｃは「チャールズ」という名前の個人に関する。行２０４ｃの他の列はチャールズの職業「最高執行責任者」とＥメールアドレス「charles＠company1.com」とを示す。最後の行２０４ｄは「ドリュー」という名前の個人に関する。行２０４ｄの他の列はドリューの職業「中間管理職」とＥメールアドレス「drew＠company1.com」とを示す。

【0025】

コンテンツ分析部１０４はテーブル２００に加え、図３に示されているテーブル３００を更に特定する。テーブル３００は、ヘッダ行３０２、後続の行３０４ａ－ｄ、および列３０１ａ－ｃを含む。コンテンツ分析部１０４はテーブル３００をコンテンツ１２２の第２項目の中から、たとえば第２ウェブサイトから得られるドキュメントまたはファイルの中から特定する。しかし、実施形態によってはコンテンツ分析部１０４がテーブル３００を、テーブル２００が特定されたコンテンツ１２２の同じ第１項目の中から特定してもよい。

【0026】

ヘッダ行３０２は列３０１ａに人名を示すラベル３０３を含む。ラベル３０３は「名」である。しかし、他の実施形態では（任意の言語の）他の単語、句、または文字の集合が代わりに人名を示すラベルであってもよいことは理解されるはずである。他の列３０１ｂ－ｃは個人識別情報を含む。たとえば、列３０１ｂは個人識別情報の第１項目（すなわち電話番号）を含み、列３０１ｃは個人識別情報の第２項目（すなわちＥメールアドレス）を含む。

【0027】

後続の行３０４ａ－ｄのそれぞれは、列３０１ａに挙げられている人名を持つ特定の個人に関する。たとえば、行３０４ａは「アン」という名前の個人に関する。行３０４ａの他の列はアンの電話番号「１２３－６６６６」とＥメールアドレス「anne＠company1.com」とを示す。行３０４ｂは「ベン」という名前の個人に関する。行３０４ｂの他の列はベンの電話番号「１２３－７７７７」とＥメールアドレス「ben＠company1.com」とを示す。行３０４ｃは「チャールズ」という名前の個人に関する。行３０４ｃの他の列はチャールズの電話番号「１２３－８８８８」とＥメールアドレス「charles＠company1.com」とを示す。最後の行３０４ｄは「ドリュー」という名前の個人に関する。行３０４ｄの他の列はドリューの電話番号「１２３－９９９９」とＥメールアドレス「drew＠company1.com」とを示す。

【0028】

図２－図３に示されているように、テーブル２００とテーブル３００とはそれぞれの列２０１ａ、３０１ａに同じ４人の名前（すなわち、アン、ベン、チャールズ、ドリュー）を共有する。テーブル２００に含まれる４人の名前とテーブル３００に含まれる４人の名前とは、各テーブル２００、３００に含まれる個人識別情報の同じ項目（すなわちＥメールアドレス）に関連付けられているので、それらの名前が同じ４人に対応すると判断できる。たとえば、テーブル２００、３００の両方が人名「アン」に対して同じＥメールアドレス（anne＠company1.com）を含むので、テーブル２００に含まれるアンという名前の個人がテーブル３００に含まれるアンという名前の個人であると判断できる。この判断は、２人の個人が同じＥメールアドレスを共有する可能性がかなり低い（または不可能である）から可能である。テーブル２００に含まれるベン、チャールズ、ドリューがテーブル３００に含まれるベン、チャールズ、ドリューであるという同様な判断も、個人識別情報の項目（すなわちＥメールアドレス）の共有という理由から可能である。

【0029】

ある実施形態では３以上のテーブルが同じ人名を含む。たとえば、コンテンツ分析部１０４がテーブル２００、３００に加え、図４に示されているテーブル４００を更に特定してもよい。テーブル４００は、ヘッダ行４０２、後続の行４０４ａ－ｄ、および列４０１ａ－ｃを含む。コンテンツ分析部１０４はテーブル４００をコンテンツ１２２の第３項目の中から、たとえば第３ウェブサイトから得られるドキュメントまたはファイルの中から特定する。しかし、実施形態によってはコンテンツ分析部１０４がテーブル４００を、テーブル２００および／またはテーブル３００が特定されたコンテンツ１２２の同じ項目の中から特定してもよい。

【0030】

ヘッダ行４０２は列４０１ａに人名を示すラベル４０３を含む。ラベル４０３は「人名」である。しかし、他の実施形態では（任意の言語の）他の単語、句、または文字の集合が代わりに人名を示すラベルであってもよいことは理解されるはずである。他の列４０１ｂ－ｃは個人識別情報を含む。たとえば、列４０１ｂは個人識別情報の第１項目（すなわち電話番号）を含み、列４０１ｃは個人識別情報の第２項目（すなわち住所）を含む。

【0031】

後続の行４０４ａ－ｄのそれぞれは、列４０１ａに挙げられている人名を持つ特定の個人に関する。たとえば、行４０４ａは「アン」という名前の個人に関する。行４０４ａの他の列はアンの電話番号「１２３－６６６６」と住所「１２３第１ストリート、州、ＵＳＡ」とを示す。行４０４ｂは「ベン」という名前の個人に関する。行４０４ｂの他の列はベンの電話番号「１２３－７７７７」と住所「１２３第２ストリート、州、ＵＳＡ」とを示す。行４０４ｃは「チャールズ」という名前の個人に関する。行４０４ｃの他の列はチャールズの電話番号「１２３－８８８８」と住所「１２３第３ストリート、州、ＵＳＡ」とを示す。最後の行４０４ｄは「ドリュー」という名前の個人に関する。行４０４ｄの他の列はドリューの電話番号「１２３－９９９９」と住所「１２３第４ストリート、州、ＵＳＡ」とを示す。

【0032】

図２－図４に示されているように、テーブル２００、３００、４００はそれぞれの列２０１ａ、３０１ａ、４０１ａに同じ４人の名前（すなわち、アン、ベン、チャールズ、ドリュー）を共有する。上記のとおり、テーブル２００に含まれる４人の名前とテーブル３００に含まれる４人の名前とは、各テーブル２００、３００に含まれる個人識別情報の同じ項目（すなわちＥメールアドレス）に関連付けられているので、それらの名前が同じ４人に対応するとすでに判断されている。テーブル３００に含まれる４人の名前とテーブル４００に含まれる４人の名前とは、各テーブル３００、４００に含まれる個人識別情報の同じ項目（すなわち電話番号）に関連付けられているので、それらの名前が同じ４人に対応すると判断できる。

【0033】

たとえば、テーブル３００、４００の両方が人名「アン」に対して同じ電話番号（１２３－６６６６）を含むので、テーブル３００に含まれるアンという名前の個人がテーブル４００に含まれるアンという名前の個人であると判断できる。この判断は、２人の個人が同じ電話番号を共有する可能性がかなり低い（または不可能である）から可能である。テーブル３００に含まれるベン、チャールズ、ドリューがテーブル４００に含まれるベン、チャールズ、ドリューであるという同様な判断も、個人識別情報の項目（すなわち電話番号）の共有という理由から可能である。

【0034】

テーブル２００に含まれる４人の名前とテーブル４００に含まれる４人の名前とは、各テーブル２００、４００に含まれる個人識別情報の同じ項目には関連付けられていない。たとえば、テーブル２００は、アンという名前の個人の職業が「副社長」であり、そのＥメールアドレスが「anne＠company1.com」であることを示す。テーブル４００は、アンという名前の個人の電話番号が「１２３－６６６６」であり、その住所が「１２３第１ストリート、州、ＵＳＡ」であることを示す。テーブル２００、４００には個人識別情報に共通の項目がないので、テーブル２００に含まれるアンがテーブル４００に含まれるアンと同じであるかがわからない。

【0035】

しかし、テーブル２００に含まれるアンがテーブル３００に含まれるアンと同じであるとはすでに判断されており（Ｅメールアドレスが同じであることによる。）、テーブル３００に含まれるアンがテーブル４００に含まれるアンと同じであるとはすでに判断されている（電話番号が同じであることによる。）ので、推移則を使えば、テーブル２００に含まれるアンがテーブル４００に含まれるアンと同じであるとも判断できる。推移則を用いる同様な判断により、テーブル２００に含まれるベン、チャールズ、ドリューがテーブル４００に含まれるベン、チャールズ、ドリューと同じであることもわかる。

【0036】

上記のとおり、２以上のテーブルのそれぞれが同じ人名の個人に関する個人識別情報を含む場合、これらのテーブルから抽出されたこれらの個人識別情報のすべてをデータ分類部１０８がその個人に関する１つのプロフィールに分類する。これにより、テーブル２００、３００、４００から得られる個人識別情報の全体が４つのプロフィール、すなわち、アンのプロフィール、ベンのプロフィール、チャールズのプロフィール、ドリューのプロフィールに分類される。各プロフィールは、各人の職業、Ｅメールアドレス、電話番号、住所を含む。たとえばアンのプロフィールは、職業「副社長」、Ｅメールアドレス「anne＠company1.com」、電話番号「１２３－６６６６」、住所「１２３第１ストリート、州、ＵＳＡ」を含む。

【0037】

同じ論理を用いて、数十、数百、数千、数百万の供給源（コンテンツの項目）から得られる、数十、数百、数千、数百万のテーブルに含まれる、数十、数百、数千、数百万の人名をリンクさせることができる。したがって、特定の個人に関連付けられている１つのプロフィールが、数十、数百、数千、数百万の供給源から抽出された個人識別情報を示す。こうして、包括的なプロフィールが様々な個人について生成可能である。そのようなプロフィールが手作業で生成される場合、１つの企業等だけで、数十、数百、数千、数百万のプロフィールを生成することは、時間とリソースとが無制限でない限り、ほぼ不可能であろう。

【0038】

その他に、２以上のテーブルが同じ人名を含む場合、これらのテーブルが同じ名前の２人以上の個人（たとえば、ジョン・スミスという名前の個人は２人以上存在する。）に関する個人識別情報を含むかも知れない。この場合、データ分類部１０８は、各テーブルから抽出されたこれらの個人識別情報を２以上のプロフィールに分類する。各プロフィールは、名前が共通の個人別に対応付けられている。

【0039】

コンテンツ分析部１０４がテーブル４００に加え、図５に示されているテーブル５００を更に特定してもよい。テーブル５００は、ヘッダ行５０２、後続の行５０４ａ－ｄ、および列５０１ａ－ｃを含む。コンテンツ分析部１０４はテーブル５００をコンテンツ１２２の第４項目の中から、たとえば第４ウェブサイトから得られるドキュメントまたはファイルの中から特定する。しかし、実施形態によってはコンテンツ分析部１０４がテーブル５００を、テーブル２００、３００、および／または４００が特定されたコンテンツ１２２の同じ項目の中から特定してもよい。

【0040】

ヘッダ行５０２は列５０１ａに人名を示すラベル５０３を含む。ラベル５０３は「人名」である。しかし、他の実施形態では（任意の言語の）他の単語、句、または文字の集合が代わりに人名を示すラベルであってもよいことは理解されるはずである。他の列５０１ｂ－ｃは個人識別情報を含む。たとえば、列５０１ｂは個人識別情報の第１項目（すなわち電話番号）を含み、列５０１ｃは個人識別情報の第２項目（すなわち住所）を含む。

【0041】

後続の行５０４ａ－ｄのそれぞれは、列５０１ａに挙げられている人名を持つ特定の個人に関する。たとえば、行５０４ａは「アン」という名前の個人に関する。行５０４ａの他の列はアンの電話番号「４５６－６６６６」と住所「４５６第５ストリート、州、ＵＳＡ」とを示す。行５０４ｂは「ブリタニー」という名前の個人に関する。行５０４ｂの他の列はブリタニーの電話番号「４５６－７７７７」と住所「４５６第６ストリート、州、ＵＳＡ」とを示す。行５０４ｃは「キャシー」という名前の個人に関する。行５０４ｃの他の列はキャシーの電話番号「４５６－８８８８」と住所「４５６第７ストリート、州、ＵＳＡ」とを示す。最後の行５０４ｄは「ダン」という名前の個人に関する。行５０４ｄの他の列はダンの電話番号「４５６－９９９９」と住所「４５６第８ストリート、州、ＵＳＡ」とを示す。

【0042】

図４－図５に示されているように、テーブル４００、５００はそれぞれの列４０１ａ、５０１ａに同じ名前（すなわちアン）を共有する。しかし、テーブル４００に含まれるアンとテーブル５００に含まれるアンとは同じ個人には対応していない。テーブル４００、５００に含まれる個人識別情報が矛盾するからである。たとえば、テーブル４００、５００がアンに対して異なる電話番号を挙げているので、テーブル４００に含まれるアンとテーブル５００に含まれるアンとが同じ個人には対応していないと判断できる。同様に、テーブル４００、５００がアンに対して異なる住所を挙げているので、テーブル４００に含まれるアンとテーブル５００に含まれるアンとが同じ個人には対応していないと判断できる。アンという名前の個人が２つの電話番号および／または２つの住所を持つ可能性は低いので、テーブル４００に含まれるアンがテーブル５００に含まれるアンと異なる可能性は高い。

【0043】

上記のとおり、２以上のテーブルが同じ名前を持つ２以上の個人に関する個人識別情報を含む場合、各テーブルから抽出されたこれらの個人識別情報の全体をデータ分類部１０８が２以上のプロフィールに分類する。各プロフィールは同じ名前の各個人に対応付けられている。テーブル５００から抽出された、アンに対応付けられている個人識別情報は、テーブル２００－４００の示すアンに対して生成されたプロフィールとは異なるプロフィールに分類される。たとえば、人名「アン」に関連付けられている第１プロフィールは、職業「副社長」、Ｅメールアドレス「anne＠company1.com」、電話番号「１２３－６６６６」、および住所「１２３第１ストリート、州、ＵＳＡ」を含む。一方、人名「アン」に関連付けられている第２プロフィールは電話番号「４５６－６６６６」および住所「４５６第５ストリート、州、ＵＳＡ」を含む。テーブル５００から抽出された、人名ブリタニー、キャシー、ダンに対応付けられている個人識別情報は３つのプロフィールに分類される。

【0044】

同じ論理を用いて、同じ人名（だけど違う人々）に対応付けられている、数十、数百、数千、または数百万のプロフィールを生成することができる。たとえば、この論理を用いて、人名「ピーター・ジョーンズ」に対応付けられている２０００個のプロフィールを生成することもできる。各プロフィールは、ピーター・ジョーンズという名前の異なる個人の個人識別情報を示す。このような作業も１つの企業等が手作業で行うことは、時間とリソースとが無制限でない限り、ほぼ不可能である。

【0045】

テーブル２００、３００、４００、５００に示されている人名（すなわち、アン、ベン、チャールズ、ドリュー等）は英語で書かれた名であるが、他の実施形態では、特定のテーブルに示されている人名が、英語に加え、または英語とは別に、他の言語で書かれた名および／または姓を含んでもよいことは、理解されるはずである。

【0046】

図６は、図２－図５のテーブル２００、３００、４００、５００から抽出されたデータに関連付けられているプロフィール群の一例６００を示す。プロフィール群６００は、たとえばＪＳＯＮファイルとして（または他の適当なフォーマットで）保存可能である。プロフィール群６００はプロフィール６０２、６０４、６０６、６０８、６１０、６１２、６１４、６１６を含む。しかし、これらよりも多くのプロフィール、たとえば、数百、数千、数百万のプロフィールをプロフィール群が含んでもよいことは、理解されるはずである。

【0047】

プロフィール６０２は、テーブル２００、３００、４００に含まれる人名アンによって識別される個人に対応付けられており、テーブル２００、３００、４００のすべてから抽出された人名アンに関連付けられている個人識別情報を含む。プロフィール群６００はプロフィール６０４も含む。プロフィール６０４は、テーブル５００に含まれる人名アンによって識別される個人に対応付けられており、テーブル５００から抽出された人名アンに関連付けられている個人識別情報を含む。プロフィール６０６は、テーブル２００、３００、４００に含まれる人名ベンによって識別される個人に対応付けられており、テーブル２００、３００、４００のすべてから抽出された人名ベンに関連付けられている個人識別情報を含む。

【0048】

プロフィール６０８は、テーブル５００に含まれる人名ブリタニーによって識別される個人に対応付けられており、テーブル５００から抽出された人名ブリタニーに関連付けられている個人識別情報を含む。プロフィール６１０は、テーブル５００に含まれる人名キャシーによって識別される個人に対応付けられており、テーブル５００から抽出された人名キャシーに関連付けられている個人識別情報を含む。プロフィール６１２は、テーブル２００、３００、４００に含まれる人名チャールズによって識別される個人に対応付けられており、テーブル２００、３００、４００のすべてから抽出された人名チャールズに関連付けられている個人識別情報を含む。プロフィール６１４は、テーブル５００に含まれる人名ダンによって識別される個人に対応付けられており、テーブル５００から抽出された人名ダンに関連付けられている個人識別情報を含む。プロフィール６１６は、テーブル２００、３００、４００に含まれる人名ドリューによって識別される個人に対応付けられており、テーブル２００、３００、４００のすべてから抽出された人名ドリューに関連付けられている個人識別情報を含む。

【0049】

ある実施形態では、１以上のプロフィール６０２、６０４、６０６、６０８、６１０、６１２、６１４、６１６が、個人識別情報の各項目をその抽出元のコンテンツに関連付けるという指示を含んでもよい。たとえば、プロフィール６０２は、テーブル２００、３００、４００のすべてから抽出された人名アンに関連付けられている個人識別情報を含むので、個人識別情報の各項目をその抽出元のコンテンツに関連付けるという指示を含んでもよい。コンテンツは、たとえば、１以上のウェブページに掲載されているドキュメントまたはファイルである。こうして、企業等はプロフィール６０２を閲覧し、特定の個人に関する個人識別情報を迅速に一括して把握できると共に、その個人識別情報の出所であるデータ源も把握できる。

【0050】

図７Ａ、図７Ｂ、図７Ｃは、データを取り込んで分類する方法の一例７００を示す。この方法７００は、たとえば、図１のプロセッサ１０２によって実行され、数十、数百、数千、数百万の様々なデータ源から個人識別情報を取り込み、これらのデータを個人ごとにプロフィールに分類する。このような方法７００の実行によって企業等は、特定の人々に対応付けられている様々な個人情報を迅速に一括して把握できる。

【0051】

上記のとおり、プロセッサ（すなわちコンテンツ分析部１０４）は、コンテンツが１以上のテーブルを含むかを判断するように構成されている。ステップ７０２では第１コンテンツの中に、少なくとも１つのテーブルである第１テーブルが含まれると判断される。第１テーブルは第１群の行と第１群の列とを含む。

【0052】

第１テーブルがヘッダ行を含むと判断される。ヘッダ行は第１列に人名を示すラベルを含む。ステップ７０４では、人名を示す第１用語（すなわちラベル）が第１群の行のうちの第１行（すなわちヘッダ行）、第１群の列のうちの第１列に含まれる。上記のとおり、人名を示すラベルは実際の人名ではなく、たとえば、任意の言語で書かれた「名」という単語もしくは文字、「法的名称」を表す句、「英語表記の名前」、または「姓名」であってもよい。

【0053】

第１テーブルの他の列のうち少なくとも１列が個人識別情報、たとえば、電話番号、住所、職業、Ｅメールアドレス、または他の項目を含むと判断される。ステップ７０６では第１群の行のうちの第２行が特定される。この第２行は、少なくとも、第１列には第１人名を含み、第１群の列のうちの第２列には個人識別情報の第１項目を含み、第１群の列のうちの第３列には個人識別情報の第２項目を含む。

【0054】

第１テーブルの第２行からデータが抽出される。ステップ７０８では第１データが抽出される。第１データは、第１人名、および個人識別情報の第１項目と第２項目を示す。抽出された第１データは人名に応じて（すなわち個人別に）分類される。たとえば、第１人名のハッシュ値が生成され、抽出された他のデータである個人識別情報の第１項目と第２項目を示すデータが第１人名に関連付けられる。こうして、抽出された第１データが並べ換えられる結果、人名に応じて配置される。この配置により、企業等は特定の個人に関する個人情報を迅速に一括して閲覧できる。

【0055】

分類されたデータは人名に応じてプロフィールに維持される。ステップ７１０では第１データが、第１人名に関連付けられている第１プロフィールに追加される。たとえば、第１人名のハッシュ値、および、個人識別情報の第１項目と第２項目とを示す他の抽出されたデータが、第１人名に関連付けられている第１プロフィールに維持される。第１プロフィールは、企業等により、１台以上のユーザインタフェースデバイスを通して閲覧可能である。

【0056】

ステップ７１２では第２コンテンツの中に別のテーブル（すなわち第２テーブル）が含まれると判断される。第２テーブルは第２群の行と第２群の列とを含む。第２コンテンツは第１コンテンツと同じコンテンツ源に属しても、異なるコンテンツ源に属してもよい。第２テーブルがヘッダ行を含むと判断される。ヘッダ行は第１列に人名を示すラベルを含む。ステップ７１４では、人名を示す第２用語（すなわちラベル）が第２群の行のうちの第１行、第２群の列のうちの第１列に含まれると判断される。第２用語は、第１テーブルのヘッダ行に含まれる第１用語と同じであっても異なっていてもよい。

【0057】

第２テーブルの他の列のうち少なくとも１列が個人識別情報、たとえば、電話番号、住所、職業、Ｅメールアドレス、または他の項目を含むと判断される。ステップ７１６では第２群の行のうちの第２行が特定される。この第２行は、第２群の列のうち、第１列には第１人名を含み、第２列には（第１テーブルに含まれる）個人識別情報の第１項目と第２項目とのうち少なくとも１つを含み、第３列には個人識別情報の第３項目を含む。この第３項目は第１テーブルには含まれていなくてもよい。

【0058】

第１テーブルと第２テーブルとの両方に含まれる第１人名が同じ個人に対応すると判断される。これは、第１人名が、第１テーブルと第２テーブルとの両方に含まれる個人識別情報の同じ項目のうち少なくとも１つに関連付けられていることによる。この判断は、２人の個人が、同じ職業、住所、電話番号、Ｅメールアドレス等、個人識別情報の同じ項目を共有する可能性がかなり低い（または不可能である）ことから可能である。こうして、第２テーブルの第３列に含まれる個人識別情報の第３項目が同じ個人に関すると判断される。

【0059】

ステップ７１８では第２テーブルから、個人識別情報の第３項目を示す第２データが抽出される。この第３項目は、第１プロフィールに対応付けられている個人に関するので、第１テーブルから抽出された個人識別情報の第１項目および／または第２項目と共に第１プロフィールに維持され、または保存される。ステップ７２０では第２データが第１プロフィールに追加される。

【0060】

ステップ７２２では第３コンテンツの中に異なるテーブル（すなわち第３テーブル）が含まれると判断される。第３テーブルは第３群の行と第３群の列とを含む。第３コンテンツは第１コンテンツおよび／または第２コンテンツと同じコンテンツ群に属しても、異なるコンテンツに属してもよい。第３テーブルがヘッダ行を含むと判断される。ヘッダ行は第１列に人名を示すラベルを含む。ステップ７２４では、人名を示す第３用語（すなわちラベル）が第３群の行のうちの第１行、第３群の列のうちの第１列に含まれると判断される。第３用語は、第１テーブルのヘッダ行に含まれる第１用語と、または第２テーブルのヘッダ行に含まれる第２用語と、同じであっても異なっていてもよい。

【0061】

第３テーブルの他の列のうち少なくとも１列が個人識別情報、たとえば、電話番号、住所、職業、Ｅメールアドレス、または他の項目を含むと判断される。ステップ７２６では第３群の行のうちの第２行が特定される。この第２行は、第３群の列のうち、第１列には第１人名を含み、第２列には個人識別情報の第３項目を含み、第３列には個人識別情報の第４項目を含む。

【0062】

第２テーブルと第３テーブルとの両方に含まれる第１人名が同じ個人に対応すると判断される。これは、第１人名が、第２テーブルと第３テーブルとの両方に含まれる個人識別情報の第３項目に関連付けられていることによる。この判断は、２人の個人が同じ職業、住所、電話番号、Ｅメールアドレス等、個人識別情報の同じ項目を共有する可能性がかなり低い（または不可能である）ことから可能である。こうして、第３テーブルの第３列に含まれる個人識別情報の第４項目も同じ個人に関すると判断される。

【0063】

ステップ７２８では第３テーブルから、個人識別情報の第４項目を示す第３データが抽出される。この第４項目は、第１プロフィールに対応付けられている個人に関するので、第１テーブルと第２テーブルとから抽出された個人識別情報の第１項目、第２項目、および／または第３項目と共に第１プロフィールに維持され、または保存される。ステップ７３０では第３データが第１プロフィールに追加される。

【0064】

図８は、データを取り込んで分類する方法の一例８００を示す。この方法８００は、たとえば、図１のプロセッサ１０２によって実行され、数十、数百、数千、数百万の様々なデータ源から個人識別情報を取り込み、これらのデータを個人ごとにプロフィールに分類する。このような方法８００の実行によって企業等は、特定の人々に対応付けられている様々な個人情報を迅速に一括して把握できる。

【0065】

上記のとおり、プロセッサ（すなわちコンテンツ分析部１０４）は、コンテンツが１以上のテーブルを含むかを判断するように構成されている。ステップ８０２では第１コンテンツの中に、少なくとも１つのテーブルである第１テーブルが含まれると判断される。第１テーブルは第１群の行と第１群の列とを含む。

【0066】

第１テーブルがヘッダ行を含むと判断される。ヘッダ行は第１列に人名を示すラベルを含む。ステップ８０４では、人名を示す第１用語（すなわちラベル）が第１群の行のうちの第１行（すなわちヘッダ行）、第１群の列のうちの第１列に含まれる。上記のとおり、人名を示すラベルは実際の人名ではなく、たとえば、任意の言語で書かれた「名」という単語もしくは文字、「法的名称」を表す句、「英語表記の名前」、または「姓名」であってもよい。

【0067】

第１テーブルの他の列のうち少なくとも１列が個人識別情報、たとえば、電話番号、住所、職業、Ｅメールアドレス、または他の項目を含むと判断される。ステップ８０６では第１群の行のうちの第２行が特定される。この第２行は、少なくとも、第１列には第１人名を含み、第１群の列のうちの第２列には個人識別情報の第１項目を含む。

【0068】

第１テーブルの第２行からデータが抽出される。ステップ８０８では第１データが抽出される。第１データは第１人名と個人識別情報の第１項目とを示す。抽出された第１データは人名に応じて（すなわち個人別に）分類される。たとえば、第１人名のハッシュ値が生成され、抽出された他のデータである個人識別情報の第１項目を示すデータが第１人名に関連付けられる。こうして、抽出された第１データが並べ換えられる結果、人名に応じて配置される。この配置により、企業等は特定の個人に関する個人情報を迅速に一括して閲覧できる。

【0069】

分類されたデータは人名に応じてプロフィールに維持される。ステップ８１０では第１データが、第１人名に関連付けられている第１プロフィールに追加される。たとえば、第１人名のハッシュ値と、個人識別情報の第１項目を示す他の抽出されたデータが、第１人名に関連付けられている第１プロフィールに維持される。第１プロフィールは、企業等により、１台以上のユーザインタフェースデバイスを通して閲覧可能である。

【0070】

ステップ８１２では第２コンテンツの中に別のテーブル（すなわち第２テーブル）が含まれると判断される。第２テーブルは第２群の行と第２群の列とを含む。第２コンテンツは第１コンテンツと同じコンテンツ源に属しても、異なるコンテンツ源に属してもよい。第２テーブルがヘッダ行を含むと判断される。ヘッダ行は第１列に人名を示すラベルを含む。ステップ８１４では、人名を示す第２用語（すなわちラベル）が第２群の行のうちの第１行、第２群の列のうちの第１列に含まれると判断される。第２用語は、第１テーブルのヘッダ行に含まれる第１用語と同じであっても異なっていてもよい。

【0071】

第２テーブルの他の列のうち少なくとも１列が個人識別情報、たとえば、電話番号、住所、職業、Ｅメールアドレス、または他の項目を含むと判断される。ステップ８１６では第２群の行のうちの第２行が特定される。この第２行は、第２群の列のうち、第１列には第１人名を含み、第２列には個人識別情報の第２項目を含む。

【0072】

個人識別情報の第２項目が、第１テーブルに含まれる個人識別情報の第１項目と矛盾する。たとえば、第１項目が第１個人に固有の識別子を含み、第２項目が第２個人に固有の識別子を含む。第１個人に固有の識別子は、第１個人のＥメールアドレス、住所、電話番号、職業のうち少なくとも１つを示し、第２個人に固有の識別子は、第２個人のＥメールアドレス、住所、電話番号、職業のうちの少なくとも１つを示す。

【0073】

個人識別情報の第２項目が個人識別情報の第１項目と矛盾する場合、第１項目が第１個人に関し、第２項目が第２個人に関すると判断される。第１個人と第２個人とは、同じ名前を共有する違う個人である。

【0074】

第２テーブルの第２行からデータが抽出される。ステップ８１８では、第１人名と個人識別情報の第２項目を示す第２データが抽出される。抽出された第２データは人名に応じて（すなわち個人別に）分類される。たとえば、第１人名のハッシュ値が生成され、抽出された他のデータである個人識別情報の第２項目を示すデータが第１人名に関連付けられる。こうして、抽出された第２データが並べ換えられる結果、人名に応じて配置される。この配置により、企業等は特定の個人に関する個人情報を迅速に一括して閲覧できる。

【0075】

分類されたデータは人名に応じてプロフィールに維持される。ステップ８２０では第２データが、第１人名に関連付けられている第２プロフィールに追加される。たとえば、第１人名のハッシュ値と、個人識別情報の第２項目を示す他の抽出されたデータが、第１人名に関連付けられている第２プロフィールに維持される。第２プロフィールは、企業等により、１台以上のユーザインタフェースデバイスを通して閲覧可能である。

【0076】

上記の説明では、コンテンツの中から見つけられたテーブルが「ヘッダ行」を１行にしていることが想定されている。しかし、ある実施形態では、コンテンツの中から見つけられたテーブルの１以上が「ヘッダ行」を実際には１列（すなわち「ヘッダ列」）にしていてもよいことは、理解されるはずである。たとえば、コンテンツの中から見つけられたテーブルが「ヘッダ列」を含む場合、そのテーブルはヘッダ列の各行にラベルを含む。これらのラベルは、対応付けられている行の他の列に保存されているデータの種類を示す。「ヘッダ行」が実際には「ヘッダ列」である場合も、上記の説明はすべて適用可能である。たとえば、上記の説明の各所において単語「行」が単語「列」に置換されればよい。

【0077】

図９は、様々な場面で使用可能なコンピュータ装置を示す。図１の環境の例に関する場合、１台以上のプロセッサ１０２、電子ストレージ１１０、ユーザインタフェースデバイス１１４、またはコンテンツ源１２０が、図９に示されているコンピュータ装置の一例９００に実装されていてもよい。このコンピュータ装置９００は、従来のサーバコンピュータ、ワークステーション、デスクトップコンピュータ、ノートパソコン、タブレット、ネットワーク装置、ＰＤＡ、電子リーダ、デジタル携帯電話、他のコンピュータノードを表し、図７Ａ、図７Ｂ、図７Ｃ、および図８に記載されている方法の実行等、この明細書に記載されているコンピュータの動作のいずれを実行するのにも利用可能である。

【0078】

コンピュータ装置９００は基板、すなわち「マザーボード」を含む。これは印刷回路基板であり、それには多数の部品と装置とがシステムバス、または他の電気通信路によって接続されている。１台以上の中央集積装置（ＣＰＵ）９０４がチップセット９０６と連動する。ＣＰＵ９０４は、コンピュータ装置９００の動作に必要な算術演算と論理演算とを行うプログラム可能なプロセッサである。

【0079】

ＣＰＵ９０４は、複数個のスイッチ素子を区別したり、それらの状態を切り換えたりする操作を通して、１つの物理的状態から次の状態へ遷移することにより、必要な演算を行う。スイッチ素子は一般に、フリップフロップ等、２値状態のうちの１つを維持する電子回路と、論理ゲート等、１以上の他のスイッチ素子の状態の論理的な組み合わせに基づいて出力状態を決める電子回路とを含む。このような基本的なスイッチ素子が組み合わされて、レジスタ、アドレス減算器、論理演算ユニット、浮動小数点演算ユニット等、より複雑な論理回路が形成される。

【0080】

ＧＰＵ９０５等、他の演算ユニットがＣＰＵ９０４に増設されても、ＣＰＵ９０４の代わりに設置されてもよい。ＧＰＵ９０５は、グラフィックス、その他の視覚化関連処理等の高度な並列計算に特化した演算ユニットを含んでもよい。ただし、そのような演算ユニットが必須であるわけではない。

【0081】

基板上では、ＣＰＵ９０４と残りの部品／装置との間にインタフェースが設置されている。このインタフェースは、コンピュータ装置９００のメインメモリとして使用されるランダムアクセスメモリ（ＲＡＭ）９０８へのアクセスに利用可能である。このインタフェースはまた、リードオンリーメモリ（ＲＯＭ）９２０、不揮発性ＲＡＭ（ＮＶＲＡＭ）（図示せず。）等、コンピュータで読み取り可能な記憶媒体へのアクセスにも利用可能である。これらの記憶媒体には、コンピュータ装置９００の起動を支援したり、様々な部品／装置の間で情報を伝達したりする基本的なルーティンが保存される。ＲＯＭ９２０またはＮＶＲＡＭがまた、この明細書に記載されている態様に則ったコンピュータ装置９００の動作に必要なソフトウェア部品も保存してもよい。インタフェースは、チップセット９０６等、１以上の電気部品によって構成されている。

【0082】

コンピュータ装置９００はネットワーク環境で動作する。この環境では、ローカルエリアネットワーク（ＬＡＮ）９１６経由でコンピュータノードとコンピュータシステムとを遠隔操作するのに論理的な接続が利用される。チップセット９０６は、ギガビットイーサネットアダプタ等のネットワークインタフェースコントローラ（ＮＩＣ）９２２を通してネットワークに接続する機能を含む。ＮＩＣ９２２は、ネットワーク９１６を通してコンピュータ装置９００を他のコンピュータノードへ接続する能力を持つ。コンピュータ装置９００にＮＩＣ９２２が複数存在してもよいことは理解されるはずである。これにより、コンピュータ装置９００は、複数の種類の異なるネットワークに接続され、複数のコンピュータシステムを遠隔操作する。

【0083】

コンピュータ装置９００は、コンピュータに不揮発性ストレージを提供するストレージ装置９２８に接続されている。ストレージ装置９２８には、システムプログラム、アプリケーションプログラム、その他のプログラムモジュール、およびデータが保存される。これらの詳細については後述する。ストレージ装置９２８は、チップセット９０６に接続されているストレージコントローラ９２４を通してコンピュータ装置９００に接続されている。ストレージ装置９２８は１台以上の物理的なストレージユニットから成る。これらの物理的なストレージユニットに対するインタフェースがストレージコントローラ９２４であり、それには、シリアル接続ＳＣＳＩ（ＳＡＳ）インタフェース、シリアルＡＴＡ（ＳＡＴＡ）インタフェース、ファイバーチャネル（ＦＣ）インタフェース、または、コンピュータと物理的なストレージユニットとの間を物理的に接続してデータを転送する他の種類のインタフェースが含まれる。

【0084】

コンピュータ装置９００はストレージ装置９２８にデータを保存する際、物理的なストレージユニットに物理的な状態を遷移させることにより、保存される情報を反映させる。物理的な状態の遷移は様々な要因と、この明細書に記載されている異なる実施形態とに依存している。それらの要因の例としては、物理的なストレージユニットの実装に利用される技術や、ストレージ装置９２８が１次ストレージと２次ストレージとのいずれとして特徴付けられるか等が挙げられるが、これらには限られない。

【0085】

たとえば、コンピュータ装置９００はストレージ装置９２８に情報を保存する際、ストレージコントローラ９２４を通して命令を出すことにより、磁気ディスクドライブユニット内の特定の位置の磁気特性、光ストレージユニット内の特定の位置の反射特性もしくは屈折特性、またはソリッドステートドライブユニット内の特定のキャパシタ、トランジスタ、もしくはその他の部品の電気特性を変化させる。上記の例は、この明細書での説明を容易にすることのみを目的するものであるので、物理媒体の他の状態変化も、本発明の範囲と原理とから外れることなく、利用可能である。コンピュータ装置９００は、物理的なストレージユニット内の１以上の特定の位置の物理的な状態または特性を検出することにより、ストレージ装置９２８から情報を読み出す。

【0086】

コンピュータ装置９００は、この明細書に記載されているストレージ装置９２８に加えて、またはそれに代えて、コンピュータによる読み出しが可能な他の記憶媒体にアクセスして、プログラムモジュール、データ構造体、その他のデータ等の情報を読み書きしてもよい。コンピュータによる読み出しが可能な記憶媒体は、データを持続性のある形で保存し、かつコンピュータ装置９００によるアクセスが可能なものであれば、入手可能ないかなる媒体であってもよいことは、当業者には理解されるはずである。

【0087】

あくまでも例示であって限定の意味はないが、コンピュータによる読み出しが可能な記憶媒体には、任意の方法または技術によって実装された、揮発性媒体、不揮発性媒体、一時的な媒体、持続性のある媒体、取り外し可能な媒体、取り外し不可の媒体が含まれる。さらに、ＲＡＭ、ＲＯＭ、消去可能なプログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的な消去が可能なプログラマブルＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、もしくは他のソリッドステートメモリ技術、コンパクトディスクＲＯＭ（ＣＤ－ＲＯＭ）、デジタル記録ディスク（ＤＶＤ）、高解像度ＤＶＤ（ＨＤ－ＤＶＤ）、ブルーレイ、もしくは他の光学式ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気式ストレージ、または、所望の情報を持続性のある形で保存するのに利用可能な他のいかなる媒体も例としてあげられるが、これらに限られない。

【0088】

図９に示されているストレージ装置９２８等、ストレージ装置には、コンピュータ装置９００の動作の制御に利用されるオペレーティングシステムが保存される。このオペレーティングシステムがＬＩＮＵＸを含んでも、ＭＩＣＲＯＳＯＦＴ社製のＷＩＮＤＯＷＳ（登録商標）サーバを含んでもよい。別の観点によれば、このオペレーティングシステムがＵＮＩＸ（登録商標）を含んでもよい。ＩＯＳまたはＡＮＤＲＯＩＤ（登録商標）等、様々な携帯電話のオペレーティングシステムも利用可能である。他のオペレーティングシステムも利用可能であることは理解されるはずである。ストレージ装置９２８は、コンピュータ装置９００によって利用される他のシステムプログラムまたはアプリケーションプログラムおよびデータを保存する。

【0089】

ストレージ装置９２８、またはコンピュータによる読み出しが可能な他の記憶媒体は、コンピュータで実行可能な命令を受け付ける。これらの命令は、コンピュータ装置９００に読み込まれると、その装置を汎用のコンピュータシステムから、この明細書に記載されている動作を実行可能な専用のコンピュータへ変化させる。これらの命令は、コンピュータ装置９００を変化させる際にＣＰＵ９０４がどうやって、この明細書に記載されているように状態間の遷移を行うかを規定する。コンピュータ装置９００は、コンピュータで実行可能な命令を保存しているコンピュータで読み出し可能な記憶媒体にアクセスする。これらの命令はコンピュータ装置９００によって実行されると、図７Ａ、図７Ｂ、図７Ｃ、図８に示されている方法を実現させる。

【0090】

図９に示されているコンピュータ装置９００のようなコンピュータ装置は、入出力コントローラ９３２も含む。入出力コントローラ９３２は多数の入力装置、たとえば、キーボード、マウス、タッチパッド、タッチスクリーン、電子スタイラス、その他の種類の入力装置から入力を受けて処理する。入出力コントローラ９３２はまた、コンピュータのモニタ、フラットパネルディスプレイ、デジタルプロジェクタ、プリンタ、プロッタ、その他の種類の出力装置に出力を与える。なお、コンピュータ装置９００は、図９に示されている要素のすべてを含まなくてもよいし、図９には明示されていない他の要素を含んでもよいし、図９に示されているアーキテクチャとは完全に異なるアーキテクチャを使ってもよい。これらのことは理解されるはずである。

【0091】

この明細書に記載されているとおり、コンピュータ装置は、図９のコンピュータ装置９００のような、物理的なコンピュータ装置である。コンピュータノードには、仮想マシンのホストプロセスと１以上のインスタンスとが含まれてもよい。この場合、コンピュータによる実行が可能な命令は、コンピュータ装置の物理的なハードウェアによっては間接的に実行される。すなわち、仮想マシンの上に保存されてその上で実行される命令として解釈され、および／または実行される。

【0092】

この明細書に開示されているシステムと方法とを実装可能なコンピュータ装置は、１台以上のプロセッサ、システムメモリ、および、プロセッサを含む様々なシステムの要素をシステムメモリに結合するシステムバスを含んでもよいが、それらは必須ではないことを当業者は理解しているだろう。マルチプロセッサである場合、システムが並列計算を利用してもよい。

【0093】

この明細書では、図示を目的として、アプリケーションプログラムと、オペレーティングシステム等の他の実行可能なプログラム要素とを、別々のブロックとして描いている。しかし、そのようなプログラムと要素とが様々な時点でコンピュータ装置の異なるストレージ要素に存在することも、コンピュータのプロセッサによって実行されることも、理解されるだろう。サービスソフトウェアは、何らかの形態にあるコンピュータによる読み出しが可能な媒体に保存され、またはそれを通して送信されることによって実装される。開示されている方法はいずれも、コンピュータによる読み出しが可能な媒体に書き込まれている、コンピュータが解読可能な命令によって行われる。コンピュータによる読み出しが可能な媒体は、コンピュータによるアクセスが可能で、入手可能などのような媒体であってもよい。あくまでも例示であって、発明を限定する意味はないが、コンピュータによる読み出しが可能な媒体には「コンピュータの記憶媒体」と「通信媒体」とが含まれる。「コンピュータの記憶媒体」には、揮発性媒体、不揮発性媒体、取り外し可能な媒体、取り外し不可の媒体が含まれる。これらは、コンピュータが解読可能な命令、データ構造体、プログラムモジュール、その他のデータ等の情報を保存するどのような方法または技術によって実装されてもよい。コンピュータの記憶媒体の例としては、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、もしくは他のメモリ技術、ＣＤ－ＲＯＭ、ＤＶＤ、もしくは他の光学式ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気式ストレージ、または、所望の情報の保存に利用可能で、コンピュータによってアクセスが可能な他のいかなる媒体も例としてあげられるが、これらに限られない。アプリケーションプログラム等、および／または記憶媒体のうち少なくとも一部が、遠隔地のシステムに実装されていてもよい。

【0094】

明細書と添付の特許請求の範囲とに使用されているとおり、冠詞“ａ”、“an”、“the”は、文脈によって明確に示されていない限り、複数の意味を含む。この明細書に表されている数値範囲は、ある特定値の「近く」から別の特定値の「近く」までを意味する。明確に述べられていない限り、この明細書に記載されているいかなる方法も、ステップが特定の順序で実行されることを要するものとして解釈させる意図はない。したがって、方法クレームが実際には、ステップが従うべき順序を規定してもいなければ、特許請求の範囲にも明細書にもステップが特定の順序に限られるべきとは明確には述べられてもいない。いかなる面においても、順序が推測されることも意図されてはいない。

【0095】

発明の範囲または原理からはずれることなく様々な修正と変更とが可能であることは、当業者には明らかだろう。この明細書に開示されている仕様と実施例とを考慮すれば、他の実施形態も当業者には明らかだろう。それらの仕様と実施例とはあくまでも、添付の特許請求の範囲によって示されている発明の真の範囲と原理とに従った例として考慮されることしか意図されていない。

【図1】