特許6118468 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ワークデイ，インコーポレーテッドの特許一覧

特許6118468名称を体系的に大量に正規化する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13A
13B
13C
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6118468

(24)【登録日】2017年3月31日

(45)【発行日】2017年4月19日

(54)【発明の名称】名称を体系的に大量に正規化する方法

(51)【国際特許分類】

G06F 17/30 20060101AFI20170410BHJP

G06F 17/27 20060101ALI20170410BHJP

【ＦＩ】

G06F17/30 320D

G06F17/27 695

G06F17/27 615

【請求項の数】28

【全頁数】31

(21)【出願番号】特願2016-531747(P2016-531747)

(86)(22)【出願日】2014年7月21日

(65)【公表番号】特表2016-525762(P2016-525762A)

(43)【公表日】2016年8月25日

(86)【国際出願番号】US2014047470

(87)【国際公開番号】WO2015017166

(87)【国際公開日】20150205

【審査請求日】2016年2月17日

(31)【優先権主張番号】13/953,444

(32)【優先日】2013年7月29日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】514316916

【氏名又は名称】ワークデイ，インコーポレーテッド

(74)【代理人】

【識別番号】110000028

【氏名又は名称】特許業務法人明成国際特許事務所

(72)【発明者】

【氏名】ギバーツ・ブラディミル

(72)【発明者】

【氏名】シーガル・バーゼル・クリフ

【審査官】吉田誠

(56)【参考文献】

【文献】特開２０１２−０２７８４５（ＪＰ，Ａ）

【文献】特開２００７−０２５８３４（ＪＰ，Ａ）

【文献】特開２０１３−０２９８９１（ＪＰ，Ａ）

【文献】特開２０１２−０７３９５１（ＪＰ，Ａ）

【文献】特表２００８−５４１２３３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１３／０１１０４９８（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

Ｇ０６Ｆ１７／２７ − １７／２８

(57)【特許請求の範囲】

【請求項1】

メモリおよびプロセッサを備えるコンピュータシステムが、標識付けした正規名称のデータベースを生成する方法であって、
前記プロセッサが、
正規名称の集合を指定すること、
各正規名称に対して正規ｎ−グラムの集合を生成し、各正規ｎ−グラムが、前記正規名称内に１つ以上の連続する単語を含むこと、
正規属性の集合を、正規ｎ−グラムの前記集合にある各正規ｎ−グラムに割り当てること、
正規標識の集合を、各正規ｎ−グラムに対する１つ以上の前記正規属性に割り当てること、および、
各正規名称のうちの少なくとも１つ、各正規名称に対して生成された正規ｎ−グラムの前記集合、各々の前記正規ｎ−グラムに割り当てられた正規属性の前記集合、または前記標識付けした正規名称の前記データベース内の各々の前記正規属性に割り当てられた正規標識の前記集合を前記メモリに格納すること
を含む、方法。

【請求項2】

正規名称の集合を指定することは、
未処理名称の１つ以上の集合を取得すること、および、
未処理名称の各集合内で最も多く現れる未処理名称を、指定正規名称として選択すること
を含む、請求項１に記載の方法。

【請求項3】

正規名称に対して正規ｎ−グラムの集合を生成することは、
正規ユニグラムの集合を生成し、各正規ユニグラムが前記正規名称内で１つの単語であること、
正規バイグラムの集合を生成し、各正規バイグラムが前記正規名称内で２つの連続する単語であること、および、
正規のトリグラムを生成し、各トリグラムが前記正規名称内で３つの連続する単語であること
を含む、請求項１に記載の方法。

【請求項4】

各正規ｎ−グラムに割り当てられた正規属性の前記集合は同じである、請求項１に記載の方法。

【請求項5】

正規標識の集合を割り当てることは、
ユーザが入力した正規標識の前記集合を取得すること、および、
前記取得した正規標識の集合を前記正規属性に割り当てること
を含む、請求項１に記載の方法。

【請求項6】

正規標識の集合を割り当てることは、
事前に生成された正規ｎ−グラムに事前に割り当てられた１つ以上の正規標識を取得すること、および、
各正規名称に対して生成された正規ｎ−グラムの前記集合にある１つ以上の前記正規ｎ−グラムと一致する、事前に生成された各正規ｎ−グラムに対して、
前記取得した事前に割り当てられた正規標識を、前記一致した正規ｎ−グラムに割り当てられた１つ以上の前記正規属性に割り当てること
を含む、請求項１に記載の方法。

【請求項7】

前記プロセッサが、
未処理名称の集合を受け取ること、
各未処理名称に対する未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記未処理名称内に１つ以上の連続する単語を含むこと、
未処理標識の集合を、各未処理ｎ−グラムに割り当てられた属性の集合内の１つ以上の属性に割り当て、前記未処理ｎ−グラムに割り当てられた属性の前記集合および前記正規ｎ−グラムに割り当てられた正規属性の前記集合が同じ集合であること、
同一の未処理標識を有する前記未処理名称を代表群にまとめること、
各代表群から、代表名称になる未処理名称を選択すること、
各代表名称に関連付けられた前記未処理標識と各正規名称に関連付けられた前記正規標識との比較に基づいて、各代表名称を前記正規名称のうちの１つにマッピングすること、および、
前記代表名称が前記正規名称に正しくマッピングされたかを確認し、前記未処理名称が前記代表名称で正しく表されているかを確認すること
をさらに含む、請求項１に記載の方法。

【請求項8】

未処理名称の集合を受け取ることは、名称の検索から未処理名称の前記集合を受け取ることを含む、請求項７に記載の方法。

【請求項9】

未処理名称の集合を受け取ることは、ユーザが入力した前記未処理名称の集合を受け取ることを含む、請求項７に記載の方法。

【請求項10】

未処理名称に対して未処理ｎ−グラムの集合を生成することは、
未処理ユニグラムの集合を生成し、各未処理ユニグラムが前記未処理名称内で一単語であること、
未処理バイグラムの集合を生成し、各未処理バイグラムが前記未処理名称内で２つの連続する単語であること、および、
未処理トリグラムの集合を生成し、各未処理トリグラムが前記未処理名称内で３つの連続する単語であること
を含む、請求項７に記載の方法。

【請求項11】

未処理標識の集合を割り当てることは、
１つ以上の前記未処理名称の前記未処理ｎ−グラムと一致する前記正規ｎ−グラムに対して前記標識付けした正規名称のデータベースを検索すること、および、
前記１つ以上の未処理名称の未処理ｎ−グラムと一致する各正規ｎ−グラムに対して、
前記一致した正規ｎ−グラムの各正規属性に割り当てられた前記正規標識を取得すること、および、
前記取得した正規標識を、前記１つ以上の未処理名称の前記未処理ｎ−グラムの未処理属性に割り当て、前記未処理属性が、前記取得した正規標識に関連付けられた前記正規属性と同じであること
を含む、請求項７に記載の方法。

【請求項12】

未処理名称を選択することは、前記代表群のうち最も多く発生する未処理名称を代表名称として選択することを含む、請求項７に記載の方法。

【請求項13】

各代表名称を前記正規名称の１つにマッピングすることは、
前記代表名称に割り当てられた未処理標識の前記集合と同一の標識を有する正規名称に対して、前記標識付けした正規名称のデータベースを検索すること、
前記同一の標識を有する前記正規名称をベストマッチ名称として選択すること
を含み、かつ
ベストマッチ名称が見つからない場合は、
未処理属性に重み係数を割り当てること、
前記標識付けした正規名称のデータベース内の前記正規名称を、前記重み係数に基づいてランク付けすること、および、
最も高くランク付けされた正規名称をベストマッチ名称として選択すること
を含む、請求項７に記載の方法。

【請求項14】

前記プロセッサが、
未処理名称の集合を受け取ること、
各未処理名称に対する未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記未処理名称に１つ以上の連続する単語を含むこと、
各未処理ｎ−グラムに割り当てられた属性の集合内の１つ以上の属性に未処理標識の集合を割り当て、前記未処理ｎ−グラムに割り当てられた属性の前記集合および前記正規ｎ−グラムに割り当てられた属性の前記集合は同じ集合であること、
前記未処理名称の集合を前記正規名称の第１の集合にマッピングすること、
前記未処理名称の集合を前記正規名称の第２の集合にマッピングすること、および、
前記正規名称の前記第１の集合を前記正規名称の前記第２の集合と比較してその差を算出すること
をさらに含む、請求項１に記載の方法。

【請求項15】

前記未処理名称の集合を前記正規名称の第１の集合にマッピングすることは、前記標識付けした正規名称のデータベースから正規名称を選択して、前記未処理名称の集合内の各未処理名称を表すことを含む、請求項１４に記載の方法。

【請求項16】

前記未処理名称の集合を前記正規名称の第２の集合にマッピングすることは、各未処理名称の各未処理ｎ−グラムの各属性に割り当てられた前記未処理標識を、各正規名称の各正規ｎ−グラムの各属性に割り当てられた前記正規標識と比較して、ベストマッチを見つけることを含む、請求項１４に記載の方法。

【請求項17】

前記プロセッサが、
前記正規名称のサブ集合を受け取り、該サブ集合が、前記サブ集合内の前記正規名称に割り当てられた正規属性の前記集合と、正規属性の前記集合に割り当てられた正規標識の前記集合とを含むこと、
前記サブ集合内の各々の前記正規属性に重みを割り当てること、
前記サブ集合内の各々の前記正規標識に重みを割り当てること、
前記正規属性の重みと前記正規標識の重みとによって正規名称の前記サブ集合をランク付けすること、および、
ランク付けの順に整列された正規名称の前記サブ集合を表示すること
をさらに含む、請求項１に記載の方法。

【請求項18】

表示することは、
同じレベルに同じランクを有する前記サブ集合内の前記正規名称を表示すること、および、
ランクの低い前記サブ集合内の前記正規名称よりも高いレベルに、ランクの高い前記サブ集合内の前記正規名称を表示すること
を含む、請求項１７に記載の方法。

【請求項19】

標識付けした正規名称のデータベースを生成するシステムであって、
メモリ、および、
プロセッサを備え、該プロセッサが、
正規名称の集合を受け取り、
各正規名称に対して正規ｎ−グラムの集合を生成し、各正規ｎ−グラムが、前記正規名称内に１つ以上の連続する単語を含み、
正規属性の集合を、正規ｎ−グラムの前記集合にある各正規ｎ−グラムに割り当て、各正規ｎ−グラムに割り当てられた正規属性の前記集合が同じであり、
正規標識の集合を、各正規ｎ−グラムに対する１つ以上の正規属性に割り当て、かつ、
前記標識付けした正規名称のデータベース内にある各正規名称を、正規ｎ−グラムの前記生成された集合と、各々の前記正規ｎ−グラムに割り当てられた正規属性の前記集合と、各々の前記正規属性に割り当てられた前記正規標識の集合とともに前記メモリに格納する
ように構成される、
システム。

【請求項20】

メモリおよびプロセッサを備えるコンピュータシステムが、未処理名称を、標識付けした正規名称のデータベース内の正規名称にマッピングする方法であって、
前記プロセッサが、
未処理名称を受け取ること、
前記未処理名称に対して未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記未処理名称内に１つ以上の連続する単語を含むこと、
未処理属性の集合を未処理ｎ−グラムの前記集合内の各未処理ｎ−グラムに割り当て、未処理属性の前記集合が、前記標識付けした正規名称の前記データベースに格納された正規名称に関連付けられた正規属性の集合と同じであること、
未処理標識の集合を、各未処理ｎ−グラムに対する１つ以上の前記未処理属性に割り当てること、ならびに、
前記未処理属性および前記未処理標識と、前記標識付けした正規名称のデータベース内にある各々の前記正規名称に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規名称のデータベース内にある１つ以上のベストマッチ正規名称を決定すること
を含む、方法。

【請求項21】

前記１つ以上のベストマッチ正規名称を決定することは、
未処理標識の前記集合と同一の標識を有する正規名称に対して前記標識付けした正規名称のデータベースを検索すること、
該正規名称をベストマッチ名称として選択すること、および、
ベストマッチ名称が見つからない場合は、
前記未処理属性に重み係数を割り当てること、
前記標識付けした正規名称のデータベース内の前記正規名称を、前記重み係数に基づいてランク付けすること、および、
最も高くランク付けされた正規名称を前記１つ以上のベストマッチ正規名称として選択すること
を含む、請求項２０に記載の方法。

【請求項22】

前記プロセッサが、
未処理ｎ−グラムの集合を生成する前に前記未処理名称をサニタイズすること
を含み、前記サニタイズすることは、
前記未処理名称からストップワードを除外すること、
前記未処理名称内の文字を大文字から小文字にすること、
前記未処理名称から句読点の第１の集合を取り除くこと、および、
前記未処理名称内で句読点の第２の集合をスペースに置換すること
をさらに含む、請求項２０に記載の方法。

【請求項23】

各未処理ｎ−グラムに割り当てられた未処理属性の前記集合は同じである、請求項２０に記載の方法。

【請求項24】

未処理名称を、標識付けした正規名称のデータベース内の正規名称にマッピングするシステムであって、
メモリ、および、
プロセッサを備え、該プロセッサが、
未処理名称を受け取り、
前記未処理名称に対して未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記未処理名称内に１つ以上の連続する単語を含み、
未処理属性の集合を、未処理ｎ−グラムの前記集合内にある各未処理ｎ−グラムに割り当て、未処理属性の前記集合が同じであり、未処理属性の前記集合が、前記標識付けした正規名称のデータベース内の、前記メモリに格納された正規名称に関連付けられた正規属性の集合と同じであり、
未処理標識の集合を、各未処理ｎ−グラムに対する１つ以上の前記未処理属性に割り当て、かつ、
前記未処理属性および前記未処理標識と、前記標識付けした正規名称のデータベース内にある各々の前記正規名称に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規名称のデータベース内にある１つ以上のベストマッチ正規名称を決定する
ように構成される、システム。

【請求項25】

メモリおよびプロセッサを備えるコンピュータシステムが、標識付けした正規データのデータベースを生成する方法であって、
前記プロセッサが、
正規データの集合を指定すること、
各正規データ項目に対して正規ｎ−グラムの集合を生成し、各正規ｎ−グラムが、前記正規データ項目内に１つ以上の連続する単語を含むこと、
正規属性の集合を、正規ｎ−グラムの前記集合にある各正規ｎ−グラムに割り当てること、
正規標識の集合を、各正規ｎ−グラムに対する１つ以上の前記正規属性に割り当てること、および、
各正規データ項目のうちの少なくとも１つ、各正規データ項目に対して生成された正規ｎ−グラムの前記集合、各々の前記正規ｎ−グラムに割り当てられた正規属性の前記集合、または前記標識付けした正規データの前記データベース内の各々の前記正規属性に割り当てられた正規標識の前記集合を前記メモリに格納すること
を含む、方法。

【請求項26】

メモリおよびプロセッサを備えるコンピュータシステムが、未処理データを、標識付けした正規データのデータベース内にある正規データにマッピングする方法であって、
前記プロセッサが、
未処理データ項目を受け取ること、
前記未処理データ項目に対して未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記未処理データ項目内に１つ以上の連続する単語を含むこと、
未処理属性の集合を未処理ｎ−グラムの前記集合内の各未処理ｎ−グラムに割り当て、未処理属性の前記集合が、前記標識付けした正規データ項目の前記データベースに格納された前記正規データ項目に関連付けられた正規属性の前記集合と同じであること、
未処理標識の集合を、各未処理ｎ−グラムに対する１つ以上の前記未処理属性に割り当てること、ならびに、
前記未処理属性および前記未処理標識と、前記標識付けした正規データのデータベース内にある各々の前記正規データ項目に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規データのデータベース内にある１つ以上のベストマッチ正規データ項目を決定すること
を含む、方法。

【請求項27】

前記正規データは正規職業名である、請求項２５に記載の方法。

【請求項28】

前記正規データは正規職業名であり、前記未処理データは未処理職業名である、請求項２６に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

これは、全般に、大量のデータの正規化に関し、さらに詳細には、標識付けしたｎ−グラムを用いて大量の未処理データを正規化する方法に関する。

【背景技術】

【0002】

ソーシャルネットワークは、ユーザの職業名、現在および過去の雇用者、学歴、およびその他の情報を含む大量の個人データに対する保管場所となっている。このデータは、採用を始めとする多くの目的に使用できるものである。しかしながら、このデータを効果的に使用するに当たって主に障害となるのが、ユーザがデータを自分のネットワークプロフィールにどのような形式でも入力できることである。その結果、データの標準化がない。例えば、同じ職業名は、様々なスペル、様々な略語、あるいは様々な単語を使用して複数の形式で入力されることがある。そのため、ある職業名を対象にユーザのプロフィールを検索している例えば採用者または人口統計学者は、「Ｒ．Ｎ．」または「Ｒｅｇ．Ｎｕｒｓｅ」という職業名の語義が同等あっても、「ＲｅｇｉｓｔｅｒｅｄＮｕｒｓｅ（登録看護師）」ではこの職種を持つユーザを発見できない。このように標準化が欠けていることで、データの検索、分析、および総計が困難になっている。そのため、データを効率的に検索し、分析し、かつ総計するための前提条件が、同等の語と同じ意味を有するデータの変形形態を認識する能力である。

【0003】

語義が同等であるデータの変形形態を識別するための１つの手法では、ある人が、ユーザ入力データの集まりを手動で精査でき、ユーザ入力データの複数の変形形態の代表的なデータの用語または句を定義でき、かつ、ユーザ入力データを代表的なデータの用語または句にマッピングする調査表を作成できる。しかしながら、この手法は極めて時間がかかることがあり、結果は、手動でマッピングされたユーザ入力データの変形形態に限定されることがある。

【0004】

必要とされているのは、大量のデータ内にあるデータの変形形態を認識して識別し、その変形形態の効果的な検索、分析および総計を可能にするための効率的な方法およびシステムである。

【発明の概要】

【0005】

これは、未処理名称を正規名称に正規化する方法およびシステムに関する。いくつかの例では、本方法は、正規名称の集合を指定し、各正規名称に対してｎ−グラムの集合を生成し、各々のｎ−グラムに属性の集合を割り当て、各々の属性に標識の集合を割り当て、標識付けした正規名称および標識付けしたｎ−グラムをデータベースに格納することによって、未処理名称を正規化することを含んでいてよい。いくつかの例では、データベースは、ホワイトボックスまたはブラックボックス検証方法を用いて検証され、高度化されてよい。

【0006】

他の例では、本方法は、新規名称に対するｎ−グラムの集合を生成し、正規名称のデータベース内のｎ−グラムを調べ、新規名称から得たｎ−グラムと一致するデータベース内のｎ−グラムに割り当てられた標識の集合を取得し、それらの標識を新規名称に対応する属性に割り当てることによって、新規名称をデータベース内の既存の正規名称にマッピングすることを含んでいてよい。次に新規名称は、同じように標識付けした属性に基づいて正規名称にマッピングされてよい。システムは、これらの方法を実行できる。

【図面の簡単な説明】

【0007】

【図1】未処理名称を正規名称に正規化するための例示的な方法を示す図である。

【0008】

【図2】標識付けした正規名称のデータベースを生成するための例示的な方法を示す図である。

【0009】

【図3】例示的な名称に対して生成されたｎ−グラムの集合を示す図である。

【0010】

【図4】ｎ−グラムの属性に割り当てられた標識の例示的な表を示す図である。

【0011】

【図5】ホワイトボックス検証の例示的なプロセスを示す図である。

【0012】

【図6】新規名称を正規名称にマッピングするための例示的なｎ−グラム標識マッチングアルゴリズムを示す図である。

【0013】

【図7】名称の例示的な序列を示す図である。

【0014】

【図8】ブラックボックス検証の例示的なプロセスを示す図である。

【0015】

【図9】職業名の曖昧さを取り除くための例示的なプロセスを示す図である。

【0016】

【図10】機能ツリーを生成するための例示的なプロセスを示す図である。

【0017】

【図11】新規名称を正規名称データベース内の正規名称にマッピングするための例示的なプロセスを示す図である。

【0018】

【図12】例示的な新規名称およびそれに関連付けられた標識を示す図である。

【0019】

【図13A】例示的な正規名称およびそれに関連付けられた標識を示す図である。

【0020】

【図13B】例示的な正規名称およびそれに関連付けられた標識を示す図である。

【0021】

【図13C】例示的な正規名称およびそれに関連付けられた標識を示す図である。

【0022】

【図14】名称の正規化を実施するための例示的なシステムを示す図である。

【0023】

【図15】例示的な機能ツリーを示す図である。

【発明を実施するための形態】

【0024】

以下の説明には、例示的な方法、パラメータなどについて記載している。ただし、このような説明は、本開示の範囲を限定するものとみなされるのではなく、むしろ様々な例の説明として提供されていることを認識すべきである。

【0025】

これは、未処理名称を正規化して、語義が同等である名称を容易に検索し、分析し、総計する方法およびシステムに関する。名称の正規化は、未処理名称をｎ−グラムの集合に分解し、各ｎ−グラムに属性および標識を割り当て、これらの属性および標識を用いてそれぞれの未処理名称を対応する正規名称にマッピングすることによって行われてよい。未処理名称とは、何らかの処理がなされる前にユーザによって入力された名称であってよい。ｎ−グラムとは、名称内に含まれる１つ以上の連続する単語の集合であってよい。属性とは、名称の語義の一局面を表すものであってよい。標識とは、属性に割り当てられる単語であってよく、その属性に関連する情報を提供できるものである。標識と属性とを合わせると、名称に関する主な語義情報を取得できる。正規名称とは、未処理名称と語義が同様の集合を表現するために使用される名称であってよい。

【0026】

未処理名称を正規名称にマッピングするための手法を、図１〜図１３を参照して以下にさらに詳細に説明していく。

【0027】

様々な例に従った名称の正規化には補足的態様が２つあってよい。第１の態様では、標識付けした正規名称のデータベースを生成して検証してよい。このプロセスは、専門家の入力と反復分析との組み合わせを利用してデータベースを蓄積し、（標識を改良することによって）システムを訓練して、システムが未処理名称を正規名称に正確にマッピングするようにできる。第２の態様では、標識付けした正規名称のデータベースが生成されて検証されれば、そのデータベースは、標識の類似性に基づいて新規名称を既存の正規名称に迅速にマッピングするために、本明細書に記載するｎ−グラム標識マッチングアルゴリズムによって使用されることができ、そのようにして、新規名称の効率的な検索、分析および総計を可能にする。

【0028】

主要概念を説明するため、本明細書に記載した例は、職業名の正規化に関するものである。ただし、本明細書に記載した方法およびシステムを多くの他の種類の名称に適用でき、この場合の「名称（ｔｉｔｌｅ）」は、会社名、教育上の名称（専攻、学位、コース、または大学など）、住所の名称（通りや都市など）、趣味の名称、および多くの他の種類の名称またはデータを含むように幅広く解釈できるものである。例にある職業名の使用を限定的なものと解釈してはならず、これらの例は説明のみを目的として挙げられている。
３．標識付けした正規名称のデータベースを生成して検証する方法

【0029】

開示したシステムおよび方法の第１の態様は、未処理名称の集合を正規化した後、データベースを繰り返し検証して訓練することによって、標識付けした正規名称のデータベースを生成し、そのデータベースを使用して新規名称を正規名称に正確にマッピングできるようにすることを必要としてよい。

【0030】

図１は、未処理名称を正規化して正規名称のデータベースを生成し、そのデータベースを検証するための例示的な方法１００を示している。図１は全体の方法を示しているのに対し、図２〜図９は方法の各部分を詳細に示している。

【0031】

図１の例では、ブロック１０２で、標識付けした正規名称のデータベースを生成できる。いくつかの例では、標識付けした正規名称のデータベースは、図２を参照して以下に記載したように生成されてよい。

【0032】

ブロック１０４では、ホワイトボックス検証を実施できる。ホワイトボックス検証は、未処理名称がどのように正規名称にマッピングされたかを示す透視図を提供でき、そのようにして、さらに上級のマッピングをするために正規名称に関連付けられた標識を更新するかどうかをユーザ（またはプログラム）が評価できるようにできる。いくつかの例では、ホワイトボックス検証は、図５を参照して記載したように実施されてよい。

【0033】

ブロック１０６では、ブラックボックス検証を実施できる。ブラックボックス検証を使用して、ｎ−グラム標識マッチングアルゴリズムの効率を別のマッピング方法と比較できる。いくつかの例では、ブラックボックス検証は、図８を参照して記載したように実施されてよい。

【0034】

いくつかの例では、ホワイトボックス検証、ブラックボックス検証、またはこの両方は、システムの要件に応じて任意選択で使用してよい。

【0035】

これらのブロックの各々を以下にさらに詳細に説明する。
４．標識付けした正規名称のデータベースの生成

【0036】

図２は、図１のブロック１０２に示したように標識付けした正規名称のデータベースを生成するための例示的な方法２００を示している。
ａ．正規名称の集合を指定する

【0037】

図２の例では、ブロック２０２で、正規名称の集合を指定できる。正規名称は、例えば、キーワード検索に基づいてユーザプロフィールのデータベースから集積された未処理名称のプールから選択されてもよいし、あるいはユーザによって入力されてもよいし、あるいはいくつかの他のソースから受け取られてもよい。いくつかの例では、集積された未処理名称の集合から最も多く現れる未処理名称を正規名称として指定してよい。代替例では、（例えば具体的な業界に対する）主題の専門家が、正規名称の集合を手動で指定してよい。

【0038】

職業名の例を用いて正規名称を指定するプロセスを説明するために、未処理名称の集合を、例えば「ｎｕｒｓｅ（看護師）」というキーワードで検索してユーザプロフィールのデータベースから集積してよい。この検索によって現れた未処理名称の集合は、「Ｒ．Ｎ．」（２５ヒット）、「ＲｅｇｉｓｔｅｒｅｄＮｕｒｓｅ（登録看護師）」（１２ヒット）、「Ｒｅｇ．Ｎｕｒｓｅ」（３ヒット）などを含んでいてよい。この場合、最も多く発生する未処理の職業名、「Ｒ．Ｎ．」を、正規の職業名として指定してよい。このようにする代わりに、主題の専門家または他のユーザが、検索によって取得された未処理の職業名の集合を精査し、集積された未処理名称の検索能力の経験的分析に基づいて１つ以上の正規の職業名を指定してもよい。例えば、ユーザは、サンプルとして取った未処理名称の集合内で現れている「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ（登録看護師）」が「Ｒ．Ｎ．」よりも少ないとしても、「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ（登録看護師）」を正規名称として指定してよい。

【0039】

いくつかの例では、指定した正規名称の集合は、追加の処理を受ける前にサニタイズされてよい。サニタイズ（Ｓａｎｉｔｉｚａｔｉｏｎ）は、例えば、ストップワードを除外すること、いくつかの形態の句読点（ピリオドやカンマなど）を除外すること、ハイフンをスペースに置換すること、大文字を小文字にすること、あるいは、その名称の意味に影響を及ぼさないフォーマット、特徴または単語を削除するために未処理名称を処理することを必要としてよい。いくつかの例では、サニタイズは、データベース生成の速度および精度を改善できることである。
ｂ．ｎ−グラムの集合を生成する

【0040】

ブロック２０４では、ブロック２０２で指定された各々の正規名称に対してｎ−グラムの集合を生成できる。ｎ−グラムは、１つの名称内に１つ以上の連続する単語を含んでいてよく、この場合、連続する単語数の範囲は１からｎである。ｎ＝３の場合、ｎ−グラムの集合は、その名称に含まれるユニグラム（単一の単語）、バイグラム（２つの連続する単語）、およびトリグラム（３つの連続する単語）からなる集合を含んでいてよい。各名称に対して生成されたｎ−グラムの数は、名称（ｘ）内の単語数およびｎの値によって異なっていてよい。一般に、ｘ個の単語からなる名称の場合、ｘ個のユニグラム、（ｘ−１）個のバイグラム、および（ｘ−２）個のトリグラムなどがあってよい（ｘは十分大きいと仮定する）。

【0041】

１つの名称から１つのｎ−グラムの集合を生成する方法は多数あってよいことを理解すべきである。例えば、ｎ−グラムは、ユーザが名称に対する各ｎ−グラムをユーザインターフェースに入力するようにさせることによって手動で生成されてもよいし、あるいはｎ−グラムは、アルゴリズムの構文解析を用いて自動で生成されてもよい。正規名称に対して生成されたｎ−グラムの集合は、正規名称とともにデータベースに格納されてよい。

【0042】

引き続き職業名を正規化する例に関して、図３は、ｎ＝３の場合に１つの職業名に対して生成されたｎ−グラムの一覧を示している。すなわちこの場合、名称に対して可能な最大のｎ−グラムは、その名称内に３つの連続する単語を含む。図３の例では、名称「ｒｅｇｉｓｔｅｒｅｄｃｈａｒｇｅｎｕｒｓｅＩＣＵ（登録担当看護師ＩＣＵ）」は、４単語の名称であり、この４単語から生成された以下のｎ−グラムの集合を有していてよい：ｒｅｇｉｓｔｅｒｅｄ、ｃｈａｒｇｅ、ｎｕｒｓｅ、ＩＣＵ（ユニグラム）；ｒｅｇｉｓｔｅｒｅｄｃｈａｒｇｅ、ｃｈａｒｇｅｎｕｒｓｅ、ｎｕｒｓｅＩＣＵ（バイグラム）；ｒｅｇｉｓｔｅｒｅｄｃｈａｒｇｅｎｕｒｓｅ、ｃｈａｒｇｅｎｕｒｓｅＩＣＵ（トリグラム）。ｎ＝４であれば、ｎ−グラムの集合は「ｒｅｇｉｓｔｅｒｅｄｃｈａｒｇｅｎｕｒｓｅＩＣＵ」も含むことになる。

【0043】

ｎの値（つまり、ｎ−グラム内にあってよい最大単語数）は、検討対象の名称の種類の特徴に基づいて選択されてよい。職業名の場合、ｎ＝３という値は、正規化の目的に対して良好な結果を出すために経験的に算出されたものだが、これ以外の値を使用してもよい。他の種類の名称に対して、または英語以外の言語に対しては、異なる値のｎの方が適切なことがある。
ｃ．ｎ−グラムに属性を割り当てる

【0044】

再び図２を参照すると、ブロック２０６で、各々のｎ−グラムに属性の集合を割り当てることができる。同じ属性は、１つ１つのｎ−グラムに割り当てられてよく、データベース内で正規化される名称の種類の主要な特徴に基づくものであってよい。職業名の例では、ｎ−グラムに割り当てられた属性の集合は、例えば、仕事内容、専門性、年齢層、職種、および資格を含んでいてよい。この場合、各々のｎ−グラムは、同じ５つの属性の関連集合を有していてよい。

【0045】

「ｎｕｒｓｅ」の例に戻ると、「ｎｕｒｓｅ」というユニグラムは、それに割り当てられたこの５つの属性を有していてよく、「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ」というバイグラムも、指定された正規の職業名内の１つ１つの他のｎ−グラムも同様であってよい。ブロック２０８に関して以下で考察するように、これらの属性を用いて、各々のｎ−グラムに付いての情報を標識の形態で取得できる。

【0046】

上記の例は、５つの属性からなる具体的な集合の使用法について記載しているが、職業名を正規化するために、対象となる職業名の特徴に応じてこれに代わる属性の集合を用いてもよい。同じように、正規化する対象の他の種類の名称を、異なる属性の集合で特徴付けてよい。例えば、会社名の場合、割り当てられた属性の集合は、業界、製品、規模、および所在地を含んでいてよい。
ｄ．属性に標識を割り当てる

【0047】

ブロック２０８では、標識の集合を各ｎ−グラムの各属性に割り当てることができる。これらの標識は、名称の語義を取得しやすくでき、続いて語義が類似している名称の変形形態を識別するのに使用されてよい。いくつかの例では、標識は、属性に関連する情報を提供でき、検討対象の各ｎ−グラムに含まれる単語に基づくものであってよい。例えば、「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ」というバイグラムの場合、仕事内容という属性は、「ｎｕｒｓｅ」の標識を割り当てられてよく、資格という属性は、「ｒｅｇｉｓｔｅｒｅｄ」の標識を割り当てられてよい。割り当てられた標識は、ｎ−グラムに含まれる単語を含んでいてもいなくてもよい。各属性は、複数の標識を割り当てられてもよいし、あるいは、ｎ−グラムが属性に属する関連情報を含んでいなければ標識がまったくなくてもよい。例えば、「ｎｕｒｓｅ」というユニグラムの場合、資格という属性は、関連付けられた標識がなくてもよい。なぜなら、このユニグラムは、資格に関する情報を含んでいないからである。いくつかの例では、単一の標識が複数の単語を含んでいることがある。

【0048】

図４は、ｎ−グラム、属性、および標識の表を示している。図４に示したように、未処理名称の「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ，ＰＩＣＵ」には、「ｒｅｇｉｓｔｅｒｅｄ」、「ｎｕｒｓｅ」、「ＰＩＣＵ」、「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ」、「ｎｕｒｓｅＰＩＣＵ」、および「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅＰＩＣＵ」というｎ−グラムがあってよい。ｎ−グラムには、仕事内容、専門性、資格、年齢層、および職種という属性があってよい。各々のｎ−グラムには、関連する属性に割り当てられた様々な標識があってよい。例えば、「ｎｕｒｓｅ」というｎ−グラムには、仕事内容という属性に対して「ｎｕｒｓｅ」という標識；年齢層に対して「低」；および職種に対して「ｎｕｒｓｉｎｇ（看護）」があってよい。いくつかの属性には、それに割り当てられた複数の標識があるが、他の属性にはないことがあってよい。

【0049】

標識は、例えばユーザインターフェースのテキストボックスに手動で入力することによって属性に割り当てられてもよいし、あるいは所定の標識のメニューから選択されてもよい。このようにする代わりに、標識付けする対象のある特定のｎ−グラムが事前に標識付けされていて正規名称のデータベースに格納されている場合、既存のｎ−グラムに関連付けられた標識は、データベースから取得されて現在のｎ−グラムの対応する属性に自動的に割り当てられてもよい。このように、既存の正規名称に事前に割り当てられた標識は、ｎ−グラムをマッチングすることに基づいて新規名称に自動的に適用されてよい。この手法で、新規名称のｎ−グラムに標識付けするのに必要な労力を減らすことができ、標識付けした正規名称のデータベースが大きくなるにつれて、最も多い新規名称を自動的に標識付けできる可能性がある。

【0050】

いくつかの例では、生産性を上げるために、ユーザが、ｎ−グラムのサイズ順にｎ−グラムに標識を割り当てることができる。つまり、ユーザは、標識をまずすべてのユニグラムに割り当て、次にバイグラムに割り当て、次にトリグラムに割り当ててもよい。いくつかの例では、この手法で、ユニグラムに割り当てられた標識を、そのユニグラムを含むバイグラムに自動的に分散できる可能性がある。同じように、特定のユニグラムまたはバイグラムに関連付けられた標識を、これらのユニグラムおよび／またはバイグラムを含むトリグラムに自動的に分散できる。また、この手法で、新規名称に対してｎ−グラムを標識付けするのに必要な労力を減らすことができる。

【0051】

いくつかの例では、ユーザは、大きい方のｎ−グラムが提供する追加内容に基づいて、小さい方のｎ−グラムから順に分散された標識のいくつかを削除してよい。例えば、正規の職業名が「ｎｕｒｓｅｒｅｃｒｕｉｔｅｒ（看護師採用担当者）」であれば、「ｎｕｒｓｅ」というユニグラムは、仕事内容という属性に割り当てられた「ｎｕｒｓｅ」の標識を有していてよい。この標識はその後、バイグラム「ｎｕｒｓｅｒｅｃｒｕｉｔｅｒ」に対する仕事内容という属性に分散されてよい。ただし、バイグラム「ｎｕｒｓｅｒｅｃｒｕｉｔｅｒ」を分析する際に、標識「ｎｕｒｓｅ」はこのバイグラムにふさわしい標識ではないと判断されることがあり、この標識は、バイグラムに関連付けられた属性から削除されることがある（しかし、「ｎｕｒｓｅ」というユニグラムに関連付けられた仕事内容という属性に割り当てられたままである）。そのため、ａバイグラム（またはトリグラム）がそれを構成しているユニグラム（またはバイグラム）の標識すべてには割り当てられないことがある。

【0052】

上記の標識付けする手法の１つの結果は、一つの名称がこの名称に何度か割り当てられた同じ標識を有することがあり得ることである。例えば、名称「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ」は、その「ｎｕｒｓｅ」というユニグラムとその「ＲｅｇｉｓｔｅｒｅｄＮｕｒｓｅ」というバイグラムとの両方に割り当てられた標識「ｎｕｒｓｅ」を有していてよい。そのため、名称は、標識「ｎｕｒｓｅ」の２つのインスタンスに関連付けられていてよい。逆に、名称「ｎｕｒｓｅｒｅｃｒｕｉｔｅｒ」は、ユニグラム「ｎｕｒｓｅ」に割り当てられているがバイグラム「ｎｕｒｓｅｒｅｃｒｕｉｔｅｒ」には割り当てられていない標識「ｎｕｒｓｅ」を有していてよい。そのため、この名称は、標識「ｎｕｒｓｅ」の１つのインスタンスのみに関連付けられてよい。

【0053】

標識を属性に割り当てるプロセスは、事前に割り当てられた標識どうしを合体することでさらに高度にでき、この標識は後に同義語であると判断される。例えば、「ＩＣＵ」（ＩｎｔｅｎｓｉｖｅＣａｒｅＵｎｉｔ、集中治療部）は、「ＣＣＵ」（ＣｒｉｔｉｃａｌＣａｒｅＵｎｉｔ、救急治療部）と語義が同じであると判断されてよい。この場合、２つの標識は、一つの標識を用いて両方の変形形態を表せるように合体されてよい。この目的のために選択された一つの標識は、変形形態のうち最も多く発生するものであってよいし、あるいは別の基準で選択されてもよい。次にこの一つの標識は、同じ変形形態のいずれかを含むすべての標識のインスタンスに代わって、正規データベース全体で用いられてよい。
５．ホワイトボックス検証

【0054】

標識付けした正規名称のデータベースが生成されると、このデータベースは、ホワイトボックス検証を用いて検証され、高度化されてよい。図５は、図１のブロック１０４に示したように、ホワイトボックス検証を実施するための例示的な方法５００を示している。

【0055】

図５の例では、ブロック５０２で、未処理名称の集合を受け取ることができる。未処理名称の集合は、例えば、ユーザプロフィールのデータベースから名称を取得した検索エンジンから受け取られてもよいし、あるいはユーザから、またはディスク上のファイルから、または何らかの他のソースから受け取られてもよい。いくつかの例では、未処理名称の集合は、さらに処理される前に、図１を参照して示したものと同じ方法でサニタイズされてよい。

【0056】

ブロック５０４では、ブロック５０２で受け取った未処理名称の各々に対してｎ−グラムの集合を生成できる。ｎ−グラムは、図２を参照して以前に記載したように生成されてよい。

【0057】

ブロック５０６では、ブロック５０４で生成されたｎ−グラムの各々に関連付けられた属性に標識の集合を割り当てることができる。（未処理名称の属性は、データベース内の正規名称に使用されたものと同じ属性を含んでいてよい。）標識は、図２を参照して以前に記載したように割り当てられてよい。いくつかの事例では、標識は、標識付けした正規名称のデータベース内の未処理名称のｎ−グラムを調べてこれらのｎ−グラムに関連付けられた標識を取得することによって、未処理名称に自動的に割り当てられてよい。

【0058】

ブロック５０８では、同一の標識を有する未処理名称を一緒にまとめることができる。これらの群は、語義が類似または同じであると考えられる未処理名称を含んでいてよい。

【0059】

ブロック５１０では、同一の標識を有する名称の各群に対して代表名称を指定できる。代表名称は、この未処理名称の群を代表するために選択されてよい。いくつかの例では、代表名称は、群を代表するために、群内で最も多く発生する未処理名称を選定することによって自動的に選択されてよい。代替の例では、代表名称は、ユーザに指定されるか、あるいは何らかの他の基準に基づいて自動的に選択されてよい。代表名称は、未処理名称と正規名称との間の中間の名称としての役割を果たしてよく、未処理名称を正規名称にマッピングするのを効率的に精査する手段となってよい。

【0060】

ブロック５１２では、各代表名称は、データベース内の正規名称にマッピングされてよい。いくつかの例では、代表名称は、図６を参照して以下で考察するように、ｎ−グラム標識マッチングアルゴリズムを用いて正規名称にマッピングされてよい。

【0061】

ブロック５１４では、未処理の職業名が代表の職業名によって正確に表されているかどうかを判断し、かつ、代表の職業名がｎ−グラム標識マッチングアルゴリズムによって正規の職業名に正確にマッピングされているかどうかを判断するために、名称の序列を精査できる。この精査でユーザ（またはプログラム）は、未処理名称に割り当てられた標識で代表名称の正確な指定が可能になったどうか（すなわち標識によって一緒にまとめられた未処理名称が、実際に語義が同じかどうか）を判断でき、かつ、代表名称と正規名称との良好なマッチングを実現するために、正規名称に関連付けられた標識でｎ−グラムマッチングアルゴリズムが可能になったかどうかを判断できる可能性がある。

【0062】

いくつかの例では、序列は、グラフィカルユーザインタフェース上で見て精査されてよい。いくつかの例では、名称の序列は、正規名称、代表名称、および未処理名称を含んでいてよい。図７は、名称の序列を精査するためのグラフィカルユーザインタフェースのスクリーンショットを示している。各正規名称は、その正規名称にマッピングされた代表名称とともに、代表名称によって表されている未処理名称と共に表示されてよい。したがって、未処理名称はすべて、その上に表示された一つの正規名称にマッピングされてよい。下方レベルの序列は、上方レベルのみを見えるようにするために折り畳まれてよい。例えば、正規名称および代表名称のみが見えて、未処理名称を見せないようにすることが可能であってよい。１つ１つの未処理名称を精査するのではなく、未処理名称の群を表す代表名称を精査することによって、精査対象の名称の数を大幅に減らすことができ、このようにして精査プロセスの速度および効率を上げる。

【0063】

職業名の序列の精査に基づいて、ユーザは、データベース内の正規名称に関連付けられたｎ−グラムの標識を更新して、ｎ−グラムマッチングアルゴリズムで未処理名称を正規名称にさらに正確にマッピングできるようにすることを決定できる。

【0064】

これに代わる例では、精査は、未処理の職業名が正確に表現されマッピングされているかどうかを判断するために、コンピュータによって自動的に実施されてよい。
６．Ｎ−グラムの標識をマッチングする方法

【0065】

標識付けした正規名称に新規名称をマッピングするために、ｎ−グラム標識マッチングアルゴリズムを用いてよい。このアルゴリズムは、本明細書に記載した名称を正規化するシステムの一体化した一部であってよい。このアルゴリズムは、図５を参照して以前に考察したように、データベースを検証するプロセスの一部として使用されよく、また図１１を参照して後に考察するように、データベース全体に対して名称を検索し、分析し、総計するために使用されてもよい。

【0066】

図６は、図５のブロック５１２に示したように、「ベストマッチ」の正規名称を選定することによって、標識付けした正規名称に新規名称をマッピングするための例示的なｎ−グラム標識マッチングアルゴリズム６００を示している。

【0067】

図６の例では、ブロック６０２で、新規名称を受け取ることができる。この新規名称は、例えば、データベースを検索した結果として受け取られてもよいし、あるいは、例えば類似の名称をデータベースで検索する目的で、ユーザによって入力されてもよい。いくつかの例では、新規名称は、未処理名称であってよい。

【0068】

ブロック６０４では、新規名称に対してｎ−グラムの集合を生成できる。いくつかの例では、ｎ−グラムは、図２を参照して記載したように生成されてよい。

【0069】

ブロック６０６では、新規名称に標識を割り当てることができる。いくつかの例では、標識の集合は、以前に記載したように、新規名称の各々のｎ−グラムの各属性に割り当てられてよい。いくつかの例では、標識は、ユーザによって手動で割り当てられてよい。他の例では、標識は、標識付けした正規名称のデータベース内の新規名称のｎ−グラムを調べ、そのデータベースからそれらのｎ−グラムに関連付けられた標識を取得することによって自動的に割り当てられてよい。いくつかの例では、新規名称は、標識付けを必要としないことがある。例えば、新規名称は、ブロック６０２で受け取られる前に、事前に標識付けされていることがある。

【0070】

ブロック６０８では、いずれかの正規名称が標識付けした新規名称の標識と同じ標識を有するかどうかを判断するために、標識付けした正規名称のデータベースを検索できる。同一であると考えられる標識の場合、正規名称および新規名称は、同じ属性に割り当てられた同じ標識を有していなければならない。新規名称の標識と同一の標識を有する正規名称がある場合、その正規名称は、新規名称に対するベストマッチとして選択されてよい。

【0071】

ブロック６０８でベストマッチが見つからなければ、次にブロック６１０で各々の属性に重み係数を割り当てることができる。いくつかの例では、属性は、マッチング用に特定の名称の特徴を強調するために重み付けされてよい。例えば、仕事内容という属性は、年齢層という属性よりも重く重み付けされてよい。なぜなら、仕事内容の方がマッチング特徴が重要であると考えてよいからである。重み係数は、以下で記載するようにベストマッチの正規名称を識別しやすくするのに使用されてよい。

【0072】

ブロック６１２では、新規名称に対するベストマッチを判断するために、重み付けされた属性に基づいて正規名称をランク付けできる。上記の例では、（新規名称の仕事内容という標識に関連する）仕事内容という属性に対して類似または同一の標識を有する正規名称を、他の属性に対して類似または同一の標識を有する正規名称よりも高くランク付けしてよい。

【0073】

ブロック６１４では、最も高くランク付けした正規名称（または複数の正規名称が同じランクを有している場合は、名称）を（１つまたは複数の）ベストマッチ名称として選択できる。

【0074】

ブロック６１４で複数の正規名称がベストマッチとして選択された場合、ブロック６１６で、一つのベストマッチ名称を決定するために新規名称の曖昧さを取り除くことができる。いくつかの例では、この曖昧さを取り除くことにより、ブロック６１４で選択されたベストマッチ正規名称のうちどれが新規名称に対する一つの最も適切なベストマッチ名称なのかを判断できる。いくつかの例では、新規名称は、図９を参照して後にさらに詳細に記載するように曖昧さを取り除かれてよい。

【0075】

ブロック６１８では、ブロック６０８、６１４、または６１６で選択されたベストマッチ正規名称を伝送できる。ベストマッチ正規名称は、例えば、ホワイトボックス検証の精査で使用するために伝送されてもよいし、あるいは、何らかの他のユーザインターフェース、または格納用ディスクに伝送されてもよい。

【0076】

前述したｎ−グラム標識マッチングアルゴリズムは、名称自体のマッチング（またはｎ−グラムのマッチング）に基づいてではなく、名称の特徴を捕らえるｎ−グラムの標識のマッチングに基づいていてよいため、同じ構成単語をまったく含んでいないが語義が同じである正規名称に新規名称をマッピングしてよいことを理解すべきである。例えば、「ｃａｎｉｎｅｃｏａｃｈ（犬のコーチ）」の新規名称であれば、それに関連付けられた標識を基準に自動的に「ａｎｉｍａｌｔｒａｉｎｅｒ（動物トレーナ）」の正規名称にマッピングされてよく、２つの名称に共通の単語がなくてもよい。
７．ブラックボックス検証

【0077】

図１に示したようなデータベースを生成して検証する例示的な方法に戻ると、実施すべき次の検証の種類は、ブラックボックス検証であろう。ブラックボックス検証は、未処理名称の一つの集合を正規名称の集合にマッピングするのを、２つの異なる方法を用いて比較するために用いられてよい。いくつかの例では、その方法の一方は、マッピング精度を良好にすると思われる「ベースライン」方法であってよく、もう一方の方法は、図６を参照して前述したようなｎ−グラム標識マッチングアルゴリズムであってよい。ブラックボックス検証は、正規のデータベース内にある現在のｎ−グラムの標識でｎ−グラムマッチングアルゴリズムが十分に正確なマッピングを実施できるのかどうかを、ベースライン方法に関して評価を提供できる。

【0078】

図８は、ブラックボックス検証に対する例示的なプロセス８００を示している。

【0079】

図８の例では、ブロック８０２で、未処理名称の集合を受け取ることができる。未処理名称の集合は、例えば、ユーザプロフィールのデータベースから名称を取得した検索エンジンから受け取られてもよいし、あるいはユーザから、またはディスク上の電子ファイルから、または何らかの他のソースから受け取られてもよい。未処理名称の集合は、ホワイトボックス検証のために使用された未処理名称の同じ集合であってもよいし、あるいは未処理名称の異なる集合であってもよい。

【0080】

ブロック８０４では、未処理名称の集合を、ベースライン方法を用いて、標識付けした正規名称のデータベースにある正規名称の第１の集合にマッピングできる。いくつかの例では、ベースライン方法は、未処理名称の経験的分析に基づいて、かつ（いくつかの例では）関連付けられたメタデータ、例えば学歴、以前の職業名、またはその他の種類のデータに基づいて、人に手動で未処理の職業名をデータベース内の正規名称にマッピングさせることを伴ってよい。他の例では、ベースライン方法は、異なる種類の手動の手法またはアルゴリズムによる手法を用いて未処理名称を正規名称にマッピングすることを含んでいてよい。いくつかの例では、ベースライン方法を、１００％のマッピング精度を実現すると仮定する「ゴールドスタンダード」であると考えてよい。

【0081】

ブロック８０６では、図２および図６を参照して以前に記載したように、未処理名称のｎ−グラムの属性に標識を割り当てる。

【0082】

ブロック８０８では、図６を参照して記載したもののようなｎ−グラム標識マッチングアルゴリズムを用いて、標識付けした未処理名称を正規名称のデータベース内の正規名称の第２の集合にマッピングする。

【0083】

ブロック８１０では、（ブロック８０４で生成された）正規名称の第１の集合を（ブロック８０８で生成された）正規名称の第２の集合と比較できる。いくつかの例では、正規の職業名の２つの集合は、ｎ−グラム標識マッチングアルゴリズムの精度を評価するために自動的に比較されてよい。

【0084】

ブロック８１２では、正規名称の第１の集合を正規名称の第２の集合と比較した結果を出力できる。この比較は、例えば表示画面上に出力されてよい。出力は、例えば正規名称の２つの集合、またはベースライン方法と比較したｎ−グラム標識マッチングアルゴリズムのマッピング精度に関する統計を、完全または部分的に列挙することを含んでいてよい。出力は、ベースライン方法を用いて生成された正規名称の集合と比較した、偽陽性（すなわち、マッチングされるべきではないときに未処理の職業名が正規の職業名に誤ってマッチングされた場合）の割合と、偽陰性（すなわち、未処理の職業名が正規の職業名にマッチングされるべきだったがそうならなかった場合）の割合とを含んでいてよい。このような統計を用いて、さらに良好なマッピングを可能にするために正規名称のｎ−グラムの標識を見直すかどうかを判断できる。
８．名称の曖昧さを取り除く

【0085】

図６を参照して以前に考察したように、いくつかの事例では、新規名称が最初に２つ以上の正規名称にマッピングされてよい。例えば、「ＣＮＡ」の新規職業名であれば、最初に２つの正規名称、「Ｃｅｒｔｉｆｉｅｄ NｕｒｓｅＡｓｓｉｓｔａｎｔ（認定看護師助手）」および「ＣｅｒｔｉｆｉｅｄＮｅｔｗｏｒｋＡｄｍｉｎｉｓｔｒａｔｏｒ（認定ネットワーク管理者）」にマッピングされてよいこの曖昧さは、新規名称に対して最も適切な正規名称を特定するために、マッピングプロセスで更なる曖昧さ除去を必要とすることがある。

【0086】

図９は、新規名称の曖昧さを取り除くための例示的なプロセス９００を示している。このプロセスを用いて、新規名称が最初に複数の正規名称にマッピングされてよい場合に、一つのベストマッチ正規名称を特定できる。

【0087】

図９の例では、ブロック９０２で、ユーザプロフィールに関連付けられた新規名称を受け取ることができる。新規名称は、例えばユーザから受け取られてもよいし、あるいは図６を参照して記載したように、ｎ−グラム標識マッチングアルゴリズムからのパラメータとして受け取られてもよい。

【0088】

ブロック９０４では、２つ以上の選択された正規名称を受け取ることができる。いくつかの例では、２つ以上の正規名称は、例えば、図６を参照して以前に記載したようにｎ−グラム標識マッチングアルゴリズムに基づいて、ブロック９０２で受け取った新規名称に対するベストマッチ正規名称として選択されたものであってもよいし、あるいは別のマッピング方法に基づいて選択されたものであってもよい。

【0089】

ブロック９０６では、ブロック９０２で受け取った新規名称に関連付けられたユーザプロフィールからメタデータを取得できる。このようなメタデータは、例えば、学歴、地理的所在地、以前の職業名、現在の雇用者、および以前の雇用者を含んでいてよい。

【0090】

ブロック９０８では、ブロック９０６で受け取ったメタデータを用いてユーザのカテゴリを決定できる。職業名の例では、カテゴリは、ユーザの現在または以前の雇用者に関連付けられた業界であってよく、これは、データベース内の現在または以前の雇用者を調べて、公開データまたは購入データを用いて業界を特定することによって決定されてよい。代替の例では、カテゴリは、例えば学歴情報、地理的所在地、または他のメタデータを調べることによって決定されてよい。

【0091】

ブロック９１０では、ブロック９０８で決定されたカテゴリに基づいて、ブロック９０４で受け取った２つ以上の正規名称から一つのベストマッチ正規名称を選択できる。いくつかの例では、一つのベストマッチ正規名称は、ブロック９０８で決定されたカテゴリに統計的に最もよく関連付けられていると思われる正規名称を選択することによって選択される。名称とカテゴリとの関連性に関するこのような統計は、例えば事前に収集されるか、計算されるか、購入されたものであってよい。

【0092】

例として、ＣＮＡの新規職業名を、２つの正規名称、つまりＣｅｒｔｉｆｉｅｄ NｕｒｓｅＡｓｓｉｓｔａｎｔ（認定看護師助手）およびＣｅｒｔｉｆｉｅｄＮｅｔｗｏｒｋＡｄｍｉｎｉｓｔｒａｔｏｒ（認定ネットワーク管理者）にマッピングできることを思い出していただきたい。この例では、ユーザの業界が医療であると判断された場合、Ｃｅｒｔｉｆｉｅｄ NｕｒｓｅＡｓｓｉｓｔａｎｔの正規名称は、ＣｅｒｔｉｆｉｅｄＮｅｔｗｏｒｋＡｄｍｉｎｉｓｔｒａｔｏｒではなくベストマッチ名称として選択されてよい。なぜなら、Ｃｅｒｔｉｆｉｅｄ NｕｒｓｅＡｓｓｉｓｔａｎｔという名称は、ＣｅｒｔｉｆｉｅｄＮｅｔｗｏｒｋＡｄｍｉｎｉｓｔｒａｔｏｒという名称よりも統計的に医療業界に関連付けられていると思われると判断されてよいからである。逆に、ユーザの業界がコンピュータハードウェアであると判断された場合、ＣｅｒｔｉｆｉｅｄＮｅｔｗｏｒｋＡｄｍｉｎｉｓｔｒａｔｏｒという名称は、一つのベストマッチ正規名称として選択されてよい。
９．機能ツリーの生成

【0093】

図１０は、機能ツリーを生成するための例示的なプロセス１０００を示している。機能ツリーとは、正規名称どうしの関係を視覚的に表現したものであってよい。職業名の内容では、機能ツリーが例えば典型的な経歴を表していてよい。

【0094】

図１０の例では、ブロック１００２で、１つのカテゴリに対して標識付けされた正規名称の集合を、標識付けした正規名称のデータベースから取得できる。職業名の例では、カテゴリは、例えば特定の業界であってよい。

【0095】

ブロック１００４では、正規名称の各属性に重みを割り当てることができる。例えば、仕事内容という属性を資格という属性よりも高くランク付けできる。これらの重みは、図６を参照して以前に記載したものと類似の方法で割り当てられてよい。

【0096】

ブロック１００６では、正規名称の各属性の各標識に重みを割り当てる。例えば、「ｎｕｒｓｅ」という標識を「瀉血医」という標識よりも高く重み付けできる。これらの重みは、属性に重みを割り当てるのに記載した方法と同じように割り当てられてよい。

【0097】

ブロック１００８では、標識付けした正規名称の集合を、まず属性ごとに、次に標識ごとにランク付けできる。このランク付けで、類似の属性を有し、かつ類似の標識を有する名称をその属性内で一つにまとめる。他の例では、正規名称は、例えば属性ごとにのみ、または標識ごとにのみランク付けされてよい。

【0098】

ブロック１０１０では、正規名称をそのランクによって整理して機能ツリーとして表示する。いくつかの例では、ランクが同じである正規名称は同じ縦のレベルに表示され、ランクが高い名称は、ランクが低い名称よりも高いレベルに表示される。

【0099】

図１５は、正規の職業名の集合に対する機能ツリーを示している。図１５の例では、機能ツリーは、「ｃｌｉｎｉｃａｌｍａｎａｇｅｒ（臨床マネージャ）」という正規名称で表現された職業を有する人物の典型的な経歴を示していてよい。ある経歴は、代表的な正規名称である「ｉｎｄｕｓｔｒｉａｌｈｙｇｉｅｎｉｓｔ（産業衛生士）」、「ｍｅｄｉｃａｌｓｃｉｅｎｔｉｓｔ（医学者）」、または「ｐｕｂｌｉｃｈｅａｌｔｈｉｎｓｐｅｃｔｏｒ（公衆衛生検査官）」のうちのいずれかで表された職業から始まり、これに正規名称「ｅｐｉｄｅｍｉｏｌｏｇｉｓｔ（疫学者）」で表された職業が続き、これに正規名称「ｃｌｉｎｉｃａｌｍａｎａｇｅｒ（臨床マネージャ）」で表された職業が続いていてよい。別の経歴は、正規名称「ｅｎｖｉｒｏｎｍｅｎｔａｌｈｅａｌｔｈｏｆｆｉｃｅｒ（環境衛生官）」で表された職業から始まり、これに正規名称「ｃｌｉｎｉｃａｌｍａｎａｇｅｒ（臨床マネージャ）」で表された職業が続いていてよい。
１０．新規名称を正規名称にマッピングする方法

【0100】

以前に考察したように、名称の正規化には２つの態様がある。第一に、図１〜図９を参照して以前に記載したように、標識付けした正規名称のデータベースを生成して検証できることである。データベースが生成されると、そのデータベースを、新規名称を既存の正規名称にマッピングするｎ−グラム標識マッチングアルゴリズムが使用できる。この第２の態様によって、例えば、採用者が所望の新規名称を入力し、この新規名称が正規名称にマッピングされるようにでき、次にこの正規名称を使用して、職業名が同じ正規名称にマッピングされている候補者のプロフィールを特定できる。

【0101】

図１１は、標識付けした正規名称のデータベース内の正規名称に新規名称をマッピングするための例示的なプロセス１１００を示している。

【0102】

図１１の例では、ブロック１１０２で、新規名称を受け取ることができる。いくつかの例では、新規名称は、ユーザによってグラフィカルユーザインタフェースに入力されもよいし、あるいはユーザプロフィールのデータベースから取得されてもよい。いくつかの例では、新規名称は未処理名称であってよい。

【0103】

ブロック１１０４では、ブロック１１０２で受け取った新規名称に対してｎ−グラムの集合を生成できる。ｎ−グラムは、例えば図２を参照して以前に記載したように生成されてよい。

【0104】

ブロック１１０６では、ブロック１１０４で生成されたｎ−グラムを用いて同一のｎ−グラムに対する正規名称データベースを検索し、それらのｎ−グラムに関連付けられた属性の標識を取得する。

【0105】

ブロック１１０８では、正規のデータベースから取得したｎ−グラムの属性の標識を、新規名称のｎ−グラムの対応する属性に割り当てることができ、このようにして標識付けした新規名称を作成する。いくつかの例では、ユーザが新規名称のｎ−グラムの属性に標識を割り当ててよい。

【0106】

ブロック１１１０では、図６を参照して以前に記載したようにｎ−グラムマッチングアルゴリズムを用いて、標識付けした新規名称を正規名称にマッピングできる。

【0107】

前述したように新規名称が正規名称にマッピングされると、この正規名称を使用して、ユーザプロフィールのデータベースを検索し、同じ正規名称にマッピングされた名称を有するユーザを特定できる。この意味で、正規名称は、新規名称とユーザプロフィールに含まれる名称との間の橋渡しとなることができる。

【0108】

図１２は、例示的な標識付けした新規名称、「ｃｅｒｔｉｆｉｅｄｎｕｒｓｅｍｉｄｗｉｆｅ（認定看護助産師）」およびそれに関連付けられたｎ−グラムおよび標識を示している。図１３Ａ〜図１３Ｃは、３人の候補者の正規名称を示し、図１２に示した新規名称は、標識の類似性に基づいてこの３つの正規名称に対してマッピングされてよい：「ａｄｖａｎｃｅｄｐｒａｃｔｉｃｅｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ（高度実践登録看護師）」、「ｃｅｒｔｉｆｉｅｄｎｕｒｓｅａｉｄｅ（認定看護師助手）」および「ｒｅｇｉｓｔｅｒｅｄｎｕｒｓｅ（登録看護師）」。いくつかの例では、仕事内容という属性が他の属性よりも重く重み付けされた場合、ベストマッチ正規名称は、「ａｄｖａｎｃｅｄｐｒａｃｔｉｃｅｍｅｄｉｃａｌｎｕｒｓｅ」として選択されてよい。なぜなら、この正規名称に割り当てられた仕事内容という標識は、新規名称である「ｃｅｒｔｉｆｉｅｄｎｕｒｓｅｍｉｄｗｉｆｅ」に割り当てられた仕事内容という標識に対するベストマッチだからである。他の例では、他の属性または標識をさらに重く重み付けして、ベストマッチ正規名称の異なる選択につなげてよい。
１１．コンピュータハードウェアプラットフォームへの実装

【0109】

図１〜図１３および図１５を参照して以前に記載した方法は、コンピュータハードウェアプラットフォームに実装されてよい。図１４は、複数の標準的な構成要素を備えるコンピュータシステム１４００を示し、構成要素は、名称の大量正規化に関連付けられた機能性の特定の態様を実施するのに使用されてよい。具体的には、コンピュータシステム１４００は、コンピュータ可読命令を実行するための中央処理装置（ＣＰＵ）１４０２；コンピュータ可読命令を記憶するための非一時的なコンピュータメモリ１４０６；データおよびコンピュータ可読命令を記憶するためのディスクストレージ１４０４；ネットワークにアクセスするためのネットワークインターフェース１４１２；システムの出力を表示するための表示デバイス１４０８；および、ユーザからの入力を受け取るための入力デバイス１４１０を備えている。ＣＰＵ、メモリ、ディスク、ディスプレイ、ネットワーク、および入力部は、ユニットどうしの間でデータおよび／またはコンピュータ可読命令を伝送する１つ以上の双方向のバス１４１４で接続されている。

【0110】

図１４のコンピュータシステム１４００を使用して、例えば、図１〜図１３および図１５を参照して記載したような名称の大量正規化を実施できる。例えば、ユーザは、入力デバイスを用いて最初の正規名称の集合を入力でき、これらの名称をディスクストレージに格納できる。ＣＰＵは、名称をｎ−グラムに分解し、グラフィカルユーザインタフェースを稼働させるために使用されてよく、同インターフェースによってユーザは、標識をｎ−グラムまたは稼働中の検証ツールに割り当てることができる。ディスプレイは、例えばホワイトボックス検証の過程で名称の序列を見えるようにするため、あるいはいくつかの基準を満たすユーザプロフィールの一覧を表示するために使用されてよい。ネットワークインターフェースは、例えば内部または外部のネットワークにアクセスしてユーザプロフィール、名称、またはメタデータを取得するために使用されてよい。メモリは、例えば未処理名称を正規名称にマッピングするためのコンピュータプログラムを格納するために使用されてよい。

【0111】

上記の説明は、当業者が様々な実施形態を創作して使用できるように提示されている。特定のデバイス、技術、および適用についての説明は、例として提供しているに過ぎない。本明細書に記載した例に対する様々な修正は、当業者には容易に明らかになることであり、本明細書に規定した全般的な原理は、様々な実施形態の趣旨および範囲を逸脱しない限り、他の例および応用に適用されてよい。そのため、様々な実施形態は、本明細書に記載し図示した例に限定されるものではなく、請求項と一致する範囲に合わせられるものである。
本発明は以下の適用例としても実現できる。
［適用例１］
標識付けした正規名称のデータベースを生成する方法であって、
正規名称の集合を指定すること、
各正規名称に対して正規ｎ−グラムの集合を生成し、各正規ｎ−グラムが、前記正規名称内に１つ以上の連続する単語を含むこと、
正規属性の集合を、正規ｎ−グラムの前記集合にある各正規ｎ−グラムに割り当てること、
正規標識の集合を、各正規ｎ−グラムに対する１つ以上の前記正規属性に割り当てること、および、
各正規名称のうちの少なくとも１つ、各正規名称に対して生成された正規ｎ−グラムの前記集合、各々の前記正規ｎ−グラムに割り当てられた正規属性の前記集合、または前記標識付けした正規名称の前記データベース内の各々の前記正規属性に割り当てられた正規標識の前記集合を格納すること
を含む、方法。
［適用例２］
正規名称の集合を指定することは、
未処理名称の１つ以上の集合を取得すること、および、
未処理名称の各集合内で最も多く現れる未処理名称を、指定正規名称として選択すること
を含む、適用例１に記載の方法。
［適用例３］
正規名称に対して正規ｎ−グラムの集合を生成することは、
正規ユニグラムの集合を生成し、各正規ユニグラムが前記正規名称内で１つの単語であること、
正規バイグラムの集合を生成し、各正規バイグラムが前記正規名称内で２つの連続する単語であること、および、
正規のトリグラムを生成し、各トリグラムが前記正規名称内で３つの連続する単語であること
を含む、適用例１に記載の方法。
［適用例４］
各正規ｎ−グラムに割り当てられた正規属性の前記集合は同じである、適用例１に記載の方法。
［適用例５］
正規標識の集合を割り当てることは、
ユーザが入力した正規標識の前記集合を取得すること、および、
前記取得した正規標識の集合を前記正規属性に割り当てること
を含む、適用例１に記載の方法。
［適用例６］
正規標識の集合を割り当てることは、
事前に生成された正規ｎ−グラムに事前に割り当てられた１つ以上の正規標識を取得すること、および、
各正規名称に対して生成された正規ｎ−グラムの前記集合にある１つ以上の前記正規ｎ−グラムと一致する、事前に生成された各正規ｎ−グラムに対して、
前記取得した事前に割り当てられた正規標識を、前記一致した正規ｎ−グラムに割り当てられた１つ以上の前記正規属性に割り当てること
を含む、適用例１に記載の方法。
［適用例７］
未処理名称の集合を受け取ること、
各未処理名称に対する未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記未処理名称内に１つ以上の連続する単語を含むこと、
未処理標識の集合を、各未処理ｎ−グラムに割り当てられた属性の集合内の１つ以上の属性に割り当て、前記未処理ｎ−グラムに割り当てられた属性の前記集合および前記正規ｎ−グラムに割り当てられた正規属性の前記集合が同じ集合であること、
同一の未処理標識を有する前記未処理名称を代表群にまとめること、
代表名称となる各代表群から未処理名称を選択すること、
各代表名称に関連付けられた前記未処理標識と各正規名称に関連付けられた前記正規標識との比較に基づいて、各代表名称を前記正規名称のうちの１つにマッピングすること、および、
前記代表名称が前記正規名称に正しくマッピングされたかを確認し、前記未処理名称が前記代表名称で正しく表されているかを確認すること
をさらに含む、適用例１に記載の方法。
［適用例８］
未処理名称の集合を受け取ることは、名称の検索から未処理名称の前記集合を受け取ることを含む、適用例７に記載の方法。
［適用例９］
未処理名称の集合を受け取ることは、ユーザが入力した前記未処理名称の集合を受け取ることを含む、適用例７に記載の方法。
［適用例１０］
未処理名称に対して未処理ｎ−グラムの集合を生成することは、
未処理ユニグラムの集合を生成し、各未処理ユニグラムが前記未処理名称内で一単語であること、
未処理バイグラムの集合を生成し、各未処理バイグラムが前記未処理名称内で２つの連続する単語であること、および、
未処理トリグラムの集合を生成し、各未処理トリグラムが前記未処理名称内で３つの連続する単語であること
を含む、適用例７に記載の方法。
［適用例１１］
未処理標識の集合を割り当てることは、
１つ以上の前記未処理名称の前記未処理ｎ−グラムと一致する前記正規ｎ−グラムに対して前記標識付けした正規名称のデータベースを検索すること、および、
前記１つ以上の未処理名称の未処理ｎ−グラムと一致する各正規ｎ−グラムに対して、
前記一致した正規ｎ−グラムの各正規属性に割り当てられた前記正規標識を取得すること、および、
前記取得した正規標識を、前記１つ以上の未処理名称の前記未処理ｎ−グラムの未処理属性に割り当て、前記未処理属性が、前記取得した正規標識に関連付けられた前記正規属性と同じであること
を含む、適用例７に記載の方法。
［適用例１２］
未処理名称を選択することは、前記代表群のうち最も多く発生する未処理名称を代表名称として選択することを含む、適用例７に記載の方法。
［適用例１３］
各代表名称を前記正規名称の１つにマッピングすることは、
前記代表名称に割り当てられた未処理標識の前記集合と同一の標識を有する正規名称に対して、前記標識付けした正規名称のデータベースを検索すること、
前記同一の標識を有する前記正規名称をベストマッチ名称として選択すること
を含み、かつ
ベストマッチ名称が見つからない場合は、
未処理属性に重み係数を割り当てること、
前記標識付けした正規名称のデータベース内の前記正規名称を、前記重み係数に基づいてランク付けすること、および、
最も高くランク付けされた正規名称をベストマッチ名称として選択すること
を含む、適用例７に記載の方法。
［適用例１４］
未処理名称の集合を受け取ること、
各未処理名称に対する未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記未処理名称に１つ以上の連続する単語を含むこと、
各未処理ｎ−グラムに割り当てられた属性の集合内の１つ以上の属性に未処理標識の集合を割り当て、前記未処理ｎ−グラムに割り当てられた属性の前記集合および前記正規ｎ−グラムに割り当てられた属性の前記集合は同じ集合であること、
前記未処理名称の集合を前記正規名称の第１の集合にマッピングすること、
前記未処理名称の集合を前記正規名称の第２の集合にマッピングすること、および、
前記正規名称の前記第１の集合を前記正規名称の前記第２の集合と比較してその差を算出すること
をさらに含む、適用例１に記載の方法。
［適用例１５］
前記未処理名称の集合を前記正規名称の第１の集合にマッピングすることは、前記標識付けした正規名称のデータベースから正規名称を選択して、前記未処理名称の集合内の各未処理名称を表すことを含む、適用例１４に記載の方法。
［適用例１６］
前記未処理名称の集合を前記正規名称の第２の集合にマッピングすることは、各未処理名称の各未処理ｎ−グラムの各属性に割り当てられた前記未処理標識を、各正規名称の各正規ｎ−グラムの各属性に割り当てられた前記正規標識と比較して、ベストマッチを見つけることを含む、適用例１４に記載の方法。
［適用例１７］
前記正規名称のサブ集合を受け取り、該サブ集合が、前記サブ集合内の前記正規名称に割り当てられた正規属性の前記集合と、正規属性の前記集合に割り当てられた正規標識の前記集合とを含むこと、
前記サブ集合内の各々の前記正規属性に重みを割り当てること、
前記サブ集合内の各々の前記正規標識に重みを割り当てること、
前記正規属性の重みと前記正規標識の重みとによって正規名称の前記サブ集合をランク付けすること、および、
ランク付けの順に整列された正規名称の前記サブ集合を表示すること
をさらに含む、適用例１に記載の方法。
［適用例１８］
表示することは、
同じレベルに同じランクを有する前記サブ集合内の前記正規名称を表示すること、および、
ランクの低い前記サブ集合内の前記正規名称よりも高いレベルに、ランクの高い前記サブ集合内の前記正規名称を表示すること
を含む、適用例１７に記載の方法。
［適用例１９］
標識付けした正規名称のデータベースを生成するシステムであって、
メモリ、および、
プロセッサを備え、該プロセッサが、
正規名称の集合を受け取り、
各正規名称に対して正規ｎ−グラムの集合を生成し、各正規ｎ−グラムが、前記正規名称内に１つ以上の連続する単語を含み、
正規属性の集合を、正規ｎ−グラムの前記集合にある各正規ｎ−グラムに割り当て、各正規ｎ−グラムに割り当てられた正規属性の前記集合が同じであり、
正規標識の集合を、各正規ｎ−グラムに対する１つ以上の正規属性に割り当て、かつ、
前記標識付けした正規名称のデータベース内にある各正規名称を、正規ｎ−グラムの前記生成された集合と、各々の前記正規ｎ−グラムに割り当てられた正規属性の前記集合と、各々の前記正規属性に割り当てられた前記正規標識の集合ともにメモリに格納する
ように構成される、
システム。
［適用例２０］
未処理名称を、標識付けした正規名称のデータベース内の正規名称にマッピングする方法であって、
未処理名称を受け取ること、
前記未処理名称に対して未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記正規名称内に１つ以上の連続する単語を含むこと、
正規属性の集合を未処理ｎ−グラムの前記集合内の各未処理ｎ−グラムに割り当て、未処理属性の前記集合が、前記標識付けした正規名称の前記データベースに格納された正規名称に関連付けられた正規属性の集合と同じであること、
未処理標識の集合を、各未処理ｎ−グラムに対する１つ以上の前記未処理属性に割り当てること、ならびに、
前記未処理属性および前記未処理標識と、前記標識付けした正規名称のデータベース内にある各々の前記正規名称に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規名称のデータベース内にある１つ以上のベストマッチ正規名称を決定すること
を含む、方法。
［適用例２１］
前記１つ以上のベストマッチ正規名称を決定することは、
未処理標識の前記集合と同一の標識を有する正規名称に対して前記標識付けした正規名称のデータベースを検索すること、
該正規名称をベストマッチ名称として選択すること、および、
ベストマッチ名称が見つからない場合は、
前記未処理属性に重み係数を割り当てること、
前記標識付けした正規名称のデータベース内の前記正規名称を、前記重み係数に基づいてランク付けすること、および、
最も高くランク付けされた正規名称を前記１つ以上のベストマッチ正規名称として選択すること
を含む、適用例２０に記載の方法。
［適用例２２］
未処理ｎ−グラムの集合を生成する前に前記未処理名称をサニタイズすること
を含み、前記サニタイズすることは、
前記未処理名称からストップワードを除外すること、
前記未処理名称内の文字を大文字から小文字にすること、
前記未処理名称から句読点の第１の集合を取り除くこと、および、
前記未処理名称内で句読点の第２の集合をスペースに置換すること
をさらに含む、適用例２０に記載の方法。
［適用例２３］
各未処理ｎ−グラムに割り当てられた未処理属性の前記集合は同じである、適用例２０に記載の方法。
［適用例２４］
未処理名称を、標識付けした正規名称のデータベース内の正規名称にマッピングするシステムであって、
メモリ、および、
プロセッサを備え、該プロセッサが、
未処理名称を受け取り、
前記未処理名称に対して未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、前記正規名称内に１つ以上の連続する単語を含み、
未処理属性の集合を、未処理ｎ−グラムの前記集合内にある各未処理ｎ−グラムに割り当て、未処理属性の前記集合が同じであり、未処理属性の前記集合が、前記標識付けした正規名称のデータベース内の前記メモリに格納されたに関連付けられた正規属性の集合と同じであり、
未処理標識の集合を、各未処理ｎ−グラムに対する１つ以上の前記未処理属性に割り当て、かつ、
前記未処理属性および前記未処理標識と、前記標識付けした正規名称のデータベース内にある各々の前記正規名称に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規名称のデータベース内にある１つ以上のベストマッチ正規名称を決定する
ように構成される、システム。
［適用例２５］
標識付けした正規データのデータベースを生成する方法であって、
正規データの集合を指定すること、
各正規データ項目に対して正規ｎ−グラムの集合を生成し、各正規ｎ−グラムが、前記正規データ項目内に１つ以上の連続する単語を含むこと、
正規属性の集合を、正規ｎ−グラムの前記集合にある各正規ｎ−グラムに割り当てること、
正規標識の集合を、各正規ｎ−グラムに対する１つ以上の前記正規属性に割り当てること、および、
各正規データ項目のうちの少なくとも１つ、各正規データ項目に対して生成された正規ｎ−グラムの前記集合、各々の前記正規ｎ−グラムに割り当てられた正規属性の前記集合、または前記標識付けした正規データの前記データベース内の各々の前記正規属性に割り当てられた正規標識の前記集合を格納すること
を含む、方法。
［適用例２６］
未処理データを、標識付けした正規データのデータベース内にある正規データにマッピングする方法であって、
未処理データ項目を受け取ること、
前記未処理データ項目に対して未処理ｎ−グラムの集合を生成し、各未処理ｎ−グラムが、正規データ項目内に１つ以上の連続する単語を含むこと、
正規属性の集合を未処理ｎ−グラムの前記集合内の各未処理ｎ−グラムに割り当て、未処理属性の前記集合が、前記標識付けした正規データ項目の前記データベースに格納された前記正規データ項目に関連付けられた正規属性の前記集合と同じであること、
未処理標識の集合を、各未処理ｎ−グラムに対する１つ以上の前記未処理属性に割り当てること、ならびに、
前記未処理属性および前記未処理標識と、前記標識付けした正規データのデータベース内にある各々の前記正規データ項目に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規データのデータベース内にある１つ以上のベストマッチ正規データ項目を決定すること
を含む、方法。
［適用例２７］
前記正規データは正規職業名である、適用例２５に記載の方法。
［適用例２８］
前記正規データは正規職業名であり、前記未処理データは未処理職業名である、適用例２６に記載の方法。

【図1】