(58)【調査した分野】(Int.Cl.,DB名)
前記未処理名称の集合を前記正規名称の第1の集合にマッピングすることは、前記標識付けした正規名称のデータベースから正規名称を選択して、前記未処理名称の集合内の各未処理名称を表すことを含む、請求項14に記載の方法。
前記未処理名称の集合を前記正規名称の第2の集合にマッピングすることは、各未処理名称の各未処理n−グラムの各属性に割り当てられた前記未処理標識を、各正規名称の各正規n−グラムの各属性に割り当てられた前記正規標識と比較して、ベストマッチを見つけることを含む、請求項14に記載の方法。
【発明を実施するための形態】
【0024】
以下の説明には、例示的な方法、パラメータなどについて記載している。ただし、このような説明は、本開示の範囲を限定するものとみなされるのではなく、むしろ様々な例の説明として提供されていることを認識すべきである。
【0025】
これは、未処理名称を正規化して、語義が同等である名称を容易に検索し、分析し、総計する方法およびシステムに関する。名称の正規化は、未処理名称をn−グラムの集合に分解し、各n−グラムに属性および標識を割り当て、これらの属性および標識を用いてそれぞれの未処理名称を対応する正規名称にマッピングすることによって行われてよい。未処理名称とは、何らかの処理がなされる前にユーザによって入力された名称であってよい。n−グラムとは、名称内に含まれる1つ以上の連続する単語の集合であってよい。属性とは、名称の語義の一局面を表すものであってよい。標識とは、属性に割り当てられる単語であってよく、その属性に関連する情報を提供できるものである。標識と属性とを合わせると、名称に関する主な語義情報を取得できる。正規名称とは、未処理名称と語義が同様の集合を表現するために使用される名称であってよい。
【0026】
未処理名称を正規名称にマッピングするための手法を、
図1〜
図13を参照して以下にさらに詳細に説明していく。
【0027】
様々な例に従った名称の正規化には補足的態様が2つあってよい。第1の態様では、標識付けした正規名称のデータベースを生成して検証してよい。このプロセスは、専門家の入力と反復分析との組み合わせを利用してデータベースを蓄積し、(標識を改良することによって)システムを訓練して、システムが未処理名称を正規名称に正確にマッピングするようにできる。第2の態様では、標識付けした正規名称のデータベースが生成されて検証されれば、そのデータベースは、標識の類似性に基づいて新規名称を既存の正規名称に迅速にマッピングするために、本明細書に記載するn−グラム標識マッチングアルゴリズムによって使用されることができ、そのようにして、新規名称の効率的な検索、分析および総計を可能にする。
【0028】
主要概念を説明するため、本明細書に記載した例は、職業名の正規化に関するものである。ただし、本明細書に記載した方法およびシステムを多くの他の種類の名称に適用でき、この場合の「名称(title)」は、会社名、教育上の名称(専攻、学位、コース、または大学など)、住所の名称(通りや都市など)、趣味の名称、および多くの他の種類の名称またはデータを含むように幅広く解釈できるものである。例にある職業名の使用を限定的なものと解釈してはならず、これらの例は説明のみを目的として挙げられている。
3.標識付けした正規名称のデータベースを生成して検証する方法
【0029】
開示したシステムおよび方法の第1の態様は、未処理名称の集合を正規化した後、データベースを繰り返し検証して訓練することによって、標識付けした正規名称のデータベースを生成し、そのデータベースを使用して新規名称を正規名称に正確にマッピングできるようにすることを必要としてよい。
【0030】
図1は、未処理名称を正規化して正規名称のデータベースを生成し、そのデータベースを検証するための例示的な方法100を示している。
図1は全体の方法を示しているのに対し、
図2〜
図9は方法の各部分を詳細に示している。
【0031】
図1の例では、ブロック102で、標識付けした正規名称のデータベースを生成できる。いくつかの例では、標識付けした正規名称のデータベースは、
図2を参照して以下に記載したように生成されてよい。
【0032】
ブロック104では、ホワイトボックス検証を実施できる。ホワイトボックス検証は、未処理名称がどのように正規名称にマッピングされたかを示す透視図を提供でき、そのようにして、さらに上級のマッピングをするために正規名称に関連付けられた標識を更新するかどうかをユーザ(またはプログラム)が評価できるようにできる。いくつかの例では、ホワイトボックス検証は、
図5を参照して記載したように実施されてよい。
【0033】
ブロック106では、ブラックボックス検証を実施できる。ブラックボックス検証を使用して、n−グラム標識マッチングアルゴリズムの効率を別のマッピング方法と比較できる。いくつかの例では、ブラックボックス検証は、
図8を参照して記載したように実施されてよい。
【0034】
いくつかの例では、ホワイトボックス検証、ブラックボックス検証、またはこの両方は、システムの要件に応じて任意選択で使用してよい。
【0035】
これらのブロックの各々を以下にさらに詳細に説明する。
4.標識付けした正規名称のデータベースの生成
【0036】
図2は、
図1のブロック102に示したように標識付けした正規名称のデータベースを生成するための例示的な方法200を示している。
a.正規名称の集合を指定する
【0037】
図2の例では、ブロック202で、正規名称の集合を指定できる。正規名称は、例えば、キーワード検索に基づいてユーザプロフィールのデータベースから集積された未処理名称のプールから選択されてもよいし、あるいはユーザによって入力されてもよいし、あるいはいくつかの他のソースから受け取られてもよい。いくつかの例では、集積された未処理名称の集合から最も多く現れる未処理名称を正規名称として指定してよい。代替例では、(例えば具体的な業界に対する)主題の専門家が、正規名称の集合を手動で指定してよい。
【0038】
職業名の例を用いて正規名称を指定するプロセスを説明するために、未処理名称の集合を、例えば「nurse(看護師)」というキーワードで検索してユーザプロフィールのデータベースから集積してよい。この検索によって現れた未処理名称の集合は、「R.N.」(25ヒット)、「Registered Nurse(登録看護師)」(12ヒット)、「Reg.Nurse」(3ヒット)などを含んでいてよい。この場合、最も多く発生する未処理の職業名、「R.N.」を、正規の職業名として指定してよい。このようにする代わりに、主題の専門家または他のユーザが、検索によって取得された未処理の職業名の集合を精査し、集積された未処理名称の検索能力の経験的分析に基づいて1つ以上の正規の職業名を指定してもよい。例えば、ユーザは、サンプルとして取った未処理名称の集合内で現れている「registered nurse(登録看護師)」が「R.N.」よりも少ないとしても、「registered nurse(登録看護師)」を正規名称として指定してよい。
【0039】
いくつかの例では、指定した正規名称の集合は、追加の処理を受ける前にサニタイズされてよい。サニタイズ(Sanitization)は、例えば、ストップワードを除外すること、いくつかの形態の句読点(ピリオドやカンマなど)を除外すること、ハイフンをスペースに置換すること、大文字を小文字にすること、あるいは、その名称の意味に影響を及ぼさないフォーマット、特徴または単語を削除するために未処理名称を処理することを必要としてよい。いくつかの例では、サニタイズは、データベース生成の速度および精度を改善できることである。
b.n−グラムの集合を生成する
【0040】
ブロック204では、ブロック202で指定された各々の正規名称に対してn−グラムの集合を生成できる。n−グラムは、1つの名称内に1つ以上の連続する単語を含んでいてよく、この場合、連続する単語数の範囲は1からnである。n=3の場合、n−グラムの集合は、その名称に含まれるユニグラム(単一の単語)、バイグラム(2つの連続する単語)、およびトリグラム(3つの連続する単語)からなる集合を含んでいてよい。各名称に対して生成されたn−グラムの数は、名称(x)内の単語数およびnの値によって異なっていてよい。一般に、x個の単語からなる名称の場合、x個のユニグラム、(x−1)個のバイグラム、および(x−2)個のトリグラムなどがあってよい(xは十分大きいと仮定する)。
【0041】
1つの名称から1つのn−グラムの集合を生成する方法は多数あってよいことを理解すべきである。例えば、n−グラムは、ユーザが名称に対する各n−グラムをユーザインターフェースに入力するようにさせることによって手動で生成されてもよいし、あるいはn−グラムは、アルゴリズムの構文解析を用いて自動で生成されてもよい。正規名称に対して生成されたn−グラムの集合は、正規名称とともにデータベースに格納されてよい。
【0042】
引き続き職業名を正規化する例に関して、
図3は、n=3の場合に1つの職業名に対して生成されたn−グラムの一覧を示している。すなわちこの場合、名称に対して可能な最大のn−グラムは、その名称内に3つの連続する単語を含む。
図3の例では、名称「registered charge nurse ICU(登録担当看護師ICU)」は、4単語の名称であり、この4単語から生成された以下のn−グラムの集合を有していてよい:registered、charge、nurse、ICU(ユニグラム);registered charge、charge nurse、nurse ICU(バイグラム);registered charge nurse、charge nurse ICU(トリグラム)。n=4であれば、n−グラムの集合は「registered charge nurse ICU」も含むことになる。
【0043】
nの値(つまり、n−グラム内にあってよい最大単語数)は、検討対象の名称の種類の特徴に基づいて選択されてよい。職業名の場合、n=3という値は、正規化の目的に対して良好な結果を出すために経験的に算出されたものだが、これ以外の値を使用してもよい。他の種類の名称に対して、または英語以外の言語に対しては、異なる値のnの方が適切なことがある。
c.n−グラムに属性を割り当てる
【0044】
再び
図2を参照すると、ブロック206で、各々のn−グラムに属性の集合を割り当てることができる。同じ属性は、1つ1つのn−グラムに割り当てられてよく、データベース内で正規化される名称の種類の主要な特徴に基づくものであってよい。職業名の例では、n−グラムに割り当てられた属性の集合は、例えば、仕事内容、専門性、年齢層、職種、および資格を含んでいてよい。この場合、各々のn−グラムは、同じ5つの属性の関連集合を有していてよい。
【0045】
「nurse」の例に戻ると、「nurse」というユニグラムは、それに割り当てられたこの5つの属性を有していてよく、「registered nurse」というバイグラムも、指定された正規の職業名内の1つ1つの他のn−グラムも同様であってよい。ブロック208に関して以下で考察するように、これらの属性を用いて、各々のn−グラムに付いての情報を標識の形態で取得できる。
【0046】
上記の例は、5つの属性からなる具体的な集合の使用法について記載しているが、職業名を正規化するために、対象となる職業名の特徴に応じてこれに代わる属性の集合を用いてもよい。同じように、正規化する対象の他の種類の名称を、異なる属性の集合で特徴付けてよい。例えば、会社名の場合、割り当てられた属性の集合は、業界、製品、規模、および所在地を含んでいてよい。
d.属性に標識を割り当てる
【0047】
ブロック208では、標識の集合を各n−グラムの各属性に割り当てることができる。これらの標識は、名称の語義を取得しやすくでき、続いて語義が類似している名称の変形形態を識別するのに使用されてよい。いくつかの例では、標識は、属性に関連する情報を提供でき、検討対象の各n−グラムに含まれる単語に基づくものであってよい。例えば、「registered nurse」というバイグラムの場合、仕事内容という属性は、「nurse」の標識を割り当てられてよく、資格という属性は、「registered」の標識を割り当てられてよい。割り当てられた標識は、n−グラムに含まれる単語を含んでいてもいなくてもよい。各属性は、複数の標識を割り当てられてもよいし、あるいは、n−グラムが属性に属する関連情報を含んでいなければ標識がまったくなくてもよい。例えば、「nurse」というユニグラムの場合、資格という属性は、関連付けられた標識がなくてもよい。なぜなら、このユニグラムは、資格に関する情報を含んでいないからである。いくつかの例では、単一の標識が複数の単語を含んでいることがある。
【0048】
図4は、n−グラム、属性、および標識の表を示している。
図4に示したように、未処理名称の「registered nurse,PICU」には、「registered」、「nurse」、「PICU」、「registered nurse」、「nurse PICU」、および「registered nurse PICU」というn−グラムがあってよい。n−グラムには、仕事内容、専門性、資格、年齢層、および職種という属性があってよい。各々のn−グラムには、関連する属性に割り当てられた様々な標識があってよい。例えば、「nurse」というn−グラムには、仕事内容という属性に対して「nurse」という標識;年齢層に対して「低」;および職種に対して「nursing(看護)」があってよい。いくつかの属性には、それに割り当てられた複数の標識があるが、他の属性にはないことがあってよい。
【0049】
標識は、例えばユーザインターフェースのテキストボックスに手動で入力することによって属性に割り当てられてもよいし、あるいは所定の標識のメニューから選択されてもよい。このようにする代わりに、標識付けする対象のある特定のn−グラムが事前に標識付けされていて正規名称のデータベースに格納されている場合、既存のn−グラムに関連付けられた標識は、データベースから取得されて現在のn−グラムの対応する属性に自動的に割り当てられてもよい。このように、既存の正規名称に事前に割り当てられた標識は、n−グラムをマッチングすることに基づいて新規名称に自動的に適用されてよい。この手法で、新規名称のn−グラムに標識付けするのに必要な労力を減らすことができ、標識付けした正規名称のデータベースが大きくなるにつれて、最も多い新規名称を自動的に標識付けできる可能性がある。
【0050】
いくつかの例では、生産性を上げるために、ユーザが、n−グラムのサイズ順にn−グラムに標識を割り当てることができる。つまり、ユーザは、標識をまずすべてのユニグラムに割り当て、次にバイグラムに割り当て、次にトリグラムに割り当ててもよい。いくつかの例では、この手法で、ユニグラムに割り当てられた標識を、そのユニグラムを含むバイグラムに自動的に分散できる可能性がある。同じように、特定のユニグラムまたはバイグラムに関連付けられた標識を、これらのユニグラムおよび/またはバイグラムを含むトリグラムに自動的に分散できる。また、この手法で、新規名称に対してn−グラムを標識付けするのに必要な労力を減らすことができる。
【0051】
いくつかの例では、ユーザは、大きい方のn−グラムが提供する追加内容に基づいて、小さい方のn−グラムから順に分散された標識のいくつかを削除してよい。例えば、正規の職業名が「nurse recruiter(看護師採用担当者)」であれば、「nurse」というユニグラムは、仕事内容という属性に割り当てられた「nurse」の標識を有していてよい。この標識はその後、バイグラム「nurse recruiter」に対する仕事内容という属性に分散されてよい。ただし、バイグラム「nurse recruiter」を分析する際に、標識「nurse」はこのバイグラムにふさわしい標識ではないと判断されることがあり、この標識は、バイグラムに関連付けられた属性から削除されることがある(しかし、「nurse」というユニグラムに関連付けられた仕事内容という属性に割り当てられたままである)。そのため、aバイグラム(またはトリグラム)がそれを構成しているユニグラム(またはバイグラム)の標識すべてには割り当てられないことがある。
【0052】
上記の標識付けする手法の1つの結果は、一つの名称がこの名称に何度か割り当てられた同じ標識を有することがあり得ることである。例えば、名称「registered nurse」は、その「nurse」というユニグラムとその「Registered Nurse」というバイグラムとの両方に割り当てられた標識「nurse」を有していてよい。そのため、名称は、標識「nurse」の2つのインスタンスに関連付けられていてよい。逆に、名称「nurse recruiter」は、ユニグラム「nurse」に割り当てられているがバイグラム「nurse recruiter」には割り当てられていない標識「nurse」を有していてよい。そのため、この名称は、標識「nurse」の1つのインスタンスのみに関連付けられてよい。
【0053】
標識を属性に割り当てるプロセスは、事前に割り当てられた標識どうしを合体することでさらに高度にでき、この標識は後に同義語であると判断される。例えば、「ICU」(Intensive Care Unit、集中治療部)は、「CCU」(Critical Care Unit、救急治療部)と語義が同じであると判断されてよい。この場合、2つの標識は、一つの標識を用いて両方の変形形態を表せるように合体されてよい。この目的のために選択された一つの標識は、変形形態のうち最も多く発生するものであってよいし、あるいは別の基準で選択されてもよい。次にこの一つの標識は、同じ変形形態のいずれかを含むすべての標識のインスタンスに代わって、正規データベース全体で用いられてよい。
5.ホワイトボックス検証
【0054】
標識付けした正規名称のデータベースが生成されると、このデータベースは、ホワイトボックス検証を用いて検証され、高度化されてよい。
図5は、
図1のブロック104に示したように、ホワイトボックス検証を実施するための例示的な方法500を示している。
【0055】
図5の例では、ブロック502で、未処理名称の集合を受け取ることができる。未処理名称の集合は、例えば、ユーザプロフィールのデータベースから名称を取得した検索エンジンから受け取られてもよいし、あるいはユーザから、またはディスク上のファイルから、または何らかの他のソースから受け取られてもよい。いくつかの例では、未処理名称の集合は、さらに処理される前に、
図1を参照して示したものと同じ方法でサニタイズされてよい。
【0056】
ブロック504では、ブロック502で受け取った未処理名称の各々に対してn−グラムの集合を生成できる。n−グラムは、
図2を参照して以前に記載したように生成されてよい。
【0057】
ブロック506では、ブロック504で生成されたn−グラムの各々に関連付けられた属性に標識の集合を割り当てることができる。(未処理名称の属性は、データベース内の正規名称に使用されたものと同じ属性を含んでいてよい。)標識は、
図2を参照して以前に記載したように割り当てられてよい。いくつかの事例では、標識は、標識付けした正規名称のデータベース内の未処理名称のn−グラムを調べてこれらのn−グラムに関連付けられた標識を取得することによって、未処理名称に自動的に割り当てられてよい。
【0058】
ブロック508では、同一の標識を有する未処理名称を一緒にまとめることができる。これらの群は、語義が類似または同じであると考えられる未処理名称を含んでいてよい。
【0059】
ブロック510では、同一の標識を有する名称の各群に対して代表名称を指定できる。代表名称は、この未処理名称の群を代表するために選択されてよい。いくつかの例では、代表名称は、群を代表するために、群内で最も多く発生する未処理名称を選定することによって自動的に選択されてよい。代替の例では、代表名称は、ユーザに指定されるか、あるいは何らかの他の基準に基づいて自動的に選択されてよい。代表名称は、未処理名称と正規名称との間の中間の名称としての役割を果たしてよく、未処理名称を正規名称にマッピングするのを効率的に精査する手段となってよい。
【0060】
ブロック512では、各代表名称は、データベース内の正規名称にマッピングされてよい。いくつかの例では、代表名称は、
図6を参照して以下で考察するように、n−グラム標識マッチングアルゴリズムを用いて正規名称にマッピングされてよい。
【0061】
ブロック514では、未処理の職業名が代表の職業名によって正確に表されているかどうかを判断し、かつ、代表の職業名がn−グラム標識マッチングアルゴリズムによって正規の職業名に正確にマッピングされているかどうかを判断するために、名称の序列を精査できる。この精査でユーザ(またはプログラム)は、未処理名称に割り当てられた標識で代表名称の正確な指定が可能になったどうか(すなわち標識によって一緒にまとめられた未処理名称が、実際に語義が同じかどうか)を判断でき、かつ、代表名称と正規名称との良好なマッチングを実現するために、正規名称に関連付けられた標識でn−グラムマッチングアルゴリズムが可能になったかどうかを判断できる可能性がある。
【0062】
いくつかの例では、序列は、グラフィカルユーザインタフェース上で見て精査されてよい。いくつかの例では、名称の序列は、正規名称、代表名称、および未処理名称を含んでいてよい。
図7は、名称の序列を精査するためのグラフィカルユーザインタフェースのスクリーンショットを示している。各正規名称は、その正規名称にマッピングされた代表名称とともに、代表名称によって表されている未処理名称と共に表示されてよい。したがって、未処理名称はすべて、その上に表示された一つの正規名称にマッピングされてよい。下方レベルの序列は、上方レベルのみを見えるようにするために折り畳まれてよい。例えば、正規名称および代表名称のみが見えて、未処理名称を見せないようにすることが可能であってよい。1つ1つの未処理名称を精査するのではなく、未処理名称の群を表す代表名称を精査することによって、精査対象の名称の数を大幅に減らすことができ、このようにして精査プロセスの速度および効率を上げる。
【0063】
職業名の序列の精査に基づいて、ユーザは、データベース内の正規名称に関連付けられたn−グラムの標識を更新して、n−グラムマッチングアルゴリズムで未処理名称を正規名称にさらに正確にマッピングできるようにすることを決定できる。
【0064】
これに代わる例では、精査は、未処理の職業名が正確に表現されマッピングされているかどうかを判断するために、コンピュータによって自動的に実施されてよい。
6.N−グラムの標識をマッチングする方法
【0065】
標識付けした正規名称に新規名称をマッピングするために、n−グラム標識マッチングアルゴリズムを用いてよい。このアルゴリズムは、本明細書に記載した名称を正規化するシステムの一体化した一部であってよい。このアルゴリズムは、
図5を参照して以前に考察したように、データベースを検証するプロセスの一部として使用されよく、また
図11を参照して後に考察するように、データベース全体に対して名称を検索し、分析し、総計するために使用されてもよい。
【0066】
図6は、
図5のブロック512に示したように、「ベストマッチ」の正規名称を選定することによって、標識付けした正規名称に新規名称をマッピングするための例示的なn−グラム標識マッチングアルゴリズム600を示している。
【0067】
図6の例では、ブロック602で、新規名称を受け取ることができる。この新規名称は、例えば、データベースを検索した結果として受け取られてもよいし、あるいは、例えば類似の名称をデータベースで検索する目的で、ユーザによって入力されてもよい。いくつかの例では、新規名称は、未処理名称であってよい。
【0068】
ブロック604では、新規名称に対してn−グラムの集合を生成できる。いくつかの例では、n−グラムは、
図2を参照して記載したように生成されてよい。
【0069】
ブロック606では、新規名称に標識を割り当てることができる。いくつかの例では、標識の集合は、以前に記載したように、新規名称の各々のn−グラムの各属性に割り当てられてよい。いくつかの例では、標識は、ユーザによって手動で割り当てられてよい。他の例では、標識は、標識付けした正規名称のデータベース内の新規名称のn−グラムを調べ、そのデータベースからそれらのn−グラムに関連付けられた標識を取得することによって自動的に割り当てられてよい。いくつかの例では、新規名称は、標識付けを必要としないことがある。例えば、新規名称は、ブロック602で受け取られる前に、事前に標識付けされていることがある。
【0070】
ブロック608では、いずれかの正規名称が標識付けした新規名称の標識と同じ標識を有するかどうかを判断するために、標識付けした正規名称のデータベースを検索できる。同一であると考えられる標識の場合、正規名称および新規名称は、同じ属性に割り当てられた同じ標識を有していなければならない。新規名称の標識と同一の標識を有する正規名称がある場合、その正規名称は、新規名称に対するベストマッチとして選択されてよい。
【0071】
ブロック608でベストマッチが見つからなければ、次にブロック610で各々の属性に重み係数を割り当てることができる。いくつかの例では、属性は、マッチング用に特定の名称の特徴を強調するために重み付けされてよい。例えば、仕事内容という属性は、年齢層という属性よりも重く重み付けされてよい。なぜなら、仕事内容の方がマッチング特徴が重要であると考えてよいからである。重み係数は、以下で記載するようにベストマッチの正規名称を識別しやすくするのに使用されてよい。
【0072】
ブロック612では、新規名称に対するベストマッチを判断するために、重み付けされた属性に基づいて正規名称をランク付けできる。上記の例では、(新規名称の仕事内容という標識に関連する)仕事内容という属性に対して類似または同一の標識を有する正規名称を、他の属性に対して類似または同一の標識を有する正規名称よりも高くランク付けしてよい。
【0073】
ブロック614では、最も高くランク付けした正規名称(または複数の正規名称が同じランクを有している場合は、名称)を(1つまたは複数の)ベストマッチ名称として選択できる。
【0074】
ブロック614で複数の正規名称がベストマッチとして選択された場合、ブロック616で、一つのベストマッチ名称を決定するために新規名称の曖昧さを取り除くことができる。いくつかの例では、この曖昧さを取り除くことにより、ブロック614で選択されたベストマッチ正規名称のうちどれが新規名称に対する一つの最も適切なベストマッチ名称なのかを判断できる。いくつかの例では、新規名称は、
図9を参照して後にさらに詳細に記載するように曖昧さを取り除かれてよい。
【0075】
ブロック618では、ブロック608、614、または616で選択されたベストマッチ正規名称を伝送できる。ベストマッチ正規名称は、例えば、ホワイトボックス検証の精査で使用するために伝送されてもよいし、あるいは、何らかの他のユーザインターフェース、または格納用ディスクに伝送されてもよい。
【0076】
前述したn−グラム標識マッチングアルゴリズムは、名称自体のマッチング(またはn−グラムのマッチング)に基づいてではなく、名称の特徴を捕らえるn−グラムの標識のマッチングに基づいていてよいため、同じ構成単語をまったく含んでいないが語義が同じである正規名称に新規名称をマッピングしてよいことを理解すべきである。例えば、「canine coach(犬のコーチ)」の新規名称であれば、それに関連付けられた標識を基準に自動的に「animal trainer(動物トレーナ)」の正規名称にマッピングされてよく、2つの名称に共通の単語がなくてもよい。
7.ブラックボックス検証
【0077】
図1に示したようなデータベースを生成して検証する例示的な方法に戻ると、実施すべき次の検証の種類は、ブラックボックス検証であろう。ブラックボックス検証は、未処理名称の一つの集合を正規名称の集合にマッピングするのを、2つの異なる方法を用いて比較するために用いられてよい。いくつかの例では、その方法の一方は、マッピング精度を良好にすると思われる「ベースライン」方法であってよく、もう一方の方法は、
図6を参照して前述したようなn−グラム標識マッチングアルゴリズムであってよい。ブラックボックス検証は、正規のデータベース内にある現在のn−グラムの標識でn−グラムマッチングアルゴリズムが十分に正確なマッピングを実施できるのかどうかを、ベースライン方法に関して評価を提供できる。
【0078】
図8は、ブラックボックス検証に対する例示的なプロセス800を示している。
【0079】
図8の例では、ブロック802で、未処理名称の集合を受け取ることができる。未処理名称の集合は、例えば、ユーザプロフィールのデータベースから名称を取得した検索エンジンから受け取られてもよいし、あるいはユーザから、またはディスク上の電子ファイルから、または何らかの他のソースから受け取られてもよい。未処理名称の集合は、ホワイトボックス検証のために使用された未処理名称の同じ集合であってもよいし、あるいは未処理名称の異なる集合であってもよい。
【0080】
ブロック804では、未処理名称の集合を、ベースライン方法を用いて、標識付けした正規名称のデータベースにある正規名称の第1の集合にマッピングできる。いくつかの例では、ベースライン方法は、未処理名称の経験的分析に基づいて、かつ(いくつかの例では)関連付けられたメタデータ、例えば学歴、以前の職業名、またはその他の種類のデータに基づいて、人に手動で未処理の職業名をデータベース内の正規名称にマッピングさせることを伴ってよい。他の例では、ベースライン方法は、異なる種類の手動の手法またはアルゴリズムによる手法を用いて未処理名称を正規名称にマッピングすることを含んでいてよい。いくつかの例では、ベースライン方法を、100%のマッピング精度を実現すると仮定する「ゴールドスタンダード」であると考えてよい。
【0081】
ブロック806では、
図2および
図6を参照して以前に記載したように、未処理名称のn−グラムの属性に標識を割り当てる。
【0082】
ブロック808では、
図6を参照して記載したもののようなn−グラム標識マッチングアルゴリズムを用いて、標識付けした未処理名称を正規名称のデータベース内の正規名称の第2の集合にマッピングする。
【0083】
ブロック810では、(ブロック804で生成された)正規名称の第1の集合を(ブロック808で生成された)正規名称の第2の集合と比較できる。いくつかの例では、正規の職業名の2つの集合は、n−グラム標識マッチングアルゴリズムの精度を評価するために自動的に比較されてよい。
【0084】
ブロック812では、正規名称の第1の集合を正規名称の第2の集合と比較した結果を出力できる。この比較は、例えば表示画面上に出力されてよい。出力は、例えば正規名称の2つの集合、またはベースライン方法と比較したn−グラム標識マッチングアルゴリズムのマッピング精度に関する統計を、完全または部分的に列挙することを含んでいてよい。出力は、ベースライン方法を用いて生成された正規名称の集合と比較した、偽陽性(すなわち、マッチングされるべきではないときに未処理の職業名が正規の職業名に誤ってマッチングされた場合)の割合と、偽陰性(すなわち、未処理の職業名が正規の職業名にマッチングされるべきだったがそうならなかった場合)の割合とを含んでいてよい。このような統計を用いて、さらに良好なマッピングを可能にするために正規名称のn−グラムの標識を見直すかどうかを判断できる。
8.名称の曖昧さを取り除く
【0085】
図6を参照して以前に考察したように、いくつかの事例では、新規名称が最初に2つ以上の正規名称にマッピングされてよい。例えば、「CNA」の新規職業名であれば、最初に2つの正規名称、「Certified Nurse Assistant(認定看護師助手)」および「Certified Network Administrator(認定ネットワーク管理者)」にマッピングされてよいこの曖昧さは、新規名称に対して最も適切な正規名称を特定するために、マッピングプロセスで更なる曖昧さ除去を必要とすることがある。
【0086】
図9は、新規名称の曖昧さを取り除くための例示的なプロセス900を示している。このプロセスを用いて、新規名称が最初に複数の正規名称にマッピングされてよい場合に、一つのベストマッチ正規名称を特定できる。
【0087】
図9の例では、ブロック902で、ユーザプロフィールに関連付けられた新規名称を受け取ることができる。新規名称は、例えばユーザから受け取られてもよいし、あるいは
図6を参照して記載したように、n−グラム標識マッチングアルゴリズムからのパラメータとして受け取られてもよい。
【0088】
ブロック904では、2つ以上の選択された正規名称を受け取ることができる。いくつかの例では、2つ以上の正規名称は、例えば、
図6を参照して以前に記載したようにn−グラム標識マッチングアルゴリズムに基づいて、ブロック902で受け取った新規名称に対するベストマッチ正規名称として選択されたものであってもよいし、あるいは別のマッピング方法に基づいて選択されたものであってもよい。
【0089】
ブロック906では、ブロック902で受け取った新規名称に関連付けられたユーザプロフィールからメタデータを取得できる。このようなメタデータは、例えば、学歴、地理的所在地、以前の職業名、現在の雇用者、および以前の雇用者を含んでいてよい。
【0090】
ブロック908では、ブロック906で受け取ったメタデータを用いてユーザのカテゴリを決定できる。職業名の例では、カテゴリは、ユーザの現在または以前の雇用者に関連付けられた業界であってよく、これは、データベース内の現在または以前の雇用者を調べて、公開データまたは購入データを用いて業界を特定することによって決定されてよい。代替の例では、カテゴリは、例えば学歴情報、地理的所在地、または他のメタデータを調べることによって決定されてよい。
【0091】
ブロック910では、ブロック908で決定されたカテゴリに基づいて、ブロック904で受け取った2つ以上の正規名称から一つのベストマッチ正規名称を選択できる。いくつかの例では、一つのベストマッチ正規名称は、ブロック908で決定されたカテゴリに統計的に最もよく関連付けられていると思われる正規名称を選択することによって選択される。名称とカテゴリとの関連性に関するこのような統計は、例えば事前に収集されるか、計算されるか、購入されたものであってよい。
【0092】
例として、CNAの新規職業名を、2つの正規名称、つまりCertified Nurse Assistant(認定看護師助手)およびCertified Network Administrator(認定ネットワーク管理者)にマッピングできることを思い出していただきたい。この例では、ユーザの業界が医療であると判断された場合、Certified Nurse Assistantの正規名称は、Certified Network Administratorではなくベストマッチ名称として選択されてよい。なぜなら、Certified Nurse Assistantという名称は、Certified Network Administratorという名称よりも統計的に医療業界に関連付けられていると思われると判断されてよいからである。逆に、ユーザの業界がコンピュータハードウェアであると判断された場合、Certified Network Administratorという名称は、一つのベストマッチ正規名称として選択されてよい。
9.機能ツリーの生成
【0093】
図10は、機能ツリーを生成するための例示的なプロセス1000を示している。機能ツリーとは、正規名称どうしの関係を視覚的に表現したものであってよい。職業名の内容では、機能ツリーが例えば典型的な経歴を表していてよい。
【0094】
図10の例では、ブロック1002で、1つのカテゴリに対して標識付けされた正規名称の集合を、標識付けした正規名称のデータベースから取得できる。職業名の例では、カテゴリは、例えば特定の業界であってよい。
【0095】
ブロック1004では、正規名称の各属性に重みを割り当てることができる。例えば、仕事内容という属性を資格という属性よりも高くランク付けできる。これらの重みは、
図6を参照して以前に記載したものと類似の方法で割り当てられてよい。
【0096】
ブロック1006では、正規名称の各属性の各標識に重みを割り当てる。例えば、「nurse」という標識を「瀉血医」という標識よりも高く重み付けできる。これらの重みは、属性に重みを割り当てるのに記載した方法と同じように割り当てられてよい。
【0097】
ブロック1008では、標識付けした正規名称の集合を、まず属性ごとに、次に標識ごとにランク付けできる。このランク付けで、類似の属性を有し、かつ類似の標識を有する名称をその属性内で一つにまとめる。他の例では、正規名称は、例えば属性ごとにのみ、または標識ごとにのみランク付けされてよい。
【0098】
ブロック1010では、正規名称をそのランクによって整理して機能ツリーとして表示する。いくつかの例では、ランクが同じである正規名称は同じ縦のレベルに表示され、ランクが高い名称は、ランクが低い名称よりも高いレベルに表示される。
【0099】
図15は、正規の職業名の集合に対する機能ツリーを示している。
図15の例では、機能ツリーは、「clinical manager(臨床マネージャ)」という正規名称で表現された職業を有する人物の典型的な経歴を示していてよい。ある経歴は、代表的な正規名称である「industrial hygienist(産業衛生士)」、「medical scientist(医学者)」、または「public health inspector(公衆衛生検査官)」のうちのいずれかで表された職業から始まり、これに正規名称「epidemiologist(疫学者)」で表された職業が続き、これに正規名称「clinical manager(臨床マネージャ)」で表された職業が続いていてよい。別の経歴は、正規名称「environmental health officer(環境衛生官)」で表された職業から始まり、これに正規名称「clinical manager(臨床マネージャ)」で表された職業が続いていてよい。
10.新規名称を正規名称にマッピングする方法
【0100】
以前に考察したように、名称の正規化には2つの態様がある。第一に、
図1〜
図9を参照して以前に記載したように、標識付けした正規名称のデータベースを生成して検証できることである。データベースが生成されると、そのデータベースを、新規名称を既存の正規名称にマッピングするn−グラム標識マッチングアルゴリズムが使用できる。この第2の態様によって、例えば、採用者が所望の新規名称を入力し、この新規名称が正規名称にマッピングされるようにでき、次にこの正規名称を使用して、職業名が同じ正規名称にマッピングされている候補者のプロフィールを特定できる。
【0101】
図11は、標識付けした正規名称のデータベース内の正規名称に新規名称をマッピングするための例示的なプロセス1100を示している。
【0102】
図11の例では、ブロック1102で、新規名称を受け取ることができる。いくつかの例では、新規名称は、ユーザによってグラフィカルユーザインタフェースに入力されもよいし、あるいはユーザプロフィールのデータベースから取得されてもよい。いくつかの例では、新規名称は未処理名称であってよい。
【0103】
ブロック1104では、ブロック1102で受け取った新規名称に対してn−グラムの集合を生成できる。n−グラムは、例えば
図2を参照して以前に記載したように生成されてよい。
【0104】
ブロック1106では、ブロック1104で生成されたn−グラムを用いて同一のn−グラムに対する正規名称データベースを検索し、それらのn−グラムに関連付けられた属性の標識を取得する。
【0105】
ブロック1108では、正規のデータベースから取得したn−グラムの属性の標識を、新規名称のn−グラムの対応する属性に割り当てることができ、このようにして標識付けした新規名称を作成する。いくつかの例では、ユーザが新規名称のn−グラムの属性に標識を割り当ててよい。
【0106】
ブロック1110では、
図6を参照して以前に記載したようにn−グラムマッチングアルゴリズムを用いて、標識付けした新規名称を正規名称にマッピングできる。
【0107】
前述したように新規名称が正規名称にマッピングされると、この正規名称を使用して、ユーザプロフィールのデータベースを検索し、同じ正規名称にマッピングされた名称を有するユーザを特定できる。この意味で、正規名称は、新規名称とユーザプロフィールに含まれる名称との間の橋渡しとなることができる。
【0108】
図12は、例示的な標識付けした新規名称、「certified nurse midwife(認定看護助産師)」およびそれに関連付けられたn−グラムおよび標識を示している。
図13A〜
図13Cは、3人の候補者の正規名称を示し、
図12に示した新規名称は、標識の類似性に基づいてこの3つの正規名称に対してマッピングされてよい:「advanced practice registered nurse(高度実践登録看護師)」、「certified nurse aide(認定看護師助手)」および「registered nurse(登録看護師)」。いくつかの例では、仕事内容という属性が他の属性よりも重く重み付けされた場合、ベストマッチ正規名称は、「advanced practice medical nurse」として選択されてよい。なぜなら、この正規名称に割り当てられた仕事内容という標識は、新規名称である「certified nurse midwife」に割り当てられた仕事内容という標識に対するベストマッチだからである。他の例では、他の属性または標識をさらに重く重み付けして、ベストマッチ正規名称の異なる選択につなげてよい。
11.コンピュータハードウェアプラットフォームへの実装
【0109】
図1〜
図13および
図15を参照して以前に記載した方法は、コンピュータハードウェアプラットフォームに実装されてよい。
図14は、複数の標準的な構成要素を備えるコンピュータシステム1400を示し、構成要素は、名称の大量正規化に関連付けられた機能性の特定の態様を実施するのに使用されてよい。具体的には、コンピュータシステム1400は、コンピュータ可読命令を実行するための中央処理装置(CPU)1402;コンピュータ可読命令を記憶するための非一時的なコンピュータメモリ1406;データおよびコンピュータ可読命令を記憶するためのディスクストレージ1404;ネットワークにアクセスするためのネットワークインターフェース1412;システムの出力を表示するための表示デバイス1408;および、ユーザからの入力を受け取るための入力デバイス1410を備えている。CPU、メモリ、ディスク、ディスプレイ、ネットワーク、および入力部は、ユニットどうしの間でデータおよび/またはコンピュータ可読命令を伝送する1つ以上の双方向のバス1414で接続されている。
【0110】
図14のコンピュータシステム1400を使用して、例えば、
図1〜
図13および
図15を参照して記載したような名称の大量正規化を実施できる。例えば、ユーザは、入力デバイスを用いて最初の正規名称の集合を入力でき、これらの名称をディスクストレージに格納できる。CPUは、名称をn−グラムに分解し、グラフィカルユーザインタフェースを稼働させるために使用されてよく、同インターフェースによってユーザは、標識をn−グラムまたは稼働中の検証ツールに割り当てることができる。ディスプレイは、例えばホワイトボックス検証の過程で名称の序列を見えるようにするため、あるいはいくつかの基準を満たすユーザプロフィールの一覧を表示するために使用されてよい。ネットワークインターフェースは、例えば内部または外部のネットワークにアクセスしてユーザプロフィール、名称、またはメタデータを取得するために使用されてよい。メモリは、例えば未処理名称を正規名称にマッピングするためのコンピュータプログラムを格納するために使用されてよい。
【0111】
上記の説明は、当業者が様々な実施形態を創作して使用できるように提示されている。特定のデバイス、技術、および適用についての説明は、例として提供しているに過ぎない。本明細書に記載した例に対する様々な修正は、当業者には容易に明らかになることであり、本明細書に規定した全般的な原理は、様々な実施形態の趣旨および範囲を逸脱しない限り、他の例および応用に適用されてよい。そのため、様々な実施形態は、本明細書に記載し図示した例に限定されるものではなく、請求項と一致する範囲に合わせられるものである。
本発明は以下の適用例としても実現できる。
[適用例1]
標識付けした正規名称のデータベースを生成する方法であって、
正規名称の集合を指定すること、
各正規名称に対して正規n−グラムの集合を生成し、各正規n−グラムが、前記正規名称内に1つ以上の連続する単語を含むこと、
正規属性の集合を、正規n−グラムの前記集合にある各正規n−グラムに割り当てること、
正規標識の集合を、各正規n−グラムに対する1つ以上の前記正規属性に割り当てること、および、
各正規名称のうちの少なくとも1つ、各正規名称に対して生成された正規n−グラムの前記集合、各々の前記正規n−グラムに割り当てられた正規属性の前記集合、または前記標識付けした正規名称の前記データベース内の各々の前記正規属性に割り当てられた正規標識の前記集合を格納すること
を含む、方法。
[適用例2]
正規名称の集合を指定することは、
未処理名称の1つ以上の集合を取得すること、および、
未処理名称の各集合内で最も多く現れる未処理名称を、指定正規名称として選択すること
を含む、適用例1に記載の方法。
[適用例3]
正規名称に対して正規n−グラムの集合を生成することは、
正規ユニグラムの集合を生成し、各正規ユニグラムが前記正規名称内で1つの単語であること、
正規バイグラムの集合を生成し、各正規バイグラムが前記正規名称内で2つの連続する単語であること、および、
正規のトリグラムを生成し、各トリグラムが前記正規名称内で3つの連続する単語であること
を含む、適用例1に記載の方法。
[適用例4]
各正規n−グラムに割り当てられた正規属性の前記集合は同じである、適用例1に記載の方法。
[適用例5]
正規標識の集合を割り当てることは、
ユーザが入力した正規標識の前記集合を取得すること、および、
前記取得した正規標識の集合を前記正規属性に割り当てること
を含む、適用例1に記載の方法。
[適用例6]
正規標識の集合を割り当てることは、
事前に生成された正規n−グラムに事前に割り当てられた1つ以上の正規標識を取得すること、および、
各正規名称に対して生成された正規n−グラムの前記集合にある1つ以上の前記正規n−グラムと一致する、事前に生成された各正規n−グラムに対して、
前記取得した事前に割り当てられた正規標識を、前記一致した正規n−グラムに割り当てられた1つ以上の前記正規属性に割り当てること
を含む、適用例1に記載の方法。
[適用例7]
未処理名称の集合を受け取ること、
各未処理名称に対する未処理n−グラムの集合を生成し、各未処理n−グラムが、前記未処理名称内に1つ以上の連続する単語を含むこと、
未処理標識の集合を、各未処理n−グラムに割り当てられた属性の集合内の1つ以上の属性に割り当て、前記未処理n−グラムに割り当てられた属性の前記集合および前記正規n−グラムに割り当てられた正規属性の前記集合が同じ集合であること、
同一の未処理標識を有する前記未処理名称を代表群にまとめること、
代表名称となる各代表群から未処理名称を選択すること、
各代表名称に関連付けられた前記未処理標識と各正規名称に関連付けられた前記正規標識との比較に基づいて、各代表名称を前記正規名称のうちの1つにマッピングすること、および、
前記代表名称が前記正規名称に正しくマッピングされたかを確認し、前記未処理名称が前記代表名称で正しく表されているかを確認すること
をさらに含む、適用例1に記載の方法。
[適用例8]
未処理名称の集合を受け取ることは、名称の検索から未処理名称の前記集合を受け取ることを含む、適用例7に記載の方法。
[適用例9]
未処理名称の集合を受け取ることは、ユーザが入力した前記未処理名称の集合を受け取ることを含む、適用例7に記載の方法。
[適用例10]
未処理名称に対して未処理n−グラムの集合を生成することは、
未処理ユニグラムの集合を生成し、各未処理ユニグラムが前記未処理名称内で一単語であること、
未処理バイグラムの集合を生成し、各未処理バイグラムが前記未処理名称内で2つの連続する単語であること、および、
未処理トリグラムの集合を生成し、各未処理トリグラムが前記未処理名称内で3つの連続する単語であること
を含む、適用例7に記載の方法。
[適用例11]
未処理標識の集合を割り当てることは、
1つ以上の前記未処理名称の前記未処理n−グラムと一致する前記正規n−グラムに対して前記標識付けした正規名称のデータベースを検索すること、および、
前記1つ以上の未処理名称の未処理n−グラムと一致する各正規n−グラムに対して、
前記一致した正規n−グラムの各正規属性に割り当てられた前記正規標識を取得すること、および、
前記取得した正規標識を、前記1つ以上の未処理名称の前記未処理n−グラムの未処理属性に割り当て、前記未処理属性が、前記取得した正規標識に関連付けられた前記正規属性と同じであること
を含む、適用例7に記載の方法。
[適用例12]
未処理名称を選択することは、前記代表群のうち最も多く発生する未処理名称を代表名称として選択することを含む、適用例7に記載の方法。
[適用例13]
各代表名称を前記正規名称の1つにマッピングすることは、
前記代表名称に割り当てられた未処理標識の前記集合と同一の標識を有する正規名称に対して、前記標識付けした正規名称のデータベースを検索すること、
前記同一の標識を有する前記正規名称をベストマッチ名称として選択すること
を含み、かつ
ベストマッチ名称が見つからない場合は、
未処理属性に重み係数を割り当てること、
前記標識付けした正規名称のデータベース内の前記正規名称を、前記重み係数に基づいてランク付けすること、および、
最も高くランク付けされた正規名称をベストマッチ名称として選択すること
を含む、適用例7に記載の方法。
[適用例14]
未処理名称の集合を受け取ること、
各未処理名称に対する未処理n−グラムの集合を生成し、各未処理n−グラムが、前記未処理名称に1つ以上の連続する単語を含むこと、
各未処理n−グラムに割り当てられた属性の集合内の1つ以上の属性に未処理標識の集合を割り当て、前記未処理n−グラムに割り当てられた属性の前記集合および前記正規n−グラムに割り当てられた属性の前記集合は同じ集合であること、
前記未処理名称の集合を前記正規名称の第1の集合にマッピングすること、
前記未処理名称の集合を前記正規名称の第2の集合にマッピングすること、および、
前記正規名称の前記第1の集合を前記正規名称の前記第2の集合と比較してその差を算出すること
をさらに含む、適用例1に記載の方法。
[適用例15]
前記未処理名称の集合を前記正規名称の第1の集合にマッピングすることは、前記標識付けした正規名称のデータベースから正規名称を選択して、前記未処理名称の集合内の各未処理名称を表すことを含む、適用例14に記載の方法。
[適用例16]
前記未処理名称の集合を前記正規名称の第2の集合にマッピングすることは、各未処理名称の各未処理n−グラムの各属性に割り当てられた前記未処理標識を、各正規名称の各正規n−グラムの各属性に割り当てられた前記正規標識と比較して、ベストマッチを見つけることを含む、適用例14に記載の方法。
[適用例17]
前記正規名称のサブ集合を受け取り、該サブ集合が、前記サブ集合内の前記正規名称に割り当てられた正規属性の前記集合と、正規属性の前記集合に割り当てられた正規標識の前記集合とを含むこと、
前記サブ集合内の各々の前記正規属性に重みを割り当てること、
前記サブ集合内の各々の前記正規標識に重みを割り当てること、
前記正規属性の重みと前記正規標識の重みとによって正規名称の前記サブ集合をランク付けすること、および、
ランク付けの順に整列された正規名称の前記サブ集合を表示すること
をさらに含む、適用例1に記載の方法。
[適用例18]
表示することは、
同じレベルに同じランクを有する前記サブ集合内の前記正規名称を表示すること、および、
ランクの低い前記サブ集合内の前記正規名称よりも高いレベルに、ランクの高い前記サブ集合内の前記正規名称を表示すること
を含む、適用例17に記載の方法。
[適用例19]
標識付けした正規名称のデータベースを生成するシステムであって、
メモリ、および、
プロセッサを備え、該プロセッサが、
正規名称の集合を受け取り、
各正規名称に対して正規n−グラムの集合を生成し、各正規n−グラムが、前記正規名称内に1つ以上の連続する単語を含み、
正規属性の集合を、正規n−グラムの前記集合にある各正規n−グラムに割り当て、各正規n−グラムに割り当てられた正規属性の前記集合が同じであり、
正規標識の集合を、各正規n−グラムに対する1つ以上の正規属性に割り当て、かつ、
前記標識付けした正規名称のデータベース内にある各正規名称を、正規n−グラムの前記生成された集合と、各々の前記正規n−グラムに割り当てられた正規属性の前記集合と、各々の前記正規属性に割り当てられた前記正規標識の集合ともにメモリに格納する
ように構成される、
システム。
[適用例20]
未処理名称を、標識付けした正規名称のデータベース内の正規名称にマッピングする方法であって、
未処理名称を受け取ること、
前記未処理名称に対して未処理n−グラムの集合を生成し、各未処理n−グラムが、前記正規名称内に1つ以上の連続する単語を含むこと、
正規属性の集合を未処理n−グラムの前記集合内の各未処理n−グラムに割り当て、未処理属性の前記集合が、前記標識付けした正規名称の前記データベースに格納された正規名称に関連付けられた正規属性の集合と同じであること、
未処理標識の集合を、各未処理n−グラムに対する1つ以上の前記未処理属性に割り当てること、ならびに、
前記未処理属性および前記未処理標識と、前記標識付けした正規名称のデータベース内にある各々の前記正規名称に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規名称のデータベース内にある1つ以上のベストマッチ正規名称を決定すること
を含む、方法。
[適用例21]
前記1つ以上のベストマッチ正規名称を決定することは、
未処理標識の前記集合と同一の標識を有する正規名称に対して前記標識付けした正規名称のデータベースを検索すること、
該正規名称をベストマッチ名称として選択すること、および、
ベストマッチ名称が見つからない場合は、
前記未処理属性に重み係数を割り当てること、
前記標識付けした正規名称のデータベース内の前記正規名称を、前記重み係数に基づいてランク付けすること、および、
最も高くランク付けされた正規名称を前記1つ以上のベストマッチ正規名称として選択すること
を含む、適用例20に記載の方法。
[適用例22]
未処理n−グラムの集合を生成する前に前記未処理名称をサニタイズすること
を含み、前記サニタイズすることは、
前記未処理名称からストップワードを除外すること、
前記未処理名称内の文字を大文字から小文字にすること、
前記未処理名称から句読点の第1の集合を取り除くこと、および、
前記未処理名称内で句読点の第2の集合をスペースに置換すること
をさらに含む、適用例20に記載の方法。
[適用例23]
各未処理n−グラムに割り当てられた未処理属性の前記集合は同じである、適用例20に記載の方法。
[適用例24]
未処理名称を、標識付けした正規名称のデータベース内の正規名称にマッピングするシステムであって、
メモリ、および、
プロセッサを備え、該プロセッサが、
未処理名称を受け取り、
前記未処理名称に対して未処理n−グラムの集合を生成し、各未処理n−グラムが、前記正規名称内に1つ以上の連続する単語を含み、
未処理属性の集合を、未処理n−グラムの前記集合内にある各未処理n−グラムに割り当て、未処理属性の前記集合が同じであり、未処理属性の前記集合が、前記標識付けした正規名称のデータベース内の前記メモリに格納されたに関連付けられた正規属性の集合と同じであり、
未処理標識の集合を、各未処理n−グラムに対する1つ以上の前記未処理属性に割り当て、かつ、
前記未処理属性および前記未処理標識と、前記標識付けした正規名称のデータベース内にある各々の前記正規名称に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規名称のデータベース内にある1つ以上のベストマッチ正規名称を決定する
ように構成される、システム。
[適用例25]
標識付けした正規データのデータベースを生成する方法であって、
正規データの集合を指定すること、
各正規データ項目に対して正規n−グラムの集合を生成し、各正規n−グラムが、前記正規データ項目内に1つ以上の連続する単語を含むこと、
正規属性の集合を、正規n−グラムの前記集合にある各正規n−グラムに割り当てること、
正規標識の集合を、各正規n−グラムに対する1つ以上の前記正規属性に割り当てること、および、
各正規データ項目のうちの少なくとも1つ、各正規データ項目に対して生成された正規n−グラムの前記集合、各々の前記正規n−グラムに割り当てられた正規属性の前記集合、または前記標識付けした正規データの前記データベース内の各々の前記正規属性に割り当てられた正規標識の前記集合を格納すること
を含む、方法。
[適用例26]
未処理データを、標識付けした正規データのデータベース内にある正規データにマッピングする方法であって、
未処理データ項目を受け取ること、
前記未処理データ項目に対して未処理n−グラムの集合を生成し、各未処理n−グラムが、正規データ項目内に1つ以上の連続する単語を含むこと、
正規属性の集合を未処理n−グラムの前記集合内の各未処理n−グラムに割り当て、未処理属性の前記集合が、前記標識付けした正規データ項目の前記データベースに格納された前記正規データ項目に関連付けられた正規属性の前記集合と同じであること、
未処理標識の集合を、各未処理n−グラムに対する1つ以上の前記未処理属性に割り当てること、ならびに、
前記未処理属性および前記未処理標識と、前記標識付けした正規データのデータベース内にある各々の前記正規データ項目に関連付けられた正規属性の前記集合および正規標識の集合との比較に基づいて、前記標識付けした正規データのデータベース内にある1つ以上のベストマッチ正規データ項目を決定すること
を含む、方法。
[適用例27]
前記正規データは正規職業名である、適用例25に記載の方法。
[適用例28]
前記正規データは正規職業名であり、前記未処理データは未処理職業名である、適用例26に記載の方法。