特表2024-528500 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コピーライト　クリアランス　センター，インク．の特許一覧

特表2024-528500著者検証を伴う電子文書をグラフモデル化する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
3c
4
5a
5b
5c
6a
6b
6c
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-30

(54)【発明の名称】著者検証を伴う電子文書をグラフモデル化する方法

(51)【国際特許分類】

G06F 16/28 20190101AFI20240723BHJP

【ＦＩ】

G06F16/28

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023579666

(86)(22)【出願日】2022-06-29

(85)【翻訳文提出日】2024-02-22

(86)【国際出願番号】 US2022035512

(87)【国際公開番号】W WO2023278567

(87)【国際公開日】2023-01-05

(31)【優先権主張番号】63/216,564

(32)【優先日】2021-06-30

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】315007628

【氏名又は名称】コピーライトクリアランスセンター，インク．

(74)【代理人】

【識別番号】110000659

【氏名又は名称】弁理士法人広江アソシエイツ特許事務所

(72)【発明者】

【氏名】マーマニス，ハラランボス

(72)【発明者】

【氏名】ブラムリー，ロビン，ジェームス

(72)【発明者】

【氏名】クレイダーマン，マシュー

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175HA01

5B175HB03

5B175KA12

(57)【要約】

複数の電子文書のグラフィカルモデルを生成するための方法は、例えば略語、偽名、誤字などの使用に起因して、著者の名前のスペルが文書間で異なる場合でも、共通の原作者を有する個々の電子文書間のつながりを確立する。グラフィカルモデルは、電子文書からデータを取り込み、処理されたデータを使用してベースグラフィカルモデルを構築することによって生成される。その後、曖昧性除去ステップの一部として、複数の電子文書の中の類似した著者が識別されてクラスタリングされ、好ましくは経時的に精緻化される著者類似度グラフがもたらされる。その後、共通の原作者を有すると決定された文書について、信頼度又は類似度推論が計算され、次いでベースグラフィカルモデルに信頼度又は類似度推論が組み込まれる。結果として、グラフィカルモデルにおける関連付けられた情報の精度の推論を確立することができる。

【特許請求の範囲】

【請求項1】

複数の電子文書のグラフィカルモデルを生成するためのコンピュータで実施される方法において、各電子文書が識別情報を含むデータから構成され、前記識別情報が原作者を含み、
（ａ）前記複数の電子文書のそれぞれから前記データを取り込むステップと、
（ｂ）前記複数の電子文書からの前記データを使用してベースグラフィカルモデルを構築するステップと、
（ｃ）前記複数の電子文書の精選されたペア間の識別情報の任意の関連性の曖昧性を除去するステップと、
（ｄ）電子文書の精選されたペア間の識別情報の関連性の信頼度を計算するステップであって、電子文書の精選されたペア間の識別情報の関連性の信頼度が前記ベースグラフィカルモデルに組み込まれる、ステップと、
を含む方法。

【請求項2】

前記曖昧性除去ステップの一部として、前記複数の電子文書の精選されたペア間の共通の原作者が識別される、請求項１に記載の方法。

【請求項3】

前記曖昧性除去ステップの一部として、電子文書の精選されたペア間の共通の原作者が、スペルにばらつきがあっても識別される、請求項２に記載の方法。

【請求項4】

前記曖昧性除去ステップの一部として、共通の原作者を有するとして識別された電子文書のペアが関連付けられる、請求項３に記載の方法。

【請求項5】

前記計算ステップの一部として、電子文書の精選されたペア間の共通の原作者の信頼度に、確率の数値が割り当てられる、請求項４に記載の方法。

【請求項6】

前記計算ステップの一部として、前記数値がペア予測アルゴリズムプロセスによって計算される、請求項５に記載の方法。

【請求項7】

前記取り込みステップの一部として、前記複数の電子文書からのデータがコンパイルされてデータモデリングのために処理される、請求項６に記載の方法。

【請求項8】

前記取り込みステップは、前記複数の電子文書のそれぞれからデータフラグメントのテーブルを生成する、請求項７に記載の方法。

【請求項9】

前記構築ステップの一部として、前記ベースグラフィカルモデルは、前記複数の電子文書のそれぞれからのデータフラグメントの前記テーブルを使用して構築される、請求項８に記載の方法。

【請求項10】

前記構築ステップの一部として、前記複数の電子文書のそれぞれからの前記データフラグメントのテーブルが処理されて、
（ａ）各電子文書を前記ベースグラフィカルモデル内の対応するノードと関連付ける文書ノードテーブルと、
（ｂ）各電子文書の原作者を列挙する著者ノードテーブルと、
（ｃ）前記ベースグラフィカルモデルにおけるノード間の関係を列挙するグラフエッジテーブルと、
を備えるテーブルのセットがもたらされる、請求項９に記載の方法。

【請求項11】

前記曖昧性除去ステップは、
（ａ）著者ノードテーブルが処理されて著者名の類似度を識別することによって協調グラフの構築を可能にする関連付け段階であって、前記協調グラフが、著者ノード、論文ノード、貢献エッジ、及び引用エッジを含む、関連付け段階と、
（ｂ）前記協調グラフから導出されたものを含む類似度グラフが前記著者ノード及び類似人物エッジを使用して構築されるクラスタリング段階と、
（ｃ）著者名のばらつきを解決するためにクラスタリング結果が検査される精緻化段階と、
を含む、請求項１０に記載の方法。

【請求項12】

前記類似人物エッジは、名前照合、著者識別コード照合、及び協調グラフ構築から成るグループからの少なくとも１つの技術を使用して作成される、請求項１１に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本発明は、その開示が参照により本明細書に組み込まれる、ＨａｒａｌａｍｂｏｓＭａｒｍａｎｉｓらの名義で２０２１年６月３０日に出願された米国仮特許出願第６３／２１６，５６４号に対する３５Ｕ．Ｓ．Ｃ．１１９（ｅ）の下での利益を主張する。

【0002】

本発明は、一般に、電子文書をコンパイルするためのシステムに関し、より詳細には、複数の電子文書の間でデータを関連付けて統合し、電子文書のグラフ構造化データモデル又は知識グラフを生成するためのシステムに関する。

【背景技術】

【0003】

データは、とりわけ、検索を最適化し、解析ツールを強化し、新しいコンテンツの統合を容易にするためにモデル化されることが多い。例えば、グラフデータモデリング又はグラフモデリングは、様々な個々の文書（すなわち、ノード）間の接続（すなわち、関係）の解析及び視覚化を可能にするために電子文書の集合に一般的に適用される。

【0004】

一例として、図１には、電子論文又は文書Ａ_１～Ａ_９の集合の例示的なグラフィカルモデルが示されており、グラフィカルモデルは、全体として参照番号１１１で表わされている。グラフィカルモデル１１１では、論文１１３－１～１１３－９としても示される論文Ａ_１～Ａ_９が、関連性に関して示される。特に、関連性重み、すなわち値Ｗは、グラフィカルモデル１１１における各ベクトルに割り当てられる。この能力において、とりわけ論文の関連性を理解するために、論文１１３－１～１１３－９間の条件付き依存構造を利用することができる。

【0005】

重み付きグラフィカルモデル（例えば、モデル１１１）を使用して、別個のトピックを表わすことができる文書クラスタを識別することができる。例えば、グラフィカルモデル１１１において、論文１１３－１～１１３－５は、第１の文書クラスタ又はサブグラフ１２１－１を共に形成し、論文１１３－６～１１３－９は、第２の文書クラスタ又はサブグラフ１２１－２を形成する。更に、とりわけ、データモデル１１１に含まれる情報の精度の確かさ又は確実性に関する意味的メタデータを利用して、知識グラフを生成することができる。

【0006】

電子文書（例えば、科学論文）をモデル化するグラフの１つの有用な用途として、グラフィカルモデルからの特定のトピックの識別を使用して、そのような文書の原作者に基づいてそれぞれのトピックごとに重要なオピニオンリーダーを識別することができる。言い換えると、特定のクラスタ内の最も関連性の高い論文と関連付けられた著者（複数可）は、その特定のトピック又は分野に関する重要なリーダーとして解釈され得る。特定のトピック（例えば、ＣＯＶＩＤ－１９の伝染性）に関する重要なオピニオンリーダーの識別は、協調ネットワークを確立するために使用することができ、この場合、グラフィカルモデルを介して識別される重要なリーダーは、その特定のトピックに関する後続の科学論文における協力者又は同等の見直し者として役立ち得る。

【0007】

上記の有用性にもかかわらず、本出願人は、電子文書のグラフモデリングを通じて重要なオピニオンリーダーの識別に関連する顕著な欠点を認識している。特に、出願人は、異なる電子文書間での著者の名前のスペルの特定の不一致が、とりわけ、（ｉ）名前のスペルミス、（ｉｉ）略語の使用、及び（ｉｉｉ）ネイティブ言語文字からラテン系文字への変換におけるばらつきに起因してしばしば生じることを認識している。更に、ある特定の固有の識別番号／コードは、原作者を検証するために利用されることが多いが（例えば、メリーランド州ベセスダのＯＲＣＩＤ社によって学術論文の著者及び貢献者に発行されたＯＲＣＩＤ識別番号）、これらのタイプの識別コードは、（ｉ）誤って入力されるか、又は（ｉｉ）ある特定の個人に割り当てられないことが多い。

【発明の概要】

【0008】

そこで、本発明は、複数の電子文書のグラフィカルモデルを生成するための新規な方法を提供することを目的とする。

【0009】

本発明の他の目的は、関連データを含む個々の電子文書間のつながりを確立する前述のタイプ類の方法を提供することである。

【0010】

本発明の更に他の目的は、原作者などの関連文書識別子を伴う個々の電子文書間のつながりを確立する前述のタイプの方法を提供することである。

【0011】

本発明の更に他の目的は、様々な個々の電子文書と関連付けられる識別子間の潜在的なスペルのばらつきを識別する前述のタイプの方法を提供することである。

【0012】

本発明の更に他の目的は、文書識別子とスペリングのばらつきとの間の関連性の可能性を決定する前述のタイプの方法を提供することである。

【0013】

本発明の他の目的は、スペルのばらつきにもかかわらず、関係がある又は関連付けられると決定された場合に、文書識別子間のつながりをグラフィカルモデルに組み込む、前述のタイプの方法を提供することである。

【0014】

本発明の更に他の目的は、安価に実施することができ、効率的に処理することができ、容易に拡張可能である前述のタイプの方法を提供することである。

【0015】

したがって、本発明の１つの特徴として、複数の電子文書のグラフィカルモデルを生成するためのコンピュータで実施される方法が提供され、各電子文書が識別情報を含むデータから構成され、識別情報が原作者を含み、方法は、（ａ）複数の電子文書のそれぞれからデータを取り込むステップと、（ｂ）複数の電子文書からのデータを使用してベースグラフィカルモデルを構築するステップと、（ｃ）複数の電子文書の精選されたペア間の識別情報の任意の関連性の曖昧性を除去するステップと、（ｄ）電子文書の精選されたペア間の識別情報の関連性の信頼度を計算するステップであって、電子文書の精選されたペア間の識別情報の関連性の信頼度がベースグラフィカルモデルに組み込まれる、ステップとを含む。

【0016】

様々な他の特徴及び利点が、以下の説明から明らかになる。明細書本文では、明細書本文の一部を形成するとともに本発明を実施するための実施形態が例示として示される添付図面を参照する。実施形態は、当業者が本発明を実施できるようにするために十分に詳細に説明され、また、他の実施形態が利用されてもよく、本発明の範囲から逸脱することなく構造的変更が行なわれてもよいことが理解されるべきである。したがって、以下の詳細な説明は限定的な意味で解釈されるべきではなく、また、本発明の範囲は添付の特許請求の範囲によって最も良く規定される。

【0017】

図面において、同様の参照番号は同様の部分を表わす。

【図面の簡単な説明】

【0018】

【図1】電子文書の編集物の例示的なグラフィカルモデルである。

【図2】本発明の教示に従って実施される、複数の電子文書に関連する情報のグラフィカルモデルを生成するための新規な方法を示す簡略フローチャートである。

【図3a】図２に示されるデータ取り込みステップの一部としてデータがどのようにロードされるかを理解するのに有用な一連のフローチャートを示す。

【図3b】図２に示されるデータ取り込みステップの一部としてデータがどのようにロードされるかを理解するのに有用な一連のフローチャートを示す。

【図3c】図２に示されるデータ取り込みステップの一部としてデータがどのようにロードされるかを理解するのに有用な一連のフローチャートを示す。

【図4】図２に示されるグラフ構築ステップの一部として抽出された論文データがベースグラフを構築するためにどのように使用されるかを理解するのに有用なフローチャートである。

【図5a】図２に示される曖昧性除去ステップの関連付け段階を理解するのに有用な一連のフローチャートを示す。

【図5b】図２に示される曖昧性除去ステップの関連付け段階を理解するのに有用な一連のフローチャートを示す。

【図5c】図２に示される曖昧性除去ステップの関連付け段階を理解するのに有用な一連のフローチャートを示す。

【図6a】図２に示される曖昧性除去ステップのクラスタリング段階を理解するのに有用な一連のフローチャートを示す。

【図6b】図２に示される曖昧性除去ステップのクラスタリング段階を理解するのに有用な一連のフローチャートを示す。

【図6c】図２に示される曖昧性除去ステップのクラスタリング段階を理解するのに有用な一連のフローチャートを示す。

【図7】図２に示される曖昧性除去ステップの分類子訓練段階を理解するのに有用なフローチャートである。

【図8】図２に示される曖昧性除去ステップの一部として精緻化されるクラスタの一例を示すフローチャートである。

【図9】図２に示される推論計算ステップを理解するのに有用なフローチャートである。

【発明を実施するための形態】

【0019】

グラフモデリング方法２１１
ここで図２を参照すると、複数の電子文書に関連する情報のグラフィックモデルを生成するための新規な方法を示すフローチャートが示されており、この方法は、本発明の教示に従って実施され、概して参照番号２１１により特定される。以下で詳細に説明するように、方法２１１は、一連の新規なステップを含み、好ましくは主に特定用途向けコンピュータソフトウェアの実行によって自動化され、グラフィカルモデル内の情報の精度に関する信頼度（ＤｏＢ）をモデルに組み込むことができるようにする。

【0020】

以下の説明では、グラフィカルモデル内の電子文書に関してリストアップされた原作者の正確さを検証する方法２１１が示される。しかしながら、本発明の原理は、原作者の確実性に関する情報をグラフィカルモデルに組み込むことに限定されないことに留意すべきである。むしろ、方法２１１は、本発明の思想から逸脱することなく、グラフィカルモデルに含まれる任意のタイプの情報又はデータの真実性の信頼度又は確かさを統合するために利用することができることを理解すべきである。

【0021】

本明細書で規定されるように、「文書」という用語は、任意の電子記録又は著作物を意味する。以下の説明では、文書は、主に科学刊行物などの論文として表わされる。しかしながら、本明細書における「文書」という用語の使用は、科学刊行物又は他の同様のタイプの論文に限定されることを意図していないことを理解すべきである。むしろ、「文書」という用語の使用は、本発明の思想から逸脱することなく、文献、オンラインニュース記事、更にはデータベース記録を含む、任意の情報源から導出された任意の／全ての形態の電子記録（例えば、任意のテキストベースの情報記録）を包含することを意図されている。

【0022】

図２に見られるように、方法２１１は、（ｉ）電子文書が取得され、処理され、指定されたクラウドベースのデータパイプラインに記憶されるデータ取り込みステップ２１３と、（ｉｉ）とりわけ、データ取り込みステップ２１３でコンパイルされた複数の電子文書を使用してベースグラフモデルが生成されるグラフ構築ステップ２１５と、（ｉｉｉ）ベースグラフモデル内の電子文書の原作者が見直されて選択的に照合される曖昧性除去ステップ２１７と、（ｉｖ）電子文書の適切な原作者の確かさのレベルが計算されて追加の情報又は知識としてグラフモデルに組み込まれる信頼度計算ステップ２１９とを含む。ステップ２１３，２１５，２１７及び２１９のそれぞれに関連する詳細は、以下により詳細に記載される。
データ取り込みステップ２１３

【0023】

前述したように、データ取り込みステップ２１３は、電子文書のセットからのデータを取得し、処理し、指定されたデータパイプラインに記憶することを含む。データ取得及び取り込みの頻度は、好ましくは、指定されたパイプライン内の電子文書の量及び公開日に依存する。前述のように、電子文書のセットから取り込まれたデータは、その後、データグラフモデリングに利用される。

【0024】

好ましくは、データ取り込みステップ２１３は、完全にクラウドコンピューティングサービスプラットフォームを介して実施され、それにより、データを処理するときに計算リソースのみを必要とする。例えば、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ（ＡＷＳ）クラウドコンピューティングサービスプラットフォームを利用してステップ２１３を実施することができ、それによってウェブサービスツールの最適化された選択及び構成が可能になる。例えば、データ取得は、ＡＷＳベースのシンプルストレージサービス（Ｓ３）上でＰｙｔｈｏｎプログラミングスクリプトを使用して実施され、ＡＷＳベースのＥｌａｓｔｉｃＭａｐＲｅｄｕｃｅ（ＥＭＲ）を使用して処理され、ＡＷＳベースのシンプルストレージサービス（Ｓ３）上の列指向ファイル構造に格納され得る。

【0025】

しかしながら、主にＡＷＳベースのクラウドコンピューティングサービスプラットフォームの使用は、例示のみを目的として提供されていることに留意すべきである。むしろ、ステップ２１３は、本発明の思想から逸脱することなく、ＭｉｃｒｏｓｏｆｔＡｚｕｒｅクラウドコンピューティングサービスプラットフォームなどの別のクラウドコンピューティングサービスプラットフォームを使用して同様に実施することができる。

【0026】

ここで図３（ａ）～図３（ｃ）を参照すると、データ取り込みステップ２１３でデータがどのようにロードされるかを示すのに有用なフローチャートのセットが示される。ステップ２１３の第１の段階では、所望のグラフ構造化データモデル又はグラフィカルモデルにおけるノードが作成される。各ノードに関連する基本的な識別又は基準データは、機関、雑誌、オントロジー／分類学的用語に相当し得るが、これらに限定されず、適用可能な場合、階層構造を含むことができる。

【0027】

図３（ａ）に見られるように、取り込みプロセス２２１の結果として、とりわけ、表形式のファイルフォーマット、構造化されたテキストファイル、及びＸＭＬファイルの形態の基準データファイル２２５から基準データテーブル２２３がロードされる。或いは、基準データファイル２２５は、ＡＰＩ、データベース、又はウェブマイニングを含むがこれに限定されない他のソースから取得されてもよい。

【0028】

図３（ｂ）に見られるように、階層構造、例えば分類法を含む基準データファイル２２７は、グラフィカルモデル内で階層を再構築するために取り込みプロセスに更なるステップを必要とする。例えば、医療被検体見出し（ＭｅＳＨ）記述子を含む基準データファイル２２７が示される。したがって、取り込みプロセス２２９は、基準データファイル２２７から記述子ノードテーブル２３１を作成してロードする。その後、ツリー構築プロセス２３３が、記述子ノードテーブル２３１から、ツリー数ノードテーブル２３５及び２つのエッジテーブル２３７及び２３９の両方を作成する。エッジテーブル２３７は、ツリー数ノードテーブル２３５内の項間の「より広い」／「より狭い」階層関係を反映し、エッジテーブル２３９は、記述子ノードテーブル２３１をツリー数ノードテーブル２３５に関連付けて、グラフ内のナビゲーションを可能にする。

【0029】

ステップ２１３の第２の段階では、論文データ（すなわち、各電子文書の内容）がデータパイプラインに取り込まれる。取り込みプロセス２１３の新規な特徴として、本発明は、パイプラインに取り込まれた論文データにおける任意の更新をサポートするように設計される。例えば、図３（ｃ）は、論文データテーブル２４５を作成するために、取り込みプロセス２４３によってＸＭＬフラグメントが抽出される論文データファイル２４１の元のセット（例えば、ＰｕｂＭｅｄデータベースを介して公開された科学論文の年間データフィード）を示す。しかしながら、図３（ｃ）に示される例示的な例は、更新ファイル２４７の毎日のセットも含む（例えば、科学論文に含まれる削除及び／又は修正を記録するために）。ＸＭＬフラグメントは、更新データテーブル２５１を作成するために取り込みプロセス２４９を介して更新ファイル２４７から同様に抽出される。

【0030】

その後、統合プロセス２５３を通じて、データテーブル２４５及び２５１が結合されて、部分的に処理された文書を表わす論文フラグメントの中間データテーブル２５５が作成される。表２５５の各記録は、好ましくは、具体的に抽出された文書プロパティと、表裏の物質フラグメント（例えば、メタデータ及び基準）とを含む。複数の重複するソースが単一のエンティティ／ノードタイプに使用される場合、更なる統合／曖昧性除去ステップが必要とされる（図示せず）。
グラフ構築ステップ２１５

【0031】

上記で参照したように、グラフ構築ステップ２１５は、データ取り込みステップ２１３から生成されたデータテーブルを使用してベースグラフモデルを作成することを含み、モデルは、様々なノード（例えば、著者、論文内容、及び一般的な論文基準データ）間の関係（ベクトルとして示される）の視覚化を可能にする。グラフ構築ステップ２１５及び曖昧性除去ステップ２１７は、好ましくは、ＡｐａｃｈｅＳｐａｒｋなどの任意の適切な分散データ処理フレームワークを使用して実施される。このように、グラフデータは、Ｎｅｏ４ｊなどのグラフデータベース管理システムに適した形式でエクスポートすることができる。

【0032】

ここで図４を参照すると、抽出された論文データがベースグラフを構築するためにどのように使用されるかを説明するのに有用なフローチャートが示される。具体的には、論文フラグメントの中間データテーブル２６１が、（ｉ）データパイプライン内の各電子文書をグラフィカルモデル内の対応するノードと関連付ける論文ノードテーブル２６５、（ｉｉ）データパイプライン内の各電子文書の著者をリストアップする著者ノードテーブル２６７、及び（ｉｉｉ）グラフィカルモデル内のノード間の特定の関係を表わすグラフエッジテーブル２６９を構築するために、自動化されたグラフ構築プロセス２６３と共に適用される。

【0033】

グラフエッジテーブル２６９は、とりわけ、（ｉ）異なるノードタイプ間の関係（例えば、論文ノードと著者ノードとの間の貢献、又は関連付け）、（ｉｉ）同じタイプのノード間の関係（例えば、複数の論文ノード間の引用関係、又は関連付け）、及び（ｉｉｉ）基準データノードに対するつながり（例えば、科学論文を、それが出版された特定のジャーナルと関連付けること）を表すことができることに留意すべきである。

【0034】

最適な性能のために、エッジ構築は、利用可能な場合はいつでも周知の識別情報又は識別子に依存することが好ましい。周知の識別子を使用することにより、書き込み時にターゲットのルックアップを実行する必要がなくなる。入力データソースの品質及び／又は実装者の選好又は制約に応じて、データの投影前に、構築時に完全性チェックが必要とされるか、又はダウンストリームグラフデータベース管理システムに委譲され得る。
曖昧性除去ステップ２１７

【0035】

著者名の曖昧性除去ステップ２１７は、適切な著者がグラフィカルモデル内の各電子文書と関連付けられることを保証又は検証するように設計される複数段階のプロセスである。前述したように、出願人は、異なる文書リソース間の著者の名前のスペルの特定の不一致が、文書の著者としての個人の誤った識別をもたらすことが多いことを認識している。その結果、電子文書の集合に関して生成されるグラフモデルの精度が著しく損なわれる可能性がある。したがって、適切な原作者が科学論文の集合と関連付けられるようにする又はそれを証明するのに曖昧性除去ステップ２１７が役立つプロセスは、本発明の重要な態様を成す。

【0036】

曖昧性除去ステップ２１７は、以下の一連の段階、すなわち、（ｉ）著者ノード記録が処理されて著者名の類似度及び協調グラフ内で発生するパスの解析を識別する関連付け段階、（ｉｉ）関連付け段階から生成された著者ノード及び類似人物エッジを使用して類似度グラフが構築されるクラスタリング段階、及び（ｉｉｉ）クラスタリング結果が検査されて、とりわけ同義語及び同義語を使用して作成された著者の曖昧性を解決する精緻化段階に分割される。上記の各段階については、以下で更に詳細に説明する。

【0037】

ここで図５（ａ）～（ｃ）を参照すると、曖昧性除去ステップ２１７の関連付け段階を説明するのに有用な一連のフローチャートが示される。図５（ａ）に示されるように、グラフ構築ステップ２１５中に作成された著者ノードテーブル２６７内のデータは、類似度関連付けプロセス２７１を介して処理され、類似人物エッジテーブル２７３をもたらす。類似著者ノードを識別及び関連付けるためのプロセス２７１は、以下の技術、すなわち、（ｉ）著者ノードテーブル２６７内のデータに名、姓ハッシュアルゴリズムが適用される名前照合、（ｉｉ）著者に割り当てられた固有識別子（例えば、ＯＲＣＩＤ識別番号）が著者ノードを明確に関連付けるために利用される著者識別コード照合、及び（ｉｉｉ）著者ノード（すなわち、著者）、論文ノード（すなわち、論文）、及び基準エッジ（例えば、貢献、引用など）の間の関係の共通パターンを識別するためにグラフ解析が行なわれる協調グラフ構築のうちの少なくとも１つを使用して実行することができる。

【0038】

図５（ｂ）の左側には、協調グラフ構築技術が示される。図から分かるように、論文ノードテーブル２６５、著者ノードテーブル２６７、及びエッジテーブル２６９（グラフ構築ステップ２１５から生成された貢献エッジテーブル及び引用エッジテーブル）からのデータは、グラフ構築プロセス２７５を介して関連付けられ、協調グラフ（図示せず）の表示をもたらす。

【0039】

自己引用は、グラフ化プロセスによって識別することができる関係の共通パターンの一例である。自己引用は、科学界で一般的である、同じ著者によって以前に書かれた別の文書を著者が引用するときに行なわれる。自己引用グラフ化により、論文の２人の著者を引用により関連付けることができる。好ましくは姓及び名のイニシャルを使用して、著者名の追加のフィルタリング及び比較を通じて、著者の同義語を発見することができ、次いで、引用している著者と引用されている著者との間の類似度エッジを構築するために著者の同義語を使用することができる。これは、図５（ｂ）の右側に一般的に表わされており、プロセス２７５によって生成された協調グラフは、プロセス２７７において解析されて、類似人物エッジテーブル２７９を生成する。

【0040】

ファジーネーム照合は、グラフ化プロセスの適用によって改善することができる関係の共通パターンの別の例である。協調グラフ内では、グラフモデル内のコミュニティ又はクリークを検出することができる。具体的には、この場合、関連付け段階２７７は、交互のビッグスター、リトルスターアルゴリズムの実施態様である接続コンポーネントアルゴリズムを実行する。構成要素が割り当てられると、巨大な構成要素は考慮されなくなる。多くの場合、残りの成分は高度に凝集性であることが分かっている。次に、同じ構成要素内にあって同じ姓を共有する候補（すなわち、著者）が考慮される。頭文字と名前の一致が正確である場合、候補は、正確な名前（ハッシュ）の一致によって既に識別されているはずであるため、破棄される。候補が高い閾値を通過する場合、名称近接類似度エッジ行が表２７９に構築される。候補がより低い閾値を通過したが、著者の所属が二次閾値を通過した場合、著者名及び所属近接類似度エッジ行が表２７９に構築される。

【0041】

調査照合の分野は、グラフ化プロセスによって識別することができる関係の共通パターンの別の例である。調査照合の分野では、グラフィックパスを使用して、論文の著者が公開されている特定のトピックを表わす「調査の分野」ベクトルを構築する。次いで、調査ベクトルのこれらの分野は、類似度エッジを強化するために候補一致について比較される。

【0042】

最後に、原作者の特定の既知の訂正をサポートするメカニズムがある。具体的には、図５（ｃ）に示されるように、論文識別子と著者名のペアを用いてキュレートされたリンク２８１のデータファイルが構築される。類似度関連付けプロセス２８３を介してデータファイル２８１を処理すると、類似人物エッジテーブル２８５が得られる。

【0043】

上で簡単に参照したように、曖昧性除去ステップ２１７の関連付け段階が完了すると、関連付け段階から生成された著者ノード及び類似人物エッジを使用して類似度グラフを構築するためにクラスタリング段階が行なわれる。ここで図６（ａ）～図６（ｃ）を参照すると、曖昧性除去ステップ２１７のクラスタリング段階を説明するのに有用な一連のフローチャートが示される。図６（ａ）に示されるように、グラフ構築ステップ２１５中に作成された著者ノードテーブル２６７からのデータ、及び関連付け段階中に作成された類似人物エッジテーブル３０３からのデータ（すなわち、テーブル２７３，２７９及び２８５の結合）は、クラスタリンググラフィック処理３０５を介して処理され、著者クラスタが識別されるクラスタテーブル３０７をもたらす。

【0044】

好ましくは、プロセス３０５の一部として反復グラフアルゴリズムを実行して、潜在的に一般的な著者のクラスタを識別する。具体的には、任意のグラフクラスタリングアルゴリズム（接続コンポーネントアルゴリズムなど）を実行して、各著者ノードにクラスタを割り当てることができる。次いで、クラスタが処理され、個別の著者の名前が、クラスタ内の全ての名前の中で最も長い名前、又は全ての名前がほぼ同じ長さである場合の名前の最も頻繁な出現などの、一般的な有用性の基準に基づいて選択される。

【0045】

個別の著者が安定した識別子を（例えば、データの増強を可能にするために）維持することは、データパイプラインの下流側の消費者にとって重要である。言い換えれば、データパイプライン内の論文が追加及び／又は削除されると、クラスタは順に成長（例えば、新しいクラスタを形成する）、縮小（例えば、既存のクラスタを削除する）、又は同じままであり得る。したがって、各クラスタ内のメンバー又は構成要素は、クラスタ間を移動し、新しいクラスタを形成し、又は恒久的に削除され得る。

【0046】

したがって、クラスタリング段階は、クラスタ識別子が安定したままであるようにするロジックで設計されることが好ましい。ここで図６（ｂ）を参照すると、表３０７内の個別著者クラスタ識別子が、クラスタ識別子解決プロセス３１１の一部として実行された以前のクラスタからのデータ表３０９内の安定した識別子と比較されて、個別著者クラスタ識別子の更新されたデータ表３１３が得られる。

【0047】

その後、表３１３内の識別された著者クラスタは、個別の、又は検証された著者ノードを生成するために処理される。具体的には、個別著者構築プロセス３１５が表３１３のクラスタに適用されて、別個の著者ノード表３１７が生成される。続いて、プロセス３１５は、クラスタメンバー（すなわち、表３０１で規定される著者ノード）を表３１７で規定された個別著者ノードと関連付ける曖昧性除去エッジテーブル３１９を生成し、それによって著者ノードにおける原作者の整合を容易にする。更に、プロセス３１５を使用して、表３１７で規定された個別著者ノードを論文、トピック、協力者などの他のエンティティに関連付けるエッジテーブル３２１を生成することができる。

【0048】

曖昧性除去ステップ２１７の最終段階として、著者の曖昧性を解決するためにクラスタリング結果が検査される任意選択的な精緻化段階が行なわれる。特に、著者の同義語及び類義語を使用するため、クラスタリング結果は、集中エラー及び分割エラーを被り得る。そのようなエラーの識別は、以下で更に説明するように、ラベル付きデータセットで訓練された分類子モデルを使用して達成することができる。

【0049】

具体的には、精緻化段階の一部として、決定木分類子が、ラベル付きデータを使用して訓練され、次に著者クラスタを精緻化するために利用される。言い換えれば、決定木分類子は、クラスタデータ（すなわち、クラスタメンバー）が同じ人物を表わすかどうかの予測を行なうために使用される。距離指標として解釈することができるペアレベルの予測に基づいて、クラスタメンバーは、精緻化されたクラスタを生成するために分散クラスタリングアルゴリズムを使用して再クラスタリングされ得る。

【0050】

ここで図７を参照すると、曖昧性除去ステップ２１７の任意選択的な精密化段階を説明するのに有用なフローチャートが示される。図７に示されるように、精緻化段階の訓練部分では、分類子モデルは、「ゴールドスタンダード」入力データ４０１と、論文の著者を記述するグラフィカルモデルから抽出された特徴データ４０３とを使用して訓練される。

【0051】

入力データ４０１は、好ましくは、類似度又はクラスタモデルから意図的に保留されたラベル付きデータである。モデル訓練は、本質的に計算集約的であり、（ｉ）入力データ４０１が訓練ペアデータ４０７及び試験ペアデータ４０９に分割される準備ステップ４０５と、（ｉｉ）類似度モデル及び訓練ペアデータ４０７からの特徴データ４０３が訓練された分類子モデル４１３を作成するために使用される訓練プロセス４１１と、（ｉｉｉ）訓練された分類子モデル４１３及び類似度モデル特徴テーブル４０３からのデータが、「ゴールドスタンダード」試験ペアデータ４０９のクラスタリング又は関連付けを評価するために利用される試験プロセス４１５とを含む。評価プロセス４１５の結果が前のモデルを超える場合、精緻化された類似度又はクラスタモデルが展開される。

【0052】

次いで、訓練された決定木分類子４１３を利用して、クラスタのメンバーが同じ人物を指すかどうかをペアワイズで予測する。次いで、ペア予測は、必要に応じてクラスタを分割するために処理される。

【0053】

ここで図８を参照すると、事前に一緒にクラスタリングされた様々な著者名データを含むサンプル著者クラスタ４２１が示される。推論プロセスの一部として、クラスタ４２１は、著者ペア４２５のデータテーブルを生成するために準備ステップ４２３と共に適用される。その後、ペア予測アルゴリズムプロセス４２７が、特徴データテーブル４０３及び訓練された分類子モデル４１３を使用して著者ペアデータテーブル４２５に適用され、著者類似度値が計算されて各著者ペアに割り当てられるペア予測データテーブル４２９をもたらす。次いで、評価プロセス４３１の一部として、ペア予測データテーブル４２９の結果を利用して、元のメンバクラスタを精緻化する。本例では、オリジナルの著者クラスタ４２１は、精緻化された著者クラスタ４３３及び４３５に更に細分される。
信頼度計算ステップ２１９

【0054】

プロセス２１１の最後のステップとして、推論、又は信頼度（ＤｏＢ）計算として、ステップ２１９は、一致又は関連付けられた著者の確かさのレベルを推論するために実施されるが、推論の適用は、著者のみに限定されるものではなく、知識グラフ内の他のノード又はエッジタイプにおける複数の次元に沿って決定することができる。次に、任意の著者一致推論が、追加の情報又は知識としてグラフモデルに組み込まれ、それによって電子文書の適切な原作者を保証することができる。信頼度計算ステップ２１９を使用して、グラフィカルモデル内の確率を推論アルゴリズムに供給して、他の関係が真である尤度を決定することができる。

【0055】

ここで図９を参照すると、各クラスタ４３９のクラスタ完全性信頼度スコアを導出するために、ＤｏＢ計算プロセス４３７によってペア予測データテーブル４２９が利用されるフローチャートが示される。これは一例にすぎず、本発明の目的のために、他の指標を計算するために他の知識グラフデータ要素を特殊なプロセスに供給することができる。

【0056】

信頼度指標を計算する代替例として、著者によって作成された出力量の確かさは、以下の式を使用して計算することができる。
（１－ｅ^{－α（ｘ－β）}）／（１＋ｅ^{－α（ｘ－β）}）

【0057】

ここで、アルファ（α）及びベータ（β）は制御可能なパラメータである。２つの顕著な値は、α＝β＝２であり、ｘは、識別された一致（又は「重複」）の対数から、指定された期間内に個人が生成することができる出版物のいくらかの顕著な上限を引いたものである。０に近いｘの値の場合、関数は約１であるが、より大きい値の場合、関数は急速に（指数関数的に）０に低下する。

【0058】

値を規定することに関して、メタデータを処理した後、特定の著者が列挙されている全ての論文が、同一に、又は同等性について許容されたバリエーションのセットに従って（例えば、ＲａｌｐｈＳｔｅｐｈｅｎＢａｒｉｃ＝＝Ｒ．Ｓ．Ｂａｒｉｃ＝＝ＲａｌｐｈＡ．Ｂａｒｉｃ）識別される。これらの論文はＴ年の期間に及ぶ。年間に公開される論文の上限（ＰＰＹＬ）を仮定すると、Ｘは以下のように規定される。
Ｘ＝Ｌｏｇ（ベース１０）［論文数－ＰＰＹＬ＊Ｔ］

【0059】

ＰＰＹＬに５０の値を与えて開始し、結果を調べる。その値は高いので、真に最も多産な著者のみが一致することができる。結果に応じて、値、並びにＤｏＢ計算式のアルファ及びベータパラメータを必要に応じて再較正することができる。

【0060】

上記で詳細に説明した本発明は、単に典型例にすぎないことを意図しており、当業者は、本発明の思想から逸脱することなく、本発明に対して多数の変形及び修正を行なうことができるものとする。そのような変形及び修正は全て、添付の特許請求の範囲に規定される本発明の範囲内にあることが意図される。

【図1】