(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】著者検証を伴う電子文書をグラフモデル化する方法
(51)【国際特許分類】
G06F 16/28 20190101AFI20240723BHJP
【FI】
G06F16/28
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023579666
(86)(22)【出願日】2022-06-29
(85)【翻訳文提出日】2024-02-22
(86)【国際出願番号】 US2022035512
(87)【国際公開番号】W WO2023278567
(87)【国際公開日】2023-01-05
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】315007628
【氏名又は名称】コピーライト クリアランス センター,インク.
(74)【代理人】
【識別番号】110000659
【氏名又は名称】弁理士法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】マーマニス,ハラランボス
(72)【発明者】
【氏名】ブラムリー,ロビン,ジェームス
(72)【発明者】
【氏名】クレイダーマン,マシュー
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HA01
5B175HB03
5B175KA12
(57)【要約】
複数の電子文書のグラフィカルモデルを生成するための方法は、例えば略語、偽名、誤字などの使用に起因して、著者の名前のスペルが文書間で異なる場合でも、共通の原作者を有する個々の電子文書間のつながりを確立する。グラフィカルモデルは、電子文書からデータを取り込み、処理されたデータを使用してベースグラフィカルモデルを構築することによって生成される。その後、曖昧性除去ステップの一部として、複数の電子文書の中の類似した著者が識別されてクラスタリングされ、好ましくは経時的に精緻化される著者類似度グラフがもたらされる。その後、共通の原作者を有すると決定された文書について、信頼度又は類似度推論が計算され、次いでベースグラフィカルモデルに信頼度又は類似度推論が組み込まれる。結果として、グラフィカルモデルにおける関連付けられた情報の精度の推論を確立することができる。
【特許請求の範囲】
【請求項1】
複数の電子文書のグラフィカルモデルを生成するためのコンピュータで実施される方法において、各電子文書が識別情報を含むデータから構成され、前記識別情報が原作者を含み、
(a)前記複数の電子文書のそれぞれから前記データを取り込むステップと、
(b)前記複数の電子文書からの前記データを使用してベースグラフィカルモデルを構築するステップと、
(c)前記複数の電子文書の精選されたペア間の識別情報の任意の関連性の曖昧性を除去するステップと、
(d)電子文書の精選されたペア間の識別情報の関連性の信頼度を計算するステップであって、電子文書の精選されたペア間の識別情報の関連性の信頼度が前記ベースグラフィカルモデルに組み込まれる、ステップと、
を含む方法。
【請求項2】
前記曖昧性除去ステップの一部として、前記複数の電子文書の精選されたペア間の共通の原作者が識別される、請求項1に記載の方法。
【請求項3】
前記曖昧性除去ステップの一部として、電子文書の精選されたペア間の共通の原作者が、スペルにばらつきがあっても識別される、請求項2に記載の方法。
【請求項4】
前記曖昧性除去ステップの一部として、共通の原作者を有するとして識別された電子文書のペアが関連付けられる、請求項3に記載の方法。
【請求項5】
前記計算ステップの一部として、電子文書の精選されたペア間の共通の原作者の信頼度に、確率の数値が割り当てられる、請求項4に記載の方法。
【請求項6】
前記計算ステップの一部として、前記数値がペア予測アルゴリズムプロセスによって計算される、請求項5に記載の方法。
【請求項7】
前記取り込みステップの一部として、前記複数の電子文書からのデータがコンパイルされてデータモデリングのために処理される、請求項6に記載の方法。
【請求項8】
前記取り込みステップは、前記複数の電子文書のそれぞれからデータフラグメントのテーブルを生成する、請求項7に記載の方法。
【請求項9】
前記構築ステップの一部として、前記ベースグラフィカルモデルは、前記複数の電子文書のそれぞれからのデータフラグメントの前記テーブルを使用して構築される、請求項8に記載の方法。
【請求項10】
前記構築ステップの一部として、前記複数の電子文書のそれぞれからの前記データフラグメントのテーブルが処理されて、
(a)各電子文書を前記ベースグラフィカルモデル内の対応するノードと関連付ける文書ノードテーブルと、
(b)各電子文書の原作者を列挙する著者ノードテーブルと、
(c)前記ベースグラフィカルモデルにおけるノード間の関係を列挙するグラフエッジテーブルと、
を備えるテーブルのセットがもたらされる、請求項9に記載の方法。
【請求項11】
前記曖昧性除去ステップは、
(a)著者ノードテーブルが処理されて著者名の類似度を識別することによって協調グラフの構築を可能にする関連付け段階であって、前記協調グラフが、著者ノード、論文ノード、貢献エッジ、及び引用エッジを含む、関連付け段階と、
(b)前記協調グラフから導出されたものを含む類似度グラフが前記著者ノード及び類似人物エッジを使用して構築されるクラスタリング段階と、
(c)著者名のばらつきを解決するためにクラスタリング結果が検査される精緻化段階と、
を含む、請求項10に記載の方法。
【請求項12】
前記類似人物エッジは、名前照合、著者識別コード照合、及び協調グラフ構築から成るグループからの少なくとも1つの技術を使用して作成される、請求項11に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本発明は、その開示が参照により本明細書に組み込まれる、Haralambos Marmanisらの名義で2021年6月30日に出願された米国仮特許出願第63/216,564号に対する35U.S.C.119(e)の下での利益を主張する。
【0002】
本発明は、一般に、電子文書をコンパイルするためのシステムに関し、より詳細には、複数の電子文書の間でデータを関連付けて統合し、電子文書のグラフ構造化データモデル又は知識グラフを生成するためのシステムに関する。
【背景技術】
【0003】
データは、とりわけ、検索を最適化し、解析ツールを強化し、新しいコンテンツの統合を容易にするためにモデル化されることが多い。例えば、グラフデータモデリング又はグラフモデリングは、様々な個々の文書(すなわち、ノード)間の接続(すなわち、関係)の解析及び視覚化を可能にするために電子文書の集合に一般的に適用される。
【0004】
一例として、
図1には、電子論文又は文書A
1~A
9の集合の例示的なグラフィカルモデルが示されており、グラフィカルモデルは、全体として参照番号111で表わされている。グラフィカルモデル111では、論文113-1~113-9としても示される論文A
1~A
9が、関連性に関して示される。特に、関連性重み、すなわち値Wは、グラフィカルモデル111における各ベクトルに割り当てられる。この能力において、とりわけ論文の関連性を理解するために、論文113-1~113-9間の条件付き依存構造を利用することができる。
【0005】
重み付きグラフィカルモデル(例えば、モデル111)を使用して、別個のトピックを表わすことができる文書クラスタを識別することができる。例えば、グラフィカルモデル111において、論文113-1~113-5は、第1の文書クラスタ又はサブグラフ121-1を共に形成し、論文113-6~113-9は、第2の文書クラスタ又はサブグラフ121-2を形成する。更に、とりわけ、データモデル111に含まれる情報の精度の確かさ又は確実性に関する意味的メタデータを利用して、知識グラフを生成することができる。
【0006】
電子文書(例えば、科学論文)をモデル化するグラフの1つの有用な用途として、グラフィカルモデルからの特定のトピックの識別を使用して、そのような文書の原作者に基づいてそれぞれのトピックごとに重要なオピニオンリーダーを識別することができる。言い換えると、特定のクラスタ内の最も関連性の高い論文と関連付けられた著者(複数可)は、その特定のトピック又は分野に関する重要なリーダーとして解釈され得る。特定のトピック(例えば、COVID-19の伝染性)に関する重要なオピニオンリーダーの識別は、協調ネットワークを確立するために使用することができ、この場合、グラフィカルモデルを介して識別される重要なリーダーは、その特定のトピックに関する後続の科学論文における協力者又は同等の見直し者として役立ち得る。
【0007】
上記の有用性にもかかわらず、本出願人は、電子文書のグラフモデリングを通じて重要なオピニオンリーダーの識別に関連する顕著な欠点を認識している。特に、出願人は、異なる電子文書間での著者の名前のスペルの特定の不一致が、とりわけ、(i)名前のスペルミス、(ii)略語の使用、及び(iii)ネイティブ言語文字からラテン系文字への変換におけるばらつきに起因してしばしば生じることを認識している。更に、ある特定の固有の識別番号/コードは、原作者を検証するために利用されることが多いが(例えば、メリーランド州ベセスダのORCID社によって学術論文の著者及び貢献者に発行されたORCID識別番号)、これらのタイプの識別コードは、(i)誤って入力されるか、又は(ii)ある特定の個人に割り当てられないことが多い。
【発明の概要】
【0008】
そこで、本発明は、複数の電子文書のグラフィカルモデルを生成するための新規な方法を提供することを目的とする。
【0009】
本発明の他の目的は、関連データを含む個々の電子文書間のつながりを確立する前述のタイプ類の方法を提供することである。
【0010】
本発明の更に他の目的は、原作者などの関連文書識別子を伴う個々の電子文書間のつながりを確立する前述のタイプの方法を提供することである。
【0011】
本発明の更に他の目的は、様々な個々の電子文書と関連付けられる識別子間の潜在的なスペルのばらつきを識別する前述のタイプの方法を提供することである。
【0012】
本発明の更に他の目的は、文書識別子とスペリングのばらつきとの間の関連性の可能性を決定する前述のタイプの方法を提供することである。
【0013】
本発明の他の目的は、スペルのばらつきにもかかわらず、関係がある又は関連付けられると決定された場合に、文書識別子間のつながりをグラフィカルモデルに組み込む、前述のタイプの方法を提供することである。
【0014】
本発明の更に他の目的は、安価に実施することができ、効率的に処理することができ、容易に拡張可能である前述のタイプの方法を提供することである。
【0015】
したがって、本発明の1つの特徴として、複数の電子文書のグラフィカルモデルを生成するためのコンピュータで実施される方法が提供され、各電子文書が識別情報を含むデータから構成され、識別情報が原作者を含み、方法は、(a)複数の電子文書のそれぞれからデータを取り込むステップと、(b)複数の電子文書からのデータを使用してベースグラフィカルモデルを構築するステップと、(c)複数の電子文書の精選されたペア間の識別情報の任意の関連性の曖昧性を除去するステップと、(d)電子文書の精選されたペア間の識別情報の関連性の信頼度を計算するステップであって、電子文書の精選されたペア間の識別情報の関連性の信頼度がベースグラフィカルモデルに組み込まれる、ステップとを含む。
【0016】
様々な他の特徴及び利点が、以下の説明から明らかになる。明細書本文では、明細書本文の一部を形成するとともに本発明を実施するための実施形態が例示として示される添付図面を参照する。実施形態は、当業者が本発明を実施できるようにするために十分に詳細に説明され、また、他の実施形態が利用されてもよく、本発明の範囲から逸脱することなく構造的変更が行なわれてもよいことが理解されるべきである。したがって、以下の詳細な説明は限定的な意味で解釈されるべきではなく、また、本発明の範囲は添付の特許請求の範囲によって最も良く規定される。
【0017】
図面において、同様の参照番号は同様の部分を表わす。
【図面の簡単な説明】
【0018】
【
図1】電子文書の編集物の例示的なグラフィカルモデルである。
【
図2】本発明の教示に従って実施される、複数の電子文書に関連する情報のグラフィカルモデルを生成するための新規な方法を示す簡略フローチャートである。
【
図3a】
図2に示されるデータ取り込みステップの一部としてデータがどのようにロードされるかを理解するのに有用な一連のフローチャートを示す。
【
図3b】
図2に示されるデータ取り込みステップの一部としてデータがどのようにロードされるかを理解するのに有用な一連のフローチャートを示す。
【
図3c】
図2に示されるデータ取り込みステップの一部としてデータがどのようにロードされるかを理解するのに有用な一連のフローチャートを示す。
【
図4】
図2に示されるグラフ構築ステップの一部として抽出された論文データがベースグラフを構築するためにどのように使用されるかを理解するのに有用なフローチャートである。
【
図5a】
図2に示される曖昧性除去ステップの関連付け段階を理解するのに有用な一連のフローチャートを示す。
【
図5b】
図2に示される曖昧性除去ステップの関連付け段階を理解するのに有用な一連のフローチャートを示す。
【
図5c】
図2に示される曖昧性除去ステップの関連付け段階を理解するのに有用な一連のフローチャートを示す。
【
図6a】
図2に示される曖昧性除去ステップのクラスタリング段階を理解するのに有用な一連のフローチャートを示す。
【
図6b】
図2に示される曖昧性除去ステップのクラスタリング段階を理解するのに有用な一連のフローチャートを示す。
【
図6c】
図2に示される曖昧性除去ステップのクラスタリング段階を理解するのに有用な一連のフローチャートを示す。
【
図7】
図2に示される曖昧性除去ステップの分類子訓練段階を理解するのに有用なフローチャートである。
【
図8】
図2に示される曖昧性除去ステップの一部として精緻化されるクラスタの一例を示すフローチャートである。
【
図9】
図2に示される推論計算ステップを理解するのに有用なフローチャートである。
【発明を実施するための形態】
【0019】
グラフモデリング方法211
ここで
図2を参照すると、複数の電子文書に関連する情報のグラフィックモデルを生成するための新規な方法を示すフローチャートが示されており、この方法は、本発明の教示に従って実施され、概して参照番号211により特定される。以下で詳細に説明するように、方法211は、一連の新規なステップを含み、好ましくは主に特定用途向けコンピュータソフトウェアの実行によって自動化され、グラフィカルモデル内の情報の精度に関する信頼度(DoB)をモデルに組み込むことができるようにする。
【0020】
以下の説明では、グラフィカルモデル内の電子文書に関してリストアップされた原作者の正確さを検証する方法211が示される。しかしながら、本発明の原理は、原作者の確実性に関する情報をグラフィカルモデルに組み込むことに限定されないことに留意すべきである。むしろ、方法211は、本発明の思想から逸脱することなく、グラフィカルモデルに含まれる任意のタイプの情報又はデータの真実性の信頼度又は確かさを統合するために利用することができることを理解すべきである。
【0021】
本明細書で規定されるように、「文書」という用語は、任意の電子記録又は著作物を意味する。以下の説明では、文書は、主に科学刊行物などの論文として表わされる。しかしながら、本明細書における「文書」という用語の使用は、科学刊行物又は他の同様のタイプの論文に限定されることを意図していないことを理解すべきである。むしろ、「文書」という用語の使用は、本発明の思想から逸脱することなく、文献、オンラインニュース記事、更にはデータベース記録を含む、任意の情報源から導出された任意の/全ての形態の電子記録(例えば、任意のテキストベースの情報記録)を包含することを意図されている。
【0022】
図2に見られるように、方法211は、(i)電子文書が取得され、処理され、指定されたクラウドベースのデータパイプラインに記憶されるデータ取り込みステップ213と、(ii)とりわけ、データ取り込みステップ213でコンパイルされた複数の電子文書を使用してベースグラフモデルが生成されるグラフ構築ステップ215と、(iii)ベースグラフモデル内の電子文書の原作者が見直されて選択的に照合される曖昧性除去ステップ217と、(iv)電子文書の適切な原作者の確かさのレベルが計算されて追加の情報又は知識としてグラフモデルに組み込まれる信頼度計算ステップ219とを含む。ステップ213,215,217及び219のそれぞれに関連する詳細は、以下により詳細に記載される。
データ取り込みステップ213
【0023】
前述したように、データ取り込みステップ213は、電子文書のセットからのデータを取得し、処理し、指定されたデータパイプラインに記憶することを含む。データ取得及び取り込みの頻度は、好ましくは、指定されたパイプライン内の電子文書の量及び公開日に依存する。前述のように、電子文書のセットから取り込まれたデータは、その後、データグラフモデリングに利用される。
【0024】
好ましくは、データ取り込みステップ213は、完全にクラウドコンピューティングサービスプラットフォームを介して実施され、それにより、データを処理するときに計算リソースのみを必要とする。例えば、Amazon Web Services(AWS)クラウドコンピューティングサービスプラットフォームを利用してステップ213を実施することができ、それによってウェブサービスツールの最適化された選択及び構成が可能になる。例えば、データ取得は、AWSベースのシンプルストレージサービス(S3)上でPythonプログラミングスクリプトを使用して実施され、AWSベースのElastic MapReduce(EMR)を使用して処理され、AWSベースのシンプルストレージサービス(S3)上の列指向ファイル構造に格納され得る。
【0025】
しかしながら、主にAWSベースのクラウドコンピューティングサービスプラットフォームの使用は、例示のみを目的として提供されていることに留意すべきである。むしろ、ステップ213は、本発明の思想から逸脱することなく、Microsoft Azureクラウドコンピューティングサービスプラットフォームなどの別のクラウドコンピューティングサービスプラットフォームを使用して同様に実施することができる。
【0026】
ここで
図3(a)~
図3(c)を参照すると、データ取り込みステップ213でデータがどのようにロードされるかを示すのに有用なフローチャートのセットが示される。ステップ213の第1の段階では、所望のグラフ構造化データモデル又はグラフィカルモデルにおけるノードが作成される。各ノードに関連する基本的な識別又は基準データは、機関、雑誌、オントロジー/分類学的用語に相当し得るが、これらに限定されず、適用可能な場合、階層構造を含むことができる。
【0027】
図3(a)に見られるように、取り込みプロセス221の結果として、とりわけ、表形式のファイルフォーマット、構造化されたテキストファイル、及びXMLファイルの形態の基準データファイル225から基準データテーブル223がロードされる。或いは、基準データファイル225は、API、データベース、又はウェブマイニングを含むがこれに限定されない他のソースから取得されてもよい。
【0028】
図3(b)に見られるように、階層構造、例えば分類法を含む基準データファイル227は、グラフィカルモデル内で階層を再構築するために取り込みプロセスに更なるステップを必要とする。例えば、医療被検体見出し(MeSH)記述子を含む基準データファイル227が示される。したがって、取り込みプロセス229は、基準データファイル227から記述子ノードテーブル231を作成してロードする。その後、ツリー構築プロセス233が、記述子ノードテーブル231から、ツリー数ノードテーブル235及び2つのエッジテーブル237及び239の両方を作成する。エッジテーブル237は、ツリー数ノードテーブル235内の項間の「より広い」/「より狭い」階層関係を反映し、エッジテーブル239は、記述子ノードテーブル231をツリー数ノードテーブル235に関連付けて、グラフ内のナビゲーションを可能にする。
【0029】
ステップ213の第2の段階では、論文データ(すなわち、各電子文書の内容)がデータパイプラインに取り込まれる。取り込みプロセス213の新規な特徴として、本発明は、パイプラインに取り込まれた論文データにおける任意の更新をサポートするように設計される。例えば、
図3(c)は、論文データテーブル245を作成するために、取り込みプロセス243によってXMLフラグメントが抽出される論文データファイル241の元のセット(例えば、PubMedデータベースを介して公開された科学論文の年間データフィード)を示す。しかしながら、
図3(c)に示される例示的な例は、更新ファイル247の毎日のセットも含む(例えば、科学論文に含まれる削除及び/又は修正を記録するために)。XMLフラグメントは、更新データテーブル251を作成するために取り込みプロセス249を介して更新ファイル247から同様に抽出される。
【0030】
その後、統合プロセス253を通じて、データテーブル245及び251が結合されて、部分的に処理された文書を表わす論文フラグメントの中間データテーブル255が作成される。表255の各記録は、好ましくは、具体的に抽出された文書プロパティと、表裏の物質フラグメント(例えば、メタデータ及び基準)とを含む。複数の重複するソースが単一のエンティティ/ノードタイプに使用される場合、更なる統合/曖昧性除去ステップが必要とされる(図示せず)。
グラフ構築ステップ215
【0031】
上記で参照したように、グラフ構築ステップ215は、データ取り込みステップ213から生成されたデータテーブルを使用してベースグラフモデルを作成することを含み、モデルは、様々なノード(例えば、著者、論文内容、及び一般的な論文基準データ)間の関係(ベクトルとして示される)の視覚化を可能にする。グラフ構築ステップ215及び曖昧性除去ステップ217は、好ましくは、Apache Sparkなどの任意の適切な分散データ処理フレームワークを使用して実施される。このように、グラフデータは、Neo4jなどのグラフデータベース管理システムに適した形式でエクスポートすることができる。
【0032】
ここで
図4を参照すると、抽出された論文データがベースグラフを構築するためにどのように使用されるかを説明するのに有用なフローチャートが示される。具体的には、論文フラグメントの中間データテーブル261が、(i)データパイプライン内の各電子文書をグラフィカルモデル内の対応するノードと関連付ける論文ノードテーブル265、(ii)データパイプライン内の各電子文書の著者をリストアップする著者ノードテーブル267、及び(iii)グラフィカルモデル内のノード間の特定の関係を表わすグラフエッジテーブル269を構築するために、自動化されたグラフ構築プロセス263と共に適用される。
【0033】
グラフエッジテーブル269は、とりわけ、(i)異なるノードタイプ間の関係(例えば、論文ノードと著者ノードとの間の貢献、又は関連付け)、(ii)同じタイプのノード間の関係(例えば、複数の論文ノード間の引用関係、又は関連付け)、及び(iii)基準データノードに対するつながり(例えば、科学論文を、それが出版された特定のジャーナルと関連付けること)を表すことができることに留意すべきである。
【0034】
最適な性能のために、エッジ構築は、利用可能な場合はいつでも周知の識別情報又は識別子に依存することが好ましい。周知の識別子を使用することにより、書き込み時にターゲットのルックアップを実行する必要がなくなる。入力データソースの品質及び/又は実装者の選好又は制約に応じて、データの投影前に、構築時に完全性チェックが必要とされるか、又はダウンストリームグラフデータベース管理システムに委譲され得る。
曖昧性除去ステップ217
【0035】
著者名の曖昧性除去ステップ217は、適切な著者がグラフィカルモデル内の各電子文書と関連付けられることを保証又は検証するように設計される複数段階のプロセスである。前述したように、出願人は、異なる文書リソース間の著者の名前のスペルの特定の不一致が、文書の著者としての個人の誤った識別をもたらすことが多いことを認識している。その結果、電子文書の集合に関して生成されるグラフモデルの精度が著しく損なわれる可能性がある。したがって、適切な原作者が科学論文の集合と関連付けられるようにする又はそれを証明するのに曖昧性除去ステップ217が役立つプロセスは、本発明の重要な態様を成す。
【0036】
曖昧性除去ステップ217は、以下の一連の段階、すなわち、(i)著者ノード記録が処理されて著者名の類似度及び協調グラフ内で発生するパスの解析を識別する関連付け段階、(ii)関連付け段階から生成された著者ノード及び類似人物エッジを使用して類似度グラフが構築されるクラスタリング段階、及び(iii)クラスタリング結果が検査されて、とりわけ同義語及び同義語を使用して作成された著者の曖昧性を解決する精緻化段階に分割される。上記の各段階については、以下で更に詳細に説明する。
【0037】
ここで
図5(a)~(c)を参照すると、曖昧性除去ステップ217の関連付け段階を説明するのに有用な一連のフローチャートが示される。
図5(a)に示されるように、グラフ構築ステップ215中に作成された著者ノードテーブル267内のデータは、類似度関連付けプロセス271を介して処理され、類似人物エッジテーブル273をもたらす。類似著者ノードを識別及び関連付けるためのプロセス271は、以下の技術、すなわち、(i)著者ノードテーブル267内のデータに名、姓ハッシュアルゴリズムが適用される名前照合、(ii)著者に割り当てられた固有識別子(例えば、ORCID識別番号)が著者ノードを明確に関連付けるために利用される著者識別コード照合、及び(iii)著者ノード(すなわち、著者)、論文ノード(すなわち、論文)、及び基準エッジ(例えば、貢献、引用など)の間の関係の共通パターンを識別するためにグラフ解析が行なわれる協調グラフ構築のうちの少なくとも1つを使用して実行することができる。
【0038】
図5(b)の左側には、協調グラフ構築技術が示される。図から分かるように、論文ノードテーブル265、著者ノードテーブル267、及びエッジテーブル269(グラフ構築ステップ215から生成された貢献エッジテーブル及び引用エッジテーブル)からのデータは、グラフ構築プロセス275を介して関連付けられ、協調グラフ(図示せず)の表示をもたらす。
【0039】
自己引用は、グラフ化プロセスによって識別することができる関係の共通パターンの一例である。自己引用は、科学界で一般的である、同じ著者によって以前に書かれた別の文書を著者が引用するときに行なわれる。自己引用グラフ化により、論文の2人の著者を引用により関連付けることができる。好ましくは姓及び名のイニシャルを使用して、著者名の追加のフィルタリング及び比較を通じて、著者の同義語を発見することができ、次いで、引用している著者と引用されている著者との間の類似度エッジを構築するために著者の同義語を使用することができる。これは、
図5(b)の右側に一般的に表わされており、プロセス275によって生成された協調グラフは、プロセス277において解析されて、類似人物エッジテーブル279を生成する。
【0040】
ファジーネーム照合は、グラフ化プロセスの適用によって改善することができる関係の共通パターンの別の例である。協調グラフ内では、グラフモデル内のコミュニティ又はクリークを検出することができる。具体的には、この場合、関連付け段階277は、交互のビッグスター、リトルスターアルゴリズムの実施態様である接続コンポーネントアルゴリズムを実行する。構成要素が割り当てられると、巨大な構成要素は考慮されなくなる。多くの場合、残りの成分は高度に凝集性であることが分かっている。次に、同じ構成要素内にあって同じ姓を共有する候補(すなわち、著者)が考慮される。頭文字と名前の一致が正確である場合、候補は、正確な名前(ハッシュ)の一致によって既に識別されているはずであるため、破棄される。候補が高い閾値を通過する場合、名称近接類似度エッジ行が表279に構築される。候補がより低い閾値を通過したが、著者の所属が二次閾値を通過した場合、著者名及び所属近接類似度エッジ行が表279に構築される。
【0041】
調査照合の分野は、グラフ化プロセスによって識別することができる関係の共通パターンの別の例である。調査照合の分野では、グラフィックパスを使用して、論文の著者が公開されている特定のトピックを表わす「調査の分野」ベクトルを構築する。次いで、調査ベクトルのこれらの分野は、類似度エッジを強化するために候補一致について比較される。
【0042】
最後に、原作者の特定の既知の訂正をサポートするメカニズムがある。具体的には、
図5(c)に示されるように、論文識別子と著者名のペアを用いてキュレートされたリンク281のデータファイルが構築される。類似度関連付けプロセス283を介してデータファイル281を処理すると、類似人物エッジテーブル285が得られる。
【0043】
上で簡単に参照したように、曖昧性除去ステップ217の関連付け段階が完了すると、関連付け段階から生成された著者ノード及び類似人物エッジを使用して類似度グラフを構築するためにクラスタリング段階が行なわれる。ここで
図6(a)~
図6(c)を参照すると、曖昧性除去ステップ217のクラスタリング段階を説明するのに有用な一連のフローチャートが示される。
図6(a)に示されるように、グラフ構築ステップ215中に作成された著者ノードテーブル267からのデータ、及び関連付け段階中に作成された類似人物エッジテーブル303からのデータ(すなわち、テーブル273,279及び285の結合)は、クラスタリンググラフィック処理305を介して処理され、著者クラスタが識別されるクラスタテーブル307をもたらす。
【0044】
好ましくは、プロセス305の一部として反復グラフアルゴリズムを実行して、潜在的に一般的な著者のクラスタを識別する。具体的には、任意のグラフクラスタリングアルゴリズム(接続コンポーネントアルゴリズムなど)を実行して、各著者ノードにクラスタを割り当てることができる。次いで、クラスタが処理され、個別の著者の名前が、クラスタ内の全ての名前の中で最も長い名前、又は全ての名前がほぼ同じ長さである場合の名前の最も頻繁な出現などの、一般的な有用性の基準に基づいて選択される。
【0045】
個別の著者が安定した識別子を(例えば、データの増強を可能にするために)維持することは、データパイプラインの下流側の消費者にとって重要である。言い換えれば、データパイプライン内の論文が追加及び/又は削除されると、クラスタは順に成長(例えば、新しいクラスタを形成する)、縮小(例えば、既存のクラスタを削除する)、又は同じままであり得る。したがって、各クラスタ内のメンバー又は構成要素は、クラスタ間を移動し、新しいクラスタを形成し、又は恒久的に削除され得る。
【0046】
したがって、クラスタリング段階は、クラスタ識別子が安定したままであるようにするロジックで設計されることが好ましい。ここで
図6(b)を参照すると、表307内の個別著者クラスタ識別子が、クラスタ識別子解決プロセス311の一部として実行された以前のクラスタからのデータ表309内の安定した識別子と比較されて、個別著者クラスタ識別子の更新されたデータ表313が得られる。
【0047】
その後、表313内の識別された著者クラスタは、個別の、又は検証された著者ノードを生成するために処理される。具体的には、個別著者構築プロセス315が表313のクラスタに適用されて、別個の著者ノード表317が生成される。続いて、プロセス315は、クラスタメンバー(すなわち、表301で規定される著者ノード)を表317で規定された個別著者ノードと関連付ける曖昧性除去エッジテーブル319を生成し、それによって著者ノードにおける原作者の整合を容易にする。更に、プロセス315を使用して、表317で規定された個別著者ノードを論文、トピック、協力者などの他のエンティティに関連付けるエッジテーブル321を生成することができる。
【0048】
曖昧性除去ステップ217の最終段階として、著者の曖昧性を解決するためにクラスタリング結果が検査される任意選択的な精緻化段階が行なわれる。特に、著者の同義語及び類義語を使用するため、クラスタリング結果は、集中エラー及び分割エラーを被り得る。そのようなエラーの識別は、以下で更に説明するように、ラベル付きデータセットで訓練された分類子モデルを使用して達成することができる。
【0049】
具体的には、精緻化段階の一部として、決定木分類子が、ラベル付きデータを使用して訓練され、次に著者クラスタを精緻化するために利用される。言い換えれば、決定木分類子は、クラスタデータ(すなわち、クラスタメンバー)が同じ人物を表わすかどうかの予測を行なうために使用される。距離指標として解釈することができるペアレベルの予測に基づいて、クラスタメンバーは、精緻化されたクラスタを生成するために分散クラスタリングアルゴリズムを使用して再クラスタリングされ得る。
【0050】
ここで
図7を参照すると、曖昧性除去ステップ217の任意選択的な精密化段階を説明するのに有用なフローチャートが示される。
図7に示されるように、精緻化段階の訓練部分では、分類子モデルは、「ゴールドスタンダード」入力データ401と、論文の著者を記述するグラフィカルモデルから抽出された特徴データ403とを使用して訓練される。
【0051】
入力データ401は、好ましくは、類似度又はクラスタモデルから意図的に保留されたラベル付きデータである。モデル訓練は、本質的に計算集約的であり、(i)入力データ401が訓練ペアデータ407及び試験ペアデータ409に分割される準備ステップ405と、(ii)類似度モデル及び訓練ペアデータ407からの特徴データ403が訓練された分類子モデル413を作成するために使用される訓練プロセス411と、(iii)訓練された分類子モデル413及び類似度モデル特徴テーブル403からのデータが、「ゴールドスタンダード」試験ペアデータ409のクラスタリング又は関連付けを評価するために利用される試験プロセス415とを含む。評価プロセス415の結果が前のモデルを超える場合、精緻化された類似度又はクラスタモデルが展開される。
【0052】
次いで、訓練された決定木分類子413を利用して、クラスタのメンバーが同じ人物を指すかどうかをペアワイズで予測する。次いで、ペア予測は、必要に応じてクラスタを分割するために処理される。
【0053】
ここで
図8を参照すると、事前に一緒にクラスタリングされた様々な著者名データを含むサンプル著者クラスタ421が示される。推論プロセスの一部として、クラスタ421は、著者ペア425のデータテーブルを生成するために準備ステップ423と共に適用される。その後、ペア予測アルゴリズムプロセス427が、特徴データテーブル403及び訓練された分類子モデル413を使用して著者ペアデータテーブル425に適用され、著者類似度値が計算されて各著者ペアに割り当てられるペア予測データテーブル429をもたらす。次いで、評価プロセス431の一部として、ペア予測データテーブル429の結果を利用して、元のメンバクラスタを精緻化する。本例では、オリジナルの著者クラスタ421は、精緻化された著者クラスタ433及び435に更に細分される。
信頼度計算ステップ219
【0054】
プロセス211の最後のステップとして、推論、又は信頼度(DoB)計算として、ステップ219は、一致又は関連付けられた著者の確かさのレベルを推論するために実施されるが、推論の適用は、著者のみに限定されるものではなく、知識グラフ内の他のノード又はエッジタイプにおける複数の次元に沿って決定することができる。次に、任意の著者一致推論が、追加の情報又は知識としてグラフモデルに組み込まれ、それによって電子文書の適切な原作者を保証することができる。信頼度計算ステップ219を使用して、グラフィカルモデル内の確率を推論アルゴリズムに供給して、他の関係が真である尤度を決定することができる。
【0055】
ここで
図9を参照すると、各クラスタ439のクラスタ完全性信頼度スコアを導出するために、DoB計算プロセス437によってペア予測データテーブル429が利用されるフローチャートが示される。これは一例にすぎず、本発明の目的のために、他の指標を計算するために他の知識グラフデータ要素を特殊なプロセスに供給することができる。
【0056】
信頼度指標を計算する代替例として、著者によって作成された出力量の確かさは、以下の式を使用して計算することができる。
(1-e-α(x-β))/(1+e-α(x-β))
【0057】
ここで、アルファ(α)及びベータ(β)は制御可能なパラメータである。2つの顕著な値は、α=β=2であり、xは、識別された一致(又は「重複」)の対数から、指定された期間内に個人が生成することができる出版物のいくらかの顕著な上限を引いたものである。0に近いxの値の場合、関数は約1であるが、より大きい値の場合、関数は急速に(指数関数的に)0に低下する。
【0058】
値を規定することに関して、メタデータを処理した後、特定の著者が列挙されている全ての論文が、同一に、又は同等性について許容されたバリエーションのセットに従って(例えば、Ralph Stephen Baric==R.S.Baric==Ralph A.Baric)識別される。これらの論文はT年の期間に及ぶ。年間に公開される論文の上限(PPYL)を仮定すると、Xは以下のように規定される。
X=Log(ベース10)[論文数-PPYL*T]
【0059】
PPYLに50の値を与えて開始し、結果を調べる。その値は高いので、真に最も多産な著者のみが一致することができる。結果に応じて、値、並びにDoB計算式のアルファ及びベータパラメータを必要に応じて再較正することができる。
【0060】
上記で詳細に説明した本発明は、単に典型例にすぎないことを意図しており、当業者は、本発明の思想から逸脱することなく、本発明に対して多数の変形及び修正を行なうことができるものとする。そのような変形及び修正は全て、添付の特許請求の範囲に規定される本発明の範囲内にあることが意図される。
【国際調査報告】