(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023036039
(43)【公開日】2023-03-13
(54)【発明の名称】データの自動分析のための装置、コンピュータ実装された方法及びコンピュータプログラム
(51)【国際特許分類】
G06N 5/02 20230101AFI20230306BHJP
G06F 16/28 20190101ALI20230306BHJP
G06F 16/90 20190101ALI20230306BHJP
【FI】
G06N5/02
G06F16/28
G06F16/90 100
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022137605
(22)【出願日】2022-08-31
(31)【優先権主張番号】10 2021 209 612.3
(32)【優先日】2021-09-01
(33)【優先権主張国・地域又は機関】DE
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】エフゲニー ハルラモフ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175KA12
(57)【要約】
【課題】リソース記述フレームワーク(RDF)データセット(D)の自動分析のためのコンピュータ実装された方法、装置及びコンピュータプログラムである。
【解決手段】RDFデータセット(D)は、トリプルの集合を含み、RDFデータセット(D)は、ノード(N)及びエッジ(E)を含む無向グラフ(KG)として提供され、ノード(N)は、エンティティ(e)を表し、エッジ(e)は、エンティティ(e)間のリンクを表す。
【選択図】
図4
【特許請求の範囲】
【請求項1】
リソース記述フレームワーク(RDF)データセット(D)の自動分析のためのコンピュータ実装された方法であって、前記RDFデータセット(D)は、トリプルの集合を含み、前記RDFデータセット(D)は、ノード(N)及びエッジ(E)を含む無向グラフ(KG)として提供され、ノード(N)は、エンティティ(e)を表し、エッジ(e)は、エンティティ(e)間のリンクを表し、前記方法は、
-各インスタンスレベルエンティティに対して、前記エンティティの少なくとも1つのクラス及び/又は少なくとも1つのプロパティを記述する少なくとも1つのトリプルを含む少なくとも1つのエンティティ記述パターン(EDP)、並びに、
-2つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジに対して、前記2つのインスタンスレベルエンティティ間の前記リンクを記述する少なくとも1つのトリプルを含む少なくとも1つのリンク記述パターン(LP)
を生成するステップと、
前記無向グラフ(KG)のエッジをノードに変換することにより、エンティティリンクグラフ(ELG)を生成するステップであって、同一のエンティティ記述パターン(EDP)又は同一のリンク記述パターン(LP)を含む全てのノードが群を形成する、ステップと、
前記エンティティリンクグラフ(ELG)のサブグラフ(SG)を生成するステップであって、前記サブグラフ(SG)は、各群からの少なくとも1つのノードを接続する、ステップと、
エンティティリンクを表す拡張サブグラフ(eSG)の各ノードがリンクする両方のエンティティに結合されるように、エンティティリンクを表すサブグラフ(SG)の各ノードに対する欠落リンクを付加することによって、拡張サブグラフ(eSG)を生成するステップと、
-前記エンティティ記述パターン(EDP)からのエンティティ(e)を表す拡張サブグラフ(eSG)内の各ノードに対して、前記エンティティのクラスを記述する少なくとも1つのトリプル、及び、前記エンティティ記述パターンのプロパティごとに前記エンティティのプロパティを記述する少なくとも1つのトリプル、並びに、
-エンティティリンクを表す前記拡張サブグラフ(eSG)の各ノードに対する、前記リンク記述パターン(LP)からの少なくとも1つのトリプル
を付加することによって、前記拡張サブグラフ(eSG)から、前記RDFデータセットの代表的な部分集合(S)を生成するステップと、
を含む方法。
【請求項2】
前記方法は、各インスタンスレベルエンティティをそのエンティティ記述パターン(EDP)でラベル付けするステップ、及び/又は、2つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジをそのリンク記述パターン(LP)でラベル付けするステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記無向グラフ(KG)のエッジをノードに変換するステップは、各エッジを細分割するステップを含む、請求項1又は2に記載の方法。
【請求項4】
前記エンティティリンクグラフ(ELG)のサブグラフを生成することは、群シュタイナーツリー問題を解くことに基づく、請求項1又は3に記載の方法。
【請求項5】
全てのエンティティ記述パターン(EDP)と全てのリンク記述パターン(LP)との和集合は、全集合とみなされ、前記RDFデータセット(D)の各成分Djに対して、EDP(Dj)∪LP(Dj)⊆EDP(D)∪LP(D)が集合であり、前記方法は、和集合が前記全集合に等しい集合の最小数を求めるステップを含む、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記方法は、前記サブグラフ(SG)が各群からの少なくとも1つのノードを接続するように、エンティティ記述パターン(EDP)の頻度及び/又はリンク記述パターン(LP)の頻度に基づいて前記エンティティリンクグラフ(ELG)の前記サブグラフ(SG)を制限するステップを含み、前記群は、定義された閾値を超える頻度を有するエンティティ記述パターン(EDP)及び/又はリンク記述パターン(LP)を参照する、請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
前記方法は、前記エンティティリンクグラフ(ELG)の前記サブグラフ(SG)を生成する際に、キーワードクエリ(Q)を受信することと、前記キーワードクエリの各キーワードに対してキーワードパターンを生成することと、各キーワードパターンに対して、前記キーワードに一致する全てのエンティティ及びエンティティリンクから構成される群を付加することと、を含む、請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
リソース記述フレームワーク(RDF)データセット(D)の自動分析のための装置であって、前記RDFデータセット(D)は、トリプルの集合を含み、前記RDFデータセット(D)は、ノード(N)及びエッジ(E)を含む無向グラフ(KG)として提供され、ノード(N)は、エンティティ(e)を表し、エッジ(e)は、エンティティ(e)間のリンクを表し、前記装置は、少なくとも1つのプロセッサを含み、前記プロセッサは、
-各インスタンスレベルエンティティに対して、前記エンティティの少なくとも1つのクラス及び/又は少なくとも1つのプロパティを記述する少なくとも1つのトリプルを含む少なくとも1つのエンティティ記述パターン(EDP)、並びに、
-2つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジに対して、前記2つのインスタンスレベルエンティティ間のリンクを記述する少なくとも1つのトリプルを含む少なくとも1つのリンク記述パターン(LP)
を生成することと、
前記無向グラフ(KG)のエッジをノードに変換することにより、エンティティリンクグラフ(ELG)を生成することであって、同一のエンティティ記述パターン(EDP)又は同一のリンク記述パターン(LP)を含む全てのノードが群を形成する、ことと、
前記エンティティリンクグラフ(ELG)のサブグラフ(SG)を生成することであって、前記サブグラフ(SG)は、各群からの少なくとも1つのノードを接続する、ことと、
エンティティリンクを表す拡張サブグラフ(eSG)の各ノードがリンクする両方のエンティティに結合されるように、エンティティリンクを表すサブグラフ(SG)の各ノードに対する欠落リンクを付加することによって、拡張サブグラフ(eSG)を生成することと、
-前記エンティティ記述パターン(EDP)からのエンティティ(e)を表す拡張サブグラフ(eSG)内の各ノードに対して、前記エンティティのクラスを記述する少なくとも1つのトリプル、及び、前記エンティティ記述パターンのプロパティごとに前記エンティティのプロパティを記述する少なくとも1つのトリプル、並びに、
-エンティティリンクを表す拡張サブグラフ(eSG)の各ノードに対する、前記リンク記述パターン(LP)からの少なくとも1つのトリプル
を付加することによって、前記拡張サブグラフ(eSG)から、前記RDFデータセットの代表的な部分集合(S)を生成することと、
を行うように構成されている、装置。
【請求項9】
前記装置は、各インスタンスレベルエンティティをそのエンティティ記述パターン(EDP)でラベル付けし、及び/又は、2つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジをそのリンク記述パターン(LP)でラベル付けするように構成されている、請求項8に記載の装置。
【請求項10】
前記装置は、各エッジを細分化することを含む、前記無向グラフ(KG)のエッジのノードへの変換を行うように構成されている、請求項8又は9に記載の装置。
【請求項11】
前記装置は、群シュタイナーツリー問題を解くことに基づいて、前記エンティティリンクグラフ(ELG)のサブグラフを生成するように構成されている、請求項8乃至10のいずれか一項に記載の装置。
【請求項12】
全てのエンティティ記述パターン(EDP)と全てのリンク記述パターン(LP)との和集合は、全集合とみなされ、前記RDFデータセット(D)の各成分Djに対して、EDP(Dj)∪LP(Dj)⊆EDP(D)∪LP(D)が集合であり、前記装置は、和集合が前記全集合に等しい集合の最小数を求めるように構成されている、請求項8乃至11のいずれか一項に記載の装置。
【請求項13】
前記装置は、前記サブグラフ(SG)が各群からの少なくとも1つのノードを接続するように、エンティティ記述パターン(EDP)の頻度及び/又はリンク記述パターン(LP)の頻度に基づいて前記エンティティリンクグラフ(ELG)のサブグラフ(SG)を制限するように構成されており、前記群は、定義された閾値を超える頻度を有するエンティティ記述パターン(EDP)及び/又はリンク記述パターン(LP)を参照する、請求項8乃至12のいずれか一項に記載の装置。
【請求項14】
前記装置は、前記エンティティリンクグラフ(ELG)の前記サブグラフ(SG)を生成する際に、キーワードクエリ(Q)を受信し、前記キーワードクエリの各キーワードに対してキーワードパターンを生成し、各キーワードパターンに対して、前記キーワードに一致する全てのエンティティ及びエンティティリンクから構成される群を付加するように構成されている、請求項8乃至13のいずれか一項に記載の装置。
【請求項15】
キーワードを自動的に分析するためのコンピュータプログラムであって、コンピュータによって実行されるときに、請求項1乃至7のいずれか一項に記載の方法を前記コンピュータに実施させるためのコンピュータ可読命令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
発明の背景
本発明は、データの自動分析のための装置、コンピュータプログラム及びコンピュータ実装された方法に関する。
【背景技術】
【0002】
ナレッジグラフ(KG)は、データを自動的に分析するために使用することができる。データの分析結果は、自動的に決定することができる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Shi,Y.,Cheng,G.,Kharlamov,E.著、“Keyword search over knowledge graphs via static and dynamic hub labellings”、WWW 2020.pp.235-245(2020)
【非特許文献2】Cheng,G.,Jin,C.,Ding,W.,Xu,D.,Qu,Y.著、“Generating illustrative snippets for open data on the web”、WSDM2017.pp.151-159(2017)
【非特許文献3】Wang,X.,Cheng,G.,Kharlamov,E.著、“Towards multi-facet snippets for dataset search”、PROFLILES&SemEx2019.pp.1-6(2019)
【発明の概要】
【発明が解決しようとする課題】
【0004】
発明の概要
独立請求項に係る装置、方法及びコンピュータプログラムは、自動分析をさらに改善するものである。
【課題を解決するための手段】
【0005】
本開示は、リソース記述フレームワーク(RDF)データセットの自動分析のためのコンピュータ実装された方法に関するものであり、RDFデータセットは、トリプルの集合を含み、RDFデータセットは、ノード及びエッジを含む無向グラフ(D)として提供され、ノードは、エンティティを表し、エッジは、エンティティ間のリンクを表す。本方法は、
-各インスタンスレベルエンティティに対して、当該エンティティの少なくとも1つのクラス及び/又は少なくとも1つのプロパティを記述する少なくとも1つのトリプルを含む少なくとも1つのエンティティ記述パターン、並びに、
-2つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジに対して、2つのインスタンスレベルエンティティ間のリンクを記述する少なくとも1つのトリプルを含む少なくとも1つのリンク記述パターン
を生成するステップと、
無向グラフのエッジをノードに変換することにより、エンティティリンクグラフを生成するステップと、
エンティティリンクグラフのサブグラフを生成するステップと、
エンティティリンクを表す拡張サブグラフの各ノードがリンクする両方のエンティティに結合されるように、エンティティリンクを表すサブグラフの各ノードに対する欠落リンクを付加することによって、拡張サブグラフを生成するステップと、
-エンティティ記述パターンからのエンティティを表す拡張サブグラフ内の各ノードに対して、当該エンティティのクラスを記述する少なくとも1つのトリプル、及び、エンティティ記述パターンのプロパティごとに当該エンティティのプロパティを記述する少なくとも1つのトリプル、並びに、
-エンティティリンクを表す拡張サブグラフの各ノードに対して、リンク記述パターンからの少なくとも1つのトリプル
を付加することによって、拡張サブグラフから、RDFデータセットの代表的な部分集合を生成するステップと、
を含む。
【0006】
RDFデータセットの代表的な部分集合は、パターンカバレッジスニペットである。RDFデータセットを再利用するためには、その内容を理解することが前提条件となる。既存の方法においては、その大規模で複雑な構造の理解を支援するために、主として、代表的なデータパターンを要約として抽出することにより、RDFデータセットの要約版が生成されている。補足として、最近の試みでは、具体的なデータの代表的な部分集合がスニペットとして抽出されている。スニペット及び要約は、RDFデータセットの相補的なビュー、即ち、インスタンスレベルの代表的なトリプルを含むスニペットと、スキーマレベルの代表的なパターンを含む要約とを提供する。本発明によれば、RDFデータセット内のエンティティ記述及びリンクのパターンを最もよく例示するパターンカバレッジスニペットを生成することによって、要約の強度がスニペットに注入される。
【0007】
好ましくは、無向グラフのエッジをノードに変換してエンティティリンクグラフを生成する際に、同一のエンティティ記述パターン又は同一のリンク記述パターンを含む全てのノードが群を形成する。
【0008】
好ましくは、エンティティリンクグラフのサブグラフは、各群からの少なくとも1つのノードを接続するように生成される。
【0009】
好ましい実施形態によれば、拡張サブグラフからRDFの代表的な部分集合を生成する際に、方法は、エンティティ記述パターンからのエンティティを表す拡張サブグラフ内の各ノードに対して、当該エンティティのクラスを記述する全てのトリプルと、エンティティ記述パターンのプロパティごとに当該エンティティのプロパティを記述する唯一のトリプルとを付加することを含む。
【0010】
RDFデータセットは、トリプルの集合、即ち、<subject(主語),predicate(述語),object(目的語)>トリプルを含む。かかるトリプルの主語又は目的語は、エンティティと称される。述語はリレーションと称される。トリプルの集合は、ノード及びエッジがラベル付けされた有向グラフとして自然に表現することができる。RDFデータセット及びナレッジグラフの要素は、インスタンスレベル要素とスキーマレベル要素との間において区別することができ、ここで、スキーマは、要素の形式的記述であり、インスタンスは、データセットに実際に記憶されている特定の情報である。
【0011】
これらのトリプルのスキーマレベル要素は、eのエンティティ記述パターン(EDP)を形成し、クラス(C)、前方プロパティ(FP)、後方プロパティ(BP)の集合、即ち、
【数1】
により構成される。
【0012】
目的語がエンティティであるトリプルは、2つのエンティティ間のリンクを表すため、特に重要である。かかるトリプル<ei,p,ej>内の述語及び2つのエンティティのEDPは、このトリプルのリンクパターン(LP)、即ち、
lp(<ei,p,ej>,D)=<edp(ei,D),p,edp(ej,D)>
を形成する。
【0013】
好ましい実施形態によれば、本方法は、各インスタンスレベルエンティティをそのエンティティ記述パターンでラベル付けするステップ、及び/又は、2つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジをそのリンク記述パターンでラベル付けするステップをさらに含む。
【0014】
好ましい実施形態によれば、無向グラフのエッジをノードに変換するステップは、各エッジを細分割するステップを含む。
【0015】
好ましい実施形態によれば、エンティティリンクグラフのサブグラフを生成することは、群シュタイナーツリー問題を解くことに基づく。
【0016】
データセット内の非結合性を処理するために、好ましくは、全てのエンティティ記述パターンと全てのリンク記述パターンとの和集合は、全集合とみなされ、RDFデータセットの各成分Djに対して、EDP(Dj)∪LP(Dj)⊆EDP(D)∪LP(D)が集合であり、本方法は、和集合が全集合に等しい集合の最小数を求めるステップを含む。
【0017】
好ましくは、本方法は、エンティティ記述パターンの頻度及び/又はリンク記述パターンの頻度を決定するステップを含む。頻度は、RDFデータセット内の当該パターンの発生として定義される。
【0018】
好ましくは、本方法は、エンティティ記述パターン及び/又はリンク記述パターンを、その頻度に従って、例えば降順に基づいてランク付けするステップを含む。
【0019】
好ましい実施形態によれば、本方法は、サブグラフが各群からの少なくとも1つのノードを接続するように、エンティティ記述パターンの頻度及び/又はリンク記述パターンの頻度に基づいてエンティティリンクグラフのサブグラフを制限するステップを含み、群は、定義された閾値を超える頻度を有するエンティティ記述パターン及び/又はリンク記述パターンを参照する。
【0020】
さらなる有利な実施形態は、以下の説明及び図面から導き出すことができる。
【図面の簡単な説明】
【0021】
【
図2】リソース記述フレームワーク(RDF)データセットDの自動分析のための方法の態様を示す図である。
【
図3】リソース記述フレームワーク(RDF)データセットDの自動分析のための方法のさらなる態様を示す図である。
【
図4】リソース記述フレームワーク(RDF)データセットDの自動分析のための方法のさらなる態様を示す図である。
【
図5】スペース節約度に関する方法の評価の態様を示す図である。
【
図6】スペース節約度の累積分布に関する方法の評価の態様を示す図である。
【
図7】スニペットサイズの累積分布に関する方法の評価の態様を示す図である。
【
図8】実行時間に関する方法の評価の態様を示す図である。
【
図9】実行時間の累積分布に関する方法の評価の態様を示す図である。
【発明を実施するための形態】
【0022】
図1は、例示的なナレッジグラフ(KG)100を示している。ナレッジグラフは、RDFデータセットDのデータを表現したものであり、トリプルの集合、即ち、<subject,predicate,object>トリプルから構成されている。かかるトリプルの主語又は目的語は、エンティティと称される。述語は、リレーションと称される。KGのトリプルの集合は、ノード及びエッジがラベル付けされた有向グラフとして自然に表現することができる。RDFデータセット及びナレッジグラフの要素は、インスタンスレベル要素とスキーマレベル要素との間において区別することができ、ここで、スキーマは、要素の形式的記述であり、インスタンスは、データセットに実際に記憶されている特定の情報である。
【0023】
ナレッジグラフ(KG)のノードN1.1、N1.2、N2、N3.1、N3.2、N4.1、N4.2、N4.3、N5.1、N5.2及びN5.3は、例えば、
N1.1:ドイツ、略してDE
N1.2:英国、略してUK
N2:ヨーロッパ
N3.1:ベルリン
N3.2:ロンドン
N4.1:ミュンヘン
N4.2:アウクスブルク
N4.3:オックスフォード
N5.1:特定番号1
N5.2:特定番号2
N5.3:特定番号3
のようなインスタンスレベルのエンティティを参照する。
【0024】
ナレッジグラフ(KG)のノードN6及びN7は、例えば、
N6:首都
N7:市
のようなスキーマレベルのエンティティを参照する。
【0025】
ナレッジグラフ(KG)のエッジE1、E2、E3.1及びE3.2は、例えば、
E1:~の一部
E2:~の首都
E3.1:~に位置する
E3.2:~に位置する
のようなインスタンスレベルの関係を参照する。
【0026】
ナレッジグラフ(KG)のエッジE4及びE5は、例えば、
E4:種類
E5:領域
のようなスキーマレベルの関係を参照する。
【0027】
RDFデータセットDのトリプルにおいては、インスタンスレベルエンティティeは、トリプルの部分集合によって記述され、ここで、eは、主語又は目的語である。これらのトリプルのスキーマレベル要素は、eのエンティティ記述パターン(EDP)を形成し、クラス(C)、前方プロパティ(FP)、後方プロパティ(BP)の集合、即ち、
【数2】
により構成される。
【0028】
目的語がエンティティであるトリプルは、2つのエンティティ間のリンクを表すため、特に重要である。かかるトリプル<ei,p,ej>内の述語及び2つのエンティティのEDPは、このトリプルのリンクパターン(LP)、即ち、
lp(<ei,p,ej>,D)=<edp(ei,D),p,edp(ej,D)>
を形成する。
【0029】
図1を参照すると、例示的なパターン、即ち、
【数3】
を得ることができる。
【0030】
それぞれEDP(D)及びLP(D)で示されるDにおける全てのEDPの集合及び全てのLPの集合は、Dにおける全てのエンティティ及びリンクを反復することによって得られる。
【0031】
好ましくは、
図1のKGの各ノードは、そのEDPでラベル付けすることができ、各エッジは、そのLPでラベル付けすることができる。
【0032】
図2は、RDFデータセットDのエンティティリンクグラフ表現(ELG)を示している。ELGは、各エッジを細分割することによって、KGのラベル付きエッジをラベル付きノードに変換することにより得られる。細分割は、RDFデータセットDのエンティティリンクグラフ表現と称される。エンティティリンクグラフELGは、インスタンスレベル要素のみを含むように縮小される。
【0033】
図3は、エンティティリンクグラフELGの拡張サブグラフeSGを示している。拡張サブグラフeSGは、次のように生成される。
【0034】
まず、各群からの少なくとも1つのノードを接続するエンティティリンクグラフELGのサブグラフSGを生成する。サブグラフSGは、群シュタイナーツリー問題を解くことにより生成される。本質的に、これは、ノードラベルがエンティティ記述パターンEDP及びリンク記述パターンLPを被覆するエンティティリンクグラフELGの最小結合サブグラフを生成することを意味する。一実施形態によれば、サブグラフは、群シュタイナーツリー問題の重み付けされていないバージョンとして生成され、同一のラベルを有する全てのノードが群を形成する。群シュタイナーツリー問題を解決するには、各群の少なくとも1つのノードを接続し、全ての異なるラベルを被覆する最小のツリーを求める必要がある。群シュタイナーツリー問題は、Shi,Y.,Cheng,G.,Kharlamov,E.著、“Keyword search over knowledge graphs via static and dynamic hub labellings”、WWW 2020.pp.235-245(2020)に開示されている、例えば、KeyKG+のような最先端の近似アルゴリズムを用いて解くことができる。
【0035】
次に
図2を参照すると、サブグラフは、エンティティを表す以下のノードN1.1、N2、N3.1及びN4.1と、エンティティ間のリンクを表す以下のE1、E2、E3.1及びE3.2とを含む。
【0036】
第2に、拡張サブグラフeSGは、エンティティリンクを表す拡張サブグラフ中の各ノードが、リンクする両方のエンティティを接続するように、エンティティリンクを表すサブグラフ中の各ノードに対する欠落リンクを付加することによって生成される。これは、
図3におけるノードE3.1とノードN3.1との間の点線によって示されている。一実施形態によれば、エンティティリンクを表す計算されたサブグラフ内の各リーフに対して、サブグラフは、当該ノードがリンクする両方のエンティティを含むように拡張される。
【0037】
最後に、
図4は、拡張サブグラフeSGから生成されたRDFデータセットDの代表的な部分集合Sを示している。
【0038】
代表的な部分集合Sは、RDFデータセットDのパターンカバレッジスニペットSである。
【0039】
図4の例によれば、代表的な部分集合Sは、拡張サブグラフeSGから以下のように導出することができる。エンティティ記述パターンからエンティティを表す拡張サブグラフeSG内の各ノードに対して、当該エンティティのクラスを記述する全てのトリプルと、エンティティ記述パターンのプロパティごとに当該エンティティのプロパティを記述する唯一のトリプルとを付加する。さらに、エンティティリンクを表す拡張サブグラフSG内の各ノードに対して、リンク記述パターンLPから対応するトリプルが付加される。
【0040】
図1乃至
図4に関して説明した実施形態は、RDFデータセットDの結合性を仮定することに基づく。RDFデータセットDの非結合性は、以下のように取り扱うことができる。
【0041】
非結合性は、周知の集合被覆問題のインスタンスとみなすことができ、ここで、全てのエンティティ記述パターンEDP(D)と全てのリンク記述パターンLP(D)との和集合が全集合とみなされ、RDFデータセットDの各成分Djに対して、EDP(Dj)∪LP(Dj)⊆EDP(D)∪LP(D)が集合とみなされる。集合被覆問題は、和集合が全集合に等しい集合の最小数を求めることにより解決される。
【0042】
この解法は、全集合が完全に被覆されるまで、代表的な部分集合Sを反復的に生成することを含む。最も多くの被覆されていないパターンを含む各成分Diに対して、代表的な部分集合Sが前述のように生成される。
【0043】
有利な実施形態によれば、代表的な部分集合Sの生成は、成分Diのおそらくより小さいサブスニペットを生成するように修正することができる。サブスニペットは、エンティティ記述パターンEDP(Di)と記述パターンLP(Di)との和集合の一部を被覆する必要があるのみであり、完全な和集合EDP(Di)∪LP(Di)ではなく、全集合と交差する。これにより、ELGのサブグラフSGを生成する際、全集合のない和集合EDP(Di)∪LP(Di)のパターンに対応する群は、無視することができる。
【0044】
これにより、RDFデータセットD内の全てのパターンを被覆する成分の最小部分集合を求めることを目指すことによって、代表的な部分集合Sのコンパクト性及び生成効率を向上させることができる。
【0045】
RDFデータセットDが非常に異質であり、多くの異なるパターンを含む場合、代表的な部分集合Sは必然的に非常に大きくなる。次のステップにおいては、パターンカバレッジとスニペットサイズとの間においてトレードオフを行い、高度な異質性を処理する。RDFデータセットD内のパターンは、それほど重要ではないことがある。エンティティ記述パターンEDPの相対頻度は、RDFデータセットDにおいて、このエンティティ記述パターンEDPを有するエンティティの割合として定義される。リンク記述パターンLPの相対頻度も同様に定義される。頻度の高いパターンほど重要であるとみなされる。生成されたパターンEDP、LPは、それらの相対的頻度の降順にランク付けすることができる。
【0046】
エンティティリンクグラフELGのサブグラフSGを生成する際、サブグラフSGは、サブグラフが各群からの少なくとも1つのノードに結合するように、エンティティ記述パターンの頻度及び/又はリンク記述パターンの頻度に基づいて制限することができ、群は、定義された閾値を超える頻度を有するエンティティ記述パターン及び/又はリンク記述パターンを参照する。閾値は、例えば、割合を記述するものである。
【0047】
これに基づいて、生成された代表的な部分集合Sは、RDFデータセットD内の最も重要なパターンのみを被覆する、おそらくより小さいスニペットとなる。
【0048】
以下の実施形態は、クエリバイアスされた代表的な部分集合Sを生成することに言及している。
【0049】
キーワードクエリQは、少なくとも1つのキーワード又は複数のキーワードを含む。全てのキーワードは、キーワードパターンとみなされる。RDFデータセットD内の各エンティティ又はエンティティリンクは、そのエンティティ記述パターンEDP又はリンク記述パターンLP、及び、それが一致する全てのキーワードパターンから構成されるパターンの集合を有するように拡張される。この計算は、オフザシェルフのマッチャ(Matcher)により行うことができる。エンティティeは、qがRDFデータセットDのエンティティeを記述する任意のトリプルに現れる場合、キーワードq∈Qと一致する。エンティティリンク<ei,p,ej>は、キーワードqがpのテキスト形式で現れる場合、キーワードqに一致する。従って、キーワードq∈Qの各キーワードパターンに対して、キーワードqに一致する全てのエンティティ及びエンティティリンクから構成される群が付加される。これにより、各群からの少なくとも1つのノードを接続するようなエンティティリンクグラフELGのサブグラフSGを生成する際には、各キーワードqに対して、各キーワードqに一致する全てのエンティティ及びエンティティリンクから構成される群を加算することにより、キーワードを考慮する。
【0050】
これに基づいて、生成された代表的な部分集合Sは、Q内の全てのキーワードと一致する。
【0051】
先行技術、Cheng,G.,Jin,C.,Ding,W.,Xu,D.,Qu,Y.著、“Generating illustrative snippets for open data on the web”、WSDM2017.pp.151-159(2017)は、IlluSnipと称されるスニペットを生成する方法も開示している。大規模なRDFデータセットの内容をコンパクトに例示するために、IlluSnipは最大重みとカバレッジの結合グラフ問題を定式化することによってスニペットを生成する。これは、RDFデータセット内の最も頻繁なクラス、プロパティ及び最も中心的なエンティティを被覆する結合RDFグラフとして表されるkトリプルの最適な部分集合を抽出することを目的としている。IlluSnipとは異なり、Wang,X.,Cheng,G.,Kharlamov,E.著、“Towards multi-facet snippets for dataset search”、PROFLILES&SemEx2019.pp.1-6(2019)において開示されているKSDは、結合性の制約を取り除く重み付き最大カバレッジ問題を定式化している。最適化の目的は、さらにRDFデータセット検索エンジンに適したキーワードクエリで最も多くのキーワードを被覆することにある。IlluSnip及びKSDと比較して、このアプローチはスキーマレベル要素を被覆することも目的としており、クラスとプロパティとの組合せであるエンティティ記述及びリンクのパターンに焦点を当てている。パターンは、個別のクラス及びプロパティよりも「高次」のデータプレビューを提供することができる。
【0052】
以下においては、このアプローチのスペース節約度及び実行時間をIlluSnip及びKSDと比較する。このアプローチはPSCGと称される。
【0053】
RDFデータセットへのアプローチによるスペース節約度は、
スペース節約度=1-(生成されたスニペット内のトリプルの数RDFデータセット内のトリプルの数)/(RDFデータセット内のトリプルの数)
のように定義される。
【0054】
スニペットのサイズは、トリプルの数で報告される。さらに、RDFデータセットに対する各手法の実行時間が報告される。
【0055】
評価のために、DataHub.io及びData.govの2つのデータポータルからRDFダンプを使用してデータセットを取得し、Apache Jena3.9.0を使用して9544個のRDFデータセットを解析した。Data.govのデータセット内の多くのエンティティはタイプ化されておらず、おそらく表形式データから変換された一様なパターンで記述されていることに注意しなければならない。
【0056】
PSCGアプローチのスペース節約度を、9544個のRDFデータセットの各々について計算した。その結果を
図5の表にまとめた。PSCGアプローチでは、RDFデータセットのサイズを平均約90%削減した。PCSG、PCSG-90%、PCSG-80%のスペース節約度は、
図6の累積分布で示されるように、全てのRDFデータセットのそれぞれ57%、69%、72%で95%以上であった。
図7の累積分布に示されるように、生成されたスニペット中のトリプル数の中央値は、それぞれ41、20、17であった。結果は、PSCGアプローチで生成されたスニペットのコンパクト性を支持するものであった。
【0057】
各アプローチについて、9544個のRDFデータセットのそれぞれの実行時間を記録した。結果を
図8に示す表にまとめた。PCSG(-τ)はIlluSnipより2桁以上速かった。PCSG、PCSG-90%、PCSG-80%の実行時間は、
図9の累積分布によって示されるように、全てのRDFデータセットのそれぞれ98%、98%、99%において1秒未満であった。この結果は、PSCGアプローチの計算の効率を支持している。しかし、数千のEDP及びLPを含む一部の非常に不均一なデータセットでは、PCSG(-τ)は、1時間以上を要した。PSCGアプローチは、それでもIlluSnipより高速で、オフライン計算としては許容範囲内であるが、その性能をさらに向上させる余地があることが示唆された。
【0058】
本方法は、ニューラルネットワークを用いてRDFデータセットを処理する場合に好適に適用される。データセットは、例えば、製造又は生産の分野からのデータ、例えば、材料及び物質並びにそれらの特性に関する情報を含む。RDFデータセットは、例えば、自動化、診断及び最適化に関して処理される。RDFデータセットの代表的な部分集合Sは、RDFデータセットの迅速な推定又は評価のために最初に処理することができる。
【0059】
さらなる実施形態は、特にニューラルネットワークを用いて、RDFデータセットを処理するためのコンピュータ実装された方法を使用することに言及する。この方法を使用することは、RDFデータセットの代表的な部分集合Sを自動的に生成することを意味し、それによってテキストデータから情報を抽出することにより、例えば、エンティティ、特に、人、場所、組織などに関する情報、及び/又は、概念、特に、タンパク質、化学物質、材料、自動化プロセス、診断及び最適化に関する情報を抽出する。
【0060】
さらなる実施形態は、複数のRDFデータセット、少なくとも2つのRDFデータセット、特にニューラルネットワークを処理するためのコンピュータ実装された方法の使用に言及しており、当該方法は、キーワードクエリQを受信することと、少なくとも2つのRDFデータセットのクエリバイアスされた代表的な部分集合Sを生成することと、キーワードクエリQと各クエリバイアスされた代表的な部分集合Sとの間の類似性及び/又は類似性の程度を決定することとを含む。類似性及び/又は類似性の程度に基づいて、適当な代表的な部分集合、従って、キーワードクエリQに関する適当なRDFデータセットを決定することができる。類似性及び/又は類似性の程度の決定は、例えば、高次元ベクトル空間埋め込みにおける単語、即ち、キーワード及び代表的な部分集合の要素のベクトル埋め込みに基づくことができ、ここで、単語は、それらがベクトル空間において互いに近接している場合に類似している。
【0061】
さらなる実施形態は、データベース、特に構造化知識データベース、特にナレッジグラフを作成するためのコンピュータ実装された方法の使用に関するものであり、当該方法は、実施形態に従って、情報を抽出するため、例えば、代表的な部分集合Sを生成するために適用され、情報、例えば代表的な部分集合Sは、データベース、特に構造化知識データベース、特にナレッジグラフを作成するために使用される。
【0062】
本実施形態に係る方法は、異なるドメインからのRDFデータセットに適用することができる。
【外国語明細書】