特開2023-36039 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧

特開2023-36039データの自動分析のための装置、コンピュータ実装された方法及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023036039

(43)【公開日】2023-03-13

(54)【発明の名称】データの自動分析のための装置、コンピュータ実装された方法及びコンピュータプログラム

(51)【国際特許分類】

G06N 5/02 20230101AFI20230306BHJP

G06F 16/28 20190101ALI20230306BHJP

G06F 16/90 20190101ALI20230306BHJP

【ＦＩ】

G06N5/02

G06F16/28

G06F16/90 100

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022137605

(22)【出願日】2022-08-31

(31)【優先権主張番号】10 2021 209 612.3

(32)【優先日】2021-09-01

(33)【優先権主張国・地域又は機関】DE

(71)【出願人】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】エフゲニーハルラモフ

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175KA12

(57)【要約】

【課題】リソース記述フレームワーク（ＲＤＦ）データセット（Ｄ）の自動分析のためのコンピュータ実装された方法、装置及びコンピュータプログラムである。
【解決手段】ＲＤＦデータセット（Ｄ）は、トリプルの集合を含み、ＲＤＦデータセット（Ｄ）は、ノード（Ｎ）及びエッジ（Ｅ）を含む無向グラフ（ＫＧ）として提供され、ノード（Ｎ）は、エンティティ（ｅ）を表し、エッジ（ｅ）は、エンティティ（ｅ）間のリンクを表す。
【選択図】図４

【特許請求の範囲】

【請求項1】

リソース記述フレームワーク（ＲＤＦ）データセット（Ｄ）の自動分析のためのコンピュータ実装された方法であって、前記ＲＤＦデータセット（Ｄ）は、トリプルの集合を含み、前記ＲＤＦデータセット（Ｄ）は、ノード（Ｎ）及びエッジ（Ｅ）を含む無向グラフ（ＫＧ）として提供され、ノード（Ｎ）は、エンティティ（ｅ）を表し、エッジ（ｅ）は、エンティティ（ｅ）間のリンクを表し、前記方法は、
－各インスタンスレベルエンティティに対して、前記エンティティの少なくとも１つのクラス及び／又は少なくとも１つのプロパティを記述する少なくとも１つのトリプルを含む少なくとも１つのエンティティ記述パターン（ＥＤＰ）、並びに、
－２つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジに対して、前記２つのインスタンスレベルエンティティ間の前記リンクを記述する少なくとも１つのトリプルを含む少なくとも１つのリンク記述パターン（ＬＰ）
を生成するステップと、
前記無向グラフ（ＫＧ）のエッジをノードに変換することにより、エンティティリンクグラフ（ＥＬＧ）を生成するステップであって、同一のエンティティ記述パターン（ＥＤＰ）又は同一のリンク記述パターン（ＬＰ）を含む全てのノードが群を形成する、ステップと、
前記エンティティリンクグラフ（ＥＬＧ）のサブグラフ（ＳＧ）を生成するステップであって、前記サブグラフ（ＳＧ）は、各群からの少なくとも１つのノードを接続する、ステップと、
エンティティリンクを表す拡張サブグラフ（ｅＳＧ）の各ノードがリンクする両方のエンティティに結合されるように、エンティティリンクを表すサブグラフ（ＳＧ）の各ノードに対する欠落リンクを付加することによって、拡張サブグラフ（ｅＳＧ）を生成するステップと、
－前記エンティティ記述パターン（ＥＤＰ）からのエンティティ（ｅ）を表す拡張サブグラフ（ｅＳＧ）内の各ノードに対して、前記エンティティのクラスを記述する少なくとも１つのトリプル、及び、前記エンティティ記述パターンのプロパティごとに前記エンティティのプロパティを記述する少なくとも１つのトリプル、並びに、
－エンティティリンクを表す前記拡張サブグラフ（ｅＳＧ）の各ノードに対する、前記リンク記述パターン（ＬＰ）からの少なくとも１つのトリプル
を付加することによって、前記拡張サブグラフ（ｅＳＧ）から、前記ＲＤＦデータセットの代表的な部分集合（Ｓ）を生成するステップと、
を含む方法。

【請求項2】

前記方法は、各インスタンスレベルエンティティをそのエンティティ記述パターン（ＥＤＰ）でラベル付けするステップ、及び／又は、２つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジをそのリンク記述パターン（ＬＰ）でラベル付けするステップをさらに含む、請求項１に記載の方法。

【請求項3】

前記無向グラフ（ＫＧ）のエッジをノードに変換するステップは、各エッジを細分割するステップを含む、請求項１又は２に記載の方法。

【請求項4】

前記エンティティリンクグラフ（ＥＬＧ）のサブグラフを生成することは、群シュタイナーツリー問題を解くことに基づく、請求項１又は３に記載の方法。

【請求項5】

全てのエンティティ記述パターン（ＥＤＰ）と全てのリンク記述パターン（ＬＰ）との和集合は、全集合とみなされ、前記ＲＤＦデータセット（Ｄ）の各成分Ｄ_ｊに対して、ＥＤＰ（Ｄ_ｊ）∪ＬＰ（Ｄ_ｊ）⊆ＥＤＰ（Ｄ）∪ＬＰ（Ｄ）が集合であり、前記方法は、和集合が前記全集合に等しい集合の最小数を求めるステップを含む、請求項１乃至４のいずれか一項に記載の方法。

【請求項6】

前記方法は、前記サブグラフ（ＳＧ）が各群からの少なくとも１つのノードを接続するように、エンティティ記述パターン（ＥＤＰ）の頻度及び／又はリンク記述パターン（ＬＰ）の頻度に基づいて前記エンティティリンクグラフ（ＥＬＧ）の前記サブグラフ（ＳＧ）を制限するステップを含み、前記群は、定義された閾値を超える頻度を有するエンティティ記述パターン（ＥＤＰ）及び／又はリンク記述パターン（ＬＰ）を参照する、請求項１乃至５のいずれか一項に記載の方法。

【請求項7】

前記方法は、前記エンティティリンクグラフ（ＥＬＧ）の前記サブグラフ（ＳＧ）を生成する際に、キーワードクエリ（Ｑ）を受信することと、前記キーワードクエリの各キーワードに対してキーワードパターンを生成することと、各キーワードパターンに対して、前記キーワードに一致する全てのエンティティ及びエンティティリンクから構成される群を付加することと、を含む、請求項１乃至６のいずれか一項に記載の方法。

【請求項8】

リソース記述フレームワーク（ＲＤＦ）データセット（Ｄ）の自動分析のための装置であって、前記ＲＤＦデータセット（Ｄ）は、トリプルの集合を含み、前記ＲＤＦデータセット（Ｄ）は、ノード（Ｎ）及びエッジ（Ｅ）を含む無向グラフ（ＫＧ）として提供され、ノード（Ｎ）は、エンティティ（ｅ）を表し、エッジ（ｅ）は、エンティティ（ｅ）間のリンクを表し、前記装置は、少なくとも１つのプロセッサを含み、前記プロセッサは、
－各インスタンスレベルエンティティに対して、前記エンティティの少なくとも１つのクラス及び／又は少なくとも１つのプロパティを記述する少なくとも１つのトリプルを含む少なくとも１つのエンティティ記述パターン（ＥＤＰ）、並びに、
－２つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジに対して、前記２つのインスタンスレベルエンティティ間のリンクを記述する少なくとも１つのトリプルを含む少なくとも１つのリンク記述パターン（ＬＰ）
を生成することと、
前記無向グラフ（ＫＧ）のエッジをノードに変換することにより、エンティティリンクグラフ（ＥＬＧ）を生成することであって、同一のエンティティ記述パターン（ＥＤＰ）又は同一のリンク記述パターン（ＬＰ）を含む全てのノードが群を形成する、ことと、
前記エンティティリンクグラフ（ＥＬＧ）のサブグラフ（ＳＧ）を生成することであって、前記サブグラフ（ＳＧ）は、各群からの少なくとも１つのノードを接続する、ことと、
エンティティリンクを表す拡張サブグラフ（ｅＳＧ）の各ノードがリンクする両方のエンティティに結合されるように、エンティティリンクを表すサブグラフ（ＳＧ）の各ノードに対する欠落リンクを付加することによって、拡張サブグラフ（ｅＳＧ）を生成することと、
－前記エンティティ記述パターン（ＥＤＰ）からのエンティティ（ｅ）を表す拡張サブグラフ（ｅＳＧ）内の各ノードに対して、前記エンティティのクラスを記述する少なくとも１つのトリプル、及び、前記エンティティ記述パターンのプロパティごとに前記エンティティのプロパティを記述する少なくとも１つのトリプル、並びに、
－エンティティリンクを表す拡張サブグラフ（ｅＳＧ）の各ノードに対する、前記リンク記述パターン（ＬＰ）からの少なくとも１つのトリプル
を付加することによって、前記拡張サブグラフ（ｅＳＧ）から、前記ＲＤＦデータセットの代表的な部分集合（Ｓ）を生成することと、
を行うように構成されている、装置。

【請求項9】

前記装置は、各インスタンスレベルエンティティをそのエンティティ記述パターン（ＥＤＰ）でラベル付けし、及び／又は、２つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジをそのリンク記述パターン（ＬＰ）でラベル付けするように構成されている、請求項８に記載の装置。

【請求項10】

前記装置は、各エッジを細分化することを含む、前記無向グラフ（ＫＧ）のエッジのノードへの変換を行うように構成されている、請求項８又は９に記載の装置。

【請求項11】

前記装置は、群シュタイナーツリー問題を解くことに基づいて、前記エンティティリンクグラフ（ＥＬＧ）のサブグラフを生成するように構成されている、請求項８乃至１０のいずれか一項に記載の装置。

【請求項12】

全てのエンティティ記述パターン（ＥＤＰ）と全てのリンク記述パターン（ＬＰ）との和集合は、全集合とみなされ、前記ＲＤＦデータセット（Ｄ）の各成分Ｄ_ｊに対して、ＥＤＰ（Ｄ_ｊ）∪ＬＰ（Ｄ_ｊ）⊆ＥＤＰ（Ｄ）∪ＬＰ（Ｄ）が集合であり、前記装置は、和集合が前記全集合に等しい集合の最小数を求めるように構成されている、請求項８乃至１１のいずれか一項に記載の装置。

【請求項13】

前記装置は、前記サブグラフ（ＳＧ）が各群からの少なくとも１つのノードを接続するように、エンティティ記述パターン（ＥＤＰ）の頻度及び／又はリンク記述パターン（ＬＰ）の頻度に基づいて前記エンティティリンクグラフ（ＥＬＧ）のサブグラフ（ＳＧ）を制限するように構成されており、前記群は、定義された閾値を超える頻度を有するエンティティ記述パターン（ＥＤＰ）及び／又はリンク記述パターン（ＬＰ）を参照する、請求項８乃至１２のいずれか一項に記載の装置。

【請求項14】

前記装置は、前記エンティティリンクグラフ（ＥＬＧ）の前記サブグラフ（ＳＧ）を生成する際に、キーワードクエリ（Ｑ）を受信し、前記キーワードクエリの各キーワードに対してキーワードパターンを生成し、各キーワードパターンに対して、前記キーワードに一致する全てのエンティティ及びエンティティリンクから構成される群を付加するように構成されている、請求項８乃至１３のいずれか一項に記載の装置。

【請求項15】

キーワードを自動的に分析するためのコンピュータプログラムであって、コンピュータによって実行されるときに、請求項１乃至７のいずれか一項に記載の方法を前記コンピュータに実施させるためのコンピュータ可読命令を含むコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

発明の背景
本発明は、データの自動分析のための装置、コンピュータプログラム及びコンピュータ実装された方法に関する。

【背景技術】

【0002】

ナレッジグラフ（ＫＧ）は、データを自動的に分析するために使用することができる。データの分析結果は、自動的に決定することができる。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Ｓｈｉ，Ｙ．，Ｃｈｅｎｇ，Ｇ．，Ｋｈａｒｌａｍｏｖ，Ｅ．著、“Ｋｅｙｗｏｒｄｓｅａｒｃｈｏｖｅｒｋｎｏｗｌｅｄｇｅｇｒａｐｈｓｖｉａｓｔａｔｉｃａｎｄｄｙｎａｍｉｃｈｕｂｌａｂｅｌｌｉｎｇｓ”、ＷＷＷ２０２０．ｐｐ．２３５－２４５（２０２０）

【非特許文献2】Ｃｈｅｎｇ，Ｇ．，Ｊｉｎ，Ｃ．，Ｄｉｎｇ，Ｗ．，Ｘｕ，Ｄ．，Ｑｕ，Ｙ．著、“Ｇｅｎｅｒａｔｉｎｇｉｌｌｕｓｔｒａｔｉｖｅｓｎｉｐｐｅｔｓｆｏｒｏｐｅｎｄａｔａｏｎｔｈｅｗｅｂ”、ＷＳＤＭ２０１７．ｐｐ．１５１－１５９（２０１７）

【非特許文献3】Ｗａｎｇ，Ｘ．，Ｃｈｅｎｇ，Ｇ．，Ｋｈａｒｌａｍｏｖ，Ｅ．著、“Ｔｏｗａｒｄｓｍｕｌｔｉ－ｆａｃｅｔｓｎｉｐｐｅｔｓｆｏｒｄａｔａｓｅｔｓｅａｒｃｈ”、ＰＲＯＦＬＩＬＥＳ＆ＳｅｍＥｘ２０１９．ｐｐ．１－６（２０１９）

【発明の概要】

【発明が解決しようとする課題】

【0004】

発明の概要
独立請求項に係る装置、方法及びコンピュータプログラムは、自動分析をさらに改善するものである。

【課題を解決するための手段】

【0005】

本開示は、リソース記述フレームワーク（ＲＤＦ）データセットの自動分析のためのコンピュータ実装された方法に関するものであり、ＲＤＦデータセットは、トリプルの集合を含み、ＲＤＦデータセットは、ノード及びエッジを含む無向グラフ（Ｄ）として提供され、ノードは、エンティティを表し、エッジは、エンティティ間のリンクを表す。本方法は、
－各インスタンスレベルエンティティに対して、当該エンティティの少なくとも１つのクラス及び／又は少なくとも１つのプロパティを記述する少なくとも１つのトリプルを含む少なくとも１つのエンティティ記述パターン、並びに、
－２つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジに対して、２つのインスタンスレベルエンティティ間のリンクを記述する少なくとも１つのトリプルを含む少なくとも１つのリンク記述パターン
を生成するステップと、
無向グラフのエッジをノードに変換することにより、エンティティリンクグラフを生成するステップと、
エンティティリンクグラフのサブグラフを生成するステップと、
エンティティリンクを表す拡張サブグラフの各ノードがリンクする両方のエンティティに結合されるように、エンティティリンクを表すサブグラフの各ノードに対する欠落リンクを付加することによって、拡張サブグラフを生成するステップと、
－エンティティ記述パターンからのエンティティを表す拡張サブグラフ内の各ノードに対して、当該エンティティのクラスを記述する少なくとも１つのトリプル、及び、エンティティ記述パターンのプロパティごとに当該エンティティのプロパティを記述する少なくとも１つのトリプル、並びに、
－エンティティリンクを表す拡張サブグラフの各ノードに対して、リンク記述パターンからの少なくとも１つのトリプル
を付加することによって、拡張サブグラフから、ＲＤＦデータセットの代表的な部分集合を生成するステップと、
を含む。

【0006】

ＲＤＦデータセットの代表的な部分集合は、パターンカバレッジスニペットである。ＲＤＦデータセットを再利用するためには、その内容を理解することが前提条件となる。既存の方法においては、その大規模で複雑な構造の理解を支援するために、主として、代表的なデータパターンを要約として抽出することにより、ＲＤＦデータセットの要約版が生成されている。補足として、最近の試みでは、具体的なデータの代表的な部分集合がスニペットとして抽出されている。スニペット及び要約は、ＲＤＦデータセットの相補的なビュー、即ち、インスタンスレベルの代表的なトリプルを含むスニペットと、スキーマレベルの代表的なパターンを含む要約とを提供する。本発明によれば、ＲＤＦデータセット内のエンティティ記述及びリンクのパターンを最もよく例示するパターンカバレッジスニペットを生成することによって、要約の強度がスニペットに注入される。

【0007】

好ましくは、無向グラフのエッジをノードに変換してエンティティリンクグラフを生成する際に、同一のエンティティ記述パターン又は同一のリンク記述パターンを含む全てのノードが群を形成する。

【0008】

好ましくは、エンティティリンクグラフのサブグラフは、各群からの少なくとも１つのノードを接続するように生成される。

【0009】

好ましい実施形態によれば、拡張サブグラフからＲＤＦの代表的な部分集合を生成する際に、方法は、エンティティ記述パターンからのエンティティを表す拡張サブグラフ内の各ノードに対して、当該エンティティのクラスを記述する全てのトリプルと、エンティティ記述パターンのプロパティごとに当該エンティティのプロパティを記述する唯一のトリプルとを付加することを含む。

【0010】

ＲＤＦデータセットは、トリプルの集合、即ち、＜ｓｕｂｊｅｃｔ（主語），ｐｒｅｄｉｃａｔｅ（述語），ｏｂｊｅｃｔ（目的語）＞トリプルを含む。かかるトリプルの主語又は目的語は、エンティティと称される。述語はリレーションと称される。トリプルの集合は、ノード及びエッジがラベル付けされた有向グラフとして自然に表現することができる。ＲＤＦデータセット及びナレッジグラフの要素は、インスタンスレベル要素とスキーマレベル要素との間において区別することができ、ここで、スキーマは、要素の形式的記述であり、インスタンスは、データセットに実際に記憶されている特定の情報である。

【0011】

これらのトリプルのスキーマレベル要素は、ｅのエンティティ記述パターン（ＥＤＰ）を形成し、クラス（Ｃ）、前方プロパティ（ＦＰ）、後方プロパティ（ＢＰ）の集合、即ち、

【数1】

により構成される。

【0012】

目的語がエンティティであるトリプルは、２つのエンティティ間のリンクを表すため、特に重要である。かかるトリプル＜ｅ_ｉ，ｐ，ｅ_ｊ＞内の述語及び２つのエンティティのＥＤＰは、このトリプルのリンクパターン（ＬＰ）、即ち、
ｌｐ（＜ｅ_ｉ，ｐ，ｅ_ｊ＞，Ｄ）＝＜ｅｄｐ（ｅ_ｉ，Ｄ），ｐ，ｅｄｐ（ｅ_ｊ，Ｄ）＞
を形成する。

【0013】

好ましい実施形態によれば、本方法は、各インスタンスレベルエンティティをそのエンティティ記述パターンでラベル付けするステップ、及び／又は、２つのインスタンスレベルエンティティ間のエンティティリンクを表す各エッジをそのリンク記述パターンでラベル付けするステップをさらに含む。

【0014】

好ましい実施形態によれば、無向グラフのエッジをノードに変換するステップは、各エッジを細分割するステップを含む。

【0015】

好ましい実施形態によれば、エンティティリンクグラフのサブグラフを生成することは、群シュタイナーツリー問題を解くことに基づく。

【0016】

データセット内の非結合性を処理するために、好ましくは、全てのエンティティ記述パターンと全てのリンク記述パターンとの和集合は、全集合とみなされ、ＲＤＦデータセットの各成分Ｄ_ｊに対して、ＥＤＰ（Ｄ_ｊ）∪ＬＰ（Ｄ_ｊ）⊆ＥＤＰ（Ｄ）∪ＬＰ（Ｄ）が集合であり、本方法は、和集合が全集合に等しい集合の最小数を求めるステップを含む。

【0017】

好ましくは、本方法は、エンティティ記述パターンの頻度及び／又はリンク記述パターンの頻度を決定するステップを含む。頻度は、ＲＤＦデータセット内の当該パターンの発生として定義される。

【0018】

好ましくは、本方法は、エンティティ記述パターン及び／又はリンク記述パターンを、その頻度に従って、例えば降順に基づいてランク付けするステップを含む。

【0019】

好ましい実施形態によれば、本方法は、サブグラフが各群からの少なくとも１つのノードを接続するように、エンティティ記述パターンの頻度及び／又はリンク記述パターンの頻度に基づいてエンティティリンクグラフのサブグラフを制限するステップを含み、群は、定義された閾値を超える頻度を有するエンティティ記述パターン及び／又はリンク記述パターンを参照する。

【0020】

さらなる有利な実施形態は、以下の説明及び図面から導き出すことができる。

【図面の簡単な説明】

【0021】

【図1】例示的なナレッジグラフを示す図である。

【図2】リソース記述フレームワーク（ＲＤＦ）データセットＤの自動分析のための方法の態様を示す図である。

【図3】リソース記述フレームワーク（ＲＤＦ）データセットＤの自動分析のための方法のさらなる態様を示す図である。

【図4】リソース記述フレームワーク（ＲＤＦ）データセットＤの自動分析のための方法のさらなる態様を示す図である。

【図5】スペース節約度に関する方法の評価の態様を示す図である。

【図6】スペース節約度の累積分布に関する方法の評価の態様を示す図である。

【図7】スニペットサイズの累積分布に関する方法の評価の態様を示す図である。

【図8】実行時間に関する方法の評価の態様を示す図である。

【図9】実行時間の累積分布に関する方法の評価の態様を示す図である。

【発明を実施するための形態】

【0022】

図１は、例示的なナレッジグラフ（ＫＧ）１００を示している。ナレッジグラフは、ＲＤＦデータセットＤのデータを表現したものであり、トリプルの集合、即ち、＜ｓｕｂｊｅｃｔ，ｐｒｅｄｉｃａｔｅ，ｏｂｊｅｃｔ＞トリプルから構成されている。かかるトリプルの主語又は目的語は、エンティティと称される。述語は、リレーションと称される。ＫＧのトリプルの集合は、ノード及びエッジがラベル付けされた有向グラフとして自然に表現することができる。ＲＤＦデータセット及びナレッジグラフの要素は、インスタンスレベル要素とスキーマレベル要素との間において区別することができ、ここで、スキーマは、要素の形式的記述であり、インスタンスは、データセットに実際に記憶されている特定の情報である。

【0023】

ナレッジグラフ（ＫＧ）のノードＮ１．１、Ｎ１．２、Ｎ２、Ｎ３．１、Ｎ３．２、Ｎ４．１、Ｎ４．２、Ｎ４．３、Ｎ５．１、Ｎ５．２及びＮ５．３は、例えば、
Ｎ１．１：ドイツ、略してＤＥ
Ｎ１．２：英国、略してＵＫ
Ｎ２：ヨーロッパ
Ｎ３．１：ベルリン
Ｎ３．２：ロンドン
Ｎ４．１：ミュンヘン
Ｎ４．２：アウクスブルク
Ｎ４．３：オックスフォード
Ｎ５．１：特定番号１
Ｎ５．２：特定番号２
Ｎ５．３：特定番号３
のようなインスタンスレベルのエンティティを参照する。

【0024】

ナレッジグラフ（ＫＧ）のノードＮ６及びＮ７は、例えば、
Ｎ６：首都
Ｎ７：市
のようなスキーマレベルのエンティティを参照する。

【0025】

ナレッジグラフ（ＫＧ）のエッジＥ１、Ｅ２、Ｅ３．１及びＥ３．２は、例えば、
Ｅ１：～の一部
Ｅ２：～の首都
Ｅ３．１：～に位置する
Ｅ３．２：～に位置する
のようなインスタンスレベルの関係を参照する。

【0026】

ナレッジグラフ（ＫＧ）のエッジＥ４及びＥ５は、例えば、
Ｅ４：種類
Ｅ５：領域
のようなスキーマレベルの関係を参照する。

【0027】

ＲＤＦデータセットＤのトリプルにおいては、インスタンスレベルエンティティｅは、トリプルの部分集合によって記述され、ここで、ｅは、主語又は目的語である。これらのトリプルのスキーマレベル要素は、ｅのエンティティ記述パターン（ＥＤＰ）を形成し、クラス（Ｃ）、前方プロパティ（ＦＰ）、後方プロパティ（ＢＰ）の集合、即ち、

【数2】

により構成される。

【0028】

【0029】

図１を参照すると、例示的なパターン、即ち、

【数3】

を得ることができる。

【0030】

それぞれＥＤＰ（Ｄ）及びＬＰ（Ｄ）で示されるＤにおける全てのＥＤＰの集合及び全てのＬＰの集合は、Ｄにおける全てのエンティティ及びリンクを反復することによって得られる。

【0031】

好ましくは、図１のＫＧの各ノードは、そのＥＤＰでラベル付けすることができ、各エッジは、そのＬＰでラベル付けすることができる。

【0032】

図２は、ＲＤＦデータセットＤのエンティティリンクグラフ表現（ＥＬＧ）を示している。ＥＬＧは、各エッジを細分割することによって、ＫＧのラベル付きエッジをラベル付きノードに変換することにより得られる。細分割は、ＲＤＦデータセットＤのエンティティリンクグラフ表現と称される。エンティティリンクグラフＥＬＧは、インスタンスレベル要素のみを含むように縮小される。

【0033】

図３は、エンティティリンクグラフＥＬＧの拡張サブグラフｅＳＧを示している。拡張サブグラフｅＳＧは、次のように生成される。

【0034】

まず、各群からの少なくとも１つのノードを接続するエンティティリンクグラフＥＬＧのサブグラフＳＧを生成する。サブグラフＳＧは、群シュタイナーツリー問題を解くことにより生成される。本質的に、これは、ノードラベルがエンティティ記述パターンＥＤＰ及びリンク記述パターンＬＰを被覆するエンティティリンクグラフＥＬＧの最小結合サブグラフを生成することを意味する。一実施形態によれば、サブグラフは、群シュタイナーツリー問題の重み付けされていないバージョンとして生成され、同一のラベルを有する全てのノードが群を形成する。群シュタイナーツリー問題を解決するには、各群の少なくとも１つのノードを接続し、全ての異なるラベルを被覆する最小のツリーを求める必要がある。群シュタイナーツリー問題は、Ｓｈｉ，Ｙ．，Ｃｈｅｎｇ，Ｇ．，Ｋｈａｒｌａｍｏｖ，Ｅ．著、“Ｋｅｙｗｏｒｄｓｅａｒｃｈｏｖｅｒｋｎｏｗｌｅｄｇｅｇｒａｐｈｓｖｉａｓｔａｔｉｃａｎｄｄｙｎａｍｉｃｈｕｂｌａｂｅｌｌｉｎｇｓ”、ＷＷＷ２０２０．ｐｐ．２３５－２４５（２０２０）に開示されている、例えば、ＫｅｙＫＧ＋のような最先端の近似アルゴリズムを用いて解くことができる。

【0035】

次に図２を参照すると、サブグラフは、エンティティを表す以下のノードＮ１．１、Ｎ２、Ｎ３．１及びＮ４．１と、エンティティ間のリンクを表す以下のＥ１、Ｅ２、Ｅ３．１及びＥ３．２とを含む。

【0036】

第２に、拡張サブグラフｅＳＧは、エンティティリンクを表す拡張サブグラフ中の各ノードが、リンクする両方のエンティティを接続するように、エンティティリンクを表すサブグラフ中の各ノードに対する欠落リンクを付加することによって生成される。これは、図３におけるノードＥ３．１とノードＮ３．１との間の点線によって示されている。一実施形態によれば、エンティティリンクを表す計算されたサブグラフ内の各リーフに対して、サブグラフは、当該ノードがリンクする両方のエンティティを含むように拡張される。

【0037】

最後に、図４は、拡張サブグラフｅＳＧから生成されたＲＤＦデータセットＤの代表的な部分集合Ｓを示している。

【0038】

代表的な部分集合Ｓは、ＲＤＦデータセットＤのパターンカバレッジスニペットＳである。

【0039】

図４の例によれば、代表的な部分集合Ｓは、拡張サブグラフｅＳＧから以下のように導出することができる。エンティティ記述パターンからエンティティを表す拡張サブグラフｅＳＧ内の各ノードに対して、当該エンティティのクラスを記述する全てのトリプルと、エンティティ記述パターンのプロパティごとに当該エンティティのプロパティを記述する唯一のトリプルとを付加する。さらに、エンティティリンクを表す拡張サブグラフＳＧ内の各ノードに対して、リンク記述パターンＬＰから対応するトリプルが付加される。

【0040】

図１乃至図４に関して説明した実施形態は、ＲＤＦデータセットＤの結合性を仮定することに基づく。ＲＤＦデータセットＤの非結合性は、以下のように取り扱うことができる。

【0041】

非結合性は、周知の集合被覆問題のインスタンスとみなすことができ、ここで、全てのエンティティ記述パターンＥＤＰ（Ｄ）と全てのリンク記述パターンＬＰ（Ｄ）との和集合が全集合とみなされ、ＲＤＦデータセットＤの各成分Ｄ_ｊに対して、ＥＤＰ（Ｄ_ｊ）∪ＬＰ（Ｄ_ｊ）⊆ＥＤＰ（Ｄ）∪ＬＰ（Ｄ）が集合とみなされる。集合被覆問題は、和集合が全集合に等しい集合の最小数を求めることにより解決される。

【0042】

この解法は、全集合が完全に被覆されるまで、代表的な部分集合Ｓを反復的に生成することを含む。最も多くの被覆されていないパターンを含む各成分Ｄ_ｉに対して、代表的な部分集合Ｓが前述のように生成される。

【0043】

有利な実施形態によれば、代表的な部分集合Ｓの生成は、成分Ｄ_ｉのおそらくより小さいサブスニペットを生成するように修正することができる。サブスニペットは、エンティティ記述パターンＥＤＰ（Ｄ_ｉ）と記述パターンＬＰ（Ｄ_ｉ）との和集合の一部を被覆する必要があるのみであり、完全な和集合ＥＤＰ（Ｄ_ｉ）∪ＬＰ（Ｄ_ｉ）ではなく、全集合と交差する。これにより、ＥＬＧのサブグラフＳＧを生成する際、全集合のない和集合ＥＤＰ（Ｄ_ｉ）∪ＬＰ（Ｄ_ｉ）のパターンに対応する群は、無視することができる。

【0044】

これにより、ＲＤＦデータセットＤ内の全てのパターンを被覆する成分の最小部分集合を求めることを目指すことによって、代表的な部分集合Ｓのコンパクト性及び生成効率を向上させることができる。

【0045】

ＲＤＦデータセットＤが非常に異質であり、多くの異なるパターンを含む場合、代表的な部分集合Ｓは必然的に非常に大きくなる。次のステップにおいては、パターンカバレッジとスニペットサイズとの間においてトレードオフを行い、高度な異質性を処理する。ＲＤＦデータセットＤ内のパターンは、それほど重要ではないことがある。エンティティ記述パターンＥＤＰの相対頻度は、ＲＤＦデータセットＤにおいて、このエンティティ記述パターンＥＤＰを有するエンティティの割合として定義される。リンク記述パターンＬＰの相対頻度も同様に定義される。頻度の高いパターンほど重要であるとみなされる。生成されたパターンＥＤＰ、ＬＰは、それらの相対的頻度の降順にランク付けすることができる。

【0046】

エンティティリンクグラフＥＬＧのサブグラフＳＧを生成する際、サブグラフＳＧは、サブグラフが各群からの少なくとも１つのノードに結合するように、エンティティ記述パターンの頻度及び／又はリンク記述パターンの頻度に基づいて制限することができ、群は、定義された閾値を超える頻度を有するエンティティ記述パターン及び／又はリンク記述パターンを参照する。閾値は、例えば、割合を記述するものである。

【0047】

これに基づいて、生成された代表的な部分集合Ｓは、ＲＤＦデータセットＤ内の最も重要なパターンのみを被覆する、おそらくより小さいスニペットとなる。

【0048】

以下の実施形態は、クエリバイアスされた代表的な部分集合Ｓを生成することに言及している。

【0049】

キーワードクエリＱは、少なくとも１つのキーワード又は複数のキーワードを含む。全てのキーワードは、キーワードパターンとみなされる。ＲＤＦデータセットＤ内の各エンティティ又はエンティティリンクは、そのエンティティ記述パターンＥＤＰ又はリンク記述パターンＬＰ、及び、それが一致する全てのキーワードパターンから構成されるパターンの集合を有するように拡張される。この計算は、オフザシェルフのマッチャ（Matcher）により行うことができる。エンティティｅは、ｑがＲＤＦデータセットＤのエンティティｅを記述する任意のトリプルに現れる場合、キーワードｑ∈Ｑと一致する。エンティティリンク＜ｅ_ｉ，ｐ，ｅ_ｊ＞は、キーワードｑがｐのテキスト形式で現れる場合、キーワードｑに一致する。従って、キーワードｑ∈Ｑの各キーワードパターンに対して、キーワードｑに一致する全てのエンティティ及びエンティティリンクから構成される群が付加される。これにより、各群からの少なくとも１つのノードを接続するようなエンティティリンクグラフＥＬＧのサブグラフＳＧを生成する際には、各キーワードｑに対して、各キーワードｑに一致する全てのエンティティ及びエンティティリンクから構成される群を加算することにより、キーワードを考慮する。

【0050】

これに基づいて、生成された代表的な部分集合Ｓは、Ｑ内の全てのキーワードと一致する。

【0051】

先行技術、Ｃｈｅｎｇ，Ｇ．，Ｊｉｎ，Ｃ．，Ｄｉｎｇ，Ｗ．，Ｘｕ，Ｄ．，Ｑｕ，Ｙ．著、“Ｇｅｎｅｒａｔｉｎｇｉｌｌｕｓｔｒａｔｉｖｅｓｎｉｐｐｅｔｓｆｏｒｏｐｅｎｄａｔａｏｎｔｈｅｗｅｂ”、ＷＳＤＭ２０１７．ｐｐ．１５１－１５９（２０１７）は、ＩｌｌｕＳｎｉｐと称されるスニペットを生成する方法も開示している。大規模なＲＤＦデータセットの内容をコンパクトに例示するために、ＩｌｌｕＳｎｉｐは最大重みとカバレッジの結合グラフ問題を定式化することによってスニペットを生成する。これは、ＲＤＦデータセット内の最も頻繁なクラス、プロパティ及び最も中心的なエンティティを被覆する結合ＲＤＦグラフとして表されるｋトリプルの最適な部分集合を抽出することを目的としている。ＩｌｌｕＳｎｉｐとは異なり、Ｗａｎｇ，Ｘ．，Ｃｈｅｎｇ，Ｇ．，Ｋｈａｒｌａｍｏｖ，Ｅ．著、“Ｔｏｗａｒｄｓｍｕｌｔｉ－ｆａｃｅｔｓｎｉｐｐｅｔｓｆｏｒｄａｔａｓｅｔｓｅａｒｃｈ”、ＰＲＯＦＬＩＬＥＳ＆ＳｅｍＥｘ２０１９．ｐｐ．１－６（２０１９）において開示されているＫＳＤは、結合性の制約を取り除く重み付き最大カバレッジ問題を定式化している。最適化の目的は、さらにＲＤＦデータセット検索エンジンに適したキーワードクエリで最も多くのキーワードを被覆することにある。ＩｌｌｕＳｎｉｐ及びＫＳＤと比較して、このアプローチはスキーマレベル要素を被覆することも目的としており、クラスとプロパティとの組合せであるエンティティ記述及びリンクのパターンに焦点を当てている。パターンは、個別のクラス及びプロパティよりも「高次」のデータプレビューを提供することができる。

【0052】

以下においては、このアプローチのスペース節約度及び実行時間をＩｌｌｕＳｎｉｐ及びＫＳＤと比較する。このアプローチはＰＳＣＧと称される。

【0053】

ＲＤＦデータセットへのアプローチによるスペース節約度は、
スペース節約度＝１－（生成されたスニペット内のトリプルの数ＲＤＦデータセット内のトリプルの数）／（ＲＤＦデータセット内のトリプルの数）
のように定義される。

【0054】

スニペットのサイズは、トリプルの数で報告される。さらに、ＲＤＦデータセットに対する各手法の実行時間が報告される。

【0055】

評価のために、ＤａｔａＨｕｂ．ｉｏ及びＤａｔａ．ｇｏｖの２つのデータポータルからＲＤＦダンプを使用してデータセットを取得し、ＡｐａｃｈｅＪｅｎａ３．９．０を使用して９５４４個のＲＤＦデータセットを解析した。Ｄａｔａ．ｇｏｖのデータセット内の多くのエンティティはタイプ化されておらず、おそらく表形式データから変換された一様なパターンで記述されていることに注意しなければならない。

【0056】

ＰＳＣＧアプローチのスペース節約度を、９５４４個のＲＤＦデータセットの各々について計算した。その結果を図５の表にまとめた。ＰＳＣＧアプローチでは、ＲＤＦデータセットのサイズを平均約９０％削減した。ＰＣＳＧ、ＰＣＳＧ－９０％、ＰＣＳＧ－８０％のスペース節約度は、図６の累積分布で示されるように、全てのＲＤＦデータセットのそれぞれ５７％、６９％、７２％で９５％以上であった。図７の累積分布に示されるように、生成されたスニペット中のトリプル数の中央値は、それぞれ４１、２０、１７であった。結果は、ＰＳＣＧアプローチで生成されたスニペットのコンパクト性を支持するものであった。

【0057】

各アプローチについて、９５４４個のＲＤＦデータセットのそれぞれの実行時間を記録した。結果を図８に示す表にまとめた。ＰＣＳＧ（－τ）はＩｌｌｕＳｎｉｐより２桁以上速かった。ＰＣＳＧ、ＰＣＳＧ－９０％、ＰＣＳＧ－８０％の実行時間は、図９の累積分布によって示されるように、全てのＲＤＦデータセットのそれぞれ９８％、９８％、９９％において１秒未満であった。この結果は、ＰＳＣＧアプローチの計算の効率を支持している。しかし、数千のＥＤＰ及びＬＰを含む一部の非常に不均一なデータセットでは、ＰＣＳＧ（－τ）は、１時間以上を要した。ＰＳＣＧアプローチは、それでもＩｌｌｕＳｎｉｐより高速で、オフライン計算としては許容範囲内であるが、その性能をさらに向上させる余地があることが示唆された。

【0058】

本方法は、ニューラルネットワークを用いてＲＤＦデータセットを処理する場合に好適に適用される。データセットは、例えば、製造又は生産の分野からのデータ、例えば、材料及び物質並びにそれらの特性に関する情報を含む。ＲＤＦデータセットは、例えば、自動化、診断及び最適化に関して処理される。ＲＤＦデータセットの代表的な部分集合Ｓは、ＲＤＦデータセットの迅速な推定又は評価のために最初に処理することができる。

【0059】

さらなる実施形態は、特にニューラルネットワークを用いて、ＲＤＦデータセットを処理するためのコンピュータ実装された方法を使用することに言及する。この方法を使用することは、ＲＤＦデータセットの代表的な部分集合Ｓを自動的に生成することを意味し、それによってテキストデータから情報を抽出することにより、例えば、エンティティ、特に、人、場所、組織などに関する情報、及び／又は、概念、特に、タンパク質、化学物質、材料、自動化プロセス、診断及び最適化に関する情報を抽出する。

【0060】

さらなる実施形態は、複数のＲＤＦデータセット、少なくとも２つのＲＤＦデータセット、特にニューラルネットワークを処理するためのコンピュータ実装された方法の使用に言及しており、当該方法は、キーワードクエリＱを受信することと、少なくとも２つのＲＤＦデータセットのクエリバイアスされた代表的な部分集合Ｓを生成することと、キーワードクエリＱと各クエリバイアスされた代表的な部分集合Ｓとの間の類似性及び／又は類似性の程度を決定することとを含む。類似性及び／又は類似性の程度に基づいて、適当な代表的な部分集合、従って、キーワードクエリＱに関する適当なＲＤＦデータセットを決定することができる。類似性及び／又は類似性の程度の決定は、例えば、高次元ベクトル空間埋め込みにおける単語、即ち、キーワード及び代表的な部分集合の要素のベクトル埋め込みに基づくことができ、ここで、単語は、それらがベクトル空間において互いに近接している場合に類似している。

【0061】

さらなる実施形態は、データベース、特に構造化知識データベース、特にナレッジグラフを作成するためのコンピュータ実装された方法の使用に関するものであり、当該方法は、実施形態に従って、情報を抽出するため、例えば、代表的な部分集合Ｓを生成するために適用され、情報、例えば代表的な部分集合Ｓは、データベース、特に構造化知識データベース、特にナレッジグラフを作成するために使用される。

【0062】

本実施形態に係る方法は、異なるドメインからのＲＤＦデータセットに適用することができる。

【図1】