特許7546664 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7546664分散知識ベースのためのオントロジーに基づくデータ・ストレージ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4A
4B
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-29

(45)【発行日】2024-09-06

(54)【発明の名称】分散知識ベースのためのオントロジーに基づくデータ・ストレージ

(51)【国際特許分類】

G06F 16/901 20190101AFI20240830BHJP

G06F 16/27 20190101ALI20240830BHJP

【ＦＩ】

G06F16/901

G06F16/27

【請求項の数】 15

(21)【出願番号】P 2022520219

(86)(22)【出願日】2020-09-30

(65)【公表番号】

(43)【公表日】2022-12-08

(86)【国際出願番号】 IB2020059141

(87)【国際公開番号】W WO2021070013

(87)【国際公開日】2021-04-15

【審査請求日】2023-02-24

(31)【優先権主張番号】16/594,391

(32)【優先日】2019-10-07

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(72)【発明者】

【氏名】カーマー、アブドゥル

(72)【発明者】

【氏名】オズカン、ファトマ

(72)【発明者】

【氏名】アロタイビ、ラナ

(72)【発明者】

【氏名】リー、チュアン

【審査官】齊藤貴孝

(56)【参考文献】

【文献】特開２０１３－０３３４５２（ＪＰ，Ａ）

【文献】中国特許出願公開第１０８９８４３０８（ＣＮ，Ａ）

【文献】米国特許出願公開第２０１７／００７５９５３（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１５／０３４７４８０（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ４０／００－４０／５８

(57)【特許請求の範囲】

【請求項1】

コンピュータ可読プログラム命令によって実行される方法であって、コンピュータ・プロセッサによって実行されたときに動作を実行する前記コンピュータ可読プログラム命令を含んでいるメモリとを備えているシステムで実行される前記方法であって、
データ・オーケストレータによって、領域に対応するクエリ・ワークロード情報を決定することと、
前記クエリ・ワークロード情報をハイパーグラフとしてモデル化することであって、前記ハイパーグラフが頂点のセットおよびハイパーエッジのセットを含み、前記頂点のセット内の各頂点が、前記領域に関連付けられたオントロジーにおける概念に対応する、前記モデル化することと、
前記ハイパーグラフに基づいて、かつ複数のデータ・ノードの各々の事前に定義された能力にさらに基づいて、概念と前記複数のデータ・ノードの間のマッピングを生成することと、
前記生成されたマッピングに基づいて分散知識ベースを確立することとを含む、方法。

【請求項2】

前記クエリ・ワークロード情報を決定することが、
前のオントロジー・クエリのセットを受信することと、
前記前のオントロジー・クエリのセット内の第１のクエリによってアクセスされる概念の第１のセットを生成することと、
前記第１のクエリによって実行される動作の第２のセットを生成することと、
第１の要約されたクエリを、
前記前のオントロジー・クエリのセットから、対応する一致している第１のセットを含むクエリのグループを識別し、
前記クエリの識別されたグループ内のクエリごとに、対応する第２のセットに基づいて、動作の集約セットを決定し、
前記第１の要約されたクエリを、前記対応する一致している第１のセットに反映された動作および概念の前記集約セットに関連付ける
ことによって、生成することとを含む、請求項１に記載の方法。

【請求項3】

前記クエリ・ワークロード情報をハイパーグラフとしてモデル化することが、
前記オントロジーにおける概念ごとに頂点を作成することと、
前記第１の要約されたクエリの第１のハイパーエッジを作成することであって、前記第１のハイパーエッジが、前記ハイパーグラフ内の頂点の第１のセットを接続し、前記頂点の第１のセットが、前記一致する第１のセットに反映された前記概念に対応する、前記作成することと、
前記第１のハイパーエッジに前記動作の集約セットでラベルを付けすることとを含む、請求項２に記載の方法。

【請求項4】

前記マッピングを生成することが、
前記ハイパーグラフに含まれている第１の動作の第１のクラスタを作成することと、
前記ハイパーグラフ内の第１のハイパーエッジによって接続された概念の第１のセットを識別することと、
前記第１のハイパーエッジによって示された動作の第１のセットを識別することと、
前記動作の第１のセットが前記第１の動作を含むということを決定したときに、前記概念の第１のセットを前記第１のクラスタに割り当てることとを含む、請求項１に記載の方法。

【請求項5】

前記マッピングを生成することが、
前記第１の動作を実行できるデータ・ノードのセットを識別し、
前記概念の第１のセット内の各概念を前記データ・ノードの識別されたセット内の各データ・ノードにマッピングする
ことによって、前記概念の第１のセットを１つまたは複数のデータ・ノードにマッピングすることをさらに含む、請求項４に記載の方法。

【請求項6】

前記マッピングを生成することが、
前記ハイパーグラフ内の第１のハイパーエッジによって接続された概念の第１のセットを識別することと、
前記第１のハイパーエッジによって示された動作の第１のセットを識別することと、
前記動作の第１のセットを集合的に実行できるデータ・ノードの最小セットを決定することと、
前記概念の第１のセットを含んでいるクラスタを生成することと、
前記クラスタに前記データ・ノードの最小セットでラベルを付けることとを含む、請求項１に記載の方法。

【請求項7】

前記マッピングを生成することが、前記概念の第１のセット内の各概念を、前記データ・ノードの最小セット内の各データ・ノードにマッピングすることをさらに含む、請求項６に記載の方法。

【請求項8】

前記分散知識ベースを確立することが、前記オントロジーにおける概念ごとに、
前記マッピングによって示された各データ・ノードを識別することと、
前記各概念に対応するデータを識別することと、
前記各データ・ノード内の前記識別されたデータの格納を容易にすることとを含む、請求項１に記載の方法。

【請求項9】

コンピュータ・プログラムであって、請求項１ないし８のいずれか１項に記載の方法の各ステップをコンピュータに実行させるための、コンピュータ・プログラム。

【請求項10】

請求項９に記載のコンピュータ・プログラムを記録した、コンピュータ可読ストレージ媒体。

【請求項11】

１つまたは複数のコンピュータ・プロセッサと、
前記１つまたは複数のコンピュータ・プロセッサによって実行されたときに動作を実行するプログラムを含んでいるメモリとを備えているシステムであって、前記動作が、
データ・オーケストレータによって、領域に対応するクエリ・ワークロード情報を決定することと、
前記クエリ・ワークロード情報をハイパーグラフとしてモデル化することであって、前記ハイパーグラフが頂点のセットおよびハイパーエッジのセットを含み、前記頂点のセット内の各頂点が、前記領域に関連付けられたオントロジーにおける概念に対応する、前記モデル化することと、
前記ハイパーグラフに基づいて、かつ複数のデータ・ノードの各々の事前に定義された能力にさらに基づいて、概念と前記複数のデータ・ノードの間のマッピングを生成することと、
前記生成されたマッピングに基づいて分散知識ベースを確立することとを含む、システム。

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、知識ベースに関し、より詳細には、分散知識ベースにおける効果的なデータ配置のためのオントロジーの使用に関する。

【背景技術】

【0002】

ますます多くの企業が、知識ベース（ＫＢ：Knowledge Bases）を利用して、分析を強化し、企業のシステムの意思決定、効率、および有効性を改善している。多くの場合、ＫＢは、企業の領域内で相対的に特殊化される。例えば、金融機関は、金融市場の政府規制に関連するデータなどの重要な金融知識を含むＫＢに依存する。反対に、医療企業は、医学文献から収集されたかなりの量のデータを含むＫＢを維持することがある。これらのＫＢを管理するために、深い領域の特殊化、効果的システム、および効果的技術に対する大きな必要性が存在する。領域スキーマの実体中心の視野を提供する領域オントロジーを認識しない既存のシステムは、ＫＢに対するクエリを効果的に管理し、ルーティングすることができない。

【0003】

さらに、ＫＢは、動作を改善するために、さまざまな能力およびコストを有する複数のデータ・サイトにわたって分散されることがある。連合データベースなどの既存のアーキテクチャは、そのような各ソースからデータを集約するために、集中型メディエータに依存する。これは非効率的であり、大きさの変更を十分に行うことができない。さらに、既存のシステムは、基礎になるオントロジーおよび各データ・ソースの能力を理解せず、したがってクエリを効率的にルーティングすることができない。そのため、そのようなシステムの効率が低下し、標準的なクエリに応答するために、かなりの量の計算リソースが必要になる。

【発明の概要】

【0004】

本発明の態様によれば、データ・オーケストレータによって、領域に対応するクエリ・ワークロード情報を決定することを含む方法が提供されている。この方法は、クエリ・ワークロード情報をハイパーグラフとしてモデル化することをさらに含み、このハイパーグラフは頂点のセットおよびハイパーエッジのセットを含み、頂点のセット内の各頂点は、領域に関連付けられたオントロジーにおける概念に対応する。さらに、この方法は、ハイパーグラフに基づいて、かつ複数のデータ・ノードの各々の事前に定義された能力にさらに基づいて、概念と複数のデータ・ノードの間のマッピングを生成することと、生成されたマッピングに基づいて分散知識ベースを確立することとを含む。この方法は、有利に、データ・オーケストレータが、既存のワークロードおよび各データ・ノードの能力に基づいて、分散環境内でデータを効率的に配置し、格納できるようにする。このようにして、効率的なデータ・マップを提供することによって、データを格納するために必要な計算費用を減らし、システム応答性をさらに改善する。

【0005】

本開示の別の実施形態によれば、クエリ・ワークロード情報を決定することは、前のオントロジー・クエリのセットを受信することを含む。この実施形態に従う方法は、前のオントロジー・クエリのセット内の第１のクエリによってアクセスされる概念の第１のセットを生成することと、第１のクエリによって実行される動作の第２のセットを生成することとを含む。第１の要約されたクエリは、前のオントロジー・クエリのセットから、対応する一致している第１のセットを含むクエリのグループを識別し、クエリの識別されたグループ内のクエリごとに、対応する第２のセットに基づいて、動作の集約セットを決定することによって生成される。次に、第１の要約されたクエリが、対応する一致している第１のセットに反映された動作および概念の集約セットに関連付けられる。そのような実施形態では、予想される必要性を満たすために、前のクエリを効果的に要約し、データに適したストレージ計画を決定することによって、データ・オーケストレータが既存のシステムを上回って改善される。これによって、やはり、効率を改善し、実行時の計算の無駄を減らす。

【0006】

本開示のさらに別の実施形態によれば、クエリ・ワークロード情報をハイパーグラフとしてモデル化することは、オントロジーにおける概念ごとに頂点を作成することと、第１の要約されたクエリの第１のハイパーエッジを作成することとを含み、第１のハイパーエッジが、ハイパーグラフ内の頂点の第１のセットを接続し、頂点の第１のセットが、一致する第１のセットに反映された概念に対応する。１つのそのような実施形態では、この方法は、第１のハイパーエッジに動作の集約セットでラベルを付けすることをさらに含む。そのような実施形態は、有利に、データ・オーケストレータがワークロードをグラフの形態で効果的に表すことができるようにし、オーケストレータが、データをより適切かつ効率的に評価し、改善された配置決定を推進できるようにする。これによって、実行時の性能を劇的に改善する。

【0007】

本開示のさらに別の実施形態によれば、マッピングを生成することは、ハイパーグラフに含まれている第１の動作の第１のクラスタを作成することを含む。次に、実施形態は、ハイパーグラフ内の第１のハイパーエッジによって接続された概念の第１のセットを識別することと、第１のハイパーエッジによって示された動作の第１のセットを識別することとを含む。この方法は、動作の第１のセットが第１の動作を含むということを決定したときに、概念の第１のセットを第１のクラスタに割り当てることを含む。そのような実施形態の１つの利点は、ハイパーグラフを効率的に評価できるようにし、実行時に最小限の移動を必要とする信頼性の高いデータ配置をもたらすということである。

【0008】

本開示の別の実施形態によれば、マッピングを生成することは、第１の動作を実行できるデータ・ノードのセットを識別し、概念の第１のセット内の各概念をデータ・ノードの識別されたセット内の各データ・ノードにマッピングすることによって、概念の第１のセットを１つまたは複数のデータ・ノードにマッピングすることをさらに含む。これによって、有利に、システムが、前のワークロードを考慮しながら、ノードの能力に基づいてデータ・マッピングを生成できるようにする。これによって、最小限の待ち時間およびリソース消費で将来のクエリに応答するように、システムが適切に配置される可能性を高める。

【0009】

本開示の別の実施形態によれば、マッピングを生成することは、ハイパーグラフ内の第１のハイパーエッジによって接続された概念の第１のセットを識別することと、第１のハイパーエッジによって示された動作の第１のセットを識別することと、動作の第１のセットを集合的に実行できるデータ・ノードの最小セットを決定することとを含む。次に、この方法は、概念の第１のセットを含んでいるクラスタを生成することと、クラスタにデータ・ノードの最小セットでラベルを付けることとを含む。そのような実施形態は、システム内のデータの複製を最小限に抑え、ストレージ・コストを減らし、さらに、システム内のデータ移動に起因する待ち時間およびリソース消費を減らすことによって、既存の解決策を上回って改善される。

【0010】

本開示のさらなる実施形態によれば、マッピングを生成することは、概念の第１のセット内の各概念を、データ・ノードの最小セット内の各データ・ノードにマッピングすることをさらに含む。これによって、同様に、システムのストレージ・コストおよび待ち時間を減らす。

【0011】

本開示のさらに別の実施形態によれば、分散知識ベースを確立することは、オントロジーにおける概念ごとに、マッピングによって示された各データ・ノードを識別することと、各概念に対応するデータを識別することと、各データ・ノード内の識別されたデータの格納を容易にすることとを含む。そのような実施形態は、有利に、オーケストレータがマッピングを効果的に生成し、データを効率的な方法で適切なノードに配置できるようし、実行前および実行中の両方の計算を減らす。

【0012】

本開示の異なる実施形態によれば、前述の実施形態は、いずれも、コンピュータ可読ストレージ媒体によって実装されることができる。コンピュータ可読ストレージ媒体はコンピュータ・プログラム・コードを含み、コンピュータ・プログラム・コードは、１つまたは複数のコンピュータ・プロセッサの動作によって実行されたときに動作を実行する。実施形態では、実行される動作は、上記の方法および実施形態の任意の組み合わせに対応することができる。

【0013】

本開示のさらに別の異なる実施形態によれば、前述の実施形態は、いずれも、システムによって実装されることができる。システムは、１つまたは複数のコンピュータ・プロセッサ、およびプログラムを格納しているメモリを含み、プログラムは、１つまたは複数のコンピュータ・プロセッサによって実行されたときに、動作を実行する。実施形態では、実行される動作は、上記の方法および実施形態の任意の組み合わせに対応することができる。

【図面の簡単な説明】

【0014】

【図1】本明細書で開示された一実施形態に従って、知識ベースのデータを配置し、オントロジー・クエリをルーティングするように構成されたアーキテクチャを示す図である。

【図2】本明細書で開示された一実施形態に従って、オントロジー・クエリを処理してルーティングするためのワークフローを示す図である。

【図3A】本明細書で開示された一実施形態に従って、クエリを評価し、ルーティングするために使用されることができる例示的なオントロジーを示す図である。

【図3B】本明細書で開示された一実施形態に従って、クエリを評価し、ルーティングするために使用されることができる例示的なオントロジーを示す図である。

【図4A】本明細書で開示された一実施形態に従って、例示的なオントロジー・クエリを構文解析してルーティングするためのワークフローを示す図である。

【図4B】本明細書で開示された一実施形態に従って、例示的なオントロジー・クエリを構文解析してルーティングするためのワークフローを示す図である。

【図5】本明細書で開示された一実施形態に従って、オントロジー・クエリをルーティングするように構成されたクエリ処理オーケストレータ（query processing orchestrator）を示すブロック図である。

【図6】本明細書で開示された一実施形態に従って、オントロジー・クエリを処理してルーティングするための方法を示すフロー図である。

【図7】本明細書で開示された一実施形態に従って、オントロジー・クエリを処理してクエリ・ブロックを効率的にルーティングするための方法を示すフロー図である。

【図8】本明細書で開示された一実施形態に従って、オントロジー・クエリを効率的にルーティングするために可能性のあるクエリ・ルーティング計画を評価するための方法を示すフロー図である。

【図9】本明細書で開示された一実施形態に従って、オントロジー・クエリをルーティングするための方法を示すフロー図である。

【図10】本明細書で開示された一実施形態に従って、ワークロードを評価して知識ベース・データを格納するためのワークフローを示す図である。

【図11】本明細書で開示された一実施形態に従って、ワークロードを評価して知識ベース・データを格納するために使用される例示的なハイパーグラフである。

【図12】本明細書で開示された一実施形態に従って、ワークロードを評価してデータを格納するように構成されたデータ配置オーケストレータ（data placement orchestrator）を示すブロック図である。

【図13】本明細書で開示された一実施形態に従って、クエリ・ワークロードを評価して要約し、データ配置の決定を知らせるための方法を示すフロー図である。

【図14】本明細書で開示された一実施形態に従って、オントロジーのワークロードをモデル化し、データ配置の決定を知らせるための方法を示すフロー図である。

【図15】本明細書で開示された一実施形態に従って、ハイパーグラフを評価し、データ配置の決定を推進するための方法を示すフロー図である。

【図16】本明細書で開示された一実施形態に従って、ハイパーグラフを評価し、データ配置の決定を推進するための方法を示すフロー図である。

【図17】本明細書で開示された一実施形態に従って、オントロジーの概念をストレージ・ノードにマッピングするための方法を示すフロー図である。

【発明を実施するための形態】

【0015】

本開示の実施形態は、複数のデータ・ストアまたはノードを使用してさまざまなクエリの種類のサポートを実現するオントロジー主導のアーキテクチャを提供し、それらのデータ・ストアまたはノードの各々は、異なる能力を有してよい。本開示の実施形態は、有利に、既存のオントロジーに基づいて、クエリが効率的に処理され、多様なデータ・ストアにルーティングされることを可能にし、システムの待ち時間を改善し、関連するデータを識別して返すために必要な計算リソースを減らす。実施形態では、本明細書に記載された技術は、自然言語および会話インターフェイスを含むさまざまな照会アプリケーションをサポートするために使用されることができる。本明細書に記載されたシステムは、ユーザが領域オントロジーに対する情報の必要性を表すことができるようにする抽象的なオントロジー・クエリ言語（ＯＱＬ：ontology query language）を介して、基礎になるバックエンド・ストアへの透過的アクセスを提供することができる。

【0016】

１つの実施形態では、さまざまなクエリの種類の性能を改善するために、システムは、最初に、バックエンド・ストアの能力に従ってデータのサブセットを適切なバックエンド・ストアに配置することによって、さまざまなストアへのＫＢデータの配置を最適化する。一部の実施形態では、実行時に、システムが、ＯＱＬクエリを構文解析してコンパイルし、さまざまなバックエンド・データ・ノードのクエリ言語またはＡＰＩあるいはその両方に変換する。１つの実施形態では、本明細書に記載されたシステムは、関連するデータの配置に従ってクエリを１つまたは複数のバックエンド・ストアにルーティングするクエリ・オーケストレータも採用する。この効率的なルーティングによって、結果を生成して要求元の実体に返すために必要な待ち時間を減らす。

【0017】

実施形態では、照会されるＫＢデータは、構造化データ、非構造化データ、または半構造化データ、あるいはその組み合わせを含む、任意の情報を含むことができる。深い領域の特殊化をサポートするために、本明細書で開示された実施形態は、領域オントロジーを活用する。特に、１つの実施形態では、領域オントロジーは、メタデータ・レベルのみで実体および実体の関係を定義し、インスタンス・レベルの情報を提供しない。すなわち、１つの実施形態では、領域オントロジーが領域スキーマを提供し、一方、インスタンス・レベルのデータが、さまざまなバックエンド・データ・ストア（データ・サイトおよびデータ・ノードとも呼ばれる）に格納される。実施形態では、データ・ノードは、リレーショナル・データベース、転置インデックス・ドキュメント・ストア（index document store(s)）、ＪＳＯＮ（Java（Ｒ）Script Object Notation）ストア、グラフ・データベースなどを含む任意のストア・アーキテクチャを含むことができる。

【0018】

一部の実施形態では、システムは、クエリの種類をサポートするために必要な能力を提供する任意のバックエンドで、ＫＢデータを移動し、格納し、インデックスを付与することができる。言い換えると、システムは、既存の動作可能なデータ・ストアにわたってデータを連合させる必要がない。これは、連合データベースおよびメディエータに基づく手法とは明らかに異なっている。一部の実施形態では、システムは、能力に基づくデータ配置ステップを実行し、特定のオントロジーに従う知識ベース・データが、さまざまなバックエンドのリソースに格納される。少なくとも１つの実施形態では、データ移動が、データ転送コストだけでなく、高いデータ変換コストを招くため、多ストア・アーキテクチャが、異なるデータ・ストア間のデータ移動を最小限に抑えるように構成される。データ移動コストを最小限に抑えるための１つの解決策は、すべてのバックエンド・ノード内でデータを複製し、データ移動を伴わずに、単一のストアによってクエリに回答できることを保証することである。しかし、これは、無駄な重複も必要とし、多ストア・アーキテクチャを使用して複数のデータ・ストアのさまざまな能力を活用するという目的を無効化する。本開示の実施形態では、ＫＢデータが、任意の数のバックエンドのリソースに格納されてよく、システムが、クエリをインテリジェントにルーティングして、最適なデータ・ストアを選択し、データ移動コストを最小限に抑える。

【0019】

本明細書に記載された一部の実施形態では、システム・アーキテクチャは、データが複数のデータ・ストアに格納されてインデックスを付与される方法を知らずにデータを照会するための適切な抽象化を提供する。１つの実施形態では、この目的を達成するために、オントロジー・クエリ言語（ＯＱＬ）が導入される。ＯＱＬは、企業の領域オントロジーに対して表される。システムのユーザは、実体および実体の関係を定義する領域オントロジーに関してのみ、知る必要がある。実施形態では、システムは、バックエンド・データ・ストアへのさまざまなオントロジーの概念のマッピング、ならびにそれらに対応するスキーマを理解し、ＯＱＬから基礎になるシステムのターゲット・クエリ言語へのクエリ・トランスレータを提供する。

【0020】

実施形態では、いずれかの特定のクエリに、１つまたは複数のデータ・ノードが関与してよい。本開示の実施形態は、関与するストアを識別し、最終的なクエリ結果を計算するための適切なサブクエリを生成する手法を提供する。一部の実施形態では、システムは、全体的な（global query）クエリが複数のサブクエリに分割され、最終結果がメディエータにおいて組み立てられる、メディエータ手法を使用しない。代わりに、データ・ストアのうちの１つまたは複数がメディエータとして使用され、バックエンド・データ・ストアがクエリの回答を完成させる。例えば、１つの実施形態では、リレーショナル・ストアが結合動作を素早く完了することができる可能性が高いため、クエリの応答を完成させるためにリレーショナル・データベースが使用される。

【0021】

図１は、本明細書で開示された一実施形態に従って、オントロジー・クエリをルーティングするように構成されたアーキテクチャ１００を示している。示されている実施形態では、クエリ処理オーケストレータ１１５が、対応するオントロジー・スキーマ１１０を有している、ＯＱＬを使用して構築されたオントロジー・クエリ１０５を受信する。オントロジー・クエリ１０５は、クエリ処理オーケストレータ１１５によって、関連するデータを識別して返すために処理される。実施形態では、クエリ処理オーケストレータ１１５は、クエリを、さまざまなデータ・ノード１３０Ａ～Ｎを含んでいるバックエンド１２５にルーティングする。示されている実施形態では、このルーティングは、概念マッピング１４０および能力１３５のセットに少なくとも部分的に基づいて実行される。

【0022】

示されている実施形態では、オントロジー・クエリ１０５は、ＯＱＬに基づいて書式設定され、ＯＱＬは、オントロジー・スキーマ１１０における概念および関係のセットに対して動作するクエリを表すために使用される。実施形態では、ＯＱＬは、集約、ユニオン、ネストされたサブクエリなどを含んでいるクエリを表すことができる。一部の実施形態では、ＯＱＬは、全文検索およびフィールド検索の述語、ならびにパス・クエリを表すこともできる。ＯＱＬクエリは、通常、単一のクエリ・ブロックまたは複数のＯＱＬクエリ・ブロックのユニオンから成り、各ＯＱＬクエリ・ブロックは、ＳＥＬＥＣＴ句またはＦＲＯＭ句から成る。一部の実施形態では、ＯＱＬブロックは、ＷＨＥＲＥ句、ＧＲＯＵＰＢＹ句、ＯＲＤＥＲＢＹ句、ＦＥＴＣＨＦＩＲＳＴ句、またはＨＡＶＩＮＧ句、あるいはその組み合わせを含むこともできる。実施形態では、ＯＱＬクエリは、ＦＲＯＭ句において参照された概念のデカルト積によって構築されたタプルのセットに対して動作する。

【0023】

実施形態では、オントロジー・スキーマ１１０は、データがバックエンドのリソースに実際にどのように格納されるかに関わりなく、ＫＢ内の実体および実体の関係を意味的レベルで記述する。１つの実施形態では、オントロジー・スキーマ１１０は、領域に関連する実体、さまざまな実体に関連付けられる可能性があるプロパティ、およびさまざまな実体間の可能性がある関係を記述する。オントロジー・スキーマ１１０は、機能、継承、ユニオンなどの、実体間のさまざまな現実世界の関係を捕らえる表現豊かなデータ・モデルを提供することができる。一部の実施形態では、オントロジー・スキーマ１１０は、インスタンス・データを含まない。すなわち、オントロジー・スキーマ１１０は、実体および関係を定義するが、ＫＢ内の特定の実体または関係に関連するデータを含まない。例えば、オントロジー・スキーマ１１０は、「ｃｏｍｐａｎｙ」という実体が、「ｎａｍｅ」および「ａｄｄｒｅｓｓ」などの複数のプロパティを有することができるということを定義してよいが、オントロジー・スキーマ１１０は、「ＭａｉｎＳｔｒｅｅｔＧｒｏｃｅｒ」というｎａｍｅおよび「１２３ＭａｉｎＳｔｒｅｅｔ」というａｄｄｒｅｓｓを有するｃｏｍｐａｎｙなどの、特定のインスタンスのデータを含まない。代わりに、このインスタンス・データは、バックエンド１２５内で独立して維持される。

【0024】

実施形態では、概念マッピング１４０は、オントロジー・スキーマ１１０によって表された論理スキーマと、バックエンド１２５内の基礎になるデータ・ノード１３０の物理スキーマとの間の対応関係を示す。例えば、オントロジー・スキーマ１１０がＯ（Ｃ，Ｒ，Ｐ）として定義され、Ｃ＝｛Ｃ_ｎ｜１≦ｎ≦Ｎ｝が概念（実体とも呼ばれる）のセットを示し、Ｒ＝｛ｒ_ｋ｜１≦ｋ≦Ｋ｝が概念／実体間の関係のセットを示し、Ｐ＝｛ｐ_ｍ｜１≦ｍ≦Ｍ｝がデータ・プロパティのセットであると仮定する。１つの実施形態では、各関係は、２つ以上の概念間に存在するが、各データ・プロパティは、概念の特性に対応する。示されている実施形態では、概念マッピング１４０は、概念、関係、およびプロパティ（オントロジー・スキーマ１１０内で定義される）と、基礎になるデータ・ノード１３０の間のマッピングを示す。すなわち、１つのそのような実施形態では、概念マッピング１４０は、特定の概念（例えば、実体）、関係、またはプロパティ、あるいはその組み合わせを格納する各データ・ノード１３０を示す。例えば、概念マッピング１４０は、「ｃｏｍｐａｎｙ」という実体のインスタンスがデータ・ノード１３０Ａおよび１３０Ｍに格納されており、「ｃｏｍｐａｎｙ」という実体間の特定の種類の関係に関連するデータがデータ・ノード１３０Ｂに格納されているということを示してよい。

【0025】

１つの実施形態では、能力１３５は、各データ・ノード１３０によって提供される動作および能力を示す。一部の実施形態では、データ・ノード１３０の能力は、データ・ストアによって処理／回答されることができるすべての可能性のあるクエリを列挙するビュー（ビュー定義）として表される。この手法は、柔軟であるが、ビュー定義の数が非常に多くなることがあり、無限大の数のビューを使用するクエリの書き換えの問題につながる可能性があるため、拡張可能ではない。拡張性を改善するために、本開示の一部の実施形態は、データ・ストアによって回答され得る可能性のあるすべてのクエリを列挙するのではなく、バックエンド・データ・ノード１３０がサポートする動作（例えば、結合、グループ化、集約、ファジーテキスト・マッチング、パス表現など）に関して、バックエンド・データ・ノード１３０の能力を記述する。さらに、本開示の少なくとも１つの実施形態は、任意の関連する制限を表すためのメカニズムを利用することによって、サポートされている各動作のよりきめの細かい記述を提供する。例えば、１つのそのような実施形態では、ＭＡＸ型の集約機能は、数値型に対してのみサポートされてよい。

【0026】

したがって、１つの実施形態では、能力１３５は、特定のデータ・ノード１３０ごとに、ノードが完了できる動作のセット（および一部の実施形態では、その能力に対する関連する制限）を示す。実施形態では、クエリ処理オーケストレータ１１５は、能力１３５および概念マッピング１４０を評価し、受信されたオントロジー・クエリ１０５のルーティング先になるべき１つまたは複数のデータ・ノード１３０を選択する。これを実行するために、１つの実施形態では、クエリ処理オーケストレータ１１５は、（例えば、概念マッピング１４０に基づいて）必要なデータを含んでいるか、（例えば、能力１３５に基づいて）必要な動作を完了できるか、またはその両方であるデータ・ノード１３０を識別する。次に、クエリ処理オーケストレータ１１５は、選択されたデータ・ノード１３０ごとにサブクエリを生成することができる。

【0027】

実施形態では、クエリ処理オーケストレータ１１５は、必要に応じて、トランスレータ１２０Ａ～Ｎのセットを使用してサブクエリを変換する。示されている実施形態では、各種類のデータ・ノード１３０が、対応するトランスレータ１２０を有している。一部の実施形態では、各トランスレータ１２０Ａ～Ｎは、ＯＱＬクエリのすべてまたは一部を受信し、対応するデータ・ノード１３０Ａ～Ｎの言語または構文あるいはその両方で、同等のクエリを生成する。例えば、トランスレータ１２０Ａは、データ・ノード１３０Ａに含まれているリレーショナル・データベース用のＳＱＬクエリを生成してよく、トランスレータ１２０Ｂは、データ・ノード１３０Ｂに含まれているグラフ・ストア用のグラフ・クエリを出力する。

【0028】

実施形態では、トランスレータ１２０はスキーマ・マッピングに依存し、スキーマ・マッピングは、領域オントロジーによって表された概念および関係を、ターゲットの物理スキーマで、適切なスキーマ・オブジェクトにマッピングする。例えば、リレーショナル・バックエンド・データ・ノード１３０の場合、スキーマ・マッピングは、対応関係を提供できる。（１）オントロジーにおける概念およびリレーショナル・スキーマにおけるテーブル、（２）オントロジーにおける概念のデータ・プロパティもしくは属性および物理スキーマにおけるテーブル列、または（３）オントロジーにおける概念間の関係およびデータベース内の概念に対応するテーブル間の主キーと外部キーの間の制約、あるいはその組み合わせの間の対応関係を提供することができる。同様に、ＪＳＯＮドキュメント・ストアの場合、スキーマ・マッピングは、オントロジーにおいて表された概念、データ・プロパティ、および関係を、ＪＳＯＮドキュメント内の適切なフィールド・パスにマッピングしてよい。

【0029】

一部の実施形態では、トランスレータ１２０は、通常はオントロジーの概念間の結合条件を表す概念間のユニオン、継承、およびトラバースなどの、オントロジーにおいて表されることができる特殊な概念および関係も処理する。物理的データ・レイアウトに応じて、これらの概念および関係は、バックエンド１２５のデータ・ノード１３０によってサポートされる適切な動作に変換される。

【0030】

実施形態では、各データ・ノード１３０は、サブクエリを受信し、クエリ処理オーケストレータ１１５に対する応答を生成する。データ・ノード１３０が必要なデータをすべてローカルに含んでおり、示された動作を完了することができる場合、このノードはクエリを実行して結果を返す。一部の実施形態では、サブクエリは、クエリを完了するために必要なデータを取り出すために、データ・ノード１３０がクエリを１つまたは複数の他のデータ・ノード１３０に送信するべきであるということを示すことができる。例えば、一部の実施形態では、リレーショナル・システムが結合動作のため少ない待ち時間を有する傾向があるため、リレーショナル・データ・ノードによって結合動作が実行されるのが好ましい。さらに、一部の動作は、特定のノード上でのみ可能である。例えば、データ・ノード１３０Ａが結合動作を完了できる唯一のノードであるが、結合されるデータがデータ・ノード１３０Ｂのみに存在すると仮定する。１つの実施形態では、データ・ノード１３０Ａは、関連するデータを結合するようデータ・ノード１３０Ａに指示するサブクエリに加えて、データを取り出すためにデータ・ノード１３０Ｂに転送される１つまたは複数の他のサブクエリを受信する。

【0031】

すなわち、１つのそのような実施形態では、クエリ処理オーケストレータ１１５は、データ・ノード１３０Ｂ用に変換されたサブクエリを準備し、それらのサブクエリをデータ・ノード１３０Ａに送信する。これによって、データ・ノード１３０Ａは、単にそれらのサブクエリをデータ・ノード１３０Ｂに転送することができる。次に、データ・ノード１３０Ｂによってデータがデータ・ノード１３０Ａに返され、データ・ノード１３０Ａが動作を完了し、その結果をクエリ処理オーケストレータ１１５に返す。別の実施形態では、クエリ処理オーケストレータ１１５は、サブクエリをデータ・ノード１３０Ｂに送信し、得られたデータを、処理するためにデータ・ノード１３０Ａに転送してよい。さらに別の実施形態では、クエリ処理オーケストレータ１１５は、結合をローカルに実行する。

【0032】

示されている実施形態では、アーキテクチャ１００がデータ配置オーケストレータ１５０をさらに含み、データ配置オーケストレータ１５０は、データを知識ベースに格納するためにどのデータ・ノード１３０Ａ～Ｎが使用されるべきかを決定する。図に示されているように、データ配置オーケストレータ１５０は、データ・ノード１３０の能力１５５の同様の指示およびクエリ・ワークロード１６０の指示を受信する。１つの実施形態では、クエリ・ワークロード１６０は、知識ベースに対するクエリの平均的なセットまたは予想されるセットを示す。例えば、１つの実施形態では、クエリ・ワークロード１６０は、時間をかけて知識ベースとのユーザの対話を観察することによって生成される。システムは、これらの対話を集約し、システムの平均的なワークロード、予想されるワークロード、または標準的なワークロードを決定することができる。一部の実施形態では、クエリ・ワークロード１６０は、どの概念が一緒に照会されるか、どの動作が各概念に適用されるかなどの指示を含む。

【0033】

実施形態では、ノード能力１５５および既知のクエリ・ワークロード１６０に基づいて、データ配置オーケストレータ１５０が、オントロジー・スキーマ１１０における概念／実体ごとに、どのデータ・ノード１３０が概念のインスタンスレベルのデータを格納するべきかを決定する。例えば、データ配置オーケストレータ１５０は、特定のデータ・ノード１３０Ａが実行できる動作に基づき、さらにクエリ・ワークロード１６０に基づいて、「ｃｏｍｐａｎｙ」という実体および「ｐｕｂｌｉｃｍｅｔｒｉｃ」という実体が一緒に照会されることが多いため、データ・ノード１３０Ａがこれらの実体のすべてのデータを格納するべきであるということを決定してよい。同様に、データ配置オーケストレータ１５０は、クエリが「ｄｏｃｕｍｅｎｔ」データに対するファジー・マッチ動作を実行することを頻繁に含み、データ・ノード１３０Ｂがファジー・マッチをサポートしているということの決定に基づいて、「ｄｏｃｕｍｅｎｔ」という概念のインスタンスをデータ・ノード１３０Ｂに配置することを決定してよい。

【0034】

このインテリジェントなデータ配置は、実行中のその後のデータ転送を減らすことができる。実施形態では、データ配置オーケストレータ１５０が、（例えば、初期配置を提供するために）開始時に、または（例えば、クエリ・ワークロード１６０が時間と共にどの程度発達したかに基づいて、配置決定を修正するために）実行中に定期的に、あるいはその両方で利用されてよい。実施形態では、概念を明確にするために個別のコンポーネントとして示されているが、クエリ処理オーケストレータ１１５およびデータ配置オーケストレータ１５０の動作は、結合されるか、または任意の数のコンポーネントにわたって分散されてよい。

【0035】

図に示されているように、データ配置オーケストレータ１５０は、配置決定１６５のセットを、バックエンド１２５、または抽出、変換、および読み込み（ＥＴＬ：extract, transform, and load）サービスなどの１つまたは複数の仲介サービス、あるいはその両方に出力する。次に、知識ベース内のインスタンスレベルのデータが、これらの選択に基づいて、適切なデータ・ノード１３０に格納される。概念マッピング１４０は、データの現在の配置を反映する。一実施形態では、データ配置オーケストレータ１５０が、更新されたクエリ・ワークロード１６０に基づいてデータの配置を修正するために使用された場合、概念マッピング１４０が同様に更新される。以下では、図２～図９を使用して、クエリ処理オーケストレータ１１５についてさらに詳細に説明し、データがすでに配置されていると仮定する。データ配置オーケストレータ１５０および効率的なデータの配置を保証するためのさまざまな技術が、図１０～１７を参照してさらに詳細に説明される。

【0036】

図２は、本明細書で開示された一実施形態に従って、オントロジー・クエリを処理してルーティングするためのワークフロー２００を示している。図に示されているように、ワークフロー２００は、ＯＱＬクエリ２０５が受信されたときに開始する。ＯＱＬクエリ２０５がＯＱＬパーサー２１０に提供され、ＯＱＬパーサー２１０が、クエリを構文解析し、クエリの意味を決定する。矢印２１５によって示されているように、この構文解析されたＯＱＬクエリが、次にクエリ・グラフ・モデル（ＱＧＭ：Query Graph Model）コンストラクタ２２０に提供される。実施形態では、ＱＧＭコンストラクタ２００が、クエリの論理的表現をクエリ・グラフ・モデルの形態で生成する。これによって、クエリのコンパイルおよび最適化の複雑さを低減する。以下では、図４Ａおよび４Ｂに関して、例示的なクエリ・グラフ・モデルがさらに詳細に説明される。実施形態では、ＱＧＭが、ＳＥＬＥＣＴ、ＧＲＯＵＰＢＹ、ＳＥＴＯＰなどの演算子ボックスを使用してクエリ内のデータ・フローおよび依存関係を捕捉する。実施形態では、ボックス内の動作の順序は、それらの動作間で自由に変更されることができるが、クエリ実行計画を生成するときに、ボックスの境界が順守される。すなわち、クエリ実行計画は、クエリ・ボックスの順序に従わなければならない。

【0037】

１つの実施形態では、クエリ・ボックス間のデータ・フローが、数量詞を使用して表される。この書式は、システムがクエリの等価性について推論し、書き換えの最適化を適用できるようにする。実施形態では、クエリのＱＧＭ表現は、システムがクエリの実行中に異なるデータ・ストア間のデータ・フローを最適化することに集中できるようにし、一方、実際の物理的実行計画の選択は、クエリ・ボックスまたはフラグメントの実行の責任を負う基礎になるデータ・ノード１３０に延期される。実施形態では、ＱＧＭ２２５は、異なるバックエンドにわたるデータ移動およびデータ変換を最小限に抑える最適化された複数ストアの実行計画を生成するために使用される。

【0038】

一部の実施形態では、ＱＧＭ２２５は、下部に、入力概念のセットをクエリに提供する数量詞のセットを含み、ＱＧＭ内の各クエリ・ブロックは、先頭部および本体を含んでいる。各ブロックの本体は、入力概念のセットに対して実行される設定された動作（結合など）を記述する述語のセットを含み、先頭部の式は、結果の概念の出力プロパティが計算される方法を記述する。言い方を変えると、実施形態では、各ボックスの本体が述語（動作とも呼ばれる）のセットを含み、述語の各々がボックスの入力数量詞に適用される。一部の実施形態では、単一の数量詞を参照する述語／動作が、局所的な述語として分類され、一方、複数の数量詞を参照する述語／動作が、結合の述語を表す。

【0039】

示されたワークフロー２００では、ＱＧＭ２２５が演算子配置コンポーネント２３０に渡され、演算子配置コンポーネント２３０がクエリ・ルーティング・プロセスを続行する。図に示されているように、演算子配置コンポーネント２３０は、概念マッピング２３５およびノード能力２４０のセットをさらに受信し、能力および概念マッピングに基づいてＱＧＭ２２５内のクエリ・ブロックに注釈を付ける。１つの実施形態では、演算子配置コンポーネント２３０は、ＱＧＭを下から上までたどり、クエリ内の各動作に、その動作を実行できる可能性のあるストアのセットで注釈を付ける。一部の実施形態では、注釈は、局所的な述語および結合の述語に対して異なって生成される。一部の実施形態では、単一の数量詞に関連付けられたすべての先頭部の式が、局所的な述語と同じ方法で扱われるということを思い出す。

【0040】

１つの実施形態では、クエリ・ブロックが局所的な述語／動作（例えば、単一の数量詞）を含んでいる場合、演算子配置コンポーネント２３０は、数量詞が基本概念であるかどうかを判定する。基本概念である場合、述語に、（ｉ）概念を含んでおり、かつ（ｉｉ）述語を実行する能力を有しているデータ・ノード１３０の指示で注釈が付けられる。実施形態では、数量詞が別のＱＧＭブロックから来ている（すなわち、別のブロックによって計算された）場合、演算子配置コンポーネント２３０は、述語に、（ｉ）この数量詞のＱＧＭボックスを完了し、（ｉｉ）述語を実行することができるデータ・ストアのセットで、注釈を付ける。一部の実施形態では、この述語への入力を含んでいるデータ・ノード１３０が、いずれもこの述語を実行する能力を有していない場合、演算子配置コンポーネント２３０は、この述語に、この述語を実行できるストアのセットで注釈を付ける。

【0041】

例えば、述語がファジー検索を含んでいるが、データがリレーショナル・バックエンド・データ・ノード１３０のみに格納されている場合、演算子配置コンポーネント２３０は、そのファジー検索を計算できるドキュメント・ストアにデータが格納されていなくても、述語に、そのドキュメント・ストアで注釈を付けることができる。そのような場合、クエリの実行中にデータを移動する必要があるということに注意する。

【0042】

一部の実施形態では、クエリ・ブロックが結合の述語／動作を含んでいる場合、演算子配置コンポーネント２３０は、結合の種類および結合の述語を調べる。実施形態では、各結合の述語は、結合入力の各々について１つの、２つ以上の数量詞に関連付けられる。実施形態では、演算子配置コンポーネント２３０は、これらの数量詞を識別し、識別された数量詞が計算された入力であるか、または基本概念であるかに加えて、数量詞がどこから来るか（例えば、数量詞が、ローカルに計算されるか、もしくは格納されるか、またはその両方であるか、あるいは別のノードから受信されるか）に基づいて、続行する。

【0043】

数量詞のすべてが基本概念にわたって広がる場合、演算子配置コンポーネント２３０は、基本概念のいずれかが存在するデータ・ノード１３０のセットを評価し、そのようなストアごとに、ストアが結合動作をサポートするかどうかを判定する。次に、演算子配置コンポーネント２３０は、結合動作に、必要な概念のうちの１つまたは複数を含んでおり、この種類の結合動作をサポートするストアの指示で注釈を付ける。一部の実施形態では、ストアのうちの１つがリレーショナル・ノードである場合、演算子配置コンポーネント２３０は、動作に、残りのノードではなくこのリレーショナル・データ・ノード１３０の指示で注釈を付ける。

【0044】

一部の実施形態では、数量詞が両方ともＱＧＭクエリ・ブロックによって生成される場合、演算子配置コンポーネント２３０は、結合動作に、この結合動作の種類をサポートする（一部の実施形態では、リレーショナル・ストアのみを含んでいる）データ・ノード１３０で注釈を付ける。実施形態では、演算子配置コンポーネント２３０は、数量詞を生成するデータ・ストアがＪＯＩＮを実行できる場合、動作に、それらのデータ・ストアの指示でさらに注釈を付ける。

【0045】

さらなる実施形態では、数量詞のうちの１つが基本概念であり、別の数量詞が別のＱＧＭクエリ・ブロックから計算される場合、結合動作の配置決定は、数量詞が両方とも他のＱＧＭブロックによって計算される場合の上記の説明に類似している。実施形態では、演算子配置コンポーネント２３０は、結合動作に、結合の種類をサポートし、結合入力のうちの少なくとも１つに対して局所的であるデータ・ストアのセットで注釈を付ける。

【0046】

図に示されているように、次に、注釈付きＱＧＭ２４５がブロック配置コンポーネント２５０に渡される。実施形態では、ブロック配置コンポーネント２５０は、演算子配置コンポーネント２３０によって生成された注釈を利用して、クエリ内のクエリ・ボックスの可能性のある配置の選択肢を決定する。

【0047】

１つの実施形態では、「ｓｅｌｅｃｔ」クエリ・ボックスの配置の選択肢を決定することは、最小集合被覆を決定する問題としてモデル化される。すなわち、ブロック配置コンポーネント２５０は、特定のｓｅｌｅｃｔボックス内のすべての演算子の配置を満たすために必要とされる最小の数のデータ・ノード１３０を決定する。一部の実施形態では、ブロック配置コンポーネント２５０は、述語－ストアのグループ化を実行するために、各述語が単一のストアに配置され、クエリ・ボックスが広がるストアの総数が最小限に抑えられることを保証する、貪欲な発見的手法を利用する。各述語に、述語が配置される適切なストアで注釈が付けられた後に、ブロック配置コンポーネント２５０は、クエリ・ブロックが分割される必要があるかどうかを判定する。

【0048】

実施形態では、ｓｅｌｅｃｔクエリ・ボックス内のすべての述語が同じデータ・ノード１３０に配置された場合、そのストアに配置されるように、クエリ・ボックスに注釈が付けられる。これに対して、ｓｅｌｅｃｔクエリ・ボックス内の述語が、２つ以上のデータ・ノード１３０に配置される場合（クエリ・ボックスが複数のストアによって処理される必要があるということを示す）、ブロック配置コンポーネント２５０は、ブロックが複数のクエリ・ボックスに分割されなければならないということを決定する。その場合、ブロック配置コンポーネント２５０は、得られる各（サブ）ブロックが、単一のデータ・ノードに割り当てられた述語を含むように、ブロックを分割する。

【0049】

一部の実施形態では、「ｇｒｏｕｐｂｙ」クエリ・ボックスの場合、ブロック配置コンポーネント２５０は、この種類の集約動作をサポートするストア、およびｇｒｏｕｐｂｙボックスにデータを供給する先行するクエリ・ボックスを処理するストアに基づいて、配置を決定する。実施形態では、これらの入力を供給するストアもｇｒｏｕｐｂｙおよび集約機能をサポートする場合、ブロック配置コンポーネント２５０は、選択された「ｇｒｏｕｐｂｙ」ボックスを同じストアに配置する。しかし、そのストアがこれらの動作をサポートしない場合、ブロック配置コンポーネント２５０は、ボックスに、ｇｒｏｕｐｂｙ動作を実行できるデータ・ノード１３０のリストで注釈を付ける。そのような配置が、供給元のストアからボックスを処理できるストアへのデータ移動を必要とするということに注意する。

【0050】

ブロック配置コンポーネント２５０が、各クエリ・ブロックに、各クエリ・ブロックの可能性のあるすべての配置（例えば、ブロックを実行できるすべてのデータ・ノード１３０）で注釈を付けた後に、コスト・コンポーネント２５５が、配置の各組み合わせのコストを決定する。１つの実施形態では、データ移動およびデータ変換のコストが多ストア環境における実行計画の全体的コストを支配する可能性が高いため、クエリ・ルーティングのためのコスト・モデルは、代替のクエリ実行計画から選択するためのデータ転送コストおよびデータ変換コストのみに重点を置く。したがって、少なくとも一部の実施形態では、特定の実行計画の実行のコストが、クエリ実行計画におけるソース・データ・ストアとターゲット・データ・ストアの対ごとにデータ移動のコストを集約することによって決定される。一部の実施形態では、結合動作およびグラフ操作などのさまざまな動作が、異なるデータ・ノード１３０上で非常に異なる性能で実行されてよいということに注意する。例えば、結合動作はさまざまなデータ・ストア（ＪＳＯＮストアなど）によってサポートされることができるが、通常はリレーショナル・データベースが結合動作の最良の性能を実現する。

【0051】

一部の実施形態では、コスト・モデルは、異なるストアの動作の実行コストにおけるこの相違をさらに考慮する。他の実施形態では、コスト・モデルは、これらの因子を含まない。１つのそのような実施形態では、基礎になるストアの能力を表す宣言メカニズムを使用してそのような事例が処理される。例えば、ＪＳＯＮストアでの結合動作の実行を回避するために、システムは、能力記述においてＪＳＯＮストアの結合能力を完全に隠すか、または特定のデータ型に対する適用可能性を制限するための制限を追加することができる。

【0052】

実施形態では、コスト・コンポーネント２５５は、すべてのクエリ・ブロックにわたって可能性のあるすべての配置の組み合わせを列挙し、特定のクエリ・ボックスを一緒にグループにグループ化することによって、そのような組み合わせごとに実行計画を生成する。１つの実施形態では、クエリ計画における各グループは、（ｉ）（例えば、単一のホップによって分離された）ＱＧＭにおける結果であり、かつ（ｉｉ）同じデータ・ノード１３０によって処理されることができる、クエリ・ボックスを含む。次に、コスト・コンポーネント２５５は、ＱＧＭのフローに基づいてこれらのブロックのグループを接続し、データ・ノード１３０間のデータ・フローを表すエッジ定義する。実施形態では、コスト・コンポーネント２５５は、生成された計画におけるグループ間のエッジに基づいて、実行計画ごとにデータ移動記述子のセットをさらに生成する。

【0053】

一部の実施形態では、コスト・コンポーネント２５５は、計画ごとにこれらの移動記述子を使用し、前述のデータ移動コスト・モデルを利用して、実行計画ごとのコストを求め、最小コストを有する実行計画を選択する。例えば、１つの実施形態では、コスト・コンポーネント２５５は、可能性のある実行計画ごとに、対応する移動記述子の各々のコストを決定する。このコストは、待ち時間、計算コストなどを含んでよい。次に、どの実行計画が最低のコストを有しているかを決定するために、これらの値が各実行計画内で集約されることができる。図に示されているように、次に、この最小コストの計画が選択され、データ・ノード１３０用の１つまたは複数の変換されたクエリ２６０を生成するために使用される。

【0054】

図３Ａおよび３Ｂは、本明細書で開示された一実施形態に従って、クエリを評価し、ルーティングするために使用されることができる例示的なオントロジー３００を示している。示されている実施形態では、各概念３０５Ａ～Ｉが、楕円を使用して描かれており、一方、各プロパティ３１０Ａ～Ｎが、角丸長方形を使用して描かれている。さらに、概念３０５とプロパティ３１０の間の関連性を示すために矢印が使用されており、一方、太い矢印が概念３０５間の関係を示している。さらに、関係の種類に基づいて、各関係の矢印にラベルが付けられている。例えば、図に示されているように、「Ｃｏｍｐａｎｙ」の概念３０５Ｂは、「ＰｕｂｌｉｃＣｏｍｐａｎｙ」の概念３０５Ｄのサブクラスである。さらに、Ｃｏｍｐａｎｙの概念３０５Ｂは、「ｎａｍｅ」プロパティ３１０Ｅおよび識別子プロパティ３１０Ｄを含む複数のプロパティ３１０に関連付けられており、これらのプロパティは両方とも文字列である。

【0055】

前述したように、実施形態では、知識ベース内のデータがオントロジー３００に従う。言い方を変えると、オントロジー３００は、知識ベース内の概念および実体に加えて、実体と各概念に関連付けられたプロパティとの間の関係を定義する。特に、オントロジー３００は、どのインスタンス・データ（例えば、特定の企業に関するデータ）も含まず、代わりにデータの構造を定義する。一部の実施形態では、概念３０５、プロパティ３１０、または関係、あるいはその組み合わせは、任意の数のデータ・ノード１３０にわたって分散されてよい。１つの実施形態では、データは、データの種類に少なくとも部分的に基づいてデータ・ノード１３０に配置される。

【0056】

１つのそのような実施形態では、概念マッピングが、特定の概念３０５が特定のデータ・ノード１３０に格納されるということを示している場合、その概念３０５に対応するすべてのインスタンス・データがデータ・ノード１３０に格納される。例えば、マッピングが、データ・ノード１３０Ａが「ＰｕｂｌｉｃＭｅｔｒｉｃ」の概念３０５Ｆを含むということを示している場合、クエリ処理オーケストレータ１１５は、「ＰｕｂｌｉｃＭｅｔｒｉｃ」の任意のインスタンスに関するデータ（例えば、任意の企業に関する任意の指標）をデータ・ノード１３０Ａから取り出すことができる。したがって、受信されたクエリが「ＰｕｂｌｉｃＭｅｔｒｉｃ」のデータにアクセスすることを必要とする場合、クエリ処理オーケストレータ１１５は、クエリの少なくとも一部をデータ・ノード１３０Ａに（または概念３０５Ｆをやはり提供する別のノードに）ルーティングする。

【0057】

図４Ａおよび４Ｂは、本明細書で開示された一実施形態に従って、例示的なオントロジー・クエリを構文解析してルーティングするためのワークフロー４００を示している。示されている実施形態では、入力４０５が受信され、データ・ノード１３０から関連するデータを取り出すために評価される。示されている実施形態では、入力４０５は、（例えば、ユーザからの）自然言語テキストである。しかし、さまざまな実施形態では、入力４０５は、クエリまたはその他のデータを含んでよい。さらに、入力４０５は、自動化されたアプリケーション、ユーザ向けアプリケーション、ユーザから直接などを含む、任意の数のソースから受信されてよい。一部の実施形態では、入力４０５は、ユーザが知識ベースを検索して調査することを可能にするチャットボットまたはその他の対話型アプリケーションの一部として受信される。

【0058】

示されている例では、入力４０５は、「過去５年以内に技術的特許を出願したすべての企業の総収入を見せてください（Show me the total revenue of all companies that filed technology patents in the last 5 years）」という語句である。示されているワークフロー４００では、入力４０５が、意味解析、キーワード検索、情緒解析、意図解析などの１つまたは複数の自然言語処理（ＮＬＰ：natural language processing）技術を使用して構文解析され、評価される。これによってシステムは、入力４０５に基づいてＯＱＬクエリ４１０を生成することができる。当然ながら、一部の実施形態では、入力４０５自体がＯＱＬクエリである。

【0059】

図に示されているように、入力４０５に対応するＯＱＬクエリ４１０は、「ｓｅｌｅｃｔ」動作および「ｇｒｏｕｐｂｙ」動作に加えて、関連するテーブルまたは概念に関する指示、およびクエリに対する制限を示す「ｗｈｅｒｅ」句を含んでいる。次に、このＯＱＬクエリ４１０が、クエリ処理オーケストレータ１１５によって構文解析され、ＱＧＭ４３５Ａを生成し、ＱＧＭ４３５Ａはクエリの論理的表現であり、複数のクエリ・ブロックを含んでいる。示されている実施形態では、ＱＧＭは、「ｓｅｌｅｃｔ」クエリ・ブロック４１５Ｂおよび「ｇｒｏｕｐｂｙ」クエリ・ブロック４１５Ａを含んでいる。

【0060】

図に示されているように、ＱＧＭ４３５Ａは、入力概念のセットをクエリに提供する数量詞４３０Ａ～Ｅのセットを、下部に含んでいる。示されている実施形態では、これらの数量詞は、「ＰｕｂｌｉｃＭｅｔｒｉｃＤａｔａ」、「ＰｕｂｌｉｃＭｅｔｒｉｃ」、「ＰｕｂｌｉｃＣｏｍｐａｎｙ」、「Ｄｏｃｕｍｅｎｔ」、および「ＣｏｍｐａｎｙＩｎｆｏ」を含んでいる。実施形態では、ＱＧＭ４３５Ａ内の各クエリ・ブロック４１５は、先頭部４２０および本体４２５を含んでいる。本体４２５は、通常、入力概念のセットに対して実行される設定された動作（結合など）を含み、一方、先頭部４２０の式は、結果の概念の出力プロパティが計算される方法を記述する。例えば、示されている実施形態では、「ｓｅｌｅｃｔ」クエリ・ブロック４１５Ｂの先頭部４２０Ｂは、出力プロパティ「ｏＰＭＤ．ｖａｌｕｅ」、「ｏＰＭＤ．ｙｅａｒ＿ｃａｌｅｎｄａｒ」、および「ｏＣＩ．ｉｄ」を指定する。本体４２５Ｂは、入力数量詞４３０Ａ～Ｅに適用される述語のセットを含んでいる。前述したように、実施形態では、単一の数量詞を参照する述語が、局所的な述語であり、一方、複数の数量詞を参照する述語が、結合の述語を表す。

【0061】

図４Ｂに示されているように、クエリ処理オーケストレータ１１５は、「ｓｅｌｅｃｔ」クエリ・ブロック４１５Ｂが、異なるデータ・ノード１３０によって実行されなければならない述語を含んでいるということを認識する。特に、クエリ・ブロック４１５Ｂ内の述語の大部分は、リレーショナル・データ・ストアによって実行されることができるが、クエリ処理オーケストレータ１１５は、述語「ｏＤ－＞ｃｏｍｐａｎｙＩｎｆｏ＝ｏＣＩ」および「ｏＤ．ｓｅｌｆＭＡＴＣＨ（‘ＴｅｃｈＰａｔｅｎｔＦｉｌｅｄ’）」が、リレーショナル・データベース・ノードがサポートしていないエラスティックサーチを使用して実行される動作に対応するということを決定した。したがって、クエリ処理オーケストレータ１１５は、これらの述語を新しいクエリ・ブロック４１５Ｃに分離することによって、クエリ・ブロック４１５Ｂを分割した。図に示されているように、クエリ・ブロック４１５Ｃは、クエリ・ブロック４１５Ｂへの入力として機能する。

【0062】

示されている実施形態では、クエリ・ブロック４１５Ｂを分割することによって、クエリ処理オーケストレータ１１５は、各ブロックが単一のデータ・ノード１３０内で完全に実行されることができるということを保証した。例えば、クエリ・ブロック４１５Ａおよび４１５Ｂは、両方ともリレーショナル・データ・ノード１３０内で実行されることができるが、クエリ・ブロック４１５Ｃは、エラスティックサーチをサポートしているデータ・ノード１３０によって実行されるべきである。したがって、一実施形態では、クエリ処理オーケストレータ１１５は、クエリ・ブロック４１５Ａおよび４１５Ｂに対応するサブクエリを識別または生成し、このサブクエリをリレーショナル・ノードの適切な言語または形式あるいはその両方に変換し、変換されたサブクエリをリレーショナル・ノードに送信する。

【0063】

示されている実施形態では、クエリ処理オーケストレータ１１５は、クエリ・ブロック４１５Ｃを達成するためのサブクエリをさらに識別または生成し、エラスティックサーチ・ノードによってサポートされている言語または形式あるいはその両方に変換する。１つの実施形態では、クエリ処理オーケストレータ１１５は、このサブクエリを、アグリゲータとして機能するリレーショナル・データ・ストアにさらに送信する。次に、リレーショナル・ノードは、サブクエリをエラスティック・ノードに転送し、エラスティック・ノードによって返された結果を使用してリレーショナル・ノード自身のサブクエリを完了することができる。

【0064】

図５は、本明細書で開示された一実施形態に従って、オントロジー・クエリをルーティングするように構成されたクエリ処理オーケストレータ１１５を示すブロック図である。実施形態では、物理デバイスとして示されているが、クエリ処理オーケストレータ１１５は、仮想デバイスを使用して、または複数のデバイスにわたって（例えば、クラウド環境内で）、あるいはその両方で、実装されてよい。図に示されているように、クエリ処理オーケストレータ１１５は、プロセッサ５１０、メモリ５１５、ストレージ５２０、ネットワーク・インターフェイス５２５、および１つまたは複数のＩ／Ｏインターフェイス５３０を含んでいる。示されている実施形態では、プロセッサ５１０は、メモリ５１５に格納されたプログラミング命令を取り出し、実行するだけでなく、ストレージ５２０に存在するアプリケーション・データを格納し、取り出す。プロセッサ５１０は、一般に、単一のＣＰＵまたはＧＰＵあるいはその両方、複数のＣＰＵまたはＧＰＵあるいはその両方、複数のプロセッシング・コアを含んでいる単一のＣＰＵまたはＧＰＵあるいはその両方などを代表している。メモリ５１５は、一般に、ランダム・アクセス・メモリを代表するために含まれている。ストレージ５２０は、ディスク・ドライブ、フラッシュベースのストレージ・デバイスなどの任意の組み合わせであってよく、固定されたディスク・ドライブ、取り外し可能なメモリ・カード、キャッシュ、光ストレージ、ネットワーク接続ストレージ（ＮＡＳ：network attached storage）、またはストレージ・エリア・ネットワーク（ＳＡＮ：storage area networks）などの、固定されたストレージ・デバイスまたは取り外し可能なストレージ・デバイスあるいはその両方を含んでよい。

【0065】

一部の実施形態では、入力デバイスおよび出力デバイス（キーボード、モニタなど）が、Ｉ／Ｏインターフェイス５３０を介して接続される。さらに、ネットワーク・インターフェイス５２５を介して、クエリ処理オーケストレータ１１５は、（例えば、インターネット、ローカル・ネットワークなどを含んでよいネットワーク５８０を介して）１つまたは複数の他のデバイスおよびコンポーネントに通信可能に結合されることができる。図に示されているように、プロセッサ５１０、メモリ５１５、ストレージ５２０、ネットワーク・インターフェイス５２５、およびＩ／Ｏインターフェイス５３０は、１つまたは複数のバス５７５によって通信可能に結合される。さらに、クエリ処理オーケストレータ１１５は、ネットワーク５８０を介して複数のデータ・ノード１３０Ａ～Ｎに通信可能に結合される。当然ながら、実施形態では、データ・ノード１３０Ａ～Ｎは、クエリ処理オーケストレータ１１５に直接接続される、ローカル・ネットワークを介してアクセス可能である、クエリ処理オーケストレータ１１５に統合される、などであってよい。示された実施形態には含まれていないが、一部の実施形態では、クエリ処理オーケストレータ１１５は、データ配置オーケストレータ１５０にさらに通信可能に結合される。

【0066】

示されている実施形態では、ストレージ５２０は、オントロジー５６０、能力データ５６５、およびデータ・マッピング５７０を含んでいる。実施形態では、ストレージ５２０に存在するように示されているが、オントロジー５６０、能力データ５６５、およびデータ・マッピング５７０は、任意の適切な位置および方法で格納されてよい。実施形態では、前述したように、オントロジー５６０は、クエリ処理オーケストレータ１１５が動作している領域に関連する実体または概念に加えて、各概念／実体の可能性のあるプロパティおよび実体／概念間の関係を示している。少なくとも１つの実施形態では、オントロジー５６０は、インスタンスレベルのデータを含まない。代わりに、ＫＢ内の実際のデータは、データ・ノード１３０Ａ～Ｎに格納される。

【0067】

実施形態では、前述したように、能力データ５６５は、各データ・ノード１３０Ａ～Ｎの能力を示す。能力データ５６５は、例えば、各データ・ノード１３０Ａ～Ｎがサポートする動作に関する指示、およびそのサポートに対する対応する制限を含んでよい。例えば、能力データ５６５は、データ・ノード１３０Ａが「結合」動作を、整数データ型の場合にのみサポートするということを示してよい。実施形態では、前述したように、データ・マッピング５７０は、オントロジー５６０で定義された実体／概念ごとのインスタンス・データが格納されるデータ・ノード１３０を示す。例えば、データ・マッピング５７０は、「Ｃｏｍｐａｎｙ」の概念のすべてのインスタンスがデータ・ノード１３０Ａおよび１３０Ｂに格納され、一方、「Ｄｏｃｕｍｅｎｔ」の概念のすべてのインスタンスがデータ・ノード１３０Ｂおよび１３０Ｎに格納されるということを示してよい。

【0068】

示されている実施形態では、メモリ５１５は、クエリ・アプリケーション５３５を含んでいる。実施形態では、メモリ５１５に存在するソフトウェアとして示されているが、クエリ・アプリケーション５３５は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせを使用して実装されてよい。図に示されているように、クエリ・アプリケーション５３５は、構文解析コンポーネント５４０、ルーティング・コンポーネント５４５、およびトランスレータ１２０のセットを含んでいる。実施形態では、概念を明確にするために個別のコンポーネントとして示されているが、構文解析コンポーネント５４０、ルーティング・コンポーネント５４５、およびトランスレータ１２０の動作は、結合されるか、または任意の数のコンポーネントにわたって分散されることができる。

【0069】

実施形態では、構文解析コンポーネント５４０は、ＯＱＬクエリを受信し、構文解析して、それらの意味を決定し、クエリの論理的表現（ＱＧＭなど）を生成する。前述したように、一部の実施形態では、論理的表現はクエリ・ブロックのセットを含み、各クエリ・ブロックは、ブロックの入力数量詞に対して実行される動作を定義する１つまたは複数の述語を指定する。実施形態では、これらの数量詞は、１つまたは複数のデータ・ノード１３０に格納されている基本概念または別のクエリ・ブロックによって計算されるデータあるいはその両方であってよい。実施形態では、この論理的表現は、クエリ・アプリケーション５３５が、クエリの構造およびデータがブロック間をどのように流れるかについて理解し、推論することができるようにする。これによって、ルーティング・コンポーネント５４５は、クエリ（またはクエリのサブクエリ）を効率的にルーティングすることができる。

【0070】

示されている実施形態では、ルーティング・コンポーネント５４５は、構文解析コンポーネント５４０から論理的表現（例えば、クエリ・グラフ・モデル）を受信して評価し、クエリのルーティング先になるべき１つまたは複数のデータ・ノード１３０を識別する。一部の実施形態では、この評価は、論理的表現内の各クエリ・ブロックに含まれている述語を分析することを含む。１つの実施形態では、ルーティング・コンポーネント５４５は、述語を完了できるデータ・ノード１３０に基づいて、特定のクエリ・ブロック内の各述語にラベルまたは注釈を付ける。一部の実施形態では、このデータ・ノード１３０は、関連する数量詞を含んでいるか、または示された動作を実行できるか、あるいはその両方であるデータ・ノード１３０を含む。さらに、少なくとも１つの実施形態では、ブロック内の各述語が処理された後に、ルーティング・コンポーネント５４５は、注釈を評価し、ブロックの配置の位置を決定することができる。すなわち、ルーティング・コンポーネント５４５は、クエリ・ブロックを単一のデータ・ノード１３０に配置できるかどうかを判定する。配置できる場合、１つの実施形態では、ルーティング・コンポーネント５４５は、ブロックをそのストアに割り当てる。さらに、実施形態では、単一のデータ・ノード１３０によってブロックを処理できない場合、ルーティング・コンポーネント５４５は、ブロックを２つ以上のクエリ・ブロックに分割し、各クエリ・ブロックについてルーティング・プロセスを繰り返す。

【0071】

実施形態では、各クエリ・ブロックが単一のデータ・ノード１３０に割り当てられた後に、トランスレータ１２０が１つまたは複数の対応する変換されたクエリを生成する。実施形態では、各トランスレータ１２０は、特定のデータ・ノード１３０のアーキテクチャに対応し、ＯＱＬクエリ（またはサブクエリ）を対応するデータ・ストアのアーキテクチャに適したクエリに変換するように構成される。例えば、１つのそのような実施形態では、システムは、ＯＱＬをリレーショナル・ストア用のクエリ（例えば、ＳＱＬ）に変換するための第１のトランスレータ１２０、ＯＱＬをＪＳＯＮクエリに変換するための第２のトランスレータ１２０、ドキュメント検索用のクエリに変換するための第３のトランスレータ１２０、およびＯＱＬをグラフ・クエリに変換するための第４のトランスレータ１２０を含んでよい。

【0072】

実施形態では、クエリまたはサブクエリを実行するデータ・ノード１３０に基づいて、クエリ（またはサブクエリ）が適切なトランスレータ１２０にルーティングされる。一部の実施形態では、次に、各クエリ（またはサブクエリ）が（例えば、アプリケーション・プログラミング・インターフェイス（ＡＰＩ：application programming interface）を介して）そのデータ・ノード１３０に直接送信される。一部の実施形態では、クエリを完了することが（例えば、２つ以上のストアからのデータを結合するために）データ・ノード１３０間のデータ移動を必要とする場合、クエリ・アプリケーション５３５は、生成された論理的表現に基づいてデータの流れを決定し、クエリを適切に送信することができる。すなわち、クエリ・アプリケーション５３５は、ＱＧＭを使用して、どのストアが他のストアからデータを受信する必要があるかを決定し、必要とされるクエリをこれらの結合しているストアに送信する。例えば、データ・ノード１３０Ａがデータをデータ・ノード１３０Ｎから受信し、データ・ノード１３０Ａ上で１つまたは複数の動作を完了する場合、クエリ・アプリケーション５３５は、データ・ノード１３０Ａからデータを取り出すための第１のクエリに加えて、データ・ノード１３０Ｎ用に構成された第２のクエリを、データ・ノード１３０Ａに送信することができる。次に、データ・ノード１３０Ａは、提供されたクエリを使用して、データ・ノード１３０Ｎに対するそれ自身の照会を実行することができる。

【0073】

図６は、本明細書で開示された一実施形態に従って、オントロジー・クエリを処理してルーティングするための方法６００を示すフロー図である。方法６００はブロック６０５で開始し、ブロック６０５で、クエリ処理オーケストレータ１１５が、知識ベースに対して実行するためのオントロジー・クエリを受信する。実施形態では、オントロジー・クエリは、事前に定義された領域オントロジーに関連して表され、オントロジーは、領域に関連する概念、プロパティ、および関係を指定する。ブロック６１０で、クエリ処理オーケストレータ１１５は、受信されたクエリを構文解析し、クエリの論理的表現を生成する。一部の実施形態では、クエリ処理オーケストレータ１１５は、クエリのクエリ・グラフ・モデル表現を生成する。実施形態では、論理的表現は、クエリによって暗示された基礎になる概念、データに対して実行される動作、およびデータ・フローを示す１つまたは複数のクエリ・ブロックを含む。

【0074】

次に、方法６００はブロック６１５に進み、ブロック６１５で、クエリ処理オーケストレータ１１５が、事前に定義された概念マッピングまたはデータ・ストアの能力あるいはその両方に基づいて、論理的表現内の各クエリ・ブロックを１つまたは複数のデータ・ストアにマッピングする。例えば、１つの実施形態では、クエリ処理オーケストレータ１１５は、クエリ・ブロックごとに、どの概念が関連しているか（例えば、クエリ・ブロックがどのデータにアクセスするか）を決定する。次に、クエリ処理オーケストレータ１１５は、概念マッピングを使用して、必要なデータを提供できるデータ・ストアを識別することができる。さらに、１つの実施形態では、クエリ処理オーケストレータ１１５は、クエリ・ブロックごとに、どの動作が必要とされるかを決定する。次に、クエリ処理オーケストレータ１１５は、事前に定義されたストアの能力を使用して、必要な動作を実行できるデータ・ノードを識別することができる。次に、クエリ処理オーケストレータ１１５は、ストア間のデータ移動を最小限に抑えるよう努力しながら、クエリ・ブロックをデータ・ノードにマッピングする。

【0075】

ブロック６２０で、クエリ処理オーケストレータ１１５は、マッピングされたクエリ・ブロックのうちの１つを選択する。次に、方法６００はブロック６２５に進み、ブロック６２５で、クエリ処理オーケストレータ１１５が、マッピングされたデータ・ストアに基づいて、クエリ・ブロックに対応する変換されクエリを生成する。１つの実施形態では、この生成は、選択されたクエリ・ブロックを実行するためのサブクエリを、受信されたクエリから識別または生成することを含む。次に、クエリ処理オーケストレータ１１５は、クエリ・ブロックを実行するデータ・ノードの構成を決定する。すなわち、１つの実施形態では、クエリ処理オーケストレータ１１５は、クエリの言語または形式あるいはその両方を決定し、これらの言語または形式あるいはその両方を処理するようにノードが構成されている。別の実施形態では、クエリ処理オーケストレータ１１５は、マッピングされたデータ・ストアに対応するトランスレータを識別する。次に、クエリ処理オーケストレータ１１５は、このトランスレータを使用してストアに適したクエリを生成する。

【0076】

次に、方法６００はブロック６３０に進み、ブロック６３０で、クエリ処理オーケストレータ１１５が、まだ処理されていない少なくとも１つの追加のクエリ・ブロックが存在するかどうかを判定する。存在する場合、方法６００がブロック６２０に戻る。存在しない場合、方法６００がブロック６３５に進み、ブロック６３５で、クエリ処理オーケストレータ１１５が変換された１つまたは複数のクエリを１つまたは複数のデータ・ノードに送信する。１つの実施形態では、クエリ処理オーケストレータ１１５は、各クエリを対応するノードに送信する。別の実施形態では、クエリ処理オーケストレータ１１５は、論理的表現におけるデータの流れに基づいてクエリを送信する。例えば、クエリ処理オーケストレータ１１５は、ノードがクエリを適切なストアに転送してデータを取り出すことができるように、複数のクエリを単一のノードに送信してよい。次に、ノードは、結果を完成させるためのメディエータとして機能することができる。

【0077】

有利に、データ・ノードのうちの１つをメディエータとして使用することによって、クエリ処理オーケストレータ１１５は、計算費用を減らし、システムの拡張性を拡大することができる。ブロック６４０で、クエリ処理オーケストレータ１１５は、メディエータとして機能しているデータ・ストアから（または、受信されたクエリが単一のバックエンドのリソースで実行されることができる場合は、クエリの送信先だったデータ・ストアのみから）、完成したクエリ結果を受信する。次に、クエリ処理オーケストレータ１１５は、結果を要求元の実体に返す。

【0078】

図７は、本明細書で開示された一実施形態に従って、オントロジー・クエリを処理してクエリ・ブロックを効率的にルーティングするための方法７００を示すフロー図である。方法７００は、一部の実施形態では、クエリ・ブロックのルーティングに関する追加の詳細を提供する。方法７００はブロック７０５で開始し、ブロック７０５で、クエリ処理オーケストレータ１１５が、前述したように、受信されたクエリを表す１つまたは複数のクエリ・ブロックを生成する。１つの実施形態では、各クエリ・ブロックは、ブロックの入力データを示す１つまたは複数の数量詞を指定する。これらの数量詞は、基本概念（例えば、知識ベース内のインスタンス・データ）または計算された暫定的データ（例えば、ストアから取り出され、何らかの方法で処理または変換あるいはその両方を実行されたデータ）あるいはその両方に対応してよい。さらに、実施形態では、各クエリ・ブロックは、数量詞に対して実行される動作を指定する。

【0079】

ブロック７１０で、クエリ処理オーケストレータ１１５は、生成されたブロックのうちの１つを選択する。さらに、ブロック７１５で、クエリ処理オーケストレータ１１５は、選択されたブロックによって定義された動作を満たすことができるデータ・ノードのセットを識別する。１つの実施形態では、クエリ処理オーケストレータ１１５は、そのような識別を、各データ・ストアが完了できる動作のセットを定義する事前に定義された能力定義、およびこの能力に対する対応する制限にアクセスすることによって、実行する。次に、方法７００はブロック７２０に進み、ブロック７２０で、クエリ処理オーケストレータ１１５が、クエリ・ブロックに列挙された数量詞を満たすことができるノードのセットを識別する。すなわち、基本概念に対応する数量詞ごとに、クエリ処理オーケストレータ１１５は、基本概念を格納しているノードを識別する。

【0080】

１つの実施形態では、別のクエリ・ブロックによって計算される数量詞ごとに、クエリ処理オーケストレータ１１５が、そのクエリ・ブロックに割り当てられたデータ・ノードを識別する。実施形態では、クエリ処理オーケストレータ１１５が、ＱＧＭを下から上にたどることによって、クエリ・ブロックをノードにマッピングするということを思い出す。したがって、第１のブロックが第２のブロックで計算されたデータに依存する場合、必然的に、クエリ処理オーケストレータ１１５が第１のクエリ・ブロックの評価を開始する前に、第２のブロックが評価され、１つまたは複数のデータ・ノードを割り当てられている。

【0081】

次に、方法７００はブロック７２５に進み、ブロック７２５で、クエリ処理オーケストレータ１１５が、数量詞を提供することができ、かつ動作を実行することができる少なくとも１つのデータ・ノードが存在するかどうかを判定する。１つの実施形態では、この判定は、識別されたセット間に重複が存在するかどうかを判定することを含む。例えば、数量詞がすべて基本概念である場合、２つのセット間の重複は、必要な動作のすべてを実行することができ、概念のすべてを格納しているノードのセットを示す。数量詞が、他のクエリ・ブロックによって計算される項目を含んでいる場合、重複するセットは、動作を実行することができ、他のブロックを実行する（可能性がある）ノードを示す。

【0082】

実施形態では、セット間に重複が存在する場合、方法７００はブロック７３０に進み、ブロック７３０で、クエリ処理オーケストレータ１１５が、選択されたクエリ・ブロックに、重複において識別されたノードで注釈を付ける。この注釈は、指定されたノードがクエリ・ブロックを実行する可能性を有しているが、このノードへのブロックの最終的な割り当ての状態に達していないということを示す。実施形態では、クエリ・ブロックが、注釈に含まれている複数のノードを有している場合、クエリ処理オーケストレータ１１５は、下でさらに詳細に説明されているように、コスト分析を実行し、ストア間のデータ転送を最小限に抑えようと努力して各代替案を評価する。次に方法７００は、ブロック７４０に進む。

【0083】

示されている実施形態では、セット間に重複が存在しない場合、クエリ処理オーケストレータ１１５は、クエリ・ブロックを完了できる単一のデータ・ノードが存在しないということを決定する。一部の実施形態では、動作のすべてが単一のストアによって実行されることができる場合、クエリ処理オーケストレータ１１５は、ブロックに、ブロックの動作を実行できるストアで注釈を付ける。次に、数量詞を提供するために、１つまたは複数の他のストアが割り当てられることができる。示されている実施形態では、次に方法７００がブロック７３５に進み、ブロック７３５で、クエリ処理オーケストレータ１１５が、単一のノード内で完全に実行されることができるクエリ・ブロックを作成しようと努力して、選択されたクエリ・ブロックを２つ以上のブロックに分割する。１つの実施形態では、選択されたクエリ・ブロックを分割することは、単一のストアによって実行されることができる数量詞のサブセットまたは動作あるいはその両方を識別することを含む。例えば、クエリ処理オーケストレータ１１５は、注釈を共有する指定された述語（例えば、同じストアによって実行されることができる述語）のサブセットを識別してよい。次に、述語が属しているサブセットに基づいて述語を対応するボックスに分離することによって、クエリ・ブロックが分割されることができる。例えば、クエリ・ブロックが従来のリレーショナル・データベースの動作およびファジー・マッチ動作を必要とする場合、クエリ処理オーケストレータ１１５は、ファジー・マッチが分離したボックスに分割されるべきであるということを決定してよい。これによって、クエリ処理オーケストレータ１１５が各分割されたブロックを単一のデータ・ストアに割り当てることを可能にしてよい（例えば、リレーショナル動作がリレーショナル・ストアに割り当てられることができ、ファジー・マッチ動作が、ファジー・マッチ動作を実行できる異なるバックエンドに割り当てられることができる）。

【0084】

示されている実施形態では、これらの新たに生成されたクエリ・ブロックが、既存のブロックと同様に、評価されるキューに配置される。次に方法７００は、ブロック７４０に進む。ブロック７４０で、クエリ処理オーケストレータ１１５が、評価されていない少なくとも１つの追加のクエリ・ブロックが存在するかどうかを判定する。存在する場合、方法７００がブロック７１０に戻り、各ブロックを反復する。すなわち、クエリ処理オーケストレータ１１５は、各クエリ・ブロックを反復し続け、クエリ・ブロックのすべてに少なくとも１つのデータ・ノードで注釈が付けられるまで、必要に応じてボックスを分割する。

【0085】

すべてのクエリ・ブロックに注釈が付けられた場合、方法７００がブロック７４５に進み、ブロック７４５で、クエリ処理オーケストレータ１１５がクエリを実行する。一部の実施形態では、この実行は、下でさらに詳細に説明されているように、データ転送を最小限に抑えるために割り当ての代替の組み合わせを評価することを含む。一部の実施形態では、クエリ・ブロックのうちの１つまたは複数の注釈が単一のデータ・ノードを示している場合、クエリ処理オーケストレータ１１５は、検討され得る代替案がないため、単にブロックを、その示されたノードに割り当てる。

【0086】

図８は、本明細書で開示された一実施形態に従って、オントロジー・クエリを効率的にルーティングするために可能性のあるクエリ・ルーティング計画を評価するための方法８００を示すフロー図である。示されている実施形態では、方法８００は、クエリ・ブロックに可能性のある割り当て（例えば、ブロック全体を実行し、必要なすべての数量詞を提供できるノード）で注釈が付けられた後に、開始する。方法８００はブロック８０５で開始し、ブロック８０５で、クエリ処理オーケストレータ１１５が、ノード割り当ての可能性のある組み合わせのうちの１つを選択する。すなわち、実施形態では、クエリ処理オーケストレータ１１５が、対応する注釈に基づいて、ブロックのストアの可能性のあるすべての組み合わせを生成する。これを実行するために、クエリ処理オーケストレータ１１５は、可能性のあるすべての選択が生成されるまで、ブロックごとに異なる選択肢を反復的に選択することができる。

【0087】

例えば、第１のブロックに「ノードＡ」および「ノードＢ」で注釈が付けられ、第２のブロックに「ノードＡ」で注釈が付けられたと仮定する。実施形態では、クエリ処理オーケストレータ１１５が、可能性のあるルーティング計画が、第１のブロックおよび第２のブロックを「ノードＡ」に割り当てるか、または第１のブロックを「ノードＢ」に割り当て、第２のブロックを「ノードＡ」に割り当てることを含むということを決定する。ブロック８０５で、クエリ処理オーケストレータ１１５は、評価のために識別された組み合わせのうちの１つを選択する。次に方法８００は、ブロック８１０に進む。

【0088】

ブロック８１０で、クエリ処理オーケストレータ１１５は、選択された計画に従って必要とされるデータ移動を識別する。実施形態では、この移動は、計画におけるストアの選択またはクエリ・グラフ・モデルあるいはその両方に基づいて決定される。上記の例を続けると、クエリ・ブロックの両方が単一のノードにグループ化されることができるため、クエリ処理オーケストレータ１１５は、両方のブロックを「ノードＡ」に割り当てる計画が移動を必要としないということを決定してよい。すなわち、ブロックが（例えば、間に他のブロックが存在せずに、直接接続された／単一のホップによって分離された）モデルにおける結果であり、同じノードを割り当てられるため、それらのブロックは一緒にグループ化され、データ移動が不要である。これに対して、ＱＧＭが、データが第２のブロックから第１のブロックへ流れ、これらのブロックが異なるストアに割り当てられることを示しているため、第１のブロックを「ノードＢ」に割り当てることは、「ノードＡ」と「ノードＢ」の間のデータの転送を必要とする。

【0089】

次に、方法８００はブロック８１５に進み、ブロック８１５で、クエリ処理オーケストレータ１１５が、選択されたクエリ計画によって必要とされる識別されたデータ転送のうちの１つを選択する。ブロック８２０で、クエリ処理オーケストレータ１１５が、選択された移動の計算コストを決定する。実施形態では、この決定は、事前に定義されたコスト・モデルに基づいて行われる。一部の実施形態では、このモデルは、データ・ノードの順序付けられた対ごとに、第１のノードから第２のノードへのデータの転送の計算コストを示してよい。このコストは、例えば、データを実際に転送するため、または行き先ノードがデータに対して動作できるように、必要に応じてデータを変換するため、あるいはその両方のために導入される待ち時間、転送／変換のための処理時間またはメモリ要件あるいはその両方などを含んでよい。

【0090】

ブロック８２５で、クエリ処理オーケストレータ１１５は、選択された組み合わせが追加のデータ転送を必要とするかどうかを判定する。必要とする場合、方法８００がブロック８１５に戻る。必要としない場合、方法８００はブロック８３０に進み、ブロック８３０で、クエリ処理オーケストレータ１１５が、各移動の個別のコストを集約することによって、選択された計画の総コストを計算する。ブロック８３５で、クエリ処理オーケストレータ１１５が、評価されていない少なくとも１つの代替の計画が存在するかどうかを判定する。存在する場合、方法８００がブロック８０５に戻る。存在しない場合、方法８００はブロック８４０に進み、ブロック８４０で、クエリ処理オーケストレータ１１５が、計画の集約コストに基づいて、計画を順位付けする。実施形態では、クエリ処理オーケストレータ１１５は、最低の決定されたコストを有する計画を選択する。次に、クエリ処理オーケストレータ１１５は、最小コストの計画のノード割り当てに基づいて、サブクエリを変換し、ルーティングすることによって、計画を実行する。

【0091】

図９は、本明細書で開示された一実施形態に従って、オントロジー・クエリをルーティングするための方法９００を示すフロー図である。方法９００はブロック９０５で開始し、ブロック９０５で、クエリ処理オーケストレータ１１５がオントロジー・クエリを受信する。ブロック９１０で、クエリ処理オーケストレータ１１５が、オントロジー・クエリに基づいて１つまたは複数のクエリ・ブロックを生成し、各クエリ・ブロックは、１つまたは複数の動作およびクエリ・ブロック間のデータ・フローを表す１つまたは複数の数量詞を示す。次に、方法９００はブロック９１５に進み、ブロック９１５で、クエリ処理オーケストレータ１１５が、１つまたは複数のクエリ・ブロックの各々について、１つまたは複数の数量詞および１つまたは複数の動作に基づいて少なくとも１つのデータ・ノードを識別する。さらに、ブロック９２０で、クエリ処理オーケストレータ１１５が、事前に定義されたコスト基準に基づいて、識別されたデータ・ノードのうちの１つまたは複数のデータ・ノードを選択する。さらに、ブロック９２５で、次にクエリ処理オーケストレータ１１５は、１つまたは複数のサブクエリを選択された１つまたは複数のデータ・ノードに送信する。

【0092】

図１０は、本明細書で開示された一実施形態に従って、ワークロードを評価して知識ベース・データを格納するためのワークフロー１０００を示している。前述したように、企業のアプリケーションは、多くの場合、アプリケーションのクエリ・ワークロードに応じて、さまざまなクエリの種類のサポートを必要とする。これらのさまざまなクエリの種類をサポートするために、本開示の実施形態は、リレーショナル・データベース、ドキュメント・ストア、グラフ・ストアなどの、複数のバックエンド・ストアを利用する。本開示の実施形態では、システムは、サポートされているクエリの種類に必要な能力を提供する任意のバックエンドで、知識ベース・データを移動し、格納し、知識ベース・データにインデックスを付与する能力を有する。データを編成するこの柔軟性によって、複数のバックエンド・ストアにわたる初期データ配置が、効率的なクエリの実行において重要な役割を果たすことができる。

【0093】

複製のオーバーヘッドを最小限に抑えて効率的な実行時の実行を実現するために、本開示の一部の実施形態は、インテリジェントなデータ配置を含む、オフラインのデータの準備および読み込みの段階を提供する。一般に、複数のバックエンド・ストアへのデータの取り込み、配置、および読み込みは、一連の動作を伴う。最初に、領域に固有の知識ベースのデータが、構造化データ、半構造化データ、および非構造化データを含む多種多様なソースから取り込まれる。一部の実施形態では、これらのデータ・ソースからのデータの取り込みの第１の段階は、情報の抽出、実体の解決、データの統合および変換を含む、データ・エンリッチメント／キュレーション・プロセスである。このステップによって生成された、領域オントロジーに従う出力データが、次に、複数のバックエンド・データ・ストアに適したデータ配置を生成するために、データ配置オーケストレータ１５０に供給される。一部の実施形態では、データは、データ配置オーケストレータ１５０が適用される前にすでにキュレートされており、クエリに応答することにすでに使用されていることがある。十分なデータ配置が決定された後に、データ読み込みモジュールが、データ配置計画に従ってインスタンス・データを適切なデータ・ストアに配置する。

【0094】

一部の実施形態では、すべてのデータ・ノードにわたってデータのセット全体を複製することによって、クエリの実行中のデータ移動を回避することができる。しかし、この解決策は、非常に大きい複製のオーバーヘッドにつながり、ストレージ空間要件を著しく増やす。さらに、多くの実施形態では、すべてのストアが、クエリによって必要とされるすべての必要な能力を提供するわけではなく、完全な複製でさえ、データ移動を完全に取り除くことはできない。不要なストレージ・コストおよびデータ移動を最小限に抑えるために、本開示の一部の実施形態は、予想されるワークロードおよび（例えば、格納されたデータに対してバックエンド・データ・ストアが実行できる動作に関する）バックエンド・データ・ストアの能力の両方を考慮しながらデータをデータ・ストアに割り当てる、能力に基づくデータ配置技術を提供する。

【0095】

実施形態では、データ配置オーケストレータ１５０は、知識ベースに格納されたデータのスキーマを表す領域オントロジーの概念すべてにわたって、クエリの動作のレベルでデータ配置について推論する。一部の実施形態では、オーケストレータは、知識ベースに対する特定のワークロードに加えて、基礎になるストアの能力に基づいて、オントロジーの異なる、重複している可能性があるサブセットを識別し、データの識別されたサブセットと、データが格納されるべきであるターゲット・データ・ストアの間のマッピングを出力する。

【0096】

示されている実施形態では、ＯＱＬクエリ１００５のセットが受信されたときに、ワークフロー１０００が開始する。一部の実施形態では、ＯＱＬクエリ１００５は、知識ベースに対して以前にサブミットされたクエリである。例えば、一部の実施形態では、知識ベースは、ユーザおよびアプリケーションが照会して調査することができる既存のデータのコーパスである。そのような実施形態では、ＯＱＬクエリ１００５は、ユーザ、アプリケーション、およびその他の実体が知識ベースと対話しているときに以前にサブミットしたクエリに対応することができる。

【0097】

実施形態では、ＯＱＬクエリ１００５は、通常、知識ベースの平均的なワークロード、標準的なワークロード、予想されるワークロード、または過去のワークロード、あるいはその組み合わせを表す。言い方を変えると、ＯＱＬクエリ１００５は、通常、動作の実行中に知識ベースが受信するクエリ（または受信すると予想されるクエリ）を代表し、一緒に照会されることが多い概念、各概念に対して通常は実行される動作などのセットを識別するために使用されることができる。図に示されているように、これらの代表的なＯＱＬクエリ１００５がＯＱＬクエリ・アナライザ１０１０に提供され、ＯＱＬクエリ・アナライザ１０１０は、これらのＯＱＬクエリ１００５を分析して評価し、要約されたワークロード１０１５を生成する。

【0098】

実施形態では、ＯＱＬクエリ・アナライザ１０１０は、ＯＱＬクエリ１００５を、概念および概念に対して実行される対応する動作との関係のセットとして表す。アナライザは、このセットに基づいて、要約されたワークロード１０１５を生成する。言い方を変えると、要約されたワークロード１０１５は、提供されたＯＱＬクエリ１００５の要約を反映し、データにおいてパターンを識別するためのより深い分析を可能にする。１つの実施形態では、要約されたワークロード１０１５は、ＯＱＬクエリ１００５に基づいて生成された、要約されたクエリのセットを含む。特に、一部の実施形態では、要約されたクエリは、知識ベースに対して実行されることができる完全に書式設定されたクエリではない。代わりに、要約されたクエリは、概念の各クラスタに適用される可能性が高い動作のセットと共に、実行中に一緒に照会される可能性が高い概念のクラスタを示す。

【0099】

一部の実施形態では、ＯＱＬクエリ・アナライザ１０１０は、領域オントロジーに対して表されたＯＱＬクエリ１００５のセットを入力として受け取り、クエリごとに２つのセットを作成する。１つのそのような実施形態では、１つは、クエリがアクセスする概念のセットであり、もう１つは、クエリがそれらの概念すべてにわたって実行する動作（例えば、結合、集約など）のセットである。少なくとも１つの実施形態では、特定のＯＱＬクエリ１００５の要約されたワークロード１０１５の表現を生成するために、ＯＱＬクエリ・アナライザ１０１０は、概念の同じセットにアクセスするクエリをグループにグループ化し、その後、グループ内の各クエリの関連する動作を結合するセットを作成する。以下では、これがさらに詳細に説明される。

【0100】

示されている実施形態では、次に、要約されたワークロード１０１５がハイパーグラフ・モデラー（Hypergraph Modeler）１０２０に提供され、ハイパーグラフ・モデラー１０２０は、提供された要約されたクエリを評価してハイパーグラフ１０２５を生成する。実施形態では、ハイパーグラフ１０２５は、頂点のセットおよびエッジ（ハイパーエッジとも呼ばれる）のセットを含んでいるグラフであり、各エッジは、任意の数の頂点に接続することができる。一部の実施形態では、ハイパーグラフ１０２５内の各頂点は、領域オントロジーからの概念に対応し、各ハイパーエッジは、要約されたワークロード１０１５からの要約されたクエリに対応する。例えば、各ハイパーエッジは、対応する要約されクエリによって示された概念のセットにわたって広がる。１つの実施形態では、各ハイパーエッジに、対応する要約されたクエリによって示された動作のセットの指示で注釈またはラベルがさらに付けられる。

【0101】

図に示されているように、ハイパーグラフ１０２５は、オントロジー・スキーマ１１０およびノード能力１５５と共に、データ配置コンポーネント１０３０によって評価される。１つの実施形態では、データ配置コンポーネント１０３０は、ハイパーグラフ１０２５内の概念および関係を、クエリの動作に基づいて、重複している可能性があるサブセットにグループ化する。次に、これらのサブセットに対応するデータが、サポートされている動作に基づいて個別のバックエンド・データ・ノードに配置されることができる。一部の実施形態では、データ配置の決定は、識別されたオントロジーのサブセットの粒度で行われ、すべてのオントロジーの概念のすべてのデータを全体として配置する。言い換えると、配置決定１６５は、異なるストアにわたる概念を水平に分割しない。例えば、データ配置コンポーネント１０３０が「ｃｏｍｐａｎｙ」の概念を第１のデータ・ノードに配置した場合、「ｃｏｍｐａｎｙ」の概念に対応するすべてのインスタンスレベルのデータが第１のデータ・ノードに配置される。

【0102】

一部の実施形態では、オントロジーに基づくデータ配置コンポーネント１０３０は、データ配置のための２つのステップの手法に従う。最初に、データ配置コンポーネント１０３０は、概念に対して実行される動作の類似性に基づいて、領域オントロジー・スキーマ１１０内の概念をグループ化するために、要約されたワークロード１０１５を表すハイパーグラフ１０２５に対してグラフ分析アルゴリズムを実行する。次に、基礎になるデータ・ストアの各能力に基づいて、必要な複製の量を最小限に抑えながら、オントロジーのこれらの識別されたグループまたはサブセットに対応するデータが、基礎になるデータ・ストアにマッピングされる。実施形態では、結果として得られる能力に基づくデータ配置は、クエリの処理時の特定のワークロードに関するデータ移動（およびデータ変換）を最小限に抑え、多ストア環境におけるクエリ処理の効率を大幅に高める。図に示されているように、データ配置コンポーネント１０３０の最終的な出力は、オントロジーの概念を適切なデータ・ノードにマッピングする概念とストアの間のマッピング（例えば、配置決定１６５）である。

【0103】

示されたワークフロー１０００には描かれていないが、実施形態では、次にシステムは、配置決定１６５を利用してデータをさまざまなバックエンドのリソースに格納する。１つの実施形態では、システムは、データを関連するデータ・ノード１３０に格納できるようにするために必要な変換を実行する抽出、変換、および読み込み（ＥＴＬ）サービスを呼び出すことによって、そのような格納を実行する。

【0104】

一部の実施形態では、ワークフロー１０００は、データ配置を定期的に再評価して改良し、システムの効率を維持するために使用される。例えば、混雑していない時間の間（例えば、業務時間でない間）に、システムは、発達するワークロードを反映するように配置が更新されるべきかどうかを判定するために、（例えば、最後のデータ配置の決定の後に受信されたクエリを含んでいる）ＯＱＬクエリ１００５の更新されたセットに基づいて、ワークフロー１０００を呼び出してよい。このようにして、データ位置が古くなるのを防ぐことによって、システムの有効性を改善することができる。

【0105】

図１１は、本明細書で開示された一実施形態に従って、ワークロードを評価して知識ベース・データを格納するために使用される例示的なハイパーグラフ１１００を示している。示された実施形態では、各概念１１０５Ａ～Ｇが楕円として描かれており、各ハイパーエッジ１１１０Ａ～Ｄが、概念１１０５を取り囲む破線として描かれており、ハイパーエッジはこれらの概念１１０５に対応している。例えば、ハイパーエッジ１１１０Ａは、概念１１０５Ａ（「Ｃｏｍｐａｎｙ」）、１１０５Ｂ（「ＰｕｂｌｉｃＣｏｍｐａｎｙ」）、１１０５Ｃ（「ＰｕｂｌｉｃＭｅｔｒｉｃ」）、および１１０５Ｄ（「ＰｕｂｌｉｃＭｅｔｒｉｃＤａｔａ」）を結合する。図に示されているように、各ハイパーエッジ１１１０は、概念１１０５の互いに素なサブセット（例えば、ハイパーエッジ１１１０Ａおよび１１１０Ｃは重複していない）と、重複しているサブセット（例えば、ハイパーエッジ１１１０Ａおよび１１１０Ｂは、「Ｃｏｍｐａｎｙ」の概念１１０５Ａに関して重複している）との両方を含むことができる。

【0106】

さらに、図に示されているように、各ハイパーエッジ１１１０に、そのエッジに関連する動作１１１５Ａ～Ｃでラベルが付けられている。前述したように、１つの実施形態では、ラベルは、ハイパーエッジ１１１０によって接続された概念１１０５に適用されるか、または適用されていてよい動作のセットを示す。例えば、図に示された例では、ハイパーエッジ１１１０Ａが、動作１１１５Ａ（「結合」）、１１１５Ｂ（「集約」）、および１１１５Ｃ（「ファジー」マッチング）に関連付けられている。特に、各動作１１１５は、任意の数のハイパーエッジ１１１０または概念１１０５あるいはその両方に関連付けられることができる。示されている実施形態では、「結合」動作１１１５Ａがハイパーエッジ１１１０Ａおよび１１１０Ｂに関連付けられ、「集約」動作１１１５Ｂがハイパーエッジ１１１０Ａおよび１１１０Ｄに関連付けられ、「ファジー」動作１１１５Ｃがハイパーエッジ１１１０Ａ、１１１０Ｄ、および１１１０Ｃに関連付けられている。

【0107】

図１２は、本明細書で開示された一実施形態に従って、ワークロードを評価してデータを格納するように構成されたデータ配置オーケストレータ１５０を示すブロック図である。実施形態では、物理デバイスとして示されているが、データ配置オーケストレータ１５０は、仮想デバイスを使用して、または複数のデバイスにわたって（例えば、クラウド環境内で）、あるいはその両方で、実装されてよい。図に示されているように、データ配置オーケストレータ１５０は、プロセッサ１２１０、メモリ１２１５、ストレージ１２２０、ネットワーク・インターフェイス１２２５、および１つまたは複数のＩ／Ｏインターフェイス１２３０を含んでいる。示されている実施形態では、プロセッサ１２１０は、メモリ１２１５に格納されたプログラミング命令を取り出し、実行するだけでなく、ストレージ１１２０に存在するアプリケーション・データを格納し、取り出す。プロセッサ１２１０は、一般に、単一のＣＰＵまたはＧＰＵあるいはその両方、複数のＣＰＵまたはＧＰＵあるいはその両方、複数のプロセッシング・コアを含んでいる単一のＣＰＵまたはＧＰＵあるいはその両方などを代表している。メモリ１２１５は、一般に、ランダム・アクセス・メモリを代表するために含まれている。ストレージ１２２０は、ディスク・ドライブ、フラッシュベースのストレージ・デバイスなどの任意の組み合わせであってよく、固定されたディスク・ドライブ、取り外し可能なメモリ・カード、キャッシュ、光ストレージ、ネットワーク接続ストレージ（ＮＡＳ）、またはストレージ・エリア・ネットワーク（ＳＡＮ）などの、固定されたストレージ・デバイスまたは取り外し可能なストレージ・デバイスあるいはその両方を含んでよい。

【0108】

一部の実施形態では、入力デバイスおよび出力デバイス（キーボード、モニタなど）が、Ｉ／Ｏインターフェイス１２３０を介して接続される。さらに、ネットワーク・インターフェイス１２２５を介して、データ配置オーケストレータ１５０は、（例えば、インターネット、ローカル・ネットワークなどを含んでよいネットワーク１２８０を介して）１つまたは複数の他のデバイスおよびコンポーネントに通信可能に結合されることができる。図に示されているように、プロセッサ１２１０、メモリ１２１５、ストレージ１２２０、ネットワーク・インターフェイス１２２５、およびＩ／Ｏインターフェイス１２３０は、１つまたは複数のバス１２７５によって通信可能に結合される。さらに、データ配置オーケストレータ１５０は、ネットワーク１２８０を介してデータ・ノード１３０Ａ～Ｎに通信可能に結合される。当然ながら、実施形態では、データ・ノード１３０Ａ～Ｎは、データ配置オーケストレータ１５０に直接接続される、ローカル・ネットワークを介してアクセス可能である、データ配置オーケストレータ１５０に統合される、などであってよい。示された実施形態には含まれていないが、一部の実施形態では、データ配置オーケストレータ１５０は、クエリ処理オーケストレータ１１５にさらに通信可能に結合される。

【0109】

示されている実施形態では、ストレージ１２２０は、領域オントロジー１２６０、能力データ１２６５、およびデータ・マッピング１２７０のコピーを含んでいる。実施形態では、ストレージ１２２０に存在するように示されているが、オントロジー１２６０、能力データ１２６５、およびデータ・マッピング１２７０は、任意の適切な位置および方法で格納されてよい。１つの実施形態では、オントロジー１２６０、能力データ１２６５、およびデータ・マッピング１２７０は、クエリ処理オーケストレータ１１５を参照して上で説明されたオントロジー５６０、能力データ５６５、およびデータ・マッピング５７０に対応する。

【0110】

例えば、前述したように、オントロジー１２６０は、領域に関連する実体または概念に加えて、各概念／実体の可能性のあるプロパティおよび実体／概念間の関係を示すことができ、インスタンスレベルのデータを含んでいない。同様に、前述したように、能力データ１２６５は、各データ・ノード１３０Ａ～Ｎの能力を示す。能力データ１２６５は、例えば、各データ・ノード１３０Ａ～Ｎがサポートする動作に関する指示、およびそのサポートに対する任意の対応する制限を含んでよい。

【0111】

実施形態では、データ・マッピング１２７０は、配置アプリケーション１２３５によって生成され、オントロジー１２６０で定義された実体／概念ごとのインスタンス・データを格納するデータ・ノード１３０を示す。例えば、データ・マッピング１２７０は、「Ｃｏｍｐａｎｙ」の概念のすべてのインスタンスがデータ・ノード１３０Ａおよび１３０Ｂに格納され、一方、「Ｄｏｃｕｍｅｎｔ」の概念のすべてのインスタンスがデータ・ノード１３０Ｂおよび１３０Ｎに格納されるということを示してよい。

【0112】

示されている実施形態では、メモリ１２１５は、配置アプリケーション１２３５を含んでいる。実施形態では、メモリ１２１５に存在するソフトウェアとして示されているが、配置アプリケーション１２３５は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせを使用して実装されてよい。図に示されているように、配置アプリケーション１２３５は、要約コンポーネント１２４０、ハイパーグラフ・コンポーネント１２４５、および配置コンポーネント１２５０を含んでいる。実施形態では、概念を明確にするために個別のコンポーネントとして示されているが、要約コンポーネント１２４０、ハイパーグラフ・コンポーネント１２４５、および配置コンポーネント１２５０の動作は、結合されるか、または任意の数のコンポーネントにわたって分散されることができる。

【0113】

実施形態では、要約コンポーネント１２４０は、システム上の前のワークロード、現在のワークロード、期待されるワークロード、標準的なワークロード、平均的なワークロード、予想されるワークロード、または一般的なワークロード、あるいはその組み合わせを反映する、以前のＯＱＬクエリ（またはサンプル・クエリ）を受信する。次に、要約コンポーネント１２４０は、提供されたクエリを評価し、ワークロードを要約されたクエリの形態で要約する。実施形態では、要約されたクエリは、一般に、一緒に照会される概念のセットを、概念に対して実行される動作と共に示すが、実行されることができる実際のクエリに対応していない。以下では、要約コンポーネント１２４０の機能が、図１３を参照してさらに詳細に説明される。

【0114】

実施形態では、ハイパーグラフ・コンポーネント１２４５が、要約コンポーネント１２４０から要約されたワークロード情報を受信して構文解析し、クエリ・ワークロードを表すハイパーグラフを生成する。前述したように、一部の実施形態では、ハイパーグラフは、オントロジー１２６０における概念ごとに頂点を含む。さらに、実施形態では、要約されたクエリ・ワークロードを表すハイパーエッジによって、概念の頂点が接続される。以下では、ハイパーグラフ・コンポーネント１２４５の動作が、図１４を参照してさらに詳細に説明される。

【0115】

１つの実施形態では、配置コンポーネント１２５０が、ハイパーグラフを評価して、データ配置の決定（例えば、データ・マッピング１２７０）を生成する。次に、これらの決定が、データを適切なノードにルーティングするために使用されることができる。例えば、１つの実施形態では、システムは、知識ベースを通って反復し、データを配置する。システムは、データ項目ごとに、対応する概念を決定し、対応するデータ・ノード１３０を検索し、データを示されたノードに格納することができる。一部の実施形態では、システムは、行き先ストアに適した任意の変換も実行する。以下では、配置コンポーネント１２５０の機能が、図１５および１６を参照してさらに詳細に説明される。

【0116】

図１３は、本明細書で開示された一実施形態に従って、クエリ・ワークロードを評価して要約し、データ配置の決定を知らせるための方法１３００を示すフロー図である。方法１３００はブロック１３０５で開始し、ブロック１３０５で、データ配置オーケストレータ１５０が、知識ベースのワークロードを代表している１つまたは複数のクエリを受信する。ブロック１３１０で、データ配置オーケストレータ１５０は、評価のために受信されたクエリのうちの１つを選択する。次に、方法１３００はブロック１３１５に進み、ブロック１３１５で、データ配置オーケストレータ１５０が、選択されたクエリに含まれている概念を識別する。同様に、ブロック１３２０で、データ配置オーケストレータ１５０が、クエリに含まれている動作を識別する。

【0117】

１つの実施形態では、データ配置オーケストレータ１５０は、クエリによって指定された概念の決定されたセットを、クエリに含まれている動作のセットに関連付ける。一部の実施形態では、粒度の細かい概念／動作レベルで、動作と概念の対が決定される。一部の他の実施形態では、データ配置オーケストレータ１５０は、どの動作がどの概念にリンクされるかを決定するのではなく、全体としての動作のセットを、全体としての概念のセットにリンクする。すなわち、データ配置オーケストレータ１５０は、クエリの実際の実行の詳細／望ましい結果を無視し、変換の特定の適用ではなく、含まれているデータ／動作に基づいて、関連する概念および動作のセットを定義する。

【0118】

次に、方法１３００はブロック１３２５に進み、ブロック１３２５で、データ配置オーケストレータ１５０が、まだ評価されていない少なくとも１つの追加のクエリが存在するかどうかを判定する。存在する場合、方法１３００がブロック１３１０に戻る。存在しない場合、方法１３００がブロック１３３０に進む。グループ１３３０で、データ配置オーケストレータ１５０が、各受信されたクエリに対応する概念のセットに基づいて、受信されたクエリをグループ化する。１つの実施形態では、このグループ化は、概念の一致するセットを指定するすべてのクエリをグループ化またはクラスタ化することを含む。例えば、データ配置オーケストレータ１５０は、「Ｃｏｍｐａｎｙ」の概念および「ＰｕｂｌｉｃＭｅｔｒｉｃ」の概念を両方とも指定するすべてのクエリを第１のグループにグループ化することができる。特に、そのような実施形態では、「Ｃｏｍｐａｎｙ」の概念または「ＰｕｂｌｉｃＭｅｔｒｉｃ」の概念のみを単独で指定するクエリは、異なるグループに配置される。同様に、「Ｃｏｍｐａｎｙ」および「ＰｕｂｌｉｃＭｅｔｒｉｃ」を指定するが、「Ｄｏｃｕｍｅｎｔ」の概念も含んでいるクエリは、第１のグループに配置されない。

【0119】

すなわち、実施形態では、データ配置オーケストレータ１５０は、概念の正確に一致するセットを指定するクエリをグループ化する。追加の概念またはより少ない概念を指定するクエリは、他のグループに配置される。１つの実施形態では、各グループに対応する概念のセットは、各要約されたクエリを形成するために使用される。すなわち、示されている実施形態では、データ配置オーケストレータ１５０は、各クエリが実行する動作に関わらず、同一の概念にアクセスするクエリをクラスタにグループ化することによって、受信された前のクエリを集約する。

【0120】

次に、方法１３００はブロック１３３５に進み、ブロック１３３５で、データ配置オーケストレータ１５０が、これらの定義されたクエリ・グループのうちの１つを選択する。ブロック１３４０で、データ配置オーケストレータ１５０は、選択されたグループに関連付けられたクエリのうちの１つを選択する。さらに、ブロック１３４５で、データ配置オーケストレータ１５０は、選択されたクエリによって指定された対応する動作を、選択されたクエリ・グループを表す要約されたクエリに関連付ける。１つの実施形態では、動作が要約されたクエリにすでに反映されている場合、データ配置オーケストレータ１５０は、その動作を再び追加しない。すなわち、実施形態では、要約されたクエリに関連付けられた動作のセットは、特定の動作の存在または欠如のいずれかを示す２進値である。

【0121】

実施形態では、要約されたクエリに関連付けられた動作は、任意のレベルの粒度であることができる。例えば、一部の実施形態では、データ配置オーケストレータ１５０は、特定の種類の動作（例えば、内部結合）、動作に対する制限、または動作の仕様（例えば、文字列の結合または整数の結合などの、データの種類）をいずれも考慮することなく、動作レベル（例えば、「結合」）で要約されたクエリを定義する。他の実施形態では、より豊富な詳細をその後の処理に提供するために、これらの詳細が要約されたクエリの記述に含まれる。

【0122】

次に、方法１３００はブロック１３５０に進み、ブロック１３５０で、データ配置オーケストレータ１５０が、少なくとも１つの追加のクエリが選択されたグループに存在するかどうかを判定する。存在する場合、方法１３００がブロック１３４０に戻る。存在しない場合、ブロック１３５５で、データ配置オーケストレータ１５０が、まだ評価されていない少なくとも１つの追加のクエリのグループが存在するかどうかを判定する。存在する場合、方法１３００がブロック１３３５に戻る。存在しない場合、方法１３００がブロック１３６０に進む。ブロック１３６０で、データ配置オーケストレータ１５０は、要約されたワークロードを格納し、ハイパーグラフを生成するために要約されたワークロードが使用され、評価されることができるようにする。

【0123】

図１４は、本明細書で開示された一実施形態に従って、オントロジーのワークロードをモデル化し、データ配置の決定を知らせるための方法１４００を示すフロー図である。方法１４００はブロック１４０５で開始し、ブロック１４０５で、データ配置オーケストレータ１５０が、オントロジーの概念のうちの１つを選択する。ブロック１４１０で、データ配置オーケストレータ１５０は、この選択された概念のハイパーグラフの頂点を生成する。次に、方法１４００はブロック１４１５に進み、ブロック１４１５で、データ配置オーケストレータ１５０が、ハイパーグラフ内の頂点をまだ有していない任意の追加の概念がオントロジーに残っているかどうかを判定する。残っている場合、方法１４００がブロック１４０５に戻る。残っていない場合、方法１４００がブロック１４２０に進む。

【0124】

ブロック１４２０で、データ配置オーケストレータ１５０は、要約されたクエリのうちの１つを選択する。前述したように、実施形態では、各要約されたクエリは、概念のセット、および前のワークロードで概念に適用された動作の対応するセットを示す。ブロック１４２５で、データ配置オーケストレータ１５０は、選択された要約されたクエリによって示された概念の各々をリンクするハイパーエッジを生成する。次に、方法１４００はブロック１４３０に進み、ブロック１４３０で、データ配置オーケストレータ１５０が、新たに生成されたハイパーエッジに、選択された要約されたクエリによって示された動作の指示でラベルを付ける。このようにして、データ配置オーケストレータ１５０は、その後、ハイパーグラフを評価し、知識ベースのための関係および使用パターンを識別することができる。

【0125】

次に、方法１４００はブロック１４３５に進み、ブロック１４３５で、データ配置オーケストレータ１５０が、評価されてハイパーグラフに組み込まれるべき少なくとも１つの追加の要約されたクエリが存在するかどうかを判定する。存在する場合、方法１４００がブロック１４２０に戻る。存在しない場合、方法１４００はブロック１４４０に進み、ブロック１４４０で、データ配置オーケストレータ１５０が、生成されたハイパーグラフを、その後使用するために格納する。

【0126】

図１５および１６は、本明細書で開示された一実施形態に従って、ハイパーグラフを評価し、データ配置の決定を推進するための方法を示すフロー図を示している。図１５を参照して説明される方法１５００は、概念マッピングを生成するための動作に基づくクラスタ化技術の１つの実施形態を示しており、一方、図１６を参照して下で説明される方法１６００は、最小被覆技術の１つの実施形態を示している。

【0127】

１つの実施形態では、動作に基づくクラスタ化技術は、概念が受ける動作に基づいて、概念をグループ化する。１つのそのような実施形態では、ハイパーグラフ内の動作記述ごとに、データ配置オーケストレータ１５０が各クラスタを作成する。次に、データ配置オーケストレータ１５０は、各ハイパーエッジに関連付けられた動作記述のセットすべてにわたって反復し、そのような動作記述ごとに、ハイパーエッジが広がるすべての概念を、対応する動作のクラスタに割り当てる。実施形態では、概念が一緒にクラスタ化された後に、データ配置オーケストレータ１５０は、各ノードが、クラスタの動作記述に一致する能力記述を有する（例えば、クラスタの対応する動作を実行することができる）ように、各概念クラスタをデータ・ノードのセットに割り当てる。最後に、動作に基づくシステムでは、データ配置オーケストレータ１５０が、各クラスタ内の各概念を識別されたデータ・ストアの対応するセットにマッピングするマッピングを生成する。

【0128】

動作に基づくクラスタ化技術の１つの実施形態の例として、図１１に示されているハイパーグラフ１１００について考える。最初に、データ配置オーケストレータ１５０は、動作１１１５Ａ～ＣごとにクラスタＣ（例えば、Ｃ_Ｊｏｉｎ、Ｃ_Ａｇｇ、およびＣ_{Ｆｕｚｚｙ}）を生成する。次にシステムは、ハイパーエッジごとに、ハイパーエッジに関連付けられた動作のセットを決定する。示された動作ごとに、システムは、ハイパーエッジ１１１０によって指定された概念を対応するクラスタに割り当てる。上記の例を続けると、Ｃ_Ｊｏｉｎは、ハイパーエッジ１１１０Ａからの概念１１０５Ａ、１１０５Ｂ、１１０５Ｃ、および１１０５Ｄに加えて、ハイパーエッジ１１１０Ｂからの概念１１１０Ｅおよび１１０５Ｆを含む。さらに、Ｃ_Ａｇｇは、ハイパーエッジ１１１０Ａからの概念１１０５Ａ、１１０５Ｂ、１１０５Ｃ、および１１０５Ｄに加えて、ハイパーエッジ１１１０Ｄからの概念１１０５Ｇを含む。最後に、Ｃ_{Ｆｕｚｚｙ}は、ハイパーエッジ１１１０Ａからの概念１１０５Ａ、１１０５Ｂ、１１０５Ｃ、および１１０５Ｄに加えて、ハイパーエッジ１１１０Ｃからの概念１１０５Ｈを含む。

【0129】

多くの実施形態では、これらの動作に基づくクラスタは、有意な重複を含んでいる。例えば、概念１１０５Ａ、１１０５Ｂ、１１０５Ｃ、および１１０５Ｄがすべてのクラスタに含まれているということに注意する。マッピングを完成させるために、１つの実施形態では、データ配置オーケストレータ１５０は、クラスタごとに、対応する動作を実行できるすべてのデータ・ノード１３０を識別する。次に、データ配置オーケストレータ１５０は、クラスタ内のすべての概念１１０５を、識別されたデータ・ノード１３０のすべてにマッピングする。一部の実施形態では、動作に基づく技術は、データを対応する動作をサポートしているすべてのストアに配置することによって、クエリの処理時のデータ移動を最小限に抑えるか、または減らすことができるが、複数のストアがクラスタの動作を満たす能力を有している場合、概念の同じクラスタがそれらの複数のストアに配置される可能性があるため、ある程度の複製のオーバーヘッドを導入する。

【0130】

一部の実装では、複製のオーバーヘッドさらに減らすために、最小被覆技術の実施形態が利用される。１つの実施形態では、最小被覆の実施形態は、クエリの処理時のデータ移動をまだ最小限に抑えながら、データの複製の量をさらに最小限に抑えることによって、動作に基づく技術を上回って改善する。実施形態では、この技術は、最小集合被覆アルゴリズムを活用して、クエリ・ワークロードのハイパーグラフ内の各ハイパーエッジによって必要とされる動作の完全なセットをサポートするために必要な最小の数のデータ・ストアを見つける。一部の実施形態では、最小被覆技術は、ハイパーエッジによって必要とされる動作のセットを満たすデータ・ストアのセットにわたる各ハイパーエッジの距離を最小限に抑える。

【0131】

最小被覆技術の１つの実施形態例では、ハイパーグラフ内のハイパーエッジごとに、データ配置オーケストレータ１５０が、示された動作のすべてを覆う最小の数のデータ・ノードを見つける。例えば、動作のすべてが、単一のデータ・ノード１３０Ａによって完了されることができる場合、最小セットはこのノードのみを含む。動作のうちの１つまたは複数が、データ・ノード１３０Ａによって完了されることができない場合、すべての動作が満たされるまで、１つまたは複数の他のデータ・ノード１３０Ｂ～Ｎが最小セットに追加される。ハイパーエッジに対して最小セットが決定された後に、ハイパーエッジ内の各概念が、対応する最小セット内のノードの各々にマッピングされる。

【0132】

最小被覆クラスタ化技術の１つの実施形態の例として、図１１に示されているハイパーグラフ１１００について考える。データ・ノード１３０が、動作１１１５Ａおよび１１１５Ｂをサポートするように構成された第１のデータ・ノード１３０Ａ、動作１１１５Ｂおよび１１１５Ｃをサポートするように構成された第２のデータ・ノード１３０Ｂ、および動作１１５Ｂのみをサポートするように構成された第３のデータ・ノード１３０Ｃを含んでいると仮定する。ハイパーエッジ１１１０Ａについて、データ配置オーケストレータ１５０は、示された３つの動作をすべてサポートできる単独のノードはないが、データ・ノード１３０Ａおよび１３０Ｂのセットがそれらの動作をサポートできるということを、決定することができる。これらの２つのノードはハイパーエッジ全体をサポートすることができるため、データ・ノード１３０Ｃをセットに追加する必要はない。

【0133】

同様に、ハイパーエッジ１１１０Ｂがデータ・ノード１３０Ａ（結合動作を提供するように構成された唯一のノード）に割り当てられ、一方、ハイパーエッジ１１１０Ｃがデータ・ノード１３０Ｂ（ファジー・マッチングを提供するように構成された唯一のノード）に割り当てられる。最後に、ハイパーエッジ１１１０Ｄが、データ・ノード１３０Ａおよび１３０Ｂまたはデータ・ノード１３０Ｂおよび１３０Ｃのいずれかに割り当てられることができる。一部の実施形態では、データ配置オーケストレータ１５０は、各々の待ち時間または計算リソース、事前に定義された優先性などのその他の基準に基づいて、これらのその他の点では等価な代替案から選択する。次に、データ配置オーケストレータ１５０は、各ハイパーエッジ１１１０の概念１１０５を、割り当てられたデータ・ノード１３０にマッピングする。

【0134】

図１５は、本明細書で開示された一実施形態に従って、ハイパーグラフを評価し、データ配置の決定を推進するための演算子に基づく方法１５００を示すフロー図である。方法１５００はブロック１５０５で開始し、ブロック１５０５で、データ配置オーケストレータ１５０が、ハイパーグラフによって示された動作のうちの１つを選択する。ブロック１５１０で、データ配置オーケストレータ１５０は、選択された動作のクラスタを生成する。次に、方法１５００はブロック１５１５に進み、ブロック１５１５で、データ配置オーケストレータ１５０が、クラスタがまだ関連付けられていない、ハイパーグラフに反映された少なくとも１つの追加の動作が存在するかどうかを判定する。存在する場合、方法１５００がブロック１５０５に戻る。存在しない場合、方法１５００がブロック１５２０に進む。

【0135】

ブロック１５２０で、データ配置オーケストレータ１５０は、ハイパーグラフ内のハイパーエッジのうちの１つを分析のために選択する。ブロック１５２５で、データ配置オーケストレータ１５０が、選択されたエッジに関連付けられた概念および動作を識別する。次に、方法１５００はブロック１５３０に進み、ブロック１５３０で、データ配置オーケストレータ１５０が、これらの示された動作のうちの１つを選択する。さらに、ブロック１５３５で、データ配置オーケストレータ１５０が、選択された動作に対応するクラスタを識別し、選択されたハイパーエッジによって示された概念のすべてをこのクラスタに追加する。次に、方法１５００はブロック１５４０に進み、ブロック１５４０で、データ配置オーケストレータ１５０が、選択されたエッジがまだ処理されていない少なくとも１つの追加の動作を示しているかどうかを判定する。示している場合、方法１５００がブロック１５３０に戻る。

【0136】

選択されたハイパーエッジに関連付けられた追加の動作がない場合、方法１５００はブロック１５４５に進み、ブロック１５４５で、データ配置オーケストレータ１５０が、ハイパーグラフがまだ評価されていない少なくとも１つの追加のエッジを含んでいるかどうかを判定する。含んでいる場合、方法１５００がブロック１５２０に戻る。含んでいない場合、方法１５００はブロック１５５０に進み、ブロック１５５０で、データ配置オーケストレータ１５０が動作クラスタを、各動作を処理するように構成された対応するデータ・ノードにマッピングする。例えば、１つの実施形態では、データ配置オーケストレータ１５０は、クラスタごとに、対応する動作を実行できるデータ・ノードのセットを識別する。実施形態では、データ配置オーケストレータ１５０は、次に、クラスタ内のすべての概念を識別されたデータ・ノードのセットの各ノードにマッピングする。データ配置オーケストレータ１５０は、これらのマッピングを使用して、知識ベース内のデータをさまざまなデータ・ノードにわたって分散することができる。

【0137】

図１６は、本明細書で開示された一実施形態に従って、ハイパーグラフを評価し、データ配置の決定を推進するための最小被覆に基づく方法１６００を示すフロー図である。方法１６００はブロック１６０５で開始し、ブロック１６０５で、データ配置オーケストレータ１５０が、ハイパーグラフ内のハイパーエッジのうちの１つを選択する。ブロック１６１０で、データ配置オーケストレータ１５０が、選択されたエッジに関連付けられた対応する概念および動作を識別する。さらに、ブロック１６１５で、データ配置オーケストレータ１５０は、示された動作のすべてを集合的に満たすことができるデータ・ノードの最小セットを決定する。

【0138】

１つの実施形態では、データ配置オーケストレータ１５０は、データ・ノードの各組み合わせを反復的に評価し、組み合わせが示された動作を満たすかどうかを判定することによって、最小セットを決定する。すなわち、選択されたエッジによって示されたすべての動作が、組み合わせ内の少なくとも１つのデータ・ノードによって実行されることができるかどうかを判定する。満たさない場合、組み合わせが破棄されることができ、テストのための別のノードまたは組み合わせが選択されることができる（または、別のノードが現在の組み合わせに追加されることができる）。データ配置オーケストレータ１５０は、各組み合わせが完成しており、すべての必要な動作を実行できるという点において十分であるかどうかを判定し、最小の数のデータ・ノードを含む組み合わせが実行中の最小のデータ移動につながる可能性が高いため、そのような組み合わせを識別してよい。１つの実施形態では、２つ以上の組み合わせが等しく小さい場合、データ配置オーケストレータ１５０は、事前に定義された基準または優先性を利用して、最良の組み合わせを選択することができる。例えば、事前に定義されたルールが、少なくとも１つのリレーショナル・データ・ストアを含んでいる組み合わせが、リレーショナル・データ・ストアを含んでいない組み合わせよりも優先されるということを示してよい。別の例として、ルールが、特定の種類のストアまたは特定のデータ・ノード１３０あるいはその両方の重みまたは優先度を示してよい。そのような実施形態では、データ配置オーケストレータ１５０は、またはその他の方法で組み合わせごとにこれらの重みを集約し、どのストアを使用するべきかを決定してよい。次に、選択されたエッジに、データ・ノードの決定されたセットの指示でラベルが付けられてよい。

【0139】

データ・ノードの最小セットが決定された後に、方法１６００がブロック１６２０に進み、ブロック１６２０で、データ配置オーケストレータ１５０が、少なくとも１つの追加のハイパーエッジがハイパーグラフに存在するかどうかを判定する。存在する場合、方法１６００がブロック１６０５に戻る。存在しない場合、方法１６００がブロック１６２５に進む。ブロック１６２５で、データ配置オーケストレータ１５０は、システム内の使用可能なデータ・ノードのうちの１つを選択する。ブロック１６３０で、データ配置オーケストレータ１５０は、選択されたデータ・ノードを含んでいるラベルを有するハイパーグラフ内のすべてのハイパーエッジを識別する。次に、データ配置オーケストレータ１５０は、これらのハイパーエッジ（または各ハイパーエッジが含んでいる概念）を一緒にグループ化またはクラスタ化し、選択されたノードに格納される概念のグループ／クラスタを形成する。次に、方法１６００はブロック１６３５に進み、ブロック１６３５で、データ配置オーケストレータ１５０が、グループ／クラスタをまだ割り当てられていない少なくとも１つの追加のデータ・ノードがシステムに存在するかどうかを判定する。存在する場合、方法１６００がブロック１６２５に戻る。

【0140】

存在しない場合、方法１６００がブロック１６４０に進み、ブロック１６４０で、データ配置オーケストレータ１５０が、データ・ノードごとに、対応するクラスタに含まれている概念のすべてをストアにマッピングする。データ配置オーケストレータ１５０は、その後、これらのマッピングを使用して、知識ベース内のデータをさまざまなデータ・ノードにわたって分散することができる。

【0141】

図１７は、本明細書で開示された一実施形態に従って、オントロジーの概念をストレージ・ノードにマッピングするための方法１７００を示すフロー図である。方法１７００はブロック１７０５で開始し、ブロック１７０５で、データ配置オーケストレータ１５０が、領域に対応するクエリ・ワークロード情報を決定する。ブロック１７１０で、データ配置オーケストレータ１５０は、クエリ・ワークロード情報をハイパーグラフとしてモデル化し、このハイパーグラフは頂点のセットおよびハイパーエッジのセットを含み、頂点のセット内の各頂点は、領域に関連付けられたオントロジーにおける概念に対応する。次に、方法１７００はブロック１７１５に進み、ブロック１７１５で、データ配置オーケストレータ１５０が、ハイパーグラフに基づき、かつ複数のデータ・ノードの各々の事前に定義された能力にさらに基づき、概念と複数のデータ・ノードの間のマッピングを生成する。さらに、ブロック１７２０で、データ配置オーケストレータ１５０は、生成されたマッピングに基づいて分散知識ベースを確立する。

【0142】

本開示のさまざまな実施形態の説明は、例示の目的で提示されているが、網羅的であることは意図されておらず、開示された実施形態に制限されない。説明された実施形態の範囲から逸脱することなく多くの変更および変形が可能であることは、当業者にとって明らかであろう。本明細書で使用された用語は、実施形態の原理、実際の適用、または市場で見られる技術を超える技術的改良を最も適切に説明するため、または他の当業者が本明細書で開示された実施形態を理解できるようにするために選択されている。

【0143】

上記または下記あるいはその両方では、本開示で提示された実施形態への参照が行われている。しかし、本開示の範囲は、特定の説明された実施形態に限定されない。代わりに、上記の特徴または下記の特徴あるいはその両方および要素の任意の組み合わせが、異なる実施形態に関連しているかどうかに関わらず、企図された実施形態を実施および実践するよう企図される。さらに、本明細書で開示された実施形態は、他の可能な解決策を上回る利点または従来技術を上回る利点を実現することができるが、特定の実施形態によって特定の利点が実現されるかどうかは、本開示の範囲の制限ではない。したがって、上記または下記あるいはその両方の態様、特徴、実施形態、および利点は、単に例示であり、特許請求の範囲において明示的に示されている場合を除き、添付の特許請求の範囲の要素または制限とは見なされない。同様に、「本発明」への参照は、特許請求の範囲において明示的に示されている場合を除き、本明細書で開示されたいずれかの発明の対象の一般化と解釈されてはならず、添付の特許請求の範囲の要素または制限と見なされてはならない。

【0144】

本開示の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、またはソフトウェアの態様およびハードウェアの態様を組み合わせる実施形態の形態を取ってよく、これらはすべて、本明細書では、一般に「回路」、「モジュール」、または「システム」と呼ばれてよい。

【0145】

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組み合わせであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を含んでいるコンピュータ可読ストレージ媒体を含んでよい。

【0146】

コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持および格納できる有形のデバイスであることができる。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読ストレージ媒体のさらに具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ：random access memory）、読み取り専用メモリ（ＲＯＭ：read-only memory）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：erasable programmable read-only memoryまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：static random access memory）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：compact disc read-only memory）、デジタル・バーサタイル・ディスク（ＤＶＤ：digital versatile disk）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたは命令が記録されている溝の中の隆起構造などの機械的にエンコードされるデバイス、およびこれらの任意の適切な組み合わせを含む。本明細書において使用されるとき、コンピュータ可読ストレージ媒体は、それ自体が、電波もしくはその他の自由に伝搬する電磁波、導波管もしくはその他の送信媒体を伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを介して送信される電気信号などの一過性の信号であると解釈されるべきではない。

【0147】

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から各コンピューティング・デバイス／処理デバイスへ、またはネットワーク（例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワーク、あるいはその組み合わせ）を介して外部コンピュータもしくは外部ストレージ・デバイスへダウンロードされ得る。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組み合わせを備えてよい。各コンピューティング・デバイス／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を各コンピューティング・デバイス／処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。

【0148】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：instruction-set-architecture）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む１つもしくは複数のプログラミング言語の任意の組み合わせで記述されたソース・コードもしくはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に実行すること、ユーザのコンピュータ上でスタンドアロン・ソフトウェア・パッケージとして部分的に実行すること、ユーザのコンピュータ上およびリモート・コンピュータ上でそれぞれ部分的に実行すること、またはリモート・コンピュータ上もしくはサーバ上で全体的に実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：local area network）または広域ネットワーク（ＷＡＮ：wide area network）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてよい。一部の実施形態では、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：programmable logic arrays）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用することによって、電子回路をカスタマイズするためのコンピュータ可読プログラム命令を実行してよい。

【0149】

本発明の態様は、本明細書において、本発明の実施形態に従って、方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方に含まれるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装され得るということが理解されるであろう。

【0150】

これらのコンピュータ可読プログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読ストレージ媒体がフローチャートまたはブロック図あるいはその両方のブロックに指定される機能／動作の態様を実施する命令を含んでいる製品を備えるように、コンピュータ可読ストレージ媒体に格納され、コンピュータ、プログラム可能なデータ処理装置、または他のデバイス、あるいはその組み合わせに特定の方式で機能するように指示できるものであってもよい。

【0151】

コンピュータ可読プログラム命令は、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックに指定される機能／動作を実施するように、コンピュータ実装プロセスを生成すべく、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスに読み込まれ、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で一連の動作可能なステップを実行させるものであってもよい。

【0152】

図内のフローチャートおよびブロック図は、本発明のさまざまな実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図内の各ブロックは、規定された論理機能を実装するための１つまたは複数の実行可能な命令を備える、命令のモジュール、セグメント、または部分を表してよい。一部の代替の実装では、ブロックに示された機能は、図に示された順序とは異なる順序で発生してよい。例えば、連続して示された２つのブロックは、実際には、含まれている機能に応じて、実質的に同時に実行されるか、または場合によっては逆の順序で実行されてよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方に含まれるブロックの組み合わせは、規定された機能もしくは動作を実行するか、または専用ハードウェアとコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装され得るということにも注意する。

【0153】

本発明の実施形態は、クラウド・コンピューティング・インフラストラクチャを介してエンド・ユーザに提供されてよい。クラウド・コンピューティングとは、通常、ネットワークを経由したサービスとしての、拡張可能な計算リソースの提供のことを指す。さらに正式には、クラウド・コンピューティングは、計算リソースとその基盤になる技術アーキテクチャ（例えば、サーバ、ストレージ、ネットワーク）の間の抽象化を提供する計算能力として定義されてよく、構成可能な計算リソースの共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にし、管理上の手間またはサービス・プロバイダとのやりとりを最小限に抑えて、これらの計算リソースを迅速にプロビジョニングおよび解放することができる。したがって、クラウド・コンピューティングは、ユーザが、計算リソースの提供に使用される基盤になる物理的システム（またはそのようなシステムの位置）を意識せずに、「クラウド」内の仮想計算リソース（例えば、ストレージ、データ、アプリケーション、および完全に仮想化されたコンピューティング・システム）にアクセスできるようにする。

【0154】

通常、クラウドの計算リソースは、利用回数制料金でユーザに提供され、実際に使用された計算リソース（例えば、ユーザによって消費されたストレージ空間の量、またはユーザによってインスタンス化された仮想化システムの数）についてのみ、ユーザに料金が請求される。ユーザは、インターネットを経由して、クラウドに存在するリソースのいずれかに、いつでも、どこからでもアクセスすることができる。本発明との関連では、ユーザは、クラウド内で利可能なアプリケーション（例えば、クエリ処理オーケストレータ１１５）または関連するデータにアクセスしてよい。例えば、クエリ処理オーケストレータ１１５は、クラウド内のコンピューティング・システム上で実行され、クエリおよびバックエンドのリソースを評価することができる。そのような場合、クエリ処理オーケストレータ１１５は、クエリをルーティングし、バックエンドのリソースまたは能力の構成あるいはその両方をクラウド内のストレージ位置に格納することができる。そのようにすることで、ユーザは、クラウドに接続されたネットワーク（例えば、インターネット）に接続されている任意のコンピューティング・システムから、この情報にアクセスすることができる。

【0155】

前述の内容は本発明の実施形態を対象にしているが、本発明のその他のさらなる実施形態が、本発明の基本的な範囲から逸脱することなく考案されてよく、本発明の範囲は添付の特許請求の範囲によって決定される。

【図1】