特許6990802 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許6990802Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2021-12-08

(45)【発行日】2022-01-12

(54)【発明の名称】Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法

(51)【国際特許分類】

G06F 9/50 20060101AFI20220104BHJP

【ＦＩ】

G06F9/50 120Z

【請求項の数】 2

(21)【出願番号】P 2021533418

(86)(22)【出願日】2020-04-07

(86)【国際出願番号】 CN2020083593

(87)【国際公開番号】W WO2020233262

(87)【国際公開日】2020-11-26

【審査請求日】2021-06-10

(31)【優先権主張番号】201910629253.8

(32)【優先日】2019-07-12

(33)【優先権主張国・地域又は機関】CN

【早期審査対象出願】

(73)【特許権者】

【識別番号】521162399

【氏名又は名称】之江実験室

(74)【代理人】

【識別番号】100128347

【弁理士】

【氏名又は名称】西内盛二

(72)【発明者】

【氏名】李 ▲勁▼松

(72)【発明者】

【氏名】李 ▲潤▼▲澤▼

(72)【発明者】

【氏名】▲陸▼ 遥

(72)【発明者】

【氏名】王 ▲ユー▼

(72)【発明者】

【氏名】▲趙▼ 英浩

【審査官】坂庭剛史

(56)【参考文献】

【文献】中国特許出願公開第１０１００９６４２（ＣＮ，Ａ）

【文献】中国特許出願公開第１０７８７０７６３（ＣＮ，Ａ）

【文献】米国特許出願公開第２０１７／００６０６４１（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１６／０３３５１３５（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ９／５０

(57)【特許請求の範囲】

【請求項1】

Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法であって、
当該方法は、マルチセンターのデータ協調コンピューティングシステムで実施されるものであり、前記マルチセンターのデータ協調コンピューティングシステムは、複数のクライアント及び一つのコンピューティング端末を含み、前記クライアントは、ユーザーによるコンピューティングタスク要求を生成してコンピューティング端末に送信するためのものであり、前記コンピューティング端末は、要求を解析して、コンピューティング命令を生成して実行するためのものであり、
当該方法は、
クライアント及びコンピューティング端末にＲＥＳＴＦｕｌサービスを構築し、コンピューティングタスクキューを

とし、ＬがコンピューティングタスクキューＱの長さであり、いずれか一つのクライアントｃ_ｋがコンピューティング端末に一つの新たなコンピューティングタスク要求ｔ_ｋを送信し、当該要求には、コンピューティングのスレッドリソース要求ｎｔ_ｋ、メモリーをコンピューティングする要求ｎｍ_ｋ、このタスクに対応するコンピューティングすべきデータＤ_ｋを含む、ステップ（１）と、
コンピューティング端末は、クライアントｃ_ｋから送信されたコンピューティングタスク要求を解析して、

を取得する、ステップ（２）と、
コンピューティング端末は、

を一つのエレメントとして、コンピューティングタスクキューＱに挿入してから、Ｓｃｈｅｄｕｌｉｎｇ計算を始め、Ｓｃｈｅｄｕｌｉｎｇ計算では、タスクキューＱにおける各エレメントのコンピューティング要求の値をクライアントを単位とするマクシミン規準に従って最適化し、各エレメントのｎｔ_ｋ及びｎｍ_ｋを更新する、ステップ（３）と、
キューＱの長さ

をコンピューティングし、Ｌを循環境界条件として、Ｓｐａｒｋ．ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔにより、Ｌ個のストリームを作成し、Ｓｐａｒｋ．Ｃｏｎｆにより各ストリームに割り当てられたリソースを宣言し、Ｓｐａｒｋに実際のストリームタスクｋを順次送信することについて、データＤ_ｋをロードし、コンピューティングタスクｔ_ｋを実行し、コンピューティングのスレッドリソース要求ｎｔ_ｋが満たされるスレッド数を割り当て、コンピューティングメモリーが満たされる要求ｎｍ_ｋを割り当て、ただし、Ｄ_ｋに中間結果及びコンピューティングタスクメタデータが存在すれば、直接に、それに対応するステップからタスクをコンピューティングし始める、ステップ（４）と、
ストリーム処理されているタスク

について、ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ＣｈｅｃｋＰｏｉｎｔｉｎｇにより、ストリーム処理過程におけるＨＤＦＳへのデータの読み取り、データの前処理キャッシュ、コンピューティング、戻りという四つのステップにおいて、データストリームを持続化させる操作を実行し、中間結果及びコンピューティングタスクメタデータをＤ_lに記憶し、同時に、キューの更新状況を監視し、キューの更新を監視した場合、ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ｓｔｏｐにより、当該ストリームを停止させ、ステップ（４）に戻り、ストリーム処理過程におけるコンピューティングタスクが完了した場合に、当該ストリーム処理タスクに対応するクライアントにタスク処理結果を返し、タスクをキューＱから取り出す、ステップ（５）と、を含むことを特徴とするＳｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法。

【請求項2】

前記ステップ（３）において、クライアントに基づくＳｃｈｅｄｕｌｉｎｇ計算の流れは、以下の通りであり、
ステップ（３．１）：キュー

であり、ＬがコンピューティングキューＱの長さであることについて、クライアントに複数の記録が存在している場合に、まず、クライアントに従って加算し、クライアントを単位とする新たなキュー

を取得し、Ｌ_ｍｉｄがＱ_ｍｉｄ長さであり、ｓ_ｊが各クライアントによって送信されたタスク総数であり、ｎｔ_ｊ ^mid、ｎｍ_ｊ ^midがそれぞれクライアントｃ_ｊによって要求されたスレッドリソース総数及びメモリーリソース総数であり、
ステップ（３．２）：スレッドリソースについて、以下のように最適化割り当ての流れを実行しており、
ステップ（３．２．１）：すべてのクライアントのスレッドリソース要求総数キュー

について、サイズに従ってソートして

及び添え字マッピングM=

を取得し、コンピューティングセンターのコンピューティングリソースプールの総スレッドリソースをＮＴとすると、予めｎｔ_ｊ ^midに与えられるリソースが

となり、
ステップ（３．２．２）：

が存在している場合に、この集合が

とし、ステップ（３．２．３）に移行し、それ以外の場合は、最終的なスレッドリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するスレッドリソース割り当てポリシー

を取得し、ステップ（３．２．４）に移行し、
ステップ（３．２．３）：再割り当てする必要があるスレッドリソースが

であり、ただし、

がＪのエレメントの数であり、ステップ（３．２．２）に戻り、
ステップ（３．２．４）：同じクライアントに割り当てられたスレッドリソースを、当該クライアントと対応するすべてのタスクに均一に割り当て、同じｃ_ｊにタスク

を対応させ、ただし、

がユーザーｃ_ｊが実際に提出した一つのタスクｔ_ｚに割り当てられたスレッドリソースであり、ｎｔ_ｊ ^ｍｉｄがステップ（３．２．２）で得られた当該ユーザーに割り当てられたすべてのスレッドリソースであり、ｓ_ｊがユーザーｃ_ｊによって送信されたタスクの総数であり、
ステップ（３．３）：メモリーリソースについて、以下のように最適化割り当ての流れを実行しており、
ステップ（３．３．１）：すべてのクライアントのメモリーリソース要求総数キュー

について、サイズに従ってソートして、

及び添え字マッピングM=

を取得し、コンピューティングセンターのコンピューティングリソースプールの総メモリーリソースをＮＭとすると、予めｎｍ_ｊ ^midに与えられるリソースが

となり、
ステップ（３．３．２）：

が存在している場合に、この集合を

として、ステップ（３．２．３）に移行し、それ以外の場合は、最終的なメモリーリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するメモリーリソース割り当てポリシー

を取得し、ステップ（３．２．４）に移行し、
ステップ（３．３．３）：再割り当てする必要があるメモリーリソースが

であり、ただし、

がＪのエレメントの数であり、ステップ（３．３．２）に戻り、
ステップ（３．３．４）：同じクライアントに割り当てられたメモリーリソースを当該クライアントと対応するすべてのタスクに均一に割り当て、同一ｃ_ｊにタスク

，

を対応させ、ただし、

がユーザーｃ_ｊが実際に提出した一つのタスクｔ_ｚに割り当てられたメモリーリソースであり、ｎｍ_ｊ ^midがステップ（３．２．２）で得られた当該ユーザーに割り当てられたすべてのメモリーリソースであり、ｓ_ｊがユーザーｃ_ｊによって送信されたタスクの総数であり、
ステップ（３．４）：ステップ（３．２）及びステップ（３．３）で得られた［ｎｔ_ｋ］及び［ｎｍ_ｋ］から、

］を再構成することを特徴とする請求項１に記載のＳｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ストリーム処理の技術分野に関し、特に、Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法に関する。

【背景技術】

【0002】

ストリーム処理技術（ＳｔｒｅａｍＰｒｏｃｅｓｓｉｎｇ）は、コンピュータプログラミングのパラダイムであり、データストリームプログラミングやインタラクティブプログラミングとも呼ばれ、コンピューティングアプリケーションを、限られた並行処理モデルでより効率的に使用できるようにする技術である。このタイプの技術的なアプリケーションは、例えばグラフィックスプロセッシングユニット（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）又は現場でプログラム可能なゲートアレイ（Ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ、ＦＰＧＡ）などの様々な計算ユニットに存在することが可能であり、しかも、メモリの割り当て、同期及びユニット間のコミュニケーションを明示的に管理しない。Ｓｐａｒｋｓｔｒｅａｍｉｎｇは、ＳｐａｒｋのコアＡＰＩの拡張の一つであり、それがリアルタイムストリーミングデータの処理に対して、拡張性、高いスループット、フォールト・トレラントなどの特性を有している。提供される主なインタフェースは、コンテキストの作成ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ、ストリーム開始ｓｔａｒｔ、ストリーム終了ｓｔｏｐ、キャッシュｃａｃｈｅ、Ｃｈｅｃｋｐｏｉｎｔｉｎｇなどである。

【0003】

マルチセンターのデータ協調コンピューティングは、ビッグデータの背景に現れている応用シナリオであり、マルチパーティデータセンターは、より使用しやすく強力なデータ処理プラットフォームのリソースを個々の単一のユーザーに提供するために、データリソースとデータ処理の要求を統括する必要がある。個々の単一のユーザーは、自分のデータリソースと複数のデータリソースとを統合して集中的に解析することを選択してもよいし、複数の種類の演算要求を選択して、マルチセンター背景で並行コンピューティングを行ってもよい。

【0004】

従来のマルチセンターにおける協調分析プラットフォームは、実質的な単一センターであることが多く、つまり、マルチパーティデータベースを同一箇所のデータノードにキャッシュし、さらに様々な分析要求を一つずつ処理し、実際にすべての並行を一つのストリームにデフォルトして行うことに等価であり、このような形態により、数多くのスレッドによって引き起こされるブロッキング遅延をもたらし、各パッチのキューにおける待ち時間が延長され、新たなユーザーからのコンピューティング要求が即時のフィードバックと満足を得ることが困難であり、データリアルタイム性も保持しにくい。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、従来技術における欠陥に対して、Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法を提供することを目的とする。本発明は、リソース管理ログ及びＳｐａｒｋのストリームコンピューティングにより、マルチセンターのデータ協調コンピューティングへのストリーム処理を実現し、ストリーム処理のリソース割り当ての利点及びマルチセンター化のヘテロジニアスコンピューティング要求を結合し、マルチセンターの協調コンピューティングのリソース割り当ての公平性及びデータ分析効率を向上させ、コンピューティングキュータスクの待ち時間を短縮する。

【課題を解決するための手段】

【0006】

本発明の目的は、以下のような技術手段により実現される。
Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法であって、
当該方法は、マルチセンターのデータ協調コンピューティングシステムで実施されるものであり、前記マルチセンターのデータ協調コンピューティングシステムは、複数のクライアント及び一つのコンピューティング端末を含み、前記クライアントは、ユーザーによるコンピューティングタスク要求を生成してコンピューティング端末に送信するためのものであり、前記コンピューティング端末は、要求を解析して、コンピューティング命令を生成して実行するためのものであり、
当該方法は、
クライアント及びコンピューティング端末にＲＥＳＴＦｕｌサービスを構築し、コンピューティングタスクキューを

を取得する、ステップ（２）と、
コンピューティング端末は、

の長さ

をコンピューティングし、Ｌを循環境界条件として、Ｓｐａｒｋ．ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ（Ｓｐａｒｋ．ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔがＳｐａｒｋフレームワークにおけるストリーム処理タスクの作成命令インタフェースである）により、

個のストリームを作成し、Ｓｐａｒｋ．Ｃｏｎｆ（Ｓｐａｒｋ．ＣｏｎｆがＳｐａｒｋフレームワークにおけるストリーム処理タスクの配置命令インタフェースである）により、各ストリームに割り当てられたリソースを宣言し、Ｓｐａｒｋに実際のストリームタスクを順次送信することについて、データＤ_ｋをロードし、データをコンピューティングタスクｔ_ｋを実行し、割り当てられたスレッドリソースがｎｔ_ｋとなり、メモリーリソースがｎｍ_ｋとなり、ただし、Ｄ_ｋには、中間結果及びコンピューティングタスクメタデータが存在すれば、直接にそれに対応するステップからタスクをコンピューティングし始め、
ストリーム１：データＤ_１をロードし、データに対してコンピューティングタスクｔ_１を実行し、割り当てられたスレッドリソースがｎｔ_１となり、メモリーリソースがｎｍ_１となり、
ストリーム２：データＤ₂をロードし、データに対してコンピューティングタスクｔ_２を実行し、割り当てられたスレッドリソースがｎｔ_２となり、メモリーリソースがｎｍ_２となり、
…
ストリームＬ：データＤ_Ｌをロードし、データに対してコンピューティングタスクｔ_Ｌを実行し、割り当てられたスレッドリソースがｎｔ_Ｌとなり、メモリーリソースがｎｍ_Ｌとなるステップ（４）と、
ストリーム処理されているタスク

について、ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ＣｈｅｃｋＰｏｉｎｔｉｎｇ（ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ＣｈｅｃｋＰｏｉｎｔｉｎｇがＳｐａｒｋフレームワークにおけるストリーム処理タスクのデータ持続化命令インタフェースである）により、ストリーム処理過程におけるＨＤＦＳへのデータの読み取り、データの前処理キャッシュ、コンピューティング、戻りという四つのステップにおいて、データストリームを持続化させる操作を実行し、中間結果及びコンピューティングタスクメタデータをＤ_lに記憶し、同時に、キューの更新状況を監視し、キューの更新を監視した場合、ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ｓｔｏｐ（ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ｓｔｏｐがＳｐａｒｋフレームワークにおけるストリーム処理タスクの中止命令インタフェースである）により、当該ストリームを停止させ、ステップ（４）に戻り、ストリーム処理過程におけるコンピューティングタスクが完了した場合に、当該ストリーム処理タスクに対応するクライアントにタスク処理結果を返し、タスクをキューＱから取り出す、ステップ（５）とを含む、Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法。

【0007】

さらに、前記ステップ（３）において、クライアントに基づくＳｃｈｅｄｕｌｉｎｇ計算の流れは、以下の通りであり、
ステップ（３．１）：キュー

について、サイズに従ってソートして

及び添え字マッピングM=

となり、
ステップ（３．２．２）：

が存在している場合に、この集合が

とし、ステップ（３．２．３）に移行し、それ以外の場合は、最終的なスレッドリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するスレッドリソース割り当てポリシー

を取得し、ステップ（３．２．４）に移行し、
ステップ（３．２．３）：再割り当てする必要があるスレッドリソースが

であり、ただし、

を対応させ、ただし、

について、サイズに従ってソートして、

及び添え字マッピングM=

となり、
ステップ（３．３．２）：

が存在している場合に、この集合を

として、ステップ（３．２．３）に移行し、それ以外の場合は、最終的なメモリーリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するメモリーリソース割り当てポリシー

を取得し、ステップ（３．２．４）に移行し、
ステップ（３．３．３）：再割り当てする必要があるメモリーリソースが

であり、ただし、

，

を対応させ、ただし、

］を再構成する。

【発明の効果】

【0008】

本発明による有益な効果は、以下の通りである。
本発明は、マルチセンターのデータコンピューティングの要求及び操作の、ストリーム処理コンピューティングを実行することにより、プログラム実行性能及びリソース割り当て効率を改善する。リソース管理ログとＲＥＳＴＦｕｌを設定し、マルチセンターからのＳｐａｒｋ要求タスクに占められ、要求されるメモリー及びスレッドリソースを正確に制御し記録する。マクシミン規準のポリシーを用いて、ストリームコンピューティングにおける各テップのリソース割り当てを実行する。本発明は、マルチセンターのデータ協調コンピューティングにおける数多くのスレッドによって引き起こされるブロッキング遅延という問題を解決して、単一のユーザーの待ち時間を減らし、リソース割り当ての柔軟性及び公平性を改善する。

【図面の簡単な説明】

【0009】

【図1】本発明に係るセンター協調コンピューティングのストリーム処理方法のフローチャートである。

【発明を実施するための形態】

【0010】

以下に、図面及び具体的な実施例を参照しつつ、本発明をより詳しく説明する。
図１に示すように、本発明は、Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法を提供しており、当該方法は、マルチセンターのデータ協調コンピューティングシステムで実施されるものであり、前記マルチセンターのデータ協調コンピューティングシステムは、複数のクライアント及び一つのコンピューティング端末を含み、前記クライアントは、ユーザーによるコンピューティングタスク要求を生成してコンピューティング端末に送信するためのものであり、前記コンピューティング端末は、要求を解析して、コンピューティング命令を生成して実行するためのものであり、
当該方法は、
クライアント及びコンピューティング端末にＲＥＳＴＦｕｌサービスを構築し、コンピューティングタスクキューを

を取得する、ステップ（２）と、
コンピューティング端末は、

の長さ

【0011】

さらに、前記ステップ（３）において、クライアントに基づくＳｃｈｅｄｕｌｉｎｇ計算流れは、以下の通りである。
ステップ（３．１）：キュー

について、サイズに従ってソートして

及び添え字マッピングM=

となり、
ステップ（３．２．２）：

が存在している場合に、この集合が

とし、ステップ（３．２．３）に移行し、それ以外の場合は、最終的なスレッドリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するスレッドリソース割り当てポリシー

を取得し、ステップ（３．２．４）に移行し、
ステップ（３．２．３）：再割り当てする必要があるスレッドリソースが

であり、ただし、

を対応させ、ただし、

について、サイズに従ってソートして、

及び添え字マッピングM=

となり、
ステップ（３．３．２）：

が存在している場合に、この集合を

として、ステップ（３．２．３）に移行し、それ以外の場合は、最終的なメモリーリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するメモリーリソース割り当てポリシー

を取得し、ステップ（３．２．４）に移行し、
ステップ（３．３．３）：再割り当てする必要があるメモリーリソースが

であり、ただし、

，

を対応させ、ただし、

］を再構成する。

【0012】

以下に、本発明に係るＳｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法を、マルチセンターの医学データ協調コンピューティングプラットフォーム上に適用する一つの具体的な実施例を示し、当該実施例は、具体的に、以下のステップを含む。
ステップ（１）：クライアント（三つの病院）及びコンピューティング端末（データセンター）に、ＲＥＳＴＦｕｌサービスを構築し、コンピューティングタスクキューを、以下の式とする。

【数1】

Ｌ＝３であり、三番目の病院“hospital3”は、コンピューティング端末に一つの新たなコンピューティングタスク要求“task4”を送信し、当該要求には、コンピューティングのスレッドリソース要求１６、コンピューティングメモリーの要求１６、そのタスクに対応するコンピューティングすべきデータ“path4”を含む。
ステップ（２）：コンピューティング端末は、クライアントｃ_ｉから送信されたコンピューティングタスク要求を解析して、

を取得する。
ステップ（３）：コンピューティング端末は、

を一つのエレメントとして、コンピューティングタスクキュー

に挿入する。

【数2】

その後に、Ｓｃｈｅｄｕｌｉｎｇ計算を始め、Ｓｃｈｅｄｕｌｉｎｇ計算では、タスクキューＱにおける各エレメントのコンピューティング要求の値をクライアントを単位とするマクシミン規準に従って最適化し、各エレメントのｎｔ_ｋ及びｎｍ_ｋを更新し、キューＱの値が次の式になり、

【数3】

ただし、Ｓｃｈｅｄｕｌｉｎｇ計算の流れは、以下の通りである。
ステップ（３．１）：次のキューについて

【数4】

ＬがコンピューティングキューＱの長さであり、Ｌ＝４であり、クライアント“hospital2”には複数の記録が存在している場合に、まず、クライアントに従って加算し、次の式を取得し、

【数5】

Ｌ_ｍｉｄがＱ_ｍｉｄ長さであり、Ｌ_ｍｉｄ＝３である。
ステップ（３．２）：スレッドリソースについて、次のように最適化割り当ての流れを実行しており、
ステップ（３．２．１）：すべてのクライアントのスレッドリソース要求総数キュー[8,12,16]について、サイズに従ってソートして、[8,12,16]及び添え字マッピングM=[1,2,3]を取得し、コンピューティングセンターのコンピューティングリソースプールの総スレッドリソースをＮＴ＝３２とすると、予め[8,12,16]に与えられるリソースが[10,10,12]となる。
ステップ（３．２．２）：

が存在している場合に、この集合を

とし、ステップ（３．２．３）に移行する。
ステップ（３．２．３）：再割り当てする必要があるスレッドリソースが

であり、ただし、

がＪのエレメントの数であり、

であり、ステップ（３．２．２）に戻る。
ステップ（３．２．２）：

が存在していない場合、最終的なスレッドリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するメモリーリソース割り当てポリシー

を取得し、ステップ（３．２．４）に移行する。
ステップ（３．２．４）：同一“hospital2”にタスク

を対応させる。
ステップ（３．３）：メモリーリソースについて、以下のように、最適化割り当ての流れを実行しており、
ステップ（３．３．１）：すべてのクライアントのメモリーリソース要求総数キュー

について、サイズに従ってソートして、

及び添え字マッピングM=

を取得し、コンピューティングセンターのコンピューティングリソースプールの総メモリーリソースを

、予め

に与えられるリソースが

となる。
ステップ（３．３．２）：

が存在している場合、この集合を、

とし、ステップ（３．３．３）に移行する。
ステップ（３．３．３）：再割り当てする必要があるメモリーリソースが

，

であり、ただし、

がＪのエレメントの数であり、ステップ（３．３．２）に戻る。
ステップ（３．３．２）：

が存在していない場合、最終的なスレッドリソース割り当てポリシー

を出力し、添え字マッピングにより、ソートする前に戻す順序に対応するメモリーリソース割り当てポリシー

を取得し、ステップ（３．３．４）に移行する。
ステップ（３．３．４）：同一の“hospital2”にタスク

，

を対応させる。
ステップ（３．４）：ステップ（３．２）及びステップ（３．３）で得られた［ｎｔ_ｋ］及び［ｎｍ_ｋ］から、次の式を再構成する。

【数6】

ステップ（４）：コンピューティングキューＱの長さをコンピューティングし、

であり、４を循環境界条件として、Ｓｐａｒｋ．ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ（Ｓｐａｒｋ．ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔがＳｐａｒｋフレームワークにおけるストリーム処理タスクの作成命令インタフェースである）により、４個のストリームを作成し、Ｓｐａｒｋ．Ｃｏｎｆ（Ｓｐａｒｋ．ＣｏｎｆがＳｐａｒｋフレームワークにおけるストリーム処理タスクの配置命令インタフェースである）により、各ストリームに割り当てられたリソースを宣言し、Ｓｐａｒｋに実際のストリームタスクを順次送信することについて、
ストリーム１：データ“path1”をロードし、データに対してコンピューティングタスク“task1”を実行し、割り当てられたスレッドリソースが９となり、メモリーリソースが４となる。
ストリーム２：データ“path2”をロードし、データに対してコンピューティングタスク“task2”を実行し、割り当てられたスレッドリソースが９となり、メモリーリソースが９となる。
ストリーム３：データ“path3”をロードし、データにコンピューティングタス“task3”を実行し、割り当てられたスレッドリソースが４となり、メモリーリソースが９となる。
ストリーム４：データ“path4”をロードし、データにコンピューティングタスク“task4”を実行し、割り当てられたスレッドリソースが１０となり、メモリーリソースが１０となる。
ただし、ストリーム１、ストリーム２、ストリーム３を検査すると、中間結果及びコンピューティングタスクメタデータが存在している場合に、直接に、それに対応するステップからタスクをコンピューティングし始める。
（５）：ストリーム処理されているタスクについて、

【数7】

ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ＣｈｅｃｋＰｏｉｎｔｉｎｇ（ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ＣｈｅｃｋＰｏｉｎｔｉｎｇがＳｐａｒｋフレームワークにおけるストリーム処理タスクのデータ持続化命令インタフェースである）により、ストリーム処理過程におけるＨＤＦＳへのデータの読み取り、データの前処理キャッシュ、コンピューティング、戻りという四つのステップにおいて、データストリームを持続化させる操作を実行し、中間結果及びコンピューティングタスクメタデータをｐａｔｈ１、ｐａｔｈ２、ｐａｔｈ３、ｐａｔｈ４に記憶し、同時に、キューの更新状況を監視し、キューの更新を監視した場合に、ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ｓｔｏｐ（ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ．ｓｔｏｐがＳｐａｒｋフレームワークにおけるストリーム処理タスクの中止命令インタフェースである）により、当該ストリームを停止させ、ステップ（４）に戻り、ストリーム処理におけるコンピューティングタスクが完了した場合に、当該ストリーム処理タスクに対応するクライアントに、タスク処理結果を返し、タスクをキューＱから取り出す。

【0013】

以上は、本発明の実施例に過ぎず、本発明の保護範囲を限定するものではない。本発明の趣旨及び原則を逸脱しない限り創造的労働を経ずに行われたいかなる修正、均等置換や改良などは、いずれも本発明の保護範囲に含まれる。

【要約】

【課題】本発明は、Ｓｐａｒｋに基づくマルチセンターのデータ協調コンピューティングのストリーム処理方法を提供する。
【解決手段】複数のクライアントは、ユーザーによるコンピューティングタスク要求を生成してコンピューティング端末に送信し、コンピューティング端末は、要求を解析し、コンピューティング命令を生成して実行する。本発明は、マルチセンターのデータコンピューティングの要求及び操作の、ストリーム処理コンピューティングを実行することにより、プログラム実行性能及びリソース割り当て効率を改善する。リソース管理ログとＲＥＳＴＦｕｌを設定し、マルチセンターからのＳｐａｒｋ要求タスクに占められ、要求されるメモリー及びスレッドリソースを正確に制御し記録する。マクシミン規準のポリシーを用いて、ストリームコンピューティングにおける各テップのリソース割り当てを実行する。本発明は、マルチセンターのデータ協調コンピューティングにおける数多くのスレッドによって引き起こされるブロッキング遅延という問題を解決して、単一のユーザーの待ち時間を減らし、リソース割り当ての柔軟性及び公平性を改善する。

【選択図】図１

【図1】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版