【文献】
中田秀基,井上辰彦,小川宏高,工藤知宏,PrefixSpan法のMapReduce実装の改良,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2012年10月 5日,Vol.112,No.237,(CPSY2012-31〜46),pp.55〜60
(58)【調査した分野】(Int.Cl.,DB名)
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップであって、キー・バリューペアが、属性を表すキーと属性内容を表すバリューとを含む、ステップと;
前記ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記ホットスポットのキー・バリューペアをマッピングするステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記中間結果のキー・バリューペアを整理するステップと;
非ホットスポットのキー・バリューペアが呼び出される場合、呼び出しのためのデータを生成するために、reduce関数を用いて、前記非ホットスポットのキー・バリューペアを処理するステップと;を備える、
データ処理方法。
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、前記2つの属性の前記キー・バリューペアの属性内容のキー値の間隔の和集合を前記スクリーニング規則の規則条件として設定するステップを更に備える、
請求項6に記載のデータ処理方法。
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記処理すべきキー・バリューペアをマッピングするステップであって、前記キー・バリューペアは、属性を表すキーと属性内容を表すバリューとを含む、ステップと;
スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するステップと;
非ホットスポットのキー・バリューペアが呼び出される場合、呼び出しのためのデータを生成するために、reduce関数を用いて、前記非ホットスポットのキー・バリューペアを処理するステップと;を備える、
データ処理方法。
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するように構成された整理モジュールであって、非ホットスポットのキー・バリューペアが呼び出される場合、呼び出しのためのデータを生成するために、reduce関数を用いて、前記非ホットスポットのキー・バリューペアに関する処理を行うように構成された、前記整理モジュールと;を備え、
前記キー・バリューペアが、属性を表すキーと属性内容を表すバリューとを含む、
データ処理システム。
【発明を実施するための形態】
【0015】
既存のデータ処理方法における、データ処理時間が長い、実行効率が低い、円滑なサービスの特定の要件を満たせない、及びユーザエクスペリエンスが良くないという技術的課題を解決するため、本願の実施の形態は、データ処理方法及び対応するシステムを提供する。この方法及び対応するシステムにおいて、データ処理システムは、ホットスポットのキー・バリューペアを前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それによりサービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
【0016】
本願の目的、技術的な解決策、及び利点をより理解し易くするために、本願の技術的な解決策を本願の特定の実施の形態及びこれと対応する図面を参照しながら明瞭かつ完全に以下に説明する。説明する実施の形態は、明らかに、本願の全てではなく単にそのいくつかでしかない。本願の実施の形態に基づき、当業者によって創造的な努力なく導かれるその他の全ての実施の形態は、本願の保護範囲に含まれるものである。
【0017】
Hadoopシステムは:
Map−Reduceジョブを送信するように構成されたクライアント端末(JobClient)と;
Java(登録商標)プロセスであり、ジョブ全体の遂行を調整するように構成されたジョブトラッカ(JobTracker)と;
Java(登録商標)プロセスであり、ジョブのタスクを遂行するように構成されたタスクトラッカ(TaskTracker)と;
ジョブに関連するファイルをプロセス間で共有させるように構成されたHadoop分散ファイルシステム(HDFS)と;を含むことができる。
【0018】
Hadoopシステムのジョブプロセスは、以下を含むことができる:
1.タスク送信
クライアント端末がジョブトラッカに新しいジョブコードを要求し、新しいジョブインスタンスを創出し、submitJob関数を呼び出す。
2.タスク初期化
submitJob関数の呼び出しを受信すると、ジョブトラッカは、タスクを取得して初期化する。ジョブトラッカは、タスクを創出し、タスクコードを割り当てる。
3.タスク割り当て
ジョブトラッカはタスクをタスクトラッカに割り当てる。
4.タスク実行
タスクを割り当てられた後、タスクトラッカは、タスクの遂行を開始する。マッピング時に、タスクトラッカはmap関数を呼び出し、タスクを処理する、即ち、元のキー・バリューペアを処理して中間結果のキー・バリューペアを生成し、一連のキー値に応じて中間結果のキー・バリューペアを出力する。次いで、タスクトラッカは、reduce関数を呼び出して中間結果のキー・バリューペアを処理し、最終結果のキー・バリューペアを生成する。
5.タスク終了
タスクが全て遂行されて成功したことを示すタスクトラッカのレポートを得た後、ジョブトラッカはジョブを終了する。
【0019】
図1は、本願の実施の形態によるデータ処理方法のフローチャートであり、具体的には、以下のステップを含む:
S100:スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する。
【0020】
データは、データのプロパティを記述する属性と数値、即ち、一般に記載されるキー・バリューペアとして具体化される。キー・バリューペアは、属性を表すキー値と、属性内容を表すキー値とを含む。属性内容は、リスト、ハッシュマップ(hash map)、文字列、数値、Boolean値、順序付きリスト列(array)、null値などを含むが、これらに限定されない。例えば、{“name”:“Wang Xiao’er”}は、「name」が「Wang Xiao’er」である人のデータを意味する。
【0021】
特定の実施の形態において、スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは、具体的に、幾つかの処理すべきキー・バリューペアが、ホットスポットのキー・バリューペアとしてランダムに選択され得ることを含む。実際には、処理すべきキー・バリューペアがホットスポットのキー・バリューペアであるか否かを判断することは、とりわけ数百万、或いは数億もの処理すべきキー・バリューペアが存在する場合には複雑なプロセスとなる。本願の実施の形態において、データ処理システムは、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択することで、処理すべきキー・バリューペアがホットスポットのキー・バリューペアであるか否か判断するプロセスを単純化し、この方法のデータ処理効率を高める。
【0022】
ホットスポットのキー・バリューペアは、サービスシステムによる呼び出しに備えて前処理される一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それにより、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
【0023】
別の特定の実施の形態において、
図2を参照すると、スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは、具体的に以下を含む:
S101:第1の数の、処理すべきキー・バリューペアが、候補のキー・バリューペアとしてランダムに選択される。
S102:候補のキー・バリューペアの中から各キー・バリューペアの呼び出される頻度がカウントされる。
S103:候補のキー・バリューペアが、頻度に応じて並べられる。
S104:最大呼び出し頻度を有する第2の数のキー・バリューペアが、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択される。
第1の数は、第2の数よりも大きい。
【0024】
本願の実施の形態において、まず、データ処理システムが、第1の数の、マッピングのキー・バリューペアを、候補のキー・バリューペアとしてランダムに選択する。第1の数は一般に特定のサービスに対応する。第1の数の数値は、過去の経験に応じて設定された値であっても、動的な調節及び変更を通じてコンピュータにより生成された数値であってもよい。
【0025】
次いで、データ処理システムは、候補のキー・バリューペアのそれぞれのキー・バリューペアが呼び出される頻度をカウントし、候補のキー・バリューペアを頻度に応じて並べる。特定のサービス活動においては、サービスシステムをサポートするために、一般に一定の数のキー・バリューペアを呼び出すことが必要とされる。この場合、データ処理システムは、それぞれのキー・バリューペアが呼び出される頻度、即ち、一定時間内にそれぞれのキー・バリューペアが呼び出される回数を追跡して記録する。更に、データ処理システムは更に、キー・バリューペアを、呼び出し頻度に応じて降順に並べてもよい。
【0026】
次に、データ処理システムは、最大呼び出し頻度を有する第2の数のキー・バリューペアを、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択する。第1の数は、第2の数よりも大きい。同様に、第2の数の数値は、過去の経験に応じて設定された値であってもよく、動的な調節及び変更を通じてデータ処理システムによって生成される数値であってもよい。選択されるホットスポットのキー・バリューペアが呼び出される頻度は、候補のキー・バリューペアが呼び出される頻度よりも高い。データ処理システムは、他の候補のキー・バリューペアを前処理することなく、ホットスポットのキー・バリューペアを前処理する。前処理されるキー・バリューペアが呼び出される確率は、他のキー・バリューペアが呼び出される確率よりも高い。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が向上し、サービスシステムがデータ処理結果を待つ時間が短縮され、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
【0027】
更に、本願の実施の形態において、マッピングキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定するステップと;
サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するステップと;を更に備える。
【0028】
本願の実施の形態において、サービスカテゴリ条件セットは、過去の経験に応じた固定値セットであってもよく、動的な調節及び変更を通じて生成されてもよい。実際には、サービス活動のサービスシステムによって呼び出されるキー・バリューペアは一般に、他のサービス活動と区別するための幾つかの特定のプロパティを有する。例えば、情報を推奨するサービスシステムによって呼び出されるキー・バリューペアは、支払いのためのサービスシステムによって呼び出されるキー・バリューペアと比べると、特定のプロパティを有する。情報を推奨するサービスシステムは、受信者の年齢を示すキー・バリューペアに関連付けることができる。例えば、ウェディング商品に関する情報が推奨されても、16歳未満の受信者にとって通常は価値のない情報である。情報を推奨するためのサービスシステムのサービスカテゴリ条件セットが年齢を示すキー・バリューペアを含んでいれば、望ましい推奨効果を得ることができる。
【0029】
したがって、処理すべきキー・バリューペアのサービスカテゴリ条件セットが設定され、データ処理システムは、サービスカテゴリ条件セットに対する判断を通じて多数の処理すべきキー・バリューペアをフィルタリングすることにより、ホットスポットのキー・バリューペアの選択精度を高めることができる。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が向上し、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
【0030】
本願の更なる特定の実施の形態では、スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは、具体的に:
ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定するステップと;
キー・バリューペアの呼び出される頻度が呼び出し頻度閾値より高い場合に、キー・バリューペアをホットスポットのキー・バリューペアとして設定するステップと;を備える。
【0031】
本願の実施の形態において、キー・バリューペアの呼び出し頻度が設定され、キー・バリューペアの呼び出される頻度が呼び出し頻度の閾値よりも高い場合、データ処理システムは、そのキー・バリューペアをホットスポットのキー・バリューペアとして設定する。データ処理システムは、他のキー・バリューペアを前処理することなく、ホットスポットのキー・バリューペアを前処理する。前処理されるキー・バリューペアが呼び出される確率は、他のキー・バリューペアが呼び出される確率よりも高い。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が向上し、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑となり、ユーザエクスペリエンスが望ましいものとなる。
【0032】
S200:ホットスポットのキー・バリューペアがマッピングされてホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得る。
【0033】
本願において提供される実施の形態では、クライアント端末(JobClient)は、Map−Reduceジョブをジョブトラッカに送信し、新しいジョブインスタンスを創出し、submitJob関数を呼び出す。submitJob関数の呼び出しを受信すると、ジョブトラッカは、タスクを取得して初期化する。ジョブトラッカは、タスクを創出し、タスクコードを割り当てる。ジョブトラッカはタスクをタスクトラッカに割り当てる。タスクを割り当てられた後、タスクトラッカは、タスクの遂行を開始する。マッピング時に、タスクトラッカはmap関数を呼び出し、タスクを処理する、即ち、元のキー・バリューペアを処理して中間結果のキー・バリューペアを生成し、一連のキー値に応じて中間結果のキー・バリューペアを出力する。
【0034】
S300:中間結果のキー・バリューペアを整理(Reduce)して呼び出しのための最終結果のキー・バリューペアを生成する。
【0035】
このステップでは、タスクトラッカは、reduce関数を呼び出して中間結果のキー・バリューペアを処理し、最終結果のキー・バリューペアを生成する。タスクが全て遂行されて成功したことを示すタスクトラッカのレポートを得た後、ジョブトラッカは、最終結果のキー・バリューペアをHDFSに格納し、ジョブを終了する。
【0036】
本願の実施の形態において、データ処理システムは、ホットスポットのキー・バリューペアを前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限り処理される。それによりサービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
【0037】
本願において提供される実施の形態では、本方法は、機械学習モデルを用いることによりスクリーニング規則を最適化するステップを更に含む。
【0038】
機械学習モデルは、人工知能に関係する。本願の実施の形態において、スクリーニング規則は、機械学習モデルを用いて最適化される。データ処理システムが一定時間稼動した後、ホットスポットのキー・バリューペアと非ホットスポットのキー・バリューペアとを判定する精度を大幅に向上させることができる。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑となり、ユーザエクスペリエンスが望ましいものとなる。
【0039】
機械学習モデルのタイプは、特定のサービスシステムに応じて選択され、スクリーニング規則に対する機械学習モデルの最適化は、単純に以下のように導入される。
【0040】
具体的には、単一の属性に対するキー・バリューペアが呼び出される頻度の分散条件は、機械学習モデルにおいてクラスタ化アルゴリズムを用いることによりカウントされる。
【0041】
単一の属性に対するキー・バリューペアが呼び出される頻度の分散条件に従い、キー・バリューペアの呼び出される頻度が予め設定された頻度閾値以上となる、属性内容のキー値の間隔が選択される。
【0042】
属性内容のキー値の間隔は、スクリーニング規則の規則条件として設定される。
【0043】
情報を推奨するための上記サービスシステムを引き続き例に取り、以下説明する。ここで、サービスシステムが統計を取ることにより、情報を推奨するためのサービスが予め設定された割合、例えば50%、を超えていることを把握し、受信者の年齢を示すキー・バリューペアが呼び出されると仮定する。機械学習モデルは、K平均クラスタ化アルゴリズムを通じてスクリーニング規則を最適化する。
【0044】
サンプルセット(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)がm個のカテゴリ(頻度セグメント)に分類されると仮定すると、アルゴリズムは以下のように記述される:
(1)m個のカテゴリ(頻度セグメント)の初期中心(頻度)を適切に選択する。
(2)k番目の反復において、任意のサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)からm個の中心までの距離(頻度差)を求め、そのサンプル(受信者の年齢を示すキー・バリューペアと、キー・バリューペアが呼び出される頻度)を、最小距離を有する中心が属するカテゴリ(頻度セグメント)に分類する。
(3)平均法を用いてカテゴリ(頻度セグメント)の中央値(頻度)を更新する。
(4)m個の中央値(頻度)全てについて、(2)及び(3)の反復法を用いて更新した後も値が変化しない場合には反復を終了し、そうでない場合は反復を続ける。
(5)m個のカテゴリ(頻度セグメント)のそれぞれのカテゴリ(頻度セグメント)について、n個のカテゴリ(年齢グループ)の初期中心(年齢)を適切に選択する。
(6)k番目の反復において、任意のサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)からn個の中心までの距離(年齢差)を求め、そのサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)を、最小距離を有する中心が属するカテゴリ(年齢グループ)に分類する。
(7)平均法を用いてカテゴリ(年齢グループ)の中央値(年齢)を更新する。
(8)n個の中央値(年齢)全てについて、(6)及び(7)の反復法を用いて更新した後も値が変化しない場合には反復を終了し、そうでない場合には反復を続ける。
【0045】
このアルゴリズムを用いることにより、年齢に対する呼び出し頻度が高い処理すべきキー・バリューペアのクラスタ化規則を、計算を通じて得ることができる。受信者の年齢が或るカテゴリ(年齢グループ)に含まれるということを、スクリーニング規則の規則条件として用いる。例えば、受信者の年齢が12〜18歳であることが、処理すべきキー・バリューペアがホットスポットのキー・バリューペアであると判定する規則条件として用いられる。機械学習モデルを用いてスクリーニング規則を最適化した後、サービスシステムは、最適化されたスクリーニング規則に従い、処理すべきキー・バリューペアの中からホットスポットのキー・バリューペアをスクリーニングする。
【0046】
本願で提供される実施の形態において、規則最適化モジュールは:
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、2つの属性のキー・バリューペアの属性内容のキー値の間隔の和集合をスクリーニング規則の規則条件として設定するように更に構成される。
【0047】
機械学習モデルは、受信者の年齢の次元においてスクリーニング規則の最適化を達成した後、受信者の職業の次元において更にスクリーニング規則に対する最適化を達成すると仮定する。
【0048】
データ処理システムは、受信者が或る年齢グループに属することを示す処理すべきキー・バリューペアと、受信者が或る職業を持っていることを示す処理すべきキー・バリューペアとは、情報の推奨に高度に関係していることを計算する。例えば、或る処理すべきキー・バリューペアが受信者が20〜30歳の年齢グループに属していることを示し、或る処理すべきキー・バリューペアが受信者がコンピュータ産業に属していることを示す場合、サービスシステムが情報を推奨する際に、この2つの次元の特徴を同時に有する受信者に対しては、望ましいサービス促進効果を得ることができる。次に、機械学習モデルは、受信者が20〜30歳の年齢グループに属していることを示す処理すべきキー・バリューペアを、受信者がコンピュータ産業に属していることを示す処理すべきキー・バリューペアと関連付けて、ホットスポットのキー・バリューペアデータグループを形成する。
【0049】
データ処理システムは更に、機械学習モデルを用いてホットスポットのキー・バリューペアデータグループが呼び出される頻度をランク付けし、ホットスポットのキー・バリューペアデータグループをホットスポットデータグループと非ホットスポットデータグループとに分類する。ホットスポットデータグループの動的調節モードは、ホットスポットデータグループの呼び出し頻度閾値を設定し、データグループにおけるキー・バリューペアが呼び出されるの頻度が頻度閾値より高い場合、そのデータグループをホットスポットデータグループとして設定する。
【0050】
本願の実施の形態では、データグループの処理優先順位値が設定される。優先順位値は、処理すべきキー・バリューペアの加重和値を計算することによって得られる。データグループの処理優先順位は、優先順位値に応じて動的に調節される。データグループにおけるキー・バリューペアが1回呼び出されると、データグループの優先順位値が1単位上昇する。データグループの優先順位値がそれより上位のデータグループの優先順位値を超えると、データ処理システムは、そのデータグループを1段前に進める。機械学習モデルを用いることによるスクリーニング規則の最適化を通じ、データ処理システムによって処理すべきキー・バリューペアの中から選択されるホットスポットのキー・バリューペアは、呼び出される頻度が最大のマッピングのキー・バリューペアであり、その場合、キー・バリューペアを関連付けることによって形成されるホットスポットデータグループは、呼び出される頻度が最大のデータグループとなる。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
【0051】
本願で提供される実施の形態において、方法は:
非ホットスポットのキー・バリューペアが呼び出される場合、reduce関数を用いることにより、呼び出しのためのデータを生成するために、非ホットスポットのキー・バリューペアを処理するステップを更に備える。
【0052】
本願の実施の形態において、ホットスポットのキー・バリューペアは、reduce関数を用いるデータ処理システムによって前処理されてサービスシステムによる呼び出しのためのデータが生成される。非ホットスポットのキー・バリューペアがサービスシステムによって呼び出される場合、reduce関数を用いるデータ処理システムによりキー・バリューペアがリアルタイムで処理されてサービスシステムによる呼び出しのためのデータが生成される。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が高まり、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
【0053】
本願の実施の形態の別の態様では、データ処理方法は:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するステップと;
を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
【0054】
指摘すべきことは、上記の特定の実施の形態との違いは、キー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップが、マッピング処理ステップの後で行われるように設定されている点である。本願の実施の形態において、処理低減のキー・バリューペアのデータ量が軽減され、データが大量であるという課題はある程度解決される。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が高まり、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
【0055】
本願の実施の形態によるデータ処理方法は、上記で説明されている。同様の思想に基づいて、
図3を参照し、本願は更にデータ処理システム1を提供し:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10と;
ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュール20と;
呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理(Reduce)するように構成された整理モジュール30と;
を備え、
キー・バリューペアは、属性を表すキー値と数値を表すキー値とを含む。
【0056】
さらに、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するように構成される。
【0057】
処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的に:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択し;
候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントし;
候補のキー・バリューペアを頻度に応じて並べ;
最大呼び出し頻度を有する第2の数のキー・バリューペアを、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択する;ように構成され、
第1の数が第2の数よりも大きい。
【0058】
マッピングのキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的に:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定し;
サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択する;ように更に構成される。
【0059】
更に、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的に:
ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定し;
キー・バリューペアの呼び出される頻度が呼び出し頻度閾値よりも高い場合に、キー・バリューペアをホットスポットのキー・バリューペアとして設定する;ように構成される。
【0060】
更に、システムは、機械学習モデルを用いることによりスクリーニング規則を最適化するように構成された規則最適化モジュール40を更に備える。
【0061】
更に、マッピングモジュール20は、非ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、非ホットスポットのキー・バリューペアをマッピングするように構成される。
【0062】
更に、データ処理システム1は:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュール20と;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10と;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するように構成された整理モジュール30と;を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
【0063】
本願の実施の形態において、データ処理システムは、ホットスポットのキー・バリューペアを前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それによりサービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
【0064】
当業者は、本願の実施の形態は、方法、システム、又はコンピュータプログラム製品として提供され得ることを理解するはずである。したがって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェアとハードウェアの組み合わせの実施の形態において実現できる。さらに、本発明は、コンピュータで用いることができるプログラムコードを含む1つ以上のコンピュータで用いることができる記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリなどを非限定的に含む)上で実現されるコンピュータプログラム製品であってもよい。
【0065】
本発明を、本発明の実施の形態による、方法、デバイス(システム)、及びコンピュータプログラムプロダクトによるフローチャート及び/又はブロック図を参照に説明した。コンピュータプログラム命令を用いて、フローチャート及び/又はブロック図の各工程及び/又はブロックを実施でき、またフローチャート及び/又はブロック図の工程及び/又はブロックの組み合わせを実施できることは言うまでもない。これらのコンピュータプログラム命令を、汎用コンピュータ、専用コンピュータ、組込み型プロセッサ、又はマシンを生成する別のプログラム可能な数値処理デバイスに提供することで、コンピュータ又は別のプログラム可能な数値処理デバイスのプロセッサによって実行される命令が、フローチャートの1つ以上の工程及び/又はブロック図の1つ以上のブロックにおける特定機能を実施する装置を生成する。
【0066】
これらのコンピュータプログラム命令は、コンピュータ又は別のプログラム可能な数値処理デバイスを特定方法で作動するよう命令できるコンピュータで読取り可能なメモリに格納することもでき、コンピュータで読取り可能なメモリに格納された命令は、命令装置を含む製造物品を生成する。この命令装置は、フローチャートの1つ以上の工程における、及び/又は、ブロック図の1つ以上のブロックにおける特定機能を実施する装置である。
【0067】
これらのコンピュータプログラム命令はコンピュータ又は別のプログラム可能なデータ処理デバイスにロードすることもでき、そうすることで一連の演算ステップがコンピュータ又は別のプログラム可能なデバイス上で実行され、コンピュータ実装処理を達成することができる。したがって、コンピュータ又は別のプログラム可能なデバイス上で実行される命令は、フローチャートの1つ以上の工程、及び/又はブロック図の1つ以上のブロックにおける特定の機能を実施するためのステップを提供する。
【0068】
典型的な構成では、コンピュータデバイスは1つ以上のプロセッサ(CPU)、入/出力インターフェース、ネットワークインターフェース、及びメモリを含んでいる。
【0069】
メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM)、及び/又は、例えば読出し専用メモリ(ROM)又はフラッシュRAMのようなコンピュータで読取り可能な媒体内の不揮発性メモリなどを含んでよい。メモリはコンピュータで読取り可能な媒体の一例である。
【0070】
コンピュータで読取り可能な媒体は、可動及び非可動媒体と同様に、不揮発性及び揮発性媒体を含み、また、任意の方法あるいは技術によって情報記憶を実行できる。情報はコンピュータで読取り可能な命令、データ構造、及び、プログラムの又はその他のデータのモジュールであってよい。コンピュータの記憶媒体は、例えば、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、その他のタイプのRAM、ROM、電気的消去再書込み可能な読出し専用メモリ(EEPROM)、フラッシュメモリ若しくはその他のメモリ技術、コンパクトディスク読取り専用メモリ(CD−ROM)、デジタル多目的ディスク(DVD)若しくはその他の光学記憶装置、カセットテープ、磁気テープ/磁気ディスク記憶装置若しくはその他の磁気記憶デバイス、又は他のあらゆる非伝送媒体を非限定的に含み、また、アクセス可能な情報を保存するために計算デバイスを使用できる。本明細書の定義によれば、コンピュータで読取り可能な媒体は、変調データ信号及び搬送波のような一時的媒体を含まない。
【0071】
用語「含む」、「備える」、又はこれらの他の派生形は、非排他的な包含をカバーすることを意図し、一連の要素を含む工程、方法、商品、デバイスは、要素を含むだけでなく、明確に示されていないその他の要素をも含むか、あるいは、その工程、方法、商品、デバイスに固有な要素をさらに含む点にも留意されたい。さらなる制限をせずに、表現「〜を含む(include a/an…)」によって定義される要素は、その要素を含む工程、方法、商品、デバイスがその他の同じ要素をさらに有することを除外するものではない。
【0072】
当業者は、本願の実施の形態を、方法、システム、コンピュータプログラム製品として提供できることを理解すべきである。したがって、本願は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェアとハードウェアの組み合わせの実施の形態の形態で実施できる。さらに、本願は、1つ以上のコンピュータで使用可能な記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリなどを非限定的に含む)上で実施できるコンピュータプログラム製品(コンピュータで使用可能なプログラムコードを含む)の形態を採ることができる。
【0073】
上記記載は単なる本願の実施の形態であり、本願を制限することを意図するものではない。当業者は、本願に様々な変更及び改造を行うことができる。本願の精神及び原理から逸脱せずになされるあらゆる改変、均等物との置き換え、改良等は、すべて本願の請求の範囲に包含されるべきものである。
[第1の局面]
データ処理方法であって:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
前記ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記ホットスポットのキー・バリューペアをマッピングするステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記中間結果のキー・バリューペアを整理するステップと;を備え、
前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
データ処理方法。
[第2の局面]
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するステップを備える、
第1の局面に記載の方法。
[第3の局面]
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的に:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップと;
前記候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントするステップと;
前記候補のキー・バリューペアを前記頻度に応じて並べるステップと;
降順の呼び出し頻度に応じて第2の数のキー・バリューペアを、前記候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択するステップと;を備え、
前記第1の数が、前記第2の数よりも大きい、
第1の局面に記載の方法。
[第4の局面]
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択する前記ステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定するステップと;
前記サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するステップと;を更に備える、
第3の局面に記載の方法。
[第5の局面]
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的に:
前記ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定するステップと;
キー・バリューペアが呼び出される前記頻度が前記呼び出し頻度閾値より高い場合に、前記キー・バリューペアをホットスポットのキー・バリューペアとして設定するステップと;を備える、
第1の局面に記載の方法。
[第6の局面]
前記方法が、機械学習モデルを用いることにより前記スクリーニング規則を最適化するステップを更に備える、
第1の局面に記載の方法。
[第7の局面]
機械学習モデルを用いることにより前記スクリーニング規則を最適化する前記ステップが、具体的に:
前記機械学習モデルにおいてクラスタ化アルゴリズムを用いることにより単一の属性に対する前記キー・バリューペアが呼び出される頻度の分散条件をカウントするステップと;
単一の属性に対する前記キー・バリューペアが呼び出される頻度の前記分散条件に従い、前記キー・バリューペアが呼び出される前記頻度が予め設定された頻度閾値以上となる属性内容のキー値の間隔を選択するステップと;
属性内容のキー値の前記間隔を前記スクリーニング規則の規則条件として設定するステップと;を備える、
第6の局面に記載の方法。
[第8の局面]
前記方法が:
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、前記2つの属性の前記キー・バリューペアの属性内容のキー値の間隔の和集合を前記スクリーニング規則の規則条件として設定するステップを更に備える、
第7の局面に記載の方法。
[第9の局面]
前記方法が:
非ホットスポットのキー・バリューペアが呼び出される場合、reduce関数を用いることにより前記非ホットスポットのキー・バリューペアを処理して呼び出しのためのデータを生成するステップを更に備える、
第1の局面に記載の方法。
[第10の局面]
データ処理方法であって:
前記処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するステップと;を備え、
前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
データ処理方法。
[第11の局面]
データ処理システムであって:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
前記ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記中間結果のキー・バリューペアを整理するように構成された整理モジュールと;を備え、
前記キー・バリューペアが、属性を表すキー値と数値を表すキー値とを含む、
データ処理システム。
[第12の局面]
処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するように構成された、
第11の局面に記載のシステム。
[第13の局面]
処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択し、
前記候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントし、
前記候補のキー・バリューペアを前記頻度に応じて並べ、
最大呼び出し頻度を有する第2の数のキー・バリューペアを、前記候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択するように構成され、
前記第1の数が前記第2の数よりも大きい、
第11の局面に記載のシステム。
[第14の局面]
マッピングのキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択する前記ステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定し、
前記サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するように更に構成された、
第13の局面に記載のシステム。
[第15の局面]
処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
前記ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定し、
キー・バリューペアが呼び出される前記頻度が前記呼び出し頻度閾値よりも高い場合に、前記キー・バリューペアをホットスポットのキー・バリューペアとして設定するように構成された、
第11の局面に記載のシステム。
[第16の局面]
前記システムが、機械学習モデルを用いることにより前記スクリーニング規則を最適化するように構成された規則最適化モジュールを更に備える、
第11の局面に記載のシステム。
[第17の局面]
前記規則最適化モジュールが、
前記機械学習モデルにおいてクラスタ化アルゴリズムを用いることにより単一の属性に対する前記キー・バリューペアが呼び出される頻度の分散条件をカウントし、
単一の属性に対する前記キー・バリューペアが呼び出される頻度の前記分散条件に従い、前記キー・バリューペアが呼び出される前記頻度が予め設定された頻度閾値以上となる属性内容のキー値の間隔を選択し、
属性内容のキー値の前記間隔を前記スクリーニング規則の規則条件として設定するように構成された、
第16の局面に記載のシステム。
[第18の局面]
前記規則最適化モジュールが、
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、前記2つの属性の前記キー・バリューペアの属性内容のキー値の間隔の和集合を前記スクリーニング規則の規則条件として設定するように更に構成された、
第17の局面に記載のシステム。
[第19の局面]
非ホットスポットのキー・バリューペアが呼び出される場合、前記マッピングモジュールが、前記非ホットスポットのキー・バリューペアをマッピングして前記非ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るように構成された、
第18の局面に記載のシステム。
[第20の局面]
データ処理システムであって:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するように構成された整理モジュールと;を備え、
前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
データ処理システム。