特許6642651 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 広東技術師範学院の特許一覧 ▶ 新華三技術有限公司の特許一覧 ▶ 広東交通職業技術学院の特許一覧

特許6642651ユーザアクセスプリファレンスモデルを用いたストレージ方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6642651

(24)【登録日】2020年1月8日

(45)【発行日】2020年2月12日

(54)【発明の名称】ユーザアクセスプリファレンスモデルを用いたストレージ方法

(51)【国際特許分類】

G06F 16/13 20190101AFI20200130BHJP

G06F 16/182 20190101ALI20200130BHJP

G06F 16/185 20190101ALI20200130BHJP

【ＦＩ】

G06F16/13 100

G06F16/182

G06F16/185

【請求項の数】1

【全頁数】9

(21)【出願番号】特願2018-147290(P2018-147290)

(22)【出願日】2018年8月4日

(65)【公開番号】特開2019-204474(P2019-204474A)

(43)【公開日】2019年11月28日

【審査請求日】2018年10月25日

(31)【優先権主張番号】201810500258.6

(32)【優先日】2018年5月22日

(33)【優先権主張国】CN

【早期審査対象出願】

(73)【特許権者】

【識別番号】518149350

【氏名又は名称】広東技術師範学院

(73)【特許権者】

【識別番号】518056748

【氏名又は名称】新華三技術有限公司

【氏名又は名称原語表記】ＮＥＷＨ３ＣＴＥＣＨＮＯＬＯＧＩＥＳＣＯ．，ＬＴＤ．

(73)【特許権者】

【識別番号】518279336

【氏名又は名称】広東交通職業技術学院

(74)【代理人】

【識別番号】718003500

【氏名又は名称】鄒静文

(72)【発明者】

【氏名】魏文国

(72)【発明者】

【氏名】黄雄

(72)【発明者】

【氏名】陳木朝

(72)【発明者】

【氏名】蔡君

(72)【発明者】

【氏名】謝桂園

(72)【発明者】

【氏名】趙慧民

(72)【発明者】

【氏名】彭建烽

【審査官】後藤彰

(56)【参考文献】

【文献】特表２０１３−５４１０５７（ＪＰ，Ａ）

【文献】中国特許出願公開第１０４７３１９２１（ＣＮ，Ａ）

【文献】中国特許出願公開第１０３６７８４９１（ＣＮ，Ａ）

【文献】中国特許出願公開第１０３５７７１２３（ＣＮ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／１３

Ｇ０６Ｆ１６／１８２

Ｇ０６Ｆ１６／１８５

(57)【特許請求の範囲】

【請求項1】

ユーザアクセスプリファレンスモデルを用いたストレージ方法であって、ＨＤＦＳが以下を実行する方法：
ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを用いて前記ストレージされるファイルの関連ファイルセットを見つけ、ここで、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものである、ステップＢ：前記関連ファイルセットのミドルファイルと前記ストレージされるファイルをマージするキューに追加し、ステップＣ：前記マージするキューのすべてのファイルの総サイズが１２８ＭＢを超えるかどうかを判断し、イエスであれば、ステップＤに進み、そうでなければ、ステップＥに進み、ステップＤ：マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢに進み、ステップＥ：前記関連ファイルセットのファイルと前記ストレージされるファイルが全部前記マージするキューに追加されたかどうかを判断し、イエスであれば、前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＦに進み、そうでなければ、ステップＢに戻り、ステップＦ：マージしたすべてのデータブロックをＨＤＦＳシステムにストレージし、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものであり、具体的には：前記ユーザアクセスログレコードからアクティブユーザセットを統計し、前記アクティブユーザセットにアクセスされた小さなファイルをｂｅａｎオブジェクトで表し、前記小さなファイルがサイズが２ＭＢ又は２ＭＢ以下のファイルであり、その中に、前記ｂｅａｎオブジェクトのプロパティが該小さなファイルにアクセスしたユーザＩＤ、ユーザにアクセスされた小さなファイルの名前及び該小さなファイルがアクセスされた回数を含み、ＪＤＢＣテクノロジを用いて、前記ｂｅａｎオブジェクトをＭｙｓｑｌデータベースに永続化してストレージし、ストレージされたデータによって、任意の二つの異なるアクセス動作の類似性をアカウントし、任意の二つの異なるアクセス動作の類似性が正の場合、前記任意の二つの異なるアクセス動作のユーザが類似ユーザであり、類似ユーザのＩＤレコードを記録して関連ファイルセットによってすべての類似ユーザにアクセスされ、関連付けられたファイル情報をストレージし、前記関連ファイルセットによって、前記ユーザアクセスプリファレンスモデルを構築する、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には：アクセスされたソースの接尾辞がｊｐｇであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザＩＤ、アクセスページＵＲＬ、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターＩＰと小さなファイルの名前をストレージし、ビジターＩＰを前記二次元配列でトラバースし、ＨａｓｈＭａｐコレクションを使用して各ビジターＩＰのトラフィックを統計し、前記ＨａｓｈＭａｐコレクションのＫｅｙ値がビジターＩＰであり、Ｖａｌｕｅ値がトラフィックであり、前記ＨａｓｈＭａｐコレクションをＶａｌｕｅ値の降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションを使用して該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークすることを特徴とするユーザアクセスプリファレンスモデルを用いたストレージ方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明はコンピュータテクノロジー分野に関し、具体的には、ユーザアクセスプリファレンスモデルを用いたストレージ方法に関する。

【背景技術】

【0002】

Ｈａｄｏｏｐは２００５年にＡｐａｃｈｅＦｏｕｎｄａｔｉｏｎによってＬｕｃｅｎｅのサブプロジェクトであるＮｕｔｃｈの一部分として正式に導入されたものである。Ｈａｄｏｏｐの最も重要な二つの設計はＨＤＦＳとＭａｐＲｅｄｕｃｅである。ＨＤＦＳは大量なデータをストレージし、ファイルがデータブロックの形でシステムにストレージされる。また、ＨＤＦＳのデータブロックは通常のディスクに定義されたデータブロック（通常は５１２Ｂ）よりも遥かに大きく、ＨＤＦＳの現在のデフォルトブロックサイズは１２８ＭＢである。もしＨＤＦＳにストレージされたファイルのサイズが１２８に超えると、ＨＤＦＳは該ファイルを複数のブロックサイズのブロックに分割し、別々にストレージする。また、ＨＤＦＳが絶えずに小さなファイルをＴＢひいてはＰＢレベルまでストレージし続けると、小さなファイルの問題が発生し、此れは、大量のメタデータがＨＤＦＳのプライマリノードのｎａｍｅｎｏｄｅにストレージされるため、ｎａｍｅｎｏｄｅの負荷が大幅に増加し、システムの読み取りパフォーマンスに影響するためである。その中に、小さなファイルのサイズが２ＭＢに定義され、つまり、ＨＤＦＳがファイルをストレージする中で、ファイルのサイズが２Ｍまたは２Ｍ以下であると、小さなファイルとして定義される。

【0003】

大量な小さなファイルの処理について、現有の技術においては、若干の小さなファイルを一つのブロックサイズの大きなファイルにマージすることであり、ファイル間の関連性を考慮せず、小さなファイルの読み込み効率が望ましくなくなる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】中国特許出願公開第１０３５０００７７号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明の実施例はユーザアクセスプリファレンスモデルを用いたストレージ方法を提供し、小さなファイルの読み取り効率を向上させ、ＨＤＦＳシステムのｎａｍｅｎｏｄｅメモリの消費を削減する。

【課題を解決するための手段】

【0006】

本発明の実施例はユーザアクセスプリファレンスモデルを用いたストレージ方法を提供し、具体的には：

【0007】

ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを用いて前記ストレージされるファイルの関連ファイルセットを見つけ、ここで、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものである。

【0008】

ステップＢ：前記関連ファイルセットのミドルファイルと前記ストレージされるファイルをマージするキューに追加し、

【0009】

ステップＣ：前記マージするキューのすべてのファイルの総サイズが１２８ＭＢを超えるかどうかを判断し、イエスであれば、ステップＤに進み、そうでなければ、ステップＥに進み、

【0010】

ステップＤ：マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢに進み、

【0011】

ステップＥ：前記関連ファイルセットのファイルと前記ストレージされるファイルが全部前記マージするキューに追加されたかどうかを判断し、イエスであれば、前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＦに進み、そうでなければ、ステップＢに戻り、

【0012】

ステップＦ：マージしたすべてのデータブロックをＨＤＦＳシステムにストレージする。

【0013】

更に、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものであり、

【0014】

具体的には：

【0015】

前記ユーザアクセスログレコードからアクティブユーザセットを統計し、

【0016】

前記アクティブユーザセットにアクセスされた小さなファイルをｂｅａｎオブジェクトで表し、前記小さなファイルがサイズが２ＭＢ又は２ＭＢ以下のファイルであり、その中に、前記ｂｅａｎオブジェクトのプロパティが該小さなファイルにアクセスしたユーザＩＤ、ユーザにアクセスされた小さなファイルの名前及び該小さなファイルがアクセスされた回数を含み、

【0017】

ＪＤＢＣテクノロジを用いて、前記ｂｅａｎオブジェクトをＭｙｓｑｌデータベースに永続化してストレージし、ストレージされたデータによって、任意の二つの異なるアクセス動作の類似性をアカウントし、

【0018】

任意の二つの異なるアクセス動作の類似性が正の場合、前記任意の二つの異なるアクセス動作のユーザが類似ユーザであり、類似ユーザのＩＤレコードを記録して関連ファイルセットによってすべての類似ユーザにアクセスされ、関連付けられたファイル情報をストレージし、

【0019】

前記関連ファイルセットによって、前記ユーザアクセスプリファレンスモデルを構築する。

【0020】

更に、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には：

【0021】

アクセスされたソースの接尾辞がｊｐｇであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザＩＤ、アクセスページＵＲＬ、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、

【0022】

レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターＩＰと小さなファイルの名前をストレージし、

【0023】

ビジターＩＰを前記二次元配列でトラバースし、ＨａｓｈＭａｐコレクションを使用して各ビジターＩＰのトラフィックを統計し、前記ＨａｓｈＭａｐコレクションのＫｅｙ値がビジターＩＰであり、Ｖａｌｕｅ値がトラフィックであり、

【0024】

前記ＨａｓｈＭａｐコレクションをＶａｌｕｅ値の降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションを使用して該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークし、

【0025】

本発明の実施例を実施すると、以下の有益効果が出る：

【0026】

本発明の実施例が提供するユーザアクレスプリファレンスモデルを用いた大量の小さなファイルのストレージ方法は、ユーザアクセスプリファレンスモデルを用いて関連ファイルセットを見つけてマージするキューに順に追加し、マージするキューのファイルのサイズが１２８ＭＢを超えると、キューにあるファイルをすべて一つのデータブロックにマージし、マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除し、すべてのファイルがマージするキューに追加された時、マージするキューにあるファイルのサイズが１２８ＭＢ以下であれば、該キューのすべてのファイルを一つのデータブロックにマージし、マージするキューにあるファイル情報をクリアし、マージしたファイルのソースファイルを削除して、最後にマージしたすべてのデータブロックをＨＤＦＳシステムにストレージする。小さなファイル間の関連性を考慮しない既存の技術と比べて、本発明の技術プランが小さなファイルの読み取り効率を向上させ、ＨＤＦＳシステムでのｎａｍｅｎｏｄｅメモリの消費を削減できる。

【発明の効果】

【0027】

本発明の実施例を実施すると、以下の有益効果が出る：

【0028】

【図面の簡単な説明】

【0029】

【図1】図１は本発明の提供するユーザアクセスプリファレンスモデルを用いた大量の小さなファイルのストレージ方法の実施例のプロセス見取り図である。

【発明を実施するための形態】

【0030】

下記に本発明の実施例の中の附図を交え、本発明の実施例の技術方案を明確にはっきり説明し、説明した実施例がただ本発明の一部分の実施例で、全部の実施例ではないである。本発明の実施例に基づいて、本領域の普通技術者が創造的な労働を払わないことを前提に得る全部のその他の実施例は本発明の保護範囲に所属する

【0031】

図１を参照し、本発明の提供するユーザアクセスプリファレンスモデルを用いたストレージ方法であり、該メソッドがステップＡからステップＦまでを含み、各ステップは以下のように：

【0032】

ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを組み合わせて、ストレージされるファイルの関連ファイルコレクションを見つけ、その中に、ユーザアクセスプリファレンスモデルがユーザアクセスログレコードに基づいている。

【0033】

本実施例の中で、ユーザアクセスプリファレンスモデルがユーザアクセスログレコードに基づいて統計されたもので、具体的には：ユーザアクセスログレコードからアクティブユーザセットを統計し、ｂｅａｎオブジェクトがアクティブユーザセットによってアクセスされた小さなファイルを表すために使用され、小さなファイルがサイズが２ＭＢまたは２ＭＢ以上のファイルを指し、その中に、ｂｅａｎオブジェクトのプロパティが該小さなファイルをアクセスするユーザＩＤ、ユーザがアクセスした小さなファイルの名前及び該小さなファイルがアクサスされた回数を含み、ＪＤＢＣテクノロジによって、ｂｅａｎオブジェクトを永続にＭｙｓｑｌデータベースにストレージし、ストレージされたデータにしたがって、任意の二つの異なるアクセス動作の類似性を計算し、任意の二つの異なるアクセス動作の類似性が正の場合、任意の二つのアクセス動作のユーザが類似ユーザであり、類似ユーザのＩＤを記録し、関連ファイルコレクションを使って、類似ユーザによってアクサスされ、関連付けられたファイル情報をストレージし、関連ファイルコレクションにしたがって、ユーザアクセスプリファレンスモデルを構築する。

【0034】

本実施例の中で、ユーザアクセスログレコードよりアクティブユーザセットを統計し、具体的には：アクセスされたソースの接尾辞がｊｐｇであるレコード行をユーザアクセスログレコードからフィルタリングし、その中に、レコード行がユーザＩＤ、アクセスページＵＲＬ、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成してレコード行を解析し、二次元配列を使用してビジターＩＰと小さなファイルの名前をストレージし、二次元配列のビジターＩＰをトラバースし、ＨａｓｈＭａｐコレクションを使用して各ビジターＩＰのトラフィックを統計し、ＨａｓｈＭａｐコレクションのＫｅｙ値がビジターＩＰであり、Ｖａｌｕｅ値がトラフィックであり、ＨａｓｈＭａｐコレクションをＶａｌｕｅ値の降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションを使用して該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークする。

【0035】

本発明のモデルの構築過程をもっとよく説明するために、下記の例えにより説明し、具体的な実現する過程が以下のように：

【0036】

（１）正規表現を使用してアクセスされたソースの接尾辞がｊｐｇであるレコード行をフィルタリングする。

【0037】

（２）ログ解析クラスを作成してレコード行の五つのコンポーネントを別々に解析し、二次元配列を使ってビジターＩＰと小さなファイルの名前をストレージする。

【0038】

（３）二次元配列のビジターＩＰ要素をトラバースし、各ビジターＩＰのトラフィックをカウンタするカウンタを設計する。ＨａｓｈＭａｐコレクションを使って、ビジターＩＰをＫｅｙ値とし、Ｖａｌｕｅ値が該ビジターのトラフィックである。

【0039】

（４）ステップ３で生成されたＨａｓｈＭａｐコレクションをＶａｌｕｅ値にしたがって降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションで該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークする。

【0040】

（５）一つのｂｅａｎオブジェクトによってアクティブユーザセットにアクセスされた小さなファイルを抽象に表し、オブジェクトのプロパティが該小さなファイルをアクセスしたユーザＩＤ、ユーザにアクセスされた小さなファイルの名前及び該小さなファイルがアクセスされた回数を含む。メソッドはプロパティを取得するｇｅｔ及びｓｅｔメソッドである。

【0041】

（６）ＪＤＢＣテクノロジｂｅａｎオブジェクトをＭｙｓｑｌデータベースに結合して永続にストレージし、以下の形式のテーブルが形成される：

【0042】

（７）２０行の二行の間にデータを取り込み、数式
によって二つの異なるユーザアクセス作動の類似性をカウンタする。その中に、本発明はピアソン相関係数を使用して類似のユーザを決定し、スコアリング行列Ｒを指定し、ユーザａとユーザｂの類似性をｓｉｍ（ａ，ｂ）で表し、ｒａ及びｒｂが「ユーザ−トラフィック」ストアリングマトリックスのストアリングデータである。

【0043】

（８）ここで、ｓｉｍ（ａ，ｂ）の値が正の値であれば、二人の異なるユーザが類似ユーザであると判定され、そのユーザＩＤが記録される。

【0044】

（９）類似ユーザのユーザＩＤに基づいて、一つのコレクションを使用して、類似ユーザにアクセスされ、関連付けられているすべてのファイル情報をストレージする。

【0045】

ステップＢ：関連ファイルコレクションのミドルファイルとストレージされるファイルを順にマージするキューに追加する。

【0046】

ステップＣ：マージするキューのすべてのファイルの総サイズが１２８ＭＢを超えるかどうかを判断し、イエスであれば、ステップＤに進み、そうでなければ、ステップＥに進む。

【0047】

ステップＤ：マージするキューのすべてのファイルを一つのデータブロックにマージし、マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢに戻る。

【0048】

ステップＥ：関連ファイルコレクションのミドルファイルとストレージされるファイルが全部マージするキューに追加されたかどうかを判断し、イエスであれば、マージするキューのすべてのファイルを一つのデータブロックにマージし、マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＦに進み、そうでなければ、ステップＢに進む。

【0049】

ステップＦ：すべてのマージしたデータブロックをＨＤＦＳシステムにストレージする。

【0050】

【0051】

更に、本発明には、複数の関連付けられた小さなファイルが一つの大きなファイルにマージされてシステムにストレージされ、システムのｎａｍｅｎｏｄｅノードが大きなファイルに対応するメタデータのみをストレージし、ｎａｍｅｎｏｄｅノードの維持するメタデータが大きく減少し、メモリの消費も減少になる。

【0052】

更に、本発明のマージメソッドは、関連付けられたファイルを同じの大きなファイルにマージして、マージされたファイルが同じのデータノードの同じのデータブロックにストレージされる。ユーザからファイルへのリクエストに強く関連性があると、すなわちユーザに絶えずにアクセスされた小さなファイルが同じ大きなファイルにマージされば、ファイルアクセスの原理によれば、システムがより近いｄａｔａｎｏｄｅノードのデータブロックを読み取り、つまり、同じｄａｔａｎｏｄｅのデータブロックカラデータを読み取るということであり、こうして異なるファイルにアクセス時に異なるデータノードの間にジャンプしなくで済み、ディスクアドレッシングのオーバーヘッドが削減され、占められるシステムリソースが比較的に少なくなり、ファイルの読み込み効率を大きく高める。

【0053】

当業者は、上記の実施形態を実施するプロセスの全部または一部を理解することができ、コンピュータプログラムによって関連するハードウェアを指示することで完了することができ、のプログラムがコンピュター可読記憶媒体にストレージされることができ、該プログラムが実行される時に、上記の各メソッドの実施例のプロセスが含まれる。その中に、の記憶媒体が磁気ディスク、光ディスク、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ，ＲＯＭ）またはランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）であってもよい。

【0054】

以上に述べたのは本発明の優先された実施形態であり、注意すべきのは、本技術分野の一般的な技術員にとって、本発明の原理から離れないことを前提として、若干な改善や飾りができ、これらの改善や飾りも本発明の保護範囲に含まれる。

【図1】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6642651号(P6642651)IP Force 特許公報掲載プロジェクト 2022.1.31 β版