特許6039595 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許6039595クラスタリング装置、クラスタリング方法およびクラスタリングプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2-1
2-2
3
4
5-1
5-2
5-3
5-4
6
7
8-1
8-2
8-3
8-4
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6039595

(24)【登録日】2016年11月11日

(45)【発行日】2016年12月7日

(54)【発明の名称】クラスタリング装置、クラスタリング方法およびクラスタリングプログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20161128BHJP

【ＦＩ】

G06F17/30 210D

G06F17/30 419B

【請求項の数】6

【全頁数】20

(21)【出願番号】特願2014-31317(P2014-31317)

(22)【出願日】2014年2月21日

(65)【公開番号】特開2015-156163(P2015-156163A)

(43)【公開日】2015年8月27日

【審査請求日】2016年1月13日

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】塩川浩昭

【審査官】田中秀樹

(56)【参考文献】

【文献】米国特許第０８６０６７８７（ＵＳ，Ｂ１）

【文献】特開２００７−３２３３８５（ＪＰ，Ａ）

【文献】特開２０１３−１５６６９６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

記憶部と協働してグラフデータのノードのクラスタリング処理を実行する制御部を有するクラスタリング装置であって、
前記制御部は、
入力されたグラフデータから、いずれのクラスタにも未所属の第１ノードを選択し、
前記第１ノードおよび該ノードとエッジで接続されるノードの集合である、前記第１ノードの隣接ノード集合を前記グラフデータから取得し、
前記第１ノードの隣接ノード集合に所属する、前記第１ノードとは異なる各第２ノードの隣接ノード集合を前記グラフデータから取得し、
前記第１ノードの隣接ノード集合および前記各第２ノードの隣接ノード集合の類似度を算出し、
前記第１ノードに対して、前記類似度が第１閾値以上となる前記第２ノードの集合である第１近接ノード集合を生成し、
前記第１近接ノード集合の要素数が第２閾値以上となる場合に前記第１ノードが第１条件を満たすと判定し、前記第１近接ノード集合の要素数が第２閾値未満となる場合に前記第１ノードが前記第１条件を満たさないと判定し、
前記第１ノードが前記第１条件を満たすと判定した場合に、前記第１近接ノード集合を新たなインデックスが付与されたクラスタとし、
前記第１近接ノード集合に所属する各ノードの隣接ノード集合の和集合である第２近接ノード集合を生成し、
前記第２近接ノード集合から前記新たなインデックスが付与されたクラスタを差し引いた第１差集合に所属するノードのなかから、前記新たなインデックスが付与されたクラスタに追加所属させるノードを決定し、
前記第１ノードが前記第１条件を満たさないと判定した場合に、前記第１ノードを未分類クラスタに所属させる
一連の処理を、前記グラフデータの全ノードの所属クラスタが決定するまで繰り返す
ことを特徴とするクラスタリング装置。

【請求項2】

前記第１差集合に所属するノードのなかから、前記新たなインデックスが付与されたクラスタに追加所属させるノードを決定する処理において、
前記制御部は、
前記第１差集合から第３ノードを選択し、
前記第３ノードの隣接ノード集合を前記グラフデータから取得し、
前記第３ノードの隣接ノード集合に所属する、前記第３ノードとは異なる第４ノードの隣接ノード集合を前記グラフデータから取得し、
前記第３ノードの隣接ノード集合および各前記第４ノードの隣接ノード集合の前記類似度を算出し、
前記第３ノードに対して、前記類似度が前記第１閾値以上となる前記第４ノードの集合である第３近接ノード集合を生成し、
前記第３近接ノード集合の要素数が前記第２閾値以上となる場合に前記第３ノードが前記第１条件を満たすと判定し、前記第３近接ノード集合の要素数が前記第２閾値未満となる場合に前記第３ノードが前記第１条件を満たさないと判定し、
前記第３ノードが前記第１条件を満たすと判定した場合に、前記新たなインデックスが付与されたクラスタと前記第３近接ノード集合との和集合で前記新たなインデックスが付与されたクラスタを更新し、前記第３近接ノード集合に所属する各ノードの隣接ノード集合の和集合である第４隣接ノード集合を生成し、前記第１差集合と前記第４隣接ノード集合との和集合から前記新たなインデックスが付与されたクラスタを差し引いた第２差集合で前記第１差集合を更新し、
前記第３ノードが前記第１条件を満たさないと判定した場合に、前記第３ノードを前記未分類クラスタに所属させるとともに、前記第１差集合と、前記新たなインデックスが付与されたクラスタに所属するノードのうち該ノードの隣接ノード集合および前記第３ノードの隣接ノード集合の前記類似度が前記第１閾値以上であるノードの集合との和集合で前記第１差集合を更新する
一連の処理を、前記第１差集合が空集合になるまで繰り返して前記新たなインデックスが付与されたクラスタを構成する
ことを特徴とする請求項１記載のクラスタリング装置。

【請求項3】

前記制御部は、さらに、
前記第１差集合を１ノードに集約した集約ノードを生成し、
前記第１差集合に所属する各ノードの隣接ノード集合および前記集約ノードの隣接ノード集合の前記類似度の上限値ならびに下限値の各推定値を算出し、
前記類似度の上限値ならびに下限値の各推定値に基づく第２条件が満たされると判定した場合に、前記各ノードを前記第１条件を満たすか否かの判定対象とし、前記類似度の上限値ならびに下限値の各推定値に基づく前記第２条件が満たされないと判定した場合に、前記各ノードを前記第１条件を満たすか否かの判定対象から除外して、前記未分類クラスタへ所属させる
ことを特徴とする請求項１または２記載のクラスタリング装置。

【請求項4】

前記制御部は、さらに、
前記未分類クラスタに所属するノードを、前記グラフデータにおけるクラスタ同士を接続させるハブノードもしくはクラスタに所属する１つのノードのみと接続するアウトレイヤノードのいずれかに分類する
ことを特徴とする請求項１、２または３記載のクラスタリング装置。

【請求項5】

コンピュータが、
入力されたグラフデータから、いずれのクラスタにも未所属の第１ノードを選択し、
前記第１ノードおよび該ノードとエッジで接続されるノードの集合である、前記第１ノードの隣接ノード集合を前記グラフデータから取得し、
前記第１ノードの隣接ノード集合に所属する、前記第１ノードとは異なる各第２ノードの隣接ノード集合を前記グラフデータから取得し、
前記第１ノードの隣接ノード集合および前記各第２ノードの隣接ノード集合の類似度を算出し、
前記第１ノードに対して、前記類似度が第１閾値以上となる前記第２ノードの集合である第１近接ノード集合を生成し、
前記第１近接ノード集合の要素数が第２閾値以上となる場合に前記第１ノードが第１条件を満たすと判定し、前記第１近接ノード集合の要素数が第２閾値未満となる場合に前記第１ノードが前記第１条件を満たさないと判定し、
前記第１ノードが前記第１条件を満たすと判定した場合に、前記第１近接ノード集合を新たなインデックスが付与されたクラスタとし、
前記第１近接ノード集合に所属する各ノードおよび該各ノードとエッジで接続されるノードの集合である該各ノードの隣接ノード集合の和集合である第２近接ノード集合を生成し、
前記第２近接ノード集合から前記新たなインデックスが付与されたクラスタを差し引いた第１差集合に所属するノードのなかから、前記新たなインデックスが付与されたクラスタに追加所属させるノードを決定し、
前記第１ノードが前記第１条件を満たさないと判定した場合に、前記第１ノードを未分類クラスタに所属させる
一連の処理を、前記グラフデータの全ノードの所属クラスタが決定するまで繰り返すこと
を含むこと特徴とするクラスタリング方法。

【請求項6】

コンピュータに、
入力されたグラフデータから、いずれのクラスタにも未所属の第１ノードを選択し、
前記第１ノードおよび該ノードとエッジで接続されるノードの集合である、前記第１ノードの隣接ノード集合を前記グラフデータから取得し、
前記第１ノードの隣接ノード集合に所属する、前記第１ノードとは異なる各第２ノードの隣接ノード集合を前記グラフデータから取得し、
前記第１ノードの隣接ノード集合および前記各第２ノードの隣接ノード集合の類似度を算出し、
前記第１ノードに対して、前記類似度が第１閾値以上となる前記第２ノードの集合である第１近接ノード集合を生成し、
前記第１近接ノード集合の要素数が第２閾値以上となる場合に前記第１ノードが第１条件を満たすと判定し、前記第１近接ノード集合の要素数が第２閾値未満となる場合に前記第１ノードが前記第１条件を満たさないと判定し、
前記第１ノードが前記第１条件を満たすと判定した場合に、前記第１近接ノード集合を新たなインデックスが付与されたクラスタとし、
前記第１近接ノード集合に所属する各ノードおよび該各ノードとエッジで接続されるノードの集合である該各ノードの隣接ノード集合の和集合である第２近接ノード集合を生成し、
前記第２近接ノード集合から前記新たなインデックスが付与されたクラスタを差し引いた第１差集合に所属するノードのなかから、前記新たなインデックスが付与されたクラスタに追加所属させるノードを決定し、
前記第１ノードが前記第１条件を満たさないと判定した場合に、前記第１ノードを未分類クラスタに所属させる
一連の処理を、前記グラフデータの全ノードの所属クラスタが決定するまで繰り返して実行させるためのクラスタリングプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、クラスタリング装置などに関する。

【背景技術】

【0002】

近年、例えば、インターネット上で提供されるソーシャルメディアが普及してきている。ソーシャルメディアの一例としてソーシャルネットワーキングサービスが挙げられる。ソーシャルネットワーキングサービスにおいて、個々のユーザが、他のユーザとの関係を築いていくことを繰り返すにより、各ユーザをエッジ、各ユーザ間の関係をノードと見なしうるグラフデータが構築される。

【0003】

このようにして構築されたグラフデータは、ユーザ数、ユーザ間の関係がきわめて膨大な数である、いわゆるビッグデータである。このため、グラフ構造のビッグデータを高速にクラスタ解析することが、例えばソーシャルネットワーキングサービスの利便性に資する。そして、ソーシャルネットワーキングサービスに限らず、グラフ構造のビッグデータを高速にクラスタ解析することが求められる局面が多いため、高速クラスタ解析の手法が提案されている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Xiaowei Xu, Nurcan Yuruk, Zhidan Feng, Thomas A. J. Schweiger, “SCAN: A Structural Clustering Algorithm for Networks,” SIGKDD’07, August 12-15, 2007, San Jose, CA, US.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上述の従来技術では、計算量が多く、グラフデータがより大規模化するにしたがい、クラスタ解析の処理時間が膨大になってしまう。

【0006】

本願が開示する実施形態は、上記に鑑みてなされたものであって、グラフデータのクラスタ解析を高速化することを目的とする。

【課題を解決するための手段】

【0007】

本願が開示する実施形態の一例は、記憶部と協働してグラフデータのノードのクラスタリング処理を実行する制御部を有するクラスタリング装置であって、前記制御部は、入力されたグラフデータから、いずれのクラスタにも未所属の第１ノードを選択し、前記第１ノードおよび該ノードとエッジで接続されるノードの集合である、前記第１ノードの隣接ノード集合を前記グラフデータから取得し、前記第１ノードの隣接ノード集合に所属する、前記第１ノードとは異なる各第２ノードの隣接ノード集合を前記グラフデータから取得し、前記第１ノードの隣接ノード集合および前記各第２ノードの隣接ノード集合の類似度を算出し、前記第１ノードに対して、前記類似度が第１閾値以上となる前記第２ノードの集合である第１近接ノード集合を生成し、前記第１近接ノード集合の要素数が第２閾値以上となる場合に前記第１ノードが第１条件を満たすと判定し、前記第１近接ノード集合の要素数が第２閾値未満となる場合に前記第１ノードが前記第１条件を満たさないと判定し、前記第１ノードが前記第１条件を満たすと判定した場合に、前記第１近接ノード集合を新たなインデックスが付与されたクラスタとし、前記第１近接ノード集合に所属する各ノードの隣接ノード集合の和集合である第２近接ノード集合を生成し、前記第２近接ノード集合から前記新たなインデックスが付与されたクラスタを差し引いた第１差集合に所属するノードのなかから、前記新たなインデックスが付与されたクラスタに追加所属させるノードを決定し、前記第１ノードが前記第１条件を満たさないと判定した場合に、前記第１ノードを未分類クラスタに所属させる一連の処理を、前記グラフデータの全ノードの所属クラスタが決定するまで繰り返すことを特徴とする。

【発明の効果】

【0008】

本願が開示する実施形態によれば、例えば、グラフデータのクラスタ解析を高速化することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施形態１のクラスタリング装置の構成を示す機能ブロック図である。

【図2-1】図２−１は、実施形態１のクラスタリング処理における入力グラフデータの一例を示すフローチャートである。

【図2-2】図２−２は、実施形態１のクラスタリング処理におけるクラスタリング結果の一例を示す図である。

【図3】図３は、実施形態１のクラスタリング処理を示すフローチャートである。

【図4】図４は、ステップＳ２６０のサブルーチンを詳細に示すフローチャートである。

【図5-1】図５−１は、実施形態１のクラスタリング処理の具体例を示す図である。

【図5-2】図５−２は、実施形態１のクラスタリング処理の具体例を示す図である。

【図5-3】図５−３は、実施形態１のクラスタリング処理の具体例を示す図である。

【図5-4】図５−４は、実施形態１のクラスタリング処理の具体例を示す図である。

【図6】図６は、実施形態２のクラスタリング処理を示すフローチャートである。

【図7】図７は、ステップＳ３６０のサブルーチンを詳細に示すフローチャートである。

【図8-1】図８−１は、実施形態２のクラスタリング処理の具体例を示す図である。

【図8-2】図８−２は、実施形態２のクラスタリング処理の具体例を示す図である。

【図8-3】図８−３は、実施形態２のクラスタリング処理の具体例を示す図である。

【図8-4】図８−４は、実施形態２のクラスタリング処理の具体例を示す図である。

【図9】図９は、従来技術のクラスタリング処理を示すフローチャートである。

【図10】図１０は、ステップＳ１５０のサブルーチンを詳細に示すフローチャートである。

【図11】図１１は、ステップＳ１７０のサブルーチンを詳細に示すフローチャートである。

【図12】図１２は、実施形態１および実施形態２のクラスタリング処理を実行するコンピュータの構成を示す機能ブロック図である。

【発明を実施するための形態】

【0010】

以下に、本願が開示するクラスタリング装置などの実施形態を図面に基づいて説明する。なお、以下に複数の実施形態を例示するが、同一の開示事項について、後述の際には説明を省略する。また、以下に示す複数の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す複数の実施形態は、適宜組合せてもよい。

【0011】

［実施形態１］
（実施形態１のクラスタリング装置の構成）
図１は、実施形態１のクラスタリング装置の構成を示す機能ブロック図である。図１に示す実施形態１のクラスタリング装置２００は、入力部２０１、制御部２０２、出力部２０３を有する。また、クラスタリング装置２００は、グラフデータ記憶部１１０、クラスタリング結果記憶部１２０と接続される。

【0012】

入力部２０１は、グラフデータ記憶部１１０から、図２−１に例示する入力グラフデータを読み込み、制御部２０２へ出力する。図２−１に例示すように、グラフデータＧは、例えば、ノード集合Ｖ＝｛０，１，・・・，１２，１３｝と、各ノード間を接続するエッジ集合Ｅを含む。すなわち、Ｇ＝｛Ｖ，Ｅ｝である。

【0013】

制御部２０２は、主記憶装置および処理装置を有する。制御部２０２は、グラフデータ記憶部１１０から入力されたグラフデータを主記憶装置に展開する。そして、制御部２０２は、主記憶装置に展開したグラフデータに対して、後述するクラスタリング処理を実行する。

【0014】

制御部２０２が実行するクラスタリング処理は、グラフデータのノード集合Ｖを次の（１）−（３）の３つの集合のいずれかへ分類する処理である。
（１）エッジで密に接続されたノード集合Ｃ_ｋからなる集合Ｃ（以降、「Cluster」と呼ぶ）：
Ｃ＝｛Ｃ_１，Ｃ_２，・・・，Ｃ_ｐ｝（for ∃ｐ）
（２）Ｃｌｕｓｔｅｒ間を接続するノードの集合Ｈ（以降、「Hub」と呼ぶ）：
Ｈ＝｛Ｈ_１，Ｈ_２，・・・，Ｈ_ｑ｝（for ∃ｑ）
（３）ＣｌｕｓｔｅｒでもＨｕｂでもないノードの集合Ｏ（以降、「Outlier」と呼ぶ）：
Ｏ＝｛Ｏ_１，Ｏ_２，・・・，Ｏ_ｒ｝（for ∃ｒ）

【0015】

そして、制御部２０２は、図２−２に例示する、グラフデータをクラスタリング処理したクラスタリング結果を出力部２０３へ出力する。図２−２の例示では、ノード集合｛０，１，２，３，４，５｝がClusterＣ_１であり、ノード集合｛７，８，９，１０，１１，１２｝がClusterＣ_２であり、ノード集合｛６｝がClusterＣ_１とClusterＣ_２を接続するHubＨ_１であり、ノード集合｛１３｝が、OutlierＯ_１である。

【0016】

出力部２０３は、制御部２０２から出力された処理結果を、クラスタリング結果記憶部１２０へ出力する。なお、図２−１、図２−２に示すグラフデータは、あくまで一例を示すに過ぎない。

【0017】

（実施形態１のクラスタリング処理）
図３は、実施形態１のクラスタリング処理を示すフローチャートである。制御部２０２は、クラスタリング処理開始に先立ち、図２−１に例示するようなグラフデータＧ＝｛Ｖ，Ｅ｝と、パラメータε，μを入力とする。グラフデータＧは、入力部２０１から入力され、パラメータε，μは、図示しない入力装置もしくは設定ファイルなどから入力される。

【0018】

制御部２０２は、グラフデータＧおよびパラメータε，μの入力後、グラフデータＧのノードのうち、いずれのクラスタにも未所属の１つのノードｖを、ランダムに選択する（ステップＳ２００）。なお、ステップＳ２００におけるノードｖの選択方法は、ランダムに選択することに限らず、最小次数で選択もしくは最大次数で選択のいずれかの方法であってもよい。ここで、次数とは、ノードに接続されるエッジの数をいう。

【0019】

次に、制御部２０２は、Γ（ｖ）に含まれる全てのノードｕに対してのみStructural similarity σ（ｕ，ｖ）を計算する（ステップＳ２１０）。なお、Γ（ｘ）およびStructural similarity σ（ｕ，ｖ）は、以下の［定義１］で定義される。なお、Γ（ｘ）は、ノードｘの隣接ノード集合の一例である。また、σ（ｕ，ｖ）は、ノードｕの隣接ノード集合およびノードｖの隣接ノード集合の類似度の一例である。

【0020】

【数1】

【0021】

次に、制御部２０２は、Structural similarity σ（ｕ，ｖ）の計算結果を元に、ノードｖがパラメータε，μに対してCOREであるか否かを判定する（ステップＳ２２０）。なお、ノードｖ（ｖ∈Ｖ）がCOREであるとは、パラメータε，μに対して、以下の［定義２］で定義されるε-neighborhood Ｎ_ε（ｖ）が、以下の［定義３］で定義される所定条件を満たすことである。ノードｖがパラメータε，μに関してCOREであることを、CORE_ε，μ（ｖ）と表す。なお、ε-neighborhood Ｎ_ε（ｖ）は、第１近接ノード集合の一例である。また、εは、最小クラスタサイズを示す、第１閾値の一例である。また、μは第２閾値の一例である。

【0022】

【数2】

【0023】

【数3】

【0024】

制御部２０２は、ステップＳ２２０で、ノードｖがCOREであると判定した場合（ステップＳ２２０Ｙｅｓ）には、新たなクラスタＩＤとしてＣ_ｉを生成する（ステップＳ２３０）。なお、COREであるとは第１条件を満たすことの一例であり、COREでないとは第１条件を満たさないことの一例である。また、“ｉ”は、０を初期値として、ステップＳ２３０の実行の都度、１インクリメントされるインデックスである。次に、制御部２０２は、次に∀ｕ∈Ｎ_ε（ｖ）のクラスタをクラスタＣ_ｉに決定する（ステップＳ２４０）。

【0025】

次に、制御部２０２は、ステップＳ２４０で決定したクラスタＣ_ｉを基に、クラスタＣ_ｉの隣接ノード集合であるＲ＝Ｎ（Ｎ_ε（ｖ））＼Ｃ_ｉを取得する（ステップＳ２５０）。なお、Ｎ（Ｎ_ε（ｖ））は、2-hop neighborhoodと呼び、以下の［定義４］で定義される。2-hop neighborhood Ｎ（Ｎ_ε（ｖ））は、第２近接ノード集合の一例である。また、Ｎ（Ｎ_ε（ｖ））＼Ｃ_ｉは、第１差集合の一例である。

【0026】

【数4】

【0027】

次に、制御部２０２は、2-hop neighborhoodである集合Ｒを取得後、集合Ｒから派生して取得できるクラスタを抽出し、クラスタＣ_ｉに組み入れて、クラスタＣ_ｉに所属するノードを決定する（ステップＳ２６０）。なお、ステップＳ２６０の処理は、後に詳述する。制御部２０２は、ステップＳ２６０の終了後、ステップＳ２８０へ処理を移す。

【0028】

一方、制御部２０２は、ステップＳ２２０で、ノードｖがCOREでないと判定した場合（ステップＳ２２０Ｎｏ）には、ノードｖをクラスタnon-memberの所属とし（ステップＳ２７０）、ステップＳ２８０へ処理を移す。なお、non-memberは、COREでないノードが所属するクラスタであり、未分類クラスタの一例である。

【0029】

ステップＳ２８０では、制御部２０２は、入力されたグラフデータＧの全ノードの所属クラスタが決定したか否かを判定する（ステップＳ２８０）。制御部２０２は、ステップＳ２８０で、入力されたグラフデータＧの全ノードの所属クラスタが決定したと判定した場合（ステップＳ２８０Ｙｅｓ）には、ステップＳ２９０へ処理を移す。

【0030】

ステップＳ２９０では、制御部２０２は、全てのノードのクラスタが決定された後、non-memberとされたノードをHubまたはOutlierへ分類する処理をおこなう。なお、ステップＳ２９０の処理は、後述する図９のステップＳ１７０と同一である。

【0031】

一方、制御部２０２は、ステップＳ２８０で、入力されたグラフデータＧの全ノードの所属クラスタが決定されていない、すなわち、クラスタに未所属のノードがあると判定した場合（ステップＳ２８０Ｎｏ）には、ステップＳ２００へ処理を移す。そして、制御部２０２は、ステップＳ２００で、クラスタに未所属のノードｖ∈Ｖを、ランダムに選択する。

【0032】

（ステップＳ２６０の詳細）
図４は、ステップＳ２６０のサブルーチンを詳細に示すフローチャートである。まず、制御部２０２は、集合Ｒが空集合φであるか否かを判定する（ステップＳ２６１）。制御部２０２は、集合Ｒが空集合φであると判定した場合（ステップＳ２６１Ｙｅｓ）には、図３のステップＳ２８０へ処理を移す。

【0033】

一方、制御部２０２は、集合Ｒが空集合φでないと判定した場合（ステップＳ２６１Ｎｏ）には、集合Ｒから１つのノードｕを、ランダムに選択する（ステップＳ２６２）。なお、ステップＳ２６２におけるノードｕの選択方法は、ランダムに選択することに限らず、最小次数で選択もしくは最大次数で選択のいずれかの方法であってもよい。

【0034】

次に、制御部２０２は、Γ（ｕ）に含まれる全てのノードｖに対してのみStructural similarity σ（ｕ，ｖ）を計算する（ステップＳ２６３）。なお、Γ（ｘ）（ｘ＝ｕ，ｖ∈Ｖ）およびStructural similarity σ（ｕ，ｖ）（ｕ，ｖ∈Ｖ）は、上述の［定義１］と同様である。

【0035】

次に、制御部２０２は、ノードｕがパラメータε，μに対してCOREであるか否かを判定する（ステップＳ２６４）。制御部２０２は、ステップＳ２６４で、ノードｕがCOREであると判定した場合（ステップＳ２６４Ｙｅｓ）には、クラスタＣ_ｉとＮ_ε（ｕ）の和集合を新たなクラスタＣ_ｉとして更新する（ステップＳ２６５）。なお、Ｎ_ε（ｕ）は、第３近接ノード集合の一例である。

【0036】

次に、制御部２０２は、ステップＳ２６５でクラスタＣ_ｉを更新したことに応じて、2-hop neighborhood ＲをＲ＝｛Ｒ∪Ｎ（Ｎ_ε（ｕ））｝＼Ｃ_ｉとして更新する（ステップＳ２６６）。制御部２０２は、ステップＳ２６６の処理が終了すると、ステップＳ２６１へ処理を移す。なお、Ｎ（Ｎ_ε（ｕ））は、第４近接ノード集合の一例である。また、｛Ｒ∪Ｎ（Ｎ_ε（ｕ））｝＼Ｃ_ｉは、第２差集合の一例である。

【0037】

一方、制御部２０２は、ステップＳ２６４で、ノードｕがCOREでないと判定した場合（ステップＳ２６４Ｎｏ）には、ノードｕをクラスタnon-memberの所属とし（ステップＳ２６７）、2-hop neighborhood ＲをＲ＝Ｒ∪｛ｗ|σ（ｗ，ｕ）≧ε∧Ｃ［ｗ］＝Ｃ_ｉ｝として更新する（ステップＳ２６８）。ただし、Ｃ［ｗ］はノードｗが所属するクラスタを表す。そして、制御部２０２は、ステップＳ２６８の処理が終了すると、ステップＳ２６１へ処理を移す。なお、Ｒ∪｛ｗ|σ（ｗ，ｕ）≧ε∧Ｃ［ｗ］＝Ｃ_ｉ｝は、前記第１差集合と、前記新たなインデックスが付与されたクラスタに所属するノードのうち該ノードの隣接ノード集合および前記第３ノードの隣接ノード集合の前記類似度が前記第１閾値以上であるノードの集合との和集合の一例である。

【0038】

（実施形態１のクラスタリング処理の具体例）
図５−１、図５−２、図５−３、図５−４は、実施形態１のクラスタリング処理の具体例を示す図である。まず、図５−１を参照し、ノード０に着目すると、ノード０の隣接ノードは、ノード１、ノード４、ノード５、ノード６だが、COREであるノード１、ノード４、ノード５が所属するクラスタＣ_１が形成される（図３のステップＳ２００−ステップＳ２４０に対応）。

【0039】

そして、図５−２を参照し、未選択のノード２に着目すると、ノード２のε-neighborhoodＮ_ε（２）は、ノード１、ノード３、ノード５なので、ノード１、ノード３、ノード５が所属するε-neighborhoodＮ_ε（２）とクラスタＣ_１の和集合を、新たなクラスタＣ_１として更新する（図３のステップＳ２５０−ステップＳ２６０に対応）。その結果、図５−３に示すようなクラスタＣ_１が形成される。

【0040】

また、図５−３を参照し、未選択のノード６に着目すると、ノード６は、パラメータε，μに対してCOREでないので、non-memberに分類される（図３のステップＳ２２０、ステップＳ２７０に対応）。

【0041】

同様にして、図５−４に示すように、ノード７、ノード８、ノード９、ノード１０、ノード１１、ノード１２が所属するクラスタＣ_２が形成される（図３のステップＳ２００−ステップＳ２４０に対応）。また、図５−４において、未選択のノード１３に着目すると、ノード１３は、パラメータε，μに対してCOREでないので、non-memberに分類される（図３のステップＳ２２０、ステップＳ２７０に対応）。

【0042】

そして、図５−４において、non-memberに分類されたノード６はHubＨ_１と分類され、ノード１３はOutlierＯ_１と分類される（図３のステップＳ２８０−ステップＳ２９０に対応）。以上のようにして、Ｇ＝｛Ｖ，Ｅ｝が、クラスタリングされる。

【0043】

［実施形態２］
（実施形態２のクラスタリング装置の構成）
実施形態２のクラスタリング装置３００は、図１に示すように、実施形態１のクラスタリング装置２００の構成と同様である。クラスタリング装置３００は、クラスタリング装置２００の入力部２０１に対応する入力部３０１、制御部２０２に対応する制御部３０２、出力部２０３に対応する出力部３０３を有する。また、クラスタリング装置３００は、グラフデータ記憶部１１０、クラスタリング結果記憶部１２０と接続される。

【0044】

（実施形態２のクラスタリング処理）
図６は、実施形態２のクラスタリング処理を示すフローチャートである。図６の実施形態２のクラスタリング処理におけるステップＳ３００−ステップＳ３４０、ステップＳ３７０−ステップＳ３９０は、図３の実施形態１のクラスタリング処理におけるステップＳ２００−ステップＳ２４０、ステップＳ２７０−ステップＳ２９０と同一である。

【0045】

実施形態２のクラスタリング処理では、ステップＳ３４０に続くステップＳ３５０、ステップＳ３６０が、実施形態１のクラスタリング処理におけるステップＳ２４０に続くステップＳ２５０、ステップＳ２６０と異なる。

【0046】

ステップＳ３５０では、制御部３０２は、同一のクラスタと既に判定されたＮ_ε（ｖ）および｛∀（ｕ，ｗ）∈Ｅ｜ｕ∈｛Ｖ＼Ｎ_ε（ｖ）｝∧ｗ∈Ｎ_ε（ｖ）｝をそれぞれ１つのノードおよび１本のエッジに集約する。エッジの集約において、クラスタ外のノードをノードｕとすると、weight（ｕ，Ｃ_ｉ）＝｜｛（ｕ，ｗ）∈Ｅ｜∀ｗ∈Ｃ_ｉ｝｜となる重みをノードｕとクラスタＣ_ｉ間を接続するエッジの重みとして付与する。なお、エッジの付与方法の具体例は、後述する。

【0047】

次に、制御部３０２は、ステップＳ３５０で集約したノードに対してStructural similarityの上限値および下限値を推定し、Structural similarityの計算対象を除外しつつ、集合Ｒから派生して取得可能なクラスタＣ_ｉを抽出する（ステップＳ３６０）。なお、ステップＳ３６０の処理は、後に詳述する。制御部３０２は、ステップＳ３６０の終了後、ステップＳ３８０へ処理を移す。

【0048】

（ステップＳ３６０の詳細）
図７は、ステップＳ３６０のサブルーチンを詳細に示すフローチャートである。図７のステップＳ３６０のサブルーチンにおけるステップＳ３６１、ステップＳ３６２、ステップＳ３６５、ステップＳ３６７−ステップＳ３７０は、図３のステップＳ２６０のサブルーチンにおけるにおけるステップＳ２６１、ステップＳ２６２、ステップＳ２６３、ステップＳ２６５−ステップＳ２６８と同一である。

【0049】

実施形態２のステップＳ３６０のサブルーチンでは、ステップＳ３６２に続いてステップＳ３６３、ステップＳ３６４が、実施形態２のステップＳ２６０のサブルーチンと比較して追加になる。

【0050】

ステップＳ３６３では、制御部３０２は、ステップＳ３６２で選択したノードｕと集約されたクラスタｖ間のエッジ（ｕ，ｖ）に対して、以下の［定義５］に基づきStructural similarityの上限値の推定値を算出し、［定義６］に基づきStructural similarityの下限値の推定値を算出する。

【0051】

【数5】

【0052】

【数6】

【0053】

次に、制御部３０２は、σ（ｕ，ｖ）_ｍａｘ、σ（ｕ，ｖ）_ｍｉｎを用いて、ノードｕがCOREであるか否かの判定対象から除外するか否かを判定する（ステップＳ３６４）。具体的には、制御部３０２は、σ（ｕ，ｖ）_ｍａｘ＜εの場合で｜Γ（ｕ）｜−weight（ｕ，ｖ）＜μのとき、ノードｕをクラスタのメンバからの除外対象と判定し（ステップＳ３６４Ｙｅｓ）、ノードｕをクラスタnon-memberの所属とする（ステップＳ３６９）。

【0054】

また、制御部３０２は、σ（ｕ，ｖ）_ｍａｘ＜εの場合で｜Γ（ｕ）｜−weight（ｕ，ｖ）≧μのとき、ノードｕをCOREであるか否かの判定対象と判定し（ステップＳ３６４Ｎｏ）、Γ（ｕ）＼｛ｖ｝に含まれる全てのノードｔに対してのみStructural similarity σ（ｔ，ｕ）を計算する（ステップＳ３６５）。そして、制御部３０２は、ノードｕがパラメータε，μに対してCOREか否かを判定する（ステップＳ３６６）。なお、制御部３０２は、σ（ｔ，ｕ）_ｍｉｎ≦ε≦σ（ｔ，ｕ）_ｍａｘのときは、ノードｕをCOREであるか否かの判定対象から除外しない（ステップＳ３６４Ｎｏ）。

【0055】

（実施形態２のクラスタリング処理の具体例）
図８−１、図８−２、図８−３、図８−４は、実施形態２のクラスタリング処理の具体例を示す図である。まず、図８−１を参照し、ノード０に着目すると、ノード０の隣接ノードは、ノード１、ノード４、ノード５、ノード６だが、COREであるノード１、ノード４、ノード５が所属するクラスタＣ_１が形成される（図６のステップＳ３００−ステップＳ３４０に対応）。

【0056】

そして、図８−２を参照すると、ノード０、ノード１、ノード４、ノード５が、ノード０に集約される。その際、クラスタＣ_１外へのエッジ（２，０）、（３，０）、（６，０）に対して、weight（２，０）＝｜｛（２，１），（２，５）｝｜＝２、weight（３，０）＝｜｛（３，４）,（３，５）｝｜＝２、weight（６，０）＝｜｛（６，０），（６，４）｝｜＝２の重みがそれぞれ与えられる。この際、集約されたノードごとに、Structural similarityの上限値および下限値の推定値が算出される。

【0057】

また、図８−３を参照すると、クラスタＣ_１は、ノード２、ノード３は、ノード０に集約されている。その際、クラスタＣ_１外へのエッジ（６，０）、（６，３）に対して、weight（６，０）＝｜｛（６，０），（６，３）｝｜であるが、（６，０）に対しては既にweight（６，０）＝２の重みが与えられているので、weight（６，０）＝３となる。このようにして、ノード０、ノード１、ノード２、ノード３、ノード４、ノード６は、ノード０に集約される。

【0058】

この際、集約されたノードのStructural similarityの上限値および下限値の推定値が算出される。そして、集約されたノードは、Structural similarityの上限値および下限値の推定値に基づき、COREであるか否かの判定対象に含められる、もしくはCOREであるか否かの判定対象から除外される。

【0059】

そして、図８−３において、未選択のノード６に着目すると、ノード６は、パラメータε，μに対してCOREでないので、non-memberに分類される（図６のステップＳ３２０、ステップＳ３７０に対応）。

【0060】

同様にして、図８−４に示すように、ノード７、ノード８、ノード９、ノード１０、ノード１１、ノード１２がノード１２に集約されて所属するクラスタＣ_２が形成される（図６のステップＳ３００−ステップＳ３４０に対応）。この際、集約されたノードのStructural similarityの上限値および下限値の推定値が算出される。そして、集約されたノードは、Structural similarityの上限値および下限値の推定値に基づき、COREであるか否かの判定対象に含められる、もしくはCOREであるか否かの判定対象から除外される。

【0061】

また、図８−４において、未選択のノード１３に着目すると、ノード１３は、パラメータε，μに対してCOREでないので、non-memberに分類される（図６のステップＳ３２０、ステップＳ３７０に対応）。

【0062】

そして、図８−４において、non-memberに分類されたノード６はHubＨ_１と分類され、ノード１３はOutlierＯ_１と分類される（図６のステップＳ３８０−ステップＳ３９０に対応）。以上のようにして、Ｇ＝｛Ｖ，Ｅ｝が、クラスタリングされる。

【0063】

［比較例としての従来技術］
（従来技術のクラスタリング装置の構成）
従来技術のクラスタリング装置１００は、図１に示すように、実施形態１のクラスタリング装置２００の構成と同様である。クラスタリング装置１００は、クラスタリング装置２００の入力部２０１に対応する入力部１０１、制御部２０２に対応する制御部１０２、出力部２０３に対応する出力部１０３を有する。また、クラスタリング装置１００は、グラフデータ記憶部１１０、クラスタリング結果記憶部１２０と接続される。

【0064】

（従来技術のクラスタリング処理）
図９は、従来技術のクラスタリング処理を示すフローチャートである。まず、制御部１０２は、グラフデータＧ＝｛Ｖ，Ｅ｝およびパラメータε，μを入力とする。制御部１０２は、これらのデータが入力されると、全てのグラフのエッジについて、上述したStructural similarity σ（ｕ，ｖ）を計算する（ステップＳ１００）。

【0065】

次に、制御部１０２は、全てのエッジに対してStructural similarity σ（ｕ，ｖ）を計算した後、乱数などを用いて任意のノードｖ∈Ｖを選択する（ステップＳ１１０）。次に、制御部１０２は、ノードｖに対してパラメータε，μを用いて、ノードｖがCOREであるかどうかの判定を行う（ステップＳ１２０）。

【0066】

制御部１０２は、ノードｖがCOREと判定されなかった場合は（ステップＳ１２０Ｎｏ）、ノードｖをクラスタnon-memberの所属とする（ステップＳ１８０）。一方、制御部１０２は、ノードｖがCOREと判定された場合は（ステップＳ１２０Ｙｅｓ）、ノードｖを起点としたクラスタの抽出処理に移行する。まず、新たなクラスタＩＤとして、Ｃ_ｉを生成する（ステップＳ１３０）。

【0067】

次に、制御部１０２は、ｖ∈Ｎ_ε（ｖ）を待ち行列Queue Ｑに挿入し（ステップＳ１４０）、待ち行列Ｑに挿入されたノードに対してＣ_ｉに所属するノードの抽出処理を実行する（ステップＳ１５０）。ステップＳ１５０の詳細は、後述する。制御部１０２は、ステップＳ１１０−ステップＳ１６０の処理を全てのノードの所属クラスタが決定するまで継続し（ステップＳ１６０）、全てのノードのクラスタが決定された後（ステップＳ１６０Ｙｅｓ）、クラスタnon-memberの所属ノードをHubまたはOutlierへ分類する処理をおこなう（ステップＳ１７０）。

【0068】

（ステップＳ１５０の詳細）
図１０は、ステップＳ１５０のサブルーチンを詳細に示すフローチャートである。まず、制御部１０２は、待ち行列Ｑが空集合φか否かを判定する（ステップＳ１５１）。制御部１０２は、待ち行列Ｑが空集合φでない場合（ステップＳ１５１Ｎｏ）に、待ち行列Ｑの先頭にあるノードｙを取り出し（ステップＳ１５２）、ノードｙからDirREACH_ε，μ（ｙ，ｘ）で定義されるノード集合Ｒを取得する（ステップＳ１５３）。ここで用いるDirREACH_ε，μ（ｙ，ｘ）は、以下の［定義７］で定義される。

【0069】

【数7】

【0070】

次に、制御部１０２は、集合Ｒ：Ｒ＝｛ｘ∈Ｖ｜DirREACH_ε，μ（ｙ，ｘ）｝を取得する（ステップＳ１５３）。次に、制御部１０２は、集合Ｒが空集合φでない場合（ステップＳ１５４Ｎｏ）、集合Ｒから任意のノードｘを選択する（ステップＳ１５５）。一方、制御部１０２は、集合Ｒが空集合φである場合（ステップＳ１５４Ｙｅｓ）、ステップＳ１５１へ処理を移す。そして、制御部１０２は、ステップＳ１５６において、ノードｘの所属クラスタが未決定の場合（ステップＳ１５６Ｙｅｓ）、ノードｘを待ち行列Queue Ｑへ挿入する（ステップＳ１５７）。一方、制御部１０２は、ステップＳ１５６において、ノードｘの所属クラスタが決定済の場合（ステップＳ１５６Ｎｏ）、ステップＳ１５８へ処理を移す。

【0071】

次に、制御部１０２は、ノードｘの所属クラスタが未決定もしくはnon-memberの所属とされている場合（ステップＳ１５８Ｙｅｓ）、ノードｘのクラスタをＣ_ｉと決定する（ステップＳ１５９）。一方、制御部１０２は、ノードｘの所属クラスタが決定かつnon-memberの所属とされていない場合（ステップＳ１５８Ｎｏ）、ステップＳ１５４へ処理を移す。集合Ｒと待ち行列Queue Ｑに含まれる全てのノードに対してこれらの処理が終了した後、すなわち待ち行列Queue Ｑが空集合φになったとき（ステップＳ１５１Ｙｅｓ）、ステップＳ１６０へ処理を移す。

【0072】

なお、制御部１０２は、待ち行列Queue Ｑが空集合φである場合（ステップＳ１５１Ｙｅｓ）に、ステップＳ１６０へ処理を移す。

【0073】

（ステップＳ１７０の詳細）
図１１は、ステップＳ１７０のサブルーチンを詳細に示すフローチャートである。先ず、制御部１０２は、クラスタnon-memberに、未分類のノードｖが存在するか否かを判定する（ステップＳ１７１）。制御部１０２は、クラスタnon-memberに、未分類のノードが存在場合に（ステップＳ１７１Ｙｅｓ）、クラスタnon-memberから任意のノードｖを一つ選択し、二つ以上のクラスタとエッジで接続しているか判定する（ステップＳ１７２）。制御部１０２は、クラスタnon-memberに、未分類のノードが存在しない場合に（ステップＳ１７１Ｎｏ）、処理を終了する。

【0074】

制御部１０２は、ノードｖが二つ以上のクラスタと接続している場合（ステップＳ１７２Ｙｅｓ）には、新たなHubのＩＤとしてＨ_ｉを生成し（ステップＳ１７３）、ノードｖをＨ_ｉに分類する（ステップＳ１７４）。なお、“ｉ”は、０を初期値として、ステップＳ１７３の実行の都度、１インクリメントされるインデックスである。

【0075】

一方、ノードｖが一つ以下のクラスタにしか接続していない場合（ステップＳ１７２Ｎｏ）、新たなOutlierのＩＤとしてＯ_ｉを生成し（ステップＳ１７５）、ノードｖをＯ_ｉに分類する（ステップＳ１７６）。なお、“ｉ”は、０を初期値として、ステップＳ１７５の実行の都度、１インクリメントされるインデックスである。制御部１０２は、以上の処理により、全ノードをCluster、Hub、Outlierのいずれかに分類し、処理を終了する。

【0076】

上述の従来技術は、計算されたStructural similarityに基づいてCoreノードの選出およびクラスタリングを行うことから、事前に全てのエッジに対してStructural similarityを計算する必要がある。Structural similarityは、最大計算量となる完全グラフの場合、ノード数をＶとするとエッジ数が｜Ｖ｜^２であることから、分母の計算量はＯ（｜Ｖ｜^２）のオーダとなる。さらに、Structural similarityは、最大計算量となる完全グラフの場合、ノード数をＶとするとエッジ数が｜Ｖ｜^２であることから、分子は２つの集合の積集合を取得する処理が含まれるため計算量Ｏ（｜Ｖ｜^２）のオーダの比較計算処理が発生する。

【0077】

よって、従来技術では、Structural similarity全体の計算量はＯ（｜Ｖ｜^４）のオーダになる。すなわち、従来技術はグラフデータの規模がおおきくなるに伴い計算時間が急激に増加し、クラスタリング処理に膨大な時間を必要とする。

【0078】

（実施形態１および２の効果）
以上から、実施形態１および２は、Structural similarityの計算を一部のエッジに対してのみおこなうが、従来技術と同様にクラスタ構造を抽出することができる。そして、実施形態１およびでは、部分的なノードのみを計算対象とすることで、ノード間で共有される隣接ノードの数に比例してStructural similarityの計算を削減することが可能になる。すなわち、実施形態１および２では、計算対象とするノードの一部のみを効率的に選択することで、エッジに対するStructural similarityの計算回数を大幅に削減する。このため、クラスタリング処理時間の大幅な短縮を実現する。

【0079】

さらに、実施形態２では、エッジの集約と、Structural similarityの推定によるエッジの計算除外により、Structural similarityの計算回数をさらに削減するができる。すなわち、実施形態２では、ノードの逐次集約と、Structural similarityの推定手法を用いたエッジの計算対象除外により、Structural similarityの計算回数をさらに削減し、処理時間の短縮を図ることができる。

【0080】

以上の実施形態１および２は、Structural similarityに基づく従来の様々な技術に対して適用可能であり、いずれの技術に対しても結果として得られるクラスタの質を劣化させずにクラスタリングの処理時間を削減させることができる。

【0081】

（クラスタリング処理を実行するコンピュータの構成）
図１２は、実施形態１および実施形態２のクラスタリング処理を実行するコンピュータの構成を示す機能ブロック図である。図１２示すように、コンピュータ１０００は，ＣＰＵ（Central Processing Unit）１１００、内部記憶装置である主記憶装置１２００、外部記憶装置である二次記憶装置１３００、入出力装置１４００、バス１５００を有する。バス１５００は、ＣＰＵ（Central Processing Unit）１１００、内部記憶装置である主記憶装置１２００、外部記憶装置である二次記憶装置１３００、入出力装置１４００を接続する。

【0082】

上述の実施形態１または実施形態２のクラスタリングの処理手順を規定するクラスタリングプログラムが、入出力装置１４００を経由して二次記憶装置１３００に展開され、ＣＰＵ１１００により実行される。これにより、実施形態１および２のクラスタリング装置２００および３００が実現される。クラスタリング装置２００および３００は、二次記憶装置１３００に格納されたグラフデータを入力とし、主記憶装置１２００に展開し、ＣＰＵ１１００により、入力されたグラフデータのクラスタリング処理を実行する。ＣＰＵ１１００は、並列処理命令により、入力されたグラフデータのクラスタリング処理を実行してもよい。

【0083】

なお、グラフデータは、二次記憶装置１３００に格納されるものに限られない。すなわち、グラフデータは、クラスタリング装置２００または３００としてのコンピュータ１０００に所定のインターフェースを介して接続された記憶装置あるいは通信回線を介して通信可能な遠隔の記憶装置から入力されてもよい。例えば、クラスタリング装置２００または３００としてのコンピュータ１０００は、図１に示すグラフデータ記憶部１１０またはクラスタリング結果記憶部１２０が、外部装置としてネットワーク経由で接続されてもよい。

【0084】

以上、複数の実施形態を説明したが、本願が開示する技術はこれらの実施形態に限定されるものではない。すなわち、これらの実施形態は、その他の様々な形態で実施されることが可能であり、種々の省略、置き換え、変更を行うことができる。例えば、各装置の分散もしくは統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合することができる。

【0085】

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

【0086】

実施形態１および２ならびにその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0087】

２００、３００クラスタリング装置
２０１、３０１入力部
２０２、３０２制御部
２０３、３０３出力部
１１０グラフデータ記憶部
１２０クラスタリング結果記憶部

【図1】