特開2025-8642 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2025-8642クラスタ分析装置、および、クラスタ分析方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025008642

(43)【公開日】2025-01-20

(54)【発明の名称】クラスタ分析装置、および、クラスタ分析方法

(51)【国際特許分類】

G06F 18/23213 20230101AFI20250109BHJP

【ＦＩ】

G06F18/23213

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023110975

(22)【出願日】2023-07-05

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】高畑宜史

(72)【発明者】

【氏名】友部修

(72)【発明者】

【氏名】足立昌宏

(57)【要約】

【課題】入力条件の精度に影響されず、高い出力精度のクラスタを出力可能な非階層クラスタ分析を提供すること。
【解決手段】クラスタ分析装置１００のＣＰＵ１３は、各回ランダムに設定した重心初期位置を第１入力条件として、複数回の非階層クラスタ分析を実行することで、複数のランダムクラスタを取得し、複数のランダムクラスタに共通して所属するデータ点群をもとに共通クラスタを形成し、その共通クラスタの数と、各共通クラスタに所属するデータ点群の重心初期位置とを第２入力条件として作成し、作成した第２入力条件をもとに非階層クラスタ分析を実行することで取得した出力クラスタを出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

クラスタ分析装置は、データ点群をクラスタに分類する非階層クラスタ分析を実行する処理部を有しており、
前記処理部は、
各回ランダムに設定した重心初期位置を第１入力条件として、複数回の前記非階層クラスタ分析を実行することで、複数の第１クラスタを取得し、
前記複数の第１クラスタに共通して所属する前記データ点群をもとに共通クラスタを形成し、その共通クラスタの数と、前記各共通クラスタに所属する前記データ点群の重心初期位置とを第２入力条件として作成し、
作成した前記第２入力条件をもとに前記非階層クラスタ分析を実行することで取得した第２クラスタを出力することを特徴とする
クラスタ分析装置。

【請求項2】

前記処理部は、前記非階層クラスタ分析として、k-means法を用いたクラスタリングを実行することを特徴とする
請求項１に記載のクラスタ分析装置。

【請求項3】

前記処理部は、前記複数の第１クラスタから前記共通クラスタを形成する処理において、前記複数の第１クラスタ間の類似度が所定値よりも低い場合には、その複数の第１クラスタ間の前記共通クラスタを形成対象から除外することを特徴とする
請求項１に記載のクラスタ分析装置。

【請求項4】

前記処理部は、母集団の中心極限定理から母平均の信頼区間を用いることで、前記複数の第１クラスタ間の類似度を計算することを特徴とする
請求項３に記載のクラスタ分析装置。

【請求項5】

クラスタ分析装置は、データ点群をクラスタに分類する非階層クラスタ分析を実行する処理部を有しており、
前記処理部は、
各回ランダムに設定した重心初期位置を第１入力条件として、複数回の前記非階層クラスタ分析を実行することで、複数の第１クラスタを取得するステップと、
前記複数の第１クラスタに共通して所属する前記データ点群をもとに共通クラスタを形成し、その共通クラスタの数と、前記各共通クラスタに所属する前記データ点群の重心初期位置とを第２入力条件として作成するステップと、
作成した前記第２入力条件をもとに前記非階層クラスタ分析を実行することで取得した第２クラスタを出力するステップとを実行することを特徴とする
クラスタ分析方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、クラスタ分析装置、および、クラスタ分析方法に関する。

【背景技術】

【0002】

クラスタ分析は、複数のサンプル（データ点群）が与えられると、類似性を持った集合（クラスタ）に分類する手法であり、ビックデータの解析などに有用である。クラスタ分析の手法は、以下の２種類が代表的である。
・階層クラスタ分析は、データ点群から最も近いデータ同士でクラスタを形成し、徐々にクラスタの数を少なくしていく手法である。
・非階層クラスタ分析は、最終的なクラスタ数を決めてから、自動的にグルーピングを行う手法である。

【0003】

非階層クラスタ分析の１つであるk-means法を用いたクラスタリング（以下「k-meansクラスタリング」）を用いる場合は、分類後のクラスタ数と、各クラスタの重心初期位置（以下「重心初期位置」）とが入力条件（初期条件）として指定される。また、特許文献１には、クラスタを構成するデータ数の下限値のみを入力条件として指定するクラスタ分析装置が記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００５－２２２１３８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

k-meansクラスタリングなどの非階層クラスタ分析は、入力条件の良し悪しによって、出力されるクラスタの精度が大きく変動する。よって、ユーザは、個別のデータ点群に適した入力条件を試行錯誤で設定する手間がかかっていた。

【0006】

図１３は、k-meansクラスタリングの対象となるデータ点群が配置されたデータ空間の説明図である。
データ点群３００は、黒丸で図示する各データ点が、データ空間内に点在する集合体である。

【0007】

図１４は、図１３のデータ点群３００に対するk-meansクラスタリングの結果の第１例を示す説明図である。
クラスタ数＝３の入力条件に従い、クラスタリング結果３１０のデータ点群を構成する各データ点は、各クラスタ３１１，３１２，３１３のいずれかに含まれる。また、入力条件として指定された各クラスタ重心の重心初期位置３１１Ｈ，３１２Ｈ，３１３Ｈが、互いにほぼ等距離の間隔で適切な位置である。
よって、重心初期位置３１１Ｈから形成されるクラスタ３１１と、重心初期位置３１２Ｈから形成されるクラスタ３１２と、重心初期位置３１３Ｈから形成されるクラスタ３１３とは、それぞれクラスタ間でのデータ点数のバラツキが少なく、良好な結果と言える。

【0008】

図１５は、図１３のデータ点群３００に対するk-meansクラスタリングの結果の第２例を示す説明図である。
クラスタ数＝３の入力条件に従い、クラスタリング結果３２０のデータ点群を構成する各データ点は、各クラスタ３２１，３２２，３２３のいずれかに含まれる。しかし、入力条件として指定された各クラスタ重心の重心初期位置３２１Ｈ，３２２Ｈ，３２３Ｈの配置に偏りがあり、重心初期位置３２２Ｈ，３２３Ｈ間の距離が短すぎる。
よって、クラスタ３２１はデータ数が多すぎる一方、クラスタ３２２はデータ数が少ないので、不良な結果と言える。

【0009】

このように、k-meansクラスタリングという同じ手法を用いても出力精度がばらつくので、その入力条件の精度に精度されないような非階層クラスタ分析の手法が求められる。しかし、従来のk-meansクラスタリングでは、各クラスタの重心初期位置を入力条件にする必要上、入力条件の精度に左右されてしまう。
また、特許文献１の手法では、各クラスタの重心初期位置は入力条件として求められないが、代わりにクラスタを構成するデータ数の下限値を入力条件にする必要上、入力条件の精度に左右されてしまう。例えば、入力条件であるデータ数の下限値よりも１つ少ないクラスタの個数が多く形成できるようなデータ点群では、うまくクラスタを形成できない。

【0010】

そこで、本発明は、入力条件の精度に影響されず、高い出力精度のクラスタを出力可能な非階層クラスタ分析を提供することを、主な課題とする。

【課題を解決するための手段】

【0011】

上記課題を解決するために、本発明のクラスタ分析装置は、以下の特徴を有する。
本発明は、クラスタ分析装置が、データ点群をクラスタに分類する非階層クラスタ分析を実行する処理部を有しており、
前記処理部が、
各回ランダムに設定した重心初期位置を第１入力条件として、複数回の前記非階層クラスタ分析を実行することで、複数の第１クラスタを取得し、
前記複数の第１クラスタに共通して所属する前記データ点群をもとに共通クラスタを形成し、その共通クラスタの数と、前記各共通クラスタに所属する前記データ点群の重心初期位置とを第２入力条件として作成し、
作成した前記第２入力条件をもとに前記非階層クラスタ分析を実行することで取得した第２クラスタを出力することを特徴とする。
その他の手段は、後記する。

【発明の効果】

【0012】

本発明によれば、入力条件の精度に影響されず、高い出力精度のクラスタを出力可能な非階層クラスタ分析を提供することができる。

【図面の簡単な説明】

【0013】

【図1】本実施形態に関する本発明に係るクラスタ分析装置の一例の概略を示すブロック図である。

【図2】本実施形態に関するクラスタ分析装置のメイン処理を示すフローチャートである。

【図3】本実施形態に関するランダムクラスタリングおよび出力クラスタリングの対象となるデータ点群が配置されたデータ空間の説明図である。

【図4】比較例として、図３のデータ点群に対するk-meansクラスタリングの結果を示す説明図である。

【図5】本実施形態に関する図３のデータ点群に対する１回目のランダムクラスタリングの結果を示す説明図である。

【図6】本実施形態に関する図３のデータ点群に対する２回目のランダムクラスタリングの結果を示す説明図である。

【図7】本実施形態に関する図５および図６のランダムクラスタリングの結果をもとに、共通クラスタを形成した結果を示す説明図である。

【図8】本実施形態に関する図７の共通クラスタから作成された出力クラスタリングの入力条件および出力クラスタリングの処理の結果を示す説明図である。

【図9】本実施形態に関するランダムクラスタリング処理の詳細を示すフローチャートである。

【図10】本実施形態に関するランダムクラスタから共通クラスタを形成する処理の詳細を示すフローチャートである。

【図11】本実施形態に関するの共通クラスタを用いた重心初期位置によるクラスタリング処理の詳細を示すフローチャートである。

【図12】本実施形態に関するk-meansクラスタリングの処理を示すフローチャートである。

【図13】k-meansクラスタリングの対象となるデータ点群が配置されたデータ空間の説明図である。

【図14】図１３のデータ点群に対するk-meansクラスタリングの結果の第１例を示す説明図である。

【図15】図１３のデータ点群に対するk-meansクラスタリングの結果の第２例を示す説明図である。

【発明を実施するための形態】

【0014】

以下、本発明の一実施形態を図面を用いて説明する。

【0015】

図１は、本発明に係るクラスタ分析装置１００の一例の概略を示すブロック図である。クラスタ分析装置１００は、以下の構成要素を備える。
・入力データ２２を与えるための入力装置１１。
・入力データ２２やクラスタリング結果を保存する記録装置１２。
・入力データ２２のデータ点群をクラスタに分類する非階層クラスタ分析を実行するＣＰＵ１３。
・クラスタリング結果を出力するための出力装置１４。
・プログラムデータ２１、入力データ２２、計算結果データ２３を保存するためのメモリ１５。

【0016】

ＣＰＵ１３は、メモリ１５に読み込んだプログラム（アプリケーションや、その略称のアプリとも呼ばれる）を実行することにより、処理部を制御する。そして、このプログラムは、通信回線を介して配布したり、ＣＤ－ＲＯＭ等の記録媒体に記録して配布したりすることも可能である。
また、メモリ１５内の各データ（プログラムデータ２１、入力データ２２、計算結果データ２３）は、クラスタ分析装置１００の内部の記録装置１２に格納してもよいし、クラスタ分析装置１００の外部の記憶部に格納してもよい。

【0017】

クラスタ分析装置１００は、以下の（手順１）～（手順３）でクラスタリングを実行することで、ユーザからの入力パラメータの精度が低くても、出力されるクラスタリング結果の精度を向上させることとする。
（手順１）各回ランダムに設定した重心初期位置を第１入力条件として、複数回の非階層クラスタ分析（以下「ランダムクラスタリング」）を実行することで、複数のランダムクラスタを取得する。
（手順２）複数のランダムクラスタに共通して所属するデータ点群（以下「共通点群」）をもとに共通クラスタを形成し、その共通クラスタの数と、各共通クラスタに所属するデータ点群の重心初期位置とを第２入力条件として作成する。
（手順３）作成した第２入力条件をもとに非階層クラスタ分析（以下「出力クラスタリング」）を実行することで取得した出力クラスタを出力する。
つまり、ランダムクラスタリングは、出力クラスタリングの処理に必要なパラメータを用意するための準備処理（事前分類処理）である。

【0018】

なお、以下の説明では、ＣＰＵ１３は、ランダムクラスタリングおよび出力クラスタリングのための非階層クラスタ分析として、k-means法を用いたクラスタリングを実行する例を記載する。
これにより、計算量は少ないが入力条件の精度に出力結果が大きく影響される特性を有するk-means法を用いたクラスタリングに対して、前記した出力クラスタリングの入力条件をユーザから直接入力させる代わりに、クラスタ分析装置１００が自動生成することで、弱点をカバーできる。
一方、クラスタ分析装置１００は、ランダムクラスタリングおよび出力クラスタリングのうちの片方または両方について、k-meansクラスタリング以外のランダム性を伴う非階層型なクラスタリング手法を用いて計算してもよい。

【0019】

出力クラスタリングの入力条件として、クラスタ分析装置１００は、ランダムクラスタから以下の処理を行うことで、パラメータを抽出する。
・共通クラスタのクラスタ数を、出力クラスタリングの入力条件であるクラスタ数とする。
・各共通クラスタに属する共通点群の重心位置を、出力クラスタリングの入力条件である重心初期位置とする。

【0020】

図２は、クラスタ分析装置１００のメイン処理を示すフローチャートである。
フローチャートの各ステップにおける演算結果はメモリ１５または記録装置１２に保存され、後続のステップにおいて参照することが可能である。またフローチャートの各ステップの実行順序は、図２で示した手順に限らず、記録装置１２からデータを読み込むことでステップごとに独立して、手順を実行することが可能である。

【0021】

Ｓ１１として、ＣＰＵ１３は、ランダムクラスタリングを複数回実行することで、複数のランダムクラスタを得る（詳細は図９）。一例として事前分類回数Ｎ１＝２回が入力された場合、ランダムクラスタリングを２回実行する。ランダムクラスタリングの実行回数は、多いほど出力クラスタの外れ値が減るが、出力クラスタの数も減る。

【0022】

Ｓ１２として、ＣＰＵ１３は、Ｓ１１によるランダムクラスタから共通点群を取り出し、その共通点群ごとに共通クラスタを形成する（詳細は図１０）。そして、ＣＰＵ１３は、共通クラスタから出力クラスタリングの入力条件を決定する。一例としてあるデータ点が２つのランダムクラスタに所属する場合、その所属する各ランダムクラスタの重心位置が所定距離以内（例えば、母平均の信頼区間）に含まれる場合は、共通点群とする。そして、共通点群ごとに、その共通点群が属する共通クラスタを形成する。

【0023】

Ｓ１３として、ＣＰＵ１３は、Ｓ１２で抽出された出力クラスタリングの入力条件を用いて出力クラスタリングを実行し（詳細は図１１）、その結果の出力クラスタを計算結果データ２３として保存および出力する。

【0024】

以下、図２のメイン処理について、データ空間を用いた具体例をもとに、図３～図８で説明する。
図３は、ランダムクラスタリングおよび出力クラスタリングの対象となるデータ点群が配置されたデータ空間の説明図である。
入力データ２２のデータ点群２００は、黒丸で図示する各データ点が、データ空間内に点在する集合体である。以下、説明をわかりやすくするために図示するデータ空間を２次元空間としたが、もちろんｎ次元空間（ｎ≧１）にも適用可能である。

【0025】

図４は、比較例として、図３のデータ点群２００に対するk-meansクラスタリングの結果を示す説明図である。
クラスタを構成するデータ数の下限値＝６として、特許文献１の手法を適用することで、４つのクラスタ２１１～２１４が出力される。ここで、クラスタ２１１は上側のデータ点群２１５は、下側のデータ点群と離れた位置にあり、さらに別のクラスタに分割することが期待される。しかし、データ点群２１５のデータ数＝５なので、入力条件「データ数の下限値＝６」を満たさないため、別のクラスタに分割できない。
一方、図５～図８で説明するクラスタ分析装置１００が実行するクラスタ分析方法では、このようなデータ点群２１５でもクラスタにできる。

【0026】

図５は、図３のデータ点群２００に対する１回目のランダムクラスタリング（Ｓ１１）の結果を示す説明図である。
ＣＰＵ１３は、入力条件であるクラスタ数Ｎ２＝４つをもとに、４つのランダムな重心初期位置（図示では星印）を入力条件に設定する。ＣＰＵ１３は、これらの入力条件をもとに、k-meansクラスタリングを実行することで、４つのクラスタ２２１～２２４をクラスタリング結果２２０として出力する。今回は、データ空間の右上に重心初期位置が１つしか配置されなかったので、右上のクラスタ２２３がやや大きい範囲になってしまった。

【0027】

図６は、図３のデータ点群２００に対する２回目のランダムクラスタリング（Ｓ１１）の結果を示す説明図である。
ＣＰＵ１３は、入力条件であるクラスタ数Ｎ２＝４つをもとに、４つのランダムな（１回目とは異なる位置の）重心初期位置（図示では星印）を入力条件に設定する。ＣＰＵ１３は、これらの入力条件をもとに、k-meansクラスタリングを実行することで、４つのクラスタ２３１～２３４をクラスタリング結果２３０として出力する。今回は、４つの重心初期位置の配置が、データ空間内に適度に分散されており、各クラスタの範囲にばらつきが少ない良好な結果となった。

【0028】

図７は、図５および図６のランダムクラスタリングの結果をもとに、共通クラスタを形成した（Ｓ１２）結果を示す説明図である。
図７では、クラスタリング結果２２０のクラスタ２２１～２２４を実線のだ円で図示し、クラスタリング結果２３０のクラスタ２３１～２３４を波線細線のだ円で図示する。ＣＰＵ１３は、クラスタリング結果２２０とクラスタリング結果２３０とで、各ランダムクラスタに共通で属する共通点群を抽出する。
例えば、データ空間左上の５つのデータ点群（共通クラスタ２４１に属するデータ点群）は、ともに、クラスタ２２１とクラスタ２３１とに属する共通点があるので、同じ共通クラスタ２４１に属する共通点群として抽出される。同様に、ＣＰＵ１３は、共通クラスタ２４２～２４５に属する各共通点群を抽出する。

【0029】

図８は、図７の共通クラスタから作成された出力クラスタリングの入力条件および出力クラスタリングの処理（Ｓ１３）の結果を示す説明図である。
ＣＰＵ１３は、共通クラスタ２４１に属する共通点群（データ空間左上の５つのデータ点群）から、出力クラスタリングの入力条件である重心初期位置２４１Ｈを求める。同様に、ＣＰＵ１３は、共通クラスタ２４２～２４５についても、重心初期位置２４２Ｈ～２４５Ｈを求める。また、ＣＰＵ１３は、共通クラスタ２４１～２４５の合計数＝５を、出力クラスタリングの入力条件であるクラスタ数とする。
そして、ＣＰＵ１３は、計算した出力クラスタリングの入力条件をもとに、k-meansクラスタリングを実行することで、５つのクラスタ２５１～２５５をクラスタリング結果２５０として出力する。
これにより、図４で説明したようなデータ点群２１５でもクラスタ２５１にできる。つまり、入力条件の精度に影響されず、高い出力精度のクラスタを出力可能な非階層クラスタ分析を提供できる。

【0030】

以下、図９～図１２を参照して、図２のメイン処理の詳細を説明する。
図９は、ランダムクラスタリング処理（図２のＳ１１）の詳細を示すフローチャートである。
Ｓ１０１として、ＣＰＵ１３は、入力条件として以下の各パラメータについて、入力装置１１を介して設定する。各パラメータは入力装置１１を用いてユーザが設定するだけでなく、記録装置１２から予め設定した値を読み込むことも可能である。
・ランダムクラスタリングを行うための入力条件として、ランダムクラスタリングを行う回数を示す事前分類回数Ｎ１。
・ランダムクラスタリングを行うための入力条件として、各回のランダムクラスタリングで生成されるクラスタ数Ｎ２。
・各回のランダムクラスタリングで実行される、k-meansクラスタリング１回あたりの試行回数上限値Ｎ３。

【0031】

Ｓ１０２として、ＣＰＵ１３は、記録装置１２からクラスタリングを実行する対象のデータ点群p[1]～p[N]（ここでp[i]はi番目のデータ点、Ｎはデータ数）を読み込む。そして、ＣＰＵ１３は、入力データ２２のデータ点群p[1]～p[N]から以下の標準化を行った結果のデータ点群P[1]～P[N]を入力データ２２に保存する。
平均Ｍ＝Σp[i]／Ｎ
分散Ｓ^2＝Σ（p[i]－Ｍ）^2／Ｎ（ここでＳ^2はＳの２乗）
データ点P[i]＝（p[i]－Ｍ）／Ｓ
この標準化処理は、データの各次元の値の大小によってクラスタ重心からの距離に重み付けがなされないよう、読み込んだ各次元のデータに対し平均＝０、分散＝１となるように、データ値を変換する処理である。

【0032】

Ｓ１０３として、ＣＰＵ１３は、Ｊ回目のランダムクラスタリングを実行中であることを示すループ変数Ｊを、Ｊ＝１で初期化する。
Ｓ１０４として、ＣＰＵ１３は、Ｊ回目の重心初期位置をランダムに設定する。ランダムな設定方法の一例としてデータ点群P[1]～P[N]からランダムにクラスタ数Ｎ２個のデータ点を選択し、重心初期位置とする。このとき重心初期位置を設定するための際の乱数は、ループ変数Ｊごとに変更可能である。
Ｓ１０５として、ＣＰＵ１３は、Ｓ１０４でランダムに設定した重心初期位置と、試行回数上限値Ｎ３とを引数に含めて図１２のk-meansクラスタリングを実行することで、クラスタ数Ｎ２個のランダムクラスタを得る。

【0033】

Ｓ１０６として、ＣＰＵ１３は、Ｓ１０５によるＪ回目のクラスタリング結果として、以下を記録装置１２に保存する。
・ループ変数Ｊ回目における「Ｊ」、および、そのＪ回目におけるランダムクラスタリングにより生成された各ランダムクラスタのクラスタＩＤ。
・データ点群P[1]～P[N]の各データ点群P[i]が所属するクラスタＩＤ（例えば、データ点P[1]は、１回目にはＡ１のランダムクラスタに属し、２回目にはＢ２のランダムクラスタに属する）
・各ランダムクラスタに含まれるデータ点の個数Ｎ
・各ランダムクラスタに含まれるデータ点群の重心位置Ｍ＝ΣP[i]／Ｎ
・クラスタ数Ｎ２個のランダムクラスタから計算される不偏分散Ｓ^2＝Σ（P[i]－Ｍ）^2／（Ｎ－１）

【0034】

ここでクラスタＩＤとは、各ランダムクラスタ間を区別するためのＩＤである。例えば、クラスタＩＤ＝「Ａ１」は、Ｊ＝１回目のランダムクラスタリングの結果を示す「Ａ」と、その中の１番目のクラスタを示す「１」との組み合わせである。
同様に、クラスタＩＤ＝「Ｂ２」は、Ｊ＝２回目のランダムクラスタリングの結果を示す「Ｂ」と、その中の２番目のクラスタを示す「２」との組み合わせである。つまり、事前分類回数Ｎ１＝２とし、クラスタ数Ｎ２＝５とすると、「Ａ１～Ａ５」および「Ｂ１～Ｂ５」という合計１０個（２×５＝１０）のクラスタＩＤが発行される。

【0035】

Ｓ１０７として、ＣＰＵ１３は、ループ変数Ｊが事前分類回数Ｎ１に到達した場合は図９の処理を終了する。そうでない場合は、ＣＰＵ１３は、ループ変数Ｊを＋１加算し（Ｓ１０８）、処理をＳ１０４に戻す。

【0036】

図１０は、ランダムクラスタから共通クラスタを形成する処理（図２のＳ１２）の詳細を示すフローチャートである。
Ｓ２０１として、ＣＰＵ１３は、ランダムクラスタ間の類似度を判断するための類似度閾値Ｎ４を、入力手段を介して設定する。類似度閾値Ｎ４は、データ点群P[1]～P[N]のデータ数Nには依存しないパラメータである。

【0037】

Ｓ２０２として、ＣＰＵ１３は、Ｓ１１のランダムクラスタリングの結果として、記録装置１２から以下を読み込む。
・Ｓ１０１で設定された、ランダムクラスタリングの入力条件である事前分類回数Ｎ１と、クラスタ数Ｎ２。
・Ｓ１０６で記録装置１２に保存された、各回のランダムクラスタリング結果。

【0038】

Ｓ２１１として、ＣＰＵ１３は、データ点群P[1]～P[N]のデータ点P[K]を１つずつ選択するためのループ変数Ｋを、Ｋ＝１で初期化する。また、ここで、共通クラスタ数を示す共通クラスタ数カウンタを０に初期化する。
Ｓ２１２として、ＣＰＵ１３は、Ｓ２０２にて読み込んだ各回のランダムクラスタリング結果から、データ点[K]が所属するクラスタＩＤの組合せを取得する。一例として、データ点[K]が所属するクラスタＩＤの組合せ＝Ａ１、Ｂ２を取得する。

【0039】

Ｓ２１３として、ＣＰＵ１３は、Ｓ２１２にて取得したクラスタＩＤの組合せが計算結果データ２３に登録済みであれば、Ｓ２１９に移動する。そうでない場合はクラスタＩＤの組合せを計算結果データ２３に登録してＳ２１４に移動する。

【0040】

Ｓ２１４として、ＣＰＵ１３は、Ｓ２１２にて取得したクラスタＩＤの組合せ（Ａ１、Ｂ２間）が類似するか否かを判定する。クラスタ間（Ａ１、Ｂ２間）が類似しない（類似度が類似度閾値Ｎ４未満）なら（Ｓ２１４でNo）、クラスタ間（Ａ１、Ｂ２間）に共通クラスタが存在しないものとして、Ｓ２１９に移動する。
つまり、ＣＰＵ１３は、複数のランダムクラスタから共通クラスタを形成する処理において、複数のランダムクラスタ間の類似度が所定値よりも低い場合には、その複数のランダムクラスタ間の共通クラスタを形成対象から除外する。
これにより、複数のランダムクラスタに共通する共通クラスタとして抽出されても、そのデータ数が極端に少ないなどのノイズとなるクラスタを適切に除外できる。

【0041】

Ｓ２１４でYesなら、クラスタ間に共通クラスタが存在するものとして、Ｓ２１５に移動する。
一例としてクラスタＩＤの組合せ（Ａ１、Ｂ２間）の共通クラスタを共通クラスタＣとし、以下の統計値を計算する。
・ランダムクラスタＡ１、Ｂ２の標本平均をＭＡ１、ＭＢ２とする。ここで標本平均は、重心初期位置と等しく該当するクラスタに含まれるデータ点群P[i]とデータ数Ｎを用いてＭ＝ΣP[i]／Ｎと表現できる。
・共通クラスタＣの標本平均をＭＣとする。
・ランダムクラスタＡ１、Ｂ２の不偏分散をＳＡ１^2、ＳＢ２^2とする。

【0042】

ＣＰＵ１３は、母集団の中心極限定理から母平均の信頼区間を用いることで、複数のランダムクラスタ間の類似度を計算する。
つまり、ＣＰＵ１３は、母集団の中心極限定理に則り、ランダムクラスタＡ１、Ｂ１に含まれるデータ数ＮＡ１、ＮＢ２とする。そして、以下の（判定式１）および（判定式２）をともに満たす場合（AND条件）に、Ｓ２１４でYesと判定し、ランダムクラスタＡ１、Ｂ２の両クラスタと優位に一致する共通クラスタＣを新規に作成して（Ｓ２１５）、Ｓ２１６に移動する。
（判定式１）｜ＭＣ－ＭＡ１｜＜＝類似度閾値Ｎ４＊ＳＡ１／sqrt(ＮＡ１)
（判定式２）｜ＭＣ－ＭＢ２｜＜＝類似度閾値Ｎ４＊ＳＢ２／sqrt(ＮＢ２)
なお、sqrt(ＮＡ１)とは、ＮＡ１の平方根であり、「＊」は乗算記号である。
または、ＣＰＵ１３は、複数のランダムクラスタ間の類似度を計算する場合に、データ空間におけるランダムクラスタ間の重複領域の広さが広いほど類似度を高くするなど、別の計算手法を用いてもよい。

【0043】

Ｓ２１６として、ＣＰＵ１３は、新規に作成した共通クラスタＣの分により、共通クラスタ数カウンタを１加算し、その共通クラスタ数カウンタを計算結果データ２３に登録する。
Ｓ２１７として、ＣＰＵ１３は、Ｓ２１５で新規に作成した共通クラスタの重心位置を算出し、計算結果データ２３に登録する。一例として、共通クラスタＣの重心位置Ｍ＝Σ_{Ｃ}P[i]／Ｎ_{Ｃ}を計算する。ここでΣ_{Ｃ}P[i]は共通クラスタＣに含まれるデータ点群P[i]の総和、Ｎ_{Ｃ}は共通クラスタＣに含まれるデータ数を表す。

【0044】

Ｓ２１８として、ＣＰＵ１３は、ループ変数Ｋ＝データ数Ｎに到達したか否かを判定する。Ｓ２１８でYesとなり、データ点群P[1]～P[N]の全データ点に対してＳ２１２からＳ２１７までのループ処理を終えた場合は、Ｓ２２１に移動する。そうでない場合はＳ２１９に移動する。
Ｓ２１９として、ＣＰＵ１３は、ループ変数Ｋを＋１加算する。

【0045】

Ｓ２２１として、ＣＰＵ１３は、計算結果データ２３から、Ｓ２１６で計算した共通クラスタ数カウンタの最新値と、Ｓ２１７で計算した各共通クラスタの重心位置とを、出力クラスタリングの入力条件として記録装置１２に保存する。
このように、ＣＰＵ１３は、複数回のランダムクラスタリング結果の共通項（共通要素）を用いて、出力クラスタリングの入力条件を算出する。また、Ｓ２１２からＳ２１７までのループ処理で説明した共通クラスタおよびそのパラメータの算出方法は、あくまで一例であり、前記の手順に限定されるものでは無い。

【0046】

図１１は、Ｓ１３の共通クラスタを用いた重心初期位置によるクラスタリング処理（図２のＳ１３）の詳細を示すフローチャートである。
Ｓ３０１として、ＣＰＵ１３は、各回の出力クラスタリングで実行される、k-meansクラスタリング１回あたりの試行回数上限値Ｎ３を入力装置１１を介して設定する。試行回数上限値Ｎ３は入力装置１１を用いてユーザが設定するだけでなく、記録装置１２から予め設定した値を読み込むことも可能である。

【0047】

Ｓ３０２として、ＣＰＵ１３は、記録装置１２から出力クラスタリングを実行する対象のデータ点群p[1]～p[N]を読み込み、Ｓ１０２と同様に、データ点群P[1]～P[N]へと標準化を行った結果を入力データ２２に登録する。

【0048】

Ｓ３０３として、ＣＰＵ１３は、Ｓ２２１で保存された出力クラスタリングの入力条件（クラスタ数および重心初期位置）を読み込み、Ｓ３０４の出力クラスタリングの入力条件として設定する。
Ｓ３０４として、ＣＰＵ１３は、Ｓ３０３の入力条件を引数に含めて、図１２のk-meansクラスタリングを実行することで、入力条件で設定されたクラスタ数の出力クラスタを得る。

【0049】

Ｓ３０５として、ＣＰＵ１３は、Ｓ３０４の出力クラスタリングの結果として、データ点群P[1]～P[N]それぞれが所属する出力クラスタのクラスタＩＤと、各出力クラスタの重心位置とを、計算結果データ２３として記録装置１２に保存する。
Ｓ３０６として、ＣＰＵ１３は、Ｓ３０５で保存された計算結果データ２３を、出力装置１４に出力する。

【0050】

図１２は、Ｓ１０５およびＳ３０４から呼び出されるk-meansクラスタリングの処理を示すフローチャートである。
Ｓ４０１として、ＣＰＵ１３は、図１２の呼出時に通知された引数から、クラスタ数Ｎ２と、Ｎ２個の重心初期位置Ｍと、試行回数上限値Ｎ３とを、今回のk-meansクラスタリングの入力条件として設定する。
Ｓ４０２として、ＣＰＵ１３は、Ｌ回目のk-meansクラスタリングを実行中であることを示すループ変数Ｌ＝１で初期化する。
Ｓ４０３として、ＣＰＵ１３は、各データ点P[i]と、各クラスタ重心Ｍ[j]との間の距離Ｌ[i][j]＝√（P[i]－Ｍ[j]）^2を算出する。

【0051】

Ｓ４０４として、ＣＰＵ１３は、各データ点P[i]に対し、距離Ｌ[i][j]が最も近いクラスタｊに分類されるよう、各データ点P[i]の所属クラスタを設定する。
Ｓ４０５として、ＣＰＵ１３は、Ｓ４０４の結果として、各データの所属クラスタをk-meansクラスタリング結果として計算結果データ２３に登録する。

【0052】

Ｓ４０６として、ＣＰＵ１３は、クラスタｊに含まれるデータ数Ｎ[j]を用いて、各クラスタ重心Ｍ[j]＝Σ_{j}P[i]／Ｎ[j]を更新する。
Ｓ４０７として、ＣＰＵ１３は、ループ変数Ｌが試行回数上限値Ｎ３に到達した場合は、処理を終了する。そうでない場合は、ＣＰＵ１３は、Ｓ４０８に処理を移行させる。

【0053】

Ｓ４０８として、ＣＰＵ１３は、クラスタリング結果が前回と一致（全てのデータの所属クラスタに変化がない）なら、処理を終了する。そうでない場合は、ＣＰＵ１３は、Ｓ４０９に処理を移行させる。なお、ループ変数Ｌ＝１の場合、前回のk-meansクラスタリング結果が存在しないので、ＣＰＵ１３は、Ｓ４０９に処理を移行させる。
Ｓ４０９として、ＣＰＵ１３は、ループ変数Ｌを＋１加算し、処理をＳ４０３に戻す。

【0054】

以上説明した本実施形態のクラスタ分析装置１００は、非階層型な手法を用いたクラスタ分析について、ランダムクラスタリングなどの事前分類処理により、その後に実行される出力クラスタリングの入力条件を求めることとした。
クラスタ分析装置１００は、入力データ２２に対してランダムに設定した重心初期位置の入力条件に基づくランダムクラスタリングを複数回実行することで、複数のランダムクラスタに共通する共通クラスタを取得する。そして、クラスタ分析装置１００は、共通クラスタから出力クラスタリングの入力条件を求め、出力クラスタリングを実行する。

【0055】

これにより、クラスタ分析装置１００は、以下の効果が得られる。
（効果１）k-meansクラスタリング処理と、共通クラスタの算出処理とはともに計算量の小さいので、高速にクラスタリングを実行できる。
（効果２）共通クラスタの算出には、人間系による恣意的なパラメータを必要としない。そのため、データ数や次元数が変化した場合にも、その変化に追従するような高精度の入力条件を人間が用意する必要が無く、適切に計算された入力条件を用いることで出力クラスタリングの精度が向上する。
（効果３）ランダムクラスタリングの入力条件として人間が設定したクラスタ数Ｎ２の精度が悪くても、出力クラスタのクラスタ数は、Ｎ２から変化することもあるので、出力クラスタリングの精度が低下しない。

【0056】

一方、特許文献１では適切なクラスタ数及び重心初期位置を決定するにあたり、以下の（処理１）～（処理５）を実行する必要があり、k-meansクラスタリングの利点である計算量の低減効果が小さくなってしまう。
（処理１）データの並び替え
（処理２）データ点間距離の算出
（処理３）データ点間距離からの空間分割幅決定
（処理４）解析空間から小格子空間への分割
（処理５）小格子空間を用いたクラスタ中心位置の算出
しかし、本実施形態では、（効果１）で説明したように、計算量の低減効果が得られる。

【0057】

さらに、本発明は上述した各実施形態に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、その他種々の応用例、変形例を取り得ることは勿論である。例えば、上述した各実施形態は本発明を分かりやすく説明するためにクラスタ分析装置１００の構成を詳細かつ具体的に説明したものであり、必ずしも説明した全ての構成要素を備えるものに限定されない。また、ある実施形態の構成の一部を他の実施形態の構成要素に置き換えることが可能である。また、ある実施形態の構成に他の実施形態の構成要素を加えることも可能である。また、各実施形態の構成の一部について、他の構成要素の追加又は置換、削除をすることも可能である。

【0058】

また、上記の各構成、機能、処理部等は、それらの一部又は全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。ハードウェアとして、ＦＰＧＡ（Field Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）などの広義のプロセッサデバイスを用いてもよい。
また、上述した実施形態にかかるクラスタ分析装置１００の各構成要素は、それぞれのハードウェアがネットワークを介して互いに情報を送受信できるならば、いずれのハードウェアに実装されてもよい。また、ある処理部により実行される処理が、１つのハードウェアにより実現されてもよいし、複数のハードウェアによる分散処理により実現されてもよい。

【符号の説明】

【0059】

１１入力装置
１２記録装置
１３ＣＰＵ
１４出力装置
１５メモリ
２１プログラムデータ
２２入力データ
２３計算結果データ
１００クラスタ分析装置
２２１～２２４，２３１～２３４クラスタ（第１クラスタ）
２４１～２４５共通クラスタ
２５１～２５５クラスタ（第２クラスタ）

【図1】