特許7262819 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人東北大学の特許一覧

特許7262819クラスタリング装置及びクラスタリング方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-04-14

(45)【発行日】2023-04-24

(54)【発明の名称】クラスタリング装置及びクラスタリング方法

(51)【国際特許分類】

G06F 16/906 20190101AFI20230417BHJP

【ＦＩ】

G06F16/906

【請求項の数】 15

(21)【出願番号】P 2020570278

(86)(22)【出願日】2019-02-06

(86)【国際出願番号】 JP2019004315

(87)【国際公開番号】W WO2020161845

(87)【国際公開日】2020-08-13

【審査請求日】2022-01-25

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２８年度、国立研究開発法人科学技術振興機構、研究成果展開事業産学共創プラットフォーム共同研究推進プログラム、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】504157024

【氏名又は名称】国立大学法人東北大学

(74)【代理人】

【識別番号】110002675

【氏名又は名称】弁理士法人ドライト国際特許事務所

(72)【発明者】

【氏名】遠藤哲郎

(72)【発明者】

【氏名】沈暉

(72)【発明者】

【氏名】馬奕涛

【審査官】松尾真人

(56)【参考文献】

【文献】特開平０５－２０５０５８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１２／０３０３６２３（ＵＳ，Ａ１）

【文献】特開平１１－２１９３７４（ＪＰ，Ａ）

【文献】特開２０１８－１２０３２０（ＪＰ，Ａ）

【文献】中国特許出願公開第１０６３８３６９５（ＣＮ，Ａ）

【文献】Olatz Arbelaitz et al.，An extensive comparative study of cluster validity indices，Pattern Recognition，Elsevier Science，2013年01月，Vol.46, Issue 1，pp.243-256

【文献】S. Saitta et al.，A comprehensive validity index for clustering，Intelligent Data Analysis，IOS Press，2008年，Vol.12, No.6，pp.529-548

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

【請求項2】

前記評価値算出部は、
クラスタ内の要素データの分散の程度を示す各々の前記クラスタについての第１指標値を当該クラスタの要素データのデータ数に基づく第１の値で規格化した値の各前記クラスタの第１総和値である内的結合度と、クラスタ間の距離の指標となる各々の前記クラスタについての第２指標値の第２総和値をクラスタ数に基づく第２の値で規格化した外的分離度とをそれぞれ求め、前記内的結合度と前記外的分離度とを変数とする所定の演算式から前記評価値を算出する
ことを特徴とする請求項１に記載のクラスタリング装置。

【請求項3】

前記評価値算出部は、
Ｘ：要素データ
Ｎｃ：クラスタ数
Ｃ_ｉ：クラスタＩＤが「ｉ」のクラスタ（ｉ＝１，２・・・Ｎｃ）
ｎ_ｉ：クラスタＣ_ｉの要素データの個数
Ｖ_ｉ：クラスタＣ_ｉの重心
ＧＧ：全データの基準点
ｄ（Ｘ，Ｖ_ｉ）：要素データＸと重心Ｖ_ｉとの間のデータ重心間距離またはデータ重心間距離の二乗
ｄ（Ｖ_ｉ，ＧＧ）：重心Ｖ_ｉと基準点ＧＧとの間の重心距離または重心距離の二乗
として、以下の式（Ａ）で表される前記評価値または式の逆数で表される前記評価値を算出する
ことを特徴とする請求項１に記載のクラスタリング装置。

【数1】

【請求項4】

前記評価値算出部は、
Ｘ：要素データ
Ｎｃ：クラスタ数
Ｃ_ｉ：クラスタＩＤが「ｉ」のクラスタ（ｉ＝１，２・・・Ｎｃ）
ｎ_ｉ：クラスタＣ_ｉの要素データの個数
Ｖ_ｉ：クラスタＣ_ｉの重心
ＧＧ：全データの基準点
ｄ（Ｘ，Ｖ_ｉ）：要素データＸと重心Ｖ_ｉとの間のデータ重心間距離またはデータ重心間距離の二乗
ｄ（Ｖ_ｉ，Ｖ_ｊ）：１のクラスタＣ_ｉの重心Ｖ_ｉと他のクラスタＣ_ｊの重心Ｖ_ｊとの間のクラスタ間距離またはクラスタ間距離の二乗
として、以下の式（Ｂ）で表される前記評価値または式の逆数で表される前記評価値を算出する
ことを特徴とする請求項１に記載のクラスタリング装置。

【数2】

【請求項5】

前記一括処理部は、前記複数の要素データの分類されるクラスタ情報を保持するレジスタ部とデータ計算を行なう計算回路とを含み、
前記評価値算出部は、前記一括処理部が前記複数の要素データを分類する際に得られる前記評価値を計算するためのデータを保持する評価レジスタ部と前記評価値を計算するロジック部とを有し、
電源供給が独立して制御される複数のパワードメインが形成され、少なくとも前記データ記憶部と、前記計算回路と、前記更新処理部と、前記ロジック部とが異なる前記パワードメインに分けられるとともに、これら前記パワードメインとは別の前記パワードメインに前記レジスタ部及び評価レジスタ部が分けられている
ことを特徴とする請求項１ないし４のいずれか１項に記載のクラスタリング装置。

【請求項6】

前記一括処理部は、前記複数の要素データの分類されるクラスタＩＤ及びクラスタ重心間距離を保持するレジスタユニットと、データ計算を行なう計算回路とを含み、
前記更新処理部は、前記複数のクラスタの各々の重心を記憶する重心メモリと、前記複数のクラスタのうちから前記最も近いクラスタを特定し、前記新規の要素データを前記最も近いクラスタに分類する近隣探索回路部とを含み、
前記評価値算出部は、前記一括処理部が前記複数の要素データを分類する際に得られる前記評価値を計算するためのデータを保持する評価レジスタ部と前記評価値を計算するロジック部とを有し、
電源供給が独立して制御される複数のパワードメインが形成され、少なくとも前記データ記憶部と、前記計算回路と、前記重心メモリと、前記近隣探索回路部と、前記ロジック部とが互いに異なる前記パワードメインに分けられるとともに、これらの前記パワードメインとは別の１の前記パワードメインに前記レジスタユニット及び評価レジスタ部が分けられている
ことを特徴とする請求項１ないし４のいずれか１項に記載のクラスタリング装置。

【請求項7】

前記判断部は、分類結果が妥当ではない場合に、前記一括処理部による前記新規の要素データを含む全ての要素データの分類を実行させることを特徴とする請求項１ないし６のいずれか１項に記載のクラスタリング装置。

【請求項8】

前記データ記憶部は、不揮発性メモリで構成されることを特徴とする請求項１ないし７のいずれか１項に記載のクラスタリング装置。

【請求項9】

１または複数の新規の要素データの追加に応答して、前記新規の要素データを含む複数の要素データを分類した状態にするクラスタリング部と、
分類結果を評価する評価値を算出する評価値算出部と
を備え、
前記評価値算出部は、
Ｘ：要素データ
Ｎｃ：クラスタ数
Ｃ_ｉ：クラスタＩＤが「ｉ」のクラスタ（ｉ＝１，２・・・Ｎｃ）
ｎ_ｉ：クラスタＣ_ｉの要素データの個数
Ｖ_ｉ：クラスタＣ_ｉの重心
ＧＧ：全データの基準点
ｄ（Ｘ，Ｖ_ｉ）：要素データＸと重心Ｖ_ｉとの間のデータ重心間距離またはデータ重心間距離の二乗
ｄ（Ｖ_ｉ，ＧＧ）：重心Ｖ_ｉと基準点ＧＧとの間の重心距離または重心距離の二乗
として、以下の式（Ａ）で表される前記評価値または式の逆数で表される前記評価値を算出する
ことを特徴とするクラスタリング装置。

【数3】

【請求項10】

１または複数の新規の要素データの追加に応答して、前記新規の要素データを含む複数の要素データを分類した状態にするクラスタリング部と、
分類結果を評価する評価値を算出する評価値算出部と
を備え、
前記評価値算出部は、
Ｘ：要素データ
Ｎｃ：クラスタ数
Ｃ_ｉ：クラスタＩＤが「ｉ」のクラスタ（ｉ＝１，２・・・Ｎｃ）
ｎ_ｉ：クラスタＣ_ｉの要素データの個数
Ｖ_ｉ：クラスタＣ_ｉの重心
ＧＧ：全データの基準点
ｄ（Ｘ，Ｖ_ｉ）：要素データＸと重心Ｖ_ｉとの間のデータ重心間距離またはデータ重心間距離の二乗
ｄ（Ｖ_ｉ，Ｖ_ｊ）：１のクラスタＣ_ｉの重心Ｖ_ｉと他のクラスタＣ_ｊの重心Ｖ_ｊとの間のクラスタ間距離またはクラスタ間距離の二乗
として、以下の式（Ｂ）で表される前記評価値または式の逆数で表される前記評価値を算出する
ことを特徴とするクラスタリング装置。

【数4】

【請求項11】

複数の要素データを分類するクラスタリング装置において、
前記複数の要素データを記憶するデータ記憶部と、
分類結果を評価する評価値を算出する評価値算出部と、
設定されるクラスタ数の複数のクラスタに前記複数の要素データを分類することで得られる前記評価値に基づき、最適なクラスタ数の前記複数のクラスタに前記複数の要素データを分類する一括処理部と、
追加される新規の要素データを、前記一括処理部によって前記複数の要素データが分類されている前記複数のクラスタのうちの前記新規の要素データに最も近いクラスタに分類する更新処理部と、
前記更新処理部が前記新規の要素データを分類することで得られる前記評価値に基づき、前記新規の要素データの分類後の分類結果の妥当性を判断する判断部と
を備え、
前記一括処理部は、前記複数の要素データの分類されるクラスタ情報を保持するレジスタ部とデータ計算を行なう計算回路とを含み、
前記評価値算出部は、前記一括処理部が前記複数の要素データを分類する際に得られる前記評価値を計算するためのデータを保持する評価レジスタ部と前記評価値を計算するロジック部とを有し、
電源供給が独立して制御される複数のパワードメインが形成され、少なくとも前記データ記憶部と、前記計算回路と、前記更新処理部と、前記ロジック部とが異なる前記パワードメインに分けられるとともに、これら前記パワードメインとは別の前記パワードメインに前記レジスタ部及び評価レジスタ部が分けられている
ことを特徴とするクラスタリング装置。

【請求項12】

複数の要素データを分類するクラスタリング装置において、
前記複数の要素データを記憶するデータ記憶部と、
分類結果を評価する評価値を算出する評価値算出部と、
設定されるクラスタ数の複数のクラスタに前記複数の要素データを分類することで得られる前記評価値に基づき、最適なクラスタ数の前記複数のクラスタに前記複数の要素データを分類する一括処理部と、
追加される新規の要素データを、前記一括処理部によって前記複数の要素データが分類されている前記複数のクラスタのうちの前記新規の要素データに最も近いクラスタに分類する更新処理部と、
前記更新処理部が前記新規の要素データを分類することで得られる前記評価値に基づき、前記新規の要素データの分類後の分類結果の妥当性を判断する判断部と
を備え、
前記一括処理部は、前記複数の要素データの分類されるクラスタＩＤ及びクラスタ重心間距離を保持するレジスタユニットと、データ計算を行なう計算回路とを含み、
前記更新処理部は、前記複数のクラスタの各々の重心を記憶する重心メモリと、前記複数のクラスタのうちから前記最も近いクラスタを特定し、前記新規の要素データを前記最も近いクラスタに分類する近隣探索回路部とを含み、
前記評価値算出部は、前記一括処理部が前記複数の要素データを分類する際に得られる前記評価値を計算するためのデータを保持する評価レジスタ部と前記評価値を計算するロジック部とを有し、
電源供給が独立して制御される複数のパワードメインが形成され、少なくとも前記データ記憶部と、前記計算回路と、前記重心メモリと、前記近隣探索回路部と、前記ロジック部とが互いに異なる前記パワードメインに分けられるとともに、これらの前記パワードメインとは別の１の前記パワードメインに前記レジスタユニット及び評価レジスタ部が分けられている
ことを特徴とするクラスタリング装置。

【請求項13】

クラスタリング装置によって実行されるクラスタリング方法であって、
クラスタ数を変化させながら、全ての要素データを用いた分類を行なうことで得られる各クラスタ数についての分類結果を評価する評価値から最適なクラスタ数を求め、求めた前記最適なクラスタ数で前記要素データを分類した分類結果を得る一括処理工程と、
前記一括処理工程後に新規の要素データが追加された際に、前記新規の要素データを既存のクラスタのいずれかに分類し、分類後に前記評価値を求める更新処理工程と、
前記更新処理工程で前記新規の要素データの分類後に得られる前記評価値と、当該新規の要素データの分類前の前記評価値とを比較することによって、前記更新処理工程による前記新規の要素データの分類後の分類結果の妥当性を判断する判断工程と
を有し、
前記クラスタリング装置が、前記一括処理工程、前記更新処理工程、及び前記判断工程を実行する
ことを特徴とするクラスタリング方法。

【請求項14】

クラスタリング装置によって実行されるクラスタリング方法であって、
１または複数の新規の要素データの追加に応答して、新規の要素データを含む複数の要素データを分類した状態にするクラスタリング工程と、
分類結果を評価する評価値を算出する評価値算出工程と
を有し、
前記評価値算出工程は、
Ｘ：要素データ
Ｎｃ：クラスタ数
Ｃ_ｉ：クラスタＩＤが「ｉ」のクラスタ（ｉ＝１，２・・・Ｎｃ）
ｎ_ｉ：クラスタＣ_ｉの要素データの個数
Ｖ_ｉ：クラスタＣ_ｉの重心
ＧＧ：全データの基準点
ｄ（Ｘ，Ｖ_ｉ）：要素データＸと重心Ｖ_ｉとの間のデータ重心間距離またはデータ重心間距離の二乗
ｄ（Ｖ_ｉ，ＧＧ）：重心Ｖ_ｉと基準点ＧＧとの間の重心距離または重心距離の二乗
として、以下の式（Ａ）で表される前記評価値または式の逆数で表される前記評価値を算出し、
前記クラスタリング装置が、前記クラスタリング工程、及び前記評価値算出工程を実行する
ことを特徴とするクラスタリング方法。

【数5】

【請求項15】

クラスタリング装置によって実行されるクラスタリング方法であって、
１または複数の新規の要素データの追加に応答して、新規の要素データを含む複数の要素データを分類した状態にするクラスタリング工程と、
分類結果を評価する評価値を算出する評価値算出工程と
を有し、
前記評価値算出工程は、
Ｘ：要素データ
Ｎｃ：クラスタ数
Ｃ_ｉ：クラスタＩＤが「ｉ」のクラスタ（ｉ＝１，２・・・Ｎｃ）
ｎ_ｉ：クラスタＣ_ｉの要素データの個数
Ｖ_ｉ：クラスタＣ_ｉの重心
ＧＧ：全データの基準点
ｄ（Ｘ，Ｖ_ｉ）：要素データＸと重心Ｖ_ｉとの間のデータ重心間距離またはデータ重心間距離の二乗
ｄ（Ｖ_ｉ，Ｖ_ｊ）：１のクラスタＣ_ｉの重心Ｖ_ｉと他のクラスタＣ_ｊの重心Ｖ_ｊとの間のクラスタ間距離またはクラスタ間距離の二乗
として、以下の式（Ｂ）で表される前記評価値または式の逆数で表される前記評価値を算出し、
前記クラスタリング装置が、前記クラスタリング工程、及び前記評価値算出工程を実行する
ことを特徴とするクラスタリング方法。

【数6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、クラスタリング装置及びクラスタリング方法に関する。

【背景技術】

【0002】

分類対象の複数の要素データの集合を複数のクラスタ（データ群）に分類するクラスタリング（クラスタ分析）が知られており、近年、画像解析、データマイニング、ビッグデータの解析等で頻繁に利用されている。また、このようなクラスタリングは、機械学習のうちの教師なし学習となる。クラスタリングでは、類似する要素データ同士を同じクラスタに分類し、クラスタ間では要素データができるだけ類似しないように分類することによって、その分類結果から要素データの傾向や特徴の抽出等を行うものである。

【0003】

複数の要素データをクラスタに分類するクラスタリング手法としては、種々の方法が知られており、代表的なクラスタリングの手法の１つとしてｋ－ｍｅａｎｓ法が知られている。ｋ－ｍｅａｎｓ法では、予めクラスタ数ｋが設定され、例えばＮ個の全要素データのうちから任意のｋ個の要素データが選択され、それらをｋ個のクラスタの重心の初期値とする（手順１）。次に、各要素データのそれぞれについて、当該要素データとの距離が最も短い重心のクラスタに分類する（手順２）。各クラスタについて、クラスタ内の要素データの平均を新たなクラスタの重心に設定する（手順３）。そして、各クラスタの重心が変化しなくなるまで、手順２と手順３とを繰り返し行う。

【0004】

上記のようなクラスタリング手法は、予め設定されたクラスタ数のクラスタに要素データを分類するものであって、クラスタ数を予め設定する必要がある。通常、最適なクラスタ数を決定するために、クラスタ数を変化させてクラスタリングした各結果のそれぞれについての評価値を求め、評価値が極値、あるいは最大値ないし最小値のクラスタ数を最適なクラスタ数としている。

【0005】

分類すべき新規要素データが追加された場合に、新規要素データを含む全要素データを用いて、上記のように最適なクラスタ数を決定し、最適なクラスタ数でクラスタリングを行う手法が知られている（非特許文献１を参照）。また、新規要素データが追加された場合に、新規要素データとの距離が最小となるクラスタ重心を特定し、その特定したクラスタ重心のクラスタに新規要素データを分類する手法が知られている（非特許文献２を参照）。

【先行技術文献】

【非特許文献】

【0006】

【文献】Z. Hou et.al., “ Real-Time Very Large-Scale Integration Recognition System with an On-Chip Adaptive K-Means Learning Algorithm”, JJAP, Vol. 52,04CE11

【文献】Chen, Tse-Wei, and Makoto Ikeda. "Design and implementation of low-power hardware architecture with single-cycle divider for on-line clustering algorithm." IEEE Transactions on Circuits and Systems I: Regular Papers60.8 (2013): 2165-2176.

【発明の概要】

【発明が解決しようとする課題】

【0007】

ところで、新規要素データが追加された場合に、新規要素データを含む全要素データを用いて、最適なクラスタ数を求めてクラスタリングを行う手法は、高精度な分類結果が期待できる反面、演算負荷が大きいため、効率が悪かった。また、クラスタリング結果について高速な応答が要求される用途には不向きである。一方、新規要素データが追加された場合に、新規要素データとの距離が最小となるクラスタ重心のクラスタに新規要素データを分類する手法は、クラスタリング結果について高速な応答性が得られるが、分類結果の精度が低くなる場合がある。これは、要素データの追加前におけるクラスタ数を要素データの追加後においても適正とみなしているためである。

【0008】

本発明は、上記事情を鑑みてなされたものであり、効率良く高精度なクラスタリングに資するクラスタリング装置及びクラスタリング方法を提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明のクラスタリング装置は、複数の要素データを分類するクラスタリング装置において、前記要素データを記憶するデータ記憶部と、分類結果を評価する評価値を算出する評価値算出部と、設定されるクラスタ数のいずれかのクラスタに前記複数の要素データを分類することで得られる前記評価値に基づき、最適なクラスタ数の前記クラスタに前記複数の要素データを分類する一括処理部と、追加される新規の要素データを、前記一括処理部によって前記複数の要素データが分類されている複数の前記クラスタのうちの前記新規の要素データに最も近い前記クラスタに分類する更新処理部と、前記更新処理部が前記新規の要素データを分類することで得られる前記評価値に基づき、前記新規の要素データの分類後の分類結果の妥当性を判断する判断部とを備えるものである。

【0010】

本発明のクラスタリング装置は、複数のいずれかのクラスタに複数の要素データを分類するクラスタリング部と、前記複数の要素データを分類する前記クラスタリング部の計算過程の計算値を用いて、前記クラスタ内の前記要素データの分散の程度を示す各々の前記クラスタについての第１指標値を当該クラスタのデータ数に基づく第１の値で規格化した値の各前記クラスタの第１総和値である内的結合度と、前記クラスタ間の距離の指標となる各々の前記クラスタについての第２指標値の第２総和値を前記クラスタ数に基づく第２の値で規格化した外的分離度とをそれぞれ求め、前記内的結合度と前記外的分離度とを変数とする所定の演算式から、前記クラスタリング部による分類結果を評価する評価値を算出する前記評価値算出部とを備えるものである。

【0011】

また、本発明のクラスタリング方法は、クラスタ数を変化させながら、全ての要素データを用いた分類を行なうことで得られる各クラスタ数についての分類結果を評価する評価値から最適なクラスタ数を求め、求めた前記最適なクラスタ数で前記要素データを分類した分類結果を得る一括処理工程と、前記一括処理工程後に新規の要素データが追加された際に、前記新規の要素データを既存の前記クラスタのいずれかに分類し、分類後に前記評価値を求める更新処理工程と、前記更新処理工程で得られる前記評価値に基づき、前記更新処理工程による分類結果の妥当性を判断する判断工程とを有するものである。

【発明の効果】

【0012】

本発明によれば、全ての要素データを用いて求められる最適なクラスタ数で要素データを分類した後に、新規の要素データが追加された際には、新規の要素データを既存の複数のクラスタのうちの最も近いクラスタに分類し、この分類後に得られる評価値に基づいて分類結果の妥当性を判断するので、効率良く高精度なクラスタリングを行なうことができるようになる。

【0013】

また、本発明によれば、前記複数の要素データを分類する前記クラスタリング部の計算過程の計算値を用いて、クラスタ内の前記要素データの分散の程度を示す内的結合度と、クラスタ間の分離の程度を示す外的分離度とに基づく評価値を算出するので、過剰な分類を抑制した高精度な評価値を効率良く求めることができ、結果として効率良く高精度なクラスタリングを行なうことができるようになる。

【図面の簡単な説明】

【0014】

【図1】本発明を実施したクラスタリング装置の構成を示すブロック図である。

【図2】メインメモリ及び遅延回路の構成を示す説明図である。

【図3】距離レジスタ部のセルの構成を示す回路図である。

【図4】最大値検出回路の構成を示す回路図である。

【図5】ＣＩＤマスク回路の構成を示す回路図である。

【図6】重心算出回路の構成を示す回路図である。

【図7】近隣探索回路の構成を示す回路図である。

【図8】評価値算出回路の構成を示すブロック図である。

【図9】ＣＩＤレジスタのセルに接続されたイネーブル信号回路を示す回路図である。

【図10】ＭＩＤレジスタに接続されたイネーブル信号回路を示す回路図である。

【図11】演算ユニットのパワードメインを示す説明図である。

【図12】一括処理における各パワードメインに対する電力供給のタイミングを示すタイミングチャートである。

【図13】更新処理における各パワードメインに対する電力供給を示すタイミングチャートである。

【図14】一括処理の手順の概略を示すフローチャートである。

【図15】更新処理の手順の概略を示すフローチャートである。

【図16】検証における更新処理の前後における一例を示す説明図である。

【図17】検証における更新処理の前後における別の例を示す説明図である。

【図18】検証における更新処理の前後におけるさらに別の例を示す説明図である。

【発明を実施するための形態】

【0015】

図１において、クラスタリング装置１０は、複数の要素データを対象にクラスタリングを行う。このクラスタリング装置１０は、一括処理（バッチ処理）、更新処理（オンライン処理）を行なう。

【0016】

一括処理は、クラスタ数を変化させながら、全ての要素データを用いたクラスタリングを行なうことで得られる各クラスタ数に対する評価値から最適なクラスタ数を求め、求めた最適なクラスタ数で要素データを分類したクラスタリング結果（分類結果）を得る処理である。この例では、一括処理におけるクラスタリング手法としてｋ－ｍｅａｎｓ法を用い、また評価値が最大（極大）となるクラスタ数を最適なクラスタ数としている。

【0017】

更新処理は、一括処理後に新規要素データが追加された場合に、その追加された新規要素データを既存のクラスタに効率的かつ高速に分類する処理である。また、この更新処理では、追加された新規要素データのクラスタへの分類後に評価値を求め、その評価値を用いて更新処理の妥当性判断を行なう。この更新処理で求められる評価値は、一括処理で求める評価値と同等のものである。妥当性判断は、更新処理によるクラスタリング結果が妥当である否かを判断し、妥当である場合には更新処理による結果を最終結果とし、妥当でない場合には一括処理を実行させる。

【0018】

一括処理及び更新処理で求めるクラスタ数Ｎｃについての評価値をＥ（Ｎｃ）としたとき、この例で求める評価値Ｅ（Ｎｃ）は、式（１）のように表される。なお、ｉは、１，２・・・Ｎｃであり、この例ではクラスタＩＤとしている。

【0019】

【数1】

【0020】

上記式（１）中の各値は、次の通りである。
ＳＷＤ：第１総和値である内的結合度（規格化済み）
ＳＢＳ／Ｎｃ：外的分離度（規格化済み）
ＳＢＳ：第２総和値
Ｘ：要素データ
ＧＧ：全要素データの重心であるデータ重心
Ｃ_ｉ：クラスタＩＤが「ｉ」のクラスタ
Ｖ_ｉ：クラスタＣ_ｉの重心であるクラスタ重心
ｎ_ｉ：クラスタＣ_ｉの要素データの個数であるデータ数
ｄ（Ｖ_ｉ，ＧＧ）：クラスタ重心Ｖ_ｉとデータ重心ＧＧとの間の距離である重心距離
ｄ（Ｘ，Ｖ_ｉ）：要素データＸとクラスタ重心Ｖ_ｉとの間の距離であるデータ重心間距離

【0021】

なお、以下の説明では、重心距離ｄ（Ｖ_ｉ，ＧＧ）を重心距離ＤＧＶ_ｉ、データ重心間距離ｄ（Ｘ，Ｖ_ｉ）をデータ重心間距離ＤＸＶ_ｉと称する。データ重心間距離ＤＸＶ_ｉのうち、クラスタＣ_ｉ内の要素データＸと当該クラスタＣ_ｉのクラスタ重心Ｖ_ｉとの距離を特に区別する際にはクラスタ内距離ＤＸＶ_ｉと称することがある。さらに、個々の要素データＸを特に区別する場合には、要素データＸ_１、Ｘ_２・・・等と称して説明する。

【0022】

要素データＸは、ｑ（ｑは、１以上の整数）次元ベクトルであり、例えば画像の色や濃淡、色の分布等の各特徴量を表す。要素データＸの各次元は、Ｎビット（例えば８ビット）で表される。データ重心ＧＧは、全ての要素データＸの相加平均として求められ、クラスタ重心Ｖ_ｉは、クラスタ内の各要素データＸの相加平均として求められる。データ重心ＧＧ及びクラスタ重心Ｖ_ｉは、要素データＸと同じｑ次元ベクトルである。重心距離ＤＧＶ_ｉ及びデータ重心間距離ＤＸＶ_ｉは、この例ではマンハッタン距離として求められる。

【0023】

式（１）の右辺の分母の値ＳＷＤは、クラスタＣ_ｉ内における要素データＸの分散（要素データ同士の類似）の程度を全クラスタについて示す内的結合度になっている。式（１）における内的結合度は、クラスタＣ_ｉごとの第１指標値ＳＤ_ｉを当該クラスタ内のデータ数ｎ_ｉで除することで規格化した結合指標値ＳＷＤ_ｉの各クラスタＣ_ｉについての総和である第１総和値として求められる。第１指標値ＳＤ_ｉは、クラスタＣ_ｉ内の各要素データＸについてのクラスタ内距離ＤＸＶ_ｉの総和としている。

【0024】

また、式（１）の右辺の分子は、クラスタＣ_ｉの分離の程度を全クラスタについて示す外的分離度になっている。式（１）における外的分離度は、クラスタ指標値ＳＢＳをクラスタ数Ｎｃで除算して規格化したものになっている。この例における、クラスタ指標値ＳＢＳは、クラスタ間の距離の指標となる各々のクラスタＣｉについての第２指標値ＳＢＳ_ｉの総和である第２総和値として求められる。第２指標値ＳＢＳ_ｉは、クラスタＣ_ｉのデータ数ｎ_ｉで重み付けした重心距離ＤＧＶ_ｉとしている。このように、第２指標値ＳＢＳ_ｉとして、重心距離ＤＧＶ_ｉを用いることは、クラスタ相互間の距離を用いるよりも計算数を少なくする上で有利である。なお，重心距離ＤＧＶ_ｉに重み付けをする場合、重み付けする値は、データ数ｎ_ｉに限定されず、データ数ｎ_ｉに基づく値で重み付けしてもよい。

【0025】

内的結合度ＳＷＤは、結合指標値ＳＷＤ_ｉを用いて、式（２）のように表され、クラスタ指標値ＳＢＳは、第２指標値ＳＢＳ_ｉを用いて、式（３）のように表される。また、クラスタＣ_ｉにおける結合指標値ＳＷＤ_ｉ及び第２指標値ＳＢＳ_ｉは、それぞれ式（４）、式（５）のように表される。

【0026】

【数2】

【0027】

上記のように、評価値Ｅ（Ｎｃ）では、クラスタ指標値ＳＢＳをクラスタ数Ｎｃで規格化した値を外的分離度とし、クラスタＣｉのデータ数ｎ_ｉで規格化した結合指標値ＳＷＤ_ｉの第１総和値を内的結合度としている。このため、全要素データＸにおいて、他の要素データＸのまとまりに対して、範囲の大きな要素データＸのまとまりがある場合や、要素データＸの分布密度が高い要素データＸのまとまりがある場合等であっても、個々のクラスタＣｉ内における要素データＸの分散の程度が内的結合度に適正に反映される。すなわち、過剰な分類がされた場合に、評価値Ｅ（Ｎｃ）がより大きくなるようなことがなく、過剰な分類が抑制される。

【0028】

クラスタリング装置１０は、システムコントローラ１１と、演算ユニット１２とを備えている。演算ユニット１２は、メインメモリ１４、重心メモリ１５、クラスタリング演算部１６、近隣探索回路部１７、評価値算出回路１８を備えている。

【0029】

システムコントローラ１１は、演算ユニット１２に対する要素データＸの入力、一括処理のクラスタリング及び更新処理の実行指示、クラスタ数Ｎｃの設定や、演算ユニット１２から取得した評価値Ｅ（Ｎｃ）による最適なクラスタ数Ｎｃの判断、上述の妥当性判断、演算ユニット１２に対するパワーゲーティングの制御等を行なう。パワーゲーティングについては後述する。また、システムコントローラ１１は、クラスタリング結果として演算ユニット１２から各要素データＸに割り当てられるクラスタＩＤ、追加された新規要素データＸｎｅｗが分類されたクラスタＣｉのクラスタＩＤの取得等を行なう。この例では、システムコントローラ１１が判断部となる。

【0030】

さらに、システムコントローラ１１は、演算ユニット１２によるクラスタリングの実行時に重心メモリ１５の内容すなわち各クラスタ重心Ｖ_ｉを監視し、各クラスタ重心Ｖ_ｉの変動がなくなったとき、すなわちクラスタ重心Ｖ_ｉが収束したときにクラスタリングを終了させる。なお、クラスタ重心Ｖ_ｉが収束することに代えて、予め設定した回数の後述する分類計算を行なったときにクラスタリングを終了させてもよい。

【0031】

システムコントローラ１１は、一括処理の際のクラスタ数Ｎｃごとの復元用データを記憶する。復元用データは、演算ユニット１２に保持されるクラスタＩＤ、クラスタ内距離ＤＸＶ_ｉ、クラスタ重心Ｖ_ｉ，データ数ｎ_ｉ等を最適なクラスタ数Ｎｃでクラスタリングした状態に復元するためのデータである。この例では、復元用データとして、各要素データＸに割り当てられるクラスタＩＤを記憶する。復元用データとしては、この他に、各クラスタ重心Ｖ_ｉ等としてもよく、クラスタＩＤとクラスタ重心Ｖ_ｉとしてもよい。

【0032】

最適なクラスタ数Ｎｃによるクラスタリングを再度実行することでも、演算ユニット１２に保持されるデータを復元できるが、クラスタＩＤやクラスタ重心Ｖ_ｉを用いることで、少ない計算量で高速に復元することができる。ｋ－ｍｅａｎｓ法のようなクラスタリングでは、そのクラスタリングに要する計算時間のほとんどがクラスタ重心を収束させるための反復計算の時間である。計算の反復回数は、要素データＸの総データ数にもよるが、数十～数百回、多い場合には１０００回程度にも達する。しかしながら、上記のように、一度収束したクラスタ重心Ｖ_ｉやそれによって決まったクラスタＩＤを用いれば、反復計算をすることなく、高速（短時間）かつ高精度にクラスタリングした状態にすることができる。

【0033】

演算ユニット１２は、上記の一括処理、更新処理を行なうＡＳＩＣ（Application Specific Integrated Circuit）として作製され、演算ユニット１２の各部はクロック発生器（図示省略）からのクロックに基づいて同期動作するように構成されている。この演算ユニット１２は、システムコントローラ１１による一括処理のクラスタリング及び更新処理の指示をトリガにして作動する。

【0034】

クラスタリング演算部１６は、ｋ－ｍｅａｎｓ法によるクラスタリングを行なう回路であり、一括処理のクラスタリングの各種計算や各要素データＸのクラスタＣ_ｉへの分類等を行なう。このクラスタリング演算部１６は、遅延回路２１、距離算出回路２２、距離レジスタ部２４とＣＩＤ（クラスタＩＤ）レジスタ部２５とからなるメインレジスタユニット２６、最大値検出回路２７、ＣＩＤ（クラスタＩＤ）マスク回路２８、重心算出回路２９を有している。クラスタリング演算部１６は、システムコントローラ１１とともに一括処理部を構成する。

【0035】

データ記憶部としてのメインメモリ１４は、システムコントローラ１１によって書き込まれる複数の要素データＸを記憶する。図２に一例を示すように、メインメモリ１４は、１個の要素データＸの各次元の成分（以下、ベクトル成分という）と同じＮビットの容量を持つ単位ブロック１４ａをｑ×Ｍの行列状に並べたものであり、各列に要素データＸの次元と同じｑ個の単位ブロック１４ａが並べられている。行方向に並ぶ単位ブロック１４ａの個数Ｍは、分類する要素データＸの最大個数以上である。メインメモリ１４は、１つの単位ブロック１４ａに１個のベクトル成分を記憶し１個の要素データＸが同一列の各単位ブロック１４ａに記憶するようにして、各要素データＸを記憶する。図２では、要素データＸｐの各ベクトル成分Ｘｐ１、Ｘｐ２・・・Ｘｐｑが書き込まれた状態を描いてある。

【0036】

メインメモリ１４は、要素データＸを読み出す際には、行方向に並ぶＭ個の単位ブロック１４ａを１単位として順次に読み出す。これにより、各要素データＸのベクトル成分が一次元分ずつ並列的にメインメモリ１４から出力される。なお、要素データＸが書かれていない列からも同様に読み出しが行なわれ、この場合には例えば「０」の成分ベクトルが読み出される。なお、メインメモリ１４は、要素データＸの書き込みについては、例えば単位ブロック１４ａごとのように少容量ずつ書き込みを行なうものであってもよい。なお、重心メモリ１５についても同様である。

【0037】

重心メモリ１５は、各クラスタのクラスタ重心Ｖ_ｉを記憶するものであり、図示を省略するが、メインメモリ１４と同様な構成である。すなわち、重心メモリ１５は、Ｎビットの単位ブロックを列方向にｑ個の並べるようにして単位ブロックを行列状に設けたものであり、各列にｑ次元のクラスタ重心Ｖ_ｉを記憶する。重心メモリ１５は、メインメモリ１４よりも小容量である。重心メモリ１５からは、クラスタ重心Ｖ_ｉごとに読み出され、１つのクラスタ重心Ｖ_ｉについては、１列分のベクトル成分が順次に読み出される。

【0038】

この例では、メインメモリ１４及び重心メモリ１５には、不揮発性メモリが用いられている。これにより、要素データＸ、クラスタ重心Ｖ_ｉの読み出し、書き込みを行なわないときには、これらへの電力供給を停止することができ、より一層の省電力化を図ることができる。メインメモリ１４及び重心メモリ１５に用いる不揮発性メモリとしては、ＭＴＪ素子等を記憶素子としたものが好ましく用いられる。

【0039】

遅延回路２１は、メインメモリ１４と距離算出回路２２との間に設けられている。この遅延回路２１は、メインメモリ１４から読み出されて距離算出回路２２に入力される要素データＸの入力タイミングと、当該要素データＸから重心算出回路２９によって算出されて距離算出回路２２に入力されるクラスタ重心Ｖ_ｉの入力タイミングとを同期させる。図２に示されるように、遅延回路２１は、複数段に接続されたレジスタ部３１から構成される。各レジスタ部３１は、それぞれＭ個のセル３１ａで構成されている。各セル３１ａは、それぞれＮビットの容量を持つレジスタである。１つのレジスタ部３１の各セル３１ａから次段のレジスタ部３１の各セル３１ａに順次にベクトル成分を送ることで、要素データＸの距離算出回路２２への入力を遅延させる。遅延回路２１による遅延時間すなわちレジスタ部３１の段数は、データ重心ＧＧ、クラスタ重心Ｖ_ｉの計算に必要なクロック数等から予め決められている。

【0040】

距離算出回路２２は、一括処理の際には、遅延回路２１を介してメインメモリ１４から入力される各要素データＸと重心算出回路２９で算出されるクラスタ重心Ｖ_ｉとが入力される。また、更新処理では、クラスタ重心Ｖ_ｉとして、重心算出回路２９からのものに代えて重心メモリ１５からのものが入力される。この距離算出回路２２は、入力される各要素データＸについてのデータ重心間距離ＤＸＶ_ｉを並列的に算出する。なお、要素データＸ及びクラスタ重心Ｖ_ｉ等のベクトルデータの回路に対する入力は、ベクトル成分が順次に入力されることを意味する。

【0041】

距離レジスタ部２４は、距離算出回路２２で算出される各データ重心間距離ＤＸＶ_ｉを保持し、ＣＩＤレジスタ部２５は、クラスタＩＤ（クラスタ情報）を保持する。距離レジスタ部２４の内容は、対応する距離算出回路２２で算出される新たなデータ重心間距離ＤＸＶ_ｉがその時点で記憶されているデータ重心間距離ＤＸＶ_ｉよりも小さい場合に、その新たなデータ重心間距離ＤＸＶ_ｉに更新される。クラスタリング時に最終的にＣＩＤレジスタ部２５に保持している各クラスタＩＤが、各要素データの分類されるクラスタを示し、距離レジスタ部２４に保持しているデータ重心間距離ＤＸＶ_ｉがクラスタ内距離を示す。

【0042】

図３（Ａ）に示すように、距離算出回路２２は、データ重心間距離ＤＸＶ_ｉを計算するＭ個のセル２２ａを有している。同様に、距離レジスタ部２４は、図３（Ｃ）に示すように、データ重心間距離ＤＸＶ_ｉを保持するＭ個のセル２４ａを、ＣＩＤレジスタ部２５は、クラスタＩＤを保持するＭ個のセル２５ａをそれぞれ有している。セル２４ａ、２５ａは、それぞれ複数ビットの容量を持つレジスタである。上述のように、要素データＸがｑ次元ベクトルであり、各次元がＮビットである場合には、データ重心間距離ＤＸＶ_ｉが（Ｎ＋ｑ）ビットのデータであるので、セル２４ａは、少なくとも（Ｎ＋ｑ）ビットの容量を持つ。メインメモリ１４の各列にそれぞれ１個のセル２２ａ、２４ａ、２５ａが対応している。後述するＣＩＤマスク回路２８のセル２８ａ（図５参照）についても同様である。これにより、メインメモリ１４に記憶されている各々の要素データＸは、それぞれ１個のセル２２ａ、２４ａ、２５ａ、２８ａに対応し、要素データＸ、セル２２ａ、２４ａ、２５ａ、２８ａの各内容が相互に対応付けられる。なお、図３及び後述の図４ないし図７では、要部の構成及び信号のみを示してある。

【0043】

距離算出回路２２のセル２２ａは、図３（Ｂ）に一例が示されるように、全加算器３２、ＸＯＲ（排他的論理和）回路３３、セレクタ３４、全加算器３５、計算レジスタ３６で構成されている。全加算器３２は、その一方の入力端に遅延回路２１からの要素データＸが、他方の入力端に重心算出回路２９または重心メモリ１５からのクラスタ重心Ｖ_ｉが反転入力され、その加算結果と桁上げ信号（負論理）とをＸＯＲ回路３３に入力している。これにより、要素データＸとクラスタ重心Ｖ_ｉとの次元ごとの距離がＸＯＲ回路３３から順次に出力される。

【0044】

ＸＯＲ回路３３からの各次元の距離は、セレクタ３４を介して全加算器３５の一方の入力端に順次に入力される。ＸＯＲ回路３３からの１次元分の距離が全加算器３５に入力されるごとに、これに同期して計算レジスタ３６の内容が読み出されて全加算器３５の他方の入力端に入力され、これにより得られる全加算器３５の計算結果で計算レジスタ３６の内容が更新される。計算レジスタ３６の内容は、初期値は「０」である。これにより、全加算器３５へのｑ次元分の距離の入力により、計算レジスタ３６には、データ重心間距離（マンハッタン距離）ＤＸＶ_ｉが保持される。

【0045】

セレクタ３４は、上記のように計算レジスタ３６がデータ重心間距離を記憶した後、すなわちデータ重心間距離ＤＸＶ_ｉが計算された後に、セル２４ａの内容を全加算器３５の一方の入力端に反転入力する。この後に、計算レジスタ３６の内容とセル２４ａの内容とが同期して読み出され、全加算器３５にそれぞれ入力される。セル２４ａには、計算レジスタ３６の内容が入力データとして与えられるとともに、更新信号として全加算器３５の桁上げ信号が与えられている。これにより、全加算器３５で桁上げが発生したときに、セル２４ａの内容が計算レジスタ３６の内容に更新される。このような動作が距離算出回路２２に入力されるクラスタ重心Ｖ_ｉごとに行なわれることで、各クラスタ重心Ｖ_ｉに対するデータ重心間距離ＤＸＶ_ｉのうちで最小のものがセル２４ａに保持される。各セル２４ａは、独立してその内容が更新されるため、距離レジスタ部２４には、各要素データＸのそれぞれについてのデータ重心間距離ＤＸＶ_ｉが保持される。

【0046】

ＣＩＤレジスタ部２５の各セル２５ａは、距離算出回路２２がデータ重心間距離ＤＸＶ_ｉの計算を行なっているときに、処理対象としているクラスタＣ_ｉのクラスタＩＤが指定ＣＩＤとして入力されている。このセル２５ａは、セル２４ａと同様に、全加算器３５で桁上げが発生したときに、入力されているクラスタＩＤに保持している内容が更新される。これにより、セル２５ａには、データ重心間距離ＤＸＶ_ｉが最小となるクラスタＣｉが保持される。すなわち、セル２５ａが保持するクラスタＩＤによって、対応する要素データＸが分類されているクラスタのクラスタＩＤが示される。

【0047】

なお、演算ユニット１２における各種データを伝送するバスは、伝送するデータに応じたバス幅（ビット数）のものが用いられている。例えば、距離レジスタ部２４の全加算器３２の各入力端は、要素データＸ、クラスタ重心Ｖ_ｉのＮビットのベクトル成分をパラレルに入力するので、それら各入力端にはそれぞれバス幅がＮビットのバスが接続されている。また、全加算器３５と計算レジスタ３６との間では、（Ｎ＋ｑ）ビットになるデータ重心間距離ＤＸＶ_ｉの伝送をパラレルに行なうので、バス幅が（Ｎ＋ｑ）ビットのバスが用いられている。ＣＩＤマスク回路２８のセレクタ３７ｃのように、要素データＸ及びクラスタ重心Ｖ_ｉの両方を選択的に出力するバスでは、ビット数が大きなもの、この例ではクラスタ重心Ｖ_ｉに応じた（Ｎ＋ｑ）ビットのバス幅にされている。なお、図３、図５、図７では、図中に要部のバス幅を記してある。

【0048】

距離レジスタ部２４及びＣＩＤレジスタ部２５には、対となるセル２４ａとセル２５ａごとに、それらセル２４ａ、２５ａのラッチ動作の有効／無効を切り替えるイネーブル信号回路７１（図９参照）が設けられている。このイネーブル信号回路７１からのイネーブル信号をセル２４ａ、２５ａに入力することで、セル２４ａ及びセル２５ａのラッチ動作の有効と無効とが各種動作に応じたタイミングで切り替えられる。このようなイネーブル信号回路７１を設けることにより、システムコントローラ１１での個別のセル２４ａ、２５ａの制御を不要にしている。また、セル２５ａと対応するセル２８ａとの間では、互いに一方の内容を他方がラッチ可能にされている。

【0049】

最大値検出回路２７は、クラスタＣ_ｉのクラスタ重心Ｖ_ｉを初期設定する際に、距離レジスタ部２４に保持されている各データ重心間距離ＤＸＶ_ｉを比較し、最大となるデータ重心間距離ＤＸＶ_ｉを検出する。最大値検出回路２７は、Ｍ個のセル２４ａに対応したＭ個の最大フラグ（１ビット）を出力する。図４に一例を示すように、最大値検出回路２７は、Ｍビット入力のＡＮＤ回路２７ａと、距離レジスタ部２４のＭ個の各セル２４ａにそれぞれ対応したＯＲ回路２７ｂ、ＮＡＮＤ回路２７ｃ及び１ビットのレジスタ２７ｄとが設けられている。ＯＲ回路２７ｂ、ＮＡＮＤ回路２７ｃ、レジスタ２７ｄは、セル２４ａに対応するもの同士で接続されている。セル２４ａは、最大値検出回路２７に対して、保持しているクラスタ重心間距離ＤＸＶ_ｉのデータを上位ビットから１ビットずつ順番に送り出す。

【0050】

ＯＲ回路２７ｂの一方の入力端に，対応するセル２４ａからの１ビット信号が反転入力され、他方の入力端にレジスタ２７ｄの出力が反転入力される。ＮＡＮＤ回路２７ｃの一方の入力端にＯＲ回路２７ｂの出力が入力され、他方の入力端にＡＮＤ回路２７ａの出力が反転入力される。レジスタ２７ｄは、ＮＡＮＤ回路２７ｃの出力の論理（「１」または「０」を保持し、保持している論理を出力する。この構成により、セル２４ａからクラスタ重心間距離ＤＸＶ_ｉの全ビットの送出完了後には、距離レジスタ部２４に保持されているクラスタ重心間距離ＤＸＶ_ｉのうちで最大のクラスタ重心間距離ＤＸＶ_ｉを保持しているセル２４ａに対応したレジスタ２７ｄの保持する論理のみが「１」となる。各レジスタ２７ｄの内容は、クラスタ重心間距離ＤＸＶ_ｉが最大であるか否かを示す最大フラグとして、ＣＩＤマスク回路２８の対応するセル２８ａにそれぞれ出力される。

【0051】

ＣＩＤマスク回路２８は、メインメモリ１４から入力される各要素データＸまたは距離レジスタ部２４から入力される各データ重心間距離ＤＸＶ_ｉのうちから処理に必要なものだけを出力するように構成される。

【0052】

ＣＩＤマスク回路２８は、図５（Ａ）に示すように、Ｍ個のセル２８ａを有している。図５（Ｂ）に一例を示すように、セル２８ａは、セレクタ３７ａ～３７ｃ、ＭＩＤレジスタ３７ｄ、コンパレータ３７ｅ等で構成される。各ＭＩＤレジスタ３７ｄには、セル２４ａ、２５ａと同様に、イネーブル信号回路７５（図１０参照）がそれぞれ設けられており、システムコントローラ１１での各ＭＩＤレジスタ３７ｄの個別の制御を不要にしている。イネーブル信号回路７５からのイネーブル信号をＭＩＤレジスタ３７ｄに入力することで、ＭＩＤレジスタ３７ｄのラッチ動作の有効と無効とが各種動作に応じたタイミングで切り替えられる。

【0053】

セレクタ３７ａは、要素データＸとデータ重心間距離ＤＸＶ_ｉとのいずれか一方を入力データとして選択し、セレクタ３７ｃに出力する。セレクタ３７ｂは、ＣＩＤレジスタ部２５のセル２４ａからのクラスタＩＤとシステムコントローラ１１からの外部設定ＩＤ（クラスタＩＤ）のいずれか一方を選択してＭＩＤレジスタ３７ｄに入力する。

【0054】

ＭＩＤレジスタ３７ｄは、セレクタ３７ｂからのクラスタＩＤをラッチ動作で保持し、保持しているクラスタＩＤをコンパレータ３７ｅに入力する。コンパレータ３７ｅは、指定ＣＩＤとＭＩＤレジスタ３７ｄからのクラスタＩＤとを比較し、その比較結果を示す１ビットの比較フラグ（Ｃ―ｆｌａｇ）を外部に出力するとともに、セレクタ３７ｃに入力する。比較フラグは、指定ＣＩＤとＭＩＤレジスタ３７ｄからのクラスタＩＤとが一致している場合に「１」となり、不一致の場合には「０」となる。

【0055】

セレクタ３７ｃは、コンパレータ３７ｅからの比較フラグが「１」の場合に入力データ（要素データＸまたはデータ重心間距離ＤＸＶ_ｉ）を出力し、「０」の場合に全ビットが「０」のヌルデータを出力する。これにより、例えばＭＩＤレジスタ３７ｄに対応するＣＩＤレジスタ部２５のセル２５ａのクラスタＩＤが保持されているときには、指定ＣＩＤと一致するクラスタＩＤに分類されている要素データＸまたはそのデータ重心間距離ＤＸＶ_ｉがセル２８ａから出力され、それらセル２８ａからの比較フラグが「１」になる。

【0056】

重心算出回路２９は、ＣＩＤマスク回路２８を通して入力される各要素データＸと比較フラグとからデータ重心ＧＧ及びクラスタ重心Ｖ_ｉを算出する。また、この重心算出回路２９は、クラスタ重心Ｖ_ｉの計算途中で得られるデータ数ｎ_ｉ及びデータ加算値ＳＳ_ｉを評価値算出回路１８に入力する。データ数ｎ_ｉ及びデータ加算値ＳＳ_ｉは、評価値算出回路１８において、第２指標値ＳＢＳ_ｉの計算等に用いられる。さらに、重心算出回路２９は、ＣＩＤマスク回路２８を通して入力される各要素データＸと比較フラグとから、結合指標値ＳＷＤ_ｉを算出して評価値算出回路１８に送る。上述のように、結合指標値ＳＷＤ_ｉは、クラスタ内距離ＤＸＶ_ｉの総和である第１指標値ＳＤ_ｉをデータ数ｎ_ｉで除した値として求められる。

【0057】

上記のデータ加算値ＳＳ_ｉは、式（６）に示されるように、クラスタＣ_ｉの各要素データＸを次元ごとに加算したデータであり、要素データＸと同じｑ次元ベクトルである。クラスタ重心Ｖ_ｉは、式（７）に示されるように、データ加算値ＳＳ_ｉをデータ数ｎ_ｉで除することにより求められる。また、全要素データＸについてのデータ加算値を全データ数で除することによりデータ重心ＧＧを求める。重心算出回路２９は、クラスタ重心Ｖ_ｉを重心メモリ１５と距離算出回路２２とに送る。

【0058】

【数3】

【0059】

重心算出回路２９は、図６に一例を示すように、Ｍ個のセレクタ３８ａからなるセレクタ部３８と、加算器３９と、第１レジスタ４１及び第２レジスタ４２と、除算器４３とを備えている。各セレクタ３８ａは、ＣＩＤマスク回路２８からの出力データ（要素データＸまたはデータ重心間距離ＤＸＶ_ｉ）と比較フラグ（Ｃ－ｆｌａｇ）とを順番に選択して加算器３９に出力するように動作する。加算器３９は、入力されるデータを加算する。

【0060】

第１レジスタ４１は、セレクタ部３８から加算器３９に要素データＸまたはデータ重心間距離ＤＸＶ_ｉが入力される場合に、その加算器３９の計算結果を保持する。これにより、加算器３９に要素データＸが入力されている場合には、データ加算値が第１レジスタ４１に保持され、データ重心間距離ＤＸＶ_ｉが入力されている場合には、第１指標値ＳＤ_ｉが第１レジスタ４１に保持される。また、セレクタ部３８から比較フラグが入力される場合、比較フラグすなわち１ビットデータを加算した値を加算器３９が計算し、この値が第２レジスタ４２に保持される。第２レジスタ４２に保持される値は、ＣＩＤマスク回路２８から出力されている要素データＸまたはデータ重心間距離ＤＸＶ_ｉの個数になる。これにより、データ数ｎ_ｉまたは全データ数を得ることができる。この例では、加算器３９は、要素データＸが入力されているときにデータ加算器として機能し、比較フラグが入力されているときに個数算出器として機能する。

【0061】

除算器４３は、第１レジスタ４１に保持されている値を第２レジスタ４２に保持されている値で除した値を出力する。この除算器４３の出力として、データ重心ＧＧ，クラスタ重心Ｖ_ｉ、結合指標値ＳＷＤ_ｉが得られる。

【0062】

近隣探索回路部１７は、システムコントローラ１１及び重心メモリ１５とともに、更新処理部を構成する。この更新処理部と上述の一括処理部によって、クラスタリング部を構成する。この近隣探索回路部１７は、更新処理の際に、追加される新規要素データＸｎｅｗとのデータ重心間距離ＤＸＶ_ｉが最小となるクラスタＩＤを特定し、その特定したクラスタＣ_ｉに新規要素データＸｎｅｗを分類する。

【0063】

この近隣探索回路部１７は、計算部１７ａと、近距離レジスタ部１７ｂと、近距離ＣＩＤレジスタ部１７ｃとを有する。計算部１７ａは、新規要素データＸｎｅｗと、重心メモリ１５から順次に読み出される各クラスタ重心Ｖ_ｉとのデータ重心間距離ＤＸＶ_ｉを計算する。近距離レジスタ部１７ｂ、近距離ＣＩＤレジスタ部１７ｃは、計算部１７ａの計算結果に基づき、最小となるデータ重心間距離ＤＸＶ_ｉ、クラスタＩＤを保持する。近距離ＣＩＤレジスタ部１７ｃに最終的に保持されているクラスタＩＤが、新規要素データＸｎｅｗの分類されるクラスタＣ_ｉのクラスタＩＤとなる。近距離ＣＩＤレジスタ部１７ｃに最終的に保持されているクラスタＩＤは、新規要素データＸｎｅｗに対応するＣＩＤレジスタ部２５のセル２５ａに書き込まれる。また、近隣探索回路部１７を構成する計算回路の一部が、更新処理の際の評価値Ｅ（Ｎｃ）を求めるために用いられる。

【0064】

図７に一例を示すように、計算部１７ａは、セレクタ４４、全加算器４５、ＸＯＲ回路４６、セレクタ４７、全加算器４８、計算レジスタ４９、加算器６１を有している。この計算部１７ａにより、新規要素データＸｎｅｗと各クラスタ重心Ｖ_ｉとのデータ重心間距離ＤＸＶ_ｉが順次に計算される。また、最小となるデータ重心間距離ＤＸＶ_ｉが近距離レジスタ部１７ｂ保持され、そのデータ重心間距離ＤＸＶ_ｉに対応するクラスタＩＤが近距離ＣＩＤレジスタ部１７ｃに保持される。これらの計算部１７ａ、近距離レジスタ部１７ｂ及び近距離ＣＩＤレジスタ部１７ｃからなる近隣探索回路部１７の回路構成は、距離算出回路２２のセル２２ａと距離レジスタ部２４のセル２４ａ及びＣＩＤレジスタ部２５のセル２５ａと同様な構成であるので、詳細な説明は省略する。

【0065】

更新処理の際の評価値Ｅ（Ｎｃ）を求める際には、全加算器４５、ＸＯＲ回路４６及び加算器６１を用いて、新規要素データＸｎｅｗが分類されるクラスタ重心Ｖ_ｉとデータ重心ＧＧとの重心距離ＤＧＶ_ｉを算出する。重心距離ＤＧＶ_ｉは、評価値算出回路１８に送られる。なお、クラスタ重心Ｖ_ｉは、重心メモリ１５から入力される。

【0066】

評価値算出部としての評価値算出回路１８は、一括処理における各クラスタリングの終了時及び更新処理の際にそれぞれ評価値Ｅ（Ｎｃ）を算出する。図８に一例を示すように、評価値算出回路１８は、ロジック部１８ａと評価レジスタ部１８ｂとに大別される。ロジック部１８ａは、セレクタ５０、乗算器５１、減算器５２、積算器５３、並列加算器５４、乗算器５５、加算器５６，５７、分母レジスタ５８、分子レジスタ５９、除算器６０で構成される。このロジック部１８ａは、評価レジスタ部１８ｂに保持されている各種データ、システムコントローラ１１から入力されるクラスタ数Ｎｃ等を用いて、上記式（１）による評価値Ｅ（Ｎｃ）を算出する。また、このロジック部１８ａは、更新処理の際に、新規要素データＸｎｅｗが分類されたクラスタ重心Ｖ_ｉを計算し、これを重心メモリ１５に書き込む。なお、評価値算出回路１８の詳細な動作は後述する。

【0067】

評価レジスタ部１８ｂは、ＧＧレジスタ６３、データ数レジスタ６４、ＳＢＳレジスタユニット６６、ＳＷＤレジスタユニット６７及びセレクタ６８からなる。ＧＧレジスタ６３は、重心算出回路２９で算出されるデータ重心ＧＧを保持する。データ数レジスタ６４は、重心算出回路２９で得られる各クラスタＣ_ｉのデータ数ｎ_ｉをそれぞれ保持する。なお、データ重心ＧＧを重心メモリ１５に記憶する構成として、ＧＧレジスタ６３を省略してもよい。また、ＧＧレジスタ６３、データ数レジスタ６４、ＳＢＳレジスタユニット６６、ＳＷＤレジスタユニット６７をそれぞれ不揮発性レジスタとすることも好ましい。

【0068】

ＳＢＳレジスタユニット６６は、第１ＳＢＳレジスタ６６_１、第２ＳＢＳレジスタ６６_２・・・を有する。第ｉＳＢＳレジスタ６６_ｉは、データ加算値ＳＳ_ｉから求められる第２指標値ＳＢＳ_ｉを保持する。ＳＷＤレジスタユニット６７は、第１ＳＷＤレジスタ６７_１、第２ＳＷＤレジスタ６７_２・・・を有する。第ｉＳＷＤレジスタ６７_ｉは、結合指標値ＳＷＤ_ｉを保持する。セレクタ６８は、ＳＢＳレジスタユニット６６、ＳＷＤレジスタユニット６７の一方を選択して、選択したレジスタユニットに保持されているデータをロジック部１８ａに送る。

【0069】

図９に、距離レジスタ部２４のセル２４ａ及びのＣＩＤレジスタ部２５のセル２５ａに接続されたイネーブル信号回路７１の一例を示す。イネーブル信号回路７１は、上述のように対をなすセル２４ａとセル２５ａごとに設けられており、イネーブル信号回路７１は、のＣＩＤレジスタ部２５のセル２５ａにも接続されているが、図９ではセル２５ａの図示を省略している。

【0070】

イネーブル信号回路７１は、ＡＮＤ回路７１ａ、７１ｃ、７１ｆ、ＯＲ回路７１ｂ、７１ｄ、ＮＡＮＤ回路７１ｆで構成されている。ＯＲ回路７１ｂには、第１制御信号（CIDM flag）及び第２制御信号（Fupdate_preset_N）が入力され、ＮＡＮＤ回路７１ｅには第３制御信号（OF）及び第４制御信号（Fset）が入力され、ＡＮＤ回路７１ｆには、第１制御信号及び第５制御信号（Flag_enable）が入力される。ＯＲ回７１ｄには、ＮＡＮＤ回路７１ｅの出力とＡＮＤ回路７１ｆの出力とが入力される。ＡＮＤ回路７１ｃには、ＯＲ回７１ｄの出力と、第６制御信号（Fauto）が入力される。ＡＮＤ回路７１ａにＡＮＤ回路７１ｃ及びＯＲ回路７１ｂの各出力が入力され、このＡＮＤ回路７１ａの出力がイネーブル信号として、距離レジスタ部２４のレジスタであるセル２４ａのイネーブル端子に入力されている。

【0071】

各セル２４ａには、セレクタ（図示省略）を介して、初期化用のデータ、計算レジスタ３６の内容、セル２４ａが読み出したデータ（データ重心間距離）自体のいずれかが入力されるようになっている。初期化用のデータは、全ビットが「１」になったデータまたは「０」になったデータである。また、セル２４ａは、シフトレジスタのように、保持しているデータを上位ビット側にシフトすることで、最上位ビットから順番に１ビットずつ出力することができる。この場合に、セル２４ａが読み出したデータを入力に戻すことによって、全ビットの送出完了後にセル２４ａの内容が元の状態に戻るようにしている。

【0072】

第１～第６制御信号は、演算ユニット１２内で生成されるものである。第１制御信号は、比較フラグである。第１制御信号は、ＣＩＤマスク回路２８のセル２８ａから出力される比較フラグである。第３制御信号は、全加算器３５の桁上げ信号である。第２、第４、第５、第６制御信号は、システムコントローラ１１からの信号である。第２制御信号は、距離レジスタ部２４の各セル２４ａの内容を初期化の制御するためのローアクティブの信号である。第４制御信号は、「１」または「０」にセットされるセット信号である。また、第５制御信号は、第１制御信号（比較フラグ）を有効するための信号である。第６制御信号は、分類計算時に距離レジスタ部２４の各セル２４ａの自動的な更新をサポートする信号である。

【0073】

例えば、要素データＸに対応した各セル２４ａのそれぞれに最大値（全ビットが「１」となったデータ）を書き込み、その他のセル２４ａが最小値（全ビットが「０」となったデータ）を残すようにする距離レジスタ部２４を初期化する場合での、イネーブル信号回路７１の動作は次のようになる。なお、この初期化では、距離レジスタ部２４のセル２４ａに各ビットが「０」のデータが予め書き込まれ、また要素データＸに対応した各セル２８ａのＭＩＤレジスタ３７ｄに「１」を、その他のＭＩＤレジスタ３７ｄには「０」を保持させた状態にしてＣＩＤマスク回路２８が初期化されるとともに、コンパレータ３７ｅには「１」の指定ＣＩＤを入力した状態で行なわれる。また、ＣＩＤレジスタ部２５の各セル２５ａの内容を「１」にした状態で行なわれる。さらに、各セル２４ａに全ビットが「１」になった初期化用のデータが入力される。

【0074】

上記初期化のタイミングで第２制御信号が「０」、第３制御信号が「０」、第４制御信号が「１」、第６制御信号が「１」、第５制御信号が「１（０でもよい）」になる。一方、上記のように設定されているＣＩＤマスク回路２８からの比較フラグ（第１制御信号）は、要素データＸに対応したものが「１」に、その他のものが「０」になる。これにより、要素データＸに対応したセル２２ａのイネーブル信号が「１」に、その他のセル２２ａのイネーブル信号が「０」になり、要素データＸに対応したセル２４ａのみが全ビットが「１」になった初期化用のデータをラッチして保持する。

【0075】

分類計算では、第２制御信号が「１」、第４制御信号が「１」、第５制御信号が「０」、第６制御信号が「１」とされる。これにより、第１制御信号（比較フラグ）にかかわらず、全加算器３５の桁上げ信号である第３制御信号の論理と同じイネーブル信号が入力される。この結果、全加算器３５で桁上げが生じると、すなわちセル２４ａが保持するデータ重心間距離ＤＸＶ_ｉよりも計算レジスタ３６の保持するデータ重心間距離ＤＸＶ_ｉが小さいときにイネーブル信号が「１」になり、当該セル２４ａが計算レジスタ３６のデータ重心間距離ＤＸＶ_ｉをラッチして保持する。

【0076】

また、新規要素データＸｎｅｗが分類されたクラスタＣ_ｉのクラスタＩＤをＣＩＤレジスタ部２５のセル２５ａに書き込む場合には、まずＣＩＤマスク回路２８の新規要素データＸｎｅｗに対応するセル２８ａのＭＩＤレジスタ３７ｄの内容を分類先のクラスタＩＤにする。また、そのクラスタＩＤを指定ＣＩＤとして、各セル２５ａ、各コンパレータ３７ｅに入力した状態にする。この状態で、第２制御信号を「０」、第４制御信号を「１」、第５制御信号を「０」、第６制御信号を「１」にする。これにより、第１制御信号（比較フラグ）が「１」となるセル２５ａだけのイネーブル信号が「１」となる。比較フラグは、新規要素データＸｎｅｗに対応するセル２８ａからのものだけが「１」となっているので、結果として、新規要素データＸｎｅｗに対応するセル２５ａにだけその分類先のクラスタＩＤが書き込まれる。

【0077】

図１０に、ＣＩＤマスク回路のＭＩＤレジスタ３７ｄに設けられたイネーブル信号回路７５の一例を示す。上述のようにイネーブル信号回路７５は、ＭＩＤレジスタ３７ｄごとに設けられている。イネーブル信号回路７５は、セレクタ７５ａ、ＡＮＤ回路７５ｂ、ＮＡＮＤ回路７５ｃ、ＮＯＴ回路７５ｄから構成されている。ＮＯＴ回路７５ｄには、第７制御信号（Max Detector）が入力されている。このＮＯＴ回路７５ｄの出力と第８制御信号（i_presetMIDreg_N）とが、ＮＡＮＤ回路７５ｃに入力されている。ＡＮＤ回路７５ｂには、ＮＡＮＤ回路７５ｃの出力と、第９制御信号（Disable_N）とが入力されている。セレクタ７５ａは、ＡＮＤ回路７５ｂからの出力と、第１０制御信号（Column Decoder）とが入力され、どちらか一方をイネーブル信号として、ＭＩＤレジスタ３７ｄのイネーブル端子に入力する。

【0078】

第７制御信号は、最大値検出回路２７からの最大フラグであり、新たなクラスタ重心Ｖ_ｉの初期値を設定する際には、第７制御信号を用いてＭＩＤレジスタ３７ｄのラッチ動作を制御する。また、第８制御信号は、システムコントローラ１１からのローアクティブの信号であり、この第８制御信号によって、初期化時にてＭＩＤレジスタ３７ｄのラッチ動作を制御する。第９制御信号は、システムコントローラ１１からのローアクティブの信号であり、この第９制御信号によって、第８制御信号の有効／無効を切り替える。第１０制御信号は、メインメモリ１４のカラムデコード信号であって、メインメモリ１４の列に対応するＣＩＤマスク回路２８のセル２８ａを制御するため信号である。この第１０制御信号は、ＭＩＤレジスタ３７ｄの内容を外部設定ＣＩＤで指定するとき等にイネーブル信号として用いられる。具体的には、例えば、将来的に追加される新規要素データＸｎｅｗ用のための未使用のセル２８ａを指定する場合に使用される。第１０制御信号は、システムコントローラ１１からの信号である。

【0079】

上記のように構成される演算ユニット１２は、図１１に示すように、第１パワードメインＰＤ１～第６パワードメインＰＤ６に分けられている。第１～第６パワードメインＰＤ１～ＰＤ６は、電源ＰＳからの電力供給がゲート回路部ＰＧを介してシステムコントローラ１１によって独立に制御される。システムコントローラ１１は、演算に必要な回路を含むパワードメインに必要なタイミングで電力供給をする。

【0080】

この例では、メインメモリ１４が第１パワードメインＰＤ１に、重心メモリ１５が第２パワードメインＰＤ２に、近隣探索回路部１７が第３パワードメインＰＤ３に、評価値算出回路１８のロジック部１８ａが第４パワードメインＰＤ４にそれぞれ含まれる。また、クラスタリング演算部１６の距離算出回路２２、最大値検出回路２７、ＣＩＤマスク回路２８及び重心算出回路２９が第５パワードメインＰＤ５に含まれる。さらに、クラスタリング演算部１６の距離レジスタ部２４及びＣＩＤレジスタ部２５と、評価値算出回路１８の評価レジスタ部１８ｂとが第６パワードメインＰＤ６に含まれる。

【0081】

メインメモリ１４への要素データＸの書き込みと、それに続く一括処理における電力供給の状態を図１２に示すように、期間Ｔ１では、各要素データＸを書き込むためにメインメモリ１４の第１パワードメインＰＤ１へ電力供給される。第１パワードメインＰＤ１は、クラスタリングが完了するまで電力供給が継続される。期間Ｔ２は、クラスタリングのための初期のクラスタ重心Ｖ_ｉを初期設定する期間であり、第２パワードメインＰＤ２、第５パワードメインＰＤ５、第６パワードメインＰＤ６への電力供給が開始されるが、この期間Ｔ２ではロジック部１８ａによる第２指標値ＳＢＳ_ｉを計算しないため、第４パワードメインＰＤ４の電力供給は停止されている。

【0082】

期間Ｔ３になると、第４パワードメインＰＤ４への電力供給が開始される。この期間Ｔ３から期間Ｔ７までの各期間は、それぞれ演算ユニット１２で実質的にクラスタリングする分類計算する期間である。この期間Ｔ３から期間Ｔ７までの各期間では、更新処理に用いられる近隣探索回路部１７の第３パワードメインＰＤ３を除いて、各パワードメインに電力供給される。

【0083】

最後の分類計算が終了して期間Ｔ８になると、第１パワードメインＰＤ１、第２パワードメインＰＤ２、第５パワードメインＰＤ５への電力供給が停止される。この期間Ｔ８から期間Ｔ１０まででは、評価値Ｅ（Ｎｃ）を評価値算出回路１８のロジック部１８ａで計算するために、第４パワードメインＰＤ４と第６パワードメインＰＤ６への電力供給が継続される。評価値Ｅ（Ｎｃ）を計算する際の期間Ｔ１０では、クラスタリング演算部１６を用いて結合指標値ＳＷＤ_ｉを計算するため第５パワードメインＰＤ５に電力供給が行なわれる。

【0084】

上記期間Ｔ２から期間Ｔ１０までが１つのクラスタ数Ｎｃに対する処理期間であり、一括処理では、最適なクラスタ数Ｎｃを求めるために、期間Ｔ２から期間Ｔ１０までと同じ電力供給の制御が繰り返し行なわれる。この例では、分類計算ごとにロジック部１８ａで第２指標値ＳＢＳ_ｉを求めて随時更新しているため、期間Ｔ３から第４パワードメインＰＤ４に電力供給を行なっている。このように第２指標値ＳＢＳｉを随時更新する場合では、クラスタ重心Ｖ_ｉの収束と同時に最終値としての第２指標値ＳＢＳ_ｉが得られた状態になるので、クラスタ重心Ｖ_ｉの収束後に第２指標値ＳＢＳ_ｉを取得するために、再度各クラスタ重心Ｖｉを求める計算が不要となり、クラスタリングの高速化に有利となる。

【0085】

なお、第２指標値ＳＢＳ_ｉは、最終値のみを取得できればよいので、例えば二点鎖線で示すように、データ重心間距離ＤＸＶ_ｉが収束したことを検出してから次のクラスタ重心Ｖ_ｉの計算開始前に第４パワードメインＰＤ４に電力供給を行なって第２指標値ＳＢＳ_ｉを計算してもよい。このようにすれば、省電力化に有利となる。

【0086】

図１３は、更新処理における電力供給の状態を示している。更新処理では、新規要素データＸｎｅｗと、重心メモリ１５から読み出した各クラスタ重心Ｖ_ｉとを用いて、近隣探索回路部１７により、最小のデータ重心間距離ＤＸＶ_ｉとなるクラスタＩＤを特定する。このため、最初の期間Ｔ１１で重心メモリ１５の第２パワードメインＰＤ２と、近隣探索回路部１７の第３パワードメインＰＤ３とに電力供給する。第６パワードメインＰＤ６は、期間Ｔ１１から継続して電力供給する。

【0087】

近隣探索回路部１７でクラスタＩＤを特定した後の期間Ｔ１２では、第３パワードメインＰＤ３への電力供給を停止する。代わって、ロジック部１８ａにより、新規要素データＸｎｅｗが分類されたクラスタＣ_ｉの新しいクラスタ重心Ｖ_ｉを計算するために第４パワードメインＰＤ４への電力供給を開始する。

【0088】

期間Ｔ１３では、新規要素データＸｎｅｗが分類されたクラスタＣ_ｉの新しい第２指標値ＳＢＳ_ｉをロジック部１８ａで求めるために、第４パワードメインＰＤ４への電力供給を継続する。この新しい第２指標値ＳＢＳ_ｉの計算に必要となる重心距離ＤＧＶ_ｉを近隣探索回路部１７で計算するため、期間Ｔ１３では第３パワードメインＰＤ３への電力供給を行なう。期間Ｔ１４では、第２パワードメインＰＤ２、第３パワードメインＰＤ３への電力供給を停止し、クラスタリング演算部１６を用いて新しい結合指標値ＳＷＤ_ｉを計算するために第５パワードメインＰＤ５に電力供給する。この期間Ｔ１４において、ロジック部１８ａにより評価値Ｅ（Ｎｃ）が計算される。期間Ｔ１４の終了で第６パワードメインＰＤ６を除き各パワードメインに電力供給が停止される。

【0089】

第６パワードメインＰＤ６は、評価レジスタ部１８ｂのＳＢＳレジスタユニット６６及びＳＷＤレジスタユニット６７を不揮発性の構成とした場合には、図１２及び図１３において二点鎖線で示すように、電力供給及びその停止を制御することができる。例えば、一括処理の場合には、評価値Ｅ（Ｎｃ）の計算後に、第６パワードメインＰＤ６の電力供給を停止することができる。また、更新処理では、期間Ｔ１１で電力供給を開始し、更新処理の終了後に電力供給を停止することができる。

【0090】

なお、評価レジスタ部１８ｂのＳＢＳレジスタユニット６６及びＳＷＤレジスタユニット６７の内容を、電力供給の停止前に他の記憶装置に退避させ、また電力供給開始後に退避した内容を戻す構成として、同様に第６パワードメインＰＤ６の電力供給及びその停止を制御してもよい。また、第６パワードメインＰＤ６は、一括処理から更新処理を継続して行なう場合や更新処理後に継続して一括処理を行なう場合には、その電力供給を継続する。

【0091】

次に上記構成の作用について説明する。メインメモリ１４には、各要素データＸが書き込まれた状態にされる。メインメモリ１４の各列のうち要素データＸが書き込まれていない列の各単位ブロックには、「０」が書き込まれる。メインメモリ１４に各要素データＸが書き込まれた状態で一括処理が未実施の場合には、一括処理が行なわれる。

【0092】

この例の一括処理では、図１４に示すよう、クラスタ数Ｎｃを１ずつ増加させながら、全要素データＸを用いたクラスタ数Ｎｃでのクラスタリング処理を行い、クラスタリング処理ごとに評価値Ｅ（Ｎｃ）を算出する。そして、評価値Ｅ（Ｎｃ）が増加から減少に転じるクラスタ数Ｎｃ、すなわち前回の評価値Ｅ（Ｎｃ）よりも今回の評価値Ｅ（Ｎｃ＋１）が小さくなったときのクラスタ数Ｎｃを最適な値とし、その最適なクラスタ数Ｎｃでクラスタリングされた状態にする。なお、設定されたクラスタ数Ｎｃの範囲内で最大となるクラスタ数を最適な値としてもよい。

【0093】

一括処理によるクラスタリングの実施に先立って、距離レジスタ部２４は、書き込まれた要素データＸに対応するセル２４ａに最大値が、いずれの要素データＸに対応していないセル２４ａに「０」が書き込まれて初期化される。また、ＣＩＤレジスタ部２５は、書き込まれた要素データＸに対応する各セル２５ａに「１」が、いずれの要素データＸにも対応していないセル２４ａには「０」が書き込まれて初期化される。この後に、ＣＩＤマスク回路２８の各セル２８ａのＭＩＤレジスタ３７ｄに、対応するセル２４ａのクラスタＩＤがラッチされて保持される。

【0094】

なお、以下に説明するクラスタリングでは、メインメモリ１４の全ての列からデータが読み出されるが、上記のように距離レジスタ部２４、ＣＩＤレジスタ部２５、ＣＩＤマスク回路２８を初期化することで、要素データＸ以外のデータは、各種計算及びその結果に影響を与えないから、要素データＸ以外のデータに関する説明は省略する。

【0095】

クラスタリング装置１０は、システムコントローラ１１の指示により、クラスタ数Ｎｃを「２」としたクラスタリング処理を開始する。クラスタリング処理では、まず初期設定を行う。初期設定では、データ重心ＧＧを求めるとともに、クラスタ重心Ｖ_２の初期値となる要素データＸを特定する。この要素データＸの特定は、クラスタ重心Ｖ_２の初期値となる要素データＸをクラスタＣ_２に分類することで行ない、またデータ重心ＧＧが暫定的なクラスタ重心Ｖ_１とされる。

【0096】

まず、メインメモリ１４から要素データＸの読み出しが行われる。読み出された要素データＸは、ＣＩＤマスク回路２８に送られるとともに、遅延回路２１に送られる。このときに、ＣＩＤマスク回路２８は、指定ＣＩＤとして「１」が入力され、また入力データとしてメインメモリ１４からの要素データＸを選択している。このため、ＭＩＤレジスタ３７ｄに「１」が保持されているセル２８ａだけが要素データＸを出力し、またそのセル２８ａからの比較フラグだけが「１」になる。したがって、メインメモリ１４の要素データＸが書き込まれていない列に対応したセル２８ａの比較フラグは「１」にならない。

【0097】

重心算出回路２９では、セレクタ部３８が、初期状態で、例えばＣＩＤマスク回路２８からの各比較フラグを選択している。これにより、「１」の比較フラグのフラグ数（信号数）が加算器３９により求められる、そして、その結果が第２レジスタ４２に保持される。次に、セレクタ部３８が要素データＸを選択して加算器３９に入力する。これにより、入力される各要素データＸを次元ごとに加算したｑ次元ベクトルであるデータ加算値が第１レジスタ４１に保持される。この後に、除算器４３により、第１レジスタ４１に保持しているデータ加算値が第２レジスタ４２に保持しているフラグ数で除算される。

【0098】

初期化により、要素データＸに対応する全てのセル２５ａのクラスタＩＤが「１」になっているから、このときのデータ加算値及びフラグ数は、全要素データＸについてそれぞれ求めた値になる。したがって、除算器４３の除算結果としてデータ重心ＧＧが得られる。

【0099】

上記のように除算器４３で求められたデータ重心ＧＧが、評価値算出回路１８のＧＧレジスタ６３に保持される。また、システムコントローラ１１が第２レジスタ４２の内容を全要素データＸのデータ数として取得する。さらに、除算器４３で求められたデータ重心ＧＧが、暫定的なクラスタ重心Ｖ_１として距離算出回路２２に入力される。

【0100】

暫定的なクラスタ重心Ｖ_１の入力に同期して、先にメインメモリ１４から読み出された各要素データＸが距離算出回路２２に入力される。距離算出回路２２の各セル２２ａでは、入力される要素データＸと暫定的なクラスタ重心Ｖ_１とからデータ重心間距離ＤＸＶ_１が算出される。そして、この算出されたデータ重心間距離ＤＸＶ_１が、その時点で距離レジスタ部２４のセル２４ａに保持されている値よりも小さい場合には、セル２４ａの内容が更新される。

【0101】

現時点では、要素データＸに対応した各セル２４ａは、最大値が保持されているから、全ての要素データＸに対応した各セル２４ａの内容が、距離算出回路２２によって今回算出されたデータ重心間距離ＤＸＶ_１に更新される。同時に、要素データＸに対応したＣＩＤレジスタ部２５の各セル２５ａの内容が更新されるが、このときには指定ＣＩＤとして「１」が与えられているので、実質的に内容の変更はない。なお、要素データＸに対応していないセル２４ａには、初期化で距離「０」が与えられているから、そのセル２４ａの内容及びそれに対応したセル２５ａの内容（クラスタＩＤ＝０）は変更されることはない。

【0102】

上記のようにしてセル２４ａの内容が更新され、全てのセル２４ａに保持されているデータ重心間距離ＤＸＶ_１が最大値検出回路２７に入力される。これにより、最大値検出回路２７から出力されているＭ個の最大フラグのうち、入力されるデータ重心間距離ＤＸＶ_１のうちで最大のものに対応する最大フラグだけが「１」となる。

【0103】

ＣＩＤマスク回路２８では、最大フラグが「１」に対応したセル２８ａのＭＩＤレジスタ３７ｄだけのラッチ動作が許容された状態になる。また、ＭＩＤレジスタ３７ｄには、「２」の外部設定ＣＩＤが入力されている。このため、上記のように最大フラグが変化した後のクロックにより、「１」の最大フラグに対応したセル２８ａのＭＩＤレジスタ３７ｄの内容だけが、外部設定ＣＩＤの内容（「２」）に更新される。

【0104】

上記のように１個のＭＩＤレジスタ３７ｄの内容を更新した後、１回目の分類計算を行なう。１回の分類計算は、分類計算用に初期化、クラスタＣ_１についての処理、クラスタＣ_２についての処理を順番に行なう。

【0105】

まず、距離レジスタ部２４の各セル２４ａ、ＣＩＤレジスタ部２５の各セル２５ａの内容が分類計算用に初期化される。すなわち、書き込まれた要素データＸに対応するセル２４ａに最大値が、いずれの要素データＸに対応していないセル２４ａに「０」が書き込まれて初期化される。また、ＣＩＤレジスタ部２５は、書き込まれた要素データＸに対応する各セル２５ａに「１」が、いずれの要素データＸにも対応していないセル２４ａには「０」が書き込まれて初期化される。なお、要素データＸに対応する各セル２５ａの内容は、引き続き行なわれる処理で必ず更新されるため、この初期化では、「１」以外の値にしてもよい。

【0106】

分類計算用の初期化の後に、クラスタＣ１についての処理を行なう。メインメモリ１４から要素データＸが読み出され、遅延回路２１とＣＩＤマスク回路２８とに入力される。このときに、ＣＩＤマスク回路２８では、メインメモリ１４からの要素データＸがコンパレータ３７ｅに入力されるようにセレクタ３７ａが切り替えられるとともに、指定ＣＩＤとして「１」がコンパレータ３７ｅに与えられている。このときのＣＩＤマスク回路２８の各ＭＩＤレジスタ３７ｄは、クラスタ重心Ｖ２とされた要素データＸに対応するＭＩＤレジスタ３７ｄの内容だけが「２」であり、他の要素データＸに対応するＭＩＤレジスタ３７ｄの内容は「１」である。

【0107】

ＣＩＤマスク回路２８の各セル２８ａに要素データＸがそれぞれ入力されると、入力される要素データＸのうち、対応するセル２５ａの内容が「１」となっているセル２８ａに入力された要素データＸだけがＣＩＤマスク回路２８から出力され、そのセル２８ａからの比較フラグが「１」になる。

【0108】

上記のように要素データＸと比較フラグとがＣＩＤマスク回路２８から出力された状態で、重心算出回路２９では、まず比較フラグが入力された状態で加算器３９が加算を行なうことにより、「１」となっている比較フラグのフラグ数が計算され、その計算結果が第２レジスタ４２に保持される。すなわち、クラスタＣ_１に分類されている要素データＸのデータ数ｎ_１が第２レジスタ４２に保持される。次に、要素データＸが加算器３９に入力され、加算器３９による加算が行なわれて、その計算結果が第１レジスタ４１に保持される。これにより、第１レジスタ４１には、クラスタＣ_１に分類されている各要素データＸを加算したｑ次元ベクトルであるデータ加算値ＳＳ_１が保持される。

【0109】

この後に、除算器４３により、第１レジスタ４１のデータ加算値ＳＳ_１を第２レジスタ４２のデータ数ｎ_１で除算することで、クラスタ重心Ｖ_１が計算される。クラスタ重心Ｖ_１は、重心メモリ１５に書き込まれるとともに、距離算出回路２２に入力される。また、第１レジスタ４１のデータ加算値ＳＳ_１及び第２レジスタ４２のデータ数ｎ_１がそれぞれ評価値算出回路１８に送られる。

【0110】

重心算出回路２９からのデータ数ｎ_１は、データ数レジスタ６４に保持され、またデータ加算値ＳＳ_１は、減算器５２に入力される。この後に、評価値算出回路１８では、データ数レジスタ６４のデータ数ｎ_１とＧＧレジスタ６３のデータ重心ＧＧとが読み出され、これらが乗算器５１で乗算される。この乗算器５１の出力値（ｑ次元ベクトル）と、重心算出回路２９からのデータ加算値ＳＳ_１との差分（ｑ次元ベクトル）を減算器５２で求め、その差分の各ベクトル成分を積算器５３で積算する。これによって、現時点におけるクラスタＣ_１の第２指標値ＳＢＳ_１が計算される。第２指標値ＳＢＳ_１は、第１ＳＢＳレジスタ６６_１に保持される。

【0111】

ここで、クラスタ重心Ｖ_ｉ、データ数ｎ_ｉ及びデータ加算値ＳＳ_ｉは、上記式（７）に示される関係がある。このため、上述の式（５）で表される第２指標値ＳＢＳ_ｉは、次の式（８）のように変形できる。したがって、データ重心ＧＧ、データ加算値ＳＳ_ｉ及びデータ数ｎ_ｉを用いた上記のような評価値算出回路１８での計算により、第２指標値ＳＢＳ_ｉを求めることができる。

【0112】

【数4】

【0113】

一方、距離算出回路２２には、重心算出回路２９からのクラスタ重心Ｖ_１と同期して遅延回路２１からの各要素データＸが入力される。距離算出回路２２の各セル２２ａでは、入力される各要素データＸについてクラスタ重心Ｖ_１とのデータ重心間距離ＤＸＶ_１が算出される。そして、セル２２ａで算出されたデータ重心間距離ＤＸＶ_１が、対応する距離レジスタ部２４のセル２４ａにその時点で保持されている距離よりも短ければ、当該セル２４ａの内容が算出されたデータ重心間距離ＤＸＶ_１に更新され、対応する各セル２５ａのクラスタＩＤも更新される。このときに、要素データＸに対応する全てのセル２４ａは、最大値を保持しているから、要素データＸに対応する全てのセル２４ａ、２５ａの内容が更新される。各セル２５ａに対しては、指定ＣＩＤとして「１」が与えられているので、要素データＸに対応する全てのセル２５ａのクラスタＩＤは「１」になる。

【0114】

続いて、クラスタＣ２についての処理を行なう。クラスタＣ２についての処理は、指定ＣＩＤとして「２」を用いる他は、上記クラスタＣ_１についての処理と同様である。すなわち、メインメモリ１４から読み出されてＣＩＤマスク回路２８に入力された要素データＸのうち、対応するＣＩＤレジスタ部２５のセル２５ａの内容が「２」になっている要素データＸだけが、重心算出回路２９に入力される。また、ＣＩＤマスク回路２８から出力される要素データＸと同じ個数の比較フラグが「１」になる。ＣＩＤマスク回路２８では、上記のように、クラスタ重心Ｖ_２とされている要素データＸに対応するＭＩＤレジスタ３７ｄの内容だけが「２」なので、クラスタ重心Ｖ_２とされた要素データＸが重心算出回路２９に入力されるとともに、１個の比較フラグだけが「１」になる。

【0115】

そして、重心算出回路２９によって、ＣＩＤマスク回路２８から出力される要素データＸと各比較フラグとから、クラスタＣ_２についてのデータ数ｎ_２と、クラスタＣ_２についてのデータ加算値ＳＳ_２が求められ、これらよりクラスタ重心Ｖ_２が計算される。なお、この１回目のクラスタＣ_２についての処理では、クラスタ重心Ｖ_２とされた要素データＸだけが重心算出回路２９に入力されるから、算出されるクラスタ重心Ｖ_２は、その１個の要素データＸと同じである。除算器４３で得られるクラスタ重心Ｖ_２は、重心メモリ１５に書き込まれるとともに、距離算出回路２２に入力される。また、第１レジスタ４１のデータ加算値ＳＳ_２及び第２レジスタ４２のデータ数ｎ_２がそれぞれ評価値算出回路１８に送られる。

【0116】

重心算出回路２９からのデータ数ｎ_２は、先に書き込まれたデータ数ｎ_１とは別にデータ数レジスタ６４に保持され、またデータ加算値ＳＳ_２が減算器５２に入力される。この後に、データレジスタ６５のデータ数ｎ_２と、ＧＧレジスタ６３のデータ重心ＧＧとが読み出され、上記の第２指標値ＳＢＳ_１と同様にして、第２指標値ＳＢＳ_２が算出される。この第２指標値ＳＢＳ_２が第２ＳＢＳレジスタ６６_２に保持される。

【0117】

重心算出回路２９からのクラスタ重心Ｖ_２と同期して、遅延回路２１からの各要素データＸが距離算出回路２２に入力される。距離算出回路２２の各セル２２ａにより、入力される要素データＸについてクラスタ重心Ｖ_２とのデータ重心間距離ＤＸＶ_２が算出される。そして、算出されたデータ重心間距離ＤＸＶ_２が、対応する距離レジスタ部２４のセル２４ａに保持されている距離よりも短ければ、当該セル２４ａの内容が算出されたデータ重心間距離ＤＸＶ_２に更新され、対応する各セル２５ａのクラスタＩＤも更新される。このときに、各セル２５ａに対して指定ＣＩＤとして「２」が与えられているから、それらセル２５ａのクラスタＩＤは「２」に更新される。したがって、それまで、クラスタＣ_１に分類されていた要素データＸのうち、クラスタ重心Ｖ_１よりもクラスタ重心Ｖ_２に近い要素データＸは、対応するセル２４ａの内容と同時にセル２５ａの内容が更新されてクラスタＣ_２に分類された状態になる。

【0118】

この後に、各ＭＩＤレジスタ３７ｄの内容がそれぞれ対応するＣＩＤレジスタ部２５のセル２５ａの内容に更新される。ここで１回目の分類計算が終了する。

【0119】

１回目の分類計算が終了すると、２回目の分類計算が行なわれる。２回目の分類計算は、１回目の分類計算と同様な手順で、分類計算用の初期化の後にクラスタＣ_１についての処理とクラスタＣ_２についての処理とを順番に行なう。まず、分類計算用の初期化では、書き込まれた要素データＸに対応するセル２４ａに最大値が、各セル２５ａに「１」が書き込まれる。

【0120】

次のクラスタＣ_１についての処理では、重心算出回路２９によって、新たなデータ数ｎ_１、データ加算値ＳＳ_１、クラスタ重心Ｖ_１が求められる。そして、重心メモリ１５に保持されているクラスタ重心Ｖ_１及びデータ数レジスタ６４に保持されているデータ数ｎ_１が新たに算出されたものにそれぞれ更新される。また、評価値算出回路１８において、新たなデータ数ｎ_１とデータ加算値ＳＳ_１を用いて、新たな第２指標値ＳＢＳ_１が算出され、これに第１ＳＢＳレジスタ６６_１の内容が更新される。

【0121】

さらに、距離算出回路２２により、各要素データＸについての新たなクラスタ重心Ｖ_１とのデータ重心間距離ＤＸＶ_１が算出される。そして、このように算出された新たなデータ重心間距離ＤＸＶ_１が距離レジスタ部２４のセル２４ａの内容よりも短ければ、そのセル２４ａの内容が新たなデータ重心間距離ＤＸＶ_１に更新されるとともに、そのセル２４ａに対応するＣＩＤレジスタ部２５のセル２５ａの内容が「１」に更新される。

【0122】

クラスタＣ_１についての処理に続き、クラスタＣ_２についての処理が同様に行なわれる。これにより、重心算出回路２９によって算出された新たなクラスタ重心Ｖ_２、データ数ｎ_２に、重心メモリ１５及びデータ数レジスタ６４の内容が更新される。また、重心算出回路２９によって算出された新たなデータ加算値ＳＳ_２及び新たなデータ数ｎ_２を用いて、新たな第２指標値ＳＢＳ_２が評価値算出回路１８で算出され、第２ＳＢＳレジスタ６６_２の内容が更新される。さらに、距離算出回路２２により、各要素データＸについての新たなクラスタ重心Ｖ_２とのデータ重心間距離ＤＸＶ_２が算出され、算出された新たなデータ重心間距離ＤＸＶ_２が距離レジスタ部２４のセル２４ａの内容よりも短ければ、そのセル２４ａの内容が新たなデータ重心間距離ＤＸＶ_２に更新されるとともに、そのセル２４ａに対応するＣＩＤレジスタ部２５のセル２５ａの内容が「２」に更新され、各要素データＸの各クラスタへの分類が更新される。この後に、各ＭＩＤレジスタ３７ｄの内容がそれぞれ対応するＣＩＤレジスタ部２５のセル２５ａの内容に更新され、２回目の分類計算が終了する。

【0123】

３回目以降の分類計算も同様に行なわれ、クラスタ重心Ｖ_１、Ｖ_２、データ数ｎ_１、ｎ_２，第２指標値ＳＢＳＳ_１、ＳＢＳ_２が更新される。また、距離レジスタ部２４の各セル２４ａの内容及びＣＩＤレジスタ部２５の各セル２５ａの内容が更新され、各要素データＸの各クラスタへの分類された状態になる。

【0124】

システムコントローラ１１は、上記のように分類計算ごとに、重心メモリ１５の内容を監視している。そして、システムコントローラ１１は、重心メモリ１５の内容の変動がなくなると、分類計算を終了させる。分類計算の終了時において、重心メモリ１５、データ数レジスタ６４、ＳＢＳレジスタユニット６６に保持されているクラスタ重心Ｖ_１、Ｖ_２、データ数ｎ_１、ｎ_２，第２指標値ＳＢＳＳ_１、ＳＢＳ_２は、変動しなくなった、すなわち収束したクラスタ重心Ｖ_１、Ｖ_２に基づいてそれぞれ算出されたものとなっている。

【0125】

分類計算の終了後に、評価値Ｅ（Ｎｃ）の計算が行なわれる。評価値Ｅ（Ｎｃ）の計算のために、評価値算出回路１８では、最初に、例えばセレクタ６８によりＳＢＳレジスタユニット６６が選択され、ＳＢＳレジスタ６６_１、６６_２・・・の内容が並列的に読み出され、読み出されたＳＢＳレジスタ６６_１、６６_２・・・の内容が並列加算器５４で加算される。今回のクラスタリングではクラスタ数Ｎｃが「２」であるから、実質的には、ＳＢＳレジスタユニット６６から第２指標値ＳＢＳＳ_１、ＳＢＳ_２が読み出されて並列加算器５４で加算される。これにより、第２指標値ＳＢＳ_ｉの総和であるクラスタ指標値ＳＢＳが求められる。

【0126】

次に、重心算出回路２９を用いてクラスタＣ_１、Ｃ_２についての結合指標値ＳＷＤ_１、ＳＷＤ_２を算出する。距離レジスタ部２４の各セル２４ａから各クラスタ内距離ＤＸＶ_ｉを読み出してＣＩＤマスク回路２８を介して重心算出回路２９に入力する。このときに、まずＣＩＤマスク回路２８の各セル２８ａに指定ＣＩＤとして「１」を入力することで、クラスタＣ_１に分類されている各要素データＸに対応するクラスタ内距離ＤＸＶ_１だけを重心算出回路２９に出力する。

【0127】

重心算出回路２９では、「１」となっている比較フラグのフラグ数からクラスタＣ_１に分類されている各要素データＸのデータ数ｎ_１が加算器３９で求められ、これが第２レジスタ４２に保持される。次に、各クラスタ内距離ＤＸＶ_１を積算したが第１指標値ＳＤ_１が加算器３９で求められ、これが第１レジスタ４１に保持される。この後、除算器４３により、第１レジスタ４１の第１指標値ＳＤ_１を第２レジスタ４２のデータ数ｎ_１で除することで、結合指標値ＳＷＤ_１が求められる。この結合指標値ＳＷＤ_１は、評価値算出回路１８に送られ、第１ＳＷＤレジスタ６７_１に保持される。

【0128】

続いて、クラスタＣ_２についての結合指標値ＳＷＤ_２を重心算出回路２９で同様にして求め、第２ＳＷＤレジスタ６７_２に保持する。なお、この場合には、ＣＩＤマスク回路２８の各セル２８ａに指定ＣＩＤとして「２」を入力し、ＣＩＤマスク回路２８を介してクラスタＣ_２に分類されている各要素データＸに対応するクラスタ内距離ＤＸＶ_２だけを距離レジスタ部２４から重心算出回路２９に入力する。

【0129】

上記のようにして各結合指標値ＳＷＤ_１、ＳＷＤ_２を取得した後、評価値算出回路１８では、セレクタ６８によってＳＷＤレジスタユニット６７が選択され、ＳＷＤレジスタ６７_１、６７_２・・・の内容が並列的に読み出される。そして、読み出されたＳＷＤレジスタ６７_１、６７_２・・・の内容が並列加算器５４で加算される。第２指標値ＳＢＳ_ｉの場合と同様に、実質的にはＳＷＤレジスタユニット６７から結合指標値ＳＷＤ_１、ＳＷＤ_２が読み出されて並列加算器５４で加算される。この並列加算器５４の加算結果として内的結合度ＳＷＤが得られる。

【0130】

並列加算器５４で得られた内的結合度ＳＷＤは、乗算器５５に入力され、この乗算器５５によってシステムコントローラ１１から入力されるクラスタ数Ｎｃ（＝２）と乗算される。乗算器５５の乗算結果は、分母レジスタ５８に保持される。なお、内的結合度ＳＷＤにクラスタ数Ｎｃを乗じているのは、評価値Ｅ（Ｎｃ）を次の除算で求める際に、クラスタ指標値ＳＢＳをクラスタ数Ｎｃで規格化して外的分離度（ＳＢＳ／Ｎｃ）とするためである。続けて、除算器６０によって、分子レジスタ５９の内容を分母レジスタ５８の内容で除算することにより、クラスタ数Ｎｃが「２」であるときの評価値Ｅ（２）が算出される。

【0131】

上記のように、評価値算出回路１８は、クラスタリング演算部１６がクラスタリングを行なうための計算過程の計算値を利用して評価値Ｅ（２）を算出する。すなわち、クラスタ重心Ｖ_１、Ｖ_２を計算する際に、その計算途中で算出される、データ加算値ＳＳ_１、ＳＳ_２、データ数ｎ_１、ｎ_２を利用して得られる第２指標値ＳＢＳ_１、ＳＢＳ_２を用いて評価値Ｅ（２）を算出する。したがって、高速かつ低消費電力で効率的に評価値Ｅ（２）が求められる。この後に算出される評価値Ｅ（Ｎｃ）についても同様である。

【0132】

システムコントローラ１１は、上記のようにして除算器６０で得られる評価値Ｅ（２）と、この時点でＣＩＤレジスタ部２５に保持されている各セル２６ａの内容すなわちクラスタ数Ｎｃが「２」のときの各要素データＸに対応したクラスタＩＤを取得する。システムコントローラ１１は、取得した評価値Ｅ（２）及び各クラスタＩＤを記憶部（図示省略）に保持する。

【0133】

評価値Ｅ（２）及び各クラスタＩＤの取得後、クラスタ数Ｎｃを「３」としたクラスタリング処理を行なう。クラスタ数Ｎｃの「３」クラスタリング処理においても、クラスタ数Ｎｃが「２」の場合と同様に、初期設定、分類計算、評価値算出を行なう。

【0134】

クラスタ数Ｎｃが「３」の初期設定では、例えばクラスタ数Ｎｃを「２」とした場合に得られたクラスタ重心Ｖ_１、Ｖ_２とともに、クラスタ内距離ＤＸＶ_１、ＤＸＶ_２のうちで最大のクラスタ内距離ＤＸＶ_ｉに対応する要素データＸであるクラスタ重心Ｖ_３を初期値とする。これにより、クラスタ重心Ｖ_ｉの収束を早める。

【0135】

クラスタ重心Ｖ_３の初期値の設定は、上述のクラスタ重心Ｖ_２の初期値を設定した場合と同様な手順で行なうが、距離レジスタ部２４にクラスタ内距離ＤＸＶ_１、ＤＸＶ_２が保持されているので、クラスタ重心Ｖ_１、Ｖ_２の計算、クラスタ内距離ＤＸＶ_１、ＤＸＶ_２の計算は行なわない。距離レジスタ部２４の各セル２４ａから全てのクラスタ内距離ＤＸＶ_１、ＤＸＶ_２を読み出し、最大値検出回路２７及びＣＩＤマスク回路２８を用いて、「１」の最大フラグすなわち最大のクラスタ内距離ＤＸＶ_ｉに対応したセル２８ａのＭＩＤレジスタ３７ｄだけのラッチ動作が許容された状態にする。各ＭＩＤレジスタ３７ｄには、「３」の外部設定ＣＩＤが入力されているので、上記のように最大フラグが変化した後のクロックにより、「１」の最大フラグに対応したセル２８ａのＭＩＤレジスタ３７ｄの内容だけが、外部設定ＣＩＤの内容（「３」）に更新される。

【0136】

上記のように初期設定を行なった後に、１回目の分類計算を行なう。１回目の分類計算は、クラスタ数Ｎｃが「２」の場合と同様に、分類計算用の初期化をしてから、指定ＣＩＤを「１」としてクラスタＣ_１についての処理を行なってから、指定ＣＩＤを「２」としてクラスタＣ_２についての処理を行う。クラスタＣ_２についての処理後に、指定ＣＩＤを「３」として、クラスタＣ_３についての処理を、クラスタＣ_１、Ｃ_２の場合と同様に行なう。

【0137】

クラスタＣ_３についての処理で得られるクラスタ重心Ｖ_３が重心メモリ１５に書き込まれ、データ数ｎ_３がデータ数レジスタ６４に書き込まれる。また、データ数ｎ_３及びデータ重心ＧＧと、データ加算値ＳＳ_３とから得られる第２指標値ＳＢＳ_３が第３ＳＢＳレジスタ６６_３に書き込まれる。なお、データ重心ＧＧは、新たに算出してもよいが、この例ではクラスタ数Ｎｃが「２」のときに求めてＧＧレジスタ６３に保持したものをそのまま用いている。

【0138】

１回目の分類計算後には、２回目の分類計算を同様に行なう。以降、分類計算を同様に繰り返し行なう。分類計算ごとに、距離レジスタ部２４の各セル２４ａの内容及びＣＩＤレジスタ部２５の各セル２５ａの内容が更新され、各要素データＸの各クラスタＣ_ｉへの分類が更新される。また、重心メモリ１５のクラスタ重心Ｖ_１～Ｖ_３が更新され、データ数レジスタ６４のデータ数ｎ_１～ｎ_３、第１～第３ＳＢＳレジスタ６６_１～６６_３の第２指標値ＳＢＳ_１～ＳＢＳ_３が更新される。

【0139】

重心メモリ１５の内容（クラスタ重心Ｖ_１～Ｖ_３）が変動しなくなると、システムコントローラ１１によって、分類計算が終了される。この後に、評価値Ｅ（３）が評価値算出回路１８によって計算される。この評価値Ｅ（３）の際には、重心算出回路２９を用いてクラスタＣ_１～Ｃ_３についての結合指標値ＳＷＤ_１～ＳＷＤ_３が計算される。

【0140】

システムコントローラ１１は、上記のようにして得られる評価値Ｅ（３）と、この時点でＣＩＤレジスタ部２５に保持されている各セル２６ａの内容すなわちクラスタ数Ｎｃが「３」のときの各要素データに対応したクラスタＩＤを取得する。システムコントローラ１１は、取得した評価値Ｅ（３）及び各クラスタＩＤを記憶部に保持する。

【0141】

以降、同様にしてクラスタ数Ｎｃを１ずつ増加させながら、クラスタリング処理を行ない、クラスタ数Ｎｃごとの評価値Ｅ（Ｎｃ）と各要素データＸに対応したクラスタＩＤを取得して記憶する。

【0142】

システムコントローラ１１は、前回の評価値Ｅ（Ｎｃ）よりも今回の評価値Ｅ（Ｎｃ＋１）が小さくなったときに、前回のクラスタ数Ｎｃを最適な値とする。そして、この後に、演算ユニット１２の状態を最適なクラスタ数Ｎｃでのクラスタリングした状態に復元する。

【0143】

復元するために、例えば、システムコントローラ１１は、演算ユニット１２のメインメモリ１４及びＧＧレジスタ６３を除いて各部を初期化した状態にしてから、記憶部に記憶している最適なクラスタ数Ｎｃに対応した各クラスタＩＤをＣＩＤレジスタ部２５の各セル２５ａに書き戻す。この後に、クラスタＣ_１、Ｃ_２・・・Ｃ_ＮＣについての分類計算を１回行ない、その後に評価値Ｅ（Ｎｃ）を算出する。

【0144】

これにより、重心メモリ１５のクラスタ重心Ｖ_１～Ｖ_Ｎｃ、距離レジスタ部２４の各セル２４ａのクラスタ内距離ＤＸＶ_１～ＤＸＶ_Ｎｃ、ＣＩＤレジスタ部２５のセル２５ａのクラスタＩＤ、ＳＢＳレジスタユニット６６の第２指標値ＳＢＳ_１～ＳＢＳ_ＮＣ、ＳＷＤレジスタユニット６７の結合指標値ＳＷＤ_１～ＳＷＤ_Ｎｃ、データ数レジスタ６４のデータ数ｎ_１～ｎ_Ｎｃが、最適なクラスタ数Ｎｃでクラスタリングした最終的な値にそれぞれ復元される。なお、ＣＩＤレジスタ部２５に書き込まれたクラスタＩＤは、分類計算によって変更されることはない。

【0145】

なお、復元の手法は、上記のものに限定されない。例えば、クラスタ数Ｎｃごとに分類計算終了後の演算ユニット１２の各部が保持している内容を記憶部に記憶しておき、これのうちの最適なクラスタ数Ｎｃのものを各部に書き戻すようにしてもよい。また、前回の評価値Ｅ（Ｎｃ）よりも今回の評価値Ｅ（Ｎｃ＋１）が小さくなったときに前回のクラスタ数Ｎｃを最適な値とする場合では、復元のために前回のクラスタ数ＮｃによるＣＩＤレジスタ部２５の各クラスタＩＤだけを記憶部に記憶してもよい。

【0146】

以上のように、最適なクラスタ数Ｎｃでのクラスタリングした状態に演算ユニット１２が復元されて、一括処理が終了する。

【0147】

一括処理の終了後に、新規要素データＸｎｅｗが追加されたときには、更新処理を行う。図１５に示すように、更新処理では、新規要素データＸｎｅｗについてデータ重心間距離ＤＸＶ_ｉが最小となるクラスタＣ_ｉにその新規要素データＸｎｅｗを分類する。すなわち、新規要素データＸｎｅｗを、それの最寄りのクラスタＣ_ｉに分類する。この分類後に、新規要素データＸｎｅｗが分類されたクラスタＣ_ｉのクラスタ重心Ｖ_ｉを更新してから、評価値Ｅ（Ｎｃ）を算出する。そして、評価値Ｅ（Ｎｃ）に基づいて更新処理後のクラスタリング結果の妥当性を判断する。

【0148】

以下、更新処理について具体的に説明する。この例では、新規要素データＸｎｅｗの追加に応答して更新処理が行なわれる。追加される新規要素データＸｎｅｗは、システムコントローラ１１によって、まず近隣探索回路部１７に入力され、近隣探索回路部１７には、クラスタ重心Ｖ_ｉが重心メモリ１５から順番に読み出されて入力される。近隣探索回路部１７では、新規要素データＸｎｅｗと、順番に入力されるクラスタ重心Ｖ_ｉとのデータ重心間距離ＤＸＶ_ｉが計算部１７ａで順次に計算される。

【0149】

計算部１７ａで得られる新たなデータ重心間距離ＤＸＶ_ｉが近距離レジスタ部１７ｂに保持されている内容よりも小さいときには、近距離レジスタ部１７ｂの内容が新たなデータ重心間距離ＤＸＶ_ｉに更新される。これにより、最終的に、新規要素データＸｎｅｗについて最小となるデータ重心間距離ＤＸＶ_ｉが近距離レジスタ部１７ｂに保持される。一方で、近距離ＣＩＤレジスタ部１７ｃには、近隣探索回路部１７に入力されているクラスタ重心Ｖ_ｉに対応するクラスタＩＤを示す指定ＣＩＤが入力される。これにより、近距離ＣＩＤレジスタ部１７ｃには、最小となるデータ重心間距離ＤＸＶ_ｉに対応したクラスタＩＤが保持される。このようにして、新規要素データＸｎｅｗは、データ重心間距離ＤＸＶ_ｉが最小となるクラスタＣ_ｉに分類される。

【0150】

以下、最終的に近距離ＣＩＤレジスタ部１７ｃに保持されているクラスタＩＤを「ｋ」として説明する。なお、ｋは、１、２・・・Ｎｃのいずれかの値である。

【0151】

次に、評価値算出回路１８により、新規要素データＸｎｅｗが追加された後のクラスタ重心Ｖ_ｋを式（９）により求める。式（９）中において、値Ｖ_ｋＯＬＤ、値ｎ_ｋＯＬＤは、いずれも新規要素データＸｎｅｗが追加（分類）される前のクラスタＣ_ｋについてのクラスタ重心及びデータ数であり、クラスタ重心Ｖ_ｋＯＬＤは重心メモリ１５から、データ数ｎ_ｋＯＬＤはデータ数レジスタ６４に保持されている。

【0152】

【数5】

【0153】

評価値算出回路１８のデータ数レジスタ６４から読み出されたデータ数ｎ_ｋＯＬＤと、固定値「１」とが加算器５６に入力されて値「ｎ_ｋＯＬＤ＋１」が求められ、これが分母レジスタ５８に保持される。また、重心メモリ１５から読み出されたクラスタ重心Ｖ_ｋＯＬＤとデータ数レジスタ６４から読み出されたデータ数ｎ_ｋＯＬＤとが乗算器５１に入力されて、値「ｎ_ｋＯＬＤ×Ｖ_ｋＯＬＤ」が求められる。乗算器５１からの値「ｎ_ｋＯＬＤ×Ｖ_ｋＯＬＤ」と、新規要素データＸｎｅｗとが加算器５７に入力され、値「ｎ_ｋＯＬＤ×Ｖ_ｋＯＬＤ＋Ｘｎｅｗ」が得られ、この値が分子レジスタ５９に保持される。そして、除算器６０により、分母レジスタ５８の内容で分子レジスタ５９の内容を除することで、新規要素データＸｎｅｗが分類された後のクラスタ重心Ｖ_ｋが算出される。このように算出されたクラスタ重心Ｖ_ｋが重心メモリ１５に書き込まれることで、クラスタＣ_ｋのクラスタ重心Ｖ_ｋが更新される。

【0154】

クラスタ重心Ｖ_ｋの更新後、第２指標値ＳＢＳ_ｋと結合指標値ＳＷＤ_ｋとを更新する。まず、新たな第２指標値ＳＢＳ_ｋを求めるために、重心メモリ１５からクラスタ重心Ｖ_ｋが、ＧＧレジスタ６３からデータ重心ＧＧがそれぞれ読み出され、これらが近隣探索回路部１７の全加算器４５にそれぞれ入力される。これにより、加算器６１の出力としてクラスタ重心Ｖ_ｋとデータ重心ＧＧとの差分ベクトル（ｑ次元ベクトル）が得られる。差分ベクトルは、評価値算出回路１８の乗算器５１にセレクタ５０を介して入力される。また、この乗算器５１にデータ数レジスタ６４から読み出されたデータ数ｎ_ｋが入力される。これにより、データ数ｎ_ｋを乗じた差分ベクトルが得られる。このデータ数ｎ_ｋを乗じた差分ベクトルが、減算器５２をパススルーして積算器５３に入力されることによって、第２指標値ＳＢＳ_ｋが得られる。このように算出された第２指標値ＳＢＳ_ｋに、ＳＢＳレジスタユニット６６の第ｋＳＢＳレジスタの内容が更新される。

【0155】

続いて結合指標値ＳＷＤ_ｋを更新する。新たな結合指標値ＳＷＤ_ｋは、クラスタリング演算部１６で算出される。新規要素データＸｎｅｗがメインメモリ１４の未使用の列に書き込まれるとともに、その列に対応したＣＩＤレジスタ部２５のセル２５ａにクラスタＩＤとして「ｋ」が書き込まれる。このクラスタＩＤの書き込みでは、例えばシステムコントローラ１１が近距離ＣＩＤレジスタ部１７ｃに保持されているクラスタＩＤを読み出し、そのクラスタＩＤを指定ＣＩＤとしてＣＩＤレジスタ部２５の各セル２５ａに与えた状態で、新規要素データＸｎｅｗに対応するセル２５ａだけラッチ動作を行なわせることで行なう。

【0156】

ＣＩＤレジスタ部２５に新規要素データＸｎｅｗのクラスタＩＤを書き込んだ後に、ＣＩＤマスク回路２８の各ＭＩＤレジスタ３７ｄの内容が、それぞれ対応するＣＩＤレジスタ部２５のセル２５ａの内容に更新される。この後、ＣＩＤマスク回路２８の各セル２８ａのコンパレータ３７ｅにクラスタＩＤとして「ｋ」を指定する指定ＣＩＤを与える。これにより、セル２５ａのクラスタＩＤが「ｋ」となっているセル２８ａからの比較フラグだけが「１」になる。

【0157】

続いて、メインメモリ１４から新規要素データＸｎｅｗを含む全ての要素データＸが読み出されて、遅延回路２１を介して距離算出回路２２に入力される。また、距離算出回路２２には、重心メモリ１５から読み出されたクラスタ重心Ｖ_ｋが入力される。これにより、各セル２２ａの全加算器３２は、その一方の入力端に要素データＸが入力され、他方の入力端にクラスタ重心Ｖ_ｋが入力される。全加算器３２によるｑ次元分の計算が完了すると、各セル２２ａの計算レジスタ３６には、それぞれ対応する要素データＸについてのデータ重心間距離ＤＸＶ_ｋが保持された状態になる。

【0158】

上記のようにして全加算器３２による計算の完了後、「１」の比較フラグに対応したセル２４ａ。セル２５ａ、すなわち保持しているクラスタＩＤが「ｋ」のセル２５ａと、これに対応するセル２４ａだけがラッチ動作を行なうようにされる。これにより、次のクロックが発生したタイミングで、新規要素データＸｎｅｗを含むクラスタＣ_ｋに分類されている各要素データＸｋに対応するセル２４ａ、セル２５ａの内容が更新される。

【0159】

この結果、クラスタＣ_ｋに分類されている各要素データＸに対応するセル２４ａには、新規要素データＸｎｅｗの分類後に求めた新たなクラスタ重心Ｖ_ｋを用いて算出されたデータ重心間距離（クラスタ内距離）ＤＸＶ_ｋが保持される。一方、ＣＩＤレジスタ部２５には、指定ＣＩＤとして「ｋ」を与えているから、クラスタＣ_ｋ分類されている各要素データＸに対応するセル２５ａには「ｋ」が書き込まれるため、実際には内容は変更されない。このようにして、クラスタＣｋに分類されている各要素データＸについてのクラスタ内距離）ＤＸＶ_ｋが新しいクラスタ重心Ｖ_ｋに対応した値に更新される。

【0160】

続いて距離レジスタ部２４から各クラスタ内距離ＤＸＶｉが読み出されて、ＣＩＤマスク回路２８を介して重心算出回路２９に入力される。各ＭＩＤレジスタ３７ｄの内容は、対応するＣＩＤレジスタ部２５のセル２５ａと同じになっており、指定ＣＩＤとして「ｋ」を指定している。このため、重心算出回路２９には、各クラスタ内距離ＤＸＶ_ｋだけが入力される。また、重心算出回路２９に入力されている比較フラグは、クラスタＣ_ｋに分類されている各要素データＸの個数と同じフラグ数が「１」となっている。このため、重心算出回路２９では、分類計算の場合と同様にして、各クラスタ内距離ＤＸＶ_ｋを加算した第１指標値ＳＤ_ｋと、クラスタＣ_ｋに分類されている各要素データＸのデータ数ｎ_ｋとが求められ、これらから新たな結合指標値ＳＷＤ_ｋが計算される。新たな結合指標値ＳＷＤ_ｋは、評価値算出回路１８に送られ、この新たな結合指標値ＳＷＤ_ｋにＳＷＤレジスタユニット６７の第ｋＳＷＤレジスタの内容が更新される。

【0161】

この後、評価値算出回路１８によって、ＳＢＳレジスタユニット６６の各内容及びＳＷＤレジスタユニット６７の各内容を用いて評価値Ｅ（Ｎｃ）が計算される。このときの評価値Ｅ（Ｎｃ）の計算手順は、一括処理におけるクラスタリング後に行なう手順と同じである。

【0162】

上記説明から分かるように、更新処理においては、新規要素データＸｎｅｗが分類されるクラスタＣ_ｋのクラスタ重心Ｖ_ｋは更新するが、データ重心ＧＧの更新を行なわない。通常では、既存の要素データＸの全データ数は非常に大きく、例えば１または数個の新規要素データＸｎｅｗの追加によるデータ重心ＧＧの移動量は非常に小さい。このため、重心距離ＤＧＶ_ｉをパラメータとして含む第２指標値ＳＢＳｉの変動は非常に小さく、データ重心ＧＧを更新しないことの評価値Ｅ（Ｎｃ）への影響はかなり小さい。これに対して、１または数個の新規要素データＸｎｅｗの追加によるクラスタ重心Ｖ_ｋの移動は、データ数ｎ_ｋにもよるが、データ重心ＧＧの移動に比べてかなり大きい。このため、結合指標値ＳＷＤ_ｋ及び第２指標値ＳＢＳ_ｋの変動が大きくなり、それらの変動にともなう評価値Ｅ（Ｎｃ）の変動が大きくなるためである。

【0163】

システムコントローラ１１は、上記のようにして算出される評価値Ｅ（Ｎｃ）を取得し、この評価値Ｅ（Ｎｃ）に基づいて更新処理によるクラスタリング結果の妥当性を判断する。すなわち、上記のように更新処理で新規要素データＸｎｅｗを分類した後にもクラスタリング状態が適正に保たれているか否かを判断する。

【0164】

この例では、更新処理の直前に行なわれた一括処理で適正とされたクラスタ数Ｎｃに対して得られた評価値Ｅ（Ｎｃ）を基準評価値とし、この基準評価値と更新処理で得られた評価値Ｅ（Ｎｃ）とを比較する。この比較で、例えば後者が前者と同じかそれ以上になっている場合に、妥当であると判断し、処理を終了する。一方、後者が前者よりも小さくなっている場合には、妥当でないと判断し、一括処理を実施する。

【0165】

妥当でないと判断した場合の一括処理は、上記と同様な手順により行う。この場合に、前回に一括処理で得られた適正なクラスタ数Ｎｃで得られた各クラスタ重心Ｖ_ｉ，各要素データに対するクラスタＩＤあるいは更新処理で得られた各要素データに対するクラスタＩＤを用いて、初期設定を行なうことも好ましい。このようにすることにより、ｋ－ｍｅａｎｓ法によるクラスタリングを早期に収束でき、計算回数、計算時間を短縮できる。

【0166】

以上のようにしてクラスタリングを行なうため、新規要素データＸｎｅｗを効率的かつ高速に分類される。そして、この分類によるクラスタリング結果は、評価値Ｅ（Ｎｃ）によって、その妥当性が判断され、クラスタリング結果が悪くなっているような場合には、一括処理で新規要素データを含む全要素データＸでクラスタリングが行なわれ、最適なクラスタ数Ｎｃに分類されるから、クラスタリングの精度が高く保たれる。これを例えば学習機能を有する自動認識装置に用いた場合、更新処理により高速、リアルタイムな認識（分類）が実現され、状況に応じて一括処理による高精度な学習が可能になる。

【0167】

更新処理で得られる評価値Ｅ（Ｎｃ）からクラスタリング状態が適正に保たれているか否かを判断する手法は、上記の手法に限られないが、上記のように、更新処理よりも前に得られた評価値Ｅ（Ｎｃ）を基準評価値として比較することは好ましい手法である。また、基準評価値として、一括処理及び更新処理を問わず、今回の更新処理の直前に行なわれたクラスタリングによるクラスタリング結果を評価した評価値を基準評価値として用いることも可能である。さらに、更新前評価値に対する更新後評価値の低下した大きさが所定の範囲内（例えば更新前評価値の１０％ないし１５％以下や予め決めた値以下）である場合には、妥当であると判断し、低下値がそれ以上である場合には妥当でないと判断してもよい。また、このように、更新前評価値に対する更新後評価値の低下した大きさが所定の範囲内である場合や、僅かな低下である場合に、一括処理を実施するか否かの選択要求を出力し、それに対するオペレータにからの入力に応答して一括処理の実施の有無が決まるようにしてもよい。

【0168】

また、上記の例では、１個の新規要素データが追加されるごとに更新処理を行なうようにしているが、追加される新規要素データの個数が２以上の一定数になることに応答して更新処理を行なう構成としてもよい。さらに、新規要素データが追加された場合に、所定の条件を満たすか否かで更新処理を行なうか、更新処理を行なわず当初より一括処理を行なうように構成してもよい。例えば、新規要素データが予め設定した個数以上である場合や、クラスタリング済みの要素データに対する追加される新規要素データの個数の割合が一定値以上である場合には更新処理を行なわず当初より一括処理を行なうようにしてもよい。

【0169】

上記の例では、一括処理での分類計算における各クラスタについての処理の順番は、任意である。また、分類計算でクラスタ重心が得られるごとに、そのクラスタ重心を重心メモリに書き込んでいるが、クラスタ重心が収束してから、クラスタ重心を重心メモリに書き込んでもよい。この場合、重心算出回路で算出されるクラスタ重心を監視することによって収束を判断すればよい。第２指標値についても同様であり、クラスタ重心が収束してから、第２指標値の計算を行ない、第２指標値のＳＢＳレジスタユニットに書き込んでもよい。データ数のデータ数レジスタへの書き込みについても同様である。

【0170】

上記、クラスタリング装置１０を用いたクラスタリングの検証を下記の（１）～（３）の３ケースについて行なった。すなわち、（１）新規要素データＸｎｅｗが既存の２つのクラスタのうちの一方の内部に配置される場合（図１６）、（２）新規要素データＸｎｅｗが既存の２つのクラスタの遠方に配置され、既存の各クラスタとの距離に差がある場合（図１７）、及び（３）新規要素データＸｎｅｗが既存の２つのクラスタのうちの一方の近辺に配置される場合（図１８）である。いずれのケースにおいても、既存の各クラスタはそれぞれ５０個の要素データＸが一括処理によって分類され、１０個の新規要素データＸｎｅｗを追加してまとめて更新処理を行なっている。評価値Ｅ（Ｎｃ）は上述の式（１）により算出した。

【0171】

（１）新規要素データＸｎｅｗが既存の２つのクラスタのうちの一方の内部に配置される場合では、更新処理によって各新規要素データＸｎｅｗは、それらが内部に配置された一方のクラスタに分類された。新規要素データＸｎｅｗの追加前における全要素データＸを用いたクラスタリングの各クラスタ数Ｎｃにおける評価値Ｅ（Ｎｃ）を表１の一括処理（追加前）の欄に示す。また、新規要素データＸｎｅｗを追加して更新処理を行なった状態での評価値Ｅ（２）を表１の更新処理の欄に示す。さらに、参考として、新規要素データＸｎｅｗが追加された全要素データＸを用いた各クラスタ数Ｎｃにおける評価値Ｅ（Ｎｃ）を表１の一括処理（追加後）の欄に示す。

【0172】

【表1】

【0173】

（２）新規要素データＸｎｅｗが既存の２つのクラスタの遠方に配置され、既存の各クラスタとの距離に差がある場合では、更新処理によって各新規要素データＸｎｅｗは、既存の２つのクラスタのうち距離の近い一方のクラスタに分類された。新規要素データＸｎｅｗの追加前における全要素データＸを用いたクラスタリングの各クラスタ数Ｎｃにおける評価値Ｅ（Ｎｃ）を表２の一括処理（追加前）の欄に、また新規要素データＸｎｅｗを追加して更新処理を行なった状態での評価値Ｅ（２）を表２の更新処理の欄に示す。この場合、更新処理によって評価値Ｅ（２）が大きく低下したため妥当性判断の後に一括処理が行なわれた。このときに各クラスタ数Ｎｃにおける評価値Ｅ（Ｎｃ）を表２の一括処理（追加後）の欄に示す。

【0174】

【表2】

【0175】

（３）新規要素データＸｎｅｗが既存の２つのクラスタのうちの一方の近辺に配置される場合では、更新処理によって各新規要素データＸｎｅｗは、それらが近辺に配置された一方のクラスタに分類された。新規要素データＸｎｅｗの追加前における全要素データＸを用いたクラスタリングの各クラスタ数Ｎｃにおける評価値Ｅ（Ｎｃ）を表３の一括処理（追加前）の欄に、また新規要素データＸｎｅｗを追加して更新処理を行なった状態での評価値Ｅ（２）を表３の更新処理の欄に示す。この場合、更新処理による評価値Ｅ（２）の低下が１０％程度であった。参考として、更新処理後に、一括処理を行なったときの各クラスタ数Ｎｃにおける評価値Ｅ（Ｎｃ）を表３の一括処理（追加後）の欄に示す。

【0176】

【表3】

【0177】

評価値の算出式は、上記のものに限定されない。上記のように求められる内的結合度は、その値が小さいほど、クラスタ内のデータ相互の類似性が高くなるように各クラスタ内のデータがまとまったクラスタリング状態となることを意味する。一方で、上記のように求められる外的分離度は、その値が大きいほど、クラスタ相互間の類似性が低くなるように各クラスタが相互に離れたクラスタリング状態となることを意味する。このため、内的結合度と外的分離度とから評価値を求める演算は、内的結合度が小さくなる方向に変化したとき、また外的分離度が大きくなる方向に変化したときに、評価値が増加または減少の一方に変化するようにすればよく、そのような結果が得られる内的結合度と外的分離度とを変数とする演算式を用いればよい。

【0178】

例えば、式（１）に示されるクラスタ指標値ＳＢＳ（第２総和値）に代えて、式（１０）に示されるように、１のクラスタＣ_ｉについての他のクラスタＣ_ｊとの間のクラスタ距離（ｄ（Ｖ_ｉ，Ｖ_ｊ））のうちの最小値の各クラスタについての総和であるクラスタ指標値ＳＢＳ（第２総和値）を用いてもよい。この場合、１のクラスタＣ_ｉについての他のクラスタＣ_ｊとの間のクラスタ間距離（ｄ（Ｖ_ｉ，Ｖ_ｊ））の最小値が第２指標値ＳＢＳ_ｉである。

【0179】

【数6】

【0180】

また、データ重心間距離（クラスタ内距離）、重心距離、クラスタ間距離として、マンハッタン距離以外の、例えばユークリッド距離、ミンコフスキー距離、Point symmetry distance等を用いてもよく、各種距離の二乗した値を用いてもよい。

【0181】

この例では、第１の値としてのクラスタ内のデータ数ｎ_ｉで第１指標値ＳＤ_ｉを除することで規格化した結合指標値ＳＷＤ_ｉを求めているが、第１の値は、これに限定されるものではなく、クラスタＣ_ｉのデータ数ｎ_ｉに基づく値とすることができる。例えば、クラスタＣｉのデータ数ｎ_ｉの冪（ｎ_ｉ ^２、ｎ_ｉ ^３、ｎ_ｉ ^１／２、ｎ_ｉ ^－２等）、データ数ｎ_ｉを定数倍した値、データ数ｎ_ｉに一定数を減算または加算した値、データ数ｎ_ｉとクラスタ数Ｎｃとを予め決めた関数Ｆ（ｎ_ｉ，Ｎｃ）、例えば「Ｆ（ｎ_ｉ，Ｎｃ）＝ｎ_ｉ－Ｎｃ」、ｋを定数とした「Ｆ（ｎ_ｉ，Ｎｃ）＝ｋ・ｎ_ｉ－Ｎｃ」等に適用した結果等を第１の値として用いることができる。

【0182】

また、第２の値としてのクラスタ数Ｎｃでクラスタ指標値ＳＢＳを除算することで規格化した外的分離度（ＳＢＳ／Ｎｃ）を求めているが、第２の値は、これに限定されるものではなく、クラスタ数Ｎｃに基づく値で規格化することができる。クラスタ数Ｎｃ以外のクラスタ数Ｎｃに基づく値としては、第１の値と同様に、例えば、クラスタ数Ｎｃの冪、クラスタ数Ｎｃを定数倍した値、クラスタ数Ｎｃに一定数を減算または加算した値等を第２の値として用いることができる。

【0183】

なお、外的分離度として、例えば値「ＳＢＳ／Ｎｃ」を全データ数Ｎｎで除した値（＝ＳＢＳ／（Ｎｃ×Ｎｎ））を用いた評価値（以下、このような評価値Ｅ（Ｎｎ、Ｎｃ）と称する）もあるが、このような評価値Ｅ（Ｎｎ、Ｎｃ）は、要素データの増加がない場合に、各クラスタ数Ｎｃの相互間におけるクラスタリングの状態を評価するうえでは有用である。しかしながら、評価値Ｅ（Ｎｎ、Ｎｃ）は、全データ数Ｎｎの増加した場合に、クラスタリングの状態が良好になっても、要素データの増加にともなって評価値が全データ数Ｎｎの増加前と比べて低下する。このため、要素データの追加が発生するように要素データの全データ数Ｎｎが動的である場合、また上記の更新処理のように、要素データの増加の前後において評価値を比較する場合には、式（１）に示される評価値Ｅ（Ｎｃ）や式（１０）に示されるクラスタ指標値ＳＢＳを用いた評価値Ｅ（Ｎｃ）のように全データ数Ｎｎを含まないことが好ましい。

【0184】

クラスタリング状態（分類結果）を上記評価値Ｅ（Ｎｃ）を用いて評価する手法、クラスタリング演算部がクラスタリングを行なうための計算過程の計算値を利用して評価値Ｅ（Ｎｃ）を算出する手法は、新規要素データが追加された場合に更新処理を行なう場合に限定されず、例えば新規要素データが追加された場合に一括処理を行なう構成にも適用できる。

【0185】

また、上記の例では、クラスタ内距離の基点である第１代表点として、クラスタ重心を用い、クラスタ間の距離の指標となる重心距離及びクラスタ間距離の各クラスタの基点である第２代表点をクラスタ重心にしているが、第１代表点、第２代表点はこれらに限定されない。例えば、第１代表点、第２代表点を各クラスタ内において、クラスタ重心に最も近い要素データとしてもよい。また、第２代表点は、クラスタ同士または後述する基準点とクラスタとの離れた具合（距離）を測る上での基点であるから、隣接したクラスタあるいは基準点に最も近いまたは最も離れたクラスタ内の要素データ等としてもよい。さらに、第１代表点及び第２代表点を、別途定めた基準によって決まるクラスタ内の点またはデータやクラスタ内の任意の点または要素データとしてもよい。

【0186】

さらに、上記の例では、データ重心を基準点としているが、基準点は、任意の点や要素データに設定することができ、上記のようなデータ重心の他に、データ重心に最も近い要素データ、いずれかのクラスタの第２代表点、外部より指定する点や要素データ、外部から指定されたメインメモリのアドレスに格納されている要素データ、最初に入力された要素データ等のように別途定めた基準によって決まる点や要素データにしてもよい。

【0187】

評価値Ｅ（Ｎｃ）は、式（１）の逆数としてもよい。この場合には、評価値Ｅ（Ｎｃ）は、最小（極小）となるものが最適なクラスタ数Ｎｃとなる。また、評価値を求める演算としては、内的結合度と外的分離度との比とするものの他に、例えば、次の各式に示すように、内的結合度と外的分離度の一方の逆数と他方とをそれぞれ重み付けして加算することで評価値Ｅ（Ｎｃ）を求めるもの、内的結合度と外的分離度の一方から他方をそれぞれ重み付けして減算することで評価値Ｅ（Ｎｃ）を求めるもの等を用いることができる。なお、式中の値Ｗａ、Ｗｂは重み付けの定数であり、Ｗａ，Ｗｂ≠０である。

【0188】

【数7】

【0189】

上記ではｋ－ｍｅａｎｓ法をも用いてクラスタリングを行なっているが、ｋ－ｍｅａｎｓ法に限らず、各要素データを１つのクラスタに属するように分類するハードクラスタリングに適用することができる。このようなハードクラスタリングとしては、「ｋ－ｍｅａｎｓ＋＋」法、スペクトラルクラスタリング、単連結法、ウォード法等がある。

【符号の説明】

【0190】

１０クラスタリング装置
１１システムコントローラ
１４メインメモリ
１５重心メモリ
１６クラスタリング演算部
１７近隣探索回路部
１８評価値算出回路
１８ａロジック部
１８ｂ評価レジスタ部
２５ＣＩＤレジスタ部
２９重心算出回路
ＰＤ１～ＰＤ６パワードメイン

【図1】