特許7595936 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　筑波大学の特許一覧

特許7595936サブクラスタ抽出装置、サブクラスタ抽出方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-29

(45)【発行日】2024-12-09

(54)【発明の名称】サブクラスタ抽出装置、サブクラスタ抽出方法、及びプログラム

(51)【国際特許分類】

G06F 18/231 20230101AFI20241202BHJP

G06F 17/18 20060101ALI20241202BHJP

G06F 16/906 20190101ALI20241202BHJP

G06N 20/00 20190101ALI20241202BHJP

【ＦＩ】

G06F18/231

G06F17/18 Z

G06F16/906

G06N20/00 160

【請求項の数】 4

(21)【出願番号】P 2021109128

(22)【出願日】2021-06-30

(65)【公開番号】P2023006500

(43)【公開日】2023-01-18

【審査請求日】2023-11-14

(73)【特許権者】

【識別番号】504171134

【氏名又は名称】国立大学法人筑波大学

(74)【代理人】

【識別番号】100106909

【弁理士】

【氏名又は名称】棚井澄雄

(74)【代理人】

【識別番号】100188558

【弁理士】

【氏名又は名称】飯田雅人

(74)【代理人】

【識別番号】100169764

【弁理士】

【氏名又は名称】清水雄一郎

(72)【発明者】

【氏名】櫻井鉄也

(72)【発明者】

【氏名】二村保徳

(72)【発明者】

【氏名】城取萌望

【審査官】宮司卓佳

(56)【参考文献】

【文献】特開２００６－０９８１５５（ＪＰ，Ａ）

【文献】特開平１１－２０３４１５（ＪＰ，Ａ）

【文献】国際公開第２０１０／０１６１０９（ＷＯ，Ａ１）

【文献】特開平０９－２６５５２９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１８／２３１

Ｇ０６Ｆ１７／１８

Ｇ０６Ｆ１６／９０６

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する処理である特徴量データ取得処理を実行する特徴量データ取得部と、
前記特徴量データ取得部によって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する処理である特徴量選択処理を実行する特徴量選択部と、
前記特徴量選択部によって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類する処理であるクラスタリング処理を実行するクラスタリング部と、
前記クラスタリング部によって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択する処理であるサブグループ選択処理を実行するサブグループ選択部と、
前記サブグループ選択部によって選択された前記サブグループに含まれるサンプルについて前記特徴量データ取得部に前記特徴量データ取得処理を実行させ、前記特徴量選択処理を前記特徴量選択部に実行させ、前記クラスタリング処理を前記クラスタリング部に実行させ、前記サブグループ選択処理を前記サブグループ選択部に実行させる処理を繰り返し実行する繰り返し部と、
を備えるサブクラスタ抽出装置。

【請求項2】

前記サブグループ選択部は、所定の特徴量に基づいて前記複数のクラスタのなかからクラスタをサブグループとして選択する
請求項１に記載のサブクラスタ抽出装置。

【請求項3】

サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、
前記特徴量データ取得ステップによって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する特徴量選択ステップと、
前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、
前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、
前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、
をコンピュータが実行するサブクラスタ抽出方法。

【請求項4】

コンピュータに、
サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、
前記特徴量データ取得ステップによって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する特徴量選択ステップと、
前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、
前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、
前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、サブクラスタ抽出装置、サブクラスタ抽出方法、及びプログラムに関する。

【背景技術】

【0002】

医療系、生命系のデータ解析を始め、様々なデータ解析では、データの背景にあるクラスタ構造の抽出を目的とするクラスタ解析が重要な役割を果たす。実データにおいては、背景に階層的なクラスタ構造があることが想定されるが、深い階層にあるクラスタ構造は、特徴量全体を用いた通常のクラスタ解析では発見が困難である。

【0003】

近年の測定装置の発展により得られるようになったシングルセル遺伝子発現データなどの高次元データにおいては、サンプル間のばらつきや状態変化周期による大きな変動が同じクラスタ内においても現れる場合がある。このような性質をもつデータに対しては、従来の統計的な検定に基づくクラスタ解析では十分な性能が得られない。

【0004】

また、サンプル集団全体に共通したパターンをもつ特徴量を除去して特徴量を選択することが階層的なクラスタ構造の抽出に対して重要である。従来から広く用いられている特徴量選択の方法として、特徴量の統計量のみから特徴量を選択する方法が知られている（非特許文献１）。また、特徴量のスパース性を用いた特徴量選択の方法として、Ｍ３ｄｒｏｐ法が知られている（非特許文献２）。

【先行技術文献】

【非特許文献】

【0005】

【文献】「ＣｏｍｐｕｔａｉｏｎａｌＢｉｏｌｏｇｙ」、２０１５年４月１３日、３３巻、５号、ｐ．４９５－５０２

【文献】「Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ」、２０１８年１２月２４日、３５巻、２０１９年１６号、ｐ．２８６５－２８６７

【文献】“ＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ”、［ｏｎｌｉｎｅ］、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ、［２０２１年４月１６日検索］、インターネット〈ＵＲＬ：ｈｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｇｅｏ／〉

【文献】“ＩＧＳＲ：ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＧｅｎｏｍｅＳａｍｐｌｅＲｅｓｏｕｒｃｅ”、［ｏｎｌｉｎｅ］、ＥＭＢＬ－ＥＢＩ、［２０２１年４月１６日検索］、インターネット〈ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．１０００ｇｅｎｏｍｅｓ．ｏｒｇ〉

【発明の概要】

【発明が解決しようとする課題】

【0006】

非特許文献１に記載されるような特徴量の統計量のみから特徴量を選択する方法では、クラスタ内の変動が考慮されていない。また、非特許文献２に記載されるようなＭ３ｄｒｏｐ法では、階層的なクラスタ構造は考慮されていない。階層的なクラスタ構造を抽出できることが求められている。

【0007】

本発明は上記の点に鑑みてなされたものであり、階層的なクラスタ構造を抽出できるサブクラスタ抽出装置、サブクラスタ抽出方法、及びプログラムを提供する。

【課題を解決するための手段】

【0008】

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する処理である特徴量データ取得処理を実行する特徴量データ取得部と、前記特徴量データ取得部によって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する処理である特徴量選択処理を実行する特徴量選択部と、前記特徴量選択部によって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類する処理であるクラスタリング処理を実行するクラスタリング部と、前記クラスタリング部によって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択する処理であるサブグループ選択処理を実行するサブグループ選択部と、前記サブグループ選択部によって選択された前記サブグループに含まれるサンプルについて前記特徴量データ取得部に前記特徴量データ取得処理を実行させ、前記特徴量選択処理を前記特徴量選択部に実行させ、前記クラスタリング処理を前記クラスタリング部に実行させ、前記サブグループ選択処理を前記サブグループ選択部に実行させる処理を繰り返し実行する繰り返し部と、を備えるサブクラスタ抽出装置である。

【0010】

また、本発明の一態様は、上記のサブクラスタ抽出装置において、前記サブグループ選択部は、所定の特徴量に基づいて前記複数のクラスタのなかからクラスタをサブグループとして選択する。

【0011】

また、本発明の一態様は、サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、前記特徴量データ取得ステップによって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する特徴量選択ステップと、前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、をコンピュータが実行するサブクラスタ抽出方法である。

【0012】

また、本発明の一態様は、コンピュータに、サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、前記特徴量データ取得ステップによって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する特徴量選択ステップと、前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、を実行させるためのプログラムである。

【発明の効果】

【0013】

本発明によれば、階層的なクラスタ構造を抽出できる。

【図面の簡単な説明】

【0014】

【図1】本発明の実施形態に係るサブクラスタ抽出システムの構成の一例を示す図である。

【図2】本発明の実施形態に係るサブクラスタ抽出処理の一例を示す図である。

【図3】本発明の実施形態に係る特徴量選択処理の一例を示す図である。

【図4】本発明の第１の実施例に係る特徴量データである人工データの一例を示す図である。

【図5】本発明の第１の実施例に係る人工データの密な部分の一例を示す図である。

【図6】本発明の第１の実施例に係るクラスタリング結果を可視化した結果の一例を示す図である。

【図7】本発明の第１の実施例に係るクラスタリング結果を可視化した結果に用いたマーカーをラベル（真のクラスタ）に変更した場合のプロットの一例を示す図である。

【図8】本発明の第１の実施例に係る２回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果の一例を示す図である。

【図9】本発明の第１の実施例に係る２回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果に用いたマーカーをラベル（真のクラスタ）に変更した場合のプロットの一例を示す図である。

【図10】本発明の第２の実施例に係るクラスタリング結果を可視化した結果の一例を示す図である。

【図11】本発明の第２の実施例に係る２回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果の一例を示す図である。

【図12】本発明の第３の実施例に係るクラスタリング結果を可視化した結果の一例を示す図である。

【図13】本発明の第３の実施例に係る２回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果の一例を示す図である。

【発明を実施するための形態】

【0015】

（実施形態）
以下、図面を参照しながら本発明の実施形態について詳しく説明する。図１は、本実施形態に係るサブクラスタ抽出システム１の構成の一例を示す図である。サブクラスタ抽出システム１では、高次元特徴量データに対して、当該高次元特徴量データの背景にあるクラスタ構造の抽出を行う。サブクラスタ抽出システム１では、クラスタ構造の抽出の過程において、複数の特徴量のなかから特徴量の選択を行う。

【0016】

以下の説明では、あるクラスタに含まれる複数のサンプルがさらに複数のクラスタに分類された場合に、当該複数のクラスタをそれぞれサブクラスタという。サブクラスタに含まれるサンプル全体を、サブグループともいう。サブクラスタをサブグループともいう。
したがって、サブグループ（サブクラスタ）とは、複数のサンプルがクラスタに分類されて得られる複数のクラスタのうちの１以上について、当該クラスタに含まれるサンプルがさらにクラスタに分類されて得られる複数のクラスタそれぞれに含まれるサンプルの集合のそれぞれである。

【0017】

複数のサンプルをクラスタに分類することを、クラスタ構造を抽出するともいう。クラスタ構造を抽出することを、単にクラスタを抽出するともいう。
あるクラスタからサブクラスタが抽出される場合、当該あるクラスタは、階層的なクラスタ構造を有するともいう。
複数の特徴量のなかから特徴量を選択することを、特徴量の除去、特徴量選択などともいう。

【0018】

サブクラスタ抽出システム１では、特徴量の選択の過程において、高次元特徴量データに対してサンプル空間における主成分分析を行い、サンプルのクラスタ分離に寄与するサンプル空間主成分に基づいて、特徴量の選択を行う。従来の多変量解析では、特徴量空間に対して主成分分析などの解析が行う。これに対して、サブクラスタ抽出システム１では、サンプル空間において複数の特徴量間の関係性を捉えて特徴量の選択を行いながらサブクラスタの抽出を行う。

【0019】

サンプル空間とは、特徴量の複数のサンプルそれぞれについての値の組の複数の特徴量についての集まりである。サンプル空間は、例えば、複数のサンプルそれぞれに対応する次元を有する空間において、複数の特徴量に対応する点がプロットされて視覚化される。
なお、従来の解析に用いられる特徴量空間は、サンプルについての複数の特徴量の値の組の複数のサンプルについての集まりである。

【0020】

［サブクラスタ抽出システム１の機能構成］
サブクラスタ抽出システム１は、サブクラスタ抽出装置１０と、特徴量データ供給部２０と、提示部３０とを備える。
特徴量データ供給部２０は、サブクラスタ抽出装置１０に対して高次元特徴量データを供給する。高次元特徴量データとは、サンプルに対する複数の特徴量の値の組を複数のサンプル毎に含むデータである。ここで特徴量の次元とは、特徴量の数を意味する。高次元とは、特徴量の数が所定数（例えば、数千）以上であることである。以下の説明では、高次元特徴量データを、単に特徴量データＤという。なお、特徴量データＤに含まれる特徴量の数は、所定数以下であってもよく、例えば、数個から数百であってもよい。

【0021】

特徴量データＤは、例えば、サンプル毎に複数の特徴量の値が格納される行と列からなる２次元の配列の型のデータである。当該配列においては、例えば、行はサンプルに対応し、列が特徴量に対応する。したがって、特徴量データＤにおいて、例えば、ｉ行ｊ列のセルには、ｉ番目のサンプルのｊ番目の特徴量の値が格納される。特徴量は、カテゴリ変数として表される特徴量と、数値によって表される特徴量とのいずれであってもよい。以下、カテゴリ変数として表される特徴量を、カテゴリカルな特徴量ともいい、数値を用いて表される特徴量を数値特徴量ともいう。

【0022】

特徴量データ供給部２０は、例えば、サーバなどの情報記憶装置であってもよいし、キーボードやタブレット、スキャナなどのヒューマンインタフェイス装置であってもよい。

【0023】

サブクラスタ抽出装置１０は、特徴量データ取得部１００と、前処理部１０１と、数値特徴量化正規化部１０２と、特徴量選択部１０３と、クラスタリング部１０４と、サブグループ選択部１０５と、繰り返し部１０６と、出力部１０７とを備える。サブクラスタ抽出装置１０は、一例として、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ：ＰＣ）である。サブクラスタ抽出装置１０が備える各機能部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）がＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）からプログラムを読み込んで処理を実行することにより実現される。

【0024】

特徴量データ取得部１００は、特徴量データ供給部２０が供給する特徴量データＤを取得する。特徴量データＤを取得する処理を、特徴量データ取得処理という。
前処理部１０１は、特徴量データＤに対して前処理を行う。前処理の具体例は後述する。
数値特徴量化正規化部１０２は、前処理が行われた特徴量データＤについて、数値特徴量化、及び正規化の処理を行う。数値特徴量化、及び正規化の処理の具体例は後述する。

【0025】

特徴量選択部１０３は、特徴量データ取得部１００によって取得された特徴量データＤに含まれる複数の特徴量のなかから特徴量を選択する。本実施形態では、特徴量選択部１０３は、サンプル空間主成分に基づいて複数の特徴量のなかから特徴量を選択する。特徴量データＤに含まれる複数の特徴量のなかから特徴量を選択する処理を、特徴量選択処理という。

【0026】

クラスタリング部１０４は、特徴量選択部１０３によって選択された特徴量に基づいてサンプルを複数のクラスタに分類する。特徴量選択部１０３によって選択された特徴量に基づいてサンプルを複数のクラスタに分類する処理を、クラスタリング処理という。

【0027】

サブグループ選択部１０５は、クラスタリング部１０４によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する。クラスタリング部１０４によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する処理を、サブグループ選択処理という。

【0028】

繰り返し部１０６は、サブグループ選択部１０５によって選択されたサブグループに含まれるサンプルについて特徴量データ取得部１００に特徴量データ取得処理を実行させ、特徴量選択処理を特徴量選択部１０３に実行させ、クラスタリング処理をクラスタリング部１０４に実行させ、サブグループ選択処理をサブグループ選択部１０５に実行させる処理を繰り返し実行する。

【0029】

出力部１０７は、サブグループ抽出結果Ｒを提示部３０に出力する。サブグループ抽出結果Ｒとは、サンプルのなかから選択されたサブグループを示す情報である。

【0030】

提示部３０は、サブクラスタ抽出装置１０に備えられる出力部１０７から出力されるサブグループ抽出結果Ｒを、表示や印字などの提示手段により提示する。提示部３０は、例えばディスプレイやプリンタである。
なお、提示部３０は、ネットワークサーバなどの記憶装置であってもよい。この場合には、提示部３０は、出力部１０７から出力されるサブグループ抽出結果Ｒを記憶し、記憶したサブグループ抽出結果Ｒを他の装置に供給する。

【0031】

［サブクラスタ抽出装置１０の動作］
次に図２を参照し、サブクラスタ抽出装置１０がサブクラスタを抽出する処理であるサブクラスタ抽出処理について説明する。図２は、本実施形態に係るサブクラスタ抽出処理の一例を示す図である。

【0032】

ステップＳ１０：特徴量データ取得部１００は、特徴量データ供給部２０が供給する特徴量データＤを取得する。特徴量データ取得部１００は、取得した特徴量データＤを前処理部１０１に供給する。

【0033】

ステップＳ２０：前処理部１０１は、特徴量データ取得部１００から供給される特徴量データＤに対して前処理を行う。ここで前処理部１０１は、特徴量データＤに含まれるサンプルについて対応する特徴量の値が欠損している場合、欠損処理によって値を補間する。または、前処理部１０１は、特徴量データＤに含まれるサンプルについて対応する特徴量の値が欠損している場合、当該サンプルを特徴量データＤから除去する。これらの処理によって、特徴量データＤは、特徴量の値について欠損のないデータとなる。

【0034】

また、前処理部１０１は、サブクラスタ抽出システム１が適用される分野に応じた特徴量削減法に基づいて、特徴量データＤに含まれる特徴量の次元を減らす。例えばシングルセル遺伝子発現解析の分野であれば、Ｓｅｕｒａｔで提供されている前処理関数ＦｉｎｄＶａｒｉａｂｌｅＦｅａｔｕｒｅｓを利用する。
前処理部１０１は、前処理を行った特徴量データＤを数値特徴量化正規化部１０２に供給する。

【0035】

ステップＳ３０：数値特徴量化正規化部１０２は、前処理が行われた特徴量データＤについて、数値特徴量化、及び正規化の処理を行う。ここで数値特徴量化の処理において、数値特徴量化正規化部１０２は、前処理が行われた特徴量データＤについて、カテゴリカルな特徴量を、数値特徴量に変換する。数値特徴量化正規化部１０２は、カテゴリカルな特徴量を数値特徴量に変換する処理に、例えば、ワンホットエンコーディングやラベルエンコーディングを用いる。また、数値特徴量化正規化部１０２は、特徴量データＤについて正規化の処理を行う。
数値特徴量化正規化部１０２は、数値特徴量化、及び正規化の処理を行った特徴量データＤを特徴量選択部１０３に供給する。

【0036】

ステップＳ４０：特徴量選択部１０３は、数値特徴量化正規化部１０２から供給される特徴量データＤに対して、特徴量選択処理を行う。特徴量選択部１０３は、特徴量選択処理によって、特徴量データＤに含まれるサンプル全体に共通する特徴量を除去する。特徴量選択部１０３は、特徴量選択処理によって、Ｍ個の特徴量が残るようにサンプル全体に共通する特徴量を除去する。特徴量選択部１０３は、残ったＭ個の特徴量を選択する。Ｍ個とは、所定の個数であり、ユーザによって予め指定される。

【0037】

ここで図３を参照し、特徴量選択処理の詳細について説明する。図３は、本実施形態に係る特徴量選択処理の一例を示す図である。本実施形態では、特徴量選択部１０３は、一例として、サンプル空間における主成分分析に基づいて特徴量データＤに含まれるサンプル全体に共通する特徴量を除去する。
図３に示すステップＳ１１０からステップＳ１３０の各処理は、図２に示すステップＳ４０の処理として実行される。

【0038】

以下の説明では、サンプル空間における主成分分析によって得られる主成分を、サンプル空間主成分Ｐという。サンプル空間主成分Ｐには、サンプル空間の次元の数だけの主成分が含まれ、それぞれ第１主成分、第２主成分、などという。

【0039】

ステップＳ１１０：特徴量選択部１０３は、数値特徴量化正規化部１０２から供給される特徴量データＤに対してサンプル空間において主成分分析を行う。特徴量選択部１０３は、当該主成分分析の結果、サンプル空間主成分Ｐを生成する。

【0040】

ステップＳ１２０：特徴量選択部１０３は、特徴量選択部１０３から供給されるサンプル空間主成分Ｐについて、サンプル空間主成分Ｐの分布について歪みがあるか否かを判定する。特徴量選択部１０３は、サンプル空間主成分Ｐに含まれる主成分について第１主成分から順に当該判定を行う。

【0041】

本実施形態では、サンプル空間主成分Ｐの分布の歪みとは、一例として、当該分布の正規分布からのずれである。特徴量選択部１０３は、一例として、歪度に基づいて判定を行う。サンプル空間主成分Ｐの分布の正規分布からのずれを判定する。特徴量選択部１０３は、サンプル空間主成分Ｐの分布の歪度が、０から所定の値だけずれている場合、当該分布には歪みがあると判定する。

【0042】

特徴量選択部１０３は、歪度に代えて、尖度に基づいて判定を行ってもよい。特徴量選択部１０３は、算術平均や標準偏差に基づいて判定を行ってもよい。また、特徴量選択部１０３は、算術平均、標準偏差、歪度、尖度のうちいずれか１以上の組合せに基づいて判定を行ってもよい。

【0043】

なお、本実施形態では、特徴量選択部１０３は、サンプル空間主成分Ｐの分布の歪みを当該分布の正規分布からのずれとして判定する場合の一例について説明したが、これに限られない。特徴量選択部１０３は、サンプル空間主成分Ｐの分布と、非対称な分布との類似度に基づいて判定を行ってもよい。その場合、特徴量選択部１０３は、サンプル空間主成分Ｐの分布と、非対称な分布とが類似していない場合に、当該サンプル空間主成分Ｐの分布には、歪みがないと判定する。非対称な分布とは、例えば、中心値について線対称でない分布である。

【0044】

特徴量選択部１０３は、サンプル空間主成分Ｐの分布の歪みの判定結果を特徴量選択部１０３に供給する。ここで図３に示す特徴量選択処理では、一例として、サンプル空間主成分Ｐのうち第１主成分から第Ｎ主成分まで歪みがあると判定されたものとする。つまり、サンプル空間主成分Ｐのうち第Ｎ＋１主成分以降の主成分は歪みがないと判定されたものとする。

【0045】

ステップＳ１３０：特徴量選択部１０３は、特徴量選択部１０３から供給されるサンプル空間主成分Ｐと、特徴量選択部１０３から供給される判定結果とに基づいて、特徴量データＤに含まれる複数の特徴量のなかから特徴量を選択する。ここで特徴量選択部１０３は、サンプル空間主成分Ｐの分布について歪みがないと判定されたサンプル空間主成分Ｐについてサンプル空間の原点からの距離が大きい特徴量を選択する。

【0046】

特徴量選択部１０３は、分布の歪みがないと判定された第Ｎ＋１主成分から第Ｎ＋Ｋ主成分までのＫ個の成分を用いて、サンプル空間の原点からの距離が大きい特徴量を選択する。換言すれば、特徴量選択部１０３は、サンプル空間のうち第Ｎ＋１主成分から第Ｎ＋Ｋ主成分までに対応するＫ次元の部分空間において原点からの距離が所定の距離より大きい特徴量を選択する。ここで特徴量選択部１０３は、サンプル空間の原点からの距離が大きい順にＭ個の特徴量を選択する。

【0047】

Ｋは、０以上の整数である。Ｍは１以上の整数である。Ｋ及びＭの値は、特徴量データ供給部２０から特徴量データＤとともにサブクラスタ抽出装置１０に供給される。Ｋ及びＭの値は、例えば、ユーザによって指定された値が特徴量データ供給部２０から供給される。なお、特徴量選択部１０３は、Ｋ及びＭの値として、例えば、サブクラスタ抽出システム１が適用される分野に応じて、特徴量に想定されるクラスタ構造などに基づいた所定の値を用いてもよい。

【0048】

なお、特徴量の原点からの距離とは、例えば、ユークリッド距離である。なお、特徴量の原点からの距離として、ユークリッド距離以外の距離が用いられてもよい。
なお、特徴量選択部１０３は、選択する特徴量の数を予め上限を設けずに、サンプル空間の原点からの距離が所定の距離より大きい特徴量を選択してもよい。

【0049】

ここで、サンプル空間において原点からの距離が小さい特徴量は、サンプルのクラスタ分離に寄与せずノイズに相当する特徴量であると考えられる。当該特徴量の分布は正規分布に従う傾向がある。サブクラスタ抽出装置１０では、サンプル空間主成分Ｐに基づいて、原点からの距離が大きい特徴量を選択することによって特徴量データＤからノイズに相当する特徴量を除去する。

【0050】

特徴量選択部１０３は、選択したＭ個の特徴量を示す特徴量選択結果をクラスタリング部１０４に供給する。

【0051】

上述したように、特徴量選択部１０３は、特徴量データＤに対して、特徴量の複数のサンプルそれぞれについての値の組の複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、主成分分析の結果に基づいて複数の特徴量のなかから特徴量を選択する。

【0052】

なお、図３に示した特徴量選択処理では、特徴量選択部１０３が、サンプル空間主成分Ｐのうち分布の歪みがないと判定された主成分に基づいて特徴量の選択を行う場合の一例について説明したが、これに限られない。例えば、特徴量選択部１０３は、サンプル空間主成分Ｐのなかから第１主成分から所定の数だけの主成分を除いてもよい。つまり、本実施形態では、上述した数Ｎがサンプル空間主成分Ｐのうち分布の歪みに基づいて決定されたが、当該数Ｎとして予め決定された数が用いられてもよい。

【0053】

なお、図３に示した特徴量選択処理では、サンプル空間における主成分分析に基づいて特徴量データＤに含まれるサンプル全体に共通する特徴量を除去する場合の一例について説明したが、これに限られない。特徴量選択部１０３は、特徴量選択処理として、例えば、非特許文献１に記載の特徴量選択の方法を用いて、特徴量の統計量に基づいて特徴量を除去してもよい。また、特徴量選択部１０３は、特徴量選択処理として、例えば、非特許文献２に記載の特徴量選択の方法を用いて、特徴量のスパース性に基づいて特徴量を除去してもよい。

【0054】

また、特徴量選択部１０３は、特徴量選択処理において、特徴量データＤに含まれるサンプル全体に共通するパターンをもつ特徴量として、特徴量データＤに含まれる特徴量のうち少なくとも１つの特徴量を除去すればよい。例えば、特徴量選択部１０３は、任意の１以上の特徴量について、特徴量データＤに含まれるサンプルについての分散などの統計量が所定値以下である特徴量を除去してもよい。

【0055】

図２に戻ってサブクラスタ抽出処理の説明を続ける。
ステップＳ５０：クラスタリング部１０４は、特徴量選択部１０３によって選択されたＭ個の特徴量に基づいてサンプルを複数のクラスタに分類する。クラスタリング部１０４は、公知のクラスタリング方法に基づいてクラスタリング処理を行う。公知のクラスタリング方法としては、階層的クラスタリング手法、非階層的クラスタリング手法のいずれが用いられてもよい。

【0056】

ステップＳ６０：サブグループ選択部１０５は、クラスタリング部１０４によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する。これによってサブグループ選択部１０５は、特徴量データＤに含まれる全サンプル集合から部分集合（サブグループ）を選択する。サブグループ選択部１０５は、複数のサブグループを選択してもよい。

【0057】

本実施形態では、サブグループ選択部１０５は、所定の特徴量に基づいて複数のクラスタのなかからクラスタをサブグループとして選択する。例えば、サブグループ選択部１０５は、１以上の所定の特徴量に対応したクラスタを１以上選択する。１以上の所定の特徴量は、ユーザが関心のある１以上の特徴量を予め指定することによって設定される。

【0058】

サブグループ選択部１０５は、例えば、１以上の所定の特徴量に対応したクラスタを、各クラスタについて１以上の所定の特徴量それぞれの統計量を算出し、算出した統計量それぞれが基準値よりも大きな値をもつクラスタを選択する。統計量とは、例えば、平均値である。基準値は、１以上の所定の特徴量毎に定められる。以下の説明において、所定の特徴量を、マーカー特徴量ともいう。

【0059】

なお、サブグループ選択部１０５は、クラスタリング部１０４によって分類された複数のクラスタのなかからサブグループを恣意的に選択してもよい。サブグループを恣意的に選択するとは、例えば、複数のクラスタのなかからランダムに選択することが含まれる。
また、サブグループ選択部１０５は、ユーザによって指定されるサブグループを選択してもよい。

【0060】

ステップＳ７０：繰り返し部１０６は、終了条件が満たされたか否かを判定する。ここで終了条件とは、例えば、サブクラスタ抽出処理を開始してからステップＳ１０からステップＳ６０までの処理を繰り返した回数である繰り返し回数が、所定の回数以上となることである。当該所定の回数は、２以上の数である。当該所定の回数は、ユーザによって予め指定されてもよいし、サブクラスタ抽出装置１０に予め記憶されていてもよい。
ここでステップＳ１０からステップ６０までの処理を繰り返し処理という。繰り返し処理は、サブクラスタ抽出処理において、繰り返し実行される処理の単位となる。

【0061】

また、終了条件は、所定の数値が閾値以下となることであってもよい。例えば、終了条件は、ステップＳ６０の処理が終了した時点における特徴量データＤに含まれる特徴量の数が閾値以下となることであってもよい。

【0062】

繰り返し部１０６は、終了条件が満たされたと判定した場合（ステップＳ７０；ＹＥＳ）、サブクラスタ抽出装置１０は、ステップＳ８０の処理を実行する。
一方、繰り返し部１０６は、終了条件が満たされていないと判定した場合（ステップＳ７０；ＮＯ）、サブグループ選択処理において選択された１以上のサブグループに含まれるサンプルを、新たなサンプルの全体として、繰り返し処理を実行する。つまり、繰り返し部１０６は、ステップＳ１０からステップＳ６０までの処理それぞれを、特徴量データ取得部１００、前処理部１０１、数値特徴量化正規化部１０２、特徴量選択部１０３、クラスタリング部１０４、サブグループ選択部１０５それぞれに再度実行させる。

【0063】

ここで繰り返し部１０６は、最後に実行されたサブグループ選択処理（ステップＳ６０）において選択された１以上のサブグループに含まれるサンプルについての特徴量データを、新たな特徴量データＤとして特徴量データ取得部１００に供給する。

【0064】

繰り返し部１０６は、新たな特徴量データＤに含まれる特徴量を以下のように選択する。繰り返し部１０６は、例えば、最後に実行された特徴量選択処理（ステップＳ３０）によって選択された特徴量を、新たな特徴量データＤに含ませる。
また、繰り返し部１０６は、例えば、特徴量選択処理以外の選択方法によって選択した特徴量を、新たな特徴量データＤに含ませてもよい。特徴量選択処理以外の選択方法として、例えば、フィルター法やラッパー法などの公知の特徴量選択の方法が用いられてよい。
また、繰り返し部１０６は、特徴量の数を削減することなく、現在の特徴量データＤに含まれる特徴量をそのまま新たな特徴量データＤに含ませてもよい。

【0065】

繰り返し部１０６は、繰り返し処理を終了条件が満たされるまで繰り返し実行する。つまり、繰り返し部１０６は、サブグループ選択部１０５によって選択されたサブグループに含まれるサンプルについて特徴量データ取得部１００に特徴量データ取得処理を実行させ、特徴量選択処理を特徴量選択部１０３に実行させ、クラスタリング処理をクラスタリング部１０４に実行させ、サブグループ選択処理をサブグループ選択部１０５に実行させる処理を繰り返し実行する。

【0066】

ステップＳ８０：出力部１０７は、サブグループ抽出結果Ｒを提示部３０に出力する。出力部１０７は、最後に実行されたクラスタリング処理（ステップＳ５０）において得られた１以上のクラスタを示す情報をサブグループ抽出結果Ｒとして出力する。
以上で、サブクラスタ抽出装置１０は、サブクラスタ抽出処理を終了する。

【0067】

なお、図２に示したサブクラスタ抽出処理において、前処理（ステップＳ２０）、数値特徴量化及び正規化の処理（ステップＳ３０）は、特徴量データＤに含まれる特徴量の値、及びまたは種類に応じてそれぞれ省略されてよい。
その場合、特徴量データＤに含まれる特徴量の値、及びまたは種類に応じて、図１に示したサブクラスタ抽出装置１０の構成から前処理部１０１、数値特徴量化正規化部１０２はそれぞれ省略されてよい。

【0068】

なお、図２に示したサブクラスタ抽出処理において、１回目の繰り返し処理においては、特徴量データＤに含まれるサンプルをクラスタに分ける情報が与えられている場合には、クラスタリング処理（ステップＳ５０）は省略されてよい。例えば、特徴量データＤにサンプル毎にクラスタを示す情報（ラベルなど）が始めから含まれている場合、クラスタリング処理（ステップＳ５０）が実行されなくても、特徴量データＤに含まれるサンプルは既に複数のクラスタに分類されているため、クラスタリング処理（ステップＳ５０）は省略されてよい。
２回目以降の繰り返し処理においては、最後に実行されたサブグループ選択処理（ステップＳ６０）において選択されたサブグループに含まれるサンプルをさらにクラスタに分類するため、クラスタリング処理が必要とされる。

【0069】

以下では、本実施形態に係るサブクラスタ抽出システム１を適用した実施例について説明する。
［第１実施例］
第１実施例では、特徴量データＤとして人工的に生成したデータである人工データＤ１を用いる。図４は、本実施例に係る特徴量データＤである人工データＤ１の一例を示す図である。人工データＤ１には、１５００個のサンプルそれぞれに対する４６００個の特徴量の値が格納されている。人工データＤ１では、６つのクラスタ構造を想定して特徴量の分布に粗密が与えられている。密な部分は、図４に示すように、１番目から７００番目の特徴量の範囲に複数の長方形として与えられている。当該複数の長方形以外の部分である密な部分以外の部分には、バックグラウンドノイズが与えられている。

【0070】

図５は、本実施例に係る人工データＤ１の密な部分の一例を示す図である。図５には、図４に示す人工データＤ１のうち１番目から７００番目の特徴量の範囲が拡大されて示されている。図５では、本実施例において想定している（真の）クラスタの境界が破線を用いて示されている。以下の説明では、当該クラスタを、サンプルの番号について小さい順に「ラベル１」、「ラベル２」、・・・、「ラベル６」という。サブクラスタ抽出装置１０によって抽出されるクラスタと区別するために、真のクラスタに対しラベルという名称を用いる。同一ラベル内の各サンプルには共通の疎密パターンが与えられていることがわかる。

【0071】

以下、本実施例のサブクラスタ抽出装置１０によるサブクラスタ抽出処理の詳細について、上述した図２の処理と対応づけながら説明する。
ステップＳ１０の特徴量データ取得処理では、特徴量データ取得部１００は、特徴量データＤとして、上述した人工データＤ１を取得する。
ステップＳ２０の前処理については、人工データＤ１には特徴量の欠損がないため省略される。

【0072】

ステップＳ３０の数値特徴量化、及び正規化の処理では、本実施例の人工データＤ１に含まれる特徴量は全て数値特徴量であるため、数値特徴量化は必要としない。数値特徴量化正規化部１０２は、正規化の処理によって、特徴量の値について平均値が０、標準偏差が１となるように特徴量の値を変換する。

【0073】

ステップＳ４０の特徴量選択処理では、特徴量選択部１０３は、サンプル空間における主成分分析に基づいて、２００個の特徴量を選択する。

【0074】

ステップＳ５０のクラスタリング処理では、特徴量選択処理によって選択された２００個の特徴量についてクラスタリングが行われた。クラスタリング部１０４は、クラスタリング処理として、特徴量空間に対する主成分分析によって得られた主成分に対するＬｏｕｖａｉｎ法に基づいてクラスタリングを行った。クラスタリング処理の結果、５個のクラスタが得られた。なお、Ｌｏｕｖａｉｎ法では、得られるクラスタの数はアルゴリズム中で自動的に決まる。

【0075】

クラスタリング結果を可視化した結果を図６に示す。図６では、主成分に対する特徴量空間上での２次元教師なし次元削減（ＵＭＡＰ）を適用した結果の各サンプルに対応するプロットが示されている。図６では、当該次元削減によって得られる２次元平面上に、当該プロットを示すマーカーの種類をＬｏｕｖａｉｎ法のクラスタに対応させることで、クラスタリング結果を可視化している。

【0076】

また、図７に、図６に用いているマーカーをラベル（真のクラスタ）に変更した場合のプロットを示す。図６と図７とを比較すると、図７における「ラベル５」と「ラベル６」とにそれぞれ対応するプロットが、図６ではＬｏｕｖａｉｎ法によって「Ｃｌｕｓｔｅｒ４」として一つのクラスタとなっている。したがって「Ｃｌｕｓｔｅｒ４」の下にさらに階層的にクラスタ構造があるとみなせる。１回目のサブクラスタ抽出処理では、当該クラスタ構造を抽出できていないことがわかる。

【0077】

ステップＳ６０のサブグループ選択処理では、サブグループ選択部１０５は、まずマーカー特徴量を選択する。マーカー特徴量は、ユーザが関心のある特徴量として予め指定される。本実施例では２００個の特徴量のうち１５７番目の特徴量がマーカー特徴量として選択されたものとする。サブグループ選択部１０５は、各クラスタ内におけるマーカー特徴量の平均値を計算し、その平均値が０．３以上となる「Ｃｌｕｓｔｅｒ４」に属する３００サンプルをサブグループとして選択する。

【0078】

繰り返し部１０６は、ステップＳ１０からステップ６０までの処理である繰り返し処理を再度実行する。繰り返し部１０６は、１回目の繰り返し処理において選択された「Ｃｌｕｓｔｅｒ４」に属する３００サンプルについての人工データＤ１を、新たな特徴量データＤとして特徴量データ取得部１００に供給する。ここで繰り返し部１０６は、サブクラスタ抽出処理を開始する前の元々の人工データＤ１に含まれる全ての特徴量を新たな特徴量データＤに含ませる。

【0079】

２回目の繰り返し処理においても、ステップＳ２０の前処理は不要であるため省略される。
ステップＳ３０の数値特徴量化、及び正規化の処理では、数値特徴量化正規化部１０２は、１回目の繰り返し処理と同様に、正規化の処理によって、特徴量の値について平均値が０、標準偏差が１となるように特徴量の値を変換する。
ステップＳ４０の特徴量選択処理では、特徴量選択部１０３は、サンプル空間における主成分分析に基づいて、３００個の特徴量を選択した。

【0080】

２回目の繰り返し処理におけるクラスタリング処理（ステップＳ５０）によるクラスタリング結果を可視化した結果を図８に示す。凡例の数字はＬｏｕｖａｉｎ法によるクラスタ番号を表す。１回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果を示す図６では、「Ｃｌｕｓｔｅｒ４」として一つの塊になっていたサンプル群が、図８においては２つのクラスタに分かれている。１回目の繰り返し処理では得られなかった深い階層のクラスタ構造が得られていることが確認できる。

【0081】

また、図９に、図８に用いているマーカーをラベル（真のクラスタ）に変更した場合のプロットを示す。凡例の数字はラベル番号を表す。図９より「ラベル５」と「ラベル６」が、Ｌｏｕｖａｉｎ法によって互いに異なるクラスタとして捉えられていることがわかる。

【0082】

［第２実施例］
第２実施例では、特徴量データＤとして、非特許文献３にて公開されているヒトの遺伝子発現データＤ２を用いる。遺伝子発現データＤ２には、４２９６個のサンプルそれぞれに対する６７１３個の特徴量の値が格納されている。

【0083】

遺伝子発現データとは、各特徴量がそれぞれ特定の（シングル）遺伝子の発現量となっているデータである。遺伝子発現データでは、サンプルは細胞に対応する。遺伝子発現データでは、サンプル群は異常細胞群と、正常細胞群とに分類され、異常細胞群に特異的に発現量が多い、あるいは少ない遺伝子を発見するための研究において用いられる。

【0084】

以下、本実施例のサブクラスタ抽出装置１０によるサブクラスタ抽出処理の詳細について、上述した図２の処理と対応づけながら説明する。
ステップＳ１０の特徴量データ取得処理では、特徴量データ取得部１００は、特徴量データＤとして、上述した遺伝子発現データＤ２を取得する。

【0085】

ステップＳ２０の前処理では、前処理部１０１は、遺伝子発現データＤ２に含まれる６７１３個の特徴量に対して前処理を行う。ステップＳ２０の前処理では、Ｓｅｕｒａｔで提供されている前処理関数ＦｉｎｄＶａｒｉａｂｌｅＦｅａｔｕｒｅｓを適用した。前処理部１０１は、前処理によって、遺伝子発現データＤ２に含まれる６７１３個の特徴量を２０００個の特徴量に削減する。

【0086】

【0087】

ステップＳ４０の特徴量選択処理では、特徴量選択部１０３は、サンプル空間における主成分分析に基づいて、２００個の特徴量を選択する。

【0088】

ステップＳ５０のクラスタリング処理では、特徴量選択処理によって選択された２００個の特徴量についてクラスタリングが行われた。クラスタリング部１０４は、クラスタリング処理として、特徴量空間に対する主成分分析によって得られた主成分に対するＬｏｕｖａｉｎ法に基づいてクラスタリングを行った。クラスタリング処理の結果、１０個のクラスタが得られた。なお、上述したように、Ｌｏｕｖａｉｎ法では、得られるクラスタの数はアルゴリズム中で自動的に決まる。

【0089】

クラスタリング結果を可視化した結果を図１０に示す。図１０では、主成分に対する特徴量空間上での２次元教師なし次元削減（ＵＭＡＰ）を適用した結果の各サンプルに対応するプロットが示されている。図１０では、当該次元削減によって得られる２次元平面上に、当該プロットを示すマーカーの種類をＬｏｕｖａｉｎ法のクラスタに対応させることで、クラスタリング結果を可視化している。

【0090】

ステップＳ６０のサブグループ選択処理では、サブグループ選択部１０５は、まずマーカー特徴量を選択する。マーカー特徴量は、ユーザが関心のある特徴量として予め指定される。本実施例では２００個の特徴量のうち特徴量（遺伝子）「ＰＳＡＰ」がマーカー特徴量として選択されたものとする。サブグループ選択部１０５は、各クラスタ内におけるマーカー特徴量の平均値を計算し、その平均値が０．３以上となるクラスタ「２，４，６，７」に属するサンプルをサブグループとして選択する。

【0091】

繰り返し部１０６は、ステップＳ１０からステップ６０までの処理である繰り返し処理を再度実行する。繰り返し部１０６は、１回目の繰り返し処理において選択されたクラスタ「２，４，６，７」に属するサンプルについての遺伝子発現データＤ２を、新たな特徴量データＤとして特徴量データ取得部１００に供給する。ここで繰り返し部１０６は、サブクラスタ抽出処理を開始する前の元々の遺伝子発現データＤ２に含まれる全ての特徴量を新たな特徴量データＤに含ませる。

【0092】

ステップＳ３０の数値特徴量化、及び正規化の処理では、数値特徴量化正規化部１０２は、１回目の繰り返し処理と同様に、正規化の処理によって、特徴量の値について平均値が０、標準偏差が１となるように特徴量の値を変換する。
ステップＳ４０の特徴量選択処理では、特徴量選択部１０３は、サンプル空間における主成分分析に基づいて、２００個の特徴量を選択した。

【0093】

２回目の繰り返し処理におけるクラスタリング処理（ステップＳ５０）によるクラスタリング結果を可視化した結果を図１１に示す。凡例の数字はＬｏｕｖａｉｎ法によるクラスタ番号を表す。１回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果を示す図１０では、クラスタ「２，４，６，７」として一つの塊になっていたサンプル群が、図１１においては５つのクラスタに分かれている。１回目の繰り返し処理では得られなかった深い階層のクラスタ構造が得られていることが確認できる。

【0094】

［第３実施例］
第３実施例では、特徴量データＤとして、非特許文献４にて公開されている全ゲノムシークエンスによるジェノタイプデータＤ３を用いる。ジェノタイプデータＤ３には、２５００個のサンプルそれぞれに対する２０００万個の特徴量の値が格納されている。

【0095】

ジェノタイプデータとは、各遺伝子座の塩基の参照ゲノムとの相違を表すデータである。ジェノタイプデータは、サンプル（一例として、ヒト）を疾患群と、非疾患群とに分類し、疾患群に特異に現れる遺伝子変異を発見するための研究において用いられる。本実施例で用いるジェノタイプデータＤ３は、疾患に関わる２群に対するデータではなく、本実施例では、教師なし次元削減の結果に対する先祖の遺伝的由来に着目した解析を行う。

【0096】

以下、本実施例のサブクラスタ抽出装置１０によるサブクラスタ抽出処理の詳細について、上述した図２の処理と対応づけながら説明する。
ステップＳ１０の特徴量データ取得処理では、特徴量データ取得部１００は、特徴量データＤとして、上述したジェノタイプデータＤ３を取得する。

【0097】

ステップＳ２０の前処理では、前処理部１０１は、ジェノタイプデータＤ３に含まれる２０００万個の特徴量に対して前処理を行う。ここで前処理部１０１は、２０パーセント以上のサンプルに欠損がある特徴量を除去する。前処理部１０１は、２０パーセント以上の特徴量に欠損があるサンプルを除去する。前処理部１０１は、２パーセント以上のサンプルに欠損がある特徴量を除去する。前処理部１０１は、２パーセント以上の特徴量に欠損があるサンプルを除去する。前処理部１０１は、マイナーアレル頻度が５パーセント以下の特徴量を除去する。

【0098】

ステップＳ３０の数値特徴量化、及び正規化の処理では、ジェノタイプデータＤ３に含まれる特徴量は全てジェノタイプと呼ばれるカテゴリカル特徴量であるため、数値特徴量化正規化部１０２は、ラベルエンコーディングを用いてカテゴリカル特徴量から数値特徴量への変換を行う。なお、本実施例では、特徴量の値の正規化は行われない。

【0099】

ステップＳ４０の特徴量選択処理では、特徴量選択部１０３は、サンプル空間における主成分分析に基づいて、５００００個の特徴量を選択する。
ステップＳ５０のクラスタリング処理は、本実施例では省略される。

【0100】

クラスタリング結果を可視化した結果を図１２に示す。図１２では、主成分に対する特徴量空間上での２次元教師なし次元削減を適用した結果の各サンプルに対応するプロットが示されている。図１２では、当該次元削減によって得られる２次元平面上に、人種を示すマーカーを用いてクラスタリング結果を可視化している。ここで各マーカーの色がヨーロッパ系等のＰｏｐｕｌａｔｉｏｎを示し、マーカーの形状がその内部のＳｕｂｐｏｐｕｌａｔｉｏｎを示す。なお、上述した実施例１、２とは異なり本実施例ではマーカーの色・形状に元々のデータセットであるジェノタイプデータＤ３で与えられている情報を用いている。
図１２に示すように、Ｐｏｐｕｌａｔｉｏｎごとにプロットがクラスタを形成しており、サンプルの特徴を捉えた２次元空間が得られていることがわかる。

【0101】

ステップＳ６０のサブグループ選択処理では、サブグループ選択部１０５は、図１２の左上のＡＦＲ（アフリカ系、橙色）のサブグループＣＬ１を選択する。

【0102】

繰り返し部１０６は、ステップＳ１０からステップ６０までの処理である繰り返し処理を再度実行する。繰り返し部１０６は、１回目の繰り返し処理において選択されたサブグループＣＬ１に属するサンプルについてのジェノタイプデータＤ３を、新たな特徴量データＤとして特徴量データ取得部１００に供給する。ここで繰り返し部１０６は、特徴量選択処理（ステップＳ４０）において選択された特徴量のみを新たな特徴量データＤに含ませる。

【0103】

２回目の繰り返し処理では、ステップＳ３０の数値特徴量化、及び正規化の処理では、省略される。
ステップＳ４０の特徴量選択処理では、特徴量選択部１０３は、サンプル空間における主成分分析に基づいて、５０個の特徴量を選択した。

【0104】

２回目の繰り返し処理におけるクラスタリング処理（ステップＳ５０）によるクラスタリング結果を可視化した結果を図１３に示す。マーカーの形状は、各サブクラスタを示す。
１回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果を示す図１２では、サブグループＣＬ１として一つの塊になっていたサンプル群が、図１３においては５つのクラスタに分かれている。１回目の繰り返し処理では得られなかった深い階層のクラスタ構造が得られていることが確認できる。

【0105】

［まとめ］
以上に説明したように、本実施形態に係るサブクラスタ抽出装置１０は、特徴量データ取得部１００と、特徴量選択部１０３と、クラスタリング部１０４と、サブグループ選択部１０５と、繰り返し部１０６とを備える。
特徴量データ取得部１００は、サンプルに対する複数の特徴量の値の組を複数のサンプル毎に含む特徴量データＤを取得する処理である特徴量データ取得処理を実行する。
特徴量選択部１０３は、特徴量データ取得部１００によって取得された特徴量データＤに含まれる複数の特徴量のなから特徴量を選択する処理である特徴量選択処理を実行する。
クラスタリング部１０４は、特徴量選択部１０３によって選択された特徴量に基づいてサンプルを複数のクラスタに分類する処理であるクラスタリング処理を実行する。
サブグループ選択部１０５は、クラスタリング部１０４によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する処理であるサブグループ選択処理を実行する。
繰り返し部１０６と、サブグループ選択部１０５によって選択されたサブグループに含まれるサンプルについて特徴量データ取得部１００に特徴量データ取得処理を実行させ、特徴量選択処理を特徴量選択部１０３に実行させ、クラスタリング処理をクラスタリング部１０４に実行させ、サブグループ選択処理をサブグループ選択部１０５に実行させる処理（本実施形態において、繰り返し処理）を繰り返し実行する。

【0106】

この構成により、本実施形態に係るサブクラスタ抽出装置１０は、複数のサンプルの全体に共通して働く特徴量を除去し、サブクラスタ群のもととなるサブグループを特定できるため、階層的なクラスタ構造を抽出できる。階層的なクラスタ構造を、深い階層にあるクラスタ構造ともいう。

【0107】

また、本実施形態に係るサブクラスタ抽出装置１０では、特徴量選択部１０３は、特徴量データに対して、特徴量の複数のサンプルそれぞれについての値の組の複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、主成分分析の結果に基づいて複数の特徴量のなから特徴量を選択する。

【0108】

この構成により、本実施形態に係るサブクラスタ抽出装置１０は、サンプル空間における主成分分析の結果に基づいてノイズとなる特徴量を除去して主要な特徴量を選択できるため、複数のサンプルの全体に共通して働く特徴量を除去する際にサンプル空間における主成分分析を用いない場合に比べて効率よくノイズとなる特徴量を除去できる。

【0109】

また、本実施形態に係るサブクラスタ抽出装置１０では、サブグループ選択部１０５は、所定の特徴量（マーカー特徴量）に基づいて複数のクラスタのなかからクラスタをサブグループとして選択する。

【0110】

この構成により、本実施形態に係るサブクラスタ抽出装置１０は、所定の特徴量（マーカー特徴量）に基づいてサブクラスタを抽出できるため、所定の特徴量（マーカー特徴量）が働いているサブグループを検出できる。

【0111】

なお、上述した実施形態におけるサブクラスタ抽出装置１０の一部、例えば、特徴量データ取得部１００、前処理部１０１、数値特徴量化正規化部１０２、特徴量選択部１０３、クラスタリング部１０４、サブグループ選択部１０５、繰り返し部１０６、及び出力部１０７をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、サブクラスタ抽出装置１０に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態におけるサブクラスタ抽出装置１０の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。サブクラスタ抽出装置１０の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

【0112】

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

【符号の説明】

【0113】

１０…サブクラスタ抽出装置、１００…特徴量データ取得部、１０３…特徴量選択部、１０４…クラスタリング部、１０５…サブグループ選択部、１０６…繰り返し部、Ｄ…特徴量データ

【図1】