(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-29
(45)【発行日】2024-12-09
(54)【発明の名称】サブクラスタ抽出装置、サブクラスタ抽出方法、及びプログラム
(51)【国際特許分類】
G06F 18/231 20230101AFI20241202BHJP
G06F 17/18 20060101ALI20241202BHJP
G06F 16/906 20190101ALI20241202BHJP
G06N 20/00 20190101ALI20241202BHJP
【FI】
G06F18/231
G06F17/18 Z
G06F16/906
G06N20/00 160
(21)【出願番号】P 2021109128
(22)【出願日】2021-06-30
【審査請求日】2023-11-14
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100106909
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(72)【発明者】
【氏名】櫻井 鉄也
(72)【発明者】
【氏名】二村 保徳
(72)【発明者】
【氏名】城取 萌望
【審査官】宮司 卓佳
(56)【参考文献】
【文献】特開2006-098155(JP,A)
【文献】特開平11-203415(JP,A)
【文献】国際公開第2010/016109(WO,A1)
【文献】特開平09-265529(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/231
G06F 17/18
G06F 16/906
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する処理である特徴量データ取得処理を実行する特徴量データ取得部と、
前記特徴量データ取得部によって取得された前記特徴量データ
に対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数
の特徴量のなかから特徴量を選択する処理である特徴量選択処理を実行する特徴量選択部と、
前記特徴量選択部によって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類する処理であるクラスタリング処理を実行するクラスタリング部と、
前記クラスタリング部によって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択する処理であるサブグループ選択処理を実行するサブグループ選択部と、
前記サブグループ選択部によって選択された前記サブグループに含まれるサンプルについて前記特徴量データ取得部に前記特徴量データ取得処理を実行させ、前記特徴量選択処理を前記特徴量選択部に実行させ、前記クラスタリング処理を前記クラスタリング部に実行させ、前記サブグループ選択処理を前記サブグループ選択部に実行させる処理を繰り返し実行する繰り返し部と、
を備えるサブクラスタ抽出装置。
【請求項2】
前記サブグループ選択部は、所定の特徴量に基づいて前記複数のクラスタのなかからクラスタをサブグループとして選択する
請求項
1に記載のサブクラスタ抽出装置。
【請求項3】
サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、
前記特徴量データ取得ステップによって取得された前記特徴量データ
に対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数
の特徴量のなかから特徴量を選択する特徴量選択ステップと、
前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、
前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、
前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、
を
コンピュータが実行するサブクラスタ抽出方法。
【請求項4】
コンピュータに、
サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、
前記特徴量データ取得ステップによって取得された前記特徴量データ
に対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数
の特徴量のなかから特徴量を選択する特徴量選択ステップと、
前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、
前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、
前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サブクラスタ抽出装置、サブクラスタ抽出方法、及びプログラムに関する。
【背景技術】
【0002】
医療系、生命系のデータ解析を始め、様々なデータ解析では、データの背景にあるクラスタ構造の抽出を目的とするクラスタ解析が重要な役割を果たす。実データにおいては、背景に階層的なクラスタ構造があることが想定されるが、深い階層にあるクラスタ構造は、特徴量全体を用いた通常のクラスタ解析では発見が困難である。
【0003】
近年の測定装置の発展により得られるようになったシングルセル遺伝子発現データなどの高次元データにおいては、サンプル間のばらつきや状態変化周期による大きな変動が同じクラスタ内においても現れる場合がある。このような性質をもつデータに対しては、従来の統計的な検定に基づくクラスタ解析では十分な性能が得られない。
【0004】
また、サンプル集団全体に共通したパターンをもつ特徴量を除去して特徴量を選択することが階層的なクラスタ構造の抽出に対して重要である。従来から広く用いられている特徴量選択の方法として、特徴量の統計量のみから特徴量を選択する方法が知られている(非特許文献1)。また、特徴量のスパース性を用いた特徴量選択の方法として、M3drop法が知られている(非特許文献2)。
【先行技術文献】
【非特許文献】
【0005】
【文献】「Computaional Biology」、2015年4月13日、33巻、5号、p.495-502
【文献】「Bioinformatics」、2018年12月24日、35巻、2019年16号、p.2865-2867
【文献】“Gene Expression Omnibus”、[online]、National Center for Biotechnology Information、[2021年4月16日検索]、インターネット〈URL:https://www.ncbi.nlm.nih.gov/geo/〉
【文献】“IGSR: The International Genome Sample Resource”、[online]、EMBL-EBI、[2021年4月16日検索]、インターネット〈URL: http://www.1000genomes.org〉
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1に記載されるような特徴量の統計量のみから特徴量を選択する方法では、クラスタ内の変動が考慮されていない。また、非特許文献2に記載されるようなM3drop法では、階層的なクラスタ構造は考慮されていない。階層的なクラスタ構造を抽出できることが求められている。
【0007】
本発明は上記の点に鑑みてなされたものであり、階層的なクラスタ構造を抽出できるサブクラスタ抽出装置、サブクラスタ抽出方法、及びプログラムを提供する。
【課題を解決するための手段】
【0008】
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する処理である特徴量データ取得処理を実行する特徴量データ取得部と、前記特徴量データ取得部によって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する処理である特徴量選択処理を実行する特徴量選択部と、前記特徴量選択部によって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類する処理であるクラスタリング処理を実行するクラスタリング部と、前記クラスタリング部によって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択する処理であるサブグループ選択処理を実行するサブグループ選択部と、前記サブグループ選択部によって選択された前記サブグループに含まれるサンプルについて前記特徴量データ取得部に前記特徴量データ取得処理を実行させ、前記特徴量選択処理を前記特徴量選択部に実行させ、前記クラスタリング処理を前記クラスタリング部に実行させ、前記サブグループ選択処理を前記サブグループ選択部に実行させる処理を繰り返し実行する繰り返し部と、を備えるサブクラスタ抽出装置である。
【0010】
また、本発明の一態様は、上記のサブクラスタ抽出装置において、前記サブグループ選択部は、所定の特徴量に基づいて前記複数のクラスタのなかからクラスタをサブグループとして選択する。
【0011】
また、本発明の一態様は、サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、前記特徴量データ取得ステップによって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する特徴量選択ステップと、前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、をコンピュータが実行するサブクラスタ抽出方法である。
【0012】
また、本発明の一態様は、コンピュータに、サンプルに対する複数の特徴量の値の組を複数の前記サンプル毎に含む特徴量データを取得する特徴量データ取得ステップと、前記特徴量データ取得ステップによって取得された前記特徴量データに対して、前記特徴量の前記複数の前記サンプルそれぞれについての値の組の前記複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、前記主成分分析の結果に基づいて前記特徴量データに含まれる前記複数の特徴量のなかから特徴量を選択する特徴量選択ステップと、前記特徴量選択ステップによって選択された前記特徴量に基づいて前記サンプルを複数のクラスタに分類するクラスタリングステップと、前記クラスタリングステップによって分類された前記複数のクラスタのなかからクラスタをサブグループとして選択するサブグループ選択ステップと、前記サブグループ選択ステップによって選択された前記サブグループに含まれるサンプルについての前記特徴量データ取得ステップ、前記特徴量選択ステップ、前記クラスタリングステップ、前記サブグループ選択ステップを繰り返し実行する繰り返しステップと、を実行させるためのプログラムである。
【発明の効果】
【0013】
本発明によれば、階層的なクラスタ構造を抽出できる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態に係るサブクラスタ抽出システムの構成の一例を示す図である。
【
図2】本発明の実施形態に係るサブクラスタ抽出処理の一例を示す図である。
【
図3】本発明の実施形態に係る特徴量選択処理の一例を示す図である。
【
図4】本発明の第1の実施例に係る特徴量データである人工データの一例を示す図である。
【
図5】本発明の第1の実施例に係る人工データの密な部分の一例を示す図である。
【
図6】本発明の第1の実施例に係るクラスタリング結果を可視化した結果の一例を示す図である。
【
図7】本発明の第1の実施例に係るクラスタリング結果を可視化した結果に用いたマーカーをラベル(真のクラスタ)に変更した場合のプロットの一例を示す図である。
【
図8】本発明の第1の実施例に係る2回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果の一例を示す図である。
【
図9】本発明の第1の実施例に係る2回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果に用いたマーカーをラベル(真のクラスタ)に変更した場合のプロットの一例を示す図である。
【
図10】本発明の第2の実施例に係るクラスタリング結果を可視化した結果の一例を示す図である。
【
図11】本発明の第2の実施例に係る2回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果の一例を示す図である。
【
図12】本発明の第3の実施例に係るクラスタリング結果を可視化した結果の一例を示す図である。
【
図13】本発明の第3の実施例に係る2回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果の一例を示す図である。
【発明を実施するための形態】
【0015】
(実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本実施形態に係るサブクラスタ抽出システム1の構成の一例を示す図である。サブクラスタ抽出システム1では、高次元特徴量データに対して、当該高次元特徴量データの背景にあるクラスタ構造の抽出を行う。サブクラスタ抽出システム1では、クラスタ構造の抽出の過程において、複数の特徴量のなかから特徴量の選択を行う。
【0016】
以下の説明では、あるクラスタに含まれる複数のサンプルがさらに複数のクラスタに分類された場合に、当該複数のクラスタをそれぞれサブクラスタという。サブクラスタに含まれるサンプル全体を、サブグループともいう。サブクラスタをサブグループともいう。
したがって、サブグループ(サブクラスタ)とは、複数のサンプルがクラスタに分類されて得られる複数のクラスタのうちの1以上について、当該クラスタに含まれるサンプルがさらにクラスタに分類されて得られる複数のクラスタそれぞれに含まれるサンプルの集合のそれぞれである。
【0017】
複数のサンプルをクラスタに分類することを、クラスタ構造を抽出するともいう。クラスタ構造を抽出することを、単にクラスタを抽出するともいう。
あるクラスタからサブクラスタが抽出される場合、当該あるクラスタは、階層的なクラスタ構造を有するともいう。
複数の特徴量のなかから特徴量を選択することを、特徴量の除去、特徴量選択などともいう。
【0018】
サブクラスタ抽出システム1では、特徴量の選択の過程において、高次元特徴量データに対してサンプル空間における主成分分析を行い、サンプルのクラスタ分離に寄与するサンプル空間主成分に基づいて、特徴量の選択を行う。従来の多変量解析では、特徴量空間に対して主成分分析などの解析が行う。これに対して、サブクラスタ抽出システム1では、サンプル空間において複数の特徴量間の関係性を捉えて特徴量の選択を行いながらサブクラスタの抽出を行う。
【0019】
サンプル空間とは、特徴量の複数のサンプルそれぞれについての値の組の複数の特徴量についての集まりである。サンプル空間は、例えば、複数のサンプルそれぞれに対応する次元を有する空間において、複数の特徴量に対応する点がプロットされて視覚化される。
なお、従来の解析に用いられる特徴量空間は、サンプルについての複数の特徴量の値の組の複数のサンプルについての集まりである。
【0020】
[サブクラスタ抽出システム1の機能構成]
サブクラスタ抽出システム1は、サブクラスタ抽出装置10と、特徴量データ供給部20と、提示部30とを備える。
特徴量データ供給部20は、サブクラスタ抽出装置10に対して高次元特徴量データを供給する。高次元特徴量データとは、サンプルに対する複数の特徴量の値の組を複数のサンプル毎に含むデータである。ここで特徴量の次元とは、特徴量の数を意味する。高次元とは、特徴量の数が所定数(例えば、数千)以上であることである。以下の説明では、高次元特徴量データを、単に特徴量データDという。なお、特徴量データDに含まれる特徴量の数は、所定数以下であってもよく、例えば、数個から数百であってもよい。
【0021】
特徴量データDは、例えば、サンプル毎に複数の特徴量の値が格納される行と列からなる2次元の配列の型のデータである。当該配列においては、例えば、行はサンプルに対応し、列が特徴量に対応する。したがって、特徴量データDにおいて、例えば、i行j列のセルには、i番目のサンプルのj番目の特徴量の値が格納される。特徴量は、カテゴリ変数として表される特徴量と、数値によって表される特徴量とのいずれであってもよい。以下、カテゴリ変数として表される特徴量を、カテゴリカルな特徴量ともいい、数値を用いて表される特徴量を数値特徴量ともいう。
【0022】
特徴量データ供給部20は、例えば、サーバなどの情報記憶装置であってもよいし、キーボードやタブレット、スキャナなどのヒューマンインタフェイス装置であってもよい。
【0023】
サブクラスタ抽出装置10は、特徴量データ取得部100と、前処理部101と、数値特徴量化正規化部102と、特徴量選択部103と、クラスタリング部104と、サブグループ選択部105と、繰り返し部106と、出力部107とを備える。サブクラスタ抽出装置10は、一例として、パーソナルコンピュータ(Personal Computer:PC)である。サブクラスタ抽出装置10が備える各機能部は、CPU(Central Processing Unit)がROM(Read Only Memory)からプログラムを読み込んで処理を実行することにより実現される。
【0024】
特徴量データ取得部100は、特徴量データ供給部20が供給する特徴量データDを取得する。特徴量データDを取得する処理を、特徴量データ取得処理という。
前処理部101は、特徴量データDに対して前処理を行う。前処理の具体例は後述する。
数値特徴量化正規化部102は、前処理が行われた特徴量データDについて、数値特徴量化、及び正規化の処理を行う。数値特徴量化、及び正規化の処理の具体例は後述する。
【0025】
特徴量選択部103は、特徴量データ取得部100によって取得された特徴量データDに含まれる複数の特徴量のなかから特徴量を選択する。本実施形態では、特徴量選択部103は、サンプル空間主成分に基づいて複数の特徴量のなかから特徴量を選択する。特徴量データDに含まれる複数の特徴量のなかから特徴量を選択する処理を、特徴量選択処理という。
【0026】
クラスタリング部104は、特徴量選択部103によって選択された特徴量に基づいてサンプルを複数のクラスタに分類する。特徴量選択部103によって選択された特徴量に基づいてサンプルを複数のクラスタに分類する処理を、クラスタリング処理という。
【0027】
サブグループ選択部105は、クラスタリング部104によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する。クラスタリング部104によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する処理を、サブグループ選択処理という。
【0028】
繰り返し部106は、サブグループ選択部105によって選択されたサブグループに含まれるサンプルについて特徴量データ取得部100に特徴量データ取得処理を実行させ、特徴量選択処理を特徴量選択部103に実行させ、クラスタリング処理をクラスタリング部104に実行させ、サブグループ選択処理をサブグループ選択部105に実行させる処理を繰り返し実行する。
【0029】
出力部107は、サブグループ抽出結果Rを提示部30に出力する。サブグループ抽出結果Rとは、サンプルのなかから選択されたサブグループを示す情報である。
【0030】
提示部30は、サブクラスタ抽出装置10に備えられる出力部107から出力されるサブグループ抽出結果Rを、表示や印字などの提示手段により提示する。提示部30は、例えばディスプレイやプリンタである。
なお、提示部30は、ネットワークサーバなどの記憶装置であってもよい。この場合には、提示部30は、出力部107から出力されるサブグループ抽出結果Rを記憶し、記憶したサブグループ抽出結果Rを他の装置に供給する。
【0031】
[サブクラスタ抽出装置10の動作]
次に
図2を参照し、サブクラスタ抽出装置10がサブクラスタを抽出する処理であるサブクラスタ抽出処理について説明する。
図2は、本実施形態に係るサブクラスタ抽出処理の一例を示す図である。
【0032】
ステップS10:特徴量データ取得部100は、特徴量データ供給部20が供給する特徴量データDを取得する。特徴量データ取得部100は、取得した特徴量データDを前処理部101に供給する。
【0033】
ステップS20:前処理部101は、特徴量データ取得部100から供給される特徴量データDに対して前処理を行う。ここで前処理部101は、特徴量データDに含まれるサンプルについて対応する特徴量の値が欠損している場合、欠損処理によって値を補間する。または、前処理部101は、特徴量データDに含まれるサンプルについて対応する特徴量の値が欠損している場合、当該サンプルを特徴量データDから除去する。これらの処理によって、特徴量データDは、特徴量の値について欠損のないデータとなる。
【0034】
また、前処理部101は、サブクラスタ抽出システム1が適用される分野に応じた特徴量削減法に基づいて、特徴量データDに含まれる特徴量の次元を減らす。例えばシングルセル遺伝子発現解析の分野であれば、Seuratで提供されている前処理関数FindVariableFeaturesを利用する。
前処理部101は、前処理を行った特徴量データDを数値特徴量化正規化部102に供給する。
【0035】
ステップS30:数値特徴量化正規化部102は、前処理が行われた特徴量データDについて、数値特徴量化、及び正規化の処理を行う。ここで数値特徴量化の処理において、数値特徴量化正規化部102は、前処理が行われた特徴量データDについて、カテゴリカルな特徴量を、数値特徴量に変換する。数値特徴量化正規化部102は、カテゴリカルな特徴量を数値特徴量に変換する処理に、例えば、ワンホットエンコーディングやラベルエンコーディングを用いる。また、数値特徴量化正規化部102は、特徴量データDについて正規化の処理を行う。
数値特徴量化正規化部102は、数値特徴量化、及び正規化の処理を行った特徴量データDを特徴量選択部103に供給する。
【0036】
ステップS40:特徴量選択部103は、数値特徴量化正規化部102から供給される特徴量データDに対して、特徴量選択処理を行う。特徴量選択部103は、特徴量選択処理によって、特徴量データDに含まれるサンプル全体に共通する特徴量を除去する。特徴量選択部103は、特徴量選択処理によって、M個の特徴量が残るようにサンプル全体に共通する特徴量を除去する。特徴量選択部103は、残ったM個の特徴量を選択する。M個とは、所定の個数であり、ユーザによって予め指定される。
【0037】
ここで
図3を参照し、特徴量選択処理の詳細について説明する。
図3は、本実施形態に係る特徴量選択処理の一例を示す図である。本実施形態では、特徴量選択部103は、一例として、サンプル空間における主成分分析に基づいて特徴量データDに含まれるサンプル全体に共通する特徴量を除去する。
図3に示すステップS110からステップS130の各処理は、
図2に示すステップS40の処理として実行される。
【0038】
以下の説明では、サンプル空間における主成分分析によって得られる主成分を、サンプル空間主成分Pという。サンプル空間主成分Pには、サンプル空間の次元の数だけの主成分が含まれ、それぞれ第1主成分、第2主成分、などという。
【0039】
ステップS110:特徴量選択部103は、数値特徴量化正規化部102から供給される特徴量データDに対してサンプル空間において主成分分析を行う。特徴量選択部103は、当該主成分分析の結果、サンプル空間主成分Pを生成する。
【0040】
ステップS120:特徴量選択部103は、特徴量選択部103から供給されるサンプル空間主成分Pについて、サンプル空間主成分Pの分布について歪みがあるか否かを判定する。特徴量選択部103は、サンプル空間主成分Pに含まれる主成分について第1主成分から順に当該判定を行う。
【0041】
本実施形態では、サンプル空間主成分Pの分布の歪みとは、一例として、当該分布の正規分布からのずれである。特徴量選択部103は、一例として、歪度に基づいて判定を行う。サンプル空間主成分Pの分布の正規分布からのずれを判定する。特徴量選択部103は、サンプル空間主成分Pの分布の歪度が、0から所定の値だけずれている場合、当該分布には歪みがあると判定する。
【0042】
特徴量選択部103は、歪度に代えて、尖度に基づいて判定を行ってもよい。特徴量選択部103は、算術平均や標準偏差に基づいて判定を行ってもよい。また、特徴量選択部103は、算術平均、標準偏差、歪度、尖度のうちいずれか1以上の組合せに基づいて判定を行ってもよい。
【0043】
なお、本実施形態では、特徴量選択部103は、サンプル空間主成分Pの分布の歪みを当該分布の正規分布からのずれとして判定する場合の一例について説明したが、これに限られない。特徴量選択部103は、サンプル空間主成分Pの分布と、非対称な分布との類似度に基づいて判定を行ってもよい。その場合、特徴量選択部103は、サンプル空間主成分Pの分布と、非対称な分布とが類似していない場合に、当該サンプル空間主成分Pの分布には、歪みがないと判定する。非対称な分布とは、例えば、中心値について線対称でない分布である。
【0044】
特徴量選択部103は、サンプル空間主成分Pの分布の歪みの判定結果を特徴量選択部103に供給する。ここで
図3に示す特徴量選択処理では、一例として、サンプル空間主成分Pのうち第1主成分から第N主成分まで歪みがあると判定されたものとする。つまり、サンプル空間主成分Pのうち第N+1主成分以降の主成分は歪みがないと判定されたものとする。
【0045】
ステップS130:特徴量選択部103は、特徴量選択部103から供給されるサンプル空間主成分Pと、特徴量選択部103から供給される判定結果とに基づいて、特徴量データDに含まれる複数の特徴量のなかから特徴量を選択する。ここで特徴量選択部103は、サンプル空間主成分Pの分布について歪みがないと判定されたサンプル空間主成分Pについてサンプル空間の原点からの距離が大きい特徴量を選択する。
【0046】
特徴量選択部103は、分布の歪みがないと判定された第N+1主成分から第N+K主成分までのK個の成分を用いて、サンプル空間の原点からの距離が大きい特徴量を選択する。換言すれば、特徴量選択部103は、サンプル空間のうち第N+1主成分から第N+K主成分までに対応するK次元の部分空間において原点からの距離が所定の距離より大きい特徴量を選択する。ここで特徴量選択部103は、サンプル空間の原点からの距離が大きい順にM個の特徴量を選択する。
【0047】
Kは、0以上の整数である。Mは1以上の整数である。K及びMの値は、特徴量データ供給部20から特徴量データDとともにサブクラスタ抽出装置10に供給される。K及びMの値は、例えば、ユーザによって指定された値が特徴量データ供給部20から供給される。なお、特徴量選択部103は、K及びMの値として、例えば、サブクラスタ抽出システム1が適用される分野に応じて、特徴量に想定されるクラスタ構造などに基づいた所定の値を用いてもよい。
【0048】
なお、特徴量の原点からの距離とは、例えば、ユークリッド距離である。なお、特徴量の原点からの距離として、ユークリッド距離以外の距離が用いられてもよい。
なお、特徴量選択部103は、選択する特徴量の数を予め上限を設けずに、サンプル空間の原点からの距離が所定の距離より大きい特徴量を選択してもよい。
【0049】
ここで、サンプル空間において原点からの距離が小さい特徴量は、サンプルのクラスタ分離に寄与せずノイズに相当する特徴量であると考えられる。当該特徴量の分布は正規分布に従う傾向がある。サブクラスタ抽出装置10では、サンプル空間主成分Pに基づいて、原点からの距離が大きい特徴量を選択することによって特徴量データDからノイズに相当する特徴量を除去する。
【0050】
特徴量選択部103は、選択したM個の特徴量を示す特徴量選択結果をクラスタリング部104に供給する。
【0051】
上述したように、特徴量選択部103は、特徴量データDに対して、特徴量の複数のサンプルそれぞれについての値の組の複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、主成分分析の結果に基づいて複数の特徴量のなかから特徴量を選択する。
【0052】
なお、
図3に示した特徴量選択処理では、特徴量選択部103が、サンプル空間主成分Pのうち分布の歪みがないと判定された主成分に基づいて特徴量の選択を行う場合の一例について説明したが、これに限られない。例えば、特徴量選択部103は、サンプル空間主成分Pのなかから第1主成分から所定の数だけの主成分を除いてもよい。つまり、本実施形態では、上述した数Nがサンプル空間主成分Pのうち分布の歪みに基づいて決定されたが、当該数Nとして予め決定された数が用いられてもよい。
【0053】
なお、
図3に示した特徴量選択処理では、サンプル空間における主成分分析に基づいて特徴量データDに含まれるサンプル全体に共通する特徴量を除去する場合の一例について説明したが、これに限られない。特徴量選択部103は、特徴量選択処理として、例えば、非特許文献1に記載の特徴量選択の方法を用いて、特徴量の統計量に基づいて特徴量を除去してもよい。また、特徴量選択部103は、特徴量選択処理として、例えば、非特許文献2に記載の特徴量選択の方法を用いて、特徴量のスパース性に基づいて特徴量を除去してもよい。
【0054】
また、特徴量選択部103は、特徴量選択処理において、特徴量データDに含まれるサンプル全体に共通するパターンをもつ特徴量として、特徴量データDに含まれる特徴量のうち少なくとも1つの特徴量を除去すればよい。例えば、特徴量選択部103は、任意の1以上の特徴量について、特徴量データDに含まれるサンプルについての分散などの統計量が所定値以下である特徴量を除去してもよい。
【0055】
図2に戻ってサブクラスタ抽出処理の説明を続ける。
ステップS50:クラスタリング部104は、特徴量選択部103によって選択されたM個の特徴量に基づいてサンプルを複数のクラスタに分類する。クラスタリング部104は、公知のクラスタリング方法に基づいてクラスタリング処理を行う。公知のクラスタリング方法としては、階層的クラスタリング手法、非階層的クラスタリング手法のいずれが用いられてもよい。
【0056】
ステップS60:サブグループ選択部105は、クラスタリング部104によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する。これによってサブグループ選択部105は、特徴量データDに含まれる全サンプル集合から部分集合(サブグループ)を選択する。サブグループ選択部105は、複数のサブグループを選択してもよい。
【0057】
本実施形態では、サブグループ選択部105は、所定の特徴量に基づいて複数のクラスタのなかからクラスタをサブグループとして選択する。例えば、サブグループ選択部105は、1以上の所定の特徴量に対応したクラスタを1以上選択する。1以上の所定の特徴量は、ユーザが関心のある1以上の特徴量を予め指定することによって設定される。
【0058】
サブグループ選択部105は、例えば、1以上の所定の特徴量に対応したクラスタを、各クラスタについて1以上の所定の特徴量それぞれの統計量を算出し、算出した統計量それぞれが基準値よりも大きな値をもつクラスタを選択する。統計量とは、例えば、平均値である。基準値は、1以上の所定の特徴量毎に定められる。以下の説明において、所定の特徴量を、マーカー特徴量ともいう。
【0059】
なお、サブグループ選択部105は、クラスタリング部104によって分類された複数のクラスタのなかからサブグループを恣意的に選択してもよい。サブグループを恣意的に選択するとは、例えば、複数のクラスタのなかからランダムに選択することが含まれる。
また、サブグループ選択部105は、ユーザによって指定されるサブグループを選択してもよい。
【0060】
ステップS70:繰り返し部106は、終了条件が満たされたか否かを判定する。ここで終了条件とは、例えば、サブクラスタ抽出処理を開始してからステップS10からステップS60までの処理を繰り返した回数である繰り返し回数が、所定の回数以上となることである。当該所定の回数は、2以上の数である。当該所定の回数は、ユーザによって予め指定されてもよいし、サブクラスタ抽出装置10に予め記憶されていてもよい。
ここでステップS10からステップ60までの処理を繰り返し処理という。繰り返し処理は、サブクラスタ抽出処理において、繰り返し実行される処理の単位となる。
【0061】
また、終了条件は、所定の数値が閾値以下となることであってもよい。例えば、終了条件は、ステップS60の処理が終了した時点における特徴量データDに含まれる特徴量の数が閾値以下となることであってもよい。
【0062】
繰り返し部106は、終了条件が満たされたと判定した場合(ステップS70;YES)、サブクラスタ抽出装置10は、ステップS80の処理を実行する。
一方、繰り返し部106は、終了条件が満たされていないと判定した場合(ステップS70;NO)、サブグループ選択処理において選択された1以上のサブグループに含まれるサンプルを、新たなサンプルの全体として、繰り返し処理を実行する。つまり、繰り返し部106は、ステップS10からステップS60までの処理それぞれを、特徴量データ取得部100、前処理部101、数値特徴量化正規化部102、特徴量選択部103、クラスタリング部104、サブグループ選択部105それぞれに再度実行させる。
【0063】
ここで繰り返し部106は、最後に実行されたサブグループ選択処理(ステップS60)において選択された1以上のサブグループに含まれるサンプルについての特徴量データを、新たな特徴量データDとして特徴量データ取得部100に供給する。
【0064】
繰り返し部106は、新たな特徴量データDに含まれる特徴量を以下のように選択する。繰り返し部106は、例えば、最後に実行された特徴量選択処理(ステップS30)によって選択された特徴量を、新たな特徴量データDに含ませる。
また、繰り返し部106は、例えば、特徴量選択処理以外の選択方法によって選択した特徴量を、新たな特徴量データDに含ませてもよい。特徴量選択処理以外の選択方法として、例えば、フィルター法やラッパー法などの公知の特徴量選択の方法が用いられてよい。
また、繰り返し部106は、特徴量の数を削減することなく、現在の特徴量データDに含まれる特徴量をそのまま新たな特徴量データDに含ませてもよい。
【0065】
繰り返し部106は、繰り返し処理を終了条件が満たされるまで繰り返し実行する。つまり、繰り返し部106は、サブグループ選択部105によって選択されたサブグループに含まれるサンプルについて特徴量データ取得部100に特徴量データ取得処理を実行させ、特徴量選択処理を特徴量選択部103に実行させ、クラスタリング処理をクラスタリング部104に実行させ、サブグループ選択処理をサブグループ選択部105に実行させる処理を繰り返し実行する。
【0066】
ステップS80:出力部107は、サブグループ抽出結果Rを提示部30に出力する。出力部107は、最後に実行されたクラスタリング処理(ステップS50)において得られた1以上のクラスタを示す情報をサブグループ抽出結果Rとして出力する。
以上で、サブクラスタ抽出装置10は、サブクラスタ抽出処理を終了する。
【0067】
なお、
図2に示したサブクラスタ抽出処理において、前処理(ステップS20)、数値特徴量化及び正規化の処理(ステップS30)は、特徴量データDに含まれる特徴量の値、及びまたは種類に応じてそれぞれ省略されてよい。
その場合、特徴量データDに含まれる特徴量の値、及びまたは種類に応じて、
図1に示したサブクラスタ抽出装置10の構成から前処理部101、数値特徴量化正規化部102はそれぞれ省略されてよい。
【0068】
なお、
図2に示したサブクラスタ抽出処理において、1回目の繰り返し処理においては、特徴量データDに含まれるサンプルをクラスタに分ける情報が与えられている場合には、クラスタリング処理(ステップS50)は省略されてよい。例えば、特徴量データDにサンプル毎にクラスタを示す情報(ラベルなど)が始めから含まれている場合、クラスタリング処理(ステップS50)が実行されなくても、特徴量データDに含まれるサンプルは既に複数のクラスタに分類されているため、クラスタリング処理(ステップS50)は省略されてよい。
2回目以降の繰り返し処理においては、最後に実行されたサブグループ選択処理(ステップS60)において選択されたサブグループに含まれるサンプルをさらにクラスタに分類するため、クラスタリング処理が必要とされる。
【0069】
以下では、本実施形態に係るサブクラスタ抽出システム1を適用した実施例について説明する。
[第1実施例]
第1実施例では、特徴量データDとして人工的に生成したデータである人工データD1を用いる。
図4は、本実施例に係る特徴量データDである人工データD1の一例を示す図である。人工データD1には、1500個のサンプルそれぞれに対する4600個の特徴量の値が格納されている。人工データD1では、6つのクラスタ構造を想定して特徴量の分布に粗密が与えられている。密な部分は、
図4に示すように、1番目から700番目の特徴量の範囲に複数の長方形として与えられている。当該複数の長方形以外の部分である密な部分以外の部分には、バックグラウンドノイズが与えられている。
【0070】
図5は、本実施例に係る人工データD1の密な部分の一例を示す図である。
図5には、
図4に示す人工データD1のうち1番目から700番目の特徴量の範囲が拡大されて示されている。
図5では、本実施例において想定している(真の)クラスタの境界が破線を用いて示されている。以下の説明では、当該クラスタを、サンプルの番号について小さい順に「ラベル1」、「ラベル2」、・・・、「ラベル6」という。サブクラスタ抽出装置10によって抽出されるクラスタと区別するために、真のクラスタに対しラベルという名称を用いる。同一ラベル内の各サンプルには共通の疎密パターンが与えられていることがわかる。
【0071】
以下、本実施例のサブクラスタ抽出装置10によるサブクラスタ抽出処理の詳細について、上述した
図2の処理と対応づけながら説明する。
ステップS10の特徴量データ取得処理では、特徴量データ取得部100は、特徴量データDとして、上述した人工データD1を取得する。
ステップS20の前処理については、人工データD1には特徴量の欠損がないため省略される。
【0072】
ステップS30の数値特徴量化、及び正規化の処理では、本実施例の人工データD1に含まれる特徴量は全て数値特徴量であるため、数値特徴量化は必要としない。数値特徴量化正規化部102は、正規化の処理によって、特徴量の値について平均値が0、標準偏差が1となるように特徴量の値を変換する。
【0073】
ステップS40の特徴量選択処理では、特徴量選択部103は、サンプル空間における主成分分析に基づいて、200個の特徴量を選択する。
【0074】
ステップS50のクラスタリング処理では、特徴量選択処理によって選択された200個の特徴量についてクラスタリングが行われた。クラスタリング部104は、クラスタリング処理として、特徴量空間に対する主成分分析によって得られた主成分に対するLouvain法に基づいてクラスタリングを行った。クラスタリング処理の結果、5個のクラスタが得られた。なお、Louvain法では、得られるクラスタの数はアルゴリズム中で自動的に決まる。
【0075】
クラスタリング結果を可視化した結果を
図6に示す。
図6では、主成分に対する特徴量空間上での2次元教師なし次元削減(UMAP)を適用した結果の各サンプルに対応するプロットが示されている。
図6では、当該次元削減によって得られる2次元平面上に、当該プロットを示すマーカーの種類をLouvain法のクラスタに対応させることで、クラスタリング結果を可視化している。
【0076】
また、
図7に、
図6に用いているマーカーをラベル(真のクラスタ)に変更した場合のプロットを示す。
図6と
図7とを比較すると、
図7における「ラベル5」と「ラベル6」とにそれぞれ対応するプロットが、
図6ではLouvain法によって「Cluster4」として一つのクラスタとなっている。したがって「Cluster4」の下にさらに階層的にクラスタ構造があるとみなせる。1回目のサブクラスタ抽出処理では、当該クラスタ構造を抽出できていないことがわかる。
【0077】
ステップS60のサブグループ選択処理では、サブグループ選択部105は、まずマーカー特徴量を選択する。マーカー特徴量は、ユーザが関心のある特徴量として予め指定される。本実施例では200個の特徴量のうち157番目の特徴量がマーカー特徴量として選択されたものとする。サブグループ選択部105は、各クラスタ内におけるマーカー特徴量の平均値を計算し、その平均値が0.3以上となる「Cluster4」に属する300サンプルをサブグループとして選択する。
【0078】
繰り返し部106は、ステップS10からステップ60までの処理である繰り返し処理を再度実行する。繰り返し部106は、1回目の繰り返し処理において選択された「Cluster4」に属する300サンプルについての人工データD1を、新たな特徴量データDとして特徴量データ取得部100に供給する。ここで繰り返し部106は、サブクラスタ抽出処理を開始する前の元々の人工データD1に含まれる全ての特徴量を新たな特徴量データDに含ませる。
【0079】
2回目の繰り返し処理においても、ステップS20の前処理は不要であるため省略される。
ステップS30の数値特徴量化、及び正規化の処理では、数値特徴量化正規化部102は、1回目の繰り返し処理と同様に、正規化の処理によって、特徴量の値について平均値が0、標準偏差が1となるように特徴量の値を変換する。
ステップS40の特徴量選択処理では、特徴量選択部103は、サンプル空間における主成分分析に基づいて、300個の特徴量を選択した。
【0080】
2回目の繰り返し処理におけるクラスタリング処理(ステップS50)によるクラスタリング結果を可視化した結果を
図8に示す。凡例の数字はLouvain法によるクラスタ番号を表す。1回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果を示す
図6では、「Cluster4」として一つの塊になっていたサンプル群が、
図8においては2つのクラスタに分かれている。1回目の繰り返し処理では得られなかった深い階層のクラスタ構造が得られていることが確認できる。
【0081】
また、
図9に、
図8に用いているマーカーをラベル(真のクラスタ)に変更した場合のプロットを示す。凡例の数字はラベル番号を表す。
図9より「ラベル5」と「ラベル6」が、Louvain法によって互いに異なるクラスタとして捉えられていることがわかる。
【0082】
[第2実施例]
第2実施例では、特徴量データDとして、非特許文献3にて公開されているヒトの遺伝子発現データD2を用いる。遺伝子発現データD2には、4296個のサンプルそれぞれに対する6713個の特徴量の値が格納されている。
【0083】
遺伝子発現データとは、各特徴量がそれぞれ特定の(シングル)遺伝子の発現量となっているデータである。遺伝子発現データでは、サンプルは細胞に対応する。遺伝子発現データでは、サンプル群は異常細胞群と、正常細胞群とに分類され、異常細胞群に特異的に発現量が多い、あるいは少ない遺伝子を発見するための研究において用いられる。
【0084】
以下、本実施例のサブクラスタ抽出装置10によるサブクラスタ抽出処理の詳細について、上述した
図2の処理と対応づけながら説明する。
ステップS10の特徴量データ取得処理では、特徴量データ取得部100は、特徴量データDとして、上述した遺伝子発現データD2を取得する。
【0085】
ステップS20の前処理では、前処理部101は、遺伝子発現データD2に含まれる6713個の特徴量に対して前処理を行う。ステップS20の前処理では、Seuratで提供されている前処理関数FindVariableFeaturesを適用した。前処理部101は、前処理によって、遺伝子発現データD2に含まれる6713個の特徴量を2000個の特徴量に削減する。
【0086】
ステップS30の数値特徴量化、及び正規化の処理では、本実施例の人工データD1に含まれる特徴量は全て数値特徴量であるため、数値特徴量化は必要としない。数値特徴量化正規化部102は、正規化の処理によって、特徴量の値について平均値が0、標準偏差が1となるように特徴量の値を変換する。
【0087】
ステップS40の特徴量選択処理では、特徴量選択部103は、サンプル空間における主成分分析に基づいて、200個の特徴量を選択する。
【0088】
ステップS50のクラスタリング処理では、特徴量選択処理によって選択された200個の特徴量についてクラスタリングが行われた。クラスタリング部104は、クラスタリング処理として、特徴量空間に対する主成分分析によって得られた主成分に対するLouvain法に基づいてクラスタリングを行った。クラスタリング処理の結果、10個のクラスタが得られた。なお、上述したように、Louvain法では、得られるクラスタの数はアルゴリズム中で自動的に決まる。
【0089】
クラスタリング結果を可視化した結果を
図10に示す。
図10では、主成分に対する特徴量空間上での2次元教師なし次元削減(UMAP)を適用した結果の各サンプルに対応するプロットが示されている。
図10では、当該次元削減によって得られる2次元平面上に、当該プロットを示すマーカーの種類をLouvain法のクラスタに対応させることで、クラスタリング結果を可視化している。
【0090】
ステップS60のサブグループ選択処理では、サブグループ選択部105は、まずマーカー特徴量を選択する。マーカー特徴量は、ユーザが関心のある特徴量として予め指定される。本実施例では200個の特徴量のうち特徴量(遺伝子)「PSAP」がマーカー特徴量として選択されたものとする。サブグループ選択部105は、各クラスタ内におけるマーカー特徴量の平均値を計算し、その平均値が0.3以上となるクラスタ「2,4,6,7」に属するサンプルをサブグループとして選択する。
【0091】
繰り返し部106は、ステップS10からステップ60までの処理である繰り返し処理を再度実行する。繰り返し部106は、1回目の繰り返し処理において選択されたクラスタ「2,4,6,7」に属するサンプルについての遺伝子発現データD2を、新たな特徴量データDとして特徴量データ取得部100に供給する。ここで繰り返し部106は、サブクラスタ抽出処理を開始する前の元々の遺伝子発現データD2に含まれる全ての特徴量を新たな特徴量データDに含ませる。
【0092】
ステップS30の数値特徴量化、及び正規化の処理では、数値特徴量化正規化部102は、1回目の繰り返し処理と同様に、正規化の処理によって、特徴量の値について平均値が0、標準偏差が1となるように特徴量の値を変換する。
ステップS40の特徴量選択処理では、特徴量選択部103は、サンプル空間における主成分分析に基づいて、200個の特徴量を選択した。
【0093】
2回目の繰り返し処理におけるクラスタリング処理(ステップS50)によるクラスタリング結果を可視化した結果を
図11に示す。凡例の数字はLouvain法によるクラスタ番号を表す。1回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果を示す
図10では、クラスタ「2,4,6,7」として一つの塊になっていたサンプル群が、
図11においては5つのクラスタに分かれている。1回目の繰り返し処理では得られなかった深い階層のクラスタ構造が得られていることが確認できる。
【0094】
[第3実施例]
第3実施例では、特徴量データDとして、非特許文献4にて公開されている全ゲノムシークエンスによるジェノタイプデータD3を用いる。ジェノタイプデータD3には、2500個のサンプルそれぞれに対する2000万個の特徴量の値が格納されている。
【0095】
ジェノタイプデータとは、各遺伝子座の塩基の参照ゲノムとの相違を表すデータである。ジェノタイプデータは、サンプル(一例として、ヒト)を疾患群と、非疾患群とに分類し、疾患群に特異に現れる遺伝子変異を発見するための研究において用いられる。本実施例で用いるジェノタイプデータD3は、疾患に関わる2群に対するデータではなく、本実施例では、教師なし次元削減の結果に対する先祖の遺伝的由来に着目した解析を行う。
【0096】
以下、本実施例のサブクラスタ抽出装置10によるサブクラスタ抽出処理の詳細について、上述した
図2の処理と対応づけながら説明する。
ステップS10の特徴量データ取得処理では、特徴量データ取得部100は、特徴量データDとして、上述したジェノタイプデータD3を取得する。
【0097】
ステップS20の前処理では、前処理部101は、ジェノタイプデータD3に含まれる2000万個の特徴量に対して前処理を行う。ここで前処理部101は、20パーセント以上のサンプルに欠損がある特徴量を除去する。前処理部101は、20パーセント以上の特徴量に欠損があるサンプルを除去する。前処理部101は、2パーセント以上のサンプルに欠損がある特徴量を除去する。前処理部101は、2パーセント以上の特徴量に欠損があるサンプルを除去する。前処理部101は、マイナーアレル頻度が5パーセント以下の特徴量を除去する。
【0098】
ステップS30の数値特徴量化、及び正規化の処理では、ジェノタイプデータD3に含まれる特徴量は全てジェノタイプと呼ばれるカテゴリカル特徴量であるため、数値特徴量化正規化部102は、ラベルエンコーディングを用いてカテゴリカル特徴量から数値特徴量への変換を行う。なお、本実施例では、特徴量の値の正規化は行われない。
【0099】
ステップS40の特徴量選択処理では、特徴量選択部103は、サンプル空間における主成分分析に基づいて、50000個の特徴量を選択する。
ステップS50のクラスタリング処理は、本実施例では省略される。
【0100】
クラスタリング結果を可視化した結果を
図12に示す。
図12では、主成分に対する特徴量空間上での2次元教師なし次元削減を適用した結果の各サンプルに対応するプロットが示されている。
図12では、当該次元削減によって得られる2次元平面上に、人種を示すマーカーを用いてクラスタリング結果を可視化している。ここで各マーカーの色がヨーロッパ系等のPopulationを示し、マーカーの形状がその内部のSub populationを示す。なお、上述した実施例1、2とは異なり本実施例ではマーカーの色・形状に元々のデータセットであるジェノタイプデータD3で与えられている情報を用いている。
図12に示すように、Populationごとにプロットがクラスタを形成しており、サンプルの特徴を捉えた2次元空間が得られていることがわかる。
【0101】
ステップS60のサブグループ選択処理では、サブグループ選択部105は、
図12の左上のAFR(アフリカ系、橙色)のサブグループCL1を選択する。
【0102】
繰り返し部106は、ステップS10からステップ60までの処理である繰り返し処理を再度実行する。繰り返し部106は、1回目の繰り返し処理において選択されたサブグループCL1に属するサンプルについてのジェノタイプデータD3を、新たな特徴量データDとして特徴量データ取得部100に供給する。ここで繰り返し部106は、特徴量選択処理(ステップS40)において選択された特徴量のみを新たな特徴量データDに含ませる。
【0103】
2回目の繰り返し処理では、ステップS30の数値特徴量化、及び正規化の処理では、省略される。
ステップS40の特徴量選択処理では、特徴量選択部103は、サンプル空間における主成分分析に基づいて、50個の特徴量を選択した。
【0104】
2回目の繰り返し処理におけるクラスタリング処理(ステップS50)によるクラスタリング結果を可視化した結果を
図13に示す。マーカーの形状は、各サブクラスタを示す。
1回目の繰り返し処理におけるクラスタリング処理によるクラスタリング結果を可視化した結果を示す
図12では、サブグループCL1として一つの塊になっていたサンプル群が、
図13においては5つのクラスタに分かれている。1回目の繰り返し処理では得られなかった深い階層のクラスタ構造が得られていることが確認できる。
【0105】
[まとめ]
以上に説明したように、本実施形態に係るサブクラスタ抽出装置10は、特徴量データ取得部100と、特徴量選択部103と、クラスタリング部104と、サブグループ選択部105と、繰り返し部106とを備える。
特徴量データ取得部100は、サンプルに対する複数の特徴量の値の組を複数のサンプル毎に含む特徴量データDを取得する処理である特徴量データ取得処理を実行する。
特徴量選択部103は、特徴量データ取得部100によって取得された特徴量データDに含まれる複数の特徴量のなから特徴量を選択する処理である特徴量選択処理を実行する。
クラスタリング部104は、特徴量選択部103によって選択された特徴量に基づいてサンプルを複数のクラスタに分類する処理であるクラスタリング処理を実行する。
サブグループ選択部105は、クラスタリング部104によって分類された複数のクラスタのなかからクラスタをサブグループとして選択する処理であるサブグループ選択処理を実行する。
繰り返し部106と、サブグループ選択部105によって選択されたサブグループに含まれるサンプルについて特徴量データ取得部100に特徴量データ取得処理を実行させ、特徴量選択処理を特徴量選択部103に実行させ、クラスタリング処理をクラスタリング部104に実行させ、サブグループ選択処理をサブグループ選択部105に実行させる処理(本実施形態において、繰り返し処理)を繰り返し実行する。
【0106】
この構成により、本実施形態に係るサブクラスタ抽出装置10は、複数のサンプルの全体に共通して働く特徴量を除去し、サブクラスタ群のもととなるサブグループを特定できるため、階層的なクラスタ構造を抽出できる。階層的なクラスタ構造を、深い階層にあるクラスタ構造ともいう。
【0107】
また、本実施形態に係るサブクラスタ抽出装置10では、特徴量選択部103は、特徴量データに対して、特徴量の複数のサンプルそれぞれについての値の組の複数の特徴量についての集まりであるサンプル空間において主成分分析を行い、主成分分析の結果に基づいて複数の特徴量のなから特徴量を選択する。
【0108】
この構成により、本実施形態に係るサブクラスタ抽出装置10は、サンプル空間における主成分分析の結果に基づいてノイズとなる特徴量を除去して主要な特徴量を選択できるため、複数のサンプルの全体に共通して働く特徴量を除去する際にサンプル空間における主成分分析を用いない場合に比べて効率よくノイズとなる特徴量を除去できる。
【0109】
また、本実施形態に係るサブクラスタ抽出装置10では、サブグループ選択部105は、所定の特徴量(マーカー特徴量)に基づいて複数のクラスタのなかからクラスタをサブグループとして選択する。
【0110】
この構成により、本実施形態に係るサブクラスタ抽出装置10は、所定の特徴量(マーカー特徴量)に基づいてサブクラスタを抽出できるため、所定の特徴量(マーカー特徴量)が働いているサブグループを検出できる。
【0111】
なお、上述した実施形態におけるサブクラスタ抽出装置10の一部、例えば、特徴量データ取得部100、前処理部101、数値特徴量化正規化部102、特徴量選択部103、クラスタリング部104、サブグループ選択部105、繰り返し部106、及び出力部107をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、サブクラスタ抽出装置10に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態におけるサブクラスタ抽出装置10の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。サブクラスタ抽出装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0112】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0113】
10…サブクラスタ抽出装置、100…特徴量データ取得部、103…特徴量選択部、104…クラスタリング部、105…サブグループ選択部、106…繰り返し部、D…特徴量データ