(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-08
(45)【発行日】2023-09-19
(54)【発明の名称】自動閾値化を用いたデータ処理方法及びシステム
(51)【国際特許分類】
G16H 50/70 20180101AFI20230911BHJP
【FI】
G16H50/70
(21)【出願番号】P 2022501145
(86)(22)【出願日】2020-07-10
(86)【国際出願番号】 KR2020009095
(87)【国際公開番号】W WO2021010670
(87)【国際公開日】2021-01-21
【審査請求日】2022-03-18
(31)【優先権主張番号】10-2019-0084214
(32)【優先日】2019-07-12
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】519208133
【氏名又は名称】ディープ バイオ インク
(73)【特許権者】
【識別番号】522010107
【氏名又は名称】ジェンキュリックス インク
(74)【代理人】
【識別番号】100120008
【氏名又は名称】山田 くみ子
(72)【発明者】
【氏名】キム ジウン
(72)【発明者】
【氏名】カン ビョンギル
(72)【発明者】
【氏名】イ チャンデ
(72)【発明者】
【氏名】チョ ミナ
【審査官】原 秀人
(56)【参考文献】
【文献】特表2002-541438(JP,A)
【文献】特開2013-008159(JP,A)
【文献】特開2016-099888(JP,A)
【文献】特開2015-207111(JP,A)
【文献】国際公開第2017/127822(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
G06Q 50/22
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
データ処理システムが、2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力
するステップと、
前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値(threshold)を算出するステップと、
前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線(baseline)値を算出するステップと、
前記データ処理システムが、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップと、を含
み、
前記データ処理システムが、前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップは、
前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出するステップと、
前記データ処理システムが、前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出するステップと、
前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別するステップと、を含
む自動閾値化を用いたデータ処理方法。
【請求項2】
前記基準データセット及び前記少なくとも一つの解析対象のデータセットに含まれているそれぞれの数値は、
特定の突然変異を検出するための蛍光試薬が添加され、前記特定の突然変異に相当する遺伝子シーケンスに対するポリメラーゼ連鎖反応(polymerase chain reaction;PCR)が行われたそれぞれの液滴(droplet)を対象にして測定した蛍光信号のサイズの値である請求項1に記載の自動閾値化を用いたデータ処理方法。
【請求項3】
データ処理システムが、2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力するステップと、
前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値(threshold)を算出するステップと、
前記データ処理システムが、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップと、を含み、
前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、
前記データ処理システムが、前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップと、
前記データ処理システムが、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が0になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成するステップと、
前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索するステップと、
前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索するステップと、
前記第1ターゲットビン及び前記第2ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出するステップと、を含
む自動閾値化を用いたデータ処理方法。
【請求項4】
前記データ処理システムが、入力された前記それぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップは、
前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成するステップと、
前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成するステップと、を含む請求項
3に記載の自動閾値化を用いたデータ処理方法。
【請求項5】
データ処理システムが、2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力するステップと、
前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値(threshold)を算出するステップと、
前記データ処理システムが、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップと、を含み、
前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、
a)前記データ処理システムが、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成するステップと、
b)前記データ処理システムが、前記ヒストグラムデータを平滑化するステップと、
c)前記データ処理システムが、前記平滑化されたヒストグラムデータを差分するステップと、
d)前記データ処理システムが、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索するステップと、
e)前記データ処理システムが、差分されたヒストグラムデータに基づき、前記基準条件を満たし、かつ、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索するステップと、
f)前記データ処理システムが、前記第1ターゲットビン及び前記第2ターゲットビンの間の値のうちいずれか一つである前記閾値を算出するステップと、
g)前記データ処理システムが、予め設定されたビンの幅を用いて、前記基準条件を満たす第1ターゲットビンまたは第2ターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らすステップと、
h)前記データ処理システムが、減ったビンの幅を用いて、前記a)ステップ乃至e)ステップを再び行うステップと、
を含む自動閾値化を用いたデータ処理方法。
【請求項6】
データ処理システムにインストールされ、請求項1乃至請求項
5のいずれか一項に記載の方法を行うためのコンピュータプログラム。
【請求項7】
請求項1乃至請求項
5のいずれか一項に記載の方法を行うためのコンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体。
【請求項8】
2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力される入力モジュールと、
入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出する閾値算出モジュールと、
入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出する基線値算出モジュールと、
少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割する処理モジュールと、
を有し、
前記処理モジュールは、
前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するために、
前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出し、
前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出し、
前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別する
、自動閾値化を用いたデータ処理システム。
【請求項9】
2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力される入力モジュールと、
入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出する閾値算出モジュールと、
少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割する処理モジュールと、を有し、
前記閾値算出モジュールは、
前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成し、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が0になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索し、前記第1ターゲットビン及び前記第2ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出す
る自動閾値化を用いたデータ処理システム。
【請求項10】
前記閾値算出モジュールは、前記ヒストグラムデータを生成するために、前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成し、前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成する請求項
9に記載の自動閾値化を用いたデータ処理システム。
【請求項11】
2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力される入力モジュールと、
入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出する閾値算出モジュールと、
少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割する処理モジュールと、を有し、
前記閾値算出モジュールは、
入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成し、前記ヒストグラムデータを平滑化し、前記平滑化されたヒストグラムデータを差分し、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索し、前記基準条件を満たし、かつ、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索し、前記第1ターゲットビン及び前記第2ターゲットビンの間の値のうちいずれか一つである前記閾値を算出し、
予め設定されたビンの幅を用いて、前記基準条件を満たすターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らし、減ったビンの幅を用いて、ヒストグラムデータを再び生成し、再び生成されたヒストグラムデータを用いて、特定のクラスタの終端に存在するターゲットビンを探索す
る自動閾値化を用いたデータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自動閾値化(auto-thresholding)を用いたデータ処理方法、及びそれを行うデータ処理システムに関する。さらに詳しくは、基準となるデータセットからクラスタを区別するための閾値を自動で算出し、それを用いてデータを処理する方法、及びそれを行うシステムに関する。
【背景技術】
【0002】
多くの技術またはサービス分野において、多数のデータを解析し且つ活用している。例えば、特定の医療データを解析して、患者毎にどの医薬を適用するか否かを決定したり、個人に特化した治療法を適用したりするなどの方式が盛んに適用されている。
【0003】
図1aは、所定の標的抗癌剤に適した患者を選別するための手段である、所定のコンパニオン診断キットにおいて活用される医療データの一例を示している。
【0004】
図1aは、一実施形態であって、肺癌の代表的なバイオマーカーであるEGFR遺伝子のエクソン18、19、20、21に存在する突然変異の存否を知らせる検査キット(例えば、Genes Well(商標) ddEGFR Mutation Test)を用いて得られる医療データであり、
図1bは、Genes Well(商標)ddEGFR Mutation Testの検査方法であるDroplet Digital(商標)PCR(ddPCR(商標))の一つの実験データである。例えば、このような医療データを解析して、手術後の標的抗癌剤を処方するに先立って治療剤が効く患者を選別し、または突然変異の発現有無を判別するのに利用可能である。しかしながら、本発明の技術的思想は、このような実施形態に限って適用されるものではなく、種々のデータの解析に利用可能であることはいうまでもない。
【0005】
一方、
図1a及び
図1bに示すグラフにおいて、x軸は、それぞれの医療データのイベントナンバーであり、y軸は、医療データの数値の大きさ(Amplitude)である。それぞれの点(spot)は、個別の医療データを示す。また、実施形態における医療データは、
図1a及び
図1bに示すように、座標系において少なくとも一つのクラスタ(例えば、
図1aでは、3つのクラスタ)にクラスタ化していてもよい。
【0006】
このとき、特定のデータクラスタにおけるクラスタを区別するための閾値(threshold)または特定のクラスタの終端点(例えば、最初のクラスタである最下端のデータクラスタにおいて最も上部に存在する少なくとも一つの個別の医療データ(例えば、y軸の値が最も大きい順序で少なくとも一つ)または当該医療データの数値(y軸の値))を判断する必要があり得る。しかしながら、それぞれの個別の医療データだけでは、どのような個別の医療データがどのようなクラスタに含まれるかについて、データの数値または座標系に表示された座標の位置だけでは知り難く、特に、データクラスタとデータクラスタとの間に多数の個別の医療データが存在する場合は、このような困難さがさらに増してしまう虞がある。
【0007】
実際に、従来は、
図1a及び
図1bに示すように、人間が目視で座標系に表示された個別の医療データを確認し、任意に閾値または終端点(例えば、1番目(最下位)のクラスタにおける上端点)を区別するための区切り線10または11を引くような作業方式を採用している。
【0008】
しかしながら、この場合、作業を行う者に応じて閾値または終端点が異なってくる虞があり、しかも、正確さに欠ける虞があるという不都合があった。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明が解決しようとする技術的課題は、2以上のクラスタを有する基準となるデータセットからクラスタを区別するための閾値を自動で算出し、それを用いてデータを処理する方法、及びそれを行うシステムを提供することである。
【0010】
また、2以上のデータクラスタが存在するデータセットから速やかに特定のデータクラスタの終端点を自動探索することにより、上述した閾値を効果的に算出可能にする方法及びシステムを提供することである。
【課題を解決するための手段】
【0011】
本発明の一局面によれば、データ処理システムが、2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力されるステップと、前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップと、前記データ処理システムが、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップと、を含む自動閾値化を用いたデータ処理方法が提供される。
【0012】
一実施形態において、前記自動閾値化を用いたデータ処理方法は、前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線(baseline)値を算出するステップをさらに含むが、前記データ処理システムが、前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップは、前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出するステップと、前記データ処理システムが、前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出するステップと、前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別するステップと、を含んでもよい。
【0013】
一実施形態において、前記基準データセット及び前記少なくとも一つの解析対象のデータセットに含まれているそれぞれの数値は、特定の突然変異を検出するための蛍光試薬が添加され、前記特定の突然変異に相当する遺伝子シーケンスに対するポリメラーゼ連鎖反応(polymerase chain reaction;PCR)が行われたそれぞれの液滴(droplet)を対象にして測定した蛍光信号のサイズの値であることを特徴としてもよい。
【0014】
一実施形態において、前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、前記データ処理システムが、前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップと、前記データ処理システムが、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が0になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成するステップと、前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索するステップと、前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索するステップと、前記第1ターゲットビン及び前記第2ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出するステップと、を含んでもよい。
【0015】
一実施形態において、前記データ処理システムが、入力された前記それぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップは、前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成するステップと、前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成するステップと、を含んでもよい。
【0016】
一実施形態において、前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、a)前記データ処理システムが、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成するステップと、b)前記データ処理システムが、前記ヒストグラムデータを平滑化するステップと、c)前記データ処理システムが、前記平滑化されたヒストグラムデータを差分するステップと、d)前記データ処理システムが、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索するステップと、e)前記データ処理システムが、差分されたヒストグラムデータに基づき、前記基準条件を満たし、かつ、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索するステップと、f)前記データ処理システムが、前記第1ターゲットビン及び前記第2ターゲットビンの間の値のうちいずれか一つである前記閾値を算出するステップと、を含んでもよい。
【0017】
一実施形態において、前記自動閾値化を用いたデータ処理方法は、前記データ処理システムが、予め設定されたビンの幅を用いて、前記基準条件を満たす第1ターゲットビンまたは第2ターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らすステップと、前記データ処理システムが、減ったビンの幅を用いて、前記a)ステップ乃至e)ステップを再び行うステップと、をさらに含んでもよい。
【0018】
一実施形態において、前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、a)前記データ処理システムが、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成するステップと、b)前記データ処理システムが、前記ヒストグラムデータを平滑化するステップと、c)前記データ処理システムが、平滑化されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索するステップと、d)前記データ処理システムが、平滑化されたヒストグラムデータに基づき、前記基準条件を満たし、かつ、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索するステップと、を含んでもよい。
【0019】
本発明の他の一局面によれば、データ処理システムにインストールされ、上述した方法を行うためのコンピュータプログラムが提供される。
【0020】
本発明の他の一局面によれば、上述した方法を行うためのコンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体が提供される。
【0021】
本発明の他の一局面によれば、2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力される入力モジュールと、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出する閾値算出モジュールと、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割する処理モジュールと、を含む自動閾値化を用いたデータ処理システムが提供される。
【0022】
一実施形態において、前記自動閾値化を用いたデータ処理システムは、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出する基線値算出モジュールをさらに含むが、前記処理モジュールは、前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するために、前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出し、前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出し、前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別してもよい。
【0023】
一実施形態において、前記閾値算出モジュールは、前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成し、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が0になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索し、前記第1ターゲットビン及び前記第2ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出してもよい。
【0024】
一実施形態において、前記閾値算出モジュールは、前記ヒストグラムデータを生成するために、前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成し、前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成してもよい。
【0025】
一実施形態において、前記閾値算出モジュールは、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成し、前記ヒストグラムデータを平滑化し、前記平滑化されたヒストグラムデータを差分し、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索し、前記基準条件を満たし、かつ、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索し、前記第1ターゲットビン及び前記第2ターゲットビンの間の値のうちいずれか一つである前記閾値を算出してもよい。
【0026】
一実施形態において、前記閾値算出モジュールは、予め設定されたビンの幅を用いて、前記基準条件を満たすターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らし、減ったビンの幅を用いて、ヒストグラムデータを再び生成し、再び生成されたヒストグラムデータを用いて、特定のクラスタの終端に存在するターゲットビンを探索してもよい。
【0027】
一実施形態において、前記閾値算出モジュールは、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成し、前記ヒストグラムデータを平滑化し、平滑化されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索し、前記基準条件を満たし、かつ、前記基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索し、前記第1ターゲットビン及び前記第2ターゲットビンの間の値のうちいずれか一つである前記閾値を算出してもよい。
【発明の効果】
【0028】
本発明の一実施形態によれば、基準となるデータセットから把握できるクラスタの分割の客観的な基準を、他のデータセットに一貫して適用することができるという効果がある。
【0029】
また、多数の個別データを別途にクラスタリングしなくても、個別データの数値を用いて速やかに特定のデータクラスタの終端点を自動探索することにより、クラスタ分割の基準となる閾値を効果的かつ速やかに探すことができるという効果がある。
【0030】
また、本発明の一実施形態による方法及びシステムを医療データに適用する場合、従来手作業で行っていた作業に比べて、一貫性のある正確な診断ができるという効果がある。
【図面の簡単な説明】
【0031】
本発明の詳細な説明の欄において引用される図面をより十分に理解するために、各図面の簡単な説明が提供される。
【
図1】
図1a及び
図1bは、本発明の技術的思想が適用される医療データの一例を示した図である。
【
図2】本発明の一実施形態による自動閾値化を用いたデータ処理システムの概略的な構成を説明するためのブロック図である。
【
図3】本発明の一実施形態による自動閾値化を用いたデータ処理方法を行う過程を示したフローチャートである。
【
図4】本発明の一実施形態によるデータ処理システムが閾値を算出する過程の一例を示したフローチャートである。
【
図5】
図5aは、ヒストグラムデータの一例を示した図であり、
図5b及び
図5cは、それぞれノイズが除去されたヒストグラムデータの一例を示した図である。
【
図6】
図6aは、本実施形態による自動閾値化を用いたデータ処理方法において、ヒストグラムを生成するステップを、さらに詳しく示したフローチャートであり、
図6bは、
図6aの方法によって生成されたヒストグラムデータの一例を示した図である。
【
図7】本発明の一実施形態による特定のデータクラスタの終端点の探索方法を概念的に説明するための図である。
【
図8】本発明の一実施形態による特定のデータクラスタの終端点の探索方法を説明するためのフローチャートである。
【
図9】本発明の一実施形態によるデータ処理方法により算出された閾値を基準として、複数の解析対象のデータセットに含まれている個別データを一括的に分類する例を示した図である。
【
図10】本発明の他の一実施形態による自動閾値化を用いたデータ処理方法を示したフローチャートである。
【
図11】複数の解析対象のデータセットに対するクラスタの分割において、基線値によって閾値が補正される例を示した図である。
【
図12】本発明の一実施形態による自動閾値化を用いたデータ処理システムの概略的な構成を示したブロック図である。
【発明を実施するための形態】
【0032】
本発明は、様々な変更を加えることができ、種々の実施形態を有することができるので、特定の実施形態を図面に例示し、詳細な説明において詳しく説明する。しかしながら、これは、本発明を特定の実施形態に対して限定しようとするものではなく、本発明の思想及び技術範囲に含まれるあらゆる変換、均等物乃至代替物を含むものと理解されるべきである。なお、本発明について説明するにあたって、関連する公知の技術についての具体的な説明が本発明の要旨を余計に曖昧にする虞があると認められる場合は、その詳細な説明を省略する。
【0033】
「第1の」、「第2の」等の用語は、様々な構成要素を説明するうえで使用可能であるが、構成要素は、用語によって何等限定されない。用語は、ある構成要素を他の構成要素から区別する目的でしか使えない。
【0034】
この出願において用いた用語は、単に特定の実施形態を説明するために用いられたものであり、本発明を限定しようとする意図はない。単数の表現は、文脈からみて明らかに他
の意味を有さない限り、複数の表現を含む。
【0035】
この明細書において、「備える」、「含む」または「有する」等の用語は、明細書上に記載の特徴、数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定するものに過ぎず、一つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたもの存在または付加の可能性を予め排除しないものと理解すべきである。
【0036】
また、この明細書においては、ある一つの構成要素が他の構成要素にデータを「送信」する場合は、これは、構成要素が、他の構成要素に直接的にデータを送信してもよく、少なくとも一つのさらに他の構成要素を介してデータを他の構成要素に送信してもよいことを意味する。逆に、ある一つの構成要素が他の構成要素にデータを「直接的に送信」する場合は、これは、構成要素から他の構成要素を介さずに他の構成要素にデータが送信されることを意味する。
【0037】
以下、添付図面に基づいて、本発明の実施形態を中心に本発明について詳しく説明する。各図面に示されている同一の参照符号は、同一の部材を示す。
【0038】
図2は、本発明の一実施形態による自動閾値化を用いたデータ処理システム(以下、「データ処理システム」という。)の概略的な構成を説明するためのブロック図である。
【0039】
図2を参照すると、本発明の技術的思想によるデータ処理システム100は、プロセッサ110及びメモリ120を含む。
【0040】
メモリ120は、本発明の技術的思想を具現するためのコンピュータプログラム(ソフトウェア)を格納する。
【0041】
ソフトウェアは、プロセッサ110により起動され、本発明の技術的思想による自動閾値化を用いたデータ処理方法を行ってもよい。
【0042】
データ処理システム100は、実施形態により、所定の周辺装置130を少なくとも一つ含んでもよい。周辺装置は、例えば、ディスプレイ装置、スピーカ、オーディオ/ビデオ処理モジュール、外付けメモリ、入出力装置、通信装置など様々であってもよい。
【0043】
一実施形態において、データ処理システム100は、所定のサーバにインストールして、本発明の技術的思想を具現することができる。サーバは、本発明の技術的思想を具現するための演算能力を有するデータ処理装置を意味し、一般に、ネットワークを介してクライアントが接続可能なデータ処理装置のみならず、パソコン、携帯端末等のように、特定のサービスを行うことができるいずれの装置もサーバと定義されてもよいことを、本発明の技術分野における平均的な知識を有する専門家であれば、容易に推論することができるであろう。すなわち、データ処理システム100は、コンピュータ、サーバ、携帯電話等のデータプロセッシング能力を有するいかなるコンピュータシステムでも具現可能である。
【0044】
データ処理システム100は、
図2では、いずれか一つの物理的装置で具現されたものと示したが、必要に応じて、複数の物理的装置が有機的に結合されて、本発明の技術的思想によるデータ処理システム100を具現できることを、本発明の技術分野における平均的な知識を有する専門家であれば、容易に推論することができるであろう。
【0045】
データ処理システム100は、所定のデータセットを入力する。データセットは、多数の個別データを含んでいてもよい。多数の個別データは、それぞれ所定の値を有する。値は、数値であってもよい。また、多数の個別データは、一つまたは二つ以上のデータクラスタを形成していてもよい。
【0046】
クラスタは、データセット内のそれぞれの個別データの分布により決まってもよい。例えば、データセット内において、距離値が一定の数値以下であって近い個別データがクラスタを形成してもよい。あるいは、共通または類似の属性を有する個別データが、全体のデータセット内において、一つのクラスタを形成してもよい。例えば、全体のデータセットは、突然変異の発現に対応するクラスタとそうでない(未発現)クラスタ、特定疾病の発現に相当するクラスタとそうでない(未発現)クラスタ等に分けられてもよい。
【0047】
データ処理システム100は、基準となる基準データセットを解析し、実際に解析の対象になる他のデータセット内の個別データを、互いに異なるクラスタで区別させるための閾値を算出し、算出した閾値を、実際に解析の対象になる他のデータセットに適用し、当該データセット内の個別データを互いに異なるクラスタに分類する。
【0048】
例えば、データセットは、所定の疾病または突然変異の発現を検出するための試料を解析した個別データのセットであってもよい。
【0049】
特に、一実施形態において、データセットは、特定の疾病や突然変異を検出するための蛍光試薬(例えば、FAM probe及び/またはHEX probe)が添加され、特定の疾病または突然変異に相当する遺伝子シーケンス(例えば、DNA及び/またはRNA)に対するポリメラーゼ連鎖反応(polymerase chain reaction、以下「PCR」という。)が行われたそれぞれの液滴(droplet)を対象として測定した蛍光信号のサイズ(amplitude)の値を個別データとして有してもよい。このとき、基準データセットは、陽性対照(positive control)のための試料に相当するデータセットであり、解析対象のデータセットは、個別検診者から抽出した遺伝子シーケンスに相当するデータセットであってもよい。
【0050】
例えば、データセットは、Droplet Digital(商標) PCRシステムの出力結果であってもよい。Droplet Digital(商標) PCR Systemは、20μlのPCR反応を、約2万個の液滴(droplet)に割って増幅させた後、ターゲットDNAを計数するシステムである。個別液滴におけるターゲットDNAの増幅の有無により、陽性液滴(positive droplet(1))と陰性液滴(negative droplet(0))として、デジタル信号のように扱って計数し、ポアソン分布によりターゲットDNAのコピーを計算して、最終的にサンプルの1μl当たりのコピー数で結果値を確認するシステムである。Droplet Digital(商標)PCRは、解析しようとする試料とプローブ(FAM、HEX/VIC)を含むPCR反応液から油膜で区別される約2万個の液滴(droplet)を生成し、生成された液滴(droplet)に対して、PCR反応を進行し、PCR反応が完了すると、液滴読取機(droplet reader)により、それぞれの液滴の蛍光信号を感知して、陽性液滴(positive droplet)と陰性液滴(negative droplet)及びターゲット遺伝子のコピー数を計算して解析する。解析結果は、数値を有するデータリストの形態(例えば、.csvフォーマット等)で出力される。
【0051】
本発明の技術的思想による例示は、上記のような医療データであることもあるが、本発明の権利範囲は、これに限定されず、様々なデータに活用され得ることはいうまでもない。
【0052】
上述したように、データ処理システム100は、基準となる基準データセットを解析して、実際解析の対象になる他のデータセット内の個別データを、互いに異なるクラスタで区別させるための閾値を算出することができ、算出した閾値を実際に解析の対象になる他のデータセットに適用して、当該データセット内の個別データを互いに異なるクラスタに分類することができる。データセットがDroplet Digital(商標)PCRにより出力される数値のリストである場合、基準データセットは、陽性対照(positive control)試料に対する出力結果であってもよく、実際に解析の対象になるデータセットは、実際の検診者から抽出した遺伝子を含む試料に対する出力結果であってもよい。
【0053】
この場合、データ処理システム100は、陽性対照(positive control)試料から算出した閾値を、多数の検診者に対する結果に共通に適用することができるので、多数の検診者に対する診断の際に一貫性及び客観性を確保することができるようになるという効果がある。
【0054】
一方、データセットは、それぞれが、イベントナンバーが与えられた数値のリストの形態であってもよく、 .csvや.xls等のスプレッドシートや.db等のデータベースファイルの形式で提供されてもよい。
【0055】
以下では、
図3を参照して、本発明の一実施形態によるデータ処理システム100が自動閾値化を用いたデータ処理方法を行う過程について、さらに詳細に説明する。
【0056】
図3を参照すると、データ処理システム100は、2以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力する(S100)。個別データが有し得る数値は、正の実数値であってもよく、最大値が予め決まっていてもよい。一実施形態において、基準データセットは、上述したように、陽性対照試料に対する試験結果であってもよい。
【0057】
以降、データ処理システム100は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタを分割するための閾値を算出する(S110)。
【0058】
一実施形態において、算出された閾値は、疾病または突然変異が発現されたクラスタと、そうでないクラスタを分類するための値であってもよい。
【0059】
S110ステップにおいて、閾値を算出する方法は、様々である。特に、本発明の一実施形態によれば、データ処理システム100は、閾値を算出するために、入力されたデータセットを用いてヒストグラムデータを生成し、特定のクラスタの終端点を探索/判断することができる。
【0060】
ヒストグラムデータの第1軸(例えば、x軸)は、それぞれのビンの階級を示し、第2軸(例えば、y軸)は、それぞれの階級の度数を示す。すなわち、ヒストグラムデータは、個別データが有し得る数値の範囲を第1軸(例えば、x軸)のドメインとし、このような第1軸が所定のビンの幅を有する複数のビン(bin)に分割された場合のそれぞれのビンに関する情報を含んでいてもよい。それぞれのビンに関する情報は、該当ビンの第1軸の値の範囲(または何番目のビンであるかを示すビンのインデックス)及び当該ビンの第2軸(例えば、y軸)の値を有していてもよい。ビンの第2軸の値は、第1軸の値の範囲(すなわち、ビン幅に見合う分の範囲を有する個別データの数値)に該当する個別データの数であってもよい。
【0061】
一方、特定のクラスタの終端点は、当該クラスタの左側終端点または右側終端点であってもよい。
【0062】
左側終端点は、特定のクラスタに含まれている個別データのうち、個別データの数値が高い順に(例えば、
図1aまたは
図1bにおけるy軸方向に上方)1番目の個別データの数値(または1番目の個別データの数値の直後の数値の範囲)または高い順にいくつかの個別データが有する数値の範囲(または範囲の直後の数値の範囲)を意味してもよい。
【0063】
右側終端点は、特定のクラスタに含まれている個別データのうち、個別データの数値が低い順に(例えば、
図1におけるy軸方向に下方)1番目の個別データが有する数値(または1番目の個別データの数値よりも低い直前の数値の範囲)または低い順に予め定められた数(例えば、2~3個)の個別データが有する数値の範囲(またはその直前の数値の範囲)を意味してもよい。
【0064】
図4は、本発明の一実施形態によるデータ処理システム100が閾値を算出する過程の一例を示したフローチャートである。
【0065】
図4を参照すると、データ処理システム100は、基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成することができる(S111)。
【0066】
一方、データ処理システム100は、ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が0になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成することができる(S112)。
【0067】
このとき、ノイズの基準値は、実験あるいはその他の方法により、予め定められた値であってもよい。
【0068】
以下では、ヒストグラムデータからノイズを除去する例について、
図5a乃至
図5cを参照して説明する。
【0069】
図5aは、S111ステップで生成したヒストグラムデータの一例を示す図である。すなわち、データ処理システム100は、
図5aに示されたようなヒストグラムデータを生成することができる。このとき、ノイズの基準値は、kで決まっていてもよい。
【0070】
一実施形態において、ノイズ除去過程は、ノイズの基準値以下の度数を有するビンの度数を0に設定する過程であってもよい。このようなノイズ除去過程が、
図5aのヒストグラムデータに対して行われてから生成されるノイズが除去されたヒストグラムデータは、
図5bの通りである。
【0071】
一方、他の一実施形態において、ノイズ除去過程は、それぞれのビンの度数からノイズの基準値だけを差し引いた後、0未満の度数を有するビンの度数を0に設定する過程であってもよい。このようなノイズ除去過程が、
図5aのヒストグラムに対して行われてから生成されるノイズが除去されたヒストグラムデータは、
図5cの通りである。
【0072】
一方、さらに
図4を参照すると、ヒストグラムからノイズを除去した後、データ処理システム100は、ノイズが除去されたヒストグラムデータに基づき、基準データセット内の第1クラスタの左側終端に存在する第1ターゲットビンを探索することができる(S113)。基準データセット内の第1クラスタは、基準データセットが有するクラスタのうち、当該クラスタ内の数値の平均が最も大きいクラスタであってもよい。
【0073】
データ処理システム100は、第1ターゲットビン及び後述する第2ターゲットビンを探索するために、ノイズが除去されたヒストグラムデータを、最も大きな階級に相当するビンから逆順にそれぞれのビンを探索することができる。
図5cの例を挙げて説明すると、データ処理システム100は、最も大きな階級のビン1-1を第1クラスタの右側終端に存在するビンと判断し、逆順(
図5cの探索方向(b))でそれぞれのビンを探索することができ、当該ビンの度数は、0よりも大きくて、次のビンの度数が0になるビン1-2を、第1クラスタの左側終端に存在するビン(すなわち、第1ターゲットビン)と判断することができる。またデータ処理システム100は、ビン1-2乃至ビン1-1に属する数値を第1クラスタ1と判断することができる。
【0074】
さらに
図4を参照すると、データ処理システム100は、ノイズが除去されたヒストグラムデータに基づき、基準データセット内の第2クラスタの右側終端に存在する第2ターゲットビンを探索することができる(S114)。基準データセット内の第2クラスタは、基準データセットが有するクラスタのうち、当該クラスタ内の数値の平均が二番目に大きいクラスタであってもよい。
【0075】
図5cの例を挙げて説明すると、データ処理システム100は、第1クラスタの左側終端にある第1ターゲットビンを探索した後、引き続き、ノイズが除去されたヒストグラムを逆順に探索し、以前のビンの度数が0であり、当該ビンの度数が0ではないビン2-1を、第2クラスタの右側終端に存在する第2ターゲットビンと判断することができる。また、データ処理システム100は、当該ビンの度数は0ではないが、次のビンの度数が0になるビン2-2を、第2クラスタの左側終端に存在するビンとして探索し、ビン2-2乃至ビン2-1に存在する数値を第2クラスタ2と判断することができる。
【0076】
第2クラスタの左側終端に存在するビンを探索してから、データ処理システム100は、同様な方法で、第3クラスタの右側終端に存在するビン(3-1)と第3クラスタの左側終端に存在するビン(3-2)を探索し、第3クラスタ(3)を判断することもできる。
【0077】
さらに
図4を参照すると、データ処理システム100は、第1ターゲットビン(例えば、
図5cの第1ターゲットビン1-2)及び第2ターゲットビン(例えば、
図5cの第2ターゲットビン2-1)の間の値のうちいずれか一つである閾値を算出することができる(S115)。
図5cの例を挙げて説明すると、データ処理システム100は、第2ターゲットビン2-1に属する最大値と第1ターゲットビン1-2に属する最小値の中央値(T)を閾値と決めることができる。それ以外にも、データ処理システム100は、第1クラスタ1と第2クラスタ2を分割させる任意の値が選定されるようにする様々な方法により、閾値を選定することができることはいうまでもない。
【0078】
また、上記の例では、第1クラスタと第2クラスタを、それぞれ、当該クラスタが属する数値の平均が最も大きいクラスタと二番目に大きいクラスタとした例を説明したが、これとは異なり、第1クラスタは、当該クラスタに属する数値の平均が最も小さいクラスタであり、第2クラスタは、当該クラスタに属する数値の平均が二番目に大きいクラスタである場合も、本発明の技術的思想が適用され、この場合、データ処理システム100は、ノイズが除去されたヒストグラムを、階級が最も小さいビンから順次に探索することにより、それぞれのクラスタの左/右側終端を判断することができることを、本発明が属する分野における通常の知識を有する者であれば、明らかに理解することができるであろう。また、データ処理システム100は、第2クラスタと第3クラスタを分割する閾値を算出することもできることはいうまでもない。
【0079】
一方、本発明における他の一実施形態では、全体的な演算速度を減らすために、閾値の算出に不必要であると見なされる一部数値を除去した後、ヒストグラムを生成することもできるが、これについて、
図6を参照して説明する。
【0080】
図6aは、本実施形態による自動閾値化を用いたデータ処理方法において、ヒストグラムを生成するステップ(すなわち、
図4のS111)をさらに詳しく示したフローチャートである。
【0081】
図6aを参照すると、データ処理システム100は、ヒストグラムデータを生成するために、先ず、基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成することができる(S1110)。例えば、データ処理システム100は、最初の基準データセットに含まれているそれぞれの数値のうち、上位10%及び下位10%の数値を除去して、修正データセットを生成することができる(S1120)。
【0082】
以降、データ処理システム100は、修正データセットに含まれているそれぞれの数値を用いて、ヒストグラムデータを生成することができるが、修正データセットを用いて生成されたヒストグラムの一例が、
図6bに示されている。上記で説明したように、
図5aは、最初の基準データセットを基準として生成されたヒストグラムの一例を示し、
図6bのヒストグラムは、
図5aと比較すれば、左/右側ビンの度数が0になったことを確認することができる。
【0083】
一方、本発明における他の実施形態では、ヒストグラムデータをそのまま用いるものではなく、平滑化されたヒストグラムデータ及び/または平滑化されたヒストグラムデータを差分したヒストグラムデータを用いてターゲットビンを探索してもよい。すなわち、本発明の実施形態では、平滑化されたヒストグラムデータを用いてターゲットビンを探索してもよく、平滑化されたヒストグラムデータを再び差分化して、差分したヒストグラムデータを用いてターゲットビンを探索してもよい。また、差分化を行う場合は、さらに直観的にヒストグラムデータの変曲点を判断し易いという効果がある。
【0084】
ヒストグラム平滑化(Histogram Equalization)は、一連のデータに相当するヒストグラムの分布が全体領域において均等に現れるように、当該データを変換する方法であって、例えば、コンピュータビジョン分野において映像の明暗対比を高めるか、映像の明るさを均一にするための方法として広く応用されている。周知のように、ヒストグラム平滑化は、それぞれのデータの頻度数を算出してヒストグラムを生成した後、それぞれのデータの累積度数(累積和)を計算し、計算した累積度数を正規化する過程からなる。
【0085】
差分化(differencing)は、周知のように、時系列データ(series data)解析の分野において、定常性(stationarity)を有さない一連のデータが定常性を示すようにする方法である。一連のデータを差分化するとは、一連のデータの差を計算するものであって、例えば、差分化を行うための方法は、連続する2つの値の差を計算する方法(一回差分)、連続する2つの値の差に白色雑音(white noise;ε)を反映(追加)する方法(ランダムウォークモデル)、1回差分化したデータをもう一回差分する方法(2回差分)、特定データと同じ季節の以前データとの間の差を求める季節差分(seasonal differencing)等が挙げられる。
【0086】
一方、ヒストグラム平滑化及び平滑化は、それぞれ、それに相当するマスク(またはフィルター)を適用する方法で行われてもよい。
【0087】
図7は、本発明の一実施形態による特定のデータクラスタの終端点の探索方法について概念的に説明するための図である。
図7において、記号Оはデータセットに含まれている個別データの原本を示し、Hはヒストグラムデータ、Sは平滑化されたヒストグラムデータ、Dは差分化されたヒストグラムデータを示す。また、
図8は、本発明の一実施形態による特定のデータクラスタの終端点の探索方法を説明するためのフローチャートを示す。以下では、便宜のため、複数のデータクラスタにおいて数値の低い順に1番目のデータクラスタの上端点(すなわち、右側終端点)を探す場合の例であるが、本発明の技術的思想が必ずしも1番目のデータクラスタに適用されなければならないとか、特定のデータクラスタの上端点を探索することにのみ適用されるものではない。例えば、ヒストグラムデータを用いて特定のクラスタの終端点を探索する場合、探索方向(例えば、第1軸の数値が低いビンから高いビンの方向に)に応じて、何番目(例えば、2番目)の終端点を探すかにより、任意のデータクラスタ(例えば、2番目のデータクラスタ)の終端点を探すことができる。また、探索方向(例えば、第1軸の数値が高いビンから低いビンの方向に)に応じて、特定のデータクラスタの上端点ではなく、下端点(すなわち、左側終端点)を探してもよい。以下では、説明の便宜のため、複数のデータクラスタにおいて数値の低い順に1番目のデータクラスタの上端点を探す場合を例にとって説明するが、本発明の権利範囲がこれに限定されることはない。
【0088】
図7は、マスクの直径(すなわち、パラメータの数)が3であり、単にパラメータの値がそれぞれ[-1.0.1]であるマスクをもって平滑化及び/または差分化を行う場合の例示的なヒストグラムデータを示しているが、平滑化マスク及び/または差分化マスクの直径とパラメータ値等が多様であることはいうまでもない。
【0089】
図7及び
図8を参照すると、データ処理システム100が入力されたデータセットに含まれている原個別データOは、
図7に示すように、正の実数値(例えば、1.23425、2.13425、4.23252、3.13141、 1.14452等)を有していてもよい。このような正の実数値は、
図1aまたは
図1bに示すグラフにおいて、第2軸(例えば、y軸)に相当する値であってもよい。
【0090】
上述のように、データ処理システム100は、入力された原個別データOに基づき、ヒストグラムデータHを生成することができる(S300)。ヒストグラムデータHは、個別データが要し得る数値の範囲を一定の幅を有する複数のビン20に分割し、分割されたビンのそれぞれに該当する数値を有する個別データの数が、それぞれのビンの度数を有するように生成されるデータであってもよい。このようなヒストグラムデータHを図式化すれば、
図7のヒストグラムデータHのようになる。
【0091】
図7のヒストグラムデータHにおいて、度数を有するビン21は、いずれか一つのデータクラスタに相当するヒストグラムの部分領域であってもよい。
【0092】
したがって、データクラスタの終端点、すなわち、データ処理システム100が探索しようとするターゲットビン30は、
図7に示すようになる。すなわち、
図7では、最後の個別データ、すなわち、ターゲットビン30の直前のビン21-1に該当する個別データの数値の範囲(すなわち、直前のビン21-1の第1軸の値の範囲)ではなく、その度数が存在する直前のビン21-1の直後のビンをターゲットビン30として探索する場合を示しているが、実施形態によっては、直前のビン21-1がターゲットビンになることもあるのはいうまでもない。
【0093】
データ処理システム100は、このようなヒストグラムデータHから直接的にターゲットビン30を探索するものではなく、ヒストグラムデータHを平滑化することができる。(S310)。
【0094】
また、平滑化されたヒストグラムデータSを用いて、ターゲットビン30を探索することができる(S340)。
【0095】
このように、平滑化されたヒストグラムデータSを用いることにより、度数を有する一連のビン21の間に一時的に度数が0であるビン(空きビンという。)が少なくとも一つ存在する場合、すなわち、探索しようとするデータクラスタに該当する数値の範囲内に個別データが存在しない一部の範囲が存在する場合、このような空きビンをターゲットビンとして判断するか否か、あるいは、空きビンと判断するか否かが不明になるという問題を解決することができる。すなわち、平滑化されたヒストグラムデータSを用いる場合は、たとえ元のヒストグラムHでは空きビンであるとしても、左右の度数に応じて一定の値を有するようになって、度数が0ではなくなることがあるため、平滑化されたヒストグラムデータSを活用した方がさらに有効になる場合がある。
【0096】
このように、原ヒストグラムデータHを平滑化した結果を例示すれば、
図7のヒストグラムSのようになる。
【0097】
ヒストグラムを平滑化するための平滑化マスク(またはフィルタ)及び/または差分マスクについては周知である。
【0098】
本発明の実施形態では、平滑化マスク及び/または差分マスクとしては、コンボリューションマスクを用いてもよく、所定の数字列xとコンボリューションマスクhは、次のように定義され得る。
【0099】
【0100】
本発明の一実施形態において、平滑化マスク及び差分マークの一例は、それぞれ[1、1、1、1、1、1、1、1、1、1]、[-1、-1、-1、-1、0、1、1、1、1]を用いており、もう一つの実施形態では、[1、1、1、1、1、1、1、1、1]、[-1、-1、-1、-1、0、1、1、1、1]を用いている。しかしながら、平滑化マスク及び差分マスクは、データセットに含まれている個別データの数及びクラスタの度合い等のデータセットの特性に応じて種々に設定可能である。
【0101】
一方、前述したように、データ処理システム100は、平滑化されたヒストグラムデータSを用いてターゲットビン30を探索していてもよいが、他のケースの場合は、平滑化されたヒストグラムデータSを差分化することにより、さらに明確にターゲットビン30を探索していてもよい。
【0102】
どのような場合に平滑化されたヒストグラムデータSを用いてターゲットビン30を探索し、また、どのような場合に差分化されたヒストグラムデータDを用いてターゲットビン30を探索するかは、データセットの特性に応じて予め決定されていてもよい。データセットの特性は、データの数、データの密集度、データクラスタの数をはじめとするデータセットの特性に基づいて決定されてもよく、予め繰り返し行われる実験を通じて特性がある範囲に収められる場合は、第1ケース、すなわち、平滑化ヒストグラムデータSを用いてターゲットビン30を探索し、別の第2ケースは、差分化ヒストグラムデータDを用いてターゲットビン30を探索するようにその基準が定められてもよいことはいうまでもない。
【0103】
いうまでもなく、実施形態によっては、ランダムに両方式のうちのいずれか一方を選んでもよく、具現例によっては、方式の両方を用いてターゲットビン30を探索し、その結果を比較してもよい。
【0104】
もし、方式の両方を用いてターゲットビン30を探索する場合は、探索されたターゲットビンのそれぞれの位置(第1軸の値)が同じであるか、あるいは、予め定められた位置(第1軸の値)の範囲内である場合、いずれか一方の方式により探されたターゲットビンを最終的なターゲットビンとして決定していてもよい。
【0105】
したがって、データ処理システム100は、入力される原個別データOに基づき、第1ケースであると判断した場合(S130)、上述したように、平滑化されたヒストグラムデータSを用いてターゲットビン30を探索することができる(S340)。
【0106】
また、データ処理システム100が第2ケースであると判断した場合、データ処理システム100は、平滑化されたヒストグラムデータSを再び差分することができる(S330)。すると、データ処理システム100は、差分化したヒストグラムデータDを用いてターゲットビン30を探索することができる(S340)。
【0107】
データ処理システム100が平滑化されたヒストグラムデータSからターゲットビン30を探索する場合の一例は、次の通りである。
【0108】
例えば、データ処理システム100は、平滑化されたヒストグラムデータSから一定の方向(例えば、数値の値が大きくなる方向)にビンのそれぞれの度数を探索してもよい。
【0109】
そうしながら、探索している現在のビンの以前の度数がカットオフ値(例えば、0)ではなく、かつ、現在の度数がカットオフ値(例えば、0)であり、予め定められた数(例えば、1個または2個以上)の次の度数がカットオフ値(例えば、0)を有するターゲットビン30を探索することができる。
【0110】
この場合、
図7において、ターゲットビン30が現在探索されている現在のビンである場合、直前のビン21-1の度数は0ではなく、現在のビンの度数は0であれば、予め定められた数(例えば、2個)の直後のビンの度数は0であるため、現在のビンをターゲットビン30として決定することができる。
【0111】
カットオフ値は0であってもよいが、実施形態によっては、1などのように小さな値を有するように設定されてもよい。この場合は、探索する終端点は、データクラスタから終端側に個別データが1つしか存在しない数値を探すアルゴリズムにより定義されてもよく、実施形態によって、カットオフ値は種々に設定可能である。
【0112】
一方、差分化されたヒストグラムデータDからターゲットビン30を探索する場合の一例は、次の通りである。
【0113】
例えば、データ処理システム100は、差分化されたヒストグラムデータDから一定の方向(例えば、数値の値が大きくなる方向)にビンのそれぞれの度数を探索してもよい。
【0114】
そうしながら、探索している現在のビンがターゲットビン30であれば、現在のビンの直前のビン21-1の度数が直後のビン31の度数よりも小さく、直前のビン21-1の度数が0に等しいかまたはそれよりも小さく、直後のビン31の度数が0に等しいかまたはそれよりも大きな値を有する場合が、探索しようとするターゲットビン30である場合であってもよい。すなわち、度数が負の実数値から次第に小さくなりながら0となる領域に該当する個所が探索しようとするターゲットビン30になることがある。
【0115】
一方、上述したようなヒストグラムデータを生成するとき、ビン幅をどのように設定するかによって、ターゲットビン30が探索されないこともある。例えば、ビン幅が広過ぎる場合は、探索しようとするデータクラスタとその次のデータクラスタとの間に個別データが多数存在し、相対的に密集している場合、カットオフ値を有するビンが存在しないこともある。これに反して、ビン幅を狭め過ぎる場合には、一つのデータクラスタ内においてもカットオフ値を有するビンが多数検出されてしまうという問題、またはビンの数が多くなって探索時間が長引いてしまうという問題等が生じるおそれがある。したがって、繰り返し行われる実験を通じて適切なビン幅を予め決定しておくことが必要になる場合もある。
【0116】
もし、このようなビン幅を予め決定しておくことが困難である場合は、所定のデフォルトのビン幅の値を用いて探索を行い、上述したようなターゲットビンが探索されない場合(すなわち、探索しようとするターゲットデータクラスタの終端のビンと、ターゲットデータクラスタと隣り合うデータクラスタのターゲットデータクラスタ側の終端のビンとの間に度数が0であるビンが存在しないほどビン幅が広い場合)は、順次に予め定められた単位値に見合う分だけビン幅を狭めていきながら、狭められたビン幅を用いて再びヒストグラムデータを生成してもよい。また、再び生成されたヒストグラムデータを用いて、前述したようなターゲットビンの探索手順(平滑化されたヒストグラムデータを用いたターゲットビンの探索、または差分化されたヒストグラムデータを用いたターゲットビンの探索)を行ってもよい。
【0117】
データ処理システム100は、
図7乃至
図8を参照して説明した上記の方法により、それぞれのクラスタの左側終端点及び右側終端点を判断し、それを用いて、それぞれのクラスタを分割する閾値を算出することができる。
【0118】
一方、さらに
図3を参照すると、データ処理システム100は、上述したような方法により、閾値を算出した後、少なくとも一つの解析対象のデータセットのそれぞれに対して、解析対象のデータセットを、閾値を用いて、互いに異なるクラスタに分割することができる(S120、S130)
【0119】
少なくとも一つの解析対象のデータセットは、全て多数の個別データを含んでもよく、それぞれの個別データは、数値の値を有していてもよい。
【0120】
解析対象のデータセットは、基準データセットと同じ方式の試験または実験により生成されたデータであってもよい。もし、基準データセットが特定の疾病または突然変異の発現の有無に対する陽性対照(positive control)試料から測定されたデータのセットである場合、少なくとも一つの解析対象のデータセットは、それに相当する解析の対象者から抽出した生体情報(例えば、遺伝子情報)を含む試料から測定されたデータのセットであってもよい。
【0121】
図9は、上述した方法により算出された閾値を基準として、複数の解析対象のデータセットに含まれている個別データを一括的に分類する例を示した図である。
【0122】
図9に示すように、分類の基準となる閾値12が算出された後、データ処理システム100は、複数の解析対象のデータセットA01、B01、…、H01を疾病または突然変異が発現されたことを示すデータクラスタ(すなわち、閾値12以上の値を有するクラスタ)及びそうではないクラスタ(すなわち、閾値12未満の値を有するクラスタ)に一括的に分類してもよい。
【0123】
一方、複数の解析対象のデータセットは、実験機器(例えば、Droplet Digital(商標) PCRシステム)それ自体で発生する誤差等により、数値の全体的な変動(shift)が発生することもある。すなわち、一つの解析対象のデータセット内では、問題がないが、他の解析対象のデータセットとの関係で数値が全体的に値が増加するか減少する場合が発生することがある。
【0124】
このため、データ処理システム100は、それぞれのデータセットの基線(baseline)値を基準として、全体的な数値を補正する過程をさらに行うようにしてもよい。このような実施形態による自動閾値化を用いたデータ処理方法の具体的な例が
図10に示されている。
【0125】
図10を参照すると、データ処理システム100は、基準データセットに含まれている多数の個別数値を入力され(S200)、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタを分割するための閾値を算出することができる(S210)。
【0126】
また、データ処理システム100は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線(baseline)値を算出することができる(S220)。
【0127】
一実施形態において、データ処理システム100は、上述した特定のクラスタの終端点の探索方法を適用して基線値を算出することができる。例えば、データ処理システム100は、特定のグループ(例えば、最下端グループ)の上端点及び下端点を探索した後、二つの点の中央値、平均値または重心値を基線値として算出してもよい。
【0128】
一方、データ処理システム100は、少なくとも一つの解析対象のデータセットのそれぞれに対して、
図10のS240乃至S260のステップを行うことができる(S230)。
【0129】
データ処理システムは、それぞれの解析対象のデータセットに対して、解析対象のデータセットに含まれているそれぞれの数値に基づき、解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出することができる(S240)。
【0130】
また、データ処理システム100は、基準データセットの基線値と解析対象のデータセットの基線値との差に基づき、閾値を補正した補正閾値を算出することができる。
【0131】
例えば、データ処理システム100は、閾値を基準データセットの基線値と解析対象のデータセットの基線値との差だけ補正した補正閾値を算出することができ(S250)、解析対象のデータセットに含まれているそれぞれの数値を、補正閾値を基準として区別することができる(S260)。一方、実施形態に応じて、データ処理システム100は、基準データセットの基線値と解析対象のデータセットの基線値との差が一定の水準以上である場合に限り、閾値を基準データセットの基線値と解析対象のデータセットの基線値との差だけ補正した補正閾値を算出し(S250)、解析対象のデータセットに含まれているそれぞれの数値を、補正閾値を基準として区別することもできる(S260)。
【0132】
図11は、複数の解析対象のデータセットに対するクラスタの分割において、基線値により閾値が補正される例を示した図である。
図11は、それぞれのデータセットであるA01、B01、C01、…、H09に対するクラスタの分割結果を示している。
【0133】
図11を参照すると、データ処理システム100は、A05データセットを除いた残りのデータセットに対しては、所定の閾値13を基準としてクラスタを分割するが、基準データセットの基線値とは異なる基線値を有するA05データセットに対しては、両者の差だけ補正された閾値14を基準としてクラスタを分割することができる。
【0134】
図12は、本発明の実施形態によるデータ処理システム100の論理的構成を説明するための図である。
【0135】
図12を参照すると、データ処理システム100は、入力モジュール140、閾値算出モジュール150、及び処理モジュール170を含んでもよい。本発明の実施形態に応じては、上述した構成要素のうち、一部の構成要素は、必ずしも本発明の具現に必須に必要な構成要素に該当しなくてもよく、また、実施形態に応じて、データ処理システム100は、これよりもさらに多くの構成要素を含んでもよいことは言うまでない。例えば、データ処理システム100は、基線値算出モジュール160及び/または本発明の技術的思想を具現するためにデータ処理システム100に含まれている他の構成(例えば、入力モジュール140、閾値算出モジュール150、基線値算出モジュール160、及び処理モジュール170等)、あるいは、データ処理システム100の機能やリソースを制御するための制御モジュール(図示せず)をさらに含んでもよい。
【0136】
データ処理システム100は、本発明の技術的思想を具現するために必要なハードウェアリソース(resource)及び/またはソフトウェアを備えた論理的な構成を意味するが、必ずしも一つの物理的な構成要素を意味するか、一つの装置を意味するものではない。すなわち、データ処理システム100は、本発明の技術的思想を具現するために備えられるハードウェア及び/またはソフトウェアの論理的な結合を意味するが、必要な場合は、互いに離隔した装置に設置され、それぞれの機能を行うことにより、本発明の技術的思想を具現するための論理的な構成の集合で具現されてもよい。また、データ処理システム100は、本発明の技術的思想を具現するためのそれぞれの機能または役割別に別途で備えられる構成の集合を意味することもある。例えば、入力モジュール140、閾値算出モジュール150、基線値算出モジュール160、及び処理モジュール170のそれぞれは、互いに異なる物理的装置に位置していてもよく、同一の物理的装置に位置していてもよい。また、具現例に応じては、入力モジュール140、閾値算出モジュール150、基線値算出モジュール160、及び処理モジュール170のそれぞれを構成するソフトウェア及び/またはハードウェアの結合も互いに異なる物理的装置に位置し、互いに異なる物理的装置に位置した構成が互いに有機的に結合され、それぞれのモジュールを具現することもできる。
【0137】
また、この明細書において、モジュールとは、本発明の技術的思想を行うためのハードウェア及びハードウェアを駆動するためのソフトウェアの機能的、構造的な結合を意味する。例えば、モジュールは、所定のコードと所定のコードが実行されるためのハードウェアリソース(resource)の論理的な単位を意味してもよく、必ずしも物理的に連結されたコードを意味したり、1種類のハードウェアを意味したりするとは限らないということは、本発明の技術分野における平均的な知識を有する専門家にとっては容易に推論できる筈である。
【0138】
図8を参照すると、入力モジュール140は、2以上のクラスタを有するデータセット(例えば、陽性対照に相当するデータセット)に含まれている多数の個別数値を入力される。入力モジュール140は、基準データセット及び/または少なくとも一つの解析対象のデータセットを入力される。
【0139】
閾値算出モジュール150は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタを分割するための閾値を算出することができる。閾値算出モジュール150が閾値を算出する様々な方法については、上記した説明の通りである。
【0140】
処理モジュール170は、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する解析対象のデータセットを、閾値を用いて、互いに異なるクラスタに分割することができる。
【0141】
一方、一実施形態において、データ処理システム100は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線(baseline)値を算出する基線値算出モジュール160をさらに含んでもよく、このとき、処理モジュール170は、多数の個別数値を有する解析対象のデータセットを、閾値を用いて、互いに異なるクラスタに分割するために、解析対象のデータセットに含まれているそれぞれの数値に基づき、解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出し、閾値を基準データセットの基線値と解析対象のデータセットの基線値との差だけ補正した補正閾値を算出し、解析対象のデータセットに含まれているそれぞれの数値を、補正閾値を基準として区別することができる。
【0142】
一方、一実施形態において、閾値算出モジュール150は、上述したように閾値算出のために特定のクラスタの終端点を探索することができる。
【0143】
一方、具現例に応じて、データ処理システム100は、プロセッサ、及びプロセッサにより起動されるプログラムを格納するメモリを備えていてもよい。プロセッサは、シングルコア中央演算処理装置(CPU)もしくはマルチコア中央演算処理装置(CPU)を備えていてもよい。メモリは、高速ランダムアクセスメモリを備えていてもよく、一台以上の磁気ディスク格納装置、フラッシュメモリ装置、またはその他の不揮発性固体状態メモリ装置等の不揮発性メモリを備えていてもよい。プロセッサ及びその他の構成要素によるメモリへのアクセスは、メモリコントローラにより制御されてもよい。
【0144】
一方、本発明の実施形態に係る自動閾値化を用いたデータ処理方法は、コンピュータ読み取り可能なプログラム指令の形態で具現されてコンピュータ読み取り可能な記録媒体に格納されてもよく、本発明の実施形態に係る制御プログラム及び対象プログラムもまた、コンピュータ読み取り可能な記録媒体に格納されてもよい。コンピュータ読み取り可能な記録媒体は、コンピュータシステムにより読み込まれるデータが格納されるあらゆる種類の記録装置を網羅する。
【0145】
記録媒体に記録されるプログラム指令は、本発明のために特別に設計され且つ構成されたものであってもよく、ソフトウェア分野における当業者にとって公知となって使用可能なものであってもよい。
【0146】
コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピディスク及び磁気テープ等の磁気媒体(magnetic media)、CD-ROM
(読み込み専用のコンパクトディスク)、デジタル多用途ディスク(DVD)等の光記録媒体(optical media)、フロプティカルディスク(floptical disk)等の磁気-光媒体(magneto-optical media)及びROM(読み出し専用メモリ)、RAM(ランダムアクセスメモリ)、フラッシュメモリ等のプログラム指令を格納しかつ行うように特別に工夫されたハードウェア装置が挙げられる。また、コンピュータ読み取り可能な記録媒体は、ネットワークにより結ばれたコンピュータシステムに分散されて、分散方式によりコンピュータ読み取り可能なコードが格納され且つ実行されてもよい。
【0147】
プログラム指令の例としては、コンパイラにより作成されるような機械語コードだけではなく、インタプリタ等を用いて電子的に情報を処理する装置、例えば、コンピュータにより起動可能な高級言語コードが挙げられる。
【0148】
上述したハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆も同様である。
【0149】
上述した本発明の説明は、単なる例示のためのものであり、本発明の属する技術分野における通常の知識を有する者は、本発明の技術的な思想や必須的な特徴を変更することなく、他の具体的な形態へと容易に変形できることが理解できる筈である。よって、上述した実施形態は、あらゆる面において例示的なものに過ぎず、限定的ではないものと理解すべきである。例えば、単一型であると説明されている各構成要素は、分散されて実施されてもよく、同様に、分散されていると説明されている構成要素も、組み合わせられた形態に実施されてもよい。
【0150】
本発明の範囲は、上記の詳細な説明よりは、特許請求の範囲によって表わされ、特許請求の範囲の意味及び範囲、並びにその均等概念から導き出されるあらゆる変更または変形された形態も本発明の範囲に含まれるものと解釈されるべきである。
【産業上の利用可能性】
【0151】
本発明は、自動閾値化を用いたデータ処理方法及びシステムに利用可能である。