IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ユジン バイオソフト カンパニー,リミテッドの特許一覧

特表2024-527705変数属性に基づく探索的データ分析自動化システム及び方法
<>
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図1
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図2
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図3
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図4
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図5a
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図5b
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図5c
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図6
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図7
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図8
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図9
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図10
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図11
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図12
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図13
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図14
  • 特表-変数属性に基づく探索的データ分析自動化システム及び方法 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-26
(54)【発明の名称】変数属性に基づく探索的データ分析自動化システム及び方法
(51)【国際特許分類】
   G06N 5/01 20230101AFI20240719BHJP
【FI】
G06N5/01
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023579452
(86)(22)【出願日】2022-09-28
(85)【翻訳文提出日】2023-12-28
(86)【国際出願番号】 KR2022014606
(87)【国際公開番号】W WO2023191206
(87)【国際公開日】2023-10-05
(31)【優先権主張番号】10-2022-0038970
(32)【優先日】2022-03-29
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523481425
【氏名又は名称】ユジン バイオソフト カンパニー,リミテッド
(74)【代理人】
【識別番号】100091683
【弁理士】
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【弁理士】
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】ユ,ジン テ
(72)【発明者】
【氏名】ユ,ジン ホ
(57)【要約】
本発明は、データ分析自動化システムに関し、より詳細には、多様に生成される変数に適応的にアルゴリズムを選択してデータ分析ができるように変数属性を考慮してデータ分析を自動化させることができるようにした、変数属性に基づく探索的データ分析自動化システムに関するものである。
【選択図】図2
【特許請求の範囲】
【請求項1】
データに含まれた変数の特徴を抽出して、変数の構成値の形態及び特徴によって変数を分類し、分類された変数の属性を定義する変数属性定義手段(10)と、データ分析アルゴリズムが保存管理され、データ分析制御手段(30)の要求に応えてアルゴリズムを提供するアルゴリズム管理手段(20)と、変数属性定義手段(10)を介して、データに含まれた変数の属性を定義し、変数属性に基づいてデータ分析のためのアルゴリズムを選択してデータ分析手段(40)のデータ分析を実行制御するデータ分析制御手段(30)と、データ分析制御手段(30)から設定されたアルゴリズムに従ってデータ分析を行い、その結果情報を分布分析結果表と分布分析結果図として提供するデータ分析手段(40)と、を含んでなり、
前記変数属性定義手段(100)は、データに含まれた変数の構成値の形態によって連続型変数(continuous variable)、カテゴリ型変数(categorical variable)に区分し、カテゴリ型変数は、序数変数(ordinal variable)、名目変数(nominal variable)に区分される第1分類変数と、データに含まれた変数の特徴に応じて単独測定変数(single measured variable)、繰り返し測定変数(repeatedly measured variable)、生存資料(survival data)を含む第2分類変数と、に区分し、その属性を定義し、
前記データ分析制御手段(30)は、変数属性を参照して自動的に分類された変数に対してその類型の組み合わせに応じて変数関係分析を行い、変数自体分布分析なのか、2つ以上の変数間の関係分析なのかを判断する変数関係分析制御手段(31)と、前記変数関係分析制御手段(31)の変数関係分析結果に基づいて変数自体分布分析である場合、連続型変数とカテゴリ型変数のそれぞれに対してデータを分析制御するようにする変数自体分布分析制御手段(32)と、前記変数関係分析制御手段(31)の変数関係分析結果に基づいて2つ以上の変数間の関係分析である場合、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数とが混在しているとき、生存資料であるときに区分してアルゴリズムを設定することでデータを分析制御するようにする変数間関係分析制御手段(30)と、を含んでなることを特徴とする、変数属性に基づく探索的データ分析自動化システム。
【請求項2】
前記データ分析制御手段(30)は、連続型変数に対してLilliefors test実行によって有意確率値(p値;p1)を計算し、Shapiro-Wilk test実行によって有意確率値(p値;p2)を計算し、基準値αとp1、p2との対比によって連続型変数に対する正規分布テスト結果を算出する連続型変数に対する正規分布テスト手段(34)をさらに含んでなり、
前記正規分布テスト手段(34)の連続型変数に対する正規分布テスト結果は、p1<α(AND又はOR)p2<αの条件を満たす場合には、正規分布に従わないと判断し、条件を満たさない場合には、正規分布に従うと判断するようにしたことを特徴とする、請求項1に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項3】
前記連続型変数に対する正規分布テスト手段(34)は、ユーザが基準値(α)を設定することができるように基準値設定プロセスを提供する基準値設定手段(34a)をさらに含むことを特徴とする、請求項2に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項4】
前記連続型変数の分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Min~Max:当該変数の最小値乃至最大値
(e)Mean±standard deviation:当該変数の平均±標準偏差
(f)Mean(95%CIs):当該変数の平均(95%信頼区間)
(g)Median(IQR):当該変数の中央値(inter-quartile range)
(h)Skewness:当該変数の歪度
(i)Kurtosis:当該変数の尖度
(j)Lilliefors test for normality、p value:当該変数の正規分布をLilliefors方法でテストした結果、有意確率値(p値)
(k)Shapiro-Wilk test for normality、p value:当該変数の正規分布をShapiro-Wilk方法でテストした結果、p値
前記カテゴリ型変数の分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Subgroup:カテゴリ型変数に含まれているサブグループ名
(e)N(%):当該サブグループ(subgroup)に含まれているサンプルの数及び%
(f)95%CI:当該サブグループに含まれているサンプル数%の95%信頼区間
を含んでなることを特徴とする、請求項1又は2に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項5】
前記変数間関係分析制御手段(33)は、
全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定と繰り返し測定変数とが混在しているとき、生存資料であるときに区分してアルゴリズムを設定することでデータ分析を制御するようにするプロセスを提供し、
[全部単独測定変数であるとき]
全部単独測定変数であるとき、2つの変数間の関係分析と3つ以上の変数間の関係分析を区分してデータ分析を行うが、2つの変数間の関係分析である場合には、連続型変数と連続型変数の関係、連続型変数とカテゴリ型変数の関係、カテゴリ型変数とカテゴリ型変数の関係に応じてデータ分析を行い、3つ以上の変数間の関係分析である場合には、全部連続型変数であるとき、全部カテゴリ型変数であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析を行うプロセスを含んでなることを特徴とする、請求項1又は2に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項6】
[連続型変数と連続型変数の関係]
前記連続型変数と連続型変数の関係である場合、データ分析制御プロセスは、2つの連続型変数に対する正規分布テストを行う過程と、正規分布テスト結果、2つの変数とも正規分布に従うかを判断して、正規分布に従う場合には、Pearson correlation analysisを設定してデータ分析制御を行い、正規分布に従わない場合には、Spearman correlation analysisを設定してデータ分析制御を行い、その分析結果を分析結果表及び分析結果図として提供するようにする過程を含んでなり、
[連続型変数とカテゴリ型変数の関係]
前記連続型変数とカテゴリ型変数の関係である場合、データ分析制御プロセスは、
平均差異分析であるとき、相関分析であるとき、2分型反応予測性能分析であるときに区分してデータ分析を行うが、
前記平均差異分析は、カテゴリ型変数サブグループ数(m)を抽出し、抽出されたカテゴリ型変数サブグループ数(m)が2つであるときと、カテゴリ型変数サブグループ数が3つ以上であるときに、それぞれ連続型変数に対して正規分布テストを行う過程と、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従うかを判断する過程と、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従わない場合には、Wilcoxon rank-sum testを設定し、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従う場合には、Levene’s testを行うことで、各サブグループの分散が同一であるかをテストし、各サブグループの分散が同一であれば「Student’s Test」を設定し、各サブグループの分散が同一でなければ「Welch’s T test」を設定してデータ分析を制御する過程と、カテゴリ型変数サブグループ数(m)が3つ以上であるときに連続型変数が正規分布に従う場合には、一元分散分析(1-way ANOVA)を設定してデータ分析を制御し、連続型変数が正規分布に従わない場合には、Kruskal-Wallis H testを設定してデータ分析を制御する過程と、を含んでなり、
前記相関分析は、連続型変数に対する正規分布分析を行う過程と、連続型変数が正規分布に従うかを判断する過程と、連続型変数が正規分布に従う場合にカテゴリ型変数が序数であるかを判断する過程と、カテゴリ型変数が序数である場合には、Polyserial correlation analysisを設定してデータ分析を制御し、カテゴリ型変数が序数でない場合には、Point polyserial correlation analysisを設定してデータ分析を制御する過程と、連続型変数が正規分布に従わない場合には、カテゴリ型変数が序数変数であるかを判断する過程と、カテゴリ型変数が序数変数である場合には、Polychoric correlation analysisを設定してデータ分析を制御し、カテゴリ型変数が序数変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を制御する過程と、を含んでなり、
前記2分型反応予測性能分析は、カテゴリ型変数サブグループ数(m)を抽出する過程と、抽出されたカテゴリ型変数サブグループ数(m)が2つである場合、ROC curve analysisアルゴリズムを設定してデータ分析を制御する過程と、を含んでなり、
[カテゴリ型変数とカテゴリ型変数の関係]
前記カテゴリ型変数とカテゴリ型変数の関係である場合、データ分析制御プロセスは、
カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合と、それ以外の場合とに区分し、前記カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合には独立性検定、前記カテゴリ型変数に含まれたサブグループ数(m、n)が2つでない場合には独立性検定、傾向性検定、相関分析に区分してデータ分析を制御する過程を含んでなり、
前記独立性検定は、2つのカテゴリ型変数のサブグループを組み合わせた2×2のクロス表を作成し、カテゴリ型変数が独立であるという仮定の下に期待値表を作成し、カテゴリ型変数に含まれたサブグループの数(m、n)のm×nのクロス表において期待値<5のセル(cell)数が総セル数の25%以上であるかを判断する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上である場合、コンピュータ計算容量を考慮して、コンピュータ計算容量が十分であればFisher’s exact testを設定し、コンピュータ計算容量が十分でなければChi-squared test with Yates correctionを設定し、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%未満である場合、クロス表が2×2の形態であるかを判断し、クロス表が2×2の形態であればChi-squared test with Yates correctionを設定し、クロス表が2×2の形態でなければChi-squared testを設定してデータ分析を制御する過程と、を含んでなり、
前記傾向性検定は、カテゴリ型変数2つのサブグループを組み合わせたm×nのクロス表を作成し、m≧3 and n≧3の条件を満たすかを判断する過程と、m≧3 and n≧3の条件を満たす場合にはLinear by linear assciation testを選択して設定し、m≧3 and n≧3の条件を満たさない場合にはCochran’Qtestを設定してデータ分析を制御する過程と、を含んでなり、
前記相関分析は、カテゴリ型変数が全て序数であるかを判断し、全部序数である場合にはPolychoric correlation analysisを選択して設定し、カテゴリ型変数が全部序数でない場合にはカテゴリ型変数が全て名目変数であるかを判断して、全部名目変数である場合には、Cramer’s V analysisを選択して設定し、全部名目変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を制御する過程を含んでなり、
[3つ以上の全単独測定変数間の関係分析]
前記3つ以上の全単独測定変数間の関係分析データ分析制御プロセスは、
3つ以上の変数集団が全部連続型であるとき、全部カテゴリ型であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析を行うが、
全部連続型であるときは、PCA(Principa Component Analysis)を設定し、データ分析を制御する過程を含んでなり、
連続型変数とカテゴリ型変数とが混在しているときは、連続型変数のそれぞれを従属変数として使用し、Univariable Linear regressionを設定して、残りの変数が連続型変数に及ぼす個別影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、Multivariable linear regressionを設定して、残りの変数が連続型変数に及ぼす統合的な影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、残りの変数の中にカテゴリ型変数があるとき、ANCOVA(Analysis of covariance)を設定してデータ分析制御を行い、連続型変数のそれぞれを従属変数として使用し、残りの変数が全部カテゴリ型変数であるとき、2-way ANOVAを行ってデータ分析を制御する過程と、を含んでなり、
全部カテゴリ型変数であるときは、2分型変数があるかを判断する過程と、2分型変数がある場合に2分型変数のそれぞれを従属変数として使用し、Uniavariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす個別影響性を分析する過程と、2分型変数のそれぞれを従属変数として使用し、残りの変数に2分型変数がある場合に、2分型変数のそれぞれを従属変数として使用し、2分型反応予測モデルを構築する過程と、構築された2分型反応予測モデルに対する検証分析を制御する過程と、
全部カテゴリ型変数であるときは、2分型変数があるかを判断する過程と、2分型変数がある場合に2分型変数のそれぞれを従属変数として使用し、Uniavariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす個別影響性を分析し、Multivariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす統合的な影響力を分析する過程と、2分型反応予測モデルを構築する過程と、構築された2分型反応予測モデルに対する検証分析を制御する過程と、
2分型変数がなく且つ全部3分型以上の変数である場合には、変数のそれぞれを従属変数として使用し、3分型変数を序数変数と仮定し、3分型変数を名目変数と仮定するときのそれぞれに対して残りの変数が3分型序数変数、3分型名目変数に及ぼす個別影響力の分析、統合的な影響力の分析を行うが、Univariable ordinal logistic regressionを設定して、残りの変数が3分型序数変数に及ぼす個別影響力を分析する過程と、Multicariable ordinal logistic regressionを設定して、残りの変数が3分型序数変数に及ぼす統合的な影響力を分析する過程と、Univariable nominal logisticを設定して、残りの変数が3分型名目変数に及ぼす個別影響力を分析する過程と、Multicariable nominal logistic regressionを設定して、残りの変数が3分型名目変数に及ぼす統合的な影響力を分析する過程と、を含んでなることを特徴とする、請求項5に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項7】
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果表に提示される数値は、
(a)相関係数(correlation coefficient)
(b)相関係数の95%信頼区間(95% confidence interval)
(c)相関係数が0であるかを検定した結果で計算される有意確率値(p値)を含むことを特徴とする、請求項6に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項8】
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果図は、x軸、y軸変数が設定され、回帰曲線が表現される相関散点図(Correlation Scatter plot)からなることを特徴とする、請求項6に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項9】
前記連続型変数とカテゴリ型変数の関係である場合に、データ分析制御プロセスは、
前記1-way ANOVA、Kruskal-Wallis H testによるデータ分析後に事後検証(Post-hoc analysis)を実行制御する過程をさらに含み、
前記1-way ANOVAによるデータ分析後に行われる事後検証に使用されるアルゴリズムは、Bonferroni test、Tukey test、Scheffe test、Dunnett testを含んでなり、前記Kruskal-Wallis H testによるデータ分析後の事後検証に使用されるアルゴリズムは、Bonferroni test、FDR(False Discovery rate)、Dunn’s testを含んでなることを特徴とする、請求項6に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項10】
前記2分型反応予測モデルに対する検証分析は、Discrimination側面予測性能分析、Calibration側面予測性能分析、モデル性能交差検証分析によって行われ、
前記Discrimination側面予測性能分析に使用される指標は、
(a)性能分析指標(95%信頼区間を含む)
・AUC(95%CI)
・Sensitivity、Specificity
・PPV(positive predictive value)、NPV(negative predictive value)
・ACC(accuracy)、MIS(miss-classification rate)
・FPR(False Positive Rate)、FNR(False Negative Rate)、FDR(False Discovery Rate)、FOR(False Omission Rate)
・LR+(Positive Likelihood Ratio)、LR-(Negative Likelihood Ratio)、DOR(Diagnostic Odds Ratio)
(b)性能分析結果の視覚化
・ROC curve
前記Calibration側面予測性能分析に使用される指標は、
(a)性能分析指標
・AIC(Akaike Information Criterion)
・BIC(Bayes Information Criterion)
・Nagelkerke R2
・Hosmer-Lemeshow test P value
・Brier score
・Spigelhalter Z score with P value
・Calibration plotにおけるlinear regression line
・Intercept、95%信頼区間及びp値
・Slope、95%信頼区間及びp値
(b)性能分析結果の視覚化
・Calibration plot
・Decile plot
・Calibration belt
前記モデル性能交差検証分析は、
(a)性能交差検証に使用される方法
・LOOCV(leave-one-out cross-validation)
・K-fold CV(cross validation)
・Permutation test
・Bootstrapping
(b)交差検証結果の視覚化
・ROC curve
・Calibration plot
・Decile plot
・Calibration belt
を含んでなることを特徴とする、請求項6に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項11】
[全部繰り返し測定変数であるときの分析]
前記全部繰り返し測定変数分析データ分析制御プロセスは、
繰り返し測定変数が2つである場合と、繰り返し測定変数が3つ以上である場合に区分し、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分してデータ分析を行うが、
前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数である場合、連続型変数に対する正規分布分析を行い、連続型変数が正規分布に従うかを判断し、正規分布に従う場合には、Paired sample T testを設定し、正規分布に従わない場合には、Wilcoxon signed-rank testを設定してデータ分析を制御する過程を含んでなり、
繰り返し測定変数が2つであり且つ繰り返し測定変数がカテゴリ型変数である場合、カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つであるとき(m=2、n=2)、McNemar’s test、Cohens’ Kappaを設定してデータ分析を制御する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)がそれぞれ2つ、3つ以上であるとき(m=2、n≧3)、Cochran-Armitage test for trendを設定してデータ分析を制御する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)が全て3つ以上であるとき(m≧3、n≧3)、McNemar-Bowker testを設定してデータ分析を制御する過程と、含んでなり、
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数が連続型変数である場合、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysis、Repeated measures 1-way ANOVAを設定してデータ分析を制御する過程を含んでなり、
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数がカテゴリ型変数である場合、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を制御する過程を含んでなることを特徴とする、請求項1又は2に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項12】
前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数である場合、ICC(Intraclass Correlation Coefficient) analysisを設定してデータ分析を制御する過程をさらに含んでなることを特徴とする、請求項11に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項13】
[単独測定変数が混在しているときの分析]
前記単独測定変数が混在しているときのデータ分析制御プロセスは、
繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分し、
繰り返し測定変数が連続型変数である場合には、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を制御し、繰り返し測定変数が連続型変数であり且つ単独測定変数がカテゴリ型変数であるとき、Repeated measures 2-way ANOVAを設定してデータ分析を制御する過程を含んでなり、
繰り返し測定変数がカテゴリ型変数である場合には、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を制御する過程を含んでなることを特徴とする、請求項1又は2に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項14】
[生存資料の分析]
前記生存資料データ分析制御プロセスは、
生存時間、イベント発生変数のみがある場合と、生存時間、イベント発生変数及び単独測定資料がある場合に区分し、
生存時間、イベント発生変数のみがある場合には、Kaplan-Meier curve analysisを設定してデータ分析を制御し、生存時間、イベント発生資料及び単独測定資料が共にある場合には、Univariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす個別影響力分析を制御する過程と、Multivariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす統合的な影響力を分析制御する過程と、Kaplan-Meier curve analysisを設定してLog rank test(詳細カテゴリ間の生存確率差の比較)を制御する過程と、を含んでなることを特徴とする、請求項1又は2に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項15】
前記生存資料データ分析制御プロセスは、
生存確率予測モデルを構築する過程と、Time=tにおけるDiscrimination側面予測性能分析、time=tにおけるCalibration側面予測性能分析、生存確率予測モデル交差検証分析を行って生存確率予測モデルを分析制御する過程をさらに含んでなることを特徴とする、請求項14に記載の変数属性に基づく探索的データ分析自動化システム。
【請求項16】
データ分析自動化のための変速属性を定義する変数属性定義過程と、変数属性に基づいてデータ分析のためのアルゴリズムを選択して設定する過程と、を含むデータ分析自動化方法であって、
前記一つの変数属性を定義する変数属性定義過程は、
データに含まれた変数の構成値の形態によって連続型変数(continuous variable)、カテゴリ型変数(categorical variable)に区分し、カテゴリ型変数は、序数変数(ordinal variable)、名目変数(nominal variable)に区分される第1分類変数と、データに含まれた変数の特徴に応じて単独測定変数(single measured variable)、繰り返し測定変数(repeatedly measured variable)及び生存資料(survival data)を含む第2分類変数と、に区分し、その属性を定義する過程を含んでなり、
変数属性に基づいてデータ分析のためのアルゴリズムを選択してデータ分析を行うデータ分析過程は、
自動的に分類された変数に対してその類型の組み合わせに応じて変数関係分析を行い、変数自体分布分析なのか、2つ以上の変数間の関係分析なのかを判断する変数関係分析過程と、
前記変数関係分析過程の変数関係分析結果に基づいて変数自体分布分析である場合、連続型変数とカテゴリ型変数のそれぞれに対して分布を分析し、その結果を分布分析結果表と分布分析結果図として提供する変数自体分布分析過程と、
前記変数関係分析過程の変数関係分析結果に基づいて2つ以上の変数間の関係分析である場合には、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数とが混在しているとき、生存資料であるときに区分してアルゴリズムを選択して設定し、データ分析結果を提供する変数間関係分析過程と、を含んでなることを特徴とする、変数属性に基づく探索的データ分析自動化方法。
【請求項17】
前記変数自体分布分析過程は、Lilliefors test実行によって有意確率値(p値:p1)を計算する過程と、Shapiro-Wilk test実行によって有意確率値(p値:p2)を計算する過程と、設定基準値(α)とp1、p2との対比によって連続型変数に対する正規分布テスト結果を算出する過程と、を含む連続型変数正規分布テスト過程と、をさらに含み、
前記連続型変数に対する正規分布テスト結果は、p1<α(AND又はOR)p2<αの条件を満たす場合には、正規分布に従わないと判断し、条件を満たさない場合には、正規分布に従うと判断するようにしたことを特徴とする、請求項16に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項18】
前記変数自体分布分析過程において、
前記連続型変数分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Min~Max:当該変数の最小値乃至最大値
(e)Mean±standard deviation:当該変数の平均±標準偏差
(f)Mean(95%CIs):当該変数の平均(95%信頼区間)
(g)Median(IQR):当該変数の中央値(inter-quartile range)
(h)Skewness:当該変数の歪度
(i)Kurtosis:当該変数の尖度
(j)Lilliefors test for normality、p value:当該変数の正規分布をLilliefors方法でテストした結果、有意確率値(p値)
(k)Shapiro-Wilk test for normality、p value:当該変数の正規分布をShapiro-Wilk方法でテストした結果、p値
前記カテゴリ型変数分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Subgroup:カテゴリ型変数に含まれているサブグループ名
(e)N(%):当該サブグループ(subgroup)に含まれているサンプルの数及び%
(f)95%CI:当該サブグループに含まれているサンプル数%の95%信頼区間
を含むことを特徴とする、請求項16又は17に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項19】
[全部単独測定変数であるとき]
前記変数間関係分析過程で全部単独測定変数であるときは、2つの変数間の関係分析と、3つ以上の変数間の関係分析を区分してデータ分析を行うが、2つの変数間の関係分析である場合には、(C)連続型変数と連続型変数の関係、(D)連続型変数とカテゴリ型変数の関係、(E)カテゴリ型変数とカテゴリ型変数の関係に応じてデータ分析を行い、(F)3つ以上の変数間の関係分析である場合には、全部連続型変数であるとき、全部カテゴリ型変数であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析を行う過程を含んでなることを特徴とする、請求項16又は17に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項20】
[連続型変数と連続型変数の関係]
前記(C)連続型変数と連続型変数の関係である場合には、2つの連続型変数に対する正規分布テストを行う過程と、正規分布テストの結果、2つの変数が全て正規分布に従うかを判断し、正規分布に従う場合には、「Pearson correlation analysis」を設定してデータ分析を行い、正規分布に従わない場合には、「Spearman correlation analysis」を設定してデータ分析を行い、その分析結果を分析結果表及び分析結果図として提供する過程と、を含んでなり、
[連続型変数とカテゴリ型変数の関係]
前記(D)連続型変数とカテゴリ型変数の関係である場合には、
平均差異分析であるとき、相関分析であるとき、2分型反応予測性能分析であるときに区分してデータ分析を行うが、
前記平均差異分析は、カテゴリ型変数サブグループ数(m)を抽出し、抽出されたカテゴリ型変数サブグループ数(m)が2つであるときと、カテゴリ型変数サブグループ数が3つ以上であるときに、それぞれ連続型変数に対して正規分布テストを行う過程と、カテゴリ型変数サブグループ数(m)が2つであるとき、連続型変数が正規分布に従うかを判断する過程と、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従わない場合には、「Wilcoxon rank-sum test」を設定し、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従う場合には、「Levene’s test」を行って各サブグループの分散が同一であるかをテストし、各サブグループの分散が同一であれば「Student’s Test」を設定し、各サブグループの分散が同一でなければ「Welch’s T test」を設定してデータ分析を行い、
カテゴリ型変数サブグループ数(m)が3つ以上であるとき、連続型変数が正規分布に従う場合には、一元分散分析(1-way ANOVA)を設定してデータ分析を行い、連続型変数が正規分布に従わない場合には、Kruskal-Wallis H testを設定してデータ分析を行う過程を含んでなり、
前記相関分析は、連続型変数に対する正規分布分析を行う過程と、連続型変数が正規分布に従うかを判断する過程と、連続型変数が正規分布に従う場合にカテゴリ型変数が序数であるかを判断する過程と、カテゴリ型変数が序数である場合にはPolyserial correlation analysisを設定してデータ分析を行い、カテゴリ型変数が序数でない場合にはPoint polyserial correlation analysisを設定してデータ分析を行う過程と、連続型変数が正規分布に従わない場に、カテゴリ型変数が序数変数であるかを判断する過程と、カテゴリ型変数が序数変数である場合には、Polychoric correlation analysisアルゴリズムを設定してデータ分析を行い、カテゴリ型変数が序数変数でない場合には、Rank Polyserial correlation analysisアルゴリズムを設定してデータ分析を行う過程と、を含んでなり、
前記2分型反応予測分析は、カテゴリ型変数サブグループ数(m)を抽出する過程と、前記抽出されたカテゴリ型変数サブグループ数(m)が2つである場合、ROC curve analysisアルゴリズムを設定してデータ分析を制御する過程と、を含んでなり、
[カテゴリ型変数とカテゴリ型変数の関係]
前記(E)カテゴリ型変数と変数型変数の関係は、カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合と、それ以外の場合に区分し、前記カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合には独立性検定、前記カテゴリ型変数に含まれたサブグループ数(m、n)が2つでない場合には独立性検定、傾向性検定、相関分析によってデータ分析を行う過程を含んでなり、
前記独立性検定は、カテゴリ型変数2つのサブグループを組み合わせた2×2のクロス表を作成し、カテゴリ型変数が独立であるという仮定の下に期待値表を作成し、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上であるかを判断する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上である場合、コンピュータ計算容量を考慮して、コンピュータ計算容量が十分である場合には、Fisher’s exact testを設定し、コンピュータ計算容量が十分でない場合には、Chi-squared test with Yates correctionを設定し、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%未満である場合、クロス表が2×2の形態であるかを判断し、クロス表が2×2の形態である場合には、Chi-squared test with Yates correctionを設定し、クロス表が2×2の形態でない場合には、Chi-squared testを設定してデータ分析を行う過程と、を含んでなり、
前記傾向性検定は、カテゴリ型変数2つのサブグループを組み合わせたm×nのクロス表を作成し、m≧3 and n≧3の条件を満たすかを判断する過程と、m≧3 and n≧3の条件を満たす場合にはLinear by linear association testを選択して設定し、m≧3 and n≧3の条件を満たさない場合にはCochran’Qtestを選択して設定してデータ分析を行う過程と、を含んでなり、
前記相関分析は、カテゴリ型変数が全て序数であるかを判断し、全部序数である場合には、Polychoric correlation analysisを選択して設定し、カテゴリ型変数が全部序数でない場合には、カテゴリ型変数が全て名目変数であるかを判断して、全部名目型変数である場合には、Cramer’s V analysisを選択して設定し、全部名目型変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を行う過程を含んでなり、
[3つ以上の全単独測定変数間の関係分析]
(F)3つ以上の変数間の関係分析は、3つ以上の変数集団が全部連続型であるとき、全部カテゴリ型であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析を行うが、
全部連続型であるときは、PCA(Principa Component Analysis)を設定し、データ分析を行う過程を含んでなり、
連続型変数とカテゴリ型変数とが混在しているときは、連続型変数のそれぞれを従属変数として使用し、Univariable Linear regressionを設定して、残りの変数が連続型変数に及ぼす個別影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、Multivariable linear regressionを設定して、残りの変数が連続型変数に及ぼす統合的な影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、残りの変数の中にカテゴリ型変数があるとき、ANCOVA(Analysis of covariance )を設定してデータ分析を行い、連続型変数のそれぞれを従属変数として使用し、残りの変数が全部カテゴリ型変数であるとき、2-way ANOVAを行ってデータを分析する過程と、を含んでなり、
全部カテゴリ型変数であるときは、2分型変数があるかを判断する過程と、2分型変数がある場合、2分型変数のそれぞれを従属変数として使用し、Uniavariable binary logistic regressionを行うことにより、残りの変数が2分型変数に及ぼす個別影響性を分析する過程と、2分型変数のそれぞれを従属変数として使用し、Multivariable binary logistic regressionを行うことにより、残りの変数が2分型変数に及ぼす統合的な影響力を分析する過程と、2分型応答予測モデルを構築する過程と、構築された2分型反応予測モデルに対する検証分析を制御する過程と、
2分型変数がなく且つ全部3分型以上の変数である場合には、変数のそれぞれを従属変数として使用し、3分型変数を序数変数と仮定し、3分型変数を名目変数と仮定するとき、それぞれに対して残りの変数が3分型序数変数、3分型名目変数に及ぼす個別影響力の分析、統合的な影響力の分析を行うが、Uniavariable ordinal logistic regressionを行い、残りの変数が3分型序数変数に及ぼす個別影響力を分析する過程と、Multivariable ordinal logistic regressionを行い、残りの変数が3分型序数変数に及ぼす統合的な影響力を分析する過程と、Univariable nominal logisticを行い、残りの変数が3分型名目変数に及ぼす個別影響力を分析する過程と、Multivariable nominal logistic regressionを行い、残りの変数が3分型名目変数に及ぼす統合的な影響力を分析する過程と、を含んでなることを特徴とする、請求項19に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項21】
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果表に提示される数値は、
(a)相関係数(correlation coefficient)
(b)相関係数の95%信頼区間(95% confidence interval)
(c)相関係数が0であるかを検定した結果で計算される有意確率値(p値)を含んで構成されることを特徴とする、請求項20に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項22】
前記連続型変数とカテゴリ型変数の関係分析において、
前記1-way ANOVA、Kruskal-Wallis H testによるデータ分析後に事後検証(Post-hoc analysis)を実行制御する過程をさらに含み、
前記1-way ANOVAによるデータ分析後に行われる事後検証に使用されるアルゴリズムは、Bonferroni test、Tukey test、Scheffe test、Dunnett testを含んでなり、前記Kruskal-Wallis H testによるデータ分析後の事後検証に使用されるアルゴリズムは、Bonferroni test、FDR(False Discovery rate)、Dunn’s testを含んでなることを特徴とする、請求項20に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項23】
平均差異分析において、カテゴリ型変数サブグループ数(m)が2つである場合、ROC curve analysisを設定してデータ分析を制御する過程をさらに含む、請求項20に記載の変数属性に基づく検索データ分析自動化方法。
【請求項24】
2分型反応予測モデルに対する検証分析を制御する過程において、前記2分型反応予測モデルに対する検証分析は、Discrimination側面予測性能分析、Calibration側面予測性能分析、モデル性能交差検証分析によって行われ、
前記discrimination側面予測性能分析に使用される指標は、
(a)性能分析指標(95%信頼区間を含む)
・AUC(95%CI)
・Sensitivity、Specificity
・PPV(positive predictive value)、NPV(negative predictive value)
・ACC(accuracy)、MIS(miss-classification rate)
・FPR(False Positive Rate)、FNR(False Negative Rate)、FDR(False Discovery Rate)、FOR(False Omission Rate)
・LR+(Positive Likelihood Ratio)、LR-(Negative Likelihood Ratio)、DOR(Diagnostic Odds Ratio)
(b)性能分析結果の視覚化
・ROC curve
前記Calibration側面性能分析に使用される指標は、
(a)性能分析指標
・AIC(Akaike Information Criterion)
・BIC(Bayes Information Criterion)
・Nagelkerke R2
・Hosmer-Lemeshow test P value
・Brier score
・Spigelhalter Z score with P value
・Calibration plotにおけるlinear regression line
・Intercept、95%信頼区間及びp値
・Slope、95%信頼区間及びp値
(b)性能分析結果の視覚化
・Calibration plot
・Decile plot
・Calibration belt
前記モデル性能交差検証分析は、
(a)性能交差検証に使用される方法
・LOOCV(leave-one-out cross-validation)
・K-fold CV(cross validation)
・Permutation test
・Bootstrapping
(b)交差検証結果の視覚化
・ROC curve
・Calibration plot
・Decile plot
・Calibration belt
を含んで構成されることを特徴とする、請求項20に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項25】
[全部繰り返し測定変数であるときの分析]
(G)全部繰り返し測定変数である場合は、繰り返し測定変数が2つである場合と、繰り返し側定変数が3つ以上である場合に区分し、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分してデータ分析を行うが、
前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数であるとき、連続型変数に対する正規分布分析を行い、連続型変数が正規分布に従うかを判断し、正規分布に従う場合にはPaired sample T testを設定し、正規分布に従わない場合にはWilcoxon signed-rank testを設定してデータ分析を行う過程を含んでなり、
繰り返し測定変数が2つであり且つ繰り返し測定変数がカテゴリ型変数であるとき、カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つであるとき(m=2、n=2)、McNemar’s test、Cohens’ Kappaを設定してデータ分析を行う過程と、カテゴリ型変数に含まれたサブグループ数(m、n)がそれぞれ2つ、3つ以上であるとき(m=2、n≧3)、Cochran-Armitage test for trendを設定してデータ分析を行う過程と、カテゴリ型変数に含まれたサブグループ数(m、n)が全て3つ以上であるとき(m≧3、n≧3)、McNemar-Bowker testを設定してデータ分析を行う過程と、を含んでなり、
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数が連続型変数であるとき、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysis、Repeated measures 1-way ANOVAを設定してデータ分析を行う過程を含んでなり、
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数がカテゴリ型変数であるとき、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analylsisを設定してデータ分析を行う過程を含んでなることを特徴とする、請求項16又は17に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項26】
[単独測定変数が混在しているときの分析]
(H)単独測定変数と繰り返し測定変数とが混在している場合は、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分し、
繰り返し測定変数が連続型変数である場合には、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を行い、繰り返し測定変数が連続型変数であり且つ単独測定変数がカテゴリ型変数であるとき、Repeated measures 2-way ANOVAを設定してデータ分析を行う過程を含んでなり、
繰り返し測定変数がカテゴリ型変数である場合には、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を行う過程を含んでなることを特徴とする、請求項16又は17に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項27】
[生存資料の分析]
(I)生存資料の分析は、生存時間、イベント発生変数のみがある場合と、生存時間、イベント発生変数及び単独測定資料がある場合に区分し、
生存時間、イベント発生変数のみがある場合には、Kaplan-Meier curve analysisアルゴリズムを設定してデータ分析を行い、生存時間、イベント発生資料及び単独測定資料が共にある場合には、Univariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす個別影響力を分析する過程と、Multivariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす統合的な影響力を分析する過程と、Kaplan-Meier curve analysisを設定してLog rank実行(詳細カテゴリ間の生存確率差異比較)を行う過程と、を含んでなることを特徴とする、請求項16又は17に記載の変数属性に基づく探索的データ分析自動化方法。
【請求項28】
生存時間、イベント発生変数及び単独測定資料がある場合には、生存確率予測モデルを構築する過程と、Time=tにおけるDiscrimination側面予測性能分析、time=tにおけるCalibration側面予測性能分析、生存確率予測モデル交差検証分析を行うことにより、生存確率予測モデルを分析する過程と、をさらに含んでなることを特徴とする、請求項27に記載の変数属性に基づく探索的データ分析自動化方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分析自動化システムに関し、より詳細には、多様に生成される変数に適応的にアルゴリズムを選択してデータ分析ができるように変数属性を考慮してデータ分析を自動化させることができるようにした、変数属性に基づく探索的データ分析自動化システムに関する。
【背景技術】
【0002】
臨床関連分野では、病気を引き起こす或いは病気発生に関連する要因を探し、新しく開発された新薬や治療法の効果を分析するために、様々な統計分析アルゴリズムが搭載されているソフトウェアを頻繁に利用する。
【0003】
臨床研究者(医師、看護師、薬剤師)は、研究成果を出すためには臨床論文の作成が必須であり、このような臨床論文の作成時に臨床統計分析作業が必要であるが、この臨床統計分析を専門家の助けなしに統計分析に関する知識の不十分な臨床研究者個人が全て行うのは、非常に困難な作業である。
【0004】
特に、使用される用語は、消化器/循環器内科、神経外科、整形外科などの診療科によって互いに異なり、高度の専門的な単語で構成されており、長い学習の必要な統計分析を専門家の助けなしに個人が全て行うのは、非常に難しい作業である。さらに、データを生産した研究者の経験がデータ分析に非常に重要であるので、臨床に対する知識のない統計専門家も、臨床研究者の助けなしに単独では臨床統計分析を適切に行うことができない。
【0005】
したがって、データの特性及び研究目的をよく把握している臨床研究者に適した統計分析を容易に行うことができるソフトウェアプログラムが必要である。
【0006】
従来の統計分析ソフトウェアは、統計アルゴリズムやパラメータなどが散らばっており、使用及び分析結果の解析が難しいだけでなく、結果を手作業で抜粋/編集する過程に多くの時間がかかり、編集エラーが発生しやすい。
【0007】
したがって、統計非専門家が従来の統計分析ソフトウェアを用いて研究者自身の望む分析結果を正しく算出することは非常に困難な作業であるといえる。
【0008】
本出願人の発明者は、韓国特許出願第2011-0104734号の「変数連関関係自動探索及びこれを用いた動的結果レポート算出方法」を発明して提案した。
【0009】
このような変数連関関係自動探索及びこれを用いた動的結果レポート算出方法は、医療統計で使用される多くの臨床、疫学変数の特性を把握し、最も多く使われる類型に自動分類し、分析しようとする変数と適用しようとする統計アルゴリズムが多い場合、全ての変数間の関連関係を自動的に指定し、臨床、疫学変数間で分析された数多くの関連関係を一目で把握することができる総合的な結果レポートを提供することができるようにする方法を提供する。
【0010】
このような従来の発明は、統計分析の際によく使用される分析パラメータが殆ど決まっており、また、統計専門家が行う複雑な分析であるとしても、その過程を詳細に分析してみれば、命題化可能な2つ以上の条件を、幾つかの段階を経て選択する過程に変換することができることを考慮すると、変数の特性に応じて統計アルゴリズムを自動的に選択することができることに基づく。
【0011】
このような本出願人の発明は、医療統計で使用される数多くの臨床、疫学変数の特性を把握し、最も多く使用される類型に自動的に分類し、分析しようとする変数と適用しようとする統計アルゴリズムが多い場合、全ての変数間の関連関係を一々自動的に指定することにその技術的特徴がある。
【0012】
このような従来の変数連関自動探索方法は、統計アルゴリズムに定められたプロセスに従って臨床、疫学変数の特性を考慮してその類型を分離し、それに応じて自動的に適用される統計アルゴリズムを定めることで、変数特性に応じて自動的に統計アルゴリズムが適用されるようにして、統計分析方法又は詳細な統計アルゴリズムをよく知らないユーザも容易に統計分析プログラムを使用することができるようにすることにその技術的特徴がある。
【0013】
近年では、臨床過程及び分野がさらに多様に細分化されており、臨床段階の病院などの臨床現場では分野によって数十~数百個以上の変数データが生産されているため、全ての変数間の関係を指定する上で困難が伴い、殆ど統計分野の非専門家である臨床研究者が好適な統計アルゴリズムを選択することに限界がある。
【先行技術文献】
【特許文献】
【0014】
【特許文献1】韓国公開特許第2011-0104734号公報
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明は、上述した従来の「変数連関関係自動探索及びこれを用いた動的結果レポート算出方法」の延長線上でデータ分析自動化システムを提案しようとしたもので、より多様に生成される変数に対して適応的にデータ分析自動化システムを提案しようとするものであって、変数の特性を自動的に把握した後、適切な統計アルゴリズムの選択及び分析まで自動的に行うことができるようにした、変数属性に基づいた探索的データ分析自動化システムを提供することを目的とする。
【0016】
また、本発明は、このような点に鑑み、数多くの変数に対する前処理選別過程(pre-screening)を提供し、このようなデータ特性(変数特性)に基づく最適合データ分析アルゴリズムを自動的に適用することができるようにすることにより、臨床研究者のデータ特性(変数特性)に基づいて研究目的に合わせてデータ分析がよく行われるようにする、変数属性に基づく探索的データ分析自動化システムを提供することを目的とする。
【課題を解決するための手段】
【0017】
簡潔かつ含蓄的な臨床研究目的は、簡潔かつ含蓄的な文章で表示されることが多いので(例えば、「互いに異なる治療グループ間のサイトカイン(cytokine)変化量差異分析」)、このような研究目的を行うためには、
(a)正規分布テスト、(b)グループ間分散の同一性テスト、(c)事後検定、(d)正規分布に従わないときに使用するノンパラメトリック手法の決定などを行わなければならないが、ほとんど統計非専門家である臨床研究者が直接行うのは難しい過程である。
【0018】
したがって、臨床研究者が自分のデータ特性(変数特性)に基づいて研究目的を最も上手く行うことができるように最適合統計アルゴリズムを自動的に選択するソフトウェアが非常に必要な実情である。
【0019】
そこで、本発明は、研究目的の実行に最適な統計アルゴリズムを自動的に選択することができるようにした、変数属性に基づく探索的データ分析自動化システムを提供する。
【0020】
本発明の変数属性に基づく探索的データ分析自動化システムは、
データに含まれた変数の特徴を抽出して、変数の構成値の形態及び特徴によって変数を分類し、分類された変数の属性を定義する変数属性定義手段と、データ分析アルゴリズムが保存管理され、データ分析制御手段の要求に応えてアルゴリズムを提供するアルゴリズム管理手段と、変数属性定義手段を介して、データに含まれた変数の属性を定義し、変数属性に基づいてデータ分析のためのアルゴリズムを選択してデータ分析手段のデータ分析を実行制御するデータ分析制御手段と、データ分析制御手段から設定されたアルゴリズムに従ってデータ分析を行い、その結果情報を分布分析結果表と分布分析結果図として提供するデータ分析手段と、を含んでなり、
前記変数属性定義手段は、データに含まれた変数の構成値の形態によって連続型変数(continuous variable)、カテゴリ型変数(categorical variable)に区分し、カテゴリ型変数は、序数変数(ordinal variable)、名目変数(nominal variable)に区分される第1分類変数と、データに含まれた変数の特徴に応じて単独測定変数(single measured variable)、繰り返し測定変数(repeatedly measured variable)、生存資料(survival data)を含む第2分類変数に区分し、その属性を定義し、
前記データ分析制御手段は、変数属性を参照して自動的に分類された変数に対してその類型の組み合わせに応じて変数関係分析を行い、変数自体分布分析なのか、2つ以上の変数間の関係分析なのかを判断する変数関係分析制御手段と、前記変数関係分析制御手段の変数関係分析結果に基づいて変数自体分布分析である場合、連続型変数とカテゴリ型変数のそれぞれに対してデータを分析制御するようにする変数自体分布分析制御手段と、前記変数関係分析制御手段の変数関係分析結果に基づいて2つ以上の変数間の関係分析である場合、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数とが混在しているとき、生存資料であるときに区分してアルゴリズムを設定することでデータ分析を制御するようにする変数間関係分析制御手段と、を含んでなることを特徴とする。
【0021】
本発明の変数属性に基づく探索的データ分析自動化方法は、
データ分析自動化のための変速属性を定義する変数属性定義過程と、変数属性に基づいてデータ分析のためのアルゴリズムを選択して設定する過程と、を含むデータ分析自動化方法であって、
前記一つの変数属性を定義する変数属性定義過程は、
データに含まれた変数の構成値の形態によって連続型変数(continuous variable)、カテゴリ型変数(categorical variable)に区分し、カテゴリ型変数は、序数変数(ordinal variable)、名目変数(nominal variable)に区分される第1分類変数と、データに含まれた変数の特徴に応じて単独測定変数(single measured variable)、繰り返し測定変数(repeatedly measured variable)、生存資料(survival data)を含む第2分類変数に区分し、その属性を定義する過程を含んでなり、
変数属性に基づいてデータ分析のためのアルゴリズムを選択してデータ分析を行うデータ分析過程は、
自動的に分類された変数に対してその類型の組み合わせに応じて変数関係分析を行い、変数自体分布分析なのか、2つ以上の変数間の関係分析なのかを判断する変数関係分析過程と、
前記変数関係分析過程の変数関係分析結果に基づいて変数自体分布分析である場合、連続型変数とカテゴリ型変数のそれぞれに対して分布を分析し、その結果を分布分析結果表と分布分析結果図として提供する変数自体分布分析過程と、
前記変数関係分析過程の変数関係分析結果に基づいて2つ以上の変数間の関係分析である場合には、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数とが混在しているとき、生存資料であるときに区分してアルゴリズムを選択して設定し、データ分析結果を提供する変数間関係分析過程と、を含んでなることを特徴とする。
【発明の効果】
【0022】
このような本発明によれば、変数属性に基づいて最適なアルゴリズムを選択してデータ分析を可能にするもので、臨床過程及び分野が多様に細分化されることにより、より多様に増加する変数データに対して適応的なデータ分析自動化システムを提供することができる。
【図面の簡単な説明】
【0023】
図1】本発明の変数属性に基づく探索的データ分析自動化システムの構成を示すブロック図である。
図2】本発明におけるデータ分析制御過程を示すフローチャートである。
図3】本発明における連続型変数分布データ分析制御過程を示すフローチャートである。
図4】本発明におけるカテゴリ型変数分布データ分析制御過程を示すフローチャートである。
図5a】本発明における連続型変数データ分析結果を示す図であって、図5aはヒストグラム(Histogram)である。
図5b】本発明における連続型変数データ分析結果を示す図であって、図5bはQ-Qプロット(Q-Q plot)である。
図5c】本発明における連続型変数データ分析結果を示す図であって、図5cはボックスプロット(Box plot)である。
図6】本発明におけるカテゴリ型変数分布データ分析結果を示す棒グラフ(bar plot)である。
図7】本発明における、連続型変数と連続型変数の関係分析過程を示すフローチャートである。
図8】本発明における、連続型変数に対する正規分布テスト過程を示すフローチャートである。
図9】本発明における、連続型変数と連続型変数との相関分析結果を示す相関散点図(correlation scatter plot)である。
図10】本発明における、連続型変数とカテゴリ型変数の関係である場合のデータ分析制御過程を示すフローチャートである。
図11】本発明のシステムにおけるカテゴリ型変数とカテゴリ型変数の関係分析制御過程を示すフローチャートである。
図12】本発明における、3つ以上の単独測定変数間の関係データ分析制御過程を示すフローチャートである。
図13】本発明における、全部繰り返し測定変数であるときのデータ分析制御過程を示すフローチャートである。
図14】本発明における、単独測定変数が混在しているときのデータ分析制御過程を示すフローチャートである。
図15】本発明における、生存資料のデータ分析制御過程を示すフローチャートである。
【発明を実施するための形態】
【0024】
本発明の変数属性に基づく探索的データ分析自動化システムは、
データ分析自動化のための変数属性を定義する変数属性定義手段10と、データ分析アルゴリズムが保存管理され、データ分析制御手段30の要求に応えてアルゴリズムを提供するアルゴリズム管理手段20と、変数属性定義手段10を介して、データに含まれた変数の属性を定義し、変数属性に基づいてデータ分析のためのアルゴリズムを選択してデータ分析手段40のデータ分析を実行制御するデータ分析制御手段30と、データ分析制御手段30から設定されたアルゴリズムに従ってデータ分析を行い、その結果情報を提供するデータ分析手段40と、を含んで構成される。
【0025】
前記変数属性定義手段10は、データに含まれた変数の特徴を抽出して、変数の構成値の形態及び特徴によって変数を分類する変数分類手段11と、変数分類手段11で分類された変数の属性を定義する属性定義手段12と、を含んで構成される。
【0026】
前記変数分類手段11は、データに含まれた変数の構成値の形態に応じて連続型変数(continuous variable)、カテゴリ型変数(categorical variable)を含む第1分類変数と、データに含まれた変数の特徴に応じて単独測定変数(single measured variable)、繰り返し測定変数(repeatedly measured variable)、生存資料(survival data)を含む第2分類変数に区分する。
【0027】
前記カテゴリ型変数は、序数変数(ordinal variable)と名目変数(nominal variable)に分けられる。
【0028】
前記連続型変数は、年齢、体質量指数、背丈などを示す変数であり、前記序数変数は、40歳以上、40歳未満のように順序を有するカテゴリ型変数であり、名目変数は、男/女変数のように順序を有しないカテゴリ型変数である。
【0029】
前記単独測定変数とは、1回単独で測定された値を示す変数(例えば、2022年に測定された健康検査数値)を意味し、繰り返し測定変数とは、一定期間内に繰り返し測定された値を示す変数(例えば、手術前/手術後1ヶ月/手術後1年で測定されたヘモグロビン数値)を意味し、前記生存資料は、サンプル状態及び期間情報を示す変数(例:追跡調査期間10年間生存/中途打ち切り(censored)/死亡情報)を意味する。
【0030】
前記データ分析制御手段30は、変数属性を参照して自動的に分類された変数に対してその類型の組み合わせに応じて変数関係分析を行い、変数自体分布分析なのか、2つ以上の変数間の関係分析なのかを判断する変数関係分析制御手段31と、前記変数関係分析制御手段31の変数関係分析結果に基づいて変数自体分布分析である場合、連続型変数とカテゴリ型変数のそれぞれに対してデータを分析制御するようにする変数自体分布分析制御手段32と、前記変数関係分析制御手段31の変数関係分析結果に基づいて2つ以上の変数間の関係分析である場合、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数とが混在しているとき、生存資料であるときに区分してアルゴリズムを設定することでデータを分析制御するようにする変数間関係分析制御手段33と、を含んで構成される。
【0031】
前記データ分析手段40は、前記変数自体分布分析制御手段32の制御に基づいて連続型変数とカテゴリ型変数のそれぞれに対してデータを分析し、その結果を分布分析結果表と分布分析結果図として提供するための変数自体分布分析手段41と、前記変数間関係分析制御手段33の制御に基づいて、変数間関係に応じて、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数とが混在しているとき、生存資料であるときに対して設定されたアルゴリズムを実行してデータを分析し、その結果を提供する変数間関係分析手段42と、を含む。
【0032】
そして、前記データ分析制御手段30は、連続型変数に対してLilliefors test実行によって有意確率値(p値、p1)を計算し、Shapiro-Wilk test実行によって有意確率値(p値、p2)を計算し、基準値αとp1、p2との対比によって連続型変数に対する正規分布テスト結果を算出する連続型変数に対する正規分布テスト手段34を含む。
【0033】
前記連続型変数に対する正規分布テスト結果は、p1<α(AND又はOR)p2<αの条件を満たす場合には正規分布に従わないと判断し、条件を満たさない場合には正規分布に従うと判断する。
【0034】
前記連続型変数に対する正規分布テスト手段34は、ユーザが基準値αを設定することができるように基準値設定プロセスを提供する基準値設定手段34aを含むことができる。
【0035】
前記変数自体分布分析手段41は、連続型変数データ分析結果を示す連続型変数分布を分布分析結果表とヒストグラム(Histogram)、Q-Qプロット(Q-Q plot)、ボックスプロット(Box plot)として提供し、データ分析結果を示すカテゴリ型変数分布を分布分析結果表と棒グラフとして提供することができる。
【0036】
前記連続型変数分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Min~Max:当該変数の最小値乃至最大値
(e)Mean±standard deviation:当該変数の平均±標準偏差
(f)Mean(95%CIs):当該変数の平均(95%信頼区間)
(g)Median(IQR):当該変数の中央値(inter-quartile range)
(h)Skewness:当該変数の歪度
(i)Kurtosis:当該変数の尖度
(j)Lilliefors test for normality、p value:当該変数の正規分布をLilliefors方法でテストした結果、有意確率値(p値)
(k)Shapiro-Wilk test for normality、p value:当該変数の正規分布をShapiro-Wilk方法でテストした結果、p値
前記カテゴリ型変数分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Subgroup:カテゴリ型変数に含まれているサブグループ名
(e)N(%):当該サブグループ(subgroup)に含まれているサンプルの数及び%
(f)95%CI:当該サブグループに含まれているサンプル数%の95%信頼区間
前記変数間関係分析制御手段33は、
全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数とが混在しているとき、生存資料であるときに区分してアルゴリズムを設定することでデータを分析制御ようにするプロセスを提供する手段である。
【0037】
[全部単独測定変数であるとき]
全部単独測定変数である場合、2つの変数間の関係分析と3つ以上の変数間の関係分析を区分してデータ分析を行うが、2つの変数間の関係分析である場合には、連続型変数と連続型変数の関係、連続型変数とカテゴリ型変数の関係、カテゴリ型変数とカテゴリ型変数の関係に応じてデータ分析を行い、3つ以上の変数間の関係分析である場合には、全部連続型変数であるとき、全部カテゴリ型変数であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析を行うプロセスを含んで構成される。
【0038】
[連続型変数と連続型変数の関係]
前記連続型変数と連続型変数の関係である場合、データ分析制御プロセスは、2つの連続型変数に対する正規分布テストを行う過程と、正規分布テスト結果、2つの変数とも正規分布に従うかを判断して、正規分布に従う場合には、Pearson correlation analysisを設定してデータ分析制御を行い、正規分布に従わない場合には、Spearman correlation analysisを設定してデータ分析制御を行い、その分析結果を分析結果表と分析結果図として提供するようにする過程と、を含んでなる。
【0039】
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果表に提示される数値は、
(a)相関係数(correlation coefficient)
(b)相関係数の95%信頼区間(95% confidence interval)
(c)相関係数が0であるかを検定した結果で計算される有意確率値(p値)
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果図は、x軸、y軸変数が設定され、回帰曲線が表現される相関散点図(Correlation Scatter plot)から構成できる。
【0040】
[連続型変数とカテゴリ型変数の関係]
前記連続型変数とカテゴリ型変数の関係である場合、データ分析制御プロセスは、
平均差異分析、相関分析、2分型反応予測性能分析のときに区分してデータ分析を行うが、
前記平均差異分析である場合には、カテゴリ型変数サブグループ数(m)を抽出し、抽出されたカテゴリ型変数サブグループ数(m)が2つであるときと、カテゴリ型変数サブグループ数が3つ以上であるときに、それぞれ連続型変数に対して正規分布テストを行う過程と、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従うかを判断する過程と、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従わない場合には、Wilcoxon rank-sum testを設定し、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従う場合には、Levene’s testを行うことで、各サブグループの分散が同一であるかをテストし、各サブグループの分散が同一であれば「Student’s Test」を設定し、各サブグループの分散が同一でなければ「Welch’s T test」を設定してデータ分析を制御する過程と、カテゴリ型変数サブグループ数(m)が3つ以上であるとき、連続型変数が正規分布に従う場合には、一元分散分析(1-way ANOVA)を設定してデータ分析を制御し、連続型変数が正規分布に従わない場合には、Kruskal-Wallis H testを設定してデータ分析を制御する過程と、を含んでなる。
【0041】
そして、前記連続型変数とカテゴリ型変数の関係である場合、データ分析制御プロセスは、
前記1-way ANOVA、Kruskal-Wallis H testによるデータ分析後に事後検証(Post-hoc analysis)を実行制御する過程をさらに含み、
前記1-way ANOVAによるデータ分析後に行われる事後検証に使用されるアルゴリズムは、Bonferroni test、Tukey test、Scheffe test、Dunnett testを含んでなり、前記Kruskal-Wallis H testによるデータ分析後の事後検証に使用されるアルゴリズムは、Bonferroni test、FDR(False Discovery rate)、Dunn’s testを含んでなる。
【0042】
そして、2分型反応予測性能分析は、カテゴリ型変数サブグループ数(m)を抽出し、抽出されたカテゴリ型変数サブグループ数(m)が2つであるときにROC curve analysisを設定してデータ分析を制御する過程を含んでなる。
【0043】
前記相関分析は、連続型変数に対する正規分布分析を行う過程と、連続型変数が正規分布に従うかを判断する過程と、連続型変数が正規分布に従う場合にカテゴリ型変数が序数であるかを判断する過程と、カテゴリ型変数が序数である場合にはPolyserial correlation analysisを設定してデータ分析を制御し、カテゴリ型変数が序数でない場合にはPoint polyserial correlation analysisを設定してデータ分析を制御する過程と、連続型変数が正規分布に従わない場合には、カテゴリ型変数が序数変数であるかを判断する過程と、カテゴリ型変数が序数変数である場合にはPolychoric correlation analysisを設定してデータ分析を制御し、カテゴリ型変数が序数変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を制御する過程と、を含んでなる。
【0044】
[カテゴリ型変数とカテゴリ型変数の関係]
前記カテゴリ型変数とカテゴリ型変数の関係である場合、データ分析制御プロセスは、
カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合と、それ以外の場合とに区分し、前記カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合には独立性検定、前記カテゴリ型変数に含まれたサブグループ数(m、n)が2つでない場合には独立性検定、傾向性検定、相関分析に区分してデータ分析を制御する過程を含んでなり、
前記独立性検定は、カテゴリ型変数2つのサブグループを組み合わせた2×2のクロス表を作成し、カテゴリ型変数が独立であると仮定の下に期待値表を作成し、カテゴリ型変数に含まれたサブグループの数(m、n)のm×nのクロス表において期待値<5のセル(cell)数が総セル数の25%以上であるかを判断する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上である場合、コンピュータ計算容量を考慮して、コンピュータ計算容量が十分であればFisher’s exact testを設定し、コンピュータ計算容量が十分でなければChi-squared test with Yates correctionを設定し、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%未満である場合、クロス表が2×2の形態であるかを判断し、クロス表が2×2の形態であればChi-squared test with Yates correctionを設定し、クロス表が2×2の形態でなければChi-squared testを設定してデータ分析を制御する過程と、を含んでなる。
【0045】
前記傾向性検定は、カテゴリ型変数2つのサブグループを組み合わせたm×nのクロス表を作成し、m≧3 and n≧3の条件を満たすかを判断する過程と、m≧3 and n≧3の条件を満たす場合にはLinear by linear assciation testを選択して設定し、m≧3 and n≧3の条件を満たさない場合にはCochran’ Qtestを設定してデータ分析を制御する過程と、を含んでなる。
【0046】
前記相関分析は、カテゴリ型変数が全て序数であるかを判断し、全部序数である場合にはPolychoric correlation analysisを選択して設定し、カテゴリ型変数が全部序数でない場合にはカテゴリ型変数が全て名目変数であるかを判断して、全部名目変数である場合には、Cramer’s V analysisを選択して設定し、全部名目変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を制御する過程を含んでなる。
【0047】
[3つ以上の全単独測定変数間の関係分析]
前記3つ以上の全単独測定変数間の関係分析データ分析制御プロセスは、
3つ以上の変数集団が全部連続型であるとき、全部カテゴリ型であるとき、連続型変数とカテゴリ型変数が混在しているときに区分してデータ分析を行うが、
全部連続型であるときは、PCA(Principa Component Analysis)を設定し、データ分析を制御する過程を含んでなり
連続型変数とカテゴリ型変数とが混在しているときは、連続型変数のそれぞれを従属変数として使用し、Univariable Linear regressionを設定して、残りの変数が連続型変数に及ぼす個別影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、Multivariable linear regressionを設定して、残りの変数が連続型変数に及ぼす統合的な影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、残りの変数の中にカテゴリ型変数があるとき、ANCOVA(Analysis of covariance)を設定してデータ分析制御を行い、連続型変数のそれぞれを従属変数として使用し、残りの変数が全てカテゴリ型変数であるとき、2-way ANOVAを行ってデータ分析を制御する過程と、を含んでなる。
【0048】
全部カテゴリ型変数であるときは、2分型変数があるかを判断する過程と、2分型変数がある場合に2分型変数のそれぞれを従属変数として使用し、Uniavariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす個別影響性を分析し、Multivariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす統合的な影響力を分析する過程と、2分型反応予測モデルを構築する過程と、構築された2分型反応予測モデルに対する検証分析を制御する過程と、
2分型変数がなく且つ全部3分型以上の変数である場合には、変数のそれぞれを従属変数として使用し、3分型変数を序数変数と仮定し、3分型変数を名目変数と仮定するときのそれぞれに対して残りの変数が3分型序数変数、3分型名目変数に及ぼす個別影響力分析、統合的な影響力分析を行うが、Univariable ordinal logistic regressionを設定して、残りの変数が3分型序数変数に及ぼす個別影響力を分析する過程と、Multicariable ordinal logistic regressionを設定して、残りの変数が3分型序数変数に及ぼす統合的な影響力を分析する過程と、Univariable nominal logisticを設定して、残りの変数が3分型名目変数に及ぼす個別影響力を分析する過程と、Multicariable nominal logistic regressionを設定して、残りの変数が3分型名目変数に及ぼす統合的な影響力を分析する過程と、を含んでなる。
【0049】
そして、前記2分型反応予測モデルに対する検証分析は、Discrimination側面予測性能分析、Calibration側面予測性能分析、モデル性能交差検証分析によって行われる。
【0050】
前記Discrimination側面予測性能分析に使用される指標は、
(a)性能分析指標(95%信頼区間を含む)
・UC(95%CI)
・Sensitivity、Specificity
・PPV(positive predictive value),NPV(negative predictive value)
・ACC(accuracy)、MIS(miss-classification rate)
・FPR(False Positive Rate)、FNR(False Negative Rate)、FDR(False Discovery Rate)、FOR(False Omission Rate)
・LR+(Positive Likelihood Ratio)、LR-(Negative Likelihood Ratio)、DOR(Diagnostic Odds Ratio)
(b)性能分析結果の視覚化
・ROC Curve
である。
【0051】
前記Calibration側面性能分析に使用される指標は、
(a)性能分析指標
・AIC(Akaike Information Criterion)
・BIC(Bayes Information Criterion)
・Nagelkerke R2
・Hosmer-Lemeshow test P value
・Brier score
・Spigelhalter Z score with P value
・Calibration plotにおけるlinear regression line
・Intercept、95%信頼区間及びp値
・Slope、95%信頼区間及びp値
(b)性能分析結果の視覚化
・Calibration plot
・Decile plot
・Calibration belt
である。
【0052】
前記モデル性能交差検証分析は、
(a)性能交差検証に使用される方法
・LOOCV(leave-one-out cross-validation)
・K-fold CV(cross validation)
・Permutation test
・Bootstrapping
(b)交差検証結果の視覚化
・ROC curve
・Calibration plot
・Decile plot
・Calibration belt
である。
【0053】
[全部繰り返し測定変数であるときの分析]
前記全部繰り返し測定変数分析データ分析制御プロセスは、
繰り返し測定変数が2つである場合と、繰り返し測定変数が3つ以上である場合に区分し、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分してデータ分析を行うが、
前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数である場合、連続型変数に対する正規分布分析を行い、連続型変数が正規分布に従うかを判断し、正規分布に従う場合には、Paired sample T testを設定し、正規分布に従わない場合には、Wilcoxon signed-rank testを設定してデータ分析を制御する過程を含んでなる。
【0054】
また、前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数である場合、ICC(Intraclass Correlation Coefficient) analysisを設定してデータ分析を制御する過程をさらに含むことができる。
【0055】
繰り返し測定変数が2つであり且つ繰り返し測定変数がカテゴリ型変数である場合、カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つであるとき(m=2、n=2)、McNemar’s test、Cohens’ Kappaを設定してデータ分析を制御する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)がそれぞれ2つ、3つ以上であるとき(m=2、n≧3)、Cochran-Armitage test for trendを設定してデータ分析を制御する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)が全て3つ以上であるとき(m≧3、n≧3)、McNemar-Bowker testを設定してデータ分析を制御する過程と、含んでなる。
【0056】
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数が連続型変数である場合、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysis、Repeated measures 1-way ANOVAを設定してデータ分析を制御する過程を含んでなる。
【0057】
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数がカテゴリ型変数である場合、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を制御する過程を含んでなる。
【0058】
[単独測定変数が混在しているときの分析]
前記単独測定変数が混在しているときのデータ分析制御プロセスは、
繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分し、
繰り返し測定変数が連続型変数である場合、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を制御し、繰り返し測定変数が連続型変数であり且つ単独測定変数がカテゴリ型変数であるとき、Repeated measures 2-way ANOVAを設定してデータ分析を制御する過程を含んでなる。
【0059】
繰り返し測定変数がカテゴリ型変数である場合には、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を制御する過程を含んでなる。
【0060】
[生存資料の分析]
前記生存資料データ分析制御プロセスは、
生存時間、イベント発生変数のみがある場合と、生存時間、イベント発生変数及び単独測定資料がある場合に区分し、
生存時間、イベント発生変数のみがある場合には、Kaplan-Meier curve analysisを設定してデータ分析を制御し、生存時間、イベント発生資料及び単独測定資料が共にある場合には、Univariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす個別影響力分析を制御する過程と、Multivariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす統合的な影響力を分析制御する過程と、Kaplan-Meier curve analysisを設定してLog rank test(詳細カテゴリ間の生存確率差の比較)を制御する過程と、を含んでなる。
【0061】
そして、前記生存資料データ分析制御プロセスは、
生存確率予測モデルを構築する過程と、Time=tにおけるDiscrimination側面予測性能分析、time=tにおけるCalibration側面予測性能分析、生存確率予測モデル交差検証分析を行い、生存確率予測モデルを分析制御する過程をさらに含んでなることができる。
【0062】
前記Time=tにおけるDiscrimination側面予測性能分析に使用される指標は、上述したように、
(a)性能分析指標(95%信頼区間を含む)
・AUC(95%CI)
・Sensitivity、Specificity
・PPV(positive predictive value)、NPV(negative predictive value)
・ACC(accuracy)、MIS(miss-classification rate)
・FPR(False Positive Rate)、FNR(False Negative Rate)、FDR(False Discovery Rate)、FOR(False Omission Rate)
・LR+(Positive Likelihood Ratio)、LR-(Negative Likelihood Ratio)、DOR(Diagnostic Odds Ratio)
(b)性能分析結果の視覚化
・ROC curve
である。
【0063】
前記Time=tにおけるCalibration側面性能分析に使用される指標は、
(a)性能分析指標
・AIC(Akaike Information Criterion)
・BIC(Bayes Information Criterion)
・Nagelkerke R2
・Hosmer-Lemeshow test P value
・Brier score
・Spigelhalter Z score with P value
・Calibration plotにおけるlinear regression line
・Intercept、95%信頼区間及びp値
・Slope、95%信頼区間及びp値
(b)性能分析結果の視覚化
・Calibration plot
・Decile plot
・Calibration belt
である。
【0064】
前記time=tにおける生存確率予測モデル性能交差検証は、
(a)性能交差検証に使用される方法
・LOOCV(leave-one-out cross-validation)
・K-fold CV(cross validation)
・Permutation test
・Bootstrapping
(b)交差検証結果の視覚化
・ROC curve
・Calibration plot
・Decile plot
・Calibration belt
である。
【0065】
次に、このような本発明の変数属性に基づく探索的データ分析自動化システムのデータ分析自動化動作過程を説明する。
【0066】
データ分析自動化のために、変数属性定義手段10では、データに含まれた変数の属性を定義する。
【0067】
データ分析制御手段30では、変数属性定義手段10を介して、変数属性に基づいてデータに含まれた変数を区分し、これに応じてデータ分析を制御するが、変数属性に基づいて、データ分析手段40でデータ分析に用いられるアルゴリズムをアルゴリズム管理手段20から選択し、設定してデータ分析を制御する。
【0068】
前記変数属性定義手段10の変数分類手段11では、データに含まれた変数の特徴を抽出して、変数の構成値の形態及び特徴によって変数を分類する。
【0069】
前記変数分類手段11は、データに含まれた変数の構成値の形態に応じて連続型変数、カテゴリ型変数を含む第1分類変数と、データに含まれた変数の特徴に応じて単独測定変数、繰り返し測定変数、生存資料を含む第2分類変数に区分される。
【0070】
このとき、前記カテゴリ型変数は、序数変数と名目変数に区分することができる。
前記連続型変数は年齢、体資料指数、背丈などを示す変数であり、前記序数変数は40歳以上、40歳未満のように順序を有するカテゴリ型変数であり、名目変数は男/女変数のように順序を有しないカテゴリ型変数である。
【0071】
前記単独測定変数とは、1回単独で測定された値を示す変数(例えば、2022年に測定された健康検査数値)を意味し、繰り返し測定変数とは、一定期間内に繰り返し測定された値を示す変数(例えば、手術前/手術後1ヶ月/手術後1年で測定されたヘモグロビン数値)を意味し、前記生存資料とは、サンプルの状態及び期間情報を示す変数(例:追跡調査期間10年間生存/中途打ち切り(censored)/死亡情報)を意味する。
【0072】
前記データ分析制御手段30は、変数属性を参照して自動的に分類された変数を、その類型の組み合わせに応じて変数関係分析を行い、変数関係分析結果に基づいてデータを分析するが、ここで変数自体分布分析なのか、2つ以上の変数間の関係分析なのかを判断することができる。
【0073】
図2は、本発明のシステムにおける、変数データに対して変数属性に基づいてデータを分析する過程を示すフローチャートである。
【0074】
変数データに対して変数自体分布分析である場合は、(A)連続型変数分布、(B)カテゴリ型変数分布に対する変数自体分析であり、2つ以上の変数間の関係分析は、変数間の関係に応じてデータ分析が行われるようにする。
【0075】
まず、変数自体分布分析である場合には、図3及び図4に示すように、連続型変数、カテゴリ型変数のそれぞれに対してデータを分析し、その結果を分布分析結果表と分布分析結果図として提供する。
【0076】
前記変数自体分布分析手段41は、連続型変数データ分析結果を示す連続型変数分布を分布分析結果表、及び図5a、図5b、図5cに示すようなヒストグラム(Histogram)、Q-Qプロット(Q-Q plot)、ボックスプロット(Box plot)として提供し、データ分析結果を示すカテゴリ型変数分布を分布分析結果表、及び図6に示すような棒グラフとして提供することができる。
【0077】
一方、2つ以上の変数間の関係分析である場合は、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数が混在しているとき、生存資料であるときに区分してアルゴリズムを設定することでデータの分析が行われるようにする。
【0078】
[全部単独測定変数であるとき]
全部単独測定変数である場合、2つの変数間の関係分析、3つ以上の変数間の関係分析を区分してデータ分析を行う。
【0079】
2つの変数間の関係分析である場合には、(C)連続型変数と連続型変数の関係、(D)連続型変数とカテゴリ型変数の関係、(E)カテゴリ型変数とカテゴリ型変数の関係に応じてデータ分析を行い、(F)3つ以上の変数間の関係分析である場合には、全部連続型変数であるとき、全部カテゴリ型変数であるとき、連続型変数とカテゴリ型変数がそれぞれ1つ以上存在しているときに区分してデータ分析を行うプロセスを含んで構成される。
【0080】
[連続型変数と連続型変数の関係]
図7は、本発明のシステムにおける連続型変数と連続型変数の関係分析過程を示すフローチャートである。
【0081】
前記連続型変数と連続型変数の関係である場合には、2つの連続型変数に対する正規分布テストを行う。
【0082】
図8は、連続型変数に対する正規分布テスト過程を示すフローチャートである。
【0083】
連続型変数に対して、Lilliefors test実行によって有意確率値(p値、p1)を計算し、Shapiro-Wilk test実行によって有意確率値(p値、p2)を計算する。
【0084】
上述のように求めた有意確率値p1、p2を基準値αと比較して、連続型変数に対する正規分布テスト結果を算出する。
【0085】
前記連続型変数に対する正規分布テスト結果は、p1<α(AND又はOR)p2<αの条件を満たす場合には正規分布に従わないと判断し、条件を満たさない場合には正規分布に従うと判断する。
【0086】
このとき、基準値αは、0.05、0.01などの値に設定されることができ、基準値設定手段34aを介してユーザによって設定されることができる。
【0087】
上述したような連続型変数正規分布テストを行った後、全て正規分布に従うかを判断し、正規分布に従う場合には、Pearson correlation analysisを設定してデータ分析制御を行い、正規分布に従わない場合には、Spearman correlation分析を設定してデータ分析制御を行い、その分析結果を分析結果表と分析結果図として提供する。
【0088】
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果表に提示される数値は、
(a)相関係数(correlation coefficient)
(b)相関係数の95%信頼区間(95% confidence interval)
(c)相関係数が0であるかを検定した結果で計算される有意確率値(p値)と等しい。
【0089】
前記連続型変数と連続型変数の関係における分析結果で提供される分析結果図は、図9に示すように、x軸、y軸変数が設定され、回帰曲線が表現される相関散点図(Correlation Scatter plot)からなることができる。
【0090】
[連続型変数とカテゴリ型変数の関係]
前記(D)連続型変数とカテゴリ型変数の関係である場合は、平均差異分析、相関分析、2分型反応予測性能分析であるときに区分してデータ分析を行う。
【0091】
図10は、連続型変数とカテゴリ型変数の関係である場合のデータ分析制御過程を示すフローチャートである。
【0092】
前記平均差異分析は、カテゴリ型変数サブグループ数(m)を抽出し、抽出されたカテゴリ型変数サブグループ数(m)が2つであるときと、カテゴリ型変数サブグループ数が3つ以上であるときに、それぞれ連続型変数に対して図8に示すような正規分布テストを行い、その結果に基づいてアルゴリズムを設定する。
【0093】
カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従うかを判断し、連続型変数が正規分布に従わない場合には、Wilcoxon rank-sum testを設定し、連続型変数が正規分布に従う場合には、Levene’s testを行って、各サブグループの分散が同一であるかをテストし、各サブグループの分散が同一であれば、「Student’s Test」を設定し、各サブグループの分散が同一でなければ、「Welch’s T test」を設定してデータ分析を行う。
【0094】
そして、カテゴリ型変数サブグループ数(m)が3つ以上であるときに連続型変数が正規分布に従う場合には、一元分散分析(1-way ANOVA)を設定してデータ分析を制御し、連続型変数が正規分布に従わない場合には、Kruskal-Wallis H testを設定してデータ分析を行う。
【0095】
次に、前記1-way ANOVA、Kruskal-Wallis Hテストによるデータ分析後の事後検証(Post-hoc analysis)を行うが、
Bonferroni test、Tukey test、Scheffe test、Dunnett testを設定して行い、1-way ANOVAによるデータ分析後に行われる事後検証を行い、Bonferroni test、FDR(False Discovery rate)、Dunn’s testを設定して行うことにより、前記Kruskal-Wallis H testによるデータ分析後の事後検証を行う。
【0096】
前記相関分析は、図8に示すような前記連続型変数に対する正規分布分析を行い、連続型変数が正規分布に従うかを判断する。
【0097】
連続型変数が正規分布に従う場合にカテゴリ型変数が序数であるかを判断し、カテゴリ型変数が序数である場合には、Polyserial correlation analysisを設定してデータ分析を制御し、カテゴリ型変数が序数でない場合には、Point polyserial correlation analysisを設定してデータ分析を行う。
【0098】
連続型変数が正規分布に従わない場合にカテゴリ型変数が序数変数であるかを判断し、カテゴリ型変数が序数変数である場合には、Polychoric correlation analysisを設定してデータ分析を行い、カテゴリ型変数が名目変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を行う。
【0099】
そして、2分型反応予測性能分析は、カテゴリ型変数サブグループ数(m)を抽出し、カテゴリ型変数サブグループ数(m)が2つである場合、ROC curve analysisを設定してデータ分析を行う。
【0100】
[カテゴリ型変数とカテゴリ型変数の関係]
図11は、本発明のシステムにおけるカテゴリ型変数とカテゴリ型変数の関係分析制御過程を示すフローチャートである。
【0101】
前記(E)カテゴリ型変数とカテゴリ型変数の関係である場合は、
カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合と、それ以外の場合に区分し、前記カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合には独立性検定、前記カテゴリ型変数に含まれたサブグループ数(m、n)が2つでない場合には独立性検定、傾向性検定、相関分析に区分してデータ分析を行う。
【0102】
前記独立性検定は、カテゴリ型変数2つのサブグループを組み合わせた2×2のクロス表を作成し、カテゴリ型変数が独立であるという仮定の下に期待値表を作成し、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上であるかを判断する。
【0103】
カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上である場合、コンピュータ計算容量を考慮して、コンピュータ計算容量が十分であれば、Fisher’s exact testを設定し、コンピュータ計算容量が十分でなければ、Chi-squared test with Yates correctionを設定してデータ分析を行う。
【0104】
カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%未満である場合、クロス表が2×2の形態であるかを判断し、クロス表が2×2の形態である場合には、Chi-squared test with Yates correctionを設定し、クロス表が2×2の形態でない場合には、Chi-squared testを設定してデータ分析を行う。
【0105】
これは、期待値が25%以上であれば、データがカイ二乗分布(chi-squared distribution)を有すると見なすことができるが、期待値が25%未満であれば、カイ二乗分布に従わないという統計的分析によるものである。
【0106】
タンスユク(韓国式酢豚)を食べる形態について、例えば、性別変数、タンスユクの食べ方のカテゴリ型変数2つで構成され、男性:ソースに肉をディップして食べる形態25、ソースを肉にかけて食べる形態25、女性:ソースに肉をディップして食べる形態25、ソースを肉にかけて食べる形態25の場合、性別によってはタンスユクの食べ方が異ならない解析し、これを統計学的には「性別とタンスユクの食べ方は互いに独立である」と分析する。
【0107】
ところが、男性:ソースに肉をディップして食べる形態10、ソースを肉にかけて食べる形態40、女性:ソースに肉をディップして食べる形態35、ソースを肉にかけて食べる形態15のように観測されたならば、男性はソースを肉にかけて食べる形態を好み、女性はソースに肉をディップして食べる形態を好むと解析できる。
【0108】
したがって、性別とタンスユクの食べ方との間にはある関係があるため、「独立ではない」といえる。
【0109】
前記傾向性検定は、カテゴリ型変数2つのサブグループを組み合わせたm×nのクロス表を作成し、m≧3 and n≧3の条件を満たすかを判断し、m≧3 and n≧3の条件を満たす場合には、Linear by linear assciation testを選択して設定し、m≧3 and n≧3の条件を満たさない場合には、Cochran’Qtestを設定してデータ分析を行う。
【0110】
ここで、2×2は、(0、1)又は(Yes、No)のように2分型形態のみがあるため、「傾向性」と「独立性」とが実質的に同じ意味を有するため、独立性でのみ分析する。しかし、m、nが全て3つ以上である場合、上述したような独立性検定及び傾向性検定の両方を行うことができる。
【0111】
傾向性検定(trend test)は、年齢帯変数、OTP利用形態変数(使用しない、1つのみ使用、2つ以上使用)の例を挙げて説明することができ、すなわち年齢帯が増加するほどOTTサービスの使用数が増加するか、減少するか、又は差異がないかのように、増加、減少などの「傾向」分析を行うと見做すことができる。
【0112】
前記相関分析は、カテゴリ型変数が全て序数であるかを判断し、全部序数である場合には、Polychoric correlation analysisを選択して設定し、カテゴリ型変数が全部序数でない場合には、カテゴリ型変数が全て名目型変数であるかを判断し、全部名目変数である場合には、Cramer’s V analysisを選択して設定し、全部名目変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を行う。
【0113】
[3つ以上の全単独測定変数間の関係分析]
前記(F)3つ以上の全単独測定変数間の関係分析は、
3つ以上の変数集団が全部連続型であるとき、全部カテゴリ型であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析を行う。
【0114】
図12は、本発明における、3つ以上の全単独測定変数間の関係データ分析制御過程を示すフローチャートである。
【0115】
全部連続型であるときは、PCA(Principa Component Analysis)を設定してデータ分析を行い、
連続型変数とカテゴリ型変数とが混在しているときは、連続型変数のそれぞれを従属変数として使用し、Univariable Linear regressionを設定して、残りの変数が連続型変数に及ぼす個別影響力を分析し、連続型変数のそれぞれを従属変数として使用し、Multivariable linear regressionを設定して、残りの変数が連続型変数に及ぼす統合的な影響力を分析し、連続型変数のそれぞれを従属変数として使用し、残りの変数の中にカテゴリ型変数があるときにANCOVA(Analysis of covariance)を設定してデータ分析を行い、連続型変数のそれぞれを従属変数として使用し、残りの変数が全部カテゴリ型変数であるときに2-way ANOVAを行ってデータ分析を行う。
【0116】
全部カテゴリ型変数であるときは、2分型変数の含有有無に応じてデータ分析を行うが、2分型変数がある場合、2分型変数のそれぞれを従属変数として使用し、残りの変数が2分型変数に及ぼす個別影響力を分析し、残りの変数が2分型変数に及ぼす統合的な影響力を分析する。
【0117】
Uniavariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす個別影響性を分析し、Multivariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす統合的な影響力を分析する。
【0118】
また、2分型反応予測モデルを構築することができ、構築された2分型反応予測モデルに対する検証分析を行うことができる。
【0119】
前記2分型反応予測モデルに対する検証分析は、Discrimination側面予測性能分析、Calibration側面予測性能分析、モデル性能交差検証分析によって行われる。
【0120】
[全部繰り返し測定変数であるときの分析]
前記(G)全部繰り返し測定変数分析は、
繰り返し測定変数が2つである場合と、繰り返し測定変数が3つ以上である場合に区分し、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分してデータ分析を行う。
【0121】
図13は、本発明のシステムにおける、全部繰り返し測定変数であるときのデータ分析制御過程を示すフローチャートである。
【0122】
前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数であるとき、連続型変数に対する正規分布分析を行い、連続型変数が正規分布に従うかを判断し、正規分布に従う場合には、Paired sample T testを設定し、正規分布に従わない場合には、Wilcoxon signed-rank testを設定してデータ分析を行う。
【0123】
また、前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数であるとき、ICC(Intraclass Correlation Coefficient) analysisを設定してデータ分析を行うことができる。
【0124】
繰り返し測定変数が2つであり且つ繰り返し測定変数がカテゴリ型変数であるとき、カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合には(m=2、n=2)、McNemar’s test、Cohens’ Kappaを設定してデータ分析を行い、カテゴリ型変数に含まれたサブグループ数(m、n)がそれぞれ2つ、3つ以上である場合には(m=2、n≧3)、Cochran-Armitage test for trendを設定してデータ分析を行い、カテゴリ型変数に含まれたサブグループ数(m、n)が全て3つ以上である場合には(m≧3、n≧3)、McNemar-Bowker testを設定してデータ分析を行う。
【0125】
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数が連続型変であるとき、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysis、Repeated measures 1-way ANOVAを設定してデータ分析を行う。
【0126】
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数がカテゴリ型変数であるとき、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を行う。
【0127】
[単独測定変数が混在しているときの分析]
図14は、本発明のシステムにおける、単独測定変数が混在しているときのデータ分析制御過程を示すフローチャートである。
【0128】
前記(H)単独測定変数が混在しているときの分析は、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分し、
繰り返し測定変数が連続型変数である場合、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を行い、繰り返し測定変数が連続型変数であり且つ単独測定変数がカテゴリ型変数である場合、Repeated measures 2-way ANOVAを設定してデータ分析を行う。
【0129】
繰り返し測定変数がカテゴリ型変数である場合には、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を行う。
【0130】
[生存資料の分析]
図15は、本発明のシステムにおける、生存資料のデータ分析制御過程を示すフローチャートである。
【0131】
前記(I)生存資料分析は、生存時間、イベント発生変数のみがある場合と、生存時間、イベント発生変数及び単独測定データがある場合に区分し、
生存時間、イベント発生変数のみがある場合には、Kaplan-Meier curve analysisを設定してデータ分析を制御し、生存時間、イベント発生資料及び単独測定資料が共にある場合には、Univariable cox proportional hazards regressionを設定して単独測定変数が生存に及ぼす個別影響力を分析し、Multivariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす統合的な影響力を分析する。
【0132】
また、Kaplan-Meier curve analysis、Log rank test(詳細カテゴリ間の生存確率差異の比較)を行う。
【0133】
そして、前記生存資料データ分析制御プロセスは、
生存確率予測モデルを構築し、Time=tにおけるDiscrimination側面予測性能分析、time=tにおけるCalibration側面予測性能分析、生存確率予測モデル交差検証分析を行うことにより、生存確率予測モデルを分析する過程を行う。
【0134】
このように、本発明のシステムによれば、変数属性に基づいて、データ分析に要求される場合の数を区分し、この区分に応じてデータ分析に必要なアルゴリズムを選択して設定し、これを用いてデータ分析が自動的に行われることにより、ユーザ所望の目的に最適なデータ分析が行われる自動化システムを提供することができる。
【0135】
一方、このようなシステムによる本発明の変数属性に基づく探索的データ分析自動化方法は、
統計分析自動化のための変速属性を定義する変数属性定義過程と、変数属性に基づいてデータ分析のためのアルゴリズムを選択して設定し、データ分析を行うデータ分析過程と、を含んでなり、
前記統計分析自動化のための変数属性を定義する変数属性定義過程は、
データに含まれた変数の構成値の形態に応じて連続型変数(continuous variable)、カテゴリ型変数(categorical variable)を含む第1分類変数と、データに含まれた変数の特徴に応じて単独測定変数(single measured variable)、繰り返し測定変数(repeatedly measured variable)、及び生存資料(survival data)を含む第2分類変数に区分し、その属性を定義する過程を含んでなる。
【0136】
前記カテゴリ型変数は、序数変数(ordinal variable)と名目変数(nominal variable)に分けられる。
【0137】
前記連続型変数は、年齢、体質量指数、背丈などを示す変数であり、前記序数変数は、40歳以上、40歳未満のように順序を有するカテゴリ型変数であり、命名変数は、男/女変数のように順序を有しないカテゴリ型変数である。
【0138】
前記単独測定変数とは、1回単独で測定された値を示す変数(例えば、2022年に測定された健康検査数値)を意味し、繰り返し測定変数とは、一定期間内に繰り返し測定された値を示す変数(例えば、手術前/手術後1ヶ月/手術後1年で測定されたヘモグロビン数値)を意味し、前記生存資料は、サンプル状態及び期間情報を示す変数(例えば、追跡調査期間10年間生存/中途打ち切り(censored)/死亡情報)を意味する。
【0139】
そして、前記変数属性に基づいてデータ分析のためのアルゴリズムを選択してデータ分析を行うデータ分析過程は、
図2に示すように、自動的に分類された変数に対してその類型の組み合わせに応じて変数関係分析を行い、変数自体分布分析なのか、2つ以上の変数間の関係分析なのかを判断する変数関係分析過程と、
前記変数関係分析過程の変数関係分析結果に基づいて変数自体分布分析である場合、連続型変数とカテゴリ型変数のそれぞれに対して分布を分析し、その結果を分布分析結果表と分布分析結果図として提供する変数自体分布分析過程と、
前記変数関係分析過程の変数関係分析結果に基づいて2つ以上の変数間の関係分析である場合には、全部単独測定変数であるとき、全部繰り返し測定変数であるとき、単独測定変数と繰り返し測定変数が混在しているとき、生存資であるときに区分してアルゴリズムを選択して設定し、データ分析結果を提供する変数間関係分析過程と、を含んでなる。
【0140】
そして、前記変数自体分布分析過程は、図8に示すような、Lilliefors test実行によって有意確率値(p値:p1)を計算する過程と、Shapiro-Wilks test実行によって有意確率値(p値:p2)を計算する過程と、設定基準値αとp1、p2との対比によって連続型変数に対する正規分布テスト結果を算出する過程と、を含む連続型変数正規分布テスト過程を含む。
【0141】
前記連続型変数に対する正規分布テスト結果は、p1<α(AND又はOR)p2<αの条件を満たす場合には正規分布に従わないと判断し、条件を満たさない場合には正規分布に従うと判断する。
【0142】
前記設定基準値αは、ユーザが設定した値であってもよい。
【0143】
前記変数自体分布分析過程において、連続型変数分布は、分布分析結果表と、図5a~図5cに示すようなヒストグラム(Histogram)、Q-Qプロット(Q-Q plot)、ボックスプロット(Box plot)としてデータ分析結果を提供し、カテゴリ型変数分布は、分布分析結果表と、図6に示すような棒グラフとしてデータ分析結果を提供することができる。
【0144】
前記連続型変数分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Min~Max:当該変数の最小値乃至最大値
(e)Mean±standard deviation:当該変数の平均±標準偏差
(f)Mean(95%CIs):当該変数の平均(95%信頼区間)
(g)Median(IQR):当該変数の中央値(inter-quartile range)
(h)Skewness:当該変数の歪度
(i)Kurtosis:当該変数の尖度
(j)Lilliefors test for normality、p value:当該変数の正規分布をLilliefors方法でテストした結果、有意確率値(p値)
(k)Shapiro-Wilk test for normality、p value:当該変数の正規分布をShapiro-Wilk方法でテストした結果、p値
前記カテゴリ型変数は、分布分析結果表と棒グラフ(Bar Plot)としてデータ分析結果を提供する。
【0145】
前記カテゴリ型変数分布分析結果表で計算される数値は、
(a)Total N:データに含まれたサンプルの総数
(b)Valid N(%):欠測値を除くサンプルの数及び%
(c)Missing N(%):欠測であるサンプルの数及び%
(d)Subgroup:カテゴリ型変数に含まれているサブグループ名
(e)N(%):当該サブグループ(subgroup)に含まれているサンプルの数及び%
(f)95%CI:当該サブグループに含まれているサンプル数%の95%信頼区間
である。
【0146】
[全部単独測定変数であるとき]
前記変数間関係分析過程で全部単独測定変数であるときは、2つの変数間の関係分析と、3つ以上の変数間の関係分析を区分してデータ分析を行うが、2つの変数間の関係分析である場合には、(C)連続型変数と連続型変数の関係、(D)連続型変数とカテゴリ型変数の関係、(E)カテゴリ型変数とカテゴリ型変数の関係に応じてデータ分析を行い、(F)3つ以上の変数間の関係分析である場合には、全部連続型変数であるとき、全部カテゴリ型変数であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析結果を提供する。
【0147】
[連続型変数と連続型変数の関係]
前記(C)連続型変数と連続型変数の関係である場合には、2つの連続型変数に対する正規分布テストを行う過程と、正規分布テストの結果、2つの変数が全て正規分布に従うかを判断し、正規分布に従う場合には、「Pearson correlation analysis」を設定してデータ分析を行い、正規分布に従わない場合には、「Spearman correlation analysis」を設定してデータ分析を行い、その分析結果を分析結果表と分析結果図として提供する過程と、を含んでなる。
【0148】
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果表に提示される数値は、
(a)相関係数(correlation coefficient)
(b)相関係数の95%信頼区間(95% confidence interval)
(c)相関係数が0であるかを検定した結果で計算される有意確率値(p value)
である。
【0149】
前記連続型変数と連続型変数の関係における分析結果として提供される分析結果図は、図9に示すように、x軸、y軸の変数が設定され、回帰曲線が表現される相関散点図(Correlation Scatter plot)からなることができる。
【0150】
[連続型変数とカテゴリ型変数の関係]
前記(D)連続型変数とカテゴリ型変数の関係である場合には、
平均差異分析であるとき、相関分析であるとき、2分型反応予測性能分析であるときに区分してデータ分析を行うが、
前記平均差異分析である場合は、カテゴリ型変数サブグループ数(m)を抽出し、抽出されたカテゴリ型変数サブグループ数(m)が2つであるときと、カテゴリ型変数サブグループ数が3つ以上であるときに、それぞれ連続型変数に対して正規分布テストを行う過程と、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従うかを判断する過程と、カテゴリ型変数サブグループ数(m)が2つであるときに連続型変数が正規分布に従わない場合には、「Wilcoxon rank-sum test」を設定し、カテゴリ型変数サブグループ数(m)が2つであるとき、連続型変数が正規分布に従う場合には、「Levene’s test」を行って各サブグループの分散が同一であるかをテストし、各サブグループの分散が同一であれば「Student’s Test」を設定し、各サブグループの分散が同一でなければ「Welch’s T test」を設定してデータ分析を行い、カテゴリ型変数サブグループ数(m)が3つ以上であるとき、連続型変数が正規分布に従う場合には、一元分散分析(1-way ANOVA)を設定してデータ分析を行い、連続型変数が正規分布に従わない場合には、Kruskal-Wallis H testを設定してデータ分析を行う過程と、を含んでなる。
【0151】
そして、前記1-way ANOVA、Kruskal-Wallis H testによるデータ分析後に事後検証(Post-hoc analysis)を実行制御する過程をさらに含み、
前記1-way ANOVAによるデータ分析後に行われる事後検証に使用されるアルゴリズムは、Bonferroni test、Tukey test、Scheffe test、Dunnett testを含んでなり、前記Kruskal-Wallis H testによるデータ分析後の事後検証に使用されるアルゴリズムは、Bonferroni test、FDR(False Discovery rate)、Dunn’s testを含んでなる。
【0152】
そして、2分型反応予測分析は、カテゴリ型変数サブグループ数(m)を抽出し、カテゴリ型変数サブグループ数(m)が2つである場合、ROC curve analysisアルゴリズムを設定してデータ分析を制御する過程を含んでなる。
【0153】
前記相関分析は、連続型変数に対する正規分布分析を行う過程と、連続型変数が正規分布に従うかを判断する過程と、連続型変数が正規分布に従う場合にカテゴリ型変数が序数であるかを判断する過程と、カテゴリ型変数が序数である場合にはPolyserial correlation analysisを設定してデータ分析を行い、カテゴリ型変数が序数でない場合にはPoint polyserial correlation analysisを設定してデータ分析を行う過程と、連続型変数が正規分布に従わない場にカテゴリ型変数が序数変数であるかを判断する過程と、カテゴリ型変数が序数変数である場合には、Polychoric correlation analysisアルゴリズムを設定してデータ分析を行い、カテゴリ型変数が序数変数でない場合には、Rank Polyserial correlation analysisアルゴリズムを設定してデータ分析を行う過程と、を含んでなる。
【0154】
[カテゴリ型変数とカテゴリ型変数の関係]
前記(E)カテゴリ型変数と変数型変数の関係は、カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合と、それ以外の場合に区分し、前記カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つである場合には独立性検定、前記カテゴリ型変数に含まれたサブグループ数(m、n)が2つでない場合には独立性検定、傾向性検定、相関分析によってデータ分析を行う過程を含んでなり、
前記独立性検定は、カテゴリ型変数2つのサブグループを組み合わせた2×2のクロス表を作成し、カテゴリ型変数が独立であるという仮定の下に期待値表を作成し、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上であるかを判断する過程と、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%以上である場合、コンピュータ計算容量を考慮して、コンピュータ計算容量が十分である場合には、Fisher’s exact testを設定し、コンピュータ計算容量が不十分である場合には、Chi-squared test with Yates correctionを設定し、カテゴリ型変数に含まれたサブグループ数(m、n)のm×nのクロス表において期待値<5のセル数が総セル数の25%未満である場合、クロス表が2×2の形態であるかを判断し、クロス表が2×2の形態である場合には、Chi-squared test with Yates correctionを設定し、クロス表が2×2の形態でない場合には、Chi-squared testを設定してデータ分析を行う過程と、を含んでなる。
【0155】
前記傾向性検定は、カテゴリ型変数2つのサブグループを組み合わせたm×nのクロス表を作成し、m≧3 and n≧3の条件を満たすかを判断する過程と、m≧3 and n≧3の条件を満たす場合にはLinear by linear association testを選択して設定し、m≧3 and n≧3の条件を満たさない場合にはCochran’Qtestを選択して設定することでデータ分析を行う過程と、を含んでなる。
【0156】
前記相関分析は、カテゴリ型変数が全て序数であるかを判断し、全部序数である場合には、Polychoric correlation analysisを選択して設定し、カテゴリ型変数が全部序数でない場合には、カテゴリ型変数が全て名目変数であるかを判断して、全部名目型変数である場合には、Cramer’s V analysisを選択して設定し、全部名目型変数でない場合には、Rank polyserial correlation analysisを設定してデータ分析を行う過程を含んでなる。
【0157】
[3つ以上の全単独測定変数間の関係分析]
(F)3つ以上の変数間の関係分析は、3つ以上の変数集団が全部連続型であるとき、全部カテゴリ型であるとき、連続型変数とカテゴリ型変数とが混在しているときに区分してデータ分析を行うが、
全部連続型であるときは、PCA(Principa Component Analysis)を設定し、データ分析を行う過程を含んでなり、
連続型変数とカテゴリ型変数が混在しているときは、連続型変数のそれぞれを従属変数として使用し、Univariable Linear regressionを設定して、残りの変数が連続型変数に及ぼす個別影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、Multivariable linear regressionを設定して、残りの変数が連続型変数に及ぼす統合的な影響力を分析する過程と、連続型変数のそれぞれを従属変数として使用し、残りの変数の中にカテゴリ型変数があるとき、ANCOVA(Analysis of covariance)を設定してデータ分析を行い、連続型変数のそれぞれを従属変数として使用し、残りの変数が全部カテゴリ型変数であるとき、2-way ANOVAを行ってデータ分析を行う過程と、を含んでなる。
【0158】
全部カテゴリ型変数であるときは、2分型変数があるかを判断する過程と、2分型変数がある場合、2分型変数のそれぞれを従属変数として使用し、Uniavariable binary logistic regressionを行い、残りの変数が2分型変数に及ぼす個別影響性を分析する過程と、2分型変数のそれぞれを従属変数として使用し、Multivariable binary logistic regressionを行い、残りの変数が2分型変数に及ぼす統合的な影響力を分析する過程と、2分型応答予測モデルを構築する過程と、構築された2分型反応予測モデルに対する検証分析を制御する過程と、
全部カテゴリ型変数であるときは、2分型変数があるかを判断する過程と、2分型変数がある場合、2分型変数のそれぞれを従属変数として使用し、Uniavariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす個別影響性を分析し、Multivariable binary logistic regressionを設定して、残りの変数が2分型変数に及ぼす統合的な影響力を分析する過程と、2分型反応予測モデルを構築する過程と、構築された2分型反応予測モデルに対する検証分析を制御する過程と、
2分型変数がなく且つ全部3分型以上の変数である場合には、変数のそれぞれを従属変数として使用し、3分型変数を序数変数と仮定し、3分型変数を名目変数と仮定するとき、それぞれに対して残りの変数が3分型序数変数、3分型名目変数に及ぼす個別影響力の分析、統合的な影響力の分析を行うが、Uniavariable ordinal logistic regressionを行い、残りの変数が3分型序数変数に及ぼす個別影響力を分析する過程と、Multivariable ordinal logistic regressionを行い、残りの変数が3分型序数変数に及ぼす統合的な影響力を分析する過程と、Univariable nominal logisticを行い、残りの変数が3分型名目変数に及ぼす個別影響力を分析する過程と、Multivariable nominal logistic regressionを行い、残りの変数が3分型名目変数に及ぼす統合的な影響力を分析する過程と、を含んで構成される。
【0159】
前記2分型反応予測モデルに対する検証分析は、Discrimination側面予測性能分析、Calibration側面予測性能分析、モデル性能交差検証分析によって行われる。
【0160】
前記Discrimination側面予測性能分析に使用される指標は、
(a)性能分析指標(95%信頼区間を含む)
・AUC(95%CI)
・Sensitivity、Specificity
・PPV(positive predictive value)、NPV(negative predictive value)
・ACC(accuracy)、MIS(miss-classification rate)
・FPR(False Positive Rate)、FNR(False Negative Rate)、FDR(False Discovery Rate)、FOR(False Omission Rate)
・LR+(Positive Likelihood Ratio)、LR-(Negative Likelihood Ratio)、DOR(Diagnostic Odds Ratio)
(b)性能分析結果の視覚化
・ROC curve
である。
【0161】
前記Calibration側面性能分析に使用される指標は、
(a)性能分析指標
・AIC(Akaike Information Criterion)
・BIC(Bayes Information Criterion)
・Nagelkerke R2
・Hosmer-Lemeshow test P value
・Brier score
・Spigelhalter Z score with P value
・Calibration plotにおけるlinear regression line
・Intercept、95%信頼区間及びp値
・Slope、95%信頼区間及びp値
(b)性能分析結果の視覚化
・Calibration plot
・Decile plot
・Calibration belt
である。
【0162】
前記モデル性能交差検証分析は、
(a)性能交差検証に使用される方法
・LOOCV(leave-one-out cross-validation)
・K-fold CV(cross validation)
・Permutation test
・Bootstrapping
(b)交差検証結果の視覚化
・ROC curve
・Calibration plot
・Decile plot
・Calibration belt
である。
【0163】
[全部繰り返し測定変数であるときの分析]
(G)全部繰り返し測定変数である場合は、繰り返し測定変数が2つである場合と、繰り返し側定変数が3つ以上である場合に区分し、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数である場合に区分してデータ分析を行うが、
前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数であるときは、連続型変数に対する正規分布分析を行い、連続型変数が正規分布に従うかを判断し、正規分布に従う場合にはPaired sample T testを設定し、正規分布に従わない場合にはWilcoxon signed-rank testを設定してデータ分析を行う過程を含んでなる。
【0164】
また、前記繰り返し測定変数が2つであり且つ繰り返し測定変数が連続型変数であるときは、ICC(Intraclass Correlation Coefficient) analysisを設定し、データ分析を行う過程をさらに含むことができる。
繰り返し測定変数が2つであり且つ繰り返し測定変数がカテゴリ型変数であるときは、カテゴリ型変数に含まれたサブグループ数(m、n)が全て2つであるとき(m=2、n=2)、McNemar’s test、Cohens’ Kappaを設定してデータ分析を行う過程と、カテゴリ型変数に含まれたサブグループ数(m、n)がそれぞれ2つ、3つ以上であるとき(m=2、n≧3)、Cochran-Armitage test for trendを設定してデータ分析を行う過程と、カテゴリ型変数に含まれたサブグループ数(m、n)が全て3つ以上であるとき(m≧3、n≧3)、McNemar-Bowker testを設定してデータ分析を行う過程と、を含んでなる。
【0165】
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数が連続型変数であるときは、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysis、Repeated measures 1-way ANOVAを設定してデータ分析を行う過程を含んでなる。
【0166】
繰り返し測定変数が3つ以上であり且つ繰り返し測定変数がカテゴリ型変数であるとき、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation)分析を設定してデータ分析を行う過程を含んでなる。
【0167】
[単独測定変数が混在しているときの分析]
(H)単独測定変数と繰り返し測定変数とが混在している場合は、繰り返し測定変数が連続型変数である場合と、繰り返し測定変数がカテゴリ型変数であり場合に区分し、
繰り返し測定変数が連続型変数である場合には、Linear mixed effect model analysis、GEE(Generalized Estimating Equation) analysisを設定してデータ分析を行い、繰り返し測定変数が連続型変数であり且つ単独測定変数がカテゴリ型変数であるとき、Repeated measures 2-way ANOVAを設定してデータ分析を行う過程を含んでなる。
【0168】
繰り返し測定変数がカテゴリ型変数である場合には、Generalized mixed effect model analysis、GEE(Generalized Estimating Equation)分析を設定してデータ分析を行う過程を含んでなる。
【0169】
[生存資料の分析]
(I)生存資料の分析は、生存時間、イベント発生変数のみがある場合と、生存時間、イベント発生変数及び単独測定資料がある場合に区分し、
生存時間、イベント発生変数のみがある場合には、Kaplan-Meier curve analysisアルゴリズムを設定してデータ分析を行い、生存時間、イベント発生資料及び単独測定資料が共にある場合には、Univariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす個別影響力を分析する過程と、Multivariable cox proportional hazards regressionを設定して、単独測定変数が生存に及ぼす統合的な影響力を分析する過程と、Kaplan-Meier curve analysisを設定してLog rank実行(詳細カテゴリ間の生存確率差異比較)を行う過程と、を含んでなる。
【0170】
そして、生存確率予測モデルを構築する過程と、Time=tにおけるDiscrimination側面予測性能分析、time=tにおけるCalibration側面予測性能分析、生存確率予測モデル交差検証分析を行い、生存確率予測モデルを分析する過程と、をさらに含んで構成することができる。
【0171】
前記Time=tにおけるDiscrimination側面予測性能分析に使用される指標は、上記で説明したように、
前記Discrimination側面性能分析に使用される指標は、
(a)性能分析指標(95%信頼区間を含む)
・AUC(95%CI)
・Sensitivity、Specificity
・PPV(positive predictive value)、NPV(negative predictive value)
・ACC(accuracy)、MIS(miss-classification rate)
・FPR(False Positive Rate)、FNR(False Negative Rate)、FDR(False Discovery Rate)、FOR(False Omission Rate)
・LR+(Positive Likelihood Ratio)、LR-(Negative Likelihood Ratio)、DOR(Diagnostic Odds Ratio)
(b)性能分析結果の視覚化
・ROC curve
である。
【0172】
前記Calibration側面性能分析に使用される指標は、
(a)性能分析指標
・AIC(Akaike Information Criterion)
・BIC(Bayes Information Criterion)
・Nagelkerke R2
・Hosmer-Lemeshow test P value
・Brier score
・Spigelhalter Z score with P value
・Calibration plotにおけるlinear regression line
・Intercept、95%信頼区間及びp値
・Slope、95%信頼区間及びp値
(b)性能分析結果の視覚化
・Calibration plot
・Decile plot
・Calibration belt
である。
【0173】
前記生存確率予測モデル性能交差検証において、
(a)性能交差検証に使用される方法
・LOOCV(leave-one-out cross-validation)
・K-fold CV(cross validation)
・Permutation test
・Bootstrapping
(b)交差検証結果の視覚化
・ROC curve
・Calibration plot
・Decile plot
・Calibration belt
である。
【産業上の利用可能性】
【0174】
本発明は、変数属性に基づいて最適なアルゴリズムを選択してデータ分析を可能にするもので、臨床過程及び分野が多様に細分化されるにつれて、より多様に増加する変数データに対して適応的なデータ分析自動化システムを提供することができるので、医療、バイオ及び統計分析産業分野で広く利用してその実用的且つ経済的な価値を実現することができる技術である。
図1
図2
図3
図4
図5a
図5b
図5c
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【国際調査報告】