(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-24
(54)【発明の名称】生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法
(51)【国際特許分類】
G16H 10/40 20180101AFI20220117BHJP
【FI】
G16H10/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021530139
(86)(22)【出願日】2019-11-21
(85)【翻訳文提出日】2021-05-27
(86)【国際出願番号】 US2019062561
(87)【国際公開番号】W WO2020112478
(87)【国際公開日】2020-06-04
(32)【優先日】2018-11-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-12-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】505373306
【氏名又は名称】ソマロジック オペレーティング カンパニー インコーポレイテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】特許業務法人秀和特許事務所
(72)【発明者】
【氏名】ハガル,ヨランダ
(72)【発明者】
【氏名】ダッタ,ガルギ
(72)【発明者】
【氏名】アレクサンダー,レイ
(72)【発明者】
【氏名】ヒンテルベルグ,マイケル
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
(57)【要約】
生存分析を使用してクラス不均衡なセットをダウンサンプリングする方法であって、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングすることであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、ダウンサンプリングすること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、方法。
【特許請求の範囲】
【請求項1】
方法であって、
a)クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
b)前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等または実質的に同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
c)生存モデルを生成するために、生存分析を使用して前記ダウンサンプリングされたデータセットに対して交差検証を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、前記方法。
【請求項2】
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、請求項1に記載の方法。
【請求項3】
前記クラス不均衡データセットが生存データセットである、請求項1に記載の方法。
【請求項4】
前記イベントが、対象の疾患、障害、または状態である、請求項1に記載の方法。
【請求項5】
前記生存分析は、コックス比例ハザード分析、ランダムフォレスト分析、加速故障時間分析、及びそれらの任意の組み合わせからなる群から選択される、請求項1に記載の方法。
【請求項6】
エラスティックネットペナルティをさらに含む、請求項5に記載の方法。
【請求項7】
前記交差検証は、少なくとも2分割、3分割、4分割、5分割、6分割、7分割、8分割、9分割、10分割、11分割、12分割、13分割、14分割、15分割、16分割、17分割、18分割、19分割、または20分割の交差検証である、請求項1に記載の方法。
【請求項8】
前記生存モデルは5から1000の特徴を含み、各特徴は、タンパク質の測定、臨床因子、及びそれらの組み合わせからなる群から選択される、請求項1に記載の方法。
【請求項9】
前記臨床因子は、年齢、体重、血圧、身長、BMI、コレステロール、性別、及びそれらの組み合わせからなる群から選択される、請求項8に記載の方法。
【請求項10】
前記臨床測定値は、プロテオミクス測定値、ゲノム測定値、トランスクリプトーム測定値、メタボロミクス測定値、またはそれらの組み合わせから選択される、請求項1に記載の方法。
【請求項11】
前記交差検証が、k分割交差検証、モンテカルロ交差検証、及びN個抜き交差検証から選択される、請求項1に記載の方法。
【請求項12】
前記多数派データクラスが前記クラス不均衡データセットの95%であり、前記少数派データクラスが前記クラス不均衡データセットの5%である、請求項1に記載の方法。
【請求項13】
前記多数派データクラスが前記クラス不均衡データセットの90%であり、前記少数派データクラスが前記クラス不均衡データセットの10%である、請求項1に記載の方法。
【請求項14】
前記多数派データクラスが前記クラス不均衡データセットの85%であり、前記少数派データクラスが前記クラス不均衡データセットの15%である、請求項1に記載の方法。
【請求項15】
前記多数派データクラスが前記クラス不均衡データセットの80%であり、前記少数派データクラスが前記クラス不均衡データセットの20%である、請求項1に記載の方法。
【請求項16】
前記多数派データクラスが前記クラス不均衡データセットの75%であり、前記少数派データクラスが前記クラス不均衡データセットの25%である、請求項1に記載の方法。
【請求項17】
前記多数派データクラスが前記クラス不均衡データセットの70%であり、前記少数派データクラスが前記クラス不均衡データセットの30%である、請求項1に記載の方法。
【請求項18】
前記多数派データクラスが前記クラス不均衡データセットの65%であり、前記少数派データクラスが前記クラス不均衡データセットの35%である、請求項1に記載の方法。
【請求項19】
前記多数派データクラスが前記クラス不均衡データセットの60%であり、前記少数派データクラスが前記クラス不均衡データセットの40%である、請求項1に記載の方法。
【請求項20】
方法であって、
a)クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、前記生成すること、及び
b)生存モデルを生成するために、生存分析を使用して前記ダウンサンプリングされたデータセットに対して交差検証を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、
前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数のタンパク質の測定値を含み、前記生物学的データは、前記多数派データクラスまたは前記少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記方法。
【請求項21】
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、請求項20に記載の方法。
【請求項22】
前記AUCは、対象が特定の時点までにイベントを有するかどうかの判定に基づいて計算される、請求項21に記載の方法。
【請求項23】
疾患のリスクを判定するためのコンピュータ実装方法であって、
a)クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラス
または少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
b)前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等または実質的に同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
c)生存モデルを生成するために、生存分析を使用して前記ダウンサンプリングされたデータセットに対して交差検証を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、
ステップb)及びステップc)は、コンピュータシステムを用いて計算される、前記方法。
【請求項24】
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、請求項23に記載の方法。
【請求項25】
コンピュータによって読み取り可能なプログラム記憶装置であって、前記コンピュータによって実行可能な命令のプログラムを触知的に具現化して、
a)クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
b)前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等または実質的に同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
c)生存モデルを生成するために、生存分析を使用して前記ダウンサンプリングされたデータセットに対して交差検証を実行することを含む疾患のリスクを判定するための方法の方法ステップを実行し、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、前記装置。
【請求項26】
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、請求項25に記載の方法。
【請求項27】
疾患のリスクを判定するためのコンピューティングシステムであって、プログラムされた命令を格納するためのメモリ;
a)クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
b)前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等または実質的に同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
c)生存モデルを生成するために、生存分析を使用して前記ダウンサンプリングされたデータセットに対して交差検証を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、操作を実行するため前記プログラムされた命令を実行するように構成されたプロセッサを含む、前記システム。
【請求項28】
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、請求項27に記載の方法。
【請求項29】
非一時的なコンピュータ可読媒体であって、
a)クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
b)前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等または実質的に同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
c)生存モデルを生成するために、生存分析を使用して前記ダウンサンプリングされたデータセットに対して交差検証を実行すること
という操作を実行するためにプロセッサによって実行可能な命令が格納され、前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、前記非一時的なコンピュータ可読媒体。
【請求項30】
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、請求項29に記載の方法。
【請求項31】
疾患のリスクを判定するためのコンピュータ実装方法であって、
a)クラス不均衡データセットをコンピュータで受信することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記受信すること、
b)前記クラス不均衡データセットをコンピュータでダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等または実質的に同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
c)生存モデルを生成するために、生存分析を使用して前記ダウンサンプリングされたデータセットに対して前記コンピュータで交差検証を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、前記方法。
【請求項32】
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、請求項31に記載
の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2018年11月29日に出願された米国仮特許出願第62/773,028号、及び2018年12月21日に出願された米国仮特許出願第62/783,733号に対する優先権の利益を主張するものであり、それらの全内容は、参照することにより本明細書に組み込まれる。
【0002】
本開示は、一般に、疾患のリスクの判定の分野に関し、より具体的には、電子データを処理して疾患のリスクを判定するためのシステム及び方法に関する。
【背景技術】
【0003】
心血管イベント、糖尿病診断、様々ながんの類など、様々な疾患関連の状態またはイベントのリスクに関連するバイオマーカーを識別する方法は、主に遺伝子シーケンシング、トランスクリプトミクス、プロテオミクス、及びメタボロミクスなどのハイスループット技術の発見により改善されてきた。しかし、これらのテクノロジーはまた、意味のあるバイオマーカーシグネチャの抽出を困難にする可能性のある複雑な生物学的プロセスを表す高次元のデータを生じることにより、問題を複雑にしている。
【0004】
主な目標が、指定された期間内に疾患関連の状態またはイベントを経験する個人を正しく識別することである場合、通常は分類アプローチを使用するのみである分析は、分類ツールと組み合わせて生存モデルアプローチと共に組み込む、特別なタイプの分類問題として、それを組立てることによって、強化できる。ただし、生存分析は、疾患に関連する状態またはイベントを経験する患者と経験しない患者の数の不均衡に苛まれる可能性がある。モデルは「できるだけ頻繁に」正確になるようにトレーニングされているため、予測分類子は一般に不均衡なデータに対するパフォーマンスが低いことが知られている。この効果は、より大きな多数派クラスが、モデル用に選択された特徴を駆り立てることから発生する。少数派クラスが頻繁に誤分類される可能性がある一方で、多数派クラスは依然正確に予測されている。しかし、感度と特異度が不均衡になり、一方が、観察結果の数が多い群に依拠する形で、他方に対して最大にされる。健康の転帰のモデル化では、コホート内の疾患有病率が低く、少数派クラスを形成するのが一般的である。そのような状況では、感度を犠牲にして特異度が最大化される。これは、状態またはイベントの発生のリスクがある個人をできるだけ多く特定することが目標である場合に、問題になる。
【0005】
したがって、特定の疾患または状態の分子シグネチャーまたはバイオマーカーを識別するための改善された方法に対する代替の方法の必要性が引き続き存在する。本開示は、バイオマーカーの発見を改善するための方法を提供することにより、そのような必要性を満たすものである。
【発明の概要】
【0006】
本開示のいくつかの態様によれば、開示されるシステム及び方法は、生存分析における感度及び特異度を改良するために、時間の値を含むクラス不均衡データセットの多数派クラス、すなわちより多くの観察結果があるクラスのダウンサンプリングに関する。ダウンサンプリングの目的は、モデルの感度と特異度のバランスをとるために、診断された個人と診断されていない個人を均等に配慮するように分類子を「バイアス」することである。
【0007】
一実施形態では、クラス不均衡データセットを取得することであって、クラス不均衡デ
ータセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない方法が、開示される。
【0008】
本開示の態様によれば、曲線下面積(AUC)、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
【0009】
他の例では、クラス不均衡データセットは生存データセットであり、及び/またはイベントは、対象の疾患、障害、または状態である。さらなる例では、生存分析は、コックス比例ハザード分析、ランダムフォレスト分析、加速故障時間分析、及びそれらの任意の組み合わせからなる群から選択され、ペナルティ付き回帰技術などの機械学習の適合を含む。この方法は、エラスティックネットペナルティをさらに含み得る。
【0010】
他の実施形態では、交差検証は、少なくとも2分割、3分割、4分割、5分割、6分割、7分割、8分割、9分割、10分割、11分割、12分割、13分割、14分割、15分割、16分割、17分割、18分割、19分割、または20分割の交差検証である。他の実施形態では、生存モデルは5から1000の特徴を含み、各特徴は、タンパク質の測定、臨床因子、及びそれらの組み合わせからなる群から選択される。臨床因子は、年齢、体重、血圧、身長、BMI、コレステロール、性別、及びそれらの組み合わせからなる群から選択される。
【0011】
さらなる実施形態では、臨床測定値は、プロテオミクス測定値、ゲノム測定値、トランスクリプトーム測定値、メタボロミクス測定値、及びそれらの組み合わせから選択される。さらに、交差検証は、k分割交差検証、一般化させたモンテカルロ交差検証、及びp個抜き交差検証またはブートストラッピング手法から選択される。
【0012】
本開示の態様によれば、多数派データクラスがクラス不均衡データセットの95%であり、少数派データクラスがクラス不均衡データセットの5%であるか、多数派データクラスがクラス不均衡データセットの90%であり、少数派データクラスがクラス不均衡データセットの10%であるか、多数派データクラスがクラス不均衡データセットの85%であり、少数派データクラスがクラス不均衡データセットの15%であるか、多数派データクラスがクラス不均衡データセットの80%であり、少数派データクラスがクラス不均衡データセットの20%であるか、多数派データクラスがクラス不均衡データセットの75%であり、少数派データクラスがクラス不均衡データセットの25%であるか、多数派データクラスがクラス不均衡データセットの70%であり、少数派データクラスがクラス不均衡データセットの30%であるか、多数派データクラスがクラス不均衡データセットの65%であり、少数派データクラスがクラス不均衡データセットの35%であるか、多数派データクラスがクラス不均衡データセットの60%であり、少数派データクラスがクラス不均衡データセットの40%である。
【0013】
別の実施形態では、方法であって、クラス不均衡データセットをダウンサンプリングし
て、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み;観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず;クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数のタンパク質の測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、方法が開示される。
【0014】
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
【0015】
本開示の例では、AUCは、対象が特定の時点までにイベントを有するかどうかの判定に基づいて計算される。
【0016】
疾患のリスクを判定するためのコンピュータ実装方法であって、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み;観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず;ダウンサンプリング及び交差検証のステップは、コンピュータシステムを用いて計算される、方法がまた、開示される。
【0017】
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
【0018】
コンピュータによって読み取り可能なプログラム記憶装置であって、コンピュータによって実行可能な命令のプログラムを触知的に具現化して、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含む疾患のリスクを判定するための方法の方法ステップを実行し;観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない方法がまた、開示される。
【0019】
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったA
UC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
【0020】
疾患のリスクを判定するためのコンピューティングシステムであって、プログラムされた命令を格納するためのメモリ、及びクラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、操作を実行するためプログラムされた命令を実行するように構成されたプロセッサを含む、コンピューティングシステムがまた、開示されている。
【0021】
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
【0022】
非一時的なコンピュータ可読媒体であって、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することという操作を実行するためにプロセッサによって実行可能な命令が格納され、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、非一時的なコンピュータ可読媒体がまた、開示される。
【0023】
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
【0024】
疾患のリスクを判定するためのコンピュータ実装方法であって、クラス不均衡データセットをコンピュータで受信することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、受信すること;クラス不均衡データセットをコンピュータでダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対してコンピュータで交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、方法がまた開示される。
【0025】
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
【図面の簡単な説明】
【0026】
【
図1】本開示の方法、システム、及び他の態様が実装され得るネットワーク化されたコンピューティング環境の例を示している。
【
図2】本開示による臨床データの取得及び処理用の疾患リスク分析プラットフォームの高レベルのアーキテクチャの図である。
【
図3】HUNT3 CHDサブコホートにおける心筋梗塞(MI)のカプランマイヤー生存曲線を示している。
【
図4-1】予測されたイベントによって層化された、テストセットでのMIのカプランマイヤー生存曲線を示している。各方法について、テストセットは、交差検証によって識別されたしきい値を使用して、高リスクと平均のリスクの個人に分割されている。次に、両群についてカプランマイヤー曲線が計算される。ロジスティック回帰モデルの結果では、誰もが低リスクであると予測され、そのため、生存曲線は1つだけになった。
【
図5-1】ダウンサンプリングされたコックスエラスティックネットモデルを使用して4年以下のMIを予測した、テストセットでのMIのカプランマイヤー生存曲線を示している。個人を高リスクとして分類するための様々なしきい値が調査された。
【発明を実施するための形態】
【0027】
別段の注記がない限り、専門用語は従来の使用法に従って使用される。分子生物学における一般的な用語の定義は、Benjamin Lewin,Genes V,Oxford University Pressにより出版,1994(ISBN 0-19-854287-9)、Kendrew et al.(eds.),The Encyclopedia of Molecular Biology,Blackwell Science Ltd.により出版,1994(ISBN 0-632-02182-9)、及びRobert A.Meyers(ed.),Molecular Biology and Biotechnology:a Comprehensive Desk Reference,VCH Publishers,Inc.により出版,1995(ISBN 1-56081-569-8)に見出されてよい。別段の説明がない限り、本明細書で使用される全ての専門用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。単数形「a」、「an」、及び「the」は、その内容に別段の明確な指示がない限り、複数の指示対象を含む。「AまたはBを含む」とは、A、またはB、またはA及びBを含むことを意味する。核酸またはポリペプチドについて与えられる、全ての塩基サイズまたはアミノ酸サイズ、及び全ての分子量または分子質量の値は概算であり、説明のために提供されることがさらに理解されるべきである。
【0028】
さらに、本明細書で提供される範囲は、その範囲内の全ての値の簡略表記であると理解される。例えば、1~50の範囲は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50からなる群からの任意の数、数の組合せ、または部分範囲(加えて、その内容に別段の明確な指示がない限り、その分数)を含むと理解される。いずれの濃度範囲、パーセンテージ範囲、比率範囲、または整数範囲も、別段の指示がない限り、列挙される範囲内の任意の整数、ならびに適切な場合、その分数(整数の10分の1及び100分の1など)の値
も含むと理解されるべきである。また、任意の物理的特徴、例えば、ポリマーサブユニット、サイズまたは厚さなどに関する、本明細書で列挙される数値範囲のいずれも、別段の指示がない限り、列挙される範囲内のいずれの整数も含むと理解されるべきである。本明細書で使用される場合、「約」または「から本質的になる」とは、別段の指示がない限り、示される範囲、値、または構造の±20%を意味する。本明細書で使用される場合、「含む(include)」及び「含む(comprise)」という用語はオープンエンド形式であり、同義語として使用される。
【0029】
本明細書に記載されるものと類似または同等の方法及び材料が本開示の実施または試験に使用され得るが、好適な方法及び材料が以下に記載される。本明細書で言及されるすべての刊行物、特許出願、特許、及び他の参考文献は、それら全体が参照によって組み込まれる。矛盾する場合には、用語の説明を含む本明細書が優先されることになる。加えて、材料、方法、及び実施例は例示にすぎず、限定することを意図するものではない。
【0030】
本明細書で使用される場合、「SOMAmer」または遅いオフレート修飾アプタマーは、改善されたオフレート特性を有するアプタマーを指す。SOMAmerは、「Method for Generating Aptamers with Improved Off-Rates」と題した米国特許第7,947,447号に記載されている改良されたSELEX法を使用して生成され得る。
【0031】
「生体試料」「試料」、及び「試験試料」という用語は、本明細書では互換的に使用され、個体から得られた、またはそうでなければ個体に由来する任意の材料、生体体液、組織、または細胞を指す。これには、血液(全血、白血球、末梢血単核細胞、バフィーコート、血漿、及び血清を含む)、痰、涙、粘液、鼻洗浄液、鼻吸引液、呼気、尿、精液、唾液、腹腔洗浄液、腹水、嚢胞液、髄膜液、羊水、腺液、リンパ液、乳頭吸引液、気管支吸引液(例えば、気管支肺胞洗浄液)、気管支擦過液、滑液、関節吸引液、臓器分泌物、細胞、細胞抽出物、ならびに脳脊髄液が挙げられる。これには、前述のすべての実験的に分離された画分も挙げられる。例えば、血液試料は、血清、血漿に、または特定の種類の血球、例えば、赤血球もしくは白血球(white blood cell)(白血球(leukocyte))などを含有する画分に分画され得る。いくつかの実施形態では、試料は、個体からの試料の組合せ、例えば、組織及び液体試料の組合せなどであり得る。「生体試料」という用語は、例えば、糞便試料、組織試料、または組織生検などからのホモジナイズされた固体材料を含有する材料も含む。「生体試料」という用語は、組織培養または細胞培養に由来する材料も含む。生体試料を得るための任意の好適な方法が用いられ得、例示的な方法としては、例えば、静脈切開、スワブ(例えば、頬スワブ)、及び穿刺吸引細胞診手順が挙げられる。穿刺吸引が可能な例示的な組織としては、リンパ節、肺、肺洗浄液、BAL(気管支肺胞洗浄液)、甲状腺、乳房、膵臓、及び肝臓が挙げられる。試料はまた、例えば、マイクロダイセクション(例えば、レーザーキャプチャーマイクロダイセクション(LCM)もしくはレーザーマイクロダイセクション(LMD))、膀胱洗浄、塗抹(例えば、PAP塗抹)、または管洗浄によって収集され得る。個体から得られる、または個体に由来する「生体試料」としては、個体から得られた後に任意の好適な方法で処理されている任意のそのような試料が挙げられる。
【0032】
本明細書で使用される場合、「生物学的データ」は、生物学的試料に由来する任意のデータを指す。このような生物学的データには、任意選択で多重性のアプタマーベースのアッセイにおける、タンパク質の標的に特異的なアプタマーを利用して収集されるプロテオミクスデータが含まれるが、これに限定されない。
【0033】
本明細書で使用される場合、「臨床的要因」は、病状またはイベントのリスクの増加に関連し得る生理学的属性を指す。臨床的要因には、年齢、体重、血圧、身長、BMI、コ
レステロール、及び性別が含まれるが、これらに限定されない。
【0034】
本明細書で使用される場合、「クラス不均衡」は、セットのデータが2つ以上のクラスに分類されるとき、2つ以上のクラスが実質的に等しくない数の観察結果を有することを説明するデータセットの特性を指す。
【0035】
本明細書で使用する場合、「交差検証」とは、モデルの構築に使用されるデータに対するモデルのパフォーマンスを評価するためのいずれかのモデル構築及び検証手法、及び統計分析の結果が独立したデータセットに一般化される方法を指し、k分割交差検証、モンテカルロ交差検証、及びp個抜き交差検証(pは1から試料の総数-1までであってよい)を含むが、これらに限定されない。
【0036】
本明細書で使用される場合、「ダウンサンプリング」は、クラスの不均衡を減らすために、より多くの観察結果、すなわち多数決データクラスでクラスのデータをサブセット化することを指す。
【0037】
本明細書で使用される場合、「同等」または「実質的に同等」は、観察結果の数の差が10%未満である、比較されたクラス間の差を指す。
【0038】
本明細書で使用される場合、「特徴」は、データセット内の対象の測定可能な特質または特性を指す。特徴には、タンパク質の測定値及び臨床的要因が含まれるが、これらに限定されない。
【0039】
本明細書で使用される場合、「多数派データクラス」は、2つのクラスを有するクラス不均衡データセットにおいて観察結果の数がより多いクラスを指す。
【0040】
本明細書で使用される場合、「少数派データクラス」は、2つのクラスを有するクラス不均衡データセットにおいて観察結果の数がより少ないクラスを指す。
【0041】
本明細書で使用される場合、「生存分析」は、イベントまでの時間のデータの任意のモデリングを指す。生存分析の方法は、MIまでの時間、糖尿病の発症、様々な形態のがんの発症など、任意のイベントまでの時間の転帰で使用できる。生存分析には、コックス比例ハザード分析、ランダムフォレスト分析、及び加速故障時間分析が挙げられるが、これらに限定されない。
【0042】
本明細書で使用される場合、「生存データセット」は、対象のイベントが対象が観察された期間に発生したかどうかを示す、時間の値及びイベントステータスの値の両方を含む任意のデータセットを指す。
【0043】
生存分析では、クラスの不均衡は大きな問題を引き起こし、それにおいて特定の時間枠内で、疾患(またはイベント)のない個人の数が疾患を患っている個人の数を上回っている。この不均衡は、疾患のリスクが高い個人のリスクの予測を不正確なものにする可能性がある。ダウンサンプリングは、少数派クラスと多数派クラスの個人数のバランスをとることでこの問題を軽減し、そのため少数派クラスの個人に関連する特徴、及び疾患やイベントの発生リスクに対する推定される影響の検出と選択を改善する。
【0044】
生存分析のためのクラス不均衡データセットのダウンサンプリングがAUCを改善することが実証された1つのコンテキストは、安定した冠状動脈性心疾患(CHD)患者の心血管イベントのリスクに関連する循環性タンパク質バイオマーカーを特定するために使用されたSOMAscan(登録商標)プロテオミクスアッセイによって生成されたプロテ
オミクスデータに関するものである。結果として得られるモデルは、既存の臨床的なリスクのツールよりも優れた能力を付与し、心血管イベントの複合的なエンドポイントの中でも、幅広い適用性と一般化の可能性とを備えている。
【0045】
本開示は、安定したCHDを有する患者の間で二次的MIを予測するための標的モデルを説明する。プロテオミクスデータを使用して、安定したCHDの患者の採血から4年以内に二次的MIを経る可能性のある患者を特定した。プロテオミクス信号に加えて、データには、特定の心血管イベントが観察中に発生したかどうか、及びa)イベント、またはb)他の要因による研究の終了のいずれかまでの時間の長さに関する情報が含まれている。これらのイベントまでの時間のデータにより、問題は生存分析手法に非常に適したものになっている。
【0046】
主な目標が4年以内にMIイベントが発生する個人を正しく特定することである場合、分析は分類の問題として再構成できる。この場合、イベントが4年より前に発生した場合、個人は「陽性」クラスであり、個人がMIなしで4年という時間枠を超えて研究に残った場合、個人は「陰性」クラスとしてラベル付けされる。生存分析ツールを使用すると、分類子の展開にMIまでの時間を組み込むことにより、生存モデルが「すべての情報を使用する」ため、モデルの予測精度が向上する(標準の分類モデルと比較して)。このリフレーミングにより、AUCや混同行列などの標準的な分類メトリックを使用してモデルのパフォーマンスを評価することもできるようになる。生存モデルを評価するこの方法は、従来のアプローチではないが、イベント固有の分類は、臨床現場に多くの利点を与える。患者に「陽性」または「陰性」のラベルを付けることは、幅広い聴衆の間でより簡単に理解される(例えば、ハザード比または確率と比較して)。予後の検査のこの理解を向上させることにより、臨床医はより正確で的を絞った医療管理を提供できる。ただし、標準的な分類モデリングと同様に、生存分析へのこのアプローチは、イベントを経験する患者と経験しない患者の不均衡に悩まされる可能性がある。
【0047】
例えば、実施例1で分析されたサブコホートの個人の8.1%のみが、4年以内に二次的MIを発症するが、8倍を超える数の参加者(66.9%)が、イベントなしで4年以上生存する。ダウンサンプリングの目的は、モデルの感度と特異度のバランスをとるために、診断された個人と診断されていない個人に等しく配慮するように分類子を「バイアス」することである。リサンプリング手法は様々な機械学習手法に適用されているが、クラスの不均衡は、生存モデリング手法を使用した機械学習では未踏のトピックである。
【0048】
実施例1では、ダウンサンプリングをコックス比例ハザードエラスティックネット回帰モデルと組み合わせて、最初の採血から4年以内のMIイベントの予測を評価する。
【0049】
実施例1から明らかなように、生存分析のパフォーマンス、例えばコックス比例ハザードエラスティックネットモデル(つまり、「Coxnet」モデル)は、モデリング中にデータをダウンサンプリングすることで改善できる。本開示は、ダウンサンプリングされたCoxnetモデルが、標準のCoxnetモデル、ダウンサンプリングされたエラスティックネットロジスティック回帰モデル、及び標準のエラスティックネットロジスティック回帰モデルよりも優れていることを効果的に示している。
【0050】
ダウンサンプリングに加えて、生存モデルに組み込むこともできるクラスの不均衡を処理するための他の方法がある。例えば、ケースの重み付け、単純なオーバーサンプリング、または合成少数派オーバーサンプリング手法(SMOTE)などのより複雑なオーバーサンプリング手法は、従来の生存分析や、生存ランダムフォレストなどの拡張された機械学習手法で検討できる。
【0051】
実施例1は、指定された時間枠内におけるMIイベントの予測という文脈における生存分析のダウンサンプリングの組み合わせを詳細に説明しているが、本明細書に開示される方法は、選択した時間枠内での病状または疾患関連イベントのリスクの任意の予測に適用することができる。
【0052】
図1は、本開示の態様による、例えば、クラス不均衡データをダウンサンプリングすることによって、疾患のリスクを判定するために電子データを処理するためのネットワーク化されたコンピューティング環境100のブロック図である。
図1に示されるように、ネットワーク化されたコンピューティング環境100は、サーバシステム104及び電子データベース106を含む、疾患リスク分析プラットフォーム102を含み得る。サーバシステム104は、インターネットなどの電子ネットワーク108を介して使用するために、疾患リスク分析プラットフォーム102のソフトウェアモジュール、アルゴリズム、または他のサブシステムを格納及び実行することができる。使用者は、コンピューティングデバイスなどのユーザデバイス110によって、電子ネットワーク108を介して疾患リスク分析プラットフォーム102にアクセスすることができる。ユーザデバイス110は、使用者が、電子ネットワーク108を介してサーバシステム104によってホストされる疾患リスク分析プラットフォーム102にアクセスするためのウェブブラウザを表示することを可能にし得る。ユーザデバイス110は、パーソナルコンピューティングデバイス、モバイルコンピューティングデバイスなどのような、ウェブページにアクセスするための任意のタイプのデバイスであり得る。ソースデバイス112は電子ネットワーク108を介した疾患リスク分析プラットフォーム102にデータを提供及び/または受信することができる。ソースデバイス112は、パーソナルコンピューティングデバイス、モバイルコンピューティングデバイスなどのような、ウェブページにアクセスするための任意のタイプのデバイスであり得る。
【0053】
図1は単なる例として提示されている。他の例が可能であり、
図1のネットワーク化されたコンピューティング環境100とは異なる場合がある。また、ネットワーク化されたコンピューティング環境100に示されるデバイス及びネットワークの数及び配置が、例として提示されている。実際には、追加のデバイス、より少ないデバイス及び/またはネットワーク、様々なデバイス及び/またはネットワーク、またはネットワーク化されたコンピューティング環境100に示されているものとは異なる配置のデバイス及び/またはネットワークがあり得る。さらに、
図1に示される2つ以上のデバイスは、単一のデバイス内に実装され得、
図1に示される単一のデバイスは、複数の分散したデバイスとして実装できる。さらに、または代わりに、1つまたは複数のユーザデバイス及び/またはネットワーク化されたコンピューティング環境100のサーバシステムは、サーバシステム104の1つまたは複数の機能、及び/または疾患リスク分析プラットフォーム102を実行することができる。
【0054】
図2は、疾患のリスクを判定するために電子データを処理するための例示的なコンピュータアーキテクチャ200を示している。具体的には、
図2は、本開示の1つまたは複数の実施形態による、クラス不均衡セットのダウンサンプリングを生存分析と組み合わせるように構成された、例示的なコンピュータアーキテクチャ200を示している。
図2のコンピュータアーキテクチャ200に示されているように、疾患リスク分析プラットフォーム102のサーバシステム104は、データ取得モジュール212、ダウンサンプリングモジュール214、及び交差検証モジュール216を含み得る。疾患リスク分析プラットフォーム102は、ローカルまたはリモートでアクセスされるかどうかにかかわらず、1つまたは複数のデータベースまたはデータストアをさらに含むことができる。例えば、
図2に示されるように、疾患リスク分析プラットフォーム102は、多数派クラスデータ202及び少数派クラスデータ204を含むクラス不均衡データセット206を含み得る。疾患リスク分析プラットフォーム102は、ダウンサンプリングされたデータセット20
8及び生存モデル210をさらに含み得る。データ取得モジュール212、ダウンサンプリングモジュール214、交差検証モジュール216、クラス不均衡データセット206、ダウンサンプリングされたデータセット208、及び生存モデル210のうちの1つまたは複数は、ローカル、リモート、またはローカルとリモートの両方で保存または実行されるその機能及び内容の一部またはすべてを有し得ること、及びその機能をプラットフォームの他のコンポーネントと組み合わせたり、分散させたりすることができることが理解されるべきである。
【0055】
例示的なコンピュータアーキテクチャ200の一実施形態では、データ取得モジュール212は、ユーザデバイス110またはソースデバイス112から、多数派クラスデータ202及び少数派クラスデータ204を含むクラス不均衡データセット206を受信することができる。このクラス不均衡データセット206は、ダウンサンプリングモジュール214によって処理されて、ダウンサンプリングされたデータセット208を生成することができる。このダウンサンプリングされたデータセット208は、交差検証モジュール216によって処理されて、生存モデル210を生成することができる。次に、この生存モデル210は、電子ネットワーク108を介してユーザデバイス100及び/またはソースデバイス112に送信され得る。
【0056】
プログラマブルロジックを使用する場合、そのようなロジックは、市販の処理プラットフォームまたは専用デバイスで実行できる。開示される主題の実施形態は、マルチコアのマルチプロセッサシステム、ミニコンピュータ、メインフレームコンピュータ、分散機能とリンクまたはクラスタ化されたコンピュータ、ならびに実質的にあらゆるデバイスの中に埋め込まれ得る普及型または小型のコンピュータを含む種々のコンピュータシステム構成と共に実践されることができることを、当業者は理解し得る。
【0057】
例えば、少なくとも1つのプロセッサデバイス及びメモリが、上述の実施形態を実装するために使用され得る。プロセッサデバイスは、単一のプロセッサ、複数個のプロセッサ、またはその組み合わせであり得る。プロセッサデバイスは、1つまたは複数のプロセッサ「コア」を備えている場合がある。
【0058】
本開示の様々な実施形態は、上記の
図1及び
図2の例に記載されているように、プロセッサデバイスを使用して実装することができる。本説明を閲読した後、他のコンピュータシステム及び/またはコンピュータアーキテクチャを使用して、本開示の実施形態をどのように実装するかが当業者には明らかとなろう。操作は連続的な処理として説明され得るが、操作のうちのいくつかは、実際には、並行して、一斉に、及び/または分散型の環境において行われ得、また単一のまたはマルチプロセッサマシンによってアクセスされるために、ローカルでまたはリモートで格納されたプログラムコードで行われ得る。加えて、いくつかの実施形態では、操作の順番は、開示される主題の精神を逸脱することなく再設定され得る。
【0059】
疾患リスク分析プラットフォーム102、及び/またはユーザデバイス110またはソースデバイス112などの疾患リスク分析プラットフォーム102にアクセスするために使用される任意のデバイスは、中央処理装置(CPU)を含み得るということが、理解されるべきである。そのようなCPUは、例えば、任意のタイプの特別な目的または汎用のマイクロプロセッサデバイスを含む、任意のタイプのプロセッサデバイスであり得る。当業者によって認識されるように、CPUはまた、マルチコア/マルチプロセッサシステム、単独でまたはコンピューティングデバイスのクラスタで、クラスタでまたはサーバファームで動作するシステムの単一のプロセッサであり得る。CPUは、データインフラストラクチャ、例えば、バス、メッセージ待ち行列、ネットワーク、またはマルチコアメッセージ受け渡しスキームに接続され得る。
【0060】
疾患リスク分析プラットフォーム102、及び/または疾患リスク分析プラットフォーム102にアクセスするために使用される任意のデバイス、例えばユーザデバイス110またはソースデバイス112はまた、メインメモリ、例えば、ランダムアクセスメモリ(RAM)を含み得、また、二次メモリを含み得るということが、さらに理解されるべきである。二次メモリ、例えば、読み取り専用メモリ(ROM)は、例えば、ハードディスクドライブまたはリムーバブルストレージドライブであり得る。このようなリムーバブルストレージドライブは、例えばフロッピーディスクドライブ、磁気テープドライブ、光ディスクドライブ、フラッシュメモリ、または同様のものを含み得る。本例のリムーバブルストレージドライブは、周知の手法でリムーバブルストレージユニットから読み出し、及び/またはこれに書き込む。リムーバブルストレージユニットは、リムーバブルストレージドライブによって読み出し及び書き込みがなされるフロッピーディスク、磁気テープ、光ディスクなどを含み得る。当業者によって認識されるように、リムーバブルストレージユニットは、概して、コンピュータソフトウェア及び/またはデータを格納したコンピュータ利用可能記憶媒体を含む。
【0061】
代替的な実施態様において、二次メモリは、コンピュータプログラムまたは他の命令がデバイスにロードされることを可能にする他の類似の手段を含み得る。かかる手段の例は、プログラムカートリッジ及びカートリッジインターフェース(ビデオゲーム機器において見られるものなど)、取り外し可能なメモリチップ(EPROM、またはPROMなど)及び関連するソケット、及び他のリムーバブルストレージユニット及びソフトウェア及びデータがリムーバブルストレージユニットからデバイスへと転送されることを可能にするインターフェースを含み得る。
【0062】
疾患リスク分析プラットフォーム102、及び/または疾患リスク分析プラットフォーム102にアクセスするために使用される任意のデバイス、例えばユーザデバイス110またはソースデバイス112はまた、通信インターフェース(「COM」)を含み得ることが、さらに理解されるべきである。通信インターフェースは、ソフトウェア及びデータが、デバイスと外部デバイスとの間で転送されることを可能にする。通信インターフェースは、モデム、ネットワークインターフェース(イーサネットカードなど)、COMポート、PCMCIAスロット及びカード、または同様のものを含み得る。通信インターフェースを経由して転送されるソフトウェア及びデータは、信号の形式であってもよく、これは通信インターフェースによって受信されることのできる電気、電磁、光、または他の信号であり得る。これらの信号は、デバイスの通信パスを介して通信インターフェースに与えることができ、それは、例えばワイヤまたはケーブル、光ファイバ、電話回線、携帯電話のリンク、RFリンクまたは他の通信チャネルを使用して実装され得る。
【0063】
そのような機器のハードウェア要素、オペレーティングシステム、及びプログラミング言語は、本質的に従来式であり、当業者はそれらに十分に精通していると推定される。疾患リスク分析プラットフォームにアクセスするために使用されるデバイスは、キーボード、マウス、タッチスクリーン、モニタ、ディスプレイなどの入力及び出力デバイスに接続するための入力及び出力ポートも含み得る。もちろん、様々なサーバの機能は、処理での負荷を分散するために、多くの同様のプラットフォームで分散された様式で実装され得る。あるいは、サーバは、1つのコンピュータハードウェアプラットフォームの適切なプログラミングによって実装することもできる。
【0064】
本明細書に開示されるシステム、装置、デバイス、及び方法は、例として、また図を参照しながら、詳細に説明されている。本明細書で論じられる例は、単なる例であり、本明細書で説明される装置、デバイス、システム、及び方法の説明を補うために提示されている。図面に示されている、または以下で説明されている機能またはコンポーネントは、特
に必須のものとして指定されていない限り、装置、デバイス、システム、または方法のいずれかの任意の特定の実装に対して必須のものとみなされるべきではない。読みやすく明確にするために、特定のコンポーネント、モジュール、または方法は、特定の図のみに関して説明されている場合がある。本開示において、特定の技術や配置などのいずれかを識別することは、提示されている特定の例に関連しているか、またはそのような技術や配置などの単なる一般的な説明である。特定の詳細または例を識別することは、意図されておらず、特にそのように指定されていない限り、必須または制限として解釈されるべきではない。コンポーネントの組み合わせまたはサブコンビネーションを具体的に説明していない場合でも、いずれかの組み合わせまたはサブコンビネーションが不可能であることを示すものとして理解されるべきではない。開示及び説明された例、配置、構成、コンポーネント、要素、装置、デバイス、システム、方法などに変更を加えることができ、特定の用途にとっては望ましい場合があることが理解されよう。また、説明されているいずれの方法についても、その方法がフロー図と併せて説明されているかどうかに関係なく、文脈による別段の指定または求めがない限り、方法の実行時に行われるステップのいずれかの明示的または暗黙的な順序付けは、これらのステップが、提示された順序で実行されなければならないことを意味するのではなく、代わりに別の順序で、または並行して実行できるということを理解されたい。
【0065】
本開示全体を通して、コンポーネントまたはモジュールへの言及は、一般に、機能または関連する機能のグループを実行するために論理的に一緒にグループ化することができる品目を指す。コンポーネントとモジュールは、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせで実装できる。「ソフトウェア」という用語は、実行可能コード、例えば機械実行可能または機械解釈可能な命令だけでなく、ファームウェアを含む任意の適切な電子形式で格納されたデータ構造、データストア、及び計算命令、及び組み込みソフトウェアを含むように広範に使用される。「情報」及び「データ」という用語は広範に使用され、多種多様な電子情報、例えば実行可能コード;コンテンツ、例えばテキスト、ビデオデータ、及びオーディオデータなど;ならびに様々なコードまたはフラグを含む。「情報」、「データ」、及び「コンテンツ」という用語は、文脈上許されている場合、同じ意味で使用されることがある。
【実施例】
【0066】
以下の実施例は、本発明のいくつかの実施形態をより十分に例証するために提示される。しかし、それらは、決して本発明の広範な範囲を限定するものとして解釈されるべきではない。当業者は、本発明の趣旨から逸脱することなく、本発見の基礎となる原理を容易に採用し、様々な混合物を設計することができる。
【0067】
実施例1
この例は、コックス比例ハザードエラスティックネット回帰モデルと組み合わせたダウンサンプリングの説明を提供し、
図2の例示的なデータリスク分析プラットフォーム内で実行できるように、最初の採血から4年以内の心筋梗塞(MI)イベントの予測を評価する。
【0068】
この例の目的は、少なくとも2つある。1)少数派クラスと多数派クラスの両方を予測する特徴の選択と識別、及び2)少数派クラスのリスクが十分に予測されるように推定された効果量の導出。対照的に、ロジスティック回帰エラスティックネットモデルの予測能力(ダウンサンプリングありとなし)と、ダウンサンプリングなしのコックスエラスティックネットモデルを検討した。
【0069】
材料及び方法-データセット
分析に使用された試料は、HUNT3研究のサブコホートであり、ノルウェーの前向き
コホート研究であり、研究参加者から採取された血液試料とフォローアップの健康情報が含まれていた。CHDサブコホートについては先に説明されており(PeterGanz,et al.Development and validation of a protein-based risk score for cardiovascular outcomes among patients with stable coronary heart disease.Jama, 315(23):2532-2541, 2016)、組み入れ基準は、6か月以上前のMIの病歴、狭窄、誘導性虚血、または以前の冠状動脈血行再建術を介して、存在しているが安定したCHDのエビデンスを対象とした。血漿試料は、SOMAscan(登録商標)Assay(SomaLogic,Inc;Boulder、コロラド州、米国)を使用してアッセイし、これは、Slow Off-rate Modified Aptamer(SOMAmer(登録商標))試薬を使用して相対的なタンパク質量を測定する。V4アッセイは、5,220のタンパク質分析物を測定するものであり、タンパク質のバイオマーカーを発見するための確立されたプラットフォームである。
【0070】
サブコホートでは、患者の8.1%が4年以内に二次的MIを経験した(表1)。CHDサブコホートにおけるMIのカプランマイヤー生存曲線を
図3に示す。カプランマイヤー曲線は、イベントフリー(MIフリーなど)の確率が時間の経過と共にどのように変化するかを調べるための経験的なノンパラメトリック手法である。HUNT3データセットのCHDサブコホートでは、MIのイベントフリーの確率が徐々に低下する。表1は、CHDサブコホートにおけるMIの発生率と人口統計学的情報を示している。
【表1】
【0071】
材料及び方法-コックスエラスティックネットモデル
生存データは、MIイベント、がんによる死亡、疾患による再入院、機械部品の故障などの幅広いトピックに対応するイベントまでの時間である転帰によって、特徴付けられる。時間依存データの性質は、イベントが調査期間外に発生した場合に、幾ばくかの個人においてイベントが観察されていないというものである。これらの個人は「打ち切られ」る
が、それは複数の理由で発生する可能性がある(例えば、MIに関連しない原因による死亡、研究からの個人の離脱、研究の枠組みの終了後におけるMIの発生)。打ち切りには複数の種類があるが、データには右側打ち切りの個人が含まれている。つまり、MIイベントがない患者について、最後に観測された時点より後に発生していることが仮定されることを意味している。
【0072】
生存データは、生存関数S(.)によって特徴付けられる。これは、イベントがない確率であり、時点tで次のように計算される。
【数1】
式中、f(.)はMIまでの時間の確率密度関数である。生存関数と共に、イベントまでの時間を大幅に増加または減少させる特徴も識別及び特徴付けることができる。生存分析の手法は数多くあるが、最も一般的なものの1つは、コックス比例ハザードモデルである。コックスモデルは次のように表される。
【数2】
この場合、λ(t|.)は、ハザード関数(または「障害の即時リスク」関数)であり、λ(t|.)=f(t|.)/S(t|.)のように定義される。さらに、X
iは、i番目の個人の特徴の測定値のpx1ベクトルであり、βは特徴の効果のpx1ベクトルである。コックスモデルの主な目標は、特徴がイベント発生の個人のリスクに与える影響を推定することである。そのベースラインハザード率、λ
0(t)は、推定ルーチンにおいて迷惑パラメータとして扱われ、したがって、検討されない。
【0073】
データセット内の特徴の数が試料のサイズよりも多いため、エラスティックネットペナルティをモデルに組み込むことができ、最小絶対収縮及び選択演算子(つまり、ラッソ)とリッジ回帰またはTikhonov正規化を組み合わせたペナルティ付き回帰の形式である。このツールは、pがnより大きくなるように、相関する特徴をモデルに一緒に残したまま、ラッソのルーチンを介して特徴選択を実行する。標準的な回帰モデルでは、特徴の効果βは、典型的には、応答Y
I、及び予測子X’
iβとの間の差を最小化することによって推定される。ただし、エラスティックネットの正則化では、推定された特徴の効果は次のように計算される。
【数3】
式中、λ
1は、ラッソ回帰に関連付けられているL
1ペナルティであり、λ
2は、リッジ回帰に関連するL
2ペナルティである。
【0074】
生存分析は、CRAN-Rで利用可能なglmnetパッケージを介して実装されたコックスエラスティックネットモデルを使用することにより、エラスティックネットペナルティと組み合わされた。コックスエラスティックネットモデルは、標準のコックス比例ハザードモデルをエラスティックネットペナルティとマージし、生存手法を使用して分類子を展開できるようにし、さらにペナルティ付き回帰の利点をもたらす。
【0075】
クラス不均衡を緩和するために、コックス比例ハザードエラスティックネットモデルをダウンサンプリング手法と組み合わせた。このアプローチは、交差検証によって識別されたハザード比のしきい値を使用して「リスク高」の分類子を計算して、個人が4年以内にMIイベントが発生する「リスク高」であるかどうかを最もよく予測する特徴を識別することを可能にした。さらに、この手法は、リスクの高い個人を正確に予測する特徴が、完全なコホートを使用して導出された場合とは異なる「重み」(つまり、β推定)を有することを可能にする方法で、特徴の効果を推定した。
【0076】
比較のために、2つのエラスティックネットロジスティック回帰モデル(ダウンサンプリングのあるときとないとき、Rのキャレットパッケージを介して実装できる)、及びダウンサンプリング手法を組み込んでいないコックスエラスティックネットモデルを行った。必要に応じて、AUC、感度、特異度、及びC-Indexを使用してモデルを比較した。
【0077】
分析は、RStudioサーババージョン1.1.453のRバージョン3.4.4を使用して実行された。
【0078】
材料及び方法-データのサブセット化
データセットは、トレーニングセット(データの80%)とテストセット(20%)に分割された。トレーニングセットはモデルの構築に使用され、最終モデルはテストセットで評価された。コックスエラスティックネットモデルのテストセットでの予測のしきい値は、交差検証中に分割ごとに生成されたしきい値の平均として計算された。ペナルティ付き回帰モデルを実装する前に、トレーニングセットを使用して単変量フィルタリングを実行した。スチューデントのt検定が分析対象物ごとに計算され、研究の枠組みでMIイベントが発生した個人と発生しなかった個人の間で、平均値が統計的に有意に異なるかどうかを評価した。この手法の有用性を示す際の一貫性を保つために、モデルの展開全体で上位100の分析対象物(偽発見率の値でランク付け)が含まれている。
【0079】
結果
ダウンサンプリングされたコックスエラスティックネットモデルの結果を、2つのロジスティック回帰エラスティックネットモデル(ダウンサンプリングされたものとされていないもの)及びダウンサンプリングを使用しなかったコックスエラスティックネットモデルと比較した。表記を簡単にするために、コックスエラスティックネットモデルは「Coxnet」モデルと呼ばれ、エラスティックネットロジスティック回帰モデルは「LRnet」モデルと呼ばれる。ダウンサンプリングされたモデルには、「DS」が付加された(例えば、ダウンサンプリングを実装するコックスエラスティックネットモデルは「DS-Coxnet」である)。
【0080】
モデル全体で、5回繰り返す5分割交差検証にてトレーニングセットを使用し、各モデルタイプ内で最適なモデルを選択した。最適なモデルは、最大AUCを介して選択された。特徴の選択、推定される効果、及び分類しきい値は、モデル間で異なることが許された。交差検証に続いて、各カテゴリの最上位モデルの予測能力が、テストデータセットで評価された。
【0081】
モデル開発中に、Coxnetモデルは元のデータを使用して作成されたが、4年の時点でAUCメトリックを使用して、分類のために最適化された。これは、標準の生存モデルが構築されたことを意味するが、バイナリの4年マークの分類子(4年より前のMIに関する肯定/否定)を使用して、AUCを計算し、モデルを最適化した。4年の転帰は、ロジスティック回帰モデルの展開に使用され、それはまたAUCを使用して最適化された。C-Indexは、標準の生存モデルメトリックを使用してモデルを比較する目的で、
生存モデルに対して計算された。
【0082】
モデルの結果及び比較
交差検証の結果は、両方のCoxnetモデルが標準のLRnetモデルを大幅に上回っていることを示している(表2を参照)。生存分析法は、特徴の選択とモデルの展開の一部として、イベントまでの時間の情報を使用するため、この結果は期待される。より説得力のある結果は、DS-Coxnetモデルが、すべての分類メトリック(AUC、感度、特異度)にわたってDS-LRnetモデルと標準的なCoxnetモデルの両方を上回ったことである。さらに、DS-Coxnetモデルは標準のCoxnetモデルよりも高いC-Indexを備えており、ダウンサンプリングされたモデルが、MIまでの時間の順序を、より適切に予測することを示している。
【表2】
【0083】
交差検証によるモデルの最適化に続いて、上位モデルの予測能力が、テストセットで評価された。これには、4年のマークまでにMIが発生する「リスク高」として個人を正しく予測することに基づく感度と特異度の検討が含まれる。テストセットのすべてのモデルのパフォーマンスメトリックを表3に示す。DS-Coxnetモデルは、AUCが0.63で「ランダムチャンス」よりも優れたパフォーマンスを発揮する唯一のモデルである。さらに、DS-Coxnetモデルは、DS-LRnetモデルと標準のCoxnetモデルの両方と比較して、最高の感度と特異度を備えている(当然のことながら、LRnetモデルは、トレーニングデータセットと同様にテストデータセットでのパフォーマンスが不良になる)。
【表3】
【0084】
ダウンサンプリングされた生存モデルアプローチの利点をさらに実証するために、各モデルについて、カプランマイヤー曲線がテストセットで生成され、交差検証によって識別されたモデル固有のしきい値を使用して、個人が高リスクとして予測されるかどうかによって層化された(
図4を参照)。この比較では、標準モデルとDS-Coxnetモデルのしきい値が、交差検証の反復全体の平均のしきい値として計算された。この視覚的な精査の方法は、DS-Coxnetモデルのしきい値を使用して、高リスク群と平均リスク群を非常に明確に分離していることを示している。この分離は、他のモデルでは明確に定められない。
【0085】
図とモデル評価メトリックスの組み合わされたエビデンス(表3)は、ダウンサンプリングされた生存モデルアプローチが、4年以内のMIのリスクが高い個人を特定するのに有益であるという説得力のある事例を示している。
【0086】
ダウンサンプリングされたCoxnetモデルのしきい値の調査
DS-Coxnetモデルを使用してテストセットを予測するために使用されたしきい値は、交差検証の反復からのすべてのしきい値にわたる平均であった。このしきい値は他のモデルよりも高い感度と特異度に至ったが、それらの値は依然として相当不均衡であった。重要な考慮事項は、予測のしきい値を操作することで、感度/特異度のトレードオフの均衡をさらにとることができるかどうかである。
【0087】
分類モデルと同様に、しきい値を調整して、感度を最大化する、特異度を最大化する、またはテストセットの感度と特異度の差を最小化する値を見つけることができる。表4は、テストセットの様々なしきい値のパフォーマンスのメトリックを示しており、
図5は、それぞれのカプランマイヤー曲線をプロットしている。表4に示すように、予測のしきい値を変更すると、AUCを低下させることなく、感度が60%を超える結果に至る。しかし、カプランマイヤー曲線(
図5)は、平均のしきい値を使用して、高リスクの個人と平均リスクの個人との間の最も広い分離を示している。
【表4】
【0088】
感度と特異度は通常の望ましい値よりも比較的低いままであるが(つまり、70%以上)、この結果は、テストセットに4年前にMIイベントが発生した対象が13人しかいないため、モデルの展開が制限されているという事実に起因している可能性がある。ただし、分析は、生存モデルでリスクのレベルを分類するために使用されるしきい値は、分類モデルと同じ方法で調整できることを示している。
【0089】
本明細書及び実施例は、例示的なものにすぎないとみなされることが意図され、本開示の真の範囲及び精神は、次の特許請求の範囲によって示される。
【国際調査報告】