IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グレイル リミテッド ライアビリティ カンパニーの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-14
(54)【発明の名称】起源組織の閾値処理によるがん分類
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20221207BHJP
【FI】
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022521692
(86)(22)【出願日】2020-10-09
(85)【翻訳文提出日】2022-06-07
(86)【国際出願番号】 US2020054951
(87)【国際公開番号】W WO2021072171
(87)【国際公開日】2021-04-15
(31)【優先権主張番号】63/024,033
(32)【優先日】2020-05-13
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/914,341
(32)【優先日】2019-10-11
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/041,699
(32)【優先日】2020-06-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522093513
【氏名又は名称】グレイル リミテッド ライアビリティ カンパニー
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】チンウェン リウ
(72)【発明者】
【氏名】オリバー クラウド ヴェン
(72)【発明者】
【氏名】サムエル エス.グロス
(72)【発明者】
【氏名】ロバート エイブ ペイン カレフ
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QQ03
4B063QQ42
4B063QR08
(57)【要約】
がんを検出するためおよび/またはがんの起源組織を決定するための方法およびシステムが、開示される。いくつかの実施形態において、cfDNAフラグメントを含有する複数の生物学的サンプルを用いて訓練されたマルチクラスがん分類器が、開示される。分析システムは、それぞれのサンプルについて、特徴ベクトルを導出し、マルチクラス分類器は、複数の起源組織(TOO)クラスのそれぞれに関する確率尤度を予測する。いくつかの実施形態において、複数のTOOクラスは、血液学的悪性腫瘍および前駆状態の両方を含む、血液学的サブタイプを含む。一実施形態において、高い組織シグナルを有する非がんサンプルは、訓練サンプルセットから除外される。別の実施形態において、分析システムは、組織シグナルに従ってサンプルを層別化し、それぞれの層について決定された二値閾値カットオフを適用する。
【特許請求の範囲】
【請求項1】
がんを検出するための方法であって、
cfDNAフラグメントを含有する複数の生物学的サンプルのシーケンシングデータを受信するステップであって、前記生物学的サンプルは、がんサンプルおよび非がんサンプルを含む、該ステップと、
前記複数の生物学的サンプルのそれぞれの非がんサンプルについて、
前記シーケンシングデータから導出された特徴に基づいて、マルチクラス分類器を使用して、前記生物学的サンプルを分類するステップであって、前記マルチクラス分類器は複数の起源組織クラスのそれぞれに関する確率尤度を予測し、前記複数の起源組織クラスは1つまたは複数の起源組織サブタイプクラスをさらに含む、該ステップと、
それぞれのサブタイプクラスについて、前記予測された確率尤度が、サブタイプ境界点を上回るかどうかを決定するステップであって、前記サブタイプ境界点は前記サブタイプクラスの特異度の閾値を示す、該ステップと、
がんの存在または不在を予測するための閾値カットオフを決定するステップであって、前記閾値カットオフは、前記非がんサンプルに対応する確率スコアの分布に基づいて決定され、前記確率スコアの分布は、サブタイプ境界点を上回る確率尤度を有するとして特定された1つまたは複数の非がんサンプルと関連する確率スコアを除外する、該ステップと
を含むことを特徴とする方法。
【請求項2】
前記確率スコアの分布は、前記がんサンプルおよび非がんサンプルに由来する訓練サンプルで訓練された二値分類器によって生成されることを特徴とする請求項1に記載の方法。
【請求項3】
前記訓練サンプルは、複数の交差検証訓練セットに分割され、および前記がんの存在を検出するための前記二値分類器を訓練するために使用され、前記二値分類器は、それぞれの訓練サンプルについて、がんの存在または不在を示す確率スコアを生成することを特徴とする請求項2に記載の方法。
【請求項4】
前記二値分類器は第1の閾値カットオフと関連付けられ、がんの存在または不在を予測するための前記閾値カットオフを決定するステップは、サブタイプ境界点を上回る確率尤度を有するとして特定された前記1つまたは複数の非がんサンプルと関連する前記確率スコアを除外することに基づいて、前記第1の閾値カットオフを改変することを含むことを特徴とする請求項2に記載の方法。
【請求項5】
前記閾値カットオフを決定するステップは所望される特異度レベルを前記確率スコアの分布に適用することを含み、前記閾値カットオフは閾値確率スコアを含むことを特徴とする請求項1に記載の方法。
【請求項6】
cfDNAフラグメントを含有する試験生物学的サンプルの試験シーケンシングデータを受信するステップと、
前記試験シーケンシングデータを分析して、がんの存在または不在に関する試験確率スコアを決定するステップと、
前記試験確率スコアが、前記閾値カットオフを上回るかどうかを決定するステップと、
前記試験確率スコアが前記閾値カットオフを上回るという決定に応答して、がんの存在を予測するステップと
を含むことを特徴とする請求項1に記載の方法。
【請求項7】
前記試験確率スコアが前記閾値カットオフを上回らないという決定に応答して、がんの不在を予測するステップをさらに含むことを特徴とする請求項6に記載の方法。
【請求項8】
前記試験確率スコアが前記閾値カットオフを上回るという決定に応答して、前記マルチクラス分類器を使用して、前記がんの起源組織に関して前記試験シーケンシングデータを評価するステップをさらに含むことを特徴とする請求項6に記載の方法。
【請求項9】
前記マルチクラス分類器は、前記がんサンプルおよび非がんサンプルに由来する訓練サンプルで訓練されていることを特徴とする請求項1に記載の方法。
【請求項10】
前記対応する起源組織サブタイプクラスの臨床的特異度と臨床的感度との間のトレードオフを最適化する反復的最適化プロセスによって、それぞれのサブタイプ境界点を決定するステップ
をさらに含むことを特徴とする請求項1に記載の方法。
【請求項11】
前記起源組織サブタイプクラスは、1つまたは複数の血液学的状態を示す血液学的クラスを含むことを特徴とする請求項1に記載の方法。
【請求項12】
それぞれの血液学的クラスのそれぞれのサブタイプ境界点は、前記対応する血液学的状態の臨床的侵攻性の尺度に基づいて決定されることを特徴とする請求項11に記載の方法。
【請求項13】
前記臨床的侵攻性の尺度は、疾患進行の早期段階、生存率、疾患進行の速度、前記疾患の重症度のうちの1つまたは複数を含むことを特徴とする請求項12に記載の方法。
【請求項14】
前記血液学的クラスは、NHL緩慢性クラス、骨髄系クラス、循環リンパ系クラスを含むことを特徴とする請求項11に記載の方法。
【請求項15】
前記血液学的クラスは、循環リンパ系クラス、NHL緩慢性クラス、NHL侵攻性クラス、ホジキンリンパ腫クラス、骨髄系クラス、形質細胞クラス、heme_1クラス、heme_3クラスのうちの少なくとも1つを含む、請求項11に記載の方法。
【請求項16】
前記循環リンパ系クラスは、有毛細胞性白血病、低悪性度b細胞性、リンパ形質細胞性、慢性リンパ性白血病(CLL)、SLL、b細胞リンパ芽球性、マントル細胞性からなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項15に記載の方法。
【請求項17】
NHL緩慢性クラスは、MALT_NMZLおよび濾胞性リンパ腫からなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項15に記載の方法。
【請求項18】
前記NHL侵攻性クラスは、成熟t細胞新生物、縦隔洞LBCL、高悪性度b細胞性、およびDLBCLからなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項15に記載の方法。
【請求項19】
前記骨髄系クラスは、真性赤血球増加症(PV)、MDS、CML、AMLからなる群から選択される1つまたは複数のサブクラスを含む請求項15に記載の方法。
【請求項20】
前記形質細胞クラスは、形質細胞新生物および形質細胞骨髄腫からなる群から選択される1つまた複数のサブクラスを含むことを特徴とする請求項15に記載の方法。
【請求項21】
前記シーケンシングデータは、前記cfDNAフラグメントのメチル化シーケンシングによって生成されるメチル化シーケンシングデータを含むことを特徴とする請求項1に記載の方法。
【請求項22】
前記メチル化シーケンシングは、WGBSを含むことを特徴とする請求項21に記載の方法。
【請求項23】
前記メチル化シーケンシングは、標的化シーケンシングを含むことを特徴とする請求項21に記載の方法。
【請求項24】
前記メチル化シーケンシングデータから導出される前記特徴は、メチル化パターン、クローナル画分、または成長もしくは代謝回転の速度を示すことを特徴とする請求項21に記載の方法。
【請求項25】
前記複数の起源組織クラスは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎盂の尿路上皮がん、尿路上皮以外の腎臓がん、前立腺がん、肛門直腸がん、結腸直腸がん、食道がん、胃がん、肝細胞から生じる肝胆道系がん、肝細胞以外の細胞から生じる肝胆道系がん、膵臓がん、上部消化管の扁平上皮細胞がん、扁平上皮以外の上部消化管がん、頭頸部がん、肺がん、肺腺癌、小細胞肺がん、扁平上皮細胞性肺がんおよび腺癌もしくは小細胞肺がん以外のがん、神経内分泌がん、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、白血病からなる群から選択される1つまたは複数の固形または液性がん性起源組織を含むことを特徴とする請求項1に記載の方法。
【請求項26】
前記複数の起源組織クラスは、非がんクラスを含むことを特徴とする請求項1に記載の方法。
【請求項27】
ハードウェアプロセッサと、前記ハードウェアプロセッサによって実行されると、前記プロセッサに請求項1ないし26のいずれかに記載の方法を構成するステップを実行させる実行可能な命令を記憶する、非一過性コンピュータ可読記憶媒体とを備えたことを特徴とするシステム。
【請求項28】
がんを検出および分類するための方法であって、
cfDNAフラグメントを含む生物学的サンプルのシーケンシングデータを受信するステップと、
前記シーケンシングデータから導出された特徴に基づいて、マルチクラス分類器を使用して、前記シーケンシングデータを分析するステップであって、前記マルチクラス分類器は複数の起源組織クラスのそれぞれに関する確率尤度を予測し、前記複数の起源組織クラスは、1つまたは複数のがん起源組織クラスおよび1つまたは複数の血液学的起源組織サブタイプクラスを含む、該ステップと、
前記マルチクラス分類器によって予測された前記確率尤度に基づいて、前記がん分類を決定するステップであって、前記がん分類は、がんの存在もしくは不在、がん起源組織、または血液学的起源組織を含む、該ステップと
を含むことを特徴とする方法。
【請求項29】
前記1つまたは複数の血液学的起源組織サブタイプクラスは、1つまたは複数の血液学的状態を示す1つまたは複数の血液学的クラスを含むことを特徴とする請求項28に記載の方法。
【請求項30】
前記血液学的クラスは、NHL緩慢性クラス、骨髄系クラス、循環リンパ系クラスを含むことを特徴とする請求項29に記載の方法。
【請求項31】
前記血液学的クラスは、循環リンパ系クラス、NHL緩慢性クラス、NHL侵攻性クラス、ホジキンリンパ腫クラス、骨髄系クラス、形質細胞クラス、heme_1クラス、heme_3クラスのうちの少なくとも1つを含むことを特徴とする請求項29に記載の方法。
【請求項32】
前記循環リンパ系クラスは、有毛細胞性白血病、低悪性度b細胞性、リンパ形質細胞性、慢性リンパ性白血病(CLL)、SLL、b細胞リンパ芽球性、マントル細胞性からなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項31に記載の方法。
【請求項33】
NHL緩慢性クラスは、MALT_NMZLおよび濾胞性リンパ腫からなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項31に記載の方法。
【請求項34】
前記NHL侵攻性クラスは、成熟t細胞新生物、縦隔洞LBCL、高悪性度b細胞性、DLBCLからなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項31に記載の方法。
【請求項35】
前記骨髄系クラスは、真性赤血球増加症(PV)、MDS、CML、AMLからなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項31に記載の方法。
【請求項36】
前記形質細胞クラスは、形質細胞新生物および形質細胞骨髄腫からなる群から選択される1つまた複数のサブクラスを含むことを特徴とする請求項31に記載の方法。
【請求項37】
前記シーケンシングデータは、前記cfDNAフラグメントのメチル化シーケンシングによって生成されるメチル化シーケンシングデータを含むことを特徴とする請求項28に記載の方法。
【請求項38】
前記メチル化シーケンシングは、WGBSを含むことを特徴とする請求項37に記載の方法。
【請求項39】
前記メチル化シーケンシングは、標的化シーケンシングを含むことを特徴とする請求項37に記載の方法。
【請求項40】
前記メチル化シーケンシングデータから導出される前記特徴は、メチル化パターン、クローナル画分、または成長もしくは代謝回転の速度を示すことを特徴とする請求項37に記載の方法。
【請求項41】
前記1つまたは複数のがん起源組織クラスは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎盂の尿路上皮がん、尿路上皮以外の腎臓がん、前立腺がん、肛門直腸がん、結腸直腸がん、食道がん、胃がん、肝細胞から生じる肝胆道系がん、肝細胞以外の細胞から生じる肝胆道系がん、膵臓がん、上部消化管の扁平上皮細胞がん、扁平上皮以外の上部消化管がん、頭頸部がん、肺がん、肺腺癌、小細胞肺がん、扁平上皮細胞性肺がんおよび腺癌もしくは小細胞肺がん以外のがん、神経内分泌がん、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、白血病からなる群から選択される、固形組織がんまたは液性組織がんを含むことを特徴とする請求項28に記載の方法。
【請求項42】
前記1つまたは複数のがん起源組織クラスは、非がんクラスを含むことを特徴とする請求項28に記載の方法。
【請求項43】
前記マルチクラス分類器は、がんサンプルおよび非がんサンプルに由来する訓練サンプルで訓練されていることを特徴とする請求項28に記載の方法。
【請求項44】
ハードウェアプロセッサと、前記ハードウェアプロセッサによって実行されると、前記プロセッサに請求項28ないし43のいずれかに記載の方法を含むステップを実行させる拮抗可能な命令を記憶する、非一過性コンピュータ可読記憶媒体とを備えたことを特徴とするシステム。
【請求項45】
試験サンプルにおけるがんの存在または不在を予測するための方法であって、
がんスコアおよび第1の組織ラベルに関する組織シグナルを有する前記試験サンプルにアクセスするステップと、
前記第1の組織ラベルに関する前記組織シグナルに基づいて、複数の層のうちの1つを選択するステップであって、前記複数の層は、前記第1の組織ラベルに関する高いシグナルの層および前記第1の組織ラベルに関する低いシグナルの層を含む、該ステップと、
前記がんスコアを前記選択された層の二値閾値カットオフに対して比較することによって、前記試験サンプルが、がんの存在と関連付けられるかまたは不在と関連付けられるかを予測するステップと
を含むことを特徴とする方法。
【請求項46】
前記試験サンプルは、前記試験サンプルのメチル化シーケンシングデータに従って決定される試験特徴ベクトルを含むことを特徴とする請求項45に記載の方法。
【請求項47】
前記がんスコアは、二値がん分類器を前記試験特徴ベクトルに適用することによって決定されることを特徴とする請求項46に記載の方法。
【請求項48】
前記組織シグナルは、マルチクラスがん分類器を前記試験特徴ベクトル適用することによって決定される起源組織(TOO)予測であることを特徴とする請求項46に記載の方法。
【請求項49】
前記TOO予測は、複数の組織ラベルのそれぞれに関する予測値を含み、それぞれの予測値は、前記試験サンプルが前記組織ラベルと関連付けられたがんタイプに対応する尤度を示すことを特徴とする請求項48に記載の方法。
【請求項50】
前記第1の組織ラベルに関する前記組織シグナルに基づいて、複数の層のうちの1つを選択するステップは、
前記第1の組織ラベルに関する前記組織シグナルが、予測値閾値であるかまたはそれを上回るかどうかを決定することと、
前記第1の組織ラベルに関する前記組織シグナルが前記予測値閾値であるかまたはそれを上回るという決定に応答して、前記高いシグナルの層を選択することと、
前記第1の組織ラベルに関する前記組織シグナルが前記予測値閾値を下回るという決定に応答して、前記低いシグナルの層を選択することと
を含むことを特徴とする請求項49に記載の方法。
【請求項51】
前記TOO予測は、前記複数の組織ラベルのうちの1つまたは複数の組織ラベルの1つまたは複数の上位予測を示し、組織ラベルの上位予測は、前記試験サンプルが前記上位予測の前記組織ラベルと関連付けられたがんタイプを有すると予測されることを示すことを特徴とする請求項48に記載の方法。
【請求項52】
前記複数の層のうちの1つを選択するステップは、
前記第1の組織ラベルが上位予測であるかどうかを決定することと、
前記第1の組織ラベルが前記上位予測であるという決定に応答して、前記高いシグナルの層を選択することと、
前記第1の組織ラベルが前記上位予測ではないという決定に応答して、前記低いシグナルの層を選択することと
を含むことを特徴とする請求項51に記載の方法。
【請求項53】
複数の層のうちの1つを選択するステップは、
前記第1の組織ラベルが第2の上位予測であるかどうかを決定することと、
前記第1の組織ラベルが前記第2の上位予測であるという決定に応答して、前記高いシグナルの層を選択することと、
前記第1の組織ラベルが前記第2の上位予測ではないという決定に応答して、前記低いシグナルの層を選択することと
を含むことを特徴とする請求項52に記載の方法。
【請求項54】
前記複数の層は、中等度の組織シグナルのための中等度のシグナルの層を含むことを特徴とする請求項45に記載の方法。
【請求項55】
前記試験サンプルは第2の組織クラスに関する組織シグナルを有し、複数の層のうちの1つを選択するステップは、さらに、前記第2の組織ラベルに関する前記組織シグナルに基づくことを特徴とする請求項45に記載の方法。
【請求項56】
それぞれの層の前記二値閾値カットオフは、
サンプルのホールドアウトセットを取得することであって、それぞれのサンプルはがんスコアおよび前記第1の組織ラベルに関する組織シグナルを有すること、
前記サンプルのホールドアウトセットの前記第1の組織ラベルに関する前記組織シグナルに基づいて、前記ホールドアウトセットを、前記複数の層に層別化すること、
前記複数の層のそれぞれの層について、
前記層における前記サンプルの前記がんスコアに基づいてそれぞれの二値閾値カットオフの真陽性率および偽陽性率を計算することによって、複数の候補二値閾値カットオフで、がんスコアのドメイン全体をスイープすること、
前記層の偽陽性バジェットおよび前記計算された偽陽性率に基づいて、前記層の前記複数の候補二値閾値カットオフから、二値閾値カットオフを選択すること、
によって決定されることを特徴とする請求項45に記載の方法。
【請求項57】
ハードウェアプロセッサと、前記ハードウェアプロセッサによって実行されると、前記プロセッサに請求項44ないし56のいずれかに記載の方法を含むステップを実行させる実行可能な命令を記憶する、非一過性コンピュータ可読記憶媒体とを備えたことを特徴とするシステム。
【請求項58】
がんを検出および分類するための方法であって、
cfDNAフラグメントを含む生物学的サンプルのシーケンシングデータを受信するステップと、
マルチクラス分類器を、シーケンシングデータから得られた特徴に適用するステップであって、前記マルチクラス分類器が、複数の血液学的起源組織サブタイプクラスのそれぞれに関する確率尤度を予測する、該ステップと、
前記マルチクラス分類器によって予測された前記確率尤度に基づいて、前記生物学的サンプルと関連する血液学的起源組織を決定するステップと
を含むことを特徴とする方法。
【請求項59】
前記複数の血液学的起源組織サブタイプクラスは、1つまたは複数の血液学的状態を示すことを特徴とする請求項58に記載の方法。
【請求項60】
前記血液学的起源組織サブタイプクラスは、NHL緩慢性クラス、骨髄系クラス、循環リンパ系クラスを含むことを特徴とする請求項59に記載の方法。
【請求項61】
前記血液学的起源組織サブタイプクラスは、循環リンパ系クラス、NHL緩慢性クラス、NHL侵攻性クラス、ホジキンリンパ腫クラス、骨髄系クラス、形質細胞クラス、heme_1クラス、heme_3クラスのうちの少なくとも1つを含むことを特徴とする請求項59に記載の方法。
【請求項62】
前記循環リンパ系クラスは、有毛細胞性白血病、低悪性度b細胞性、リンパ形質細胞性、慢性リンパ性白血病(CLL)、SLL、b細胞リンパ芽球性、マントル細胞性からなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項61に記載の方法。
【請求項63】
NHL緩慢性クラスは、MALT_NMZLおよび濾胞性リンパ腫からなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項61に記載の方法。
【請求項64】
前記NHL侵攻性クラスは、成熟t細胞新生物、縦隔洞LBCL、高悪性度b細胞性、DLBCLからなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項61に記載の方法。
【請求項65】
前記骨髄系クラスは、真性赤血球増加症(PV)、MDS、CML、AMLからなる群から選択される1つまたは複数のサブクラスを含むことを特徴とする請求項61に記載の方法。
【請求項66】
前記形質細胞クラスは、形質細胞新生物および形質細胞骨髄腫からなる群から選択される1つまた複数のサブクラスを含むことを特徴とする請求項61に記載の方法。
【請求項67】
前記シーケンシングデータは、前記cfDNAフラグメントのメチル化シーケンシングによって生成されたメチル化シーケンシングデータを含むことを特徴とする請求項58に記載の方法。
【請求項68】
前記メチル化シーケンシングは、WGBSを含むことを特徴とする請求項67に記載の方法。
【請求項69】
前記メチル化シーケンシングは、標的化シーケンシングを含むことを特徴とする請求項67に記載の方法。
【請求項70】
前記メチル化シーケンシングデータから導出される前記特徴は、メチル化パターン、クローナル画分、または成長もしくは代謝回転の速度を示すことを特徴とする請求項67に記載の方法。
【請求項71】
前記マルチクラス分類器は、さらに、非がんクラスの確率尤度を予測することを特徴とする請求項58に記載の方法。
【請求項72】
前記マルチクラス分類器は、血液学的状態を有するサンプルおよび非がんサンプルに由来する訓練サンプルで訓練されていることを特徴とする請求項58に記載の方法。
【請求項73】
ハードウェアプロセッサと、前記ハードウェアプロセッサによって実行されると、前記プロセッサに請求項58ないし72のいずれかに記載の方法を構成するステップを実行させる実行可能な命令を記憶する、非一過性コンピュータ可読記憶媒体とを備えたことを特徴とするシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、起源組織の閾値処理によるがん分類に関する。
【背景技術】
【0002】
デオキシリボ核酸(DNA)メチル化は、遺伝子発現の制御に重要な役割を果たしている。異常なDNAメチル化は、がんを含む多数の疾患プロセスに関係付けられている。メチル化シーケンシング(例えば、全ゲノムバイサルファイトシーケンシング(WGBS))を使用したDNAメチル化プロファイリングは、がんの検出、診断、および/またはモニタリングのための貴重な診断ツールとしてますます認識されている。例えば、差次的にメチル化された領域の特異的なパターンおよび/または遺伝子座特異的メチル化パターンは、循環無細胞(cf)DNAを使用した非侵襲的診断のための分子マーカーとして有用である。しかしながら、当該技術分野において、疾患、例えば、がんの検出、診断、および/またはモニタリングのために無細胞DNAから得られたメチル化シーケンシングデータを分析するための改善された方法に対する必要性が残っている。
【発明の概要】
【課題を解決するための手段】
【0003】
対象における疾患状態(例えば、がん)の早期検出は、より早期の処置を可能にし、したがってより高い生存の可能性を可能にするため、重要である。無細胞(cf)DNAサンプル中のDNAフラグメントのシーケンシングを使用して、疾患分類に使用することができる特徴を特定することができる。例えば、がんの評価において、血液サンプルから得られた無細胞DNAに基づく特徴(例えば、体細胞性バリアントの存在もしくは不在、メチル化ステータス、または他の遺伝子異常)は、対象ががんを有する可能性があるかどうかに対する識見、および対象がどのタイプのがんを有するかに関するさらなる識見を提供することができる。その目的で、本明細書には、対象が疾患を有する尤度を決定するために無細胞DNAシーケンシングデータを分析するためのシステムおよび方法が含まれる。
【0004】
分析システムは、複数のサンプル(例えば、複数のがんサンプルおよび非がんサンプル)から得られた多数のシーケンシングデータを処理して、続いてがん分類に利用される特徴を特定する。シーケンシングデータを用いて、分析システムは、試験サンプルのがん予測を生成するために、がん分類器を訓練し展開することができる。
【0005】
どの訓練サンプルを使用してがん分類器を訓練するかに関して、分析は、すでに1つまたは複数のがんタイプを有するとして特定されラベル付けされている訓練サンプル、ならびに非がんとしてラベル付けされている健常個体に由来する訓練サンプルを使用する。それぞれの訓練サンプルは、フラグメントのセットを含む。それぞれの訓練サンプルについて、分析システムは、例えば、特定された特徴のそれぞれにスコアを割り当てることによって、特徴ベクトルを生成する。分析システムは、訓練サンプルを、がん分類器の反復的訓練のために1つまたは複数の訓練サンプルのセットにグループ分けしてよい。分析システムは、特徴ベクトルのそれぞれのセットを、がん分類器に入力し、がん分類器の関数が、特徴ベクトルおよび分類パラメーターに基づいてセット内の訓練サンプルのラベルを正確に予測するがん予測を計算するように、がん分類器における分類パラメーターを調整する。訓練サンプルのそれぞれのセットに上記のステップを反復した後、がん分類器は、十分に訓練される。
【0006】
展開の間に、分析システムは、訓練サンプルと類似の様式で、例えば、試験サンプルのそれぞれについて、特徴ベクトル内の複数の特徴のそれぞれにスコアを割り当てることによって、試験サンプルの特徴ベクトルを生成する。次いで、分析システムは、試験サンプルの特徴ベクトルを、がん分類器に入力し、がん分類器ががん予測を返却する。一実施形態において、がん分類器は、がんを有するかまたは有さない尤度のがん予測を返却する二値分類器として構成されてよい。別の実施形態において、がん分類器は、カテゴリー分けされているがんタイプに関する予測値を有するがん予測を返却するマルチクラス分類器として構成される。
【0007】
本開示は、がんを検出するためおよび/またはがんの起源組織を決定するための方法およびシステムを提供する。いくつかの実施形態において、本発明は、がんを検出するための方法またはシステムであって、cfDNAフラグメントを含有する複数の生物学的サンプルのシーケンシングデータを受信するステップであって、生物学的サンプルは、がんサンプルおよび非がんサンプルを含む、ステップと、複数の生物学的サンプルのそれぞれの非がんサンプルについて、シーケンシングデータから導出された特徴に基づいて、マルチクラス分類器を使用して、生物学的サンプルを分類するステップであって、マルチクラス分類器は、複数の起源組織クラスのそれぞれに関する確率尤度を予測し、複数の起源組織クラスは、さらに、1つまたは複数の起源組織サブタイプクラスを含む、ステップと、それぞれのサブタイプクラスについて、予測された確率尤度が、サブタイプ境界点を上回るかどうかを決定するステップであって、サブタイプ境界点は、サブタイプクラスの特異度の閾値を示す、ステップと、がんの存在または不在を予測するための閾値カットオフを決定するステップであって、閾値カットオフは、非がんサンプルに対応する確率スコアの分布に基づいて決定され、確率スコアの分布は、サブタイプ境界点を上回る確率尤度を有するとして特定された1つまたは複数の非がんサンプルと関連する確率スコアを除外する、ステップとを含む、方法またはシステムを含む。
【0008】
いくつかの実施形態において、確率スコアの分布は、がんサンプルおよび非がんサンプルに由来する訓練サンプルで訓練された二値分類器によって生成される。
【0009】
いくつかの実施形態において、訓練サンプルは、複数の交差検証訓練セットに分割され、がんの存在を検出するための二値分類器を訓練するために使用され、二値分類器は、それぞれの訓練サンプルについて、がんの存在または不在を示す確率スコアを生成する。
【0010】
いくつかの実施形態において、二値分類器は、第1の閾値カットオフと関連付けられ、がんの存在または不在を予測するための閾値カットオフを決定するステップは、サブタイプ境界点を上回る確率尤度を有するとして特定された1つまたは複数の非がんサンプルと関連する確率スコアを除外することに基づいて、第1の閾値カットオフを改変することを含む。
【0011】
いくつかの実施形態において、閾値カットオフは、所望される特異度レベルを、確率スコアの分布に適用することを含み、閾値カットオフは、閾値確率スコアを含む。
【0012】
いくつかの実施形態において、方法またはシステムは、cfDNAフラグメントを含有する試験生物学的サンプルの試験シーケンシングデータを受信するステップと、試験シーケンシングデータを分析して、がんの存在または不在に関する試験確率スコアを決定するステップと、試験確率スコアが閾値カットオフを上回るかどうかを決定するステップと、試験確率スコアが閾値カットオフを上回るという決定に応答して、がんの存在を予測するステップとを含む。
【0013】
いくつかの実施形態において、方法またはシステムは、試験確率スコアが閾値カットオフを上回らないという決定に応答して、がんの不在を予測するステップをさらに含む。
【0014】
いくつかの実施形態において、方法またはシステムは、試験確率スコアが閾値カットオフを上回るという決定に応答して、マルチクラス分類器を使用して、がんの起源組織に関して試験シーケンシングデータを評価するステップをさらに含む。
【0015】
いくつかの実施形態において、マルチクラス分類器は、がんサンプルおよび非がんサンプルに由来する訓練サンプルで訓練されている。
【0016】
いくつかの実施形態において、方法またはシステムは、対応する起源組織サブタイプクラスの臨床的特異度と臨床的感度との間のトレードオフを最適化する反復的最適化プロセスによって、それぞれのサブタイプ境界点を決定するステップをさらに含む。
【0017】
いくつかの実施形態において、起源組織サブタイプクラスは、1つまたは複数の血液学的状態を示す血液学的クラスを含む。いくつかの実施形態において、それぞれの血液学的クラスのそれぞれのサブタイプ境界点は、対応する血液学的状態の臨床的侵攻性の尺度に基づいて決定される。
【0018】
いくつかの実施形態において、臨床的侵攻性の尺度は、疾患進行の早期段階、生存率、疾患進行の速度、および疾患の重症度のうちの1つまたは複数を含む。
【0019】
いくつかの実施形態において、血液学的クラスは、NHL緩慢性クラス、骨髄系クラス、および循環リンパ系クラスを含む。いくつかの実施形態において、血液学的クラスは、循環リンパ系クラス、NHL緩慢性クラス、NHL侵攻性クラス、ホジキンリンパ腫クラス、骨髄系クラス、形質細胞クラス、heme_1クラス、およびheme_3クラスのうちの少なくとも1つを含む。いくつかの実施形態において、循環リンパ系クラスは、有毛細胞性白血病、低悪性度b細胞性、リンパ形質細胞性、慢性リンパ性白血病(CLL)、SLL、b細胞リンパ芽球性、およびマントル細胞性からなる群から選択される1つまたは複数のサブクラスを含む。いくつかの実施形態において、NHL緩慢性クラスは、MALT_NMZLおよび濾胞性リンパ腫からなる群から選択される1つまたは複数のサブクラスを含む。いくつかの実施形態において、NHL侵攻性クラスは、成熟t細胞新生物、縦隔洞LBCL、高悪性度b細胞性、およびDLBCLからなる群から選択される1つまたは複数のサブクラスを含む。いくつかの実施形態において、骨髄系クラスは、真性赤血球増加症(PV)、MDS、CML、およびAMLからなる群から選択される1つまたは複数のサブクラスを含む。いくつかの実施形態において、形質細胞クラスは、形質細胞新生物および形質細胞骨髄腫からなる群から選択される1つまたは複数のサブクラスを含む。
【0020】
いくつかの実施形態において、シーケンシングデータは、cfDNAフラグメントのメチル化シーケンシングによって生成されるメチル化シーケンシングデータを含む。いくつかの実施形態において、メチル化シーケンシングは、WGBSを含む。いくつかの実施形態において、メチル化シーケンシングは、標的化シーケンシングを含む。いくつかの実施形態において、メチル化シーケンシングデータから導出される特徴は、メチル化パターン、クローナル画分、または成長もしくは代謝回転の速度を示す。
【0021】
いくつかの実施形態において、複数の起源組織クラスは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎盂の尿路上皮がん、尿路上皮以外の腎臓がん、前立腺がん、肛門直腸がん、結腸直腸がん、食道がん、胃がん、肝細胞から生じる肝胆道系がん、肝細胞以外の細胞から生じる肝胆道系がん、膵臓がん、上部消化管の扁平上皮細胞がん、扁平上皮以外の上部消化管がん、頭頸部がん、肺がん、肺腺癌、小細胞肺がん、扁平上皮細胞性肺がんおよび腺癌もしくは小細胞肺がん以外のがん、神経内分泌がん、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、ならびに白血病からなる群から選択される1つまたは複数の固形または液性がん性起源組織を含む。いくつかの実施形態において、複数の起源組織クラスは、非がんクラスを含む。
【0022】
他の態様において、本開示は、がんを検出および分類するための方法およびシステムであって、方法またはシステムは、cfDNAフラグメントを含む生物学的サンプルのシーケンシングデータを受信するステップと、シーケンシングデータから導出された特徴に基づいて、マルチクラス分類器を使用して、シーケンシングデータを分析するステップであって、マルチクラス分類器は、複数の起源組織クラスのそれぞれに関する確率尤度を予測し、複数の起源組織クラスは、1つまたは複数のがん起源組織クラスおよび1つまたは複数の血液学的起源組織サブタイプクラスを含む、ステップと、マルチクラス分類器によって予測された確率尤度に基づいて、がん分類を決定するステップであって、がん分類は、がんの存在もしくは不在、がん起源組織、または血液学的起源組織を含む、ステップとを含む、方法およびシステムについて記載する。
【0023】
他の実施形態において、試験サンプルにおけるがんの存在または不在を予測するための方法は、がんスコアおよび第1の組織ラベルに関する組織シグナルを有する試験サンプルにアクセスするステップと、第1の組織ラベルに関する組織シグナルに基づいて、複数の層のうちの1つを選択するステップであって、複数の層は、第1の組織ラベルに関する高いシグナルの層および第1の組織ラベルに関する低いシグナルの層を含む、ステップと、がんスコアを選択された層の二値閾値カットオフに対して比較することによって、試験サンプルが、がんの存在と関連付けられるかまたは不在と関連付けられるかを予測するステップとを含む。
【0024】
いくつかの実施形態において、試験サンプルは、試験サンプルのメチル化シーケンシングデータに従って決定される試験特徴ベクトルを含む。
【0025】
いくつかの実施形態において、がんスコアは、二値がん分類器を試験特徴ベクトルに適用することによって決定される。
【0026】
いくつかの実施形態において、組織シグナルは、マルチクラスがん分類器を試験特徴ベクトルに適用することによって決定される起源組織(TOO)予測である。
【0027】
いくつかの実施形態において、TOO予測は、複数の組織ラベルのそれぞれに関する予測値を含み、それぞれの予測値は、試験サンプルが組織ラベルと関連付けられたがんタイプに対応する尤度を示す。
【0028】
いくつかの実施形態において、第1の組織ラベルに関する組織シグナルに基づいて複数の層のうちの1つを選択するステップは、第1の組織ラベルに関する組織シグナルが、予測値閾値であるかまたはそれを上回るかどうかを決定することと、第1の組織ラベルに関する組織シグナルが、予測値閾値であるかまたはそれを上回るという決定に応答して、高いシグナルの層を選択することと、第1の組織ラベルに関する組織シグナルが予測値閾値を下回るという決定に応答して、低いシグナルの層を選択することとを含む。
【0029】
いくつかの実施形態において、TOO予測は、複数の組織ラベルのうちの1つまたは複数の組織ラベルの1つまたは複数の上位予測を示し、組織ラベルの上位予測は、試験サンプルが上位予測の組織ラベルと関連付けられたがんタイプを有すると予測されることを示す。
【0030】
いくつかの実施形態において、複数の層のうちの1つを選択するステップは、第1の組織ラベルが上位予測であるかどうかを決定することと、第1の組織ラベルが上位予測であるという決定に応答して、高いシグナルの層を選択することと、第1の組織ラベルが上位予測ではないという決定に応答して、低いシグナルの層を選択することとを含む。
【0031】
いくつかの実施形態において、複数の層のうちの1つを選択するステップは、第1の組織ラベルが第2の上位予測であるかどうかを決定することと、第1の組織ラベルが第2の上位予測であるという決定に応答して、高いシグナルの層を選択することと、第1の組織ラベルが第2の上位予測ではないという決定に応答して、低いシグナルの層を選択することを含む。
【0032】
いくつかの実施形態において、複数の層は、中等度の組織シグナルのための中等度のシグナルの層を含む。
【0033】
いくつかの実施形態において、試験サンプルは、第2の組織クラスに関する組織シグナルを有し、複数の層のうちの1つを選択するステップは、さらに、第2の組織ラベルに関する組織シグナルに基づく。
【0034】
いくつかの実施形態において、それぞれの層の二値閾値カットオフは、サンプルのホールドアウトセットを取得することであって、それぞれのサンプルは、がんスコアおよび第1の組織ラベルに関する組織シグナルを有すること;サンプルのホールドアウトセットの第1の組織ラベルに関する組織シグナルに基づいて、ホールドアウトセットを、複数の層に層別化すること;複数の層のそれぞれの層について、層内のサンプルのがんスコアに基づいて、それぞれの候補二値閾値カットオフの真陽性率および偽陽性率を計算することによって、複数の候補二値閾値カットオフでがんスコアのドメインをスイープすること、ならびに層の偽陽性バジェットおよび計算された偽陽性率に基づいて、層の複数の候補二値閾値カットオフから二値閾値カットオフを選択することによって、決定される。
【0035】
他の実施形態において、がんを検出および分類するための方法であって、cfDNAフラグメントを含む生物学的サンプルのシーケンシングデータを受信するステップと、マルチクラス分類器を、シーケンシングデータから導出された特徴に適用するステップであって、マルチクラス分類器は、複数の血液学的起源組織サブタイプクラスのそれぞれに関する確率尤度を予測する、ステップと、マルチクラス分類器によって予測された確率尤度に基づいて、生物学的サンプルと関連する血液学的起源組織を決定するステップとを含む、方法が、開示される。いくつかの実施形態において、ハードウェアプロセッサと、ハードウェアプロセッサによって実行されると、プロセッサに方法のステップを実行させる、実行可能な命令を記憶する、非一過性コンピュータ可読記憶媒体とを備える、システム。
【0036】
他の実施形態において、マルチクラス分類器は、さらに、非がんクラスに関する確率尤度を予測する。
【0037】
他の実施形態において、マルチクラス分類器は、血液学的状態を有するサンプルおよび非がんサンプルに由来する訓練サンプルで訓練されている。
【図面の簡単な説明】
【0038】
図1A図1Aは、実施形態による、無細胞(cf)DNAのフラグメントをシーケンシングしてメチル化状態ベクトルを取得するプロセスについて説明するフローチャートである。
図1B図1Bは、実施形態による、無細胞(cf)DNAのフラグメントをシーケンシングしてメチル化状態ベクトルを取得する図1Aのプロセスの図である。
図2A図2Aは、実施形態による、サンプルから得られた異常にメチル化されたフラグメントを決定するプロセスについて説明するフローチャートである。
図2B図2Bは、実施形態による、サンプルから得られた異常にメチル化されたフラグメントを決定するプロセスについて説明するフローチャートである。
図3A図3Aは、実施形態による、がん分類器を訓練するプロセスについて説明するフローチャートである。
図3B図3Bは、実施形態による、がん分類器を訓練するために使用される特徴ベクトルの生成の例の図である。
図4A図4Aは、一実施形態による、核酸サンプルをシーケンシングするためのデバイスのフローチャートである。
図4B図4Bは、実施形態による、分析システムのブロック図である。
図5図5は、例示的な実装による、様々ながんタイプのためのマルチクラスがん分類器のがん予測正解率を示す多数のグラフである。
図6図6は、例示的な実装による、最初に二値がん分類器を使用した後の様々ながんタイプのためのマルチクラスがん分類器のがん予測正解率を示す多数のグラフである。
図7図7は、例示的な実装による、訓練されたがん分類器の性能を示す混同行列の図である。
図8図8は、95%を上回る特異度の非がんサンプルのがんタイプ尤度のグラフである。
図9A図9Aは、メチル化シーケンシングデータに従って分離した血液学的サブタイプのグラフである。
図9B図9Bは、メチル化シーケンシングデータに従って分離した血液学的サブタイプのグラフである。
図10A図10Aは、1つまたは複数の実施形態による、二値がん分類のための二値閾値カットオフを決定するプロセスについて説明するフローチャートである。
図10B図10Bは、1つまたは複数の実施形態による、二値がん分類のための二値閾値カットオフを決定するためのTOOラベルを閾値処理するプロセスについて説明するフローチャートである。
図11図11は、追加の血液がんサブタイプを用いて訓練されたがん起源組織分類器の性能を示す混同行列の図である。
図12A図12Aは、がんステージにわたる多数のがんタイプに関して閾値カットオフを調節した場合および調節しない場合のがん分類器のがん予測正解率を示すグラフである。
図12B図12Bは、がんステージにわたる多数のがんタイプに関して閾値カットオフを調節した場合および調節しない場合のがん分類器のがん予測正解率を示すグラフである。
図13A図13Aは、1つまたは複数の実施形態による、血液学的シグナルを2つの層に層別化するためのプロセスの図である。
図13B図13Bは、1つまたは複数の実施形態による、血液学的シグナルを3つの層に層別化するためのプロセスの図である。
図13C図13Cは、1つまたは複数の実施形態による、まず血液学的シグナルを層別化し、続いて結腸直腸シグナルを層別化するためのプロセスの図である。
図14図14は、1つまたは複数の実施形態による、TOO層別化のための二値閾値カットオフを決定するプロセスの図である。
図15図15は、1つまたは複数の実施形態による、TOO層別化によって決定された二値閾値カットオフを使用して、試験サンプルについて、がんの存在またはがんの不在を予測するプロセスについて説明するフローチャートである。
図16A図16Aは、血液学的サブタイプにわたる99.5%の特異度レベルにおける分類器の感度を示すグラフである。
図16B図16Bは、ホジキンリンパ腫および非ホジキンリンパ腫のステージにわたり95%の特異度における分類器の感度を示すグラフである。
図17図17は、例示的な実装における、血液学特異的がん分類器のがん予測正解率を示す混同行列の図である。
図18図18は、第1の例示的な実装における、血液学特異的がん分類のUMAP埋込みにおける重心からの距離に対してがんスコアをプロットする一連のグラフである。
図19図19は、第2の例示的な実装における、血液学特異的がん分類のための複数の訓練サンプルの異常スコアをプロットするグラフである。
図20図20は、第2の例示的な実装における、99.5%の特異度における血液学特異的がん分類器の感度を示すグラフである。
図21図21は、第2の例示的な実装における、血液学特異的がん分類器のがん予測正解率を示す混同行列の図である。
【発明を実施するための形態】
【0039】
図は、例示目的で様々な実施形態を示すにすぎない。当業者であれば、本明細書に例示されている構造および方法の代替的な実施形態が、本明細書に記載される原理から逸脱することなく用いられてよいことを、以下の説明から容易に認識するであろう。
【0040】
I.概要
I.A.メチル化の概要
本明細書によると、個体から得られたcfDNAフラグメントは、例えば、メチル化されていないシトシンをウラシルに変換することによって処理し、シーケンシングし、配列リードを参照ゲノムと比較して、DNAフラグメント内の特定のCpG部位におけるメチル化状態が特定される。それぞれのCpG部位は、メチル化されている場合もあり、またはメチル化されていない場合もある。健常個体と比較して異常にメチル化されたフラグメントの特定により、対象のがんステータスに関する識見を得ることができる。当該技術分野において周知のように、DNAメチル化異常(健常対照と比較して)は、がんに寄与する様々な作用を引き起こす。異常にメチル化されたcfDNAフラグメントの特定には、様々な課題が生じる。まず、DNAフラグメントが異常にメチル化されていると決定することは、対照個体の群との比較という点で重みを有するにすぎず、その結果、対照群が少数である場合には、小さなサイズの対照群内での統計学的変動性に起因して、決定は信頼性を失う。加えて、対照個体の群の間でメチル化ステータスは変動するが、それは、対象のDNAフラグメントが異常にメチル化されていると決定する際に考慮に入れることは困難である。別の話として、CpG部位におけるシトシンのメチル化は、必然的に、後続のCpG部位におけるメチル化に影響を及ぼす。この依存性をまとめることは、それ自体がもう1つの課題である。
【0041】
メチル化は、典型的に、デオキシリボ核酸(DNA)において、シトシン塩基のピリミジン環上の水素原子がメチル基に変換されて5-メチルシトシンを形成する際に生じる。具体的には、メチル化は、本明細書において「CpG部位」と称されるシトシンおよびグアニンのジヌクレオチドにおいて生じる傾向にある。他の事例において、メチル化は、CpG部位の一部ではないシトシンまたはシトシンではない別のヌクレオチドにおいて生じるが、これらはめったに発生しない。本開示においては、明確さの目的で、メチル化は、CpG部位を参照して考察される。異常なDNAメチル化は、過剰メチル化または過少メチル化として特定することができ、そのいずれも、がんステータスを示してよい。本開示全体を通じて、過剰メチル化および過少メチル化は、DNAフラグメントが、閾値を上回る数のCpG部位を含み、閾値を上回る割合のCpG部位がメチル化されているかまたはメチル化されていない場合、そのDNAフラグメントについて特徴付けられる。
【0042】
当業者であれば、本明細書に記載される原理が、非シトシンメチル化を含め、非CpGの状況におけるメチル化の検出に等しく適用可能であることを理解するであろう。そのような実施形態において、メチル化を検出するために使用される湿式研究室アッセイは、本明細書に記載されるものとは変動してもよい。さらに、本明細書において考察されるメチル化状態ベクトルは、通常、メチル化が起こっている部位または起こっていない部位である(これらの部位が特にCpG部位ではない場合であっても)要素を含んでよい。その置換により、本明細書に記載されるプロセスの残りは同じであり、結果として、本明細書に記載される発明的概念は、他の形態のメチル化にも適用可能である。
【0043】
I.B.定義
「個体」という用語は、ヒト個体を指す。「健常個体」という用語は、がんまたは疾患を有さないと推定される個体を指す。「対象」という用語は、がんまたは疾患を有することが判明しているか、またはそれを有する可能性がある、個体を指す。
【0044】
「無細胞核酸」または「cfNA」という用語は、個体の体内(例えば、血液中)を循環し、1つもしくは複数の健常細胞および/または1つもしくは複数のがん細胞を起源とする、核酸フラグメントを指す。「無細胞DNA」または「cfDNA」という用語は、個体の体内(例えば、血液中)を循環するデオキシリボ核酸フラグメントを指す。加えて、個体の体内におけるcfNAまたはcfDNAは、他の非ヒト源に由来してもよい。
【0045】
「ゲノム核酸」、「ゲノムDNA」、または「gDNA」という用語は、1つまたは複数の細胞から得られた核酸分子またはデオキシリボ核酸分子を指す。様々な実施形態において、gDNAは、健常細胞(例えば、非腫瘍細胞)または腫瘍細胞(例えば、生検サンプル)から抽出することができる。いくつかの実施形態において、gDNAは、血液細胞系統に由来する細胞、例えば、白血球から抽出される。
【0046】
「循環腫瘍DNA」または「ctDNA」という用語は、腫瘍細胞または他のタイプのがん細胞を起源とする核酸フラグメントを指し、生物学的プロセス、例えば、アポトーシスもしくは死亡する細胞の壊死の結果として個体の体液(例えば、血液、汗、尿、もしくは唾液)中に放出されるか、または生存腫瘍細胞によって活動的に放出される。
【0047】
「DNAフラグメント」、「フラグメント」、または「DNA分子」という用語は、一般に、任意のデオキシリボ核酸フラグメント、すなわち、cfDNA、gDNA、ctDNAなどを指してよい。
【0048】
「配列リード」という用語は、個体から得られた試験サンプルに由来する核酸分子から得られたヌクレオチド配列を指す。配列リードは、当該技術分野において公知の様々な方法によって得ることができる。
【0049】
「シーケンシング深度」または「深度」という用語は、個体から得られた試験サンプルに由来する所与のゲノム位置または遺伝子座における配列リードまたはリードセグメントの総数を指す。
【0050】
「異常なフラグメント」、「異常にメチル化されたフラグメント」、または「異常なメチル化パターンを有するフラグメント」という用語は、CpG部位の異常なメチル化を有するフラグメントを指す。フラグメントの異常なメチル化は、対照群においてフラグメントのメチル化パターンを観察することに関する意外性を特定する確率論的モデルを使用して、決定することができる。
【0051】
「極端なメチル化を有する異常なフラグメント」または「UFXM」という用語は、過少メチル化されたフラグメントまたは過剰メチル化されたフラグメントを指す。過少メチル化されたフラグメントおよび過剰メチル化されたフラグメントは、それぞれ、なんらかの閾値割合(例えば、90%)を上回るメチル化または非メチル化を有する少なくともいくらかの数のCpG部位(例えば、5個)を有するフラグメントを指す。
【0052】
「異常スコア」という用語は、CpG部位にオーバーラップするサンプル由来の異常なフラグメント(またはいくつかの実施形態においては、UFXM)の数に基づいた、そのCpG部位のスコアを指す。異常スコアは、分類のためのサンプルの特徴付けの状況で使用される。
【0053】
II.サンプル処理
II.A. DNAフラグメントのメチル化状態ベクトルの生成
図1Aは、実施形態による、無細胞(cf)DNAのフラグメントをシーケンシングしてメチル化状態ベクトルを取得するプロセス100について説明するフローチャートである。DNAメチル化を分析するために、分析システムは、まず、複数のcfDNA分子を含む個体からサンプルを取得する110。一般に、サンプルは、健常個体、がんを有することが判明しているかもしくはがんを有することが疑われる対象、または事前の情報が判明していない状態の対象に由来してよい。試験サンプルは、血液、血漿、血清、尿、糞便、および唾液サンプルからなる群から選択されるサンプルであってよい。あるいは、試験サンプルは、全血、血液画分(例えば、白血球(WBC))、組織生検、胸膜液、心膜液、脳脊髄液、および腹膜液からなる群から選択されるサンプルを含んでよい。追加の実施形態において、プロセス100は、他のタイプのDNA分子をシーケンシングするために適用されてもよい。
【0054】
サンプルから、分析システムは、それぞれのcfDNA分子を単離する。cfDNA分子は、メチル化されていないシトシンをウラシルに変換するように処理される。一実施形態において、本方法は、メチル化されたシトシンを変換することなく、メチル化されていないシトシンをウラシルに変換する、DNAのバイサルファイト処理を使用する。例えば、EZ DNA Methylation(商標)-Gold、EZ DNA Methylation(商標)-Direct、またはEZ DNA Methylation(商標)-Lightningキット(Zymo Research Corp(Irvine、CA)から入手可能)などの市販のキットが、バイサルファイト変換に使用される。別の実施形態において、メチル化されていないシトシンのウラシルへの変換は、酵素反応を使用して達成される。例えば、変換は、メチル化されていないシトシンのウラシルへの変換のための市販入手可能なキット、例えば、APOBEC-Seq(NEBiolabs、Ipswich、MA)を使用してもよい。
【0055】
変換されたcfDNA分子から、シーケンシングライブラリーを調製する130。任意選択で、複数のハイブリダイゼーションプローブを使用して、がんステータスに関しての情報をもつcfDNA分子、またはゲノム領域について、シーケンシングライブラリーを濃縮してもよい135。ハイブリダイゼーションプローブは、具体的に指定されたcfDNA分子、または標的化領域にハイブリダイズし、後続のシーケンシングおよび分析のためにそれらのフラグメントまたは領域を濃縮することができる、短いオリゴヌクレオチドである。ハイブリダイゼーションプローブを使用して、研究者が関心のある指定されたCpG部位のセットの標的化された高深度分析を実行することができる。一実施形態において、ハイブリダイゼーションプローブは、メチル化されていないシトシンのウラシルへの変換のために(例えば、バイサルファイトを使用して)処理されているDNA分子を濃縮するように設計されている。調製した後、シーケンシングライブラリーまたはその一部分をシーケンシングして、複数の配列リードを得ることができる。配列リードは、コンピュータソフトウェアによる処理および解釈のために、コンピュータ可読デジタル形式であってもよい。
【0056】
配列リードから、分析システムは、参照ゲノムへのアライメントに基づいて、それぞれのCpG部位の位置およびメチル化状態を決定する150。分析システムは、それぞれのフラグメントについて、参照ゲノムにおけるフラグメントの位置(例えば、それぞれのフラグメントにおける第1のCpG部位の位置もしくは別の類似のメトリックによって指定される)、フラグメント内のCpG部位の数、ならびにメチル化されている(例えば、Mと表記される)か、メチル化されていない(例えば、Uと表記される)か、または不確定である(例えば、Iと表記される)、フラグメント内のそれぞれのCpG部位のメチル化状態を指定する、メチル化状態ベクトルを生成する160。観察される状態は、メチル化されている状態およびメチル化されていない状態であり、一方で、観察されない状態は、不確定である。不確定なメチル化状態は、シーケンシングエラー、および/またはDNAフラグメントの相補鎖のメチル化状態の間の不一致を起源としてよい。メチル化状態ベクトルは、後での使用および処理のために、一過性または永続性コンピュータメモリに記憶される。さらに、分析システムは、単一のサンプルに由来する重複リードまたは重複メチル化状態ベクトルを除去してよい。分析システムは、1つまたは複数のCpG部位を有するある特定のフラグメントが、閾値を上回る数または割合の不確定なメチル化ステータスを有することを決定してよく、そのようなフラグメントを除外してよく、またはそのようなフラグメントを選択的に含むが、そのような不確定なメチル化ステータスを考慮したモデルを構築してもよく、1つのそのようなモデルは、図4と併せて以下に記載されている。
【0057】
図1Bは、実施形態による、cfDNA分子をシーケンシングしてメチル化状態ベクトルを取得する図1Aのプロセス100の例示である。例として、分析システムは、この例では、3つのCpG部位を含む、cfDNA分子112を受容する。示されるように、cfDNA分子112の第1および第3のCpG部位は、メチル化されている114。処理ステップ120の間に、cfDNA分子112が変換されて、変換されたcfDNA分子122が生成される。処理120の間に、メチル化されていなかった第2のCpG部位は、そのシトシンがウラシルに変換される。しかしながら、第1および第3のCpG部位は、変換されなかった。
【0058】
変換の後、シーケンシングライブラリー130を調製し、シーケンシングして140、配列リード142が生成される。分析システムは、配列リード142を参照ゲノム144にアライメントする150。参照ゲノム144は、ヒトゲノムにおけるどの位置がcfDNAフラグメントの起源であるかに関する状況を提供する。この単純化された例において、分析システムは、3つのCpG部位が、CpG部位23、24、および25(説明の簡単さのために使用された任意の参照識別子)に相関するように、配列リード142をアライメントする150。分析システムは、したがって、cfDNA分子112上のすべてのCpG部位のメチル化ステータスおよびCpG部位がマッピングされるヒトゲノム内の位置の両方に関する情報を生成する。示されるように、配列リード142上のメチル化されているCpG部位は、シトシンとして読まれる。この例において、シトシンは、配列リード142においてのみ第1および第3のCpG部位に出現し、これにより、もともとのcfDNA分子における第1および第3のCpG部位がメチル化されたと解釈することができる。一方で、第2のCpG部位は、チミン(シーケンシングプロセス中にUがTに変換される)として読まれ、したがって、第2のCpG部位は、もともとのcfDNA分子においてメチル化されていなかったと解釈することができる。メチル化ステータスおよび位置というこれらの2つの情報を用いて、分析システムは、cfDNAフラグメント112のメチル化状態ベクトル152を生成する160。この例において、結果として得られるメチル化状態ベクトル152は、<M23, U24, M25>であり、式中、Mは、メチル化されたCpG部位に対応し、Uは、メチル化されていないCpG部位に対応し、下付き文字の数字は、参照ゲノムにおけるそれぞれのCpG部位の位置に対応する。
【0059】
II.B.異常なフラグメントの特定
分析システムは、サンプルのメチル化状態ベクトルを使用して、サンプルの異常なフラグメントを決定する。サンプルにおけるそれぞれのフラグメントについて、分析システムは、フラグメントに対応するメチル化状態ベクトルを使用して、フラグメントが異常なフラグメントであるかどうかを決定する。一実施形態において、分析システムは、それぞれのメチル化状態ベクトルについて、健常対照群においてそのメチル化状態ベクトルまたは起こる可能性がさらに低い他のメチル化状態ベクトルを観察する確率について説明するp値スコアを計算する。p値スコアを計算するためのプロセスは、以下II.B.i. P値フィルタリングの節においてさらに考察される。分析システムは、閾値p値スコアを下回るメチル化状態ベクトルを有するフラグメントを、異常なフラグメントとして決定してよい。別の実施形態において、分析システムは、さらに、なんらかの閾値割合を上回るメチル化または非メチル化を有する少なくともいくらかの数のCpG部位を有するフラグメントを、それぞれ、過剰メチル化されたフラグメントおよび過少メチル化されたフラグメントとしてラベル付けする。過剰メチル化されたフラグメントまたは過少メチル化されたフラグメントはまた、極端なメチル化を有する異常なフラグメント(UFXM)とも称される。他の実施形態において、分析システムは、異常なフラグメントを決定するための様々な他の確率論的モデルを実装してもよい。他の確率論的モデルの例としては、混合モデル、深層確率論的モデルなどが挙げられる。いくつかの実施形態において、分析システムは、異常なフラグメントを特定するために、以下に記載されるプロセスの任意の組合せを使用してもよい。特定された異常なフラグメントを用いて、分析システムは、他のプロセスにおいて使用するため、例えば、がん分類器を訓練および展開するのに使用するために、サンプルのメチル化状態ベクトルのセットをフィルタリングしてもよい。
【0060】
II.B.I. P値フィルタリング
一実施形態において、分析システムは、それぞれのメチル化状態ベクトルについて、健常対照群におけるフラグメントから得られたメチル化状態ベクトルと比較して、p値スコアを計算する。p値スコアは、健常対照群においてそのメチル化状態ベクトルまたは起こる可能性がさらに低い他のメチル化状態ベクトルに一致するメチル化ステータスを観察する確率について説明する。DNAフラグメントが異常にメチル化されていると決定するために、分析システムは、大半のフラグメントが通常はメチル化されている健常対照群を使用する。異常なフラグメントを決定するためにこの確率論的分析を実行する場合、決定は、健常対照群を構成する対照対象の群との比較という点で重みを有する。健常対照群におけるロバスト性を確保するために、分析システムは、DNAフラグメントを含むサンプルを供給するためにいくらかの閾値数の健常個体を選択してよい。以下の図2Aは、それを用いて分析システムがp値スコアを計算する健常対照群のデータ構造を生成する方法について説明する。図2Bは、生成されたデータ構造を用いてp値スコアを計算する方法について説明する。
【0061】
図2Aは、実施形態による、健常対照群のデータ構造を生成するプロセス200について説明するフローチャートである。健常対照群のデータ構造を作成するために、分析システムは、複数の健常個体に由来する複数のDNAフラグメント(例えば、cfDNA)を受容する。メチル化状態ベクトルが、例えば、プロセス100によって、それぞれのフラグメントについて特定される。
【0062】
それぞれのフラグメントのメチル化状態ベクトルを用いて、分析システムは、メチル化状態ベクトルを、CpG部位のストリングに細分する205。一実施形態において、分析システムは、結果として得られるストリングがすべて所与の長さよりも短くなるように、メチル化状態ベクトルを細分する205。例えば、長さ11のメチル化状態ベクトルは、3以下の長さのストリングに細分され、長さ3のストリング9個、長さ2のストリング10個、および長さ1のストリング11個をもたらすであろう。別の例において、長さ7のメチル化状態ベクトルは、4以下の長さのストリングに細分され、長さ4のストリング4個、長さ3のストリング5個、長さ2のストリング6個、および長さ1のストリング7個をもたらすであろう。メチル化状態ベクトルが、指定されたストリング長さよりも短いかまたはそれと同じ長さである場合、メチル化状態ベクトルは、ベクトルのCpG部位のすべてを含む単一のストリングに変換される。
【0063】
分析システムは、ベクトル内のそれぞれの可能性のあるCpG部位およびメチル化状態の可能性について、指定されたCpG部位をストリング内の第1のCpG部位として有し、そのメチル化状態の可能性を有する、対照群に存在するストリングの数をカウントすることによって、ストリングを集計する210。例えば、所与のCpG部位において、長さ3のストリングを考えると、2^3個または8個の可能性のあるストリング構成が存在する。その所与のCpG部位において、8個の可能性のあるストリング構成のそれぞれについて、分析システムは、対照群においてそれぞれのメチル化状態ベクトルの可能性の発生が起こる数を集計する210。この例を続けると、これは、以下の数量を集計することを含んでよい:参照ゲノム内のそれぞれの開始CpG部位xについて、<Mx, Mx+1, Mx+2>、<Mx, Mx+1, Ux+2>、...、<Ux, Ux+1, Ux+2>。分析システムは、それぞれの開始CpG部位およびストリングの可能性について、集計したカウントを記憶するデータ構造を作成する215。
【0064】
ストリングの長さに上限を設定することには、いくつかの利点がある。まず、ストリングの最大長さに応じて、分析システムによって作成されるデータ構造のサイズは、サイズが劇的に増加することができる。例えば、最大長さ4のストリングは、それぞれのCpG部位が、長さ4のストリングについて最低限でも2^4個を集計することを意味する。最大のストリング長さを5に増加させることは、すべてのCpG部位が、さらに2^4個または16個を集計し、以前のストリング長さと比較して、集計する数(および必要なコンピュータメモリ)が2倍となることを意味する。ストリングサイズを低減させることは、計算および記憶の点で、データ構造の作成および性能(例えば、以下に記載されるように後でのアクセスに使用する)を妥当に保つのに役立つ。第2に、最大のストリング長さを制限することに関する統計学的考察は、ストリングカウントを使用する下流モデルの過剰適合を避けることである。長いCpG部位ストリングが、生物学的に、結果(例えば、がんの存在の予測である異常性の予測)に対して強い影響を有さない場合、大きなCpG部位ストリングに基づいて確率を計算することは、膨大な量のデータを必要とするが、そのような膨大なデータは利用可能ではない場合があり、したがって、モデルが適切に機能するには希薄となりすぎるため、問題となる。例えば、前の100個のCpG部位で条件付された異常性/がんの確率を計算するには、理想的には、いくつかが前の100個のメチル化状態に厳密に一致する、長さ100のデータ構造におけるストリングのカウントを必要とすることになる。長さ100のストリングの希薄なカウントしか利用可能でない場合、試験サンプルにおいて長さ100の所与のストリングが異常であるかそうでないかを決定するには、存在するデータが不十分であろう。
【0065】
図2Bは、実施形態による、個体から得られた異常にメチル化されたフラグメントを特定するためのプロセス220について説明するフローチャートである。プロセス220において、分析システムは、対象のcfDNAフラグメントからメチル化状態ベクトルを生成する100。分析システムは、それぞれのメチル化状態ベクトルを以下のように扱う。
【0066】
所与のメチル化状態ベクトルについて、分析システムは、メチル化状態ベクトル内で同じ開始CpG部位および同じ長さ(すなわち、CpG部位のセット)を有するメチル化状態ベクトルのすべての可能性を列挙する230。それぞれのメチル化状態は、一般に、メチル化されているかまたはメチル化されていないかのいずれかであるため、それぞれのCpG部位において、2つの可能性のある状態が有効に存在し、したがって、メチル化状態ベクトルの明確な可能性のカウントは、2の累乗に依存し、そのため、長さnのメチル化状態ベクトルは、メチル化状態ベクトルの2n個の可能性と関係付けられるであろう。1つまたは複数のCpG部位について不確定状態を含むメチル化状態ベクトルを用いる場合、分析システムは、観察される状態を有するCpG部位のみを考慮してメチル化状態ベクトルの可能性を列挙してよい230。
【0067】
分析システムは、健常対照群のデータ構造にアクセスすることによって、特定された開始CpG部位およびメチル化状態ベクトルの長さについて、メチル化状態ベクトルのそれぞれの可能性を観察する確率を計算する240。一実施形態において、所与の可能性を観察する確率の計算は、同時確率計算をモデリングするマルコフ連鎖確率を使用する。他の実施形態において、マルコフ連鎖確率以外の計算方法が、メチル化状態ベクトルのそれぞれの可能性を観察する確率を決定するために使用される。
【0068】
分析システムは、それぞれの可能性について計算された確率を使用して、メチル化状態ベクトルのp値スコアを計算する250。一実施形態において、これには、問題のメチル化状態ベクトルと一致する可能性に対応する計算された確率を特定することが含まれる。具体的には、これは、メチル化状態ベクトルと同じCpG部位のセット、または同様に同じ開始CpG部位および長さを有する可能性である。分析システムは、特定された確率よりも低いかまたはそれと同等の確率を有する、任意の可能性の計算された確率を合計して、p値スコアを生成する。
【0069】
このp値は、健常対照群においてフラグメントのそのメチル化状態ベクトルまたは起こる確率がさらに低い他のメチル化状態ベクトルを観察する確率を表す。低いp値スコアは、したがって、一般に、健常個体においては稀有であるメチル化状態ベクトルに対応し、これにより、フラグメントが、健常対照群と比べて、異常にメチル化されているとラベル付けされることが引き起こされる。高いp値スコアは、一般に、相対的な意味で、健常個体に存在することが予測されるメチル化状態ベクトルに関連する。健常対照群が、非がん性群である場合、例えば、低いp値は、フラグメントが、非がん群と比べて異常にメチル化されており、したがって、試験対象におけるがんの存在を示す可能性があることを示す。
【0070】
上述のように、分析システムは、それぞれが、試験サンプルにおけるcfDNAフラグメントを表す、複数のメチル化状態ベクトルのそれぞれについて、p値スコアを計算する。フラグメントのうちのどれが異常にメチル化されているかを特定するために、分析システムは、それらのp値スコアに基づいて、メチル化状態ベクトルのセットをフィルタリングしてもよい260。一実施形態において、フィルタリングは、p値スコアを、閾値に対して比較し、閾値を下回るフラグメントのみを維持することによって行われる。この閾値p値スコアは、約0.1、0.01、0.001、0.0001、または同様のものであってよい。
【0071】
プロセス400から得られた例示的な結果によると、分析システムは、訓練におけるがんを有さない参加者については異常なメチル化パターンを有するフラグメントを中央値(範囲)で2,800(1,500~12,000)個もたらし、訓練におけるがんを有する参加者については異常なメチル化パターンを有するフラグメントを中央値(範囲)で3,000(1,200~220,000)個もたらす。異常なメチル化パターンを有するフラグメントのこれらのフィルタリングされたセットは、以下の節IIIにおいて記載されるように下流の分析に使用されてよい。
【0072】
一実施形態において、分析システムは、メチル化状態ベクトルの可能性を決定し、p値を計算するために、スライディングウインドウを使用する255。すべてのメチル化状態ベクトルについて、可能性を列挙し、p値を計算するのではなく、分析システムは、連続したCpG部位のウインドウのみについて可能性の列挙およびp値の計算を行い、ここで、ウインドウは、少なくともいくつかのフラグメントよりも(CpG部位の)長さが短い(そうでなければ、ウインドウは目的を果たさないであろう)。ウインドウの長さは、静的であってもよく、ユーザにより決定されてもよく、動的であってもよく、またはそれ以外の方法で選択されてもよい。
【0073】
ウインドウよりも大きいメチル化状態ベクトルのp値を計算する場合、ウインドウは、ベクトル内の第1のCpG部位から開始するウインドウ内でベクトルから連続するCpG部位のセットを特定する。分析システムは、第1のCpG部位を含むウインドウについてp値スコアを計算する。分析システムは、次いで、ウインドウを、ベクトル内の第2のCpG部位へと「スライド」させ、第2のウインドウについて別のp値スコアを計算する。したがって、ウインドウサイズlおよびメチル化ベクトル長さmについて、それぞれのメチル化状態ベクトルは、m-l+1個のp値スコアを生成するであろう。ベクトルのそれぞれの部分についてp値の計算を完了した後、すべてのスライディングウインドウから得られたp値スコアでもっとも低いものを、メチル化状態ベクトルの全体的なp値スコアととらえる。別の実施形態において、分析システムは、メチル化状態ベクトルのp値スコアを凝集化して、全体的なp値スコアを生成する。
【0074】
スライディングウインドウを使用することは、メチル化状態ベクトルの列挙される可能性の数、および他の場合には行うことが必要であったそれらの対応する確率計算を低減させるのに役立つ。現実的な例を挙げると、フラグメントが、54個以上のCpG部位を有することが可能である。単一のpスコアを生成するために2^54(約1.8×10^16)個の可能性について確率を計算する代わりに、分析システムは、サイズ5(例えば)のウインドウを使用することができ、結果として、そのフラグメントのメチル化状態ベクトルの50個のウインドウのそれぞれについて、50個のp値計算をもたらす。50個の計算のそれぞれは、2^5(32)個のメチル化状態ベクトルの可能性を列挙し、これは、合計すると、50×2^5(1.6×10^3)個の確率計算をもたらす。これは、異常なフラグメントの正確な特定に重大な打撃を与えることなく、行われる計算の大幅な低減をもたらす。
【0075】
不確定状態を有する実施形態において、分析システムは、フラグメントのメチル化状態ベクトルにおいて、不確定状態を有するCpG部位を合計してp値スコアを計算してもよい。分析システムは、不確定状態を除外したメチル化状態ベクトルのすべてのメチル化状態とコンセンサスを有するすべての可能性を特定する。分析システムは、特定された可能性の確率の合計として、確率を、メチル化状態ベクトルに割り当てることができる。例として、分析システムは、CpG部位1および3についてメチル化状態が観察され、フラグメントのCpG部位1および3におけるメチル化状態とコンセンサスであるため、<M1, I2, U3>のメチル化状態ベクトルの確率を、<M1, M2, U3>および<M1, U2, U3>のメチル化状態ベクトルの可能性の確率の合計として計算する。不確定状態を有するCpG部位を合計するこの方法は、最大2^i個までの可能性の確率の計算を使用し、ここで、iは、メチル化状態ベクトルにおける不確定状態の数を指す。追加の実施形態において、1つまたは複数の不確定状態を有するメチル化状態ベクトルの確率を計算するために、動的プログラミングアルゴリズムが実装されてもよい。有益なことに、動的プログラミングアルゴリズムは、線形計算時間で動作する。
【0076】
一実施形態において、確率および/またはp値スコアを計算することに関する計算上の負荷は、少なくともいくつかの計算をキャッシングすることによって、さらに低減されてよい。例えば、分析システムは、一過性または永続性メモリに、メチル化状態ベクトル(またはそのウインドウ)の可能性の確率の計算をキャッシングしてもよい。他のフラグメントが同じCpG部位を有する場合、可能性の確率をキャッシングすることにより、根底にある可能性の確率の再計算を必要とすることなく、pスコア値の効率的な計算が可能となる。同等に、分析システムは、ベクトル(またはそのウインドウ)からのCpG部位のセットと関連するメチル化状態ベクトルの可能性のそれぞれについて、p値スコアを計算してもよい。分析システムは、同じCpG部位を含む他のフラグメントのp値スコアを決定するのに使用するためにp値スコアをキャッシングしてもよい。一般に、同じCpG部位を有するメチル化状態ベクトルの可能性のp値スコアは、同じCpG部位のセットから得られた可能性のうちの別のもののp値スコアを決定するために使用されてよい。
【0077】
II.B.II.過剰メチル化されたフラグメントおよび過少メチル化されたフラグメント
別の実施形態において、分析システムは、閾値を上回る数のCpG部位を有し、閾値を上回る割合のCpG部位がメチル化されているか、または閾値を上回る割合のCpG部位がメチル化されていないかのいずれかであるフラグメントとして、異常なフラグメントを決定し、分析システムは、そのようなフラグメントを、過剰メチル化されたフラグメントまたは過少メチル化されたフラグメントとして特定する。フラグメント(またはCpG部位)の長さの例示的な閾値としては、3を上回る、4を上回る、5を上回る、6を上回る、7を上回る、8を上回る、9を上回る、10を上回るなどが挙げられる。メチル化または非メチル化の閾値の例示的な割合としては、80%を上回る、85%を上回る、90%を上回る、もしくは95%を上回る、または50%~100%の範囲内の任意の他の割合が挙げられる。
【0078】
II.C.例示的な分析システム
図4Aは、一実施形態による、核酸サンプルをシーケンシングするためのデバイスのフローチャートである。この例示的なフローチャートには、シーケンサー420および分析システム400などのデバイスが含まれる。シーケンサー420および分析システム400は、図1Aの100、図2Aの200、図2Bの220のプロセス、および本明細書に記載される他のプロセスにおいて、1つまたは複数のステップを行うように、タンデムで動作してよい。
【0079】
様々な実施形態において、シーケンサー420は、濃縮された核酸サンプル410を受容する。図4Aに示されるように、シーケンサー420は、特定のタスクとのユーザの対話(例えば、シーケンシングを開始するかまたはシーケンシングを終了する)を可能にするグラフィカルユーザインターフェース425、ならびに濃縮されたフラグメントサンプルを含むシーケンシングカートリッジをローディングするためおよび/またはシーケンシングアッセイを実行するために必要な緩衝液をローディングするための1つのさらなるローディングステーション430を含んでよい。したがって、シーケンサー420のユーザが必要な試薬およびシーケンシングカートリッジをシーケンサー420のローディングステーション430に提供すると、ユーザは、シーケンサー420のグラフィカルユーザインターフェース425と対話することによって、シーケンシングを開始することができる。開始されると、シーケンサー420は、シーケンシングを実行し、核酸サンプル410に由来する濃縮されたフラグメントの配列リードを出力する。
【0080】
いくつかの実施形態において、シーケンサー420は、分析システム400と通信可能に連結されている。分析システム400は、1つまたは複数のCpG部位においてメチル化ステータスを評価すること、バリアントコーリング、または品質制御など、様々な用途のために配列リードを処理するために使用される、いくつかのコンピューティングデバイスを含む。シーケンサー420は、BAMファイル形式で配列リードを分析システム400に提供してよい。分析システム400は、無線、有線、または無線および有線の組合せの通信技術を通じて、シーケンサー420に通信可能に連結されてよい。一般に、分析システム400は、プロセッサと、プロセッサによって実行されると、プロセッサに配列リードを処理させるか、または本明細書に開示される方法もしくはプロセスのうちのいずれかの1つもしくは複数のステップを実行させるコンピュータ命令を記憶する非一過性コンピュータ可読記憶媒体とを有して構成される。
【0081】
いくつかの実施形態において、配列リードは、例えば、図1Aにおけるプロセス100のステップ140によって、アライメント位置情報を決定するために、当該技術分野において公知の方法を使用して、参照ゲノムにアライメントされてよい。アライメント位置は、一般に、所与の配列リードの開始ヌクレオチド塩基および終了ヌクレオチド塩基に対応する、参照ゲノム内の領域の開始位置および終了位置を説明してよい。メチル化シーケンシングに対応して、アライメント位置情報は、参照ゲノムへのアライメントに従って、配列リードに含まれる最初のCpG部位および最後のCpG部位を示すように一般化されてよい。アライメント位置情報は、さらに、所与の配列リードにおけるすべてのCpG部位のメチル化ステータスおよび位置を示してよい。参照ゲノム内の領域は、遺伝子または遺伝子のセグメントと関連付けられてもよく、そのため、分析システム400は、配列リードにアライメントする1つまたは複数の遺伝子を用いて配列リードをラベル付けしてもよい。一実施形態において、フラグメントの長さ(またはサイズ)は、開始位置および終了位置から決定される。
【0082】
様々な実施形態において、例えば、ペアエンドシーケンシングプロセスが使用される場合、配列リードは、R_1およびR_2と表記されるリードペアから構成される。例えば、第1のリードR_1は、二本鎖DNA(dsDNA)分子の第1の末端からシーケンシングされ、一方で第2のリードR_2は、二本鎖DNA(dsDNA)の第2の末端からシーケンシングされてよい。したがって、第1のリードR_1および第2のリードR_2のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して(例えば、逆の方向で)アライメントされてよい。リードペアR_1およびR_2から導出されたアライメント位置情報には、第1のリード(例えば、R_1)の末端に対応する参照ゲノム内の開始位置および第2のリード(例えば、R_2)の末端に対応する参照ゲノム内の終了位置が含まれてよい。換言すると、参照ゲノム内の開始位置および終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性のある位置を表す。SAM(配列アライメントマップ)形式またはBAM(二値)形式を有する出力ファイルが、さらなる分析のために生成され出力されてもよい。
【0083】
ここで図4Bを参照すると、図4Bは、一実施形態による、DNAサンプルをプロセシングするための分析システム400のブロック図である。分析システムは、DNAサンプルを分析するのに使用するための1つまたは複数のコンピューティングデバイスを実装する。分析システム400は、配列プロセッサ440、配列データベース445、モデルデータベース455、モデル450、パラメーターデータベース465、およびスコアエンジン460を含む。いくつかの実施形態において、分析システム400は、図1Aのプロセス100および図2の200のうちの一部またはすべてを実行する。
【0084】
配列プロセッサ440は、サンプルから得られたフラグメントのメチル化状態ベクトルを生成する。フラグメント上のそれぞれのCpG部位において、配列プロセッサ440は、図1Aのプロセス100によって、それぞれのフラグメントについて、参照ゲノムにおけるフラグメントの位置、フラグメント内のCpG部位の数、およびメチル化されているか、メチル化されていないか、または不確定である、フラグメント内のそれぞれのCpG部位のメチル化状態を指定する、メチル化状態ベクトルを生成する。配列プロセッサ440は、フラグメントのメチル化状態ベクトルを、配列データベース445に記憶できる。配列データベース445内のデータは、サンプルから得られたメチル化状態ベクトルが互いに関連付けられるように、組織化されていてもよい。
【0085】
さらに、複数の異なるモデル450は、モデルデータベース455に記憶され、試験サンプルとともに使用するために取り出されてよい。1つの例において、モデルは、異常なフラグメントから導出された特徴ベクトルを使用して、試験サンプルのがん予測を決定するための訓練されたがん分類器である。がん分類器の訓練および使用は、節III.がんを決定するためのがん分類器と併せてさらに考察される。分析システム400は、1つまたは複数のモデル450を訓練し、様々な訓練されたパラメーターをパラメーターデータベース465に記憶してよい。分析システム400は、モデル450を機能とともにモデルデータベース455に記憶する。
【0086】
推定の間、スコアエンジン460は、1つまたは複数のモデル450を使用して、結果を返却する。スコアエンジン460は、パラメーターデータベース465からの訓練されたパラメーターとともに、モデルデータベース455内のモデル450にアクセスする。それぞれのモデルに応じて、スコアエンジンは、そのモデルに適した入力を受信し、受信した入力、パラメーター、ならびに入力および出力に関連するそれぞれのモデルの関数に基づいて出力を計算する。いくつかの使用事例において、スコアエンジン460は、さらに、モデルから計算された出力における信頼性に相関するメトリクスを計算する。他の使用事例において、スコアエンジン460は、そのモデルにおいて使用するための他の中間値を計算する。
【0087】
III.がんを決定するためのがん分類器
III.A.概要
がん分類器は、試験サンプルの特徴ベクトルを受信して、試験サンプルががんを有するか、またはより具体的には特定のがんタイプを有する試験対象に由来するかどうかを決定するように訓練されている。がん分類器は、複数の分類パラメーター、および入力としての特徴ベクトルと、関数が分類パラメーターを用いて入力された特徴ベクトルに対して動作することによって決定される出力としてのがん予測との間の関連を表す関数を含む。一実施形態において、がん分類器に入力される特徴ベクトルは、試験サンプルから決定される異常なフラグメントのセットに基づく。異常なフラグメントは、図2Bにおけるプロセス220によって決定されてよいか、またはより具体的には、プロセス220のステップ270によって決定される過剰メチル化および過少メチル化されたフラグメント、またはなんらかの他のプロセスに従って決定される異常なフラグメントであってよい。がん分類器の展開の前に、分析システムは、プロセス300でがん分類器を訓練する。
【0088】
III.B.がん分類器の訓練
図3Aは、実施形態による、がん分類器を訓練するプロセス300を説明するフローチャートである。分析システムは、それぞれが異常なフラグメントのセットおよびがんタイプのラベルを有する、複数の訓練サンプルを取得する310。複数の訓練サンプルは、「非がん」の一般ラベルを有する健常個体から得られたサンプル、「がん」の一般ラベルまたは具体的なラベル(例えば、「乳がん」、「肺がん」など)を有する対象から得られたサンプルの任意の組合せを含む。1つのがんタイプについて対象から得られた訓練サンプルは、そのがんタイプのコホートまたはがんタイプコホートと称されてよい。
【0089】
分析システムは、それぞれの訓練サンプルについて、訓練サンプルの異常なフラグメントのセットに基づいて、特徴ベクトルを決定する320。分析システムは、CpG部位の初期セット内のそれぞれのCpG部位について、異常スコアを計算する。CpG部位の初期セットは、ヒトゲノムまたはその一部分におけるすべてのCpG部位でよく、これは、約104、105、106、107、108であってよい。一実施形態において、分析システムは、異常なフラグメントのセット内にCpG部位を含む異常なフラグメントが存在するかどうかに基づいて、二値スコア付けを用いて特徴ベクトルの異常スコアを定義する。別の実施形態において、分析システムは、CpG部位にオーバーラップする異常なフラグメントのカウントに基づいて異常スコアを定義する。1つの例において、分析システムは、異常なフラグメントの存在の欠如に関する第1のスコア、数個の異常なフラグメントの存在に関する第2のスコア、および数個を上回る異常なフラグメントの存在に関する第3のスコアを割り当てる、三値スコア付けを使用してもよい。例えば、分析システムは、サンプルにおいて、CpG部位にオーバーラップする異常なフラグメントを5つカウントし、カウント数5に基づいて異常スコアを計算する。
【0090】
訓練サンプルについて、すべての異常スコアが決定されると、分析システムは、それぞれの要素について、初期セット内のCpG部位のうちの1つと関連する異常スコアのうちの1つを含む、要素のベクトルとして、特徴ベクトルを決定する。分析システムは、サンプルのカバレッジに基づいて、特徴ベクトルの異常スコアを正規化する。ここで、カバレッジは、分類器において使用されるCpG部位の初期セットによってカバーされるすべてのCpG部位に及ぶか、または所与の訓練サンプルの異常なフラグメントのセットの基づく、中央値または平均シーケンシング深度を指す。
【0091】
例として、ここで、特徴ベクトル322を訓練する行列を図示する図3Bを参照する。この例において、分析システムは、がん分類器の特徴ベクトルを生成する際に考慮するためのCpG部位[K]326を特定している。分析システムは、訓練サンプル[N]324を選択する。分析システムは、第1の任意のCpG部位[k1]について、訓練サンプル[n1]の特徴ベクトルにおいて使用しようとする第1の異常スコア328を決定する。分析システムは、異常なフラグメントのセット内のそれぞれの異常なフラグメントを調べる。分析システムが、第1のCpG部位を含む少なくとも1つの異常なフラグメントを特定すると、分析システムは、図3Bに示されるように、第1のCpG部位の第1の異常スコア328を1と決定する。第2の任意のCpG部位[k2]を考慮すると、分析システムは、同様に、第2のCpG部位[k2]を含む少なくとも1つについて、異常なフラグメントのセットを調べる。分析システムが、第2のCpG部位を含むそのような異常なフラグメントを見出さない場合、分析システムは、図3Bに示されるように、第2のCpG部位[k2]の第2の異常スコア329を0と決定する。分析システムが、CpG部位の初期セットについて、すべての異常スコアを決定すると、分析システムは、第1のCpG部位[k1]について1の第1の異常スコア328および第2のCpG部位[k2]について0の第2の異常スコア329、ならびに後続の異常スコアを含む特徴ベクトルを用いて、異常スコアを含む第1の訓練サンプル[n1]の特徴ベクトルを決定し、それによって特徴ベクトル[1, 0, …]を形成する。
【0092】
分析システムは、さらに、がん分類器における使用が考慮されるCpG部位を制限してよい。分析システムは、CpG部位の初期セット内のそれぞれのCpG部位について、訓練サンプルの特徴ベクトルに基づいて、情報利得を計算する330。ステップ320から、それぞれの訓練サンプルは、最大でヒトゲノム内のすべてのCpG部位を含むCpG部位の初期セット内のすべてのCpG部位の異常スコアを含む、特徴ベクトルを有する。しかしながら、CpG部位の初期セット内のいくつかのCpG部位は、がんタイプ間の区別に関してその他のものほど情報をもたない可能性があるか、または他のCpG部位と重複している可能性がある。
【0093】
一実施形態において、分析システムは、それぞれのがんタイプおよび初期セット内のそれぞれのCpG部位について、そのCpG部位を分類器に含めるかどうかを決定するために、情報利得を計算する330。情報利得は、所与のがんタイプを有する訓練サンプルについて、すべての他のサンプルと比較して、計算される。例えば、「異常なフラグメント」(「AF」)および「がんタイプ」(「CT」)の2つのランダム変数が使用される。一実施形態において、AFは、上述の異常スコア/特徴ベクトルに関して決定されるように、所与のサンプルにおいて所与のCpG部位にオーバーラップする異常なフラグメントが存在するかどうかを示す二値変数である。CTは、がんが特定のタイプのものであるかどうかを示すランダム変数である。分析システムは、AFを踏まえてCTに関する相互情報量を計算する。すなわち、特定のCpG部位にオーバーラップする異常なフラグメントが存在するかどうかが判明している場合に利得されるがんタイプに関する情報ビットの数である。実際には、第1のがんタイプについて、分析システムは、それぞれの他のがんタイプに対するペアでの相互情報利得を計算し、すべての他のがんタイプにわたって相互情報利得を合計する。
【0094】
所与のがんタイプについて、分析システムは、この情報を使用して、CpG部位がどの程度がん特異的であるかに基づいてCpG部位を順位付けする。この手順を、考慮しているすべてのがんタイプについて反復する。特定の領域が、所与のがんの訓練サンプルにおいて共通して異常にメチル化されているが、他のがんタイプの訓練サンプルまたは健常訓練サンプルにおいては異常にメチル化されていない場合、それらの異常なフラグメントがオーバーラップするCpG部位は、所与のがんタイプについて高い情報利得を有する傾向にあるであろう。それぞれのがんタイプについて順位付けされたCpG部位は、がん分類器において使用するためにそれらの順位に基づいて、選択されたCpG部位のセットに貪欲に追加される(選択される)340。
【0095】
追加の実施形態において、分析システムは、がん分類器において使用しようとする情報価値のあるCpG部位を選択するために他の選択基準を考慮してもよい。1つの選択基準は、選択されるCpG部位が、他の選択されるCpG部位から閾値を上回って分離されていることであってよい。例えば、選択されるCpG部位は、任意の他の選択されるCpG部位から閾値を上回る塩基対数(例えば、100塩基対)で分離されているべきであり、結果として、分離が閾値以内であるCpG部位は、いずれもがん分類器における考慮に選択されない。
【0096】
一実施形態において、初期セットから選択されたCpG部位のセットに従って、分析システムは、必要に応じて訓練サンプルの特徴ベクトルを改変してもよい350。例えば、分析システムは、選択されたCpG部位のセットに含まれないCpG部位に対応する異常スコアを除去するように、特徴ベクトルを短縮させてもよい。
【0097】
訓練サンプルの特徴ベクトルを用いて、分析システムは、がん分類器を任意の数の様式で訓練することができる。特徴ベクトルは、ステップ320から得られたCpG部位の初期セットまたはステップ350から得られた選択されたCpG部位のセットに対応してよい。一実施形態において、分析システムは、訓練サンプルの特徴ベクトルに基づいて、がんと非がんとの間の区別を行うように二値がん分類器を訓練する360。この様式において、分析システムは、健常個体に由来する非がんサンプルおよび対象に由来するがんサンプルの両方を含む訓練サンプルを使用する。それぞれの訓練サンプルは、「がん」または「非がん」の2つのラベルのうちの1つを有する。この実施形態において、分類器は、がんの存在または不在の尤度を示すがん予測を出力する。
【0098】
別の実施形態において、分析システムは、多数のがんタイプ(起源組織(TOO)ラベルとも称される)間の区別を行うように、マルチクラスがん分類器を訓練する450。がんタイプには、1つまたは複数のがんが含まれ、非がんタイプを含んでもよい(任意の追加の他の疾患または遺伝子障害なども含んでもよい)。それを行うために、分析システムは、がんタイプコホートを使用し、非がんタイプコホートも含む場合も含まない場合もある。このマルチがんの実施形態において、がん分類器は、分類されているがんタイプのそれぞれの予測値を含むがん予測(またはより具体的にはTOO予測)を決定するように訓練されている。予測値は、所与の訓練サンプル(または推定の間には、試験サンプル)ががんタイプのそれぞれを有する尤度に対応してよい。1つの実装において、予測値は、0から100でスコア付けされ、予測値を累積すると100となる。例えば、がん分類器は、乳がん、肺がん、および非がんの予測値を含む、がん予測を返却する。例えば、分類器は、試験サンプルが、乳がんの尤度65%、肺がんの尤度25%、および非がんの尤度10%であるというがん予測を返却できる。分析システムは、さらに、予測値を評価して、サンプルにおける1つまたは複数のがんの存在の予測を生成してもよく、これは、例えば、第1のTOOラベルがもっとも高い予測値を有し、第2のTOOラベルが2番目に高い予測値を有するなどの1つまたは複数のTOOラベルを示すTOO予測とも称されてよい。上述の例および所与の割合で継続すると、この例において、システムは、乳がんがもっとも高い尤度を有することを踏まえ、サンプルが乳がんを有すると決定してよい。
【0099】
いずれの実施形態においても、分析システムは、訓練サンプルのセットをそれらの特徴ベクトルとともにがん分類器に入力し、分類器の関数が訓練特徴ベクトルをそれらの対応するラベルに正確に関連付けるように、分類パラメーターを調整することによって、がん分類器を訓練する。分析システムは、訓練サンプルを、がん分類器の反復的バッチ訓練のために1つまたは複数の訓練サンプルのセットにグループ分けしてよい。訓練サンプルのすべてのセットを、それらの訓練特徴ベクトルを含めて入力し、分類パラメーターを調整した後に、がん分類器は、試験サンプルを、なんらかの誤差の範囲内でそれらの特徴ベクトルに従ってラベル付けするように十分に訓練される。分析システムは、いくつかの方法のうちのいずれか1つに従って、がん分類器を訓練してよい。例として、二値がん分類器は、log損失関数を使用して訓練されたL2正則化ロジスティック回帰分類器であってよい。別の例として、マルチがん分類器は、多項ロジスティック回帰であってよい。実際には、いずれかのタイプのがん分類器を、他の技法を使用して訓練してもよい。これらの技法は、カーネル法、ランダムフォレスト分類器、混合モデル、オートエンコーダモデル、機械学習アルゴリズム、例えば、多層ニューラルネットワークなどの使用の可能性を含め、多数である。
【0100】
III.C.がん分類器の調整
がん分類器の使用中に、分析システムは、がん分類器の予測能力を調整する操作を実行してよい。一般に、サンプル分布は、高い組織シグナルを有する1つまたは複数の非がんサンプルを含んでよい。これらの高い組織シグナルの非がんサンプルのうちのいくつかは、さらには、ステージ前のがん、初期ステージのがん、または診断されていないがんであってよい。そのため、高い組織シグナルを有する非がんサンプルは、がん分類器の予測能力を混乱させる。
【0101】
本明細書において使用される場合、「高い組織シグナル」とは、例えば、TOOラベルとも称される、一般に任意の組織タイプまたは特定のがんタイプについて、なんらかの閾値を上回る組織シグナルを有するサンプルを指す。組織シグナルは、マルチクラスがん分類器または他のアプローチによって、健常分布と比較して決定されてよい。高い組織シグナルを有する非がんサンプルは、非がん分布における外れ値である。これらの非がんサンプルのうちのいくつかは、ステージ前のがん、初期ステージのがん、または診断されていないがんであって。分析システムは、少なくとも1つのTOOラベルにおいて高い組織シグナルを有する非がんサンプルを特定してよい。高い組織シグナルを決定する1つのアプローチにおいて、マルチクラスがん分類器によって出力されるTOOラベルの予測値は、組織シグナル閾値に対して比較される。組織シグナル閾値を上回る予測値を有するサンプルは、そのTOOラベルに関して高い組織シグナルを有すると見なされ、一方で、組織シグナル閾値を下回る予測値を有するサンプルは、そのTOOラベルに関して高い組織シグナルを有さない(または低い組織シグナルを有する)と見なされる。別のアプローチにおいて、TOO予測における1つまたは複数の上位予測が考慮される。例えば、サンプルのTOO予測は、結腸直腸TOOラベルの第1の予測、乳房TOOラベルの第2の予測、および頭/頸部TOOラベルの第3の予測を有する。上位予測を考慮する場合、サンプルは、第1の予測においてTOOラベルに関して高い組織シグナルを有すると見なされ、それは、この例では、結腸直腸TOOラベルである。上位2つの予測が考慮される場合、結腸直腸TOOラベルおよび乳房TOOラベルの両方において高い組織シグナルが存在する。組織シグナルを決定する他のアプローチには、1つまたは複数のTOOラベルに関して組織シグナルを決定するように訓練された他のモデルが含まれてよい。そのようなモデルは、TOOラベルのサブセットについて組織シグナルを決定するように訓練された分類器を含んでよい。例えば、血液学特異的分類器を、1つまたは複数の血液学的サブタイプについて組織シグナルを決定するように訓練し、使用してもよい。2つのそのような例示的な実装は、V.がん分類器の例示的な結果の節に記載されている。他のモデルとしては、メチル化シーケンシングデータ(および/または他のタイプのシーケンシングデータ)から組織シグナルをデコンボリューションすることができるデコンボリューションモデルが挙げられる。
【0102】
分類器を調整する一実施形態において、高い組織シグナルの非がんサンプルを除外することにより、がん予測における分類器の感度が改善される。除外したサンプル分布を用いることで、二値閾値カットオフは、最小限の特異度に従って決定されてよく、この二値閾値カットオフを使用して、試験サンプルにおけるがんの存在または不在を予測する。この方法は、III.C.i.高いシグナルの非がんサンプルの除去の節においてさらに詳述されている。
【0103】
がん分類器を調整する別の実施形態において、サンプル分布は、TOOシグナルに従って層別化されてよい。分析システムは、サンプルが層へと層別化されるそれぞれの結果として得られる層について、二値閾値カットオフを決定する。試験サンプルを用いて、分析システムは、試験サンプルを、TOOシグナルに従って層に配置し、層の二値閾値カットオフを用いて試験サンプルにおけるがんの存在または不在を予測する。この方法は、III.C.ii.TOOシグナルに従ったサンプル分布の層別化の節においてさらに詳述されている。
【0104】
図8を参照すると、図8は、95%を上回る特異度の非がんサンプルのがんタイプ尤度のグラフを図示する。複数の非がんサンプル、すなわち、現在がんと診断されていない健常個体から得られたサンプルのそれぞれの非がんサンプルについて、がんスコアを計算した。がんスコアは、サンプルのメチル化シーケンシングデータを踏まえた、サンプルががんを有する尤度として、二値分類器によって決定することができる。他の実施形態において、がんスコアは、少なくともシーケンシングデータ(例えば、メチル化、単一ヌクレオチド多型(SNP)、DNA、RNAなど)を入力し、入力されたシーケンシングデータに基づいてサンプルががんを有する尤度を出力する、他の方法に従って計算することができる。分類器の1つの例は、混合モデル分類器である。非がんサンプルの分布は、非がんサンプルのがんスコアに従って生成されてよい。二値閾値カットオフは、なんらかのレベルの二値分類の特異度、例えば、真陰性率を確保するように設定されてよい。典型的には、がんを分類する際、高い特異度のカットオフ、例えば、99.4%の特異度またはそれよりも高いものが、使用される。しかしながら、がん分類器を訓練するのに使用される、特異度カットオフをわずかに下回る多数の非がんサンプルは、高い組織シグナルを有することができ、それによって、二値閾値カットオフを正方向にバイアスすることができる。
【0105】
いくつかの実施形態において、ある特定のがんタイプは、がんサブタイプへとさらに分離される。例えば、血液がんタイプは、例えば、循環リンパ系サブタイプ、非ホジキンリンパ腫(NHL)緩慢性サブタイプ、NHL侵攻性サブタイプ、ホジキンリンパ腫(HL)サブタイプ、骨髄系サブタイプ、および形質細胞サブタイプへとさらに分離することができ、これらのすべてが、リンパ系新生物のクラスに属する。
【0106】
実証するために、95%を上回る特異度の非がんサンプルを選択し、次いで、マルチクラスがん分類器に入力して、それぞれのがんタイプまたは起源組織(TOO)の確率を決定した。マルチクラスがん分類器のこの実施形態において使用されるがんタイプまたはTOOラベルとしては、循環リンパ系、骨髄系、NHL緩慢性、結腸直腸、NHL侵攻性、肺、子宮、乳房、前立腺、膵臓および胆嚢、上部消化管、膀胱および尿路上皮、形質細胞、頭頸部、腎臓、卵巣、肉腫、肝臓および胆管、子宮頸、他の組織、HL、肛門直腸、黒色腫、甲状腺が挙げられる。図8におけるグラフは、少なくとも1つの組織タイプに由来する高い組織シグナルを有する多数の非がんサンプルを示す。組織タイプの列におけるそれぞれの点は、95%の特異度の閾値を上回る非がんサンプルの起源組織の尤度に対応する。注目すべきことに、多数の組織タイプは、非がんサンプルにとって典型的ではない、著しい組織寄与を有する複数の非がんサンプルの外れ値を有する。これは、そのような非がんサンプルが、がん様のメチル化、クローナル画分、および/または成長/代謝回転の速度によって作動されているcfDNAシグナルを有する場合に生じる。いずれにせよ、著しい組織寄与を有するこれらの非がんサンプルは、特に、事前に設定された二値分類閾値カットオフをわずかに下回る著しい組織シグナルを有するサンプルでは、二値分類閾値カットオフを上方向にシフトさせ、それによって、がん分類の感度を減少させる。実際に、そのようなシグナル(例えば、循環リンパ系、骨髄系、およびNHL緩慢性に対応する)は、偽陽性決定の主要な誘引因子となる。留意すべきことに、循環リンパ系、骨髄系、NHL緩慢性、結腸直腸、NHL侵攻性、肺、子宮、乳房、前立腺、膵臓および胆嚢、上部消化管、形質細胞、頭頸部、子宮頸、HLは、起源組織の確率が0.1を上回る少なくとも1つの非がんサンプルを有していた。具体的には、循環リンパ系、骨髄系、NHL緩慢性、およびNHL侵攻性(すべて血液学的サブタイプ)は、起源組織の確率が0.5を上回る2つまたはそれを上回るがんサンプルを有していた。
【0107】
図9Aおよび9Bを参照すると、9Aおよび9Bは、メチル化シーケンシングデータに従って分離した血液学的サブタイプのグラフを図示する。図9Aおよび9Bのグラフは、血液学的サブタイプをモデリングする能力を示す。これは、マルチクラスがん分類にさらなる細分性を提供すること(例えば、血液学的サブタイプラベルを用いてさらに分類すること)において、またはがん分類器を訓練する前に高い血液学的サブタイプシグナルを有する非がんサンプルを除外することを通じたがん分類を調整する様式として、有益性を証明することができる。上述のように、メチル化シグナルは、複数のCpG部位をカバーすることができ、それによって、高次元ベクトル空間を作ることができる。示される血液学的サブタイプは、循環リンパ系、固形リンパ系、形質細胞、および骨髄系を含んでよい。固形リンパ系サブタイプは、さらに、HL、NHL緩慢性、およびNHL侵攻性に分割されてよい。
【0108】
図9Aにおいて、分析システムは、t分布型確率的近傍埋込み法を事項する。t分布型確率的近傍埋込み法は、より少ない埋込み数に低減された次元性のベクトル空間(メチル化シーケンシングデータを包含する)を特定する。埋込みは、サンプル間のメチル化シグナルにおける分散の順である。グラフの水平方向軸に「V1」と示される第1の原理の埋込みは、もっとも高い分散を有する。グラフの垂直方向軸に「V2」と示される第3の原理の埋込みは、3番目に高い分散を有する。グラフ上には、それぞれの血液学的サブタイプおよび非がんのサンプルのクラスターが注釈されている。
【0109】
図9Bにおいて、分析システムは、UMAP埋込みを実行する。UMAP埋込みもまた、ベクトル空間の次元性をより少ない埋込み数に低減させる。埋込みは、サンプル間のメチル化シグナルにおける分散の順である。グラフの水平方向軸に「埋込み1」と示される第1の原理の埋込みは、もっとも高い分散を有する。グラフの垂直方向軸に「埋込み2」と示される第2の原理の埋込みは、2番目に高い分散を有する。非がんサンプルは、等高線密度を使用して示される。
【0110】
グラフは、マルチクラスがん分類における血液学的サブタイプの追加、またはがん分類器の調整のために血液学的サブタイプのそれぞれをモデリングことのいずれかために、血液学的サブタイプに従って分類するための能力を示す。
【0111】
III.C.I.高いシグナルの非がんサンプルの除去
1つまたは複数の実施形態において、分析システムは、がん分類器を訓練するのに使用した非がんサンプルを除外することによって、訓練されたがん分類器を調整する。具体的には、分析システムは、がん予測におけるがん分類器の感度を薄める高い組織シグナルを有する非がんサンプルを除外することを探究してよい。
【0112】
図10Aは、1つまたは複数の実施形態による、二値がん分類のための二値閾値カットオフを決定するプロセス1000について説明するフローチャートを図示する。がんと非がんとの間の予測を行うための二値分類は、サンプルのがんスコアを決定された二値閾値カットオフに対して評価し、ここで、二値閾値カットオフを下回るがんスコアを有するサンプルは、非がんと決定され、二値閾値カットオフであるかまたはそれを上回るがんスコアを有するサンプルは、がんと決定される。訓練されたマルチクラスがん分類器は、サンプルのメチル化シグナル(および/または他のシーケンシングデータ)を評価して、マルチクラスがん分類器によって分類された、いくつかのTOOラベルに関する確率を決定する。マルチクラスがん分類器において使用されるTOOラベルは、がん組織タイプまたはがん組織サブタイプ(例えば、上述の血液学的サブタイプ)であってよい。プロセス1000は、分析システムによって実行または達成されてよい。
【0113】
分析システムは、cfDNAフラグメントを含有する複数の生物学的サンプルのシーケンシングデータを受信し1010、この生物学的サンプルは、がんサンプルおよび非がんサンプルを含む。シーケンシングデータは、メチル化シーケンシングデータ、SNPシーケンシングデータ、別のDNAシーケンシングデータ、RNAシーケンシングデータなどとすることができる。
【0114】
それぞれの非がんサンプルについて、分析システムは、シーケンシングから導出された特徴に基づいて、マルチクラスがん分類器を使用して、非がんサンプルを分類し1020、ここで、マルチクラスがん分類器は、複数のTOOラベルのそれぞれに関する確率を予測する。分析システムは、図3Aのステップ320に従って、非がんサンプルの特徴ベクトルを生成することができ、すなわち、考慮されるCpG部位にオーバーラップする少なくとも1つの異常にメチル化されたcfDNAフラグメントに基づいて、そのそれぞれのCpG部位について異常スコアを割り当てる。
【0115】
それぞれの非がんサンプルについて、分析システムは、1つまたは複数のTOOラベルに関して、予測された確率尤度が、TOO閾値を上回るかどうかを決定する1030。TOO閾値の決定は、以下の図10Bにおいてさらに記載されている。
【0116】
分析システムは、がんの存在を予測するための二値閾値カットオフを決定し1040、二値閾値カットオフは、少なくとも1つのTOO閾値を上回る確率尤度を有するとして特定された1つまたは複数の非がんサンプルを除いた非がんサンプルの分布に基づいて決定される。TOOラベルに関して、そのTOOラベルに対応するTOO閾値を上回る少なくとも1つの確率尤度を有する非がんサンプルは、除外される。分析システムは、次いで、それぞれの非がんサンプルのがんスコアに従って非がんサンプルの分布を計算し、次いで、分布から、所望される特異度レベル(例えば、99.4~99.9%の特異度)で二値閾値カットオフを決定する。それぞれのがんスコアが、シーケンシングデータに従って決定されてよいこと、例えば、がんスコアが、図3Aに記載されるように、メチル化シーケンシングデータに基づいてがんの尤度を予測する二値がん分類器によって出力されてよいことが、留意される。他の実施形態において、がんスコアは、少なくともシーケンシングデータ(例えば、メチル化、単一ヌクレオチド多型(SNP)、DNA、RNAなど)を入力し、入力されたシーケンシングデータに基づいてサンプルががんを有する尤度を出力する、他の方法に従って計算することができる。
【0117】
図10Bは、1つまたは複数の実施形態による、二値がん分類のための二値閾値カットオフを決定するためのTOOラベルを閾値処理するプロセス1005について説明するフローチャートを図示する。このプロセス1005は、プロセス1000の実施形態であってよい。がんと非がんとの間の予測を行うための二値分類は、サンプルのがんスコアを決定された二値閾値カットオフに対して評価し、ここで、二値閾値カットオフを下回るがんスコアを有するサンプルは、非がんと決定され、二値閾値カットオフであるかまたはそれを上回るがんスコアを有するサンプルは、がんと決定される。訓練されたマルチクラスがん分類器は、サンプルのメチル化シグナル(および/または他のシーケンシングデータ)を評価して、マルチクラスがん分類器によって分類された、いくつかのTOOラベルに関する確率を決定する。TOOラベルは、がん組織タイプ、またはより具体的にはがん組織サブタイプ(例えば、上述の血液学的サブタイプ)であってよい。プロセス1005は、分析システムによって実行または達成されてよい。
【0118】
分析システムは、がんまたは非がんのラベルを有する、すなわち、それぞれがんサンプルまたは非がんサンプルのいずれかである複数のサンプルを含む、訓練セット、およびがんまたは非がんのラベルを有する、すなわち、それぞれがんサンプルまたは非がんサンプルのいずれかである複数のサンプルを含む、ホールドアウトセットを、取得する1015。訓練セット内のそれぞれのサンプルは、例えば、図1Aのプロセス100に従って生成される、メチル化シーケンシングデータを含む。他の実施形態において、それぞれの訓練サンプルは、メチル化シーケンシングデータとタンデムでまたはその代替として使用される、他のシーケンシングデータを有する。さらに、訓練セットおよびホールドアウトセットに由来するそれぞれのサンプルは、がんスコアを有する。上述のように、がんスコアは、サンプルのメチル化シーケンシングデータを踏まえた、サンプルががんを有する尤度として、二値分類器によって決定することができる。他の実施形態において、がんスコアは、少なくともシーケンシングデータ(例えば、メチル化、単一ヌクレオチド多型(SNP)、DNA、RNAなど)を入力し、入力されたシーケンシングデータに従ってサンプルががんを有する尤度を出力する、他の方法に従って計算される。
【0119】
分析システムは、それぞれの非がん訓練サンプルについて、メチル化シーケンシングデータに基づいて、特徴ベクトルを決定する1025。分析システムは、それぞれの非がん訓練サンプルについて、例えば、考慮されるCpG部位のセット内のそれぞれのCpG部位について異常スコアを決定することについて説明する図3Aのステップ320に類似の様式で、特徴ベクトルを決定することができる。いくつかの実施形態において、分析システムは、異常なフラグメントのセット内にCpG部位を含む異常なフラグメントが存在するかどうかに基づいて、二値スコアを用いて特徴ベクトルの異常スコアを定義する。サンプルについて、すべての異常スコアが決定されると、分析システムは、考慮されているそれぞれのCpG部位と関連する異常スコアのベクトルとして、特徴ベクトルを決定する。分析システムは、さらに、サンプルのカバレッジに基づいて、特徴ベクトルの異常スコアを正規化することができる。
【0120】
分析システムは、それぞれの非がん訓練サンプルの特徴ベクトルをマルチクラスがん分類器に入力して、TOO予測を生成する1035。マルチクラスがん分類器は、がんタイプ、がんサブタイプ、非がん、またはこれらの任意の組合せを含む、複数のTOOラベルで訓練されている。マルチクラスがん分類器は、図3Aのプロセス300に従って訓練されてよい。訓練されたマルチクラス分類器は、がん予測として、TOOラベルに関する複数の確率を決定し、ここで、TOOラベルに関する確率は、TOOラベルに対応するがんを有する尤度を示す。
【0121】
いくつかの例において、分析システムは、TOOラベルに関する確率の範囲にわたって特異度率および感度率を計算する候補TOO閾値として、TOOラベルに関する確率の範囲全体をスイープする1045か、またはそれを反復する。分析システムは、確率の範囲全体を、例えば、0.01、0.02、0.03、0.04、0.05などの増分でスイープすることができる。分析システムが確率の範囲全体をスイープするため、分析システムは、マルチクラスがん分類器の出力に従って、候補TOO閾値であるかまたはそれを上回るTOOラベルの確率を有する非がん訓練サンプルを、フィルタリングする。数値の例として、分析システムは、0.35の候補TOO閾値を考慮する。0.35またはそれを上回るTOOラベルの確率を有する非がん訓練サンプルは、訓練セットからフィルタリング除去される。分析システムは、フィルタリングされた訓練セットに基づいて、調節された二値閾値カットオフを決定する。分析システムは、ホールドアウトセットに対して調節された二値閾値カットオフを用いて予測の特異度率を計算する。特異度は、非がんサンプルを非がんラベルとして特定することの正解率を指す。分析システムはまた、ホールドアウトセットに対して調節された二値閾値カットオフを用いて予測の感度率を計算する。感度は、がんサンプルをがんラベルとして特定することの正解率を指す。実際には、特異度率および/または感度率は、真陽性率、偽陽性率、真陰性率、偽陰性率、別の統計学的計算などに従って定義されてよい。
【0122】
分析システムは、TOOラベルに関してTOO閾値を決定する1055。分析システムは、候補TOO閾値の範囲にわたって計算された特異度率および/または感度率を最適化することによって、候補TOO閾値からTOO閾値を選択する。いくつかの例において、TOO閾値は、ある特定のTOO組織タイプクラスまたはサブタイプクラス、例えば、血液学的クラスについて決定されるか、またはそれ以外では適用される。単なる例として、TOO特異的確率閾値を計算し適用するためのアルゴリズムを使用して、血液障害のシグナルが超過している非がんサンプルを除去することができる。アルゴリズムは、それぞれの事前に指定されたTOOラベルに関して、まず、確率値のグリッド全体を検索すること、およびすべての値について、指定されたTOOラベルと同等またはそれを上回る確率を有する非がんサンプルを除去した後に計算される二値検出閾値を使用して、ホールドアウトセットの臨床的特異度および臨床的感度を評価することを含んでよい。確率グリッド全体で反復することによって、アルゴリズムは、事前に指定されたTOOラベルに関して、ホールドアウトセットの臨床的特異度と臨床的感度との間のトレードオフを最適化するTOO閾値の値の組合せを特定するであろう。最終的な最適化されたTOO確率閾値の値を使用して、所与のTOOラベルの値のうちのいずれかを上回る非がんサンプルがフィルタリングされるであろう。クリーニングされた非がんサンプルのセットを使用して、がん-非がんの検出閾値が計算されるであろう。依然として、いくつかの例においては、TOO特異的閾値処理は、任意の境界点、例えば、所望される特異度レベル(例えば、99.4~99.9%の特異度)に手作業で設定されてよい。
【0123】
分析システムは、二値閾値カットオフを決定する前に、TOO閾値処理を超過する非がん訓練サンプルを除外することによって、二値がん分類を調整する1065。分析システムは、TOOラベルに関して決定されたTOO閾値に従って、訓練セットから非がん訓練サンプルをフィルタリング除去する。分析システムは、フィルタリングされた訓練セットに従って、二値閾値カットオフを設定する。例えば、分析システムは、フィルタリングされたスコア分布に基づいて、新しい二値閾値カットオフを決定する。追加の実施形態において、分析システムは、ステップ1010、1020、1030、および1040に従って、TOOラベルのいずれかについてTOO閾値を決定して、二値がん分類を調整することができる。
【0124】
III.C.II. TOOシグナルに従ったサンプル分布の層別化
1つまたは複数の実施形態において、分析システムは、TOOシグナルに従ってサンプル分布を層別化して、それぞれの層について二値閾値カットオフを決定することによって、がん分類器を調整する。分析システムは、マルチクラスがん分類器によって出力されたTOO予測に従って決定される1つまたは複数のTOOラベルのシグナルに従って、サンプル分布を層別化することができる。
【0125】
ここで図13Aを参照すると、図13Aは、1つまたは複数の実施形態による、血液学的シグナルを2つの層に層別化するためのプロセスを例示する。以下の説明は、血液学的シグナルを用いた層別化について説明しているが、この原理は、他のTOOシグナルに容易に適用することができる。
【0126】
分析システムは、血液学的シグナルに従って、がんサンプルおよび非がんサンプルのホールドアウトセットを、低いシグナルの層1310および高いシグナルの層1320に層別化する1300A。ホールドアウトセットのそれぞれのサンプルは、二値がん分類器によって決定されるがんスコア、およびマルチクラスがん分類器によって決定されるTOO予測を有する。一実施形態において、サンプルの血液学的シグナルは、マルチクラスがん分類器によって出力されるTOO予測に従って決定される。高い組織シグナルは、III.C.がん分類器の調整の節に記載されるように決定されてよい。一実施形態において、1つまたは複数の上位予測(例えば、上位1つ、上位2つなど)を考慮する場合、高い血液学的シグナルは、考慮されている上位予測のうちの少なくとも1つが、血液学的サブタイプ(例えば、リンパ系新生物サブタイプおよび骨髄系新生物サブタイプ)のものである場合に、決定される。他の血液学的サブタイプが、含まれてもよい。このように、サンプルが、上位予測のうちの少なくとも1つがリンパ系新生物サブタイプまたは骨髄系新生物サブタイプと考えられているTOO予測を有する場合、サンプルは、高い血液学的シグナルを有すると決定される。そうでなければ、サンプルは、高い血液学的シグナルを有さないと決定される。
【0127】
分析システムは、それぞれの層について、サンプルのがんの存在または不在を予測するための二値閾値カットオフを決定する。低いシグナルの層1310内のサンプルは、低いシグナルの層1310内のサンプルにおけるがんの不在または存在を予測するための二値閾値カットオフを決定する1305ために、分析システムによって使用される。二値閾値カットオフは、低いシグナルの層1310の偽陽性バジェットセットに従って決定される1305。低いシグナルの層1310におけるサンプルのがんスコアを用いて、分析システムは、候補二値閾値カットオフ範囲全体をスイープし、それぞれの候補二値閾値カットオフにおける真陽性率(感度とも称される)および偽陽性率を評価する。偽陽性バジェット以内でもっとも近い偽陽性率を有する候補二値閾値カットオフが、候補二値閾値カットオフであると決定される。分析システムは、高いシグナルの層1320について、二値閾値カットオフを決定する1315ために同様の操作を実行する。低いシグナルの層1310の偽陽性バジェットおよび高いシグナルの層1320の偽陽性バジェットは、層の統計学的真陽性率の比に従って設定されてよい。この比は、高いシグナルの層1320において偽陽性率を抑制することを目的とする。
【0128】
試験サンプルについて、分析システムは、試験サンプルを、血液学的シグナルに従って、低いシグナルの層1310または高いシグナルの層1320のいずれかに配置する。試験サンプルが低いシグナルの層1310に配置される場合、分析システムは、試験サンプルのがんスコアに、低いシグナルの層1310の二値閾値カットオフ1315を適用する。がんスコアが、低いシグナルの層1310の二値閾値カットオフを上回るかまたはそれに等しい場合、分析システムは、試験サンプルにおけるがんの存在の予測を返却し、そうでなければ、がんがないという予測を返却する。試験サンプルが高いシグナルの層1320に配置される場合、低いシグナルの層1320の二値閾値カットオフが、試験サンプルのがんスコアに適用される1325。がんスコアが、高いシグナルの層1320の二値閾値カットオフを上回るかまたはそれに等しい場合、分析システムは、試験サンプルにおけるがんの存在の予測を返却し、そうでなければ、がんがないという予測を返却する。
【0129】
図13Bは、1つまたは複数の実施形態による、血液学的シグナルを3つの層に層別化するためのプロセスを例示する。以下の説明は、血液学的シグナルを用いた層別化について説明しているが、この原理は、他のTOOシグナルに容易に適用することができる。この原理はまた、3つを上回る数の層への層別化にも容易に拡張することができる。
【0130】
分析システムは、血液学的シグナルに従ってがんサンプルおよび非がんサンプルのホールドアウトセットを、低いシグナルの層1330、中等度のシグナルの層1340、および高いシグナルの層1350の3つの層に層別化する。ホールドアウトセットのそれぞれのサンプルは、二値がん分類器によって決定されるがんスコア、およびマルチクラスがん分類器によって決定されるTOO予測を有する。1つまたは複数の実施形態において、血液学的TOOラベルは、複数の血液学的サブタイプを含む。1つまたは複数の侵攻性の血液学的サブタイプにおいて高い組織シグナルを有するホールドアウトセットの任意のサンプルは、高いシグナルの層1350に配置される。1つまたは複数の緩慢性の血液学的サブタイプにおいて高い組織シグナルを有するホールドアウトセットの任意のサンプル(まだ高いシグナルの層1350に分類されていないもの)は、中等度のシグナルの層1340に配置される。高いシグナルの層1350にも中等度のシグナルの層1340にも分類されていないサンプルは、低いシグナルの層1330に配置される。図13Aに記載される原理に従って、分析システムは、それぞれの層の偽陽性バジェットに基づいて、それぞれの層について二値閾値カットオフを決定し、低いシグナルの層1330の二値閾値カットオフが決定され1335、中等度のシグナルの層1340の二値閾値カットオフが決定され1345、高いシグナルの層1350の二値閾値カットオフが決定される1355。図13Aと同様に、試験サンプルについて、分析システムは、試験サンプルを配置する層を特定し、その層の二値閾値カットオフを適用して、試験サンプルにおけるがんの存在または不在を予測する。
【0131】
図13Cは、1つまたは複数の実施形態による、まず血液学的シグナルを層別化し、続いて結腸直腸シグナルを層別化するためのプロセスを図示する。以下の説明は、血液学的シグナルを用い、続いて結腸直腸シグナルを用いた層別化について説明しているが、この原理は、TOOシグナルの他の組合せに容易に適用することができる。
【0132】
分析システムは、血液学的シグナル1300Cに従って、および続いて結腸直腸シグナル1370に従って、がんサンプルおよび非がんサンプルのホールドアウトセットを層別化する。ホールドアウトセットのそれぞれのサンプルは、二値がん分類器によって決定されるがんスコア、およびマルチクラスがん分類器によって決定されるTOO予測を有する。図13Aにおいて上述されている原理と同様に、高い血液学的シグナルを有するホールドアウトセットの任意のサンプルは、高いシグナルの層1360に配置される。残りのサンプルは、続いて、結腸直腸シグナルに従って層別化される1370。血液学的層別化に類似して、高い結腸直腸シグナルを有する任意のサンプルは、高い結腸直腸シグナルの層1380に配置される。高い血液学的シグナルの層1360にも高い結腸直腸シグナルの層1380にも配置されていないサンプルは、低いシグナルの層1390にグループ分けされる。この実施形態において、血液学的シグナルは、結腸直腸シグナルよりも高い優先度である。1つまたは複数の実施形態において、複数のTOOシグナルは、優先度順に連続的に評価されてよい。そのため、高い血液学的シグナルおよび高い結腸直腸シグナルの両方を有するサンプルは、血液学的シグナルが結腸直腸シグナルよりも高い優先度であるため、高い結腸直腸の層1380ではなく高い血液学の層1360に配置されるであろう。図13Aに記載される原理に従って、分析システムは、それぞれの層の偽陽性バジェットに基づいて、それぞれの層について二値閾値カットオフを決定する。高い血液学的シグナルの層1360の二値閾値カットオフが決定され1365、高い結腸直腸シグナルの層1380の二値閾値カットオフが決定され1385、低いシグナルの層1390の二値閾値カットオフが決定される1395。図13Aと同様に、試験サンプルについて、分析システムは、試験サンプルを配置する層を特定し、その層の二値閾値カットオフを適用して、試験サンプルにおけるがんの存在または不在を予測する。
【0133】
図14は、1つまたは複数の実施形態による、TOO層別化のための二値閾値カットオフを決定するプロセス1400を例示する。プロセス1400は、分析システムによって実行されるものとして記載されているが、プロセス1400は、より一般的には、任意のコンピューティングシステムによって実行されてよい。
【0134】
分析システムは、がんもしくは非がんとして分類されたか、またはがんもしくは非がんのラベルを有する複数のサンプルを含むホールドアウトセットを取得する1410。ホールドアウトセットのそれぞれのサンプルには、例えば、サンプルががんに対応する尤度を表すがんスコア(例えば、二値がん分類器によって決定される)、および例えば、サンプルが特定の組織タイプのがんに対応する尤度を表すTOO予測(例えば、マルチクラスがん分類器によって決定される)が付随する。
【0135】
分析システムは、ホールドアウトセットを、TOO予測に基づいて、第1のTOOラベルに関して、高いシグナルの第1の層および低いシグナルの第2の層に層別化する1420。1つの例において、層別化は、予測値閾値を使用する。TOO予測において第1のTOOラベルに関する予測値が予測値閾値であるかまたはそれを上回る任意のサンプルは、第1のTOOラベルに関して高いシグナルとして分類される。それ以外の場合には、サンプルは、第1のTOOラベルに関して、低いシグナルとして分類される。別の例において、分析システムは、それぞれのサンプルのTOO予測において、1つまたは複数の上位予測を考慮する。第1のTOOラベルが考慮されている上位予測のうちの少なくとも1つにある任意のサンプルは、第1のTOOラベルに関して高いシグナルとして分類される。それ以外の場合には、サンプルは、第1のTOOラベルに関して、低いシグナルとして分類される。
【0136】
1つまたは複数の実施形態において、分析システムは、さらに、第1のTOOラベルに関して、中等度のシグナルの第3の層に層別化する。シグナルが予測値に従って層別化される実施形態において、予測値の範囲は、高いシグナル、中等度のシグナル、および低いシグナルを決定する3つの部分にセグメント分けされてよい。
【0137】
1つまたは複数の実施形態において、分析システムは、さらに、1つまたは複数の層を、1つまたは複数の追加のTOOラベルに関する組織シグナルに従って、追加の層に層別化する。追加のTOOラベルは、層別化において、第1のTOOラベルよりも低い優先度であってもよい。
【0138】
分析システムは、それぞれの層について、複数の候補二値閾値カットオフで、がんスコアのドメイン全体をスイープし1440、それぞれの候補二値閾値カットオフの真陽性率および偽陽性率を計算する。真陽性率を、偽陽性率に対してプロットして、受信者操作者特性(ROC)曲線を生成することができる。
【0139】
分析システムは、それぞれの層について、偽陽性バジェットに基づいて、二値閾値カットオフを決定する1440。偽陽性バジェットは、層の統計学的真陽性率の比に従って、それぞれの層に割り当られてよい。
【0140】
図15は、1つまたは複数の実施形態による、TOO層別化によって決定された二値閾値カットオフを使用して、試験サンプルについて、がんの存在またはがんの不在を予測するプロセス1500について説明するフローチャートを図示する。プロセス1500は、分析システムによって実行されるものとして記載されているが、プロセス1500は、より一般的には、任意のコンピューティングシステムによって達成されてよい。
【0141】
分析システムは、がんの存在が不明の試験サンプルを取得する1510。試験サンプルには、例えば、二値がん分類器によって決定されるがんスコア、および例えば、マルチクラスがん分類器によって決定されるTOO予測が付随する。
【0142】
分析システムは、試験サンプルを、TOO予測に基づいて、第1のTOOラベルに関して、高いシグナルの第1の層または低いシグナルの第2の層に層別化する1520。配置(または分類)は、上述されている(例えば、プロセス1400のステップ1420における層別化に関して)。
【0143】
分析システムは、がんスコアを、試験サンプルが配置された層の二値閾値カットオフに対して比較することによって、試験サンプルが、がんの存在を有するかまたは不在を有するかを予測する1530。例えば、試験サンプルが、第1のTOOラベルに関して高いシグナルを有し、高いシグナルの第1の層に配置された場合、分析システムは、試験サンプルのがんスコアに、高いシグナルの第1の層に関して決定された二値閾値カットオフを適用する。あるいは、試験サンプルが、低いシグナルの第2の層に配置された場合、第2の層に関して決定された二値閾値カットオフが使用される。試験サンプルのがんスコアが、使用される二値閾値カットオフであるかまたはそれを上回る場合、試験サンプルは、がんの存在を有すると予測される。それ以外の場合には、試験サンプルは、がんの不在が予測される。
【0144】
III.D.がん分類器の展開
がん分類器の使用中に、分析システムは、不明ながんタイプの対象から得られた試験サンプルを取得する。分析システムは、プロセス100、200、および220の任意の組合せを用いてDNA分子から構成される試験サンプルを処理して、異常なフラグメントのセットを達成する。分析システムは、プロセス300において考察される類似の原理に従って、がん分類器によって使用するための試験特徴ベクトルを決定する。分析システムは、がん分類器によって使用されている複数のCpG部位内のそれぞれのCpG部位について、異常スコアを計算する。例えば、がん分類器は、1,000個の選択されたCpG部位の異常スコアを含む特徴ベクトルを、入力として受信する。分析システムは、したがって、異常なフラグメントのセットに基づいて、1,000個の選択されたCpG部位の異常スコアを含む試験特徴ベクトルを決定する。分析システムは、訓練サンプルと同じ様式で、異常スコアを計算する。一実施形態において、分析システムは、異常なフラグメントのセット内にCpG部位を含む過剰メチル化または過少メチル化されたフラグメントが存在するかどうかに基づいて、異常スコアを二値スコアとして定義する。
【0145】
分析システムは、次いで、試験特徴ベクトルを、がん分類器に入力する。がん分類器の関数により、次いで、プロセス300において訓練された分類パラメーターおよび試験特徴ベクトルに基づいて、がん予測が生成される。第1の様式において、がん予測は、二値であり、「がん」または「非がん」からなる群から選択され、第2の様式において、がん予測は、多数のがんタイプおよび「非がん」の群から選択される。追加の実施形態において、がん予測は、多数のがんタイプのそれぞれに関する予測値を有する。さらに、分析システムは、試験サンプルが、がんタイプのうちの1つのものである可能性が高いと決定してよい。試験サンプルについて、乳がんの尤度65%、肺がんの尤度25%、および非がんの尤度10%としてのがん予測を有する上述の例を続けると、分析システムは、試験サンプルが乳がんを有する可能性がもっとも高いと決定してよい。別の例において、がん予測が、非がんの尤度60%およびがんの尤度40%として二値である場合、分析システムは、試験サンプルががんを有さない可能性がもっとも高いと決定する。追加の実施形態において、もっとも高い尤度を有するがん予測は、試験対象をそのがんタイプを有すると称するために、依然として、閾値(例えば、40%、50%、60%、70%)と比較されてよい。もっとも高い尤度を有するがん予測が、その閾値を上回らない場合、分析システムは、確定的ではない結果を返却してよい。
【0146】
追加の実施形態において、分析システムは、プロセス300のステップ360において訓練されたがん分類器を、ステップ370またはプロセス300において訓練された別のがん分類器と連鎖させる。分析システムは、特徴ベクトルを、プロセス300のステップ360において二値分類器として訓練されたがん分類器に入力する。分析システムは、がん予測の出力を受信する。がん予測は、試験対象ががんを有する可能性が高いかまたはがんを有さない可能性が高いかに関して、二値であってよい。他の実装において、がん予測は、がんの尤度および非がんの尤度を説明する予測値を含む。例えば、がん予測は、がんの予測値85%および非がんの予測値15%を有する。分析システムは、試験対象ががんを有する可能性が高いと決定してよい。分析システムが、試験対象ががんを有する可能性が高いことを決定すると、分析システムは、試験特徴ベクトルを、異なるがんタイプ間の区別を行うように訓練されたマルチクラスがん分類器に入力してよい。マルチクラスがん分類器は、試験特徴ベクトルを受信し、複数のがんタイプのうちの1つのがんタイプのがん予測を返却する。例えば、マルチクラスがん分類器は、試験対象が卵巣がんを有する可能性がもっとも高いことを示すがん予測を提供する。別の実装において、マルチクラスがん分類器は、複数のがんタイプのそれぞれのがんタイプについて、予測値を提供する。例えば、がん予測は、乳がんタイプの予測値40%、結腸直腸がんタイプの予測値15%、および肝臓がんタイプの予測値45%を含んでよい。
【0147】
二値がん分類の一般化された実施形態に従って、分析システムは、試験サンプルのシーケンシングデータ(例えば、メチル化シーケンシングデータ、SNPシーケンシングデータ、他のDNAシーケンシングデータ、RNAシーケンシングデータなど)に基づいて、試験サンプルのがんスコアを決定する。分析システムは、試験サンプルががんを有する可能性が高いかどうかを予測するために、試験サンプルのがんスコアを、二値閾値カットオフに対して比較する。二値閾値カットオフは、1つまたは複数のTOOサブタイプクラスに基づいて、TOO閾値処理を使用して調整されてよい。分析システムは、さらに、1つまたは複数の可能性のあるがんタイプを示すがん予測を決定するために、マルチクラスがん分類器において使用するための試験サンプルの特徴ベクトルを生成してよい。
【0148】
IV.適用
いくつかの実施形態において、本発明の方法、分析システム、および/または分類器は、がんの存在を検出するため、がんの進行もしくは再発をモニタリングするため、治療の応答もしくは有効性をモニタリングするため、最小残存疾患(MRD)の存在を決定するかもしくはそれをモニタリングするため、またはこれらの任意の組合せのために、使用されてよい。例えば、本明細書に記載されるように、分類器は、試験特徴ベクトルが、がんを有する対象に由来する尤度について説明する確率スコア(例えば、0から100まで)を生成するために使用されてよい。いくつかの実施形態において、確率スコアは、対象ががんを有するかどうかを決定するために、閾値確率と比較される。他の実施形態において、尤度または確率スコアは、疾患の進行をモニタリングするため、または処置の有効性(例えば、治療効果)をモニタリングするために、複数の異なる時点(例えば、処置の前または後)において評価されてよい。なおも他の実施形態において、尤度または確率スコアは、臨床決定(例えば、がんの診断、処置の選択、処置の有効性の評価など)を行うためまたはそれに影響を及ぼすために使用されてよい。例えば、一実施形態において、確率スコアが閾値を上回る場合、医師は、適切な処置を処方することができる。
【0149】
IV.A.がんの早期検出
いくつかの実施形態において、本発明の方法および/または分類器は、がんを有することが疑われる対象において、がんの存在または不在を検出するために使用される。例えば、分類器(例えば、節IIIにおいて上述されており、節Vにおいて例示されている)を使用して、試験特徴ベクトルががんを有する対象に由来する尤度について説明するがん予測を決定することができる。
【0150】
一実施形態において、がん予測は、試験サンプルががんを有するかどうか(すなわち、二値分類)の尤度(例えば、0から100のスコア付け)である。したがって、分析システムは、試験対象ががんを有するかどうかを決定するための閾値を決定してよい。例えば、60またはそれを上回るがん予測は、対象ががんを有することを示すことができる。なおも他の実施形態において、65もしくはそれを上回る、70もしくはそれを上回る、75もしくはそれを上回る、80もしくはそれを上回る、85もしくはそれを上回る、90もしくはそれを上回る、または95もしくはそれを上回るがん予測は、対象ががんを有することを示す。他の実施形態において、がん予測は、疾患の重症度を示すことができる。例えば、80のがん予測は、80を下回るがん予測(例えば、70の確率スコア)と比較して、より重度の形態またはより後期のステージのがんを示すことができる。同様に、がん予測の経時的な増加(例えば、2つまたはそれを上回る時点で取得された同じ対象から得られた複数のサンプルに由来する試験特徴ベクトルを分類することによって決定される)は、疾患の進行を示すことができるか、またはがん予測の経時的な減少は、処置の成功を示すことができる。
【0151】
別の実施形態において、がん予測は、多数の予測値を含み、ここで、分類されている(すなわち、マルチクラス分類)複数のがんタイプのそれぞれは、予測値(例えば、0から100でスコア付けされる)を有する。予測値は、所与の訓練サンプル(および推定の間には、訓練サンプル)ががんタイプのそれぞれを有する尤度に対応してよい。分析システムは、もっとも高い予測値を有するがんタイプを特定でき、試験対象がそのがんタイプを有する可能性が高いことを示してよい。他の実施形態において、分析システムは、さらに、もっとも高い予測値を、閾値(例えば、50、55、60、65、70、75、80、85など)と比較して、試験対象がそのがんタイプを有する可能性が高いことを決定する。他の実施形態において、予測値はまた、疾患の重症度も示すことができる。例えば、80を上回る予測値は、60の予測値と比較して、より重度の形態またはより後期のステージのがんを示してよい。同様に、予測値の経時的な増加(例えば、2つまたはそれを上回る時点で取得された同じ対象から得られた複数のサンプルに由来する試験特徴ベクトルを分類することによって決定される)は、疾患の進行を示すことができ、または予測値の経時的な減少は、処置の成功を示すことができる。
【0152】
本発明の態様によると、本発明の方法およびシステムは、複数のがん適応症を検出または分類するように訓練することができる。例えば、本発明の方法、システム、および分類器を使用して、1つもしくは複数、2つもしくはそれを上回る、3つもしくはそれを上回る、5つもしくはそれを上回る、10個もしくはそれを上回る、15個もしくはそれを上回る、または20個もしくはそれを上回る異なるタイプのがんの存在を検出することができる。
【0153】
本発明の方法、システム、および分類器を使用して検出することができるがんの例としては、癌腫、リンパ腫、芽細胞腫、肉腫、および白血病またはリンパ系悪性腫瘍が挙げられる。そのようながんのより具体的な例としては、扁平上皮細胞がん(例えば、上皮扁平細胞がん)、皮膚癌、黒色腫、小細胞肺がん、非小細胞肺がん(「NSCLC」)、肺の腺癌、および肺の扁平上皮細胞癌を含む、肺がん、腹膜のがん、消化器がんを含む胃がんまたは胃がん(gastric or stomach cancer)、膵臓がん(例えば、膵管腺癌)、子宮頸がん、卵巣がん(例えば、高悪性度漿液性卵巣癌)、肝臓がん(例えば、肝細胞癌(HCC))、ヘパトーマ、肝臓癌、膀胱がん(例えば、尿路上皮膀胱がん)、精巣(生殖細胞腫瘍)がん、乳がん(例えば、HER2陽性、HER2陰性、およびトリプルネガティブ乳がん)、脳がん(例えば、星状細胞腫、神経膠腫(例えば、神経膠芽腫))、結腸がん、直腸がん、結腸直腸がん、子宮内膜癌または子宮癌、唾液腺癌、腎臓(kidney)または腎臓(renal)がん(例えば、腎臓細胞癌、腎芽細胞腫、またはウイルムス腫瘍)、前立腺がん、外陰部がん、甲状腺がん、肛門癌、陰茎癌、頭頸部がん、食道癌、ならびに上咽頭癌(NPC)が挙げられるが、これらに限定されない。がんの追加の例としては、限定することなく、網膜芽細胞腫、莢膜細胞腫、男性化細胞腫、非ホジキンリンパ腫(NHL)、多発性骨髄腫、および急性血液学的悪性腫瘍を含むがこれらに限定されない血液学的悪性腫瘍、子宮内膜症、線維肉腫、絨毛腫、喉頭癌、カポジ肉腫、神経鞘腫、乏突起神経膠腫、神経芽細胞腫、横紋筋肉腫、骨原性肉腫、平滑筋肉腫、ならびに尿路癌が挙げられる。
【0154】
いくつかの実施形態において、がんは、肛門直腸がん、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、食道がん、胃がん、頭頸部がん、肝胆道系がん、白血病、肺がん、リンパ腫、黒色腫、多発性骨髄腫、卵巣がん、膵臓がん、前立腺がん、腎臓がん、甲状腺がん、子宮がん、またはこれらの任意の組合せのうちの1つまたは複数である。
【0155】
いくつかの実施形態において、1つまたは複数のがんは、「高いシグナル」のがん(5年のがん特異的死亡率が50%を上回るがんとして定義される)、例えば、肛門直腸、結腸直腸、食道、頭頸部、肝胆道系、肺、卵巣、および膵臓のがん、ならびにリンパ腫および多発性骨髄腫とすることができる。高いシグナルのがんは、より侵攻性である傾向にあり、典型的には、患者から得られた試験サンプルにおける無細胞核酸濃度が平均を上回る。
【0156】
IV.B.がんおよび処置のモニタリング
いくつかの実施形態において、がん予測は、疾患の進行をモニタリングするため、または処置の有効性(例えば、治療効果)をモニタリングするために、複数の異なる時点(例えば、処置の前または後)において評価されてよい。例えば、本発明は、第1の時点においてがん患者から第1のサンプル(例えば、第1の血漿cfDNAサンプル)を取得するステップ、そこから第1のがん予測を決定するステップ(本明細書に記載される)、第2の時点においてがん患者から第2の試験サンプル(例えば、第2の血漿cfDNAサンプル)を取得するステップ、およびそこから第2のがん予測を決定するステップ(本明細書に記載される)を含む、方法を含む。
【0157】
ある特定の実施形態において、第1の時点は、がん処置の前(例えば、切除外科手術または治療介入の前)であり、第2の時点は、がん処置の後(例えば、切除外科手術または治療介入の後)であり、分類器は、処置の有効性をモニタリングするために利用される。例えば、第2のがん予測が、第1のがん予測と比較して減少した場合、処置は、成功していると考えられる。しかしながら、第2のがん予測が、第1のがん予測と比較して増加した場合、処置は、成功していないと考えられる。他の実施形態において、第1および第2の時点の両方が、がん処置の前(例えば、切除外科手術または治療介入の前)である。なおも他の実施形態において、第1および第2の時点の両方が、がん処置の後(例えば、切除外科手術または治療介入の後)である。なおも他の実施形態において、cfDNAサンプルは、第1および第2の時点においてがん患者から取得してよく、例えば、がんの進行をモニタリングするため、がんが寛解状態にあるかを決定するため(例えば、処置の後)、残留疾患もしくは疾患の再発をモニタリングもしくは検出するため、または処置(例えば、治療)の有効性をモニタリングするために、分析されてよい。
【0158】
当業者であれば、試験サンプルが、任意の所望される時点のセットにわたって、がん患者から取得でき、患者におけるがんの状態をモニタリングするために、本発明の方法に従って分析されてよいことを容易に理解するであろう。いくつかの実施形態において、第1および第2の時点は、約15分間から最大で約30年間の範囲で、例えば、約30分間、例えば、約1時間、2時間、3時間、4時間、5時間、6時間、7時間、8時間、9時間、10時間、11時間、12時間、13時間、14時間、15時間、16時間、17時間、18時間、19時間、20時間、21時間、22時間、23時間、もしくは約24時間、例えば、約1日間、2日間、3日間、4日間、5日間、10日間、15日間、20日間、25日間、もしくは約30日間、または例えば約1ヶ月間、2ヶ月間、3ヶ月間、4ヶ月間、5ヶ月間、6ヶ月間、7ヶ月間、8ヶ月間、9ヶ月間、10ヶ月間、11ヶ月間、もしくは12ヶ月間、または例えば約1年間、1.5年間、2年間、2.5年間、3年間、3.5年間、4年間、4.5年間、5年間、5.5年間、6年間、6.5年間、7年間、7.5年間、8年間、8.5年間、9年間、9.5年間、10年間、10.5年間、11年間、11.5年間、12年間、12.5年間、13年間、13.5年間、14年間、14.5年間、15年間、15.5年間、16年間、16.5年間、17年間、17.5年間、18年間、18.5年間、19年間、19.5年間、20年間、20.5年間、21年間、21.5年間、22年間、22.5年間、23年間、23.5年間、24年間、24.5年間、25年間、25.5年間、26年間、26.5年間、27年間、27.5年間、28年間、28.5年間、29年間、29.5年間、もしくは約30年間、離れていてもよい。他の実施形態において、試験サンプルは、少なくとも3ヶ月ごとに1回、少なくとも6ヶ月ごとに1回、少なくとも1年ごとに1回、少なくとも2年ごとに1回、少なくとも3年ごとに1回、少なくとも4年ごとに1回、または少なくとも5年ごとに1回、患者から取得できる。
【0159】
IV.C.処置
なおも別の実施形態において、がん予測は、臨床決定(例えば、がんの診断、処置の選択、処置の有効性の評価など)を行うためまたはそれに影響を及ぼすために使用されてよい。例えば、一実施形態において、がん予測(例えば、がんについて、または特定のがんタイプについて)が、閾値を上回る場合、医師は、適切な処置(例えば、切除外科手術、放射線療法、化学療法、および/または免疫療法)を処方することができる。
【0160】
分類器(本明細書に記載される)を使用して、サンプルの特徴ベクトルががんを有する対象に由来するがん予測を決定することができる。一実施形態において、適切な処置(例えば、切除外科手術または治療)は、がん予測が閾値を上回る場合に処方される。例えば、一実施形態において、がん予測が、60またはそれを上回る場合、1つまたは複数の適切な処置が処方される。別の実施形態において、がん予測が、65もしくはそれを上回る、70もしくはそれを上回る、75もしくはそれを上回る、80もしくはそれを上回る、85もしくはそれを上回る、90もしくはそれを上回る、または95もしくはそれを上回る場合、1つまたは複数の適切な処置が処方される。他の実施形態において、がん予測は、疾患の重症度を示してよい。疾患の重症度に適合した適切な処置が、次いで、処方されてよい。
【0161】
いくつかの実施形態において、処置は、化学療法剤、標的化がん療法剤、分化療法剤、ホルモン療法剤、および免疫療法剤からなる群から選択される1つまたは複数のがん治療剤である。例えば、処置は、アルキル化剤、抗代謝剤、アントラサイクリン、抗腫瘍抗生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、有糸分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、ヌクレオチドアナログ、白金系薬剤、およびこれらの任意の組合せからなる群から選択される、1つまたは複数の化学療法剤であってよい。いくつかの実施形態において、処置は、シグナル伝達阻害剤(例えば、チロシンキナーゼおよび成長因子受容体阻害剤)、ヒストンデアセチラーゼ(HDAC)阻害剤、レチノイン酸受容体アゴニスト、プロテオソーム阻害剤、血管新生阻害剤、およびモノクローナル抗体コンジュゲートからなる群から選択される、1つまたは複数の標的化がん療法剤である。いくつかの実施形態において、処置は、レチノイド、例えば、トレチノイン、アリトレチノイン、およびベキサロテンを含む、1つまたは複数の分化療法剤である。いくつかの実施形態において、処置は、抗エストロゲン剤、アロマターゼ阻害剤、プロゲスチン、エストロゲン、抗アンドロゲン剤、およびGnRHアゴニストまたはアナログからなる群から選択される、1つまたは複数のホルモン療法剤である。一実施形態において、処置は、モノクローナル抗体療法、例えば、リツキシマブ(RITUXAN)およびアレムツズマブ(CAMPATH)、非特異的免疫療法剤およびアジュバント、例えば、BCG、インターロイキン-2(IL-2)、およびインターフェロン-アルファ、免疫調節薬、例えば、サリドマイドおよびレナリドマイド(REVLIMID)を含む群から選択される、1つまたは複数の免疫療法剤である。特徴、例えば、腫瘍のタイプ、がんのステージ、がん処置または治療剤へのこれまでの曝露、およびがんの他の特徴に基づいて、適切ながん治療剤を選択することは、熟練した医師または腫瘍学者の能力の範囲内である。
【0162】
V.がん分類器の例示的な結果
V.A.サンプルの収集および処理
研究設計およびサンプル:CCGA(NCT02889978)は、前向きの、多施設における、症例管理の、縦断的追跡を伴う観察研究である。特定が解除された生体標本を、142箇所からのおよそ15,000人の参加者から採取した。サンプルを、訓練(1,785個)および試験(1,015個)のセットに分割し、サンプルは、それぞれのコホートにおいて場所全体でがんタイプおよび非がんの事前指定された分布を確保するように選択し、がんサンプルおよび非がんサンプルは、多くの場合、性別ごとに年齢を一致させた。
【0163】
全ゲノムバイサルファイトシーケンシング:cfDNAを、血漿から単離し、全ゲノムバイサルファイトシーケンシング(WGBS、深度30×)を、cfDNAの分析に利用した。cfDNAを、改変されたQIAamp Circulating Nucleic Acidキット(Qiagen、Germantown、MD)を使用して、患者ごとに2つのチューブの血漿から抽出した(最大で、合計体積10ml)。最大75ngの血漿cfDNAを、EZ-96 DNAメチル化キット(Zymo Research、D5003)を使用して、バイサルファイト変換に供した。変換されたcfDNAを使用し、Accel-NGS Methyl-Seq DNAライブラリー調製キット(Swift BioSciences、Ann Arbor、MI)を使用して、二重インデックスしたシーケンシングライブラリーを調製し、構築したライブラリーを、Illumina Platforms用KAPA Library Quantification Kit(Kapa Biosystems、Wilmington、MA)を使用して、定量した。4つのライブラリーを、10% PhiX v3ライブラリー(Illumina、FC-110-3001)とともにプールし、Illumina NovaSeq 6000 S2フローセルでクラスター化させ、続いて、150bpのペアエンドシーケンシング(30×)を行った。
【0164】
それぞれのサンプルについて、WGBSフラグメントセットを、異常なメチル化パターンを有するより小さなフラグメントのサブセットに低減させた。加えて、過剰または過少メチル化されたcfDNAフラグメントを選択した。異常なメチル化パターンを有し、過剰または過少メチル化されている、すなわち、UFXMである、cfDNAフラグメントを選択した。がんを有さない個体において高頻度で発生するフラグメント、または不安定なメチル化を有するものは、がんステータスの分類のための高度に区別可能な特徴をもたらす可能性が低い。本発明者らは、したがって、CCGA研究から108人のがんを有さない非喫煙者の参加者(年齢:58±14歳、79人[73%]が女性)の独立した参照セット(すなわち、参照ゲノム)を使用して、典型的なフラグメントの統計学的モデルおよびデータ構造を生成した。これらのサンプルを使用して、節II.Bにおいて上述されているように、フラグメント内の所与の配列のCpGメチル化のステータスの尤度を推定するマルコフ連鎖モデル(次数3)を訓練した。このモデルは、正常なフラグメントの範囲内(p値>0.001)でキャリブレーションされることが示されており、これを使用して、マルコフモデルから得られたp値が0.001以上であるフラグメントを、異常性が不十分であるとして拒絶した。
【0165】
上述のように、さらなるデータ削減ステップにより、少なくとも5つのCpGがカバーされ、平均メチル化が0.9を上回る(過剰メチル化されている)かまたは0.1を下回る(過少メチル化されている)フラグメントのみを選択した。この手順により、訓練中のがんを有さない参加者については中央値(範囲)2,800(1,500~12,000)個のUFXMフラグメントが得られ、訓練中のがんを有する参加者については、中央値(範囲)3,000(1,200~220,000)個のUFXMフラグメントが得られた。このデータ削減手順は、参照セットのデータを使用しただけであったため、このステージは、それぞれのサンプルへの適用を1回しか必要としなかった。
【0166】
V.B.起源組織がん分類
図5~7、11、12A、12B、16A、16B、17、および18は、実施形態による、様々な訓練されたがん分類器のがん予測の正解率を示す多数のグラフを図示する。図5~7、11、12A、12B、16A、16B、17、および18に示される結果を得るために使用したがん分類器は、図3Aにおいて上述のプロセス300の例示的な実装に従って訓練されている。
【0167】
分析システムは、がん分類器において考慮しようとするCpG部位を選択する。情報利得は、所与のがんタイプを有する訓練サンプルについて、すべての他のサンプルと比較して、計算される。例えば、「異常なフラグメント」(「AF」)および「がんタイプ」(「CT」)の2つのランダム変数が使用される。CTは、がんが特定のタイプのものであるかどうかを示すランダム変数である。分析システムは、AFを踏まえてCTに関する相互情報量を計算する。すなわち、特定のCpG部位にオーバーラップする異常なフラグメントが存在するかどうかが判明している場合に利得されるがんタイプに関する情報ビットの数である。所与のがんタイプについて、分析システムは、この情報を使用して、CpG部位がどの程度がん特異的であるかに基づいてCpG部位を順位付けする。この手順を、考慮しているすべてのがんタイプについて反復する。それぞれのがんタイプについて順位付けされたCpG部位は、がん分類器に置いてしようするために貪欲に追加される(例えば、およそ3,000個のCpG部位を達成するために)。
【0168】
サンプルの特徴決定のために、分析システムは、それぞれのサンプルにおいて、異常なメチル化パターンを有するフラグメント、およびさらにはUFXMフラグメントを特定する。1つのサンプルについて、分析システムは、それぞれの考慮に選択されたCpG部位(約3,000個)について、異常スコアを計算する。分析システムは、サンプルがCpG部位を包含するUFXMフラグメントを有するかどうかに基づいて、二値スコア付けを用いて異常スコアを定義する。
【0169】
図5は、例示的な実装による、様々ながんタイプのためのマルチクラスがん分類器のがん予測正解率を示す多数のグラフを図示する。この図示した例において、マルチクラスがん分類器は、11種類のがんタイプに応じて特徴ベクトルを区別するように訓練されている:乳がんタイプ、結腸直腸がんタイプ、食道がんタイプ、頭/頸部がんタイプ、肝胆道系がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、非がんタイプ、および他のがんタイプ。この例において使用されるサンプルは、がんタイプのそれぞれを有することが判明している対象に由来していた。例えば、乳がんタイプサンプルのコホートを使用して、乳がんタイプをコールすることにおけるがん分類器の正解率を検証した。さらに、使用したサンプルは、がんの様々なステージにある対象に由来する。
【0170】
乳がんコホート、結腸直腸がんコホート、および肺がんコホートについて、がん分類器は、後続のがんのステージでは、がんタイプを正確に予測することにおいて徐々により正確となった。頭/頸部コホート、卵巣コホート、および膵臓コホートについて、がん分類器は、後期ステージ、すなわち、ステージIIIおよび/またはステージIVにおいて、正解率の増加を有した。食道コホートおよび肝胆道系コホートについて、がん分類器はまた、後期ステージ、すなわち、ステージIIIおよびステージIVにおける正解率を有していた。非がんコホートについては、がん分類器は、非がんサンプルを、がんを有さない可能性が高いと予測することにおいて完全に正確であった。最後になるが、リンパ腫コホートは、様々なステージを通じて成功を有し、ピークの成功はステージIIのがんのサンプルを正確に予測することであった。
【0171】
図6は、例示的な実装による、最初に二値がん分類器を使用した後の様々ながんタイプのためのマルチクラスがん分類器のがん予測の正解率を示す多数のグラフを図示する。この例において、分析システムは、まず、多数のがんタイプコホートに由来するサンプルを、二値がん分類器に入力して、サンプルががんを有する可能性が高いかまたはがんを有さない可能性が高いかを決定する。次いで、分析システムは、がんを有する可能性が高いと決定されたサンプルを、マルチクラスがん分類器に入力して、そのサンプルのがんタイプを予測する。考慮するがんタイプとしては、乳がんタイプ、結腸直腸がんタイプ、食道がんタイプ、頭/頸部がんタイプ、肝胆道系がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、および他のがんタイプが挙げられる。
【0172】
図5における例と比較して、分析システムは、まず二値がん分類器を使用し、次いでマルチクラスがん分類器を使用した場合、正解率の増加を示す。乳がんコホート、結腸直腸がんコホート、肺がんコホート、およびリンパ腫がんコホートの間で、分析システムは、正解率の全体的な増加を有した。具体的には、分析システムは、初期ステージのがん、すなわち、ステージI、ステージII、およびさらにはステージIIIにおいて、がんタイプのそれぞれについて予測正解率の際立った増加を有した。
【0173】
図7は、例示的な実装による、訓練されたがん分類器の性能を示す混同行列を図示する。プロセス300に従って訓練する1つの例において、リッジ回帰ペナルティを有するマルチクラスカーネルロジスティック回帰(KLR)分類器を、重みに対するペナルティ、およびそれぞれのがんタイプのバイアス項に対する固定ペナルティを用いて、導出された特徴ベクトルで訓練した。リッジ回帰ペナルティを、高い関連性の位置を選択するのに使用されない訓練データの一部分に対して最適化し(log損失を使用)、最適なパラメーターが見出された後、ロジスティック分類器を、ローカルの訓練フォールドのセット全体で再訓練した。選択された高い関連性の部位および分類器の重みを、次いで、新しいデータに適用した。CCGA訓練セット内で、1つのフォールドを、反復的にホールドアウトし、9個中8個のフォールドで関連する部位を選択し、KLR分類器のハイパーパラメーターを、9個目のセットで最適化し、KLRを、10個中9個のフォールドで再訓練し、ホールドアウトしたフォールドに適用した。これを、10回反復して、CCGA訓練セット内でTOOを推定した。CCGA試験セットについては、関連する部位を、CCGA訓練の10個中9個のフォールドで選択し、ハイパーパラメーターを、10個目のフォールドで最適化し、KLR分類器を、すべてのCCGA訓練データで再訓練し、選択された部位およびKLR分類器を、試験セットに適用した。考慮されるがんタイプとしては、多発性骨髄腫がんタイプ、結腸直腸がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、肺、頭/頸部がんタイプ、膵臓がんタイプ、乳がんタイプ、肝胆道系がんタイプ、食道がんタイプ、および他のがんタイプが挙げられる。他のがんタイプとしては、CCGA内採取されたサンプルが5個未満のがん、例えば、肛門直腸、膀胱、原発TOO不明のがん、子宮頸、胃、白血病、黒色腫、前立腺、腎臓、甲状腺、子宮、および他の追加のがんが挙げられる。
【0174】
混同行列は、判明しているがんTOO(x軸に沿って)および予測されたがんTOO(y軸に沿って)を有するサンプルを有するがんタイプ間の一致を示す。訓練されたKLR分類器の性能を検証するために、それぞれのがんタイプについてサンプルのコホート(それぞれのがんタイプについてy軸に沿って括弧内に示される)を、KLR分類器で分類した。x軸は、それぞれのコホートから、それぞれのがんタイプ下に分類されたサンプルの数を示す。例えば、肺がんが判明している25個のサンプルを有する肺がんコホートでは、KLR分類器は、1つのサンプルが卵巣がんを有し、19個のサンプルが肺がんを有し、2つのサンプルが頭/頸部がんを有し、1つのサンプルが膵臓がんを有し、1つのサンプルが乳がんを有し、1つのサンプルが他のがんタイプとしてラベル付けされると予測した。注目すべきことに、他のがんタイプを除くすべてのがんタイプについて、KLR分類器は、それぞれのコホートの半数を上回って、正確に予測しており、多発性骨髄腫(2/2または100%)、結腸直腸(18/20または90%)、リンパ腫(8/9、または88.8%)、卵巣(4/5または80%)、肺(19/25または76%)、および頭/頸部(3/4または75%)のがんタイプでは特に高い正解率であった。これらの結果は、KLR分類器の予測正解率を示す。
【0175】
図11は、例示的な実装における、追加の血液がんサブタイプを用いて訓練されたがん分類器の性能を示す混同行列を図示する。がん分類器は、例えば、図7のがん分類器の例示的な結果に関して、上述の原理に従って訓練されてよい。血液学的サブタイプのTOOラベルとしては、ホジキンリンパ腫(HL)、NHL侵攻性、NHL緩慢性、骨髄系、循環リンパ腫(またはリンパ系)、および形質細胞が挙げられる。分類の適合率は、1,076に対して87.5%であることに留意されたい。
【0176】
図12Aおよび図12Bは、例示的な実装において、がんステージにわたる多数のがんタイプに関してがん予測正解率を示すグラフを図示する。この例において、がん分類器は、上述のプロセス1000に従って、非がんサンプルを除外した後に訓練される。分析システムは、血液学的サブタイプに関して複数のTOO閾値を決定した。分析システムは、少なくとも1つのTOO確率が血液学サブタイプの対応するTOO閾値であるかまたはそれを上回る、非がんサンプルを除外した。示されているグラフは、肛門直腸、膀胱および尿路上皮、乳房、子宮頸、結腸直腸、頭頸部、肝臓および胆管、肺、黒色腫、卵巣、膵臓および胆嚢、前立腺、腎臓、肉腫、甲状腺、上部消化管、ならびに子宮のがんタイプについて、がんの様々なステージにわたる分類の感度を示す。それぞれのがんタイプのグラフは、「locked_v1_orgi」とラベル付けされるTOO閾値処理なしで第1のがん分類器を用い、「v2_custom」とラベル付けされるTOO閾値処理ありで第2のがん分類器を用いた、がんタイプのそれぞれのステージにわたる予測感度を示す。注目すべきことに、多数のがんタイプについて、第2のがん分類器は、より多くのサンプルが検証に利用可能であることを踏まえ、狭い信頼性区間を維持しながら、より高い予測正解率を有する。特に留意すべきことには、ステージIおよびIIのレベルでは多数のがんタイプにおいて高い予測正解率が存在し、初期ステージのがんにおいてTOO閾値処理による予測能力の改善が示される。
【0177】
例示的な血液学特異的分類器
図16A図16B図17、および図18は、第1の例示的な実装による、血液学特異的がん分類器のがん予測正解率を示すグラフを図示する。まず、標的化メチル化アッセイ検証のために設計されたCCGAの第2の事前に指定されたサブ研究から、cfDNAサンプルにアクセスした。この例において、訓練セットのサンプルのみを使用し、社内組織生検参照データベースから得られた腫瘍組織サンプルは、分類モデルの訓練に含めた。具体的には、血液学的悪性腫瘍のカスタム分類モデルを訓練するために使用したサンプルは、血液がん診断を有して登用された参加者(がん症例)およびがん診断を有さずに登用された参加者(非がん対照)から得たものであった。154個の血液細胞サンプルまたは血液学的悪性腫瘍の組織FFPEサンプルもまた、含まれた。合計すると、血液がんを有する185人の参加者に由来するcfDNAサンプルおよび1年の追跡時点でがん診断を有さないことが確認された1,998個の非がん対照が、性能評価に含まれた。
【0178】
この第1の例示的な実装において、がん分類器は、5つの血液学的サブタイプとがんの不在(「非がん」)との間を区別するように訓練される。5つの血液学的サブタイプは、骨髄系新生物、非ホジキンリンパ腫(NHL)、循環リンパ腫、形質細胞新生物、およびホジキンリンパ腫(HL)である。交差検証した相互情報に基づくアルゴリズムを使用して、5つの血液学的サブタイプと対照クラスとの間を区別する特徴を特定した。多項分類器を、次いで、がんの存在または不在を検出し、6分割交差検証を使用して、5つの血液がんおよび非がんの間で起源組織を予測するように訓練した。
【0179】
訓練された血液学特異的分類器は、対照において99.4%を上回る[95%信頼性区間(CI):99.0~99.7%]全体的な特異度、および血液がんについて74.3%[95% CI:67.4~80.5%]の感度を達成した。図16Aは、血液学的サブタイプにわたる99.5%の特異度レベルにおける分類器の感度を示すグラフを図示する。それぞれの血液学的サブタイプに関する血液学特異的がん分類器の感度が、昇順で配置され、クラスラベルにおける数字は、サンプルの数を示し、エラーバーは、95%信頼性区間を示す。4つのサンプルが分類された骨髄系新生物は、50%をわずかに下回る感度を有し、約10%から約90%という広い95%信頼性区間を有する。この低い感度は、訓練に使用されたサンプルが限定されていたことに起因する。図16Aの実施形態において、NHL、循環リンパ腫、形質細胞新生物、およびHLは、骨髄系新生物よりも良好なおよそ70%から87%の感度を有する。具体的には、血液学的サブタイプごとの感度は、骨髄系新生物については45.8%[95% CI:5.3~91.6%]であり、循環リンパ腫については76.5%[95% CI:61.3~88.0%]であり、ホジキンリンパ腫については86.1%[95% CI:54.7~98.7%]であり、他の非ホジキンリンパ腫については71.3%[95% CI:60.8~80.3%]であり、形質細胞新生物については78.9%[95% CI:61.6~91.0%]であった。
【0180】
図16Bは、ホジキンリンパ腫および非ホジキンリンパ腫のステージにわたり95%の特異度における分類器の感度を示すグラフを図示する。ステージIの感度(15個のサンプル中)は、約25%である。ステージIIの感度(27個のサンプル中)は、約85%である。ステージIIIの感度(27個のサンプル中)は、約75%である。ステージIVの感度(32個のサンプル中)は、約85%である。このグラフは、ステージIとステージII(およびそれ以降)との間で血液学特異的がん分類器の感度の劇的な増加を示す。具体的には、リンパ腫(HLおよびNHL)について、ステージごとの感度は、ステージIについては25.6%[95% CI:7.2~54.0%]であり、ステージIIについては84.6%[95% CI:65.5~95.5%]であり、ステージIIIについては72.8%[95% CI:52.4~88.0%]であり、ステージIVについては83.9%[95% CI:66.6~94.4%]であった。
【0181】
図17は、第1の例示的な実装における血液学特異的がん分類器のがん予測正解率を示す混同行列を図示する。それぞれの枠内の数字は、予測されたサンプルの総数を表す。混同行列において、色付き/影付きは、プロットの右側に示されるように、予測された血液学的サブタイプの比率に対応する。同様に、正しい予測の割合は、グラフの右側に示される。起源組織の局在化を、TOOマルチクラス分類器によって血液がんとして正しく検出されたがんの症例において評価した。図17に示されるように、血液学特異的分類器は、全体的なTOO予測正解率87.7%を達成し、ホジキンリンパ腫および骨髄系新生物でもっとも高い予測正解率(100%)を有し、形質細胞新生物(96.4%)、非ホジキンリンパ腫(85.9%)、および循環リンパ腫(80%)が続いた。血液がんを有するとして分類された11人の非がん対照(非がん対照の0.55%)のうち、5人は循環リンパ腫として予測され、6人は他の非ホジキンリンパ腫として予測され(1%未満の偽陽性率)、ほとんどが、予測された血液クラスに局在化する信頼性TOOシグナルを示していた(合計確率量の50%以上)。
【0182】
いくつかの例において、最終的な分類器に関して有効なメチル化特徴の低次元表示は、UMAP法を使用して生成することができ、これは、高次元データのトポロジーを保存する。例えば、上記で考察された図9Bにおいて、UMAP埋込みは、血液学的悪性腫瘍の大半が、発達系統および疾患オントロジーを反映して5つの主要なクラスターに分離されたことを示す。非がん対照(図9Bにおける等高線密度を使用して示される)の大半が、血液がんとは別個にクラスター化された。
【0183】
次いで、散布図を使用して、特徴埋込みの空間分布とモデルのクラス確率との間の関係性を視覚化した。例えば、図18は、例示的な実装における、UMAP埋込みにおける重心からの距離に対してがんスコアをプロットする一連のグラフを図示する。UMAP埋込みは、図9BのUMAP埋込みと同じである。x軸は、ロジット変換された、サンプルががんである確率、すなわち、がんスコアのロジットをプロットする。ロジット関数(対数-オッズとも称される)は、オッズ
【0184】
【数1】
【0185】
の対数であり、式中、pは、確率である。y軸は、UMAP埋込みの重心からのユークリッド距離をプロットする。これらのプロットは、様々な血液学的サブタイプについて、がんスコアとUMAP埋込みにおける局在化との間の相関性を描写する。グラフ1810は、骨髄系新生物サブタイプにおける相関性を表す。グラフ1820は、NHLサブタイプにおける相関性を表す。グラフ1830は、循環リンパ腫サブタイプにおける相関性を表す。グラフ1840は、HLサブタイプにおける相関性を表す。グラフ1850は、形質細胞新生物サブタイプにおける相関性を表す。グラフ1860は、非がんサンプルにおける最小限の相関性を表す。図18に示されるように、それらのUMAP埋込み局在化と分類スコアとの間に、強力な正相関が存在していた。
【0186】
例示的な血液学特異的分類器によって示されるように、血液学的悪性腫瘍のためのカスタム分類器は、5つの主要な血液学的悪性腫瘍の検出および区別を同時に行うための便宜的な手段を提供し、これによって、臨床診断および処置の選択が促進されてよい。この様式で、カスタム分類器は、複数のがんのさらに高感度な検出を達成することができ、これを使用して、がん検出およびTOO予測正解率を精査することができる。
【0187】
図19図20、および図21は、第2の例示的な実装による、血液学特異的がん分類器のがん予測正解率を示すグラフを図示する。まず、標的化メチル化アッセイ検証のために設計されたCCGAの第2の事前に指定されたサブ研究から、cfDNAサンプルにアクセスした。この例において、訓練セットのサンプルのみを使用し、社内組織生検参照データベースから得られた腫瘍組織サンプルは、分類モデルの訓練に含めた。具体的には、血液学的悪性腫瘍のカスタム分類モデルを訓練するために使用したサンプルは、血液がん診断を有して登用された参加者(がん症例)およびがん診断を有さずに登用された参加者(非がん対照)から得たものであった。合計すると、血液がんを有する534人の参加者から得られたcfDNAサンプルが、性能評価に含まれた。
【0188】
この第2の例示的な実装において、がん分類器は、7つの血液学的サブタイプと、がんの不在(「非がん」)との間を区別するように訓練される。7つの血液学的サブタイプは、骨髄系新生物、非ホジキンリンパ腫(NHL)、循環リンパ腫、形質細胞新生物、ホジキンリンパ腫(HL)、heme_1、およびheme_3である。サブタイプheme_1およびheme_3は、血液がん、例えば、他の血液学的サブタイプへと発達するかもしれない血液学的前駆状態の2つのタイプを指す。血液学的前駆状態としては、意義不明のモノクローナルガンマグロブリン異常症(monoclonal gammopathy)またはモノクローナルB細胞リンパ球増加症を挙げることができるが、これらに限定されない。交差検証した相互情報に基づくアルゴリズムを使用して、7つの血液学的サブタイプと非がんクラスとの間を区別する特徴を特定した。多項分類器を、次いで、がんの存在または不在を検出し、6分割交差検証を使用して、5つの血液がんおよび非がんの間で起源組織を予測するように訓練した。
【0189】
図19は、血液学特異的がん分類のための複数の訓練サンプルの異常スコアをプロットするグラフを図示する。グラフを参照すると、「M」は、骨髄系新生物血液学的サブタイプを指し、「H3」は、heme_3血液学的サブタイプを指し、「HL」は、ホジキンリンパ腫血液学的サブタイプを指し、「nHL」は、非ホジキンリンパ腫サブタイプを指し、「CL」は、循環リンパ腫血液学的サブタイプを指し、「H1」は、heme_1血液学的サブタイプを指し、「P」は、形質細胞新生物血液学的サブタイプを指す。y軸には、相互情報利得に従って使用に選択されるいくつかの上位特徴がある。このように、第1の列は、第2の列に示される他の血液学的サブタイプのそれぞれに対して比較した、それぞれの血液学的サブタイプを示す。x軸には、判明している血液学的サブタイプによってグループ分けした訓練サンプルがある。例えば、「nHL」という列の下には、非ホジキンリンパ腫血液学的サブタイプとラベル付けされることが判明している訓練サンプルがある。分析システムは、選択された特徴のそれぞれについて、異常スコアを決定する。この実装において、異常スコアは、特徴をカバーする異常にメチル化されたフラグメントの存在(白色で示される)または不在(灰色で示される)に基づく二値スコアである。留意すべきことに、主対角線に沿った(左上から右下への)白色の領域は、血液学的サブタイプを分類する際の区分力に対する指標を提供する。行内で、特徴が、異なる血液学的サブタイプに由来する異なるサンプルにわたって白色が拡がっている場合、その特徴は区分力が低く、ノイズが多いことという指標が存在する。
【0190】
図20は、99.5%の特異度における血液学特異的がん分類器の感度を示すグラフを図示する。それぞれの血液学的サブタイプの左側のデータのセットは、血液学特異的がん分類器を訓練するために使用した訓練セットに関するものであり、一方で右側のデータのセットは、ホールドアウトセットに関するものである。それぞれ訓練セットおよびホールドアウトセットに存在するサンプルの数が、下のx軸にそれぞれの血液学的サブタイプのラベルの後に記されている。95%信頼性区間は、それぞれのサブタイプの訓練セットおよびホールドアウトセットで測定された感度について示されている。heme_1サブタイプは、訓練セットおよびホールドアウトセットの両方について、低い感度を有した。heme_3サブタイプは、訓練セットおよびホールドアウトセットの両方について、約25%の感度を有した。骨髄系新生物サブタイプは、訓練セットについては50%の感度を有し(2つの訓練サンプルのうちの1つを正確に予測した)、ホールドアウトセットについては100%の感度を有した(1つのホールドアウトサンプルのうちの1つを正確に予測した)。循環リンパ腫サブタイプは、両方のセットについて、約70%の感度を有した。非ホジキンリンパ腫サブタイプは、訓練セットについては約70%の感度を有し、ホールドアウトセットについては約75%の感度を有した。形質細胞新生物サブタイプは、両方のセットについて約75%の感度を有した。ホジキンリンパ腫サブタイプは、訓練セットについては約80%を有し、ホールドアウトセットについては約70%を有した。
【0191】
図21は、第2の例示的な実装における、血液学特異的がん分類器のがん予測正解率を示す混同行列を図示する。それぞれの枠内の数字は、予測されたサンプルの総数を表す。混同行列において、色付き/影付きは、プロットの右側に示されるように、予測された血液学的サブタイプの比率に対応する。同様に、正しい予測の割合は、グラフの右側に示される。起源組織の局在化を、TOOマルチクラス分類器によって血液がんとして正しく検出されたがんの症例において評価した。図21に示されるように、血液学特異的分類器は、約75%の全体的なTOO予測正解率を達成した。形質細胞新生物サブタイプは、17個の判明しているサンプルのうち17個を正確に予測し、100%の予測正解率を有した。Heme_1サブタイプは、4個の判明しているサンプルのうち1個を正確に予測し、25%の予測正解率を有した。循環リンパ腫サブタイプは、27個の判明しているサンプルのうち25個を正確に予測し、92.6%の予測正解率を有した。非ホジキンリンパ腫サブタイプは、55個の判明しているサンプルのうち48個を正確に予測し、87.3%の予測正解率を有した。ホジキンリンパ腫サブタイプは、8個の判明しているサンプルのうち8個を正確に予測し、100%の予測正解率を有した。Heme_3サブタイプは、20個の判明しているサンプルのうち19個を正確に予測し、95%の予測正解率を有した。骨髄系新生物サブタイプは、1個の判明しているサンプルのうち1個を正確に予測し、100%の予測正解率を有した。
【0192】
第2の例示的な血液学特異的分類器によって示されるように、血液学的悪性腫瘍および血液学的前駆状態のためのカスタム分類器はまた、最終的に血液学的悪性腫瘍へと変化するそのような前駆状態を特定することもできる。この前駆状態の分類能力は、将来的に血液学的悪性腫瘍を発症する個体を特定するのに役立つことが示され、これにより、さらにより早期の臨床診断および処置選択をもたらすことができる。この様式で、カスタム分類器は、複数のがんのさらに高感度な検出を達成することができ、これを使用して、がん検出およびTOO予測正解率を精査することができる。
【0193】
VI.追加の考察
前述の実施形態の詳細な説明は、本開示の特定の実施形態を図示する添付の図面を参照する。異なる構造および操作を有する他の実施形態は、本開示の範囲から逸脱しない。「本発明」などの用語は、本明細書に記載される本出願者らの発明の多数の代替的な態様または実施形態のある特定の具体的な例を参照して使用され、その使用もその不在も、本出願者らの発明の範囲または特許請求の範囲を制限することを意図するものではない。
【0194】
本発明の実施形態は、本明細書における操作を実行するための装置にも関連する。この装置は、必要とされる目的のために特別に構築されたものであってもよく、かつ/またはそれは、コンピュータに記憶されたコンピュータプログラムによって選択的に作動もしくは再構成される汎用コンピューティングデバイスを含んでよい。そのようなコンピュータプログラムは、非一過性有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶されてよく、媒体は、コンピュータシステムバスに連結されていてもよい。さらに、本明細書において言及される任意のコンピューティングシステムは、単一のプロセッサを含んでもよく、またはコンピューティング能力の増加のために複数プロセッサの設計を用いたアーキテクチャであってもよい。
【0195】
分析システムによって実行されるとして本明細書に記載されるステップ、操作、またはプロセスのいずれも、単独または他のコンピューティングデバイスとの組合せで、装置の1つまたは複数のハードウェアまたはソフトウェアモジュールを用いて実行または実装されてよい。一実施形態において、ソフトウェアモジュールは、記載されるステップ、操作、またはプロセスのうちのいずれかまたはすべてを実行するためにコンピュータプロセッサによって実行されてよい、コンピュータプログラムコードを含むコンピュータ可読媒体を含むコンピュータプログラム製品を用いて実装される。
図1A
図1B
図2A
図2B
図3A
図3B
図4A
図4B
図5
図6
図7
図8
図9A
図9B
図10A
図10B
図11
図12A
図12B
図13A
図13B
図13C
図14
図15
図16A
図16B
図17
図18
図19
図20
図21
【国際調査報告】