(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-02
(54)【発明の名称】ノイズ性領域フィルタ除去を有するメチル化フラグメント確率ノイズモデル
(51)【国際特許分類】
G16B 20/20 20190101AFI20240925BHJP
G16B 40/00 20190101ALI20240925BHJP
G16H 50/50 20180101ALI20240925BHJP
C12Q 1/68 20180101ALN20240925BHJP
C12Q 1/6869 20180101ALN20240925BHJP
【FI】
G16B20/20
G16B40/00
G16H50/50
C12Q1/68
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024517472
(86)(22)【出願日】2022-09-16
(85)【翻訳文提出日】2024-04-15
(86)【国際出願番号】 US2022043786
(87)【国際公開番号】W WO2023043991
(87)【国際公開日】2023-03-23
(32)【優先日】2021-09-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル インコーポレイテッド
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100173794
【氏名又は名称】色部 暁義
(72)【発明者】
【氏名】キンウェン リウ
【テーマコード(参考)】
4B063
5L099
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QQ42
4B063QR08
4B063QR50
4B063QR62
4B063QS24
4B063QS34
4B063QS40
4B063QX02
5L099AA04
(57)【要約】
癌分類器を学習させるシステム及び方法を開示する。この方法は、複数のメチル化シーケンスリードを含む学習試料毎に:メチル化シーケンスリード毎に、複数のゲノム領域のうち当該メチル化シーケンスリードがオーバーラップするゲノム領域に対応する確率ノイズモデルを、当該メチル化シーケンスリードに適用して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを決定するステップを含む。各確率ノイズモデルは、健康体試料からのメチル化シーケンスリードで学習済みである。この方法は、上記ゲノム領域にオーバーラップする、異常スコアの閾値を下回る異常スコアを有するメチル化シーケンスリードのカウント数に基づいて、ゲノム領域毎の特徴から成る特徴ベクトルを決定するステップを含む。この方法は、学習試料の特徴ベクトルで癌分類器を学習させて、入力特徴ベクトルに基づいて癌予測値を決定するステップを含む。
【特許請求の範囲】
【請求項1】
癌分類器を学習させる方法であって、
確率ノイズモデルを学習させるステップであって、該確率ノイズモデルは、ゲノムの複数のゲノム領域におけるゲノム領域毎に、健康体試料からの第1数のメチル化シーケンスリードにおけるメチル化CpG部位の計量の平均値及び分散によってパラメータ化されるステップと、
学習試料毎に、該学習試料からの複数のメチル化シーケンスリードの各々について、当該メチル化シーケンスリードがオーバーラップする前記ゲノム領域に関連する学習済み確率ノイズモデルを適用することによって、異常スコアを決定するステップと、
前記学習試料毎に、前記メチル化シーケンスリードの前記異常スコアを異常スコアの閾値と比較することによって、前記複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと、
前記学習試料毎に、前記複数のゲノム領域におけるゲノム領域毎の、当該ゲノム領域内のメチル化シーケンスリードの総数に対する、当該ゲノム領域内の前記異常にメチル化されたフラグメントのカウント数の比率を決定するステップと、
前記学習試料毎に、前記複数のゲノム領域の全体にわたる前記比率から成る特徴ベクトルを生成するステップと、
前記学習試料の前記特徴ベクトルを用いて前記癌分類器を学習させて、癌予測値を決定するステップと
を含む方法。
【請求項2】
前記確率ノイズモデルを学習させるステップが、
ベイズ推論を用いて、前記複数のゲノム領域におけるゲノム領域毎に、前記平均値及び前記分散の事後分布を決定するステップを含み、前記ベイズ推論は、マルコフ連鎖モンテカルロ法を用いて決定する、請求項1に記載の方法。
【請求項3】
前記事後分布がベータ二項分布である、請求項2に記載の方法。
【請求項4】
前記メチル化シーケンスリード毎に前記学習済み確率ノイズモデルによって決定した前記異常スコアが、当該メチル化シーケンスに対するp値に基づき、該p値は、前記メチル化シーケンスリードが異常なメチル化を表す確率を示す、請求項1~3のいずれかに記載の方法。
【請求項5】
前記メチル化シーケンスリード毎の前記異常スコアが、当該メチル化シーケンスリードに対する前記p値である、請求項4に記載の方法。
【請求項6】
前記メチル化シーケンスリード毎の前記異常スコアを、当該メチル化シーケンスリードに対して決定した前記p値に変換を適用することによって決定する、請求項4に記載の方法。
【請求項7】
前記変換が対数関数または非線形関数である、請求項5に記載の方法。
【請求項8】
前記複数のゲノム領域のうちの第1ゲノム領域が第1平均値及び第1分散に関連し、前記複数のゲノム領域のうちの第2ゲノム領域が第2平均値及び第2分散に関連し、該第2平均値及び該第2分散は、それぞれ前記第1平均値及び前記第1分散と異なる、請求項1~7のいずれかに記載の方法。
【請求項9】
前記複数のゲノム領域のうちの第1ゲノム領域が第1数のCpG部位を含み、前記複数のゲノム領域のうちの第2ゲノム領域が第2数のCpG部位を含み、該第2数のCpG部位は前記第1数のCpG部位と異なる、請求項1~7のいずれかに記載の方法。
【請求項10】
検査試料を個体から取得するステップと、
前記検査試料の第2数のメチル化シーケンスリードから複数のシーケンスリードを生成するステップと、
前記検査試料の前記第2数のメチル化シーケンスリードの各々について、当該メチル化シーケンスリードがオーバーラップする前記ゲノム領域に関連する前記学習済み確率ノイズモデルを適用することによって、異常スコアを決定するステップと、
前記検査試料の前記メチル化シーケンスリードの前記異常スコアを異常スコアの閾値と比較することによって、前記複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと、
前記複数のゲノム領域におけるゲノム領域毎に、当該ゲノム領域内の前記検査試料のメチル化シーケンスリードの総数に対する、当該ゲノム領域内の前記検査試料の前記異常にメチル化されたフラグメントのカウント数の比率を決定するステップと、
前記複数のゲノム領域の全体にわたる前記検査試料についての前記比率から成る検査特徴ベクトルを生成するステップと、
前記学習させた癌分類器を前記検査特徴ベクトルに適用することによって、前記検査試料についての癌予測値を決定するステップと
を更に含む、請求項1~7のいずれかに記載の方法。
【請求項11】
前記癌予測値が、前記検査試料の腫瘍の割合を推定する、請求項10に記載の方法。
【請求項12】
前記癌予測値が、前記検査試料における病状の存在を示す、請求項10または11に記載の方法。
【請求項13】
前記病状が、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂の尿路上皮癌、尿路上皮癌以外の腎臓癌、前立腺癌、直腸肛門部癌、結腸直腸癌、食道癌、胃癌、肝細胞から発生する肝胆道癌、肝細胞以外の細胞から発生する肝胆道癌、膵臓癌、上部消化管の扁平上皮細胞癌、偏平上皮癌以外の上部消化管癌、頭頸部癌、肺癌、肺腺癌、小細胞肺癌、扁平上皮細胞肺癌、及び肺腺癌または小細胞肺癌以外の癌、神経内分泌癌、メラノーマ、甲状腺癌、サルコーマ、多発性メラノーマ、リンパ腫、及び白血病、及び他の血液病から成るグループから選択した病状である、請求項12に記載の方法。
【請求項14】
前記癌予測値が、前記検査試料中に存在する癌の病期を示す、請求項10~13のいずれかに記載の方法。
【請求項15】
前記メチル化シーケンスリードが無細胞DNAフラグメントのメチル化情報を含む、請求項1~14のいずれかに記載の方法。
【請求項16】
複数のWBC(白血球)試料におけるWBC試料毎に、
当該WBC試料からの複数のメチル化シーケンスリードの各々について、当該メチル化シーケンスリードがオーバーラップする前記ゲノム領域に関連する前記学習済み確率ノイズモデルを適用することによって、異常スコアを決定するステップと、
前記WBC試料毎に、前記メチル化シーケンスリードの前記異常スコアを異常スコアの閾値と比較することによって、前記複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと、
前記複数のゲノム領域におけるゲノム領域毎に、当該ゲノム領域にオーバーラップし、かつ閾値数個の異常にメチル化されたフラグメントを有する前記WBC試料が、%比率の閾値を超えて存在する場合に、当該ゲノム領域をノイズ性としてラベル付けするステップと
を更に含む、請求項1~15のいずれかに記載の方法。
【請求項17】
ノイズ性としてラベル付けされた前記ゲノム領域を、前記癌分類器の学習における使用から除外するステップを更に含み、前記学習試料に対して生成された前記特徴ベクトルは、ノイズ性としてラベル付けされた前記ゲノム領域の前記比率を除外する、請求項16に記載の方法。
【請求項18】
前記複数のゲノム領域における各ゲノム領域にデフォルトの重みを割り当てるステップと、
ノイズ性としてラベル付けされた前記ゲノム領域に第1の重みを再度割り当てるステップであって、該第1の重みは前記デフォルトの重みよりも低いステップと、
前記学習試料毎に、前記特徴ベクトルの前記比率の各々に、当該比率に関連する前記ゲノム領域に対応する前記重みを乗算するステップと
を更に含む、請求項17に記載の方法。
【請求項19】
前記%比率の閾値を5%~40%の範囲から選択する、請求項16~18のいずれかに記載の方法。
【請求項20】
前記異常にメチル化されたフラグメントの閾値数を1~10の範囲から選択する、請求項16~19のいずれかに記載の方法。
【請求項21】
癌分類器を学習させる方法であって、
癌性試料及び非癌性試料を含む複数の学習試料であって、各学習試料が無細胞DNAフラグメントのメチル化情報を含む複数のメチル化シーケンスリードから成る学習試料の各々について、
前記メチル化シーケンスリード毎に、当該メチル化シーケンスリードに確率ノイズモデルを適用して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを決定するステップであって、前記確率ノイズモデルは、複数のゲノム領域のうち当該メチル化シーケンスリードがオーバーラップするゲノム領域に対応し、前記確率ノイズモデルの各々が、前記健康体試料からのメチル化シーケンスリードで学習させた学習済み確率ノイズモデルであるステップと、
前記ゲノム領域毎の特徴から成る特徴ベクトルを、当該ゲノム領域にオーバーラップし、かつ異常スコアの閾値を下回る前記異常スコアを有する前記メチル化シーケンスリードのカウント数に基づいて決定するステップと、
前記学習試料の前記特徴ベクトルで前記癌分類器を学習させて、入力特徴ベクトルに基づいて癌予測値を決定するステップと
を含む方法。
【請求項22】
前記確率ノイズモデルの各々が、前記健康体試料からの前記メチル化シーケンスリードにおけるメチル化CpG部位の計量の平均値及び分散によってパラメータ化される、請求項22に記載の方法。
【請求項23】
前記確率ノイズモデルの各々を、ベイズ推論を用いて、前記複数のゲノム領域におけるゲノム領域毎の平均値及び分散の事後分布を決定することによって学習させ、前記ベイズ推論はマルコフ連鎖モンテカルロ法を用いて決定する、請求項21または22に記載の方法。
【請求項24】
前記事後分布がベータ二項分布である、請求項23に記載の方法。
【請求項25】
前記学習済み確率ノイズモデルによって前記メチル化シーケンスリード毎に決定される前記異常スコアが、当該メチル化シーケンスリードに対するp値に基づき、該p値は、当該メチル化シーケンスリードが異常なメチル化を表す確率を示す、請求項21~24のいずれかに記載の方法。
【請求項26】
前記メチル化シーケンスリード毎の前記異常スコアが、当該メチル化シーケンスリードに対する前記p値である、請求項25に記載の方法。
【請求項27】
前記メチル化シーケンスリード毎の前記異常スコアを、当該メチル化シーケンスリードに対して決定した前記p値に変換を適用することによって決定する、請求項25に記載の方法。
【請求項28】
前記変換が対数関数または非線形関数である、請求項27に記載の方法。
【請求項29】
前記複数のゲノム領域のうちの第1ゲノム領域が第1平均値及び第1分散に関連し、前記複数のゲノム領域のうちの第2ゲノム領域が第2平均値及び第2分散に関連し、該第2平均値及び該第2分散は、それぞれ前記第1平均値及び前記第1分散と異なる、請求項21~28のいずれかに記載の方法。
【請求項30】
前記複数のゲノム領域のうちの第1ゲノム領域が第1数のCpG部位を含み、前記複数のゲノム領域のうちの第2ゲノム領域が第2数のCpG部位を含み、該第2数のCpG部位は前記第1数のCpG部位と異なる、請求項21~28のいずれかに記載の方法。
【請求項31】
複数の白血球(WBC)試料におけるWBC試料毎に、
当該WBC試料からの複数のメチル化シーケンスリードの各々について、当該メチル化シーケンスリードがオーバーラップする前記ゲノム領域に関連する前記学習済み確率ノイズモデルを適用することによって、異常スコアを決定するステップと、
前記WBC試料毎に、前記メチル化シーケンスリードの前記異常スコアを異常スコアの閾値と比較することによって、前記複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと、
前記複数のゲノム領域におけるゲノム領域毎に、当該ゲノム領域にオーバーラップし、かつ閾値数個の異常にメチル化されたフラグメントを有する前記WBC試料が、%比率の閾値を超えて存在する場合に、当該ゲノム領域をノイズ性としてラベル付けするステップと
を更に含む、請求項21~30のいずれかに記載の方法。
【請求項32】
ノイズ性としてラベル付けされた前記ゲノム領域を、前記癌分類器の学習における使用から除外するステップを更に含み、前記学習試料に対して生成された前記特徴ベクトルは、ノイズ性としてラベル付けされた前記ゲノム領域の前記比率を除外する、請求項31に記載の方法。
【請求項33】
前記複数のゲノム領域における各ゲノム領域にデフォルトの重みを割り当てるステップと、
ノイズ性としてラベル付けされた前記ゲノム領域に第1の重みを再度割り当てるステップであって、該第1の重みは前記デフォルトの重みよりも低いステップと、
前記学習試料毎に、前記特徴ベクトルの前記比率の各々に、当該比率に関連する前記ゲノム領域に対応する前記重みを乗算するステップと
を更に含む、請求項31に記載の方法。
【請求項34】
前記%比率の閾値を5%~40%の範囲から選択する、請求項31~33のいずれかに記載の方法。
【請求項35】
前記異常にメチル化されたフラグメントの閾値数を1~10の範囲から選択する、請求項31~34のいずれかに記載の方法。
【請求項36】
検査試料の癌の状態を予測する方法であって、該検査試料が、無細胞DNAフラグメントのメチル化情報を含む複数のメチル化シーケンスリードを含む方法において、
前記メチル化シーケンスリード毎に、当該メチル化シーケンスリードに確率ノイズモデルを適用して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを決定するステップであって、前記確率ノイズモデルは、複数のゲノム領域のうち当該メチル化シーケンスリードがオーバーラップするゲノム領域に対応し、前記確率ノイズモデルの各々は、前記健康体試料からのメチル化シーケンスリードで学習させた学習済み確率ノイズモデルであるステップと、
前記ゲノム領域毎の特徴から成る特徴ベクトルを、当該ゲノム領域にオーバーラップし、かつ異常スコアの閾値を下回る前記異常スコアを有する前記メチル化シーケンスリードのカウント数に基づいて決定するステップと、
前記特徴ベクトルに癌分類器を適用して癌予測値を決定するステップと
を含む方法。
【請求項37】
請求項1~9及び16~35のいずれかに記載の方法によって前記癌分類器を学習させる、請求項36に記載の方法。
【請求項38】
前記癌予測値が、前記検査試料における腫瘍の比率を推定する、請求項36または37に記載の方法。
【請求項39】
前記癌予測値が、前記検査試料における病状の存在を示す、請求項36~38のいずれかに記載の方法。
【請求項40】
前記病状が、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂の尿路上皮癌、尿路上皮癌以外の腎臓癌、前立腺癌、直腸肛門部癌、結腸直腸癌、食道癌、胃癌、肝細胞から発生する肝胆道癌、肝細胞以外の細胞から発生する肝胆道癌、膵臓癌、上部消化管の扁平上皮細胞癌、偏平上皮癌以外の上部消化管癌、頭頸部癌、肺癌、肺腺癌、小細胞肺癌、扁平上皮細胞肺癌及び肺腺癌または小細胞肺癌以外の癌、神経内分泌癌、メラノーマ、甲状腺癌、サルコーマ、多発性メラノーマ、リンパ腫、及び白血病、及び他の血液病から成るグループから選択した病状である、請求項39に記載の方法。
【請求項41】
前記癌予測値が、前記検査試料中に存在する癌の病期を示す、請求項36~40のいずれかに記載の方法。
【請求項42】
前記癌予測値を、当該癌予測値に基づく治療法の推奨と共に戻すステップを更に含む、請求項36~41のいずれかに記載の方法。
【請求項43】
複数の確率ノイズモデルを学習させる方法であって、
複数のゲノム領域におけるゲノム領域毎に、
当該ゲノム領域にオーバーラップする健康体試料からのメチル化シーケンスリードを集約するステップであって、前記健康体試料の各々が複数のメチル化シーケンスリードを含み、該メチル化シーケンスリードは無細胞DNAフラグメントのメチル化情報を含むステップと、
前記集約したメチル化シーケンスリードで前記確率ノイズモデルを学習させて学習済み確率ノイズモデルとするステップと
を含み、前記学習済み確率ノイズモデルは、前記メチル化シーケンスリードを入力して、前記健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを出力するように構成されている方法。
【請求項44】
前記確率ノイズモデルを学習させるステップが、ベイズ推論を用いて、前記ゲノム領域についての平均値及び分散の事後分布を決定するステップを含み、前記ベイズ推論はマルコフ連鎖モンテカルロ法を用いて決定する、請求項43に記載の方法。
【請求項45】
前記事後分布がベータ二項分布である、請求項44に記載の方法。
【請求項46】
前記メチル化シーケンスリード毎に前記学習済み確率ノイズモデルによって決定した前記異常スコアが、当該メチル化シーケンスリードに対するp値に基づき、該p値は、当該メチル化シーケンスリードが異常なメチル化を表す確率を示す、請求項43~45のいずれかに記載の方法。
【請求項47】
前記メチル化シーケンスリード毎の前記異常スコアが、当該メチル化シーケンスリードに対する前記p値である、請求項46に記載の方法。
【請求項48】
前記メチル化シーケンスリード毎の前記異常スコアを、当該メチル化シーケンスリードに対して決定した前記p値に変換を適用することによって決定する、請求項46に記載の方法。
【請求項49】
前記変換が対数関数または非線形関数である、請求項48に記載の方法。
【請求項50】
前記複数のゲノム領域のうちの第1ゲノム領域が第1平均値及び第1分散に関連し、前記複数のゲノム領域のうちの第2ゲノム領域が第2平均値及び第2分散に関連し、該第2平均値及び該第2分散は、それぞれ前記第1平均値及び前記第1分散と異なる、請求項43~49のいずれかに記載の方法。
【請求項51】
前記複数のゲノム領域のうちの第1ゲノム領域が第1数のCpG部位を含み、前記複数のゲノム領域のうちの第2ゲノム領域が第2数のCpG部位を含み、該第2数のCpG部位は前記第1数のCpG部位と異なる、請求項43~49のいずれかに記載の方法。
【請求項52】
前記ゲノム領域の各々が、50個を上回らない、60個を上回らない、70個を上回らない、80個を上回らない、90個を上回らない、または100個を上回らないCpG部位である、請求項43~51のいずれかに記載の方法。
【請求項53】
前記複数のゲノム領域における各ゲノム領域が、少なくとも1つの、少なくとも2つの、少なくとも3つの、少なくとも4つの、少なくとも5つの、少なくとも6つの、少なくとも7つの、少なくとも8つの、少なくとも9つの、少なくとも10個の、少なくとも20個の、少なくとも30個の、または30個超のCpG部位を含む、請求項43~52のいずれかに記載の方法。
【請求項54】
前記ゲノム領域の各々が、1つ以上の隣接するCpG部位を含む、請求項43~51のいずれかに記載の方法。
【請求項55】
コンピュータ・プロセッサ及びメモリを具えたシステムであって、該メモリはコンピュータプログラムを記憶し、該コンピュータプログラムは、前記コンピュータ・プロセッサによって実行されると、請求項1~54のいずれかに記載の方法を前記コンピュータ・プロセッサに実行させるシステム。
【請求項56】
コンピュータプログラム命令を記憶する非一時的コンピュータ可読媒体であって、前記コンピュータプログラム命令は、プロセッサを含む電子装置によって実行されると、請求項1~54のいずれかに記載の方法を前記電子装置に実行させる非一時的コンピュータ可読媒体。
【請求項57】
非一時的コンピュータ可読媒体を具えたコンピュータプログラム製品であって、前記非一時的コンピュータ可読媒体は、検査試料中の癌を予測する機械学習癌分類器を記憶し、前記コンピュータプログラム製品は、請求項1~9及び16~35のいずれかに記載の方法によって構成されるコンピュータプログラム製品。
【請求項58】
非一時的コンピュータ可読媒体を具えたコンピュータプログラム製品であって、前記非一時的コンピュータ可読媒体は、異常なメチル化を表すメチル化シーケンスリードを決定するための複数の確率ノイズモデルを記憶し、前記コンピュータプログラム製品は、請求項43~54のいずれかに記載の方法によって構成されるコンピュータプログラム製品。
【請求項59】
検査試料からDNAフラグメントを分離し、前記分離したDNAフラグメントをシーケンス解析して複数のメチル化シーケンスリードを取得するための試薬と、
前記試薬を使用するための命令と、
前記メチル化シーケンスリードを解析するための命令を記憶する非一時的コンピュータ可読記憶媒体と
を具えた治療キットであって、該メチル化シーケンスリードは前記DNAフラグメントのメチル化情報を含む治療キットにおいて、
前記メチル化シーケンスリードを解析するための命令は、プロセッサによって実行されると、該プロセッサに動作を実行させ、該動作は、
前記メチル化シーケンスリード毎に、複数のゲノム領域のうち当該メチル化シーケンスリードがオーバーラップするゲノム領域に対応する確率ノイズモデルを当該メチル化シーケンスリードに適用して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを決定することであって、前記確率ノイズモデルの各々は、前記健康体試料からのメチル化シーケンスリードで学習させた学習済み確率ノイズモデルであることと、
異常スコアの閾値を下回る異常スコアを有し、かつ前記ゲノム領域にオーバーラップする前記メチル化シーケンスリードのカウント数に基づいて、前記ゲノム領域毎の特徴から成る特徴ベクトルを決定することと、
前記特徴ベクトルに癌分類器を適用して癌予測値を決定することと、
前記癌予測値を、当該癌予測値に基づく治療法の推奨と共に戻すことと
を含む治療キット。
【請求項60】
前記癌分類器が、請求項1~9及び16~35のいずれかに記載の方法によって学習させた癌分類器である、請求項59に記載の治療キット。
【請求項61】
前記複数の確率ノイズモデルが、請求項43~54のいずれかに記載の方法もよって学習させた確率ノイズモデルである、請求項59に記載の治療キット。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願のクロスリファレンス
本願は、米国特許仮出願第63/246030号、2021年9月20日出願により優先権を主張し、その全文を参照することによって本明細書に含める。
【0002】
1.技術の分野
本発明は、一般に、メチル化情報を用いて核酸フラグメント(断片)を分類するためのモデルに関するものである。
【背景技術】
【0003】
2.序論
次世代シーケンシング(塩基配列決定)(NGS:next generation sequencing)を用いた無細胞DNA(cfDNA:cell free DNA(deoxyribonucleic acid:デオキシリボ核酸))または無細胞RNA(cfRNA:cell free RNA(ribonucleic acid:リボ核酸))のような循環無細胞ヌクレオチドの解析は、癌または他の疾患の検出及び診断用の貴重なツールとして認識されている。NGSを用いて癌の兆候を示す希少変異を識別することは、被験体から取り出した組織生検または血液のような生体試料(バイオサンプル)からのヌクレオチド・シーケンス(塩基配列)のディープ(深い)シーケンシングを必要とする。血液試料からの腫瘍細胞から発生したDNAを検出することは困難である、というのは、循環腫瘍DNA(ctDNA:circulating tumor DNA)または循環腫瘍RNA(ctRNA)は、一般に、血液から抽出したcfDNA中の他の分子に比べて低いレベルで存在するからである。既存の方法が(例えば、被験体における癌の兆候を示す)真陽性を信号ノイズから識別することが不能であることが、既知及び将来のシステムが、ノイズ源によって生じる偽陽性から真陽性を区別する能力を低下させ、このことは、変異検出(バリアントコール)または他の種類の解析における信頼性の低い結果を生じさせ得る。更に、試料(サンプル)の用意及びシーケンシング中に導入される誤差が、希少変異の正確な識別を困難にし得る。
【0004】
シーケンシングデータ中の一塩基変異(SNV:single nucleotide variant)のような変異を検出するための異なる方法が開発されてきた。組織試料から取得したDNAシーケンシングデータから変異をコール(検出)する最も慣用される方法が開発されている。これらの方法は、無細胞ヌクレオチド試料から取得したディープ(深い)シーケンシングデータからの変異をコールするには適さないことがある。
【0005】
癌の非侵襲的な診断及び監視のためには、無細胞ヌクレオチドに的を絞ったシーケンシングデータが重要なバイオソース(生物起源)として役立つ。しかし、ディープ・シーケンシングデータセット中の変異の検出は、次の明白な挑戦を突き付ける:シーケンス解析(シーケンシング)されるフラグメントの数が何桁も大きく(例えば、深さが2000倍以上)になり、計算時間及びメモリ使用量において既存の変異検出装置の大部分を弱体化する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許出願第16/352602号明細書
【特許文献2】米国特許出願第16/723716号明細書
【特許文献3】米国特許出願第16/723411号明細書
【特許文献4】米国特許出願第15/931022号明細書
【発明の概要】
【課題を解決するための手段】
【0007】
癌の病状、癌の病期(ステージ)、他の病状、腫瘍の割合、またはその何らかの組合せを検出するに当たり用いられる、核酸フラグメントにおける異常メチル化を測定する新規なシステム及び方法を開示する。この方法は、ゲノムの複数領域の領域毎にパラメータ化した確率ノイズモデルを学習させるステップを含む。確率ノイズモデルは、核酸フラグメントに関するメチル化ベクトルを入力し、メチル化ベクトルに関する異常スコア(得点)を出力するように構成されている。
【0008】
一旦、核酸フラグメントにスコアを付けると、異常スコアが異常スコアの閾値を上回る場合に、上記システムは、1つ以上のフラグメントに、異常なメチル化パターンを有するものとして、あるいは異常にメチル化されたものとしてラベルを付ける。分類用に用いられるゲノム領域により、上記システムは、異常にメチル化されたフラグメント、即ち、異常なメチル化パターンを有するメチル化シーケンスリード(メチル化された配列の読取り値)に基づいて、特徴を決定することができる。1つ以上の好適例では、特徴が、領域当たりのフラグメントの総数に対する、異常にメチル化されたフラグメントの比率である。この比率は、癌の病状の存在、癌の病期、他の病状、腫瘍の割合、またはその何らかの組合せを検出するための分類器の学習用の特徴として用いることができる。重み付きの好適例では、領域毎に導出した特徴を、それぞれの領域毎の重みの組に応じて調整することができる。
【0009】
上記システムは、当該領域にオーバーラップし、かつ異常にメチル化されたフラグメントを有する白血球(WBC:white blood cell)試料の%比率が閾値を上回る1つ以上の領域を、分類における使用からフィルタ処理で除去して除外することができる。上記システムは、各種の白血病及びリンパ腫のような白血球に関する血液疾患の病状にとって特にノイズ性の領域をフィルタ処理で除去して除外して、他の種類の癌または疾患を検出する感度を向上させることができる。上記システムは、同様な領域フィルタ除去のプロセスを、他の種類の癌、例えば乳癌で実行することができる。1つ以上の好適例では、上記システムが、ノイズ性領域を分類から完全に除外するのではなく、ノイズ性領域により低い重みを付けることができる。1つ以上の好適例では、領域の重み付け方式が、ゲノム領域にオーバーラップし、かつ異常フラグメントを有するWBC試料の%比率に基づいて重みを割り当てる。このゲノム領域重み付け方式はルールベースにする(規則に基づく)ことができ、例えば、当該領域にオーバーラップする異常フラグメントが試料の40%を上回る領域には0の重みを付け、試料の30%~40%の領域には0.2の重みを付け、試料の20%~30%の領域には0.4の重みを付けるのに対し、試料の20%を下回る領域には1の重みを付ける。1つ以上の好適例では、これらの重みを、下流の分類器の性能に基づいて適応的に調整することができる。
【0010】
本発明の第1の態様では、癌分類器を学習させる方法が:確率ノイズモデルを学習させるステップであって、確率ノイズモデルは、ゲノムの複数のゲノム領域におけるゲノム領域毎に、健康体試料からの第1数のメチル化シーケンスリードにおけるメチル化CpG(5’-C-phosphate-G-3’:シトシン塩基の5位の炭素)部位の計量の平均値及び分散によってパラメータ化されるステップと;学習試料毎に、当該学習試料からの複数のメチル化シーケンスリードの各々について、当該メチル化シーケンスリードがオーバーラップするゲノム領域に関連する学習済み確率ノイズモデルを適用することによって、異常スコアを決定するステップと;学習試料毎に、メチル化シーケンスリードの異常スコアを異常スコアの閾値と比較することによって、複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと;学習試料毎に、複数のゲノム領域におけるゲノム領域毎の、当該ゲノム領域内のメチル化シーケンスリードの総数に対する、当該領域内の異常にメチル化されたフラグメントのカウント数の比率を決定するステップと;学習試料毎に、複数のゲノム領域の全体にわたる上記比率から成る特徴ベクトルを生成するステップと;学習試料の特徴ベクトルを用いて学習分類器を学習させて、癌予測値を決定するステップとを含む。
【0011】
第1の態様によれば、確率ノイズモデルの学習は:ベイズ推論を用いて、複数のゲノム領域におけるゲノム領域毎に、平均値及び分散の事後分布を決定することを含み、ベイズ推論はマルコフ連鎖モンテカルロ法を用いて決定する。
【0012】
第1の態様によれば、事後分布がベータ二項分布である。
【0013】
第1の態様によれば、メチル化シーケンスリード毎に学習済み確率ノイズモデルによって決定した異常スコアが、メチル化シーケンスリードに対するp値(確率値)に基づき、このp値は、メチル化シーケンスリードが異常なメチル化を表す確率を示す。
【0014】
第1の態様によれば、メチル化シーケンスリード毎の異常スコアが、当該メチル化シーケンスリードに対するp値である。
【0015】
第1の態様によれば、メチル化シーケンスリード毎の異常スコアを、当該メチル化シーケンスリードに対して決定したp値に変換を適用することによって決定する。
【0016】
第1の態様によれば、この変換は対数関数または非線形関数である。
【0017】
第1の態様によれば、複数のゲノム領域のうちの第1ゲノム領域が第1平均値及び第1分散に関連し、複数のゲノム領域のうちの第2ゲノム領域が第2平均値及び第2分散に関連し、第2平均値及び第2分散は、それぞれ第1平均値及び第1分散と異なる。
【0018】
第1の態様によれば、複数のゲノム領域のうちの第1ゲノム領域が第1数のCpG部位を含み、複数のゲノム領域のうちの第2ゲノム領域が第2数のCpG部位を含み、第2数のCpG部位は第1数のCpG部位と異なる。
【0019】
第1の態様によれば、上記方法が:検査試料を個体から取得するステップと;検査試料の第2数のメチル化シーケンスリードから複数のシーケンスリードを生成するステップと;検査試料の第2数のメチル化シーケンスリードの各々について、当該メチル化シーケンスリードがオーバーラップするゲノム領域に関連する学習済み確率ノイズモデルを適用することによって、異常スコアを決定するステップと;検査試料のメチル化シーケンスリードの異常スコアを異常スコアの閾値と比較することによって、複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと;複数のゲノム領域におけるゲノム領域毎に、当該ゲノム領域内の検査試料のメチル化シーケンスリードの総数に対する、当該ゲノム領域内の検査試料の異常にメチル化されたフラグメントのカウント数の比率を決定するステップと;複数のゲノム領域の全体にわたる検査試料についての上記比率から成る検査特徴ベクトルを生成するステップと;上記学習させた分類器を検査特徴ベクトルに適用することによって、検査試料についての癌予測値を決定するステップとを更に含む。
【0020】
第1の態様によれば、癌予測値が検査試料の腫瘍の割合を推定する。
【0021】
第1の態様によれば、癌予測値が検査試料における病状の存在を示す。
【0022】
第1の態様によれば、上記病状が、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂の尿路上皮癌、尿路上皮癌以外の腎臓癌、前立腺癌、直腸肛門部癌、結腸直腸癌、食道癌、胃癌、肝細胞から発生する肝胆道癌、肝細胞以外の細胞から発生する肝胆道癌、膵臓癌、上部消化管の扁平上皮細胞癌、偏平上皮癌以外の上部消化管癌、頭頸部癌、肺癌、肺腺癌、小細胞肺癌、扁平上皮細胞肺癌、及び肺腺癌または小細胞肺癌以外の癌、神経内分泌癌、メラノーマ(黒色腫)、甲状腺癌、サルコーマ(肉腫)、多発性メラノーマ、リンパ腫、及び白血病、及び他の血液病から成るグループから選択される。
【0023】
第1の態様によれば、癌予測値が検査試料中に存在する癌の病期を示す。
【0024】
第1の態様によれば、メチル化シーケンスリードが無細胞DNAフラグメントのメチル化情報を含む。
【0025】
第1の態様によれば、上記方法が:複数の白血球(WBC)試料におけるWBC試料毎に、当該WBC試料からの複数のメチル化シーケンスリードの各々について、当該メチル化シーケンスリードがオーバーラップするゲノム領域に関連する学習済み確率ノイズモデルを適用することによって、異常スコアを決定するステップと;WBC試料毎に、メチル化シーケンスリードの異常スコアを異常スコアの閾値と比較することによって、複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと;複数のゲノム領域におけるゲノム領域毎に、当該ゲノム領域にオーバーラップし、かつ閾値数個の異常にメチル化されたフラグメントを有するWBC試料が、%比率の閾値を超えて存在する場合に、当該ゲノム領域をノイズ性としてラベル付けするステップとを更に含む。
【0026】
第1の態様によれば、上記方法が:ノイズ性としてラベル付けされたゲノム領域を、分類器の学習における使用から除外するステップを更に含み、学習試料に対して生成された特徴ベクトルは、ノイズ性としてラベル付けされたゲノム領域の上記比率を除外する。
【0027】
第1の態様によれば、上記方法が:複数のゲノム領域における各ゲノム領域にデフォルトの重みを割り当てるステップと;ノイズ性としてラベル付けされたゲノム領域に第1の重みを再度割り当てるステップであって、第1の重みはデフォルトの重みよりも低いステップと;学習試料毎に、特徴ベクトルの各比率に、当該比率に関連するゲノム領域に対応する重みを乗算するステップとを更に含む。
【0028】
第1の態様によれば、上記%比率の閾値を5%~40%の範囲から選択する。
【0029】
第1の態様によれば、異常にメチル化されたフラグメントの閾値数を1~10の範囲から選択する。
【0030】
第2の態様によれば、癌分類器を学習させる方法が:癌性試料及び非癌性試料を含む複数の学習試料の各々について、各学習試料は無細胞DNAフラグメントのメチル化情報を含む複数のメチル化シーケンスリードから成り:メチル化シーケンスリード毎に、当該メチル化シーケンスリードに確率ノイズモデルを適用して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを決定するステップであって、上記確率ノイズモデルは、複数のゲノム領域のうち当該メチル化シーケンスリードがオーバーラップするゲノム領域に対応し、各確率ノイズモデルは健康体試料からのメチル化シーケンスリードで学習済みであるステップと;ゲノム領域毎の特徴から成る特徴ベクトルを、当該ゲノム領域にオーバーラップし、かつ異常スコアの閾値を下回る異常スコアを有するメチル化シーケンスリードのカウント数に基づいて決定するステップと;学習試料の特徴ベクトルで癌分類器を学習させて、入力特徴ベクトルに基づいて癌予測値を決定するステップとを含む。
【0031】
第2の態様によれば、各確率ノイズモデルが、健康体試料からのメチル化シーケンスリードにおけるメチル化CpG部位の計量の平均値及び分散によってパラメータ化される。
【0032】
第2の態様によれば、各確率ノイズモデルを:ベイズ推論を用いて、複数のゲノム領域におけるゲノム領域毎の平均値及び分散の事後分布を決定することによって学習させ、ベイズ推論はマルコフ連鎖モンテカルロ法を用いて決定する。
【0033】
第2の態様によれば、事後分布がベータ二項分布である。
【0034】
第2の態様によれば、学習済み確率ノイズモデルによってメチル化シーケンスリード毎に決定される異常スコアが、当該メチル化シーケンスリードに対するp値に基づき、このp値は、当該メチル化シーケンスリードが異常なメチル化を表す確率を示す。
【0035】
第2の態様によれば、メチル化シーケンスリード毎の異常スコアが、当該メチル化シーケンスリードに対するp値である。
【0036】
第2の態様によれば、メチル化シーケンスリード毎の異常スコアを、当該メチル化シーケンスリードに対して決定したp値に変換を適用することによって決定する。
【0037】
第2の態様によれば、この変換は対数関数または非線形関数である。
【0038】
第2の態様によれば、複数のゲノム領域のうちの第1ゲノム領域が第1平均値及び第1分散に関連し、複数のゲノム領域のうちの第2ゲノム領域が第2平均値及び第2分散に関連し、第2平均値及び第2分散は、それぞれ第1平均値及び第1分散と異なる。
【0039】
第2の態様によれば、複数のゲノム領域のうちの第1ゲノム領域が第1数のCpG部位を含み、複数のゲノム領域のうちの第2ゲノム領域が第2数のCpG部位を含み、第2数のCpG部位は第1数のCpG部位と異なる。
【0040】
第2の態様によれば、上記方法が:複数の白血球(WBC)試料におけるWBC試料毎に、当該WBC試料からの複数のメチル化シーケンスリードの各々に対する異常スコアを、当該メチル化シーケンスリードがオーバーラップするゲノム領域に関連する学習済み確率ノイズモデルを適用することによって決定するステップと;WBC試料毎に、メチル化シーケンスリードの異常スコアを異常スコアの閾値と比較することによって、複数のゲノム領域における各ゲノム領域内の異常にメチル化されたフラグメントのカウント数を測定するステップと;複数のゲノム領域におけるゲノム領域毎に、当該ゲノム領域にオーバーラップし、かつ閾値数個の異常にメチル化されたフラグメントを有するWBC試料が、%比率の閾値を超えて存在する場合に、当該ゲノム領域をノイズ性としてラベル付けするステップとを更に含む。
【0041】
第2の態様によれば、上記方法が:ノイズ性としてラベル付けされたゲノム領域を、分類器の学習における使用から除外するステップを更に含み、学習試料に対して生成された特徴ベクトルは、ノイズ性としてラベル付けされたゲノム領域の比率を除外する。
【0042】
第2の態様によれば、上記方法が:複数のゲノム領域における各ゲノム領域にデフォルトの重みを割り当てるステップと;ノイズ性としてラベル付けされた領域に第1の重みを再度割り当てるステップであって、第1の重みはデフォルトの重みよりも低いステップと;学習試料毎に、特徴ベクトルの各比率に、当該比率に関連するゲノム領域に対応する重みを乗算するステップとを更に含む。
【0043】
第2の態様によれば、上記比率の閾値を5%~40%の範囲から選択する。
【0044】
第1の態様によれば、異常にメチル化されたフラグメントの閾値数を1~10の範囲から選択する。
【0045】
第3の態様によれば、無細胞DNAフラグメントのメチル化情報を含む複数のメチル化シーケンスリードを含む検査試料の癌の状態を予測する方法が:メチル化シーケンスリード毎に、当該メチル化シーケンスリードに確率ノイズモデルを適用して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを決定するステップであって、確率ノイズモデルは、複数のゲノム領域のうち当該メチル化シーケンスリードがオーバーラップするゲノム領域に対応し、各確率ノイズモデルは健康体試料からのメチル化シーケンスリードで学習させた学習済み確率ノイズモデルであるステップと;ゲノム領域毎の特徴から成る特徴ベクトルを、当該ゲノム領域にオーバーラップし、かつ異常スコアの閾値を下回る異常スコアを有するメチル化シーケンスリードのカウント数に基づいて決定するステップと;この特徴ベクトルに癌分類器を適用して癌予測値を決定するステップとを含む。
【0046】
第3の態様によれば、第1または第2の態様の方法によって癌分類器を学習させる。
【0047】
第3の態様によれば、癌予測値が検査試料における腫瘍の比率を推定する。
【0048】
第3の態様によれば、癌予測値が検査試料における病状の存在を示す。
【0049】
第3の態様によれば、上記病状が、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂の尿路上皮癌、尿路上皮癌以外の腎臓癌、前立腺癌、直腸肛門部癌、結腸直腸癌、食道癌、胃癌、肝細胞から発生する肝胆道癌、肝細胞以外の細胞から発生する肝胆道癌、膵臓癌、上部消化管の扁平上皮細胞癌、偏平上皮癌以外の上部消化管癌、頭頸部癌、肺癌、肺腺癌、小細胞肺癌、扁平上皮細胞肺癌及び肺腺癌または小細胞肺癌以外の癌、神経内分泌癌、メラノーマ(黒色腫)、甲状腺癌、サルコーマ(肉腫)、多発性メラノーマ、リンパ腫、及び白血病、及び他の血液病から成るグループから選択される。
【0050】
第3の態様によれば、癌予測値が検査試料中に存在する癌の病期を示す。
【0051】
第3の態様によれば、上記方法が:癌予測値を、癌予測値に基づく治療法の推奨と共に戻すステップを更に含む。
【0052】
第4の態様によれば、複数の確率ノイズモデルを学習させる方法が:複数のゲノム領域におけるゲノム領域毎に:当該ゲノム領域にオーバーラップする健康体試料からのメチル化シーケンスリードを集約するステップであって、各健康体試料が複数のメチル化シーケンスリードを含み、メチル化シーケンスリードは無細胞DNAフラグメントのメチル化情報を含むステップと;集約したメチル化シーケンスリードで確率ノイズモデルを学習させて学習済み確率ノイズモデルとするステップとを含み、学習済み確率ノイズモデルは、メチル化シーケンスリードを入力して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを出力するように構成されている。
【0053】
第4の態様によれば、確率ノイズモデルを学習させるステップが:ベイズ推論を用いて、ゲノム領域についての平均値及び分散の事後分布を決定することを含み、ベイズ推論はマルコフ連鎖モンテカルロ法を用いて決定する。
【0054】
第4の態様によれば、事後分布がベータ二項分布である。
【0055】
第4の態様によれば、メチル化シーケンスリード毎に学習済み確率ノイズモデルによって決定した異常スコアが、当該メチル化シーケンスリードに対するp値に基づき、このp値は、当該メチル化シーケンスリードが異常なメチル化を表す確率を示す。
【0056】
第4の態様によれば、メチル化シーケンスリード毎の異常スコアが、当該メチル化シーケンスリードに対するp値である。
【0057】
第4の態様によれば、メチル化シーケンスリード毎の異常スコアを、当該メチル化シーケンスリードに対して決定したp値に変換を適用することによって決定する。
【0058】
第4の態様によれば、この変換は対数関数または非線形関数である。
【0059】
第4の態様によれば、複数のゲノム領域のうちの第1ゲノム領域が第1平均値及び第1分散に関連し、複数のゲノム領域のうちの第2ゲノム領域が第2平均値及び第2分散に関連し、第2平均値及び第2分散は、それぞれ第1平均値及び第1分散と異なる。
【0060】
第4の態様によれば、複数のゲノム領域のうちの第1ゲノム領域が第1数のCpG部位を含み、複数のゲノム領域のうちの第2ゲノム領域が第2数のCpG部位を含み、第2数のCpG部位は第1数のCpG部位と異なる。
【0061】
第4の態様によれば、各ゲノム領域が、50個を上回らない、60個を上回らない、70個を上回らない、80個を上回らない、90個を上回らない、または100個を上回らないCpG部位である。
【0062】
第4の態様によれば、複数のゲノム領域における各ゲノム領域が、少なくとも1つの、少なくとも2つの、少なくとも3つの、少なくとも4つの、少なくとも5つの、少なくとも6つの、少なくとも7つの、少なくとも8つの、少なくとも9つの、少なくとも10個の、少なくとも20個の、少なくとも30個の、または30個超のCpG部位を含む。
【0063】
第4の態様によれば、各ゲノム領域が1つ以上の隣接するCpG部位を含む。
【0064】
第5の態様によれば、システムがコンピュータ・プロセッサ及びメモリを具え、メモリはコンピュータプログラムを記憶し、コンピュータプログラムは、コンピュータ・プロセッサによって実行されると、上記の態様のいずれかの方法をプロセッサに実行させる。
【0065】
第6の態様によれば、非一時的コンピュータ可読媒体がコンピュータプログラム命令を記憶し、コンピュータプログラム命令は、プロセッサを含む電子装置によって実行されると、上記の態様のいずれかの方法を装置に実行させる。
【0066】
第7の態様によれば、コンピュータプログラム製品が非一時的コンピュータ可読媒体を具え、非一時的コンピュータ可読媒体は、検査試料中の癌を予測する機械学習癌分類器を記憶し、この製品は第1または第2の態様の方法によって構成される。
【0067】
第8の態様によれば、コンピュータプログラム製品が非一時的コンピュータ可読媒体を具え、非一時的コンピュータ可読媒体は、異常なメチル化を表すメチル化シーケンスリードを決定するための複数の確率ノイズモデルを記憶し、この製品は第4の態様の方法によって構成される。
【0068】
第9の態様によれば、治療キットが:検査試料からDNAフラグメントを分離し、分離したDNAフラグメントをシーケンス解析して複数のメチル化シーケンスリードを取得するための試薬を具え、メチル化シーケンスリードはDNAフラグメントのメチル化情報を含む。
【0069】
上記治療キットは、試薬を使用するための命令;及びメチル化シーケンスリードを解析するための命令を記憶する非一時的コンピュータ可読記憶媒体を更に具え、これらの命令は、プロセッサによって実行されると、プロセッサに動作を実行させ、これらの動作は:メチル化シーケンスリード毎に、複数のゲノム領域のうち当該メチル化シーケンスリードがオーバーラップするゲノム領域に対応する確率ノイズモデルを当該メチル化シーケンスリードに適用して、健康体試料中にメチル化パターンが観測される尤度を示す異常スコアを決定することであって、各確率ノイズモデルは健康体試料からのメチル化シーケンスリードで学習させた学習済み確率ノイズモデルであることと;異常スコアの閾値を下回る異常スコアを有し、かつ当該ゲノム領域にオーバーラップするメチル化シーケンスリードのカウント数に基づいて、ゲノム領域毎の特徴から成る特徴ベクトルを決定することと;特徴ベクトルに癌分類器を適用して癌予測値を決定することと;癌予測値を、癌予測値に基づく治療法の推奨と共に戻すこととを含む。
【0070】
第9の態様によれば、第1または第2の態様の方法によって癌分類器を学習させる。
【0071】
第9の態様によれば、第1または第2の態様の方法によって複数の確率モデルを学習させる。
【0072】
図面は、本発明の実施形態を例示目的で示すに過ぎない。当業者は、以下の説明より、本明細書中に記載する本発明の原理から逸脱することなしに、本明細書中に例示する構造及び方法の代案の実施形態を採用することができることを容易に認識する。
【図面の簡単な説明】
【0073】
【
図1】1つ以上の実施形態による、試料の癌分類の全体ワークフローを記述する好適なフローチャートである。
【
図2】
図2Aは、一実施形態による、核酸試料をシーケンス解析する装置の流れ図であり、
図2Bは、一実施形態による解析システムのブロック図である。
【
図3】いくつかの実施形態による、核酸をシーケンス解析するプロセスを記述するフローチャートである。
【
図4】いくつかの実施形態による、核酸フラグメントをシーケンス解析して1つ以上のメチル化部位におけるメチル化状態を取得する、
図3のプロセスの一部を示す図である。
【
図5】
図5Aは、1つ以上の確率ノイズモデルを学習させる方法のフローチャートであり、
図5Bは、一実施形態による、学習済み確率ノイズモデルを利用する方法のフローチャートである。
【
図6】
図6Aは、いくつかの実施形態による、試料の核酸フラグメントから癌予測値を決定する分類器を学習させる方法のフローチャートであり、
図6Bは、いくつかの実施形態による、検査試料について癌予測値を決定する方法のフローチャートである。
【
図7】実現例による、確率ノイズモデルのパラメータの事後分布を示す図である。
【
図8】
図8A、8B、及び8Cは、実現例による、メチル化CpG部位のフラグメント・メチル化の割合、及びメチル化CpG部位のカウント数を示す図である。
【
図9】
図9A及び9Bは、実現例による、試料サイズを変化させたシミュレーションを用いた、平均値及び分散パラメータ推定を示す図である。
【
図10】
図10Aは、実現例による、病状によって異常にメチル化されたフラグメントの累積度数を示す図であり、
図10Bは、実現例による、癌の病期によって異常にメチル化されたフラグメントの累積度数を示す図である。
【
図11】実現例による、受信者動作特性(ROC)曲線を示す図であり、異常にメチル化されたフラグメントを検出する学習済み分類器の性能を示す。
【
図12】実現例による、分類器の検出率の表であり、一部の分類器はフィルタ処理で除去したノイズ性領域で学習済みである。
【
図13】本発明の種々の方法を実現するためのコンピュータシステムの一例の概略図である。
【発明を実施するための形態】
【0074】
詳細な説明
以下、いくつかの実施形態を詳細に参照し、その例を添付した図面に図示する。なお、実行可能な際は常に、同様または類似の参照番号を複数の図面中に用いることがあり、これらは同様または類似の機能を示すことがある。
【0075】
I. 概要
I.A. 癌の分類ワークフロー
図1は、1つ以上の実施形態による、試料の癌分類全体のワークフロー(作業の流れ)100を記述するフローチャートである。ワークフロー100は、1つ以上の実体によるものであり、例えばヘルスケア(健康管理)提供者、シーケンシング装置、解析システム、等を含む。ワークフローの目的は、個体における癌を検出及び/または監視することを含む。ヘルスケアの立場から、ワークフロー100は、他の既存の癌診断ツールを補完する役割を果たすことができる。ワークフロー100は、早期癌の検出及び/または定期的な癌の監視を提供して、癌と診断された個体向けの治療計画をより良好に情報提供する役割を果たすことができる。全体ワークフロー100は、
図1に示すものよりも追加的な/少数のステップを含むことができる。
【0076】
ヘルスケア提供者は、試料収集110を実行する。癌分類を受ける個体は、自分のヘルスケア提供者を訪れる。ヘルスケア提供者は、癌分類を実行するための試料を収集する。生体試料の例は、被験体の組織生検、血液、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸膜液、心膜液、または腹水を含み、但しこれらに限定されない。試料は、個体に属する遺伝物質を含み、癌分類用に抽出してシーケンス解析することができる。一旦、試料を収集すると、この試料をシーケンシング装置に提供する。試料と共に、ヘルスケア提供者は、個体に関する他の情報、例えば生物的性、年齢、民族性、喫煙状態、あらゆる以前の診断、等を収集することができる。
【0077】
シーケンシング装置は試料シーケンシング120を実行する。シーケンシング装置の一例を
図2Aに記載する。実験室の臨床医は、シーケンシングの準備に当たり、1つ以上の処理を試料に対して実行することができる。一旦準備されると、臨床医は試料をシーケンシング装置内にロード(装荷)する。シーケンシング装置は、一般に、核酸のフラグメントを抽出して分離し、これらのフラグメントをシーケンス解析して、フラグメントに対応する核酸塩基のシーケンスを決定する。シーケンシングは、核酸物質の増幅を含むこともできる。異なるシーケンシングプロセスは、サンガー(Sanger)シーケンシング、フラグメント解析、及び次世代シーケンシングを含む。シーケンシングは、全ゲノム・シーケンシング、またはターゲットパネルによるターゲット(標的)シーケンシングとすることができる。DNAメチル化の関係では、(例えば、
図2A及び2Bにおいて更に説明する)重亜硫酸シーケンシングが、CpG部位における非メチル化シトシンのバイサルファイト(亜硫酸水素塩)変換によりメチル化状態を判定することができる。試料のシーケンシング120が、試料中の複数の核酸フラグメントについてのシーケンスを生じさせる。1つ以上の実施形態では、シーケンスがメチル化状態ベクトルを含むことができ、ここでは、各メチル化状態ベクトルが、1つのフラグメント上のCpG部位についてのメチル化状態を記述する。
【0078】
解析システムは解析前処理130を実行する。解析システムの一例を
図2Bに記載する。解析前処理130は、シーケンスリードの重複除外、カバレッジ(カバー範囲)に関する計量を測定すること、試料が汚染されているか否かを判定すること、汚染されたフラグメントの除去、シーケンシングエラーをコールする(シーケンス解析の誤りを検出する)こと、等を含むことができ、但しこれらに限定されない。
【0079】
解析システムは1つ以上の解析140を実行する。解析は、試料を導出した個体の少なくとも癌の状態を予測するための、統計分析または1つ以上の学習済みモデルの適用である。CpG部位のメチル化、一塩基多型(SNP:single nucleotide polymorphism)、挿入削除(indel)、他の種類の遺伝子変異(遺伝変種)といった異なる遺伝的特徴を評価して考慮することができる。メチル化の関係では、解析140が(例えば、
図5A及び5Bにおいて更に説明する)異常メチル化識別142、(例えば、
図6A及び6Bにおいて更に説明する)特徴抽出144、及び(例えば、
図6A及び6Bにおいて更に説明する)癌分類器146を適用して癌予測値を決定することを含むことができる。癌分類器146は、抽出された特徴を入力して癌予測値を決定する。癌予測値はラベルまたは値とすることができる。ラベルは、特定の癌の病状を示すことができ、例えば、バイナリ(二者択一)ラベルは癌の存在または不存在を示すことができ、マルチクラスラベルは、スクリーニングされる複数種類の癌のうちの1つ以上の種類の癌を示すことができる。値は、特定の癌の病状、例えば癌の可能性、及び/または特定種類の癌の可能性を示すことができる。
【0080】
解析システムは、予測値150をヘルスケア提供者に戻す。ヘルスケア提供者は、癌予測値に基づいて治療計画を確立または調整することができる。治療の最適化は、V.C.節 治療で更に説明する。
【0081】
癌分類ワークフロー100は、早期癌検出の分野に対する技術的で新規な解決策である。早期癌検出では、腫瘍細胞が増殖し始めるか増殖したばかりであり、癌検出用の従来のツール下では見落とされる。これらの従来技術は、生検及びシーケンシングによりさらに検査すべき大幅な増殖または病変を見極めるために、先進の撮像技術に重度に依存する。これらの技術は、増殖前または初期の増殖の癌を検出しようとする課題に対して準備不足である。癌分類ワークフロー100は、個体の遺伝物質を検査して、癌またはその発症の切迫を示す遺伝的兆候または特徴を検出することによって、技術的解決策を提供する。それでも、遺伝的特徴を識別することは、労働集約的な作業であり、干し草の山の中の針を見付けるに等しい。以下で更に説明するように、確率モデルの学習及び利用は、検査試料中の異常にメチル化されたフラグメントを特定するための技術的解決策を具体化し、この検査試料は10,000個超の一意的な核酸分子を含むことができる。次に、解析システムは、干し草の中の針である以上にメチル化されたフラグメントを利用して癌分類器を学習させ、癌分類器は癌の前兆を高度な信頼度で検出することができる。こうした癌の前兆の検出は、実際に、早期癌検出、及び癌治療の有効性を監視することのような他の実用的用途に適用することができる。更に、これらの解析技術は、抽象的思想は採用しない、というのは、抽象的思想は、生存する個体から収集した生体試料中に存在する物理的な核酸フラグメントのシーケンスリードを解析することを基礎とするからである。
【0082】
I.B. メチル化の概要
本発明によれば、個体からのcfDNAフラグメントを、例えば非メチル化シトシンをウラシルに変換し、シーケンス解析し、シーケンスリードを基準(リファレンス)ゲノムと比較して、DNAフラグメント内の特定のCpG部位におけるメチル化状態を識別することによって処理する。各CpG部位はメチル化されていても非メチル化でもよい。健康な個体と比較して異常にメチル化されたフラグメントの識別は、被験体の癌の病識を提供することができる。(健康体の対照群と比較した)DNAメチル化異常は、異なる影響を生じさせ得るし、これらの影響が癌に寄与し得る。異常にメチル化されたcfDNAフラグメントの識別には、種々の挑戦が生じる。最初に、DNAフラグメントを異常にメチル化されているものと判定することは、対照群の個体と比較して重みを保ち、このため、対照群が少人数であれば、この判定は、より小さいサイズの対照群内の統計的変動性に起因して、信頼度を失う。それに加えて、対照群の個体間でメチル化の状態が変わり得るし、このことは、被験体のDNAフラグメントが異常にメチル化されているものと判定する際に、明らかにすることが困難であり得る。他の注記では、CpG部位におけるシトシンのメチル化が、因果的に、後続するCpG部位におけるメチル化に影響し得る。こうした依存性を封じることは、それ自体が他の挑戦になり得る。
【0083】
メチル化は、代表的には、シトシン塩基のピリミジン環上の水素原子がメチル基に変わって5-メチルシトシンを形成する際に、デオキシリボ核酸(DNA)中に発生する。特に、メチル化は、本明細書中ではCpGと称するシトシン及びグアニンのジヌクレオチドにおいて発生し得る。他の例では、メチル化が、CpG部位の一部ではないシトシンにおいて、あるいはシトシンではないヌクレオチドにおいて発生し得る;しかし、これらはより稀な発生である。本発明では、明確さのために、CpG部位を参照してメチル化を説明する。異常なDNAメチル化は、高(過剰)メチル化または低メチル化として識別することができ、これらは共に癌の状態を示す。本開示の全体を通して、DNAフラグメントが閾値数を超えるCpG部位を具え、これらのCpG部位のうちメチル化されたもの、あるいは非メチル化であるものの%比率が、%比率の閾値を超える場合に、高メチル化及び低メチル化をDNAフラグメントについて特徴付けることができる。
【0084】
本明細書中に説明する原理は、非シトシンのメチル化を含めた非CpGの関係におけるメチル化の検出に同等に適用可能にすることができる。こうした実施形態では、メチル化を検出するために使用する湿潤な実験用分析試料(アッセイ)が、本明細書中に記載するものと異なることができる。更に、本明細書中に説明するメチル化状態ベクトルは、一般に、メチル化が発生しているか発生していない部位(たとえこれらの部位が明確にCpG部位ではなくても)である要素を含むことができる。この置き換えにより、本明細書中に説明するプロセスの残りの部分は同じにすることができ、その結果、本明細書中に説明する発明の概念は、これらの他の形態のメチル化に適用可能にすることができる。
【0085】
I.C. 定義
「個体」とは、人間、動物、または他のあらゆる多細胞生体組織を参照する。「健康な個体」とは、癌または疾患を有さないものと仮定される個体を参照する。「被験体」とは、癌または疾患を有するか有する可能性がある個体を参照する。
【0086】
「シーケンスリード」とは、個体から取得した試料からのヌクレオチド・シーケンスのリード(読取り値)を参照する。シーケンスリードは、現在技術において既知の種々の方法により取得することができる。「メチル化シーケンスリード」とは、核酸フラグメントのメチル化情報を示し、例えば重亜硫酸シーケンシングにより処理することができるあらゆるヌクレオチド・シーケンスを更に参照することができる。
【0087】
「リードセグメント」または「リード」とは、個体から取得したシーケンスリードを含むあらゆるヌクレオチド・シーケンス、及び/またはある個体から取得した試料からの初期のシーケンスリードから導出されるヌクレオチド・シーケンスを参照する。例えば、リードセグメントは、位置合わせしたシーケンスリード、崩壊したシーケンスリード、または縫い合わせたリードを参照することができる。更に、リードセグメントは、一塩基変異のような個別のヌクレオチド塩基を参照することができる。
【0088】
「一塩基変異」または「SNV」とは、シーケンス、例えば個体から読み取ったシーケンス内のヌクレオチドのある位置(例えば、部位)における、1つのヌクレオチドから異なるヌクレオチドへの置換を参照する。第1ヌクレオチド「X」から第2ヌクレオチド「Y」への置換は「X>Y」として表すことができる。例えば、シトシンからチミンSNVへの置換は「C>T」として表すことができる。
【0089】
「indel(挿入削除)」とは、シーケンスリード内に長さ及び位置(アンカー位置と称することもできる)を有する1つ以上の基のあらゆる挿入または削除を参照する。挿入は正の長さに相当するのに対し、削除は負の長さに相当する。
【0090】
「突然変異」とは、1つ以上のSNVまたはindelを参照する。
【0091】
「真陽性」とは、個体における真の生物、例えば癌、疾患、または生殖細胞変異の可能性の存在を参照する。真陽性は、健康な個体において自然に発生する突然変異(例えば、反復突然変異)、あるいは核酸試料の分析試料準備中のプロセスエラー(処理の誤り)のような他の人為的発生源によっては発生しない。
【0092】
「偽陽性」とは、誤って真陽性であるものとして判定された突然変異を参照する。一般に、偽陽性は、より大きな平均ノイズ比またはより大きなノイズ比の不確定性に関連するシーケンスリードを処理する際に、より発生しやすくなり得る。
【0093】
「無細胞核酸」、「無細胞DNA」、または「cfDNA」とは、個体内を循環し(例えば、血流)、1つ以上の正常細胞から、及び/または1つ以上の癌細胞から発生する核酸フラグメントを参照する。
【0094】
「循環腫瘍DNA」または「ctDNA(circulating tumor DNA)」とは、腫瘍細胞または他の種類の癌細胞から発生するデオキシリボ核酸フラグメントを参照し、これらは、例えば、瀕死の細胞のアポトーシス(細胞自然死)または壊死のような生体内作用(生物学的過程)の結果として個体の血流中に放出され得る、あるいは生存腫瘍細胞によって能動的に放出され得る。「循環腫瘍DNA」または「ctDNA」とは、腫瘍細胞または他の種類の癌細胞から発生するリボ核酸フラグメントを参照し、これらは、例えば、瀕死の細胞のアポトーシスまたは壊死のような生体内作用の結果として個体の血流中に放出され得る、あるいは生存腫瘍細胞によって能動的に放出され得る。
【0095】
「ゲノム核酸」、「ゲノムDNA」、または「gDNA(genomic DNA)」とは、1つ以上の正常細胞から発生する染色体DNAを含む核酸を参照する。種々の実施形態では、gDNAを、正常細胞(例えば非腫瘍細胞)から、あるいは腫瘍細胞(例えば、生検試料)から抽出することができる。一部の実施形態では、白血球のような血球系統からgDNAを導出することができる。
【0096】
「DNAフラグメント」、「フラグメント」、または「DNA分子」とは、一般に、あらゆるデオキシリボ核酸フラグメント、即ちcfDNA、gDNA、ctDNA、等を参照し得る。
【0097】
「メチル化パターン」とは、核酸フラグメント上のCpG部位のメチル化状態を参照する。
【0098】
「異常スコア」とは、メチル化シーケンスリードに対するスコア(得点)を参照し、このメチル化シーケンスリードは、こうしたメチル化パターンを健康体試料中に観測する可能性を示す。種々の実施形態では、異常スコアがp値であり、このp値は、上記フラグメントがオーバーラップするゲノム領域に対応する学習済み確率ノイズモデルを所与として較正した、上記メチル化パターンを観測する可能性を表す。
【0099】
「異常フラグメント」、「異常にメチル化されたフラグメント」、または「異常にメチル化されたパターンを有するフラグメント」とは、CpG部位の異常なメチル化のあるフラグメントを参照する。フラグメントの異常なメチル化は、確率ノイズモデルを用いて、フラグメントのメチル化を対照群中に観測する予測不可能性を識別して判定することができる。
【0100】
「極度のメチル化を有する異常フラグメント」または「UFXM(unusual fragment with extreme methylation)」とは、それぞれメチル化または非メチル化の、ある%比率の閾値(例えば、90%)を超える、少なくともある数(例えば、5つ)のCpG部位を有するフラグメントを参照する。
【0101】
「変異型対立遺伝子」または「ALT(alternative/alternate allele)」とは、例えば、既知の遺伝子に相当する「参照(基本)型対立遺伝子」と比較して1つ以上の変異を有する対立遺伝子を参照する。
【0102】
「シーケンシング深度」または「深度」とは、個体から取得した試料からのゲノムの同じ位置または場所から導出されたシーケンスリードまたはリードセグメントの総数を参照する。
【0103】
「変異型深度」または「AD(alternate/alternative depth)」とは、ALTをサポートする、例えばALTの変異を含む試料中のシーケンスリードまたはリードセグメントの数を参照する。
【0104】
「参照(基本)型深度」とは、候補の変異場所にある参照(基本)型対立遺伝子を含む試料中のシーケンスリードまたはリードセグメントの数を参照する。
【0105】
「変異頻度」、「対立遺伝子頻度」、または「AF(alternate/allele frequency)」とは、所与のALTの頻度を参照する。
【0106】
「変異」または「真性変異」とは、ゲノム中のある位置におけるSNVまたは変異ヌクレオチドを参照する。こうした変異は、個体内の癌の増殖及び/または進行を示し得る、あるいはもたらし得る。
【0107】
「エッジ変異」とは、シーケンスリードのエッジ(辺縁)付近に位置する、例えばシーケンスリードのエッジからヌクレオチドの閾値距離内に位置する変異を参照する。
【0108】
「候補変異」、「コールされた変異」、または「推定変異」とは、例えば、ゲノム中の変異であるものと判定された位置にある、ヌクレオチド・シーケンスにおいて検出された1つ以上のヌクレオチド変異を参照する。一般に、ヌクレオチド基は、試料から取得したシーケンスリード上の変異型対立遺伝子の存在に基づくコールされた変異と考えられ、シーケンスリードの各々はゲノム中のその位置をクロスオーバーする(範囲を越える)。候補変異の発生源は、最初は未知または不確定とすることができる。処理中に、候補変異は、(例えば、血液由来の)gDNA、あるいは癌によって侵された(例えば、腫瘍由来の)細胞のような予期される発生源に関連し得る。それに加えて、候補変異は真陽性としてコールすることができる。
【0109】
「非エッジ変異」とは、例えば、本明細書中に説明するエッジ変異フィルタ除去法を用いて、人為的プロセスから生じたものと判定されない候補変異を参照する。一部のシナリオでは、非エッジ変異が真の変異(例えば、ゲノム中の変異)でないことがある、というのは、非エッジ変異は、1つ以上の人為的プロセスとは対照的に、異なる理由により生じ得るからである。
【0110】
「生体試料」、「患者試料」または「試料」とは、被験体から取得してあらゆる試料を参照し、こうした試料は、被験体に関連する生物学的状態を反映することができ、遺伝物質、例えば無細胞DNAを含む。生物学的試料の例は、被験体の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸膜液、心膜液、または腹膜液を含み、但しこれらに限定されない。生物学的試料は、生体または死体から導出したあらゆる組織または物質を含むことができる。生物学的試料は無細胞試料とすることができる。生物学的試料は、核酸(例えば、DNAまたはRNA)あるいはそのフラグメントを含むことができる。「核酸」とは、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはそのあらゆる混合物またはフラグメントを参照することができる。試料中の核酸は無細胞核酸とすることができる。試料は液体試料または固体試料(例えば、細胞試料または組織試料)とすることができる。生物学的試料は、血液、血漿、血清、尿、膣液、(例えば、睾丸の)睾丸瘤からの液体、膣内洗浄液、胸膜液、腹水、脳脊髄液、唾液、汗、涙、喀痰、気管支肺胞洗浄液、乳首からの分泌物、体の異なる部位(例えば、甲状腺、乳房)からの吸引液、等の体液とすることができる。生物学的試料は糞便試料とすることができる。種々の実施形態では、無細胞DNA用に濃縮された生物学的試料(例えば、遠心分離法により得られた血漿試料)中のDNAの大部分を、無細胞にすることができる(例えば、DNAの50%、60%、70%、80%、90%、95%、または99%を無細胞にすることができる)。生物学的試料を処理して、組織または細胞構造を物理的に分離することができ(例えば、遠心分離及び/または細胞溶解(細胞融解))、これにより、細胞内成分を溶液中に解放することができ、この溶液は、酵素、緩衝液、食塩、洗剤、等を更に含有することができ、これらを用いて所領を解析用に用意することができる。一旦、核酸フラグメントまたは核酸試料をシーケンス解析すると、解析システムは、試料を、シーケンスリードを含むものとして電子的に表現することができる。
【0111】
「対照群」、「対照試料」、「基準」、「基準試料」、「健康体試料」、及び「正常試料」とは、特定の疾患を有さないか、さもなければ健康である被験体からの試料を記述する。一例では、本明細書中に開示する方法を、腫瘍を有する被験体に対して実行することができ、ここでは基準試料が被験体の健常組織から取得した試料である。基準試料は、被験体から、あるいはデータベースから取得することができる。基準は、例えば、被験体からの試料をシーケンス解析することにより取得した核酸フラグメントのシーケンスをマッピング(対応付け)するために用いる基準ゲノムとすることができる。基準ゲノムは、半数体または二倍体ゲノムを参照することができ、これらのゲノムに、生物学的試料または体質的試料からの核酸シーケンスを位置合わせして比較することができる。半数体ゲノムについては、各遺伝子座に1つのヌクレオチドしか存在しない。二倍体ゲノムについては、ヘテロ接合体遺伝子座を識別することができ;各ヘテロ接合体遺伝子座は2つの対立遺伝子を有することができ、いずれかの対立遺伝子は、遺伝子座に位置合わせするための一致を可能にすることができる。
【0112】
「癌」または「腫瘍」とは、組織の異常な集合体を参照し、この集合体の増殖は、正常組織の増殖を上回り、正常組織の増殖と調和しない。
【0113】
「健康である」とは、良好な健康状態を有する被験体を参照する。健康な被験体は、あらゆる悪性または良性の疾患の不在を実証することができる。「健康な個体」は、通常は「健康である」と考えられる、アッセイ(分析検査)される疾患とは無関係な他の病気または疾患を有し得る。
【0114】
「メチル化」とは、デオキシリボ核酸(DNA)の修飾を参照し、ここではシトシン塩基のピリミジン環上の水素原子がメチル基に変わって5-メチルシトシンを形成する。特に、メチル化は、本明細書中では「CpG部位」と称するシトシンとグアニンとのジヌクレオチドに発生する傾向がある。他の例では、メチル化は、CpG部位の一部ではないシトシンに、あるいはシトシンではない他のヌクレオチドに発生することがある;しかし、これらはより稀な発生である。異常なcfDNAメチル化は、高メチル化または低メチル化として識別することができ、これらの両者が癌の状態を示すことができる。(健康体の対照群と比較した)DNAメチル化異常は、異なる影響を生じさせ得る。この影響は癌に寄与し得る。本明細書中に説明する原理は、非シトシンのメチル化を含む、CpGの関係及び非CpGの関係におけるメチル化の検出に同等に適用可能である。更に、メチル化状態ベクトルは、一般に、メチル化が発生している部位または発生していない部位(たとえこれらの部位が具体的にCpG部位ではなくても)のベクトルである要素を含むことができる。
【0115】
「メチル化フラグメント」または「核酸メチル化フラグメント」とは、核酸(例えば、核酸分子及び/または核酸フラグメント)のメチル化シーケンシングによって測定される、複数のCpG部位におけるCpG部位毎のメチル化状態のシーケンスを参照する。メチル化フラグメントでは、核酸フラグメント中のCpG部位毎の位置及びメチル化状態を、(例えば、核酸のシーケンシングにより取得した)シーケンスリードと基準ゲノムとの位置合わせに基づいて測定する。核酸メチル化フラグメントは、複数のCpG部位(例えば、メチル化状態ベクトル)における各CpG部位のメチル化状態を含み、このメチル化状態は、(例えば、CpGインデックス、または他の同様な計量を用いた、核酸フラグメント中の第1CpG部位の位置によって指定される)基準ゲノム中の当該核酸フラグメントの位置、及び当該核酸フラグメント中のCpG部位の数を指定する。核酸分子のメチル化シーケンシングに基づく、基準ゲノムに対するシーケンスリードの位置合わせは、CpGインデックスを用いて実行することができる。本明細書中に用いる「CpGインデックス」とは、人間の基準ゲノムのような基準ゲノム中の複数のCpG部位(例えば、CpG1、CpG2、CpG3、等)における各CpG部位のリストを参照し、電子フォーマットとすることができる。CpGインデックスは、当該CpGインデックス中のそれぞれのCpG部位毎の、対応する基準ゲノム中の対応するゲノム位置を更に含む。従って、それぞれの核酸メチル化フラグメント中の各CpG部位は、それぞれの基準ゲノム中の特定位置に対してインデックス付けされ、この特定位置はCpGインデックスを用いて特定することができる。
【0116】
本明細書中に用いる用語は、特定の場合を記述する目的に過ぎず、限定的であることは意図していない。本明細書中に用いる単数の形式は、特に明確な断りのない限り、複数の形式も含むことを意図している。更に、「含んでいる」、「含む」、「有している」、「有する」、「伴う」、またはその変化語は、詳細な説明及び/または特許請求の範囲のいずれにも用いられ、こうした用語は「具える」と同様な様式で包含的である。
【0117】
I.D. 解析システムの例
図2Aは、一実施形態による、核酸試料をシーケンス解析する装置の流れ図である。この例示的な流れ図は、シーケンサ220及び解析システム200のような装置を含む。シーケンサ220と解析システム200とは協働して、本開示中に説明するプロセスのいずれかにおける1つ以上のステップを実行する。
【0118】
種々の実施形態では、シーケンサ220が濃縮された核酸試料210を受け入れる。
図2Aに示すように、シーケンサ220はグラフィカル・ユーザインタフェース225並びにローディング・ステーション(装荷用配置台)230を含むことができ、グラフィカル・ユーザインタフェース225は、特定タスク(例えば、シーケンシングを開始する、またはシーケンシングを終了する)とユーザとの対話を可能にし、ローディング・ステーション230は、濃縮されたフラグメント試料を含むシーケンシング・カートリッジをロードするための、及び/またはシーケンシング・アッセイ(分析検査)を実行するために必要な緩衝液をロードするためのものである。従って、一旦、シーケンサ220のユーザが、必要な試薬及びシーケンシング・カートリッジをシーケンサ220のローディング・ステーション230にロードすると、ユーザは、シーケンサ220のグラフィカル・ユーザインタフェース225と対話することによって、シーケンシングを開始することができる。一旦開始されると、シーケンサ220はシーケンシングを実行して、核酸試料210からの濃縮されたフラグメントのシーケンスリードを出力する。
【0119】
一部の実施形態では、シーケンサ220が解析システム200と通信結合されている。解析システム200はいくつかのコンピュータ装置を含み、これらのコンピュータ装置を用いて、シーケンスリードを、1つ以上のCpG部位におけるメチル化状態を評価すること、変異コール、または品質管理のような種々の用途向けに処理する。シーケンサ220は、シーケンスリードを、BAM(binary alignment map:バイナリ・アライメント・マップ)ファイルフォーマットで、解析システム200に提供することができる。解析システム200は、無線通信技術、有線通信技術、または無線通信技術と有線通信技術との組合せによりシーケンサ220に通信結合することができる。一般に、解析システム200は、プロセッサ及び非一時的コンピュータ可読記憶媒体を有して構成され、コンピュータ可読記憶媒体はコンピュータ命令を記憶し、コンピュータ命令は、プロセッサによって実行されると、プロセッサに、シーケンスリードを処理させ、あるいは本明細書中に開示する方法またはプロセスのいずれかの1つ以上を実行させる。
【0120】
一部の実施形態では、現在技術において既知の方法を用いて、シーケンスリードを基準ゲノムと位置合わせして、アライメント(位置合わせの)位置情報を決定することができる。アライメント位置は、一般に、所与のシーケンスリードの先頭のヌクレオチド塩基及び終端のヌクレオチド塩基に対応する、基準ゲノム中のある領域の先頭位置及び終端位置を記述することができる。メチル化シーケンシングに対応して、アライメント位置情報を一般化して、シーケンスリードに含まれる最初のCpG部位及び最後のCpG部位を、基準セグメントとの位置合わせに応じて示すことができる。アライメント位置情報は、所与のシーケンスリードにおける全部のCpG部位のメチル化状態及び位置を更に示すことができる。基準ゲノム中のある領域は、遺伝子または遺伝子のセグメントに関連することができ、このため、解析システム200は、シーケンスリードに、当該シーケンスリードと位置合わせされる1つ以上の遺伝子でラベル付けすることができる。一実施形態では、フラグメントの長さ(またはサイズ)が、先頭位置及び終端位置から決まる。
【0121】
種々の実施形態では、例えば、ペアエンド・シーケンシングプロセスを用いる際に、シーケンスリードがR_1及びR_2として表される一対のリードで構成される。例えば、第1リードR_1は二本鎖(二重鎖)DNA(dsDNA:double-stranded DNA)の第1端からシーケンス解析されるのに対し、第2リードR_2は二本鎖DNA(dsDNA)の第2端からシーケンス解析される。従って、第1リードR_1と第2リードR_2とのヌクレオチド塩基対は、整合的に(例えば、逆の配向で)基準ゲノムのヌクレオチド塩基と位置合わせすることができる。一対のリードR_1とR_2から導出されたアライメント位置情報は、第1リード(例えば、R_1)の終端に対応する基準ゲノム中の先頭位置、及び第2リード(例えば、R_2)の終端に対応する基準ゲノム中の終端位置を含むことができる。換言すれば、基準ゲノム中の先頭位置及び終端位置は、核酸フラグメントが対応しそうな基準ゲノム内の位置を表す。SAM(sequence alignment map:シーケンス・アライメント・マップ)フォーマットまたはBAM(バイナリ)フォーマットを有する出力ファイルを、更なる解析用に生成して出力することができる。
【0122】
図2Bは、一実施形態による、DNA試料を処理する解析システム200のブロック図である。この解析システムは、DNA試料を解析するに当たり使用される1つ以上のコンピュータ装置を実現する。解析システム200は、シーケンス・プロセッサ240、シーケンス・データベース245、1つ以上のモデル250、モデル・データベース255、スコアエンジン260、及びパラメータ・データベース265を含む。一部の実施形態では、解析システム200が、本開示中に説明するプロセスの一部または全部を実行する。
【0123】
シーケンス・プロセッサ240は、試料からのフラグメントに関するメチル化状態ベクトルを生成する。フラグメント上の各CpG部位において、シーケンス・プロセッサ240は、フラグメント毎のメチル化状態ベクトルを生成し、このメチル化状態ベクトルは、基準ゲノム中の当該フラグメントの位置、当該フラグメント中のCpG部位の数、及び当該フラグメント中の各CpG部位のメチル化状態、即ち、メチル化されているか非メチル化であるか、あるいは
図3及び4の下に説明するプロセスによりその中間であるかを指定する。シーケンス・プロセッサ240は、複数のフラグメントに関するメチル化ベクトルを、シーケンス・データベース245に記憶することができる。試料からのメチル化状態ベクトルが互いに関連するように、シーケンス・データベース245中のデータを編成することができる。
【0124】
更に、複数の異なるモデル250を、モデル・データベース255に記憶することができ、あるいは検査試料と共に使用するために読み出すことができる。モデル250は、ゲノムのゲノム領域について学習済みの確率ノイズモデル、及び異常フラグメントから導出した特徴ベクトルを用いて検査試料についての癌予測値を決定するための学習済みの癌分類器を含むことができる。フラグメント異常スコアを決定するための確率ノイズモデルの学習は、
図5Aにおいて更に説明する。癌分類器の学習及び使用は、
図6A及び6Bにおいて更に説明する。解析システム200は、1つ以上のモデル250を学習させて、種々の学習済みパラメータをパラメータ・データベース265に記憶することができる。解析システム200は、モデル250を、関数と共にモデル・データベース255に記憶する。
【0125】
推論中には、スコアエンジン260が1つ以上のモデル250を用いて出力を戻す。スコアエンジン260は、モデル・データベース255内のモデル250に、パラメータ・データベース265からの学習済みパラメータと共にアクセスする。各モデルに応じて、スコアエンジンは、当該モデルに適した入力を受信し、受信した入力、パラメータ、及び入力と出力に関係する各モデルの関数に基づいて出力を計算する。一部の場合には、スコアエンジン260が、モデルからの計算された出力における信頼度と相関のある計量を更に計算する。他の使用事例では、スコアエンジン260が、モデルにおいて使用される他の中間的な値を計算する。
【0126】
II. アッセイプロトコルの例
いくつかの実施形態による、核酸をシーケンス解析するプロセスを記述するフローチャートである。一部の実施形態では、プロセス300を実行して、癌分類ワークフロー100において用いるメチル化情報(メチル化CpG部位の計量)を生成する。核酸をシーケンス解析するプロセス300は、連動するシーケンサ220と解析システム200によって実行することができる。
【0127】
ステップ310では、核酸試料(例えば、DNAまたはRNA)を被験体から抽出する。本開示では、特に断りのない限りDNAとRNAとを互換的に用いる。即ち、本明細書中に説明する実施形態はDNA型及びRNA型の核酸シーケンスに共に適用可能である。しかし、本明細書中に説明する例は、明確さ及び説明の目的でDNAに焦点を当てることができる。試料は、全ゲノムを含むヒトゲノムのあらゆる部分集合から導出された核酸分子を含むことができる。試料は、血液、血漿、血清、尿、糞便、唾液、他の種類の体液、あるいはその任意の組合せを含むことができる。一部の実施形態では、血液試料を取り出す方法(例えば、注射器または指穿刺)は、外科手術を必要とし得る、組織生検を取得する手順よりも侵襲性が小さい。抽出した試料は、cfDNA及び/またはctDNAを含むことができる。被検体が癌のような病状を有する場合、被検体から抽出した試料中の無細胞核酸(例えば、cfDNA)は、一般に、病状を評価するために用いることができる検出可能なレベルの核酸を含む。
【0128】
ステップ315では、抽出した核酸(例えば、cfDNAフラグメントを含む)を処理して、非メチル化シトシンをウラシルに変換する。一部の実施形態では、方法300が試料のバイサルファイト処理を用い、バイサルファイト処理は、メチル化シトシンは変換せずに、非メチル化シトシンをウラシルに変換する。EZ DNA Methylation(登録商標)-Gold, EZ DNA Methylation(登録商標)-Direct DNA Methylation(登録商標)またはEZ DNA Methylation(登録商標)-Lightening kit(Zymo Research社(カリフォルニア州アーバイン)から入手可能)のような市販のキットを、バイサルファイト変換用に用いることができる。他の実施形態では、非メチル化シトシンのウラシルへの変換を、酵素反応を用いて実現する。例えば、この変換は、非メチル化シトシンのウラシルへの変換用の市販のキット、例えばAPOBEC-Seq(NEBiolabs社、マサチューセッツ州イプスウィッチ)を用いることができる。
【0129】
ステップ320では、シーケンシング・ライブラリを用意する。一部の実施形態では、この用意が少なくとも2つのステップを含む。第1ステップでは、ssDNA(single strand DNA:一本鎖DNA)連結反応(ライゲーション)を用いて、バイサルファイト変換したssDNAの3’-OH端にssDNAアダプターを追加する。一部の実施形態では、ssDNA連結反応がCircLigase II(Epicentre社)を用いて、バイサルファイト変換したssDNA分子の3’-OH端にssDNAアダプターを結合し、アダプターの5’-端をリン酸化し、バイサルファイト変換したssDNAは脱リン酸化される(即ち、3’端がヒドロキシル基を有する)。他の実施形態では、ssDNA連結反応がThermostable 5’AppDNA/RNA ligase(熱安定5’AppDNA/RNAリガーゼ:New England Biolabs社(マサチューセッツ州イプスウィッチ)から入手可能)を用いて、バイサルファイト変換したssDNA分子の3’-OH端にssDNAアダプターを結合する。本例では、第1UMI(unique molecular identifier:分子バーコード)アダプターを、5’-端ではアデニル化して、3’-OHではブロックする。他の実施形態では、ssDNA連結反応がT4 RNA ligase(New England BioLabs社から入手可能)を用いて、バイサルファイト変換したssDNA分子の3’-OH端にDNAアダプターを結合する。
【0130】
第2ステップでは、拡張反応で第二鎖DNAを合成する。例えば、ssDNAアダプター中に含まれるプライマー・シーケンスを交雑させる拡張プライマーを、プライマー拡張反応中に用いて、二本鎖バイサルファイト変換DNA分子を形成する。任意で、一部の実施形態では、拡張反応が、バイサルファイト変換テンプレート鎖中のウラシル残基を通して読み取ることができる酵素を用いる。
【0131】
任意で、第3ステップでは、二本鎖バイサルファイト変換DNA分子にdsDNAアダプターを追加する。次に、二本鎖バイサルファイト変換DNAを増幅して、シーケンシング・アダプターを追加する。例えば、P5シーケンスを含むフォワード・プライマー及びP7シーケンスを含むリバース・プライマーを用いるPCR(polymerase chain reaction:ポリメラーゼ連鎖反応)増幅を用いて、P5及びP7シーケンスをバイサルファイト変換DNAに追加する。任意で、ライブラリの準備中に、アダプター連結反応により、分子バーコード(UMI)を核酸分子(例えば、DNA分子)に追加することができる。UMIは短い核酸シーケンス(例えば、4~10塩基対)であり、アダプター連結反応中にDNAフラグメントの端に追加される。一部の実施形態では、UMIが縮退塩基対であり、特定のDNAフラグメントから発生するシーケンスリードを識別するために使用することができる一意的なタグとして機能する。アダプター連結反応に続くPCR増幅中に、UMIを、当該UMIが付着したDNAフラグメントと共に複製し、このことは、下流の解析において、同じ元のフラグメントに由来するシーケンスリードを識別する方法を提供する。
【0132】
任意のステップ325では、核酸(例えば、フラグメント)を交雑させることができる。交雑プローブ(本明細書中では「プローブ」とも称する)を用いて、病状を情報提供する核酸フラグメントを標的にして引き下ろすことができる。所与のワークフローについては、DNAまたはRNAの標的鎖(相補鎖)をアニール(または標的鎖と交雑)するようにプローブを設計することができる。標的鎖は、「正の」鎖(例えば、mRNA(messenger RNA:メッセンジャーRNA)に転写、その後にタンパク質に翻訳される鎖)とすることができ、あるいは相補的な「負の」鎖とすることができる。プローブは、塩基対の10倍、100倍、または1000倍の範囲の長さにすることができる。更に、プローブは、ターゲット領域のオーバーラップする部分をカバーすることができる。
【0133】
任意のステップ330では、交雑させた核酸フラグメントを捕捉して、濃縮すること、例えばPCRを用いて増幅することができる。一部の実施形態では、ターゲットDNAシーケンスをライブラリから濃縮することができる。このことは、例えば、ターゲットパネル・アッセイを試料に対して実行する場合に用いる。例えば、ターゲット・シーケンスを濃縮して、その後のシーケンス解析することができる濃縮シーケンスを得ることができる。一般に、現在技術において既知のあらゆる方法を用いて、プローブと交雑されたターゲット核酸を分離して濃縮することができる。例えば、現在技術において周知のように、ストレプトアビジンでコーティングした表面(例えば、ストレプトアビジンでコーティングしたビーズ)を用いて、プローブの5’-端にビオチンの一部分を追加して(即ち、ビオチニル化して)、プローブと交雑したターゲット核酸の分離を促進することができる。
【0134】
一部の実施形態では、プローブのうちの1つ以上(または全部)が、遺伝子パネルに基づいて、特定の癌または他の種類の疾患に相当する疑いのある(例えば、人間または他の生命体の)ゲノムの特定の変異またはターゲット領域を解析するように設計されている。全エクソーム・シーケンシングとしても知られている、ゲノムの発現した全部の遺伝子をシーケンス解析するのではなく、ターゲット遺伝子パネルを用いることによって、方法300を用いて、ターゲット領域のシーケンシング深度を増加させることができ、ここで深度は、試料内の所与のターゲット・シーケンスをシーケンス解析した回数のカウント値を参照する。シーケンス深度を増加させることは、核酸試料の必要な入力量を低減する。
【0135】
ステップ335では、シーケンスリードを核酸試料、例えば濃縮シーケンスから生成する。シーケンシングデータは、現在技術において既知の手段によって、濃縮DNAシーケンスから取得することができる。例えば、上記方法は次世代シーケンシング(NGS:next generation sequencing)技術を含むことができ、NGS技術は、合成技術(イルミナ(Illumina)社)、パイロシーケンシング(454 Life Sciences社)、イオン半導体技術(Ion Torrent sequencing社)、単一分子リアルタイム・シーケンシング(Pacific Biosciences社)、連結反応によるシーケンシング(SOLiD sequencing社)、ナノ細孔シーケンシング(Oxford Nanopore Technologies社)、またはペアエンド・シーケンシングを含む。一部の実施形態では、可逆的染料ターミネーターによる、合成によるシーケンシングを用いて、超多重並列シーケンシングを実行する。
【0136】
ステップ340では、シーケンス・プロセッサ210が、シーケンスリードを用いてメチル化情報を生成することができる。1つ以上の実施形態では、メチル化情報がメチル化ベクトルを含み、メチル化ベクトルは、核酸フラグメント上のCpG部位についてのメチル化状態から成る。
【0137】
図4は、一実施形態による、核酸をシーケンス解析してメチル化情報を取得する
図3のプロセスの一部を示す。一例として、cfDNAフラグメントが3つのCpG部位を含む。メチル基によって示すように、cfDNAフラグメントの第1及び第3CpG部位がメチル化されている。ステップ315の処理中に、cfDNAフラグメントを変換して変換cfDNAフラグメントを生成する。この処理中に、非メチル化であった第2CpG部位は、ウラシルに変換されるシトシンを有する。しかし、第1及び第3CpG部位は変換されない。
【0138】
この処理後に、シーケンシング・ライブラリを用意して、シーケンシング・プロセッサ210がシーケンスリードを生成する。一実施形態では、シーケンス・プロセッサ210が、シーケンスリードを基準ゲノムと位置合わせする。基準ゲノムは、ヒトゲノム中の位置についての前後関係を提供し、この位置からcfDNAフラグメントが発生する。シーケンス・プロセッサ210は、上記3つのCpG部位がCpG部位23、24、及び25(説明の便宜上用いる任意の基準識別子)と相関があるように、シーケンスリードを位置合わせする。こうして、シーケンス・プロセッサ210は、cfDNAフラグメント上の全部のCpG部位のメチル化状態についての情報、及びCpG部位マップをヒトゲノム中に配置するための情報の両者を生成することができる。図示するように、メチル化されていたシーケンスリード上のCpG部位は、シトシンとして読み取られる。メチル化ベクトルは、あるフラグメントによってカバーされるCpG部位毎のメチル化状態を順に並べることができる。
【0139】
本例では、第1及び第3CpG部位のみにシトシン塩基が出現し、このことは、シーケンス・プロセッサ210が、元のcfDNAフラグメント中の第1及び第3CpG部位がメチル化されていたものと推論することを可能にする。それに加えて、第2CpG部位はチミンとして読み取られ(シーケンシングプロセス中にU(uracil:ウラシル)がT(thymine:チミン)に変換され)、従って、シーケンス・プロセッサ210は、第2CpG部位が元のcfDNAフラグメントでは非メチル化であったものと推論することができる。メチル化の状態及び位置により、シーケンス・プロセッサ210は、cfDNAフラグメントについてのメチル化情報を(例えば、ある領域内のメチル化CpG部位の計量の平均値及び分散を決定するために)生成する。一部の実施形態では、メチル化情報をメチル化ベクトル<M23,U24,M25>によって表現し、Mはメチル化CpG部位に相当し、Uは非メチル化CpG部位に相当し、下付きの数字は基準ゲノム中の各CpG部位の位置に相当する。
【0140】
III. メチル化フラグメント確率ノイズモデル
図5Aは、1つ以上の確率ノイズモデルを学習させる方法500のフローチャートである。解析システムは、確率ノイズモデルを、ゲノムの一組の領域における領域毎に学習させる。確率ノイズモデルは、健康体試料からの第1組の核酸フラグメント(例えば、学習データ)中のメチル化CpG部位の計量の平均値及び分散によってパラメータ化される。
【0141】
解析システムは、メチル化シーケンスリードを健康体試料から取得する(ステップ510)。種々の実施形態では、メチル化CpG部位の計量を、
図3の方法300を用いて取得することができる。試料からの核酸フラグメントは、異なる組織からの、あるいは組織生検からの種(しゅ)の混合物から脱落したcfDNAを含み得る。健康体試料は、一般に、前から存在する疾患がなく、あるいは癌または他の病気の診断がない。
【0142】
解析システムは、メチル化CpG部位の平均値及び分散によってパラメータ化された確率ノイズモデルを、あるゲノム領域について、当該ゲノム領域にオーバーラップするメチル化シーケンスリードに基づいて学習させる(ステップ520)。ゲノムには何百、何千、またはそれ以上の領域が存在することができる。一部の実施形態では、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも6000個、少なくとも7000個、少なくとも8000個、少なくとも9000個、少なくとも10000個のゲノム領域、少なくとも20000個のゲノム領域、少なくとも30000個のゲノム領域、少なくとも40000個のゲノム領域、少なくとも50000個のゲノム領域、少なくとも60000個のゲノム領域、少なくとも70000個のゲノム領域、少なくとも80000個のゲノム領域、または少なくとも100000個のゲノム領域が存在する。一部の実施形態では、各ゲノム領域が、50個程度、60個程度、70個程度、80個程度、90個程度、または100個程度のCpG部位である。一部のこうした実施形態では、複数の領域における各ゲノム領域が、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも20個、少なくとも30個、または30個超のCpG部位を含む。一部の実施形態では、各ゲノム領域が、隣接する1つ以上のCpG部位を含む。あるゲノム領域内のCpG部位の近接に基づいて、ゲノム領域を選択することができる。例えば、所定長のゲノム領域内のCpG部位の密度の閾値に基づいて、ゲノム領域を選択する。解析システムは、各メチル化シーケンスリードがどのゲノム領域にオーバーラップするかに基づいて、メチル化シーケンスリードを分離することができる。換言すれば、解析システムは、ゲノム領域毎に、当該ゲノム領域にオーバーラップするメチル化シーケンスリードを集約することができる。
【0143】
確率ノイズモデルは、学習用に使用される非癌試料に基づいて、CpG部位のベースライン(例えば、ノイズ)レベルを領域毎に提供することができる。種々の好適例では、所与のゲノム領域について、フラグメントyのメチル化CpG部位の数が、平均値パラメータφ及び分散パラメータκを有するベータ二項分布(beta_biomial)ランダム変数を用いて次式のようにモデル化され、ここにNはフラグメント中のメチル化CpG部位の数を表す:
y~beta_biomial(N,φ・κ,(1-φ)・κ)
平均値パラメータφは、学習データ中のメチル化CpG部位の平均レベルを表し、分散パラメータκは、組織の種類間でのメチル化CpG部位の変動性を表す。平均値及び分散パラメータの値は、異なる領域間で変化し得る。確率ノイズモデルを学習させることは、ベイズ推論を用いて、ゲノム領域毎に、平均値及び分散パラメータの事後分布を決定することを含むことができる。
【0144】
他の実現では、ベータ二項分布関数を次式のように定義することができる:
【数1】
フラグメントkを観測する尤度は、非癌の試料をn回参照することによってパラメータ化されたベータ二項分布のパラメータ化によって定義され、α及びβは、観測された非癌の学習試料に適合するように調整されたパラメータである。ベイズ推論は、マルコフ連鎖モンテカルロ法または他の適切なアルゴリズムを用いて決定することができる。
【0145】
各学習済み確率ノイズモデルは、ある核酸フラグメントについてのメチル化ベクトルを入力し、この核酸フラグメントについての異常スコアを出力するように構成することができる。異常スコアは、当該メチル化ベクトルを有するフラグメントを非癌の試料の集団から観測する尤度を示す。種々の実施形態では、異常スコアがp値であり、このp値は、学習済み確率ノイズモデルが与えられると、あるフラグメントを観測する較正された尤度を表す。換言すれば、このp値は、検査試料からの当該核酸フラグメントが異常にメチル化されている確率を示すことができる。より小さいp値は、あるフラグメントを観測する尤度がより低いことに相当し、従って、異常なメチル化または病状の尤度がより大きいことを示す。一部の実施形態では、解析システムが、例えば、対数関数または非線形関数を適用することによって、p値に変換を適用する。
【0146】
図5Bは、一実施形態による、学習済み確率ノイズモデルを利用する方法のフローチャートである。解析システムは、確率ノイズモデルを、
図5Aに図示して説明した方法500により学習させることができる。解析システムは、確率ノイズモデルを規定するパラメータを、
図2Bのモデル・データベース255に記憶することができる。
【0147】
解析システムは、試料についてのメチル化シーケンスリードを取得する(ステップ540)。試料は学習試料または検査試料とすることができる。メチル化シーケンスリードは、ゲノム中の1つ以上のCpG部位についての、少なくともメチル化状態を含む。
【0148】
解析システムは、上記メチル化シーケンスリードがオーバーラップするゲノム領域を識別する(ステップ550)。解析システムは、上記メチル化シーケンスリードがオーバーラップするCpG部位に基づいてゲノム領域を識別することができる。例えば、第1ゲノム領域は、1つの染色体上の一連のCpG部位をカバーすることができる。解析システムは、メチル化シーケンスリードを、上記1つの染色体上の同じ一連のCpG部位にオーバーラップするものとして識別する。
【0149】
解析システムは、識別したゲノム領域について学習済みの確率ノイズモデルを上記メチル化シーケンスリードに適用して、異常スコアを決定する(ステップ560)。解析システムは、(例えば、
図3の方法300により決定した)メチル化ベクトルを、この学習済み確率ノイズモデルに入力し、この学習済み確率ノイズモデルは、このメチル化ベクトルに対する異常スコアを出力する。
【0150】
図6Aは、いくつかの実施形態による、試料の核酸フラグメントから癌予測値を決定する分類器を学習させる方法のフローチャートである。方法600は解析システムによって実行することができ、その一例は
図2A及び2Bに提供する。解析システムは、核酸フラグメントから成る試料をシーケンス解析して、これらの核酸フラグメントのシーケンスリードに対する種々の解析を実行することができる。解析システムは、種々のモデルを学習させて解析を実行することができ、これらのモデルは分類器を含み、この分類器は、癌の病状の存在、癌の病期、腫瘍の割合、他の病状、またはその何らかの組合せを検出することができる。他の1つ以上の実施形態では、方法600が、追加的ステップ、より少数のステップ、異なる順序のステップ、またはその何らかの組合せを含むことができる。
【0151】
一部の実施形態では、方法600が、個体から試料を取得するステップを含む。試料は無細胞核酸を含むことができる。それに加えて、試料は、血液、血漿、血清、尿、糞便、唾液、他の種類の体液、またはその任意の組合せを含むことができる。解析システムは、試料を用いて一組のシーケンスリードを生成する。本発明によれば、解析システムが、シーケンス解析したフラグメント毎にメチル化ベクトルを生成する。メチル化は、ヒトゲノム全体にわたってCpG部位に発生し得る。CpG部位は、ゲノムのある領域内の、シトシン(C:cytosine)ヌクレオチドの後にグアニン(G:guanine)ヌクレオチドを含む位置である。メチル化CpG部位では、シトシンがメチル化され、これによりメチル基が核酸分子に追加される。ヒトゲノム中の特定領域は、他の領域の頻度よりも大きいメチル化CpG部位の頻度を有することができる。ある領域内のCpG部位のメチル化状態は、メチル化酵素の局所的な同時活性化により同様な特性を有することができる。メチル化シーケンシングの説明の例は、
図3及び4において説明している。
【0152】
解析システムは、学習試料毎に、学習済み確率ノイズモデルを用いて、フラグメント毎の異常スコアを決定する(ステップ610)。解析システムは、フラグメント毎の各メチル化ベクトルを、適切な確率ノイズモデルに入力することができる。例えば、第1フラグメントは複数の領域のうちの第1領域にオーバーラップする。第1確率ノイズモデルを第1領域用に学習させることができる。解析システムは、第1フラグメントのメチル化ベクトルを第1確率ノイズモデルに入力して、第1フラグメントに対する異常スコアを生成することができる。学習試料は、非癌試料の非癌のコホート(群)、及び癌試料の1つ以上のコホートを含むことができる。癌試料の各コホートは、一種類の癌のものとすることができる。例えば、乳癌試料の第1コホート及び肺癌試料の第2コホートが存在する。1つ以上の実施形態では、白血球組織から脱落した、即ち1つ以上の血液病に関係する核酸フラグメントから成る白血球(WBC)のコホートが存在する。
【0153】
学習済み確率ノイズモデルを健康体試料におけるメチル化のベースラインとして用いて、解析システムは、ベースラインから外れた異常にメチル化されたフラグメントを検出することができる。解析システムは、学習試料毎に、異常スコアを異常スコアの閾値と比較することによって、複数の領域の各領域内の異常にメチル化されたフラグメントのカウント数を測定する(ステップ615)。異常スコアの閾値は、フレッド・クオリティ・スコア(Phred quality score:フレッド品質得点)、例えばQ20、Q30、または他の閾値とすることができる。Q30閾値は、シーケンスリードの1/1000の塩基対中の誤ったベースコールの確率を表すことができる。一部の実施形態では、異常スコアをp値として、p値の閾値を0.0001、0.005、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、または0~0.5の他の任意の値に設定することができる。1つ以上の実施形態では、解析システムが、最適化アルゴリズムを用いて、領域毎に用いるべき最適なスコアの閾値を識別することができる。解析システムは、癌分類についての性能(または他の適切な計量)を解析しつつ、スコアの閾値候補の範囲全体にわたって掃引し、グリッド探索を実行して、性能に基づいて最適なスコアを識別する。
【0154】
解析システムは、学習試料毎に、ゲノム領域内のフラグメントの総数に対する、ゲノム領域内の異常にメチル化されたフラグメントのカウント数の比率を決定する(ステップ620)。その結果、各学習試料は、ゲノム領域内のフラグメントの総数に対する、異常にメチル化されたフラグメントの数を示す領域毎の比率を有することができる。他の実施形態では、異常にメチル化されたフラグメントのカウント数を、他の方法で、例えば全領域にわたるシーケンシング深度に基づいて正規化することができる。
【0155】
1つ以上の実施形態では、解析システムが1つ以上の領域をフィルタ処理で除去し(ステップ625)、これら1つ以上の領域は、当該1つ以上の領域にオーバーラップする少なくとも1つの異常にメチル化されたフラグメントを有するWBC試料を、WBC試料の%比率の閾値を超えて有する。ノイズ性領域は、当該ゲノム領域にオーバーラップする少なくとも1つの異常にメチル化されたフラグメントを有するWBC試料を、WBC試料の%比率の閾値を超えて有するものと考えられる。例えば、%比率の閾値は、5%、10%、15%、20%、25%、30%、35%、及び40%とすることができる。他の実施形態では、解析システムが、ゲノム領域にオーバーラップする異常にメチル化されたフラグメントが、ある閾値の数またはある閾値の比率を超えて存在するか否かを判定して、このゲノム領域をノイズ性領域としてラベル付けすることに目を向ける。例えば、閾値の数は、少なくとも2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、または10個の異常にメチル化されたフラグメントである。あるいは、閾値の比率は、少なくとも1:1000、1:100、1:10、等である。ある領域をノイズ性と判定するためのパラメータは、その後の分類器の学習及び検証に基づいて調整することができる。他の実施形態では、解析システムが、学習試料の他のコホートを用いて領域をフィルタ処理で除去することができる。例えば、WBC試料の代わりに、解析システムは領域をフィルタ処理で除去することができ、これらの領域は、当該ゲノム領域にオーバーラップする少なくとも1つの異常にメチル化されたフラグメントを有する乳癌試料を、乳癌試料の%比率の閾値を超えて有する。フィルタ処理で除去されないゲノム領域を、分類プロセスにおいて用いることができる。
【0156】
1つ以上の実施形態では、解析システムが、上述したフィルタ除去の基準に基づいて、各領域に重みを割り当てることができる。例えば、20%超のWBC試料が、ゲノム領域にオーバーラップする少なくとも1つの異常にメチル化されたフラグメントを有する、といった、バイナリ・カットオフ(ある値を境に2つに切り分けること)を用いる実施形態では、重みを、閾値を超える領域については設定値(例えば、0.5)とし、閾値を下回る領域についてはデフォルト値(例えば、1)にすることができる。追加的な実施形態では、解析システムが、グラデーション(段階的変化)を利用して、ゲノム領域に重みを割り当てることができる。当該ゲノム領域にオーバーラップする少なくとも1つの異常にメチル化されたフラグメントを有するWBC試料を、WBC試料の40%を超えて有する領域には、0の重みを割り当てることができる。少なくとも1つの異常にメチル化されたフラグメントを有するWBC試料を、WBC試料の30%~40%だけ有する領域には、0.2の重みを割り当てることができる。少なくとも1つの異常にメチル化されたフラグメントを有するWBC試料を、WBC試料の20%~30%だけ有する領域には、0.5の重みを割り当てることができる。少なくとも1つの異常にメチル化されたフラグメントを有するWBC試料を、WBC試料の10%~20%だけ有する領域には、0.8の重みを割り当てることができる。そして、少なくとも1つの異常にメチル化されたフラグメントを有するWBC試料を、WBC試料の10%を下回って有する領域には、1のデフォルトの重みを割り当てることができる。他の実施形態では、下流の分類器の性能に基づいて、重みを適応的に調整することができる。解析システムは、性能に基づいて範囲を調整することができ、例えば、0.5の重みを割り当てる領域を、15%~25%の範囲にシフトして、より低いノイズを有する領域の影響を更に低減する。実際には、15%~25%の試料の%比率を有する領域は、元は0.8として重み付けされていたが、0.5に低減され、これにより癌分類における当該領域の影響が低下される。
【0157】
解析システムは、学習試料を用いて分類器を学習させて、癌予測値を検出し(ステップ630)、ステップ620で決定した比率が分類器の特徴として機能する。解析システムは、ステップ620で領域毎に決定した比率を含む学習試料毎に特徴ベクトルを生成する。ステップ625におけるフィルタ処理を有する実施形態では、特徴量化用に用いるゲノム領域は、フィルタ処理で除去された領域を除外する。ゲノム領域に重みを割り当てる実施形態では、比率に重みを乗算する。例えば、第1領域が0.3の重みを割り当てられているものとすれば、この第1領域についての学習試料の特徴は、例えば0.15×0.3=0.045の比率である。各学習試料は、試料の癌の病状、例えば(一部の例として)非癌、頭部/頸部癌、前立腺癌、甲状腺癌、または白血病を伝えるラベルを有することができる。分類器を学習させて、学習試料について生成した特徴ベクトルに基づいて、学習試料のラベルを区別することができる。1つ以上の実施形態では、分類器を機械学習モデルとすることができる。
【0158】
機械学習は、モデルを構築することによって、データから学習しデータについての予測を行う一連の解析的方法及びアルゴリズムを参照することができる。機械学習は、人工知能の分枝として分類され、データに触れた際に自動的に更新され学習して予測を生成することができるコンピュータプログラムの開発に焦点を当てる。一部の実施形態では、機械学習が、デジタル・ネットワーク及び個人デジタル記録を作り出すために使用される1つのツールであり、検出または記録されたデータを、治療への応答、あるいは通常のリズムを維持する能力に結び付ける。脳内での適用向けには、出力が、発作の機能活動の非存在を含むことができる。機械学習技術は、教師付き学習、転移学習、半教師付き学習、教師なし学習、または強化学習を含む。他のいくつかの分類が存在することができる。教師付き機械学習は、ラベルに関連する学習データでモデルを学習させる方法を含むことができる。教師付き機械学習における技術は、一連の関係する入力または外見的には無関係な入力を1つ以上の出力クラスに分類する方法を含むことができる。一般に、出力ラベルを用いて、学習モデルを、好ましい患者の結果、正確な治療提供部位、のような所望の出力に合わせて学習させる。教師付き学習は、「転移学習」として知られる技術を含むこともでき、ここでは、一組の入力またはタスク上で学習させた事前学習済み機械学習モデルを再学習させ、あるいは微調整して、他の入力またはタスクに対する結果を予測する。
【0159】
一部の実施形態では、分類器が1つ以上のニューラルネットワーク(神経回路網)を実現することができる。ニューラルネットワークは、パターンを認識するために用いることができる相互接続されたノードを含む機械学習モデルのクラスを参照することができる。ニューラルネットワークは、ディープ・ニューラルネットワーク(深層神経回路網)またはシャロー・ニューラルネットワーク(浅層神経回路網)、従来型ニューラルネットワーク、回帰(再帰)型ニューラルネットワーク(ゲート付き回帰型ユニット(GRU(gated recurrent unit))または長・短期記憶(LSTM:long short term memory)ネットワーク)、敵対的生成ネットワーク、及びオートエンコーダ・ニューラルネットワークとすることができる。人工ニューラルネットワークは、経験則、決定論的法則、及び詳細データベースと組み合わせることができる。
【0160】
分類器の学習に関する追加的な詳細は:米国特許出願第16/352602号明細書(特許文献1)、2019年3月13日出願;米国特許出願第16/723716号明細書(特許文献2)、2019年12月20日出願;米国特許出願第16/723411号明細書(特許文献3)、2019年12月20日出願;及び米国特許出願第15/931022号明細書(特許文献4)、2020年5月13日に見出すことができ、これらの全部は、その全文を参照することによって本明細書に含める。
【0161】
分類器によって出力される癌予測値は、癌と非癌との間のバイナリ予測値、複数の癌の種類間のマルチクラス予測値、腫瘍の割合、癌の病期、他の病状、またはその何らかの組合せを含むことができる。病状は、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂の尿路上皮癌、尿路上皮癌以外の腎臓癌、前立腺癌、直腸肛門部癌、結腸直腸癌、食道癌、胃癌、肝細胞から発生する肝胆道癌、肝細胞以外の細胞から発生する肝胆道癌、膵臓癌、上部消化管の扁平上皮細胞癌、偏平上皮癌以外の上部消化管癌、頭頸部癌、肺癌、肺腺癌、小細胞肺癌、扁平上皮細胞肺癌、及び肺腺癌または小細胞肺癌以外の癌、神経内分泌癌、メラノーマ、甲状腺癌、サルコーマ、多発性メラノーマ、リンパ腫、及び白血病、及び他の血液病のうちの1つとすることができる。
【0162】
図6Bは、いくつかの実施形態による、検査試料について癌予測値を決定する方法640のフローチャートである。方法640は、核酸フラグメントから成る検査試料で実行される。検査試料は未知の癌の状態とすることができる。解析システムは、(方法640の下で学習試料に対して行ったのと)同様な処理を実行して、検査試料中に存在する核酸フラグメント毎にメチル化ベクトルを得る。1つ以上の実施形態では、方法640が、追加的なステップ、より少数のステップ、異なる順序のステップ、またはその組合せを含むことができる。
【0163】
解析システムは、学習済み確率ノイズモデルを用いて、検査試料からのフラグメント毎の異常スコアを決定する(ステップ650)。上述したように、確率ノイズモデルは、ゲノム領域にオーバーラップするフラグメントに関するメチル化ベクトルを入力することができ、上記確率ノイズモデルは、当該ゲノム領域について学習済みである。確率ノイズモデルは、非癌の健康体の集団中にメチル化ベクトルを観測する尤度を示す異常スコアを出力することができる。
【0164】
解析システムは、フラグメントの異常スコアを、(例えば、方法600のステップ615で用いる)異常スコアの閾値と比較することによって、分類用に用いる各領域内の異常にメチル化されたフラグメントのカウント数を測定する(ステップ655)。ステップ625で上述したように、当該領域がノイズ性領域であるものと判定されたことにより、分類からフィルタ処理で除去または除外された1つ以上の領域が存在し得る。他の実施形態では、分類用に用いるゲノム領域に、上述した種々の基準に基づいて重みを割り当てることができる。
【0165】
解析システムは、分類用に用いる各領域において、当該ゲノム領域内のフラグメントの総数に対する、当該ゲノム領域内の異常にメチル化されたフラグメントのカウント数の比率を決定する(ステップ660)。この比率の代わりに、他の特徴量化の計量、例えば、異常にメチル化されたフラグメントの総数、異常にメチル化されたフラグメントが当該ゲノム領域にオーバーラップするか否かのバイナリ(二者択一の)カウント数、正規化したカウント数、等を用いることができる。上記比率(または他の特徴量化の計量)は、検査試料についての特徴として機能する。解析システムは、上記比率(または他の特徴量化の計量)に基づいて、検査試料に対する特徴ベクトルを生成することができ、この特徴ベクトルは、分類用に用いる領域毎の値を含む。重み付きの領域を有する実施形態では、解析システムが、更に、それぞれの領域毎に、各特徴量化の計量に重みを乗算することができる。
【0166】
解析システムは、学習済み分類器を用いて癌予測値を決定する(ステップ665)。解析システムは、検査試料に対する特徴ベクトルを学習済み分類器に入力し、学習済み分類器は癌予測値を出力する。上述したように、癌予測値は、バイナリ予測値及び/またはマルチクラス予測値とすることができる。解析システムは、癌予測値をヘルスケア提供者に戻して、癌予測値によって情報提供されるその後の治療の選択肢を提供することができる。他の実施形態では、方法640を利用して、癌を有することが知られている患者内の癌の進行を監視することができる。方法640を用いて、治療計画の成功または失敗を検出することができ、例えば、癌の信号がほぼ同じままであるか増加している場合、治療計画は不成功であり、逆に、癌の信号が減少する場合、治療計画は成功である。
【0167】
IV. 結果の例
図7は、実現例による、確率ノイズモデル230のパラメータの事後分布を示す。確率ノイズモデル230の分散及び平均値パラメータの事後分布を、健康体(非癌)の学習サンプルを用いて決定した。
図7に示すように、ベースラインの分布はゲノムのゲノム領域に基づいて変化する。ベースラインの平均値は、低メチル化領域と高メチル化領域との二モードのパターンを呈している。特に、低メチル化領域の平均メチル化レベルは、高メチル化領域の平均メチル化レベルよりも低い。一部の実施形態では、低メチル化領域はメチル化CpG部位の10%以下に関連し、高メチル化領域はメチル化CpG部位の90%以上に関連する。他の実施形態では、高メチル化領域または低メチル化領域用の%比率の閾値を変化させることができる。
【0168】
図8A、8B、及び8Cは、実現例による、メチル化CpG部位のフラグメント・メチル化の割合、及びメチル化CpG部位のカウント数を示す。
図8A、8B、及び8Cの各々では、上側のグラフは、学習試料からの実データのメチル化割合の分布を示し、ここでは各曲線が異なる試料に関連する。下側のグラフの各々は、提供された検査試料からのメチル化CpGのカウント数の、モデル化された事後予測分布を示す。
図8Aは、低メチル化領域からのデータを含み、モデルが概ね実験データに適合することを示している。
図8Bは高メチル化を有する領域である。
図8Cは、10%~90%のメチル化CpG部位を有する中間的領域である。
【0169】
図9A及び9Bは、実現例による、試料サイズを変化させたシミュレーションを用いた、平均値及び分散パラメータ推定を示す。
図9Aは低メチル化領域についてのパラメータを示し、
図9Bは高メチル化領域についてのパラメータを示す。一般に、試料のサイズが(例えば、5000フラグメントまで)増加するに連れて、平均値及び分散パラメータの 信頼水準が向上する。
【0170】
図10Aは、実現例による、病状によって異常にメチル化されたフラグメントの累積度数を示す。y軸の累積頻度は、ある試料の加法的全確率、即ち、最大でも多数の異常にメチル化されたフラグメントを有する特徴を含む試料の比率を、x軸に応じて表す。
図10Aに示すように、様々な種類の病状(癌)に関連する曲線は、非癌に関連する曲線から区別することができる。結果として、学習済み分類器は、曲線における分離によって示されるデータに基づいて、病状の存在の尤度を予測することができる。2つの外れ値として、甲状腺癌及び前立腺癌に関連する曲線は、より低い腫瘍の割合を有する、というのは、これらの組織はより少数のフラグメントを血液中に脱落させるからである。
【0171】
図10Bは、実現例による、癌の病期によって異常にメチル化されたフラグメントの累積度数を示す。癌の病期が0期からIV期まで進行するに連れて、腫瘍組織はより多数のフラグメントを脱落させ、このことは癌の生態と一致する。従って、
図10B中の曲線によって示すように、異常にメチル化されたフラグメントを有する特徴の数は、癌の病期が進行するに連れて増加する。例えば、I期の癌の試料の少なくとも75%が、少なくともおよそ50個の異常にメチル化されたフラグメントを有するのに対し、IV期の癌の試料の少なくとも75%は、少なくとも200個の異常にメチル化されたフラグメントを有する。学習済み分類器は、曲線における分離によって示されるデータに基づいて、癌の病期を予測することができる。
【0172】
図11は、実現例による、受信者動作特性(ROC:receiver operating characteristic)曲線を示す図であり、異常にメチル化されたフラグメントを検出する学習済み分類器の性能を示す。
図11に示すように、95%、98%、及び99%の特異度で、対応する感度は25%~45%であり、偽陽性率は10%未満である。
【0173】
図12は、実現例による、分類器の検出率の表であり、一部の分類器はフィルタ処理で除去したノイズ性領域で学習済みである。この表は、いくつかの実現例による、学習済み分類器の比較性能を示し、この学習済み分類器は、一部の領域をノイズ性領域であることによりフィルタ処理で除去している。種々の分類器を、99.4%の特異度レベルを目標として学習させた。
図12中に「v0」のラベルを付けた学習済み分類器は、ベースライン性能としての役割を果たし、分類プロセスにおいて20000個の領域を含む。
【0174】
「v1」のラベルを付けた分類器は、方法600におけるWBCフィルタ除去ステップを用い、ここではWBCノイズ・カットオフ用の基準を、WBC試料の20%が、ゲノム領域にオーバーラップする少なくとも1つの異常にメチル化されたフラグメントを有することとした。「v2」のラベルを付けた分類器は、WBC試料の5%が、ゲノム領域にオーバーラップする少なくとも1つの異常にメチル化されたフラグメントを有するというWBCノイズ・カットオフを有した。v0分類器の検出率は、非癌については1.0%(事実上の偽陽性率)、全浸潤癌については49%、固形癌と多発性骨髄腫については53.8%、及びリンパ腫と骨髄腫については22%を含んだ。v1の分類器は、非癌については0.8%、全浸潤癌については53.2%、固形癌と多発性骨髄腫については59.6%、及びリンパ腫と骨髄腫については14.4%の検出率を有した。分類器によるリンパ腫及び骨髄腫の検出率については、全浸潤癌及び固形癌と多発性骨髄腫についての検出率をかさ上げするためにトレードオフが存在する。v2の分類器は、非癌については1.2%、全浸潤癌については51.9%、固形癌と多発性骨髄腫については57.4%、及びリンパ腫と骨髄腫については19.5%の検出率を有した。v1の分類器と同様に、v2の分類器も、全浸潤癌及び固形癌と多発性骨髄腫については向上した検出率を有し、リンパ腫と骨髄腫の検出率の低下を伴った。v2の分類器についての検出率の向上は、v1の分類器よりも小さかった。
【0175】
V. 応用
V.A. 癌の早期検出
一部の実施形態では、本発明の方法及び/または分類器を用いて、癌を有する疑いのある被検体内の癌の存在または不存在を検出する。例えば、(例えば、第III節で上述し第V節に例示する)分類器を用いて、検査特徴ベクトルが癌を有する被検体からのものであることの尤度を記述する癌予測値を決定することができる。
【0176】
一実施形態では、癌予測値が、検査試料が癌であるか否かの(例えば、0と100の間でスコア付けした)尤度(即ち、バイナリ分類)である。従って、解析システムは、被検体が癌を有するか否かを判定するための閾値を決定することができる。例えば、60以上の癌予測値は、被験者が癌を有することを示すことができる。更に他の実施形態では、65以上、70以上、75以上、80以上、85以上、90以上、または95以上の癌予測値が、被検体が癌を有することを示す。他の実施形態では、癌予測値が、病気の重症度を示すことができる。例えば、80の癌予測値は、80を下回る癌予測値(例えば、70の確率スコア)と比べて、癌のより重症の病態、あるいはより末期を示すことができる。同様に、(例えば、2つ以上の時点で取得した同じ被検体からの複数の試料からの検査特徴ベクトルを分類することによって決定した)長期間にわたる癌予測値の増加は、病気の進行を示すことができ、あるいは、長期間にわたる癌予測値の減少は、治療の成功を示すことができる。
【0177】
他の実施形態では、癌予測値が多数の予測値を含み、ここでは分類される複数の癌の種類(即ち、マルチクラス分類)の各々が、(例えば0と100の間でスコア付けされる)予測値を有する。これらの予測値は、所与の学習試料(及び推論中に、学習試料)が、癌の種類の各々を有する尤度に相当する。解析システムは、最高の予測値を有する癌の種類を識別して、被検体がその種類の癌を有する可能性が高いことを示すことができる。他の実施形態では、解析システムが、更に、最高の予測値を閾値(例えば、50、55、60、65、70、75、80、85、等)と比較して、被検体がその種類の癌を有する可能性が高いものと判定する。他の実施形態では、予測値が、病気の重症度を示すこともできる。例えば、80より大きい予測値は、60の予測値に比べて、癌のより重症の病態、あるいはより末期を示すことができる。同様に、(例えば、2つ以上の時点で取得した同じ被検体からの複数の試料からの検査特徴ベクトルを分類することによって決定した)増加は、病気の進行を示すことができ、あるいは、長期間にわたる癌予測値の減少は、治療の成功を示すことができる。
【0178】
本発明の態様によれば、本発明の方法及びシステムを学習させて、複数の癌の兆候を分類することができる。例えば、本発明の方法、システム、及び分類器を用いて、1つ以上の、2つ以上の、3つ以上の、5つ以上の、10個以上の、15個以上の、または20個以上の異なる種類の癌の存在を検出することができる。
【0179】
本発明の方法、システム、及び分類器を用いて検出することができる癌の例は、上皮性悪性腫瘍、リンパ腫、芽細胞腫、肉腫(非上皮性悪性腫瘍、サルコーマ)、及び白血病またはリンパ性悪性疾患を含む。こうした癌のより特別な例は、有棘細胞癌(例えば、扁平上皮細胞癌)、皮膚癌、メラノーマ、小細胞肺癌、非小細胞肺癌(NSCLC:non-small cell lung cancer)を含む肺癌、肺の腺癌及び肺の扁平上皮癌、腹膜の癌、消化器癌を含む胃癌、膵臓癌(例えば、膵管腺癌)、子宮頸癌、卵巣癌(例えば、高悪性度の漿液性卵巣癌)、肝臓癌(liver cancer、例えば、肝細胞癌(HCC:hepatocellular carcinoma))、肝臓癌(hepatoma)、肝臓癌(hepatic carcinoma)、膀胱癌(例えば、尿路上皮癌)、卵巣(例えば、胚細胞)癌、乳癌(例えば、HER2(human epidermal growth factor receptor 2:ヒト上皮増殖因子受容体2)陽性、HER2陰性、及びトリプルネガティブ(HER2、ER(estrogen receptor:エストロゲン受容体)、PR(progesterone receptor:プロゲステロン受容体)の全てが陰性)乳癌)、脳腫瘍(例えば、星状細胞腫、神経膠腫(グリオーマ)(例えば、膠芽細胞腫(グリア芽腫)))、結腸癌、直腸癌、結腸直腸癌、子宮内膜癌または子宮癌、唾液腺癌、腎臓癌または腎癌(例えば、腎細胞癌、腎芽細胞腫またはウィルムス腫瘍)、前立腺癌、外陰部癌、甲状腺癌、肛門癌、陰茎癌、頭頸部癌、食道癌、及び鼻(上)咽頭癌(NPC:nasopharyngeal carcinoma)を含み、但しこれらに限定されない。癌の追加的な例は、限定なしに、網膜芽腫、卵胞膜細胞腫、男化腫瘍、非ホジキンリンパ腫(NHL:non-Hodgkin’s lymphoma)を含み、但しこれに限定されない血液悪性腫瘍、多発性骨髄腫及び急性血液悪性腫瘍、子宮内膜症、繊維肉腫、絨毛腫(癌)、咽頭癌、カポジ肉腫、神経鞘腫、乏突起膠腫、神経芽細胞腫、横紋筋肉腫、骨肉腫、平滑筋肉腫、及び尿道(路)癌を含む。
【0180】
一部の実施形態では、癌が、肛門管癌、膀胱癌、乳癌、子宮頸癌、結腸直腸癌、食道癌、胃癌、頭頸部癌、肝胆道癌、白血病、肺癌、リンパ腫、黒色腫、多発性黒色腫、卵巣癌、膵臓癌、腎臓癌、甲状腺癌、子宮癌、またはその任意の組合せ、のうちの1つ以上である。
【0181】
一部の実施形態では、1つ以上の癌を、肛門管癌、結腸直腸癌、食道癌、頭頸部癌、肝胆道癌、肺癌、卵巣癌、及び膵臓癌、並びにリンパ腫及び多発性黒色腫のような、「ハイシグナル」の癌(50%超の癌のみによる(特異的)死亡率を有する癌として定義される)とすることができる。ハイシグナルの癌は、より攻撃的な傾向があり、一般に、平均値を上回る無細胞核酸濃度を、患者から取得した検査試料中に有する。
【0182】
V.B. 癌及び治療モニタリング
一部の実施形態では、癌予測値を、複数の異なる時点で(例えば、あるいは治療の前または後に)評価して、病気の進行を監視すること、あるいは治療の有効性(例えば、治療効果)を監視することができる。例えば、本発明は方法を含み、この方法は、第1試料(例えば、第1血漿cfDNA試料)を癌の患者から第1時点で取得するステップと、第1試料から(本明細書中に説明するように)第1の癌予測値を決定するステップと、第2検査試料(例えば、第2血漿cfDNA試料)を癌の患者から第2時点で取得するステップと、第2試料から(本明細書中に説明するように)第2の癌予測値を決定するステップとを含む。
【0183】
特定の実施形態では、第1時点が癌治療の前(例えば、切除手術または治療的介入の前)であり、第2時点が癌治療の後(例えば、切除手術または治療的介入の後)であり、分類器を利用して治療の有効性を監視する。例えば、第2の癌予測値が第1の癌予測値に比べて減少していれば、治療は成功であったものと考えられる。しかし、第2の癌予測値が第1の癌予測値に比べて増加していれば、治療は成功ではなかったものと考えられる。他の実施形態では、第1時点及び第2時点が共に、癌治療の前(例えば、切除手術または治療的介入の前)である。更に他の実施形態では、第1時点及び第2時点が共に、癌治療の後(例えば、切除手術または治療的介入の後)である。更に他の実施形態では、cfDNA試料を癌の患者から第1時点及び第2時点で取得し解析して、例えば、癌の進行を監視すること、(例えば、癌の治療後に)癌が寛解しているか否かを判定すること、余病(残存疾患)または病気の再発を監視または検出すること、あるいは治効(例えば、治療効果)を監視することができる。
【0184】
検査試料は、あらゆる所望の時点の集合全体にわたって癌の患者から取得することができ、本発明の方法により解析して、患者における癌の病状を監視することができることは、当業者が容易に理解する所である。一部の実施形態では、第1時点と第2時点とを、約15分から約30分までの範囲の時間だけ分離し、この時間は、例えば約30分、例えば約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、または約24時間、例えば約1、2、3、4、5、10、15、20、25、または約50日間、あるいは約1、2、3、4、5、6、7、8、9、10、11、または12カ月間、あるいは約1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、または約30年間である。他の実施形態では、検査試料を患者から、少なくとも5カ月に1回、少なくとも6カ月に1回、少なくとも1年に1回、少なくとも2年に1回、少なくとも3年に1回、少なくとも4年に1回、または少なくとも5年に1回取得することができる。
【0185】
V.C. 治療
更に他の実施形態では、癌予測値を用いて、臨床決定(例えば、癌の診断、治療の選択、治療の有効性の評価)を作成すること、あるいは臨床決定に影響を与えることができる。例えば、一実施形態では、(例えば癌または特定種類の癌についての)癌予測値が閾値を超えた場合、医師及び/または解析システムは、適切な治療(例えば、切除手術、放射線治療、化学療法、及び/または免疫療法)を処方することができる。他の実施形態では、解析システムが、癌予測値に基づく治療法の推奨を医師に提供して、患者に働きかけて治療計画を決定することができる。
【0186】
(本明細書中に説明する)分類器を用いて、試料特徴ベクトルが癌を有する患者からのものであるという癌予測値を決定することができる。一実施形態では、癌予測値が閾値を超える際に、適切な治療(例えば、切除手術または治療)を処方する。例えば、一実施形態では、癌予測値が60以上である場合、1つ以上の適切な治療を処方する。他の実施形態では、癌予測値が、65以上、70以上、75以上、80以上、85以上、90以上、または95以上、である場合、1つ以上の適切な治療を処方する。他の実施形態では、癌予測値が病気の重症度を示すことができる。次に、病気の重症度に適合した適切な治療を処方する。
【0187】
一部の実施形態では、治療が、化学療法薬、癌標的治療薬、分化治療薬、ホルモン治療薬、及び免疫療法薬から成るグループから選択した1つ以上の癌治療薬である。例えば、治療は、アルキル化剤、代謝拮抗物質、アントラサイクリン、抗腫瘍抗生物質、細胞骨格阻害剤(タキサン)、トポイソメラーゼ阻害剤、分裂抑制剤、コルチコステロイド(副腎皮質ステロイド)、キナーゼ阻害剤、ヌクレオチド類似体、白金(プラチナ)製剤、及びその任意の組合せから成るグループから選択した1つ以上の化学療法薬とすることができる。一部の実施形態では、治療が、シグナル伝達阻害剤(例えば、チロシンキナーゼ阻害剤及び増殖因子阻害剤)、ヒストンデアセチラーゼ(HDAC:histone deacetylase:ヒストン脱アセチル化)阻害剤、レチノイン酸受容体作動薬、プロテアソーム阻害剤、血管新生阻害剤、及びモノクローナル抗体作動薬から成るグループから選択した1つ以上の癌標的治療薬である。一部の実施形態では、治療が、トレチノインのようなレチノイド、アリトレチノイン、及びヘキサロテンを含む1つ以上の分化治療薬である。一部の実施形態では、治療が、抗エストロゲン剤、アロマターゼ阻害剤、プロゲスチン、エストロゲン、抗アンドロゲン、及びGnRH(gonadotropin releasing hormone:ゴナドトロピン放出ホルモン)作動薬または類似体から成るグループから選択した1つ以上のホルモン治療薬である。一実施形態では、治療が、リツキシマブ(RITUXAN(リッキサン:登録商標))及びアレムツズマブ(CAMPATH(キャンパス:登録商標))のようなモノクローナル抗体療法、BCG(bacille de Calmette et Guerin)、インターロイキン-2(IL-2:interleukin-2)、及びインターロイキン-αのような非特異性免疫療法及びアジュバント(免疫補助剤)、免疫調節薬、例えばサリドマイド及びレナリドミド(REVLIMID:レブラミド:登録商標)から成るグループから選択した1つ以上の免疫療法薬である。腫瘍の種類、癌の病期、以前の癌の治療または治療薬の経験、及び癌の他の特性のような特性に基づいて適切な癌治療薬を選択することは、熟練した医師または癌専門医の能力の範囲内である。
【0188】
VI. キットの実現
また、本明細書中には、癌分類器に関する方法を含む上述した方法を実行するためのキットも開示する。これらのキットは、遺伝物質を含む試料を個体から収集するための1つ以上の収集容器を含むことができる。試料は、血液、血漿、血清、尿、糞便、唾液、他の種類の体液、またはその任意の組合せを含むことができる。こうしたキットは、核酸を試料から分離するための試薬を含むことができる。これらの試薬は、緩衝液及び検出剤を含む、核酸をシーケンス解析するための試薬をさらに含むことができる。1つ以上の実施形態では、キットが1つ以上のシーケンシングパネルを含むことができ、これらのシーケンシングパネルは、特定のゲノム領域、特定の変異、特定の遺伝子変異、またはその何らかの組合せを標的にするためのプローブを具えている。他の実施形態では、キットにより収集した試料をシーケンシング実験室に提供し、シーケンシング実験室はシーケンシングパネルを用いて試料中の核酸をシーケンス解析することができる。
【0189】
キットは、キット内に含まれる試薬を使用するための命令を更に含むことができる。例えば、キットは、試料を収集し、検査試料から核酸を抽出するための命令を含むことができる。命令の例は、試薬を添加すべき順序、核酸を検査試料から分離するために用いるべき遠心分離の速度、核酸を増幅する方法、核酸をシーケンス解析する方法、またはその任意の組合せとすることができる。これらの命令は、更に、コンピュータ装置(例えば、
図13のコンピュータシステム1300)を、
図2A及び2Bの解析システム200として、本明細書全体を通して説明する方法のいずれかを実行する目的で動作させる方法を明らかにすることができる。
【0190】
以上の構成要素に加えて、キットはコンピュータ可読の記憶媒体を含むことができ、この記憶媒体は、本開示の全体を通して説明する種々の方法を実行するためのコンピュータソフトウェアを記憶する。これらの命令が存在することができる1つの形態は、適切な媒体または基板上に印刷された情報としてであり、例えば、情報が印刷された1枚以上の紙、キットの梱包容器内、添付文書中である。更に他の手段は、コンピュータ可読媒体、例えば、ディスケット(登録商標)、CD(compact disc:コンパクトディスク)、ハードドライブ、ネットワークデータ記憶装置であり、これらの上に命令がコンピュータコードの形態で記憶されている。
【0191】
VII. 計算機アーキテクチャ
図13に、本発明の種々の方法を実現するためのコンピュータシステムの一例の概略図を示す。特に、
図13は、コンピュータ可読媒体から命令を読み出し、プロセッサ(またはコントローラ)においてこれらの命令を実行することができる計算機の一例の構成要素を図示するブロック図である。本明細書中に記載するコンピュータは、
図13に示す単一の計算機、バーチャルマシン、
図13に示す複数の計算機のノードを含む分散型コンピュータシステム、または他のあらゆる適切な計算機の構成を含むことができる。
【0192】
例として、
図13は、コンピュータシステム1300の形態例における計算機の図式的表現を示し、コンピュータシステム1300内で命令1324(例えば、ソフトウェア、プログラムコード、またはマシンコード(機械語))を実行することができ、命令1324は、コンピュータ可読媒体に記憶することができ、本明細書中に説明するプロセスのいずれか1つ以上を計算機に実行させる。一部の実施形態では、計算機がスタンドアロン(独立型)装置として動作し、あるいは計算機を他の計算機に接続(例えば、ネットワーク接続)することができる。ネットワーク化された展開では、計算機が、サーバー-クライアント環境内のサーバーマシンまたはクライアントマシンの視覚で動作することができ、あるいはピア-ツー-ピア(または分散型)ネットワーク環境内のピアマシンとして動作することができる。
【0193】
図13に記載する計算機の構造は、あらゆるソフトウェア、ハードウェア、または組合せの構成要素に相当することができ、これらは、あらゆるエンジン、モジュール、コンピュータサーバー、本明細書中に説明する1つ以上のプロセスを実行するために用いる計算機を含み、但しこれらに限定されない。
図13は種々のハードウェア及びソフトウェア要素を示すが、本明細書中に記載する構成要素の各々は、追加的な、あるいはより少数の要素を含むことができる。
【0194】
例として、計算機は、パーソナルコンピュータ(PC:personal computer)、タブレットPC、セットトップボックス(STB:set-top-box)、パーソナル・デジタル・アシスタント(PDA:personal digital assistant:個人用携帯情報端末)、セルラ(携帯)電話機、スマートホン、ウェブ機器、ネットワークルーター、物のインターネット(IoT:Internet of things)装置、スイッチまたはブリッジ、あるいは当該計算機が行うべき動作を指定する命令1324を実行することができるあらゆる計算機とすることができる。更に、単一の計算機のみを図示しているが、「計算機」及び「コンピュータ」とは、個別に、または連帯して命令1324を実行して、本明細書中に説明するいずれか1つ以上の方法を実行する計算機のあらゆる集合を含むものと解釈することもできる。
【0195】
コンピュータシステム1300の例は、1つ以上のプロセッサ1302、例えばCPU(central processing unit:中央演算処理装置)、GPU(graphics processing unit:グラフィックス処理装置)、TPU(tensor processing unit:テンソル処理装置)、DSP(digital signal processor:デジタルシグナルプロセッサ)、システム・オン・チップ(SOC:system on a chip)、状態マシン、特定用途向け集積回路(ASIC:application-specific integrated circuit)、フィールド・プログラマブル・ゲートアレイ(FPGA:field programmable gate array)、またはこれらの任意の組合せを含む。コンピュータシステム1300の1つ以上の部分は、命令1324を含むコンピュータコードを記憶するメモリ1304を含むこともでき、命令1324は、プロセッサ1302によって直接または間接的に実行されると、プロセッサ1302に特定の動作を実行させることができる。命令は、機械可読の命令、ソースコードを含むプログラミング命令、及び他の通信信号及び指令のような異なる形態で記憶することができるあらゆる指示、コマンド(命令語)、または指令とすることができる。命令は一般的意味で用いることができ、機械可読のコードに限定されない。
【0196】
本明細書中に説明する1つ以上の方法は、プロセッサ1302の動作速度を向上させて、メモリ1304に必要な空間を低減する。本明細書中に説明する機械学習法は、学習におけるステップを簡略化する1つ以上の新規な技術を適用し、収束に達し、プロセッサ1302の結果を生成することによって、プロセッサ1302の計算の複雑性を低減する。本明細書中に説明するアルゴリズムは、モデル及びデータベースのサイズを低減して、メモリ1304における記憶空間の要求も低減する。
【0197】
特定の動作の実行を、単一の計算機内に存在するものだけでなく、複数の計算機にわたって展開する2つ以上のプロセッサ間に分配することができる。一部の実施形態では、1つ以上のプロセッサまたはプロセッサで実現されるモジュールを、単一の地理的位置に(例えば、家庭環境、オフィス環境、またはサーバーファーム内に)配置することができる。他の実施形態では、1つ以上のプロセッサまたはプロセッサで実現されるモジュールを、複数の地理的位置にわたって分布させることができる。本明細書または特許請求の範囲では、一部のプロセスを、1つのプロセッサによって実行されるように参照していても、このことは、分散した複数のプロセッサの共同作業を含むものと考えるべきである。
【0198】
コンピュータシステム1300は、メインメモリ1304、及びスタティックメモリ1306を含むことができ、これらはバス1308を介して互いに通信するように構成されている。コンピュータシステム1300は、グラフィックディスプレイ装置1310(例えば、プラズマディスプレイパネル(PDP:plasma display panel)、液晶ディスプレイ(LCD:liquid crystal display)、プロジェクタ、陰極線管(CRT:cathode ray tube))を更に含むことができる。グラフィックディスプレイ装置1310は、プロセッサ1302によって制御されて、グラフィカル・ユーザインタフェース(GUI:graphical user interface)を表示して、本明細書中に説明するプロセスによって生成された1つ以上の結果及びデータを表示する。コンピュータシステム1300は、英数字入力装置1312(例えば、キーボード)、カーソル制御装置1314(例えば、マウス、トラックボール、ジョイスティック、動きセンサ、または他のポインティング機器)、記憶部1316(ハードドライブ、半導体ドライブ、ハイブリッド・ドライブ、メモリディスク、等)、信号発生装置1318(例えば、スピーカ)、及びネットワークインタフェース装置1320を含むこともでき、これらはバス1308経由で通信するように構成することもできる。
【0199】
記憶部1316はコンピュータ可読媒体1322を含み、コンピュータ可読媒体1322上に、本明細書中に説明する方法または機能のうちの1つ以上を具体化する命令1324が記憶されている。命令1324は、完全に、あるいは少なくとも部分的に、メインメモリ1304内に、あるいはコンピュータシステム1300による命令1324の実行中にプロセッサ1302内に(例えば、プロセッサのキャッシュメモリ内に)存在することができ、メインメモリ1304及びプロセッサ1302もコンピュータ可読媒体を構成する。命令1324は、ネットワーク上で、ネットワークインタフェース装置1320経由で送信または受信することができる。
【0200】
一実施形態では、コンピュータ可読媒体1322を単一の媒体であるように示しているが、「コンピュータ可読媒体」とは、命令(例えば、命令1324)を記憶することができる単一の媒体または複数の媒体(例えば、集中型または分散型データベース、あるいは関連するキャッシュまたはサーバー)を含むものと解釈するべきである。コンピュータ可読媒体は、プロセッサ(例えば、プロセッサ1302)による実行用の命令(例えば、命令1324)であって、本明細書中に開示する方法のいずれか1つ以上をプロセッサに実行させる命令を記憶することができるあらゆる媒体を含むことができる。コンピュータ可読媒体は、半導体メモリ、光媒体、及び磁気媒体の形態のデータ保存場所を含むことができ、但しこれらに限定されない。コンピュータ可読媒体は、伝搬信号または搬送(キャリア)波のような一時的媒体は含まない。
【0201】
VIII. 追加的考察
以上の本発明の説明は、例示の目的で提示しており;網羅的であること、あるいは本発明を開示された明確な形態に限定することは意図していない。関連技術の当業者は、以上の開示を考慮して多数の変更及び変形が可能であることを理解する。
【0202】
本明細書の記載のいくつかの部分は、本発明の実施形態を、情報に対する操作のアルゴリズム及び記号表現の観点から説明している。これらのアルゴリズムの記述及び表現は、データ処理の当業者が、自分の業績の実体を他の当業者に効果的に伝えるために一般に用いられる。これらの操作は、機能的、コンピュータ的、または論理的に記載しているが、コンピュータプログラムまたは等価な電気回路、マイクロコード、等によって実現されるものと理解される。更に、これらの操作の配列を複数のモジュールとして参照することが、一般性を失うことなしに好都合であることが証明されている。説明した操作及びそれに関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組合せの形で具体化することができる。
【0203】
本明細書中に記載するステップ、動作、またはプロセスは、1つ以上のハードウェアまたはソフトウェアモジュールで、単独で、あるいは他の装置との組合せで、実行または実現することができる。一実施形態では、コンピュータプログラムコードを含むコンピュータ可読の非一時的媒体を含むコンピュータプログラム製品で、ソフトウェアモジュールを実現し、コンピュータのプロセッサは、コンピュータプログラムコードを実行して、記載したステップ、動作、またはプロセスのいずれか、あるいは全部を実行することができる。
【0204】
本発明の実施形態は、本明細書中に説明する計算プロセスによって生産される製品に関係することもできる。こうした製品は、計算プロセスから生じる情報を含むことができ、これらの情報は、非一時的な有形のコンピュータ可読記憶媒体に記憶され、コンピュータプログラム製品または本明細書中に記載する他のデータの組合せのあらゆる具体化を含むことができる。
【0205】
最後に、明細書中に使用する文言は、主に、読み易さ及び教示目的で選択しているが、通常の当業者は、本明細書中の原理が他の状況及び用途に適用可能であることを認識するであろう。従って、本発明の範囲は、こうした詳細な説明によってではなく、むしろ、こうした詳細な説明に基づく用途に対して生じるあらゆる請求項によって限定されることを意図している。従って、本発明の実施形態の開示は、以下の特許請求の範囲中に明記する本発明の範囲の例示であるが限定ではないことを意図している。
【国際調査報告】