(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】DNAデータを解析するためのリード層固有ノイズモデル
(51)【国際特許分類】
G16B 20/20 20190101AFI20241210BHJP
C12Q 1/6869 20180101ALI20241210BHJP
C12M 1/34 20060101ALI20241210BHJP
G16B 40/20 20190101ALI20241210BHJP
【FI】
G16B20/20
C12Q1/6869 Z
C12M1/34 Z
G16B40/20
(21)【出願番号】P 2022541189
(86)(22)【出願日】2020-09-08
(86)【国際出願番号】 US2020049751
(87)【国際公開番号】W WO2021050439
(87)【国際公開日】2021-03-18
【審査請求日】2023-07-07
(32)【優先日】2019-09-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522093513
【氏名又は名称】グレイル リミテッド ライアビリティ カンパニー
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】アール ハベル
【審査官】田中 寛人
(56)【参考文献】
【文献】米国特許出願公開第2019/0073445(US,A1)
【文献】米国特許出願公開第2019/0108311(US,A1)
【文献】特表2019-522268(JP,A)
【文献】米国特許出願公開第2019/0256924(US,A1)
【文献】特表2021-516962(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12Q 1/6869
C12M 1/34
(57)【特許請求の範囲】
【請求項1】
試料のDNAシークエンシングデータセットを処理するためのコンピュータ実装方法であって、
DNAシークエンシングによって生成された前記DNAシークエンシングデータセットにアクセスするステップであって、前記DNAシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスするステップと、
前記複数の処理されたシークエンスリードを複数のリード層へと層別化するステップと、
各リード層に対して、前記バリアント場所における層別化されたシークエンシング深度を決定するステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定するステップであって、前記1つまたは複数のノイズパラメータは、前記リード層に固有のノイズモデルに対応し、前記ノイズモデルを訓練するステップは、
複数の参照健常個人の訓練DNAデータセットを層別化するステップと、
前記リード層のための層別化されたシークエンスリードを、層別化された訓練セットとして選択するステップと、
前記ノイズモデルを表すノイズ分布をモデル化する前記1つまたは複数のノイズパラメータ
の初期値を設定するステップと、
前記複数の参照健常個人からの前記層別化された訓練セットの前記ノイズ分布に基づいて前記1つまたは複数のノイズパラメータの値を反復的に調整するステップと
を含む、決定するステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記1つまたは複数のノイズパラメータに基づいて前記リード層に固有の前記ノイズモデルの出力を生成するステップと、
前記試料が総バリアントカウントと関連づけられる尤度を表す組み合わされた結果を生じさせるために、前記生成されたノイズモデル出力を組み合わせるステップと
を含
み、
前記複数のリード層は、(1)二本鎖の、縫合されたリード層、(2)二本鎖の、縫合されていないリード層、(3)一本鎖の、縫合されたリード層、および(4)一本鎖の、縫合されていないリード層、のうちの1つまたは複数を含む、コンピュータ実装方法。
【請求項2】
前記バリアント場所における変異は、一塩基バリアント、挿入、および欠失、のうちの1つである請求項1に記載のコンピュータ実装方法。
【請求項3】
前記組み合わされた結果の品質スコアを決定するステップであって、前記品質スコアはPhredスケールスコアである、決定するステップ
をさらに含む請求項1に記載のコンピュータ実装方法。
【請求項4】
前記品質スコアが所定の閾値よりも高いことに応答して、前記試料は前記バリアント場所において変異を有する尤度が高いことを示すステップ
をさらに含む請求項
3に記載のコンピュータ実装方法。
【請求項5】
リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記1つまたは複数のノイズパラメータを決定するステップは、
前記リード層に固有のパラメータ分布にアクセスするステップであって、前記パラメータ分布は、前記リード層と関連づけられたDNAシークエンシング試料のセットの分布について説明し、前記ノイズパラメータは、前記パラメータ分布から決定される、アクセスするステップ
を含む請求項1に記載のコンピュータ実装方法。
【請求項6】
各リード層に対して、前記リード層と関連づけられた前記DNAシークエンシング試料のセットは、前記リード層へと層別化されたシークエンスリードを含み、1つまたは複数の健常個人に対応する請求項
5に記載のコンピュータ実装方法。
【請求項7】
各リード層に対して、前記リード層に固有の前記ノイズモデルはベイズ階層モデルであり、前記パラメータ分布はガンマ分布に基づく請求項
5に記載のコンピュータ実装方法。
【請求項8】
第1のリード層に固有のノイズモデルに対応する第1のノイズパラメータは、第2のリード層に固有のノイズモデルに対応する対応する第2のノイズパラメータとは異なる値を有する請求項1に記載のコンピュータ実装方法。
【請求項9】
各リード層に対して、前記決定された1つまたは複数のノイズパラメータは、前記リード層の前記層別化されたシークエンシング深度を条件とした前記ノイズ分布の平均を含む請求項1に記載のコンピュータ実装方法。
【請求項10】
各ノイズ分布は、各リード層の前記層別化されたシークエンシング深度を条件とした負の二項分布である請求項
9に記載のコンピュータ実装方法。
【請求項11】
各リード層に対して、前記決定された1つまたは複数のノイズパラメータは、ばらつきパラメータをさらに含む請求項
10に記載のコンピュータ実装方法。
【請求項12】
各ノイズモデルの前記生成された出力は、前記リード層に対して決定された前記層別化されたシークエンシング深度を条件とした前記1つまたは複数のノイズパラメータである請求項1に記載のコンピュータ実装方法。
【請求項13】
各ノイズモデルの前記生成された出力は、前記リード層のための層別化されたバリアントカウントが閾値を超える尤度を含む請求項1に記載のコンピュータ実装方法。
【請求項14】
前記生成されたノイズモデル出力を組み合わせるステップは、全体的な平均バリアントカウントおよび前記組み合わされた結果に関する全体的なノイズ分布を表す前記全体的なばらつきパラメータを生じさせるために平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせるステップを含む請求項1に記載のコンピュータ実装方法。
【請求項15】
前記全体的なノイズ分布は、負の二項分布に基づいてモデル化され、前記全体的な平均バリアントカウントおよび前記全体的なばらつきパラメータを決定するステップは、
前記リード層の前記層別化されたシークエンシング深度に基づいて各リード層に関する前記平均バリアントカウントを決定するステップと、
各リード層に関する前記分散を決定するステップと、
前記全体的な平均バリアントカウントを決定するために各リード層に関する前記平均バリアントカウントを合計するステップと、
全体的な分散を決定するために各リード層に関する前記分散を組み合わせるステップと、
前記全体的な平均バリアントカウントおよび前記全体的な分散に基づいて前記全体的なばらつきパラメータを決定するステップと
を含む請求項
14に記載のコンピュータ実装方法。
【請求項16】
前記組み合わされた結果を生じさせるために前記生成されたノイズモデル出力を組み合わせるステップは、
各リード層の観察された層別化されたバリアントカウントを決定するステップと、
各リード層内で、各リード層の前記観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定するステップと、
各リード層の前記観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた前記可能な事象の組み合わせを識別するステップと、
統計的補数を決定するために前記識別された組み合わせの確率を合計するステップと、
前記統計的補数を1.0から減算することによって尤度値を決定するステップと
を含む請求項1に記載のコンピュータ実装方法。
【請求項17】
1つの二本鎖リードを含む第1の識別された組み合わせは、2つの一本鎖リードを含む第2の識別組み合わせに等しい請求項
16に記載のコンピュータ実装方法。
【請求項18】
前記決定された尤度値は、各リード層の前記観察された層別化されたバリアントカウントの発生の尤度に等しいまたはこれよりも大きい請求項
16に記載のコンピュータ実装方法。
【請求項19】
前記尤度値を決定するために機械学習モデルを訓練するステップをさらに含む請求項
16に記載のコンピュータ実装方法。
【請求項20】
個人の体液試料を受け取るステップと、
前記体液試料のcfDNAに対して前記DNAシークエンシングを実施するステップと、
前記DNAシークエンシングの結果に基づいて生シークエンスリードを生成するステップと、
前記複数の処理されたシークエンスリードを生成するために前記生シークエンスリードを崩壊および縫合するステップと
をさらに含む請求項1に記載のコンピュータ実装方法。
【請求項21】
前記体液試料は、前記個人の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、涙液、組織生検、胸水、心嚢液、または腹水、のうちの1つの試料である請求項
20に記載のコンピュータ実装方法。
【請求項22】
前記複数の処理されたシークエンスリードは腫瘍生検から配列決定される請求項
20に記載のコンピュータ実装方法。
【請求項23】
前記複数の処理されたシークエンスリードは、血液からの細胞の単離物から配列決定され、前記細胞の単離物は、少なくともバフィーコート白血球またはCD4+細胞を含む請求項
20に記載のコンピュータ実装方法。
【請求項24】
前記DNAシークエンシングは超並列DNAシークエンシング動作を含む請求項1に記載のコンピュータ実装方法。
【請求項25】
前記DNAシークエンシングデータセットは個人の体液試料のcfDNAシークエンシングデータセットである請求項1に記載のコンピュータ実装方法。
【請求項26】
前記組み合わされた結果に基づいて、被験者がバリアントを有するという診断を提供するステップ
をさらに含む請求項1に記載のコンピュータ実装方法。
【請求項27】
前記バリアントは、ACVR1B、AKT3、AMER1、APC、ARID1A、ARID1B、ARID2、ASXL1、ASXL2、ATM、ATR、BAP1 BCL2、BCL6、BCORL1、BCR、BLM、BRAF、BRCA1、BTG1、CASP8、CBL、CCND3、CCNE1、CD74、CDC73、CDK12、CDKN2A、CHD2、CJD2、CREBBP、CSF1R、CTCF、CTNNB1、DICER1、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、EED、EGFR、EIF1AX、EP300、EPHA3、EPHA5、EPHB1、ERBB2、ERBB4、ERCC2、ERCC3、ERCC4、ESR1、FAM46C、FANCA、FANCC、FANCD2、FANCE、FAT1、FBXW7、FGFR3、FLCN、FLT1、FOXO1、FUBP1、FYN、GATA3、GPR124、GRIN2A、GRM3、H3F3A、HIST1H1C、IDH1、IDH2、IKZF1、IL7R、INPP4B、IRF4、IRS1、IRS2、JAK2、KAT6A、KDM6A、KEAP1、KIF5B、KIT、KLF4、KLH6、KMT2C、KRAS、LMAP1、LRP1B、LZTR1、MAP3K1、MCL1、MGA、MSH2、MSH6、MST1R、MTOR、MYD88、NPM1、NRAS、NTRK1、NTRK2、NUP93、NUTM1、PAX3、PAX8、PBRM1、PGR、PHOX2B、PIK3CA、POLE、PTCH1、PTEN、PTPN11、PTPRT、RAD21、RAF1、RANBP2、RB1、REL、RFWD2、RHOA、RPTOR、RUNX1、RUNX1T1、SDHA、SHQ1、SLIT2、SMAD4、SMARCA4、SMARCD1、SNCAIP、SOCS1、SPEN、SPTA1、SUZ12、TET1、TET2、TGFBR、およびTNFRSF14からなる群から選択される請求項
26に記載のコンピュータ実装方法。
【請求項28】
前記バリアントを有すると識別された前記被験者に治療を投与する指示を提供するステップ
をさらに含む請求項
26に記載のコンピュータ実装方法。
【請求項29】
前記治療は、Rituxan、Herceptin、Erbitux、Vectibix、Arzerra、Benlysta、Yervoy、Perjeta、Tremelimumab、Opdivo、Dacetuzumab、Urelumab、Tecentriq、Lambrolizumab、Blinatumomab、CT-011、Keytruda、BMS-936559、MED14736、MSB0010718C、Imfinzi、Bavencio、およびマルゲツキシマブからなる群から選択される薬剤を投与するステップを含む請求項
28に記載のコンピュータ実装方法。
【請求項30】
前記尤度は、その後観察されるデータに関する総バリアントカウントが、前記複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因することを表す請求項1に記載のコンピュータ実装方法。
【請求項31】
1つまたは複数のプロセッサによって実行されるとき、前記1つまたは複数のプロセッサに、
DNAシークエンシングによって生成されたDNAシークエンシングデータセットにアクセスさせるステップであって、前記DNAシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスさせるステップと、
前記複数の処理されたシークエンスリードを複数のリード層へと層別化させるステップと、
各リード層に対して、前記バリアント場所において層別化されたシークエンシング深度を決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定させるステップであって、前記1つまたは複数のノイズパラメータは、前記リード層に固有のノイズモデルに対応し、前記ノイズモデルの訓練は、
複数の参照健常個人の訓練DNAデータセットを層別化するステップと、
前記リード層のための層別化されたシークエンスリードを、層別化された訓練セットとして選択するステップと、
前記ノイズモデルを表すノイズ分布をモデル化する前記1つまたは複数のノイズパラメータ
の初期値を設定するステップと、
前記複数の参照健常個人からの前記層別化された訓練セットの前記ノイズ分布に基づいて前記1つまたは複数のノイズパラメータの値を反復的に調整するステップと
を含む、決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記1つまたは複数のノイズパラメータに基づいて前記リード層に固有の前記ノイズモデルの出力を生成させるステップと、
その後観察されるデータに関する総バリアントカウントは前記複数の処理されたシークエンスリードにおいて観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表す組み合わされた結果を生じさせるために、前記生成されたノイズモデル出力を組み合わせるステップと
を含むステップを実施させる命令を含み、
前記複数のリード層は、(1)二本鎖の、縫合されたリード層、(2)二本鎖の、縫合されていないリード層、(3)一本鎖の、縫合されたリード層、および(4)一本鎖の、縫合されていないリード層、のうちの1つまたは複数を含む、非一時的なコンピュータ可読媒体。
【請求項32】
前記生成されたノイズモデル出力を組み合わせるステップは、全体的な平均バリアントカウントおよび前記組み合わされた結果に関する全体的なノイズ分布を表す前記全体的なばらつきパラメータを生じさせるために平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせるステップを含む請求項
31に記載の非一時的なコンピュータ可読媒体。
【請求項33】
前記全体的なノイズ分布は、負の二項分布に基づいてモデル化され、前記全体的な平均バリアントカウントおよび前記全体的なばらつきパラメータを決定するステップは、
前記リード層の前記層別化されたシークエンシング深度に基づいて各リード層に関する前記平均バリアントカウントを決定するステップと、
各リード層に関する前記分散を決定するステップと、
前記全体的な平均バリアントカウントを決定するために各リード層に関する前記平均バリアントカウントを合計するステップと、
全体的な分散を決定するために各リード層に関する前記分散を組み合わせるステップと、
前記全体的な平均バリアントカウントおよび前記全体的な分散に基づいて前記全体的なばらつきパラメータを決定するステップと
を含む請求項
32に記載の非一時的なコンピュータ可読媒体。
【請求項34】
前記組み合わされた結果を生じさせるために前記生成されたノイズモデル出力を組み合わせるステップは、
各リード層の観察された層別化されたバリアントカウントを決定するステップと、
各リード層内で、各リード層の前記観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定するステップと、
各リード層の前記観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた前記可能な事象の組み合わせを識別するステップと、
統計的補数を決定するために前記識別された組み合わせの確率を合計するステップと、
前記統計的補数を1.0から減算することによって尤度値を決定するステップと
を含む請求項
31に記載の非一時的なコンピュータ可読媒体。
【請求項35】
前記ステップは、
前記組み合わされた結果に基づいて、被験者がバリアントを有するという診断を提供するステップ
をさらに含む請求項
31に記載の非一時的なコンピュータ可読媒体。
【請求項36】
前記バリアントは、ACVR1B、AKT3、AMER1、APC、ARID1A、ARID1B、ARID2、ASXL1、ASXL2、ATM、ATR、BAP1 BCL2、BCL6、BCORL1、BCR、BLM、BRAF、BRCA1、BTG1、CASP8、CBL、CCND3、CCNE1、CD74、CDC73、CDK12、CDKN2A、CHD2、CJD2、CREBBP、CSF1R、CTCF、CTNNB1、DICER1、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、EED、EGFR、EIF1AX、EP300、EPHA3、EPHA5、EPHB1、ERBB2、ERBB4、ERCC2、ERCC3、ERCC4、ESR1、FAM46C、FANCA、FANCC、FANCD2、FANCE、FAT1、FBXW7、FGFR3、FLCN、FLT1、FOXO1、FUBP1、FYN、GATA3、GPR124、GRIN2A、GRM3、H3F3A、HIST1H1C、IDH1、IDH2、IKZF1、IL7R、INPP4B、IRF4、IRS1、IRS2、JAK2、KAT6A、KDM6A、KEAP1、KIF5B、KIT、KLF4、KLH6、KMT2C、KRAS、LMAP1、LRP1B、LZTR1、MAP3K1、MCL1、MGA、MSH2、MSH6、MST1R、MTOR、MYD88、NPM1、NRAS、NTRK1、NTRK2、NUP93、NUTM1、PAX3、PAX8、PBRM1、PGR、PHOX2B、PIK3CA、POLE、PTCH1、PTEN、PTPN11、PTPRT、RAD21、RAF1、RANBP2、RB1、REL、RFWD2、RHOA、RPTOR、RUNX1、RUNX1T1、SDHA、SHQ1、SLIT2、SMAD4、SMARCA4、SMARCD1、SNCAIP、SOCS1、SPEN、SPTA1、SUZ12、TET1、TET2、TGFBR、およびTNFRSF14からなる群から選択される請求項
35に記載の非一時的なコンピュータ可読媒体。
【請求項37】
前記ステップは、
前記バリアントを有すると識別された前記被験者に治療を投与する指示を提供するステップ
をさらに含む請求項
35に記載の非一時的なコンピュータ可読媒体。
【請求項38】
前記治療は、Rituxan、Herceptin、Erbitux、Vectibix、Arzerra、Benlysta、Yervoy、Perjeta、Tremelimumab、Opdivo、Dacetuzumab、Urelumab、Tecentriq、Lambrolizumab、Blinatumomab、CT-011、Keytruda、BMS-936559、MED14736、MSB0010718C、Imfinzi、Bavencio、およびマルゲツキシマブからなる群から選択される薬剤を投与するステップを含む請求項
37に記載の非一時的なコンピュータ可読媒体。
【請求項39】
前記尤度は、その後観察されたデータに関する総バリアントカウントが、前記複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因することを表す請求項
31に記載の非一時的なコンピュータ可読媒体。
【請求項40】
コンピュータプロセッサとコンピュータプログラム命令を格納するメモリとを備えるシステムであって、前記コンピュータプログラム命令は、前記コンピュータプロセッサによって実行されるとき、前記コンピュータプロセッサに、
DNAシークエンシングによって生成されたDNAシークエンシングデータセットにアクセスさせるステップであって、前記DNAシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスさせるステップと、
前記複数の処理されたシークエンスリードを複数のリード層へと層別化させるステップと、
各リード層に対して、前記バリアント場所において層別化されたシークエンシング深度を決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定させるステップであって、前記1つまたは複数のノイズパラメータは、前記リード層に固有のノイズモデルに対応し、前記ノイズモデルの訓練は、
複数の参照健常個人の訓練DNAデータセットを層別化するステップと、
前記リード層のための層別化されたシークエンスリードを、層別化された訓練セットとして選択するステップと、
ステップと、
前記複数の参照健常個人からの前記層別化された訓練セットの前記ノイズ分布に基づいて前記1つまたは複数のノイズパラメータの値を反復的に調整するステップと
を含む、決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記1つまたは複数のノイズパラメータに基づいて前記リード層に固有の前記ノイズモデルの出力を生成させるステップと、
その後観察されるデータに関する総バリアントカウントは前記複数の処理されたシークエンスリードにおいて観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表す組み合わされた結果を生じさせるために、前記生成されたノイズモデル出力を組み合わせるステップと
を含むステップを実施させ
、
前記複数のリード層は、(1)二本鎖の、縫合されたリード層、(2)二本鎖の、縫合されていないリード層、(3)一本鎖の、縫合されたリード層、および(4)一本鎖の、縫合されていないリード層、のうちの1つまたは複数を含む、システム。
【請求項41】
前記生成されたノイズモデル出力を組み合わせるステップは、全体的な平均バリアントカウントおよび前記組み合わされた結果に関する全体的なノイズ分布を表す前記全体的なばらつきパラメータを生じさせるために平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせるステップを含む請求項
40に記載のシステム。
【請求項42】
前記全体的なノイズ分布は、負の二項分布に基づいてモデル化され、前記全体的な平均バリアントカウントおよび前記全体的なばらつきパラメータを決定するステップは、
前記リード層の前記層別化されたシークエンシング深度に基づいて各リード層に関する前記平均バリアントカウントを決定するステップと、
各リード層に関する前記分散を決定するステップと、
前記全体的な平均バリアントカウントを決定するために各リード層に関する前記平均バリアントカウントを合計するステップと、
全体的な分散を決定するために各リード層に関する前記分散を組み合わせるステップと、
前記全体的な平均バリアントカウントおよび前記全体的な分散に基づいて前記全体的なばらつきパラメータを決定するステップと
を含む請求項
41に記載のシステム。
【請求項43】
前記組み合わされた結果を生じさせるために前記生成されたノイズモデル出力を組み合わせるステップは、
各リード層の観察された層別化されたバリアントカウントを決定するステップと、
各リード層内で、各リード層の前記観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定するステップと、
各リード層の前記観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた前記可能な事象の組み合わせを識別するステップと、
統計的補数を決定するために前記識別された組み合わせの確率を合計するステップと、
前記統計的補数を1.0から減算することによって尤度値を決定するステップと
を含む請求項
40に記載のシステム。
【請求項44】
前記ステップは、
前記組み合わされた結果に基づいて、被験者がバリアントを有するという診断を提供するステップ
をさらに含む請求項
40に記載のシステム。
【請求項45】
前記バリアントは、ACVR1B、AKT3、AMER1、APC、ARID1A、ARID1B、ARID2、ASXL1、ASXL2、ATM、ATR、BAP1 BCL2、BCL6、BCORL1、BCR、BLM、BRAF、BRCA1、BTG1、CASP8、CBL、CCND3、CCNE1、CD74、CDC73、CDK12、CDKN2A、CHD2、CJD2、CREBBP、CSF1R、CTCF、CTNNB1、DICER1、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、EED、EGFR、EIF1AX、EP300、EPHA3、EPHA5、EPHB1、ERBB2、ERBB4、ERCC2、ERCC3、ERCC4、ESR1、FAM46C、FANCA、FANCC、FANCD2、FANCE、FAT1、FBXW7、FGFR3、FLCN、FLT1、FOXO1、FUBP1、FYN、GATA3、GPR124、GRIN2A、GRM3、H3F3A、HIST1H1C、IDH1、IDH2、IKZF1、IL7R、INPP4B、IRF4、IRS1、IRS2、JAK2、KAT6A、KDM6A、KEAP1、KIF5B、KIT、KLF4、KLH6、KMT2C、KRAS、LMAP1、LRP1B、LZTR1、MAP3K1、MCL1、MGA、MSH2、MSH6、MST1R、MTOR、MYD88、NPM1、NRAS、NTRK1、NTRK2、NUP93、NUTM1、PAX3、PAX8、PBRM1、PGR、PHOX2B、PIK3CA、POLE、PTCH1、PTEN、PTPN11、PTPRT、RAD21、RAF1、RANBP2、RB1、REL、RFWD2、RHOA、RPTOR、RUNX1、RUNX1T1、SDHA、SHQ1、SLIT2、SMAD4、SMARCA4、SMARCD1、SNCAIP、SOCS1、SPEN、SPTA1、SUZ12、TET1、TET2、TGFBR、およびTNFRSF14からなる群から選択される請求項
44に記載のシステム。
【請求項46】
前記ステップは、
前記バリアントを有すると識別された前記被験者に治療を投与する指示を提供するステップ
をさらに含む請求項
44に記載のシステム。
【請求項47】
前記治療は、Rituxan、Herceptin、Erbitux、Vectibix、Arzerra、Benlysta、Yervoy、Perjeta、Tremelimumab、Opdivo、Dacetuzumab、Urelumab、Tecentriq、Lambrolizumab、Blinatumomab、CT-011、Keytruda、BMS-936559、MED14736、MSB0010718C、Imfinzi、Bavencio、およびマルゲツキシマブからなる群から選択される薬剤を投与するステップを含む請求項
46に記載のシステム。
【請求項48】
前記尤度は、その後観察されたデータに関する総バリアントカウントが、前記複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因することを表す請求項
40に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、核酸シークエンシングデータセットのための品質スコアを決定するためのノイズモデルに関する。
【背景技術】
【0002】
計算技法は、さまざまなタイプのがんまたは他の疾患に対応し得るDNA内の変異またはバリアントを識別するために、DNAシークエンシングデータに対して使用可能である。したがって、がん診断または予測は、組織生検または個人、動物、植物などから採取された血液などの生物学的試料を解析することによって実施され得る。血液試料から腫瘍細胞に由来したDNAを検出することは、循環腫瘍DNA(ctDNA)が、血液から抽出されたセルフリーDNA(cfDNA)中の他の分子に対して低レベルで存在するので、困難である。既存の方法が信号ノイズから真陽性(たとえば、被験者中のがんを示す)を識別できないことは、既知のシステムおよび将来のシステムが真陽性とノイズ源に引き起こされる偽陽性とを区別できることを減らし、これは、バリアントコーリングまたは他のタイプの解析に関する信頼できない結果をもたらし得る。
【先行技術文献】
【特許文献】
【0003】
【文献】米国特許出願第16/153,593号明細書
【発明の概要】
【0004】
本明細書では、複数のリード層へと分類される部位固有ノイズモデルを訓練および適用するためのシステムおよび方法が開示される。ノイズモデルは、標的シークエンシングにおける真陽性の尤度を決定することができる。真陽性は、塩基対の一塩基バリアント、挿入、または欠失を含むことができる。具体的には、モデルは、ベイズの推論を使用して、たとえば、核酸配列の位置ごとに、いくつかの変異の予想尤度を示すノイズの率またはレベルを決定することができる。各モデルは、リード層に固有とすることができる。リード層は、潜在的なバリアント場所が処理されたシークエンシングリードの重複領域および/または相補的な領域に置かれるかどうかに基づいて決定可能である。リード層に固有の各モデルは、共変量(たとえば、トリヌクレオチドコンテキスト、マップ可能性、またはセグメント複製)およびリード層に固有であるさまざまなタイプのパラメータ(たとえば、混合成分またはシークエンスリードの深度)を解説する階層モデルであってよい。モデルは、同じくリード層によって層別化された健常な被験者のシークエンスリードから訓練可能である。異なるノイズモデルの出力は、全体的な品質スコアを生成するために組み合わせ可能である。さまざまなリード層モデルを組み込んだ全体的なパイプラインは、リード層によってシークエンスリードを分けない単一モデルと比較したとき、より高い感度で真陽性を識別し、偽陽性を除外することができる。
【0005】
例として、さまざまな実施形態では、試料(たとえば、個人)のDNAシークエンシングデータセットを処理するための方法は、DNAシークエンシングによって生成されるDNAシークエンシングデータセットにアクセスすることであって、このDNAシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスすることを含むことができる。方法は、複数の処理されたシークエンスリードを複数のリード層へと層別化させることも含むことができる。方法は、各リード層に対して、バリアント場所において層別化されたシークエンシング深度を決定させることをさらに含むことができる。方法は、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定することであって、1つまたは複数のノイズパラメータは、リード層に固有のノイズモデルに対応する、決定するステップをさらに含むことができる。方法は、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータに基づいてリード層に固有のノイズモデルの出力を生成させることをさらに含むことができる。方法は、組み合わされた結果を生じさせるために、生成されたノイズモデル出力を組み合わせることをさらに含むことができる。組み合わされた結果は、その後観察されたデータに関する総バリアントカウントが複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表すことができる。
【0006】
1つまたは複数の実施形態では、複数のリード層は、(1)二本鎖の、縫合されたリード層、(2)二本鎖の、縫合されていないリード層、(3)一本鎖の、縫合されたリード層、および(4)一本鎖の、縫合されていないリード層、のうちの1つまたは複数を含む。
【0007】
1つまたは複数の実施形態では、バリアント場所における変異は、一塩基バリアント、挿入、および欠失、のうちの1つである。
【0008】
1つまたは複数の実施形態では、方法は、組み合わされた結果の品質スコアを決定することであって、この品質スコアはPhredスケールスコアである、決定することをさらに含むことができる。
【0009】
1つまたは複数の実施形態では、方法は、品質スコアが所定の閾値よりも高いことに応答して、試料はバリアント場所において変異を有する尤度が高いことを示すことをさらに含むことができる。
【0010】
1つまたは複数の実施形態では、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定することは、リード層に固有のパラメータ分布にアクセスすることであって、パラメータ分布は、リード層と関連づけられたDNAシークエンシング試料のセットの分布について説明する、アクセスすることを含むことができる。ノイズパラメータは、パラメータ分布から決定される。
【0011】
1つまたは複数の実施形態では、各リード層に対して、リード層と関連づけられたDNAシークエンシング試料のセットは、リード層へと層別化されたシークエンスリードを含み、1つまたは複数の健常個人に対応する。
【0012】
1つまたは複数の実施形態では、リード層に対して、リード層に固有のノイズモデルはベイズ階層モデルであり、パラメータ分布はガンマ分布に基づく。
【0013】
1つまたは複数の実施形態では、第1のリード層に固有のノイズモデルに対応する第1のノイズパラメータは、第2のリード層に固有のノイズモデルに対応する対応する第2のノイズパラメータとは異なる値を有する。
【0014】
1つまたは複数の実施形態では、各リード層に対して、決定された1つまたは複数のノイズパラメータは、リード層の層別化されたシークエンシング深度を条件としたノイズ分布の平均を含む。
【0015】
1つまたは複数の実施形態では、各ノイズ分布は、各リード層の層別化されたシークエンシング深度を条件とした負の二項分布である。
【0016】
1つまたは複数の実施形態では、各リード層に対して、決定された1つまたは複数のノイズパラメータは、ばらつきパラメータをさらに含む。
【0017】
1つまたは複数の実施形態では、各ノイズモデルの出力は、リード層に対して決定された層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータである。
【0018】
1つまたは複数の実施形態では、各ノイズモデルの生成された出力は、リード層に対して決定された層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータである。
【0019】
1つまたは複数の実施形態では、各ノイズモデルの生成された出力は、リード層のための層別化されたバリアントカウントが閾値を超える尤度を含む。
【0020】
1つまたは複数の実施形態では、生成されたノイズモデル出力を組み合わせることは、全体的な平均バリアントカウントおよび組み合わされた結果に関する全体的なノイズ分布を表す全体的なばらつきパラメータを生じさせるために、平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせることを含む。
【0021】
1つまたは複数の実施形態では、全体的なノイズ分布は、負の二項分布に基づいてモデル化される。全体的な平均バリアントカウントおよび全体的なばらつきパラメータを決定することは、リード層の層別化されたシークエンシング深度に基づいて各リード層に関する平均バリアントカウントを決定することを含むことができる。決定するステップは、各リード層に関する分散を決定することも含むことができる。決定するステップは、全体的な平均バリアントカウントを決定するために、各リード層に関する平均バリアントカウントを合計することをさらに含むことができる。決定するステップは、全体的な分散を決定するために、各リード層に関する分散を組み合わせることをさらに含むことができる。決定するステップは、全体的な平均バリアントカウントおよび全体的な分散に基づいて全体的なばらつきパラメータを決定することをさらに含むことができる。
【0022】
1つまたは複数の実施形態では、組み合わされた結果を生成するために各ノイズモデルに関する出力を組み合わせることは、各リード層の観察された層別化されたバリアントカウントを決定することを含むことができる。組み合わせるステップは、各リード層内で、各リード層の観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定することも含むことができる。組み合わせるステップは、各リード層の観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた可能な事象の組み合わせを識別することをさらに含むことができる。組み合わせるステップは、統計的補数を決定するために識別された組み合わせの確率を合計することをさらに含むことができる。組み合わせるステップは、統計的補数を1.0から減算することによって尤度値を決定することをさらに含むことができる。
【0023】
1つまたは複数の実施形態では、1つの二本鎖リードを含む第1の識別された組み合わせは、2つの一本鎖リードを含む第2の識別組み合わせに等しい。
【0024】
1つまたは複数の実施形態では、決定された尤度値は、各リード層の観察された層別化されたバリアントカウントの発生の尤度に等しいまたはこれよりも大きい。
【0025】
1つまたは複数の実施形態では、方法は、尤度値を決定するために機械学習モデルを訓練することをさらに含むことができる。
【0026】
1つまたは複数の実施形態では、方法は、個人の体液試料を受け取ることをさらに含むことができる。方法は、体液試料のcfDNAに対してDNAシークエンシングを実施することをさらに含むことができる。方法は、DNAシークエンシングの結果に基づいて生シークエンスリードを生成することをさらに含むことができる。方法は、複数の処理されたシークエンスリードを生成するために、生シークエンスリードを崩壊および縫合することをさらに含むことができる。
【0027】
1つまたは複数の実施形態では、体液試料は、個人の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、涙液、組織生検、胸水、心嚢液、または腹水、のうちの1つの試料である。
【0028】
1つまたは複数の実施形態では、複数の処理されたシークエンスリードは、腫瘍生検から配列決定される。
【0029】
1つまたは複数の実施形態では、複数の処理されたシークエンスリードは、血液からの細胞の単離物から配列決定され、細胞の単離物は、少なくともバフィーコート白血球またはCD4+細胞を含む。
【0030】
1つまたは複数の実施形態では、DNAシークエンシングは、超並列DNAシークエンシングのタイプである。
【0031】
さまざまな実施形態では、非一時的なコンピュータ可読媒体は、1つまたは複数のプロセッサによって実行されるとき、1つまたは複数のプロセッサに、上記で説明され本明細書において開示されるステップのいずれかを実施させる命令を含む。
【0032】
さらに、さまざまな実施形態では、コンピュータプロセッサと、コンピュータプログラム命令を記憶するメモリとを有し、それによって、プロセッサに上記で説明され本明細書において開示されるステップのいずれかを実施させる命令をコンピュータプロセッサによって実行するシステムが提供される。
【0033】
本発明による実施形態は、具体的には、方法およびコンピュータプログラム製品に向けられる添付の請求項に開示されており、1つの請求項カテゴリにおいて言及される任意の特徴、たとえば方法は、別の請求項カテゴリ、たとえばコンピュータプログラム製品、システム、記憶媒体においても特許請求可能である。添付の請求項における依存関係または参照は、公的な理由のためにのみ選ばれる。しかしながら、いかなる以前の請求項(特に複数の依存関係)への熟慮のうえでの参照から生じるいかなる主題も特許請求可能であり、したがって、請求項およびその特徴の任意の組み合わせが開示され、添付の請求項において選ばれた依存関係に関係なく特許請求可能である。特許請求可能である主題は、添付の請求項に記載される特徴の組み合わせだけでなく、請求項における特徴の他の任意の組み合わせも含み、請求項において言及される各特徴は、請求項における他の任意の特徴または他の特徴の組み合わせと組み合わせ可能である。そのうえ、本明細書において説明または描かれる実施形態および特徴のいずれも、別個の請求項において、および/または本明細書において説明もしくは描かれる任意の実施形態もしくは特徴との、もしくは添付の請求項の特徴のいずれかとの任意の組み合わせで、特許請求可能である。
【図面の簡単な説明】
【0034】
【
図1】本開示のさまざまな実施形態による、シークエンシングのための核酸試料を準備するための方法のフローチャートである。
【
図2】本開示のさまざまな実施形態による、シークエンスリードを処理するための処理システムのブロック図である。
【
図3】本開示のさまざまな実施形態による、シークエンスリードのバリアントを決定するための方法のフローチャートである。
【
図4】本開示のさまざまな実施形態による、ベイズ階層モデルの適用例の図である。
【
図5A】本開示のさまざまな実施形態による、真の一塩基バリアントを決定するためのベイズ階層モデルのパラメータおよびサブモデル間の依存関係を図示する図である。
【
図5B】本開示のさまざまな実施形態による、真の挿入または欠失を決定するためのベイズ階層モデルのパラメータおよびサブモデル間の依存関係を図示する図である。
【
図6A】本開示のさまざまな実施形態による、ベイズ階層モデルと関連づけられたノイズ率の分布に関する図である。
【
図6B】本開示のさまざまな実施形態による、ベイズ階層モデルと関連づけられたバリアントにより与えられるパラメータの分布に関する図である。
【
図7A】本開示のさまざまな実施形態による、ベイズ階層モデルを適合させることによってパラメータを決定する図である。
【
図7B】本開示のさまざまな実施形態による、ベイズ階層モデルからパラメータを使用して偽陽性の尤度を決定する図である。
【
図8A】本開示のさまざまな実施形態による、シークエンスリードの異なるリード層を示す図である。
【
図8B】本開示のさまざまな実施形態による、
図8Aのリード層の異なる品質を示す実験結果を図示するグラフである。
【
図8C】本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第1のリード層の実験結果を図示するグラフである。
【
図8D】本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第2のリード層の実験結果を図示するグラフである。
【
図8E】本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第3のリード層の実験結果を図示するグラフである。
【
図8F】本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第4のリード層の実験結果を図示するグラフである。
【
図8G】本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第5のリード層の実験結果を図示するグラフである。
【
図8H】本開示のさまざまな実施形態による、代替対立遺伝子のタイプに基づく4つのリード層にわたる平均誤り率を図示するグラフである。
【
図9】本開示のさまざまな実施形態による、層別化されたノイズモデルを使用してDNAシークエンシング試料を解析するためのプロセスを描くフローチャートである。
【
図10】本開示のさまざまな実施形態による、モーメントマッチングを使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描くフローチャートである。
【
図11A】本開示のさまざまな実施形態による、積分を使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描くフローチャートである。
【
図11B】本開示のさまざまな実施形態による、多次元空間内でのより極端な事象のカウンティングを示す図である。
【
図12A】本開示のさまざまな実施形態による、デフォルト品質スコアに対する観察された品質スコアの例示的なプロットである。
【
図12B】本開示のさまざまな実施形態による、デフォルト品質スコアに対する観察された品質スコアの別の例示的なプロットである。
【
図13A】本開示のさまざまな実施形態による、リード層を使用した品質スコアの実験結果を示すグラフである。
【
図13B】本開示のさまざまな実施形態による、リード層を分けないノイズモデルを使用した品質スコアの実験結果を示すグラフである。
【
図14】本開示のさまざまな実施形態による、個人の潜在的な変異場所を識別する例示的なプロセスを描くフローチャートである。
【
図15】本開示のさまざまな実施形態による、例示的なコンピューティングデバイスのブロック図である。
【発明を実施するための形態】
【0035】
図は、例示目的でのみ本発明の実施形態を描く。当業者は、本明細書において示される構造および方法の代替的実施形態が、本明細書において説明される本発明の原理から逸脱することなく用いられてよいことを、以下の説明から容易に認識するであろう。
【0036】
I.定義
「個人」という用語は、人間個人を指す。「健常個人」という用語は、がんまたは疾患を患っていないことを推定された個人を指す。「被験者」という用語は、がんまたは疾患の検査を受けている個人を指す。
【0037】
「シークエンスリード」という用語は、個人から取得された試料からのヌクレオチドシークエンスリードを指す。シークエンスリードは、当技術分野で知られているさまざまな方法を通じて取得可能である。
【0038】
「リードセグメント」または「リード」という用語は、個人から取得されたシークエンスリードを含む任意のヌクレオチド配列および/または個人から取得された試料からの初期シークエンスリードから得られたヌクレオチド配列を指す。たとえば、リードセグメントは、アライメントされたシークエンスリード、崩壊されたシークエンスリード、または縫合されたリードを指すことができる。そのうえ、リードセグメントは、一塩基バリアントなどの個々のヌクレオチド塩基を指すことができる。
【0039】
「一塩基バリアント」すなわち「SNV」という用語は、個人からのヌクレオチド配列たとえばシークエンスリードの位置(たとえば、部位)における1つのヌクレオチドの異なるヌクレオチドへの置換を指す。第1のヌクレオベースXから第2のヌクレオベースYへの置換は、「X>Y」と表され得る。たとえば、シトシンからチミンへのSNVは、「C>T」と表されてよい。
【0040】
「インデル」という用語は、長さとシークエンスリード内の位置(アンカー位置とも呼ばれ得る)とを有する1つまたは複数の塩基対の挿入または欠失を指す。挿入は正の長さに対応し、欠失は負の長さに対応する。
【0041】
「バリアント」という用語は、1つまたは複数のSNVまたはインデルを指す。バリアント場所は、SNVまたはインデルを潜在的に含む可能性のあるDNAシークエンシング内の対象となる場所を指す。
【0042】
「真陽性」という用語は、リアルバイオロジー(real biology)、たとえば、個人における潜在的ながん、疾患、または生殖細胞系列変異の存在を示す変異を指す。真陽性は、健常個人において自然に発生する変異(たとえば、再発する変異)または核酸試料のアッセイ準備中のプロセスエラーなどの他のアーチファクトの源によって引き起こされない。
【0043】
「偽陽性」という用語は、真陽性と誤って決定される変異を指す。一般に、偽陽性は、より大きい平均ノイズ率またはより大きいノイズ率の不確実性と関連づけられたシークエンスリードを処理するとき発生する可能性がより高いことがある。
【0044】
「セルフリーDNA」すなわち「cfDNA」という用語は、個人の身体内で循環し(たとえば、血流)、1つもしくは複数の健常な細胞からおよび/または1つもしくは複数のがん細胞から生じる核酸断片を指す。
【0045】
「循環腫瘍DNA」すなわち「ctDNA」という用語は、死につつある細胞のアポトーシスもしくは壊死などの生物学的プロセスの結果として個人の血流へと放出可能である、または生存腫瘍細胞によって能動的に放出可能である、腫瘍細胞または他のタイプのがん細胞から生じる核酸断片を指す。
【0046】
「代替対立遺伝子」すなわち「ALT」という用語は、たとえば既知の遺伝子に対応する参照対立遺伝子に対して1つまたは複数の変異を有する対立遺伝子を指す。
【0047】
「シークエンシング深度」または「深度」という用語は、個人から取得された試料からのリードセグメントの総数を指す。
【0048】
「代替深度」すなわち「AD」という用語は、ALTをサポートする、たとえば、ALTの変異を含む、試料内のリードセグメントの数を指す。
【0049】
「代替頻度」すなわち「AF」という用語は、所与のALTの頻度を指す。AFは、試料の対応するADを所与のALTに対する試料の深度で除算することによって決定可能である。
【0050】
II.例示的なアッセイプロトコル
図1は、さまざまな実施形態による、シークエンシングのための核酸試料を準備するための方法100のフローチャートである。方法100は、以下のステップを含むが、これに限定されない。たとえば、方法100のいかなるステップも、品質制御または当業者に知られている他のラボラトリアッセイ手順のための定量化サブステップを含むことができる。方法100は、超並列DNAシークエンシング、たとえば、次世代シークエンシング(NGS)のタイプに対応することができる。
【0051】
ステップ110では、核酸試料(DNAまたはRNA)は、被験者から抽出される。被験者は、個人であってよい。試料は、ヒトゲノムまたはゲノム全体の任意のサブセットであってよい。試料は、がんを患っているまたは患っている疑いのあることが知られている被験者から抽出可能である。試料は、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組み合わせを含むことができる。いくつかの実施形態では、血液試料を採取するための方法(たとえば、シリンジまたは指刺し)は、手術を必要とすることがある、組織生検を取得するための手順よりも侵襲性が低いことがある。抽出された試料は、cfDNAおよび/またはctDNAを含むことができる。健常個人の場合、人間の身体は、cfDNAおよび他の細胞デブリを自然に取り除くことができる。被験者ががんまたは疾患を患っている場合、抽出された試料内のctDNAは、診断のために検出可能なレベルで存在することができる。
【0052】
ステップ120では、シークエンシングライブラリが準備される。ライブラリ準備中、核酸試料は、数千または数百万の断片にランダムに切断される。一意分子識別子(UMI)は、アダプタライゲーションを通じて核酸断片(たとえば、DNA断片)に追加される。UMIは、アダプタライゲーション中にDNA断片の端に追加される短い核酸配列(たとえば、4~10塩基対)である。いくつかの実施形態では、UMIは、特定のDNA断片から生じるシークエンスリードを識別するために使用可能である一意のタグとして働く縮重塩基対である。アダプタライゲーションに続いてPCR増幅中、UMIは、接着されたDNA断片とともに複写され、これは、下流解析において同じ元の断片に由来するシークエンスリードを識別するやり方を提供する。
【0053】
ステップ130では、標的DNA配列は、ライブラリから濃縮される。濃縮中、ハイブリダイゼーションプローブ(本明細書では、「プローブ」とも呼ばれる)は、がん(または疾患)の存在または不在、がんステータス、またはがん分類(たとえば、がんタイプまたは原発組織)に関する情報を与える核酸断片を標的とし、破壊するために使用される。所与のワークフローの場合、プローブは、DNAまたはRNAの標的(相補)鎖にアニール(またはハイブリダイズ)するように設計可能である。標的鎖は、「ポジティブ」鎖(たとえば、mRNAへと転写され、その後でタンパク質へと翻訳される鎖)であってもよいし、相補的な「ネガティブ」鎖であってもよい。プローブは、長さが数十から、数百、または数千の塩基対とすることができる。いくつかの実施形態では、プローブは、いくつかのがんまたは他のタイプの疾患に対応すると疑われる(たとえば、人間または別の生物の)ゲノムの特定の変異または標的領域を解析するために遺伝子パネルに基づいて設計される。さらに、プローブは、標的領域の重複部分をカバーすることができる。「全エクソームシークエンシング」としても知られるゲノムのすべての発現遺伝子を配列決定することではなく、標的遺伝子パネルを使用することによって、方法100は、標的領域のシークエンシング深度を増加させるために使用可能であり、深度は、試料内の所与の標的配列が配列決定された回数のカウントを指す。シークエンシング深度を増加させることは、核酸試料の必要とされる入力量を減少させる。ハイブリダイゼーションステップの後、ハイブリダイズされた核酸断片が捕捉され、PCRを使用して増幅されることも可能である。
【0054】
ステップ140では、シークエンスリードは、濃縮DNA配列から生成される。シークエンシングデータは、当技術分野で知られている手段によって、濃縮DNA配列から獲得可能である。たとえば、方法100は、合成技術(Illumina)、パイロシークエンシング(454 Life Sciences)、イオン半導体技術(Ion Torrent sequencing)、単分子リアルタイムシークエンシング(Pacific Biosciences)、ライゲーションによるシークエンシング(SOLiD sequencing)、ナノポアシークエンシング(Oxford Nanopore Technologies)、またはペアードエンドシークエンシングを含む次世代シークエンシング(NGS)技法を含むことができる。いくつかの実施形態では、超並列シークエンシングは、可逆的ダイターミネータとともに合成時シークエンシングを使用して実施される。
【0055】
いくつかの実施形態では、シークエンスリードは、アライメント位置情報を決定するために、当技術分野で知られている方法を使用して、参照ゲノムにアライメント可能である。アライメント位置情報は、所与のシークエンスリードの開始ヌクレオチド塩基および終了ヌクレオチド塩基に対応する参照ゲノム内の領域の開始位置および終了位置を示すことができる。アライメント位置情報は、開始位置および終了位置から決定可能であるシークエンスリード長も含むことができる。参照ゲノム内の領域は、遺伝子または遺伝子のセグメントと関連づけ可能である。
【0056】
さまざまな実施形態では、シークエンスリードは、R
1およびR
2と示されるリードペアからなる。たとえば、第1のリードR
1は、核酸断片の第1の端から配列決定可能であるが、第2のリードR
2は、核酸断片の第2の端から配列決定可能である。したがって、第1のリードR
1および第2のリードR
2のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して(たとえば、反対の方位に)アライメント可能である。リードペアR
1およびR
2から得られるアライメント位置情報は、第1のリード(たとえば、R
1)の端に対応する参照ゲノム内の開始位置と、第2のリード(たとえば、R
2)の端に対応する参照ゲノム内の終了位置とを含むことができる。言い換えれば、参照ゲノム内の開始位置および終了位置は、核酸断片が対応する、参照ゲノム内の可能性のある場所を表す。以下で
図2を参照して説明されるように、SAM(配列アライメントマップ)フォーマットまたはBAM(バイナリ)フォーマットを有する出力ファイルが、バリアントコーリングなどのさらなる解析のために生成および出力可能である。
【0057】
III.例示的な処理システム
図2は、さまざまな実施形態による、シークエンスリードを処理するための処理システム200のブロック図である。処理システム200は、配列プロセッサ205と、配列データベース210と、モデルデータベース215と、機械学習エンジン220と、モデル225(たとえば、異なるリード層に対応するベイズ階層モデル)と、パラメータデータベース230と、スコアエンジン235と、バリアントコーラー240とを含む。
図3は、さまざまな実施形態による、シークエンスリードのバリアントを決定するための方法300のフローチャートである。いくつかの実施形態では、処理システム200は、入力シークエンシングデータに基づいて(たとえば、SNVおよび/またはインデルに対して)バリアントコーリングを実施するために方法300を実施する。さらに、処理システム200は、上記で説明された方法100を使用して準備される核酸試料と関連づけられた出力ファイルから入力シークエンシングデータを取得することができる。方法300は、以下のステップを含むが、これに限定されず、以下のステップは、処理システム200の構成要素に関して説明される。いくつかの実施形態では、方法300の1つまたは複数のステップは、たとえば、HaplotypeCaller、VarScan、Strelka、またはSomaticSniperなどのバリアントコールフォーマット(VCF)を使用してバリアントコールを生成するための異なるプロセスのステップによって置き換え可能である。
【0058】
ステップ300では、配列プロセッサ205は、入力シークエンシングデータのシークエンスリードを崩壊する。いくつかの実施形態では、シークエンスリードを崩壊することは、UMIと任意選択で出力ファイルのシークエンシングデータからの(たとえば、
図1に図示される方法100からの)アライメント位置情報を使用して、核酸断片またはその部分の最も可能性の高い配列を決定するために複数のシークエンスリードをコンセンサス配列へと崩壊することを含む。UMIは、濃縮およびPCRを通じてライゲーションされた核酸断片とともに複写されるので、配列プロセッサ205は、いくつかのシークエンスリードが核酸試料内の同じ分子から生じたことを決定することができる。いくつかの実施形態では、同じまたは類似のアライメント位置情報(たとえば、閾値オフセット内の開始位置および終了位置)を有し、共通UMIを含むシークエンスリードが崩壊され、配列プロセッサ205は、核酸断片を表す、崩壊されたリード(本明細書では、コンセンサスリードとも呼ばれる)を生成する。配列プロセッサ205は、崩壊されるリードの対応するペアが、親(originating)核酸分子のポジティブ鎖とネガティブ鎖の両方が捕捉されることを示す共通UMIを有する場合、コンセンサスリードを「デュプレックス(duplex)」として指定し、そうでない場合、崩壊されるリードは、「非デュプレックス」と指定される。いくつかの実施形態では、配列プロセッサ205は、シークエンスリードを崩壊することの代替として、またはこれに加えて、シークエンスリードに対して他のタイプの誤り訂正を実施することができる。
【0059】
ステップ305では、配列プロセッサ205は、2つ以上のシークエンスリード間の重複ヌクレオチド配列の部分に基づいて、崩壊されたリードを縫合する。いくつかの実施形態では、配列プロセッサ205は、第1のリードと第2のリードのヌクレオチド塩基対が重複するかどうかを決定するために、第1のリードと第2のリードとの間でヌクレオチド配列を比較する。2つのシークエンスリードは、参照ゲノムとも比較可能である。例示的な使用事例では、第1のリードと第2のリードとの間の(たとえば、所与の数のヌクレオチド塩基の)重複が閾値長さ(たとえば、ヌクレオチド塩基の閾値数)よりも大きいことを決定することに応答して、配列プロセッサ205は、第1のリードおよび第2のリードを「縫合される」と指定し、そうでない場合、崩壊されたリードは、「縫合されない」と指定される。いくつかの実施形態では、第1のリードおよび第2のリードは、重複が閾値長さよりも大きい場合および重複がスライドする(sliding)重複でない場合、縫合される。たとえば、スライドする重複は、ホモポリマー行程(run)(たとえば、単一の繰り返しヌクレオチド塩基)、ジヌクレオチド行程(たとえば、2ヌクレオチド塩基配列)、またはトリヌクレオチド行程(たとえば、3ヌクレオチド塩基配列)を含むことができ、ホモポリマー行程、ジヌクレオチド行程、またはトリヌクレオチド行程は、少なくとも閾値長さの塩基対を有する。
【0060】
ステップ310では、配列プロセッサ205は、リードを経路へと組み立てる。いくつかの実施形態では、配列プロセッサ205は、標的領域(たとえば、遺伝子)のための有向グラフたとえばde Bruijnグラフを生成するために、リードを組み立てる。有向グラフの無向エッジは、標的領域内のk個のヌクレオチド塩基(本明細書では、「k-mer」とも呼ばれる)の配列を表し、エッジは、頂点(またはノード)によって接続される。配列プロセッサ205は、崩壊されたリードのいずれも、エッジと対応する頂点のサブセットによって順を追って表され得るように、崩壊されたリードを有向グラフにアライメントする。
【0061】
いくつかの実施形態では、配列プロセッサ205は、有向グラフについて説明するパラメータのセットを決定し、有向グラフを処理する。追加的に、パラメータのセットは、崩壊されたリードから有向グラフ内のノードまたはエッジによって表されるk-merに正常にアライメントされたk-merのカウントを含むことができる。配列プロセッサ205は、たとえば、配列データベース210に、有向グラフおよび対応するパラメータのセットを記憶し、これは、グラフを更新するまたは新しいグラフを生成するために取り出し可能である。たとえば、配列プロセッサ205は、パラメータのセットに基づいて有向グラフの圧縮バージョンを生成する(たとえば、または既存のグラフを修正する)ことができる。例示的な使用事例では、より低いレベルの重要性を有する有向グラフのデータを除外するために、配列プロセッサ205は、閾値よりも小さいカウントを有するノードまたはエッジを除去し(たとえば、「切り取る」または「刈り込む」)、閾値よりも大きいまたはこれに等しいカウントを有するノードまたはエッジを維持する。
【0062】
ステップ315では、バリアントコーラー240は、配列プロセッサ205によって組み立てられた経路からバリアント候補リードを生成する。バリアントは、SNVまたはインデルに対応することができる。いくつかの実施形態では、バリアントコーラー240は、有向グラフ(ステップ310においてエッジまたはノードを刈り込むことによって圧縮された可能性がある)をゲノムの標的領域の参照配列と比較することによって、バリアント候補リードを生成することができる。バリアントコーラー240は、有向グラフのエッジを参照配列にアライメントすることができ、不適正なエッジおよびエッジに隣接する不適正なヌクレオチド塩基のゲノム位置をバリアント候補の場所として記録する。追加的に、バリアントコーラー240は、標的領域のシークエンシング深度に基づいて、バリアント候補リードを生成することができる。具体的には、たとえば、より大きい数のシークエンスリードは、配列間の変動ミスマッチまたは他の塩基対を(たとえば、冗長性を使用して)解決する助けとなるので、バリアントコーラー240は、より大きいシークエンシング深度を有する標的領域内のバリアントを識別する際により確信することができる。
【0063】
いくつかの実施形態では、バリアントリードは、バリアントリードの品質に基づいて、異なるリード層へと分類可能である。バリアントリードの品質は、崩壊された配列の重複および/または相補的場所と比較して、潜在的なバリアント場所の場所に対応することができる。超並列シークエンシングにおける試料準備(たとえば、ライブラリ準備プロセス)中、被験者個人の核酸試料は、ランダムに、および並列シークエンシングが実施される前に、切断可能である。核酸配列の同じコピーは、異なるように、ランダムに切断可能である。したがって、濃縮断片のうちのいくつかは、他の濃縮断片と縫合可能である重複した領域を有することができるが、他の濃縮断片は、そのような領域を有さない。いくつかの濃縮断片は、同じく濃縮された相補配列も有し、したがって配列処理において二本鎖断片を生成することができる。その結果、異なる配列場所のためのバリアントリードは、異なる品質に対応することができる。たとえば、断片の両方の相補鎖が濃縮された場所におけるバリアントリードは、多くの場合、一本鎖断片からのサポートのみを見つける別の場所における別のバリアントリードよりも良い品質を有する。バリアントリードのリード層の詳細は、
図8A~
図8Bにおいてさらに論じられる。
【0064】
いくつかの実施形態では、バリアントコーラー240は、被験者からのシークエンスリードに関する予想ノイズ率を決定するために、モデル225を使用してバリアント候補リードを生成する。モデル225の各々は、ベイズ階層モデルであってよい。ベイズ階層モデルは、バリアント候補を生成するために使用可能であり、それらすべてがバリアントコーリングの感度/特異性を改善するために位置固有ノイズ情報をモデル化するという点で互いに関連する、多くの可能なモデルアーキテクチャのうちの1つとすることができる。より具体的には、機械学習エンジン220は、シークエンスリードの位置ごとの予想ノイズ率をモデル化するために、健常個人からの試料を使用して、モデル225を訓練する。いくつかの実施形態では、異なるリード層に対応するバリアントリードは、各々が特定のリード層に固有である異なるモデルによって異なるように処置可能である。各モデル化の結果は、組み合わされた結果を生成するために組み合わせ可能である。リード層およびモデルを層別化することの詳細は、
図8A~
図11Bにおいてさらに論じられる。
【0065】
さらに、複数の異なるモデルは、モデルデータベース215に記憶可能である、または適用後訓練のために取り出し可能である。たとえば、第1のモデルは、SNVノイズ率をモデル化するために訓練され、第2のモデルは、インデルノイズ率をモデル化するために訓練される。さらに、スコアエンジン235は、モデル225のパラメータを使用して、シークエンスリード内の1つまたは複数の真陽性の尤度を決定することができる。スコアエンジン235は、尤度に基づいて、(たとえば、対数目盛上での)品質スコアを決定することができる。たとえば、品質スコアは、Phred品質スコアQ=-10・log10Pであり、ここで、Pは誤ったバリアントコール候補(たとえば、偽陽性)の尤度である。
【0066】
ステップ320では、スコアエンジン235は、モデル225または真陽性の対応する尤度または品質スコアに基づいて、バリアントリードをスコア化する。モデル225の訓練および適用は、以下でより詳細に説明される。
【0067】
ステップ325では、処理システム200は、バリアントに関する解析結果を出力する。いくつかの実施形態では、処理システム200は、対応するスコアとともに、決定されたバリアント候補のうちのいくつかまたはすべてを出力する。たとえば処理システム200または処理システム200の他の構成要素の外部にある、下流システムは、がん、疾患、または生殖細胞系列変異の存在を予想することを含むがこれに限定されないさまざまな適用例のために、バリアントおよびスコアを使用することができる。
IV.例示的なモデル
【0068】
図4は、さまざまな実施形態による、ベイズ階層モデル225の適用例の図である。変異Aおよび変異Bは、説明の目的で例として図示される。
図4を含む本開示の大部分では、変異は、SNVとして表されているが、いくつかの実施形態では、本開示における説明は、インデルまたは他のタイプの変異にも適用可能である。第1の試料の第1のバリアントリードは、第1の参照対立遺伝子の位置4におけるC>T変異である、例示的な変異Aに対応する。第1の試料は、10という第1のADと、1000という第1の総シークエンシング深度とを有する。第2の試料の第2のバリアントリードは、第2の参照対立遺伝子の位置3におけるT>G変異である、例示的な変異Bに対応する。第2の試料は、1という第2のADと、1200という第2の総深度とを有する。単にAD(またはAF)に基づいて、変異Aは真陽性と思われることがあり、変異Bは偽陽性と思われることがあるが、それは、前者のAD(またはAF)が後者のそれよりも大きいからである。しかしながら、変異AおよびBは、対立遺伝子ごとおよび/または対立遺伝子の位置ごとに、異なる相対的レベルのノイズ率を有することができる。たとえば、これらの異なる位置の相対的ノイズレベルが解説されるので、変異Aは偽陽性とすることができ、変異Bは真陽性とすることができる。したがって、本明細書において説明されるモデル225は、真陽性の適切な識別のために、このノイズをモデル化する。
【0069】
図4に示される確率質量関数(PMF)は、被験者からの試料が位置に所与のADカウントを有する確率(または尤度)を示す。参照個人の試料からのシークエンシングデータ(たとえば、配列データベース210に記憶された)を訓練データセットとして使用して、処理システム200は、参照試料のためのPMFが得られ得るモデル225を訓練する。参照個人は、特定のバリアント場所における変異と関連づけられることが知られていないまたは判明していない個人とすることができ、時には、健常個人と呼ばれることがあるが、健常個人は、特定のバリアント場所のために訓練されたモデルに関連していない別のバリアント場所における異なる変異と関連づけられることができる。PMFは、正常組織(たとえば、参照個人の)内の位置ごとの対立遺伝子ごとの予想平均ADカウントをモデル化するλ
pと、このADカウントにおける予想変動(たとえば、ばらつき)をモデル化するr
pに基づく。別の言い方をすれば、λ
pおよび/またはr
pは、正常組織のためのシークエンシングデータにおける、対立遺伝子ごと位置ごとの、ノイズのベースラインレベルを表す。いくつかの実施形態では、参照個人のシークエンシングデータは、各々特定のリード層に対応する複数のモデル225が訓練されるように、異なるリード層へと層別化可能である。リード層に対応する各モデルは、異なるλ
pと、異なるr
pとを有することができる。
【0070】
図4の例を使用してさらに例証すると、参照個人からの試料は、y
iによってモデル化された人間母集団のサブセットを表し、ここで、iは訓練セット内の健常個人のインデックスである。例のために、モデル225がすでに訓練されていると仮定すると、モデル225によって生じさせられたPMFは、各変異に関する測定されたADの尤度を視覚的に例証し、したがって、どれが真陽性であり、どれが偽陽性であるかという標識を提供する。変異Aと関連づけられた
図4の左側の例示的なPMFは、第1の試料が位置4における変異のための10というADカウントを有する確率は約20%であることを示す。追加的に、変異Bと関連づけられた右側の例示的なPDFは、第2の試料が位置3における変異のための1というADカウントを有する確率は約1%であることを示す(注:
図4のPMFは正確には一定の縮尺でない)。したがって、PMFのこれらの確率に対応するノイズ率は、変異Bの方が低いADとAFとを有するにもかかわらず、変異Aは変異Bよりも発生する可能性が高いことを示す。したがって、この例では、変異Bは真陽性とすることができ、変異Aは偽陽性とすることができる。したがって、処理システム200は、モデル225を使用して、より正確な率で真陽性を偽陽性から区別することによって、改善されたバリアントコーリングを実施し、これらの尤度に関する数値的信頼度をさらに提供することができる。
【0071】
図5Aは、さまざまな実施形態による、真の一塩基バリアントを決定するためのベイズ階層モデル225のパラメータとサブモデル間の依存関係を図示する。
図5Aに図示されるベイズ階層モデルは、バリアントリードの特定のリード層に対応することができる。モデルのパラメータは、パラメータデータベース230に記憶可能である。
図5Aに図示される例では、
【0072】
【0073】
は、各混合成分に割り当てられた重みのベクトルを表す。ベクトル
【0074】
【0075】
は、K次元におけるシンプレックス以内の値を取り、訓練中に事後サンプリングを介して学習または更新可能である。それは、そのような訓練のために、シンプレックスに対して均一な事前が与えられ得る。位置pが属する混合成分は、1つまたは複数の異なる多項分布を使用して、潜在的変数zpによってモデル化可能である。
【0076】
【0077】
潜在的変数zp、混合成分のベクトル
【0078】
【0079】
、α、およびβは一緒に、μのためのモデル、すなわち、ベイズ階層モデル225のサブモデルが、ノイズについての知識を「プール」するパラメータを有することを可能にする、すなわち、それらは、複数の位置にわたるノイズ特性の類似性を表す。したがって、シークエンスリードの位置は、モデルによって潜在的クラスへとプールまたはグループ化可能である。また有利には、これらの「プールされた」位置のいずれの試料も、これらの共有パラメータを訓練する助けとなることができる。この利点は、代替対立遺伝子が以前に(たとえば、モデルを訓練するために使用される健常な組織試料内で)所与の位置に関して観察されている直接的証拠がほとんどからまったくない場合ですら、処理システム200が健常試料におけるノイズのモデルを決定することができることである。
【0080】
共変量xp(たとえば、予測因子)は、トリヌクレオチドコンテキスト、マップ可能性、セグメント複製、またはシークエンスリードと関連づけられた他の情報などの情報を含むことができるがこれに限定されない、位置pに関する既知のコンテキスト情報を符号化する。トリヌクレオチドコンテキストは、参照対立遺伝子に基づくことができ、数値(たとえば、整数)表現が割り当て可能である。たとえば、「AAA」は1が割り当てられ、「ACA」は2が割り当てられ、「AGA」は3が割り当てられる、などである。マップ可能性は、ゲノムの特定の標的領域へのリードのアライメントの一意性のレベルを表す。たとえば、マップ可能性は、シークエンスリードが一意にマップする位置の数の逆数として算出される。セグメント複製は、ほぼ同一であり(たとえば、90%を超えるマッチング)、自然複製事象(たとえば、がんまたは疾患と関連づけられない)の結果としてゲノム内の複数の場所内で発生する、長い核酸配列(たとえば、約1000の塩基対よりも大きい長さを有する)に対応する。
【0081】
位置pにおけるSNVの予想平均AD頻度は、パラメータμpによってモデル化される。いくつかの実施形態では、パラメータμpは、シークエンシング深度ごとの平均ADカウント
【0082】
【0083】
に対応する。SNVはバリアントの一例であるので、パラメータμpは、平均バリアント頻度とも呼ばれ得る。本明細書におけるわかりやすさのために、μpおよびypという用語は、ベイズ階層モデル225の位置固有サブモデルを指す。いくつかの実施形態では、μpは、形状パラメータ
【0084】
【0085】
と率パラメータ
【0086】
【0087】
とを有するガンマ分布確率変数としてモデル化される。
【0088】
【0089】
いくつかの実施形態では、μpを表すために他の関数が使用可能であり、その例は、対数平均
【0090】
【0091】
と対数標準偏差
【0092】
【0093】
とをもつ対数正規分布、ワイブル分布、べき法則、指数関数的に変えられたべき法則(exponentially-modulated power law)、または前述のものの混合物を含むが、これに限定されない。形状パラメータ
【0094】
【0095】
は、時には、分布におけるばらつきパラメータrpの一例とすることができる。
【0096】
分布の分散は、平均バリアント頻度μpおよびばらつきパラメータrpによって決定可能である。たとえば、ガンマ分布の場合、分散vpは、
【0097】
【0098】
によって決定可能である。ラムダλpは、平均バリアントカウントとすることができ、これは、シークエンシング深度
【0099】
【0100】
によって乗算されたμpによって決定可能である。また、ラムダλpは、以下の
【0101】
【0102】
によって、形状パラメータ
【0103】
【0104】
および率パラメータ
【0105】
【0106】
に関連することができる。
【0107】
図5Aに図示される例では、形状パラメータおよび率パラメータは各々、共変量x
pおよび潜在的変数z
pに依存するが、いくつかの実施形態では、依存関係は、訓練中の情報プーリングのさまざまな程度に基づいて異なってよい。たとえば、モデルは、代替的に、
【0108】
【0109】
が潜在的変数には依存するが共変量には依存しないように構造化可能である。(健常個人の)人間母集団試料i内の位置pにおけるSNVのADカウントの分布は、確率変数
【0110】
【0111】
によってモデル化される。確率変数
【0112】
【0113】
は、バリアントカウントまたは観察されたバリアントカウントとも呼ばれることがある。いくつかの実施形態では、分布は、位置における試料のシークエンシング深度
【0114】
【0115】
が与えられるとすると、ポアソン分布である。
【0116】
【0117】
いくつかの実施形態では、他の関数は、
【0118】
【0119】
を表すために使用可能であり、その例は、負の二項、Conway-Maxwell-Poisson分布、ゼータ分布、およびゼロ過剰ポアソンを含むが、これらに限定されない。たとえば、確率変数
【0120】
【0121】
は、負の二項分布によってモデル化可能である。
【0122】
【0123】
平均バリアント頻度μp、平均バリアントカウント
【0124】
【0125】
、およびばらつきパラメータrpは、それらのパラメータはバリアントカウントの確率変数
【0126】
【0127】
の分布に影響するので、ノイズパラメータと呼ばれることがある。
【0128】
図5Bは、さまざまな実施形態による、真の挿入または欠失を決定するためのベイズ階層モデルのパラメータとサブモデル間の依存関係を図示する。
図5Aに図示されるSNVモデルとは対照的に、
図5Bに図示されるインデルのためのモデルは、異なるレベルの階層を含む。共変量x
pは、位置pにおける既知の特徴を符号化し、たとえば、ホモポリマーへの距離、RepeatMasker繰り返しへの距離、または以前に観察されたシークエンスリードと関連づけられた他の情報を含むことができる。潜在的変数
【0129】
【0130】
は、ベクトル
【0131】
【0132】
のパラメータに基づいてディリクレ分布によってモデル化可能であり、これらのパラメータは、位置におけるインデル長さ分布を表し、共変量に基づくことができる。いくつかの実施形態では、
【0133】
【0134】
は、同じ共変量値を共有する位置
【0135】
【0136】
の間でも共有される。したがって、たとえば、潜在的変数は、そのホモポリマーインデルがアンカー位置からの位置1、2、3などの塩基対で発生し、トリヌクレオチドインデルがアンカー位置から位置3、6、9などで発生するなどの情報を表すことができる。
【0137】
位置pにおける予想平均総インデル頻度は、分布μpによってモデル化される。いくつかの実施形態では、パラメータμpは、シークエンシング深度ごとの平均インデルカウント
【0138】
【0139】
に対応する。インデルはバリアントの一例であるので、パラメータμpは、平均バリアント頻度とも呼ばれることがある。いくつかの実施形態では、分布は、共変量に基づき、形状パラメータ
【0140】
【0141】
と率パラメータ
【0142】
【0143】
とを有するガンマ分布を有する。
【0144】
【0145】
いくつかの実施形態では、μpを表すために他の関数が使用可能であり、その例は、負の二項、Conway-Maxwell-Poisson分布、ゼータ分布、およびゼロ過剰ポアソンを含むが、これらに限定されない。形状パラメータ
【0146】
【0147】
は、時には、分布におけるばらつきパラメータrpの一例とすることができる。
【0148】
分布の分散は、平均バリアント頻度μpおよびばらつきパラメータrpによって決定可能である。たとえば、ガンマ分布の場合、分散vpは、
【0149】
【0150】
によって決定可能である。
【0151】
ラムダλpは、平均バリアントカウントとすることができ、これは、シークエンシング深度
【0152】
【0153】
によって乗算されたμpによって決定可能である。また、ラムダλpは、以下の
【0154】
【0155】
によって、形状パラメータ
【0156】
【0157】
および率パラメータ
【0158】
【0159】
に関連することができる。
【0160】
人間母集団試料i(健常個人の)内の位置pにおける観察されたインデルは、分布
【0161】
【0162】
によってモデル化される。確率変数
【0163】
【0164】
は、バリアントカウントまたは観察されたバリアントカウントとも呼ばれることがある。
図5Aの例と同様に、いくつかの実施形態では、インデル強度の分布は、位置における試料のシークエンシング深度
【0165】
【0166】
が与えられるポアソン分布である。
【0167】
【0168】
いくつかの実施形態では、
【0169】
【0170】
を表すために他の関数が使用可能であり、その例は、負の二項、Conway-Maxwell-Poisson分布、ゼータ分布、およびゼロ過剰ポアソンを含むが、これらに限定されない。たとえば、いくつかの例では、確率変数
【0171】
【0172】
は、負の二項分布によってモデル化される。
【0173】
【0174】
平均バリアント頻度μp、平均バリアントカウント
【0175】
【0176】
、およびばらつきパラメータrpは、それらのパラメータはバリアントカウントの確率変数
【0177】
【0178】
の分布に影響するので、ノイズパラメータと呼ばれることがある。
【0179】
インデルは、可変の長さとすることができるので、追加の長さパラメータは、SNVのためのモデルには存在しないインデルモデルに存在する。その結果、
図5Bに図示される例示的なモデルは、追加の階層レベル(たとえば、別のサブモデル)を有し、これも、上記で論じられたSNVモデルには存在しない。試料i内の位置pにおける長さlのインデル(たとえば、挿入または欠失の、最大で100以上の塩基対)の観察されたカウントは、確率変数
【0180】
【0181】
によってモデル化され、これは、パラメータを条件としたノイズ下でのインデル分布を表す。分布は、試料の多項式の所与のインデル強度
【0182】
【0183】
および位置におけるインデル長さの分布
【0184】
【0185】
とすることができる。
【0186】
【0187】
いくつかの実施形態では、
【0188】
【0189】
を表すために、ディリクレ多項式関数または他のタイプのモデルが使用可能である。
【0190】
このようにしてモデルを設計することによって、機械学習エンジン220は、インデル強度(すなわち、ノイズ率)の学習をインデル長さ分布の学習から切り離すことができる。健常試料内でインデルが発生するかどうかについての予想および位置におけるインデルの長さについての予想のための推論を独立して決定することは、モデルの感度を改善し得る。たとえば、長さ分布は、ゲノム内のいくつかの位置もしくは領域におけるインデル強度と比較して、より安定することができる、またはその逆に、より安定することができる。
【0191】
図6A~
図6Bは、さまざまな実施形態による、ベイズ階層モデル225と関連づけられた図を例証する。
図6Aに図示されるグラフは、ノイズ率の分布μ
p、すなわち、モデルによって特徴づけられる所与の位置のためのSNVまたはインデルの尤度(または強度)を描く。連続分布は、健常個人からの観察された健常試料(たとえば、配列データベース210から取り出された)の訓練データに基づいた非がんまたは非疾患変異(たとえば、健常組織内で自然に発生する変異)の平均バリアント頻度μ
pを表す。
図6Aには図示されていないが、いくつかの実施形態では、形状パラメータおよび率パラメータは、共変量x
pまたは潜在的変数z
pなどの他の変数に基づくことができる。
図6Bに図示されるグラフは、被験者の試料のための所与の位置におけるADの分布、所与の位置におけるシークエンシング深度d
pなどの試料の所与のパラメータを描く。μ
pの採取に関する離散確率は、予想平均分布μ
pに基づいた人間母集団の予測される真の平均ADカウントに基づいて決定される。
【0192】
図7Aは、さまざまな実施形態による、ベイズ階層モデル225を適合させることによってパラメータを決定するための例示的なプロセスの図である。モデルを訓練するために、機械学習エンジン220は、位置のセットの各位置に対して予想ノイズ率の事後分布(たとえば、
図6Bに図示されるグラフ)から反復的にサンプリングする。機械学習エンジン220は、さまざまなサンプリングアルゴリズムの中でもとりわけ、マルコフ連鎖モンテカルロ(MCMC)方法、たとえば、メトロポリス-ヘイスティングス(MH)アルゴリズム、カスタムMHアルゴリズム、ギブズサンプリングアルゴリズム、ハミルトニアン力学に基づいたサンプリング、ランダムサンプリングをサンプリングのために使用することができる。ベイズ推論訓練中、パラメータは、モデルのすべての(またはいくつかの)パラメータおよび潜在的変数(たとえば、
【0193】
【0194】
、zp、
【0195】
【0196】
【0197】
、μpなど)を反復的に更新するために、同時事後分布から採取される。
【0198】
いくつかの実施形態では、機械学習エンジン220は、μ
pの採取をパラメータデータベース230に記憶することによって、モデル適合を実施する。モデルは、以前に説明されたように、事後サンプリングを通じて訓練されるまたは適合される。いくつかの例では、μ
pの採取は、サンプリングされた位置のセットの位置ごとの行と(たとえば、観察されたデータを条件にしたすべてのパラメータの)同時事後からの採取ごとの列とを有する行列データ構造に記憶される。行の数Rは、600万よりも大きくすることができ、サンプルのN回の反復のための列の数は、千単位とすることができる。いくつかの実施形態では、行および列指定は、
図7Aに図示される実施形態とは異なり、たとえば、各行は、事後サンプリングからの採取を表し、各列は、サンプリングされた位置を表す(たとえば、
図7Aに図示される行列例の転置)。
【0199】
図7Bは、さまざまな実施形態による、ベイズ階層モデル225からパラメータを使用して偽陽性の尤度を決定する図である。機械学習エンジン220は、
図7Aに図示されるR行N列行列を、
図7Bに例証されるR行2列行列へと減少させることができる。いくつかの例では、機械学習エンジン220は、事後サンプリングμ
pにわたって位置ごとのばらつきパラメータr
p(たとえば、形状パラメータ)および平均パラメータλ
p(平均率パラメータλ
pとも呼ばれることがある)などのさまざまなノイズパラメータを決定する。ばらつきパラメータr
pは、
【0200】
【0201】
として決定可能であり、ここで、λpおよびvpはそれぞれ、位置におけるμpのサンプリングされた値の平均および分散である。当業者は、最尤度推定などの、rpを決定するための他の関数も使用可能であることを諒解するであろう。異なるノイズパラメータは、異なるリード層に対して決定可能である。たとえば、各リード層は、λpおよびrpの異なる値を有することができる。
【0202】
機械学習エンジン220は、率パラメータがあるものとして、減少された行列においてばらつきパラメータのばらつき再推定も実施することができる。いくつかの実施形態では、ベイズ訓練および事後近似に続いて、機械学習エンジン220は、位置ごとの負の二項最尤度推定量に基づいて、ばらつきパラメータ
【0203】
【0204】
のための再訓練によって、ばらつき再推定を実施する。率パラメータは、再訓練中に固定されたままであることができる。いくつかの実施形態では、機械学習エンジン220は、訓練データの元のADカウント(たとえば、リード層によって層別化された、参照試料に基づく
【0205】
【0206】
および
【0207】
【0208】
)のための各位置におけるばらつきパラメータr’pを決定する。機械学習エンジン220は、
【0209】
【0210】
を決定し、
【0211】
【0212】
を、減少された行列に記憶する。当業者は、モーメント推定量、事後平均、または事後モードの方法などの、
【0213】
【0214】
を決定するための他の関数も使用可能であることを諒解するであろう。
【0215】
訓練されたモデルの適用中、処理システム200は、
【0216】
【0217】
およびλpによってパラメータ化された関数を決定するために、ばらつき(たとえば、形状)パラメータ
【0218】
【0219】
および率パラメータλ
pにアクセスすることができる。関数は、被験者の新しい試料のための事後予測確率質量関数(または確率密度関数)を決定するために使用可能である。所与の位置におけるあるADカウントの予測確率に基づいて、処理システム200は、試料から真陽性を検出するとき、シークエンスリードの位置ごとの部位固有ノイズ率を解説することができる。
図4を参照して説明された例示的な使用事例に戻って、変異AおよびBのために図示されるPMFは、
図7Bの減少された行列からのパラメータを使用して決定可能である。事後予測確率質量関数は、変異AまたはBのための試料がある位置においてADカウントを有する確率を決定するために使用可能である。
【0220】
ベイズ階層モデルおよびベイズ階層モデル内のさまざまなパラメータをモデル化するために使用される分布は、バリアントリードの異なるリード層のために別々に訓練可能である。たとえば、各リード層は、
【0221】
【0222】
、
【0223】
【0224】
、μpなどのそれ自体のパラメータを有するそれ自体のベイズ階層モデルを有することができる。
【0225】
シークエンシングデータセットのノイズレベルをモデル化するベイズ階層モデルの訓練および使用に関するより詳細な情報については、2018年10月5日に出願された「Site-Specific Noise model for Targeted Sequencing」という名称の特許文献1が、あらゆる目的のために参照により本明細書に組み込まれる。
【0226】
V.例示的なリード層
図8Aは、さまざまな実施形態による、シークエンスリードの異なるカテゴリまたはリード層を例証する図を含む。本明細書において企図されるように、シークエンスリードは、異なる品質レベルのリードを表す異なるリード層と関連づけ可能であり、それによって、品質レベルは、シークエンスリードの重複セグメントに対してバリアント場所に基づくことができる。より高い品質のリード層は、より低いノイズレベルまたはより低い誤り率に対応し、より低い品質のリード層は、より高いノイズレベルまたはより高い誤り率に対応する。
【0227】
配列増幅プロセス(たとえば、超並列シークエンシング)では、試料(たとえば、個人)の1つまたは複数の配列は、疑似ランダムな様式で異なる断片へと切断可能であることが留意される。いくつかの事例では、すべての断片がUMIとともにライゲーションされるとは限らず、したがって、ライゲーションされた断片が濃縮される前に断片のうちのいくつかが洗い流される。したがって、濃縮断片は、各シークエンシング行程において、少なくとも部分的にランダムである。異なる断片間の重複の範囲は、変化することができる。たとえば、濃縮断片のうちのいくつかは、他の濃縮断片と縫合可能である重複領域を有することができる。いくつかの濃縮断片は、濃縮された相補配列(たとえば、順配列および逆配列、ポジティブ配列およびネガティブ配列、トップ配列およびボトム配列、5’から3’配列および3’から5’配列)も有し、したがって、シークエンスリード全体のすべてまたは一部のための二本鎖リードを生成することができる。その結果、異なる配列場所におけるバリアントリードは、いくつかの例では、バリアントを確認するために相補的および/または重複シークエンスリードを含むことができる。したがって、各バリアントリードは、異なるリード層品質に対応することができる。たとえば、断片の両方の相補鎖が濃縮された場所におけるバリアントリードは、多くの場合、単一の断片のみが濃縮される第2の場所における別のバリアントリードよりも良い品質を有する。重複領域または相補的領域内に含まれない場所におけるバリアントリードが、被験者の試料内に存在する実際のバリアントに起因せず、ノイズに起因する、増加された尤度がある。
【0228】
図8Aは、リード層の4つの異なる例を例証する。いくつかの実施形態では、シークエンスリードは、シークエンスリード内の重複および相補的場所に対してシークエンスリード内の対象となる潜在的なバリアント場所に基づいてリード層へと分離される。言い換えれば、シークエンスリードは、潜在的なバリアント場所リードが重複領域(すなわち、縫合される領域)内に含まれるまたは完全に埋め込まれるか、およびバリアント場所が相補的な領域(すなわち、二本鎖領域、デュプレックス領域)に含まれるまたは完全に埋め込まれるかに基づいて、4つのリード層のうちの1つへと分類される。
【0229】
例として、
図8Aでは、潜在的なバリアント場所は、影が付けられている。第1の例示的なリード層810は、二本鎖(「デュプレックス」または「相補的」とも呼ばれる)シークエンスリードと縫合されるシークエンスリードの両方とともに入るバリアントリードを含む。たとえば、少なくとも2つの5’から3’シークエンスリードは、重複領域を有し、一緒に縫合可能である。同様に、少なくとも2つの3’から5’シークエンスリードは、重複領域を有し、同じく一緒に縫合可能である。例示的な第1のリード層810内で、潜在的なバリアント場所は、重複領域または縫合される領域内に置かれまたは完全に埋め込まれ、したがって、シークエンスリードは、縫合される領域を含む。同様に、少なくとも5’から3’シークエンスリードの一部分と3’から5’シークエンスリードの一部分は互いに相補的であり、潜在的なバリアント場所は、相補的領域内に置かれる(たとえば、潜在的なバリアント場所は、トップシークエンスリードとボトムシークエンスリードの両方に、それらの重複の共通領域で完全に埋め込まれる)。したがって、縫合される領域を含むことに加えて、シークエンスリードは二本鎖領域を含み、潜在的なバリアントリードは、二本鎖の縫合されたリードを表す第1のリード層810に属する。
【0230】
図8Aでは、第2の例示的なリード層820は、二本鎖であるが縫合されないシークエンスリードの部分内に置かれるバリアントリードを含む。第2のリード層820では、5’から3’シークエンスリードの一部分と3’から5’シークエンスリードの一部分は互いに相補的であり、潜在的なバリアント場所は、相補的領域内に置かれる。したがって、シークエンスリードは、二本鎖領域を含む。しかしながら、潜在的なバリアント場所は、シークエンスリードの重複領域または縫合される領域のいずれにも含まれない。具体的には、この例示的な層別化は、潜在的なバリアント場所が重複領域または縫合可能領域内に含まれないので、2つの5’から3’シークエンスリードが一緒に縫合可能であるという事実にもかかわらない。したがって、シークエンスリードは二本鎖領域を含むが、シークエンスリードは、縫合される領域を含まず、潜在的なバリアントリードは、二本鎖であるが縫合されていないリードを表す第2のリード層820に属する。
【0231】
第3の例示的なリード層830は、一本鎖の(たとえば、非デュプレックス)縫合されたリード内に置かれるまたは完全に埋め込まれるバリアントリードを含む。第3のリード層830では、潜在的なバリアント場所は、2つ以上のシークエンスリードの重複領域内に含まれ、したがって、シークエンスリードは、縫合される領域を含む。しかしながら、シークエンスリード(2つの例証される5’から3’シークエンスリードなど)は相補的領域を含まない(たとえば、シークエンスリードは、5’から3’鎖のみに基づき、相補的な3’から5’鎖によってサポートされない)ので、シークエンスリードは一本鎖である。いくつかの事例では(例証されず)、1つまたは複数の相補的シークエンスリード(たとえば、3’から5’シークエンスリード)は、例示的なリード層3において発見可能であるが、潜在的なバリアント場所を含まない。したがって、潜在的なバリアントリードは、一本鎖であるが縫合されたリードを表す第3のリード層830に属する。
【0232】
図8Aにさらに図示されるように、第4の例示的なリード層840は、一本鎖の縫合されていないリードに置かれるバリアントリードを含む。第3のリード層830のように、例証されるシークエンスリードは、バリアント場所を含有する相補的な領域を含まない(または、いくつかの事例では(例証されない)、相補的な領域をさらに含むが、潜在的なバリアント場所は、相補的な領域内に置かれないまたは完全に埋め込まれない)ので、第4のリード層840は一本鎖リードを表す。したがって、潜在的なバリアント場所は2つのシークエンスリードの重複領域内に含まれないので、第4のリード層840は、縫合されていないリードを表す。
【0233】
いくつかの実施形態では、試料のシークエンスリードは、
図8Aに例証される4つのリード層へと層別化可能である。いくつかの実施形態では、1つまたは複数のシークエンスリードの端の近くに潜在的なバリアント場所を含む一本鎖の縫合されないシークエンスリードなどの、バリアントリードの最も低い品質に対応する追加の第5のリード層があることが可能である。たとえば、一本鎖の縫合されないシークエンスリードが、シークエンスリードのどちらかの端から所定の閾値数以内の塩基(たとえば、約7の塩基以内または約30の塩基以内)内に潜在的なバリアント場所を含む場合、シークエンスリードは、第5のリード層へと分類可能である。いくつかの実施形態では、
図8Aに図示される4つのリード層の各々は、2つのサブ層、すなわち、1つまたは複数のシークエンスリードのどちらかの端の近くに潜在的なバリアント場所を含むシークエンスリードに対応する第1の低品質サブ層と、1つまたは複数のシークエンスリードの端から閾値よりも大きい距離で潜在的なバリアント場所を含む第2の高品質サブ層へと再分割可能である。
【0234】
図8Bは、さまざまな実施形態による、
図8Aのリード層の異なる品質を例証する実験結果を図示する。高品質のリード層は、低い誤り率および/または低いノイズレベルに対応する。言い換えれば、高品質リード層に層別化されたシークエンスリード内のバリアントリード(たとえば、潜在的なバリアント場所における検出されたSNVまたはインデル)は、ランダム事象(たとえば、ノイズによる)とは対照的に試料の実際の変異に起因する可能性が、低品質リード層に層別化されたシークエンスリード内のバリアントリードよりも高い。
図8Bは、異なるリード層t1~t5のための参照試料(たとえば、健常個人)の平均誤り率のlog10のプロットである。層1(t1)は、
図8Aの第1のリード層810を指し、層2(t2)は、第2のリード層820を指し、等々である層5(t5)は、一本鎖の縫合されていないリード層および/またはシークエンスリードのどちらかの端の近くに(たとえば、端から7塩基以内に)置かれる潜在的なバリアント場所を指す。層1の場合、その平均誤り率ミューの対数底10は、約-6.3~-7である。言い換えれば、健常個人に関するシークエンシング深度ごとの約10
-6.3から10
-7バリアントリードの平均誤り率がある。一方、層4の場合、その平均誤り率ミューの対数底10は、約-4.7~-5.5である。いくつかの態様では、
図8Bは、平均誤り率が、層1~4にわたって増加し、約1/1,000,000~-1/10,000,000の層1平均誤り率から、約1/1,000,000により近い層2平均誤り率に、層3では約<1/1,000,000の平均誤り率に再度増加し、約1/100,000の層4誤り率に依然として増加することを一般に図示する。したがって、層4において検出されるバリアントリードは、誤り対立遺伝子である可能性が、層1において検出されるバリアントリードよりも約100倍高い。言い換えれば、第4のリード層は、第1のリード層よりも比較的ノイズが多く、誤りが発生しやすい。言い換えれば、第4のリード層は、第1のリード層よりも比較的ノイズが多く、誤りが発生しやすい。さらに、たとえば層5図示されるように、そのシークエンスリードが、それらが重要でないまたは解析から破棄されるほど低品質であることにより、平均誤り率ミューがない(または、意味のある平均誤り率がない)。
【0235】
シークエンスリードは、追加的または代替的に、他の分類方法によって異なるリード層へと分類可能である。たとえば、バリアントがSNVである場合、各リード層は、ヌクレオチド置換のタイプ(たとえば、A>C、A>T、G>Cなど)に基づいて12の追加のサブ層へとさらに再分割可能である(たとえば、以下で論じられる
図8Hを参照されたい)。4つのヌクレオチドがあり、各ヌクレオチドは、SNV内の異なるヌクレオチドによって置換されるので、合計で12の異なるタイプのSNVがある。
【0236】
図8Cから
図8Gは、シークエンスリードが、
図8Aにおいて説明される仕方によってリード層へと最初に層別化され、ヌクレオチド置換のタイプに基づいて12のサブリード層へとさらに層別化されるときの、
図8Aのリード層の実験結果を図示する。具体的には、
図8C~
図8Gは、各位置(たとえば各点)における誤差分布が、所与の試料に見られる実際のリード深度を条件にするように、ある位置における代替リードの誤差分布に関する統計モデル(たとえば、負の二項)に関する平均誤り率ミュー(μ)およびサイズパラメータを例証する。モデルは、異なるカテゴリのリード(たとえば、層)によって層別化され、したがって、
図8Cは、第1のリード層(すなわち、二本鎖の縫合されたリード)に対する異なるタイプのヌクレオチド置換の結果を例証し、
図8Dは、第2のリード層(すなわち、二本鎖であるが縫合されていないリード)に対する異なるタイプのヌクレオチド置換の結果を例証し、
図8Eは、第3のリード層(すなわち、一本鎖の縫合されたリード)に対する異なるタイプのヌクレオチド置換の結果を例証し、
図8Fは、第4のリード層に対する異なるタイプのヌクレオチド置換の結果を例証する。
図8Gは、最も低い品質リードと図示される軸を超える高い誤り率とに対応する第5のリード層からの結果を例証する。
図8C~
図8Gの場合、プロットの上部にわたって水平方向のヌクレオチド塩基A、C、G、およびTは、代替塩基を指し、プロットの右側に沿って垂直方向のヌクレオチド塩基A、C、G、およびTは、参照塩基を指すことが留意される。
【0237】
図8Cを参照すると、異なるSNV内の代表的なバリアント頻度の12の異なる分布は、第1のリード層が、ノイズモデルをさらに改善するために12のサブ層へとさらに分割可能であることを図示する。行は、元のヌクレオチドに対応し、列は、変更されたヌクレオチドに対応する。たとえば、第3の行および第1の列のセルは、GからAへのSNVに対応することができる。実験は、そのμの分布が底10対数目盛で-7から-8の範囲に集中する、CからAのためのサブリード層(すなわち、第2の行、第1の列)は、そのμの分布が底10対数目盛で-5から-7の範囲にわたって広がるTからCのためのサブリード層(すなわち、第4の行、第2の列)よりもノイズが少ない可能性が高いことを図示する。
【0238】
図8Cから
図8Gの違いを比較すると、対数目盛での平均誤り率μの分布は、リード層が第1のリード層から第5のリード層に変化するにつれてゼロの方へシフトし(すなわち、μが大きくなる)、最終的には(すなわち、
図8Gで)ゼロを超える一般的な傾向を図示する。たとえば、TからGへのためのサブリード層(すなわち、第4の行、第3の列)に焦点を合わせると、対数目盛におけるμの分布は、第1のリード層における-6と-7の間から第4のリード層における-4と-5の間にシフトする。したがって、
図8Cから
図8Gは、リード層が、ノイズが大きくなるにつれて、平均誤り率μも高くなることを証明する。
【0239】
ここで
図8Hを参照すると、本明細書において説明されるさまざまな実施形態による、
図8Aのリード層t1~t4にわたって得られる特定のSNVヌクレオチド置換における異なる平均誤り率μを例証する実験結果が図示されている。具体的には、
図8Bは、リード層t1~t4にわたって観察される異なるSNVのための対数目盛での参照試料(たとえば、健常個人)の平均誤り率μのlog10のプロットである。本明細書において説明される誤差分布に関する統計モデルは、異なるカテゴリのリード(層)によって、および/またはさらに
図8Hに図示されるように異なるSNVによって、層別化可能であることが留意される。
【0240】
VI.層別化されたリードを用いた例示的なデータ処理
図9は、さまざまな実施形態による、層別化されたノイズモデルを使用して試料のDNAデータセットを解析するためのプロセスを描写するフローチャートである。プロセスは、個人が潜在的なバリアント場所においてバリアントを有する尤度を表す品質スコアを生成するために、cfDNAを含む個人の試料などの試料のDNAシークエンシングデータセットを処理するために使用可能である。プロセスによって決定される品質スコアが高いほど、バリアントリードがノイズではなく実際の変異からの結果である可能性も高い。
【0241】
ステップ910では、処理システムは、DNAシークエンシングによって生成されたDNAシークエンシングデータセットにアクセスすることができる。たとえば、DNAシークエンシングは、次世代シークエンシング(NGS)などの超並列DNAシークエンシングのタイプとすることができる。DNAシークエンシングデータセットは、対象となるバリアント場所(たとえば、DNA配列内の特定の遺伝子場所)を含む複数の処理されたシークエンスリードを含む。処理されたシークエンスリードのうちの少なくともいくつかは、
図3で説明されたプロセスなどによって生成された、DNAシークエンシング内の生シークエンスリードの崩壊および縫合から生成可能である。たとえば、NGSの代表的な行程は、数百万または数十億すらのシークエンスリードを生成する可能性がある。生シークエンスリードのうちのいくつかは、対象となるバリアント場所を含む遺伝子座に含まれ得る。生シークエンスリードは、処理されたシークエンスリードを生成するために崩壊および縫合によって処理可能である。本例ではDNAシークエンシングが説明されているが、RNAシークエンシングも本明細書における解析のために実装可能であることが留意される。
【0242】
対象となるバリアント場所を含む処理されたシークエンスリードは、異なる塩基対長さならびに異なる範囲の重複および/または相補とすることができる。ステップ920では、処理システムは、複数の処理されたシークエンスリードを異なるリード層へと層別化することができる。異なるリード層は、シークエンスリードの品質に基づいて層別化可能である。たとえば、処理されたシークエンスリードは、
図8Aと関連して論じられたように、バリアント場所が重複領域に含まれるおよび/または相補的領域に含まれるかどうかに基づいて層別化可能である。処理されたシークエンスリードを層別化する他のやり方も可能である。たとえば、処理されたシークエンスリードはまた、ヌクレオチド置換のタイプ、バリアント場所が配列の端の近くにあるかどうかなどに基づいて、層別化可能である。いくつかの実施形態では、異なるリード層は、少なくとも4つのリード層を含む。いくつかの例では、4つのリード層は、(1)二本鎖の、縫合されたリード層、(2)二本鎖の、縫合されていないリード層、(3)一本鎖の、縫合されたリード層、および(4)一本鎖の、縫合されていないリード層である。
【0243】
ステップ930では、処理システムは、各リード層に対して、バリアント場所において層別化されたシークエンシング深度を決定することができる。各リード層に関して、層別化されたシークエンシング深度は、リード層へと層別化されたシークエンスリードのシークエンシング深度とすることができる。言い換えれば、層別化されたシークエンシング深度は、リード層へと層別化されたシークエンスリードの総数とすることができる。処理システムは、各リード層のための実際のバリアントカウントも決定することができる。たとえば、リード層に関して、シークエンスリードの大多数は、バリアント場所において実際のバリアント(それがSNVであるかまたはインデルであるか)を含有しないことがある。いくつかの事例では、少数のシークエンスリードのみが、バリアント場所において実際のバリアントを含む。層別化されたバリアントカウントは、特定のリード層のための実際のバリアントカウントの総数とすることができる。
【0244】
ステップ940では、処理システムは、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定することができる。ノイズパラメータは、リード層に固有であるノイズモデルのパラメータとすることができる。たとえば、処理システムは、各々がリード層に固有である、複数の層別化されたノイズモデルを含むことができる。層別化されたノイズモデル(または、それらのうちのいくつか)は、
図5Aから
図7Bにおいて説明されたベイズ階層モデルに対応することができる。言い換えれば、いくつかの実施形態では、各リード層は、それ自体のベイズ階層モデルを有する。リード層の各ノイズモデルは、DNAシークエンシング試料の異なる訓練セットを使用して訓練可能である。例として、健常個人などの複数の参照個人のDNAシークエンシングデータセットが収集可能である。参照個人のデータセットの処理されたシークエンスリードは、リード層によって層別化可能である。各リード層のための層別化された処理されたシークエンスリードは、リード層のための層別化されたノイズモデルを訓練するために、DNAシークエンシング試料の層別化された訓練セットとして使用可能である。
図5Aおよび
図5Bと関連して論じられたガンマ分布およびポアソン分布などの、層別化されたノイズモデルのさまざまな分布は、層別化された訓練セットに基づいて決定可能である。
【0245】
各リード層のための層別化されたバリアントカウントの確率分布は、ノイズ分布によってモデル化可能である。層別化されたバリアントカウントの確率分布は、使用される分布のタイプと、ノイズ分布を定義する1つまたは複数のパラメータに依存することができる。たとえば、論じられるベイズ階層モデルの事例では、層別化されたバリアントカウントの分布は、2つのパラメータを条件とした事後分布に対応することができる。パラメータは、層別化されたシークエンシング深度およびばらつきパラメータを条件とした、層別化された平均バリアントカウントとすることができる。パラメータの各々は、パラメータに影響する1つまたは複数の事前分布にさらに対応することができる。たとえば、層別化されたシークエンシング深度を条件とした層別化された平均バリアントカウントは、ガンマ分布によってモデル化可能である。事前分布は、パラメータの分布について説明することができるので、事前分布は、パラメータ分布とも呼ばれ得る。
【0246】
各リード層に対して、処理システムは、被験者のデータセットから取得された層別化されたシークエンシング深度を訓練されたノイズモデルに入力することによって、層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定することができる。たとえば、訓練されたノイズモデルは、リード層に固有のパラメータ分布(たとえば、事前分布)にアクセスすることができる。パラメータ分布は、参照個人の層別化された訓練セットに基づいて形成可能であり、層別化された訓練セットの分布について説明することができる。訓練されたノイズモデルは、パラメータ分布を使用して、リード層に対応する層別化されたシークエンシング深度を条件としたノイズパラメータを決定することができる。
【0247】
ノイズモデルの一例としてベイズ階層モデルが使用されるが、さまざまな実施形態では、異なるタイプの訓練された機械学習モデルは、ノイズモデルとして使用可能である。また、使用されるモデルに応じて、ノイズ分布をモデル化するために、異なるノイズパラメータが使用可能である。
【0248】
ステップ950では、処理システムは、リード層の層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータに基づいて、リード層に固有のノイズモデルのための出力を生成することができる。出力の生成は、異なるリード層に対して繰り返し可能である。実施形態に応じて、異なるタイプの出力が生成可能である。たとえば、いくつかの実施形態では、各層別化されたノイズモデルは、ノイズパラメータが決定された後、さらなる計算を実施しない。ノイズモデルの出力は、各層に対して決定された層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータとすることができる。層別化されたバリアントカウントをモデル化するために負の二項分布がノイズ分布として使用される事例では、ノイズモデルの出力は、層別化されたシークエンシング深度およびばらつきパラメータを条件とした層別化された平均バリアントカウントとすることができる。いくつかの実施形態では、ノイズパラメータを決定した後、各層別化されたノイズモデルは、事後分布を生成することができる。そのような実施形態では、リード層に固有のノイズモデルの出力は、その後で観察されたデータのためのリード層のバリアントカウントが被験者個人のDNAデータセット内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度であってよい。他の適切な出力も可能である。
【0249】
ステップ960では、処理システムは、組み合わされた結果を生じさせるために、生成されたノイズモデル出力を組み合わせることができる。組み合わされた結果は、被験者個人のDNAシークエンシングデータセットの全体的な処理結果の表現とすることができる。組み合わされた結果は、任意の適切な形を取ることができる。いくつかの実施形態では、組み合わされた結果は、その後観察されたデータに関する総バリアントカウントが複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を含むことができる。異なるように言うと、尤度は、事象が、被験者個人のDNAデータセットの複数の処理されたシークエンスリードにおいて観察された総バリアントカウントと同じくらいまたはこれよりも極端である尤度を表すことができる。いくつかの事例では、尤度は、帰無仮説で使用されるp値に対応することができる。層別化されたノイズモデルの出力が組み合わされた結果を生成するためにどのように組み合わせ可能であるかは、異なる実施形態に依存することができる。いくつかの実施形態では、
図10で詳細に論じられるモーメントマッチング方法が使用可能である。いくつかの実施形態では、
図11Aおよび
図11Bで詳細に論じられる積分方法(たとえば、合計方法)が使用可能である。
【0250】
ステップ970では、処理システムは、組み合わされた結果の品質スコアを決定することができる。いくつかの例では、尤度P(たとえば、p値)の形などの組み合わされた結果は、Phred目盛品質スコアへと変換可能であり、ここで、Q=-10・log10Pである。たとえば、20というPhred品質スコアは、P=誤ったバリアントコールの1/100見込みを示し、60というPhred品質スコアは、P=誤ったバリアントコールの1/1,000,000見込みを示す。したがって、より高いPhred品質スコアは、実際の変異の検出のためのより大きい信頼度に対応する。品質スコアは、真陽性を偽陽性から区別するために使用可能である。いくつかの実施形態では、品質スコアが所定の閾値よりも高いことに応じて、処理システムは、個人がバリアント場所において変異を有する可能性が統計学的に高いことを示すことができる。
【0251】
VII.層別化された出力を組み合わせるモーメントマッチング
図10は、さまざまな実施形態による、モーメントマッチングを使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描写するフローチャートである。
図10に描写されるプロセスは、
図9のステップ950および/または960に対応することができる。ステップ1010では、処理システムは、全体的な平均バリアントカウントおよび全体的なばらつきパラメータを生じさせるために、平均バリアントカウントと各ノイズモデル出力からのバリアントカウントの分散を組み合わせることができる。各ノイズモデルの出力は、層別化されたシークエンシングリードを条件としたノイズパラメータの形を取ることができる。処理システムは、全体的なモーメントを生成するために各リード層の個々のモーメントを最初にマッチングすることによって、総観察されたシークエンシングリードがあるものとして、異なるリード層にわたっての総バリアントカウントの全体的な尤度(たとえば、全体的なp値)を評価することができる。処理システムは、全体的なモーメントを使用して、総観察されたシークエンシングリードを条件とした全体的な分布をモデル化することができる。リード層のための個々のノイズ分布は、負の二項分布とすることができる。同様に、複数のリード層にわたる全体的なノイズ分布も、個々のリード層のモーメントにマッチングする負の二項分布とすることができる。
【0252】
ステップ1010は、いくつかのサブステップを含むことができる。各リード層に対して、処理システムは、層別化されたシークエンシング深度を決定することができる。各層のためのノイズ分布の第1のモーメントおよび第2のモーメントは、ノイズ分布を定義するためにノイズパラメータとして使用可能である。ステップ1012では、層別化されたシークエンシング深度に基づいて、処理システムは、各リード層の第1のモーメント(たとえば、平均バリアントカウント)を決定することができる。たとえば、上記で論じられたベイズ階層モデルの事例では、特定のリード層に関するバリアント頻度は、形状パラメータ
【0253】
【0254】
と率パラメータ
【0255】
【0256】
とを有するガンマ分布確率変数としてモデル化可能である。
【0257】
【0258】
各リード層は、参照試料データセットに基づいて決定される、それ自体の形状パラメータと率パラメータとを有することができる。したがって、層別化されたシークエンシング深度を条件とした各リード層のバリアント頻度は、異なることができる。
【0259】
処理システムは、バリアント頻度と層別化されたシークエンシング深度を乗算することによって、各層に対して第1のモーメントすなわち層別化された平均バリアントカウントλpを決定することができる。
【0260】
【0261】
ステップ1014では、処理システムは、各リード層の第2のモーメントすなわち分散も決定することができる。ベイズ階層モデルがガンマ分布バリアント頻度を有する事例では、各リード層の分散は、平均バリアントカウントすなわちλpおよびばらつきパラメータすなわちrpによって決定可能である。たとえば、分散すなわちvpは、
【0262】
【0263】
によって決定可能である。
【0264】
ステップ1016では、処理システムは、モーメントマッチングによって、全体的な平均バリアントカウント(全体的な第1のモーメント)および全体的な分散(全体的な第2のモーメント)を決定することができる。いくつかの事例では、処理システムは、異なるリード層のためのモーメントを合計して全体的なモーメントを取得することによって、モーメントマッチングを実施することができる。たとえば、総シークエンシング深度を条件としたすべてのリード層にわたっての全体的な平均バリアントカウントは、
【0265】
【0266】
によって決定可能である。同様に、すべてのリード層にわたっての全体的な分散は、各リード層の分散を合計することによって決定可能である。
【0267】
【0268】
処理システムは、全体的なノイズ分布によって総シークエンシング深度を条件とした全体的な観察されたバリアントカウントの尤度をモデル化することができる。全体的なノイズ分布は、全体的な平均λallおよび全体的なばらつきパラメータrallによってパラメータ化される負の二項分布とすることができる。全体的なばらつきパラメータは、全体的な平均および全体的な分散によって決定可能である。
【0269】
【0270】
ステップ1020では、処理システムは、全体的な第1のモーメントおよび全体的な第2のモーメントによってモデル化される全体的なノイズ分布を使用して、全体的な尤度を決定することができる。たとえば、確率変数
【0271】
【0272】
は、負の二項分布によってモデル化される。
【0273】
【0274】
事象が、総シークエンシング深度を条件とした観察された全体的なバリアントカウントと同じくらいまたはより極端である尤度を表す確率変数
【0275】
【0276】
は、処理システムの組み合わされた結果とすることができる。いくつかの事例では、確率変数
【0277】
【0278】
は、バリアントリードがランダム事象(たとえば、ノイズ)によるものであるという帰無仮説を検証または却下するために、p値として使用可能である。処理システムはまた、確率変数
【0279】
【0280】
に基づいてp値を取得するために負の二項テール確率を適用することができ、Phred目盛品質スコアを決定することができる。
【0281】
VIII.層別化された出力を組み合わせる積分手法
図11Aは、いくつかの実施形態による、各リード層の尤度を組み合わせるために積分手法を使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描写するフローチャートである。
図11Aに描写される処理は、
図9のステップ950および/または960に対応することができる。
図11Aに図示されるプロセスでは、処理システムは、全体的なシステムの組み合わされた結果としてp値を決定することを意図する。p値は、その後観察されたデータに関する総バリアントカウントが実際のデータ内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表すことができる。異なるように言うと、p値は、帰無仮説下で事象が被験者個人の観察されたシークエンスリードと同じくらいまたはこれよりも極端に発生することを表すことができる。いくつかの事例では、事象は、事象の全体的なバリアントカウントが、観察されたバリアントカウントよりも大きいとき、被験者個人の観察されたバリアントカウントよりも極端である(すなわち、可能性が低い)ことができる。同様に、リード層に対して、事象は、事象が、層別化された観察されたバリアントカウントよりも高い層別化されたバリアントカウントを有するとき、層別化された観察されたバリアントカウントよりも極端であることができる。バリアントリードは、多くの場合、普通でないので、バリアントカウントをもつ事象は、より極端である。バリアント場所においてバリアントリードを観察する見込みは、多くの場合、バリアント場所において非バリアントリードを観察する見込みよりも著しく低い。
【0282】
図11Bは、さまざまな実施形態による、多次元空間内でのより極端な事象のカウンティングを例証する。簡単さのために、2つの次元が図示されているが、さまざまな実施形態による処理システムは、
図11Bに例証される原理を使用して、より高い次元を扱うことができる。
図11Bの2つの次元はそれぞれ、2つのリード層を表すことができる。たとえば、第1のリード層は二本鎖のリード層を表し、第2のリード層は一本鎖のリード層を表す。
【0283】
最初に二本鎖のバリアントカウント(x軸)のためのリード層のみに焦点を合わせると、例では、被験者個人からの観察された層別化されたバリアントカウントは2である。同じリード層の場合、潜在的なバリアント場所におけるバリアントリードは、潜在的なバリアント場所における非バリアントリードと比較して、ありそうにないので、3という層別化されたバリアントカウントを有する事象は、実際の観察された層別化されたバリアントカウントよりも可能性が低い(より極端である)。同様に、4という層別化されたバリアントカウントを有する別の事象は、実際の観察された層別化されたバリアントカウントよりも可能性がもっと低い。言い換えれば、可能性の低い(より極端な)事象の組み合わせは、観察されたバリアントカウントよりも大きい空間を占め、無限大までさまざまに及ぶ。逆に、1または0という層別化されたバリアントカウントを有する事象は、2という実際の観察された層別化されたバリアントカウントよりも可能性が高い。
【0284】
ここで、両方のリード層を考えると、等しくまたはほぼ等しく可能性があると仮定可能である観察された層別化されたバリアントカウントの異なる組み合わせがあり得る。NGS試料準備では、被験者個人の核酸配列は、部分的にランダムな様式で切断可能である。その結果、処理されたシークエンスリードのうちのいくつかは、相補的なシークエンスリードを含まないことがある。したがって、処理されたシークエンスリードのうちのいくつかは、一本鎖のシークエンスリードとすることができる。言い換えれば、同じ核酸配列試料の場合、異なるNGS行程は、異なるリード層内のシークエンスリードの異なる組み合わせを生じさせる。第1のリード層の層別化されたバリアントカウントは、何らかの比に基づいて、第2のリード層の層別化されたバリアントカウントに等しくすることができる。いくつかの実施形態では、この比は、所定の値としてモデル化される。たとえば、1つの二本鎖バリアントカウントは、2つの一本鎖バリアントカウントに等しいと考えられ得るが、いくつかの実施形態では、2以外の数も使用可能である。
【0285】
異なるリード層の観察された層別化されたバリアントカウントに基づいて、
図11Bに図示されるグラフ中の座標は、異なるリード層の観察されたバリアントカウントと同じくらいまたはこれよりも極端である事象を表す点および観察されたバリアントカウントよりも極端でない事象を表す点へと分割可能である。たとえば、被験者個人の実際の観察されたバリアントカウントが(1,2)(すなわち、1つの二本鎖バリアントカウントおよび2つの一本鎖バリアントカウント)を仮定する。座標(0,4)および(2,0)は、(1,2)の組み合わせに等しいと仮定され、観察されたデータと同じくらい極端である事象を表すことができる。(1,2)、(0,4)、(2,0)によって採取境界を超えるすべての座標は、観察されたデータよりも極端であるように分類可能である。たとえば、座標(3,3)は、より極端な事例と考えられ得る。境界内にあり、原点により近いすべての座標は、観察されたデータよりも極端でない(より可能性が高い)事例であると考えられ得る。たとえば、座標(1,1)、(0,2)、(1,0)などは、観察されたデータよりも極端でないと分類可能である。
【0286】
処理システムの組み合わされた結果は、観察されたデータと同じくらいまたはこれよりも極端な事象の尤度を表すp値の形を取ることができる。処理システムは、観察されたデータと同じくらいまたはこれよりも極端である事象を表すすべての座標に対応する確率を合計してp値を決定することによって、積分することができる。しかしながら、座標は、最後に無限大まで近づくことができる点を含み得るので、処理システムは、代わりにp値の統計的補数を計算することもできる。言い換えれば、処理システムは、観察されたデータよりも極端でない事象を表すすべての座標に対応する確率を合計して、p値の補数を決定することができる。処理システムは、次いで、補数を1.0から減算することによって、p値を決定することができる。いくつかの実施形態では、コンピュータ上で浮動小数点数を加算することは、数値的に不安定であり得るので、処理システムは、数値的安定性のために対数目盛で確率を使用することができる。
【0287】
図11Aに戻ると、処理ユニットは、いくつかの実施形態によれば、図に図示されるプロセスに基づいてp値を決定することができる。ステップ1110では、処理ユニットは、各リード層内で、リード層の観察された層別化されたバリアントカウントよりも可能性が高い可能な事象を決定することができる。それらの事象は、座標は観察されたデータよりも大きい尤度と関連づけ可能である多次元ボックスを定義することができる。尤度は、対数目盛上にあることができる。ステップ1120では、処理ユニットは、複数のリード層のうちの1つに対して、層別化されたバリアントカウントの組み合わせの各々は観察されたデータよりも高いまたは低い尤度に対応するかを決定することができる。ステップ1130では、処理ユニットは、リード層の観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた可能な事象の組み合わせを識別することができる。処理ユニットは、リード層の各々に対してステップ1120および1130を繰り返すことができる。ステップ1140では、処理ユニットは、統計的補数を決定するために識別された組み合わせの確率を合計することができる。ステップ1150では、処理ユニットは、全体的なp値を決定するために統計的補数を1.0から減算することができる。p値は、
図9のステップ960に対応する組み合わされた結果とすることができる。
【0288】
全体的なp値を決定するための他のやり方も可能である。たとえば、テール確率技法が使用可能である。いくつかの実施形態では、積分方法は、1つまたは複数の機械学習モデルによって置き換えられ得る。たとえば、ランダムフォレスト回帰モデルは、訓練試料データのセットからPhred目盛品質スコアまたはp値を決定するために訓練可能である。
図11Aにおいて説明される積分プロセスは、複数の訓練セット試料を生成するために使用可能である。訓練セット試料は、機械学習モデルを訓練するために使用可能であり、したがって、モデルは、品質スコアを決定するために使用可能である。
【0289】
IX.実験結果
図12Aおよび
図12Bは、いくつかの実施形態によるプロセスを使用して実施される実験におけるデフォルト品質スコアに対する観察された品質スコアのプロットを例証する。
図12Aでは、特定の個人#1355の試料のシミュレートされたデータの較正されたセットが使用され、
図9および
図11Aにおいて説明される層レベルノイズモデルプロセスを用いて解析される。個人は、試料内で見出された「chr6」と象徴されたバリアントを有する。データは、バリアントリードのランダム事象をシミュレートする。各シミュレートされた事象は、1つまたは複数のリード層へと層別化可能であるいくつかのバリアントリードを有することができる。x軸は、シミュレートされたデータを使用することによって算出されたシミュレートされた事象の実際の品質スコアの値を表す。y軸は、
図11Aにおいて説明されるプロセスによって決定される観察された品質スコアの値を表す。結果は、何らかの離散化を除いて、観察された品質スコアは、大部分は対角線上に入ることを図示する。このことは、
図11Aにおいて説明されるプロセスは、観察されたデータと同じくらいまたはこれよりも極端である可能な事象の尤度を正常に決定することを示す。
【0290】
図12Bでは、個人#1355の実際のデータセットが使用され、
図9および
図11Aにおいて説明される層レベルノイズモデルプロセスを用いて解析される。データセットは、さまざまな潜在的なバリアント場所のデータを含むことができる。各点は、潜在的なバリアント場所に対応し、品質スコアは、
図11Aにおいて説明されるプロセスによって決定されるプロセスに基づいて決定される。いくつかの事例では、実際のデータセット内の場所の多くは、任意のリード層において見出されるバリアントカウントを有さないことがあるので、いくつかのゼロ品質スコア点が先頭にある。したがって、Phred目盛品質スコアは、すべてのそれらの場所に関してゼロに等しい。個人は、大部分は配列場所の大部分において変異を有さないので、点の残りの大部分は、大部分は対角線に沿って入る。異なるように言うと、対角線に沿って入るそれらの場所におけるバリアントカウントは、大部分はノイズに起因し得る。デフォルト品質スコアよりも著しく高い観察された品質スコアを有する外れ値(たとえば、
図12Bの約55のデフォルトPhredスコアにある点)は、さらなる評価のためにフラグが立てられてよい非ノイズ事象があり得ることを示すことができる。
【0291】
図13Aおよび
図13Bは、リード層を使用した品質スコアの結果を、シークエンスリードまたはバリアントリードのためのリード層を分けないノイズモデルを使用した品質スコアと比較する実験結果を例証する。
図13Aおよび
図13Bのy軸は、さまざまな実施形態によりシークエンスリードを異なるリード層へと層別化する方法を使用して決定される品質スコアを表す。
図13Aおよび
図13Bのx軸は、類似のノイズモデルを使用して決定される品質スコアを表すが、このノイズモデルは、リード層によってシークエンスリードを区別しない。
図13Aは、
図11Aにおいて説明される積分方法を使用して品質スコアを決定する実験結果を例証する。結果は、デュプレックスリードを含むシークエンスリード(たとえば、「真」とマークされた暗い点)の場合、データ点は、シンプレックスリードのみを含むシークエンスリード(たとえば、「偽」とマークされた明るい点)と比較して上方にシフトされることを図示する。このことは、二本鎖リードは、多くの場合、一本鎖リードよりも多いエビデンスを含むので、リード層ノイズモデルが、二本鎖リードを含むシークエンスリードのための全体的な品質スコアを改善することを示す。
図13Bは、
図10において説明されるモーメントマッチング方法を使用して品質スコアを決定する実験結果を例証する。
図13Aと同様に、この事例では、モーメントマッチング方法も、二本鎖リードを含むシークエンスリードのための品質スコアを改善する。
【0292】
X.バリアント識別
図14は、さまざまな実施形態による、個人の潜在的な変異場所を識別するプロセスを描写するフローチャートである。ステップ1410では、システムは、個人のDNA試料を受け取ることができる。ステップ1420では、システムは、処理されたシークエンスリードを生成するためにDNAシークエンシングを実施することができる。ステップ1430では、システムは、異なるバリアント場所によって処理されたシークエンスリードを割り当てることができる。ステップ1440では、各バリアント場所に対して、システムは、バリアント場所に割り当てられた処理されたシークエンスリードを複数のリード層へと層別化することができる。ステップ1450では、システムは、異なるバリアント場所における尤度の品質スコアを決定することができる。各品質スコアは、リード層を層別化するノイズモデルを使用する上記で説明されたプロセスに基づいて、決定可能である。ステップ1460では、システムは、所定の閾値を上回る品質スコアをもつバリアント場所を識別することができる。それらのバリアント場所は、潜在的な変異または潜在的な診断のさらなる調査のためにフラグが立てられ得る。
【0293】
ステップ1470では、システムは、識別されたバリアント場所に基づいて疾患の診断を生成することができる。いくつかの実施形態では、いくつかのがんを示すおよび/またはいくつかの治療薬のバイオマーカとして働くことができるバリアントまたは変異は、ACVR1B、AKT3、AMER1、APC、ARID1A、ARID1B、ARID2、ASXL1、ASXL2、ATM、ATR、BAP1 BCL2、BCL6、BCORL1、BCR、BLM、BRAF、BRCA1、BTG1、CASP8、CBL、CCND3、CCNE1、CD74、CDC73、CDK12、CDKN2A、CHD2、CJD2、CREBBP、CSF1R、CTCF、CTNNB1、DICER1、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、EED、EGFR、EIF1AX、EP300、EPHA3、EPHA5、EPHB1、ERBB2、ERBB4、ERCC2、ERCC3、ERCC4、ESR1、FAM46C、FANCA、FANCC、FANCD2、FANCE、FAT1、FBXW7、FGFR3、FLCN、FLT1、FOXO1、FUBP1、FYN、GATA3、GPR124、GRIN2A、GRM3、H3F3A、HIST1H1C、IDH1、IDH2、IKZF1、IL7R、INPP4B、IRF4、IRS1、IRS2、JAK2、KAT6A、KDM6A、KEAP1、KIF5B、KIT、KLF4、KLH6、KMT2C、KRAS、LMAP1、LRP1B、LZTR1、MAP3K1、MCL1、MGA、MSH2、MSH6、MST1R、MTOR、MYD88、NPM1、NRAS、NTRK1、NTRK2、NUP93、NUTM1、PAX3、PAX8、PBRM1、PGR、PHOX2B、PIK3CA、POLE、PTCH1、PTEN、PTPN11、PTPRT、RAD21、RAF1、RANBP2、RB1、REL、RFWD2、RHOA、RPTOR、RUNX1、RUNX1T1、SDHA、SHQ1、SLIT2、SMAD4、SMARCA4、SMARCD1、SNCAIP、SOCS1、SPEN、SPTA1、SUZ12、TET1、TET2、TGFBR、およびTNFRSF14を含むことができる。いくつかの実施形態では、がん免疫療法は、OX40、LAG3、および/またはICOSを標的とすることができる。
【0294】
ステップ1480では、疾患の治療が提供されてよい。治療を提供する前に、コンパニオン診断動作も実施されてよい。コンパニオン診断動作は、本明細書において説明されるプロセスを使用して、バリアントまたは変異を含む1つまたは複数の基準を識別することがある。治療を提供することは、医学専門家に特定の用量の薬剤を患者に投与させるまたはこれを行うように推奨するという形を取ってよい。
【0295】
たとえば、本明細書において説明されるシステムおよび方法は、いくつかの免疫療法および標的治療薬などのがん治療のバイオマーカであるバリアントまたは変異を検出するために使用可能である。そのような治療法は、たとえば、免疫グロブリン、タンパク質、ペプチド、小分子、ナノ粒子、または核酸を含むことができる。いくつかの実施形態では、治療法は、抗体、またはその機能的断片を含む。いくつかの実施形態では、抗体は、Rituxan(登録商標)(リツキシマブ)、Herceptin(登録商標)(トラスツズマブ)、Erbitux(登録商標)(セツキシマブ)、Vectibix(登録商標)(パニツムマブ)、Arzerra(登録商標)(オファツムマブ)、Benlysta(登録商標)(ベリムマブ)、Yervoy(登録商標)(イピリムマブ)、Perjeta(登録商標)(ペルツズマブ)、Tremelimumab(登録商標)、Opdivo(登録商標)(ニボルマブ)、Dacetuzumab(登録商標)、Urelumab(登録商標)、Tecentriq(登録商標)(アテゾリズマブ、MPDL3280A)、Lambrolizumab(登録商標)、Blinatumomab(登録商標)、CT-011、Keytruda(登録商標)(ペムブロリズマブ、MK-3475)、BMS-936559、MED14736、MSB0010718C、Imfinzi(登録商標)(デュルバルマブ)、Bavencio(登録商標)(アベルマブ)、およびマルゲツキシマブ(MGAH22)を含むことがある。
【0296】
いくつかの実施形態では、免疫療法および標的治療薬は、PD-1阻害、PD-L1阻害、またはCTL-4阻害を含む。PD-1阻害は、T細胞および他の免疫細胞上のプログラムされたデスレセプターを標的とする。PD-1阻害免疫療法の例は、ペムブロリズマブ、Keytruda、ニボルマブ、Opdivo、セミプリマブ、Libtayo(登録商標)を含む。PD-L1阻害は、腫瘍細胞および調節免疫細胞によって発現されるプログラムされたデスレセプターリガンドを標的とする。PD-L1阻害免疫療法の例は、アテゾリズマブ、Tecentriq、アベルマブ、Bavencio、デュルバルマブ、Imfinziを含む。CTL-4阻害は、T細胞活性化を標的とする。CTL-4阻害免疫療法の例は、イピリムマブ、Yervoyを含む。
【0297】
非小細胞肺がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、EGFRエクソン19欠失&EGFRエクソン21 L858R変化(たとえば、Gilotrif(登録商標)(アファチニブ)、Iressa(登録商標)(ゲフィチニブ)、Tagrisso(登録商標)(オシメルチニブ)、またはTarceva(登録商標)(エルロチニブ)などの治療法のための)、EGFRエクソン20 T790M変化(たとえば、Tagrisso(登録商標)(オシメルチニブ)を用いて治療されることがある)、ALK再構成(たとえば、Alecensa(登録商標)(アレクチニブ)、Xalkori(登録商標)(クリゾチニブ)、またはZykadia(登録商標)(セリチニブ)を用いて治療されることがある);BRAF V600E(たとえば、Mekinist(登録商標)(トラメチニブ)と組み合わせてTafinlar(登録商標)(ダブラフェニブ)を用いて治療されることがある)、METエクソン14スキッピングを招く一塩基バリアント(SNV)およびインデル(たとえば、Tabrecta(商標)(カプマチニブ)を用いて治療されることがある)を含むことができる。
【0298】
メラノーマ適応の場合、免疫療法治療のバイオマーカすることができるバリアントまたは変異は、BRAF V600E(たとえば、Tafinlar(登録商標)(ダブラフェニブ)またはZelboraf(登録商標)(ベムラフェニブ)を用いて治療されることがある)、BRAF V600EまたはV600K(たとえば、Zelboraf(登録商標)(ベムラフェニブ)と組み合わせて、Mekinist(登録商標)(トラメチニブ)またはCotellic(登録商標)(コビメチニブ)を用いて治療されることがある)を含むことができる。
【0299】
乳がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、ERBB2(HER2)増幅(たとえば、Herceptin(登録商標)(トラスツズマブ)、Kadcyla(登録商標)(アドトラスツズマブエムタンシン)、またはPerjeta(登録商標)(ペルツズマブ)を用いて治療されることがある)、PIK3CA変化(たとえば、Piqray(登録商標)(alpelisib)を用いて治療されることがある)を含むことができる。
【0300】
結腸直腸がん適応の場合免疫療法治療のバイオマーカとすることができる、バリアントまたは変異は、KRAS野生型(コドン12および13における変異の欠如)(たとえば、Erbitux(登録商標)(セツキシマブ)を用いて治療されることがある)、KRAS野生型(エクソン2、3、および4における変異の欠如)、およびNRAS野生型(エクソン2、3、および4における変異の欠如)(たとえば、Vectibix(登録商標)(パニツムマブ)を用いて治療されることがある)を含むことができる。
【0301】
卵巣がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、BRCA1/2変化(たとえば、Lynparza(登録商標)(オラパリブ)またはRubraca(登録商標)(ルカパリブ)を用いて治療されることがある)を含むことができる。
【0302】
前立腺がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、相同組換え修復(HRR)遺伝子(BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、およびRAD54L)変化(たとえば、Lynparza(登録商標)(オラパリブ)を用いて治療されることがある)を含むことができる。
【0303】
固形腫瘍がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、メガベース当たり10の変異よりも大きいまたはこれに等しい腫瘍遺伝子変異量(TMB)(たとえば、Keytruda(登録商標)(ペムブロリズマブ)を用いて治療されることがある)を含むことができる。
【0304】
XI.コンピューティングマシンアーキテクチャ
図15は、コンピュータ可読媒体から命令を読み出して、それらをプロセッサ(またはコントローラ)内で実行することが可能である例示的なコンピューティングマシンの構成要素を例証するブロック図である。本明細書において説明されるコンピュータは、
図15に図示される単一のコンピューティングマシン、仮想マシン、
図15に図示されるコンピューティングマシンの多数のノードを含む分散コンピューティングシステム、またはコンピューティングデバイスの他の任意の適切な配置を含んでよい。
【0305】
例として、
図15は、その中で本明細書において論じられるプロセスのうちの任意の1つまたは複数をマシンに実施させるためにコンピュータ可読媒体に記憶され得る命令1524(たとえば、ソフトウェア、プログラムコード、またはマシンコード)が実行され得るコンピュータシステム1500の例示的な形でコンピューティングマシンの図表表現を図示する。いくつかの実施形態では、コンピューティングマシンは、スタンドアロンデバイスとして動作する、または他のマシンに接続(たとえば、ネットワーク化)されてよい。ネットワーク化された展開では、マシンは、サーバ-クライアントネットワーク環境内でサーバマシンまたはクライアントマシンとして動作してもよいし、ピアツーピア(または分散)ネットワーク環境内でピアマシンとして動作してもよい。
【0306】
図15において説明されるコンピューティングマシンの構造は、任意のエンジン、モジュール、コンピューティングサーバ、本明細書において説明される1つまたは複数のプロセスを実施するために使用されるマシンを含むが、これらに限定されない、任意のソフトウェア、ハードウェア、または組み合わされた構成要素(たとえば、
図2に図示されるものまたは本明細書において説明される処理ユニット)に対応し得る。
図15は、さまざまなハードウェア要素およびソフトウェア要素を図示するが、本明細書において説明される構成要素の各々は、追加の要素を含んでもよいし、より少ない要素を含んでもよい。
【0307】
例として、コンピューティングマシンは、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、セルラー式電話、スマートフォン、ウェブアプライアンス、ネットワークルータ、モノのインターネット(IoT)デバイス、スイッチもしくはブリッジ、またはそのマシンによって取られることになるアクションを指定する命令1524を実行することが可能である任意のマシンであってよい。さらに、単一のマシンのみが例証されているが、「マシン」および「コンピュータ」という用語は、本明細書において論じられる方法論のうちの任意の1つまたは複数を実施するために命令1524を個々にまたは共同で実行するマシンの任意の集合を含むようにも使われることがある。
【0308】
例示的なコンピュータシステム1500は、CPU(中央処理装置)、GPU(グラフィックス処理ユニット)、TPU(テンソル処理ユニット)、DSP(デジタル信号プロセッサ)、システムオンチップ(SOC)、コントローラ、ステート機器、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはこれらの任意の組み合わせなどの、1つまたは複数のプロセッサ1502を含む。コンピューティングシステム1500の部分は、命令がプロセッサ1502によって直接的または間接的に実行されるときいくつかのアクションをプロセッサ1502に実施させ得る命令1524を含むコンピュータコードを記憶するメモリ1504も含んでよい。命令は、機器可読命令、ソースコードを含むプログラミング命令、ならびに他の通信信号およびオーダーなどの、異なる形で記憶されてよい任意の指示、コマンド、またはオーダーとすることができる。命令は、一般的な意味で使用されてよく、機械可読コードに限定されない。
【0309】
本明細書において説明される1つおよび複数の方法は、プロセッサ1502の動作速度を改善し、メモリ1504に必要とされる空間を減少させる。たとえば、本明細書において説明される機械学習方法は、訓練、収束に達する、プロセッサ1502の結果を生成するうえでステップを単純化する1つまたは複数の新規な技法を適用することによって、プロセッサ1502の計算の複雑さを減少させる。本明細書において説明されるアルゴリズムは、メモリ1504の記憶空間要件を減少させるために、モデルおよびデータセットのサイズも減少させる。
【0310】
動作のうちのいくつかの性能は、単一のマシン内に常駐するだけでなく、いくつかのマシンにわたって展開される、プロセッサだけでなく分散されてよい。いくつかの例示的な実施形態では、1つまたは複数のプロセッサまたはプロセッサ実装モジュールは、単一の地理的場所内に(たとえば、自宅環境、オフィス環境、またはサーバファーム内に)置かれてよい。他の例示的な実施形態では、1つまたは複数のプロセッサまたはプロセッサ実装モジュールは、いくつかの地理的場所にわたって分散されてよい。明細書内で、または請求項は、プロセッサによって実施されることになるいくつかのプロセスを参照することがあるが、これは、複数の分散プロセッサの共同動作を含むと解釈されるべきである。
【0311】
コンピュータシステム1500は、主メモリ1504とスタティックメモリ1506とを含んでよく、主メモリ1504とスタティックメモリ1506は、バス1508を介して互いと通信するように構成される。コンピュータシステム1500は、グラフィックスディスプレイユニット1510(たとえば、プラズマディスプレイパネル(PDP)、液晶ディスプレイ(LCD)、プロジェクタ、または陰極線管(CRT))をさらに含んでよい。プロセッサ1502によって制御されるグラフィックスディスプレイユニット1510は、本明細書において説明されるプロセスによって生成された1つまたは複数の結果およびデータを表示するために、グラフィカルユーザインタフェース(GUI)を表示する。コンピュータシステム1500は、英数字入力デバイス1512(たとえば、キーボード)と、カーソル制御デバイス1514(たとえば、マウス、トラックボール、ジョイスティック、モーションセンサ、または他のポインティング器具)と、記憶ユニット1516(ハードドライブ、ソリッドステートドライブ、ハイブリッドドライブ、メモリディスクなど)と、信号生成デバイス1518(たとえば、スピーカ)と、ネットワークインタフェースデバイス1520も含んでよく、これらも、バス1508を介して通信するように構成される。
【0312】
記憶ユニット1516は、本明細書において説明される方法論または機能のうちの任意の1つまたは複数を具現化する命令1524が記憶されるコンピュータ可読媒体1522を含む。命令1524はまた、コンピュータ可読媒体も構成するコンピュータシステム1500、主メモリ1504、およびプロセッサ1502によるその実行中に、主メモリ1504内またはプロセッサ1502内(たとえば、プロセッサのキャッシュメモリ内)に、完全にまたは少なくとも部分的に常駐する。命令1524は、ネットワークインタフェースデバイス1520を介してネットワーク1526上で送信または受信されてよい。コンピュータ可読媒体1522は、例示的な実施形態では単一の媒体であるように図示されているが、「コンピュータ可読媒体」という用語は、命令(たとえば、命令1524)を記憶することが可能である単一の媒体または複数の媒体(たとえば、集中型データベースもしくは分散データベース、または関連キャッシュおよびサーバ)を含むように使われるべきである。コンピュータ可読媒体は、プロセッサ(たとえば、プロセッサ1502)による実行のために命令(たとえば、命令1524)を記憶することが可能であり、本明細書において開示される方法論のうちの任意の1つまたは複数をプロセッサに実施させる、任意の媒体を含んでよい。コンピュータ可読媒体は、ソリッドステートメモリ、光媒体、および磁気媒体の形をしたデータリポジトリを含んでよいが、これに限定されない。コンピュータ可読媒体は、伝播信号または搬送波などの一時的な媒体を含まない。
【0313】
XII.追加の考慮事項
有益には、本明細書において説明されるさまざまな実施形態は、PCRおよび超並列DNAシークエンシング(たとえば、NGS)などの、シークエンシングの分野における既存の技術の精度および効率を改善する。実施形態は、シークエンシングおよび増幅プロセスによってもたらされる誤りを識別するという難題の解決策を提供する。超並列DNAシークエンシングは、1つまたは複数のDNA試料を用いて始まってよく、DNA試料は、ランダムに切断され、一般的にはPCRを使用して増幅される。超並列DNAシークエンシングの並列性は、各対立遺伝子のヌクレオチド配列の複写物をもたらす。各対立遺伝子部位における複写およびシークエンシングの範囲は、変わってよい。たとえば、いくつかの配列は重複するおよび/または二本鎖であるが、他の配列はそうでない。PCR増幅プロセスとシークエンシングプロセスとシークエンシングプロセスの両方は、少なからぬ誤り率を有する。配列誤りは、真の対立遺伝子のヌクレオチド配列を不明瞭にするために働くことがある。実施形態は、超並列DNAシークエンシング器具によって解析される1つまたは複数の対立遺伝子を決定するために使用されてよい。リード層固有ノイズモデルを考慮することによって、超並列DNAシークエンシングワークフローは、真の対立遺伝子を誤った配列からより正確に区別することによって、適切な配列決定を生成するのに十分な忠実度を発揮する。
【0314】
従来、適切な配列を決定する際の誤り率を減少させるために、試料のシークエンシング深度が増加することが必要である。これは、より多いリソースが試料専用であるので、より少ない試料がシークエンシングのバッチにおいて解析可能であることを意味する。実施形態は、特定の対立遺伝子部位のシークエンシング深度を増加させることなくシークエンシングの精度を改善し、それによって、超並列DNAシークエンシングの事例で、より多い対立遺伝子部位または患者試料が同時に配列決定されることを可能にする。説明される実施形態は、増幅内で生成されるヌクレオチド配列を読み出すために使用される超並列DNAシークエンシングの精度を増加させながら、必要とされるシークエンシング深度を減少させ得る。
【0315】
本発明の実施形態の前述の説明は、例証の目的で提示されてきた。それは、網羅的であること、または開示される正確な形に本発明を限定することを意図したものではない。当業者は、上記の開示に照らして、多くの修正形態および変形形態が可能であることを諒解することができる。
【0316】
本明細書のいくつかの部分は、情報に対する動作のアルゴリズムおよび記号表現に関して、本発明の実施形態を説明する。これらのアルゴリズムの説明および表現は一般に、データ処理分野の当業者によって、彼らの作業の内容を他の当業者に効率的に伝達するために使用される。これらの動作は、機能的、計算的、または論理的に説明されているが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されると理解される。そのうえ、一般性の喪失を伴うことなく、モジュールとして動作のこれらの配置を参照することは、時として好都合であることも証明されている。説明される動作およびそれらの関連モジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具現化されてよい。
【0317】
本明細書において説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールとともに、単独でまたは他のデバイスと組み合わせて実施または実装されてよい。いくつかの実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含有する非一時的なコンピュータ可読媒体を含むコンピュータプログラム製品とともに実装され、コンピュータプログラムコードは、説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行可能である。
【0318】
本発明の実施形態は、本明細書において説明されるコンピューティングプロセスによって生じられる製品にも関する。そのような製品は、コンピューティングプロセスから生じる情報を含んでよく、情報は、非一時的な、有形コンピュータ可読記憶媒体上に記憶され、本明細書において説明されるコンピュータプログラム製品または他のデータ組み合わせのいかなる実施形態をも含んでよい。
【0319】
本明細書において説明される1つまたは複数のプロセスは、1つまたは複数のステップとともに説明されることがあるが、「ステップ」という用語の使用は、特定の順序を暗示しない。たとえば、本開示は、複数のステップを順次含むプロセスについて説明することがあるが、プロセス内のステップは、本開示において特許請求または説明される特定の順序によって実施されることを必要としない。いくつかのステップは、他のステップが本開示において最初に特許請求または説明されるけれども、他のステップの前に実施されてよい。
【0320】
最後に、本明細書において使用される言い回しは、主に読みやすさおよび教育的な目的で選択されており、本発明の主題を詳述または制限するために選択されていないことがある。したがって、本発明の範囲は、この詳細な説明によって限定されず、本明細書に基づく出願書に出される任意の請求項によって限定されることが意図されている。したがって、本発明の実施形態の開示は、以下の請求項に記載される本発明の範囲の例証であることを意図しており、本発明の範囲を限定することを意図したものではない。