(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-10
(45)【発行日】2024-09-19
(54)【発明の名称】体細胞バリアント検出のための方法および組成物
(51)【国際特許分類】
G16B 20/00 20190101AFI20240911BHJP
【FI】
G16B20/00
(21)【出願番号】P 2020572675
(86)(22)【出願日】2019-10-30
(86)【国際出願番号】 US2019058895
(87)【国際公開番号】W WO2020092591
(87)【国際公開日】2020-05-07
【審査請求日】2022-10-24
(32)【優先日】2018-11-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100107489
【氏名又は名称】大塩 竹志
(72)【発明者】
【氏名】ジュ, ジン ヒュン
【審査官】山崎 誠也
(56)【参考文献】
【文献】特表2019-535081(JP,A)
【文献】特表2018-500625(JP,A)
【文献】米国特許出願公開第2016/0300014(US,A1)
【文献】ComprehensiveEvaluation of Illumina’s TruSight? Tumor 170 Panel to Estimate Tumor MutationalBurden,[online],2017年,[2023年12月26日検索], インターネット<URL:https://jp.illumina.com/content/dam/illumina-marketing/documents/products/documents/tst-170-panel-to-estimate-tumor-mutational-burden-aacr-2017-poster-5358.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、
(a)前記コンピューターによって、体細胞バリアントおよび生殖系列バリアントを含む前記複数のバリアントにデータベースフィルターを適用するステップであって、
前記複数のバリアントにおける第1の生殖系列バリアントを決定する工程を含み、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、ステップ;
(b)前記コンピューターによって、前記複数のバリアントに近接フィルターを適用するステップであって、
(i)前記複数のバリアントのバリアントを複数のビン中にビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、
(ii)前記複数のバリアントにおけるデータベースバリアントを決定する工程であって、データベースバリアントが、バリアントの第2の参照セット中に存在する、工程、および
(iii)前記複数のバリアントにおける第2の生殖系列バリアントを決定する工程であって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有し、前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲であるか、または前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、工程
を含む、ステップ;ならびに
(c)前記コンピューターによって、前記複数のバリアントから識別された第1および第2の生殖系列バリアントを除去することによって、前記複数のバリアントにおける体細胞バリアントを決定するステップ
を含む、方法。
【請求項2】
前記コンピューターによって、(a)および(b)が連続的に実施される、請求項1に記載の方法。
【請求項3】
前記コンピューターによって、(b)が(a)の前に実施される、請求項1に記載の方法。
【請求項4】
前記閾値対立遺伝子カウントが5である、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記閾値対立遺伝子カウントが10である、請求項4に記載の方法。
【請求項6】
バリアントの前記第1および第2の参照セットが、同じ参照セットである、請求項1から5のいずれか一項に記載の方法。
【請求項7】
バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
ゲノムの前記同じ領域が、同じ染色体内にある、請求項1から8のいずれか一項に記載の方法。
【請求項10】
ゲノムの前記同じ領域が、同じ染色体腕内にある、請求項1から9のいずれか一項に記載の方法。
【請求項11】
ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、請求項1から10のいずれか一項に記載の方法。
【請求項12】
ゲノムの前記同じ領域が、10Mbの領域内にある、請求項1から11のいずれか一項に記載の方法。
【請求項13】
近接フィルターを適用する前記ステップが、前記コンピューターによって、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別する工程をさらに含む、請求項1から12のいずれか一項に記載の方法。
【請求項14】
近接フィルターを適用する前記ステップが、前記コンピューターによって、前記複数のバリアントにおける第2の生殖系列バリアントを識別する工程をさらに含み、前記第2の生殖系列バリアントが、バリアントの前記第2の参照セット中に存在するデータベースバリアントである、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、請求項1から15のいずれか一項に記載の方法。
【請求項17】
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項1から16のいずれか一項に記載の方法。
【請求項18】
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項1から17のいずれか一項に記載の方法。
【請求項19】
前記複数のバリアントが、前記コンピューターによって、腫瘍細胞を含む生体試料から配列データを得ることによって識別される、請求項1から18のいずれか一項に記載の方法。
【請求項20】
前記複数のバリアントが、前記コンピューターによって、前記配列データを参照配列とアラインさせること、および前記配列データ中のバリアントを識別することによって識別される、請求項19に記載の方法。
【請求項21】
腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、請求項19または20に記載の方法。
【請求項22】
前記腫瘍試料が固定される、請求項21に記載の方法。
【請求項23】
腫瘍の腫瘍突然変異量を決定するコンピューター実装方法であって、
前記コンピューターによって、腫瘍細胞を含む生体試料から配列データを得るステップ;
前記コンピューターによって、前記配列データから複数のバリアントを決定するステップ;および
請求項1から22のいずれか一項に記載の方法に従って、前記コンピューターによって、複数のバリアントにおける体細胞バリアントの数を決定するステップであって、体細胞バリアントの前記数が、前記腫瘍の前記腫瘍突然変異量である、ステップ
を含む、方法。
【請求項24】
遺伝的変異データを分析するための電子システムであって、
プロセッサー上で実行される、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを識別するように適合されたインフォマティクスモジュールであって、前記複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、インフォマティクスモジュール;
前記複数のバリアントから第1の生殖系列バリアントを除去するように適合されたデータベースフィルターモジュールであって、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、データベースフィルターモジュール;
前記複数のバリアントから第2の生殖系列バリアントを除去するように適合された近接フィルターモジュールであって、前記近接フィルターモジュールが、
複数のビンを返すように適合されたビニングサブモジュールであって、各ビンが、ゲノムの同じ領域中に位置する前記複数のバリアントのバリアントを含む、ビニングサブモジュール、
前記複数のバリアントにおけるデータベースバリアントを返すように適合された識別サブモジュールであって、データベースバリアントが、バリアントの第2の参照セット中に存在する、識別サブモジュール、および
前記複数のバリアントから第2の生殖系列バリアントを除去するように適合された除去サブモジュールであって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有し、前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲であるか、または前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、除去サブモジュール
を含む、近接フィルターモジュール;ならびに
前記複数のバリアントから除去されなかったバリアントを返すように適合されたディスプレイモジュール
を含む、電子システム。
【請求項25】
インフォマティクスモジュールが、バリアントアノテーションツールを含む、請求項
24に記載のシステム。
【請求項26】
前記閾値対立遺伝子カウントが5である、請求項
24または
25に記載のシステム。
【請求項27】
前記閾値対立遺伝子カウントが10である、請求項
26に記載のシステム。
【請求項28】
バリアントの前記第1および第2の参照セットが、同じ参照セットである、請求項
24から
27のいずれか一項に記載のシステム。
【請求項29】
バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、請求項
24から
28のいずれか一項に記載のシステム。
【請求項30】
バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、請求項
24から
29のいずれか一項に記載のシステム。
【請求項31】
ゲノムの前記同じ領域が、同じ染色体内にある、請求項
24から
30のいずれか一項に記載のシステム。
【請求項32】
ゲノムの前記同じ領域が、同じ染色体腕内にある、請求項
24から
31のいずれか一項に記載のシステム。
【請求項33】
ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、請求項
24から
32のいずれか一項に記載のシステム。
【請求項34】
ゲノムの前記同じ領域が、10Mbの領域内にある、請求項
24から
33のいずれか一項に記載のシステム。
【請求項35】
前記除去サブモジュールが、前記複数のバリアントから、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントを除去するように適合される、請求項
24から
34のいずれか一項に記載のシステム。
【請求項36】
前記除去サブモジュールが、前記複数のバリアントから、バリアントの前記第2の参照セット中に存在するデータベースバリアントを除去するように適合される、請求項
24から
35のいずれか一項に記載のシステム。
【請求項37】
前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、請求項
24から
36のいずれか一項に記載のシステム。
【請求項38】
前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、請求項
24から
37のいずれか一項に記載のシステム。
【請求項39】
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項
24から
38のいずれか一項に記載のシステム。
【請求項40】
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項
24から
39のいずれか一項に記載のシステム。
【請求項41】
腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、請求項
24から
40のいずれか一項に記載のシステム。
【請求項42】
前記腫瘍試料が固定される、請求項
41に記載のシステム。
【請求項43】
複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、前記コンピューターによって、請求項1から22のいずれか一項に記載の方法を実施するステップを含む、方法。
【請求項44】
複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、
(a)前記コンピューターによって、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを受け取るステップであって、前記複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、ステップ;
(b)前記コンピューターによって、前記複数のバリアントにデータベースフィルターを適用するステップであって、
前記複数のバリアントについてドキュメントのインデックスを作成する工程、
前記インデックスを用いてバリアントの第1の参照セットを検索して、前記インデックスにおける第1の生殖系列バリアントを識別する工程であって、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの前記第1の参照セットにおける対立遺伝子カウントを有する、工程、および
前記インデックスから識別された第1の生殖系列バリアントを除去して、第1のフィルタリングされたバリアントのインデックスを作成する工程
を含む、ステップ;
(c)前記コンピューターによって、第1のフィルタリングされたバリアントの前記インデックスに近接フィルターを適用するステップであって、
(i)ゲノムの異なる領域について複数のビンを作成する工程、
(ii)第1のフィルタリングされたバリアントの前記インデックスのバリアントをビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、
(iii)第1のフィルタリングされたバリアントの前記インデックスを用いてバリアントの第2の参照セットを検索して、第1のフィルタリングされたバリアントの前記インデックスにおけるデータベースバリアントを識別する工程、
(iv)第2の生殖系列バリアントを識別することによって、第1のフィルタリングされたバリアントの前記インデックスから第2の生殖系列バリアントのインデックスを生成する工程であって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有し、前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲であるか、または前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、工程、および
(v)第1のフィルタリングされたバリアントの前記インデックスから識別された第2の生殖系列バリアントを除去して、体細胞バリアントのインデックスを作成し、それによって、前記複数のバリアントにおける体細胞バリアントを識別する工程
を含む、ステップ
を含む、方法。
【請求項45】
前記閾値対立遺伝子カウントが5である、請求項
44に記載の方法。
【請求項46】
前記閾値対立遺伝子カウントが10である、請求項
45に記載の方法。
【請求項47】
バリアントの前記第1および第2の参照セットが、同じ参照セットである、請求項
44から
46のいずれか一項に記載の方法。
【請求項48】
バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、請求項
44から
47のいずれか一項に記載の方法。
【請求項49】
バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、請求項
44から
48のいずれか一項に記載の方法。
【請求項50】
ゲノムの前記同じ領域が、同じ染色体内にある、請求項
44から
49のいずれか一項に記載の方法。
【請求項51】
ゲノムの前記同じ領域が、同じ染色体腕内にある、請求項
44から
50のいずれか一項に記載の方法。
【請求項52】
ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、請求項
44から
51のいずれか一項に記載の方法。
【請求項53】
ゲノムの前記同じ領域が、10Mbの領域内にある、請求項
44から
52のいずれか一項に記載の方法。
【請求項54】
第2のフィルタリングされたバリアントのインデックスを生成する前記工程が、前記コンピューターによって、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別することをさらに含む、請求項
44から
53のいずれか一項に記載の方法。
【請求項55】
第2のフィルタリングされたバリアントのインデックスを生成する前記工程が、前記コンピューターによって、前記複数のバリアントにおける第2の生殖系列バリアントを識別することをさらに含み、前記第2の生殖系列バリアントが、バリアントの前記第2の参照セット中に存在するデータベースバリアントである、請求項
44から
54のいずれか一項に記載の方法。
【請求項56】
前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、請求項
44から
55のいずれか一項に記載の方法。
【請求項57】
前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、請求項
44から
56のいずれか一項に記載の方法。
【請求項58】
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項
44から
57のいずれか一項に記載の方法。
【請求項59】
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項
44から
58のいずれか一項に記載の方法。
【請求項60】
腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、請求項
44から
58のいずれか一項に記載の方法。
【請求項61】
前記腫瘍試料が固定される、請求項
60に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本明細書で提供される方法およびシステムの一部の実施形態は、単一の試料から得られた配列データからのバリアント呼び出しに関する。一部の実施形態では、体細胞バリアントは、試料中のバリアントのバリアント対立遺伝子頻度およびゲノム中のその位置に基づいて、生殖系列バリアントから識別され得る。
【背景技術】
【0002】
発明の背景
DNA突然変異は、がんの原因であり、がんの研究および処置の焦点である。次世代シーケンシング(NGS)は、現代のシーケンサーが生成できる膨大な数の読み取りに起因して、de novo突然変異検出のための有望なテクノロジーである。理論的には、ゲノム試料中の全ての突然変異またはバリアントを、バリアント対立遺伝子頻度(VAF)またはゲノム領域とは関係なく、十分な読み取り深度を前提として観察することができる。しかし、自信を持ってバリアントを呼び出すことは、読み取りにおけるノイズに起因して、些末なことではない。いくつかのバイオインフォマティクスツールが、シーケンシング読み取りからバリアントを見出すために開発されており、かかる手順は、典型的には、以下の3つの構成要素からなる:読み取り処理、マッピングおよびアラインメント、ならびにバリアント呼び出し。
【0003】
読み取り処理のために、通常は読み取りの3’末端近傍の低品質の塩基、およびシーケンシングアダプタなどの外因性配列は、DNA試料読み取り処理ツールからトリミングされる。第2に、クリーンにされた読み取りは、バリアントが参照ゲノムに由来し得る場所を決定するために、マッピングおよびアラインメントツールを使用してマッピングされ、次いで、塩基ごとにアラインされる。第3のステップである、バリアント呼び出しのプロセスは、ライブラリー調製、試料富化、シーケンシングおよびマッピング/アラインメントから生じるアーチファクトから、実際のバリアントを分離するために使用される。配列データからのバリアント呼び出しの改善された方法が、引き続き必要とされている。
【発明の概要】
【課題を解決するための手段】
【0004】
発明の要旨
一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するための方法であって、(a)体細胞バリアントおよび生殖系列バリアントを含む複数のバリアントを得るステップ;(b)複数のバリアントにデータベースフィルターを適用するステップであって、複数のバリアントにおける第1の生殖系列バリアントを決定する工程を含み、第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、ステップ;(c)複数のバリアントに近接フィルターを適用するステップであって、(i)複数のバリアントのバリアントを複数のビン中にビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、(ii)複数のバリアントにおけるデータベースバリアントを決定する工程であって、データベースバリアントが、バリアントの第2の参照セット中に存在する、工程、および(iii)複数のバリアントにおける第2の生殖系列バリアントを決定する工程であって、第2の生殖系列バリアントが各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程を含む、ステップ;ならびに(d)複数のバリアントから識別された第1および第2の生殖系列バリアントを除去することによって、複数のバリアントにおける体細胞バリアントを決定するステップを含む、方法を含む。
【0005】
一部の実施形態では、(b)および(c)は、連続的に実施される。
【0006】
一部の実施形態では、(c)は、(b)の前に実施される。
【0007】
一部の実施形態では、閾値対立遺伝子カウントは、5である。一部の実施形態では、閾値対立遺伝子カウントは、10である。
【0008】
一部の実施形態では、バリアントの第1および第2の参照セットは、同じ参照セットである。
【0009】
一部の実施形態では、バリアントの第1または第2の参照セットは、複数の個体についてのバリアントのデータベースを含む。一部の実施形態では、バリアントの第1または第2の参照セットは、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む。
【0010】
一部の実施形態では、ゲノムの同じ領域は、同じ染色体内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体腕内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体サイトバンド(cytoband)内にある。一部の実施形態では、ゲノムの同じ領域は、10Mbの領域内にある。
【0011】
一部の実施形態では、近接フィルターを適用するステップは、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別する工程をさらに含む。
【0012】
一部の実施形態では、近接フィルターを適用するステップは、複数のバリアントにおける第2の生殖系列バリアントを識別する工程をさらに含み、第2の生殖系列バリアントは、バリアントの第2の参照セット中に存在するデータベースバリアントである。
【0013】
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲である。
【0014】
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。
【0015】
一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。
【0016】
一部の実施形態では、(a)は、腫瘍細胞を含む生体試料から配列データを得る工程を含む。一部の実施形態は、配列データを参照配列とアラインさせる工程、および配列データ中のバリアントを識別する工程もまた含む。
【0017】
一部の実施形態では、腫瘍細胞を含む生体試料は、血清試料、大便試料、血液試料、腫瘍試料から選択される。一部の実施形態では、腫瘍試料は、固定される。
【0018】
一部の実施形態は、腫瘍の腫瘍突然変異量を決定する方法であって、腫瘍細胞を含む生体試料から配列データを得るステップ;配列データから複数のバリアントを決定するステップ;および上述の実施形態のいずれか1つの方法に従って、複数のバリアントにおける体細胞バリアントの数を決定するステップであって、体細胞バリアントの数が、腫瘍の腫瘍突然変異量である、ステップを含む、方法を含む。
【0019】
一部の実施形態は、腫瘍を処置する方法であって、腫瘍の腫瘍突然変異量を決定する方法に従って、10体細胞バリアントよりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ;および有効量のチェックポイント阻害剤を投与することによって、腫瘍を処置するステップを含む、方法を含む。
【0020】
一部の実施形態では、腫瘍は、結腸直腸腫瘍、肺腫瘍、子宮内膜腫瘍、子宮腫瘍、胃腫瘍、黒色腫、乳房腫瘍、膵腫瘍、腎臓腫瘍、膀胱腫瘍および脳腫瘍からなる群から選択される。
【0021】
一部の実施形態では、チェックポイント阻害剤は、CTLA-4阻害剤、PD-1阻害剤およびPD-L1阻害剤からなる群から選択される。一部の実施形態では、チェックポイント阻害剤は、イピリムマブ、ニボルマブ、ペムブロリズマブ、スパルタリズマブ、アテゾリズマブ、アベルマブおよびデュルバルマブからなる群から選択される。
【0022】
一部の実施形態は、遺伝的変異データを分析するための電子システムであって、プロセッサー上で実行され、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを識別するように適合されたインフォマティクスモジュールであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、インフォマティクスモジュール;複数のバリアントから第1の生殖系列バリアントを除去するように適合されたデータベースフィルターモジュールであって、第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、データベースフィルターモジュール;複数のバリアントから第2の生殖系列バリアントを除去するように適合された近接フィルターモジュールであって、近接フィルターモジュールが、複数のビンを返すように適合されたビニングサブモジュールであって、各ビンが、ゲノムの同じ領域中に位置する複数のバリアントのバリアントを含む、ビニングサブモジュール、複数のバリアントにおけるデータベースバリアントを返すように適合された識別サブモジュールであって、データベースバリアントが、バリアントの第2の参照セット中に存在する、識別サブモジュール、および複数のバリアントから第2の生殖系列バリアントを除去するように適合された除去サブモジュールであって、第2の生殖系列バリアントが各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、除去サブモジュールを含む、近接フィルターモジュール;ならびに複数のバリアントから除去されなかったバリアントを返すように適合されたディスプレイモジュールを含む、電子システムを含む。
【0023】
一部の実施形態では、インフォマティクスモジュールは、バリアントアノテーションツールを含む。
【0024】
一部の実施形態では、閾値対立遺伝子カウントは、5である。一部の実施形態では、閾値対立遺伝子カウントは、10である。
【0025】
一部の実施形態では、バリアントの第1および第2の参照セットは、同じ参照セットである。
【0026】
一部の実施形態では、バリアントの第1または第2の参照セットは、複数の個体についてのバリアントのデータベースを含む。一部の実施形態では、バリアントの第1または第2の参照セットは、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む。
【0027】
一部の実施形態では、ゲノムの同じ領域は、同じ染色体内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体腕内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体サイトバンド内にある。一部の実施形態では、ゲノムの同じ領域は、10Mbの領域内にある。
【0028】
一部の実施形態では、除去サブモジュールは、複数のバリアントから、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントを除去するように適合される。
【0029】
一部の実施形態では、除去サブモジュールは、複数のバリアントから、バリアントの第2の参照セット中に存在するデータベースバリアントを除去するように適合される。
【0030】
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲である。
【0031】
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。
【0032】
一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。
【0033】
一部の実施形態では、腫瘍細胞を含む生体試料は、血清試料、大便試料、血液試料、腫瘍試料から選択される。一部の実施形態では、腫瘍試料は、固定される。
【0034】
一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、上述の方法のいずれか1つの方法を実施するステップを含む、方法を含む。
【0035】
一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、(a)腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを受け取るステップであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、ステップ;(b)複数のバリアントにデータベースフィルターを適用するステップであって、複数のバリアントについてドキュメントのインデックスを作成する工程、インデックスを用いてバリアントの第1の参照セットを検索して、インデックスにおける第1の生殖系列バリアントを識別する工程であって、第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、工程、およびインデックスから識別された第1の生殖系列バリアントを除去して、第1のフィルタリングされたバリアントのインデックスを作成する工程を含む、ステップ;(c)第1のフィルタリングされたバリアントのインデックスに近接フィルターを適用するステップであって、(i)ゲノムの異なる領域について複数のビンを作成する工程、(ii)第1のフィルタリングされたバリアントのインデックスのバリアントをビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、(iii)第1のフィルタリングされたバリアントのインデックスを用いてバリアントの第2の参照セットを検索して、第1のフィルタリングされたバリアントのインデックスにおけるデータベースバリアントを識別する工程、(iv)第2の生殖系列バリアントを識別することによって、第1のフィルタリングされたバリアントのインデックスから第2の生殖系列バリアントのインデックスを生成する工程であって、第2の生殖系列バリアントが各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程、および(v)第1のフィルタリングされたバリアントのインデックスから識別された第2の生殖系列バリアントを除去して、体細胞バリアントのインデックスを作成し、それによって、複数のバリアントにおける体細胞バリアントを識別する工程を含む、ステップを含む、方法を含む。
【0036】
一部の実施形態では、閾値対立遺伝子カウントは、5である。一部の実施形態では、閾値対立遺伝子カウントは、10である。
【0037】
一部の実施形態では、バリアントの第1および第2の参照セットは、同じ参照セットである。
【0038】
一部の実施形態では、バリアントの第1または第2の参照セットは、複数の個体についてのバリアントのデータベースを含む。一部の実施形態では、バリアントの第1または第2の参照セットは、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む。
【0039】
一部の実施形態では、ゲノムの同じ領域は、同じ染色体内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体腕内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体サイトバンド内にある。一部の実施形態では、ゲノムの同じ領域は、10Mbの領域内にある。
【0040】
一部の実施形態では、第2のフィルタリングされたバリアントのインデックスを生成する工程は、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別することをさらに含む。
【0041】
一部の実施形態では、第2のフィルタリングされたバリアントのインデックスを生成する工程は、複数のバリアントにおける第2の生殖系列バリアントを識別することをさらに含み、第2の生殖系列バリアントは、バリアントの第2の参照セット中に存在するデータベースバリアントである。
【0042】
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲である。
【0043】
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。
【0044】
一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。
【0045】
一部の実施形態では、腫瘍細胞を含む生体試料は、血清試料、大便試料、血液試料、腫瘍試料から選択される。一部の実施形態では、腫瘍試料は、固定される。
【図面の簡単な説明】
【0046】
【
図1】
図1は、VCFファイルなどの配列データを得るステップ、データ中のバリアントを識別およびアノテーションするステップ、生殖系列バリアントを識別およびフィルタリングするステップ、ならびにバリアントの状態を示すバリアント表を返すステップを含むワークフローの、例となる実施形態を示す。
【0047】
【
図2】
図2Aは、体細胞バリアント(黒色で塗りつぶされた丸)および生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。
【0048】
図2Bは、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのVAFを示すグラフである。
【0049】
【
図3】
図3は、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントについて第1~7染色体についての染色体位置に従う種々のバリアントについてのVAFを示すグラフ、ならびに特定のフィルター決定された体細胞バリアントが選択された第7染色体上に位置するバリアントについての拡大図、ならびに選択されたバリアントから引き出された範囲である。
【0050】
【
図4】
図4Aは、データベースフィルターのみでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのVAFを示すグラフである。
【0051】
図4Bは、データベースフィルターのみおよび近接フィルターでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのVAFを示すグラフである。
【0052】
【
図5】
図5は、ホルマリン固定パラフィン包埋(FFPE)試料を得るステップ、配列データを得るステップ、および配列データを分析するステップを含むワークフローの、例となる実施形態の概略を示す。
【0053】
【
図6】
図6は、データベースフィルターおよび近接フィルターを使用して、識別されたバリアントから生殖系列バリアントをフィルタリングするステップ、ならびに腫瘍突然変異量を計算するステップを含むワークフローの、例となる実施形態を示す。
【0054】
【
図7】
図7は、データベースのみ(約3生殖系列残留/Mbにグラフのピーク)およびハイブリッド戦略(約0生殖系列残留/Mbにグラフのピーク)によるフィルタリング後の残存する生殖系列バリアントカウントの分布を示す線グラフである。
【0055】
【
図8】
図8Aは、腫瘍のみアッセイと腫瘍/正常アッセイとの間の腫瘍突然変異量(TMB)の比較を示すグラフである。
【0056】
図8Bは、腫瘍のみアッセイとWES腫瘍-正常アッセイとの間の腫瘍突然変異量(TMB)の比較を示すグラフである。
【発明を実施するための形態】
【0057】
詳細な説明
本明細書で提供される方法およびシステムの一部の実施形態は、単一の試料から得られた配列データからのバリアント呼び出しに関する。一部の実施形態では、体細胞バリアントは、試料中のバリアントの対立遺伝子頻度およびゲノム中のバリアントの位置に基づいて、生殖系列バリアントから識別され得る。本明細書で使用される場合、「バリアント」には、核酸分子内の多型が含まれ得る。多型には、挿入、欠失、可変長タンデムリピート、単一ヌクレオチド突然変異、および構造的バリアント、例えば、転座、コピー数変異、またはそれらの組合せが含まれ得る。本明細書で使用される場合、「生殖系列バリアント」には、個体の胚細胞および全ての細胞中に存在するバリアントが含まれ得る。本明細書で使用される場合、「体細胞バリアント」には、個体の腫瘍細胞中に存在するが、他の細胞中には存在しないバリアントが含まれ得る。
【0058】
伝統的に、体細胞バリアントと生殖系列バリアントとの間のバリアント呼び出しは、腫瘍試料から得られたデータと、対応する正常試料から得られたデータとの間の比較に依存してきた。しかし、伝統的なバリアント呼び出しは、それに見合った試料が入手可能であることおよび2セットのデータが得られることを要求する。本明細書で提供される実施形態は、個体由来の単一の試料から取得した配列データからのバリアント呼び出しに関する。単一の試料を使用することは、それに見合った試料の必要性を低減させ得、腫瘍試料およびそれに見合った正常試料の両方について配列データを得るために必要なコストを低減させ得る。
【0059】
一部の実施形態は、試料、例えば、腫瘍細胞を含む個体由来の試料から配列データを得ること、配列データを参照と比較して、配列データにおける複数のバリアントを識別すること、ならびに1つまたは複数のフィルターをバリアントに適用して、生殖系列バリアントおよび体細胞バリアントを識別することに関する。一部の実施形態では、フィルターには、近接フィルターが含まれ得る。一部の実施形態では、近接フィルターは、ゲノム中のバリアントの位置に従って、複数のバリアントを複数のビン中にビニングすることを含む。ビニングされたバリアントの一部は、バリアントの1つまたは複数の参照セットにおける対応するバリアントの存在によって、生殖系列バリアントとして識別され得る。特徴付けられていないビニングされたバリアントが、特徴付けられていないバリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの対立遺伝子頻度と類似の対立遺伝子頻度を有する場合、特徴付けられていないビニングされたバリアントは、生殖系列バリアントであると決定され得る。一部の実施形態は、データベースフィルターを適用して、生殖系列バリアントを識別することも含む。データベースフィルターは、バリアントの1つまたは複数の参照セット中の対応するバリアントの対立遺伝子カウントに従って、生殖系列バリアントを識別し得る。一部の実施形態では、データベースフィルターおよび近接フィルターは、生殖系列バリアントを識別するために、複数のバリアントに適用され得る。一部の実施形態では、体細胞バリアントは、生殖系列バリアントとして識別されるバリアントである。体細胞バリアントの数は、腫瘍の腫瘍突然変異量を示し得る。
【0060】
腫瘍突然変異量は、最近の研究が腫瘍突然変異量とチェックポイント阻害剤免疫療法の有効性との間の相関を示した後で、がん治療選択のための重要なバイオマーカーとして出現してきた。腫瘍突然変異量を計算する際には、生殖系列バリアントを識別し、それをフィルタリングして除くことが有用である。生殖系列バリアントには、個体がそれを持って生まれた(または腫瘍と正常細胞との間で共有される)が、参照ゲノムと比較してバリアントとして検出されるバリアントが含まれ得る。これらのバリアントは、腫瘍細胞を正常細胞から識別することに寄与せず、したがって、正確にフィルタリングされて除かれない場合、腫瘍突然変異量の過大評価をもたらし得る。実施形態は、腫瘍について腫瘍突然変異量を決定するステップ、腫瘍突然変異量に従って腫瘍のための処置を選択するステップ、およびそれを必要とする対象に処置を投与するステップを含む。
ある特定の方法
【0061】
本明細書で提供される方法およびシステムの一部の実施形態は、体細胞バリアントおよび生殖系列バリアントを含む複数のバリアントにおける体細胞バリアントを識別するための方法に関する。一部の実施形態では、1つまたは複数のフィルターを使用して、複数のバリアントから生殖系列バリアントをフィルタリングすることができる。かかるフィルターの例には、データベースフィルターおよび近接フィルターが含まれる。
【0062】
一部の実施形態では、複数のバリアントにデータベースフィルターを適用することができる。データベースフィルターを使用して、バリアントを生殖系列バリアントとして識別し、複数のバリアントからバリアントを除去することができる。データベースフィルターは、複数のバリアントの特定のバリアントについての、データベースにおける対応するバリアントの対立遺伝子カウントに関連し得る。
【0063】
複数の各バリアントについて、参照データベースは、データベースにおける対応するバリアントについて検索され得る。参照データベースは、複数の個体についてのバリアントのデータベースを含み得る。本明細書で提供される実施形態で有用なデータベースの例には、gnomADエクソームおよびgnomADゲノムデータベースを含むゲノム集約データベース(gnomAD)、ならびに1000ゲノムデータベース(International Genome Sample Resource)が含まれる。例えば、その全体が参照によって組み込まれるLek, M., et al., (2016) Nature 536:285-292を参照のこと。総対立遺伝子カウントは、1つまたは複数の参照データベースにおける対応するバリアントについて決定され得る。対立遺伝子カウントは、バリアントが観察されるデータベース内の観察の総数を示し得る。例えば、対応するバリアントについてのデータベースにおける10の対立遺伝子カウントは、ホモ接合性バリアントについて少なくとも5つの試料、またはヘテロ接合性バリアントについて最大10個の試料において、対応するバリアントが観察されたことを示している。一部の実施形態では、対立遺伝子カウントは、1つよりも多いデータベースにおいて観察された最も高い対立遺伝子カウントであり得る。ある特定の閾値対立遺伝子カウントよりも大きいまたはそれと等しい対立遺伝子カウントを有する対応するバリアントを有するバリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、閾値対立遺伝子カウントは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19および20よりも大きいまたはそれと等しい場合がある。
【0064】
一部の実施形態では、複数のバリアントに近接フィルターを適用することができる。データベースフィルターを使用して、バリアントを生殖系列バリアントとして識別し、複数のバリアントからバリアントを除去することができる。近接フィルターは、複数のバリアントのある特定のバリアントの対立遺伝子頻度、ゲノムの領域中のバリアントの位置、およびバリアントの対立遺伝子頻度の、ゲノムの同じ領域における識別された生殖系列バリアントの対立遺伝子頻度との近接に関連し得る。一部の実施形態では、複数のバリアントのバリアントは、ゲノムの同じ領域中に位置するバリアントが、同じビン中に選別またはビニングされるように、複数のビン中に選別またはビニングされ得る。一部の実施形態では、ゲノムの同じ領域は、同じ染色体内、染色体の同じ腕内、同じ染色体サイトバンド内にあり得る。一部の実施形態では、ゲノムの同じ領域は、同じ連続する100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内、または上述の数のうち任意の2つの間の任意の範囲内であり得る。
【0065】
一部の実施形態では、近接フィルターは、どのビニングされたバリアントが生殖系列バリアントとして容易に識別可能かを決定することも含む。例えば、ビニングされたバリアントは、1つまたは複数の参照データベース中に存在する対応するバリアントを有し得、生殖系列バリアントとして識別され得る。
【0066】
一部の実施形態では、近接フィルターは、試料中の閾値頻度よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントが生殖系列バリアントであることを決定することを含む。一部のかかる実施形態では、0.7、0.8、0.9または1.0よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントは、生殖系列バリアントとして識別され得る。
【0067】
一部の実施形態では、近接フィルターは、生殖系列バリアントとして識別されていないバリアントについての対立遺伝子頻度の近似範囲を決定することを含む。バリアントについての対立遺伝子頻度の近似範囲は、バリアントの対立遺伝子頻度の上および下の対立遺伝子頻度の範囲を含み得る。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度から0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、または上述の数のうち任意の2つの間の範囲内の任意の数の最大値および最小値を有する範囲である。例えば、0.2の対立遺伝子頻度および0.05の近似範囲を有するバリアントについて、近似範囲の最小値および最大値は、それぞれ、0.15および0.25の対立遺伝子頻度である。
【0068】
一部の実施形態では、近似範囲は、所与のバリアントについての支持的証拠が二項プロセスによって生成されると仮定して、二項分布の2(n)標準偏差の値によって決定される。例えば、対立遺伝子頻度(x)、カバレッジ(y)を有するバリアントについて、近似範囲(z)は、
z=n*sqrt(y*x*(1-x))/y
であり得る。
【0069】
例えば、0.2の対立遺伝子頻度、100のシーケンシングのカバレッジ/深度を有するバリアントについて、近似範囲は0.08であり、近似範囲の最小値および最大値は、それぞれ、0.12および0.28の対立遺伝子頻度である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の上および下、0.05、またはバリアントの対立遺伝子頻度の二項分布から2(n)標準偏差のいずれか高い方である。
【0070】
一部の実施形態では、バリアントが、バリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の1、2、3、4、5、6、7、8、9または10個よりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の5つよりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。例えば、バリアントが、バリアントと同じビン中の5つよりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合に、バリアントが生殖系列バリアントとして識別される実施形態では、0.2の対立遺伝子頻度、0.05の近似範囲を有し、したがって、0.15の範囲最小値および0.25の範囲最大値を有し、第7染色体を示すビン中にビニングされたバリアントは、5つよりも多い識別された生殖系列バリアントがバリアントの近似範囲中の対立遺伝子頻度を有し、第7染色体を示すビン中にビニングされた場合、生殖系列バリアントとして識別される。
【0071】
一部の実施形態では、近接フィルターは、生殖系列バリアントとして識別されていないバリアントである体細胞バリアントを識別する。一部の実施形態では、腫瘍由来のシーケンシングデータから得られた体細胞バリアントの数は、腫瘍の腫瘍突然変異量である。
【0072】
一部の実施形態では、複数のバリアントにデータベースフィルターまたは近接フィルターを適用して、生殖系列バリアントを識別し、複数のバリアントからそれを除去することができる。一部の実施形態では、データベースフィルターおよび近接フィルターは、連続的に適用され得る。例えば、かかるデータベースフィルターの出力物は、近接フィルターの入力物として使用され得る。逆に、近接フィルターの出力物は、データベースフィルターの入力物として使用され得る。
ある特定の電子システムおよびコンピューター実装方法
【0073】
本明細書で提供される方法およびシステムの一部の実施形態は、遺伝的変異データを分析するための電子システムを含む。一部のかかる実施形態では、本明細書に記載されるデータベースフィルターおよび/または本明細書に記載される近接フィルターは、生殖系列バリアントを識別するために、遺伝的変異データに適用され得る。
【0074】
一部の実施形態は、プロセッサー上で実行される、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを識別するように適合されたインフォマティクスモジュールであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、インフォマティクスモジュールを含み得る。
【0075】
一部の実施形態は、複数のバリアントから生殖系列バリアントを除去するように適合されたデータベースフィルターモジュールであって、生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの参照セットにおける対立遺伝子カウントを有する、データベースフィルターモジュールを含む。一部の実施形態では、閾値対立遺伝子カウントは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19および20よりも大きいまたはそれと等しい場合がある。
【0076】
一部の実施形態は、複数のバリアントから生殖系列バリアントを除去するように適合された近接フィルターモジュールを含む。一部の実施形態では、近接フィルターモジュールは、複数のビンを返すように適合されたビニングサブモジュールであって、各ビンが、ゲノムの同じ領域中に位置する複数のバリアントのバリアントを含む、ビニングサブモジュールを含み得る。一部の実施形態では、複数のバリアントのバリアントは、ゲノムの同じ領域中に位置するバリアントが、同じビン中に選別またはビニングされるように、複数のビン中に選別またはビニングされ得る。一部の実施形態では、ゲノムの同じ領域は、同じ染色体内、染色体の同じ腕内、同じ染色体サイトバンド内にあり得る。一部の実施形態では、ゲノムの同じ領域は、同じ連続する100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内、または上述の数のうち任意の2つの間の任意の範囲内であり得る。
【0077】
一部の実施形態では、近接フィルターモジュールは、複数のバリアントにおけるデータベースバリアントを返すように適合された識別サブモジュールであって、データベースバリアントが、バリアントの参照セット中に存在する、識別サブモジュールを含み得る。
【0078】
一部の実施形態では、近接フィルターモジュールは、複数のバリアントから生殖系列バリアントを除去するように適合された除去サブモジュールであって、生殖系列バリアントが各々、生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、除去サブモジュールを含み得る。一部の実施形態では、近接フィルターは、生殖系列バリアントとして識別されていないバリアントについての対立遺伝子頻度の近似範囲を決定することを含む。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度から0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、または上述の数のうち任意の2つの間の範囲内の任意の数の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の上および下、0.05、またはバリアントの対立遺伝子頻度の二項分布から2(n)標準偏差、のうち高い方である。
【0079】
一部の実施形態では、バリアントが、バリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の1、2、3、4、5、6、7、8、9または10個よりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、除去サブモジュールは、閾値頻度よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントを除去するように適合される。一部のかかる実施形態では、0.7、0.8、0.9または1.0よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、除去サブモジュールは、複数のバリアントから、バリアントの参照セット中に存在するデータベースバリアントを除去するように適合される。
【0080】
本明細書で提供される一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法を含む。一部のかかる実施形態は、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを受け取るステップであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含み得る、ステップを含み得る。
【0081】
一部の実施形態は、複数のバリアントにデータベースフィルターを適用するステップを含む。一部のかかる実施形態は、複数のバリアントについてドキュメントのインデックスを作成する工程、インデックスを用いてバリアントの参照セットを検索して、インデックスにおける生殖系列バリアントを識別する工程を含む。一部の実施形態では、生殖系列バリアントは各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの参照セットにおける対立遺伝子カウントを有する。一部の実施形態では、閾値対立遺伝子カウントは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19および20よりも大きいまたはそれと等しい場合がある。一部の実施形態は、インデックスから識別された生殖系列バリアントを除去して、第1のフィルタリングされたバリアントのインデックスを作成する工程も含む。
【0082】
一部の実施形態は、第1のフィルタリングされたバリアントのインデックスに近接フィルターを適用するステップを含む。一部のかかる実施形態は、ゲノムの異なる領域について複数のビンを作成する工程を含む。一部の実施形態は、第1のフィルタリングされたバリアントのインデックスのバリアントをビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程を含む。一部の実施形態では、ゲノムの同じ領域は、同じ染色体内、染色体の同じ腕内、同じ染色体サイトバンド内にあり得る。一部の実施形態では、ゲノムの同じ領域は、同じ連続する100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内、または上述の数のうち任意の2つの間の任意の範囲内であり得る。
【0083】
一部の実施形態は、第1のフィルタリングされたバリアントのインデックスを用いてバリアントの参照セットを検索して、第1のフィルタリングされたバリアントのインデックスにおけるデータベースバリアントを識別する工程を含む。
【0084】
一部の実施形態は、生殖系列バリアントを識別することによって、第1のフィルタリングされたバリアントのインデックスから生殖系列バリアントのインデックスを生成する工程を含む。一部の実施形態では、生殖系列バリアントは各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度から0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、または上述の数のうち任意の2つの間の範囲内の任意の数の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の上および下、0.05、またはバリアントの対立遺伝子頻度の二項分布から2(n)標準偏差のうち高い方である。
【0085】
一部の実施形態では、バリアントが、バリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の1、2、3、4、5、6、7、8、9または10個よりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、生殖系列バリアントは、閾値頻度よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントとして識別され得る。一部のかかる実施形態では、0.7、0.8、0.9または1.0よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントは、生殖系列バリアントとして識別され得る。
【0086】
一部の実施形態は、第1のフィルタリングされたバリアントのインデックスから識別された生殖系列バリアントを除去して、体細胞バリアントのインデックスを作成し、それによって、複数のバリアントにおける体細胞バリアントを識別する工程を含む。一部の実施形態では、腫瘍由来のシーケンシングデータから得られた体細胞バリアントの数は、腫瘍の腫瘍突然変異量である。
処置の方法
【0087】
方法およびシステムの一部の実施形態は、腫瘍を処置する方法を含む。一部のかかる実施形態では、腫瘍中に存在する体細胞バリアントの数は、本明細書で提供される方法およびシステムによって決定され得る。例えば、配列データが腫瘍から得られ得、複数のバリアントが配列データから識別され得、生殖系列バリアントが識別され得、複数のバリアントから除去され得、それによって、複数のバリアントにおける体細胞バリアントを識別し得る。一部の実施形態では、生殖系列バリアントは、データベースフィルターおよび/または近接フィルターのうち1つまたは複数を適用することによって、識別され得、複数のバリアントから除去され得、それによって、フィルターのうち1つまたは複数を適用することによって除去されなかった体細胞バリアントを識別し得る。一部の実施形態では、腫瘍由来のシーケンシングデータから得られた体細胞バリアントの数は、腫瘍の腫瘍突然変異量である。一部の実施形態では、腫瘍突然変異量は、ゲノム領域当たりの体細胞バリアントの平均数、例えば、50kb、100kb、1Mb、10Mb、100Mbなど当たりの突然変異として計算される。腫瘍突然変異量は、ゲノム全体またはその一部分をシーケンシングすることによって、サンプリングされ得る。例えば、ゲノムの一部分は、1つまたは複数の目的のゲノム領域、例えば、腫瘍遺伝子パネル、完全エクソーム、部分エクソームなどについて富化することによって、シーケンシングされ得る。
【0088】
腫瘍を処置する一部の実施形態は、腫瘍突然変異量閾値よりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ、および腫瘍を有効量の治療剤と接触させるステップを含み得る。一部の実施形態は、腫瘍を有する対象を処置するステップを含み、TMB閾値よりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ、および対象に有効量の治療剤を投与するステップを含み得る。一部の実施形態では、腫瘍突然変異量閾値は、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000または上述の数のうち任意の2つの間の範囲中の任意の数であり得る。治療剤の例には、化学療法剤が含まれる。一部の実施形態では、治療剤には、チェックポイント阻害剤が含まれ得る。チェックポイント阻害剤の例には、CTLA-4阻害剤、PD-1阻害剤およびPD-L1阻害剤が含まれる。一部の実施形態では、チェックポイント阻害剤には、イピリムマブ、ニボルマブ、ペムブロリズマブ、スパルタリズマブ、アテゾリズマブ、アベルマブおよびデュルバルマブが含まれ得る。腫瘍の例には、結腸直腸腫瘍、肺腫瘍、子宮内膜腫瘍、子宮腫瘍、胃腫瘍、黒色腫、乳房腫瘍、膵腫瘍、腎臓腫瘍、膀胱腫瘍および脳腫瘍が含まれる。本明細書に含まれる方法およびシステムで処置され得るがんの追加の例は、その全体が本明細書に参照によって明示的に組み込まれる、米国特許出願公開第20180218789号に列挙されている。
試料
【0089】
一部の実施形態は、生体試料から配列データを得るステップを含む。一部の実施形態では、生体試料は、腫瘍細胞を含み得る。一部の実施形態では、生体試料には、血清試料、大便試料、血液試料および腫瘍試料が含まれ得る。一部の実施形態では、生体試料は、固定される。
【0090】
一部の実施形態では、対象は、生体試料を提供し得る。生体試料は、対象によって産生される任意の物質であり得る。一般に、生体試料は、対象から採取される任意の組織または対象によって産生される任意の物質である。生体試料の例には、血液、血漿、唾液、脳脊髄液(CSF)、頬組織、尿、糞便、皮膚、毛髪、臓器組織が含まれ得る。一部の実施形態では、生体試料は、固形腫瘍または固形腫瘍の生検である。一部の実施形態では、生体試料は、ホルマリン固定パラフィン包埋(FFPE)組織試料である。生体試料は、核酸を含む任意の生体試料であり得る。生体試料は、対象に由来し得る。対象は、哺乳動物、爬虫類、両生類、鳥類または魚類であり得る。哺乳動物の例には、ヒト、類人猿、オランウータン、サル、チンパンジー、ウシ、ブタ、ウマ、げっ歯類、トリ、爬虫類、イヌ、ネコ、イルカまたは他の動物が含まれる。爬虫類の例には、トカゲ、ヘビ、アリゲーター、カメ(turtle)、クロコダイル、イグアナおよびカメ(tortoise)が含まれる。両生類の例には、ヒキガエル、カエル、イモリおよびサンショウウオが含まれる。鳥類の例には、ニワトリ、カモ、ガチョウ、ペンギン、ダチョウ、ツノメドリおよびフクロウが含まれる。魚類の例には、ナマズ、ウナギ、サメ、金魚およびメカジキが含まれる。一部の実施形態では、対象はヒトである。
ある特定のシステムおよび方法
【0091】
一部の実施形態は、本明細書に記載される方法を実施するための、コンピューターベースのシステムおよびコンピューター実装方法を含む。一部の実施形態では、システムは、試料中のバリアント、例えば、生殖系列バリアントおよび/または体細胞バリアントの存在または非存在を決定し報告するために利用され得る。システムは、1つまたは複数のクライアントコンポーネントを含み得る。1つまたは複数のクライアントコンポーネントは、ユーザーインターフェースを含み得る。システムは、1つまたは複数のサーバーコンポーネントを含み得る。サーバーコンポーネントは、1つまたは複数のメモリロケーションを含み得る。1つまたは複数のメモリロケーションは、データ入力物を受け取るように構成され得る。データ入力物は、シーケンシングデータを含み得る。シーケンシングデータは、対象由来の核酸試料から生成され得る。システムは、1つまたは複数のコンピュータープロセッサーをさらに含み得る。1つまたは複数のコンピュータープロセッサーは、1つまたは複数のメモリロケーションに操作可能に連結され得る。1つまたは複数のコンピュータープロセッサーは、シーケンシングデータを参照配列にマッピングするようにプログラミングされ得る。1つまたは複数のコンピュータープロセッサーは、シーケンシングデータから複数のバリアントの存在または非存在を決定するようにさらにプログラミングされ得る。1つまたは複数のコンピュータープロセッサーは、少なくとも1つのフィルターを遺伝的変異体に適用して、生殖系列バリアントを識別するように、さらにプログラミングされ得る。フィルターの例には、データベースフィルターおよび近接フィルターが含まれる。1つまたは複数のコンピュータープロセッサーは、識別されたバリアントのインデックスから識別された生殖系列バリアントを除去するようにさらにプログラミングされ得る。1つまたは複数のコンピュータープロセッサーは、スクリーン上でのディスプレイのための出力物を生成するようにさらにプログラミングされ得る。出力物は、複数のバリアントにおける生殖系列バリアントおよび/または体細胞バリアントを識別する1つまたは複数の報告を含み得る。
【0092】
方法およびシステムの一部の実施形態は、1つまたは複数のクライアントコンポーネントを含み得る。1つまたは複数のクライアントコンポーネントは、1つもしくは複数のソフトウェアコンポーネント、1つもしくは複数のハードウェアコンポーネント、またはそれらの組合せを含み得る。1つまたは複数のクライアントコンポーネントは、1つまたは複数のサーバーコンポーネントを介して1つまたは複数のサービスにアクセスできる。1つまたは複数のサービスは、ネットワークを介して、1つまたは複数のクライアントコンポーネントによってアクセスされ得る。「サービス」は、任意の製品、方法、機能、またはシステムの使用を指すために、本明細書で使用される。例えば、ユーザーは、遺伝子検査を注文することができる。注文は、システムの1つまたは複数のクライアントコンポーネントを介して行われ得、要求は、ネットワークを介して、システムの1つまたは複数のサーバーコンポーネントに送信され得る。ネットワークは、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであり得る。ネットワークは、一部の例では、電気通信および/またはデータネットワークである。ネットワークは、分散型コンピューティング、例えば、クラウドコンピューティングを可能にできる、1つまたは複数のコンピューターサーバーを含み得る。一部の例では、コンピューターシステムの助けを借りたネットワークは、コンピューターシステムに連結されたデバイスがクライアントまたはサーバーとして挙動することを可能にし得るピアツーピアネットワークを実装し得る。
【0093】
システムの一部の実施形態は、1つまたは複数のメモリロケーション、例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ;電子記憶ユニット、例えば、ハードディスク;通信インターフェース、例えば、1つまたは複数の他のシステムとの通信のためのネットワークアダプタ、ならびに周辺デバイス、例えば、キャッシュ、他のメモリ、データ記憶および/または電子ディスプレイアダプタを含み得る。メモリ、記憶ユニット、インターフェースおよび周辺デバイスは、通信バスを介して、マザーボードなどのCPUと通信する。記憶ユニットは、データを記憶するためのデータ記憶ユニットまたはデータリポジトリであり得る。一例では、1つまたは複数のメモリロケーションは、受け取ったシーケンシングデータを記憶できる。
【0094】
方法およびシステムの一部の実施形態は、1つまたは複数のコンピュータープロセッサーを含み得る。1つまたは複数のコンピュータープロセッサーは、例えば、記憶されたシーケンシングデータにアクセスするために、1つまたは複数のメモリロケーションに操作可能に連結され得る。1つまたは複数のコンピュータープロセッサーは、本明細書に記載される方法を実施するために、機械実行可能コードを実装できる。例えば、1つまたは複数のコンピュータープロセッサーは、シーケンシングデータ入力物を参照配列にマッピングするためならびに/または生殖系列バリアントおよび/もしくは体細胞バリアントを識別するために、機械可読コードを実行できる。
【0095】
本明細書で提供される方法およびシステムの一部の実施形態は、機械実行可能コードまたは機械可読コードを含み得る。一部のかかる実施形態では、機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用の間に、コードは、プロセッサーによって実行され得る。一部の場合には、コードは、記憶ユニットから検索され得、プロセッサーによる即座のアクセスのために、メモリ上に記憶され得る。一部の実施形態では、電子記憶ユニットは、除外され得、機械実行可能命令は、メモリ上に記憶される。コードは、コードを実行するように適合されたプロセッサーを有する機械との使用のためにプリコンパイルおよび構成され得、ランタイムの間にコンパイルされ得、またはランタイムの間に解読され得る。コードは、プリコンパイルされた、アズコンパイルされた(as-compiled)または解読された様式でコードが実行されるのを可能にするように選択され得るプログラミング言語で提供され得る。
【0096】
本明細書で提供されるシステムおよび方法の一部の実施形態、例えば、コンピューターシステムは、プログラミングで具体化され得る。テクノロジーの種々の態様は、典型的には、ある型の機械可読媒体上に保持されるまたはある型の機械可読媒体で具体化される機械(またはプロセッサー)実行可能コードおよび/または関連データの形態での、「製品」または「製造品」であると考えられ得る。機械実行可能コードは、電子記憶ユニット、例えば、メモリまたはハードディスク上に記憶され得る。「記憶」型媒体は、ソフトウェアプログラミングのためにいつでも一時的でない(non-transitory)記憶を提供し得る、コンピューターの有形メモリ、プロセッサーなどのうちいずれかもしくは全て、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどを含み得る。ソフトウェアの全てまたは部分は、時折、インターネットまたは種々の他の電気通信ネットワークを介して通信され得る。例えば、かかる通信は、1つのコンピューターまたはプロセッサーから別のコンピューターまたはプロセッサーへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへの、ソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を有し得る別の型の媒体には、例えば、ローカルデバイス間の物理インターフェースを横断して、有線および光学地上通信線ネットワークを介して、ならびに種々のエアリンク(air-link)を通じて使用される、光波、電波および電磁波が含まれる。かかる波を伝える物理要素、例えば、有線または無線リンク、光リンクなどもまた、ソフトウェアを有する媒体とみなされ得る。本明細書で使用される場合、一時的でない有形「記憶」媒体に限定されない限り、コンピューターまたは機械「可読媒体」などの用語は、実行のために命令をプロセッサーに提供することに関与する任意の媒体を指す。
【0097】
本明細書に開示される方法およびシステムの一部の実施形態は、1つもしくは複数の電子ディスプレイを含み得る、またはそれと通信し得る。電子ディスプレイは、コンピューターシステムの一部であり得る、または直接、もしくはネットワークを介して、コンピューターシステムに連結され得る。コンピューターシステムは、本明細書に開示される種々の特性および機能を提供するためのユーザーインターフェース(UI)を含み得る。UIの例には、限定なしに、グラフィカルユーザーインターフェース(GUI)およびウェブベースのユーザーインターフェースが含まれる。UIは、ユーザーが本明細書に記載される方法およびシステムを利用できるインタラクティブツールを提供できる。例として、本明細書で想定されるUIは、医療関係者が遺伝子検査を注文でき、検査すべき遺伝的変異体のリストをカスタマイズでき、生物医学的報告を受け取りそれを見ることができる、ウェブベースのツールであり得る。
【0098】
本明細書に開示される方法およびシステムの一部の実施形態は、1つもしくは複数のデータベース、1つもしくは複数のアッセイ、1つもしくは複数のデータもしくは結果、1つもしくは複数のアッセイに基づくまたはそれに由来する1つもしくは複数の出力物、1つもしくは複数のデータもしくは結果に基づくまたはそれに由来する1つもしくは複数の出力物、あるいはそれらの組合せからのデータおよび/または情報に基づく、生物医学的データベース、ゲノムデータベース、生物医学的報告、疾患報告、症例対照分析およびレアバリアント発見分析を含み得る。
【実施例】
【0099】
(実施例1)
試料比較によって体細胞バリアントを識別する
配列データを、個体由来の腫瘍試料および正常試料について得た。バリアントを、配列データにおいて識別した。腫瘍試料中の生殖系列バリアントを、腫瘍試料中に存在するバリアントおよび正常試料中に存在しないバリアントを比較することによって識別した。
図2Aは、体細胞バリアント(黒色で塗りつぶされた丸)および生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う異なるバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。この方法は、個体由来の2つの試料を必要とした。
(実施例2)
バリアントのデータベースフィルタリング
【0100】
配列データを、実施例1の腫瘍試料のみについて得た。バリアントを、配列データにおいて識別した。簡潔に述べると、バリアント呼び出しパイプラインから呼び出されたバリアントを、アノテーションツールNirvana(Illumina、San Diego)を使用してアノテーションした。Nirvanaは、ゲノムバリアント、例えば、単一ヌクレオチドバリアント、マルチヌクレオチドバリアント、挿入、欠失、コピー数バリアントの臨床グレードのアノテーションを提供した。Nirvanaへの入力物は、バリアントコールフォーマット(VCF)であり、出力物は、全てのアノテーションおよび試料情報の構造化JSON提示であった。
【0101】
識別されたバリアントについて、総対立遺伝子カウントを、バリアント対立遺伝子頻度およびカバレッジと共に、ゲノム集約データベース(gnomAD)エクソーム、gnomADゲノムおよび1000ゲノムデータベース中の所与のバリアントについて解析した。これらの総対立遺伝子カウントは、異なる下位集団を横断するデータベース内の観察の総数を示した。各バリアントについて、3つ全てのデータベースにおいて観察された最大対立遺伝子カウントを、ゲノムデータベースと比較したそのより大きい試料サイズを利用しながら、エクソームデータベース中のカバーされなかった領域を考慮に入れるために、取り込んだ。フィルタリング戦略は、潜在的な生殖系列バリアントとして、10よりも大きいまたはそれと等しい最大対立遺伝子カウントを有するバリアントにマークした。所与のバリアントについて、データベースにおける10の対立遺伝子カウントは、それらが全てホモ接合性であった場合には少なくとも5つの試料において、またはそれらが全てヘテロ接合性であった場合には最大10個の試料において、それが観察されたことを意味している。
図2Bは、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。これは、データベースフィルタリングのみが、バリアントを誤って呼び出したことを実証した。
(実施例3)
バリアントの近接フィルタリング
【0102】
配列データを、個体由来の腫瘍試料のみについて得た。バリアントを、配列データにおいて識別した。バリアントに実施例2のデータベースフィルターを適用した。近接フィルターを使用して、データベース中に見出されなかったバリアントをさらにフィルタリングして除いた。
【0103】
近接フィルターは、位置的に密に近接したデータベースフィルタリングされたバリアントの情報を使用した。データベース中に見出されず、0.9よりも低い対立遺伝子頻度を有した所与のバリアントについて、同じ染色体上のバリアントを、フィルタリングされていないバリアントのバリアント対立遺伝子頻度の所与の範囲内で検索した。90%よりも大きい対立遺伝子頻度を有するバリアントは、いずれのさらなる処理もなしに、生殖系列としてマークした。範囲を、所与のバリアントについての支持的証拠が二項プロセスによって生成されると仮定して、0.05および二項分布の2標準偏差の最大値として決定した。例えば、フィルタリングされていないバリアントが、100のカバレッジと共に0.2の対立遺伝子頻度を有した場合、範囲は、0.05と2*sqrt(100*0.2*(1-0.2))/100=0.08との間の最大値であり、それは、0.08であった。これは、両方の方向での0.08の範囲へと変換でき、0.12と0.28との間の対立遺伝子頻度を有する全てのバリアントを、同じ染色体から検索した。引き続いて、固定された閾値を上回る検索されたバリアントの数をチェックし、これを5に設定した。必要とされるバリアントの数に達した時点で、本発明者らは、バリアントの0.95に設定したかなりの割合がデータベースフィルターによってフィルタリングされたかどうかをチェックした。両方の条件を満たした場合に、バリアントを近接フィルターによってマークした。言い換えれば、バリアントが、データベース中に見出された、対立遺伝子頻度空間中の十分な数のバリアントによって取り囲まれた場合、これも生殖系列バリアントとみなした。このフィルターは、およそ50%または100%の期待されたバリアント対立遺伝子頻度を有する正常領域中の、および対立遺伝子頻度分布がシフトし得るコピー数バリアント領域中の、生殖系列バリアントを除去した。
【0104】
図3(左パネル)は、データベースフィルターのみでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントについて第1~7染色体についての染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。
図3(右パネル)は、特定のフィルター決定された体細胞バリアント(黒色の丸)が選択され、いくつかのフィルター決定された生殖系列バリアント(灰色の丸)を包含するバリアントから範囲が引き出された、第7染色体上に位置するバリアントについての拡大図である。選択されたフィルター決定された体細胞バリアント(黒色の丸)が生殖系列バリアントとして呼び出されるべきであるという決定は、選択されたバリアントの対立遺伝子頻度の、ある特定の数のすでに識別された生殖系列バリアントの対立遺伝子頻度への近接に基づいてなされ得る。
【0105】
図4Aは、データベースフィルターのみでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。
図4Bは、データベースフィルターのみおよび近接フィルターでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。
図4Bは、
図4Aにおいて体細胞バリアントとして示されたある特定の推定偽陽性が、
図4Bにおいて生殖系列バリアントとして識別されたことを示している。例えば、約0.4および0.3の対立遺伝子頻度を有する、第7染色体上に位置する識別された体細胞バリアント(
図4A)は、近接フィルターを適用した場合、生殖系列バリアントとして識別された(
図4B)。
(実施例4)
標的化シーケンシングを用いて腫瘍突然変異量を測定する
【0106】
この実施例は、ホルマリン固定パラフィン包埋(FFPE)腫瘍試料中の腫瘍突然変異量(TMB)を測定するための標的化次世代シーケンシングアッセイに関する。
図5は、アッセイのための、例となるワークフローを示す。配列データを、1.33Mbのエクソンサイズを有する1.94Mbのパネルサイズ中の523個の遺伝子について、腫瘍試料から得た。シーケンシングを、固有分子識別子(unique molecular identifier)(UMI)を用い、Illumina NextSeq(商標)500/550プラットフォームを使用して実施した。データ分析を、5%のバリアント対立遺伝子頻度(VAF)においてバリアントを検出するためのパイプラインを使用して実施した。技術的ノイズ除去のために、UMIからの情報、および試料特異的エラープロファイルを利用するバリアント呼び出しアルゴリズムを使用して、異なるFFPE品質の試料にわたる均一なバリアント呼び出しパフォーマンスを確実にした。TMB計算から生殖系列バリアントを正確に除去するために、大規模な公開データベースからの情報を、各バリアントの測定されたカバレッジおよびバリアント対立遺伝子頻度と統合する、上述の実施例のデータベースフィルターおよび近接フィルターと実質的に類似したハイブリッド戦略を使用した。
【0107】
簡潔に述べると、配列データを得、参照とアラインさせ、バリアントを識別した。データベースフィルターおよび近接フィルターを使用して、識別されたバリアントから生殖系列バリアントをフィルタリングし、TMBを、
図6に示されるパイプラインと実質的に類似したワークフローで計算した。合計170対の腫瘍-正常試料を分析して、生殖系列フィルタリングおよびTMBパフォーマンスを評価した(表1)。108試料対のサブセットは、全エクソームシーケンシング(WES)でも分析した。
表1
【表1】
【0108】
技術的ノイズ除去のために、正常FFPE試料のコレクション(N=176)中の偽陽性バリアントの数を評価した。試料品質とは無関係に、試料1つ当たり平均0.63の偽陽性が観察され(R2=0.001)、92.6%の試料が、2以下の偽陽性バリアント(VAF<20%)を含んだ。さらに、5%に近いバリアントを有し、98.7%の感度を達成した、FFPEおよび細胞系混合試料のセットを検査した。
【0109】
生殖系列フィルタリングパフォーマンスを、表1に記載される170の腫瘍/正常試料対を使用して評価した。小さいバリアント(SNV、挿入/欠失)生殖系列バリアントフィルタリングにおいて、試料1つ当たり平均して1.3よりも少ない生殖系列バリアントを残す、99.7%を上回る全体的フィルタリング率に達した。近接フィルタリングの追加は、体細胞突然変異に対する最小限の影響を有する一方で、偽陽性の数を顕著に低減させた。
図7は、データベースのみ(約3生殖系列残留/Mbにグラフのピーク)およびハイブリッド戦略(約0生殖系列残留/Mbにグラフのピーク)によるフィルタリング後の残存する生殖系列バリアントカウントの分布を示す。
【0110】
TMB再現性を、3つの演算子を横断して、4つの細胞系および4つのFFPE試料を含む8つの異なる試料において評価した。各試料の平均および標準偏差(SD)を計算した。表2は、各々12の複製にわたる、4つの細胞系および4つのFFPE試料において評価したTMB再現性を列挙する。
表2
【表2】
【0111】
合わせると、腫瘍のみアッセイによって生成されたTMB測定値は、腫瘍/正常アッセイ対試料から生成された推定値と高度に相関した(R
2=0.993、N=169、TMB<200の試料のみ)。腫瘍のみアッセイのTMB推定値は、全エクソームシーケンシングを通じて得られたTMB値とも、高い相関を示した(R
2=0.931、N=105、WES TMB<100の試料のみ)。
図8Aは、腫瘍のみアッセイと腫瘍/正常アッセイとの間のTMB比較を示す。
図8Bは、腫瘍のみアッセイとWES腫瘍-正常アッセイとの間のTMB比較を示す。
【0112】
最後に、10のTMB閾値を用いて、94.74%の陽性一致率(PPA)および96.08%の陰性一致率(NPA)が実証された。全体的分類一致は、TMB高試料およびTMB低試料の識別において、95.37%であった。表3は、TMB分類パフォーマンスを列挙する。
表3
【表3】
【0113】
上述の結果は、データベースフィルターおよび近接フィルターを用いた腫瘍のみについてのアッセイが、FFPE試料中のTMBをロバストに測定する能力を実証した。さらに、TMB推定値は、高い分類一致で、WESベースの測定値との高レベルの相関を示した。
【0114】
用語「含む(comprising)」は、本明細書で使用される場合、「含む(including)」、「含む(containing)」または「~によって特徴付けられる」と同義であり、包含的またはオープンエンドであり、さらなる未列挙の要素または方法ステップを排除しない。
【0115】
上記記載は、本発明のいくつかの方法および材料を開示している。本発明は、方法および材料における改変、ならびに製造方法および装置における変更を受けることができる。かかる改変は、本開示の検討および本明細書に開示される発明の実施から、当業者に明らかとなる。結果として、本発明が本明細書に開示される特定の実施形態に限定されることは意図しないが、それが本発明の真の範囲および精神内に入る全ての改変および変更をカバーすることを意図する。
【0116】
公開および未公開の出願、特許ならびに文献参照が含まれるがこれらに限定されない、本明細書で引用される全ての参考文献は、それらの全体が参照によって本明細書に組み込まれ、これにより、本明細書の一部を構成する。参照によって組み込まれる刊行物および特許または特許出願が、本明細書中に含まれる開示と矛盾する限り、本明細書が、任意のかかる矛盾する資料に優先され、かつ/またはそれよりも優位であるものとする。
本発明は、例えば、以下の項目を提供する。
(項目1)
複数のバリアントにおける体細胞バリアントを識別するための方法であって、
(a)体細胞バリアントおよび生殖系列バリアントを含む複数のバリアントを得るステップ;
(b)前記複数のバリアントにデータベースフィルターを適用するステップであって、
前記複数のバリアントにおける第1の生殖系列バリアントを決定する工程を含み、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、ステップ;
(c)前記複数のバリアントに近接フィルターを適用するステップであって、
(i)前記複数のバリアントのバリアントを複数のビン中にビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、
(ii)前記複数のバリアントにおけるデータベースバリアントを決定する工程であって、データベースバリアントが、バリアントの第2の参照セット中に存在する、工程、および
(iii)前記複数のバリアントにおける第2の生殖系列バリアントを決定する工程であって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程
を含む、ステップ;ならびに
(d)前記複数のバリアントから識別された第1および第2の生殖系列バリアントを除去することによって、前記複数のバリアントにおける体細胞バリアントを決定するステップ
を含む、方法。
(項目2)
(b)および(c)が連続的に実施される、項目1に記載の方法。
(項目3)
(c)が(b)の前に実施される、項目1に記載の方法。
(項目4)
前記閾値対立遺伝子カウントが5である、項目1から3のいずれか一項に記載の方法。
(項目5)
前記閾値対立遺伝子カウントが10である、項目4に記載の方法。
(項目6)
バリアントの前記第1および第2の参照セットが、同じ参照セットである、項目1から5のいずれか一項に記載の方法。
(項目7)
バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、項目1から6のいずれか一項に記載の方法。
(項目8)
バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、項目1から7のいずれか一項に記載の方法。
(項目9)
ゲノムの前記同じ領域が、同じ染色体内にある、項目1から8のいずれか一項に記載の方法。
(項目10)
ゲノムの前記同じ領域が、同じ染色体腕内にある、項目1から9のいずれか一項に記載の方法。
(項目11)
ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、項目1から10のいずれか一項に記載の方法。
(項目12)
ゲノムの前記同じ領域が、10Mbの領域内にある、項目1から11のいずれか一項に記載の方法。
(項目13)
近接フィルターを適用する前記ステップが、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別する工程をさらに含む、項目1から12のいずれか一項に記載の方法。
(項目14)
近接フィルターを適用する前記ステップが、前記複数のバリアントにおける第2の生殖系列バリアントを識別する工程をさらに含み、前記第2の生殖系列バリアントが、バリアントの前記第2の参照セット中に存在するデータベースバリアントである、項目1から13のいずれか一項に記載の方法。
(項目15)
前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、項目1から14のいずれか一項に記載の方法。
(項目16)
前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、項目1から15のいずれか一項に記載の方法。
(項目17)
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、項目1から16のいずれか一項に記載の方法。
(項目18)
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、項目1から17のいずれか一項に記載の方法。
(項目19)
(a)が、腫瘍細胞を含む生体試料から配列データを得る工程を含む、項目1から18のいずれか一項に記載の方法。
(項目20)
前記配列データを参照配列とアラインさせる工程、および前記配列データ中のバリアントを識別する工程をさらに含む、項目19に記載の方法。
(項目21)
腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、項目19または20に記載の方法。
(項目22)
前記腫瘍試料が固定される、項目21に記載の方法。
(項目23)
腫瘍の腫瘍突然変異量を決定する方法であって、
腫瘍細胞を含む生体試料から配列データを得るステップ;
前記配列データから複数のバリアントを決定するステップ;および
項目1から22のいずれか一項に記載の方法に従って、複数のバリアントにおける体細胞バリアントの数を決定するステップであって、体細胞バリアントの前記数が、前記腫瘍の前記腫瘍突然変異量である、ステップ
を含む、方法。
(項目24)
腫瘍を処置する方法であって、
項目23に記載の方法に従って、10体細胞バリアントよりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ、
有効量のチェックポイント阻害剤を投与することによって、前記腫瘍を処置するステップ
を含む、方法。
(項目25)
前記腫瘍が、結腸直腸腫瘍、肺腫瘍、子宮内膜腫瘍、子宮腫瘍、胃腫瘍、黒色腫、乳房腫瘍、膵腫瘍、腎臓腫瘍、膀胱腫瘍および脳腫瘍からなる群から選択される、項目24に記載の方法。
(項目26)
前記チェックポイント阻害剤が、CTLA-4阻害剤、PD-1阻害剤およびPD-L1阻害剤からなる群から選択される、項目24または25に記載の方法。
(項目27)
前記チェックポイント阻害剤が、イピリムマブ、ニボルマブ、ペムブロリズマブ、スパルタリズマブ、アテゾリズマブ、アベルマブおよびデュルバルマブからなる群から選択される、項目24から26のいずれか一項に記載の方法。
(項目28)
遺伝的変異データを分析するための電子システムであって、
プロセッサー上で実行される、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを識別するように適合されたインフォマティクスモジュールであって、前記複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、インフォマティクスモジュール;
前記複数のバリアントから第1の生殖系列バリアントを除去するように適合されたデータベースフィルターモジュールであって、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、データベースフィルターモジュール;
前記複数のバリアントから第2の生殖系列バリアントを除去するように適合された近接フィルターモジュールであって、前記近接フィルターモジュールが、
複数のビンを返すように適合されたビニングサブモジュールであって、各ビンが、ゲノムの同じ領域中に位置する前記複数のバリアントのバリアントを含む、ビニングサブモジュール、
前記複数のバリアントにおけるデータベースバリアントを返すように適合された識別サブモジュールであって、データベースバリアントが、バリアントの第2の参照セット中に存在する、識別サブモジュール、および
前記複数のバリアントから第2の生殖系列バリアントを除去するように適合された除去サブモジュールであって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、除去サブモジュール
を含む、近接フィルターモジュール;ならびに
前記複数のバリアントから除去されなかったバリアントを返すように適合されたディスプレイモジュール
を含む、電子システム。
(項目29)
インフォマティクスモジュールが、バリアントアノテーションツールを含む、項目28に記載のシステム。
(項目30)
前記閾値対立遺伝子カウントが5である、項目28または29に記載のシステム。
(項目31)
前記閾値対立遺伝子カウントが10である、項目30に記載のシステム。
(項目32)
バリアントの前記第1および第2の参照セットが、同じ参照セットである、項目28から31のいずれか一項に記載のシステム。
(項目33)
バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、項目28から32のいずれか一項に記載のシステム。
(項目34)
バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、項目28から33のいずれか一項に記載のシステム。
(項目35)
ゲノムの前記同じ領域が、同じ染色体内にある、項目28から34のいずれか一項に記載のシステム。
(項目36)
ゲノムの前記同じ領域が、同じ染色体腕内にある、項目28から35のいずれか一項に記載のシステム。
(項目37)
ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、項目28から36のいずれか一項に記載のシステム。
(項目38)
ゲノムの前記同じ領域が、10Mbの領域内にある、項目28から37のいずれか一項に記載のシステム。
(項目39)
前記除去サブモジュールが、前記複数のバリアントから、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントを除去するように適合される、項目28から38のいずれか一項に記載のシステム。
(項目40)
前記除去サブモジュールが、前記複数のバリアントから、バリアントの前記第2の参照セット中に存在するデータベースバリアントを除去するように適合される、項目28から39のいずれか一項に記載のシステム。
(項目41)
前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、項目28から40のいずれか一項に記載のシステム。
(項目42)
前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、項目28から41のいずれか一項に記載のシステム。
(項目43)
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、項目28から42のいずれか一項に記載のシステム。
(項目44)
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、項目28から43のいずれか一項に記載のシステム。
(項目45)
腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、項目28から44のいずれか一項に記載のシステム。
(項目46)
前記腫瘍試料が固定される、項目45に記載のシステム。
(項目47)
複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、項目1から22のいずれか一項に記載の方法を実施するステップを含む、方法。
(項目48)
複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、
(a)腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを受け取るステップであって、前記複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、ステップ;
(b)前記複数のバリアントにデータベースフィルターを適用するステップであって、
前記複数のバリアントについてドキュメントのインデックスを作成する工程、
前記インデックスを用いてバリアントの第1の参照セットを検索して、前記インデックスにおける第1の生殖系列バリアントを識別する工程であって、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの前記第1の参照セットにおける対立遺伝子カウントを有する、工程、および
前記インデックスから識別された第1の生殖系列バリアントを除去して、第1のフィルタリングされたバリアントのインデックスを作成する工程
を含む、ステップ;
(c)第1のフィルタリングされたバリアントの前記インデックスに近接フィルターを適用するステップであって、
(i)ゲノムの異なる領域について複数のビンを作成する工程、
(ii)第1のフィルタリングされたバリアントの前記インデックスのバリアントをビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、
(iii)第1のフィルタリングされたバリアントの前記インデックスを用いてバリアントの第2の参照セットを検索して、第1のフィルタリングされたバリアントの前記インデックスにおけるデータベースバリアントを識別する工程、
(iv)第2の生殖系列バリアントを識別することによって、第1のフィルタリングされたバリアントの前記インデックスから第2の生殖系列バリアントのインデックスを生成する工程であって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程、および
(v)第1のフィルタリングされたバリアントの前記インデックスから識別された第2の生殖系列バリアントを除去して、体細胞バリアントのインデックスを作成し、それによって、前記複数のバリアントにおける体細胞バリアントを識別する工程
を含む、ステップ
を含む、方法。
(項目49)
前記閾値対立遺伝子カウントが5である、項目48に記載の方法。
(項目50)
前記閾値対立遺伝子カウントが10である、項目49に記載の方法。
(項目51)
バリアントの前記第1および第2の参照セットが、同じ参照セットである、項目48から50のいずれか一項に記載の方法。
(項目52)
バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、項目48から51のいずれか一項に記載の方法。
(項目53)
バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、項目48から52のいずれか一項に記載の方法。
(項目54)
ゲノムの前記同じ領域が、同じ染色体内にある、項目48から53のいずれか一項に記載の方法。
(項目55)
ゲノムの前記同じ領域が、同じ染色体腕内にある、項目48から54のいずれか一項に記載の方法。
(項目56)
ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、項目48から55のいずれか一項に記載の方法。
(項目57)
ゲノムの前記同じ領域が、10Mbの領域内にある、項目48から56のいずれか一項に記載の方法。
(項目58)
第2のフィルタリングされたバリアントのインデックスを生成する前記工程が、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別することをさらに含む、項目48から57のいずれか一項に記載の方法。
(項目59)
第2のフィルタリングされたバリアントのインデックスを生成する前記工程が、前記複数のバリアントにおける第2の生殖系列バリアントを識別することをさらに含み、前記第2の生殖系列バリアントが、バリアントの前記第2の参照セット中に存在するデータベースバリアントである、項目48から58のいずれか一項に記載の方法。
(項目60)
前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、項目48から59のいずれか一項に記載の方法。
(項目61)
前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、項目48から60のいずれか一項に記載の方法。
(項目62)
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、項目48から61のいずれか一項に記載の方法。
(項目63)
前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、項目48から62のいずれか一項に記載の方法。
(項目64)
腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、項目48から62のいずれか一項に記載の方法。
(項目65)
前記腫瘍試料が固定される、項目64に記載の方法。