IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グレイル エルエルシーの特許一覧

特表2023-520889ゲノム領域モデリングによるがん分類
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-22
(54)【発明の名称】ゲノム領域モデリングによるがん分類
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20230515BHJP
   C12M 1/34 20060101ALI20230515BHJP
   G16B 40/20 20190101ALI20230515BHJP
【FI】
C12Q1/6869 Z
C12M1/34 Z
G16B40/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022560060
(86)(22)【出願日】2021-03-29
(85)【翻訳文提出日】2022-11-29
(86)【国際出願番号】 US2021024731
(87)【国際公開番号】W WO2021202423
(87)【国際公開日】2021-10-07
(31)【優先権主張番号】63/144,380
(32)【優先日】2021-02-01
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/003,087
(32)【優先日】2020-03-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル エルエルシー
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100226263
【弁理士】
【氏名又は名称】中田 未来生
(72)【発明者】
【氏名】サミュエル エス グロス
(72)【発明者】
【氏名】ジョシュア ニューマン
(72)【発明者】
【氏名】バージル ニクラ
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB11
4B063QA13
4B063QA17
4B063QA19
4B063QQ08
4B063QQ42
4B063QR32
4B063QR35
4B063QR77
4B063QX01
(57)【要約】
がんを検出し、及び/又はがん発生組織を判定するための方法及びシステムが開示される。フラグメントはゲノム領域にグループ化され、領域モデルを各ゲノム領域について訓練する。フラグメントは領域モデルに入力され、かつその出力はがん分類のための特徴ベクトルを生成するために使用される。一実施態様では、領域モデルは、フラグメントががん生体サンプルに由来する可能性を示すスコアを生成するように構成された浅いニューラルネットワークである。特徴ベクトルは、様々なゲノム領域に対して閾値を上回るスコアを有するフラグメントのカウントに基づいて決定される。別の実施態様では、領域モデルは、フラグメントの入力メチル化埋め込みに対して領域埋め込みを生成するように構成される。領域埋め込みは、領域ごとにプールされ、かつその後、特徴ベクトルを生成するために再びプールされる。
【選択図】図3
【特許請求の範囲】
【請求項1】
がんを検出するための方法であって、該方法は:
複数のcfDNAフラグメントを含む生体サンプルのシークエンシングデータを受信するステップであって、各cfDNAフラグメントは、複数のゲノム領域のうちの少なくとも1つのゲノム領域と重なる、ステップと;
前記生体サンプルの各cfDNAフラグメントに対して、前記cfDNAフラグメントが重なる前記ゲノム領域に対する第1のスコアを決定するステップであって、ゲノム領域に対する前記第1のスコアは、前記cfDNAフラグメントを前記ゲノム領域について訓練されたニューラルネットワークに入力することによって決定され、前記ニューラルネットワークは、前記cfDNAフラグメントががん生体サンプルに由来する尤度の代表値を前記第1のスコアに生成するように構成される、ステップと;
前記生体サンプルに対する特徴ベクトルを生成するステップであって、前記特徴ベクトルの各特徴は、前記複数のゲノム領域の一つのゲノム領域に対応し、かつ閾値スコアを上回る前記ゲノム領域のスコアを有する前記cfDNAフラグメントのカウントに従って生成される、ステップと;
前記特徴ベクトルを訓練されたモデルに入力し、前記生体サンプルに対するがん予測を生成するステップと;
を備える、方法。
【請求項2】
請求項1に記載の方法であって、各ニューラルネットワークは、1つの隠れ層を備える、方法。
【請求項3】
請求項2記載の方法であって、各ニューラルネットワーク中の前記隠れ層は、8ノード、9ノード、10ノード、11ノード、12ノード、16ノード、20ノード、24ノード、28ノード、及び32ノードのうちの1つだけを備える、方法。
【請求項4】
請求項1に記載の方法であって、各ニューラルネットワークは、2つの隠れ層を備える、方法。
【請求項5】
請求項1に記載の方法であって、第1のゲノム領域が第1の数のCpG部位を含み、かつ前記複数のゲノム領域中の第2のゲノム領域が前記第1の数のCpG部位と異なる第2の数のCpG部位を含む、方法。
【請求項6】
請求項1に記載の方法であって、各ニューラルネットワークを、がん生体サンプル及び非がん生体サンプルに由来する複数のトレーニングcfDNAフラグメントを用いて訓練する、方法。
【請求項7】
請求項1に記載の方法であって、各ニューラルネットワークは、cfDNAフラグメントが第1のがんタイプの生体サンプルに由来する尤度に対応する前記第1のスコアと、前記cfDNAフラグメントが前記第1のがんタイプとは異なる第2のがんタイプの生体サンプルに由来する尤度に対応する第2のスコアと、を出力する、方法。
【請求項8】
請求項1に記載の方法であって、前記特徴ベクトルの各特徴を、前記閾値スコアを上回る前記ゲノム領域に対するスコアを有するcfDNAフラグメントの前記カウントの正規化に従って生成する、方法。
【請求項9】
請求項1に記載の方法であって、各cfDNAフラグメントは異常なフラグメントであり、前記方法は、
異常なフラグメントのセットを生成するために、p値フィルタリングによるcfDNAフラグメントの初期セットをフィルタリングするステップであって、前記フィルタリングするステップは、他のフラグメントに関して閾値を下回るp値を有するフラグメントを前記初期セットから除去して異常なフラグメントの前記セットを生成することを備える、ステップを更に備える、方法。
【請求項10】
請求項1記載の方法であって、前記訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである、方法。
【請求項11】
システムであって、該システムは:
コンピュータプロセッサと;
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項1~10のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と;
を備える、システム。
【請求項12】
がんを検出するための方法であって、該方法は:
複数のcfDNAフラグメントを含む生体サンプルのシークエンシングデータを受信するステップであって、各cfDNAフラグメントは、複数のゲノム領域のうちの少なくとも1つのゲノム領域に重なる、ステップと;
前記生体サンプルの各cfDNAフラグメントに対して、前記cfDNAフラグメントを訓練された埋め込みモデルに入力することによってメチル化埋め込みを生成するステップであって、前記訓練された埋め込みモデルは、入力cfDNAフラグメントに基づいてメチル化埋め込みを生成するよう構成される、ステップと;
前記生体サンプルの各cfDNAフラグメントに対して、前記cfDNAフラグメントが重なる前記ゲノム領域に対する領域埋め込みを生成するステップであって、ゲノム領域に対する前記領域埋め込みは、前記cfDNAフラグメントの前記メチル化埋め込みを、前記ゲノム領域について訓練された領域モデルに入力することによって決定し、前記領域モデルは、入力したメチル化埋め込みに基づいて領域埋め込みを生成するように構成される、ステップと;
各ゲノム領域に対して、前記ゲノム領域に重なる1つ以上のcfDNAフラグメントの1つ以上の領域埋め込みをプールすることによって、集約領域ベクトルを決定するステップと;
前記ゲノム領域の前記集約領域ベクトルをプールすることによって、特徴ベクトルを決定するステップと;
前記特徴ベクトルを分類モデルに入力し、前記生体サンプルについてのがん予測を生成するステップと;
を備える、方法。
【請求項13】
請求項12に記載の方法であって、少なくとも4,000のゲノム領域があり、かつ各ゲノム領域が100以下のCpG部位を有する、方法。
【請求項14】
請求項12に記載の方法であって、各cfDNAフラグメントは異常なフラグメントであり、前記方法は、
異常なフラグメントのセットを生成するために、p値フィルタリングによるcfDNAフラグメントの初期セットのフィルタリングをするステップであって、前記フィルタリングするステップは、他のフラグメントに関して閾値を下回るp値を有するフラグメントを初期セットから除去して異常なフラグメントの前記セットを作成することを備える、ステップを更に備える、方法。
【請求項15】
請求項12に記載の方法であって、前記ゲノム領域に重なる前記1つ以上のcfDNAフラグメントの前記1つ以上の領域埋め込みをプールするステップは、最大プール操作及び平均プール操作のうちの1つを行うステップを備える、方法。
【請求項16】
請求項12に記載の方法であって、前記ゲノム領域の前記集約領域ベクトルをプールするステップは、最大プール操作及び平均プール操作のうちの1つを行うステップを備える、方法。
【請求項17】
請求項12に記載の方法であって、前記訓練された埋め込みモデル、前記複数の領域モデル、及び前記分類モデルは、同時に訓練する、方法。
【請求項18】
請求項12に記載の方法であって、前記訓練された分類モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである、方法。
【請求項19】
請求項12に記載の方法であって、前記がん予測は、がんと非がんとの間の二値予測である、方法。
【請求項20】
請求項12に記載の方法であって、前記がん予測は、複数のがんタイプ間のマルチクラスがん予測である、方法。
【請求項21】
システムであって、該システムは:
コンピュータプロセッサと;
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項12~20のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と;
を備える、システム。
【請求項22】
対象のがん状態を判定するための複数の特徴を得るための方法であって、該方法が:
少なくとも1つのプロセッサ、及び前記少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリ、を備えるコンピュータシステムによって実行されるものであり、前記少なくとも1つのプログラムが:
A)複数のゲノムデータセットを取得するステップであって、該複数のゲノムデータセット中の各それぞれのゲノムデータセットは、複数の訓練対象中のそれぞれの訓練対象についてのものであり、前記それぞれのゲノムデータセットは、電子フォームで、(i)前記それぞれの訓練対象の前記がん状態に対応するラベル、及び(ii)対応する複数の核酸メチル化フラグメントであり、前記対応する複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、前記それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ前記対応する複数の核酸メチル化フラグメントは、前記それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される、対応する複数の核酸メチル化フラグメント、を備える、ステップと、
B)複数のゲノム領域中の各それぞれのゲノム領域に対して、かつ前記複数の訓練対象の各訓練対象からの前記複数のゲノムデータセットに基づいて、複数の訓練されていないニューラルネットワーク中の対応する訓練されていないニューラルネットワークを訓練し、それによって複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークを取得するステップと、
C)前記複数のゲノム領域中の各それぞれのゲノム領域に対して、特徴同定を行い、それによって、複数の特徴を取得するステップと、
を行うための命令を備える、方法。
【請求項23】
対象のがん状態を判定するための方法であって、該方法が:
少なくとも1つのプロセッサ、及び前記少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリ、を備えるコンピュータシステムによって実行されるものであり、前記少なくとも1つのプログラムが:
A)電子フォームで、複数の核酸メチル化フラグメントを得るステップであって、前記複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、前記それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ前記複数の核酸メチル化フラグメントは、前記対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される、ステップと;
B)複数のゲノム領域中の各それぞれのゲノム領域に対して、特徴同定を行うステップであって、前記ステップは、前記それぞれのゲノム領域に対応する複数の訓練されたニューラルネットワーク中の訓練されたニューラルネットワークを使用し、前記がん状態に対する前記それぞれのゲノム領域にマッピングされる前記複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化することによって、前記対象についての前記ゲノム領域のそれぞれの特徴を取得し、それによって、複数の特徴を得ることによって行われ、前記複数の特徴中の各それぞれの特徴は、前記複数のゲノム領域中の対応するゲノム領域に対するものである、ステップと;
C)前記複数の特徴を下流の教師付きモデルに入力することに応じて、前記下流の教師付きモデルの出力として、前記テスト対象が前記がん状態を有するか否かに関して判定を得るステップと;
を行うための命令を備える、方法。
【発明の詳細な説明】
【背景技術】
【0001】
デオキシリボ核酸(DNA)メチル化は、遺伝子発現の調節における重要な役割を果たす。DNAメチル化の変型は、がんを含む多くの疾患プロセスに関与しているとされる。メチル化シークエンシング(例えば、全ゲノムバイサルファイトシークエンシング(WGBS))を使用するDNAメチル化プロファイリングは、がんの検出、診断、及び/又はモニタリングのための貴重な診断ツールとしてますます認識されつつある。例えば、異なるメチル化領域の特定のパターン及び/又は対立遺伝子特異的メチル化パターンは、循環無細胞(cf)DNAを使用する非侵襲的診断のための分子マーカーとして有用である場合がある。しかしながら、がんなどのような疾患の検出、診断、及び/又はモニタリングのために無細胞DNAからのメチル化シークエンシングデータを分析するための改善された方法に対する必要性が当技術分野において残っている。
【0002】
本開示は、これらの上記課題の1つ以上に対処することに向けられている。本明細書で提供される背景の説明は、本開示の文脈を一般的に提示することを目的とするものである。本明細書に特に示されない限り、このセクションに記載された資料は、本願の請求項に対する先行技術ではなく、かつこのセクションに含めることによって、先行技術であること、又は先行技術の示唆であることを認めるものでもない。
【発明の概要】
【0003】
被験者の疾患状態(がんなどのような)の早期発見は、早期治療を可能にし、かつそれ故に生存の可能性を高めることができるため重要である。無細胞(cf)DNAサンプル中のDNAフラグメントのシークエンシングは、疾患の分類に使用できる特徴を同定するために使用することができる。例えば、がんの査定において、血液サンプルからの無細胞DNAに基づく特徴(体細胞変異、メチル化状態、又は他の遺伝子異常の有無などのような)は、被験者ががんに罹っているかもしれないという洞察、そしてさらに被験者がどんながんのタイプを有しているかもしれない、かつがんはどのステージまで進行しているかもしれないという洞察を提供することができる。その目的に向けて、本明細書は、被験者が疾患を有する可能性を判定するための無細胞DNAシークエンシングデータを分析するシステム及び方法を含む。本明細書は、被験者のがん状態を判定するための特徴を得るシステム及び方法を提供することによって、背景技術において特定された欠点に対処することができる。
【0004】
分析システムは、複数のサンプル(例えば、複数のがん及び非がんサンプル)からの多数のシークエンシングデータを処理して、引き続きがん分類のために利用される特徴を特定することができる。シークエンシングデータを用いて、分析システムは、テストサンプルに対するがん予測を生成するためのがん分類器を訓練させ、かつ展開することができる。がん分類器は、機械学習アルゴリズムで訓練された機械学習モデルであってもよい。
【0005】
分析システムは、サンプルの特徴づけ内に各ゲノム領域のモデル化を実装することができる。一般に、がん分類プロセスは、複数の領域モデル、特徴化モジュール、及びがん分類器を実装することができる。また、メチル化埋め込みモデルも実装され、かつメチル化埋め込みを生成するためにcfDNAフラグメントに適用されてもよい。各領域モデルは、cfDNAフラグメントに適用され、cfDNAフラグメントががん生物サンプルに由来する尤度を示すがんスコアを作成することができる。代替的又は追加的に、各領域モデルをcfDNAフラグメント(又はそのメチル化埋め込み)に適用して、領域埋め込みを作成してもよい。特徴化モジュールは、領域モデルの出力に適用され、かつサンプルの特徴ベクトルを生成することができる。領域モデル出力ががんスコアである実施態様において、特徴化モジュールは、ゲノム領域に対して決定された閾値スコアを超える各ゲノム領域中のフラグメントをカウントすることによって特徴を作成してもよい。領域モデル出力が領域埋め込みである実施態様において、特徴化モジュールは、領域埋め込みをプールして特徴ベクトルを生成してもよい。プーリングは、各ゲノム領域の集約領域ベクトルを生成するために領域埋め込みをプールする第1のプーリングステップ、及びゲノム領域の集約領域ベクトルを特徴ベクトルにプールする第2のプーリングステップの2つのプーリングステップを含んでもよい。
【0006】
メチル化埋め込みモデル、領域モデル、特徴化モジュール、及びがん分類器は、機械学習モデルであってもよい。このように、分析システムは、がん分類プロセスの各構成要素を訓練する機械学習アルゴリズムを実装してもよい。例えば、メチル化埋め込みモデル、領域モデル、特徴化モジュール、及びがん分類器は、ニューラルネットワーク、決定木、ランダムフォレスト、回帰、他の機械学習アルゴリズム等とすることができる。
【0007】
分析システムは、トレーニングサンプルを用いて、がん分類プロセスの構成要素を訓練することができる。トレーニングサンプルは、がん又は非がんの既知のラベルを有してもよい。追加的に、がんを有するトレーニングサンプルは、特定のがんの種類のラベルを有していてもよい。分析システムは、構成要素と独立して又は同時に訓練してもよい。
【0008】
展開中、分析システムは、テストサンプルに対する特徴ベクトルを生成することができる。その後、分析システムは、テストサンプルに対する特徴ベクトルをがん分類器に入力し、がん予測を返す。がん予測は、がんを有する可能性を例とする、がんと非がんとの間の二値予測であってもよい。がん予測は、分類された各がんタイプに対する予測値を例とする、複数のがんタイプ間のマルチクラス予測であってもよい。
【図面の簡単な説明】
【0009】
図1A】1つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞(cf)DNAのフラグメントをシークエンシングするプロセスを説明する例示的なフローチャートである。
図1B】1つ以上の実施は、態様による、メチル化状態ベクトルを得るために無細胞(cf)DNAのフラグメントをシークエンシングする図1Aのプロセスを示す図である。
図2A】1つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。
図2B】1つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。
図3】1つ以上の実施態様による、がん分類プロセスの例示的なフローチャートである。
図4図4Aは、1つ以上の実施態様による、ゲノム領域モデルを独立して訓練するプロセスを説明する例示的なフローチャートである。図4Bは、1つ以上の実施態様による、ゲノム領域モデルを展開するプロセスを説明する例示的なフローチャートである。
図5】1つ以上の実施態様による、第1のアーキテクチャに従ったテストサンプルのがん分類を図示する例示的なフローチャートである。
図6】1つ以上の実施態様による、図5に示されるがん分類のプロセスを説明する例示的なフローチャートである。
図7】1つ以上の実施態様による、第2のアーキテクチャに従ったテストサンプルのがん分類を図示する例示的なフローチャートである。
図8】1つ以上の実施態様による、図7に示されるがん分類のプロセスを説明する例示的なフローチャートである。
図9図9Aは、1つ以上の実施態様による、核酸サンプルをシークエンシングするためのデバイスの例示的なフローチャートである。図9Bは、1つ以上の実施態様による、分析システムの例示的なブロック図である。
図10】例示的な実施態様での、領域モデルの訓練中に使用される各ゲノム領域中の核酸フラグメントの数を示す図である。
図11】例示的な実施態様による、30,000を超えるDNAフラグメントを用いて訓練された各ニューラルネットワークの、様々なサイズ及び様々な特異度閾値におけるニューラルネットワークの性能を示す図である。
図12】例示的な実施態様による、10,000を超えるDNAフラグメントを用いて訓練された各ニューラルネットワークの、様々なサイズ及び様々な特異度閾値におけるニューラルネットワークの性能を示す図である。
図13】例示的な実施態様による、プールされたエンドツーエンドの訓練を実施するがん分類プロセスの性能を示す図である。
図14A】例示的な実施態様による、がんの様々なステージにおける、プールされたエンドツーエンドの訓練を実施するがん分類の性能を示す図である。
図14B】例示的な実施態様による、がんの様々なステージにおける、プールされたエンドツーエンドの訓練を実施するがん分類の性能を示す図である。
【0010】
添付図面は、例示のみを目的とした様々な実施態様を描いている。当業者は、以下の論議から、本明細書に説明される原理から逸脱することなく、本明細書に図示される構造及び方法の代替の実施態様が採用できることを容易に認識するであろう。
【発明を実施するための形態】
【0011】
I.概要
【0012】
I.A.メチル化の大要
【0013】
本明細書に従って、個体からのcfDNAフラグメントを、例えば非メチル化シトシンをウラシルに変換することにより処理し、シークエンシングし、かつシークエンスリードを参照ゲノムと比較して、DNAフラグメント内の特定のCpG部位におけるメチル化状態を同定する。各CpG部位は、メチル化されている場合、又はメチル化されていない場合がある。健康な個体と比較して、異常なメチル化フラグメントを同定することは、対象のがんの状態に対する識見を提供し得る。DNAメチル化異常は(健康な対照と比較して)異なる影響を引き起こし、それががんの一因となる場合がある。様々な課題が、異常なメチル化cfDNAフラグメントの同定に生じる。まず、DNAフラグメントが異常にメチル化されていると判定することは、対照個体のグループとの比較において重みを持つことができるが、対照グループの数が少ない場合などでは、対照グループの小さいサイズ内での統計的変動により、判定が信頼性を失う。そのうえ、対照個体の中でもメチル化の状態は様々であり、対象のDNAフラグメントが異常にメチル化されていると判定するときに、それを考慮することは困難である場合がある。もう一つ、あるCpG部位のシトシンのメチル化は、その後に続くCpG部位のメチル化に因果関係を持つ場合がある。この依存関係を封じ込めることは、それ自体、別の課題になり得る。
【0014】
メチル化は、デオキシリボ核酸(DNA)において、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成するときに典型的に起こり得る。とりわけ、メチル化は、本明細書で「CpG部位」と呼ばれるシトシン及びグアニンのジヌクレオチドにおいて起こり得る。他の事例では、メチル化は、CpG部位の一部ではないシトシン、又はシトシンではない別のヌクレオチドで起こり得るが、しかしながら、これらは稀にしか発生しない。本開示では、メチル化は、明確化のために、CpG部位に関連して論じられる。異常なDNAメチル化は、ハイパーメチル化又はハイポメチル化として同定することができ、その両方が、がん状態を示すことがある。本開示を通じて、DNAフラグメントが、閾値より多くの数のCpG部位を備え、それらのCpG部位の閾値より多くのパーセンテージがメチル化又は非メチル化である場合、ハイパーメチル化及びハイポメチル化は、DNAフラグメントに対して特徴付けられることができる。
【0015】
本明細書に説明される原理は、非シトシンメチル化を含む非CpGコンテキストにおけるメチル化の検出にも同様に適用可能である。そのような実施態様では、メチル化を検出するために使用される湿式実験室アッセイは、本明細書に説明されるものと異なる場合がある。さらに、本明細書で論じられるメチル化状態ベクトルは、一般にメチル化が起こった部位又は起こっていない部位である要素(それらの部位が特にCpG部位でないとしても)を包含することができる。その置換を用いて、本明細書に説明されるプロセスの残りは同じであり得、かつその結果、本明細書に説明される発明概念は、それらの他の形態のメチル化にも適用可能にすることができる。
【0016】
I.B.定義
【0017】
「無細胞核酸」又は「cfNA」という用語は、個体の体内(例えば、血液)を循環し、かつ1つ以上の健康な細胞及び/又は1つ以上の不健康な細胞(例えば、がん細胞)から発生する核酸フラグメントを指す。「無細胞DNA」又は「cfDNA」という用語は、個体の体内(例えば、血液)を循環するデオキシリボ核酸フラグメントを指す。そのうえ、個体の体内のcfNA又はcfDNAは、他の非ヒトの供給源からくる場合もある。
【0018】
「ゲノム核酸」、「ゲノムDNA」、又は「gDNA」という用語は、1つ以上の細胞から得られた核酸分子又はデオキシリボ核酸分子を指す。様々な実施態様において、gDNAは、健康な細胞(例えば、非腫瘍細胞)又は腫瘍細胞(例えば、生検サンプル)から抽出することができる。いくつかの実施態様において、gDNAは、白血球などのような血球系に由来する細胞から抽出することができる。「循環腫瘍DNA」又は「ctDNA」という用語は、腫瘍細胞又は他のタイプのがん細胞に由来する核酸フラグメントであって、かつ瀕死細胞のアポトーシス又は壊死などのような生物学的プロセスの結果として、若しくは生存腫瘍細胞によって活発に放出され得る個体の体液(例えば、血液、汗、尿又は唾液)中に放出される核酸フラグメントを指す。「DNAフラグメント」、「フラグメント」、又は「DNA分子」という用語は、一般に、任意のデオキシリボ核酸フラグメント、すなわち、cfDNA、gDNA、ctDNAなどを指す場合がある。
【0019】
「異常なフラグメント」、「異常なメチル化フラグメント」、又は「異常なメチル化パターンを有するフラグメント」という用語は、CpG部位の異常なメチル化を有するフラグメントを指す。フラグメントの異常なメチル化は、対照グループ中のフラグメントのメチル化パターンを観察することの意外性を同定するために、確率モデルを使用して判定する場合がある。
【0020】
「極端にメチル化された普通ではないフラグメント」又は「UFXM」という用語は、ハイポメチル化フラグメント又はハイパーメチル化フラグメントを意味する。ハイポメチル化フラグメント及びハイパーメチル化フラグメントは、それぞれ、メチル化又は非メチル化のある閾値割合(例えば、90%)を超えた少なくともある数のCpG部位(例えば、5)を有するフラグメントを意味する。
【0021】
本明細書で使用される場合、「約」又は「ほぼ」という用語は、当業者によって決定されるような特定の値に対する許容誤差範囲内を意味し得、これは、値が測定又は決定される方法、例えば、測定システムの限界に部分的に依存し得る。例えば、「約」は、当業者の慣例により、1標準偏差以上を意味し得る。「約」は、所与の値の±20%、±10%、±5%、又は±1%の範囲を意味し得る。「約」又は「ほぼ」という用語は、ある値の1桁以内、5倍以内、又は2倍以内を意味し得る。特定の値が本願及び特許請求の範囲に記載されているところは、特に断りのない限り、特定の値の許容誤差範囲内を意味する「約」という用語が想定されるべきである。「約」という用語は、当業者によって一般的に理解されるような意味を有し得る。「約」という用語は、±10%を指し得る。「約」という用語は、±5%を指し得る。
【0022】
本明細書で使用される場合、用語「生体サンプル」、「患者サンプル」、又は「サンプル」は、対象から採取された任意のサンプルを指し、対象に紐づく生体状態を反映し得、かつ無細胞DNAを含むものを指す。生体サンプルの例としては、対象の血液、全血液、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液を含むが、これらに限定されるものではない。生体サンプルは、生きている又は死んだ対象から抽出した任意の組織又は材料を含み得る。生体サンプルは、無細胞サンプルであり得る。生体サンプルは、核酸(例えば、DNA又はRNA)若しくはそのフラグメントを備え得る。「核酸」という用語は、デオキシリボ核酸(DNA)、リボ核酸(RNA)、又はそれらのハイブリッド若しくはフラグメントを指し得る。サンプル中の核酸は、無細胞核酸であり得る。サンプルは、液体サンプル又は固体サンプル(例えば、細胞又は組織サンプル)であり得る。生体サンプルは、血液、血漿、血清、尿、膣液、(例えば、精巣の)水腫からの液体、膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の異なる部分(例えば、甲状腺、乳房)からの吸引液などのような体液であり得る。生体サンプルは、便サンプルであり得る。様々な実施態様において、無細胞DNAについて濃縮された生体サンプル(例えば、遠心分離プロトコルを介して得られた血漿サンプル)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%、60%、70%、80%、90%、95%、又は99%より大きいものは、細胞を含まないものであり得る)。生体サンプルは、組織又は細胞構造を物理的に破壊するように処理することができ(例えば、遠心分離及び/又は細胞溶解)、このようにして、細胞内成分を、分析用のサンプルを調製するために使用できる酵素、緩衝液、塩、界面活性剤などを更に含むことができる溶液中に放出する。
【0023】
本明細書で使用する場合、「がん」又は「腫瘍」という用語は、組織の異常な塊で、その塊の成長が正常な組織の成長を上回り、かつ調和できないものを指す。がん又は腫瘍は、形態及び機能性を含む細胞分化の程度、成長速度、局所浸潤及び転移といった特徴に応じて、「良性」又は「悪性」と定義し得る。「良性」腫瘍は、高分化型であり得、悪性腫瘍より成長が遅く、かつ発生部位に限局している特徴性を有する。そのうえ、良性腫瘍は遠隔部位への浸潤、浸食、又は転移の能力がない場合もある。「悪性」腫瘍は、低分化型(未分化型)であり得、周囲組織への浸潤、浸食、又は破壊を進行させることによって急速に増殖する特徴性を有する。さらに、悪性腫瘍は、離れた部位に転移する能力を有し得る。
【0024】
本明細書で使用する場合、「がん状況」という用語は、がんに関するサンプルの状況を指し、状態の各潜在的特性及び/又は測定値は、がん状況の「状態(State)」を指す。例えば、サンプルは、「がん」又は「非がん」であるがん状況を有し得る。あるいは、がん状況は、乳がん、肺がん、前立腺がん、大腸がん、腎がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭頸部がん、卵巣がん、肝胆膵がん、メラノーマ、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん及び胃がんなどのような初期の発生部位又は発生組織であっても良い。がん状況は、がんタイプ、特定のがんタイプの腫瘍、又はその断片であり得る。がん状況はまた、所定の期間の生存の所定の尤度とすることができる生存メトリックであり得る。単一の対象からの多数のサンプルは、異なるがん状況又は同じがん状況を有し得る。多数の対象は、異なるがん状況又は同じがん状況を有し得る。
【0025】
本明細書において、循環無細胞ゲノムアトラス又は「CCGA」は、新たにがんと診断された患者の血液及び組織、並びにがんの診断を受けていない対象から血液のみを前向きに収集する観察型臨床研究として定義される。この研究の目的は、がんと非がんを区別し、かつ発生組織を特定する汎がん分類法を開発することである。実施例1では、CCGAデータセットの更なる詳細を提供する。
【0026】
本明細書で使用する場合、「偽陽性」(FP)という用語は、状況を有していない対象を指す。偽陽性は、腫瘍、がん、前がん状況(例えば、前がん病変)、限局性又は転移性がん、非悪性疾患を有さない、若しくはその他の健康である対象を指し得る。「偽陽性」という用語は、状況を有していないが、本開示のアッセイ又は方法によって状態を有すると同定される対象を指し得る。本明細書で使用される場合、「偽陰性」(FN)という用語は、状態を有する対象を指す。偽陰性は、腫瘍、がん、前がん状況(例えば、前がん病変)、限局性若しくは転移性がん、又は非悪性疾患を有する対象を指し得る。偽陰性という用語は、状況を有するが、本開示のアッセイ又は方法によってその状況を有さないと同定される対象を指し得る。
【0027】
本明細書で使用される場合、「健康な」という語句は、良好な健康状態を有している対象を指す。健康な対象は、いかなる悪性疾患又は非悪性疾患もないことを示す。「健康な個体」は、アッセイされている状況とは無関係な他の疾患又は状況を有し得、通常、「健康」とは見なされない。
【0028】
本明細書で使用する場合、「メチル化」という用語は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成するデオキシリボ核酸(DNA)の変更を指す。とりわけ、メチル化は、本明細書では「CpG部位」と呼ぶシトシン及びグアニンのジヌクレオチドで起こる傾向がある。他の実例では、メチル化はCpG部位以外のシトシン又はシトシンではない他のヌクレオチドで起こることがあるが、しかしながら、これはまれな現象である。異常なcfDNAのメチル化は、ハイパーメチル化又はハイポメチル化として同定することができ、いずれもがん状態を示す場合がある。DNAメチル化異常は(健康な対照と比較して)異なる作用を引き起こし、がんに寄与する場合がある。本明細書に説明される原理は、非シトシンメチル化を含むCpGコンテキスト及び非CpGコンテキストでのメチル化の検出にも同様に適用可能である。さらに、メチル化状態ベクトルは、一般にメチル化が起こった部位又は起こらなかった部位のベクトルである要素を包含する場合がある(それらの部位が特にCpG部位でないとしても)。
【0029】
本明細書で互換的に使用されるように、「メチル化フラグメント」又は「核酸メチル化フラグメント」という用語は、核酸(例えば、核酸分子及び/又は核酸フラグメント)のメチル化シークエンシングによって決定される複数のCpG部位中の各CpG部位に対するメチル化状態のシークエンスを指す。メチル化フラグメントでは、核酸フラグメント中の各CpG部位についての位置及びメチル化状態が、参照ゲノムに対するシークエンスリード(例えば、核酸のシークエンシングから得られたもの)のアラインメントに基づいて決定される。核酸メチル化フラグメントは、複数のCpG部位中の各CpG部位のメチル化状態(例えば、メチル化状態ベクトル)を備え、参照ゲノム中の核酸フラグメントの位置(例えば、CpGインデックス、又は他の同様のメトリックを使用して核酸フラグメント中の最初のCpG部位の場所によって特定される)及び核酸フラグメント中のCpG部位数を特定する。シークエンスリードの参照ゲノムへのアライメントは、核酸分子のメチル化シークエンシングに基づいて、CpGインデックスを使用して行われ得る。本明細書で使用する場合、「CpGインデックス」という用語は、ヒト参照ゲノムなどのような参照ゲノム中の複数のCpG部位(例えば、CpG1、CpG2、CpG3など)の各CpG部位のリストを指し、電子フォームとすることができる。CpGインデックスは、CpGインデックス中の各それぞれのCpG部位について、対応する参照ゲノム中の対応するゲノム位置を更に備える。このようにして、各それぞれの核酸メチル化フラグメント中の各CpG部位は、それぞれの参照ゲノム中の特定の位置にインデックスされ、これは、CpGインデックスを使用して決定することができる。
【0030】
本明細書で使用される場合、「真陽性」(TP)という用語は、状況を有する対象を指す。「真陽性」は、腫瘍、がん、前がん状況(例えば、前がん病変)、限局性又は転移性がん、若しくは非悪性疾患を有する対象を指し得る。「真陽性」は、状況を有する対象を指し得、かつ本開示のアッセイ又は方法によって状況を有するとして同定される。本明細書で使用される場合、「真性陰性」(TN)という用語は、状況を有さない、又は検出可能な状況を有さない対象を指す。真陰性は、腫瘍、がん、前がん状況(例えば、前がん病変)、限局性又は転移性がん、非悪性疾患、若しくはその他の健康である対象などのような疾患若しくは検出可能な疾患を有していない対象を指し得る。真陰性は、状況を有さない、検出可能な状況を有さない、若しくは本開示のアッセイ又は方法によって状況を有さないことが同定される対象を指し得る。
【0031】
本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるか完全であるかにかかわらず、対象からの同定されたシークエンスを参照するために使用される場合がある、任意の生物又はウイルスの任意の特定の既知のシークエンシング若しくは特徴付けられたゲノムを指す。ヒトの対象と同様に他の多くの生物にも使用される例示的な参照ゲノムは、国立生物工学情報センター(NCBI)又はカリフォルニア大学サンタクルーズ校(UCSC)がホストするオンラインゲノムブラウザで提供される。「ゲノム」は、核酸シークエンスで表現される、生物又はウイルスの完全な遺伝情報を指す。本明細書で使用される場合、参照シークエンス又は参照ゲノムは、多くの場合、個体又は多数の個体から組み立てられた若しくは部分的に組み立てられたゲノムシークエンスである。いくつかの実施態様において、参照ゲノムは、1つ以上のヒト個体からの組み立てられた又は部分的に組み立てられたゲノムシークエンスである。参照ゲノムは、種の遺伝子のセットの代表例として見ることができる。いくつかの実施態様において、参照ゲノムは、染色体に割り当てられたシークエンスを備える。例示的なヒト参照ゲノムには、NCBIビルド34(UCSC相当:hg16)、NCBIビルド35(UCSC相当:hg17)、NCBIビルド36.1(UCSC相当:hg18)、GRCh37(UCSC相当:hg19)、及びGRCh38(UCSC相当:hg38)を含むがこれらに限られるわけではない。
【0032】
本明細書で使用される場合、用語「シークエンスリード」又は「リード」は、本明細書で説明する、又は当該技術分野で既知の任意のシークエンシングプロセスによって生成されるヌクレオチドシークエンスを指す。リードは、核酸フラグメントの一端から生成することができ(「シングルエンドリード」)、そして時には核酸の両端から生成される(例えば、ペアエンドリード、ダブルエンドリード)。いくつかの実施態様において、シークエンスリード(例えば、シングルエンドリード又はペアエンドリード)は、標的核酸フラグメントの片方の鎖又は両方の鎖から生成することができる。シークエンスリードの長さは、しばしば、特定のシークエンシング技術に紐づけられる。例えば、ハイスループット法は、数十から数百の塩基対(bp)の大きさで変化することができるシークエンスリードを提供する。いくつかの実施態様では、シークエンスリードは、約15bp~約900bpの長さの平均、中央値又は平均長(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bpである。いくつかの実施態様では、シークエンスリードは、約1000bp、2000bp、5000bp、10,000bp、又は50,000bp以上の平均、中央値、又は平均長である。ナノポアシークエンシングは、例えば、数十から数百、数千の塩基対の大きさで変化することができるシークエンスリードを提供することができる。イルミナパラレルシークエンスは、それほど変化しないシークエンスリードを提供することができ、例えば、シークエンスリードの大部分は200bpより小さくなり得る。シークエンスリード(又はシークエンシングリード)は、核酸分子(例えば、ヌクレオチドの列)に対応するシークエンス情報を指すことができる。例えば、シークエンスリードは、核酸フラグメントの一部からのヌクレオチドの列(例えば、約20~約150)に対応することができ、核酸フラグメントの一端又は両端のヌクレオチドの列に対応することができ、若しくは核酸フラグメント全体のヌクレオチドに対応することができる。シークエンスリードは、例えば、シークエンシング技術を使用する、又は、例えば、ハイブリダイゼーションアレイ又はキャプチャプローブにおいて、若しくはポリメラーゼ連鎖反応(PCR)若しくは単一のプライマー又は等温増幅を使用する線形増幅などのような増幅技術といったプローブを使用する様々な方法で、得ることができる。
【0033】
本明細書で使用される「シークエンシング」等の用語は、核酸又はタンパク質などのような生体高分子の順序を決定するために使用される場合がある任意の及び全ての生化学的プロセスを一般に指す。例えば、シークエンシングデータは、DNAフラグメントなどのような核酸分子中のヌクレオチド塩基の全て又は一部を含むことができる。
【0034】
本明細書で使用される場合、用語「シークエンス深度」は、用語「カバレッジ」と交換可能に使用され、かつ遺伝子座にアライメントされる固有の核酸標的分子に対応するコンセンサスシークエンスリードによって遺伝子座が覆われる回数を指し、例えば、シークエンス深度は、遺伝子座を覆う固有の核酸標的分子の数と同じである。遺伝子座は、ヌクレオチドと同じくらい小さくてもよく、染色体アームと同じくらい大きくてもよく、又はゲノム全体と同じくらい大きくてもよい。シークエンス深度は、「Y倍」、例えば、50倍、100倍等として表すことができ、ここで、「Y」は、核酸標的に対応するシークエンスで遺伝子座を覆う回数、例えば、特定の遺伝子座を覆う独立シークエンス情報が得られる回数を指す。いくつかの実施態様において、シークエンス深度は、シークエンシングされたゲノムの数に対応する。シークエンス深度は、多数の遺伝子座、又は全ゲノムに適用することもでき、その場合、Yは、遺伝子座又はハプロイドゲノム、若しくは全ゲノムがそれぞれシークエンシングされた回数の平均又は平均回数を指し得る。平均深度が引用されているとき、データセットに含まれる異なる遺伝子座の実際の深度は、値の範囲にまたがる可能性がある。超深度シークエンシングは、遺伝子座におけるシークエンス深度が少なくとも100倍であることを指し得る。
【0035】
本明細書で使用する場合、「感度」又は「真陽性率」(TPR)という用語は、真陽性の数を真陽性及び偽陰性の数の合計によって除したものを指す。感度は、状況を真に有する集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例えば、感度は、がんを有する集団内の対象の数を正しく同定する方法の能力を特徴付けることができる。別の例では、感度は、がんを示す1つ以上のマーカーを正しく同定する方法の能力を特徴付けることができる。
【0036】
本明細書で使用される場合、「特異度」又は「真陰性率」(TNR)という用語は、真陰性の数を真陽性及び偽陽性の数の合計によって除したものを指す。特異性は、状況を本当に有していない集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例えば、特異性は、がんを持たない集団内の対象の数を正しく同定する方法の能力を特徴付けることができる。別の例では、特異性は、がんを示す1つ以上のマーカーを正しく同定する方法の能力を特徴付ける。
【0037】
本明細書で使用する場合、用語「対象」は、ヒト(例えば、男性の人、女性の人、胎児、妊娠中の女性、又は子供など)、非ヒト動物、植物、細菌、真菌、又は原生生物を含むがこれらに限定されない、任意の生物若しくは非生物のことを指す。任意のヒト又は非ヒト動物は対象として扱うことができ、これには、哺乳類、爬虫類、鳥類、両生類、魚類、無蹄類、反芻動物、ウシ属(例えば、牛)、ウマ属(例えば、馬)、ヤギ亜科及びオビーン(例えば、羊、山羊)、ブタ亜種(例えば、豚)、ラクダ科(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、熊)、鶏、犬、猫、マウス、ラット、魚、イルカ、クジラ、及びサメを含むがこれらに限定されない。いくつかの実施態様において、対象は、任意のステージの男性又は女性(例えば、大人の男性、大人の女性、又は子供)である。サンプルが採取される、若しくは本明細書に記載の方法又は構成のいずれかによって取り扱われる対象は、任意の年齢であることができ、成人、乳児、又は子供とすることができる。
【0038】
本明細書で使用される場合、用語「組織」は、機能単位として一緒にグループ化される細胞のグループに対応し得る。1つ以上のタイプの細胞が、単一の組織に見出されることがある。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞又は血球細胞)から構成される場合があるが、異なる生物(母親対胎児)からの組織又は健康な細胞対腫瘍細胞に対応することも可能である。「組織」という用語は、一般的に、人体に見られる任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、咽頭組織)を指すことができる。いくつかの態様において、用語「組織」又は「組織タイプ」は、無細胞核酸から発生する組織を指すために使用することができる。一例では、ウイルス核酸フラグメントは血液組織に由来する可能性がある。別の例では、ウイルス核酸フラグメントは、腫瘍組織に由来する可能性がある。
【0039】
本明細書で使用する場合、「ゲノム」という用語は、生物のゲノムの特性を指す。ゲノム特性の例には、ゲノムの全部又は一部の一次核酸シークエンス(例えば、ヌクレオチド多型、インデル、シークエンス転位、変異頻度などの有無)に関するもの、ゲノム内の1つ以上の特定のヌクレオチドシークエンスのコピー数(例えば、コピー数、対立遺伝子頻度分率、単一染色体又はゲノム全体の倍率など)、ゲノムの全部又は一部のエピジェネティック状態(例えば、メチル化などのような共有結合核酸修飾、ヒストン修飾、ヌクレオソーム位置関係など)、生物のゲノムの発現プロファイル(例えば、遺伝子発現レベル、アイソタイプ発現レベル、遺伝子発現比率など)を含む。
【0040】
本明細書で使用される用語は、特定の場合を説明する目的のみのものであり、限定することを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。さらに、「含んでいる」、「含む」、「有している」、「有する」、「有して」、又はその変形が詳細な説明及び/又は特許請求の範囲のいずれかで使用される限り、そのような用語は、用語「備える」と同様の方法で包含することを意図している。
【0041】
II.サンプル処理
【0042】
II.A.DNAフラグメントのメチル化状態ベクトルの作製
【0043】
図1Aは、1つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞(cf)DNAのフラグメントをシークエンシングするプロセス100を説明する例示的なフローチャートである。DNAメチル化を分析するために、分析システムは、まず、複数のcfDNA分子を含む個体からサンプルを得る(110)。一般に、サンプルは、健康な個体、がんを有することが知られている又はがんを有することが疑われる対象、若しくは事前に情報が知られていない対象からのものであってよい。テストサンプルは、血液、血漿、血清、尿、糞便、及び唾液サンプルからなる群から選択されるサンプルであってよい。代替的に、テストサンプルは、全血、血液画分(例えば、白血球(WBC))、組織生検、胸水、心嚢液、脳脊髄液、及び腹膜液からなる群から選択されるサンプルを含んでいてもよい。追加の実施態様では、プロセス100は、他のタイプのDNA分子のシークエンスが適用されてもよい。
【0044】
サンプルから、分析システムは、各cfDNA分子を単離することができる。cfDNA分子は、非メチル化シトシンをウラシルに変換するように処理することができる。一実施態様において、本方法は、メチル化シトシンを変換することなく非メチル化シトシンをウラシルに変換するDNAの重亜硫酸塩処理を使用する。例えば、EZ DNA MethylationTM-Gold、EZ DNA MethylationTM-Direct又はEZ DNA MethylationTM-Lightningキット(Zymo Research Corp(Irvine,CA)から入手可能)などのような市販キットが、重亜硫酸塩変換のために使用される。別の実施態様では、非メチル化シトシンのウラシルへの変換は、酵素反応を使用して達成される。例えば、変換は、APOBEC-Seq(NEBiolabs,Ipswich,MA)などのような非メチル化シトシンのウラシルへの変換のための市販で利用可能なキットを使用することができる。
【0045】
変換されたcfDNA分子から、シークエンシングライブラリーを調製することができる(130)。ライブラリー調製中、アダプターライゲーションを通じて、核酸分子(例えば、DNA分子)に固有の分子識別子(UMI)を付加することができる。UMIは、アダプターライゲーション中にDNAフラグメントの末端(例えば、物理的剪断、酵素消化、及び/又は化学的フラグメント化によってフラグメント化されたDNA分子)に付加される短い核酸シークエンス(例えば、4~10塩基対)とすることができる。UMIは、特定のDNAフラグメントから発生するシークエンスリードを同定するために使用できる固有のタグとして役に立つ縮退塩基対とすることができる。アダプターライゲーションに続くPCR増幅中に、UMIは、付着したDNAフラグメントとともに複製することが可能である。これは、下流の分析において、同じ元のフラグメントからくるシークエンスリードを同定する方法を提供し得る。
【0046】
オプションで、シークエンシングライブラリーは、複数のハイブリダイゼーションプローブを使用するがん状態に対する情報を与えるcfDNA分子、又はゲノム領域について濃縮してもよい(135)。ハイブリダイゼーションプローブは、特に指定されたcfDNA分子、又は標的領域にハイブリダイズし、かつその後のシークエンシング及び分析のためにそれらのフラグメント又は領域を濃縮することができる短いオリゴヌクレオチドとすることができる。ハイブリダイゼーションプローブは、研究者が関心を持つ特定のCpG部位のセットを標的とした高深度分析を行うために使用することができる。ハイブリダイゼーションプローブは、1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、又は10倍以上のカバレッジで1つ以上の標的シークエンスにわたって並べることができる。例えば、2倍のカバレッジで並べたハイブリダイゼーションプローブは、標的シークエンスの各部分が2つの独立したプローブとハイブリダイズするように、重なり合うプローブを備える。ハイブリダイゼーションプローブは、1倍未満のカバレッジで1つ以上の標的シークエンスにわたって並べることができる。
【0047】
一実施態様において、ハイブリダイゼーションプローブは、非メチル化シトシンをウラシルに変換するために処理(例えば、重亜硫酸塩を使用)されたDNA分子を濃縮するように設計される。濃縮の間、ハイブリダイゼーションプローブ(本明細書では「プローブ」とも呼ばれる)は、がん(又は疾患)の有無、がん状態、若しくはがんの分類について情報を与える(例えば、がんクラス又は発生組織)核酸フラグメントを標的にし、かつ引き落とすために使用することができる。プローブは、DNAの標的(相補的)鎖にアニーリング(又はハイブリダイズ)するように設計されてもよい。標的鎖は、「陽性」鎖(例えば、mRNAに転写され、その後タンパク質に翻訳される鎖)、又は相補的な「陰性」鎖であってもよい。プローブの長さは、10、100、又は1000塩基対の範囲としてもよい。プローブは、メチル化部位パネルに基づいて設計することができる。特定のがん又は他の種類の疾患に対応すると疑われる(例えば、ヒト又は他の生物の)特定の変異又はゲノムの標的領域を分析するために、標的遺伝子のパネルに基づいてプローブを設計することができる。くわえて、プローブは、標的領域の重なり合う部分をカバーしてもよい。
【0048】
一旦調製されると、シークエンシングライブラリー又はその一部を、複数のシークエンスリードを得るためにシークエンシングすることができる。シークエンスリードは、コンピュータソフトウェアによる処理及び解釈のために、コンピュータ読み取り可能なデジタルフォーマットであってもよい。シークエンスリードは、アライメント位置情報を決定するために参照ゲノムにアライメントされてもよい。アラインメント位置情報は、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム内の領域の開始位置及び終了位置を示してもよい。アラインメント位置情報はまた、開始位置及び終了位置から決定することができるシークエンスリードの長さを含んでもよい。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよい。シークエンスリードは、R及びRと表記されるリードペアで構成することができる。例えば、第1のリードRは核酸フラグメントの第1の末端からシークエンスされてもよく、一方で第2のリードRは核酸フラグメントの第2末端からシークエンスされてもよい。それゆえに、第1のリードR及び第2のリードRのヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して(例えば、反対の向きで)アライメントされる場合がある。リードペアR及びRに由来するアラインメント位置情報は、第1のリード(例えば、R)の末端に対応する参照ゲノム中の開始位置、及び第2のリード(例えば、R)の末端に対応する参照ゲノム中の終了位置を含んでもよい。言い換えれば、参照ゲノム中の開始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性の高い位置を表すことができる。SAM(シークエンスアライメントマップ)形式又はBAM(バイナリ)形式を有する出力ファイルを生成し、メチル化状態決定などのようなさらなる分析のために出力してもよい。
【0049】
分析システムは、シークエンスリードから、参照ゲノムとのアライメントに基づいて、各CpG部位の位置及びメチル化状態を判定する(150)。分析システムは、各フラグメントに対して、参照ゲノム中のフラグメントの位置(各フラグメント中の第1のCpG部位の位置、又は別の同様の指標によって特定される)、フラグメント中のCpG部位の数、及びフラグメント中の各CpG部位のメチル化(例えば、Mとして表記)、非メチル化(例えば、Uとして表記)又は不定(例えば、Iとして表記)を特定する各フラグメントのメチル化状態ベクトルを生成する(160)。観察された状態は、メチル化及び非メチル化の状態であり、一方、観察されない状態は、不確定である。不確定なメチル化状態は、シークエンシングエラー及び/又はDNAフラグメントの相補鎖のメチル化状態間の不一致が元である場合がある。メチル化状態ベクトルは、後の使用及び処理のために、一時的又は持続的なコンピュータメモリに格納されてもよい。さらに、分析システムは、単一のサンプルから重複するリード又は重複するメチル化状態ベクトルを除去してもよい。分析システムは、1つ以上のCpG部位を有するあるフラグメントが、閾値の数又はパーセンテージを超える不確定なメチル化状態を有すると判定してもよく、かつそのようなフラグメントを除外、又はそのようなフラグメントを選択的に含むが、そのような不確定メチル化状態を考慮するモデルを構築してもよい。
【0050】
図1Bは、1つ以上の実施態様による、メチル化状態ベクトルを得るためにcfDNA分子をシークエンシングする図1Aのプロセス100の図である。一例として、分析システムは、3つのCpG部位を包含するcfDNA分子112を受信する。示すように、cfDNA分子112の第1及び第3のCpG部位は、メチル化されている(114)。処理ステップ120の間、cfDNA分子112は、変換されたcfDNA分子122を生成するために変換される。処理120の間、メチル化されていない第2のCpG部位は、そのシトシンがウラシルに変換される。しかしながら、第1及び第3のCpG部位は変換されなくてもよい。
【0051】
変換後、シークエンスリード142を生成するために、シークエンシングライブラリー130を調製、及びシークエンシングを行なう(140)。分析システムは、シークエンスリード142を参照ゲノム144にアライメントする(150)。参照ゲノム144は、フラグメントcfDNAがヒトゲノム中のどの場所を元としているかについての文脈を提供する。この単純化された例では、分析システムは、3つのCpG部位がCpG部位23、24、及び25(説明の便宜のために使用される任意の参照識別子)に相関するようにシークエンスリード142をアライメントする。このようにして、分析システムは、cfDNA分子112上の全てのCpG部位のメチル化状態、及びCpG部位がマッピングされるヒトゲノム中の位置の両方に関する情報を生成することができる。示すように、メチル化されたシークエンスリード142上のCpG部位は、シトシンとして読み取られる。この例では、シトシンはシークエンスリード142中の第1及び第3のCpG部位に現れており、これは、元のcfDNA分子中の第1及び第3のCpG部位がメチル化されると推測させられる。一方、第2のCpG部位はチミンとして読み取ることができ(Uはシークエンシングプロセス中にTに変換される)、かつこのように、第2のCpG部位は元のcfDNA分子で非メチル化されると推論することができる。これら2つの情報、メチル化状態及び位置を用いて、分析システムは、フラグメントcfDNA112のメチル化状態ベクトル152を160生成する。この例では、結果として生じるメチル化状態ベクトル152は<M23、U24、M25>であり、ここで、Mはメチル化されたCpG部位に対応し、Uは非メチル化されたCpG部位に対応し、かつ下付き数字は参照ゲノム中の各CpG部位の場所に対応する。
【0052】
生体サンプル中の核酸からシークエンスリードを得るために、1つ以上の代替的なシークエンシング方法を使用することができる。1つ以上のシークエンシング方法は、核酸(例えば、無細胞核酸)から測定されたシークエンスリードの数を得るために使用できる任意の形式のシークエンシングを備えることができ、これには、Roche454プラットフォーム、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNAシークエンシング技術、Affymetrix Incのシークエンシング-ハイブリッド化プラットフォーム、一分子、リアルタイム(SMRT)技術、454Life Sciencesのシーケンシングバイシンセシス(合成)プラットフォーム、イルミナ/Solexa及びHelicos Biosciences、並びにApplied Biosystemsのシーケンシングバイライゲーションプラットフォームなどのような高処理シークエンシングシステムを含むが、これに限定はされない。Life technologiesのION TORRENTテクノロジー、及びNanoporeシークエンシングもまた、生体サンプル中の核酸(例えば無細胞核酸)からシークエンスリードを得るために使用することができる。シーケンシングバイシンセシス及び可逆的ターミネーターベースのシーケンシング(例えば、イルミナのゲノムアナライザー、ゲノムアナライザーII、HISEQ2000、HISEQ2500(イルミナ、サンディエゴカリフォルニア))は、遺伝子型データセットを形成するために、訓練対象の生体サンプルから得られた無細胞核酸からシークエンスリードを得るために使用することができる。数百万の無細胞核酸(例えば、DNA)フラグメントを並行してシークエンシングすることができる。このタイプのシークエンシング技術の一例として、表面上にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合された8つの個別レーンを有する光学的に透明なスライドを包含するフローセルが使用される。無細胞核酸サンプルは、検出を容易にする信号又はタグを含むことができる。生体サンプルから得られた無細胞核酸からのシークエンスリードの取得は、例えば、フローサイトメトリー、定量ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、遺伝子チップ分析、マイクロアレイ、質量分析、サイトフルオロメトリック分析、蛍光顕微鏡、共焦点レーザー走査顕微鏡、レーザー走査サイトメトリ、アフィニティークロマトグラフィー、手動バッチモード分離、電界懸濁、シークエンシング、及びこれらの組み合わせなどのような様々な技法を介して信号又はタグの定量情報を得ることを含むことができる。
【0053】
1つ以上のシークエンシング方法は、全ゲノムシークエンシングアッセイを備えることができる。全ゲノムシークエンスアッセイは、コピー数変動又はコピー数異常などのような大きな変動を決定するために使用することができる全ゲノム又は全ゲノムのかなりの部分についてシークエンスリードを生成する物理的アッセイを備えることができる。このような物理的アッセイは、全ゲノムシークエンス技術又は全エクソームシークエンス技術を採用してもよい。全ゲノムシークエンスアッセイは、テスト対象のゲノムに渡って少なくとも1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、少なくとも20倍、少なくとも30倍、又は少なくとも40倍の平均シークエンス深度を有することができる。いくつかの実施態様では、シークエンス深度が、約30,000倍である。1つ以上のシークエンシング方法は、標的化パネルシークエンシングアッセイを備えることができる。標的化パネルシークエンスアッセイは、遺伝子の標的化パネルに対して、少なくとも50,000倍、少なくとも55,000倍、少なくとも60,000倍、又は少なくとも70,000倍の平均シークエンス深度を有することができる。遺伝子の標的化パネルは、450~500個の間の遺伝子を含むことができる。遺伝子の標的化パネルは、500±5遺伝子の範囲、500±10遺伝子の範囲、又は500±25遺伝子の範囲を含むことができる。
【0054】
1つ以上のシークエンシング方法は、ペアエンドシークエンシングを備えることができる。1つ以上のシークエンシング方法は、複数のシークエンスリードを生成することができる。複数のシークエンスリードは、10~600の間、50~400の間、又は100~300の間の範囲の平均長さを有することができる。1つ以上のシークエンシング方法は、メチル化シークエンシングアッセイを備えることができる。メチル化シークエンシングは、i)全ゲノムメチル化シークエンシング、又はii)複数の核酸プローブを使用する標的DNAメチル化シークエンシングとすることができる。例えば、メチル化シークエンシングは、全ゲノムビスルファイトシークエンシング(例えば、WGBS)である。メチル化シークエンシングは、メチロームの最も情報を与える領域、固有のメチル化データベース、並びに先行するプロトタイプの全ゲノム及び標的シークエンシングアッセイを標的とする複数の核酸プローブを使用した標的DNAメチル化シークエンシングとすることができる。
【0055】
メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)を検出し得る。メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の1つ以上の非メチル化されたシトシン又は1つ以上のメチル化されたシトシンを、対応する1つ以上のウラシルに変換することを備えることができる。1つ以上のウラシルは、1つ以上の対応するチミンとして、メチル化シークエンシング中に検出することができる。1つ以上の非メチル化されたシトシン又は1つ以上のメチル化されたシトシンの変換は、化学的変換、酵素的変換、又はそれらの組み合わせを備えることができる。
【0056】
例えば、重亜硫酸塩変換は、メチル化されたシトシン(例えば、5-メチルシトシン又は5-mC)をそのままにする一方で、シトシンをウラシルに変換することを伴う。いくつかのDNAでは、約95%のシトシンがDNA中でメチル化されていない場合があり、かつ結果として生じるDNAフラグメントは、チミンによって表される多くのウラシルを含む場合がある。シークエンシング前の核酸の処理には、酵素変換プロセスを使用してもよく、これは様々な方法で行うことができる。ビスサルファイトフリー変換の一例は、非修飾シトシンに影響を与えずに5-メチルシトシン及び5-ヒドロキシメチルシトシンを破壊せずかつ直接検出するためのビスサルファイトフリー及び塩基分解能シークエンシング法、TET-アシストピリジンボランシークエンシング(TAPS)を備える。それぞれの核酸メチル化フラグメント中の対応する複数のCpG部位のメチル化状態を、メチル化シークエンスによってCpG部位がメチル化されていると判定されたときにメチル化とすることができ、メチル化シークエンスによってCpG部位がメチル化されていないと判定された場合には非メチル化とすることができる。
【0057】
メチル化シークエンシングアッセイ(例えば、WGBS及び/又は標的メチル化シークエンシング)は、約1,000倍、2,000倍、3,000倍、5,000倍、10,000倍、15,000倍、20,000倍、又は30,000倍までを含むがこれに限定されない平均シークエンス深度を有することができる。メチル化シークエンシングは、30,000倍より大きい、例えば、少なくとも40,000倍又は50,000倍であるシークエンス深度を有することができる。全ゲノムバイサルファイトシークエンス法は、20倍~50倍の間の平均シークエンス深度を有することができ、かつ標的メチル化シークエンス法は、100倍~1000倍の間の平均有効深度を有し、有効深度は、標的メチル化シークエンスによって得られた同じ数のシークエンスリードを得るための等価全ゲノムバイサルファイトシークエンスカバレッジとすることができる。
【0058】
メチル化シークエンシング(例えば、WGBS及び/又は標的メチル化シークエンシング)に関する更なる詳細については、例えば、2019年3月13日に出願された「Anomalous Fragment Detection and Classification」と題する米国特許出願第16/352,602号、及び2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許出願第16/719,902号を参照してよく、その各々が参照によって本明細書に組み込まれる。本明細書に開示されたもの及び/又はその任意の改変、置換、若しくは組み合わせを含むメチル化シークエンシングのための他の方法は、フラグメントメチル化パターンを得るために使用することができる。メチル化シークエンシングは、例えば、2019年3月13日に出願された「Anomalous Fragment Detection and Classification」と題する米国特許出願第16/352,602号、又は2019年5月13日に出願された「Model-Based Featureization and Classification」と題する米国仮特許出願第62/847,223号、現在は2020年5月13日に出願された「Model-Based Featureization and Classification」と題する米国仮特許出願番号15/931,022号に記載されているような技術のいずれかに従って、1つ以上のメチル化状態ベクトルを特定するために使用されることができ、これらの各々は参照によって本明細書に組み込まれる。
【0059】
核酸のメチル化シークエンシング及び結果として生じる1つ以上のメチル化状態ベクトルは、複数の核酸メチル化フラグメントを得るために使用することができる。各対応する複数の核酸メチル化フラグメント(例えば、各それぞれの遺伝子型データセットについて)は、100以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、1000以上の核酸メチル化フラグメント、5000以上の核酸メチル化フラグメント、10,000以上の核酸メチル化フラグメント、20,000以上の核酸メチル化フラグメント、又は30,000以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、10,000個の核酸メチル化フラグメント~50,000個の核酸メチル化フラグメントの間とすることができる。対応する複数の核酸メチル化フラグメントは、千以上、1万以上、10万以上、100万以上、1000万以上、1億以上、5億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、又は100億以上の核酸メチル化フラグメントを含むことができる。対応する複数の核酸メチル化フラグメントの平均長さは、140~280ヌクレオチドであり得る。
【0060】
核酸のシークエンシング方法及びメチル化シークエンシングデータに関する更なる詳細は、2020年3月4日に出願された「Systems and Methods for Cancer Condition Determination Using Autoencoders」と題する米国特許出願第62/985,258号に開示されており、その全体が参照により本書に組み込まれる。
【0061】
II.B.異常なフラグメントを同定すること
【0062】
分析システムは、サンプルのメチル化状態ベクトルを使用するサンプルについて異常なフラグメントを判定することができる。サンプル中の各フラグメントについて、分析システムは、フラグメントがフラグメントに対応するメチル化状態ベクトルを使用する異常なフラグメントであるかを判定することができる。いくつかの実施態様において、分析システムは、各メチル化状態ベクトルについて、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化状態ベクトルが観察される確率を記述するp値スコアを計算する。p値スコアを計算するプロセスは、後ほどセクションII.B.i.P値フィルタリングで更に説明する。分析システムは、閾値p値スコアを下回るp値を有するメチル化状態ベクトルを有しているフラグメントを異常なフラグメントとして判定してもよい。いくつかの実施態様では、分析システムは、ある閾値を超えるメチル化又は非メチル化のパーセンテージを有する少なくともある数のCpG部位を有するフラグメントを、それぞれハイパーメチル化フラグメント及びハイポメチル化フラグメントとして更にラベルする。ハイパーメチル化フラグメント又はハイポメチル化フラグメントは、極端なメチル化を有する異常なフラグメント(UFXM)とも呼ばれ得る。いくつかの実施態様において、分析システムは、異常なフラグメントを判定するための様々な他の確率的モデルを実装してもよい。他の確率モデルの例には、混合モデル、深層確率モデル等を含む。いくつかの実施態様では、分析システムは、異常なフラグメントを同定するために、以下に説明するプロセスの任意の組合せを使用してもよい。同定された異常なフラグメントを用いて、分析システムは、他のプロセス、例えば、がん分類器の訓練及び展開に使用するために、サンプルに対するメチル化状態ベクトルのセットをフィルタリングしてもよい。
【0063】
II.B.i.P値フィルタリング
【0064】
いくつかの実施態様では、分析システムは、健康な対照群中のフラグメントからのメチル化状態ベクトルと比較した各メチル化状態ベクトルに対するp値スコアを計算する。p値スコアは、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化状態ベクトルにマッチするメチル化状態を観察する確率を記述することができる。DNAフラグメントが異常にメチル化されていると判定するために、分析システムは、正常にメチル化されたフラグメントの大部分を有する健康な対照群を使用することができる。異常なフラグメントを判定するためにこの確率的分析を実施するとき、判定は、健康な対照群を構成する対照の対象群と比較して、重みを持つことができる。健常対照群中の頑健性を確保するために、分析システムは、DNAフラグメントを含むサンプルを提供するために、いくつかの閾値数の健康な個体を選択してもよい。図2Aは、分析システムがp値スコアを計算し得る、健康な対照群のデータ構造体を生成する方法を説明する。図2Bは、生成されたデータ構造体を用いてp値スコアを計算する方法を説明する。
【0065】
図2Aは、一実施態様による、健康な対照群のデータ構造体を生成するプロセス200を説明するフローチャートである。健常対照群データ構造体を生成するために、分析システムは、複数の健康な個体から複数のDNAフラグメント(例えば、cfDNA)を受信することができる。メチル化状態ベクトルは、例えばプロセス100を介して、各フラグメントについて同定することができる。
【0066】
各フラグメントのメチル化状態ベクトルを用いて、分析システムは、メチル化状態ベクトルをCpG部位の文字列に細分化することができる(205)。いくつかの実施態様では、分析システムは、結果として生じる文字列が全て所与の長さ未満であるように、メチル化状態ベクトルを細分化する(205)。例えば、長さ11のメチル化状態ベクトルを長さ3以下の文字列に細分化してもよく、長さ3の文字列9個、長さ2の文字列10個、及び長さ1の文字列11個が結果として生じる。別の例では、長さ7のメチル化状態ベクトルを長さ4以下の文字列に細分化すると、長さ4の文字列4個、長さ3の文字列5個、長さ2の文字列6個、及び長さ1の文字列7個が結果として生じる。メチル化状態ベクトルが指定された文字列長より短い、又は同じ長さである場合、メチル化状態ベクトルは、ベクトルのすべてのCpG部位を包含する単一の文字列に変換してもよい。
【0067】
分析システムは、ベクトル中の可能性のあるCpG部位及びメチル化状態の可能性各々について、指定されたCpG部位を文字列中の第1のCpG部位として有し、かつメチル化状態の可能性を有する対照群に存在する文字列の数を数えることによって文字列を集計する(210)。例えば、所与のCpG部位において、文字列の長さが3であると考えると、2^3すなわち8通りの文字列構成の可能性がある。与えられたCpG部位において、8つの可能な文字列構成の各々について、分析システムは、各メチル化状態ベクトルの可能性が対照群で何回発生したかを集計する(210)。この例を続けると、これは、以下の数量< Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 >, . . ., < Ux, Ux+1, Ux+2 >を、参照ゲノム中の各開始CpG部位xについて集計することを伴い得る。分析システムは、各開始CpG部位と文字列の可能性について集計されたカウントを格納するデータ構造体を作成する(215)。
【0068】
文字列の長さに上限を設定することには、いくつかの利点がある。第1に、文字列の最大長に依存して、分析システムによって作成されるデータ構造体のサイズが劇的に大きくなる可能性がある。例えば、最大長文字列が4ということは、すべてのCpG部位が、長さ4の文字列に対して、最低でも2^4の数を集計することになる。最大文字列長が5に増加すると、すべてのCpG部位は、追加で2^4又は16の数を集計することになり、集計する数(及び必要なコンピュータメモリ)が、以前の文字列長と比較して2倍に増加することになる。文字列サイズを小さくすることは、データ構造体の作成及び性能(例えば、後述のような後ほどアクセスするための使用)を、計算的及び格納の観点から、合理的に保つことができる。第2に、最大文字列長を制限するための統計的な配慮は、文字列カウントを使用する下流モデルのオーバーフィッティングを回避することを可能にする。CpG部位の長い文字列が、生物学的に、成果に強い影響を与えない場合(例えば、がんの存在の予測である異常性の予測)、CpG部位の大きな文字列に基づいて確率を計算することは、利用できない場合があるかなりの量のデータを使用する問題があり得、かつこのようにモデルを適切に行うには非常にまばらになり得る。例えば、重要な100個のCpG部位を条件とする異常/がんの確率を計算すると、長さ100のデータ構造体中の文字列のカウントを使用することができ、理想的には重要な100個のメチル化状態に正確にマッチするものがある。長さ100の文字列のまばらなカウントが利用可能である場合、テストサンプル中の長さ100の与えられた文字列が異常であるかを判定するためのデータが不十分であり得る。
【0069】
図2Bは、一実施態様による、個体から異常なメチル化されたフラグメントを同定するためのプロセス220を説明するフローチャートである。プロセス220において、分析システムは、対象のcfDNAフラグメントから100個のメチル化状態ベクトルを生成する。分析システムは、各メチル化状態ベクトルを以下のように扱うことができる。
【0070】
所与のメチル化状態ベクトルについて、分析システムは、メチル化状態ベクトル中の同じ開始CpG部位及び同じ長さ(すなわち、CpG部位のセット)を有するメチル化状態ベクトルの全ての可能性を列挙する(230)。各メチル化状態は一般にメチル化又は非メチル化のいずれかであるので、各CpG部位において事実上2つの可能な状態があり得、かつこのように、メチル化状態ベクトルの異なる可能性のカウントは、長さnのメチル化状態ベクトルがメチル化状態ベクトルの2の可能性に紐づけられるように、2のべき乗に依存し得る。メチル化状態ベクトルが1つ以上のCpG部位についての不確定な状態を含む場合には、分析システムは、観察された状態を有するCpG部位のみを考慮してメチル化状態ベクトルの可能性を列挙することができる(230)。
【0071】
分析システムは、健康な対照群データ構造体にアクセスすることによって、同定された開始CpG部位及びメチル化状態ベクトル長に対するメチル化状態ベクトルの各可能性を観察する確率を計算する(240)。いくつかの実施態様において、所与の可能性を観察する確率を計算することは、共同確率計算をモデル化するためにマルコフ連鎖確率を使用する。マルコフモデルは、少なくとも部分的に、対応する複数のCpG部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントにわたる、それぞれのフラグメント(例えば、核酸メチル化フラグメント)の対応する複数のCpG部位中の各CpG部位のメチル化状態の評価に基づいて訓練することができる。例えば、マルコフモデル(例えば、隠れマルコフモデル又はHMM)は、シークエンス中の各状態について、シークエンス中の次の状態を観察する可能性を判定する確率のセットを与えられた複数の核酸メチル化フラグメント中の核酸メチル化フラグメントに対してメチル化状態のシークエンス(例えば、「M」又は「U」を含む)を観察できる確率を決定するために使用される。確率のセットは、HMMを訓練することによって得ることができる。そのような訓練は、観察されたメチル化状態シークエンス(例えば、メチル化パターン)の初期トレーニングデータセットを与えられた統計的パラメータ(例えば、第1の状態が第2の状態に移行する確率(移行確率)及び/又は所与のメチル化状態がそれぞれのCpG部位について観察可能な確率(放出確率))の計算を伴うことができる。HMMは、教師付き訓練(例えば、観察された状態と同様に基礎となるシークエンスが既知であるサンプルを使用して)並びに/若しくは教師なし訓練(例えば、ビタビ学習、最尤推定、期待値最大化訓練、及び/又はバウム-ウェルチ訓練)を使用して訓練することができる。他の実施態様では、メチル化状態ベクトルの各可能性を観察する確率を決定するために、マルコフ連鎖確率以外の計算方法が使用される。例えば、そのような計算方法は、学習された表現を含むことができる。p値閾値は、0.01~0.10の間、又は0.03~0.06の間とすることができる。p値閾値は、0.05とすることができる。p値閾値は、0.01未満、0.001未満、又は0.0001未満とすることができる。
【0072】
分析システムは、各可能性について計算された確率を使用して、メチル化状態ベクトルのp値スコアを計算する(250)。いくつかの実施態様において、これは、問題のメチル化状態ベクトルにマッチする可能性に対応する計算された確率を特定することを含む。具体的には、これは、メチル化状態ベクトルと同じCpG部位のセット、又は同様に同じ開始CpG部位及び長さを有する可能性であり得る。分析システムは、特定された確率以下の確率を有する任意の可能性の計算された確率を合計して、p値スコアを生成することができる。
【0073】
このp値は、健康な対照群中で、更に低い確率でフラグメントのメチル化状態ベクトル又は他のメチル化状態ベクトルが観察される確率を表すことができる。低いp値スコアは、それによって、一般に、健康な個体において稀なメチル化状態ベクトルに対応し、かつ健康な対照群と比較して、フラグメントが異常にメチル化されているとラベルすることができる。高いp値スコアは、一般に、健康な個体において相対的な意味で存在すると予想されるメチル化状態ベクトルに関連付けることができる。健康対照群が非がん群である場合、例えば、低いp値は、そのフラグメントが非がん群と比較して異常にメチル化されており、かつそれゆえに、テスト対象中にがんの存在を示唆する可能性があることを示し得る。
【0074】
上記のように、分析システムは、各々がテストサンプル中のcfDNAフラグメントを表す複数のメチル化状態ベクトルの各々について、p値スコアを計算することができる。どのフラグメントが異常にメチル化されているかを同定するために、分析システムは、それらのp値スコアに基づいてメチル化状態ベクトルのセットをフィルタリングしてもよい(260)。いくつかの実施態様では、フィルタリングは、p値スコアを閾値と比較し、かつ閾値を下回るフラグメントのみを残すことによって行う。この閾値p値スコアは、0.1、0.01、0.001、0.0001、又は同様のオーダーにすることができる。
【0075】
プロセス220からの例示的な結果に従って、分析システムは、トレーニングにおいてがんを有さない参加者について異常なメチル化パターンを有する2,800(1,500~12,000)の中央値(範囲)のフラグメント、及びトレーニングにおいてがんを有する参加者について異常なメチル化パターンを有する3,000(1,200~220,000)の中央値(範囲)のフラグメントを得ることができる。異常なメチル化パターンを有するフラグメントのこれらのフィルタリングされたセットは、セクションIIIで後述するように下流分析に使用されてもよい。
【0076】
いくつかの実施態様において、分析システムは、メチル化状態ベクトルの可能性を決定し、かつp値を計算するために、スライディングウィンドウを使用する(255)。可能性を列挙し、メチル化状態ベクトル全体に対してp値を計算するのではなく、分析システムは、可能性を列挙し、かつ連続するCpG部位のウィンドウのみについてp値を計算することができ、ここでウィンドウは、少なくともいくつかのフラグメントより(CpG部位の)長さが短い(さもなければ、ウィンドウは目的を果たさないだろう)。ウィンドウの長さは、静的、ユーザーが決定したもの、動的、又はその他の方法で選択されてもよい。
【0077】
ウィンドウより大きいメチル化状態ベクトルに対するp値を計算する際に、ウィンドウは、ベクトル中の最初のCpG部位から始まるウィンドウ内のベクトルからのCpG部位の連続したセットを同定し得る。分析システムは、第1のCpG部位を含むウィンドウに対してp値スコアを計算することができる。その後、分析システムは、ウィンドウをベクトル中の第2のCpG部位に「スライド」させ、かつ第2のウィンドウについて別のp値スコアを計算することができる。このように、ウィンドウサイズl及びメチル化ベクトル長mについて、各メチル化状態ベクトルは、m-l+1個のp値スコアを生成することができる。ベクトルの各部分についてのp値計算を完了した後、全てのスライディングウィンドウからの最低p値スコアを、メチル化状態ベクトルに対する全体的なp値スコアとして採用することができる。いくつかの実施態様において、分析システムは、メチル化状態ベクトルに対するp値スコアを集約して、全体的なp値スコアを生成する。
【0078】
スライディングウィンドウを使用することは、メチル化状態ベクトルの列挙された可能性の数、及びそうでなければ行われる必要があるだろうそれらの対応する確率計算を減少させるのに役立てることができる。現実的な例を挙げると、フラグメントが54個を超えるCpG部位を持つ可能性があり得る。単一のpスコアを生成するために2^54(~1.8×10^16)個の可能性について確率を計算する代わりに、分析システムは、そのフラグメントのメチル化状態ベクトルの50個もウィンドウの各々について50個のp値計算を生じるサイズ5のウィンドウ(例えば)を代わりに使用することができる。50個の計算の各々は、メチル化状態ベクトルの2^5(32)の可能性を列挙することができ、合計で50×2^5(1.6×10^3)の確率計算を生じさせる。これは、異常なフラグメントの正確な同定に意味のないヒットで、行われる計算の膨大な減少を生じさせることができる。
【0079】
不確定状態を有する実施態様において、分析システムは、フラグメントのメチル化状態ベクトル中の不確定状態を有するCpG部位を合計したp値スコアを計算してもよい。分析システムは、不確定状態を除くメチル化状態ベクトルの全てのメチル化状態と一致を有する全ての可能性を特定することができる。分析システムは、特定された可能性の確率の合計として、メチル化状態ベクトルに確率を割り当ててもよい。一例として、分析システムは、CpG部位1及び3に対するメチル化状態が観測され、かつCpG部位1及び3におけるフラグメントのメチル化状態と一致することから、< M1, M2, U3 >及び< M1, U2, U3 >のメチル化状態ベクトルの可能性についての確率の合計のように< M1, I2, U3 >のメチル化状態ベクトルの可能性を算出することができる。不確定状態を有するCpG部位を合計するこの方法は、2^iまでの可能性の確率の計算を使用することができ、ここでiは、メチル化状態ベクトル中の不確定状態の数を意味する。追加の実施態様では、動的プログラミングアルゴリズムが、1つ以上の不確定状態を有するメチル化状態ベクトルの確率を計算するために実装されてもよい。有利には、動的プログラミングアルゴリズムは、線形計算時間で動作することができる。
【0080】
いくつかの実施態様において、確率及び/又はp値スコアを計算する計算負担は、少なくともいくつかの計算をキャッシュすることによって更に低減される場合がある。例えば、分析システムは、メチル化状態ベクトル(又はそのウィンドウ)の可能性についての確率の計算を一時的又は持続的なメモリにキャッシュしてもよい。他のフラグメントが同じCpG部位を有する場合、可能性確率をキャッシュすることは、基礎となる可能性確率を再計算する必要なく、p-スコア値を効率的に計算させることができる。同等に、分析システムは、ベクトル(又はそのウィンドウ)からのCpG部位のセットに紐づくメチル化状態ベクトルの可能性の各々についてp値スコアを計算してもよい。分析システムは、同じCpG部位を含む他のフラグメントのp値スコアを決定する際に使用するために、p値スコアをキャッシュしてもよい。一般に、同じCpG部位を有するメチル化状態ベクトルの可能性のp値スコアは、CpG部位の同じセットからの可能性の異なる1つのp値スコアを決定するために使用されてもよい。
【0081】
領域モデル又はがん分類器を訓練する前に、1つ以上の核酸メチル化フラグメントをフィルタリングすることができる。核酸メチル化フラグメントをフィルタリングすることは、対応する複数の核酸メチル化フラグメントから、1つ以上の選択基準(例えば、1つの選択基準を下回る又は上回る)を満たすことができない各それぞれの核酸メチル化フラグメントを取り除くことを備えることができる。1つ以上の選択基準は、p値閾値を含むことができる。それぞれの核酸メチル化フラグメントの出力p値は、それぞれの核酸メチル化フラグメントの対応するメチル化パターンを、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントのメチル化パターンの対応分布との比較に基づいて、少なくとも部分的に決定することができる。
【0082】
複数の核酸メチル化フラグメントをフィルタリングすることは、p値閾値を満たすことができない各それぞれの核酸メチル化フラグメントを除去することを備えることができる。フィルタは、第1の複数の核酸メチル化フラグメントにわたって観察されたメチル化パターンを使用する各それぞれの核酸メチル化フラグメントのメチル化パターンに適用することができる。各それぞれの核酸メチル化フラグメント(例えば、フラグメント1、...、フラグメントN)の各それぞれのメチル化パターンは、1及び0のシークエンスとして表されるメチル化部位識別子と対応するメチル化パターンとで同定される対応する1つ以上のメチル化部位(例えば、CpG部位)を備えることができる。ここで、各「1」は、1つ以上のCpG部位中のメチル化されたCpG部位を表し、かつ各「0」は、1つ以上のCpG部位中の非メチル化されたCpG部位を表す。第1の複数の核酸メチル化フラグメントにわたって観察されたメチル化パターンは、第1の複数の核酸メチル化フラグメントによって集合的に表されるCpG部位状態(例えば、CpG部位A、CpG部位B、・・・、CpG部位ZZZ)に対するメチル化状態分布を構築するために使用することができる。核酸メチル化フラグメントの処理に関する更なる詳細は、2020年3月4日に出願された「Systems and Methods for Cancer Condition Determination Using Autoencoders」と題する米国特許出願第62/985,258号に開示されており、その全体が参照により本明細書に組み込まれる。
【0083】
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが異常メチル化スコア閾値未満である異常メチル化スコアを有するとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。この状況では、異常メチル化スコアを、混合モデルによって決定することができる。例えば、混合モデルは、同じ長さのかつ同じ対応するゲノム位置における可能なメチル化状態ベクトルの数に基づいて、それぞれの核酸メチル化フラグメントに対するメチル化状態ベクトル(例えば、メチル化パターン)の尤度を決定することによって、核酸メチル化フラグメント中の異常なメチル化パターンを検出することができる。これは、参照ゲノム中の各ゲノム位置において、指定された長さのベクトルについて複数の可能なメチル化状態を生成することによって実行することができる。複数の可能なメチル化状態を使用して、可能なメチル化状態の総数、及びそれに続いて、ゲノム位置における各予測されたメチル化状態の確率を決定することができる。その後、サンプル核酸メチル化フラグメントを予測された(例えば、可能性のある)メチル化状態にマッチさせ、かつ予測されたメチル化状態の計算された確率を取り出すことによって、参照ゲノム内のゲノム位置に対応するサンプル核酸の尤度を決定することができる。その後、異常なメチル化スコアを、サンプル核酸メチル化フラグメントの確率に基づいて計算することができる。
【0084】
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数の残基を有するとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。残基の閾値の数は、10~50の間、50~100の間、100~150の間、又は150以上であり得る。閾値の残基数は、20~90の間の固定値であり得る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数のCpG部位を有するとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。CpG部位の閾値の数は、4、5、6、7、8、9、又は10であり得る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントのゲノム開始位置及びゲノム終了位置が、それぞれの核酸メチル化フラグメントがヒトゲノム参照シークエンス中の閾値数未満のヌクレオチドを表すことを示すとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。
【0085】
フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するメチル化パターン並びに同じ対応するゲノム開始位置及びゲノム終了位置を有する核酸メチル化フラグメントを除去することができる。このフィルタリングステップは、いくつかの例において、PCR重複を含む、完全な重複である冗長なフラグメントを除去することができる。フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するゲノム開始位置及びゲノム終了位置を有し、かつ異なるメチル化状態の閾値数未満である核酸メチル化フラグメントを除去することができる。核酸メチル化フラグメントの保持に使用される異なるメチル化状態の閾値の数は、1、2、3、4、5、又は5以上とすることができる。例えば、第2の核酸メチル化フラグメントと同じ対応するゲノム開始位置及び終了位置を有するが、それぞれのCpG部位(例えば、参照ゲノムにアライメントしたもの)において少なくとも1、少なくとも2、少なくとも3、少なくとも4、又は少なくとも5の異なるメチル化状態を有する第1の核酸メチル化フラグメントは、保持される。別の例として、同じメチル化状態ベクトル(例えば、メチル化パターン)を有するが、第2の核酸メチル化フラグメントとして異なる対応するゲノム開始位置及び終了位置を有する第1の核酸メチル化フラグメントもまた保持される。
【0086】
フィルタリングは、複数の核酸メチル化フラグメント中のアッセイアーチファクトを除去することができる。アッセイアーチファクトの除去は、シークエンシングされたハイブリダイゼーションプローブから得られたシークエンスリード及び/又はバイサルファイト変換中に変換を受けることができなかったシークエンスから得られたシークエンスリードを除去することを備えることができる。フィルタリングは、汚染物質(例えば、シークエンシング、核酸単離、及び/又はサンプル調製に起因する)を除去することができる。
【0087】
フィルタリングは、複数の訓練対象にわたるがん状態に対するそれぞれのメチル化フラグメントの相互情報フィルタリングに基づいて、複数のメチル化フラグメントからメチル化フラグメントのサブセットを除去することができる。例えば、相互情報は、同時にサンプリングされた2つの関心のある条件の間の相互依存性の尺度を提供することができる。相互情報は、1つ以上のデータセットからCpG部位の独立したセット(例えば、核酸メチル化フラグメントの全部内又は一部内)を選択し、かつ2つのサンプル群(例えば、遺伝子型データセット、生体サンプル及び/又は対象のサブセット並びに/若しくは群)間のCpG部位セットに対するメチル化状態の確率を比較することによって決定することができる。相互情報スコアは、スライディングウィンドウのそれぞれのフレーム中のそれぞれの領域において第1の条件対第2の条件のメチル化パターンの確率を表示することができ、このように、それぞれの領域の識別力を示すことができる。相互情報スコアは、選択されたCpG部位のセット及び/又は選択されたゲノム領域にわたって進行するようなスライディングウィンドウの各フレーム中の各領域について同様に計算することができる。相互情報フィルタリングに関する更なる詳細は、2019年12月13日に出願された「Cancer Classification using Patch Convolutional Neural Networks」と題する米国仮特許出願62/948,129号に開示されており、その全体が参照により本明細書に組み込まれる。
【0088】
II.B.ii.ハイパーメチル化フラグメント及びハイポメチル化フラグメント
【0089】
いくつかの実施態様において、分析システムは、閾値を超える数のCpG部位を有し、かつ閾値パーセンテージを超えるCpG部位がメチル化されている、又は閾値パーセンテージを超えるCpG部位が非メチル化されているかのいずれかを有するフラグメントとして異常なフラグメントを判定し、分析システムは、そのようなフラグメントを、ハイパーメチル化フラグメント又はハイポメチル化フラグメントとして同定する。フラグメント(又はCpG部位)の長さの閾値の例は、3より上、4より上、5より上、6より上、7より上、8より上、9より上、10より上、等を含む。メチル化又は非メチル化のパーセンテージの閾値の例は、80%より上、85%より上、90%より上、又は95%より上、若しくは50%~100%の範囲内の他のパーセンテージを含む。
【0090】
II.C.分析システムの例
【0091】
図9Aは、一実施態様による核酸サンプルをシークエンシングするためのデバイスのフローチャートである。この例示的なフローチャートは、シークエンサ920及び分析システム900などのようなデバイスを含む。シークエンサ920及び分析システム900は、本開示に記載されたプロセスのいずれかにおける1つ以上のステップを行うために、連動して動いてもよい。
【0092】
様々な実施態様において、シークエンサ920は、濃縮された核酸サンプル910を受け取る。図9Aに示すように、シークエンサ920は、特定のタスク(例えば、シークエンシングの開始又はシークエンシングの終了)とのユーザー対話を可能にするグラフィカルユーザーインターフェース925と、また同様に濃縮フラグメントサンプルを含むシークエンシングカートリッジをロードするため、及び/又はシークエンシングアッセイを行うために必要なバッファーをロードするための1つ以上のロードステーション930と、を含むことができる。それゆえに、シークエンサ920のユーザーが必要な試薬及びシークエンシングカートリッジをシークエンサ920のロードステーション930に提供すると、ユーザーは、シークエンサ920のグラフィカルユーザーインターフェース925と対話することによってシークエンシングを開始することができる。一度開始されると、シークエンサ920は、シークエンシングを行い、核酸サンプル910からの濃縮フラグメントのシークエンスリードを出力する。
【0093】
いくつかの実施態様では、シークエンサ920は、分析システム900と通信可能に結合される。分析システム900は、1つ以上のCpG部位におけるメチル化状態の評価、バリアントコール又は品質管理などのような様々な用途のためにシークエンスリードを処理するために使用されるいくつかの数のコンピューティングデバイスを含む。シークエンサ920は、BAMファイルフィーマットでシークエンスリードを分析システム900に提供してもよい。分析システム900は、無線、有線、又は無線及び有線の組み合わせの通信技術を通じてシークエンサ920に通信可能に結合することができる。一般に、分析システム900は、プロセッサ、及びプロセッサによって実行されると、プロセッサにシークエンスリードを処理させる、若しくは本明細書に開示される方法又はプロセスのいずれかの1つ以上のステップを行うコンピュータ命令を格納する非一時的コンピュータ可読記憶媒体、を備えるように構成される。
【0094】
いくつかの実施態様では、シークエンスリードを、例えば、図1Aのプロセス100のステップ140を介して、アライメント位置情報を決定するために、参照ゲノムにアライメントしてもよい。アラインメント位置は、一般に、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム中の領域の開始位置及び終了位置を記載してもよい。メチル化シークエンシングに対応して、アライメント位置情報は、参照ゲノムへのアライメントに従ってシークエンスリード中に含まれる最初のCpG部位及び最後のCpG部位を示すように一般化されてもよい。アライメント位置情報は、所与のシークエンスリード中の全てのCpG部位のメチル化状態及び位置を更に示してもよい。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよく、そのようなものとして、分析システム700は、シークエンスリードを、そのシークエンスリードにアライメントする1つ以上の遺伝子でラベルしてもよい。一実施態様において、フラグメントの長さ(又はサイズ)は、開始位置及び終了位置から決定される。
【0095】
様々な実施態様において、例えばペアエンドシークエンスプロセスが使用されるとき、シークエンスリードは、R_1及びR_2として示されるリードペアで構成される。例えば、第1のリードR_1は、二本鎖DNA(dsDNA)分子の第1の端からシークエンシングされてもよく、一方、第2のリードR_2は、二本鎖DNA(dsDNA)の第2の端からシークエンシングされてもよい。それゆえに、第1のリードR_1及び第2のリードR_2のヌクレオチド塩基対を、参照ゲノムのヌクレオチド塩基と一貫して(例えば、反対の向きで)アライメントする場合がある。リードペアR_1及びR_2から得られるアラインメント位置情報は、第1のリード(例えば、R_1)の末端に対応する参照ゲノム内の開始位置、及び第2のリード(例えば、R_2)の末端に対応する参照ゲノム内の終了位置を含んでもよい。言い換えれば、参照ゲノム内の開始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内部の可能性の高い位置を表すことができる。SAM(シークエンスアライメントマップ)形式又はBAM(バイナリ)形式を有する出力ファイルが生成され、かつさらなる解析のために出力されてもよい。
【0096】
ここで図9Bを参照すると、図9Bは、一実施態様によるDNAサンプルを処理するための分析システム900のブロック図である。分析システムは、DNAサンプルの分析に使用するための1つ以上のコンピューティングデバイスを実装する。分析システム900は、シークエンスプロセッサ940、シークエンスデータベース945、モデルデータベース955、モデル950、パラメータデータベース965、及びスコアエンジン960を含む。いくつかの実施態様において、分析システム900は、図1Aのプロセス100及び図2のプロセス200の一部又は全部を行う。
【0097】
シークエンスプロセッサ940は、サンプルからのフラグメントに対するメチル化状態ベクトルを生成する。フラグメント上の各CpG部位において、シークエンスプロセッサ940は、図1Aのプロセス100を介して、各フラグメントについて、参照ゲノム中のフラグメントの位置、フラグメント中のCpG部位の数、及びメチル化、非メチル化、又は不確定のいずれかであるフラグメント中の各CpG部位のメチル化状態を特定するメチル化状態ベクトルを生成する。シークエンスプロセッサ940は、シークエンスデータベース945内のフラグメントに対するメチル化状態ベクトルを格納してもよい。シークエンスデータベース945内のデータは、サンプルからのメチル化状態ベクトルが互いに紐づくように編成されてもよい。
【0098】
さらに、多数の異なるモデル950が、モデルデータベース955に格納されてもよく、又はテストサンプルと共に使用するために検索されてもよい。一例では、モデルは、異常なフラグメントに由来する特徴ベクトルを使用してテストサンプルに対するがん予測を同定するための訓練されたがん分類器である。がん分類器の訓練及び使用は、セクションIII.がんを同定するためのがん分類器と併せて更に論じられるだろう。分析システム900は、1つ以上のモデル950を訓練し、かつ様々な訓練されたパラメータをパラメータデータベース965に格納してもよい。分析システム900は、モデル950をモデルデータベース955に関数とともに格納する。
【0099】
推論中、スコアエンジン960は、1つ以上のモデル950を使用して、出力を返す。スコアエンジン960は、モデルデータベース955内のモデル950を、パラメータデータベース965からの訓練されたパラメータと共にアクセスする。各モデルに従って、スコアエンジンは、モデルのための適切な入力を受け取り、かつ受け取った入力、パラメータ、及び入力と出力とを関連付ける各モデルの関数に基づいて、出力を計算する。いくつかの使用例では、スコアエンジン960は、モデルからの計算された出力の信頼度に相関するメトリクスを更に計算する。他の使用例では、スコアエンジン960は、モデルで使用するための他の中間的な値を計算する。
【0100】
III.ゲノム領域モデリングによるがん分類
【0101】
III.A.概要
【0102】
がん分類は、テストサンプル中のDNAフラグメントに基づいて、特定のテストサンプルに対するがん予測を同定するプロセスであり得る。がん予測は、がんと非がんとの間の二値予測、及び/又は複数のがんタイプ間のマルチクラス予測であってもよい。例えば、二値予測は、がん又は非がんかのラベル、若しくはがんの可能性であってもよい。一例として、マルチクラス予測は、複数のがんタイプの各々について尤度を提供してもよく、又は、閾値を超える又は最大の尤度に紐づく1つ以上のがんタイプを提供してもよい。
【0103】
図3は、がん分類プロセスを図示する。テストサンプル305は、複数のDNAフラグメント(例えば、メチル化フラグメント)を含む。DNAフラグメントは、図2Bのプロセス220を介して異常なフラグメントであると判定されてもよく、又はより具体的には、プロセス220のステップ270を介して判定されるようなハイパーメチル化フラグメント及びハイポメチル化フラグメントであると判定されてもよい。DNAフラグメントは、各DNAフラグメントに対するメチル化埋め込みを出力するメチル化埋め込みモデル310に入力されてもよい。DNAフラグメント(又は各DNAフラグメントに対するメチル化埋め込み)は、アッセイによって標的化された各ゲノム領域について訓練された領域モデルを含む複数の領域モデル320に提供することができる。各領域モデルは、ゲノム領域中のDNAフラグメント又はそのようなフラグメントのメチル化埋め込みを入力するように構成することができる。例えば、ゲノム領域1中のDNAフラグメントはゲノム領域1モデル322に入力され、ゲノム領域2中のDNAフラグメントはゲノム領域2モデル324に入力され、…、ゲノム領域N中のDNAフラグメントはゲノム領域Nモデル326に入力される。各ゲノム領域モデルは、入力されたDNAフラグメントに対するがんスコア又は領域埋め込みを出力してもよい。特徴化モジュール330は、領域モデル320の出力に基づいて、テストサンプル305に対するテスト特徴ベクトルを生成する。各ゲノム領域のサイズ及びゲノム領域の合計数は、分類性能を最適化するように調整されてもよい。いくつかの実施態様では、少なくとも1,000、少なくとも2,000、少なくとも3,000、少なくとも4,000、少なくとも5,000、少なくとも6,000、少なくとも7,000、少なくとも8,000、少なくとも9,000、少なくとも10,000のゲノム領域、少なくとも20,000のゲノム領域、少なくとも30,000のゲノム領域、少なくとも40,000のゲノム領域、少なくとも50,000のゲノム領域、少なくとも60,000のゲノム領域、少なくとも70,000のゲノム領域、少なくとも80,000ゲノム領域、又は少なくとも10万のゲノム領域である。いくつかの実施態様では、各ゲノム領域は、50以下、60以下、70以下、80以下、90以下、又は100以下のCpG部位である。いくつかのそのような実施態様では、複数の領域中の各ゲノム領域は、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも20、少なくとも30、又は30より上のCpG部位を含む。いくつかの実施態様において、各ゲノム領域は、1つ以上の連続したCpG部位を含む。ゲノム領域は、ゲノム領域内のCpG部位の近接性に基づいて選択することができる。例えば、ゲノム領域は、所定の長さのゲノム領域内のCpG部位の閾値密度に基づき選択される。
【0104】
複数のゲノム領域にわたって、10,000個より多いCpG部位、25,000個より多いCpG部位、50,000個より多いCpG部位、100,000個より多いCpG部位、25万個より多いCpG部位、50万個より多いCpG部位、100万個より多いCpG部位、200万個より多いCpG部位、300万個より多いCpG部位又は500万個より多いCpG部位であってもよい。第1のゲノム領域及び第2のゲノム領域は、同じ数のCpG部位を含むことができる。いくつかの代替的な実施態様において、第1のゲノム領域は、第1の数のCpG部位を含むことができ、第2のゲノム領域は、第1の数のCpG部位とは異なる第2の数のCpG部位を含むことができる。
【0105】
各ゲノム領域は、参照ゲノム(例えば、ヒト参照ゲノム)の一部から選択することができる。各ゲノム領域は、ヒトゲノム参照シークエンスの500塩基対~10,000塩基対の間を表すことができる。複数のゲノム領域中の各ゲノム領域は、ヒトゲノム参照シークエンスの500塩基対~2,000塩基対の間を表すことができる。複数のゲノム領域の各ゲノム領域は、1000塩基対を含むことができる。第1のゲノム領域は、塩基対における第1の長さとすることができ、第2のゲノム領域は、塩基対における第1の長さとは異なる塩基対における第2の長さとすることができる。いくつかの実施態様では、複数のゲノム領域中の各ゲノム領域は、塩基対における同じ長さとすることができる。複数のゲノム領域中の各ゲノム領域は、ヒトゲノム参照シークエンスの異なる部分を表すことができる。複数のゲノム領域中の各ゲノムは、標的メチル化シークエンシングパネル中の標的の全て又は一部に対応することができる。複数のゲノム領域中の各ゲノム領域は、標的メチル化シークエンシングパネル中の1つのターゲットに対応し得る。さらに、標的メチル化シークエンシングパネル中の標的は、1つ以上のゲノム領域を含むことができる。
【0106】
1つ以上の核酸メチル化フラグメントは、ゲノム領域にアライメントする(例えば、マッピングする)ことができる。ゲノム領域にアライメントする核酸メチル化フラグメントの数は、少なくとも5、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも150、少なくとも200、少なくとも500、少なくとも1000、少なくとも2000、少なくとも5000、少なくとも10,000、少なくとも100,000、少なくとも100万、又はそれ以上である。各複数の核酸メチル化フラグメントは、各複数の核酸メチル化フラグメントのサブセットが参照ゲノムの対応する1つ以上の部分を表す1つ以上のゲノム領域にビン詰めすることができるように、参照ゲノムの全て又は一部にまたがる核酸メチル化フラグメントを含むことができる。同じように、核酸メチル化フラグメントの1つ以上のサブセットを単一のゲノム領域にビン詰めすることができ、ここで核酸メチル化フラグメントの各サブセットは、それぞれの訓練対象に対応するそれぞれの遺伝子型データセットに対応する。核酸メチル化フラグメントは、核酸メチル化フラグメントのシークエンスがゲノム領域によってまたがるシークエンス内部に完全に包含する場合、ゲノム領域にビン詰めすることができる。いくつかの代替的な実施態様において、核酸メチル化フラグメントは、核酸メチル化フラグメントのシークエンスの少なくとも1つの閾値割合が、ゲノム領域によってまたがるシークエンス内部に包含する場合、ゲノム領域に蓄えられる。いくつかの実施態様では、ゲノム領域によってまたがるシークエンスが核酸メチル化フラグメントの長さより大きい場合、核酸メチル化フラグメントはゲノム領域にビン詰めされる。
【0107】
がん分類器340は、テスト特徴ベクトルを入力し、かつがん予測345を返すように構成される。がん予測は、がんの存在及び非存在の間の二値予測であってもよいし、又は複数のがんタイプ間のマルチクラス予測であってもよい。がん分類器340は、複数の分類パラメータと、関数であって、入力としての特徴ベクトル及び入力としての特徴ベクトルに対して分類パラメータを用いて動作する関数によって決定される出力としてのがん予測との間の関係を表す関数と、を備える。
【0108】
展開の前に、メチル化埋め込みモデル310、領域モデル320、特徴化モジュール330、がん分類器340、又はそれらの任意の組み合わせを訓練することができる。
【0109】
III.B.訓練
【0110】
分析システムは、異常なフラグメントのセット及びがんタイプのラベルを各々有する複数のトレーニングサンプルを用いて、メチル化埋め込みモデル310、領域モデル320、特徴化モジュール330、がん分類器340、又はそれらの任意の組み合わせを訓練することができる。複数のトレーニングサンプルは、「非がん」の一般的なラベルを有する健康な個体からのサンプル、「がん」の一般的なラベル又は特定のラベル(例えば、「乳がん」、「肺がん」等)を有する対象からのサンプルの任意の組合せを含むことができる。あるがんタイプの対象からのトレーニングサンプルは、そのがんタイプのコホート又はがんタイプコホートと呼ばれることがある。
【0111】
メチル化埋め込みモデル310、領域モデル320、特徴化モジュール330、及びがん分類器340は、他の構成要素と独立して又は同時に訓練してもよい。がん分類プロセスの構成要素は、メチル化埋め込みモデル310、領域モデル320、特徴化モジュール330、及びがん分類器340を含む図3に記載された任意のモデルを含む。がん分類プロセスの構成要素を独立して訓練することは、第1の構成要素を通じて訓練データを供給しながら、第2の構成要素の重みを調整することなく、第1の構成要素の重みを調整することを指し得る。独立して構成要素を訓練することは、構成要素の訓練を同期的、又は他から独立して同時に行うことができる。2つの構成要素を同時に学習させるとは、2つの構成要素の重みを調整しながら、両方の構成要素に学習データを供給することを指す。例えば、全ての様々な構成要素を同時に訓練するとき、分析システムは、トレーニングサンプルを各構成要素に通して(すなわち、最初から最後まで)、かつトレーニングサンプルの既知のラベル及びトレーニングサンプルの予測ラベルの間の損失関数を最小化するように各構成要素の重みを調節する。分析システムは、トレーニングサンプルをバッチに細分化して構成要素に渡す反復バッチトレーニングを実施してもよい。訓練に使用されるエポック数は、構成要素を通じる各トレーニングサンプルの通過回数とすることができる。
【0112】
III.B.i メチル化埋め込みモジュール
【0113】
メチル化埋め込みモデル310は、入力DNAフラグメントのメチル化埋め込みを生成するために訓練される。メチル化埋め込みは、DNAフラグメントのメチル化シグネチャーを捕捉する数学的ベクトルとすることができる。DNAフラグメント又はそのメチル化状態ベクトルは、DNAフラグメントによってカバーされる各CpG部位の少なくとも1つのメチル化状態を記述することができる。一般に、メチル化埋め込みモデル310は、フラグメント空間の次元を埋め込み空間へと減少させることができる。例えば、フラグメント空間は100万を超えるCpG部位にまたがる場合があるが、埋め込み空間は最大で100次元にまたがる場合がある。メチル化埋め込みモデル310は、フラグメント空間中の全てのフラグメントを埋め込み空間に投影することが可能であり得る。いくつかのアプローチは、主成分分析(PCA)、t分布確率的近傍埋め込み、オートエンコーダ、線形判別分析、他の次元削減技術、又は他の埋め込み技術を含むことができる。メチル化埋め込みモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、又は何らかの他の機械学習アルゴリズムなどのような機械学習アルゴリズムを実装してもよい。メチル化埋め込みモデル310は、独立して、又は他の構成要素と同時に訓練することができる。
【0114】
自動エンコード実施態様において、メチル化埋め込みモデル310は、入力DNAフラグメント(又はそのメチル化状態ベクトル)をメチル化埋め込みに投影するように構成されたエンコーダと、メチル化埋め込みからDNAフラグメント(又はそのメチル化状態ベクトル)をデコードするように構成されたデコーダと、を有する。エンコーダ及びデコーダは、DNAフラグメント(又はそのメチル化状態ベクトル)をエンコーダ及びデコーダに入力し、かつデコードされたフラグメントと元の入力フラグメント(又はデコードされたメチル化状態ベクトルと元の入力メチル化状態ベクトル)間の損失関数を最小化するために重みを調整することによって同時に訓練することができる。十分に訓練されると、例えば、閾値を下回る損失を保証して、エンコーダは、入力DNAフラグメント(又はそのメチル化状態ベクトル)に対するメチル化埋め込みを生成するように構成されたメチル化埋め込みモデル310として機能することができる。
【0115】
メチル化埋め込みモデル310の利点は、ゲノム領域にわたる共有重みを含む。メチル化埋め込みモデル310は、フラグメント空間全体にわたってまたがる全てのゲノム領域からフラグメントを投影することができるので、メチル化埋め込みモデル310の重み及びパラメータは、ゲノム領域にわたって共有される。例えば、あるゲノム領域中のフラグメント及び別のゲノム領域中のフラグメントは、同じメチル化埋め込みモデル310に供給され、メチル化埋め込みモデル310の同じ重み及びパラメータで各フラグメントに対するメチル化埋め込みが生成される。メチル化埋め込みモデル310は、ゲノム領域間で共有される重みが与えられれば、ゲノム領域間の情報を保持することができる。メチル化埋め込みモデル310を独立して訓練するとき、構成要素を同時に訓練する能力を与えられれば、訓練時間を節約することができるという付加的な利点があり得る。
【0116】
III.B.ii 領域モデル
【0117】
ゲノム領域モデルは、各ゲノム領域に対してトレーニングすることができる。ゲノム領域モデルは、DNAフラグメント又はそのメチル化埋め込みを入力し、かつ分類のための特徴ベクトルの生成に使用されるがんスコア又は領域埋め込みを出力することができる。各ゲノム領域モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、又は他の何らかの機械学習アルゴリズムを実装してもよい。
【0118】
各ゲノム領域モデルがニューラルネットワークアルゴリズムを実装するいくつかの実施態様において、各ゲノム領域は、1つ以下の隠れ層、2つ以下の隠れ層、又は3つ以下の隠れ層を備える。各隠れ層は、8ノード(又はユニット、ニューロン)以下、9ノード以下、10ノード以下、11ノード以下、12ノード以下、16ノード以下、20ノード以下、24ノード以下、28ノード以下、若しくは32ノード以下を有していてもよい。ゲノム領域のアーキテクチャは異なっていてもよい。例えば、第1のゲノム領域モデルは、第2のゲノム領域として異なる数の隠れ層を有してもよい。別の例では、第3のゲノム領域モデルは、第4のゲノム領域モデルとは異なる隠れ層内のノードの数を有していてもよい。領域モデルは、互いに独立して訓練されてもよいし、又は同時に訓練されてもよい。
【0119】
図4Aは、1つ以上の実施態様による、ゲノム領域モデルを独立して訓練するプロセスを説明する例示的なフローチャートである。分析システムは、トレーニングサンプルからゲノム領域A中のフラグメントを特定することができる。ゲノム領域A中のがんフラグメント410は、がんトレーニングサンプルから採取され、かつ、がんのラベルを割り当てられる。ゲノム領域A中の非がんフラグメント420は、非がんトレーニングサンプルから取得され、かつ非がんのラベルを割り当てられる。分析システムは、ゲノム領域Aモデル430を通じてがんフラグメント410及び非がんフラグメントを供給し、かつ既知のラベル425及びゲノム領域Aモデル430による予測ラベルの間の損失関数を最小化するように重みを調整する。
【0120】
別の実施態様では、ゲノム領域モデルは、フラグメント分類器を用いて訓練されてもよい。そのような実施態様では、ゲノム領域モデルは、領域埋め込みを出力するように構成される。フラグメント又はそれらのメチル化埋め込みは、がんのラベルを出力するフラグメント分類器に供給される領域埋め込みを出力するゲノム領域モデルを通じて供給される。分析システムは、フラグメントの既知のラベルとフラグメントの予測されるラベルとの間の損失関数を最小化するためにゲノム領域モデル及びフラグメント分類器の重みを調整することによって、ゲノム領域モデル及びフラグメント分類器を訓練する。展開中、訓練されたゲノム領域モデルは、フラグメント又はそのメチル化埋め込みを入力し、かつ領域埋め込みを出力するように構成される。
【0121】
ゲノム領域モデルを独立して訓練することは、各ゲノム領域モデルが他のものから独立しているため、比較的小さなサイズである各ゲノム領域モデルを迅速に訓練し、かつ同時に訓練することができるという点で有利であり得る。これらの利点は、コンピューティングリソースのための費用の減少とより速い訓練時間とに変換することができる。
【0122】
図4Bは、一実施態様による、ゲノム領域モデルを展開するプロセスを説明する例示的なフローチャートである。ゲノム領域A中のサンプルフラグメント440は、ゲノム領域Aモデル430に入力され、ゲノム領域Aモデル430は、がんスコア445を出力する。がんスコア445は、がんと非がんとの間の二値予測、すなわち、サンプルフラグメント440ががんを有する個体に由来した尤度であってよい。がんスコア445は、代替的に、複数のがんタイプ間のマルチクラス予測、すなわち、サンプルフラグメント440が各がんタイプの個体に由来した尤度(例えば、乳がんを有する個体からの尤度70%、大腸がんを有する個体からの尤度20%、がんを持たない個体からの尤度10%)であってよい。ゲノム領域モデルは、関心のある条件の確率などのような、任意の予測値を出力することができる。ゲノム領域モデルが単一クラス分類モデルである場合、出力は、条件(例えば、ラベル又はクラス)を有する入力データセット(例えば、生体サンプル及び/又は対象の)の尤度とすることができる。ゲノム領域モデルがマルチクラス分類モデルである場合、複数の予測値を生成することができ、各予測値は、関心のある各条件についての入力データセットの尤度を示す。
【0123】
ゲノム領域モデル(例えば、ニューラルネットワーク)は、対応する複数の重みを含むことができる。ゲノム領域モデルは、それぞれのゲノム領域にマッピングされる核酸メチル化フラグメントをスコア化し、それによって、対応する複数のトレーニングスコアを得ることができる。訓練は、対応する複数のトレーニングスコアと核酸メチル化フラグメントを元とする訓練対象のがん状態についての対応するラベルとの比較に基づいて、ゲノム領域モデル中の対応する複数の重みの各重みの対応する値を更新することができる。
【0124】
各ゲノム領域モデルは、対応する複数の入力を含むことができ、各入力は、ゲノム領域におけるメチル化状態に対するものである。各ゲノム領域モデルは、対応する複数の隠れニューロンを備える対応する第1の隠れ層を更に備えることができ、対応する複数の隠れニューロン中の各隠れニューロンは、(i)複数の入力における各入力に完全に結び付けられ、(ii)第1の活性化関数タイプに紐づけられ、(iii)ゲノム領域モデルに対する重量に紐づけられる。各ゲノム領域モデルは、1つ以上の対応する出力を更に含むことができ、各それぞれの出力は、(i)対応する複数の隠れニューロン中の各隠れニューロンの出力を入力として直接又は間接的に受信し、(ii)第2の活性化関数タイプに紐づけられる。
【0125】
各隠れユニットは、入力データに対して機能を行う活性化関数(例えば、線形又は非線形関数)と紐づけることができる。活性化関数は、ニューラルネットワークが元のデータの表現で訓練され、かつそれに続き、新しい(例えば、以前に見たことのない)データの追加の表現を「適する」又は生成できるように、データに非線形性を導入することができる。各隠れユニットは、活性化関数に基づいて決定される、ニューラルネットワークの出力に寄与する前述の重みのうちの1つと更に紐づけることができる。隠れユニットは、適当な重み(例えば、ランダム化された重み)で初期化することができる。隠れユニットは、所定の重みのセットで初期化することができる。
【0126】
各ゲノム領域モデルは、完全連結型ニューラルネットワークとすることができる。例えば、完全連結型ニューラルネットワークは、対応する複数の隠れニューロンを備える第1の隠れ層を備え、各隠れニューロンは、以前の層のすべてのニューロンに接続される。各ゲノム領域モデルは、部分連結ニューラルネットワークとすることができる。例えば、部分連結ニューラルネットワークは、対応する複数の隠れニューロンを備える第1の隠れ層を備え、ここで、1つ以上の隠れニューロンは、以前の層のすべてのニューロンと連結されていない。各隠れニューロンは、対応するゲノム領域モデルに対して、対応する複数の重み中の対応する重みと紐づけることができる。1つ以上の隠れニューロンは、対応するゲノム領域モデルに対して、対応する重みに紐づけられない場合がある。対応する複数の重みは、複数のバイアス値を更に含むことができる。
【0127】
第1の活性化関数タイプは、ハイパボリックタンジェント、シグモイド、ソフトマックス、ガウス、ボルツマン重み平均、絶対値、線形、整流線形ユニット(ReLU)、有界整流線形、ソフト整流線形、パラメータ化整流線形、平均、最大、最小、符号、平方、平方根、多二次、逆二次、逆多二次、多調波スプライン又は薄板スプラインを備えることができる。第2の活性化関数タイプは、第1の活性化関数タイプと同じとすることができる。いくつかの実施態様では、第2の活性化関数タイプは、第1の活性化関数タイプと異なることができる。
【0128】
第1のゲノム領域モデルは、第2のゲノム領域モデルとは異なる第1の隠れ層のニューロンの数を有することができる(例えば、異なる領域に対する異なるニューラルネットワークは、異なるサイズとすることができる)。ゲノム領域モデル中の隠れニューロンの数は、ゲノム領域に対して独立して決定することができる。隠れニューロンの数は、ゲノム領域モデルの性能に基づいて実験的に決定及び/又は最適化することができる。例えば、各ゲノム領域モデルの性能は、各ゲノム領域モデルに対して利用可能なデータ量に対するゲノム領域モデルのサイズ(例えば、隠れユニット及び/又は層の数)に依存する。第1のゲノム領域モデルは、第2のゲノム領域モデルとは異なる数の層を有することができる(例えば、異なる領域に対する異なるニューラルネットワークは、異なる数の層を有することができる)。対応する複数の隠れニューロンは、2ニューロン~48ニューロンの間、又は4ニューロン~24ニューロンの間で構成することができる。いくつかの実施態様では、複数の訓練されたニューラルネットワーク中の各対応する訓練されたニューラルネットワーク中の隠れ層の数は、2つ~5つの隠れ層の間で構成することができる。
【0129】
ゲノム領域モデルは、浅いニューラルネットワークとすることができる。浅いニューラルネットワークは、隠れ層がほとんどないニューラルネットワークとすることができる。このようなニューラルネットワークアーキテクチャは、ニューラルネットワークの訓練の効率を向上させ、かつ訓練に関与する層の数が少ないため、計算能力を節約することができる。各ゲノム領域モデル中の隠れ層の数は、2層~5層の間、又は5層より大きくすることができる。複数のゲノム領域中の各ゲノム領域は、単一のゲノム領域モデルによって表すことができる。いくつかの代替的な実施態様において、複数のゲノム領域中の各ゲノム領域は、複数のゲノム領域モデルによって表すことができる。各ゲノム領域は、2つ~5つの間のゲノム領域モデルによって表すことができ、対応する第1の隠れ層中の第1の対応する重みの値は、2つ~5つの間のゲノム領域モデルの各々において異なることができる。いくつかの実施態様では、各ゲノム領域モデルは、2つ~5つの間のゲノム領域モデルによって表すことができ、第1の隠れ層中の各対応する重みの値は、2つ~5つの間のゲノム領域モデルの各々において独立することができる。ゲノム領域モデルの数は、各それぞれのゲノム領域に対して独立に決定することができる。ゲノム領域モデルの数は、対応する訓練されたニューラルネットワークの性能に基づいて、実験的に決定及び/又は最適化することができる。
【0130】
ゲノム領域モデル(例えば、浅いニューラルネットワーク)は、入力を受け入れる入力層と、出力(例えば、予測値)を生成する出力層と、を備えることができる。出力は、入力(例えば、フラグメント及び/又はデータセット)が1つ以上の所定のクラス(例えば、ラベル)に属するというスコア(例えば、確率又は尤度)を含むことができる。出力は、ソフトマックス又はロジスティック回帰アルゴリズムを使用して、ゲノム領域モデルによって決定することができる。出力は、各核酸メチル化フラグメントに対して生成することができる。ゲノム領域モデルの訓練は、本開示に記載されるようなデータセットの任意の処理及び/又はフィルタリング後の、複数の核酸メチル化フラグメント及び/又はメチル化状態ベクトルを備えるデータセットを入力として使用することができる。ゲノム領域モデル(例えば、訓練された及び/又は未訓練)は、複数の核酸メチル化フラグメントのサブセットであるデータセットを入力として使用することができる。例えば、ゲノム領域モデルは、核酸メチル化フラグメントのサブセットを入力として使用し、核酸メチル化フラグメントのサブセット中の各核酸メチル化フラグメントに対して、それぞれの核酸メチル化フラグメントのシークエンスの全て又は一部は、それぞれのゲノム領域によってまたがるシークエンス内部に包含される。このように、各ゲノム領域モデルに対する入力は、核酸メチル化フラグメントの異なるサブセットとすることができる。
【0131】
ゲノム領域モデルの訓練に使用される入力は、ゲノムデータセットの変換(例えば、ワンホットエンコーディングによって)とすることができる。例えば、それぞれの核酸メチル化フラグメントに対する複数のCpG部位中の各CpG部位中のメチル化状態は、それぞれのゲノム領域に対応するゲノム領域モデルに適用される2次元ベクトルでワンホットエンコーディングされる。ワンホットエンコーディングは、各核酸メチル化フラグメントのメチル化状態ベクトル中の各CpG部位に対するメチル化状態をコード化することができる。第1の次元(例えば、ベクトル)は、メチル化CpG部位をコード化することができ、ここで、メチル化CpG部位の存在は「1」としてコード化され、メチル化CpG部位の非存在は「0」としてコード化される。第2の次元(例えば、ベクトル)は、非メチル化CpG部位をコード化することができ、ここで、非メチル化CpG部位の存在は、「1」としてコード化され、非メチル化CpG部位の非存在は、「0」としてコード化される。メチル化も非メチル化もされていないCpG部位(例えば、メチル化状態が代替状態又は未知の状態であるとき)は、第1の次元及び第2の次元の両方において「0」及び「0」としてワンホットエンコーディングすることができる。欠落しているCpG部位には値を割り当てなくてもよい。大きなゲノム領域では、ワンホットエンコーディングが疎になり得る。このように、ゲノム領域モデルは、複数の核酸メチル化フラグメントのワンホットエンコーディングを使用して生成された多次元データセットを入力として使用することができる。
【0132】
ゲノム領域モデルは、核酸メチル化フラグメントに対して不完全又は部分的なメチル化状態ベクトル(例えば、それぞれの核酸メチル化フラグメントの核酸シークエンスの一部が、ゲノム領域によってまたがるゲノムシークエンス内に包含するとき)を入力として使用することが可能である。例えば、核酸メチル化フラグメントは、それぞれのゲノム領域中のCpG部位の一部を備え、核酸メチル化フラグメントは、ゲノム領域の全長にまたがらず、及び/又は核酸メチル化フラグメントの核酸シークエンスは、ゲノム領域によってまたがるシークエンス内に全体的に包含しない。いくつかのそのような事例では、ゲノム領域モデルのための入力データセットを生成する目的で、それぞれのゲノム領域にマッピングするそれぞれの核酸メチル化フラグメントのメチル化状態ベクトルの任意の部分は、ゲノム領域モデルの入力として提供され、かつそれぞれのゲノム領域によってまたがるシークエンスを越えて拡張するそれぞれの核酸メチル化フラグメントのメチル化状態ベクトルの任意の部分は、切り捨てることができる。
【0133】
1つ以上のゲノム領域モデルは、訓練対象ががん状態を有する確率、又は訓練対象が対応するがんタイプを有する確率を出力することができる。がん状態は、がんの存在を含むことができ、訓練対象ががん状態を有する確率は、訓練対象ががんを有する確率(例えば、がんの存在又は非存在)である。複数のゲノム領域モデルは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又は20より大きいクラスを出力することができる。1つ以上のゲノム領域モデルによって決定される1つ以上のクラス(例えば、がん状態及び/又はタイプ)は、複数のゲノム領域中の各ゲノム領域にわたって同じ1つ以上のクラス(例えば、がん状態及び/又はタイプ)であることができる。がんのタイプの詳細は、本明細書の他の箇所で記載されている。
【0134】
ゲノム領域モデル(例えば、ニューラルネットワーク)を訓練することは、バックプロパゲーション(例えば、勾配降下)を通じて重みを更新することを備えることができる。バックプロパゲーションのために、訓練されていないモデルの出力(例えば、ニューラルネットワークによって生成される予測値)を、任意に選択された初期の重みのセットを使用して生成することができる。その後、出力は、誤差を計算する(例えば、損失関数を使用して)ために誤差関数を評価することによって、元の入力(例えば、核酸メチル化フラグメントが得られた訓練対象のがん状態に対する対応するラベル)と比較することができる。その後、誤差が最小化されるように(例えば、損失関数に従って)重みを更新することができる。誤差は、誤差関数(例えば、損失関数)を使用して計算することができる。損失関数は、平均二乗誤差、二次損失、平均絶対誤差、平均バイアス誤差、ヒンジ、マルチクラスサポートベクトルマシン、及び/又はクロスエントロピとすることができる。ゲノム領域モデルを訓練することは、勾配降下アルゴリズム及び/又は最小化関数に従って誤差を計算することを備えることができる。誤差関数は、計算された損失に比例する量だけ1つ以上の重みの値を調整することによってゲノム領域モデル中の1つ以上の重みを更新し、それによってゲノム領域モデルを訓練するために使用することができる。重みが調整される量は、重みが更新される程度又は重大度(例えば、より小さい又はより大きい調整)を規定する所定の学習率によって測ることができる。学習率は、実施者によって選択可能なハイパーパラメータとすることができる。
【0135】
訓練は、対応する複数の隠れニューロン中の各隠れニューロンの対応する重みに正則化を使用することができる。例えば、正則化は、損失関数にペナルティを加えることによって行われ、ここで、ペナルティは、訓練された又は訓練されていないニューラルネットワーク中の重みの値に比例する。正則化は、1つ以上の重みにペナルティを加えて、それらの重みに紐づくそれぞれの隠れニューロンの重要性を減少させることによって、モデルの複雑さを低減することができる。このような実施は、より一般化されたモデルが得ることができ、かつデータのオーバーフィットを低減することができる。正則化は、L1又はL2ペナルティを含むことができる。正則化は、空間的正則化(例えば、1つ以上のゲノム領域及び/又は参照ゲノム中のメチル化パターンの先験的及び/又は実験的知識に基づいて決定される)又はドロップアウト正則化を備えることができる。正則化は、各ゲノム領域に対して独立して最適化されるペナルティを備えることができる。
【0136】
ゲノム領域モデルを訓練することは、誤差関数の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも100、少なくとも500、少なくとも1000、少なくとも10,000、少なくとも50,000、少なくとも100,000、少なくとも200,000、少なくとも500,000、又は少なくとも100万の評価を含むことができる。ゲノム領域モデルを訓練することは、誤差関数の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも100、少なくとも500、少なくとも1000、少なくとも10,000、少なくとも50,000、少なくとも100,000、少なくとも200,000、少なくとも500,000、又は少なくとも100万の評価に基づいて、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも100、少なくとも500、少なくとも1000、少なくとも10,000、少なくとも50,000、少なくとも100,000、少なくとも200,000、少なくとも500,000、又は少なくとも100万回、一つ以上の重みを更新することを備えることができる。
【0137】
ゲノム領域モデルを訓練することは、最小限の性能要件を含むことができる。例えば、ゲノム領域モデルを訓練することは、計算された誤差が、検証トレーニングに基づいて、誤差閾値及び/又は最小性能要件を満たすかを評価することを含むことができる。誤差閾値は、誤差が20%未満、18%未満、15%未満、10%未満、5%未満、又は3%未満であるときを含むことができる。検証トレーニングは、Kフォールドクロスバリデーションを備えることができる。この状況では、トレーニングデータセット(例えば、1人以上の訓練対象に対する1つ以上のゲノムデータ)をKビンに分割することができる。訓練の各フォールドに対して、複数のKビン中の1つのビンをトレーニングデータセットから除外し、ニューラルネットワークを残りのK-1ビンで訓練することができる。その後、訓練された又は部分的に訓練されたゲノム領域モデルの性能は、訓練から除去されたK番目のビンについて評価することができる。このプロセスは、各ビンが検証のために1回使用されるまで、K回繰り返すことができる。いくつかの実施態様では、Kは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又は20より多い。いくつかの実施態様では、Kは3~10の間である。いくつかの実施態様において、トレーニングは、シャッフリングを伴うKフォールドクロスバリデーションを使用して行うことができる。この状況では、トレーニングデータセット(例えば、それぞれの1人以上の訓練対象に対する1つ以上の遺伝子型データセット)をシャッフルし、第2のKフォールドクロスバリデーショントレーニングを行うことによって、Kフォールドクロスバリデーションを繰り返し行うことができる。シャッフリングは、第2のKフォールドクロスバリデーションにおける複数のKビン中の各ビンが、トレーニングデータの異なる(例えば、シャッフルされた)サブセットを投入するように行うことができる。いくつかの実施態様において、訓練は、訓練データセットを1、2、3、4、5、6、7、8、9、10、又は10回以上シャッフルすることを含む。Kフォールドクロスバリデーションは、1つ以上のゲノム領域モデルに対するパラメータ(例えば、隠れニューロンの数及び/又は隠れ層の数)並びに/若しくはハイパーパラメータ(例えば、学習率、ペナルティ等)を選択並びに/若しくは最適化するためにさらに使用することができる。いくつかの実施態様では、ハイパーパラメータは、はユーザー又は実施者によって、予め設定及び/又は選択される。
【0138】
他のパラメータ及びアーキテクチャは、訓練のために使用することができ、確率的勾配降下、多層パーセプトロン、テンソルフロー、浅いニューラルネットワーク初期化の変動(例えば、切断正規)、ゲノム領域ごとのフラグメント適合の修正(例えば、フラグメントサイズ、フラグメント数、及び/又はフラグメント確率校正の最適化)、テール特徴に対する特異度閾値(例えば、100%の特異度、±1標準偏差など)、クラスタ演算(例えば。bigslice)、クラスターダウンサイジング、代替特徴選択(例えば、ゲノム領域レベルのバイナリ分類及び/又はサンプルレベルのマルチクラス分類)、代替生体サンプルタイプ(例えば、組織及び/又は液体生検サンプル)、データ増強、サンプル重み付け、バッチ正規化、代替損失関数(例えば、Huber)、及び/又はゲノム領域レベルモデルの較正(例えば、フラグメント数、カバー率等)を含むことができる。
【0139】
いくつかの実施態様において、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングは、生体サンプル中の無細胞核酸のメチル化シークエンシングであり、本方法は、がん状態の代表である1つ以上の腫瘍サンプルから得られた核酸メチル化フラグメントのメチル化データを使用して、ゲノム領域を少なくとも部分的に訓練することを更に備える。例えば、いくつかの実施態様において、腫瘍サンプルから得られたメチル化データを使用して訓練された対応するニューラルネットワークによって生成された出力は、無細胞核酸(例えば、液体生検サンプル)から得られたメチル化データを使用して訓練された複数のニューラルネットワークの性能を比較するために使用することができる。いくつかのそのような実施態様では、腫瘍サンプルから得られたメチル化データを使用して訓練された対応するニューラルネットワークによって生成された出力、及び無細胞核酸から得られたメチル化データを使用して訓練された複数のニューラルネットワークによって生成された出力は、腫瘍適合分類アッセイにおいて使用することができる。
【0140】
III.B.iii 特徴化モジュール
【0141】
特徴化モジュール330は、領域モデル320によって出力に従ってサンプル(テスト又は訓練)に対する特徴ベクトルを生成するように訓練される。上述のように、ゲノム領域モデルによる出力は、各DNAフラグメントに対するがんスコア又は各DNAフラグメントに対する領域埋め込みであってよい。特徴化モジュールは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、又は他の何らかの機械学習アルゴリズムなどのような機械学習アルゴリズムを実装してもよい。
【0142】
領域モデルが入力DNAフラグメントに対してがんスコアを出力する実施態様において、特徴化モジュール330は、閾値スコアを上回る各ゲノム領域からのフラグメントをカウントするように訓練される。所与のゲノム領域中のがんサンプルに由来するがんフラグメント及び非がんサンプルに由来する非がんフラグメントを使用して、分析システムは、がんフラグメント及び非がんフラグメントを所与のゲノム領域についてのゲノム領域モデルに入力することによって、がんスコアの分布を生成してもよい。分析システムは、偽陽性バジェットに基づいて、又は何らかの他の統計計算バジェット(例えば、偽陰性バジェット、真陽性バジェットなど)に従って、分布から閾値スコアを選択してもよい。偽陽性バジェットは、閾値スコアに基づいてがんであると予測される非がんフラグメントのパーセンテージであり得る。例えば、分析システムは、70%の偽陽性バジェットに該当する特定の領域モデルについて0.10の閾値スコアを選択する、すなわち、0.10の閾値スコアで、非がんフラグメントの70%が集計に含まれ得る。分析システムは、各ゲノム領域に特有のフラグメントをカウントするための閾値スコアを決定してもよい。ゲノム領域についての閾値スコアを上回るがんスコアを有するフラグメントを集計した後、結果は、各特徴が各ゲノム領域に対するフラグメントのカウントである特徴ベクトルとすることができる。フラグメントに対して決定されたマルチクラスがんスコアを用いて、分析システムは、閾値を上回るペアワイズスコア間の比率を有するフラグメントをカウントする、例えば、第1のがんタイプと第2のがんタイプの間の対数尤度比ががんタイプの対に対する閾値を超えるかを決定することによって特徴を生成し得る。条件(例えば、閾値スコア)を満たすそれぞれの核酸メチル化フラグメントのカウントは、0とそれぞれのゲノム領域にマッピングする核酸メチル化フラグメントの総数との間の範囲とすることができる。
【0143】
また、特徴化モジュール330は、フラグメントのシークエンス深度に基づいてカウントを正規化してもよい。例えば、特徴は、条件(例えば、がんを有する)を満たさない核酸メチル化フラグメントのカウントに対する条件を満たす核酸メチル化フラグメントのカウントの比率である。いくつかの代替実施態様において、特徴は、それぞれのゲノム領域にマッピングされる核酸メチル化フラグメントの総数に対する条件を満たす核酸メチル化フラグメントのカウントの比率である。いくつかの実施態様では、特徴は、第2のがん状態の条件を満たす核酸メチル化フラグメントのカウントに対する第1のがん状態の条件を満たす核酸メチル化フラグメントのカウントの比率である。
【0144】
入力DNAフラグメントについてのがんスコアを出力する領域モデルに対して、特徴ベクトル(又は特徴)を生成することは、それぞれのゲノム領域モデルを使用して、がん状態についてそれぞれのゲノム領域にマッピングするそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化して、それにより特徴生成用の複数のスコアを得ることによって、それぞれの訓練対象のゲノム領域の特徴を得ることを備えてもよい。
【0145】
それぞれのゲノム領域モデルは、単項の出力(例えば、がん状態の確率)を提供することができる。領域モデル及び/又は特徴化モジュールによって提供されるゲノム領域のそれぞれの特徴は、条件を満たすがん状態に対するそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントのカウントとすることができる。
【数1】
ここで、P(cancer state)は、それぞれの核酸メチル化フラグメントが、それぞれの核酸メチル化フラグメントをゲノム領域モデルに入力した際に、それぞれのゲノム領域に対応するゲノム領域モデルによって提供されるがん状態に紐づく確率である。さらに、P(noncancer state)=1-P(cancer state)である。ここで、閾値(threshold)は、アプリケーションに依存する固定値であり得る。いくつかの実施態様において、対応するゲノム領域モデルは、P(cancer state)を計算し、P(noncancer state)は、1-P(cancer state)として計算される。
【0146】
例えば、それぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントに対して、対応するゲノム領域モデルは、そのフラグメントががん状態(例えば、がん)を有する確率である予測値を計算する。このように、それぞれの核酸メチル化フラグメントは、ゲノム領域モデルを使用してスコア化することができ、ゲノム領域モデルによって出力されるスコアは、フラグメントががん状態を有する確率及び/又はフラグメントががん状態を有する確率に基づく計算(例えば、log((P(cancer state))/(P(noncancer state)))を含む。特徴化モジュールでは、それぞれの核酸メチル化フラグメントは、結果として得られるスコアが上記で定義された条件(例えば、固定値閾値)を満たす場合、引き続いて集計することができる。その後、複数のゲノム領域中のそれぞれのゲノム領域について、ゲノム領域に対するそれぞれの特徴は、条件を満たすそれぞれのゲノム領域にマッピングされる全ての核酸メチル化フラグメントの集計されたカウントとすることができる。
【0147】
複数の特徴中の各特徴(例えば、それぞれのゲノム領域にマッピングされ、かつ条件を満たす核酸メチル化フラグメントのカウント)は、特定のがん状態に対する信号の程度を示すことができる。例えば、特徴は、ゲノム領域にマッピングされる核酸メチル化フラグメントのメチル化パターンに基づいて、そのゲノム領域が注目のがんの条件と紐づいている程度を表す。別の見方をすれば、いくつかの事例では、複数の特徴は、ヒト参照ゲノム中の複数のゲノム領域にわたるがん状態に紐づく核酸メチル化フラグメントの空間分布を表す。対応する複数のゲノム領域に対する複数の特徴は、特徴ベクトル(例えば、カウントのベクトル)の形態とすることができる。特徴ベクトルは、対象のがん状態を同定するために(例えば、下流の教師付きモデルへの入力として)使用することができる。
【0148】
閾値は、正又は負とすることができる。閾値は、0.1~1の間、1~5の間、5~10の間、10~50の間、50~100の間、又は100より大きくすることができる。いくつかの実施態様では、閾値は、-0.1~-1、-1~-5、-5~-10、-10~-50、-50~-100、又は-100より小さい。いくつかの実施態様では、閾値はゼロである。
【0149】
いくつかの代替的な実施態様において、対応するゲノム領域モデルは、バイナリ及び/又はマルチクラス出力(例えば、第1のがん状態及び第2のがん状態の確率)を提供することができる。例えば、それぞれの訓練対象に対するゲノム領域のそれぞれの特徴は、条件を満たすがん状態に対するそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントのカウントである。
【数2】
ここで、P(first cancer state)は、それぞれの核酸メチル化フラグメントが第1のがん状態に紐づく第1の確率であり、ここで、第1の確率は、それぞれの核酸メチル化フラグメントを対応ゲノム領域モデルに入力した際に、それぞれのゲノム領域に対応する対応ゲノム領域モデルによって提供される。さらに、P(second cancer state)は、それぞれの核酸メチル化フラグメントが第2のがん状態に紐づく第2の確率であり、ここで、第2の確率は、それぞれの核酸メチル化フラグメントを対応ゲノム領域モデルに入力した際に、それぞれのゲノム領域に対応する対応ゲノム領域モデルによって提供される。値「threshold(閾値)」は、アプリケーションに依存する固定値であり得る。
【0150】
対応ゲノム領域モデルは、それぞれの核酸メチル化フラグメントを対応する訓練されたニューラルネットワークに入力する際に、非がん状態と同様に複数のがん状態中のそれぞれのがん状態について個別の確率を計算することができる。がん状態は、本明細書に開示されるように、がんの有無、がんのタイプ、がんのステージ、及び/又は起源組織のうちのいずれか1つとすることができる。非がん状態は、がん状態とは異なる、本明細書に開示されるがんの有無、がんのタイプ、がんのステージ、及び/又は起源組織のうちのいずれか1つとすることができる。個別の確率は、複数の可能ながん状態及び/又は非がん状態(例えば、がんの有無、がんのタイプ、がんのステージ、及び/又は起源組織)のうちの任意の1つに対して計算することができる。個別の確率は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又は20より大きい可能ながん状態について計算することができる。
【0151】
行われる特徴同定(例えば、特徴を生成すること)は、領域モデル及び/又は特徴化モジュールによって評価されたとき、特異度閾値を超える複数の訓練対象にわたる集合的特異性を有する特徴同定(例えば、特徴同定は、特異性要件を備える)に対してそれらのそれぞれの核酸メチル化フラグメントを使用することができる。特異度閾値は、0.9500~0.99999の間の値とすることができる。いくつかの実施態様では、特異度閾値は、0.999、0.9999、又は0.99999である。
【0152】
特徴同定を行うことは、マルチゲノム領域を使用して行うことができる。マルチゲノム領域は、複数のゲノム領域のサブセットを備えることができ、かつ特徴同定を行うことは、それぞれの訓練対象に対する複数のゲノム領域のサブセット中の各ゲノム領域のそれぞれの特徴、又は複数のゲノム領域のサブセットに対する単一の特徴を得るために、複数のゲノム領域のサブセット中のゲノム領域に対応する各ゲノム領域モデルの出力を、入力として、受け入れるマルチゲノム領域モデルを利用することができる。
【0153】
マルチゲノム領域モデルは、複数の対応する単一の領域モデルの訓練から独立して訓練される独立したモデルとすることができる(例えば、単一の領域モデルは、1つのゲノム領域モデルとすることができる)。いくつかのそのような実施態様において、マルチゲノム領域モデルは、入力として、それぞれの複数のゲノム領域に対する複数の対応する単一の領域モデルを使用して特定された1つ以上の特徴、及びそれぞれの訓練対象のがん状態に対する1つ以上の対応するラベルを、入力として、受け入れる。
【0154】
マルチゲノム領域モデルは、それぞれの複数のゲノム領域に対する複数の対応する単一の領域モデルの訓練と同時に訓練することができる。いくつかのそのような実施態様において、マルチゲノム領域モデルは、複数の対応する単一の領域モデルからの出力を入力として受け入れず、むしろ、複数の訓練対象のそれぞれの訓練対象からの複数のゲノムデータセット、及びそれぞれの訓練対象のがん状態に対する1つ以上の対応するラベルを使用する「エンドツーエンド」訓練される。一般に、このような「エンドツーエンド」訓練は、マルチゲノムモデルを訓練するために単一の領域モデルの中間出力に頼らず、むしろ、それぞれの複数のゲノム領域に基づいて、全体として、患者の分類を判定するために、各患者サンプルのラベルに頼ってもよい。「エンドツーエンド」訓練の一例の詳細は、本明細書の他の箇所に記載されている。本明細書に開示される方法のいずれかを使用して特定された特徴は、下流のがん分類器を訓練するための標的パネル最適化(例えば、高いがん信号を有するゲノム領域の選択)に使用することができる。
【0155】
領域モデルが入力DNAフラグメントの領域埋め込みを出力する実施態様において、特徴化モジュール330は、DNAフラグメントの領域埋め込みをプールすることによって特徴ベクトルを生成するように訓練される。特徴ベクトルを生成するためのDNAフラグメントの領域埋め込みの全体的なプーリングは、1つ以上のプーリングステップを備えてもよい。一例では、2つのプーリングステップがあってもよい。第1のプーリングステップは、各ゲノム領域中のDNAフラグメントの領域埋め込みをプーリングすることによって、各ゲノム領域に対する集合領域ベクトルを決定することができる。理解されるように、サンプルが所与の領域中にDNAフラグメントを有しない場合、集合領域ベクトルはゼロベクトルであり得る。第2のプーリングステップは、ゲノム領域にわたって集合領域ベクトルをプーリングすることによって特徴ベクトルを決定することができる。各プーリングステップは、平均プーリング操作、最大プーリング操作、別の重み幾何学的プーリング操作、別のプーリング操作、又はそれらの何らかの組合せを行うことを含むことができる。各プーリングステップは、カーネルサイズ、すなわち、入力テンソルの各次元に対するプーリングウィンドウのサイズを参照し、かつストライド、すなわち、入力テンソルの各次元に対するスライドウィンドウのサイズを参照することによって定義することができる。一例では、第2のプーリングステップにおけるグローバルプーリング操作は、カーネルサイズ及びストライドが、ゲノム領域の数(又はゲノム領域中のフラグメントの数)に等しいことを有する。他の実施態様において、カーネルサイズは、以下のいずれかとすることができる。1、2、3、4、5、6、7、8、9、10、12、14、16、18、及び20。一方、ストライドは以下のいずれかとすることができる。1、2、3、4、5、6、7、8、9、10、12、14、16、18、及び20。例えば、各ゲノム領域の集合領域ベクトルを決定する第1のプーリングステップは、DNAフラグメントの領域埋め込みの平均プーリングを行い、領域埋め込みを効果的に平均化することを備える。最大プーリングを用いて、集合領域ベクトル中の各エントリーは、ゲノム領域中のDNAフラグメントに対する領域埋め込み全体にわたるそのエントリー位置における対応する最大値とすることができる。分析システムはまた、例えば、特徴化モジュール330を領域モデル320及び/又はがん分類器340と同時に訓練するときに、プーリング操作における重みを調整してもよい。
【0156】
III.B.iv がん分類器
【0157】
トレーニングサンプルの特徴ベクトルを用いて、分析システムは、がん分類器340を訓練してもよい。
【0158】
分析システムは、トレーニングサンプルの特徴ベクトルに基づいて、二値分類のためにがん分類器340を訓練して、がんと非がんとを区別してもよい。この態様において、分析システムは、健康な個体からの非がんサンプル及び対象からのがんサンプルの両方を含むトレーニングサンプルを使用することができる。各トレーニングサンプルは、"がん"又は"非がん"の2つのラベルのうちの1つを有してもよい。本実施態様では、クラス分類器340は、がんの存在又は非存在の可能性を示すがん予測を出力する。
【0159】
分析システムは、がん分類器340をマルチクラス分類のために訓練して、多くのがんタイプ(発生組織(TOO)ラベルとも呼ばれる)を区別してもよい。がんタイプは、1つ以上のがんを含むことができ、かつ非がんタイプを含んでもよい(任意の追加の他の疾患又は遺伝的障害等もまた含んでもよい)。そのために、分析システムは、がんタイプのコホートを使用することができ、かつまた、非がんタイプのコホートを含んでもよく、又は含まなくてもよい。このマルチがん実施態様において、がん分類器340は、分類されているがんタイプの各々に対する予測値を備えるがん予測(又は、より具体的には、TOO予測)を決定するように訓練される。予測値は、所与のトレーニングサンプル(及び推論中、テストサンプル)ががんタイプの各々を有する尤度に対応してもよい。ある実施態様では、予測値は0~100の間でスコア化され、予測値の累積は100に等しい。例えば、がん分類器は、乳がん、肺がん、及び非がんに対する予測値を含むがん予測を返す。例えば、分類器は、テストサンプルが乳がんの可能性65%、肺がんの可能性25%、及び非がんの可能性10%であるというがん予測を返すことができる。分析システムは、更に予測値を評価して、サンプルにおける1つ以上のがんの存在の予測を生成してもよく、また、1つ以上のTOOラベル、例えば、最も高い予測値を有する第1のTOOラベル、2番目に高い予測値を有する第2のTOOラベルなどを示すTOO予測として参照してもよい。上記の例を続け、パーセンテージが与えられると、この例では、システムは、乳がんが最も高い尤度を有することを考慮して、サンプルが乳がんを有すると決定してもよい。
【0160】
一般に、分析システムは、トレーニングサンプルのセットをその特徴ベクトルとともにがん分類器340に入力し、かつ分類器の関数が訓練特徴ベクトルをそれらの対応するラベルに正確に関連付けるように分類パラメータを調整することによって、がん分類器340を訓練することができる。分析システムは、がん分類器の反復バッチ訓練のために、トレーニングサンプルを1つ以上のトレーニングサンプルのセットにグループ化してもよい。それらの訓練特徴ベクトルを含むトレーニングサンプルのすべてのセットを入力し、かつ分類パラメータを調整した後、がん分類器340を、いくつかの誤差の余地内でそれらの特徴ベクトルに従ってテストサンプルをラベル付けするように十分に訓練することができる。分析システムは、多数の方法のうちのいずれか1つに従って、がん分類器340を訓練してもよい。一例として、バイナリがん分類器は、対数損失関数を使用して訓練されるL2正則化ロジスティック回帰分類器であってよい。別の例として、マルチがん分類器は、多項ロジスティック回帰であってもよい。実際には、いずれかのタイプのがん分類器340も、他の技法を使用して訓練されてもよい。これらの技法は、カーネル法、決定木、ランダムフォレスト分類器、混合モデル、オートエンコーダモデル、多層ニューラルネットワークなどのような機械学習アルゴリズム等の潜在的な使用を含む多数のものとすることができる。
【0161】
がん分類器340はまた、第1ステージのバイナリ分類器と第2ステージのマルチクラス分類器とを備えてもよい。第1ステージのバイナリ分類器は、テストサンプルに対する二値予測を返すことができる。二値予測は、テスト対象ががんを有する可能性が高い、又はがんを有しない可能性が高いであってよい。他の実施態様では、がん予測は、がんの可能性及び非がんの可能性を記述する予測値を含む。例えば、がん予測は、85%のがん予測値及び15%の非がん予測値を有する。分析システムは、テスト対象ががんを有する可能性が高いと判断してもよい。閾値を超えるがんの可能性を判断することに応答して、第2ステージのマルチクラス分類器は、テストサンプルに対するマルチクラスがん予測を返すことができる。マルチクラス分類器は、テスト特徴ベクトルを受信し、かつ複数のがんタイプのがんタイプのがんの予測値を返すことができる。例えば、マルチクラスがん分類器は、テスト対象が卵巣がんである可能性が最も高いことを特定するがん予測を提供する。別の実施態様では、マルチクラスがん分類器は、複数のがんタイプの各がんタイプについて予測値を提供する。例えば、がん予測は、40%の乳がんタイプ予測値、15%の大腸がんタイプ予測値、及び45%の肝臓がん予測値を含んでもよい。
【0162】
がん分類器は、ロジスティック回帰、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、線形回帰アルゴリズム、2ステージ確率的勾配降下(SGD)モデル、又は深層ニューラルネットワーク(例えばディープアンドワイドサンプルレベル分類器)を備えることができる。がん分類器は、それぞれのゲノム領域に対する対応する特徴に基づいてがん状態を予測するように訓練することができる。がん分類器は、それぞれの複数のゲノム領域に対する複数の対応する特徴に基づいてがん状態を予測するように訓練することができる。
【0163】
がん分類器は、ベクトル(又は特徴ベクトル)を入力として受け入れることができ、ここで、ベクトルは、複数の訓練対象中のそれぞれの訓練対象に紐づけられ、かつベクトルの各要素は、異なるゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントを使用する領域モデル及び/又は特徴化モジュールを介して計算された複数のゲノム領域中の異なるゲノム領域のそれぞれの特徴である。例えば、入力は、それぞれの1つ以上のゲノム領域に対して、1つ以上の対応するゲノム領域モデル及び/又は特徴化モジュールを使用して得られた特徴ベクトルとすることができる。特徴ベクトルは、がんに紐づくゲノム領域を示す、カウント、比率、及び/又はワンホットエンコーディングされたゲノム領域のベクトルとすることができる。
【0164】
がん分類器の訓練は、特徴化モジュールからの入力として提供される特徴ベクトルと、複数の訓練対象中の各それぞれの訓練対象のがん状態に対する対応するラベルとに基づいて行うことができる。がん分類器の訓練は、領域モデル及び/又は特徴化モジュールの訓練とは独立して行うことができる。いくつかのそのような実施態様において、各それぞれのゲノム領域モデルの各それぞれの対応するゲノム領域モデルに対する複数の重みは、がん分類器の訓練が対応するゲノム領域モデルに対する複数の重みの更新を生じないように、固定される。
【0165】
いくつかの実施態様において、領域モデルの訓練、特徴化モジュールの訓練、及びがん分類器の訓練は、複数のゲノム領域モデル、特徴化モジュール、及びがん分類器を共同で訓練する複合訓練で行われる。いくつかのそのような実施態様では、各対応するゲノム領域モデルに対する複数の重み中の1つ以上の重みは、複合訓練が対応するゲノム領域モデルに対する複数の重み中の1つ以上の重みを更新するように、固定されない。いくつかのそのような実施態様では、複合訓練は、マルチゲノム領域モデルに対して「エンドツーエンド」で行われる。
【0166】
領域モデル、マルチゲノム領域モデル、及び下流がん分類器の組み合わせは、より複雑さを有する出力を生成するために使用することができる。例えば、領域モデル、マルチゲノム領域モデル及び/又は下流の教師付きモデルは、複数のゲノム領域にわたる領域レベルモデルを使用して特定された複数の特徴に基づいて、より高次の(例えば、サンプルレベル及び/又は対象レベルの)マルチクラス分類を予測するために使用することができる。領域レベルの二値分類は、それゆえに、例えば、それぞれのゲノム領域にマッピングされる異常な核酸メチル化フラグメントの割合の初期の同定及び選択を行うことができる。関心のある条件に対して高い信号を備えるゲノム領域を同定することによって(例えば、高い関連確率を有する異常な核酸メチル化フラグメントのカウントを提供することによって)、そのような高次分類の感度及び精度を向上させることができる。第1の複数の訓練対象は、複数のゲノム領域モデル及び/又は多領域モデルを訓練するために使用することができ、かつ第1の複数の訓練対象とは異なる第2の複数の訓練対象は、下流のがん分類器を訓練するために使用することができる。
【0167】
III.C. がん分類の展開
【0168】
図5は、一実施態様による、第1のアーキテクチャによるテストサンプルのがん分類を図示するフローチャートである。分析システムは、複数のDNAフラグメントを備える未知のがん状態のテストサンプル505を取得することができる。分析システムは、例えば、プロセス100及び220の任意の組み合わせでテストサンプル505を処理して、異常なメチル化フラグメントのセットを決定してもよい。分析システムは、ゲノム領域によってフラグメントをグループ化することができ、ゲノム領域1中のフラグメント512、ゲノム領域2中のフラグメント514、及びゲノム領域N中のフラグメント516まで続き、ここでNはゲノム領域の総数を表す。
【0169】
分析システムは、テストサンプル505のフラグメントを領域モデル320に入力して、各フラグメントのがんスコアを決定することができる。例えば、ゲノム領域1中のフラグメント512は、ゲノム領域1モデル322に入力され、ゲノム領域2中のフラグメント514は、ゲノム領域2モデル324に入力され、ゲノム領域N中のフラグメント516ゲノムまで領域Nモデル326に入力されるに至るまで行う。各領域モデルは、例えば、他のものから独立して訓練されたニューラルネットワークであってもよい。領域モデルは、各フラグメントについてがんスコアを出力することができる。がんスコアは、がんと非がんとの間の二値スコア、例えば、がんの尤度、又は複数のがんタイプ間のマルチクラススコア、例えば、各がんタイプの尤度とすることができる。例えば、ゲノム領域1モデル322は、ゲノム領域1中のフラグメント512の各フラグメントについてがんスコアを出力し、ゲノム領域2モデル324は、ゲノム領域2中のフラグメント514の各フラグメントについてがんスコアを出力し、ゲノム領域Nモデル326は、ゲノム領域N中のフラグメント516の各フラグメントについてがんスコアを出力することまで続く。
【0170】
分析システムは、テストサンプル505のフラグメントに対するがんスコアに基づいて、特徴化モジュール330でテスト特徴ベクトル535を生成することができる。分析システムは、ゲノム領域1について閾値スコアを超えるがんスコアを有するゲノム領域1中のフラグメント512の数をカウントすることができる。分析システムは、同様に、ゲノム領域2について閾値スコアを超えるがんスコアを有するゲノム領域2中のフラグメント514の数をカウントすることができる。分析システムは、ゲノム領域Nについて閾値スコアを超えるがんスコアを有するゲノム領域N中のフラグメント516の数をカウントするまで、残りのゲノム領域についてそのように続けることができる。カウントは、テスト特徴ベクトル535中の特徴に対応することができ、例えば、Fは、ゲノム領域1に対するカウントに基づき、Fは、ゲノム領域2に対するカウントに基づき、かつ残りのゲノム領域についても同様であり、Fは、ゲノム領域Nに対するカウントに基づくに至るまで行う。カウントは、例えば、テストサンプル505に対するシークエンス深度に従って、更に正規化することができ、ここで、特徴は、正規化カウントである。
【0171】
分析システムは、テスト特徴ベクトル535をがん分類器340に入力し、がん予測345を返すことができる。上述したように、がん予測345は、二値予測及び/又はマルチクラス予測であってもよい。
【0172】
図6は、一実施態様による、図5で説明したがん分類の処理600を説明するフローチャートである。以下の説明は、分析システムの観点であるが、以下の説明は、本開示において説明される構成要素(例えば、図3のメチル化埋め込みモデル310、領域モデル320、特徴化モジュール330、及びがん分類器340)の任意の組み合わせによって行うことができる。
【0173】
分析システムは、複数のcfDNAフラグメントを備える生体サンプルについてのシークエンシングデータを受信する(610)。各cfDNAフラグメントは、複数のゲノム領域のうちの少なくとも1つのゲノム領域に重なる。場合によっては、cfDNAフラグメントは2つ以上のゲノム領域にわたってまたがっていてもよく、分析システムは、cfDNAフラグメントを各ゲノム領域に配置してもよく、又はcfDNAフラグメントをそれがほとんど重なっているゲノム領域に配置してもよい。
【0174】
分析システムは、生体サンプルの各cfDNAフラグメントに対して、cfDNAフラグメントが重なるゲノム領域に対する第1のスコアを決定する(620)。ゲノム領域に対する第1のスコアは、例えば、図4Aで上述したように、ゲノム領域に対して訓練されたニューラルネットワークにcfDNAフラグメントを入力することによって決定することができる。ニューラルネットワークは、cfDNAフラグメントががん生体サンプルに由来する尤度の代表である、二値予測として、第1のスコアを生成するように構成することができる。ニューラルネットワークはまた、cfDNAフラグメントが第1のがんタイプのがん生体サンプルに由来する尤度に対応する第1のスコアと、cfDNAが第2のがんタイプのがん生体サンプルに由来する尤度に対応する第2のスコアとを生成するように構成されてもよい。第1のゲノム領域に対する第1のニューラルネットワークは、第2のゲノム領域に対する第2のニューラルネットワークに対して、可変的な大きさであってもよい。例えば、第1のニューラルネットワークは、第2のニューラルネットワークと異なる隠れ層の数を有してもよい。別の例では、2つのニューラルネットワークは両方とも1つの隠れ層を有するが、第1のニューラルネットワークは、その隠れ層中のノードの数が第2のニューラルネットワークとは異なる。
【0175】
分析システムは、生体サンプルに対する特徴ベクトルを生成する(630)。特徴ベクトルの各特徴は、ゲノム領域に対応し、かつ閾値スコアを超えるゲノム領域に対するスコアを有するcfDNAフラグメントのカウントに従って生成することができる。各閾値スコアは、偽陽性予算(又は別の統計的尺度)に従って、各ゲノム領域に対して決定してもよい。分析システムは、生体サンプルのシークエンス深度に従ってカウントを正規化してもよい。
【0176】
分析システムは、生体サンプルに対するがん予測を生成するために、訓練されたモデルに特徴ベクトルを入力する(640)。訓練されたモデルは、図3で上述したがん分類器340であってもよい。がん予測は、がんと非がんとの間の二値予測及び/又は複数のがんタイプ間のマルチクラス予測であってもよい。
【0177】
図7は、一実施態様による、第2のアーキテクチャによるテストサンプルのがん分類を図示するフローチャートである。分析システムは、複数のDNAフラグメントを含む未知のがん状態のテストサンプル705を取得することができる。分析システムは、異常なメチル化フラグメントのセットを決定するために、例えば、プロセス100及び220の任意の組み合わせで、テストサンプル705を処理してもよい。分析システムは、cfDNAフラグメントをメチル化埋め込みモデル310に入力することによって、各フラグメントのメチル化埋め込みを決定することができる。分析システムは、ゲノム領域によってフラグメントをグループ化することができ、ゲノム領域1中フラグメントのメチル化埋め込み712、ゲノム領域2中のフラグメントのメチル化埋め込み714、及びゲノム領域N中のフラグメントのメチル化埋め込み716まで続き、ここでNはゲノム領域の総数を表す。
【0178】
分析システムは、各メチル化埋め込みのための領域埋め込みを決定するために、メチル化埋め込みを領域モデル320に入力することができる。例えば、メチル化埋め込み712は、メチル化埋め込み712に対する領域埋め込みを生むゲノム領域1モデル322に入力され、メチル化埋め込み714は、メチル化埋め込み714に対する領域埋め込みを生むゲノム領域2モデル324に入力され、メチル化埋め込み716はメチル化埋め込み716に対する領域埋め込みを生むゲノム領域Nモデル326に入力されるまで続ける。各領域モデルは、他の構成要素から独立して、又は他の構成要素と同時に訓練してもよい。
【0179】
分析システムは、テストサンプル705に対するテスト特徴ベクトルを生成するために、領域モデル320によって出力された領域埋め込みを特徴化モジュール330に供給することができる。特徴化モジュール330は、テスト特徴ベクトルを生成するために、領域モデル320によって出力された領域埋め込みをプールしてもよい。特徴化モジュール330は、2つのプーリングステップで領域埋め込みをプールしてもよい。第1のプーリングステップにおいて、特徴化モジュール330は、各ゲノム領域に対する領域埋め込みを集約領域埋め込みにプールすることができる。例えば、特徴化モジュール330は、メチル化埋め込み712に対して決定された領域埋め込みを、ゲノム領域1に対しての集約領域埋め込み732にプールし、同様に、ゲノム領域2に対しての領域埋め込みを、ゲノム領域2に対しての集約領域埋め込み734にプールし、ゲノム領域Nに対しての領域埋め込みをゲノム領域Nに対しての集約領域埋め込み736にプールするまで続ける。第2のプーリングステップにおいて、特徴化モジュール330は、集約領域埋め込み(例えば、集約領域埋め込み732、734、及び736まで)をテスト特徴ベクトル735にプールする。図において、テスト特徴ベクトル735は、特徴量F、F、・・・Fを備え、Mは、テスト特徴ベクトルの特徴量の総数である。変数M(特徴量の数)は、変数N(ゲノム領域の数)と等しくてもよく、又は等しくなくてもよい。
【0180】
分析システムは、テスト特徴ベクトル735をがん分類器340に入力し、がん予測345を返すことができる。上述したように、がん予測345は、二値予測及び/又はマルチクラス予測であってもよい。
【0181】
図8は、一実施態様による、図7で説明したがん分類のプロセス800を説明するフローチャートである。以下の説明は、分析システムの観点であるが、以下の説明は、本開示で説明する構成要素(例えば、図3のメチル化埋め込みモデル310、領域モデル320、特徴化モジュール330、及びがん分類器340)の任意の組み合わせによって行うことができる。
【0182】
分析システムは、複数のcfDNAフラグメントを備える生体サンプルについてのシークエンシングデータを受信する(810)。各cfDNAフラグメントは、複数のゲノム領域のうちの少なくとも1つのゲノム領域と重なり得る。場合によっては、cfDNAフラグメントは2つ以上のゲノム領域にわたってまたがってもよく、分析システムは、cfDNAフラグメントをゲノム領域の各々に配置してもよいし、cfDNAフラグメントをそれがほとんど重なっているゲノム領域に配置してもよい。
【0183】
分析システムは、生体サンプルの各cfDNAフラグメントについて、例えば、図3において上述したようなcfDNAフラグメントを訓練された済み埋め込みモデルに入力することによって、メチル化埋め込みを生成する(820)。埋め込みモデルは、入力cfDNAフラグメントに基づいてメチル化埋め込みを生成するように構成することができる。
【0184】
分析システムは、生体サンプルの各cfDNAフラグメントについて、cfDNAが重なるゲノム領域に対する領域埋め込みを生成する(830)。ゲノム領域に対する領域埋め込みは、cfDNAフラグメントのメチル化埋め込みをcfDNAフラグメントが重なるゲノム領域に対して訓練された領域モデルに入力することによって、決定することができる。かくして、各領域モデルは、ゲノム領域と重なるcfDNAフラグメントの入力メチル化埋め込みに基づいて領域埋め込みを生成するように構成することができる。領域モデルは、がん分類プロセスの他の構成要素と同時に訓練してもよい。
【0185】
分析システムは、各ゲノム領域について、ゲノム領域に重なる1つ以上のcfDNAフラグメントの1つ以上の領域埋め込みをプールすることによって、集約領域ベクトルを決定する(840)。領域埋め込みをプールすることは、最大プール操作、平均プール操作、何らかの他の幾何学的プール操作、又はそれらの何らかの組合せを行うことを備えてもよい。集約領域ベクトルは、共にプールされた領域埋め込みと同じ長さであってもよく、又はそうでなくてもよい。
【0186】
分析システムは、各ゲノム領域について、ゲノム領域の集約領域ベクトルをプールすることによって、特徴ベクトルを決定する(850)。集約領域ベクトルをプールすることは、最大プール操作、平均プール操作、何らかの他の幾何学的プール操作、又はそれらの何らかの組合せを行うことを備えてもよい。生体サンプルに対する特徴ベクトルは、共にプールされる集合領域ベクトルと同じ長さであってもよく、又はそうでなくてもよい。一例では、特徴ベクトルは、考慮されるゲノム領域の数に等しい長さである。
【0187】
分析システムは、生体サンプルについてがん予測を生成するために、特徴ベクトルを訓練されたモデルに入力する(840)。訓練されたモデルは、図3に上述したがん分類器340であってもよい。がん予測は、がんと非がんとの間の二値予測、及び/又は複数のがんタイプ間のマルチクラス予測であってもよい。
【0188】
いくつかの実施態様において、テスト対象を分類することは、複数のテスト核酸メチル化フラグメントを取得することを備えることができる。対応する複数のテスト核酸メチル化フラグメント中のそれぞれのテスト核酸メチル化フラグメントは、それぞれのテスト核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含むことができる。複数のテスト核酸メチル化フラグメントは、テスト対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定することができる。テスト対象を分類することは、複数のゲノム領域中の各それぞれのゲノム領域について、領域モデル及び特徴化モジュールを介してテスト特徴同定を行うことを更に備えるができる。テスト特徴同定は、領域モデル及び特徴化モジュールを使用して、がん状態に対するそれぞれのテスト核酸メチル化フラグメントをスコアリングし、かつがん状態に基づいて特徴ベクトルを生成し、それによって、複数のゲノム領域中の各それぞれのゲノム領域に対するテスト特徴を含む複数のテスト特徴を取得することによって、行うことができる。テスト対象を分類することは、複数のテスト特徴をがん分類器に適用して、対象ががん状態を有するかを判定することを更に備えることができる。複数のゲノム領域モデル及び特徴化モジュールは、がん分類器を訓練するためのトレーニングデータセットから複数のゲノム領域レベルの特徴を特定するために使用することができ、かつテスト対象を分類するためにがん分類器を使用することは、テストデータセットから複数の特徴をがん分類器に適用することによって行われる。
【0189】
本明細書に開示されるシステム及び方法のいずれかは、テスト対象から得られた生体サンプル及び/又は核酸メチル化フラグメントを取得及び/又は処理するために使用することができる。本明細書に開示されるシステム及び方法のいずれかは、領域モデル(例えば、浅いニューラルネットワーク)を訓練し、特徴化モジュールを介して特徴を取得する、及び/又はテスト対象ががん状態を有するかを判定するために使用されるがん分類器を訓練するためにことが使用することができる。
【0190】
IV.応用
【0191】
いくつかの実施態様において、本発明の方法、分析システム、及び/又は分類器は、がんの存在を検出するため、がんの進行又は再発を監視するため、具体的な治療反応又は効果を監視するため、最小残存病変(MRD)の存在を判定又は監視するため、若しくはそれらの任意の組合せに使用することができる。例えば、本明細書に記載されるように、分類器は、テスト特徴ベクトルががんを有する対象からのものである可能性を記述する確率スコア(例えば、0から100まで)を生成するために使用することができる。いくつかの実施態様において、確率スコアは、対象ががんを有するか又は有さないかを判定するために閾値確率と比較される。他の実施態様では、尤度又は確率スコアを、疾患の進行を監視し、又は治療の有効性(例えば、具体的な治療効果)を監視するために、多数の異なる時点(例えば、治療の前又は後)で査定することができる。さらにまだ他の実施態様では、臨床的決定(例えば、がんの診断、治療選択、治療の有効性の評価など)をする、又は、臨床的決定に影響を与えるために、尤度スコア又は確率スコアを使用するができる。例えば、一実施態様では、確率スコアが閾値を超える場合、医師は適切な治療を処方することができる。
【0192】
IV.A.がんの早期検出
【0193】
いくつかの実施態様において、本発明の方法及び/又は分類器は、がんを有することが疑われる対象におけるがんの存在又は不在を検出するために使用される。例えば、分類器(例えば、セクションIIIで上述され、かつセクションVで検討される)は、テスト特徴ベクトルががんを有する対象からのものである尤度を記述するがん予測を決定するために使用することができる。
【0194】
一実施態様において、がん予測は、テストサンプルががんを有するかについての尤度(例えば、0~100との間のスコア)である(すなわち、二値分類である)。このように、分析システムは、テスト対象ががんを有するか否かを判定するための閾値を決定してもよい。例えば、60以上のがん予測は、テスト対象ががんを有することを示し得る。さらにまだ他の実施態様では、65以上、70以上、75以上、80以上、85以上、90以上、または95以上のがん予測は、テスト対象ががんを有していることを示す。他の実施態様では、がん予測は、疾患の重篤度を示すことができる。例えば、80のがん予測は、80を下回るがん予測(例えば、70の確率スコア)と比較して、より重篤の形態、又はより後のステージのがんを示すことができる。同様に、時間の経過に伴う癌の予測値の増加(例えば、2つ以上の時点において採取された同じ対象からの多数のサンプルからのテスト特徴ベクトルの分類によって決定される)は、疾患の進行を示すことができ、又は時間の経過に伴う癌の予測値の減少は、治療の成功を示すことができる。
【0195】
別の実施態様において、がん予測は、多くの予測値を備え、分類されるための複数のがんタイプの各々(すなわち、マルチクラス分類)は、予測値(例えば、0~100の間でスコア化される)を有する。予測値は、所与のトレーニングサンプル(及び推論中、トレーニングサンプル)ががんタイプの各々を有する尤度に対応してもよい。分析システムは、最も高い予測値を有するがんタイプを同定し、かつテスト対象がそのがんタイプを有する可能性が高いことを示してもよい。他の実施態様において、分析システムは、最高予測値を閾値(例えば、50、55、60、65、70、75、80、85など)と更に比較し、テスト対象がそのがんタイプを有する可能性が高いと判定する。他の実施態様では、予測値は、また疾患の重篤度を示すこともできる。例えば、80より大きい予測値は、60の予測値と比較して、より重篤ながんの形態、又はより後のステージを示してもよい。同様に、時間の経過に伴う予測値の増加(例えば、2つ以上の時点において採取された同じ対象からの多数のサンプルからのテスト特徴ベクトルを分類することによって決定される)は、疾患の進行を示すことができ、又は時間の経過に伴う予測値の減少は、治療の成功を示すことができる。
【0196】
本発明の態様によれば、本発明の方法及びシステムは、多数のがんの適応症を検出又は分類するように訓練することができる。例えば、本発明の方法、システム及び分類器は、1つ以上、2つ以上、3つ以上、5つ以上、10つ以上、15つ以上、又は20つ以上の異なるタイプのがんの存在を検出するために使用することができる。
【0197】
本発明の方法、システム、及び分類器を使用して検出することができるがんの例は、がん腫、リンパ腫、芽腫、肉腫、及び白血病又はリンパ性悪性腫瘍を含む。そのようながんのより具体的な例としては、扁平上皮がん(例えば、上皮性扁平上皮がん)、皮膚がん、メラノーマ、小細胞肺がん、非小細胞肺がん(「NSCLC」)、肺腺癌及び肺扁平上皮癌、腹膜のがん、胃腸がんを含む胃又は胃癌、すい臓がん(例えば、膵管腺がん)、子宮頸がん、卵巣がん(例えば、高悪性度漿液性卵巣がん)、肝がん(例えば、肝細胞がん(HCC))、肝細胞がん、肝がん、膀胱がん(例えば。尿路上皮膀胱がん)、精巣(胚細胞腫瘍)がん、乳がん(例えば、HER2陽性、HER2陰性、及びトリプルネガティブ乳がん)、脳腫瘍(例えば、星細胞腫、グリオーマ(例えば、膠芽腫))、結腸がん、直腸がん、大腸がん、内膜又は子宮がん、唾液腺がん、腎臓がん(例えば、腎細胞がん、腎芽細胞腫又はウィルムス腫瘍)、前立腺がん、外陰がん、甲状腺がん、肛門がん、陰茎がん、頭頸部がん、食道がん、並びに鼻咽頭がん(NPC)を含む。がんの追加の例としては、限定なしで、非ホジキンリンパ腫(NHL)、多発性骨髄腫及び急性血液悪性腫瘍、子宮内膜症、線維肉腫、絨毛がん、喉頭がん、カポジ肉腫、シュワンノーマ、乏突起膠腫、神経芽腫、横紋筋肉腫、骨原性肉腫、平滑筋肉腫、及び尿路がんを含むが、これに限定されない網膜芽細胞腫、テコマ、アレノブラストーマ、血液悪性腫瘍を含む。
【0198】
いくつかの実施態様において、がんは、肛門がん、膀胱がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、白血病、肺がん、リンパ腫、メラノーマ、多発性骨髄腫、卵巣がん、すい臓がん、前立腺がん、腎臓がん、甲状腺がん、子宮がん又はこれらの任意の組み合わせの1つ以上である。
【0199】
いくつかの実施態様において、1つ以上のがんは、肛門直腸がん、大腸がん、食道がん、頭頸部がん、肝胆膵がん、肺がん、卵巣がん、膵臓がん、並びにリンパ腫及び多発性骨髄腫などのような「高信号」がん(5年がん特異的死亡率が50%を超えるがんとして定義)とすることができる。高信号のがんはより侵攻性の傾向があり、かつ通常、患者から得たテストサンプル中の無細胞核酸濃度は平均を超える。
【0200】
IV.B.がん及び治療モニタリング
【0201】
いくつかの実施態様において、がん予測は、疾患の進行を監視するため、又は治療の有効性(例えば、具体的な治療効果)を監視するために、多数の異なる時点(例えば、または治療の前または後)で評価することができる。例えば、本発明は、第1の時点でがん患者から第1のサンプル(例えば、第1の血漿cfDNAサンプル)を取得し、そこから第1のがん予測を決定し(本明細書に記載)、第2の時点でがん患者から第2のテストサンプル(例えば、第2の血漿cfDNAサンプル)を取得し、そこから第2のがん予測を決定すること(本明細書に記載)を伴う方法を含む。
【0202】
特定の実施態様では、第1の時点は、がん治療の前(例えば、切除手術又は具体的な治療的介入の前)であり、第2の時点は、がん治療の後(例えば、切除手術又は具体的な治療的介入の後)であり、かつ分類器は、治療の有効性を監視するために利用される。例えば、第2のがん予測値が第1のがん予測値と比較して減少した場合、そのとき、治療は成功したとみなされる。しかしながら、第2のがん予測値が第1のがん予測値に比べて増加した場合、そのとき、治療は成功しなかったとみなされる。他の実施態様では、第1及び第2の時点の両方が、がん治療の前(例えば、切除手術又は具体的な治療的介入の前)である。さらにまだ他の実施態様では、第1の時点及び第2の時点の両方が、がん治療の後(例えば、切除手術又は具体的な治療的介入の後)である。さらにまだ他の実施態様では、cfDNAサンプルは、第1及び第2の時点においてがん患者から得られ、分析されてもよく、例えば、がんの進行を監視するため、がんが寛解しているか(例えば、治療後)を判断するため、残存疾患又は疾患の再発を監視若しくは検出するため、若しくは治療(例えば、具体的な治療)効果を監視するためである。
【0203】
テストサンプルは、任意の時点のセットにわたってがん患者から得られ、患者におけるがん状態を監視するために本発明の方法に従って分析することができる。いくつかの実施態様において、第1及び第2の時点は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、又は約24時間など、若しくは例えば約1、2、3、4、5、10、15、20、25又は約30日など、若しくは約1、2、3、4、5、6、7、8、9、10、11又は12ヶ月など、若しくは約1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5又は約30年などのような約15分から約30年までの範囲の時間の量によって分離される。他の実施態様では、テストサンプルは、少なくとも3ヶ月に1回、少なくとも6ヶ月に1回、少なくとも1年に1回、少なくとも2年に1回、少なくとも3年に1回、少なくとも4年に1回、又は少なくとも5年に1回、患者から取得することができる。
【0204】
IV.C.治療
【0205】
さらにまだ別の実施態様では、がん予測は、臨床的決定(例えば、がんの診断、治療選択、治療効果の評価など)をするため、又は、臨床的決定に影響を与えるために使用することができる。例えば、一実施態様において、がん予測(例えば、がんに対して、又は特定のがんタイプに対して)が閾値を超える場合、医師は適切な治療(例えば、切除手術、放射線療法、化学療法、及び/又は免疫療法)を処方することができる。
【0206】
分類器(本明細書に記載)は、サンプル特徴ベクトルががんを有する対象からのものであるというがん予測を決定するために使用することができる。一実施態様では、がん予測が閾値を超えると、適切な治療(例えば、切除手術又は具体的な治療)が処方される。例えば、一実施態様では、がん予測値が60以上である場合、1つ以上の適切な治療が処方される。別の実施態様では、がん予測値が65以上、70以上、75以上、80以上、85以上、90以上、又は95以上である場合、1つ以上の適切な治療が処方される。他の実施態様では、がん予測は、疾患の重篤度を示すことができる。次いで、疾患の重篤度にマッチする適切な治療が処方されてもよい。
【0207】
いくつかの実施態様において、治療は、化学療法剤、標的がん治療剤、分化誘導療法剤、ホルモン療法剤、及び免疫療法剤からなるグループから選択される1つ以上のがん治療剤である。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍抗生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、核酸アナログ、プラチナ系薬剤及びそれらの任意の組み合わせからなるグループから選択される1つ以上の化学療法剤とすることができる。いくつかの実施態様において、治療は、信号伝達阻害剤(例えば、チロシンキナーゼ及び成長因子受容体阻害剤)、ヒストン脱アセチル化酵素(HDAC)阻害剤、レチノイン受容体作動薬、プロテオソーム阻害剤、血管新生阻害剤、及びモノクローナル抗体コンジュゲートからなるグループから選択される1以上の標的がん治療薬である。いくつかの実施態様において、治療は、トレチノイン、アリトレチノイン及びベキサロテンなどのようなレチノイドを含む1つ以上の分化療法剤である。いくつかの実施態様において、治療は、抗エストロゲン、アロマターゼ阻害剤、黄体ホルモン、エストロゲン、抗アンドロゲン、及びGnRHアゴニスト又はアナログからなるグループから選択される1つ以上のホルモン治療薬である。一実施態様において、治療は、リツキシマブ(RITUXAN)及びアレムツズマブ(CAMPATH)などのようなモノクローナル抗体療法、BCG、インターロイキン2(IL-2)、及びインターフェロン-アルファなどのような非特異的免疫療法並びにアジュバンド、免疫調節薬、例えばサリドマイド及びレナリドミド(REVLIMID)を含むグループから選ばれた一つ以上の免疫療法薬である。腫瘍のタイプ、がんのステージ、がん治療又は具体的な治療剤への以前の発覚、及びがんの他の特性などの特徴に基づいて、適切ながん治療剤を選択することは、熟練の医師又は腫瘍学者の能力の範囲内である。
【0208】
V.がん分類器の結果例
【0209】
V.A. サンプル収集と処理
【0210】
研究デザインとサンプル:CCGA(NCT02889978)は、前向き、多施設、症例対照、観察研究であり、縦断的な追跡調査が行われている。本テストでは、142施設からの約15,000人の参加者から非識別化生物サンプルが収集された。サンプルはトレーニングセット(1,785人)とテストセット(1,015人)に分けられ、各コホートの部位間でがんタイプと非がんとが事前に指定した分布を確保するようにサンプルを選択し、がん及び非がんサンプルは性別によって頻度年齢をマッチさせた。
【0211】
全ゲノムバイサルファイトシークエンス:cfDNAを血漿から分離し、cfDNAの解析には全ゲノムバイサルファイトシークエンス(WGBS、深度30倍)を採用した。cfDNAは、改良型QIAamp循環核酸キット(Qiagen、Germantown、MD)を使用して、患者ごとに2本の血漿チューブ(最大合計量10ml)から抽出した。最大75ngの血漿cfDNAを、EZ-96 DNA メチル化キット(Zymo Research、D5003)を使用して重亜硫酸塩変換に供した。変換されたcfDNAは、Accel-NGS Methyl-Seq DNAライブラリー調製キット(Swift BioSciences;Ann Arbor,MI)を使用してデュアルインデックスシークエンシングライブラリを調製するために使用され、構築したライブラリーは、KAPA Library Quantification Kit for Illumina Platforms (Kapa Biosystems; Wilmington, MA)を使用して定量化した。4つのライブラリーと10%のPhiX v3ライブラリー(Illumina、FC-110-3001)をプールし、Illumina NovaSeq 6000 S2フローセル上でクラスタリングした後、150bpペアエンドシークエンス(30倍)を実施した。
【0212】
各サンプルについて、WGBSフラグメントセットを、異常なメチル化パターンを有するフラグメントの小さなサブセットに縮小した。追加で、ハイパー又はハイポメチル化cfDNAフラグメントを選択した。異常なメチル化パターンを有し、ハイパー又はハイポメチル化、すなわち、UFXMであるcfDNAフラグメントを選択した。がんでない個体で高頻度に起こるフラグメント、又は不安定なメチル化を有するフラグメントは、がん状態を分類するための識別性の高い特徴を作り出しにくいと考えられる。それゆえに、CCGA研究からがんでない非喫煙者108人(年齢:58±14歳、女性79人[73%])の独立した参照セット(すなわち参照ゲノム)を使用して、統計モデル及び典型的なフラグメントのデータ構造体を生成した。これらのサンプルは、セクションII.Bで上述したように、フラグメント内のCpGメチル化状態の所与のシークエンスの尤度を見積もるマルコフチェーンモデル(次数3)を訓練するために使用した。このモデルは、正常なフラグメントの範囲(p値>0.001)で較正されることが実証され、マルコフモデルからのp値が>0.001を有するフラグメントは、十分に異常でないとして拒否するために使用した。
【0213】
上述のように、さらなるデータ削減ステップでは、少なくとも5つのCpGがカバーされ、かつ平均メチル化が>0.9(高メチル化)又は<0.1(低メチル化)のいずれかのフラグメントのみを選択した。この手順により、訓練でがんでない参加者の2,800(1,500-12,000)のUFXMフラグメントの中央値(範囲)、及び訓練でがんを有する参加者の3,000(1,200-220,000)のUFXMフラグメントの中央値(範囲)が結果として生じた。このデータ削減手順は、参照セットデータのみを使用したため、このステージは各サンプルに一度だけ適用する必要があった。
【0214】
V.B.浅いニューラルネットワークを用いたゲノム領域モデリング
【0215】
図10は、例示的な実施態様において、領域モデルのトレーニング中に使用される各ゲノム領域中の核酸フラグメントの数を図示する。単一の隠れ層を有する複数の浅いニューラルネットワークが、cfDNAフラグメントのトレーニングデータセットで訓練され、かつ訓練されたモデルの性能は、テストデータセット中の各核酸メチル化フラグメントに対して生成された損失の尺度(例えば、「フラグメントごとのテスト損失」)により示される。各ゲノム領域は、図中のデータ点によって表され、これは、トレーニングデータセット中の各それぞれのゲノム領域にマッピングされるメチル化フラグメントの数の広い変動を図示する(例えば、「#訓練するフラグメント」)。この図は、非常に小さい領域(例えば、10個未満のマッピングされたメチル化フラグメントを備える領域)においてモデルフィッティングが困難であることを示し、これらの領域を考慮から除外することができるか、又は更なる最適化が必要である(例えば、より小さいモデル及び/又は隠れ層当たりの隠れノードの異なる数)ことを示唆する。様々な浅いニューラルネットワークの隠れ層で使用される隠れノードの様々な数は、添付の凡例に示されている(例えば、1、2、3、4、8、16、24、32)。
【0216】
図11は、例示的な実施態様による、30,000以上のDNAフラグメントで訓練された各ニューラルネットワークの、様々なサイズ及び様々な特異度閾値でのニューラルネットワークの性能を図示する。ニューラルネットワークは、各領域に重なる30,000を超えるDNAフラグメントでフラグメントの二値分類(例えば、がんと非がんとの間)のために訓練され、約200のゲノム領域が評価された。左パネル1110は、特異度閾値0.999に訓練されたニューラルネットワークの性能を図示し、中央パネル1120は、特異度閾値0.9999に訓練されたときの性能を図示し、右パネル1130は、特異度閾値0.99999に訓練されたときの性能を図示している。
【0217】
特異度閾値の厳しさは、確率分布内の図示された出力確率(例えば、フラグメント確率のフィッティング)の位置を示し、このように、高い特異度閾値は、テール確率特徴を調べるために使用される。興味深いことに、パネル1120及び1130を参照すると、より多くの隠れノードを有するモデルは、テール確率(例えば、高い特異度閾値を満たす特徴)のモデリングにおいて改善された性能を提供した。逆に、左パネル1110に図示されるように、ニューラルネットワークの性能は、モデルのサイズにそこまで依存しない。その結果、より多くの隠れノードを有するニューラルネットワークは、少ない隠れノードを有するニューラルネットワークと比べて、モデルフィッティングに対する顕著な利点を提供しない。
【0218】
フラグメント確率分布のテールの端におけるデータポイントの向上された分解能は、多くの数の核酸メチル化フラグメントを有するデータセットにおいてより顕著である。これは、活性化関数(例えば、tanh及び/又はシグモイド関数)による1つ以上の非線形変換の結果であるテール特徴の飽和による可能性がある。このような場合、より多くのノードが、そうでなければ飽和した特徴に対してより大きな学習能力を提供する。いくつかの代替例において、そのような飽和は、ニューラルネットワークに採用される活性化関数の選択にしたがって、低減することができる。
【0219】
より大きなモデルによる二値分類タスクにおけるフラグメント確率フィッティングの改善された品質は、少ないフラグメントの数(例えば、約10,000)を有する領域と比較して、多いフラグメントの数(例えば、少なくとも30,000)を有する領域を使用した場合に、より明白である。
【0220】
図12は、例示的な実施態様による、10,000を超えるDNAフラグメントで訓練された各ニューラルネットワークの、様々なサイズ及び様々な特異度閾値でのニューラルネットワークの性能を図示する。図11と同様に、ニューラルネットワークは、単一の隠れ層を有し、フラグメントががん生体サンプルに由来するかについての二値予測を生成するように訓練される。パネル1210は、0.999の特異度閾値に訓練されたときの性能を示し、パネル1220は、0.9999の特異度閾値に訓練されたときの性能を示し、かつパネル1230は、0.9999の特異度閾値に訓練されたときの性能を示している。図11とは対照的に、プロットは、10,000個の重なるDNAフラグメントを有するゲノム領域で訓練するとき、ニューラルネットワークの隠れ層中の隠れノードの数の増加は、特異度閾値にかかわらず、パフォーマンスが改善しないことを示す。図11及び12は、浅いニューラルネットワークモデルの最適なサイズ及びパラメータが、適合されるデータに対する固有の条件に依存して変化し得ること、及び場合によっては実験的に決定させる必要があることを図示する。
【0221】
混合モデルとSNNの比較
【0222】
表1は、95%、98%、又は99%の感度の閾値における、重みの初期化を固定又はランダム化した浅いニューラルネットワークモデルと混合モデルとを比較した際の特異度における性能を表にする。すべての実行は、評価者構成asco_2019_1_tm(組織なし)を使用して行われている。99931のうち合計333の任意領域は、オフラインのハイパーパラメータチューニングのために除外された。
【0223】
【表1】
【0224】
混合モデル及び浅いニューラルネットワークは、Kフォールドクロスバリデーションを使用して学習させた。例えば,6フォールドクロスバリデーションを使用して,訓練データから6つのビンを作成した.6回のトレーニング実行ごとに、1つのビンは検証用ビンとして削除し、かつ残りのk-1ビンを訓練に使用した。各ビンが検証ビンとして使用されるまで、このプロセスを繰り返した(例:6x1)。混合モデルは、合計3回のクロスバリデーション訓練を実施する(例:6x3)ためにデータをランダムにシャッフルし、かつこのプロセスを追加で2回繰り返すことによって、更に訓練した。
【0225】
浅いニューラルネットワークのアーキテクチャは、隠れ層中に1又は8のいずれかの隠れユニット(例えば、ノード)を含んでいた(例えば、1/8)。訓練のために浅いニューラルネットワークモデルに入力する前に、データセットから異常な核酸メチル化フラグメントを選択するために、0.001のp値閾値を使用した。
【0226】
固定シードの重み初期化を使用する最初のSNN実行を、ランダム化された重み初期化を使用した後続の実行と統計的に比較するためのベースラインとして行った。
【0227】
固定シードとは、重みがどのように初期化されたかを表す。例えば、固定シードの初期化では、切り捨てられた正規分布を使用する特定のランダム分布から選択された値の所定のセットを使用する重みが初期化される。このように、固定シードの初期化を使用する初期化された重みは、ランダムであるが、最適なバックプロパゲーションのためにゼロに近い小さな大きさを有する。
【0228】
後続の(例えば、固定シードではない)SNN実行は、ランダムな重みの初期化を使用して行った。多数の実行と、多数の実行後の性能の推定範囲を表1にリスト化した。ここで、範囲は実行間の変動を示す。表1に表示された結果は、浅いニューラルネットワークの性能が、混合モデルの性能に匹敵することを示している。
【0229】
V.C.プールされた端から端までの訓練を用いたゲノム領域モデリング
【0230】
図13は、例示的な実施態様による、プールされた端から端までの訓練を実施するがん分類プロセスの性能を図示する。この実施態様によれば、がん分類器は、特徴化モジュール、領域モデル、及びメチル化埋め込みモデルと同時に訓練されている。各領域モデルは、領域モデルを訓練するために、ゲノム領域に重なるDNAフラグメントの入力メチル化埋め込みに対して、領域埋め込みを生成するように構成される。特徴化モジュールは、2つのプーリングステップ-各ゲノム領域の集約領域ベクトルを生成するために領域埋め込みをプールする第1のプーリングステップと、ゲノム領域の集約領域ベクトルを特徴ベクトル(例えば、図7及び8に記載されたような)にプールする第2のプーリングステップと、を行うように構成される。がん分類器は、ホールドアウトセットに対して評価され、かつ0.821669の全体的な曲線下面積(「AUC」とも呼ばれる)で行われ、これは、主要ながん分類器よりもわずかに改善されていた。一般的な注意事項として、0.5のAUCは、正のラベルと負のラベルとの間の判別能力を事実上有しないモデルを表し、かつ1のAUCは、正のラベルと負のラベルとの間の判別において完全な精度を有するモデルを表す。
【0231】
図14A及び14Bは、図13の例示的な実施態様による、がんの様々なステージにおける、プールされた端から端までの訓練を実施するがん分類の性能を図示する。がんの各ステージのホールドアウトセットは、がんの様々なステージにわたる性能を評価するために使用された。プールされたエンドツーエンドのがん分類器は、以下のグラフにおいて「pe2e」とラベルされる。グラフ1410は、ステージ1のがん予測に対する0.657478のAUCを示す。グラフ1420は、ステージ2のがん予測の対する0.797125のAUCを示す。グラフ1430は、ステージ3のがん予測に対する0.931150のAUCを示す。グラフ1440は、ステージ4のがん予測に対する0.967584のAUCを示す。全体として、プールされた端から端までの訓練を実施するがん分類器は、主要ながん分類器と匹敵する程度の性能だった。きわめて、がん分類器の予測精度は、がんのステージが進行するにつれて、着実に向上した。がん分類器は、ステージ1、2では、主要な分類器と比較して若干良好な性能だったが、ステージ3、4では、主要な分類器と比較して若干悪い性能だった。
【0232】
VI.特許を請求可能な主題
【0233】
一態様において、がんを検出する方法は、複数のcfDNAフラグメントを備える生体サンプルについてのシークエンシングデータを受信するステップであって、各cfDNAフラグメントは、複数のゲノム領域のうちの少なくとも1つのゲノム領域と重なる、ステップと、生体サンプルの各cfDNAフラグメントに対して、cfDNAフラグメントが重なるゲノム領域に対する第1のスコアを決定するステップであって、ゲノム領域に対する第1のスコアは、cfDNAフラグメントをゲノム領域について訓練されたニューラルネットワークに入力することによって決定され、ニューラルネットワークは、cfDNAフラグメントががん生体サンプルに由来する尤度の代表値を第1のスコアに生成するように構成される、ステップと、生体サンプルに対する特徴ベクトルを生成するステップであって、特徴ベクトルの各特徴は、複数のゲノム領域の一つのゲノム領域に対応し、かつ閾値スコアを上回る前記ゲノム領域のスコアを有するcfDNAフラグメントのカウントに従って生成される、ステップと、特徴ベクトルを訓練されたモデルに入力し、生体サンプルに対するがん予測を生成するステップと、を備える。
【0234】
別の態様において、がんを検出する方法は、複数のcfDNAフラグメントを含む生体サンプルのシークエンシングデータを受信するステップであって、各cfDNAフラグメントは、複数のゲノム領域のうちの少なくとも1つのゲノム領域に重なる、ステップと、生体サンプルの各cfDNAフラグメントに対して、cfDNAフラグメントを訓練された埋め込みモデルに入力することによって、メチル化埋め込みを生成するステップであって、訓練された埋め込みモデルは入力cfDNAフラグメントに基づいてメチル化埋め込みを生成するよう構成される、ステップと、生体サンプルの各cfDNAフラグメントに対して、cfDNAフラグメントが重なるゲノム領域に対する領域埋め込みを生成するステップであって、ゲノム領域に対する領域埋め込みは、cfDNAフラグメントのメチル化埋め込みを、ゲノム領域について訓練された領域モデルに入力することによって決定し、領域モデルは、入力したメチル化埋め込みに基づいて領域埋め込みを生成するように構成される、ステップと、各ゲノム領域に対して、ゲノム領域に重なる1つ以上のcfDNAフラグメントの1つ以上の領域埋め込みをプールすることによって、集約領域ベクトルを決定するステップと、ゲノム領域の前記集約領域ベクトルをプールすることによって、特徴ベクトルを決定するステップと、特徴ベクトルを分類モデルに入力し、生体サンプルに対するがん予測を生成するステップと、を備える。
【0235】
まだ別の態様において、複数の訓練対象についてゲノムデータセットを得ることができ、各データセットは、がん状態ラベル(例えば、がん及び/又は非がん)及び核酸メチル化フラグメントを有する。各核酸メチル化フラグメントは、生体サンプル中の核酸のメチル化シークエンシングによって決定されたCpGメチル化状態のメチル化パターンを有することができる。訓練されていないニューラルネットワーク(例えば、ゲノム領域モデル及び/又は特徴化モジュールによって提供されるモデル)は、ゲノムデータセットを使用する複数のゲノム領域について訓練することができる。各訓練されていないニューラルネットワークは、独立して、それぞれのゲノム領域に対応することができ、複数の重みを備えることができ、ゲノム領域にマッピングされる核酸メチル化フラグメントをスコア化する。訓練は、核酸メチル化フラグメントが元である訓練対象のがん状態ラベルに対するスコア(例えば、損失関数を使用して決定される)の比較に基づいて重みを更新することができる(例えば、バックプロパゲーションを使用して)。ゲノム領域にマッピングされた核酸メチル化フラグメントをスコア化するために、訓練されたニューラルネットワークを使用することによって、各ゲノム領域に対して特徴(又は特徴ベクトル)を特定することができる。例えば、訓練されたニューラルネットワークによって得られたスコアは、それぞれの核酸メチル化フラグメントが特定のがん状態ラベルを有する訓練対象が元である
確率を含む。特徴は、それぞれのがん状態ラベルに対する確率閾値を満たす核酸メチル化フラグメントの1つ以上のカウント(例えば、がんに対する確率閾値を満たす核酸メチル化フラグメントのカウントと、非がんに対する確率閾値を満たす核酸メチル化フラグメントのカウントとの比)を含むことができる。
【0236】
本明細書に開示されたシステム及び方法を使用して得られた特徴は、がんのタイプ、ステージ、又は起源組織を含むがん状態を更なる分類のための下流の教師付きモデル(例えば、がん分類器)の入力として使用することができる。そのような特徴は、入力のために高度な変型の核酸メチル化フラグメント(例えば、1つ以上のがん状態に対して高い確率でスコア化されたフラグメント)を選択する一方、1つ以上のそれぞれのがん状態に対して1つ以上の確率閾値を満たすことができないあまり有益でないフラグメントを除去することによって、下流の分類器(例えば、教師付きモデル)の判別力を高めることができる。本明細書に開示される方法は、このように、下流の分類器に入力するための複数のゲノムデータセットからの核酸メチル化フラグメントの選択を改善し、対象のがん状態を判定するために教師付きモデルを訓練し使用する効率及び性能を更に改善することができる。
【0237】
本開示の別の態様は、対象のがん状態を判定するための複数の特徴を取得するための方法を提供する。本方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための命令を備える少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムで行うことができる。本方法は、複数のゲノムデータセットを取得することを備えることができる。複数のゲノムデータセット中の各それぞれのゲノムデータセットは、複数の訓練対象におけるそれぞれの訓練対象についてのものとすることができる。各それぞれのゲノムデータセットは、それぞれの訓練対象のがん状態に対応するラベル、及び対応する複数の核酸メチル化フラグメントを(例えば、電子フォームで)含むことができる。対応する複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含むことができる。対応する複数の核酸メチル化フラグメントは、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定することができる。
【0238】
本方法は、複数のゲノム領域中の各それぞれのゲノム領域に対して、かつ複数の訓練対象の各訓練対象者からの複数のゲノムデータセットに基づいて、複数の訓練されていないニューラルネットワーク中の対応する訓練されていないニューラルネットワークを訓練し、このように、複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークを得るステップを更に備えることができる。対応する訓練されていないニューラルネットワーク(及び生じた対応する訓練されたニューラルネットワーク)は、独立して、それぞれのゲノム領域に対応することができる。対応する訓練されていないニューラルネットワークは、対応する複数の重みを備えることができる。対応する訓練されていないニューラルネットワークは、対応する複数の核酸メチル化フラグメントの各々において、対応する訓練されていないニューラルネットワークによって表されるそれぞれのゲノム領域にマッピングされるそれぞれの核酸メチル化フラグメントをスコア化することができ、これにより、対応する複数のトレーニングスコアを得ることができる。訓練は、対応する複数のトレーニングスコアと、それぞれの核酸メチル化フラグメントを元とするそれぞれの訓練対象のがん状態に対する対応するラベルとの比較に基づいて(例えば、バックプロパゲーション技術によって)、対応する訓練されていないニューラルネットワークにおける対応する複数の重みのそれぞれの値を更新でき、このように、対応する訓練されたニューラルネットワークを取得する。
【0239】
本方法は、複数のゲノム領域中の各それぞれのゲノム領域に対して、特徴同定を行う(例えば、特徴ベクトルを生成する)ステップを更に備えることができる。複数の訓練対象中の各訓練対象について、それぞれの訓練対象に対するゲノム領域のそれぞれの特徴は、それぞれのゲノム領域に対応する訓練されたニューラルネットワークを使用して、がん状態に対するそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化することによって得ることができ、それによって複数の特徴を取得することによって得ることができる。
【0240】
いくつかの実施態様において、対応する訓練されたニューラルネットワークは、それぞれの核酸メチル化フラグメントを対応する訓練されたニューラルネットワークに入力すると、非がん状態と同様に複数のがん状態中の各がん状態に対して個別の確率を計算する。いくつかの実施態様では、複数のがん状態は、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん.腎臓がん、肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃癌、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫、及び/又は白血病を含む。
【0241】
いくつかの実施態様において、訓練は、Kフォールドクロスバリデーションによって行われる。いくつかの実施態様では、がん状態は、がんの不在又は存在であり、複数の訓練対象の第1のサブセットはがんを有し、複数の訓練対象の第2のサブセットはがんを有さない。いくつかの実施態様では、少なくとも1つのプログラムは、複数のゲノム領域中のそれぞれのゲノム領域に対して、特徴同定(又は特徴モジュール)によって計算されたそれぞれのゲノム領域の各それぞれの特徴と、それぞれの特徴に紐づいたそれぞれの訓練対象のがん状態についての対応するラベルとを使用する下流の教師付きモデルを訓練するための命令を更に備える。
【0242】
いくつかのそのような実施態様において、訓練、特徴同定、及び下流の教師付きモデルの訓練は、複数のニューラルネットワーク及び下流の教師付きモデルを連帯的に訓練する複合訓練で行われる。いくつかのそのような実施態様では、下流モデルは、ベクトルを入力として受け入れ、ここで、ベクトルは、複数の訓練対象中のそれぞれの訓練対象に紐づけられ、かつベクトルの各要素は、異なるゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントを使用する特徴同定によって計算された複数のゲノム領域中の異なるゲノム領域のそれぞれの特徴量である。
【0243】
いくつかのそのような実施態様において、少なくとも1つのプログラムは、複数のテスト核酸メチル化フラグメントを取得するための命令を更に備える。対応する複数のテスト核酸メチル化フラグメント中の各それぞれのテスト核酸メチル化フラグメントは、それぞれのテスト核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、複数のテスト核酸メチル化フラグメントは、テスト対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される。少なくとも1つのプログラムは、複数のゲノム領域中の各それぞれのゲノム領域に対して、テスト特徴同定を行うための命令を更に備える。テスト対象のゲノム領域のそれぞれのテスト特徴は、それぞれのゲノム領域に対応する訓練されたニューラルネットワークを使用して、がん状態のそれぞれのゲノム領域にマッピングされるテスト対象に対応する複数のテスト核酸メチル化フラグメント中のそれぞれのテスト核酸メチル化フラグメントをスコア化することによって得られ、それによって、複数のゲノム領域中の各ゲノム領域に対するテスト特徴を含む複数のテスト特徴を取得する。少なくとも1つのプログラムは、複数のテスト特徴を下流の教師付きモデルに適用して、テスト対象ががん状態を有するかを判定するための命令を更に備える。
【0244】
いくつかの実施態様では、複数のゲノム領域は、100~100,000個のゲノム領域を含む。いくつかの実施態様では、複数のゲノム領域は、500~2,000個のゲノム領域を含む。いくつかの実施態様では、対応する複数の核酸メチル化フラグメントの平均長さは、140ヌクレオチド~280ヌクレオチドの間である。
【0245】
いくつかの実施態様において、それぞれの核酸メチル化フラグメントは、核酸メチル化フラグメントのメチル化パターンの入力に応じて、訓練されたマルコフモデルによって提供される出力p値がp値閾値を満たすことができないとき、1つ以上の選択基準中の選択基準を満たすことができない。訓練されたマルコフモデルは、少なくとも部分的に、対応する複数のCpG部位を有する健康な非がんコホートデータセット中の、それらの核酸メチル化フラグメントにわたる、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態の評価に基づいて、訓練することが可能できる。いくつかの実施態様では、p値閾値は、0.01~0.10の間である。いくつかの実施態様では、p値閾値は、0.03~0.06との間である。いくつかの実施態様において、それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数のCpG部位を有するとき、1つ以上の選択基準中の選択基準を満たすことができない。いくつかの実施態様では、CpG部位の閾値の数は、4、5、6、7、8、9、又は10である。
【0246】
いくつかの実施態様において、それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントのゲノム開始位置及びゲノム終了位置が、ヒトゲノム参照シークエンス中の閾値未満の数のヌクレオチドを表すそれぞれの核酸メチル化フラグメントを示すとき、1つ以上の選択基準中の選択基準を満たすことができない。いくつかの実施態様では、残余の閾値数は、20~90の間の固定値である。いくつかの実施態様では、フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するメチル化パターンと同じ対応するゲノム開始位置及びゲノム終了位置を有する対応する複数の核酸メチル化フラグメント中の核酸メチル化フラグメントを除去する。
【0247】
いくつかの実施態様において、本方法は、ニューラルネットワークを訓練する前に、複数の訓練対象にわたるがん状態に対するそれぞれのメチル化フラグメントの相互情報フィルタリングに基づいて、複数のメチル化フラグメントからメチル化フラグメントのサブセットを除去するステップを更に備える。
【0248】
いくつかの実施態様では、それぞれの核酸メチル化フラグメント中の対応する複数のCpG部位のメチル化状態は、CpG部位がメチル化されているとメチル化シークエンシングによって決定されたときにメチル化され、CpG部位がメチル化されていないとメチル化シークエンシングによって決定されたときに非メチル化される。いくつかの実施態様では、それぞれの核酸メチル化フラグメントに対する対応する複数のCpG部位中の各CpG部位のメチル化状態は、それぞれの核酸メチル化フラグメントが訓練においてマッピングされるそれぞれのゲノム領域に対応する対応する訓練されていないニューラルネットワークに適用される対応する2次元ベクトルにワンホットエンコーディングされる。
【0249】
いくつかの実施態様において、がん状態は、がんの非存在又は存在である。いくつかの実施態様では、がん状態は、がんのタイプの非存在又は存在である。いくつかの実施態様では、がんのタイプ(又はがんタイプ、指定されたがん)は、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃癌、精巣がん、、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫、白血病又はそれらの組合せを含む。いくつかの実施態様では、がん状態は、指定されたがんのステージである。
【0250】
いくつかの実施態様において、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングは、生体サンプル中の無細胞核酸のメチル化シークエンシングである。いくつかの実施態様では、生体サンプルは、血液サンプルである。いくつかの実施態様では、複数の訓練対象中の訓練対象のそれぞれの生体サンプルは、がん状態に対して均質である。いくつかの実施態様では、複数の訓練対象中の訓練対象のそれぞれの生体サンプルは、がん状態に対して均質である腫瘍サンプルである。
【0251】
いくつかの実施態様では、複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークの1つ以上の対応するニューラルネットワーク出力は、訓練対象ががん状態を有する確率を提供する単一のニューラルネットワーク出力である。いくつかの実施態様では、複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークの1つ以上の対応するニューラルネットワーク出力は、複数のニューラルネットワーク出力であり、複数のニューラルネットワーク出力中の各ニューラルネットワーク出力は、訓練対象が複数のがんタイプ中の対応するがんタイプを有している確率を提供する。
【0252】
いくつかの実施態様において、マルチゲノム領域は、複数のゲノム領域のサブセットからなり、かつ特徴同定を行うことは、それぞれの訓練対象に対する複数のゲノム領域のサブセット中の各ゲノム領域のそれぞれの特徴又は複数のゲノム領域のサブセットに対する単一の特徴を得るために、複数のゲノム領域のサブセット中のゲノム領域に対応する各訓練されたニューラルネットワークの出力を入力として受け入れるマルチゲノム領域ニューラルネットワークの使用をさせる。
【0253】
いくつかの実施態様では、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングが、生体サンプル中の無細胞核酸のメチル化シークエンシングである。いくつかのそのような実施態様では、本方法は、がん状態の代表である1つ以上の腫瘍サンプルから得られた核酸メチル化フラグメントについてのメチル化データを使用して、複数の訓練されたニューラルネットワーク中の対応する訓練されていないニューラルネットワークを少なくとも部分的に訓練するステップを更に備える。
【0254】
本開示の別の態様は、対象のがん状態を判定するための方法を提供する。本方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための命令を備える少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムで行うことができる。本方法は、電子フォームで、複数の核酸メチル化フラグメントを得ることを備えることができる。複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含むことができる。複数の核酸メチル化フラグメントは、対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定することができる。
【0255】
本方法は、複数のゲノム領域中の各それぞれのゲノム領域に対して、特徴同定を行うステップを更に備えることができる。対象についてのゲノム領域のそれぞれの特徴は、がん状態に対するそれぞれのゲノム領域にマッピングされる複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化するために、それぞれのゲノム領域に対応する複数の訓練されたニューラルネットワーク中の訓練されたニューラルネットワークを使用することによって得ることができ、それによって複数の特徴を取得することができる。複数の特徴中の各それぞれの特徴は、複数のゲノム領域中の対応するゲノム領域に対するものとすることができる。本方法は、複数の特徴を下流の教師付きモデルに入力することに応じて、下流の教師付きモデルの出力として、テスト対象ががん状態を有するか否かについての判定を得るステップを更に備えることができる。
【0256】
本開示の別の態様は、対象のがん状態を判定するための複数の特徴を得るための方法を提供し、本方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)複数の遺伝子型データセットを取得するステップであって、複数の遺伝子型データセット中の各それぞれの遺伝子型データセットは、複数の訓練対象中のそれぞれの訓練対象についてのものであり、それぞれの遺伝子型データセットは、電子フォームで、(i)それぞれの訓練対象のがん状態に対応するラベル、及び(ii)対応する複数の核酸メチル化フラグメントであり、対応する複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ対応する複数の核酸メチル化フラグメントは、それぞれの訓練対象から得られた生体サンプル中核酸のメチル化シークエンシングにより決定される、対応する複数の核酸メチル化フラグメント、を備える、ステップ;B)複数のゲノム領域中のそれぞれのゲノム領域に対して、かつ複数の訓練対象の各訓練対象からの複数の遺伝子型データセットに基づいて、複数の訓練されていないニューラルネットワーク中の対応する訓練されていないニューラルネットワークを訓練し、それによって複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークを得るステップであって、対応する訓練されていないニューラルネットワークは、独立して、それぞれのゲノム領域に対応し、対応する訓練されていないニューラルネットワークは、対応する複数の重みを備え、対応する訓練されていないニューラルネットワークは、各対応する複数の核酸メチル化フラグメント中の、それぞれのゲノム領域にマッピングされるそれぞれの核酸メチル化フラグメントをスコア化し、それによって対応する複数の訓練スコアを取得し、訓練は、対応する複数の訓練スコアと、それぞれの核酸メチル化フラグメントを元とするそれぞれの訓練対象のがん状態に対する対応するラベルとの比較に基づいて、対応する訓練されていないニューラルネットワーク中の複数の重みの各重みの対応する値を更新し、それによって対応する訓練されたニューラルネットワークを取得する、ステップ;C)複数のゲノム領域中の各それぞれのゲノム領域に対して、複数の訓練対象中の各訓練対象について、それぞれのゲノム領域に対応する訓練されたニューラルネットワークを使用し、がん状態についてそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメン中のそれぞれの核酸メチル化フラグメントをスコア化することによって、それぞれの訓練対象に対するゲノム領域のそれぞれの特徴を取得し、それによって複数の特徴を得ることによって、特徴同定を行うステップ。
【0257】
いくつかの実施態様において、それぞれの訓練対象に対するゲノム領域のそれぞれの特徴は、がん状態についてそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントのカウントであり、がん状態は条件:log((P(cancer state))/(P(noncancer state)))>thresholdを満たす。ここで、P(cancer state)は、それぞれの核酸メチル化フラグメントががん状態に紐づく確率であり、確率は、それぞれの核酸メチル化フラグメントを対応する訓練されたニューラルネットワークに入力する際に、それぞれのゲノム領域に対応する対応する訓練されたニューラルネットワークによって提供され、P(noncancer state)=1-P(cancer state)、閾値(threshold)は固定値、対応する訓練されたニューラルネットワークはP(cancer state)だけを計算する。
【0258】
いくつかの実施態様において、それぞれの訓練対象に対するゲノム領域のそれぞれの特徴は、がん状態についてそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントのカウントであり、がん状態は条件:log((P(cancer state))/(P(noncancer state)))>thresholdを満たす。ここで、P(cancer state)は、それぞれの核酸メチル化フラグメントががん状態に紐づく第1の確率であり、第1の確率は、それぞれの核酸メチル化フラグメントを対応する訓練されたニューラルネットワークに入力する際に、それぞれのゲノム領域に対応する、対応する訓練されたニューラルネットワークによって提供される。P(noncancer state)は、それぞれの核酸メチル化フラグメントが非がん状態に紐づく第2の確率であり、第2の確率は、それぞれの核酸メチル化フラグメントを対応する訓練されたニューラルネットワークに入力する際にそれぞれのゲノム領域に対応する対応する訓練されたニューラルネットワークにより提供され、閾値は固定値である。
【0259】
いくつかの実施態様において、対応する訓練されたニューラルネットワークは、対応する訓練されたニューラルネットワークにそれぞれの核酸メチル化フラグメントを入力する際に、非がん状態と同様に複数のがん状態中のそれぞれのがん状態について個別の確率を計算する。
【0260】
いくつかの実施態様において、複数のがん状態は、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝/胆道がん.腎臓がん、肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃癌、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫、及び/又は白血病を含む。
【0261】
いくつかの実施態様において、B)訓練するステップは、Kフォールドクロスバリデーションを通じて行う。
【0262】
いくつかの実施態様において、がん状態は、がんの不在又は存在であり、かつ複数の訓練対象の第1のサブセットはがんを有し、複数の訓練対象の第2のサブセットはがんを有さない。
【0263】
いくつかの実施態様において、少なくとも1つのプログラムは、D)複数のゲノム領域の各それぞれのゲノム領域に対して、C)によって計算されたそれぞれのゲノム領域の各それぞれの特徴、及びそれぞれの特徴に紐づいたそれぞれの訓練対象のがん状態に対する対応するラベルを使用する下流の教師付きモデルを訓練するステップ、のための命令を更に備える。
【0264】
いくつかの実施態様では、B)訓練するステップ、C)行うステップ、及びD)訓練するステップは、複数のニューラルネットワークと下流の教師付きモデルとを共同で訓練する複合訓練で行われる。
【0265】
いくつかの実施態様において、下流モデルは、ベクトルを入力として受け入れ、ベクトルは、複数の訓練対象中のそれぞれの訓練対象に紐づけられ、ベクトルの各要素は、異なるゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントを使用するC)行うステップによって計算される複数のゲノム領域中の異なるゲノム領域のそれぞれの特徴である。
【0266】
いくつかの実施態様において、下流の教師付きモデルは、ロジスティック回帰である。
【0267】
いくつかの実施態様において、下流の教師付きモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。
【0268】
いくつかの実施態様において、少なくとも1つのプログラムは、以下のための命令を更に備える。E)複数のテスト核酸メチル化フラグメントを得るステップであって、対応する複数のテスト核酸メチル化フラグメント中の各それぞれのテスト核酸メチル化フラグメントは、それぞれのテスト核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、複数のテスト核酸メチル化フラグメントは、テスト対象から得られた生体サンプル中の核酸メチル化シークエンシングによって決定される、ステップ;F)複数のゲノム領域中の各それぞれのゲノム領域に対して、それぞれのゲノム領域に対応する訓練されたニューラルネットワークを使用して、がん状態に対するそれぞれのゲノム領域にマッピングされるテスト対象に対応する複数のテスト核酸メチル化フラグメント中のそれぞれのテスト核酸メチル化フラグメントをスコア化することによって、テスト対象に対するゲノム領域のそれぞれのテスト特徴を取得し、それによって、複数のゲノム領域中の各ゲノム領域に対するテスト特徴を含む複数のテスト特徴を取得することによって、テスト特徴同定を行なうステップ;G)複数のテスト特徴を下流の教師付きモデルに適用して、テスト対象ががん状態を有するか否かを判定するステップ。
【0269】
いくつかの実施態様において、対応する複数の核酸メチル化フラグメントは、千以上、1万以上、10万以上、100万以上、1000万以上、1億以上、5億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、又は100億以上の核酸メチル化フラグメントを含む。
【0270】
いくつかの実施態様では、複数のゲノム領域にわたって、10,000以上のCpG部位、25,000以上のCpG部位、50,000以上のCpG部位、又は80,000以上のCpG部位が存在する。
【0271】
いくつかの実施態様において、第1のゲノム領域は、第1の数のCpG部位からなり、複数のゲノム領域中の第2のゲノム領域は、第1の数のCpG部位と異なる第2の数のCpG部位からなる。
【0272】
いくつかの実施態様において、複数のゲノム領域は、100~100,000個の間のゲノム領域を含む。
【0273】
いくつかの実施態様において、複数のゲノム領域は、500~2,000個の間のゲノム領域を含む。
【0274】
いくつかの実施態様において、対応する複数の核酸メチル化フラグメントの平均長さは、140~280ヌクレオチドの間である。
【0275】
いくつかの実施態様において、複数のゲノム領域中の各ゲノム領域は、ヒトゲノム参照シークエンスの500塩基対~10,000塩基対の間を表す。
【0276】
いくつかの実施態様において、複数のゲノム領域の各ゲノム領域は、ヒトゲノム参照シークエンスの500塩基対~2,000塩基対の間を表す。
【0277】
いくつかの実施態様において、複数のゲノム領域中の各ゲノム領域は、ヒトゲノム参照シークエンスの異なる部分を表す。
【0278】
いくつかの実施態様3において、A)取得するステップは、対応する複数の核酸メチル化フラグメントから、1つ以上の選択基準を満たすことができない各核酸メチル化フラグメントを除去することによって、対応する複数の核酸メチル化フラグメントをフィルタリングするステップを更に備える。
【0279】
いくつかの実施態様において、それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応するメチル化パターンがp値閾値を満たすことができない出力p値を有するとき、1つ以上の選択基準中の選択基準を満たすことができず、かつそれぞれの核酸メチル化フラグメントの出力p値は、それぞれの核酸メチル化フラグメントの対応するメチル化パターンをそれぞれの核酸メチル化フラグメントの対応する複数のCpG部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントのメチル化パターンの対応する分布と比較することに少なくとも部分的に基づいて、決定される。
【0280】
いくつかの実施態様において、それぞれの核酸メチル化フラグメントは、核酸メチル化フラグメントのメチル化パターンの入力に応答する訓練されたマルコフモデルによって提供される出力p値がp値閾値を満たすことができないとき、1つ以上の選択基準中の選択基準を満たすことができず、かつ訓練されたマルコフモデルを、対応する複数のCpG部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントにわたるそれぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態の評価に基づいて、少なくとも部分的に訓練する。
【0281】
いくつかの実施態様において、p値閾値は、0.01~0.10との間である。
【0282】
いくつかの実施態様において、p値閾値は、0.03~0.06との間である。
【0283】
いくつかの実施態様において、それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数のCpG部位を有するとき、1つ以上の選択基準中の選択基準を満たすことができない。
【0284】
いくつかの実施態様において、CpG部位の閾値の数は、4、5、6、7、8、9、又は10である。
【0285】
いくつかの実施態様において、それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントのゲノム開始位置及びゲノム終了位置が、ヒトゲノム参照シークエンス中のそれぞれの核酸メチル化フラグメントが閾値未満の数のヌクレオチドを表すことを示すとき、1つ以上の選択基準中の選択基準を満たすことができない。
【0286】
いくつかの実施態様において、残基の閾値数は、20~90の間の固定値である。
【0287】
いくつかの実施態様において、フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するメチル化パターン並びに同じ対応するゲノム開始位置及びゲノム終了位置を有する対応する複数の核酸メチル化フラグメント中の核酸メチル化フラグメントを除去する。
【0288】
いくつかの実施態様において、本方法は、訓練するステップB)の前に、複数の訓練対象にわたるがん状態に対するそれぞれのメチル化フラグメントの相互情報フィルタリングに基づいて、複数のメチル化フラグメントからメチル化フラグメントのサブセットを除去するステップを更に備える。
【0289】
いくつかの実施態様において、それぞれの核酸メチル化フラグメント中の対応する複数のCpG部位中のCpG部位のメチル化状態は、CpG部位がメチル化されているとメチル化シークエンシングによって判定されるときはメチル化されており、CpG部位がメチル化されていないとメチル化シークエンスによって判定される場合はメチル化されていない。
【0290】
いくつかの実施態様において、それぞれの核酸メチル化フラグメントに対する対応する複数のCpG部位中のCpG部位のメチル化状態は、訓練するステップB)においてそれぞれの核酸メチル化フラグメントがマッピングされるそれぞれのゲノム領域に対応する、対応する訓練されていないニューラルネットワークに適用される対応する2次元ベクトルにワンホットエンコーディングされる。
【0291】
いくつかの実施態様において、メチル化シークエンシングは、i)全ゲノムメチル化シークエンシング、又はii)複数の核酸プローブを使用する標的DNAメチル化シークエンシングである。
【0292】
いくつかの実施態様において、メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)を検出する。
【0293】
いくつかの実施態様において、メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の、1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンの、対応する1つ以上のウラシルへの変換を備える。
【0294】
いくつかの実施態様では、1つ以上のウラシルは、1つ以上の対応するチミンとしてメチル化シークエンシング中に検出される。
【0295】
いくつかの実施態様において、1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンの変換は、化学的変換、酵素的変換、又はそれらの組み合わせを含む。
【0296】
いくつかの実施態様において、がん状態は、がんの非存在又は存在である。
【0297】
いくつかの実施態様において、がん状態は、がんのタイプの非存在又は存在である。
【0298】
いくつかの実施態様において、がんのタイプは、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆道がん、腎臓がん。肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃癌、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫、白血病、又はそれらの組み合わせである。
【0299】
いくつかの実施態様において、がん状態は、指定されたがんのステージである。
【0300】
いくつかの実施態様において、指定されたがんは、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆道がん、腎臓がん。肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃癌、精巣がん、、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫、白血病、又はそれらの組み合わせである。
【0301】
いくつかの実施態様において、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングは、生体サンプル中の無細胞核酸のメチル化シークエンシングである。
【0302】
いくつかの実施態様において、生体サンプルは、血液サンプルである。
【0303】
いくつかの実施態様において、生体サンプルは、それぞれの訓練対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液を含む。
【0304】
いくつかの実施態様において、複数の訓練対象中の訓練対象のそれぞれの生体サンプルは、がん状態に対して均質である。
【0305】
いくつかの実施態様において、複数の訓練対象中の訓練対象のそれぞれの生体サンプルは、がん状態に対して均質である腫瘍サンプルである。
【0306】
いくつかの実施態様において、複数の訓練されたニューラルネットワーク中の各それぞれの対応する訓練されたニューラルネットワークは、対応する複数の入力であって、対応する複数の入力中の各入力は、対応するニューラルネットワークによって表されるそれぞれのゲノム領域中のメチル化状態に対するものである、対応する複数の入力と、対応する複数の隠れニューロンを備える対応する第1の隠れ層であって、対応する複数の隠れニューロン中の各隠れニューロンは、(i)複数の入力中の各入力に完全に接続され、(ii)第1の活性化関数タイプに紐づけられ、(iii)対応する訓練されたニューラルネットワークに対する対応する複数の重み中の対応する重みに紐づけられる、対応する第1の隠れ層と、1つ以上の対応するニューラルネットワーク出力であって、対応する1つ以上のニューラルネットワーク出力中の各それぞれのニューラルネットワーク出力は(i)直接又は間接的に、入力として、対応する複数の隠れニューロン中の各隠れニューロンの出力を受信し、(ii)第2の活性化関数タイプと紐づけられる、ニューラルネットワーク出力と、を備える。
【0307】
いくつかの実施態様において、複数の訓練されたニューラルネットワーク中の各対応する訓練されたニューラルネットワークは、完全連結型ニューラルネットワークである。
【0308】
いくつかの実施態様において、第1の活性化関数タイプは、tanh、シグモイド、ソフトマックス、ガウス、ボルツマン加重平均、絶対値、線形、整流線形ユニット(ReLU)、有界整流線形、ソフト整流線形、パラメータ化整流線形、平均、最大、最小、符号、平方、平方根、多二次、逆二次、逆多二次、ポリハーモニック スプライン又は薄板型スプラインである。
【0309】
いくつかの実施態様において、第2の活性化関数タイプは、ソフトマックスである。
【0310】
いくつかの実施態様において、対応する複数の隠れニューロンは、2ニューロン~48ニューロンの間で構成される。
【0311】
いくつかの実施態様において、対応する複数の隠れニューロンは、4ニューロン~24ニューロンの間で構成される。
【0312】
いくつかの実施態様において、第1の対応する訓練されたニューラルネットワークは、複数の訓練されたニューラルネットワーク中の第2の対応する訓練されたニューラルネットワークと比較して、対応する第1の隠れ層中のニューロンの数が異なる。
【0313】
いくつかの実施態様では、複数の訓練されたニューラルネットワーク中の各対応する訓練されたニューラルネットワーク中の隠れ層の数は、対応する第1の隠れ層に限定される。
【0314】
いくつかの実施態様では、複数の訓練されたニューラルネットワーク中の各対応する訓練されたニューラルネットワーク中の隠れ層の数は、2層~5層の間の隠れ層で構成される。
【0315】
いくつかの実施態様において、複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークの1つ以上の対応するニューラルネットワーク出力は、訓練対象ががん状態を有する確率を提供する単一のニューラルネットワーク出力である。
【0316】
いくつかの実施態様において、複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークの1つ以上の対応するニューラルネットワーク出力は、複数のニューラルネットワーク出力であり、ここで、複数のニューラルネットワーク出力中の各ニューラルネットワーク出力は、訓練対象が複数のがんタイプ中の対応するがんタイプを有する確率を提供する。
【0317】
いくつかの実施態様では、複数のがんタイプは、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃癌、精巣がん、、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫、及び白血病の任意の組み合わせを含む。
【0318】
いくつかの実施態様において、複数のゲノム領域中の各ゲノム領域は、複数の訓練されたニューラルネットワーク中の単一の対応するニューラルネットワークによって表される。
【0319】
いくつかの実施態様において、複数のゲノム領域中の各ゲノム領域は、複数の訓練されたニューラルネットワーク中の2つ~5つの間の対応する訓練されたニューラルネットワークによって表され、かつ対応する第1隠れ層中の第1の対応する重みの値は、2つ~5つの間の対応する訓練されたニューラルネットワークの各々で異なっている。
【0320】
いくつかの実施態様において、複数のゲノム領域中の各ゲノム領域は、複数の訓練されたニューラルネットワーク中の2つ~5つの間の対応するニューラルネットワークによって表され、かつ第1の隠れ層中の各対応する重みの値は、2つ~5つの間の対応する訓練されたニューラルネットワークの各々において、独立している。
【0321】
いくつかの実施態様では、B)訓練するステップは、対応する複数の隠れニューロン中の各隠れニューロンの対応する重みに対する正則化を使用する。
【0322】
いくつかの実施態様において、正則化は、L1又はL2ペナルティを含む。
【0323】
いくつかの実施態様において、各対応する複数の核酸メチル化フラグメントは、100個より多い核酸メチル化フラグメントを含む。
【0324】
いくつかの実施態様において、各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、1000以上の核酸メチル化フラグメント、5000以上の核酸メチル化フラグメント、10,000以上の核酸メチル化フラグメント、20,000以上の核酸メチル化フラグメント、又は30,000以上の核酸メチル化フラグメントを含む。
【0325】
いくつかの実施態様において、各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、10,000の核酸メチル化フラグメント~50,000個の間の核酸メチル化フラグメントである。
【0326】
いくつかの実施態様において、マルチゲノム領域は、複数のゲノム領域のサブセットから構成され、C)行うステップは、それぞれの訓練対象についての複数のゲノム領域のサブセット中の各ゲノム領域のそれぞれの特徴又は複数のゲノム領域のサブセットについての単一の特徴を得るために、複数のゲノム領域のサブセット中のゲノム領域に対応する各訓練されたニューラルネットワークの出力を入力として受け入れるマルチゲノム領域ニューラルネットワークの使用をさせる。
【0327】
いくつかの実施態様では、C)行うステップは、対応する訓練されたニューラルネットワークによって評価されたとき、特異度閾値を超える複数の訓練対象にわたる集合的特異性を有する、特徴同定のためのそれらのそれぞれの核酸メチル化フラグメントのみを使用する。
【0328】
いくつかの実施態様では、特異度閾値は、0.9500~0.99999の間の値である。
【0329】
いくつかの実施態様において、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングは、生体サンプル中の無細胞核酸のメチル化シークエンシングであり、かつ本方法は、がん状態の代表である1つ以上の腫瘍サンプルから得られた核酸メチル化フラグメントについてのメチル化データを使用する、複数の訓練されたニューラルネットワーク中の対応する訓練されていないニューラルネットワークを少なくとも部分的に訓練するステップを更に備える。
【0330】
いくつかの実施態様では、B)訓練するステップは、Kフォールドクロスバリデーションを使用して、対応する訓練されたニューラルネットワークの対応する複数の重みの学習率を調整する。
【0331】
いくつかの実施態様では、B)訓練するステップは、対応する複数の隠れニューロン中の各隠れニューロンの対応する重みに正則化を使用し、かつB)訓練するステップは、正則化に紐づくペナルティを調整するためにKフォールドクロスバリデーションを使用する。
【0332】
いくつかの実施態様では、B)訓練するステップは、Kフォールドクロスバリデーションを使用して、対応する複数の重み中の重みの数を調整する。
【0333】
いくつかの実施態様では、B)訓練するステップは、Kフォールドクロスバリデーションを使用して、複数の訓練されていないニューラルネットワーク中の訓練されていないニューラルネットワークの数を調整する。
【0334】
いくつかの実施態様では、B)訓練するステップは、Kフォールドクロスバリデーションを使用して、複数の訓練されたニューラルネットワーク中の訓練されたニューラルネットワークの数を調整する。
【0335】
いくつかの実施態様では、B)訓練するステップは、Kフォールドクロスバリデーションを使用して、対応する訓練されたニューラルネットワークの初期化を調整する。
【0336】
本開示の別の態様によれば、対象のがん状態を判定するための複数の特徴を得るためのコンピュータシステムが提供され、このコンピュータシステムは、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリ、を備え、少なくとも1つのプログラムは、以下のための命令を備える。A)複数の遺伝子型データセットを取得するステップであって、複数の遺伝子型データセット中の各それぞれの遺伝子型データセットは、複数の訓練対象中のそれぞれの訓練対象についてのものであり、それぞれの遺伝子型データセットは、電子フォームで、(i)それぞれの訓練対象のがん状態に対応するラベル、及び(ii)対応する複数の核酸メチル化フラグメントであり、対応する複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ対応する複数の核酸メチル化フラグメントは、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される、対応する複数の核酸メチル化フラグメント、を備える、ステップ;B)複数のゲノム領域中のそれぞれのゲノム領域に対して、複数の訓練されていないニューラルネットワーク中の対応する訓練されていないニューラルネットワークを訓練し、それによって複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークを取得するステップであって、対応する訓練されていないニューラルネットワークは、独立して、それぞれのゲノム領域に対応し、対応する訓練されていないニューラルネットワークは、対応する複数の重みを備え、対応する訓練されていないニューラルネットワークは、それぞれのゲノム領域にマッピングされる各対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化し、それによって対応する複数の訓練スコアを取得し、訓練するステップは、対応する複数の訓練スコアと、それぞれの核酸メチル化フラグメントを元とするそれぞれの訓練対象のがん状態に対する対応するラベルとの比較に基づいて、対応する訓練されていないニューラルネットワーク中の対応する複数の重み中の各重みの値を更新し、それによって対応する訓練されたニューラルネットワークを取得する、ステップ;C)前記複数のゲノム領域中の各それぞれのゲノム領域に対して、複数の訓練対象中の各訓練対象について、それぞれのゲノム領域に対応する訓練されたニューラルネットワークを使用して、がん状態についてそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化することによって、それぞれの訓練対象のゲノム領域のそれぞれの特徴を取得し、それによって複数のゲノム領域のそれぞれのゲノム領域に対する複数の特徴を得ることによって、特徴同定を行うステップ。
【0337】
本開示の別の態様は、プロセッサによって実行されると、対象のがん状態を判定するための複数の特徴を得る方法をプロセッサに行わせるプログラムコード命令をその上に格納している非一時的コンピュータ可読記憶媒体を提供し、この方法は、少なくとも一つのプロセッサ及び少なくとも一つのプロセッサによる実行のための少なくとも一つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも一つのプログラムが、以下のための命令を備えること、を備える。A)複数の遺伝子型データセットを取得するステップであって、複数の遺伝子型データセット中のそれぞれの遺伝子型データセットは、複数の訓練対象中のそれぞれの訓練対象についてのものであり、それぞれの遺伝子型データセットは、電子フォームで、(i)それぞれの訓練対象のがん状態に対応するラベル、及び(ii)対応する複数の核酸メチル化フラグメントであり、対応する複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ対応する複数の核酸メチル化フラグメントは、それぞれの訓練対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される、対応する複数の核酸メチル化フラグメント、を備える、ステップ;B)複数のゲノム領域中のそれぞれのゲノム領域に対して、複数の訓練されていないニューラルネットワーク中の対応する訓練されていないニューラルネットワークを訓練し、それによって複数の訓練されたニューラルネットワーク中の対応する訓練されたニューラルネットワークを取得するステップであって、対応する訓練されていないニューラルネットワークは、独立して、それぞれのゲノム領域に対応し、対応する訓練されていないニューラルネットワークは、対応する複数の重みを備え、対応する訓練されていないニューラルネットワークは、それぞれのゲノム領域にマッピングされる各対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化し、それによって対応する複数の訓練スコアを取得し、訓練するステップは、対応する複数の訓練スコアと、それぞれの核酸メチル化フラグメントを元とするそれぞれの訓練対象のがん状態に対する対応するラベルとの比較に基づいて、対応する訓練されていないニューラルネットワーク中の対応する複数の重み中の各重みの値を更新し、それによって対応する訓練されたニューラルネットワークを取得する、ステップ;C)前記複数のゲノム領域中の各それぞれのゲノム領域に対して、複数の訓練対象中の各訓練対象について、それぞれのゲノム領域に対応する訓練されたニューラルネットワークを使用して、がん状態についてそれぞれのゲノム領域にマッピングされるそれぞれの訓練対象に対応する複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化することによって、それぞれの訓練対象のゲノム領域のそれぞれの特徴を取得し、それによって複数のゲノム領域のそれぞれのゲノム領域に対する複数の特徴を得ることによって、特徴同定を行うステップ。
【0338】
本開示の別の態様は、対象のがん状態を判定する方法を提供し、本方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備える。A)電子フォームで、複数の核酸メチル化フラグメントを得るステップであって、複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ複数の核酸メチル化フラグメントは、対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される、ステップ;B)複数のゲノム領域中のそれぞれのゲノム領域に対して、特徴同定を行うステップであって、前記ステップは、それぞれのゲノム領域に対応する複数の訓練されたニューラルネットワーク中の訓練されたニューラルネットワークを使用して、がん状態に対するそれぞれのゲノム領域にマッピングされる複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化することによって、対象についてのゲノム領域のそれぞれの特徴を取得し、それによって、複数の特徴を得ることによって行われ、複数の特徴中の各それぞれの特徴は、複数のゲノム領域中の対応するゲノム領域に対するものである、ステップ;C)複数の特徴を下流の教師付きモデルに入力することに応じて、下流の教師付きモデルの出力として、テスト対象ががん状態を有するか否かに関して判定を得るステップ。
【0339】
本開示の別の態様は、対象のがん状態を判定するためのコンピュータシステムを提供し、このコンピュータシステムは、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備え、少なくとも1つのプログラムは、以下のための命令を備える。A)電子フォームで、複数の核酸メチル化フラグメントを得るステップであって、複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ複数の核酸メチル化フラグメントは、対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される、ステップ;B)複数のゲノム領域中のそれぞれのゲノム領域に対して、特徴同定を行うステップであって、前記ステップは、それぞれのゲノム領域に対応する複数の訓練されたニューラルネットワーク中の訓練されたニューラルネットワークを使用して、がん状態に対するそれぞれのゲノム領域にマッピングされる複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化することによって、対象についてのゲノム領域のそれぞれの特徴を取得し、それによって、複数の特徴を得ることによって行われ、複数の特徴中の各それぞれの特徴は、複数のゲノム領域中の対応するゲノム領域に対するものである、ステップ;C)複数の特徴を下流の教師付きモデルに入力することに応じて、下流の教師付きモデルの出力として、テスト対象ががん状態を有するかに関して判定を得るステップ。
【0340】
本開示の別の態様は、プロセッサによって実行されると、対象のがん状態を判定する方法をプロセッサに行わせるプログラムコード命令をその上に格納している非一時的コンピュータ可読記憶媒体を提供し、この方法は、少なくとも一つのプロセッサ及び少なくとも一つのプロセッサによる実行のための少なくとも一つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも一つのプログラムが、以下のための命令を備えること、を備える。A)電子フォームで、複数の核酸メチル化フラグメントを得るステップであって、複数の核酸メチル化フラグメント中の各それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位中の各CpG部位のメチル化状態を含む対応するメチル化パターンを含み、かつ複数の核酸メチル化フラグメントは、対象から得られた生体サンプル中の核酸のメチル化シークエンシングによって決定される、ステップ;B)複数のゲノム領域中のそれぞれのゲノム領域に対して、特徴同定を行うステップであって、前記ステップは、それぞれのゲノム領域に対応する複数の訓練されたニューラルネットワーク中の訓練されたニューラルネットワークを使用して、がん状態に対するそれぞれのゲノム領域にマッピングされる複数の核酸メチル化フラグメント中のそれぞれの核酸メチル化フラグメントをスコア化することによって、対象についてのゲノム領域のそれぞれの特徴を取得し、それによって、複数の特徴を得ることによって行われ、複数の特徴中の各それぞれの特徴は、複数のゲノム領域中の対応するゲノム領域に対するものである、ステップ;C)複数の特徴を下流の教師付きモデルに入力することに応じて、下流の教師付きモデルの出力として、テスト対象ががん状態を有するかに関して判定を得るステップ。
【0341】
本開示の別の態様は、本開示で説明される方法のいずれかを行うためのコンピュータシステムを提供する。例えば、コンピュータシステムは、対象のがん状態を判定するための複数の特徴を取得する方法、及び/又は対象のがん状態を判定するためのコンピュータシステムを行う。このようなコンピュータシステムは、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための命令を備える少なくとも1つのプログラムを格納するメモリを備えることができる。いくつかの実施態様において、少なくとも1つのプログラムは、本明細書に開示される方法及び実施態様のいずれか、及び/又はそれらの任意の組み合わせを行うための命令を備える。いくつかの実施態様において、少なくとも1つのプログラムは、コンピュータによって実行されるように構成される。
【0342】
本開示の別の態様は、プロセッサによって実行されると、プロセッサに本開示に記載の方法のいずれかを行わせるプログラムコード命令をその上に格納した非一時的なコンピュータ可読記憶媒体を提供する。例えば、記憶媒体は、プロセッサに、対象のがん状態を判定するための複数の特徴を取得する方法、及び/又は対象のがん状態を判定する方法を行なわせる。いくつかの実施態様において、プログラムコード命令は、本明細書に開示される方法及び実施態様のいずれか、及び/又はそれらの任意の組み合わせを行わせるための命令を備える。いくつかの実施態様において、プログラムコード命令は、コンピュータによって実行されるように構成される。
【0343】
VII.追加の考慮事項
【0344】
前述の実施態様の詳細な説明は、本開示の特定の実施態様を示す添付の図面を参照したものである。異なる構造及び動作を有する他の実施態様は、本開示の範囲から逸脱しない。「本発明」等の用語は、本明細書で明らかにされた出願人の発明の多くの代替的な側面又は実施態様の特定の具体例を参照して使用され、その使用又はその欠落は、出願人の発明の範囲又は請求項の範囲を制限することを意図していない。
【0345】
本発明の実施態様は、本明細書における操作を行うための装置に関するものであってもよい。この装置は、必要な目的のために特別に構成されてもよく、及び/又は、コンピュータに格納されたコンピュータプログラムによって選択的にアクティブ化又は在再構成される汎用のコンピューティングデバイスを備えてもよい。このようなコンピュータプログラムは、非一過性の有形のコンピュータ可読記憶媒体、又は電子命令を格納するのに適した任意のタイプの媒体に格納してもよく、この媒体はコンピュータシステムバスに結合されてもよい。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含んでもよく、又はコンピューティング能力を高めるためにマルチプルプロセッサ設計を採用したアーキテクチャであってもよい。
【0346】
分析システムによって行われるものとして本明細書に記載されたステップ、操作、又はプロセスのいずれかが、単独で、若しくは他のコンピューティングデバイスと組み合わせて、装置の1つ以上のハードウェア又はソフトウェアモジュールで実施若しくは実装されてもよい。一実施態様において、ソフトウェアモジュールは、説明されたステップ、操作、又はプロセスのいずれか若しくはすべてを行うためにコンピュータプロセッサによって実行することができるコンピュータプログラムコードを包含するコンピュータ可読媒体を備えるコンピュータプログラム製品で実装される。
図1A
図1B
図2A
図2B
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14A
図14B
【国際調査報告】