IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーネル・ユニバーシティーの特許一覧 ▶ ニューヨーク ゲノム センターの特許一覧

特開2024-19413ゲノムワイド統合による循環腫瘍DNAの超音波感受性検出
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024019413
(43)【公開日】2024-02-09
(54)【発明の名称】ゲノムワイド統合による循環腫瘍DNAの超音波感受性検出
(51)【国際特許分類】
   C12Q 1/6809 20180101AFI20240202BHJP
   C12Q 1/6827 20180101ALI20240202BHJP
   C12Q 1/686 20180101ALI20240202BHJP
   C12Q 1/6869 20180101ALI20240202BHJP
   C12Q 1/6876 20180101ALI20240202BHJP
   C12M 1/34 20060101ALI20240202BHJP
【FI】
C12Q1/6809 Z
C12Q1/6827 Z
C12Q1/686 Z
C12Q1/6869 Z
C12Q1/6876 Z
C12M1/34 Z
【審査請求】有
【請求項の数】29
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023202317
(22)【出願日】2023-11-30
(62)【分割の表示】P 2020567471の分割
【原出願日】2019-02-27
(31)【優先権主張番号】62/636,135
(32)【優先日】2018-02-27
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】508057896
【氏名又は名称】コーネル・ユニバーシティー
【氏名又は名称原語表記】CORNELL UNIVERSITY
(71)【出願人】
【識別番号】520325821
【氏名又は名称】ニューヨーク ゲノム センター
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ランドー,ダン アヴィ
(72)【発明者】
【氏名】ジヴィラン,アサフ
(72)【発明者】
【氏名】コゼン-ヒル,スティーブン トーマス
(57)【要約】
【課題】
使用者、例えば、臨床医が、がんを早期に診断することができる、患者の腫瘍疾患を診断するシステム、ソフトウェア及び方法に関する。
【解決手段】
被験体のがんをスクリーニングし、当該スクリーニングから得られた情報を早期検出及び疾患層別化に用いるプログラム、システム、及び方法が提供される。
【選択図】なし
【特許請求の範囲】
【請求項1】
被験体のがんを遺伝子スクリーニングするためのシステムの使用であって、以下の:
(A)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取(read(s))の、被験体特異的ゲノムワイドの一覧(compendium)を受け取る工程であって、前記生物学的試料は血漿試料を含み、ここで、前記読取の前記一覧は各々、単一塩基対長の読取を含み;
(B)前記読取の前記一覧から人為的部位をフィルタリングする工程であって、前記フィルタリングは、以下の:(a)前記読取の前記一覧から、参照健常血漿試料のコホートにわたり生成された反復性(recurring)部位を除去する工程;及び(b)前記生物学的試料における生殖細胞系変異を同定する工程、及び/又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定する工程、及び、前記読取の前記一覧から前記生殖細胞系変異を除去する工程を含み;
(C)少なくとも1つのエラー抑制プロトコルを用いて、前記読取の前記一覧のノイズをフィルタリングして、前記読取の前記ゲノムワイドの一覧の前記フィルタリングされた読取セットを作製する工程であって、前記少なくとも1つのエラー抑制プロトコルは、以下の:(a)前記一覧中のいかなる単一ヌクレオチド変異が人為的変異である確率を計算し、かつ、前記変異を除去する工程であって、前記確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取における位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせを含む群から選択された特徴の関数として計算され;及び/又は(b)ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一DNA断片の独立した複製間の不一致試験を用いて人為的変異を除去する、及び/又は、所定の重複ファミリーの大部分に一致がない場合、人為的変異を同定及び除去する、重複コンセンサスと、を含む、工程を含み;
(D)所定の変異誘発プロセスに関連する特異的変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集する工程;
(E)前記被験体の生物学的試料が、前記被験体特異的パターンを介して、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含む信頼性推定値を統計的に定量化する工程;
(F)前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングする工程;
を含む、使用。
【請求項2】
被験体のがんを遺伝子スクリーニングするためのシステムの使用であって、
(A)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取る工程であって、前記生物学的試料は血漿試料を含み、ここで、前記読取の前記一覧各々がコピー数変異(CNV)又は構造的変異(SV)を含む;
(B)前記読取の前記一覧を複数のウインドウへ分割する工程;
(C)前記ウインドウ当たりの特徴のセットを計算する工程であって、前記特徴は、前記ウインドウ当たりの中央値の深度カバレッジ(coverage)とウインドウ当たりの代表的な断片サイズを含み、かつ場合によっては、分割された読取を含む;
(D)前記読取の前記一覧から人為的部位をフィルタリングする工程であって、前記フィルタリングは、読取一覧から参照健常血漿試料のコホート上で生成された反復性サイトを除去することを含む;
(E)前記ゲノムワイドの読取一覧のフィルタリングされた読解セットを作成する、読取一覧を正規化する工程;
(F)(i)前記ウインドウ当たりの特徴セット間の直線関係を計算し、回帰モデルを用いて前記計算された関係を推定腫瘍分画に変換し、及び/又は(ii)前記読取の前記被験体特異的ゲノムワイドの一覧にわたるウインドウ当たりの前記計算された前記特徴セットの関数としての、1又はそれ以上の統合的数学モデルに基づき、前記フィルタリングされた読取セットを用いて、腫瘍分画の推定値を計算する工程;及び、
(G)前記腫瘍分画の推定値が経験的閾値を超える場合、がんについて前記被験体をスクリーニングする工程、
を含む、使用。
【請求項3】
被験体のがんを遺伝子スクリーニングするシステムであって、以下の:
分析ユニットであって、以下の:
被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、前記生物学的試料は血漿試料を含み、前記読取の前記一覧は各々単一塩基対長の読取を含み;並びに前記読取の前記一覧から人為的部位をフィルタリングするように構成されかつ配置された、プレフィルタエンジンを含み、ここで、前記フィルタリングは、前記読取の前記一覧から、参照健常血漿試料のコホートにわたり生成された反復部位を除去し;及び前記生物学的試料から生殖細胞系変異を同定し及び/又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定し、及び、前記読取の前記一覧から前記生殖細胞系変異を除去することを含み;
少なくとも1つのエラー抑制プロトコルを用いて、前記読取の前記一覧のノイズをフィルタリングして、前記読取の、前記被験体特異的ゲノムワイドの一覧のためのフィルタリングされた読取セットを作成するように、構成されかつ配置された、補正エンジンであって、前記少なくとも1つのエラー抑制プロトコルは、以下の:(a)一覧中のいかなる単一ヌクレオチド変異が人為的変異である確率を計算し、かつ、前記変異を除去する工程であって、前記確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取における位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせを含む群から選択された特徴の関数として計算され;及び/又は(b)ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一DNA断片の独立した複製間の不一致試験を用いて人為的変異を除去する、及び/又は、所定の重複ファミリーの大部分に一致がない場合、人為的変異を同定及び除去する、重複コンセンサスと、を含み、かつ、
所定の変異誘発プロセスに関連する特異的変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集し、前記被験体の生物学的試料は、前記被験体特異的パターンを介して、信頼性推定値を統計的に定量化し、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含み、前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングする、ように構成されかつ配置された演算ユニット、とを含む分析ユニットを含む、システム。
【請求項4】
それを必要とする被験体における残存腫瘍を検出するシステムであって、以下の:
分析ユニットであって、前記分析ユニットは、以下の:
被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイドの一覧を受け取るように構成されかつ配置されたビンニングエンジンであって、前記生物学的試料は、血漿試料を含み、前記読取の前記一覧は各々コピー数変異(CNV)を含み、前記読取の前記一覧は、複数のウインドウに分割され、ウインドウ当たりの特徴のセットを計算し、前記特徴は、ウインドウ当たりの深度カバレッジの中央値及びウインドウ当たりの代表的な断片サイズを含み;
参照健常血漿試料のコホート上で生成された反復部位を読取一覧から除去することを含む、読取一覧から人為的部位をフィルタリングするように構成及び配置されたプレフィルタエンジン、及び、
前記読取のゲノムワイドの一覧のためのフィルタリングされた読取セットを生成する読取一覧を正規化するように構成及び配置された正規化エンジン;を含み、並びに、
(i)ウインドウ当たりの特徴セット間の直線関係を計算し、回帰モデルを用いて計算された関係を推定腫瘍分画に変換して、及び/又は(ii)前記被験体特異的ゲノムワイドの読取一覧にわたってウインドウ当たりの前記計算された特徴セットの関数としての1又はそれ以上の統合的数学モデルに基づき、前記フィルタリングされた読取セットを用いて推定腫瘍分画を計算し;かつ、前記推定腫瘍分画が経験的閾値を超える場合、被験体をがんについてスクリーニングするように、構成されかつ配置された演算ユニット;
を含む、システム。
【請求項5】
前記遺伝子マーカーが、単一ヌクレオチド変異(SNV)又は挿入/欠失(indels);好ましくはSNVを含む、請求項1に記載の使用。
【請求項6】
参照健常血漿試料のコホート上で生成された反復部位をフィルタリングすることが、ブラックリスト又はマスクの正常パネル(PON)を生成することを含む、請求項1に記載の使用。
【請求項7】
参照健常血漿試料が、末梢血単核細胞(PBMC)を含む、請求項1記載の使用。
【請求項8】
工程(C)が、機械学習(ML)アルゴリズム、例えば、深層畳込ニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、ランダムフォレスト(RF)、サポートベクタマシン(SVM)、判別分析、最近傍分析(KNN)、アンサンブル分類器、又はそれらの組合わせ;好ましくは、サポートベクタマシン(SVM)を用いて、人為的ノイズをフィルタリングすることを含む、請求項1に記載の使用。
【請求項9】
工程(C)(b)において、人為的変異の補正が、元の核酸断片の独立した複製の比較を用いて、PCR又は配列決定により生成された人為的変異の補正を含む、請求項1に記載の使用。
【請求項10】
工程(C)(b)において、対-末端150bp配列決定により生成され、重複する対読取(R1及びR2)を生じる人為的変異が、対応する参照ゲノムに戻されることにより、R1及びR2対間の不一致を修正して除去される、請求項9に記載の使用。
【請求項11】
工程(C)(b)において、配列決定及び/又はPCR増幅の間に重複により生成された人為的変異が補正され、ここで、重複ファミリーは5’及び3’の類似性並びにアラインメント位置により認識され、かつ、各重複ファミリーは、独立した複製にわたる特異的変異のコンセンサスの確認に用いられ、それにより、前記重複ファミリーの大部分において一致を示さない人為的変異を補正する、請求項1に記載の使用。
【請求項12】
工程(D)において、単一の血漿試料中の特異的変異パターンが、非負最小二乗(NNLS)法を用いて同定される、請求項1に記載の使用。
【請求項13】
工程(E)において、前記特異的変異パターンを、前記がん関連変異パターン曝露値と、複数の無作為バックグラウンドパターンについて推測される曝露値との比較を用いて、信頼性についてさらに検証する、請求項1に記載の使用。
【請求項14】
工程(F)において、前記被験体の生物学的試料ががん関連変異パターンを含む前記信頼性推定値がz-スコア>2stdの所定の閾値を超える場合、前記被験体はがんであると同定される、請求項13記載の使用。
【請求項15】
工程(D)において、追加的又は代替的に、機械学習(ML)アルゴリズム、例えば、深層学習法を用いて、がん改変配列決定読取及び配列決定エラーにより改変された読取を区別することを含む、請求項1に記載の使用。
【請求項16】
MLが、腫瘍及び正常なWGSデータの大きな集合を用いて複数の真の変異読取及びエラーについて訓練され、前記訓練されたMLが、真の変異体を含む読取と、人為的配列を含む読取とを区別しうる、請求項15に記載の使用。
【請求項17】
断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、請求項1に記載の使用。
【請求項18】
腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計的方法、例えば有意性又はガウス混合モデル(GMM)の検定を用いて分析される、請求項17に記載の使用。
【請求項19】
前記マーカーがコピー数変異(CNV)を含む、請求項2に記載の使用。
【請求項20】
工程(B)において、各ウインドウが少なくとも≧150bpである、請求項2に記載の使用。
【請求項21】
工程(C)が、前記ゲノムワイドの特徴ベクトルからの深度カバレッジ(Log2)及び断片サイズ(COM)関係(勾配、R^2)の抽出を含む、請求項2に記載の使用。
【請求項22】
工程(D)が、ブラックリスト又はマスクの正常パネル(PON)を生成して、参照健常血漿試料のコホート上に生成された反復部位をフィルタリングする工程と、低マッピング可能性又はカバレッジのウインドウをフィルタリングする工程とを含む、請求項2に記載の使用。
【請求項23】
正規化工程は、ビンワイズGCフラクション及びマッパビリティスコア上で2つのLOESS回帰曲線フィッティングを行い、深度カバレッジ値を正規化し、GC含有量及びマッパビリティバイアスを補正することを含む、請求項2に記載の使用。
【請求項24】
正規化工程は、各試料に別々に適用されるロバストzスコア正規化を用いたバッチ効果補正を含む、請求項2に記載の使用。
【請求項25】
zスコアの正規化が、各試料の中立領域に基づく中央値及び中央値絶対偏差(MAD)の計算を含み、すべてのCNVビンを正規化することが、中央値を差し引いてMADで除して正規化される、請求項24に記載の使用。
【請求項26】
工程(E)が、参照健常血漿試料のコホートから生成された正常パネル(PON)と比較して、血漿試料中の深度カバレッジスキュー及び/又は断片サイズ重心(COM)スキューを計算する工程を含む、請求項2に記載の使用。
【請求項27】
工程(F)は、隠れMarkovモデル又は自己組織化ニューラルネットワーク、例えば、適応共鳴理論又は自己組織化マップに基づくニューラルネットワークを用いて、フィルタリングされた読取セットの腫瘍分率を呼出、計算するコピー数変異(CNV)を含む、請求項2に記載の使用。
【請求項28】
断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、請求項2に記載の使用。
【請求項29】
腫瘍特異的マーカー及び無作為マーカーのリスト中の患者内断片サイズシフトが、統計的方法、例えば有意性又はガウス混合モデル(GMM)の検定を用いて分析される、請求項28に記載の使用。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、その全内容が参照により本明細書に援用される、2018年2月27日に出願された米国特許出願第62/636,135号の優先権を主張する。
本開示の実施形態は、一般に、医療診断の分野に関する。特に、本開示の態様は、腫瘍検出及び診断用組成物、方法、及びシステムに関する。
【背景技術】
【0002】
肺、乳房、前立腺、肝臓、及び脳の固形腫瘍等のがんがヒトの健康に及ぼす重大な負担は、医学文献で十分に実証される。多くの被験体は、不良な転帰と関連する進行腫瘍疾患と診断される。最近、コンピュータ断層撮影(CT)は早期発見を改善することが見出され、米国タスクフォースにより高リスク集団のスクリーニングに用いられている。それにもかかわらず、当該アプローチは偽陽性率が高く、高費用で、追跡評価にはリスクが伴うため、限界がある。
【0003】
がんの診断に用いられるアプローチの1つは、遺伝的インデックス又はマーカー用の腫瘍試料の分析である。がんゲノムは、その増殖能力を駆動する体細胞変異を獲得する(非特許文献1)。がんゲノムの変異はまた、各がんの活性な進化の歴史及び変異過程に関する重要な情報を提供する(非特許文献2及び3)。患者の生検におけるがん変異呼出は、患者の転帰及び治療法の推薦を評価する上で極めて重要な工程である。無細胞循環DNA(cfDNA)等の液体生検標本におけるがんドライバー変異の同定は、早期がんスクリーニングの変革的なプラットフォームと示唆される。
【0004】
DNAの体細胞変異(例えば、一塩基変異体(SNV))等のゲノムマーカーを分析する統計的方法は、真の変異を配列決定エラーから区別するため、いかなるゲノム位置における体細胞変異の複数の独立した観察(支持的読取)が必要である。真の変異と配列決定エラーの区別に用いられる1の技術は、配列決定の深度を高めることである。これは、腫瘍試料における腫瘍細胞の比率が高い場合に有用である。例えば、試料中の免疫細胞等の正常細胞の存在により、試料中の腫瘍細胞含有量が低下すると、各体細胞変異体は、もはや複数読取に支持されなくなり、当該変異呼出が用いられなくなる。例えば、MUTECTは、現在の最先端の低アレル頻度体細胞変異呼出である。MUTECTは、その中核にて、SNVを2つのベイズ分類子に分け、一方はSNVが無作為ノイズに起因すると仮定し、他方は部位が真の変異体を含むと仮定する。次に、2つのモデル由来の対数尤度比に基づきSNVをフィルタリングする。これは、cfDNAの設定とは根本的に異なる。変異アレルの頻度が0.05に低下し、腫瘍試料の配列決定深度が10倍に低下したベンチマーキングの設定では、MUTECTの感度は0.1未満に低下する(非特許文献4)。MUTECTは現在、低頻度設定における体細胞変異呼出の最先端技術であるが、cfDNAで観察される腫瘍画分における体細胞変異を同定することは依然として不可能である。
【0005】
MUTECT及び他の変異呼出の根本的な限界は、入力物質が限定される場合(例えば、早期がんの設定において)は、臨床的感度が許容レベルを下回ることである。当該少量のcfDNAは、わずか数百から数千のゲノム等価物である。従って、超深層配列決定(例えば、100,000X)は、試料中に存在する各部位をカバーする限定数の物理的断片(例えば、6ngのcfDNA中の1000のゲノム当量)により、無効となり得る。極深度配列決定と高度な分子誤差抑制を用いても、限定入力材料の検出限界は、0.1~1%未満の腫瘍分画(TF)周波数となる。
【0006】
当該限界は、非特許文献5により例示され、技術的に困難な肺腺がん患者特異的標的深層配列決定を含む高度な配列決定方法を適用し、配列決定の深度中央値42,000倍で約18の変異を同定した。しかし、cfDNAの希少性は、より進行したIII期の腫瘍を研究グループに含めても、初期被験体のわずか19%のcfDNAでしかがんが検出されなかった可能性が高い。さらに、これら陽性に同定された患者はすべて、CTスキャンで検出可能な病変があった。当該データは、疾患の初期段階では、超深層配列決定でさえ、包括性及び/又は精度に関して、現在イメージング技術より性能が劣ることを示す。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Lawrence et al.,Nature,505(7484):495-501,2014
【非特許文献2】Martincorena et al.,Cell,171(5):1029-1041.e21,2017
【非特許文献3】Alexandrov et al.,Nature,500(7463):415-421,2013
【非特許文献4】Cibulskis et al.,Nature Biotechnology,31(3),213,2013
【非特許文献5】Abbosh et al.,Nature,545(7655):446-451, 2017
【発明の概要】
【発明が解決しようとする課題】
【0008】
腫瘍疾患を示唆するcfDNAの体細胞変異(被験体特異的特徴を含む)等の低存在量疾患マーカーを同定する改善された方法及びシステムが望まれる。さらに、腫瘍の早期診断に用いられうる程度の高品質のマーカーを利用して、疾患管理及び/又は治療的介入のより良い選択肢を臨床医に提供し、また疾患の治療成績(例えば、生存期間及び/又は生活の質の改善)を大幅に改善するシステム及び方法が望まれる。
【課題を解決するための手段】
【0009】
本明細書では、被験体のがんをスクリーニングし、当該スクリーニングから得られた情報を早期検出及び疾患層別化に用いるプログラム、システム、及び方法が提供される。ある実施形態では、本開示のプログラム、システム及び方法は、使用者、例えば、臨床医が、がんを早期に診断することを可能にする。
【0010】
ある態様では、本開示は、システムエラーと、がん(例えば、タバコ誘導肺がん)により誘発された体細胞変異とを識別するように訓練された分類器を提供する。がん変異及び配列決定エラーの両方がシステム的であり、学習でき、効率的なシグナル対ノイズ識別に用いうる別個の特徴により制御される事実を利用して、当該分類器は、当該知識を統合して、がんの診断及び/又は検出の正確性を向上させる。例えば、ゲノムの文脈では、がんパターンは、がん関連変異誘発を誘発する塩基置換を含み得る。当該ゲノムパターンは、タバコ及び紫外線への曝露により誘発されるがんにおいて特にユニークであり、例えば、脱調節されたDNAチェックポイント及び/又は修復酵素活性に関連するがん、例えば、BRCA(BRCA1又はBRCA2)、p53、APOBEC1などが挙げられる。
【0011】
本開示はまた、配列決定により検出された変異体が真の体細胞変異ではなく、むしろ配列決定又はマッピング技術の人為体であることを示唆しうる複数の指標に関する。本文脈では、以前の研究は、配列決定エラーが無作為ではなく、おそらく配列決定技術の結果として生じるDNA配列の文脈及び技術的要因の両方に関連することを示した。配列決定の忠実度は、各配列決定-読取長でも制限され、読取長が高まるにつれてエラー確率が高まる。読取が参照ゲノムにマッピングされると、エラーが生じることがある。マッピング作成の過程は、ゲノムが可変領域、モチーフ、反復可能なエレメントを備える事実により計算が集中的かつ、複雑である。短いヌクレオチドの読取は、2つ以上の位置にマッピングされることもあれば、全くマッピングされないこともある。ゲノムデータの配列決定/マッピングの既存の方法論に関する当該制限は、本開示のシステム及び方法を用いて修正しうる。開示の指標は、(i)低塩基品質、(ii)低マッピング品質、(iii)読取推定断片サイズ(RP)、(iv)読取推定対立遺伝子分画(VAF)、(v)配列コンテキスト、(vi)存在量、(vii)配列決定深度、及び/又は(viii)配列決定のエラー等の複数の要因を分析して、エラーから真の変異を導き出しうる。
【0012】
本発明のシステム及び方法は、特に、がんを予測する低存在量マーカーの検出に適用される。本開示の発明者らは、入力材料の存在量に制限されない配列決定の幅度が、深度配列決定に依存する方法に代替しうることを認識した。幅の配列決定は、入力材料の存在量にさほど依存せず、検出の精度及び感度をともに改善するのに用いうる。統計的観点から、本発明者らは、最初、配列決定の幅度(例えば、10,000個の変異の10倍の配列決定)は、深度(単一変異の100,000倍の配列決定)と同等であり、わずか1ngのcfDNAで行うことができることを示した。従って、本開示の分析アプローチは、腫瘍(例えば、タバコ誘発がん)の検出及び/又は正確な診断のcfDNAを含む試料の高感度分析のためのゲノムワイド変異情報を容易かつ非侵襲的に統合する。
【0013】
本文脈では、腫瘍の様々な画分の読取が1%~0.001%(1/10,000)の範囲である肺患者由来の腫瘍と正常な全ゲノム配列データの合成混合物を用いて血漿体細胞変異呼出のシミュレート試験は、既存の技術を上回る本方法の強度と精度を示す。本技術の性能は、まず、患者の純粋な腫瘍及び正常な試料における標準的変異呼出を用いて、患者特異的な体細胞がんSNVを特徴付け;次いで、本開示の畳込ネットワークを含むある方法を用いて、血漿試料中のがん変異を検出して、さらにベンチマークされた。参照として呼び出す純粋な腫瘍変異を用いる各方法の感度及び精度は、本開示の分析方法のための高いシグナル及び/又は低いノイズを示す。最後に、早期肺がん患者から得られた実際のcfDNA試料を用いて実施された検証研究では、現在の最先端の方法と比較して、有意に優れた感度及び精度を示す。
【0014】
本開示は、以下の非限定的な実施形態に関する:
種々の態様では、被験体のがんの遺伝子スクリーニング方法が提供される。本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取(read(s))の、被験体特異的ゲノムワイドの一覧(compendium)の受け取りを含む。生物学的試料は、腫瘍試料を含み得る。前記読取一覧は各々、単一塩基対長の読取を含みうる。当該方法は、さらに、前記読取一覧から人為的部位をフィルタリングしうる。前記フィルタリングは、前記読取一覧から、参照健常試料のコホートにわたり生成された反復部位を除去しうる。あるいは又は組合わせて、当該フィルタリングは、前記生物学的試料における生殖細胞系変異の同定、及び/又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異の生殖細胞系変異としての同定、及び、前記読取一覧から前記生殖細胞系変異を除去する工程を含みうる。本方法はさらに、少なくとも1つのエラー抑制プロトコルを用いて、前記読取一覧のノイズをフィルタリングして、前記読取のゲノムワイドの一覧の前記フィルタリングされた読取セットを作製しうる。前記少なくとも1つのエラー抑制プロトコルは、前記一覧中のいかなる単一ヌクレオチド変異が人為的変異である確率を計算し、かつ、前記変異を除去しうる。前記確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取における位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせを含む群から選択された特徴の関数として計算されうる。あるいは又は組合わせて、ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一DNA断片の独立した複製間の不一致試験を用いて人為的変異を除去する、及び/又は、所定の重複ファミリーの大部分に一致がない場合、人為的変異を同定及び除去する、重複コンセンサスと、を含みうる。本方法は、所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集することを含みうる。本方法はさらに、前記被験体の生物学的試料が、前記被験体特異的パターンを介して、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含む信頼性推定値を統計的に定量化することを含みうる。本方法は、前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングすることを含みうる。
【0015】
種々の態様では、被験体のがんを遺伝子スクリーニングする方法が提供される。本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧の受け取りを含む。生物学的試料は、腫瘍試料を含み得る。読取一覧各々が、コピー数変異(CNV)を含みうる。当該方法は、前記読取一覧の複数のウインドウへの分割を含みうる。当該方法は、前記ウインドウ当たりの特徴のセットの計算を含みうる。前記特徴は、ウインドウ当たりの中央値の深度カバレッジ(coverage)とウインドウ当たりの代表的な断片サイズを含みうる。当該方法は、前記読取一覧から人為的部位をフィルタリングすることを含みうる。前記フィルタリングは、読取一覧から参照健常試料のコホート上で生成された反復性サイトを除去することを含みうる。本方法は、前記ゲノムワイドの読取一覧のフィルタリングされた読解セットを作成する、読取一覧を正規化することを含みうる。当該方法は、前記ウインドウ当たりの前記特徴セット間の直線関係を計算し、回帰モデルを用いて前記計算された関係を推定腫瘍分画に変換し、前記フィルタリングされた読取セットを用いて、腫瘍分画の推定値を計算する工程を含みうる。あるいは、又は組合わせて、本方法は、前記読取の前記被験体特異的ゲノムワイドの一覧にわたるウインドウ当たりの前記計算された特徴セットの関数としての、1又はそれ以上の統合的数学モデルに基づき、前記フィルタリングされた読取セットを用いて、腫瘍分画の推定値を計算する工程を含みうる。当該方法は、前記腫瘍分画の推定値が経験的閾値を超える場合、がんについて前記被験体をスクリーニングすることを含みうる。
【0016】
被験体のがんを遺伝子スクリーニングするシステムが提供される。種々の態様では、当該システムは、分析ユニットを含み、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取るように構成されかつ配置された、プレフィルタエンジンを含み、生物学的試料は腫瘍試料を含み、前記読取一覧は各々単一塩基対長の読取を含む。プレフィルタエンジンは、前記読取一覧から人為的部位をフィルタリングするように構成及び配置することができ、前記フィルタリングは、前記読取一覧から、参照健常試料のコホートにわたり生成された反復部位を除去することを含む。プレフィルタエンジンは、生物学的試料中の生殖細胞系変異を同定し、及び/又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定し、及び、前記読取一覧から前記生殖細胞系変異を除去するように、又は組合わせて、構成及び配置しうる。分析ユニットは、少なくとも1つのエラー抑制プロトコルを用いて、前記読取一覧のノイズをフィルタリングして、前記読取の、被験体特異的ゲノムワイドの一覧のためのフィルタリングされた読取セットを作成するように、構成されかつ配置された、補正エンジンを含みうる。前記少なくとも1つのエラー抑制プロトコルは、以下の:(a)一覧中のいかなる単一ヌクレオチド変異が人為的変異である確率を計算し、かつ、前記変異を除去する工程であって、前記確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取における位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせを含む群から選択された特徴の関数として計算される。
【0017】
前記少なくとも1つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一DNA断片の独立した複製間の不一致試験を用いて変異を除去する、及び/又は組合わせて、所定の重複ファミリーの大部分に一致がない場合、人為的変異を同定及び除去する、重複コンセンサスと、を含うる。前記システムは、所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集ように構成及び配置された演算ユニットを含みうる。前記演算ユニットは、前記被験体の生物学的試料は、前記被験体特異的パターンを介して、信頼性推定値を統計的に定量化し、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含むように構成されかつ配置されうる。演算ユニットは、前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングするように構成及び配置しうる。
【0018】
種々の態様では、被験体のがんを遺伝子スクリーニングするシステムが提供される。システムは、分析ユニットを含み、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取るように構成されかつ配置された、ビンニングエンジンを含み、生物学的試料は腫瘍試料を含み、前記読取一覧は各々コピー数変異(CNV)を含む。ビンニングエンジンは、前記読取一覧は、複数のウインドウに分割され、ウインドウ当たりの特徴のセットを計算し、前記特徴は、ウインドウ当たりの深度カバレッジの中央値及びウインドウ当たりの代表的な断片サイズを含み分割され、ウインドウ当たりの特徴のセットを計算するように構成及び配置しうる。当該システムは、読取一覧から人為的部位をフィルタリングするように構成及び配置されたプレフィルタエンジンを含むことができ、当該フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含む。当該システムは、前記読取のゲノムワイドの一覧用にフィルタリングされた読取セットを生成する読取一覧を正規化するように構成及び配置された正規化エンジンを含みうる。当該システムは、前記フィルタリングされた読取セットを用いて推定腫瘍分画(eTF)を計算するように構成されかつ配置された演算ユニットを含みうる。当該演算ユニットは、ウインドウ当たりの特徴セット間の直線関係を計算し、回帰モデルを用いて計算された関係をeTFに変換して計算しうる。あるいは、又は組合わせて、前記演算ユニットは、1又はそれ以上の統合的数学モデルに基づき、前記被験体特異的ゲノムワイドの読取一覧にわたってウインドウ当たりの前記計算された特徴セットの関数としてeTFを計算しうる。前記演算ユニットは、前記推定腫瘍分画が経験的閾値を超える場合、被験体をがんについてスクリーニングするように、構成されかつ配置されうる。
【0019】
ある実施形態では、本開示は、を含む、被験体のがんを遺伝子スクリーニングする方法に関し、以下の:(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する、被験体特異的ゲノムワイドにわたる読取の一覧を受け取り、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)(1)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画の関数としてのノイズ(PN)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別する機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングすること;(d)ノイズ除去工程(c)及びフィルタリング工程(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、被験体のがんをスクリーニングすること、を含む。
【0020】
本方法のある態様では、被験体の生物学的試料は、血漿、脳脊髄液、胸水、眼液、便、尿、又はそれらの組合わせを含む。
【0021】
本方法のある態様では、がんパターンは、COSMICタバコパターン、UVパターン、乳がん(BRCA)パターン、マイクロサテライト不安定性(MSI)パターン、アポリポタンパク質B mRNA編集酵素、ポリ(ADP-リボース)ポリメラーゼ(PARP)多活性化パターン、触媒性ポリペプチド様(APOBEC)パターンを含む。特に、ある態様では、がんパターンは、組織特異的クロマチン接近性パターン等の組織特異的エピジェネティックパターンに関連するパターンを含む。
【0022】
本方法のある態様では、一覧内の各読取に関連する配列決定ノイズは、がんに関連する変異特徴(真陽性)とPCR又は配列決定エラーに関連する特徴(偽陽性)との識別に機械学習(ML)アプローチを利用してフィルタリングされる。ある実施形態では、機械学習法は、深層畳込ニューラルネットワーク(CNN)、反復ニューラルネットワーク(RNN)、無作為フォレスト(RF)、サポートベクタマシン(SVM)、判別分析、最近傍分析(KNN)、アンサンブル分類器、又はそれらの組合わせを含む。ある実施形態では、MLは、がん改変配列決定読取及び配列決定又はPCRエラーにより改変された読取を区別するように訓練される。ある実施形態では、MLは、腫瘍変異及び正常な配列決定エラーを横断する数十億の読取を含む大きな全ゲノム配列決定(WGS)されたがんデータセット上で訓練されている。ある実施形態では、MLは、(a)高精度で配列決定又はPCR人為体を同定し、(b)配列コンテキストを統合し、特定の特徴を読取うる。
【0023】
ある実施形態では、本開示は、被験体のがんを遺伝子スクリーニングする方法に関し、以下の工程:(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indel)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取マッピング品質(MQ)、(3)読取推定断片サイズ、及び/又は(4)読取推定対立遺伝子分画の関数としてのノイズ(PN)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)結合塩基品質(BQ)、マッピング品質(MQ)スコア、及び断片サイズに基づき、一覧内の遺伝子マーカーの確率的分類を含む最適な受信者動作特性(ROC)カーブを実施する機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタすること;(d)ノイズ除去工程(c)及びフィルタリング工程(b)に基づき、一覧内の複数の真の読取を含む被験体特異的パターンを編集すること、(e)被験体の生物学的試料が、被験体特異的パターンとがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むことを統計的に定量すること、かつ、(f)被験体の生物学的試料ががん関連の変異パターンを含むという信頼性推定値に基づき、被験体のがんをスクリーニングすることを含む。
【0024】
本方法のある態様では、腫瘍は、異種性又は同種性の脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎がん、口がん、胃がん、固形腫瘍、非小細胞肺がん(NSCLC)、タバコ誘発がん(TIC)、UV光誘発がん、アポリポタンパク質B mRNA編集酵素触媒タンパク質(APOBEC)活性により媒介されるがん、乳がんタンパク質(BRCA)変異を含むがん、ポリ(ADP-リボース)ポリメラーゼ(PARP)活性を含むがん、及びマイクロサテライト不安定性(MSI)を含む腫瘍である。本方法のある態様では、スクリーニング方法により、未診断の、及び/又は無症状の患者における早期がん疾患の診断が可能になる。特に、被験体は、ステージI~IIIにある早期がんの患者である。
【0025】
ある実施形態では、本開示は、(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indel)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画の関数としてのノイズ(PN)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)がん関連変異特徴とPCR又は配列決定エラー関連特徴との識別に機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタすること;(d)ノイズ除去工程(c)及びフィルタリング工程(b)に基づき、一覧内の複数の真の読取を含む被験体特異的パターンを編集すること;、(e)被験体の生物学的試料が、被験体特異的パターンとがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むことを統計的に定量することと、(f)被験体の生物学的試料ががん関連の変異パターンを含むという信頼性推定値に基づき、被験体のがんをスクリーニングすること;及び(g)診断に用いられる患者特異的パターンに基づき、パターンに基づく治療を指定することを含む、被験体のがんを遺伝子スクリーニングし、治療法を指定する方法に関する。ある実施形態では、治療指定は、BRCAパターンのPARP阻害剤、MSIパターンの免疫療法を含む。ある実施形態では、PARP阻害剤は、ニラパリブ、オラパリブ、ベリパリブ、ルカパリブ及び/又はタラゾパリブである。ある態様では、MSIパターンの免疫療法は、抗PD-1抗体(例えば、ニボルマブ又はペンブロリズマブ)又は抗CTLA4抗体(例えば、ニボルマブ又はペンブロリズマブ)を含む。ある態様では、腫瘍は、不均一又は均一な脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口がん、胃がん、固形腫瘍、肺腺がん、乳管腺がん(乳房腫瘍)、非小細胞肺がん肺腺がん(NSCLC LUAD)、皮膚黒色腫、尿路上皮がん(膀胱腫瘍)、結腸直腸がん(リンチ)、又は骨肉腫を含む。
【0026】
ある実施形態では、本開示は、(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(P)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別すること;(d)ノイズ除去(c)及びフィルタリング(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程(f)は、線形最適化関数minllAx-bll,x≧0を解く工程を含み、ここで、Aは、変異パターン配列コンテキストマトリックスであり、xは、各コスミック変異パターン(変数)の寄与であり、bは、患者特異的配列コンテキスト一覧である。ある実施形態では、最適化問題は、非負の最小二乗法(NNLS)、クロスエントロピーグローバル最適化法、黄金セクション探索法、又はそれらの組合わせにより解決される。ある態様では、本方法は、がん変異パターンを複数の無作為バックグラウンドパターンと比較することを用いて、例えば、がん変異パターンを複数の無作為バックグラウンドパターンと比較することを用いて、信頼性を検証することをさらに含む。ある態様では、比較工程は、zスコアの評価を含み、閾値を超えるzスコアは、被験体特異的特徴ががん特徴に特異的であり、無作為特徴と関連しないことを示す。
【0027】
ある実施形態では、本開示は、(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(P)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別すること;(d)ノイズ除去(c)及びフィルタリング(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程(b)は、(1)低いマッピング品質の読取(例えば、<29、ROC最適化)を除去し;複製ファミリーを構築する工程(同じDNA断片の複数のPCR/配列決定コピーを表す)及びコンセンサス試験に基づき修正された読取を生成し;(3)低い塩基品質の読取(例えば、<21、ROC最適化)を除去し;及び/又は(4)高い断片サイズ読取(例えば、>160、ROC最適化)を除去する工程を含み、及び工程(f)は、特定のコスミック配列コンテキスト一覧に対する患者配列コンテキスト一覧間の配列コンテキスト類似性を計算することを含む。
【0028】
ある実施形態では、本開示は(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(P)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別すること;(d)ノイズ除去(c)及びフィルタリング(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程(f)は、コシン-類似性、相関、相互情報、又はそれらの組合わせに基づき、被験体特異的特徴とがんパターンとの間の類似性を推定する工程を含む。ある態様では、本方法は、がん変異パターンを複数の無作為バックグラウンドパターンとの比較を用いて、例えば、がん変異パターンを複数の無作為バックグラウンドパターンとの比較を用いて、信頼性を検証することをさらに含む。ある態様では、比較工程は、zスコアの評価を含み、閾値を超えるzスコアは、被験体特異的特徴ががん特徴に特異的であり、無作為なバックグラウンド特徴と関連しないことを示す。
【0029】
ある実施形態では、本開示は、(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(P)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別すること;(d)ノイズ除去(c)及びフィルタリング(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程(f)は、がん特異的パターン信頼度(zスコア)を、バックグラウンドノイズモデルにより計算された経験的閾値と比較する工程を含む。ある実施形態では、経験的ノイズモデルは、正常な健康体試料のがん特異的特徴信頼度(zスコア)を測定して定義され、基本ノイズのあるzスコア推定値に変換される。ここで、zスコア推定値ノイズ閾値は1~5である。
【0030】
上記がんスクリーニング/診断方法のある態様では、被験体特異的特徴は、腫瘍では差次的に発現されるが、正常な試料では発現されないマーカーを含むがん特異的変異特徴と適合する。ある態様では、腫瘍試料は、肺腫瘍、乳房腫瘍、メラノーマ、膀胱腫瘍、結腸直腸腫瘍、又は骨腫瘍を含む。
【0031】
前記がんスクリーニング/診断方法のある態様では、本方法は、少なくとも50%の被験体で早期検出が可能になる。
【0032】
前記がんスクリーニング/診断方法のある態様では、本方法は、コンピュータ断層撮影(CT)スクリーニングをさらに実施することを含み、CTスクリーニング工程は、遺伝子スクリーニングの前、同時、又はその後に行われる。ある態様では、がんは、固形腫瘍であり、CTスクリーニングは、例えば、良性病変がある患者における疑わしい結節の検出を含む。ある態様では、良性病変は、高度なCTスクリーニング、組織病理学、及び/又は生検を介して同定される。
【0033】
前記がんスクリーニング/診断方法のある態様では、本方法は、悪性結節と良性結節とを識別して、CTスクリーニングの陽性適中率(PPV)を、例えば、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも80%、又は少なくとも90%高めることを含む。
【0034】
前記がんスクリーニング/診断方法のある態様では、本方法は、悪性腫瘍の早期検出(ED)を含む。
【0035】
ある実施形態では、本開示は、(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(P)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別すること;(d)ノイズ除去(c)及びフィルタリング(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程(a)は、全ゲノム配列決定によりゲノムワイドの変異データを凝集する工程を含み、工程(c)は、数学的最適化工程を用いて変異パターンを検出する工程を含む。ある実施形態では、数学的最適化工程は、非負の最小二乗を用いることを含む。
【0036】
ある実施形態では、本開示は、(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(P)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別すること;(d)ノイズ除去(c)及びフィルタリング(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関する。がん関連変異特徴とPCR又は配列決定エラー関連特ある実施形態では、前悪性腫瘍は、不均一もしくは均一な脳がん、肺がん、皮膚がん、鼻がん、咽頭がん、肝臓がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口がん、胃がん、固形腫瘍、肺腺がん、乳管腺がん(乳房腫瘍)、非小細胞肺がん肺腺がん(NSCLC LUAD)、皮膚黒色腫、尿路上皮がん(膀胱腫瘍)、結腸直腸がん(リンチ)、もしくは骨肉腫、特にリンチ症候群もしくはBRCA遺伝子欠失を含む。
【0037】
上記方法のある実施形態では、機械学習(ML)は、順序立てノイズを適応的に及び/又は体系的にフィルタリングする深層畳込ニューラルネットワーク(CNN)を含む。ある態様では、CNNは、汎腫瘍コホート上で深層学習アルゴリズムを用いて真の腫瘍変異と人為的のエラーとを識別する特徴を同定すること;腫瘍患者からの試料では検出された各個々の変異に信頼性推定値を割り当てること;全ゲノムにわたって信頼性推定値を統合すること;及び試料中の特定のコスミック変異の非負最小二乗を用いることを含む。
【0038】
ある実施形態では、本開示は、コンピュータ実行可能命令を含むコンピュータ読取り可能媒体に関し、本コンピュータ読取り可能媒体は、プロセッサにより実行されると、プロセッサに、腫瘍の早期検出又は前がん性腫瘍病変の検出のための方法又は一組の工程を実行させる。本方法又は工程は、(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)読取の(1)塩基品質(BQ)、(2)読取のマッピング品質(MQ)、(3)読取の推定断片サイズ、及び/又は(4)読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(P)の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的読取を除去すること;(c)機械学習(ML)アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを識別すること;(d)ノイズ除去(c)及びフィルタリング(b)に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量すること;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関する。ある実施形態では、MLは、一端に単一の完全接続層を有する層状畳込ニューラルネットワーク(CNN)を含み、ここで、CNNは、3ヌクレオチドウインドウ上にコンボルビングする場合、空間的不変性を維持し、読取断片を、各々がほぼ8ヌクレオチド領域を表す複数のセグメントに折りたたむことで、マッピング品質を維持する。
【0039】
前記コンピュータ読取可能媒体又は方法のある実施形態では、CNNは、一端に単一の完全接続層と、2歩の受容野と2歩の受容野とを有する最大プールにより出力がダウンサンプリングされる2つの連続した畳込層とを含む8つの層を含み、8層のCNNは、サイズ3の知覚野を用いて、読取断片を約25個の個々のセグメントに折り畳み、ゲノム読取における位置にあるカラムの上に畳み込むことにより、マッピング品質を維持し、最後の畳込層の出力は、マーカーの最終的な分類が行われるシグモイド完全接続層に直接適用される。ある実施形態では、CNNは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基あたりの品質スコアの統合を同時に捕捉する読取表示を含む。前記コンピュータ読取可能媒体又は方法のある態様では、CNNは、MUTECTと比較して約1.12倍~約30倍だけ読み取られたゲノムにおける体細胞変異を含む腫瘍特異的マーカーの濃縮を提供する。
【0040】
ある実施形態では、本開示は、コンピュータ実行可能命令を含むコンピュータ読取り可能媒体に関し、本媒体は、プロセッサにより実行されると、プロセッサは、診断を必要とする被験体ではがんを診断するための方法又は一連の工程を実行する。本媒体は、(A)被験体の試料から受け取った遺伝子マーカーの一覧では、遺伝子マーカーが体細胞単一ヌクレオチド変異(sSNV)、体細胞コピー数変異(sCNV)、挿入/欠失(indels)、又はゲノム読取における構造的変異(SV)を含む、(B)真のがんマーカーと人為的のエラーとを識別する特徴を同定するために汎腫瘍コホート上の各被験体についての遺伝子マーカーの一覧を処理すること、(C)処理工程(B)に基づき、本集合体中の各特徴に信頼性推定値を割り当てること、(D)読み取ったゲノムの各特徴について、工程(C)全体にわたって信頼性推定値を統合し、腫瘍特徴を構築すること、の方法により開発された畳込ニューラルネットワーク(CNN)及び(E)腫瘍の特徴を数学的に最適化することを含む。ある実施形態では、信頼性推定値の割り当ては、(1)線形混合最適化を用いてコスミック変異パターンの寄与に関する信頼基準を計算すること、又は(2)特定のコスミックパターンに対する患者配列-文脈一覧の類似性を計算することを含む。ある実施形態では、線形混合物の最適化は、代数関数minllAx-bll,x≧0を解く工程を含み、ここで、Aは、変異パターン配列コンテキストマトリックスであり、xは、各コスミック変異パターン(変数)の寄与であり、bは、患者特異的配列コンテキスト一覧である。ある態様では、代数関数minllAx-bll,x≧0におけるAは、100個の無作為の変異パターンとともに、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個又は少なくとも30個のCOSMICパターンを含む。ある実施形態では、線形混合最適化は、抽出E_random(平均寄与スコア)及びstd_random(std寄与スコア)を含む無作為パターンの寄与の分布を計算することと、各COSMICパターンに対する寄与検出の信頼性をzスコアによりチェックすることとを含み、メトリック(cosmic_sig_contribution-E_random)/std_randomを計算することを含み、メトリックは、無作為セットと比較して特定のパターンの有意性を表す。ある実施形態では、数学的最適化工程は、非負の最小二乗(NNLS)を用いることを含む。
【0041】
ある実施形態では、本開示は、それを必要とする被験体における残存腫瘍を検出するシステムであって、被験体の血漿試料と、正常細胞試料を含む正常生物学的試料からの増幅及び配列決定された複数の読取一覧を受け取るように構成されかつ配置されたデータ収集ユニット;遺伝子マーカーの被験体特異的一覧における複数の被験体特異的マーカーを同定するように構成されかつ配置されたマーカー同定ユニットであって、前記マーカー同定ユニットは前記データ収集ユニットと通信的に接続し、読取の基本品質(BQ)、読取のマッピング品質(MQ)、読取の断片サイズ、及び/又は読取の可変対立遺伝子周波数(VAF)に基づき実際のノイズを除去するノイズ除去ユニットと、読取と腫瘍との間の統計的関連の統計レベルを示す信頼区間スコアに基づき、一覧で読み取った各ノイズ除去されたノイズを統計的に分類するように構成されかつ配置された分類エンジンとを含み、前記分類エンジンは、増幅段階又は配列決定工程の間に導入されたノイズを適応的かつ体系的にフィルタリングするために機械学習(ML)を利用する、さらに、ノイズ除去されたMLフィルタリングされた読取と、1又はそれ以上の既知のがんパターンとを、一覧内でマッチさせる工程;及び、マッチに基づき腫瘍を診断するように構成されかつ配置された診断ユニットを提供する。
【0042】
本開示のシステムのある実施形態では、分類エンジンは、線形混合最適化問題を用いて信頼性メトリックを計算して、ノイズ除去されたMLフィルタ読取りを、1又はそれ以上の既知のがん特徴と整合させるようにさらに構成される。
【0043】
本開示のシステムのある態様では、線形混合物の最適化は、腫瘍発生率と、タバコ曝露、紫外線曝露、規制緩和されたDNA修復、DNA編集の欠陥、マイクロサテライト不安定性、又はそれらの組合わせから選択された腫瘍メディエータとの間の関連についてのzスコア信頼性推定値を計算することを含む。
【0044】
本開示のシステムのある実施形態では、人為的ノイズ除去エンジンは、読取の基本品質(BQ)スコア、読取のマッピング品質(MQ)スコア、読取の断片サイズ、又は読取の可変対立遺伝子頻度(VAF)に基づく、一覧の読取の確率的分類を含む最適受信者動作特性曲線を実行するように構成される。本開示のシステムのある実施形態では、人為的実際のノイズ除去エンジンは、(iii)読取内位置(RP)、(iv)読取配列コンテキスト(SC)、(v)読取存在量、(vi)配列決定深度及び/又は(vii)配列決定エラーに基づきノイズをフィルタリングするようにさらに構成される。
【0045】
本開示のシステムのある実施形態では、信頼性メトリック計算は、代数関数minllAx-bll,x≧0を解く工程を含み、ここで、Aは、変異パターン配列コンテキストマトリックスであり、xは、各コスミック変異パターン(変数)の寄与であり、bは、患者特異的配列コンテキスト一覧である。ある実施形態では、zスコア信頼性推定値は、Aが30個のコスミックパターン及び100個の無作為変異パターンを含む代数関数を解く工程と、平均寄与スコア(ACS)及び標準寄与スコア(std_random)を含むコスミックパターン(CSC)無作為パターン(E_random)の寄与の分布を計算する工程と、関数(CSC-E_random)/std_randomを用いてzスコアメトリックを計算して、各コスミックパターンに対する寄与の信頼性を確認チェックする工程であって、zスコアは、無作為集合と比較して、特定のパターン寄与の重要性を表す。ある実施形態では、zスコア信頼性推定値は、特定のコスミック特徴に対する患者配列-文脈一覧の類似性を計算する工程を含む。ある実施形態では、zスコアの信頼性推定値は、密度関数を得るために患者配列コンテキストの一覧を正規化する工程と、患者配列コンテキストの密度関数とコスミック署名密度関数との間のコサイン類似性を計算する工程と、患者配列コンテキストの密度関数と非情報的な一様密度関数との間のコサインの類似性で割ることによりコサインの類似性を正規化する工程とを含む。ある実施形態では、zスコアの信頼性推定値は、zスコアが検出閾値を超えるかどうかをチェックする工程を含み、閾値は、健康な試料では経験的に推定された基本ノイズを含む。ある態様では、がん特徴は、タバコ特徴を含み、正の信頼区間は、2、3、4より大きく、好ましくは5標準偏差より大きいzスコアを含む。
【0046】
本開示の方法及びシステムのある態様では、遺伝子マーカーは、DNA中のSNV、CNV、indels及び/又はSVを含み、受容ユニットは、全ゲノム配列決定(WGS)された遺伝子データ、例えば、血漿試料を含む生物学的試料からの遺伝子データを受け取る。正常細胞試料は、無細胞DNA(cfDNA)を含む。正常細胞試料は、末梢単核球細胞(PMBC)を含み、遺伝子データは、体細胞一塩基変異(sNV)又は体細胞コピー数変異(sCNV)又はそれらの組合せを含む複数のマーカーを含む。ある態様では、試料中のcfDNAの量は、約0.1ng/ml~約20.0ng/mlである。ある態様では、試料は、正常DNA分子に対する腫瘍DNA分子の量の比、例えば、約0.0001%(1~100万分子)から約20%の間で測定されるように、腫瘍画分(TF)が低い。
【0047】
本開示の1又はそれ以上の実施形態の詳細は、添付の図面/表及び以下の説明に記載される。本開示の他の特徴、目的、及び利点は、図面/表及び詳細な説明、並びに特許請求の範囲から明らかであろう。
【図面の簡単な説明】
【0048】
図1】本開示の診断方法の代表的なフローチャートを示す。図1Aの第1工程110では、複数の遺伝子マーカー(例えば、体細胞性SNV)に関連する、読取の被験体特異的ゲノムワイドの一覧を、被験体の試料(例えば、全ゲノム配列決定を介して生成される)から受け取る。工程120では、ノイズの検出確率に基づき、(1)基本品質(BQ)、(2)マッピング品質(MQ)、(3)推定断片サイズ及び/又は(4)推定対立遺伝子分画(VAF)の関数として、各読取をシグナル又はノイズ(N)として統計的に分類して、人為的読取を除去する。(v)読取位置、(vi)配列コンテキストの位置サイズ(SC)、(vii)存在量、(viii)配列決定の深度及び/又は(ix)配列決定の誤差等の他の二次パラメータもまた、用いられ得る。ノイズ減少読取は、汎がんコホートからのインシリコデータセット及び/又はデータセットを用いて訓練された畳込ニューラルネットワークに供給されうる。ニューラルネットワークは、工程130では配列決定ノイズを適応的かつ体系的にフィルタリングする。次に、ノイズ除去工程120及びフィルタリング工程130に基づき、工程140では、一覧内の複数の真の読取を含む被験体特異的な特徴が編集される。次に、工程150では、被験体の生物学的試料が循環腫瘍DNAを含むという信頼性推定値が、被験体特異的パターン及びがんパターンをマッチさせて行われる。被験体は、工程160では信頼性推定値に基づきがんについてスクリーニングされる。図1Bは、様々な実施形態による、被験体のがんスクリーニングの代表的なワークフローを示す。図1Cは、様々な実施形態による、被験体のがんスクリーニングの代表的なワークフローを示す。図1Dは、一塩基多型(SNV)又はindelsの測定に基づく、被験体のがんスクリーニングの代表的なワークフローを示す。図1Eは、コピー数変異(CNV)又は構造的変異(SV)の測定に基づく、被験体のがんスクリーニングの代表的なワークフローを示す。図1Fは、7人のがん患者-2人の黒色腫、3人の肺腺がん、及び2人の乳房(SCHEME A)で生成された合成血漿用シリコデータベースの生成のためのスキームを示す。
【0049】
図2】がんの早期検出支援の本開示のシステム及び方法の使用を概説する代表的なフローチャートを提供し、これは、外科的及び/又は治療的介入の必要を排除しない場合、低減する。がんの早期発見から得られる多くの経済的及び健康的便益には、手術のリスク(例えば、肺炎、出血、感染、血液凝固(血腫)及び麻酔に対する反応)、化学療法又は免疫療法の副作用(例えば、疲労、脱毛、易傷性及び易出血性、感染症、貧血、悪心及び嘔吐、食欲不振、便秘、下痢、口内、舌及び咽頭の問題、神経及び筋肉の問題(しびれ、刺痛、疼痛など)、皮膚及び爪の変化(乾燥皮膚及び色調の変化等)、尿及び膀胱の変化、腎臓の問題、体重変動などが含まれる。
【0050】
図3】A~Cは、様々なパラメータの関数として、パラメータの検出確率をチャート化したものである。図3Aでは、チャートは、検出の確率が低い腫瘍画分(TF)を含む試料で急速に減少することを示す。図3Bのチャートは、検出された部位の平均数、並びに少なくとも1つの検出の確率を、固有のDNA断片(ゲノム等価物又はカバレッジ)、変異負荷(N)及び腫瘍分画(TF)の数の関数として予測した。図3Cは、20,000を超えるsSNV(ヒトのがんの17%では見出される約10の変異/メガ塩基対)を組み込むことにより、標準的な全ゲノム配列決定(WGS)で容易に達成されうる、適度な配列決定努力(20Xカバレッジ)では、1:100,000のTFでも高い検出確率(0.98まで)を提供し得ることを示す。
【0051】
図4】A~Eは、SNVマーカーの最適化を示す。図4Aは、人為的SNV検出の数(エラー)と、チェックされたユニーク読取の総数との間の線形関係を示す。これは、1,000読取につき1エラーに相当するエラー確率を表し、本エラーは、主として配列決定エラー確率(1/1000)に起因することを示す。各点は対照試料(TF=0)であり、これらの点は、3種類の異なるがん種(肺がん、黒色腫及び乳がん)の複数カバー範囲(2X~25X)及び複数の独立した複製を有する6名の患者のPBMCデータから作成された。すべてが同じ回帰直線上にあるように見えるので、これはがんの種類には不変である。図4Bは、塩基品質フィルタリングの受信機動作特性曲線を示す。図4Cは、フィルタリングされた多重がんエラーモデルでは検出されたエラーの数(y軸)に対するチェックされた読取の数(x軸)の線グラフを示し、人為的実際のSNV検出の数(エラー)とチェックされたユニーク読取の総数との間の線形関係を示す。SNV検出(エラー)は、最適化されたBQ及びMQフィルタを適用した後に実行される。図4Dは、ジョイントBQ及びMQ最適化フィルタを適用する効果により、配列決定誤差では約7倍の変化の抑制が可能となることを示す。対照試料を用いた複数の反復にわたるエラー確率分布の評価では、フィルタ前のノイズは、肺がんと黒色腫の両方のタイプで~2×10-3の速度を示し、フィルタリング後のノイズは、両方のタイプのがんで~2×10-4に減少する。図4Eは、プラズマカバレッジ(x軸)及び腫瘍負荷(y軸)の関数として、誤差率(より多くの誤差を示す赤、及びより少ない誤差を示す青)のヒートマップを示す。種々の適用範囲における推定エラー確率(例えば、検出されたSNV数をチェックされたユニークな読取の総数で割ったもの)及び腫瘍変異負荷(腫瘍変異負荷は、元の患者特異的な腫瘍変異リストをサブサンプリングして修正された)を示す。行列への各項目は、複数の独立した複製の平均である。これは、2000を超える全ての変異負荷に対して、カバレッジと変異負荷に対する比較的不変なエラー確率(約2~3×10-4)を示す。このことは、メガ塩基対あたり1又はそれ以上の変異(>1/Mbp)を有するすべての腫瘍について、上記結果が頑健であることを示す。
【0052】
図5】深層学習に基づくデノボ変異検出及びノイズ抑制のチャートを提供する。
【0053】
図6】ゲノム読取用のマトリックス(例えば、150塩基対読取用の16×200塩基対)を含む典型的なパッドを示す。上のパネルには、エンジンで表示される読取とその配置が表示される。下のパネルは、ゲノムコンテキストが読取の末端に付加されることを示す。ゼロは、コンテキスト以外の機能のためにパディングされる。
【0054】
図7】臨床設定で適用される開示の例示的方法の概略図を示す。示すように、無細胞DNA(cfDNA)(例えば、血漿試料)を含む被験体(例えば、がん患者又は腫瘍を有することが疑われる被験体)から得られた生検試料は、PILEUP(又は類似のプログラム)を用いてカタログ化される患者の遺伝データ(例えば、VCFファイル)を得るために処理(例えば、配列決定)される。VAFフィルタは、生殖細胞系マーカー(例えば、SNV、CNV、indels、又はSV)を除外するために適用され、マッピング品質(MQ)、位置フィルタ(PIR)及び/又は塩基品質(BQ)フィルタは、人為的ノイズをフィルタするためにさらに適用される。次の工程では、フィルタリングされた遺伝子データに深層学習が適用される。深層学習法は、混合した腫瘍生検標本及び末梢血単核細胞(PMBC;対照)から得られたマーカーの一覧を含む遺伝子データを用いて機械を訓練することを含み、これらは、上記フィルタ(例えば、PILEUPを介した人為的読取カタログ、生殖細胞系の変異を除外するVAFフィルタ、塩基品質が低いマーカーを除去するBQフィルタ、及びマッピングが不良なマーカーを除去するMQ)に供される。また、装置は、データセットを用いて訓練されてよい。上記システム及び方法の生成物は、がんの早期診断及び予後に役立つ、がん診断の文脈では臨床的に関連するcfDNA中の複数のマーカーの同定である。
【0055】
図8】「データセットの特性及びエンジン特徴分析の結果を示す。図8Aは、Alexandrovら(前出、2013)のタバコ(上部)及びメラノーマ(下部)と関連するCOSMICパターンを示す。図8Bは、試料特異的腫瘍及びPBMC読取からのトリヌクレオチド頻度を示す。タバコ(紫色)と紫外線(緑色)に結合した特異的なトリヌクレオチド。図8Cは、トリヌクレオチド頻度の相対差とエンジン(エンジン)の平均活性との相関を示す。
【0056】
図9】公知の変異呼出と比較した、本開示のエンジンの様々な性能関連特性の折れ線グラフを示す。図9Aは、患者CA0044合成血漿を用いた感度を示す。本開示のエンジン(KitTYHAWK)は、感度に関して、MUTECT、SNOOPER、及び/又はSTRELKA等の当技術分野で公知の変異呼出よりも性能が優れることが分かる。図9Bは、患者CA0044合成血漿上のエンジンを用いて得られた精度(陽性適中率又はPPVに関して測定される)の比較線グラフを示す。MUTECTは検出数が2のみであったため除外した。エンジンは、精度に関して、当業者に公知の変異呼出よりも優れることが分かる。図9Cは、患者CA0044合成血漿上でエンジンを用いて達成された濃縮を示す。MUTECTは検出数が2のみであったため除外した。エンジンは、富化に関して、公知の変異呼出よりも優れていることが分かる。
【0057】
図10】本開示の方法及びシステムを用いて、シリコ又は対照被験体(BB600;BB601)又はがん患者(BB1122又はBB1125)から得られたctDNA試料におけるSNV検出率を示す。
【0058】
図11】腺がん又は良性結節を有すると診断された被験体の臨床的特徴を示す表である。
【0059】
図12】A~Cは、種々の腫瘍では差次的に発現される腫瘍特異的特徴を示す。図12Aは、腫瘍特異的特徴(UV、タバコ)の適用が、肺がん及びメラノーマ試料では高い特異性を提供することを示す。図12Bは、肺患者(左パネル)及び/又は黒色腫患者(右パネル)における正常(PBMC)対腫瘍試料における遺伝子特徴の差次的発現を示す。図12Cは、乳がん、メラノーマ、又は肺腺がんを有する患者における種々のCOSMICパターン(及びそれらに関連するzスコア)の発現を示す。
【0060】
図13】A~Cは、約1/1000の腫瘍画分(TF)まで合成血漿中でがんパターンを検出しうることを示す。2つのシード、シード3及びシード4からのデータを表す図13A及び13Bは、タバコパターンが、約1/1000の腫瘍画分(TF)まで合成血漿中で検出されうることを示す。単一のシードからのデータを表す図13Cは、約1/1000の腫瘍画分(TF)まで合成血漿中で肺特徴が検出されうることを示す。
【0061】
図14】A~Bは、種々の患者試料のzスコアを示す。図14Aは、肺がん患者(青色)及び良性結節を有する患者(赤色、CTにより検出される)について、zスコア対バックグラウンド無作為パターンにおける、タバコ関連パターンの変異パターン検出を示す。これは、非侵襲的血液検査に基づき良性結節と悪性結節を識別する能力を示す。タバコの署名(署名4/8)は、タバコに曝露された患者の早期がん血漿中に検出されるが、良性結節又は喫煙歴のない患者では検出されない。「N.D.」は、検出されない試料を示す。PYは、各患者が喫煙したパックの年数を示す。EDは早期発見を意味する。図14Bは、良性対照と比較した、肺がんの様々な病期(例えば、IA期、IB期、IIA期、IIb期、及びIIIa期)の被験体から得られた試料のコホートにおける変異パターン検出のzスコアの拡大を示す。ほとんどのがん試料では、ベースライン時の感度が少なくとも67%に達し、これはすべての高病期(例えば、ステージIIIa以上)の症例で約100%に上昇した。
【0062】
図15】本開示のコンピュータシステムの概略図である。
【0063】
図16】A~Cは、本開示の種々のシステムの概略図を提供する。代表的なシステムに含まれる様々なユニットを示す。
【0064】
図17】A-Eは、本開示の診断方法における断片サイズ等の直交特徴の使用、及びSNVベースの方法における当該直交特徴の適用の付随する効果を示す。図17Aは、健常な正常cfDNA試料では示される断片サイズ分布を示す。図17Bは、正常なcfDNA試料と比較した乳房腫瘍cfDNA(赤色及び紫色)の断片サイズシフトを示す。図17Cは、マウス異種移植片(PDX)モデルでは、腫瘍由来の循環DNAは、正常由来の循環DNAよりも有意に短いことを示す。図17Dは、腫瘍及び正常試料を横切る前記長さの断片を観察する頻度に対してプロットした断片DNAサイズ(x軸;塩基数)の折れ線グラフを示す。図17Eは、断片サイズ分布(x軸)及びGMM結合対数オッズ比(y軸)に基づく、DNA断片と腫瘍起源との対応等の直交的特徴を用いる患者特異的変異検出を示す。
【0065】
図18】A-Fは、本開示の診断方法における断片サイズ等の直交特徴の使用及びCNV系方法における当該直交特徴の適用の付随する効果を示す。図18Aは、ゲノム領域(bp)対累積プラズマ深度カバレッジスキュー(下部パネル)、プラズマ対垂直深度カバレッジスキュー(中部パネル)及びカバレッジ(上部パネル)の線グラフを示す。図18Bは、深度カバレッジのlog2(log2>0.5=増幅、log2<-0.5=欠失)と、そのセグメントにおける局所的な断片サイズの質量中心(COM)との関係を示す。図18Cは、深度カバレッジLog2対断片サイズ質量中心(COM)のドットプロットを示す。ゲノムを横切るすべてのウインドウの推定Log2及びCOM値、中央値試料質量中心(COM)、を用いて、Log2/COM線形モデルの勾配及びR^2が、様々な時点(例えば、ベースラインの0日、21日及び42日)で計算される。図18Dは、Log2/FS推定と腫瘍DNAの画分との間の相関を示す。図18Eは、患者試料における深度カバレッジに基づくCNV検出と断片サイズ質量中心に基づくCNV検出との間の関係を示す。図18Fは、正常(健康)血漿試料における深度カバレッジに基づくCNV検出と断片サイズ質量中心(COM)に基づくCNV検出との間の関係の欠如を示す。
【発明を実施するための形態】
【0066】
本開示は、本開示の好ましい実施形態が示される添付の図面を参照して、より詳細に説明される。しかしながら、本開示は、異なる形態で具体化することができ、本明細書に記載する実施形態に限定されるものと解釈されるべきではない。むしろ、当該実施形態は、本開示が完全かつ完全であるように提供され、当業者に本開示の範囲を完全に伝える。
【0067】
別段の定義がない限り、本明細書に記載される本教示に関連して用いられる科学用語及び技術用語は、当業者により一般に理解される意味を有するものとする。本明細書における開示の説明で用いられる用語は、特定の実施形態のみを説明するためであり、本開示を限定することを意図したものではない。さらに、文脈上別段の要求がない限り、単数項は複数項を含み、複数項は単数項を含む。一般に、分子生物学、及び本明細書中に記載されるタンパク質及びオリゴ又はポリヌクレオチドの化学及びハイブリダイゼーションに関連して利用される命名法は、当該分野で周知であり、一般的に用いられる。標準的な技術は、例えば、核酸の精製及び調製、化学分析、組換え核酸、及びオリゴヌクレオチドの合成に用いられる。酵素反応及び精製技術は、製造業者の仕様に従って、又は当技術分野で一般的に達成されるように、又は本明細書に記載されるように実施される。本明細書に記載される技術及び手順は、一般に、当該技術分野では周知であり、本明細書を通して引用及び考察される種々の一般的及びより具体的な参考文献に記載される従来の方法に従って実施される。例えば、Sambrook et al.,Molecular Cloning: A Laboratory Manual(Third ed.,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.2000)である。本明細書中に記載される実験手順及び技術に関連して用いられる命名法は、当該分野で周知であり、一般的に用いられる。
【0068】
本開示の様々な実施形態は、以下のパラグラフでさらに詳細に説明される。
【0069】
〔定義〕
本開示及び添付の特許請求の範囲の説明で用いられる、単数形「a」、「an」及び「the」は、文脈上他のことを明確に示さない限り、複数形も含むことが意図される。また、本明細書で用いられる場合、「及び/又は」は、1又はそれ以上の関連するリストされたアイテムのいかなる及び全ての可能な組合わせ、並びに選択肢(「又は」)では解釈時の組合わせの欠如を示し、それらを包含する。
【0070】
用語「約」は、その値のプラス又はマイナス10%の範囲を意味し、例えば、「約5」は、4.5~5.5を意味し、「約100」は、開示の文脈が他を示す場合を除き、90~100などを意味し、例えば、「約49、約50、約55」等の数値のリストでは、「約50」は、前の値と後の値との間の間隔の半分未満、例えば、49.5を超えるか、52.5未満を超えるかの範囲を意味する。さらに、用語「約~より小さい」又は「約~より大きい」は、本明細書で提供される用語「約」の定義に照らして理解されるべきである。
【0071】
本開示である範囲の値が提供される場合、その範囲の上限と下限との間の各介在値と、その記載された範囲内のいかなる他の記載された値又は介在値とは、本開示の範囲内に含まれることが意図される。例えば、1μM~8μMの範囲が記載される場合、2μM、3μM、4μM、5μM、6μM、及び7μMもまた、明示的に開示されることが意図される。
【0072】
本明細書で用いられる用語「複数」は、2、3、4、5、6、7、8、9、10、又はそれ以上であり得る。
【0073】
本明細書中で用いられる用語「スクリーニング」又は「スクリーニング」は、広い意味を有する。これには、診断用に意図されたプロセス、又は後年に疾患を発症する無症状の被験体の感受性、傾向、リスク、又はリスク評価決定に意図されたプロセスが含まれる。スクリーニングはまた、被験体の予後、すなわち、被験体が障害と診断された場合の予後、障害の進行を事前に決定すること、並びに障害を治療する治療選択肢の有効性の評価も含む。
【0074】
本明細書中で用いられる用語「検出する」は、試料中の1又はそれ以上のパラメータの測定により試料に関連する値又は値のセットを決定するプロセスをいい、さらに、試験試料を参照試料と比較する工程を含みうる。本開示により、腫瘍の検出は、1又はそれ以上のマーカーの同定、アッセイ、測定及び/又は定量を含む。
【0075】
本明細書中で用いられる用語「診断」は、被験体が、限定されるものではないが、遺伝子変異により特徴付けられる疾患又は状態を含む、所定の疾患又は状態に罹患する可能性が高いか否かを決定しうる方法をいう。当業者は、しばしば、1又はそれ以上の診断指標、例えば、マーカー、その存在、不在、量、又は量の変化に基づき診断を行うが、それらの量は、疾患又は状態の存在、重症度、又は不存在を示す。他の診断指標には、患者の病歴、身体症状(例えば、説明できない体重減少、発熱、疲労、疼痛、又は皮膚奇形)、表現型、遺伝子型、又は環境因子又は遺伝因子がある。当業者は、用語「診断」とは、特定の経過又は転帰が生じる可能性が高まること、すなわち、所定の特徴、例えば、診断指標の存在又はレベルを示す患者では、その特徴を示さない個人と比較して、経過又は転帰が生じる可能性が増大することを意味することを理解するであろう。本開示の診断方法は、独立して、又は他の診断方法と組合わせて、所与の特徴を示す患者では経過又は転帰がより生じやすいか否かを決定するために用いられ得る。
【0076】
本明細書中で用いられる、疾患、例えば、がんの「早期検出」という用語は、例えば、がん状態への転移前に、疾患の発現の可能性を発見することを意味する。好ましくは、早期検出とは、組織又は細胞における形態学的変化の観察前に疾患を同定することを意味する。さらに、細胞形質転換の「早期検出」という用語は、細胞が形質転換されると指定される前に、その細胞がその初期段階では形質転換を受ける可能性が高いことを意味する。
【0077】
本明細書中で用いられる用語「細胞形質転換」とは、細胞の特徴のある形態から別の形態への変化、例えば、正常型から異常型、非腫瘍型から腫瘍型、未分化型から分化型、均一型から不均一型への変化をいう。さらに、形質転換は、細胞の形態、表現型、生化学的特徴、例えば、成長特性、アポトーシス特性、分離、侵襲特性などにより認識されうる。
【0078】
本明細書中で用いられる用語「腫瘍」は、正常又は野生型細胞と比較して、遺伝的、細胞的、又は生理的レベルで形質転換を受けた可能性のあるいかなる細胞又は組織を含む。用語は、通常、良性(例えば、転移を形成せず、隣接する正常組織を破壊する腫瘍)又は悪性/がん(例えば、周囲の組織に浸潤し、通常、転移を生じ得る腫瘍)であり得る新生物性増殖を意味し、適切に治療されない限り、宿主を死亡させる可能性がある。Steadman’s Medical Dictionary, 28th Ed Williams & Wilkins,Baltimore,MD(2005)を参照。
【0079】
用語「がん」(「腫瘍」と同義で用いられる)とは、ヒトのがん及びがん腫、肉腫、腺がん、リンパ腫、白血病、固形及びリンパ系がんなどを意味する。様々なタイプのがんの例としては、肺がん、膵がん、乳がん、胃がん、膀胱がん、口腔がん、卵巣がん、甲状腺がん、前立腺がん、子宮がん、精巣がん、神経芽細胞腫、頭部扁平上皮がん、頸部、子宮頸部及び膣、多発性骨髄腫、軟部組織及び骨原性肉腫、大腸がん、結腸直腸がん、腎がん(例えば、RCC)、胸膜がん、子宮頸がん、肛門がん、胆管がん、消化管カルチノイド腫瘍、食道がん、胆嚢がん、小腸がん、中枢神経系がん、皮膚がん、絨毛がん;骨原性肉腫、線維肉腫、神経膠腫、黒色腫などが挙げられるが、これらに限定されない。ある態様では、「液体」がん、例えば、血液がん、例えば、リンパ腫及び/又は白血病は除外される。
【0080】
がんの例としては、副腎皮質がん、AIDS関連がん、AIDS関連リンパ腫、肛門がん、肛門直腸がん、肛門管がん、虫垂がん、小児小脳星細胞腫、小児大脳星細胞腫、基底細胞がん、皮膚がん(非黒色腫)、胆道がん、肝外胆管がん、肝内胆管がん、膀胱がん、膀胱がん、骨及び関節がん、骨肉腫及び悪性線維性組織球腫、脳がん、脳腫瘍、脳神経膠腫、大脳星細胞腫/悪性神経膠腫、上衣腫、髄芽腫、テント上原始神経外性腫瘍、視経路及び視床下部神経膠腫、乳がん、気管支腺腫/カルチノイド、カルチノイド、消化管がん、神経系がん、神経系リンパ腫、中枢神経系がん、子宮頸がん、慢性リンパ球性白血病、慢性骨髄増殖性疾患、結腸がん、結腸直腸がん、皮膚T細胞リンパ腫、リンパ腫、菌状息肉腫、セジア症候群、食道内膜がん、頭蓋外胚細胞腫 細胞腫瘍、性腺外胚細胞腫瘍、肝外胆管がん、眼がん、眼内黒色腫、網膜芽細胞腫、胆嚢がん、胃がん、消化管カルチノイド、消化管間質腫瘍(GIST)、胚細胞腫瘍、卵巣胚細胞腫瘍、妊娠性絨毛腫瘍グリオーマ、頭頸部がん、肝細胞(肝)がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、眼球がん、膵島がん(内分泌膵)、カポジ肉腫、腎がん、腎がん、喉頭がん、急性リンパ芽球性白血病、急性骨髄性白血病、慢性リンパ性白血病、慢性骨髄性白血病、有毛細胞白血病、口唇及び口腔のがん、肝がん、肺がん、非小細胞肺がん、AIDS関連リンパ腫、非ホジキンリンパ腫、中枢神経系原発性リンパ腫、Waldenstramマクログロブリン血症、髄芽腫、黒色腫、眼内黒色腫、メルケル細胞がん、悪性中皮腫、中皮腫、転移性扁平上皮がん、口腔がん、舌のがん、多発性内分泌腫瘍、菌状息肉腫、骨髄異形成症候群、骨髄異形成/骨髄増殖性疾患、慢性骨髄性白血病、急性骨髄性白血病、多発性骨髄腫、慢性骨髄増殖性疾患、鼻咽頭がん、神経芽細胞腫、口腔がん、口腔がん、中咽頭がん、卵巣がん、卵巣上皮がん、卵巣低悪性度腫瘍、膵がん、膵島細胞がん、副鼻腔及び鼻腔のがん、副甲状腺がん、咽頭がん、褐色細胞腫、松果体芽腫及びテント上原始神経外胚葉性腫瘍、下垂体腫瘍、形質細胞新生物/多発性骨髄腫、胸膜肺芽腫、前立腺がん、直腸がん、腎盂及び尿管がん、移行上皮がん、網膜芽腫、唾液腺がん、ユーイング肉腫、カポジ肉腫、子宮がん、子宮肉腫、皮膚がん(非黒色腫)、皮膚がん、メルケル細胞がん、小腸がん、軟部肉腫、扁平上皮がん、胃がん、テント上原始神経外胚葉性腫瘍、精巣がん、胸腺腫、胸腺がん、甲状腺がん、移行上皮がん、腎盂と尿管及びその他の泌尿器、妊娠性絨毛腫瘍、尿道がん、子宮内膜がん、子宮肉腫、子宮体がん、膣がん、外陰がん、及びウィルムス腫瘍が挙げられるが、これらに限定されない。
【0081】
本明細書で用いられる「高率の体細胞変異」とは、ゲノムのメガ塩基対(変異/MBP)当たり約1、約2、約3、約5、約7、約10、約12、約15、約20、約25、約30、約40、約50、約60、約75、約80、約100、約125、約150、又はそれ以上の変異を有する腫瘍を意味する。Collisson et al.,Nature,511(7511):543-50,2014を参照のこと。
【0082】
本明細書中で用いられる用語「非小細胞肺がん」又はNSCLCは、本明細書中で用いられる場合、小細胞肺がんではない全ての肺がんをいい、大細胞がん、扁平上皮がん及び腺がんを含むが、これらに限定されないあるサブタイプを含む、すべての病期及び転移が含まれる。肺がんの25%を占める扁平上皮がんは、通常、中心気管支の近くから発生する。腫瘍の中心部には通常、空洞とそれに伴う壊死がみられる。高分化型扁平上皮がんでは、他の種類のがんよりも増殖のペースが遅い場合が多くみられる。腺がんは非小細胞肺がんの40%を占める。通常、末梢肺組織に発生する。腺がんのほとんどの症例は喫煙と関連があるが、喫煙経験のない人の間では、腺がんが肺がんの最も一般的な型である。Rosell et al.,Lung Cancer,46(2),135-48,2004;Coate et al.,Lancet Oncol,10,1001-10,2009を参照のこと。
【0083】
本明細書では、用語「細胞」は、「生物学的細胞」と相互に交換可能に用いられる。生物学的細胞の非限定的な例としては、真核細胞、植物細胞、哺乳類細胞、爬虫類細胞、鳥類細胞、魚類細胞などの動物細胞、原核細胞、細菌細胞、真菌細胞、原生動物細胞など、筋肉、軟骨、脂肪、皮膚、肝臓、肺、神経組織などの組織から解離した細胞、T細胞、B細胞、ナチュラルキラー細胞、マクロファージなどの免疫学的細胞、胚(例えば接合子)、卵母細胞、卵子、精子細胞、ハイブ読取マ、培養細胞、細胞株由来細胞、がん細胞、感染細胞、トランスフェクト及び/又は形質転換細胞、レポーター細胞などが挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類などから得ることができる。
【0084】
本明細書中で用いられる用語「被験体」は、ヒト、獣医学的又は農場動物、家畜又はペット、及び臨床研究に通常用いられる動物を含む哺乳動物を意味する。特に、被験体は、ヒト被験体、例えば、腫瘍と診断された、又は腫瘍を有することが疑われるヒト患者である。
【0085】
本明細書で用いられる用語「被験体特異的データセット」は、例えば、ゲノム情報、表現型情報、生化学情報、代謝情報、ミクロバイオーム配列情報、電子医療記録データ、電子健康記録データ、薬物処方、生体計測データ、栄養情報、運動情報、家族の病歴情報(例えば、家族の健康歴調査により得られるような)、アプリケーション内チャットログ、被験体の個人的医療提供者の記録及びメモ、被験体の保険提供者、患者がネットワーク情報、ソーシャルネットワーク情報などを提唱するような、各個人に固有の様々な情報をいう。ある実施形態では、主題特定のデータセットの1又はそれ以上は、日常的に更新及び/又は補足される。ある実施形態では、1又はそれ以上のデータセットが、複数の被験体特異的なデータセットに追加される。
【0086】
「被験体特異的ゲノム情報」とは、個体の遺伝的構成をいい、変異(SNP、Del/Dups、VUS等)及び変異頻度、家族性ゲノム配列情報、構造的ゲノム情報(変異(配列、欠失、挿入等)を含む)、一塩基多型、個人的免疫学情報(ゲノムワイド・アプローチを用いた免疫系の調節及び病原体への応答の研究)、機能的ゲノム情報(遺伝子転写、翻訳、タンパク質-タンパク質相互作用等の動的側面に焦点を当てた機能的ゲノム情報)、コンピュータゲノム情報(ゲノム配列及び関連データから生物学を解読、発見又は予測するためのコンピュータ統計解析の利用)、エピゲノミクス情報(DNA配列を変化させることなく遺伝子発現に影響を及ぼすDNA又はヒストンの可逆的修飾(DNAメチル化及びヒストン修飾等))、個人ゲノムを含む病原学情報、病態、レジェノミクス情報、行動ゲノミクス情報、メタゲノミクス(すなわち、環境試料から直接回収される個人遺伝物質)に関与する微生物の相互作用)を含む。
【0087】
「被験体特異的な表現型情報」とは、性別、人種、身長、体重、毛髪の色、眼の色、心拍数、嗜好性、血圧、自己記載の医学的症状、医学的に診断された症状、医学的に診断された症状、検査結果及び/又は医学的に提供された診断、プロテオミクスプロファイル等をいい、「被験体特異的な生化学的情報」とは、臨床検査(例えば、ナトリウム、マグネシウム、カリウム、鉄、血中尿素窒素(BUN)、尿酸等)、組織、血液等における薬物/薬物濃度をいう。
【0088】
用語「被験体特異的な電子カルテデータ」(EMR)、「電子健康記録」(EHR)及び「個人健康記録」(PHR)は、個々の医療提供者、診療所、病院、医療施設、被験体の健康歴、被験体の疾病素因、被験体の病歴、診断、投薬/処方、治療計画、予防接種日、アレルギー、放射線画像、臨床検査及び検査結果、事前指示書、生検、家庭用及び携帯用モニタリング装置(FITBIT、iWatch、With Scale、ワイヤレス血圧測定器など)由来のデータを意味する。
【0089】
本明細書中で用いられる用語「試料」は、例えば、物理的、生化学的、化学的及び/又は生理学的特徴に基づき特徴付けられ及び/又は同定されるべき細胞及び/又は他の分子実体を含む被験体の被験体から得られるか又は誘導される組成物をいう。組織試料の供給源は、血液又はいかなる血液成分;体液;新鮮な、凍結された及び/又は保存された臓器又は組織試料、又は生検もしくは吸引物からの固形組織;及び被験体又は血漿の妊娠中又は発達中のいかなる時点からの細胞であり得る。試料としては、初代培養細胞又は細胞株、細胞上清、細胞溶解物、血小板、血清、血漿、硝子体液、眼液、リンパ液、滑液、濾胞液、精液、羊水、乳汁、全血、尿、脳脊髄液(CSF)、唾液、痰、涙液、発汗、粘液、腫瘍溶解物、及び組織培養培地、並びに均質化組織、腫瘍組織、及び細胞抽出物などの組織抽出物が挙げられるが、これらに限定されない。試料は、さらに、例えば、タンパク質又は核酸等のある種の成分に対して試薬、可溶化、又は濃縮した、又は薄い組織切片又は組織学的試料中の細胞等の切片化のための半固体マトリックス又は固体マトリックス中に埋め込まれたような、それらの調達後に何らかの方法で操作された生物学的試料を含む。好ましくは、試料は、例えば、全血、血漿、血清、リンパ液などを含む血液又は血液成分から得られる。
【0090】
本明細書中で用いられる用語「マーカー」は、正常な生物学的プロセス、病原性プロセス、又は治療的介入、例えば抗がん剤による治療に対する薬理学的応答の指標として客観的に測定されうる特徴をいう。マーカーの代表的なタイプとしては、例えば、遺伝子変異、遺伝子重複、又はcfDNAの体細胞変異、コピー数変異、縦列反復、又はそれらの組合わせなどの複数の相違を含む、マーカーの構造(例えば、配列)又は数の分子変化が挙げられる。
【0091】
本明細書中で用いられる用語「遺伝子マーカー」は、実験室で測定しうる染色体上の特定の位置を有するDNAの配列をいい、用語「遺伝子マーカー」は、例えば、ゲノム配列によりコードされるcDNA及び/又はmRNA、並びにそのゲノム配列自体をいうために用いることもできる。遺伝子マーカーは、2つ以上の対立遺伝子又は変異体を含み得る。遺伝子マーカーは、直接マーカー(例えば、対象遺伝子又は対象遺伝子座(例えば、候補遺伝子)内に位置するマーカー)、間接マーカー(例えば、対象遺伝子又は対象遺伝子座に近接するが対象遺伝子又は対象遺伝子座内には近接していないために、対象遺伝子又は対象遺伝子座と密接に関連するマーカー)であり得る。さらに、遺伝子マーカーはまた、ゲノムの非コード領域に存在する遺伝子又は遺伝子座、例えば、SNV、CNV、又はタンデムリピートと無関係であり得る。遺伝子マーカーは、遺伝子産物(例えば、タンパク質)をコードするか又はコードしない核酸配列を含む。特に、遺伝子マーカーは、一塩基多型/変異(SNP/SNV)又はコピー数変異(CNV)又はそれらの組合わせを含む。好ましくは、遺伝子マーカーは、DNAにおける体細胞変異、例えば、sSNVもしくはsCNV、又は参照試料と比較したそれらの組合わせを含む。
【0092】
本明細書中で用いられる用語「無細胞DNA」又は「cfDNA」とは、細胞を含まないデオキシリボース核酸(DNA)の鎖を意味し、例えば、循環血液の血漿/血清から抽出又は単離され、リンパ液、脳脊髄液(CSF)、尿又は他の体液から抽出される。「cfDNA」という用語は、「循環腫瘍DNA」又は「ctDNA」とは対照的である。無細胞DNA(cfDNA)は、血流中を自由に循環するが、必ずしも腫瘍由来ではないDNAを記載するより広い用語である。
【0093】
本明細書では、変異に関する「一塩基多型」又は「一塩基変異」(「SNP」又は「SNV」)という用語は、別の配列と比較した配列中の少なくとも1つのヌクレオチドの差を意味し、「コピー数変異」又は「CNV」という用語は、同一のヌクレオチド配列を有する遺伝子断片の有無又は欠失における比較数値変化を意味する。
【0094】
用語「indels」は、本明細書中で、一般に当技術分野で用いられる場合、1つの対立遺伝子に1又はそれ以上の塩基が存在し、他の対立遺伝子には塩基が存在しない、ゲノム上の位置をいう。挿入又は欠失は進化の観点からは異なるが、本明細書に記載されるような解析では、一方の対立遺伝子における挿入は他方の対立遺伝子における欠失と等価であると区別されないことが多い。したがって、用語「indel」は、2つの対立遺伝子間の挿入/欠失の位置をいう。
【0095】
「構造的変異」とは、ゲノム中の染色体数や染色体セットの変化ではなく、染色体の一部の部分の変化をいう。構造的変異を生じる変異には4つの一般的なタイプがある。欠失と挿入、たとえば重複(染色体のDNA量の変化、遺伝物質の欠失と獲得)、逆位(染色体断片の配置の変化)、転座(遺伝子融合を起こしうる染色体断片の位置の変化)である。本発明では、用語「構造的変異体」は、遺伝物質の喪失、遺伝物質の獲得、転座、遺伝子融合、及びそれらの組合わせを含む。
【0096】
本明細書中で用いられる用語「生殖細胞系DNA」又は「gDNA」は、循環血液から順に得られるリンパ球を含む、患者の末梢単核球細胞から単離又は抽出されたDNAを意味する。
【0097】
本明細書中で用いられる用語「変異」とは、変化又は逸脱をいう。核酸に関しては、変異は、コピー数の差(CNV)を含む、DNAヌクレオチド配列間の差(単数又は複数)又は変化を意味する。DNA配列間のヌクレオチドにおけるこの実際の差異は、SNP、及び/又は、例えば、生殖細胞系DNA(gDNA)又は参照ヒトゲノムHG38配列等の参照と配列を比較したときに観察されるDNA配列における変化、例えば、融合、欠失、付加、反復などであり得る。好ましくは、変異は、cfDNA配列と、cfDNAが基準HG38配列と比較される場合;cfDNAがgDNAと比較される場合など、腫瘍細胞由来ではない対照DNA配列との間の差をいう。gDNAとcfDNAの両方で同定された相違は「体質性」と考えられ、無視されることがある。
【0098】
用語「遺伝子座」(複数の「遺伝子座」)は、ゲノム中の同定された位置に対応し、単一の塩基又は連続した一連の複数の塩基にわたることができる。遺伝子座は、通常、参照ゲノム及び/又はその染色体に関する識別値又は識別値の範囲を用いて同定される。例えば、「5100001」から「5800000」の識別値の範囲は、参照ヒトゲノム中の第1染色体上の特定の位置をいう。「ヘテロ接合体遺伝子座」(ヘテロ接合体遺伝子座)(「het」とも呼ばれる)は、染色体の2つのコピーが同一の配列をもたないゲノム中の遺伝子座である。遺伝子座における当該異なる配列は「対立遺伝子」という。参照ゲノムの位置が1つの塩基だけ異なる2つの対立遺伝子を有する場合、hetは、1塩基多型(SNP)であり得る。「het」は、1つの又は1つの挿入又は欠失(「indel」と総称される)がある参照ゲノムの位置でもある。用語「ホモ接合体遺伝子座」とは、ある染色体の2つのコピーが同一の対立遺伝子をもつ、基準ゲノム又はベースラインゲノムの遺伝子座であり、染色体の「ハプロタイプ」とは、その染色体がゲノム中に1回又は2回存在するかどうかを意味し、がん細胞や他の腫瘍細胞のゲノムでは、染色体のハプロタイプは、非整数値であってもよく、2回を超える値であってよい。ゲノム中の「領域」には、1又はそれ以上の遺伝子座が含まれていてもよい。
【0099】
「断片」とは、例えばヒト等の標的生物から抽出される生物学的試料に含まれるか、又はそれに由来する(例えば増幅を介して)核酸分子(例えばDNA)をいう。断片は、染色体の腕全体、染色体全体、又はその一部を含み得る。
【0100】
「断片サイズ」とは、断片の長さをいい、いかなる許容される単位、例えば、塩基対又はドルトンなどで表すことができる。代表的な断片は、200bps未満、200~500bps、500~1Kbであってもよく、ここで1Kb=1000bps、1Kb~10Kb、10Kb~50Kb、50Kb~100Kb、及び100Kbより長い、例えば1メガ塩基対であってよい。配列決定は、断片中のヌクレオチドの1又はそれ以上の配列(読取)を同定する情報を決定するために用いられる。断片の部分的及び完全な配列情報を生成しうる。配列情報は、統計的信頼性又は信頼性の程度を変化させて決定しうる。
【0101】
本明細書中で用いられる「変異アレル頻度」(VAF)又は「変異アレル分画」という用語は、遺伝子型タイピング後のDNA試料中の対立遺伝子の総量に対する1つの対立遺伝子の分画をいう。従来、二アレル性多型変異体(PV)については、VAFは、PVタイピングデータにおけるB対立遺伝子の割合であるB対立遺伝子頻度(BAF)をいい、これは、高スループット遺伝子タイピング法、例えば、SNPアレイ又はNGSによりDNA試料から得ることができる。ある態様では、VAFは、B-アレル頻度である。あるいは、A対立遺伝子頻度(AAF)も同様に用いることができた。B対立遺伝子頻度はA対立遺伝子頻度の情報を含み、その逆もまた同様である。
【0102】
一般に、VAF値は、周波数又は分数を参照するため、0~1の値を用いて表される。原則として、VAF値は、例えば、0~100の値を用いて、前記値の多重度を用いて表すことができる。例えば、対立遺伝子の総量の半分が多型変異対立遺伝子を有することを示す0.5のVAF値は、例えば50として表すことができる。この場合、VAF値1(すなわち、すべての対立遺伝子が特定の遺伝子型をもつ)は100として表される。通常、VAFmaxは最大のVAF値(すなわち、すべての対立遺伝子が特定の遺伝子型を有する)を示し、VAFminindidisは最小のVAF値(すなわち、対立遺伝子のいずれも特定の遺伝子型を有しない)を示す。本出願を通して、VAF(特にBAF)値は、0~1の値を用いて示され、従って、VAFminは0であり、VAFmaxは1である。それにもかかわらず、本発明の実施形態は、この特定の範囲を用いて表されるVAF値に限定されない。「フリップ」VAFを含むVAFに関する詳細なガイダンスは、US 2016/0210402に記載される。
【0103】
本明細書では、「読取」とは、1つ又は複数のヌクレオチド塩基を表す1つ又は複数のデータ値のセットを意味する。読取りは、配列決定装置及び/又は核酸断片の全部又は一部の配列決定を行った関連ロジックにより生成しうる。「メイト対」(「メイトされた読取り」又は「ペアされた末端の読取り」とも呼ばれる)とは、同一断片の両端から決定された少なくとも2つの読取(「アーム読取」とも呼ばれる)を意味する。2つのアーム読取は、同じ断片の両端から決定された少なくとも2つの読取(「アーム読取」とも呼ばれる)をまとめてメイト対と呼ぶことができる。2つのアーム読取は、それらの対が配列決定された断片に関して2つのアームの間にギャップが存在する。2つのアーム読取は、個々に「左」アーム読取及び「右」アーム読取と呼ぶことができる。ただし、いずれの「左」(又は右)指定も、アームの位置が、左(又は右)に厳密に限定されるものではないことが理解される。断片は、観察者の方向、DNA鎖の方向性(例えば、5’末端から3’末端、又はその逆)、又は参照ゲノムに選択されるゲノム座標系等のいろいろな参照点に関して報告しうる。読取りは、種々の情報、例えば、ユニークな読取り識別子、断片の識別子、又はメイト対の一部である読取りのためのメイト対識別子と共に格納されうる。
【0104】
本明細書中で用いられる「人為体」とは、自然には存在しないが、準備的又は調査的手順の結果として生じる科学的調査又は実験における観察をいう。配列決定における人為体は、例えば、人為的ピーク(シャドウバンド)及びテンプレート関連人為体(偽停止)を含む。人為的ピークは、それぞれのジデオキシヌクレオチド三リン酸(ddNTP)により終結された正しいサイズの断片に対応しない分離で見られるピークに関連し、これらは、DNA配列決定のための異なる長さのDNA鎖を作製するためにサンガージデオキシ法で用いられる。人為的ピークは、プライマー誘導人為的ピーク及び鋳型誘導人為的ピークに細分しうる。プライマー関連人為体は、用いられるプライマーが鋳型の他の領域への結合に対して親和性を有し、意図された配列とは無関係のDNA断片の形成をもたらすように結合することを意図されていない場合に生じる。対照的に、ddNTPが含まれる前にDNAポリメラーゼが鋳型から脱落した結果、終結人為体が生じる。鋳型DNAの二次構造がこの誤った転写終結に関与すると考えられている。DNAポリメラーゼはまた、鋳型との会合に関して有限の周期性を有し、これは連続反応性と呼ばれ、短い連続反応性の頻度は人為的の数を増加させると考えられている。例えば、Taq DNAポリメラーゼは、約40塩基対の連続反応性を有し、プライマー関連人為的ピークを含まないと考えられる。DNAポリメラーゼがddNTPに遭遇すると伸長中の鎖が伸長することが妨げられ、DNA鎖の伸長がddNTPを含まずに停止すると、サンガー鎖の終結の際に誤った停止が生じることがある。
【0105】
用語「対立遺伝子」とは、特定の遺伝子座に存在する2つ以上の異なるヌクレオチド配列のうちの1つをいう。
【0106】
「対立遺伝子分画」とは、生物学的試料に含まれる核酸断片から配列決定された、ゲノム中の特定の遺伝子座の1つ又は複数の対立遺伝子の割合をいう。例外的に、ヒトのY染色体等の二倍体生物は、通常各染色体の2つのコピーを有する。従って、ゲノム中の遺伝子座は、通常、ホモ接合体(例えば、両方の染色体コピーに同じ対立遺伝子を有する)又はヘテロ接合体(例えば、2つの染色体コピーに異なる対立遺伝子を有する)のいずれかであり得る。したがって、「等しい対立遺伝子分画」とは、1.0(例えば、ホモ接合体の遺伝子座における対立遺伝子の100%対立遺伝子分画)又は0.5(例えば、ヘテロ接合体の遺伝子座における対立遺伝子の50%対立遺伝子分画)のデータ値をいう。
【0107】
「可変対立遺伝子分画」又は「VAF」は、ゼロより大きいが0.5及び1.0より異なるデータ値を意味する。可変対立遺伝子分画値は、所与の遺伝子座についての対立遺伝子が0%、50%及び100%を超える分画で生物学的試料の核酸断片中に示されうる状況を扱うために用いられ得る。当該状況には、不均一性、汚染、及び異数性が含まれるが、これらに限定されない。例えば、腫瘍試料(例えば、がん試料)は、試料内の正常/間質組織汚染又は同一の腫瘍試料内の複数の異なる腫瘍集団のために不均一であり得る。別の例では、腫瘍試料は、染色体(又はその領域)が2とは異なるコピー数を有するように異数体であってもよく、それにより、対立遺伝子分画は、1ヘクタールについての50%から、3コピーが存在する場合には33%又は66%に逸脱する。可変対立遺伝子分画値の例としては、以下の範囲の値、及び/又は範囲の組合わせ、0.005~0.10、0.10~0.20、0.20~0.30、0.30~0.40、0.40~0.49、0.51~0.60、0.60~0.70、0.70~0.80、0.80~0.90、0.90~0.99、及びより一般的には0.005~0.49及び0.51~0.99の値が挙げられるが、これらに限定されない。
【0108】
用語「対照」とは、本明細書中で用いられる場合、末梢血単核球及びリンパ球から単離された対照DNA(当該細胞はがん細胞ではない)などの試験試料についての参照をいい、「参照試料」とは、比較のために用いられるがんを有するかもしれない、又は有さない組織又は細胞の試料をいう。従って、「参照」試料は、別の試料、例えばcfDNAを含む血漿試料を比較しうる基礎を提供する。対照的に、「試験試料」とは、参照試料又は対照試料と比較する試料をいう。参照試料と試験試料が時間で分離された同じ患者から得られた場合のように、参照試料はがんに罹患していない必要はない。
【0109】
ある態様では、参照試料又は対照は、参照アセンブリを含んでもよい。用語「参照アセンブリ」とは、HG38アセンブリ配列を含むヒトゲノム(HG38)データベース(アセンブリ済:2013年12月)などのデジタル核酸配列データベースをいう。GENOME(dot)UCSC(dot)EDUで、Human (Homo sapiens)University of California Santa Cruz(UCSC)Genome Browser Gateway at the world-wide-web URL GENOME(dot)UCSC(dot)EDUを介してゲートウェイにアクセスしうる。あるいは、参照アセンブリは、米国国立バイオテクノロジー情報センター(NCBI)のウェブサイトを介してインターネット上でアクセス可能な、ゲノム参照コンソーシアムのヒトゲノムアセンブリ(Build#38;アセンブリ:2017年6月)を参照してよい。
【0110】
本明細書では、動詞としての用語「配列決定」又は「配列決定」は、DNAのヌクレオチド配列、又はヌクレオチドの順序が、ヌクレオチドの順序AGTCCなどのように決定されるプロセスをいう。名詞としての用語「配列」は、配列決定から得られる実際のヌクレオチド配列をいう。例えば、AGTCCという配列を有するDNAをいう。「配列決定」は、デジタル形式で、例えば、ディスクで、又はサーバを介して遠隔的に提供及び/又は受け取られるが、「配列決定」は、本開示の方法及び/又はシステムを用いて増殖、操作及び/又は分析されるDNAのコレクションをいう。
【0111】
本明細書では、「実質的に」とは、意図された目的のために機能するのに十分なことを意味する。従って、「実質的に」という用語は、絶対的又は完全な状態、寸法、測定値、結果等から、当該分野の当業者が期待するような、しかし全体的な性能には影響を及ぼさないような、小さな、わずかな変化を許容する。数値又は数値として表すことができるパラメータ又は特徴に関して用いられる場合、「実質的に」とは、10%以内を意味する。
【0112】
本明細書中で用いられる用語「実質的に精製された」は、それらの天然環境から除去され、単離又は分離又は抽出され、少なくとも60%の遊離、好ましくは75%の遊離、より好ましくは90%の遊離、及び最も好ましくは99%の他の成分と天然に結合する遊離のcfDNA分子をいう。
【0113】
用語「全ゲノム配列決定」は、試料中の各DNA鎖のDNA配列を決定する実験室プロセスをいい、得られた配列は、「配列決定生データ」又は「読取」と称し得る。本明細書中で用いられるように、読取りは、参照染色体DNA配列の領域と配列が類似する場合に読取り「マッピング可能」である。用語「マッピング可能」は、参照配列と類似性を示し、従って「マッピングされた」領域をいい、例えば、データベース中の参照配列と類似性を示すcfDNAのセグメントをいい、例えば、ヒトゲノム(HG38)データベース中のヒト染色体領域8q248q24.3と高いパーセンテージを有するcfDNAは「マッピング可能読取」である。
【0114】
「WGS」に加えて、ゲノム一覧は、標的配列決定を用いて得ることができる。WGSとは対照的に、「標的配列決定」という用語は、本明細書中で用いられる場合、試料中の1つ又は複数の選択されたDNA遺伝子座のDNA配列を決定する、例えば、がん関連遺伝子又はマーカーの選択されたグループ(例えば、標的)の配列を決定する実験プロセスをいう。この文脈では、本明細書中の用語「標的配列」とは、選択された標的ポリヌクレオチド、例えば、その存在、量、及び/又はヌクレオチド配列、又はその変化が決定されることが望まれる、cfDNA分子中に存在する配列をいう。標的配列を体細胞変異の有無について調べる。標的ポリヌクレオチドは、疾患、例えばがんに関連する遺伝子の領域であり得る。ある実施形態では、領域はエクソンである。
【0115】
本明細書では、cfDNAに関する用語「低存在量」とは、約20ng/mL未満、例えば、約15ng/mL、約10ng/mL、又はそれ未満、例えば、約9ng/mL、8ng/mL、7ng/mL、6ng/mL、5ng/mL、4ng/mL、3ng/mL、2ng/mL、1ng/mL、0.7ng/mL、0.5ng/mL、0.3ng/mL、又はそれ未満、例えば、0.1ng/mL又は0.05ng/mLを意味する。ある実施形態では、「低存在量」という用語は、マーカーの独特性、例えば、長さ又は塩基組成の文脈では理解されうる。例えば、被験体の試料は、豊富な量のcfDNA(例えば、>20ng/mL)を含み得るが、cfDNAに含まれる独特の遺伝子マーカー(例えば、sSNV)の実際の数は、非常に少なくてもよい。通常、本パラメータは、以下に記載されるように、ゲノム等価性(GE)又はカバレッジとして表される。ある実施形態では、「低存在量」という用語は、マーカーの腫瘍特異性の文脈では理解されうる。例えば、被験体の試料は、豊富な量のcfDNA (例えば、>20ng/mL)を含み得るが、cfDNAに含まれる遺伝子マーカー(例えば、sSNV)の大部分は、冗長であってもよく、かつ/又は参照(例えば、PBMC gDNA)とも関連してもよい。通常、本パラメータは、以下に記載されるように、腫瘍画分として表される。
【0116】
本明細書では、cfDNAに関する用語「腫瘍特異的」又は「腫瘍関連」とは、cfDNAが、本明細書中に記載されるように、腫瘍ではない細胞由来の対照DNA(gDNA)と比較される場合など、参照DNAと比較される場合、肺がん患者等のがんを形成した被験体におけるcfDNAのDNA配列の差をいう。
【0117】
用語「ゲノム等価」又は「GE」は、本明細書中で用いられる場合、固有のDNA断片の数をいう。ある実施形態では、試料は、5~約10000GE、好ましくは100~約5000GE、特に約200~約2000GE、例えば、約25、50、100、200、300、400、500、600、700、800、900、1000、1200、1400、1600、2000又は5000GEを含む。当技術分野で理解されるように、約6ngのcfDNAを含む典型的な試料は、約1000以下のGEを含有する。好ましくは、GEは1を超える(例えば、2、5、10、15、20、25、50、100、200、500、又は1000を超える)。10~20mlの血液が約10,000GEを含有すると考えられる。従って、ある態様では、適切な試料は、約20ml、15ml、10ml、5ml、4ml、3ml、2ml、1ml、0.5ml、0.1ml、0.01ml、又は0.001mlの血漿を含み得る。
【0118】
用語「カバレッジ」又は「読取り深度」は、配列決定努力に関連する。例えば、20Xをカバーすることは、中程度の配列決定努力を意味し、35X以上をカバーすることは、高い配列決定努力を意味し、5Xをカバーすることは、低い配列決定努力を意味する。本開示の実施形態では、カバー範囲は、通常、約5X~約100X、特に、15X~約40X、例えば、20X、30X、35X、40X、50X、70X又はそれ以上である。
【0119】
本明細書中で用いられる場合、用語「変異負荷」又は「N」は、所定のゲノムウインドウにおける予め選択された単位(例えば、メガ塩基対当たり)当たりの変化(例えば、1又はそれ以上の遺伝子変化、特に1又はそれ以上の体細胞変化)のレベル、例えば数をいう。変異負荷は、例えば、全ゲノム又はエキソームベースで、又はゲノム又はエキソームのサブセットに基づき測定しうる。特定の実施形態では、ゲノム又はエキソームのサブセットに基づき測定された変異負荷量を外挿して、全ゲノム又はエキソーム変異負荷量を決定しうる。特定の実施形態では、変異負荷は、被験体、例えば、本明細書に記載される被験体由来の試料、例えば、腫瘍試料(例えば、肺腫瘍試料、又は獲得もしくは誘導された試料)では測定される。好ましくは、変異負荷量は、cfDNAのメガ塩基対(1,000,000bp又はMBP)当たりの変異数の尺度である。当技術分野で知られているように、変異負荷は、腫瘍のタイプ、遺伝的系統、及び年齢、性別、タバコ消費などの他の被験体特異的特徴に依存して変化し得る。腫瘍診断に関して、変異負荷は、MBP当たり約1000~約10000個、例えば約1000、2000、4000、6000、8000、10000、12000、15000、20000、25000、30000、40000、50000、60000、70000、80000、90000、10000個、又はそれ以上、例えばMBP当たり約200000個の変異であり得る。通常、変異負荷量は、非喫煙者では約8,000/MBPであり、黒色腫を有する被験体では40,000/MBPを超える。
【0120】
本明細書中で用いられる用語「ゲノムウインドウ」は、選択されたヌクレオチド配列境界内のDNAの領域をいう。Windowsは、互いに分離され、互いに重なり合う。
【0121】
本明細書中で用いられる、用語「腫瘍画分」又は「TF」は、正常DNA分子に対する腫瘍DNA分子のレベル、例えば量に関する。ある実施形態では、「腫瘍画分」は、無細胞DNAの総量に対する循環無細胞腫瘍DNA(cfDNA)の割合をいう。腫瘍分画は、腫瘍の大きさを示すと考えられている。通常、腫瘍画分(TF)は、約0.001%~約1%、例えば、約0.001%、0.05%、0.1%、0.2%、03%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%又はそれ以上、例えば、2%である。
【0122】
用語「存在量」は、特定の分子種の存在を示す二値(例えば、存在しない/存在する)、定性的(例えば、存在しない/低/中/高)、又は定量的情報(例えば、数、頻度、又は濃度に比例する値)をいうことができる。本文脈では、より高い相対濃度で存在する変異は、より多くの悪性細胞、例えば、体内の他の悪性細胞と比較して腫瘍形成過程の初期に形質転換した細胞と関連する(Welch et al.,Cell,150:264-278,2012)。当該変異は、相対的存在度が高いため、相対的存在度が低い変異よりもがんDNAを検出する診断感度が高いと予想される。
【0123】
本明細書中で用いられる「配列決定エラー確率」は、配列決定されたヌクレオチドの不正確な割合に関する。例えば、全ゲノム配列決定の文脈では、約1/1000塩基の配列決定エラー確率が文献で報告される(範囲:エラー確率は、塩基呼出当たり0.1~1%のオーダーである;Wu et al.,Bioinformatics,33(15):2322-2329,2017を参照のこと。
【0124】
本明細書中で用いられる用語「配列決定深度」は、配列決定された領域が配列読取によりカバーされる回数に関する。例えば、配列決定の平均深度が10倍であるということは、配列決定された領域内の各ヌクレオチドが平均して10個の配列読取によりカバーされることを意味する。配列決定の深度が増すと、がん関連変異が検出される可能性が高くなると予想される。しかしながら、実際には、深度中央値42,000Xでさえ、cfDNA存在量の基本的な限界が早期肺腺がんの陽性検出をわずか19%にしかもたらさなかったという事実により証明されるように、検出のオッズは配列決定の深度に比例して直線的に増加しない(Abbosh et al.,Nature,545(7655):446-451,2017)。
【0125】
本明細書中で用いられる用語「塩基品質」スコアは、配列決定読取では与えられた塩基がシーケンサーにより誤って呼ばれる確率である。読取りにおける各塩基は、Phred様アルゴリズム(Ewing et al.,Genome Res.8(3):175-185,1998;Ewing et al.,Genome Res.8(3):186-194,1998に記載される代表的な方法)により品質スコアを割り当てられる。サンガー配列決定実験のために最初に開発されたものと同様であった。ある実施形態では、塩基品質(BQ)は、可変塩基品質(VBQ)又は平均読取塩基品質(MRBQ)を含み、これらは両方とも、塩基品質メトリックの変形である。
【0126】
本明細書中で用いられる用語「PCR誤差」は、配列決定ではポリメラーゼ連鎖反応(PCR)増幅工程を介して導入される誤差を示す。典型的なPCRエラー確率は、105塩基対で約1エラーである(Barnes et al.,PNAS USA,91:2216,1994)。
【0127】
本明細書中で用いられる場合、用語「マッピング品質」スコアは、特定の配列読取が、参照配列に関して正確に配置されるという信頼性を示す。マッピング品質スコアを決定する方法は、Li et al.Genome Research,18:1851-1858,2008により提供される。マッピング品質スコアは、読取られた配列を基準配列にマッピングした後に、マッピングアルゴリズムにより提供されうる。
【0128】
用語「読取位置」又は「読取位置(PIR)」は、ヌクレオチド配列中の読取位置(例えば、マーカー)に関する。ゲノム学では理解されるように、多くの配列決定プロトコルは、様々なタイプの増幅誘発バイアス及び誤差を生じやすく、これは「読取方向」及び「読取位置」フィルタ等のフィルタの実施により減少し得る。読取方向フィルタは、ほぼ前方又は後方読みのいずれかに専ら存在する変異体を除去する。多くの配列決定プロトコルでは、当該変異体は、増幅誘発誤差の結果である可能性が最も高い。読取位置フィルタは、「読取方向フィルタ」と同様の方法で実施され、系統誤差を除去するが、ハイブリダイゼーションに基づくデータにも適する。これは、変異部位をカバーする読みの一般的な位置から予想されるものとは異なる読みの中に位置する変異体を除去する。これは、それぞれの配列決定されたヌクレオチド(又はギャップ)を、読みのマッピング方向及び読みのどこでヌクレオチドが見つかるかにより分類して行われる;各読みは、その長さに沿って部分(例えば、5部分)に分割され、ヌクレオチドの部分番号が記録される。これにより、配列決定された各ヌクレオチドについて合計10のカテゴリーが得られ、所定の部位は、その部位をカバーする読取のために、これら10のカテゴリーの間に分布することになる。もし変異体が本部位に存在するならば、変異体のヌクレオチドは同じ分布に従うと予想される。読取位置フィルタは、読取位置の有意性を測定するテストを実行し、例えば、変異の読取位置分布が、サイトをカバーする読取の全セットのそれと異なるかどうかを測定する。
【0129】
本明細書中で用いられる用語「ビン」は、「ゲノムビン」等の、まとめて群化されたDNA配列の群をいう。特定の場合、ビンは、ゲノムウインドウを用いてDNA配列を群化することを含む「ゲノムビンウインドウ」に基づきビンニングされたDNA配列の群を含んでよい。
【0130】
単なる例示として、以下の詳細な説明を一覧すると、本明細書では、様々な実施形態は、本開示の診断エンジン(エンジン)の実行に関与するアルゴリズム及びソフトウェアに関する。エンジンは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基ごとの品質スコアの統合を同時に捕捉する読取表示を利用する。対照的に、当該技術分野で公知の配列分析ソフトウェアで用いられる表示は、読取りの山を単一の特徴とみなし、配列アラインメント自体及び読取りに関連する塩基ごとの品質に関する貴重な情報を失う(Poplin et al.,bioRxiv,pp.092890,2016;Torracinta&Campagne,bioRxiv,pp.097469,2016)。
【0131】
〔方法〕
本開示のシステム及び方法は、種々のヒト疾患の診断、予後及びモニタリングで有用である。例えば、多数のがんが、本明細書に記載される方法及びシステムを用いて検出されうる。ほとんどの細胞ががん細胞であることは、古い細胞が死んで新細胞に置き換わる代謝回転の速度により特徴づけられる。一般に、死細胞は、所定の被験体の脈管構造と接触して、DNA又はDNAの断片を血流中に放出しうる。このことは、がん細胞が様々な病期にあっても当てはまる。がん細胞はまた、疾患の病期に応じて、コピー数の変動及び変異等の種々の遺伝的異常により特徴づけられ得る。本現象は、本明細書に記載される方法及びシステムを用いて、がん個体の存在又は非存在の検出に用いられ得る。
【0132】
本開示によれば、がんのリスクがある被験体から血液を採取し、本明細書に記載されるように調製して、無細胞ポリヌクレオチドの集団を作製しうる。一例では、集団は、無細胞DNAを含み得る。本開示のシステム及び方法は、ある種のがんに存在するマーカー(例えば、SNV、CNV、indels、及び/又はSV)の検出に用いられ得る。当該方法は、症状や疾患の他の特徴がないにもかかわらず、体内のがん細胞の存在を検出するのに有用であり得る。本開示の方法は、いかなるタイプのがん又は腫瘍の診断又は予後判定に適用されうる。従って、検出されうるがんのタイプは、血液がん、脳がん、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形腫瘍を含むが、これらに限定されない。不均一腫瘍及び均一腫瘍ともに、開示に従って診断又は予後判定されうる。
【0133】
本システム及び方法は、がんを誘発しうる、又はがんに起因し得るいかなる数の遺伝的異常の検出に用いられ得る。これには、変異、変異、indels、コピー数変化、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体構造的変異、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、核酸化学修飾の異常変化、エピジェネティックパターンの異常変化、核酸メチル化感染及びがんが含まれるが、これらに限定されない。さらに、本明細書に記載のシステム及び方法はまた、特定のがんの特徴付けの補助に用いられ得る。本開示のシステム及び方法から得られた遺伝子データにより、実務家は、がんの特定の形態のより良い特徴付けが可能となり得る。しばしば、がんは組成及び病期分類の両方では不均一である。遺伝子プロファイルデータは、その特定のサブタイプの診断又は治療では重要であり得るがんの特定のサブタイプの特徴付けを可能にし得る。本情報はまた、特定のタイプのがんの予後に関する被験体又は実務家の手がかりを提供することもある。本明細書に提供されるシステム及び方法は、特定の被験体では既知のがん又は他の疾患をモニターするために用いられ得る。これにより、被験体又は開業医のいずれかが、疾患の進行に応じて治療選択肢を適応させることができる。本実施例では、本明細書に記載のシステム及び方法を用いて、疾患の経過の特定の被験体の遺伝的プロフィールを構築しうる。場合によっては、がんが進行し、より侵攻性で遺伝的に不安定になることもある。他の例では、がんは、良性、不活性、又は休眠のままであり得る。本開示のシステム及び方法は、疾患の進行を決定するのに有用であり得る。
【0134】
さらに、本明細書に記載のシステム及び方法は、特定の治療オプションの有効性の決定に有用であり得る。1つの例では、治療が成功すれば、より多くのがんが死滅し、DNAを放出するため、治療選択肢が成功すれば、患者の血液中に検出されるコピー数の変異又は変異の量が実際に増加する可能性がある。他の例では、これは起こらない。別の例では、おそらく特定の治療選択肢は、経時的ながんの遺伝子プロファイルと相関し得る。本相関関係は、治療法を選択する際に有用である。さらに、がんが治療後に寛解状態が観察される場合、本明細書に記載のシステム及び方法は、残存疾患又は疾患の再発をモニタリングするのに有用であり得る。
【0135】
本明細書に記載される方法及びシステムは、がんのみに関連する変異及びコピー数変異の検出に限定されない。好ましくは、本開示の方法及びシステムは、がんの早期診断又は早期検出では有用である。
【0136】
さらに、本開示の方法は、被験体における異常状態の不均一性の特徴付けに用いられ得、当該方法は、被験体における細胞外ポリヌクレオチドの遺伝子プロファイルを生成することを含み、該遺伝子プロファイルは、コピー数変異及び変異分析から得られる複数のデータを含む。がんを含むが、これに限定されない場合もあるが、疾患は不均一であり得る。疾患細胞は同一ではない可能性がある。がんの例では、ある腫瘍は異なるタイプの腫瘍細胞を含み、ある細胞はがんの異なるステージにあることが知られている。他の例では、不均一性は、疾患の複数の病巣を含み得る。ここでも、がんの例では、複数の腫瘍病巣が存在する可能性があるが、それはおそらく1又はそれ以上の病巣が原発部位からの転移の結果である。
【0137】
本開示の方法は、異種疾患における異なる細胞に由来する遺伝情報の総和であるデータの生成又はプロファイル化に用いられ得る。本データセットは、コピー数変異及び変異分析を単独で又は組合わせて含みうる。さらに、本開示のシステム及び方法は、胎児由来のがん又は他の疾患の診断、予後、モニター又は観察に用いられ得る。すなわち、当該方法は、母体分子と共循環し得るDNA及び他のポリヌクレオチドを有する胎児被験体で、がん又は他の疾患を診断、予後、モニター又は観察するために、妊娠被験体で用いられ得る。
【0138】
上記診断方法は、他の一般的な診断手順、例えば、健康診断、身体診察、臨床検査(血液、尿など)、生検画像検査(例えば、X線、PET/CT、MRI、超音波など)、核医学スキャン(例えば、骨スキャン)、内視鏡、家族歴などと組合わせて用いられ得る。
【0139】
好ましくは、本開示の診断方法は、一般的な診断手順(例えば、CTスキャン)の予測予後値(PPV)を少なくとも20%、少なくとも30%、少なくとも40%、又はそれ以上(例えば、少なくとも50%)改善する。
【0140】
診断方法の代表的な、限定するものではない概略図が、図面の図1図2及び図7に示される。
〔作業手順〕
図1Aは、本開示の様々な実施形態による、腫瘍疾患、例えば、早期腫瘍疾患を診断する方法100を示すフローチャートである。方法100は、例示的に過ぎず、実施形態は、方法100の変形を用いることができる。方法100は、マーカーの集合体を受信する工程と、多数の特徴に基づきマーカーに関連するノイズをフィルタリングする工程と、インシリコデータセット及び/又は患者データセットで訓練された畳込ニューラルネットワークを適用して、ノイズを適応的かつ体系的にフィルタリングする工程と、被験体特異的マーカーの生成に集合体から人為的ノイズマーカーを除去する工程であって、信頼区間の生成のためにデータセットに統計的に整合される工程と、信頼区間に基づき疾患を診断する工程とを含みうる。
【0141】
図1Aの方法100の工程110では、遺伝子マーカーの一覧を被験体から受け取る。ある実施形態では、遺伝子マーカーの一覧は、変異コールフォーマット(VCF)ファイルで受け取られる。当技術分野で理解されるように、VCFファイルは、遺伝子配列変異を保存するバイオインフォマティクスで用いられる。VCFフォーマットは、1000ゲノムプロジェクト等の大規模な遺伝子型タイピング及びDNA配列決定プロジェクトの出現により開発された。あるいは、一覧は、遺伝子データの全てを含む一般的な特徴フォーマット(GFF)で提供されうる。一般に、GFFはゲノムワイドで共有されるので、重複した特徴を提供する。対照的に、VCFでは、参照ゲノムとともに変異だけを保存すればよい。ある実施形態では、被験体の試料は、例えば、全ゲノム配列決定(WGS)を用いて配列決定され、配列ファイルは、例えば、ゲノムVCF(gVCF)等のツールを用いて処理される。
【0142】
図1Aの方法100の工程120では、人為的読取は、(1)塩基品質(BQ)、(2)マッピング品質(MQ)、(3)推定断片サイズ及び/又は(4)推定対立遺伝子分画(VAF)の関数としてのノイズの検出確率に基づき、各読取をシグナル又はノイズとして統計的に分類してフィルタリングされる。(5)読取内位置(RP);(6)配列コンテキスト(SC);(7)存在量;(8)配列決定の深度及び/又は(9)配列決定の誤差等の他のパラメータも用いることができる。ノイズ除去工程120は、結合塩基品質スコア及びマッピング品質スコアに基づき、一覧における遺伝子マーカーの確率的分類を含む最適受信者動作特性曲線を実装することを含みうる。通常、結合BQMQスコアはマトリックス(x,y)として提供され、xはBQスコアであり、yはMQスコアである。例示的な実施形態では、例えば、(10、40)、(15、30)、(20、20)、(20、30)、(30、40)のBQMQスコアのように、(各パラメータについて)10~50の結合BQMQスコアが典型的に用いられる。ある態様では、マーカーの分類は、ROC曲線下の面積(AUC)の測定を含み、これは、通常、潜在的マーカーの中から無作為に選択された候補マーカーが、無作為に抽出された対照マーカーより高い値を示す確率を表す。完全に情報のないマーカーについては、ROC曲線は対角線の上昇(「偶然の対角」又は「偶然の線」という)に近づき、AUCは0.5(すなわち、偶然のみによる分類の期待確率)になる。逆に、完全な分類の場合には、ROC曲線は理論精度(感度と特異度の両方100%)の最高点に達し、AUCは1つ、すなわち最も高い確率値になる傾向がある。代表的なROCを図3Bに示す。前ろ過誤差モデルを図3Aに、後ろ過誤差モデルを図3Cに示す。
【0143】
必要に応じて、遺伝子マーカーの重量を測定する。マーカーがSNV又はCNVであるある態様では、重み付け工程は、真のマーカー(例えば、障害と関連する可能性が高い変異)と共通の変異(例えば、障害と関連していない無作為な体細胞SNP)とを区別するように実施される。ある実施形態では、重量測定工程は、確率スコア(PD)に基づきマーカーを重量測定する。好ましくは、重み付け工程120は、ベルヌーイ式PD=1-〔(1-TF)〕GEに基づき検出の確率(PD)を測定することを含み、ここで、PDは検出の確率、TFは腫瘍画分、GEは患者DNAに存在するゲノム等価物の数である。重み付け工程の実施は、各SNV(ベルヌーイ試行確率に対する二項分布)に対するベルヌーイ試行を繰り返す結果として生じる、広がりを通して検出部位(SNV)の数が増えると配列決定の深度が克服されるため、有利である。ある実施形態では、重量測定工程は、例えば、重量又は重量範囲の増加に基づきマーカーをビンニングすることをさらに含んでもよい。例えば、遺伝子マーカーは、PDに基づきビンニングされ得、ここで、PDが高いマーカーは、PDが低いマーカーとは別にビンニングされうる。例えば、遺伝子マーカーは、少なくとも約0.60のPD閾値、例えば、少なくとも約0.65、0.70、0.75、0.80、0.90、0.95又はそれ以上、例えば、少なくとも約0.98に基づきビンディングしうる。従って、マーカーのPDが閾値未満であれば、それは偽陽性として分類され、分析には含まれない。
【0144】
図1Aの方法100の工程130では、がん関連変異特徴とPCR又は配列決定エラー関連特徴とを区別するために、機械学習(ML)アプローチを利用して、パンフレット中の各読取における配列決定ノイズがフィルタリングされる。ある実施形態では、本開示の診断方法は、ノイズを体系的に除去又は低減するためにニューラルネットワークを利用しうる。ニューラルネットワークは、上記工程120に従って、人為的マーカーが除去された後にニューラルネットワークを実装することが有利であるが、本方法のいかなる工程に適用しうる。この点に関し、図1Aの純粋に例示的な方法100では、フィルタリングされたデータセットに存在する配列決定ノイズを適応的に及び/又は体系的にフィルタリングするために、深層畳込ニューラルネットワークが工程130で任意に適用される。好ましくは、CNNは、真の腫瘍変異と人為的のエラーとを識別する特徴を同定するために汎腫瘍コホート上で深層学習アルゴリズムを採用することと、腫瘍患者からの試料中で検出された各個々の変異に信頼性推定値を割り当てることと、全ゲノムにわたって信頼性推定値を統合することと、試料中の特定のコスミック変異の特徴の厳密な分析、例えば、各マーカーについて非負の最小二乗法を用いることとを含む。
【0145】
ある態様では、CNNは、インシリコデータセットで訓練される。例えば、インシリコデータセットは、実際のがん患者、例えば、乳がん又は肺がん患者のコホートから得られた合成血漿試料を含み得る。CNNの精度、感度及び/又は精度は、以下に記載される方法に従って評価されうる。例えば、感度は、比[TP/(TP+FN)]として決定され得、ここで、TPは真陽性であり、FNは偽陰性である;精度は、比[TP/(TP+FP)]として決定され得、特異性は、比[TN/(TN+FN)]として決定され得、ここで、TNは真陰性であり、FNは偽陰性である。代表的なバリデーション法の下で、CNNの精度は平均F1スコアに基づき評価しうる。例えば、F1スコアは、2×[(精度×回収)/(精度+回収)]として計算されうる。ある実施形態では、CNNは、腫瘍対照では少なくとも約0.5、約0.6、約0.7、約0.8、又は約0.9以上、例えば0.95のF1スコアを達成しうる。
【0146】
ある実施形態では、CNNは、異なる腫瘍画分(0.00001、0.00005、0.0001、0.0005、0.005、0.01)及びカバレッジ(5、10、15、20、35)では様々な割合で混合される腫瘍及び正常WGS読取を含むインシリコ患者特異的データセットで訓練されうる。反復及び/又は無作為シードをさらに用いて、訓練・データセットの可変性を高めることができる。
CNNの構造については後述する。
【0147】
図1Aの方法100の工程140では、一覧内の複数の真の読みを含む被験体特異的な署名が、人為的ノイズ(工程120参照)及び/又は配列決定ノイズ(工程130参照)を除去して編集される。いずれの特定の理論にも拘束されないが、ある態様では、除去工程は、疾患と強く関連することが最初に同定されたマーカーの一覧から、低い塩基品質及び/又はマッピング品質を有する「ノイズ」マーカーをフィルタリングする。ある実施形態では、除去工程は、工程120に基づき検出の閾値確率(PN)に合致する各マーカーを採取し、ROC曲線に基づき前記マーカーをシグナル又はノイズとして分類し、ノイズとして分類される場合には、マーカーを一覧から除去することを含みうる。あるいは、例えば、検出確率(PD)対雑音確率(PN)の比を含むスコアリングシステムを用いて、事前設定したしきい値スコアを満たさないマーカーを除去しうる。
【0148】
図1Aの方法100の工程150では、被験体特異的パターンとがんパターンとの間のマッチが行われ、被験体の生物学的試料が循環腫瘍DNAを含むという信頼性推定値が定量される。これは、例えば、確率密度関数(PDF)推定及び/又はzスコア推定値を用いて達成することができ、両者については、以下で詳細に説明する。
【0149】
信頼区間の推定では、重み付け工程を任意に用いることができる。例えば、ノイズ除去工程120及びノイズフィルタリング工程130に基づき真の陽性として分類された全てのマーカーは、同一に計量しうる。例えば、汎腫瘍ネットワークではマーカーに割り当てられたスコアに基づき修正された計量システムを用いることができる。診断は、さらに、閾値スコア、例えば、同一のノイズ除去工程120を実施することに基づき得られたスコア、及び試験マーカー、例えば、腫瘍と関連することが知られているマーカーにおけるノイズフィルタリング工程130の使用を含み得る。例えば、当該試験マーカーは、対照(非腫瘍)被験体には存在しない、がん患者試料中の独特のSNV及び/又はCNVを含み得る。
【0150】
さらに、図1Bに例示された例示的なワークフロー100により提供されるように、種々の実施形態により、被験体のがんの遺伝子スクリーニングの方法が提供される。工程110に提供されるように、本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取ることを含みうる。生物学的試料は、腫瘍試料を含み得る。読みの一覧は、各々、単一の塩基対長の読みを含みうる。
【0151】
図1Bの方法100の工程120で提供されるように、当該方法は、読取一覧から実際のサイトをフィルタリングすることを含みうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。あるいは、又は組合わせて、フィルタリングは、生物学的試料における生殖細胞系変異を同定すること、及び/又は正常細胞試料の腫瘍試料と末梢血単核細胞との間の共有された変異を生殖細胞系変異として同定すること、及び前記生殖細胞系変異を読みの一覧から除去することを含みうる。
【0152】
図1Bの方法100の工程130で提供されるように、当該方法は、少なくとも1つの誤差抑制プロトコルを用いて、読取のゲノムワイドの一覧からのノイズをフィルタリングして、前記読取のゲノムワイドの一覧用にフィルタリングされた読取セットを生成することを含みうる。少なくとも1つのエラー抑制プロトコルは、一覧内のいかなる単一ヌクレオチド変異が人為的変異である確率を計算し、かつ、前記変異を除去することを含みうる。確率は、マッピング品質(MQ)、変異体塩基品質(MBQ)、読み込み位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせを含む群から選択された特徴の関数として計算しうる。あるいは、又は組合わせて、少なくとも1つのエラーサプレッションプロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同じDNA断片の独立した複製間の不一致試験、及び/又は所与の重複ファミリーの大部分にわたる不一致の場合に人為的変異が同定及び除去される重複コンセンサスを用いて、人為的変異を除去することを含みうる。
【0153】
図1Bの方法100の工程140に提供されるように、当該方法は、所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、フィルタリングされた読取セットを用いて被験体特異的パターンを編集することを含みうる。
【0154】
図1Bの方法100の工程150に提供されるように、当該方法は、被験体の生物学的試料が、被験体に特異的な特徴を介して、がんに関連した変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がんに関連した変異パターンを含むという信頼性推定値を統計的に定量することを含みうる。
【0155】
図1Bの方法100の工程160に提供されるように、当該方法は、被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値が所与の閾値を超える場合に、被験体のがんをスクリーニングすることを含みうる。
【0156】
さらに、図1Cに示す例示的なワークフロー100により提供されるように、方法は、被験体のがんの遺伝子スクリーニングを提供する。工程110に提供されるように、本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取ることを含みうる。生物学的試料は、腫瘍試料を含み得る。読取一覧は、各々、コピー数変異(CNV)を含みうる。
【0157】
図1Cの方法100の工程120で提供されるように、当該方法は、読取一覧を複数のウインドウに分割することを含みうる。
【0158】
図1Cの方法100の工程130に提供されるように、当該方法は、ウインドウ当たりの特徴のセットを計算することを含みうる。特徴は、ウインドウ当たりの中央の深度カバレッジとウインドウ当たりの代表的な断片サイズを含みうる。
【0159】
図1Cの方法100の工程140で提供されるように、当該方法は、読取一覧から実際のサイトをフィルタリングすることを含みうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。
【0160】
図1Cの方法100の工程150に提供されるように、当該方法は、ゲノムワイドの読みの一覧用のフィルタリングされた読みの集合を生成するために、読みの一覧を正規化することを含みうる。
【0161】
図1Cの方法100の工程160に提供されるように、当該方法は、ウインドウ当たりの特徴のセットの間の直線関係を計算して、及び回帰モデルを用いて計算された関係を推定腫瘍分画に変換して、フィルタリングされた読取セットを用いて推定腫瘍分画を計算することを含みうる。あるいは、又は組合わせて、本方法は、被験体特異的ゲノムワイドにわたる読みの一覧にわたるウインドウ当たりの特徴の計算されたセットの関数として、1又はそれ以上の統合的数学モデルに基づき推定腫瘍画分を計算することを含みうる。
【0162】
図1Cの方法100の工程170で提供されるように、当該方法は、推定された腫瘍画分が経験的閾値を超える場合に、がんについて被験体をスクリーニングすることを含みうる。
【0163】
〔マーカータイプに基づくスクリーニング方法を実施するための例示的なワークフロー〕
図1D及び図1Eは、本開示の方法を実施するための概略的なワークフローを示す。図1Dは、関心対象のマーカーがSNV/indelsを含む場合に典型的に用いられるワークフローを概略し、図1Eは、関心対象のマーカーがCNV/CVを含む場合に典型的に用いられるワークフローを概略する。なお、説明のために別個のワークフローが提供されるが、本開示の方法の実施に別個に実施する必要はない。例えば、ワークフローの特定の特徴/要素を組合わせて利用して、関心のある転帰(例えば、被験体ががんを発症しているかどうか)に関連する出力(例えば、SNV/indel及びCNV/SVに基づく組合わせ推定腫瘍分画)を生成しうる。
【0164】
〔SNV系がんスクリーニング〕
本開示は、被験体の生物学的試料中のSNV/indelマーカーの検出に基づくがんスクリーニングのシステム、方法及びアルゴリズムを提供する。図1Bに示されるように、SNV/indelマーカーに基づくがん診断は、通常、検出の感度、特異性及び/又は信頼性の改善に、遺伝子データを受け取る工程;変異(例えば、単一のミスマッチ)を検出する工程;人為的の実際の部位を除去/フィルタリングする工程;機械学習を含むアルゴリズムを用いるエラーを抑制する工程;読取を修正する工程;1又はそれ以上の数学モデルに基づきがんを検出する工程;及び任意で、ゲノムデータ中の二次的特徴の分析を直交的に統合する工程を利用する。
【0165】
図1Dの第1工程では、生物学的試料(通常、血漿試料)からの遺伝子データが受信される。次に、PILEUP(又は他の単一サポート読出呼出装置)を用いて、血漿試料に対して感受性変異呼出を行う。生殖細胞系SNPは、血漿試料上のGATK生殖細胞系呼出装置を用いて、又は適合する末梢血単核細胞(PBMC)を呼び出す変異を用いて検出される。PBMCの代わりに口腔内スワブを用いてもよい。連続的又は並列的に、正常な血漿試料(ブラックリスト又はマスクの正常パネル(PON))のコホートにわたって反復性の人為的部位を作製し、これらを検出された変異から除去して、一般的な配列決定又はアラインメントの人為的を除去する。
【0166】
次に、単一の変異断片を検出しうる高感度の方法を用いる。本工程は、1又はそれ以上のエラー抑制工程を含む。第1誤差抑制工程では、フィルタリングスキームを用いて、単一の読取塩基で分析し、読取が人為的変異を表す確率を定量する。ある実施形態では、線形カーネルを有するサポートベクタマシン(SVM)分類を用いる多次元分類フレームワークが、本工程で実装されてよい。分類フレームワークは、正常PBMC試料における低変異型対立遺伝子分画(VAF)配列決定人為的と比較した生殖細胞系SNPについて訓練される。ここでは、分類決定境界を多次元空間上に定義し、その中には、変異塩基品質(VBQ)、マッピング品質(MQ)、読み込み位置(PIR)、及び/又は平均読取塩基品質(MRBQ)が含まれる。分類スキームを評価するために、SVM分類スキームの検証メトリックスを、同じプロトコルの下でランダムフォレストと10倍の交差検証後に比較した。SVM分類は高い分類性能を示し、ランダムフォレストモデルをやや上回った。SVMは全患者で平均90.7%の感度と83.9%の特異度を達成した(N=10試料、F1=87.7%,PPV=84.9%)。
【0167】
第2のエラー抑制工程では、PCR又は配列決定により生じた人為的変異を、同じ元のDNA断片の独立した複製の比較を用いて修正した。cfDNA試料では、通常対になった末端の150bpの配列決定が行われ、典型的なcfDNA断片の短いサイズ(約165bp)を考慮すると、重複した対になった読取(重複したR1及びR2配列)が得られた。したがって、R1及びR2対間の不一致は、対応する参照ゲノムに戻される潜在的な配列決定人為的と見なされる。さらに、配列決定及びPCRの間に複数回コピーされたいかなるDNA分子による独立した重複の生成の可能性を認識し、重複ファミリーは、アラインメント位置と同様に5’及び3’類似性により認識された。次に、それぞれの重複ファミリーを用いて、独立した複製物を横断する特定の変異のコンセンサスをチェックし、重複ファミリーの大部分で一致を示さない人為的変異を補正する。
【0168】
得られた信頼できるデノボ血漿変異のセットを用いて、1又はそれ以上の同定工程を用いて腫瘍パターンを同定する。第1方法は、変異パターン推論法、例えば、非負の最小二乗法(NNLS)を用いて、得られたセットにおける腫瘍パターンの同定を含む。当該方法は、被験体のがん罹患の判定に用いることができる信頼スコア(例えば、zスコア)を出力する。この点に関し、閾値信頼スコア(例えば、約2のzスコア)を用いて、被験体ががんであるという信頼できる決定を行うことができる。変異パターンの検出のための深層学習法を利用する第2の方法を用いることができる。当該方法は、被験体のがん罹患の判定に用いることができる腫瘍比率スコア(例えばeTF)を出力する。当該方法については、以下でさらに詳しく説明する。
【0169】
〔がん特異的変異誘発パターン〕
がんの変異誘発は、タバコ喫煙、紫外線など、異なる変異誘発プロセスに関連する配列特異的な特徴により支配される。当該変異の特徴はがん組織に特有であり、正常なPBMC試料にでは発現しない。ここでは、正常試料(PBMC)と比較して、肺がん患者(タバコに曝露)及びメラノーマ患者(UVに曝露)では、遺伝子パターンが差次的に発現される。本特徴を認識し、新しい高感度検出分析方法を開発した。当該方法は、単一血漿試料中の特定の変異パターンの非負最小二乗(NNLS)を利用するモデルに基づく。署名検出は、100の無作為なバックグラウンド署名について推測された曝露値に対するがん特異的な変異の署名曝露値の比較を用いて、信頼性についてさらに検証され、zスコア>2stdの信頼閾値が設定された。
【0170】
〔深層学習による変異パターンの検出〕
人為的の配列決定誤差をさらに抑制し、ctDNA感受性を増大させる、がんで改変された配列決定読取と配列決定誤差により改変された読取とを区別するための機械学習法が開発され、全身配列決定ノイズに対する適応型及び特異的フィルタが可能となった。人為的知能技術に基づく深層畳込ニューロンネットワーク(CNN)を適用した。CNNは、分類上の問題に対して、教師付きの方法で、多数の機能の学習と統合を可能にする。この迅速アプローチは、真の変異体を含む読取と配列決定人為的を含む読取とを区別することを目的とするため、チャレンジを呼び出す変異の再考に基づく。これにより、腫瘍及び正常なWGSデータの大量収集を用いて、何百万もの真の変異読取及びエラーに関するCNNの訓練が可能となり、様々な患者及び腫瘍タイプに対して非常に高い感度及び特異度を達成しうる。
【0171】
深層CNN訓練における上記の特徴の実施は、肺がん及びメラノーマでは生じることが知られている配列コンテキストパターンの独立した捕捉をもたらす。第一に、早期検出(ED)フレームワークにCNNを適用するため、CNNアルゴリズムを汎肺がんコホート(深層腫瘍とPBMC WGSを有する5人の患者)上で訓練し、真の腫瘍変異と人為的誤差を識別する特徴を同定するための教師付き学習を利用した。得られたモデルを用いて、肺腺がん早期患者のED血漿検体中に検出された個々の変異を推測し、信頼性推定値を割り当てた。本推定値は、所定の検体中の腫瘍読取率の推定値に統合しうる。本モデルは、特異的なタバコ及び/又はUVパターンを同定することができ、本パターンを患者の試料に利用すると、各がんの早期の患者を高精度で検出することができた。
【0172】
さらに、リスクのあるタバコ曝露集団における現在の肺がんCTスクリーニングの低陽性適中率(PPV)を改善する本法の機能を、21例の早期肺患者及び12例の良性結節を有するCT検出患者の血漿試料に本法を適用して評価した。その結果、早期肺がん検体では14個の陽性検出、良性結節では3個の陽性検出が示され、現行のCT系スクリーニングスキームでは40%~50%のPPVであったのに対し、PPVは80%改善されたことが示された。当該データは、肺がん及びメラノーマ患者の早期発見のための既存の方法よりも有意に改善されることを示す。
【0173】
〔直交特性の統合〕
場合によっては、上記の基本ワークフローは、最終分析モデルの遺伝子データに含まれる二次的特徴を直交的に統合しうる。例えば、検出方法のロバスト性、精度、及び/又は感度/特異性を改善するため、読取に基づく特徴、例えばDNAの断片サイズのシフトが、数学モデルに直交的に統合されうる。直交特徴積分(がん検出における)の有意性は、確率的混合モデル(例えば、ガウス混合モデル)を用いて計算されうる。実施例のセクション及び図17及び図18の対応するデータを参照のこと。
【0174】
〔CNV系がんスクリーニング〕
代替的又は追加的に、本開示は、被験体の生物学的試料中のCNV/SVマーカーの検出に基づくがんスクリーニングのシステム、方法及びアルゴリズムを提供する。図1Eに示すように、CNV/SVマーカーに基づくがん検出は、通常、検出の感度、特異性及び/又は信頼性を改善するために、遺伝子データを受け取る工程;遺伝子データ中のウインドウに基づく特徴ベクトルの抽出;人為的実CNVウインドウのフィルタリング;1又はそれ以上の正規化工程を用いたフィルタリングされた遺伝子データの正規化;特徴ベクトルセグメンテーション後の腫瘍の検出;及び場合によっては、ゲノムデータ中の二次的特徴の分析(例えば、断片サイズシフトの分析)を直交的に統合する工程を利用する。
【0175】
図1Eの第1工程では、生物学的試料(通常、血漿試料)からの遺伝子データが受信される。次に、ウインドウ系の特徴ベクトルを遺伝子データから抽出した。例えば、深度カバレッジ特性(Log2で表される)及び/又は断片サイズ特性(COMで表される)が抽出される。ゲノムを横切るすべてのウインドウの推定Log2及びCOM値を用いて、試料の質量中心の中央値(中立領域に対する中央値COM)を求め、Log2/COM線形モデルの勾配及びR^2を計算する。さらに、分割読取も抽出されうる。スプリットリーディングは、通常、NGSリーディングの部分分がゲノムの1つの位置にマッピングされ、同じリーディングの他の部分がゲノムの異なる位置にマッピングされるときに生じ、それにより不一致が生じる。
【0176】
次に、マッピング可能性及び/又はカバレッジが低いウインドウをフィルタリングする。連続的又は並列的に、ウインドウから取り除かれた健常血漿試料(ブラックリスト又はマスクの正常パネル(PON))のコホートにわたって、人為的な部位を生成して人為的なウインドウをフィルタリングする。フィルタリングされた高信頼基準CNV/SVセグメントは正規化される。通常、正規化工程は、グアニン-シトシン(GC)正規化及び/又はzスコア正規化を含む。
【0177】
次に、特徴ベクトルは、1又はそれ以上の数学モデルを用いてセグメント化される。ある実施形態では、隠れMarkovモデル(HMM)が用いられる。ある実施形態では、適応共鳴理論(ART)や自己組織化マップ(SOM)等の数学モデルに基づく自己組織化ニューラルネットワーク(SONN)が用いられる。当該数学モデルの1又はそれ以上を用いてセグメント化データを分析して、コピー数変異(CNV)検出とがん診断が行われる。
【0178】
ここでも、最終解析モデルに遺伝子データの二次的特徴を直交的に統合することが可能である。例えば、検出方法の頑健性、精度、及び/又は感度/特異性の改善である。Log2/COM相関(R^2)、Log2/COM勾配、及び標本中央値断片サイズの質量中心(COM)を総合して、腫瘍と健常な標本間の分類モデルを定義し、例えば一般化線形モデル(GLM)を用いて推定TFを計算しうる。
直交特徴積分(がん検出における)の有意性は、確率的混合モデル(例えば、ガウス混合モデル)を用いて計算されうる。
【0179】
本明細書に開示されたワークフローはまた、ある修正を加えて、化学療法、免疫療法、標的療法、又はそれらの組合わせの間又は後の残存病変の検出に、及び/又は当該治療の有効性のモニタリング過程で、広く用いうることが理解されるべきである。
【0180】
〔上記方法の早期腫瘍診断への使用〕
本開示の方法は、腫瘍の早期診断で特に有用である。好ましくは、本開示の診断方法は非侵襲的に実施される。診断方法は、腫瘍の手術又は治療の前に実施されうる。
【0181】
本開示の方法は、低腫瘍画分(TF)であっても実施しうる。一般に、TFがより低い試料では、検出の可能性が低く、従来技術の方法は、腫瘍疾患を正確かつ信頼性をもって診断できない。対照的に、本開示の方法は、低腫瘍画分、例えば、1/1000、1/10,000、又は1/20,000でも、マーカーの検出及び腫瘍疾患の正確な診断が可能である。本開示の方法及びシステムの感度は、腫瘍画分(例えば、1/10,000以下)が非常に低くても、本開示の方法は、単一の支持体読取に含まれる約10~15のsSNVを検出するという事実により特に証明される。本検出により、従来技術の手段では得られない、高レベルの忠実度及び正確度で、正常試料と腫瘍試料とを区別しうる。診断はsSNV検出に限定されないことを理解すべきである。例えば、診断は、ヒトのがんで頻繁に観察される約10、20、30、40、50、60、70、80、90、100以上、例えば150、200、又は250コピーの改変セグメント(ゲノムワイド)の検出に基づいて行われ得る。
【0182】
本開示は、特に、高率の体細胞変異を特徴とする腫瘍の早期診断方法に関する。本開示により診断又は検出されうる腫瘍タイプは、好ましくは、例えば、非小細胞肺がん(NSCLC)、タバコ誘発がん(TIC)、UV光誘発がん、アポリポタンパク質B mRNA編集酵素触媒タンパク質(APOBEC)活性が介在するがん、乳がんタンパク質(BRCA)変異を含むがん、及び/又はポリ(ADP-リボース)ポリメラーゼ(PARP)活性亢進を含むがん、マイクロサテライト不安定性(MSI)を含む腫瘍を含む。本方法は、液体腫瘍、固形腫瘍、又はそれらの混合物、例えば、例えば、肝臓、肺、又は脳等の余分なリンパ系器官に転移したリンパ腫を含む不均一な腫瘍を診断するように適用しうる。
【0183】
以下の腫瘍:肺腺がん、導管腺がん(乳房腫瘍)、皮膚黒色腫、尿路上皮がん(膀胱腫瘍)又は骨肉腫は、本発明により特に早期診断されうる。特に、腫瘍は、非小細胞肺がん及び肺腺がん(NSCLC LUAD)を含む。
【0184】
本開示は、特に、高率の体細胞変異で特徴付けられる、非小細胞肺がん、好ましくは、肺のタバコ誘発がんの早期診断又は検出に関する。喫煙(例えば、喫煙又は咀嚼)は、口腔、咽頭、喉頭、食道、肺、胃、子宮頸部、及び結腸/直腸の上皮性がんの十分に確立された危険因子又は原因物質である。Sasco et al.,Lung Cancer 45,Suppl 2,S3-9,2004参照。
【0185】
本開示はまた、紫外線誘発がん、例えば皮膚がんの診断又は検出に関する。紫外線(UV)への曝露は、黒色腫症例の約65%、及び基底細胞がん(BCC)及び扁平上皮がん(SCC)を含む非黒色腫皮膚がん(NMSC)の90%と関連する。Kim et al.,Genes&Disease,1(2):188-198,2014参照。好ましくは、UV-誘導がんは、黒色腫及びSCCから選択され、これらはともに、高率の体細胞変異により特徴付けられる。Alexandrov et al.,Curr Opin Genet Dev.24,52-60,2014参照。
【0186】
また、本開示は、遺伝子編集/DNAチェックポイントに関連する酵素の摂動に起因する体細胞変異率が高いがんの早期診断にも関する。ある実施形態では、本開示は、遺伝子編集酵素、例えば、アポリポタンパク質B mRNA編集酵素触媒タンパク質(APOBEC)が介在するがんの診断に関する。APOBECを介した変異パターンは、膀胱がん、子宮頸がん、乳がん、頭頸部がん、及び肺がんでよくみられる。Roberts et al.,Nat Genet.,45(9):970-6,2013を参照のこと。
【0187】
ある実施形態では、本開示は、乳がんタンパク質(BRCA)変異、例えば、BRCA1変異もしくはBRCA2変異が介在するがん、又はそれらの組合わせが介在するがんの早期診断に関する。報告では、BRCA1変異を有する女性の50%以上が70歳までに乳がんを発症し、その3分の1以上がその年齢までに卵巣がんを発症すると推定する。乳がん及び卵巣がんに加えて、BRCA2変異は男性の乳がん及び膵がん、並びに黒色腫のリスクと関連する。BRCA1/2変異はいずれも男性の前立腺がんリスクと関連する。Ngeow et al.,npj Genomic Medicine 1,15006,2016を参照のこと。
【0188】
ある実施形態では、本開示は、マイクロサテライト不安定性(MSI)により誘導されるがんの早期診断に関する。MSI誘発がんは一般に、DNAミスマッチ修復遺伝子(例、MLH1、MSH2又はMSH6)の変異に起因し、反復配列のエラーを特徴とする。MSIは多くの臓器の腫瘍で発生しうるが、主に大腸がんの特徴である。Kurzawski et al.,Annals of Oncology,15(Supp.4),283-284,2004を参照のこと。MSIはまた、子宮内膜がん、卵巣がん、胃がん、脂腺がん、膠芽腫、リンパ腫/白血病、及びリンチ症候群(遺伝性非ポリポーシス大腸がん(HNPCC))の腫瘍でも観察される。Vilar et al.,Nat Rev Clin Oncol.,7(3):153-62,2010を参照のこと。
【0189】
ある実施形態では、本開示は、例えば、PARPの代償性相同組換活性を介在するPPAR活性により誘導されるがんの早期診断に関する。例えば、相同組換えメカニズムに欠陥のある腫瘍は、生存をPARP媒介DNA修復に依存し、その阻害PARPに感受性である。従って、PARP阻害は、特異的DNA修復が欠損するがん、例えば、BRCA1又はBRCA2変異のキャリアに生じるがん治療の潜在的な合成致死的治療戦略である(Morales et al.,Crit Rev Eukaryot Gene Expr.,24(1):15-28,2014;Fong et al.,N Engl J Med.,361(2):123-34,2009)。
【0190】
本開示の診断方法は、最初に、複数の遺伝子マーカーを含む被験体の試料を受け取ることを含む。ある実施形態では、DNA/RNAを含む被験体の試料を配列決定し、その中の遺伝子マーカーを分析のために受け取る。他の実施形態では、遺伝子マーカーは、データセット、例えば、コンピュータに編集及び/又は記憶された、又は遠隔(例えば、サーバ)に保存されたゲノム配列決定情報から受け取ることができる。遺伝子マーカーは、様々な試料を配列決定して受け取ることができる。好ましくは、試料は、生物学的試料、例えば、細胞、組織、生物学的流体、例えば、血液、血漿、リンパ等を含む器官を含む。あるいは、試料が原発性又は転移性腫瘍を含む。
【0191】
様々な方法を用いて試料を得ることができる。組織生検は、代表的な腫瘍組織片の採取にしばしば用いられる。腫瘍細胞はまた、被験体の腫瘍細胞を含むことが知られているか又は含むと考えられる組織又は体液の形態で間接的に得ることができる。例えば、肺がん病変の生物学的試料は、切除、気管支鏡検査、細針吸引、気管支ブラッシング、又は喀痰、胸水もしくは血液から得ることができる。転移した腫瘍は、周辺の組織やリンパ節から採取されることもあれば(原発転移)、遠隔部位から採取されることもある(遠隔転移)。
【0192】
試料は、循環DNA及び末梢血単核細胞(PMBC)を含む血漿試料を含むのが好ましい。本文脈では、試料は、常套技術、例えば、採血(瀉血)、生検(液体生検を含む)、外科的切除、気管スワブ、喀痰等を用いて被験体から得られ得る。このように得られた試料は、場合によっては処理して、例えば、診断に有用なマーカーを精製及び/又は単離しうる。試料中のcfDNAの存在は、常套手段の方法、例えば、ユニバーサルプライマーを用いるPCR、次いで電気泳動を用いて調べることができる。被験体の試料中のcfDNAは、常套技術、例えば、本開示の実施例セクションに記載されたDNA単離キットを用いて精製されうる。
【0193】
ある実施形態では、試料は、血液、脳脊髄液、胸水、眼液、尿、又はそれらの組合わせから選択される生物学的流体を含む。
【0194】
ある実施形態では、cfDNAにおける体細胞変異を含む試料により、患者の血漿cfDNA試料中の腫瘍DNAを検出でき、かつ体細胞悪性ゲノムの特徴付けができる形質転換、非侵襲性技術である液体生検技術(LBT)を用いて得られる。
【0195】
具体的な実施形態では、生物学的試料は無細胞DNA(cfDNA)を含む血漿試料である。通常、試料中のcfDNAの量は、約0.1ng/ml~約20.0ng/ml、好ましくは、約1ng/ml~約10ng/mlである。末梢単核血球(PMBC)を含む正常細胞試料を対照として用いることができる。両試料で、単一ヌクレオチド変異(SNV)(好ましくは体細胞SNV)、コピー数変異(好ましくは体細胞CNV)、短い挿入及び欠失(indels)、構造的変異体(SV)又はそれらの組合わせを含む遺伝子マーカーを分析しうる。
【0196】
ある実施形態では、遺伝子マーカーは、SNV及びCNVの組合せを含む。当該組合わせは、通常、SNV変異負荷が低くCNV負荷が高い試料で用いられる。例示的実施形態では、変異のSNV変異負荷がメガ塩基対(MBP)あたり8000個未満である試料は、CNVを追加的に検出して分析されうる。通常、当該場合、DNAの少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100以上、例えば200、CNV/MBPのCNV負荷が、診断上重要である可能性が高いので、望ましい。
【0197】
遺伝学分野で公知の、変異、例えば、SNV又はCNVの重要性は、生殖細胞系と細胞体の区別により大きく影響される。体細胞(体細胞)の変異は子孫に伝わらない。例えば肺等の体細胞で起こる変異は、細胞を損傷したり、がん化したり、細胞を死滅させたりする。しかし、変異DNAは配偶子の生殖系列に存在する場合にのみ次世代に伝えられる。したがって、生殖細胞系列の配列を比較して(例えば、それを対照として用いる)、同じ被験体の非がん性細胞に存在しない、その被験体に特異的な体細胞又はがん細胞の変化を同定しうる。生殖細胞系列と配偶子系列の比較は変異を示すが、がん細胞と非がん細胞の比較も有用である。例えば、被験体の末梢白血球又はリンパ球は、非がん性体細胞配列を表す、対照として用いることができる。このように、がん性細胞及び非がん性細胞でともに見出される変異は無視されうる。
【0198】
好ましくは、本開示の遺伝子マーカー、例えば、sSNV、sCNV、cfDNA中のインデル(indels)又はSVは、cfDNA配列を参照配列、例えば、生殖細胞系DNA配列と比較して検出しうる。
【0199】
ある実施形態では、本開示の方法は、遺伝子マーカーと対照(例えば、対照)配列との間の変異の検出を含み得る。ある実施形態では、変形は、試料間で均一、半均一、又は動的であり得る。一時的に動的な変動には、例えば、治療中又は治療後に収集されたcfDNAと治療前の試料との間の差異が含まれる。
【0200】
cfDNAの変異はまた、遺伝子マーカーのゲノムワイド(ワイド)一覧を作成し、それから、対照(例えば、生殖細胞系)試料に存在する遺伝子マーカーを差し引いて検出されうる。本文脈では、用語「ゲノムワイド(ワイド)」は、生殖系列及び体細胞の生物の遺伝物質を意味し、それらを含む。マーカーの一覧には、例えば、複数のsSNV、sCNV、インデル、SVを含み得、これには、DNA中の融合物等の他のバリエーションが含まれる。
【0201】
通常、標本は低い腫瘍画分(TF)により特徴づけられる。ある実施形態では、TFは、約0.0001%から約1%の間、好ましくは約0.001%から約0.1%の間、特に0.1%未満、例えば0.005%、0.02%、0.03%、0.04%、0.05%、0.06%、0.07%、0.08%、0.09%である。
【0202】
さらに、cfDNAを含む試料は、約100~約20,000、好ましくは約1000~約10000の間のゲノム等価性(例えば、被験体の試料中のcfDNA断片のプール全体の無作為サンプリングを介して測定された、固有のDNA断片の数)により特徴付けられる。
ある実施形態では、cfDNA試料は、約3,000~約100,000、好ましくは約5000~約40,000の変異負荷(N)により特徴付けられる。
【0203】
ゲノムワイド一覧を作成する代表的な方法に、配列決定を含みうる。通常、配列決定は、精製された核酸試料を用いて行われる。特に、本開示の診断方法及び/又はシステムに用いられるゲノムワイド一覧は、全ゲノム配列決定を用いて達成される。例えば、WGSは、通常の技術を用いて実施することができ、増幅(例えば、PCR増幅)を含みうる。増幅フリー配列決定はまた、当技術分野で公知の方法及び試薬を用いて用いられうる。Karlsson et al., Genomics, 105(3):150-8, 2015を参照のこと。純粋に例示的な方法として、ある実施形態では、cfDNA中の遺伝子マーカーは、被験体の腫瘍の全ゲノム配列決定(WGS)、被験体の正常細胞の全ゲノム配列決定(WGS)、様々な比率で腫瘍及び正常WGSを混合し、異なる腫瘍画分及びカバレッジの被験体特異的試料のデータセットを生成し、データセットをダウンサンプリングし、腫瘍からの読取を混合せず、ダウンサンプリングした正常読取の相補的データセットを生成して検出されうる。相補的データセットは、以下に記載するように、ノイズ関連マーカーを除去してフィルタリングされうる。
【0204】
遺伝子マーカーのゲノムワイド一覧は、標的配列決定(TS)又はWGSとTSを組合わせて作成することもできる。
全ゲノム配列決定及び/又は標的配列決定に関する以下の米国特許第7,115,400号、第7,718,403号、第7,741,463号、第8,932,812号、第7,572,584号、第9,218,450号は、その全体が参照により本明細書に援用される。
【0205】
いったんDNA試料を受け取ると、診断方法が実施されうる。試料中に含まれる遺伝子マーカーは、好ましくは、変異、例えば、体細胞変異について分析される。DNAにおける最も一般的な体細胞変異のタイプは一塩基変異体(SNV)であり、1~100/Mbp(メガ塩基対)の頻度で起こる。当該変異体は、通常、がん試料及び生殖細胞系正常DNA試料(対照)中の特定の遺伝子座にマッピングされるDNA配列決定読取の注意深い比較を介して、ショットガン配列決定データで同定される。当該複雑なプロセスは、がん試料及び生殖細胞系試料における支持的読取の数と変異との間の統計的比較を精緻化する、絶えず高度化する技術/ツールを用いて開発されている。参照として、Cibulskis et al.,Nature Biotechnology,31(3):213-219,2013;Saunders et al.,Bioinformatics,28(14):1811-1817,2012;Wilm et al.,Nucleic acids research,40(22):11189-11201,2012。
【0206】
変異体の分析は、アレイ系の方法(例えば、DNAマイクロアレイ等)、リアルタイム/デジタル/定量的PCR装置の方法;及び全核酸配列決定システム(例えば、Illumina,Helicos Biosciences,Pacific Biosciences,Complete Genomics,Sequenom,ION Torrent Systems,Halcyon Molecularより提供される全ゲノム配列決定(WGS)サービス)を含むが、これらに限定されない、様々な技術を用いて行うことができる。
【0207】
好ましくは、遺伝子マーカーは、全ゲノム配列決定(WGS)を用いて体細胞変異及び/又はコピー数変異について分析される。全ゲノム塩基配列決定法は、単一塩基の解像度で遺伝子読取を解読しうる。DNA(デオキシリボ核酸)との関係で、本方法はDNAの基本的な構成成分であるA(アデニン)、T(チミン)、C(シトシン)、G(グアニン)のレベルで解読される。RNA(リボ核酸)との関係で、A、U(ウラシル)、G、C等のDNAの基本的な構成成分のレベルで解読される。
【0208】
上記配列決定方法の産物は、ポリヌクレオチド分子(例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、断片等)中の上記塩基の1又はそれ以上の順序に関する情報を含む「配列決定データ」、「配列決定情報」又は「配列決定読取」を含む。試料(例えば、患者の血漿試料に含まれるcfDNA)中のDNAの読取の順序を対照(例えば、PMBCの全ゲノム配列)と比較して、関心のある遺伝子マーカー(例えば、体細胞性SNV又は体細胞性CNV)を同定しうる。本開示の同定方法は、キャピラリー電気泳動、マイクロアレイ、ライゲーション系システム、ポリメラーゼ系システム、ハイブリダイゼーション系システム、直接又は間接ヌクレオチド同定システム、パイロ配列、イオン系又はpH系の検出システム、電子パターン系のシステム等を含むが、これらに限定されない、全てのタイプの配列決定技術、プラットフォーム又は技術に適用可能であることが理解されるべきである。
【0209】
本開示の早期診断法における次の段階は、低存在量の腫瘍特異的マーカーを同定することを含む。
【0210】
本開示は、(1)読取の基本品質(BQ)、(2)読取のマッピング品質(MQ)、及び/又は(3)読取の断片サイズ、(4)読取の可変対立遺伝子頻度(VAF)から選択された複数の要因に基づき、読取時のエラー確率を決定することに関し、これらは、単独で、又は、ともに、シグナルの品質に影響する。(5)読取内位置(RP)、(6)読取配列コンテキスト(SC)、(7)読取存在量、(8)配列決定深度及び/又は(9)配列決定エラー等等の他の二次パラメータも用いることができる。
【0211】
一般に、基本品質(BQ)は各塩基の配列決定品質の信頼性に関係し、マッピング品質(MQ)スコアはゲノムとのマーカーのマッピングの正確性に関する信頼性推定値に関係する。sSNVマーカーとの関連では、基本品質(BQ)スコアは、自動化DNA配列決定により生成された核塩基の同定の品質の尺度である。それは、自動シークエンサートレースにおいて各ヌクレオチド塩基呼出に割り当てられる通常の方法、例えば、Pherd品質スコアを用いて決定されうる。Phred品質スコア(Q)は、基本呼出誤差確率(P)に対数的に関連する特性として定義される。たとえば、Pherdが基底に30の品質スコアを割り当てた場合、この基底が誤って呼出される可能性は1/1000である。通常、配列決定読取のBQは、10~50の間、例えば、10、15、20、25、30、35又は40のBQスコアである。
【0212】
また、sSNVマーカーの文脈では、マッピング品質(MQ)スコアは、読取が実際にマッピングアルゴリズムにより整列された位置に由来する確信度の尺度である。これは、例えば、マッピング品質スコア(Li et al.,Genome Research 18:1851-8,2008を参照)等の常套手段の方法を用いて決定されうる。通常、読取のMQは、10~50の間、例えば、約10、15、20、25、30、35、又は40のMQスコアである。
【0213】
ある実施形態では、ノイズ除去工程は、結合基本品質(BQ)及びマッピング品質(MQ)スコアに基づき、一覧における遺伝子マーカーの確率的分類を含む最適受信者動作特性(ROC)曲線を実施することを含む。通常、結合BQMQスコアはマトリックス(x,y)として提供され、xはBQスコアであり、yはMQスコアである。例示的な実施形態では、例えば、(10、40)、(15、30)、(20、20)、(20、30)、(30、40)のBQMQスコアのように、(各パラメータについて)10~50の結合BQMQスコアが典型的に用いられる。
【0214】
ノイズ除去工程は、追加のフィルタの実装を含んでよい。たとえば、DNA断片に由来する読取対に含まれる余分な情報源は、複製起点(ワトソン又はクリック)の決定とDNA断片の大きさの推定に利用できる。ctDNAは、通常の循環健常なDNAとは断片サイズ分布が異なることが観察される(Underhill et al.,PLoS genetics,12(7):e1006162,2016)。より具体的には、腫瘍患者と健常対照者との間の無細胞DNAから得られた断片の長さは、変異対立遺伝子が野生型対立遺伝子の断片の長さよりも短いことが多いことを見出した。同様に、無細胞DNA断片長に対するサイズ選択がより短いと、ヒト肺がんにおける変異対立遺伝子頻度が実質的高まった(Jiang et al.,PNAS USA,112.11,E1317-E1325,2015;Mouliere et al.,bioRxiv,134437,2017;Underhill,supra)。従って、無細胞DNA検出からの断片長の特定のサブセットが、ctDNA検出を改善するために用いられうる。ある実施形態では、読取の断片サイズは、好ましくは、160bp未満、例えば、160bp、140bp、120bp、100bp、75bp、50bp、又はそれ未満、例えば、20bpである。
【0215】
さらに、人為的ノイズは、可変対立遺伝子頻度(VAF)に基づき除去されうる。ある実施形態では、低対立遺伝子分画変異部位は試料から除去され、例えば、VAFは約1%以下である。ある実施形態では、VAFが閾値であるマーカー(例えば、SNV)のみが、下流分析のために保持される。例えば、VAFが少なくとも1%、最後の2%、少なくとも3%、少なくとも4%、少なくとも5%(PGM装置上のアンプリコン配列決定により決定される)の変異部位を保持しうる。当技術分野で公知の、特定の対立遺伝子(例えば、BRAF V600R)のVAF値は、静止しておらず、(がんの発生及び/又は進行のために)経時変化し、また、例えば、免疫療法、化学療法又は標的療法等の治療にも変化し得る。しかしながら、閾値VAFが、1%未満、例えば、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8の場合、信頼性をもって特定の対立遺伝子が腫瘍と関連ないと推定するのに用いうる。
【0216】
1つの具体的な実施形態では、人為的ノイズは、(a)低マッピング品質の読取(例えば、<29、ROC最適化)を除去する工程;(b)重複ファミリーを構築し(例えば、同一DNA断片の複数のPCR/配列決定コピーを表す)、コンセンサス試験に基づき修正された読取を生成する工程;(c)低塩基品質の読取(例えば、<21、ROC最適化)を除去する工程;及び/又は(d)高断片サイズの読取(例えば、>160、ROC最適化)を除去する工程のうちの1又はそれ以上、好ましくは全てを実施して除去される。
【0217】
上記BQ/MQ、VAF、及び断片サイズフィルタを用いることに加えて、RPは信号の品質に影響を及ぼすため、人為的ノイズをフィルタリングするために、読取内位置(RP又はPIR)等の他のファクタを用いうる。sSNVマーカーに関連して、RPは、例えば、配列決定読取の最初の塩基位置のマッピングによりマッピングされうる。マーカー品質に影響する他の因子は、例えば、配列決定エラーのより高い確率に関連する特定の配列コンテキストを含む(Chen et al.,Science,355(6326):752-756,2017)。この点に関して、真の変異はしばしばそれ自身の特異的な配列コンテキストにマッピング可能であるが、エラーはそうではない。例えば、タバコ関連の変異はCCコンテキストで起こる傾向があり、APOBEC酵素の活性に関連した変異は体細胞変異を挿入するためにTpCコンテキストを好む(Greenman et al.,Nature,446(7132):153-158,2007参照)。従って、配列コンテキストは、配列決定人為的に起因する可能性の高い変化、及び優勢な変異過程に起因する可能性の高い変化を同定するのに役立つ。
【0218】
ある実施形態では、マーカーは、ベルヌーイ式PD=1-〔(1-TF)〕GEに基づいて検出の確率を測定して、さらに測定することができ、ここで、PDは検出の確率、TFは腫瘍画分、及びGEは患者DNAに存在するゲノム等価物の数である。次いで、遺伝子マーカーは、PDに基づき重み付けされ、ここで、PDが高いマーカーは、ビンディングされる。例えば、遺伝子マーカーは、少なくとも約0.60のPD閾値、例えば、少なくとも約0.65、0.70、0.75、0.80、0.90、0.95又はそれ以上、例えば、少なくとも約0.98に基づきビンディングしうる。従って、マーカーのPDが閾値未満であれば、それは偽陽性として分類され、分析には含まれない。
【0219】
人為的ノイズの多い読取が読取の一覧から除去されると、残余マーカーは、腫瘍関連の特徴とPCR/配列決定エラー特徴との間を分離するように訓練された深い学習推論モデルに供給される。本段階では、読取に基づく方法で、がん変異を支持する読取と人為的変異(エラー)読取を分類する。1つの実施形態では、がん変異支援読取の配列-コンテキスト分布が計算され、既知の変異パターンの寄与が機械学習を用いて分類される。
【0220】
人為体に対してノイズフィルタリングされている、及び/又はがん変異により支持されるものとして分類されている読取は、がんパターンにマッチされる。ある実施形態では、当該がんパターンを含むデータセット(例えば、がんにおける体細胞変異のカタログ; COSMIC)を用いうる。2018年2月現在、30の異なるがんパターンがデータベースに登録されており、その詳細は以下の通りである:
【0221】
パターン1(すべての種類のがんにみられる)は、5-メチルシトシンの自発的脱アミノ化により開始される内因性変異過程の結果である;
パターン2(22種類のがんにみられる)は、AID/APOBECファミリーの活性に起因する。実験系におけるAPOBEC酵素が誘発するシトシン変異の配列コンテキストにおける類似性に基づくと、ヒトがんにおけるAPOBEC1、APOBEC3A及び/又はAPOBEC3Bの役割は、本ファミリーの他のメンバーよりも可能性が高いようである;
パターン3(乳がん、卵巣がん、膵がん)は相同組換えによるDNA二本鎖切断修復の失敗と関連する;
パターン4(頭頸部がん、肝がん、肺腺がん、肺扁平上皮がん、小細胞肺がん、及び食道がん)は喫煙と関連し、そのプロファイルはタバコ発がん物質(例えば、ベンゾ[a]ピレン)に曝露した実験系で観察された変異パターンと類似する。パターン4はタバコ変異原による可能性が高い;
パターン5(病因不明)は、全てのがん及びほとんどのがん試料で発見される;
パターン6(17種類のがんにみられ、大腸がん及び子宮がんで最もよくみられる)は、DNAミスマッチ修復の欠損と関連し、マイクロサテライト不安定腫瘍でみられる;
パターン7(皮膚がん及び口唇がん;頭頸部がん又は口腔扁平上皮がん)は、紫外線曝露と関連する;
パターン8(乳がん及び髄芽腫にみられる)は病因不明である;
パターン9(CLL及び悪性B細胞リンパ腫にみられる)はポリメラーゼηに起因し、これは体細胞高頻度変異の際のAID活性と関連する;
パターン10(6種類のがん、特に大腸がん及び子宮がんにみられる)は、エラーを起こしやすいポリメラーゼPOLEの活性が変化したためである。再発性のPOLE体細胞変異、Pro286Arg及びVal411Leuは、主にパターン10変異と関連する;
パターン11(黒色腫及び膠芽腫にみられる)は、アルキル化剤に類似した変異パターンを示す;
パターン12(肝がんにみられる)は病因不明;
シチジンをウラシルに変換するシチジンデアミナーゼのAID/APOBECファミリーの活性に起因するシチジン13(22種類のがんに認められ、子宮頸がん及び膀胱がんで最も頻度が高いと思われる);
パターン14(病因不明)は、4例の子宮がん及び1例の成人低悪性度神経膠腫試料で発見された;
パターン15(ある胃がん及び単一の小細胞肺がんにみられる)は、DNAミスマッチ修復の欠損と関連する;
パターン16(肝がんにみられる)は病因不明;
パターン17(食道がん、乳がん、肝がん、肺腺がん、B細胞リンパ腫、胃がん、黒色腫にみられる)の病因は不明である;
パターン18(神経芽細胞腫に認められ、乳がん及び胃がんにも観察される)は、病因が不明である;
パターン19(毛様細胞性星細胞腫にみられる)は病因不明である;
パターン20(胃がん及び乳がんにみられる)は、DNAミスマッチ修復の欠陥と関連する;
パターン21(胃がんにみられる)の病因は不明である;
パターン22(尿路上皮(腎盂)がん及び肝がんにみられる)は、アリストロキア酸への曝露と関連する;
パターン23(肝がんにみられる)の病因は不明である;
パターン24(肝がんのサブセットにみられる)は、アフラトキシンへの曝露と関連する;
パターン25(ホジキンリンパ腫にみられる)は病因不明である;
パターン26(乳がん、子宮頸がん、胃がん、子宮がんにみられる)はDNAミスマッチ修復と関連する;
パターン27(腎明細胞がんのサブセットにみられる)は病因不明である;
パターン28(胃がんにみられる)は病因不明;
パターン29(歯肉頬口腔扁平上皮がんでみられる)は、喫煙者と関連する;
パターン30(乳がんの部分にみられる)は、病因不明である。
【0222】
ある実施形態では、マッチング工程は、線形混合最適化(例えば、タバコ曝露又はBRCA変異又はAPBEC1活性による寄与のzスコア信頼性推定値)を含み、COSMIC変異パターンの寄与に関する信頼基準の計算に用いられる。純粋に代表的な非限定的な例として、線形最適化問題は、代数関数minllAx-bll,x≧0を用いて解答しうる。ここで、Aは、変異パターン配列コンテキストマトリックスであり、xは、各COSMIC変異パターン(変数)の寄与であり、bは、患者特有の配列コンテキスト一覧である。
【0223】
ある実施形態では、上記で用いられる線形最適化方法において、Aは、無作為変異パターンを含むいかなる数のCOSMICパターンを含み得る。例えば、Aは、約20、30、40、50又はそれ以上、例えば、70個のCOSMIC特徴及び約50、60、80、100又はそれ以上、例えば、150個の無作為変異特徴を含み得る。無作為パターンの寄与の分布は、抽出法を用いて計算される。例えば、平均寄与スコアを計算するE_random;及び標準寄与スコアを計算するstd_random。各COSMIC特徴の寄与に関連する信頼性は、統計的に、例えば、zスコアを用いて計算されうる。例えば、Zスコアは(cosmic_sig_contribution-E_random)/std_randomとして計算されうる。従って、置換スコアの場合と同様に、Zスコアは、無作為セットと比較した場合のパターン寄与の有意性を表す。
【0224】
ある実施形態では、特定のCOSMIC標識に対する患者配列決定コンテキスト一覧の類似性は、統計的方法、例えば、確率密度関数(PDF)を用いて計算してされる。純粋に代表的な例として、患者配列決定コンテキスト一覧を正規化して密度関数を生成してPDFを計算する。患者配列決定コンテキスト密度関数とCOSMICパターン密度関数の間のコサイン類似性を計算した。次に、コサイン類似性は、患者配列決定コンテキスト密度関数と非情報的一様密度関数の間のコサイン類似性で割ることにより正規化される。
【0225】
図1Aの方法100の工程160では、工程150で計算された信頼性推定値を用いて、がん、例えば腫瘍の早期検出について被験体をスクリーニングする。当該技術分野で公知の、信頼区間は、未知の母集団パラメータ(例えば、無症状の被験体ががんである可能性)の良好な推定値として作用する一連の値(区間)から成る。望ましい信頼度は、研究者により設定される(データにより決定されない)。最も一般的には、95%信頼レベルが用いられるが、他の信頼レベル、例えば、80%~99%、例えば、80%、90%、98%又は99%の間の任意の値が用いられうる。
【0226】
ある実施形態では、信頼区間は、単一(例えば、単一の読取に基づく)又は複合(例えば、複数の読取に基づく)であってよい。信頼帯域又は信頼区間もまた、用いられうる。信頼区間は、複数量を扱うために信頼区間の概念を一般化したものであり、可能性のあるサンプリング誤差の程度及び/又は統計解析に用いられる量の信頼性の欠如を明らかにするのに有用である。信頼帯域は、限られたデータ又はノイズの多いデータに基づく曲線又は関数の推定値の不確実性を表すのに用いられ、予測帯域は、曲線上の新しいデータ点の値に関する不確実性を表すのに用いられうる(ノイズの影響を受ける)。
【0227】
場合によっては、COSMIC変異パターンの寄与に関する計算された信頼性メトリックは、検出閾値に対してチェックされうる。ある実施形態では、閾値は、健常試料からの経験的に測定された基本ノイズ検出推定値、例えば、閾値を上回る少なくとも2標準偏差(STD)、特に閾値を上回る少なくとも3標準偏差、好ましくは閾値を上回る少なくとも4標準偏差、特に閾値を上回る少なくとも5標準偏差のzスコアにより定義される。
【0228】
例示のため、純粋に例示として、本開示の方法は、まず、被験体の生物学的試料(例えば、血漿試料及び正常細胞試料を含む試料)から配列決定された複数の遺伝子マーカーを受け取って、マーカー(例えば、sSNV、CNV、インデル、及び/又はSV)を含む被験体特異的なゲノムワイドの遺伝学的読取の一覧を作成し、次いで、BQ、MQ、読取中の位置(PIR)、断片サイズ、及び/又はVAFから選択された1又はそれ以上のパラメータを用いて、読取一覧由来の人為的ノイズをフィルタリングし;ノイズ除去された読取を、PCR及び/又は配列決定エラーにより生成されたノイズから識別しうるニューラルネットワークに入力し;がん兆候(例えば、COSMICサイン)に適合されるフィルタリングされたノイズ除去された被験体特異的サインを生成し、ここで、マッチングは、すべてのマーカー又はそのサブセットに対するzスコアの計算又は確率の評価を含み、被験体のパターンと参照がんパターンとの間の密度関数;被験体のパターンが腫瘍パターンを含むことを示す信頼区間を出力して、被験体の腫瘍を診断することを含む。代表的な方法は、図1Aのフローチャートに示す。当該方法の詳細は、以下の例を参照のこと。
【0229】
ある実施形態では、がんパターンは、組織特異的クロマチンアクセス可能性パターン(例えば、メチル化状態)等の組織特異的エピジェネティックパターンと関連するパターンを含んでよい。
【0230】
ある実施形態では、診断方法は、核型決定をさらに用いうる。例えば、腫瘍特異的で存在量の少ないマーカーを含むデータセットは、例えば、中心体に近接するマーカーを排除して、さらに核型分類されうる。本工程は、上記マッピング技術を用いて実施しうる。さらに、低存在量マーカーを含むデータセットは、異数性マーカー、例えば、遺伝子増幅又は遺伝子欠失を示すマーカーと直交的に組み込むことができる。
【0231】
〔診断/スクリーニング方法を実施するシステム及び装置〕
例えば、方法100等の本明細書に記載される方法は、独立設置装置としてコンピュータシステム400を用いて、又はクラウドコンピューティングネットワーク等の共有されたコンピュータ処理リソースの分散ネットワーク上で実装しうる。従って、人為的ノイズ(例えば、低BQ/MQマーカー、約160bpの閾値断片サイズより大きいマーカー;及びVAFが約4%の閾値より小さいマーカーと関連する)を除去する開示された方法をコンピュータに実行させるため、第1のプログラムが記憶される非一時的コンピュータ読取可能媒体を提供しうる。ノイズ(例えば、PCR/配列決定エラーに関連する)を適応的かつ体系的にフィルタリングする第2のプログラムが記憶される非一時的コンピュータ読取可能媒体を提供しうる。例えば、zスコアを決定するか、又は確率密度関数を分析して、ノイズフィルタリングされたCNN処理された被験体特異的パターンとがんパターンとをマッチングさせ、マッチングの信頼区間(CI)を出力する第2のプログラムが記憶され、閾値(例えば、80%、90%、95%又は99%)以上のCIが、被験体が腫瘍に冒されていることを示す、非一時的コンピュータ読取可能媒体を提供しうる。ある実施形態では、第1、第2、第3の各々のプログラムは、別個に(例えば、独立設置型で)提供又は用いられてよく、ある実施形態では、第1、第2、第3のプログラムは各々、(例えば、パッケージとして)ともに提供又は用いられてよい。
【0232】
また、上記実施形態は、全体又は部分的に、記載された方法の実行に統合された構成要素のシステムとして提供されうることも理解されるべきである。例えば、図1Aのワークフローは、がん患者のcfDNAに存在する高品質の低存在量の腫瘍特異的マーカーを同定し、さらに高感度、正確かつ正確な方法で早期診断を可能にする構成要素又はステーションのシステムとして提供されうる。
【0233】
上記の詳細な説明から、本開示のシステム及び方法の顕著な特徴の1つは、ノイズを適応的かつ体系的にフィルタリングしうるエンジンの使用である。代表的なエンジンを以下に詳細に説明する。エンジンは、例えば、図1Aのフローチャート(注:フローチャートにおけるエンジンの位置決めは、代表的な方法論に適合するように、単に例示的である)により、本開示の診断方法(以下に詳細に議論される)で実施されてよい。エンジンは、マーカー内の不変性(例えば、sSNVを含む体細胞変異)を捕捉しうる畳込ニューラルネットワーク(CNN)を含んでよい。CNNとそれに対応する構造は、「畳込ニューラルネットワーク(CNN)」の項目を参照して、以下で詳しく説明する。
【0234】
低品質のマーカーを除去するエンジン能力は、合成血漿試料及び実際の血漿DNA試料で評価しうる。合成血漿試料は、試験試料(例えば、肺試料)から、患者の健常DNA及び患者の腫瘍DNAから無作為にサンプリングして生成されうる。実際の血漿DNA分析には、喫煙肺がん患者由来の血漿試料を用いることができる。対照には、患者のPMBCを用いてよい。あるいは、がんでない又は健常被験体由来の血漿試料を対照として用いることもできる。
【0235】
機械学習(ML)が、ノイズデノボ(例えば、増幅(PCR)中のエラー、配列決定中のエラー、マッピング中のエラー、及び他の偽陽性マーカー(例えば、対照試料に見られる変異))を抑制し、被験体の試料の変異の検出にどのように用いられうるかの例示的な概略が、図5に提供される。示されるように、遺伝子データは、適当なフォーマット(例えば、VCFフォーマットという変異体)で被験体から受け取られるが、これは真の陽性又は偽陽性の可能性がある。当該データは機械学習ツール、例えばn次元畳込ニューラルネットワーク(CNN)に入力される。CNNは、位置ごとにKフィルタがあってよく、合計32D学習可能フィルタがあってよく、ここで、Dは、CNN内の寸法の数である。遺伝子データは、例えば、サイズ2及び歩数2を用いて、最大プールされる。配列決定読取は、いかなる方法を用いて、離散的特徴で表現して捕獲される。例えば、最大1、2、3、4...n特徴長を含む空間指向表示を用いうる。
【0236】
例示的な特徴が、図8に提供される。示されるように、最初の5行は参照文脈(例えば、ヒトゲノム中の配列)を表し、次の5行は読取配列(読取における塩基対)を表し、11~15行はアラインメントストリング(CIGAR)を表し、最後の行は読取各位置における品質スコアを表す。特徴の各列は、特定の塩基の有無を表すインジケータベクトルを表す。読取、ゲノムコンテキスト、及びCIGAR行は、1つのホットなエンコーディングのように、相互に排他的である。機能の構築及び実装に関する詳細は、以下の代表的な実施例に記載される。
【0237】
エンジンは、独立したツールとして、又はPILEUP(Li et al.,Bioinformatics,25(16):2078-2079,2009)、STRELKA(Saunders et al.,Bioinformatics,28(14):1811-1817,2012)、LOFREQ(Wilm et al.,Nucleic acids research,40(22):11189-11201,2012)等の他の先行技術で公知の呼出装置を用いてよい。エンジンの位置及び入出力の例示的な概略を図7に示す。注:エンジンは、本図ではパイプラインの遠位端に位置するが、実際には、エンジンは、プロセスの任意のレベル又はステージに位置してよい。エンジンの訓練のため、混合された腫瘍生検試料及び末梢血単核細胞(PMBC;対照)からのマーカーの集合体を含む遺伝子データを、場合によっては、上記フィルタに供する(例えば、PILEUPを介した人為的読取カタログ化;VAFを用いた生殖細胞系の変異を除く;適当なBQフィルタを用いた低塩基品質のマーカーの除去;及び適当なMQフィルタを用いて不十分にマッピングされたマーカーの除去)。また、装置は、データセットを用いて訓練されてよい。
【0238】
エンジンを肺がん患者から独立した試料を用いて実装した場合、真の体細胞変異とノイズを高感度かつ高精度で識別できることがわかった。結果を図8及び図9に示す。合成プラズマを用いて行われた実験は、エンジンが低腫瘍画分(TF)で特に正確で感度が高く、MUTECT(Cibulskis et al.,Nature biotechnology,31(3):213-219,2013)及び/又はPILEUP等の最先端呼出よりも優れていることを明らかである。特に、エンジンは、インシリコ分析及び臨床現場ともに優れた性能を示した。エンジンは、バランスのとれた腫瘍分画設定で、MUTECT等のプログラムと比較して特に良好な性能を示した。例えば、感度の測定基準では、MUTECT、SNOOPER(Spinella et al.,BMC Genomics,17(1):912,2016)及びSTRELKAよりも優れていた。図9A参照。正確な測定基準では、これは全ての腫瘍画分でPILEUPより優れ、低TFでは約25倍であった(TF=0.0001)。さらに、シミュレートしたプラズマでも性能の大部分が維持された。エンジンはまた、0.0001のTF(PILEUPを上回る)の約30倍まで濃縮され、関連する体細胞変異が配列決定ノイズ自体の10倍より低頻度でも捕捉できることが示唆された。図9C参照。対照的に、MUTECTは、全ての腫瘍画分で約2倍(PILEUPと比較して)とその改善はわずかであった。さらに、エンジンは、ユーザが偽陰性を最小限に抑制でき、特異性が優先されるアプリケーションでは、偽陽性を最小限に抑制するようにエンジンを設定しうる。エンジン変異体識別システムは、偽陽性と偽陰性を同時に最小限に抑え、不一致精度と精度で変異を検出しうる(表4の一覧を参照)。
【0239】
特に、エンジンは、場合によっては、変異周波数フィルタ及び/又は塩基品質マッピング品質フィルタ等のノイズキャンセレーションフィルタと共に、当該技術分野で公知の変異呼出側の精度の大幅な改善に適用されうる。下記の実施例では、変異呼出側PILEUPを、下流ノイズキャンセレーションフィルタ及びエンジンと共に用いる代表的なパイプラインを説明する。実際の血漿試料との関連で、上記パイプラインは、PILEUP、ノイズ除去フィルタ(変異頻度(MF)及び品質(BQMQ)に基づく)、及びエンジンを含み、腫瘍DNA分析用試料を有意に濃縮する一方で、偽陽性を有意に抑制する。つまり、当該結果は、エンジンが、変異呼出の性能の大幅な改善に用いることができ、感度損失があった場合でもほとんどないことを実証する。
【0240】
エンジンの性能は、読取とそのアラインメントを横断した特徴の統合が、高深度でカバーされ、かつ試料の完全な変異プロファイルを用いて、新たな体細胞変異呼出のセットが作成されたことを示す。簡単な測定ツールを用いて当該感受性レベルで変異を捕捉し、がん患者の治療及び/又は管理に用いうる新規の改良診断プラットフォームが可能になる。
【0241】
本開示は、エンジンの少なくとも3つの潜在的応用、すなわち、特にがんの診断、予後及びケア、及び他の臨床状況における体細胞SNV変異の検出の改善;遺伝病の診断及び疾患リスクの推定のための構造的変異体の検出の改善;及び/又は生物医学研究、疾患の診断、及び/又は治療における生殖細胞系ゲノムSNVの検出の改善に関する。図10参照。
【0242】
現状の先行技術に基づき、エンジンは、早期がん検出のための液体生検等の、対立遺伝子頻度が低い設定で機能するように設計された最初の体細胞変異呼出である。早期検出目標を達成するため、読取とその整列に関連する期待される特徴を最良に捕捉するように、カスタム構造を用いて読取の新一覧を実施した。従って、本開示は、液体生検における検出に貢献しうる体細胞変異呼出の新しいファミリーを提供し、特に、早期腫瘍検出及び残存腫瘍の検出の文脈で、がん診断の極めて重要で非侵襲的方法に貢献しうる。
【0243】
〔コンピュータシステム〕
ある実施形態では、本開示の診断方法は、コンピュータシステム上で実施される。純粋に代表的な例として、当該コンピュータシステムの概略図を図15に示す。図15は、コンピュータシステム400を示すブロック図であり、本ブロック図は、本開示の実施形態の部分又は複数の実施形態を実装しうる。本開示の様々な実施形態では、コンピュータシステム400は、情報を通信するバス402又は他の通信メカニズム、及び情報を処理するバス402と結合されたプロセッサ404を含みうるむ。様々な実施形態では、コンピュータシステム400はまた、メモリを含むことができ、本メモリは、バス402に結合された他の動的記憶装置であってよく、無作為アクセスメモリ406又はプロセッサ404により実行される命令を決定する。メモリはまた、プロセッサ404により実行される命令の実行中に、一時変数又は他の中間情報の記憶に用いられうる。様々な実施形態では、コンピュータシステム400は、さらに、読取専用メモリ408又はバス402に結合された他の静的記憶装置を含み、プロセッサ404のための静的情報及び命令を記憶しうる。磁気ディスク又は光ディスク等の記憶装置410を提供し、バス402に結合して情報及び命令を記憶しうる。様々な実施形態では、コンピュータシステム400は、バス402を介して、コンピュータユーザに情報を表示する陰極線管又は液晶ディスプレイ等のディスプレイ412に結合しうる。英数字及び他のキーを含む入力装置414は、情報及びコマンド選択をプロセッサ404に通信するためにバス402に結合しうる。別のタイプのユーザ入力装置は、マウス、トラックボール又はカーソル方向キー等のカーソル制御装置416であり、方向情報及びコマンド選択をプロセッサ404に通信し、ディスプレイ412上のカーソルの動きを制御する。本入力装置414は、通常、第1軸(例えば、x)及び第2軸(例えば、y)の2つの軸で自由度が2つあり、これにより、装置は、平面内の位置を指定しうる。しかしながら、3次元(x、y及びz)カーソル移動を可能にする入力デバイス414もまた、本明細書において考えられることが理解されるべきである。
【0244】
本開示の特定の実施形態と整合的に、結果は、メモリ406に含まれる1又はそれ以上の命令の1又はそれ以上の配列決定を実行するプロセッサ404に応答して、コンピュータシステム400により提供されうる。当該命令は、記憶装置410等の別のコンピュータ読取可能媒体又はコンピュータ読取可能記憶媒体からメモリ406に読み込みうる。メモリ406に含まれる命令の配列決定の実行は、プロセッサ404に本明細書に記載のプロセスを実行させうる。あるいは、本教示を実施するために、ソフトウェア命令の代わりに、又は、ソフトウェア命令と組合わせて、ハードワイヤード回路を用いてよい。従って、本教示の実施形態は、ハードウェア回路とソフトウェアとの特定の組合わせに限定されない。
【0245】
本明細書で用いられる用語「コンピュータ読取可能媒体」(例えば、データ記憶装置、データ記憶装置など)又は「コンピュータ読取可能記憶媒体」は、実行のためのプロセッサ404への命令の提供に関与する任意の媒体をいう。当該媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形態をとってよい。不揮発性媒体の例としては、光学、固体、磁気ディスク、例えば記憶装置410が挙げられるが、これらに限定されない。揮発性媒体の例としては、メモリ406等のダイナミックメモリが挙げられるが、これらに限定されない。伝送媒体の例としては、バス402を構成するワイヤを含む、同軸ケーブル、銅線、及び光ファイバが挙げられるが、これらに限定されない。
【0246】
コンピュータ読取可能媒体の一般的な形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又は他の磁気媒体、CD-ROM、他のいかなる光学媒体、パンチカード、紙テープ、穴のパターンを有する他のいかなる物理媒体、RAM、PROM、及びEPROM、FLASH-EPROM、他の任意のメモリチップ又はカートリッジ、又はコンピュータが読込可能な他のいかなる有形媒体が含まれる。
【0247】
コンピュータ読取可能媒体に加えて、データは、実行のためにコンピュータシステム400のプロセッサ404に1又はそれ以上の命令の配列決定を提供するため、通信装置又はシステムに含まれる伝送媒体上の信号として提供されうる。例えば、通信装置は、命令及びデータを示す信号を備えるトランシーバを含みうる。命令及びデータは、1又はそれ以上のプロセッサに、本明細書の開示に概説される機能を実施させるように構成される。データ通信伝送接続の代表的な例としては、例えば、電話モデム接続、ワイドエリアネットワーク、ローカルエリアネットワーク、赤外線データ接続、NFC接続などが挙げられる。
【0248】
フローチャート、ダイアグラム、及び付随する開示を含む本明細書に記載の方法は、独立型装置としてコンピュータシステム400を用いて、又はクラウドコンピューティングネットワーク等の共有されたコンピュータ処理リソースの分散ネットワーク上で実施しうることは理解されるべきである。
【0249】
〔システム〕
本開示は、さらに、本開示の方法を実施するシステムに関する。代表的なシステムは、図16A~16Cの概略図に示される。図16Aは、本開示の診断方法を実施する例示的なシステムを示す。本明細書に示すように、データ収集ユニット510、マーカー識別ユニット520、診断ユニット550、及び関連する入力装置(図示せず)を介してデータを出力し、ユーザ入力を受信するディスプレイ412を含みうるシステム500が提供される。マーカー識別ユニット520は、ノイズ除去ユニット530及び分類エンジン540を含みうる。図16Aは、システムの1つの構成を示すことに留意されたい。当該コンポーネントの配向及び構成は、必要に応じて変更しうる。さらに、本システムに追加のコンポーネント(例えば、畳込ニューラルネットワーク)を追加しうる。当該様々なコンポーネント、それらの様々な操作、それらの様々な配向、及び互いの間の様々な関連について、以下に詳細に論じる。
【0250】
図16Aのデータ収集510ユニットは、被験体由来の遺伝学的一覧、例えば、被験体の血漿試料及び正常細胞試料を含む生物学的試料から配列決定された複数の遺伝学的マーカーを受け取って、被験体特異的ゲノムワイド遺伝学的マーカー一覧を生成するように、構成されかつ配置されうる。ある実施形態では、遺伝子マーカー一覧は、物理ディスク(例えば、コンパクトディスク、DVD)内の、又はインターネット(例えば、サーバ又はクラウドにより提供されるように)を介して、変異呼出フォーマット(VCF)ファイルで受信される。ある実施形態では、被験体の試料は、例えば、全ゲノム配列決定(WGS)を用いて配列決定され、配列ファイルは、データ収集ユニット510に直接送信される。ある実施形態では、データ収集ユニット510は、システム500内のさらなる分析のために、受信データを再フォーマットし、編成し、分類し、又は他の方法で再構成しうる。ある実施形態では、ユニット510は、例えば、ディスプレイ412、それに関連するデータ又はユーザ入力、それに関連するメモリ、又はコンピュータシステム400に関連する別のメモリ構成要素を介して、データを受信しうる。
【0251】
データ取得部により取得されたデータは、マーカー識別部520に転送しうる。マーカー同定ユニット520は、被験体に特有の遺伝子マーカーの一覧内のマーカーを分析する1又はそれ以上のエンジンを含みうる。ノイズ除去ユニット530は、ユニット520の構成要素の1つとして、BQ、MQ、断片サイズ、及び/又はVAFに基づきマーカーを重量測定して、人為的ノイズをフィルタリングするための1又はそれ以上のプログラムを含むことができ、これには、例えば、読取内位置(RP)、配列コンテキスト、存在量、配列決定深度、及び/又は配列決定誤差のうちの1又はそれ以上が含まれる。好ましくは、ノイズ除去ユニットは、断片サイズスコア及び/又はVAFスコアと統合されたスコア、例えば、ジョイント塩基品質スコア及びマッピング品質スコアに基づき、公定書における遺伝子マーカーの確率的分類を含む、最適受信者動作特性曲線を計算するプログラムを含む。ノイズ除去ユニットは、通常、ポテンシャルマーカーの中から無作為に選択された候補マーカーが無作為に抽出された制御マーカーよりも高い値を示す確率を表すROC曲線下面積を測定するプログラムを含みうる。分類器は、特定のビンニングマーカーが、ROC曲線に基づく「偶然」マーカーであるか、又は「真」マーカーであるかを評価するプログラムを含み得る。
【0252】
ある実施形態では、ノイズ除去ユニットは、確率スコア(PD)に基づきマーカーを計量しうる。好ましくは、本プログラムは、ベルヌーイ式PD=1-〔(1-TF)〕GEに基づき検出の確率(PD)を測定し、ここで、PDは検出の確率であり、TFは腫瘍画分であり、GEは患者DNAに存在するゲノム等価物の数である。各遺伝子マーカーは、PDに基づいて重み付けされてよく、ここで、最もPDが高いマーカーが含まれる。例えば、遺伝子マーカーのPD閾値は、少なくとも約0.60、例えば、少なくとも約0.65、0.70、0.75、0.80、0.90、0.95又はそれ以上、例えば、少なくとも約0.98に基づきビンディングされうる。従って、マーカーのPDが閾値を下回る場合、それは偽陽性として分類され得、分析には含まれない。
【0253】
マーカー識別ユニット520は、例えば、マーカーがノイズと関連する可能性を検査しうる分類エンジン540を含んでよい。分類器は、エラーマーカー(例えば、PCR又は配列決定によるエラー)を適応的に認識しうるアルゴリズム又はニューラルネットワークを含む分類スキームを含んでよい。1つの具体的な実施形態では、分類ユニット540は、腫瘍特異的低存在量マーカーの正確な検出に影響し得る配列決定ノイズを適応的に及び/又は体系的にフィルタリングする深層畳込ニューラルネットワークを含む。CNNは、マーカー同定ユニット520内に別個のエンジンとして提供されてよく、又は、例えば、マーカー同定ユニット520と診断ユニット550との間に別個のユニットとして提供されてよい。CNNの特徴(図16Aには示されていない)は、以下に詳細に説明される。
【0254】
最後に、ノイズフィルタリングされ、CNNにより処理されるマーカーを含む被験体特異的特徴は、診断ユニット550にファイルとして提供され得、診断ユニットは、被験体特異的特徴とがん特徴との間の一致を示す統計スコアに基づき、疾患(例えば、腫瘍疾患)を診断するように構成されかつ配置される。診断ユニットは、がんパターンを含むリポジトリ、例えば、がんにおける体細胞変異のカタログ(COSMIC)データベース又は肺がん研究のためのラテンアメリカ・コンソーシアム(CLICaP)データベースを含みうる。診断ユニット550は、既知のがん変異パターン(例えば、COSMICのパターン1~30のいずれか)と被験体特異的変異パターンとの間を比較する1又はそれ以上のソフトウェア又はアルゴリズムを含んでよい。当該比較ソフトウェアの代表的な例は、例えば、個々のマーカーのレベルでの信頼性推定値の測定、並びに2、5、10、20、50、100、200、500、1000以上、例えば、5000個の固有マーカーを含むプールを含む。代表的な方法は、線形最適化(上記)を用いたZスコア信頼水準の推定、又はコサイン類似関数(上記)を用いた正規化確率密度関数(PDF)の類似性の確認を含む。
【0255】
診断エンジンの出力は、例えば、ユーザレビュー用に表示412に出力しうる。ある実施形態では、出力は、未加工の信頼区間(CI)スコア又は順序スコア(例えば、1~10の尺度におけるスコア、10は可能性が高く、1は被験体が腫瘍疾患を有する可能性が低いスコア)を含んでよい。
【0256】
方向付けに関して、図16Aのシステム500のマーカー識別ユニット520は、データ収集ユニット510に通信接続されうる。さらに、マーカー識別ユニット520(及び本明細書に記載)の部分として示される各構成要素(例えば、エンジン、モジュール等)は、ハードウェア、ファームウェア、ソフトウェア、又はそれらのいかなる組合わせとして実装されうる。様々な実施形態では、マーカー同定ユニット520は、データ収集ユニット510を有する統合計測システムアセンブリとして実装しうる。すなわち、ユニット520及びユニット510は、同一のハウジングアセンブリ内に収容され、従来の装置/構成要素接続手段(例えば、シリアルバス、光ケーブル、電気ケーブルなど)を介して通信しうる。様々な実施形態では、マーカー識別ユニット520は、例えば、データ収集ユニット510により取得された画像データを分析のマーカー識別ユニット520へ送信することを可能にするLAN又はWAN接続を介して、光、シリアルポート、ネットワーク又はモデム接続を介して、データ収集ユニット510に通信接続される独立設置型計算装置(図16に示す)として実装されうる。様々な実施形態では、マーカー同定部520の機能は、WAN(又は同等物)接続を介してデータ取得部510に通信接続される共有コンピュータ処理リソースの分散ネットワーク(クラウドコンピューティングネットワークなど)上で実現しうる。例えば、マーカー識別ユニット520の機能を分割して、アマゾンウェブサービス(商標)等のクラウド処理サービス上の1又はそれ以上のコンピューティングノードに実装しうる。
【0257】
図16Bは、本開示の診断方法を実施する第2例示システムを示す。図16Bに示すように、例示システム100は、それを必要とする被験体の遺伝子スクリーニングのために構成されかつ配置される。図16Bを参照すると、システム100は、分析ユニット110及び演算ユニット140を備えうる。分析ユニット110は、プレフィルタエンジン120及び補正エンジン130を含みうる。当該システムコンポーネント及び関連エンジンは、以下でさらに詳解する。
【0258】
再び図16Bを参照すると、分析ユニット110のプレフィルタエンジン120は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する被験体特異的ゲノムワイドの読取一覧を受け取るように構成されかつ配置されうる。本明細書のワークフローの記載のように、様々な実施形態により、生物学的試料は、腫瘍試料を含むことができ、読取一覧は、各々、単一の塩基対長の読取を含みうる。
【0259】
また、プレフィルタエンジン120は、人為的部位を読取一覧からフィルタリングするように構成及び配置することもできる。本明細書のワークフローの記載のように、様々な実施形態により、フィルタリングは、参照健常試料のコホートにわたって生成された反復部位を読取一覧から除去すること、及び/又は生物学的試料における生殖細胞系変異を同定すること、及び/又は正常細胞試料の腫瘍試料と末梢血単核細胞との間の共有された変異を生殖細胞系変異として同定すること、及び前記生殖細胞系変異を読取一覧から除去することを含みうる。
【0260】
分析ユニット110の補正エンジン130は、エンジン120からの出力を受け取るように構成及び配置しうる。補正エンジン130は、少なくとも1つのエラー抑制プロトコルを用いて、読取のゲノムワイドの一覧からのノイズをフィルタリングして、前記読取のゲノムワイドの一覧用にフィルタリングされた読取セットを生成するように構成及び配置しうる。
【0261】
本明細書のワークフローの記載のように、様々な実施形態により、前記少なくとも1つのエラー抑制プロトコルは、一覧内のいかなる単一ヌクレオチド変異が人為的変異である確率を計算し、かつ、前記変異を除去することを含みうる。
【0262】
本明細書のワークフローの記載のように、様々な実施形態により、確率は、マッピング品質(MQ)、変異体塩基品質(MBQ)、読み込み位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせからなる群から選択される特徴の関数として計算しうる。
【0263】
本明細書のワークフローの記載のように、かつ、様々な実施形態により、少なくとも1つのエラーサプレッションプロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一DNA断片の独立した複製間の不一致試験、及び/又は所与の重複ファミリーの大部分にわたる不一致時に、人為的変異が同定及び除去される重複コンセンサスを用いて、人為的変異を除去することを含みうる。
【0264】
システム100の演算ユニット140は、補正エンジン130からの出力を受け取り、予め決定された変異誘発プロセスに関連する特定の変異パターンとの比較に基づき、フィルタリングされた読取セットを用いて、被験体特異的なパターンを編集するように構成及び配置しうる。
【0265】
演算ユニット140はまた、被験体の生物学的試料が、被験体に特異的な特徴を介して、がん関連変異パターン曝露値のバックグラウンドの変異パターンとのコホートの比較に基づき、がん関連変異パターンを含むという信頼性推定値を統計的に定量するように構成されかつ配置されうる。演算ユニット150は、被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値が所与の閾値を超える場合に、被験体のがんをスクリーニングするようにさらに構成及び配置しうる。
【0266】
システム100はまた、図16Bに示すように、ディスプレイ150を含みうる。ディスプレイは、演算ユニット140からの出力を受け取るように構成及び配置しうる。出力には、被験体/使用者のがんスクリーニングに関するデータを含めることができる。あるいは、システム100は、ディスプレイを除外してよく、代わりに、コンピュータユニット140からのデータ出力を、システム100の外部のいかなる形式の記憶装置若しくはディスプレイ装置又は位置に送信してよい。また、本明細書に記載されるように、システム100の構成要素は、1つの単一ユニットに統合でき、又は、図16Bに示されるよりも別個の物理ユニットに分割しうる。さらに、システム100は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの部分としうる。
【0267】
図16Cは、本開示の診断方法を実施する第3例示システムを示す。図16Cに示すように、例示システム100は、それを必要とする被験体のがんの遺伝子スクリーニングを行うように構成されかつ配置される。システム100は、分析ユニット110及び演算ユニット150を備えうる。分析ユニット110は、ビンニングエンジン120、プレフィルタエンジン130、及び正規化エンジン140を含みうる。当該システムコンポーネント及び関連エンジンは、以下でさらに詳解する。
【0268】
再び図16Cを参照すると、ビンニングエンジン120は、被験体の生物学的試料から複数の遺伝子マーカーに関連する被験体特異的の読取のゲノムワイドの一覧を受け取るように構成されかつ配置されうる。本明細書のワークフローの記載のように、様々な実施形態により、第1生物学的試料は、腫瘍試料を含むことができ、第1読取一覧は、コピー数変異(CNV)を含みうる。
【0269】
ビンニングエンジン120は、読取一覧を複数のウインドウに分割し、ウインドウごとに一組の特徴を計算するように構成及び配置しうる。特徴は、ウインドウ当たりの中央の深度のカバレッジとウインドウ当たりの代表的な断片サイズを含みうる。
【0270】
プレフィルタエンジン130は、人為的部位を読取一覧からフィルタリングするように構成及び配置しうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。
【0271】
分析ユニット110の正規化エンジン140は、エンジン130からの出力を受け取るように構成及び配置しうる。正規化エンジン140は、読取のゲノムワイドの一覧用のフィルタリングされた読取セットを生成するために、読取一覧を正規化するように構成及び配置しうる。正規化方法は、本明細書中で詳細に議論され、そして意図されるいかなる組合わせで用いられて、議論されるように読取を正規化しうる。
【0272】
システム100の演算ユニット150は、正規化エンジン140からの出力を受け取り、ウインドウ当たりの特徴のセット間の線形関係を計算し、回帰モデルを用いて計算された関係を推定腫瘍画分(eTF)に変換して、フィルタリングされた読取セットを用いて推定腫瘍画分を計算するように構成及び配置しうる。演算ユニット150は、また、被験体に特有の前記読取のゲノムワイドの一覧を横断するウインドウ当たりの特徴の計算されたセットの関数として、1又はそれ以上の統合的数学モデルに基づき推定腫瘍画分を計算するように構成されかつ配置されうる。演算ユニット150は、推定された腫瘍画分が経験的閾値を超える場合に、がんについて被験体をスクリーニングするようにさらに構成及び配置しうる。回帰モデル、積分数学モデル、及び経験的閾値は、本明細書中で詳細に議論される。
【0273】
システム100はまた、図16Cに示すように、ディスプレイ160を含みうる。ディスプレイは、演算部150からの出力を受け取るように構成及び配置しうる。出力には、被験体/使用者における残存病変の検出に関連するデータを含めることができる。あるいは、システム100は、ディスプレイを除外してよく、代わりに、コンピュータユニット150からのデータ出力を、システム100の外部の任意の形式の記憶装置又はディスプレイ装置又は位置に送信してよい。また、本明細書に記載されるように、システム100の構成要素は、1つの単一ユニットに統合でき、又は、図16Cに示されるよりも別個の物理ユニットに分割しうる。さらに、システム100は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの部分としうる。
【0274】
〔畳込ニューラルネットワーク(CNN)〕
本開示は、さらに、順序付けノイズを適応的に及び/又は体系的にフィルタリングするために、畳込ニューラルネットワーク(CNN)、例えば、エンジンを利用するシステム及びプログラムに関する。
【0275】
本開示はさらに、ゲノム読取における体細胞変異を含む腫瘍マーカーを検出するプログラムを含むコンピュータ読取可能な記憶媒体に関し、当該プログラムは層状畳込ニューラルネットワークを含む。
【0276】
当技術分野で公知の、畳込ニューラルネットワークは、一般に、処理及び分類/検出の高度な形態を、最初に、例えば読取における反復配列等の低レベルの特徴を探し、次いで、一連の畳込層を通してより抽象的な概念に進むことにより達成する。CNNは、一連の畳込、非線形、プール(又はダウンサンプリング、後述)、及び完全接続層を通してデータを渡し、出力を得て、これを行いうる。ここでも、出力は、データを最もよく記述する単一のクラス又はクラスの確率であってよく、又はデータ上の物体を検出する。
【0277】
CNN内の層では、第1層は一般に畳込層(conv)である。この第1層は、一連のパラメータを用いて、読取の代表的なアレイを処理する。データ全体を処理するのではなく、CNNはフィルタ(又はニューロン又はカーネル)を用いてデータサブセットの集合を分析する。サブセットは、配列内のフォーカルポイントと周囲のポイントを含む。例えば、フィルタは、32×32の表現で、5×5の領域(又は領域)のシリーズを検査しうる。当該領域は受容野という。フィルタは、一般に、入力と同じ深度であり、32×32×3の寸法を有する表現のフィルタは、同じ深度(例えば、5×5×3)であろう。上記例示的な寸法を用いて実際の畳込工程は、入力データに沿ってフィルタをスライドさせ、フィルタ値をデータの元の表現値と乗算し、要素ごとの乗算を計算し、当該値を加算して、表現の検査された領域のための単一の数値に到達することを含む。
【0278】
5×5×3フィルタを用いて、本畳込工程の完了後、28×28×1の寸法の活性化マップ(又はフィルタマップ)が得られる。用いられる各追加の層について、空間的寸法は、2つのフィルタを用いて、28×28×2の活性化マップが得られるように、より良好に保存される。各フィルタには、一般に、最終データ出力に必要な特徴識別子をともに示す固有の特徴がある。当該フィルタを組合わせて用いると、CNNは、データ入力を処理して、各表現に存在する当該特徴を検出しうる。従って、フィルタが曲線検出器として機能する場合、データ入力に沿ったフィルタの畳込は、曲線の可能性が高い(高加算要素毎の乗算)、曲線の可能性が低い(低加算要素毎の乗算)、又は特定の点における入力体積が曲線検出器検出器フィルタを活性化するものを提供しない場合のゼロ値に対応する活性化マップ中の数字のアレイを生成する。このように、Conv内のフィルタ(チャネルともいう)の数が多いほど、活性化マップ上で提供される深度(又はデータ)が多くなり、そのため、より正確な出力につながる入力に関する情報が増える。
【0279】
CNNの精度とのバランスは、結果の生成に必要な処理時間と電力である。換言すれば、フィルタ(又はチャネル)の数が多いほど、畳込を実行するのに必要な時間と処理能力が高くなる。従って、CNN法の要件を充足するフィルタ(又はチャネル)の選択及び数は、利用可能な時間及び電力を考慮しつつ、可能な限り正確な出力を生成するように特に選択されるべきである。
【0280】
さらに、CNNがより複雑な機能を検出できるようにするために、追加のConvを追加して前のConvからの出力(例えば、活性化マップ)を分析しうる。例えば、第1Convが曲線やエッジ等の基本的な特徴を探す場合、第2Convは、より複雑な特徴を探索しうる。これは、以前のConv層で検出された個々の特徴の組合わせでありうる。一連のConvsの提供により、CNNは、徐々に高いレベルの特徴を検出でき、最終的には、特定の望ましい物体の検出確率に到達する。さらに、Convsスタックが互いに重畳し、以前の活性化マップ出力の分析により、スタック内の各Convレベルが縮小されるため、各Convは当然に広い受容野を分析し、それにより、CNNは、目的の物体の検出の際、拡大される表現空間に対応しうる。
【0281】
CNN構造は、一般に、入力ボリューム(データ)の畳込用の少なくとも1つの処理ブロックと、畳込解除(又は逆畳込)用の少なくとも1つの処理ブロックとを含む、処理ブロック群からなる。さらに、処理ブロックは、少なくとも1つのプールブロック及び非プールブロックを含みうる。プールブロックは、解像度のデータを縮小してConvで利用可能な出力を生成するのに用いうる。これは、計算効率(効率的な時間と電力)を提供し、CNNの実際の性能を改善しうる。当該プール、すなわちサブサンプリングブロックは、フィルタを小さくし、計算上の必要条件を妥当にする。当該ブロックは、出力を粗くし(受入れ可能なフィールド内で空間情報を失うことがある)、入力のサイズから特定の要因のみ低減しうる。
【0282】
プール解除ブロックを用いて、当該粗出力を再構成し、入力ボリュームと同寸法の出力ボリュームを生成しうる。非プールブロックは、活性化出力を元の入力体積寸法に戻す畳込ブロックの逆動作とみなしうる。しかしながら、非プールプロセスは、一般に、単に粗い出力を疎活性化マップに拡散するだけである。この結果を避けるべく、畳込解除ブロックにより、本疎活性化マップを高密度化し、さらに必要な処理の後、最終的に、入力ボリュームにより近いサイズ及び密度である最終出力ボリュームを生成する、拡大及び高密度活性化マップが生成される。畳込解除ブロックは、畳込ブロックの逆動作として受容領域内の複数のアレイ点を単一数に減少させるのではなく、単一の起動出力点を複数の出力と関連付けて、結果として生じる起動出力を拡大し、高密度化する。
【0283】
プールブロックを用いてデータを縮小でき、非プールブロックを用いて当該縮小活性化マップを拡大しうるが、畳込ブロック及び畳込解除ブロックは、別個のプールブロック及び非プールブロックがなくても、畳込/畳込解除及び縮小化/拡大化をともに構造化しうることに留意されたい。
【0284】
プール及び非プールプロセスは、データ入力で検出される対象物体依存性の欠点がありうる。プールは一般に、ウインドウの重複なしにサブデータウインドウを見てデータを縮小するので、縮小化につれて、空間情報の損失が明らかになる。
【0285】
処理ブロックは、畳込層又は畳込解除層と共にパッケージされる他の層を含みうる。これらは、例えば、整流線形単位層又は指数線形単位層を含むことができ、これらは、その処理ブロックにおけるConvからの出力を検査する活性化関数である。ReLU又はELU層は、Convに固有の関心被験体の特徴の積極的検出に対応する値のみを前進させるゲート関数として作用する。
【0286】
CNNは、基本構造の付与後、(関心被験体の)データ分類/検出の精度を高める訓練プロセス用に準備される。これには、逆伝搬(backpropagation)というプロセスが含まれる。本プロセスでは、訓練データセット、又はCNN訓練用試料データを用いて、最適な、つまり閾値精度に達するようにパラメータを更新する。逆伝搬は、一連の反復工程(訓練反復)を含み、これは、逆伝搬のパラメータに依存して、CNNを緩慢又は迅速に訓練する。逆伝搬工程は、一般に、与えられた学習速度により、フォワードパス、損失関数、バックワードパス、及びパラメータ(重み)更新を含む。フォワードパスは、CNNを通して訓練データを渡すことを含む。損失関数は、出力の誤差の尺度である。バックワードパスは損失関数の寄与因子を決定する。重み更新は、CNNを最適方向に移動させるフィルタのパラメータの更新を含む。学習速度は、最適到達用の各反復の重み更新の程度を決定する。学習率が低すぎる場合、訓練に時間がかかりすぎて処理能力が高くなりうる。学習速度が速すぎる場合、各重み更新が大きすぎ、所与の最適値又は閾値を正確に達成しえない場合がある。
【0287】
逆伝搬プロセスは、訓練を複雑にする場合があるため、学習速度がより低く、訓練開始時により特異的で慎重に決定された初期パラメータが必要となる。当該複雑さの1つは、各反復終了時に重み更新があると、Convsのパラメータの変更によるネットワークの深層増幅である。例えば、上記ように、CNNにより高いレベルの特徴分析が可能な複数のConvがある場合、最初のConvへのパラメータ更新は、後続の各Convで乗算される。正味の効果は、所定のCNNの深度に依存し、パラメータに対する最小変化の影響が大きいことである。本現象を内部共変量シフトという。
【0288】
一般に、本開示のCNNは、順序付けノイズを適応的及び/又は体系的にフィルタリングしうる。ある実施形態では、CNN構造は、トリヌクレオチドコンテキストが変異誘発に関与する別個の特徴を含むという本発明者の認識に基づき設計された。従って、CNNは、サイズ3の知覚野を用いて、ある位置の全ての特徴(カラム)を覆う。2つの連続畳込層の後、2の受容野と2の歩数がある最大プールによりダウンサンプリングが適用され、エンジンのモデルは狭い空間領域で最重要の特徴のみを保持するように強制される。得られた構造は、3ヌクレオチドのウインドウを越えて畳込されると空間的不変性が維持され、読取断片をおよそ8ヌクレオチドの領域に相当する25セグメントに折りたたむことにより「マッピング品質」を捕捉する。最終分類は、最後の畳込層の出力を、S字状完全接続層に直接適用して行われる。CNNは、多層パーセプトロン又はグローバル平均プールでなく単純なロジスティック回帰層を採用して、ゲノム読取における位置関連の特徴を保持する。
【0289】
エンジンの訓練には、まず、様々な肺がん患者とそれに対応する全身性エラープロファイルがサンプリングされる。訓練の目的は、真の体細胞変異の高感度検出を可能にし、また全身性エラーで生じた変異候補を拒絶する訓練スキームを用いることである。本訓練のため、各々が同じ患者由来の完全腫瘍試料及び健常組織試料を含む4つの試料を別個に、様々なタバコ喫煙肺がん患者から選択した(例えば、表3を参照)。例えば、3つの当業界で公知の呼出(STRELKA、LOFREQ、及びMUTECT)のコンセンサスは、体細胞変異の最終呼出用に採用されうる。次に、当該変異を支持する読取値を腫瘍読取値として用いて、エンジンを訓練する。
【0290】
モデルエンジンが配列決定の人為体の区別の学習を確実にするために、正確に一度だけ発生する変異を含む健常試料から読み取る。当該変形は複数の読取では支持されないため、それらは体系的エラーの産物である確実性が高いとみなしうる。次いで、低品質の変異体をフィルタリングした。例えば、変異の塩基の品質スコアが20未満の場合、又はマッピング品質が40未満の場合(例えば、BQ20、MQ40)はフィルタにかけてよい。当該閾値は、純粋に例示的であり、読取値の検査により同定されうる。必要に応じて、低品質の試料を訓練エンジンに含めてよい。訓練セットのサブセットは、バリデーションデータセットとして用いてよく、これは、訓練の進捗をモニタリングするため、及び独立した読取でモデルの性能を検証するために用いうる。
【0291】
本明細書の様々な実施形態では、コンピュータ読取可能媒体が提供され、コンピュータ読取可能媒体は、コンピュータ実行可能命令を含み、プロセッサは、プロセッサにより実行されると、被験体の試料から受け取った遺伝子マーカー一覧で、低存在量の腫瘍特異的マーカーを同定する方法又は一組の工程を、プロセッサに実行させる。ここで、遺伝子マーカーは、ゲノム読取では、SNV(好ましくはSNV)、CNV(好ましくはSCNV)、インデル、及び/又はSV(好ましくは転座、遺伝子融合、又はそれらの組合わせ)を含む。好ましくは、媒体は、一端に単一の完全接続層がある層状畳込ニューラルネットワーク(CNN)を含み、CNNは、3ヌクレオチドウインドウ上に畳込む場合に空間的に不変であり、読取った断片を、各々がほぼ8ヌクレオチドの領域を表す複数のセグメントに折りたたむことにより、マッピング品質を維持し、CNNは、一覧の中の各遺伝子マーカーを測定する。例えば、本開示のCNNは、一端に単一の完全接続層と、出力が、2及び2の刻みの受容野を備える最大プールによりダウンサンプリングされる連続した畳込層とを含む8つの層を含むことができ;8層のCNNは、サイズ3の知覚野を用いて、読取断片を約25個の個々のセグメントに折り畳み、ゲノム読取中の位置にあるカラム上に畳み込む場合、空間的不変性を維持し;最後の畳込層の出力を、マーカーの最終的な分類が行われるシグモイド状の完全接続層に直接適用する。
【0292】
CNNは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基当たりの品質スコアの統合を同時に捕捉する読取表示を含みうる。部分的には、本配置及び構造のため、本開示のCNNは、最先端の変異呼出装置MUTECTと比較して、読取ゲノムにおける体細胞変異を含む腫瘍特異的マーカーを約1.12倍~約12倍の濃縮でもたらす。
【0293】
本開示はまた、プロセッサにより実行されると、プロセッサに、診断を必要とする被験体のがんを診断する方法又は一組の工程を実行させる、コンピュータ実行可能命令を含むコンピュータ読取可能媒体にも関し、当該媒体は、畳込ニューラルネットワークを含む。ある実施形態では、CNNは、腫瘍関連パターン及びPCR/配列決定エラーパターンを含む訓練データセットを用いて開発され、CNNを訓練して、がん変異支持的読取と人為的変異(エラー)読取とを区別し;所望により、がん患者由来の実際の試料又はデータセットから得られた合成血漿を用いて検証する。被験体の試料から受け取った遺伝子マーカーの一覧で、遺伝子マーカーはゲノム読取においてSNV(好ましくはsSNV)、CNV(好ましくはsCNV)、インデル、及び/又はSV(好ましくは転座、遺伝子融合、又はそれらの組合わせ)を含む。
【0294】
ある実施形態では、CNNの現像に用いられる数学的最適化工程は、非負最小二乗(NNLS)を用いることを含む。他の代表的な方法には、クロスエントロピーグローバル最適化法、黄金セクション探索法、又はそれらの組合わせが含まれる。
【0295】
好ましくは、本開示のCNNは、一端に単一の完全接続層を含み、ここで、プログラムは、3ヌクレオチドウインドウ上に畳み込む場合、空間的不変性を維持し;そして、読み取られた断片を、各々が約8ヌクレオチド領域を表す複数のセグメントに折りたたむことにより、マッピング品質を維持する。
【0296】
ある実施形態では、本開示のシステムは、読取断片を約25個の個々のセグメントに折り畳むことによりマッピング品質を維持する8層のCNNを含み、これは、サイズ3の知覚野を用いて、ゲノム読取中の位置で、すべての特徴(カラム)にさらに折り畳む。cfDNA中の遺伝子マーカー(例えば、sSNV)を分析する文脈では、CNNは、2つの連続した畳込層を含んでよく、その出力は、2の受容野及び2の歩数を備える最大プールによりサンプリングされ、最終畳込層の出力は、マーカーの最終分類が行われる、シグモイド完全接続層に直接適用される。
【0297】
上記方法で構成されたCNNは、マッピングによる真の体細胞変異及びエラーにおける空間的不変性を考慮すると同時に、読取全体にわたり塩基品質を維持し、アラインメントのゲノムコンテキスト、完全読取配列、及び塩基毎の品質スコアの積分を同時に捕捉する読取表示を提供する。
【0298】
本明細書に開示された実施形態は、既知のCNNに対していくつか利点がある。当該利点には、例えば、精度及び感度を大幅に向上させるCNNを提供することが含まれる。特に、本開示のシステム及びネットワークは、MUTECT等の当技術分野で公知のプログラムと比較して、約1.12倍~約12倍、例えば、約2倍、約3倍、約4倍、約5倍、約6倍、約7倍、約8倍、約9倍、約10倍、又はそれ以上読み取られた体細胞変異を含む腫瘍特異的マーカーの濃縮(出力精度対入力精度の比を測定する)を提供する。
【0299】
ある実施形態では、CNNは、汎用がんコホートにわたって深い学習アルゴリズムを用いて、真の腫瘍変異と人為的誤差とを識別する特徴の同定を含む。本アルゴリズムは、腫瘍患者から採取した試料中に検出された各個々の変異に信頼性推定値を割り当て、全ゲノムにわたり信頼性推定値を統合し、試料中の変異の特徴を分析するアルゴリズムを用いることで、当該機能を実行する。例えば、肺がんを診断する文脈では、アルゴリズムは、試料中の肺腫瘍パターンを分析しうる。同様に、UV誘発メラノーマを診断する文脈では、アルゴリズムは、試料中のUVパターンを分析しうる。同様に、乳がんを診断する文脈では、アルゴリズムは、患者試料中の乳腫瘍(BRCA)パターンを分析しうる。
【0300】
ある実施形態では、本開示のCNNは、当該技術分野で認識/登録された変異パターン、例えば、がん(COSMIC)データベースにおける体細胞変異のカタログに試料を横断して寄託変異パターンを用いて、NNLS分析を行いうるアルゴリズムを含む。本開示は、さらに、特定のゲノムアトラス、例えば、TCGA Pan-Cancerデータセットと統合された本開示のCNNに関する。
【0301】
様々な実施形態によれば、本開示のCNNは、汎肺がんコホート上で開発された深い学習アルゴリズムで訓練されうる。この場合、コホートには深層腫瘍患者及びPBMC(対照)に関するWGSデータを含めうる。教師付き学習を利用して、CNNは、真の腫瘍変異と人為的エラーを識別する特徴を同定して訓練されうる。このようにして得られたモデルは、がん患者(例えば、肺腺がんの早期患者)由来血漿試料で検出された個々の変異を推測し、信頼性推定値の割り当に利用しうる。次に、腫瘍検出用シグナルは、全ゲノムにわたり当該信頼性推定値を統合し、続いて、単一血漿試料中の特定のCOSMIC変異パターンの非負最小二乗(NNLS)を用いて、高感度検出用の新規分析方法を用いて誘導されうる。検出シグナルは、100個の無作為なバックグラウンドパターンについて推測された曝露値とCOSMIC変異曝露値との比較を用いて、信頼性についてさらに検証されうる。
【0302】
ある実施形態では、本開示のシステム及び/又は方法で用いられる機械学習(ML)方法は、深層畳込ニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、無作為フォレスト(RF)、サポートベクタマシン(SVM)、識別分析、最近傍分析(KNN)、アンサンブル分類器、又はそれらの組合わせを含む。
【0303】
本開示のシステム及び/又は方法は、例えば、被験体の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、又はより大きな%、90%又は95%でも、早期検出が可能となる。
【0304】
〔他のアプリケーション〕
上記方法で編集された患者報告は、インターネットを介して電子的に送信され、アクセスされうる。例えば、配列データの分析は、被験体の位置以外の場所で行われ得る。報告は、例えばインターネット可能コンピュータを介して、生成され、場合により注釈付けされ、被験体の所在地に送信される。注釈付きの情報は、医療提供者の他の薬物治療の選択肢の選択、保険会社への薬物治療の選択肢に関する情報の提供に用いうる。本方法には、NCCNがん臨床実務ガイドライン(商標)又は米国がん臨床協会(ASCO)の診療ガイドライン等など、疾患に対する薬物治療の選択肢への注釈付けが含まれる。報告書内で層別化された薬物治療の選択肢は、追加の薬物治療の選択肢を列挙して、報告書内で注釈付けができる。追加の薬物治療は、FDAが承認した適応外使用の薬物である。包括予算調整法1993(OBRA)の条項では、医療保障に、標準的な医学集に含まれる抗がん剤の適応外使用が包含されること要求する。注釈リストに用いられる薬剤は、CMSが承認した国立包括がんネットワーク(NCCN)、薬物及び生物一覧(商標)、トムソンマイクロメディックス薬物デックス(登録商標)、Elsevier金標準臨床薬物一覧、米国病院処方サービス一覧(登録商標)に記載するものがあげられる。
【0305】
ある実施形態では、薬物治療選択肢は、特定の状態の1又はそれ以上の分子マーカーでがんを治療するのに有用であり得る実験薬物を列挙して注釈付けしうる。被験薬は、インビトロデータ、インビボデータ、動物モデルデータ、前臨床試験データ、又は臨床試験データが利用可能な薬物であり得る。当該データは、CMS医療保障有益ポリシーマニュアルに掲載されるジャーナルに掲載された査読付き医学文献には、例えば、American Journal of Medicine, Annals of Internal Medicine,Annals of Oncology,Annals of Surgical Oncology,Biology of Blood and Marrow Transplantation,Blood,Bone Marrow Transplantation,British Journal of Cancer,British Journal of Hematology,British Medical Journal, Cancer, Clinical Cancer Research,Drugs,European Journal of Cancer,Gynecologic Oncology,International Journal of Radiation,Oncology,Biology,and Physics,The Journal of the American Medical Association, Journal of Clinical Oncology,Journal of the National Cancer Institute, Journal of the National Comprehensive Cancer Network(NCCN),Journal of Urology, Lancet, Lancet Oncology, Leukemia, The New England Journal of Medicine,or Radiation Oncologyに開示されうる。
【0306】
薬物治療の選択肢には、リストに記載された薬物とその薬物に関する科学的情報とを関連付ける電子系報告書上にリンクを提供して注釈付けができる。例えば、医薬品の臨床試験に関する情報へのリンクを提供しうる。報告がコンピュータ又はコンピュータのウェブサイトを介して提供される場合、リンクは、脚注、ウェブサイトへのハイパーリンク、ポップアップボックス、又は情報付きのフライオーバーボックス等である。レポート及び注釈付きの情報は、印刷形式で提供でき、当該注釈は、例えば、参照への脚注であってよい。報告書内の1又はそれ以上の薬物治療の選択肢への注釈付けの情報は、科学的情報を保存する営利団体により提供されることができる。医療提供者は、がん患者等の被験体を、注釈付きの情報に記載された試験薬で治療することができ、医療提供者は、注釈付きの薬物治療の選択肢にアクセスし、科学的情報を検索し(例えば、医学雑誌の論文を印刷)、それを保険会社に提出し(例えば、医学雑誌の論文を印刷)、その薬物治療に対する償還請求を行うことができる。医師は、償還を可能にするために、様々な診断関連グループ(DRG)コードのいずれかを用いることができる。
【0307】
薬物治療の選択肢には、薬物が作用する経路の他の分子成分に関する情報(例えば、薬物標的である細胞表面受容体の下流にあるキナーゼを標的とする薬物に関する情報)も注釈付けできる。薬物治療の選択肢には、1又はそれ以上の分子経路の構成要素を標的とする薬物に関する情報を注釈付けできる。経路に関連する情報の識別及び/又は注釈は、他社にアウトソーシング又はサブコントラクトしうる。
【0308】
注釈付き情報は、例えば、医薬品名(例えば、FDAが承認した適応外使用用医薬品、CMSが承認した一覧に記載される医薬品、及び/又は科学(医学)雑誌の論文に記載された医薬品)、1又はそれ以上の薬物治療選択肢に関する科学的情報、1又はそれ以上の薬物に関する科学的情報への1又はそれ以上のリンク、1又はそれ以上の薬物に関する臨床試験情報、薬剤に関する科学的情報のための引用への1又はそれ以上のリンク等であり得る。注釈情報は、レポート内のいかなる場所に挿入しうる。注釈情報は、レポート上の複数の場所に挿入しうる。注釈付き情報は、層別化された薬物治療の選択肢付近の項目に挿入しうる。注釈付き情報は、層別化された薬物治療の選択肢とは別頁の報告書に挿入しうる。層別化された薬物治療の選択肢を含まない報告にも情報を注釈付けしうる。
【0309】
本システムはまた、被験体(例えば、がん患者)から単離された試料(例えば、腫瘍細胞)に対する薬物の作用に関する報告を含みうる。がん患者からの腫瘍を用いたインビトロ培養は、当業者に公知の技術を用いて確立しうる。本システムはまた、上記のインビトロ培養及び/又は異種移植モデルを用いて、FDAが承認したオフラベル薬物又は実験的薬物のハイスループットスクリーニングを含みうる。本システムはまた、再発検出のための腫瘍抗原のモニタリングを含みうる。
好ましい実施形態では、注釈付き情報は、BRCAパターンに対するPARP阻害剤の効果の注釈、MSIパターンに対する免疫療法を含む、治療推奨を含み得る。
以下の非限定的な実施例を考慮して、本開示の上記実施形態をさらに説明する。
【0310】
〔実施例〕
本明細書に記載される構造、材料、組成物、及び方法は、本開示の代表的な例であることが意図されており、本開示の範囲は、実施例の範囲により限定されないことが理解されるであろう。当業者であれば、本開示は開示された構造、材料、組成物、及び方法に関する変形を用いて実施することができ、当該変形は本開示の範囲内であるとみなされることを理解するであろう。
【0311】
〔背景〕
高感度がん検出でのcfDNA存在量の限界の克服に、広範囲の配列決定深度を、配列決定に代替しうる。
上記データは、患者の血漿試料中の単一のsSNVの検出が、2つの連続した統計的サンプリングプロセスの結果であることを示す。第1プロセスは、通常血液試料中に存在する限られた数のゲノム等価物で変異断片がサンプリングされる確率を提供する。第2プロセスは、その存在量、配列決定深度及び配列決定エラー(シグナル対ノイズ)を前提として、試料中の変異断片を検出する確率を評価する。後者のプロセスは、科学コミュニティによる徹底的な調査と技術開発の焦点であるが(例:超深層エラーフリー配列決定プロトコル)、前者の確率論的プロセスはあまり取り上げられていない。しかし、低負荷疾患ctDNA検出では、上記のように両プロセスが重要な役割を果たす。標的sSNVを表す物理的断片が存在しない場合、理想的な超深層標的配列決定でさえ、がんシグナルを発見しえない。これは、当該アプローチの感度が低い原因の1つと考えられる(約40%、Rosenfeldら)。実際には、この問題は、1回の観察(変異読取)では確信ある検出に十分であることはまれであるという事実によりさらに複雑である。
【0312】
cfDNAサンプリングを、2つの集団由来のcfDNA断片、正常細胞由来のcfDNA断片と悪性細胞由来のcfDNA断片とを、腫瘍断片(TF)により定義される比率で混合したBernoulli試験としてモデル化して、所定のcfDNA試料中の変異体断片のサンプリングの確率を定式化した。従って、血漿試料中に存在するゲノム等価物は、患者循環中のcfDNA断片のプール全体の無作為なサンプリングを構成する。したがって、特定の置換を支持する血漿試料中の少なくとも1つの変異体断片をサンプリングする確率を、以下の:P=1-(1-TF)GEと定義しうる。ここで、Pは確率であり、TFは腫瘍分画であり、GEは患者のcfDNA中に存在するゲノム等価物の数に対応する。当該モデルでは、早期がんレジメンに関連するTF中の検出確率(TF<1%)は、低TFに対して急速に低下し、0.1%(1/1000)の頻度でさえ、検出確率は、0.65より低いと予測される(図3A)。当該限界は、1000のゲノム等価物(約6ngのcfDNA)を効率的に利用する完全配列決定の理想的条件下でも観察され、理想的なシグナル対ノイズである単一の支持DNA断片に基づく検出に基づくことが注目された。当該結果は、血漿サンプリング確率が、MRD及び早期がんステージ検出等の低TFレジメンでの変異検出に厳しい上限を課すことを示す。
【0313】
その反面、本モデルは、配列決定深度に関する本制限は、各SNVについてのBernoulli試験(Bernomial distribution over the Bernomil trial probability)を繰り返すことから生じる、幅の増加による検出部位(SNV)数の増加により効果的に克服できることも示す。本モデルは、Bin(N,P)の二項分布で表しうる。ここで、Nは試験部位の数(変異)を表し、P=1-(1-TF)GEは単部分位の検出確率である。重要なことに、数学モデルは、検出された部位の平均数並びに少なくとも1つの検出の確率を、固有のDNA断片の数(ゲノム等価物又はカバレッジ)、変異負荷(N、パネルサイズとしても使用可能)及びTF(図3B)の関数として予測する。当該モデルを利用して、20,000sSNV(ヒトがんの17%で見つかる約10の変異/mb)を統合して、TFが1:100,000であっても高い検出確率(0.98まで)が得られ、標準的な全ゲノム配列決定(WGS)で容易に達成できることがわかった(図3C
【0314】
関連適用
染色体異常の非侵襲的出生前検査(NIPT)
本開示はさらに、上記システム、方法及びアルゴリズムを用いた染色体異常の非侵襲的出生前検査に関する。好ましくは、NIPTは、図1C及び図1Eに概略を示したCNV/SV系のワークフローを用いて行いうる。本明細書では、非新規増幅及び欠失が、被験体の試料(例えば、羊水又は染色体異常が疑われる胎児を伴う妊娠女性由来の血液)の診断に呼び出され、用いられうる。本方法は、例えば図18E及び図18Fのように、独特のlog2/断片サイズ(胎児対正常なDNAに現れる同一の現象)の関係を利用して、感度及び特異性を高める。したがって、図1C及び図1Eのワークフローは、研究者又は臨床医が、胎児DNAから生成されたCNVにおいてのみ相関し、配列決定、アラインメント、GC人為体に対応するノイズに相関しない2つの情報源の組合わせが可能となる。従って、本開示の方法及びシステムは、たとえCNVセグメントに関する事前情報が容易に入手できなくてもデノボCNV検出を用いれば、臨床医がNIPTに対してより高い感度及び特異度を達成しうる。
【実施例0315】
〔体細胞変異分類子の設計〕
体細胞変異分類用モデルの設計には、偽陽性の体細胞変異につながりうる誤差の原因認識が重要である。真の変異は、読取位置にかかわらず、高い塩基品質を示す可能性が高い。同様に、真の変異の位置における読取塩基、参照塩基、及びアラインメント文字列(CIGAR)は、読取アラインメントとは独立する可能性が高い。より具体的には、真の体細胞変異は空間的に不変であることが期待できる。配列決定実験における全身性エラーは、読取位置に依存することがよく知られている。したがって、変異自体は空間的に不変でありうるが、通常、読取位置は不変でない。ミスマッピングにより生じるエラーは、反復配列又は非常に特異的な配列モチーフ(テロメアのTTAGGG等)を含みうる。したがって、モデルは、真の体細胞変異及びマッピングエラーの空間的不変性をともに正確に表すことができると同時に、読取全体にわたり塩基品質のモデルを維持することが望ましい。従って、読取対象の上の完全接続層に依存した分類を行う浅層畳込ネットワークでは、変異の不変性を捕捉しえないであろう。
【0316】
本発明者らは、当該制約及び/又は要件を認識して体細胞変異分類エンジンを設計した。畳込ニューラルネットワークを利用する当該エンジンは、空間依存性の補正に、VGG構造により刺激された終端に単一完全接続層がある8層の畳込ニューラルネットワークを利用する(Simonyan&Zisserman,arXiv:1409.1556,revised April 10,2015;Alexandrov et al.,Nature,500(7463):415-421,2013)。ある位置の全特徴(カラム)を、サイズ3の知覚野を用いて畳込を行った。2つの連続畳込層の後、2歩の受容野と2歩の歩数を持つ最大プールによりダウンサンプリングを適用し、モデルを狭い空間領域で最重要特徴のみを保持するように強制した。本構造からは2つの主な利点が期待された。すなわち、1)3ヌクレオチドウインドウ上で畳込を行う場合に空間的不変性が維持される、及び2)読取断片をおよそ8ヌクレオチド領域に相当する25セグメントに折りたたむことで「高いマッピング品質」が得られたことである。最終畳込層の出力を、最終分類で用いられるS字状完全接続層に直接適用した。読取位置に関連する特徴を保持するため、多層パーセプトロン又は広域平均プールに代えて単純ロジスティック回帰層を用いた。
【0317】
迅速開示されるモデル及び訓練スキームを、エンジン(Engine)という。当該エンジンは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基品質スコアの統合を同時に捕捉する最初の読取表示を用いる。エンジンの性能は、読取とそのアラインメントを横断した特徴統合が、高深度でカバーしたものに加え、試料の完全な変異プロファイルを用いて、新たな体細胞変異呼出セットを作成するものでもある。
【0318】
独立に選択された肺がんデータセットでモデルの予測性能を調べて、当該迅速モデルの性能を評価した。データセットは、同じ患者の健康なWGSデータと組合わせた。モデルは、F1スコア、精度、感度、及び特異性を指標として評価した:
感度 =TP/ (TP+FN)(式1)
精度 =TP/ (TP+FP)(式2)
特異度 =TN/ (TN+FN)(式3)
F1スコア=2x(精度x再呼出)/ (精度+再呼出)(式4)
【表1】
【0319】
モデルは、0.961の検証セットの平均F1スコアを管理することが分かった。本モデルでは、腫瘍コントロールのF1スコアが0.71となる。本モデルは依然として腫瘍制御に感度が高いが、検証データセットと比較して特異性が若干低下した。しかし、独立した肺検体の場合、F1は0.92であり、特異性は高かった(表1)。がん制御の精度及び特異性が低く、エンジンがタバコ喫煙肺がんと関連する特異的変異パターンを学習する一方で、一般的なエラーパターンも学習したことが示された。
【0320】
メラノーマ患者(CA0040;表1)由来の追加試料を分析に用いて、エンジンの学習能力をさらに調べた。メラノーマ試料は、通常、タバコ曝露に関連する変異プロファイルと比較して、紫外光への曝露で顕著に異なる変異プロファイルを示す(図8A)。エンジンモデルは、黒色腫試料で0.71のF1スコアを達成する。このように、モデルは依然として感度が高いが、メラノーマ試料の精度及び特異性が低く、エンジンがタバコに曝露された肺がんに関連する特異的変異パターンを学習する一方で、両腫瘍タイプに適用可能なより一般的な配列決定人為的構造パターンも学習したことが示された。
【0321】
上記問題をさらに検討するため、以下のデータセット:(i)訓練に含まれる肺がん患者試料(CA0046、検証データセット)、(ii)訓練に含まれない肺がん患者(CA0044)、及び(iii)黒色腫患者(CA0040)由来の読取を含む真のがん変異変異体読取と配列決定人為体との間のトリヌクレオチドコンテキスト頻度の差異を調べた。結果を図8Bに示す。
【0322】
予想されるように、タバコ関連肺腺がん試料は、タバコ関連変異パターンと一致するC>A塩基変換が高濃縮を示すことが注目された(図8B)。従って、エンジンは腫瘍変異データ(すなわち、腫瘍特異的変異サイン)に広く存在する特異的配列コンテキストを学習しうるという仮説が立てられた。本仮説を検証するために、各トリヌクレオチドコンテキストにおける真のがん変異対配列決定人為的の頻度の差が測定されたが、これはこれらの同じ読取に対する平均モデル予測と相関した。モデルが(肺)がん特異的配列コンテキストを学習したのであれば、3ヌクレオチド配列の頻度とモデルの出力との間に高い相関があることが期待されると推論された。推論と一致して、CA0046(訓練に含まれるPearsons r=1)とCA0044(訓練に含まないPearsons r=0.95)ともに、モデル予測とトリヌクレオチド濃縮の間に高い相関が認められた。結果を図8Cに示す。
【0323】
配列コンテキストに依存しない正確な分類(代替シナリオ)の結果として高相関性があるかを直接調べるために、黒色腫試料(CA0040)を用いて同様の分析を実施した。結果は、三ヌクレオチドコンテキストとモデル予測との間の正の相関(Pearsons r=0.64)が持続することを示し、変異パターン単独以外の特徴に由来する正確な分類が示された。これは、タバコに曝露された肺がんデータよりも有意に低かった。本知見は、肺がん特異的変異の特徴に関するモデル学習と一致する。本知見により、メラノーマ関連の体細胞変異の検出に特化した別のモデルの訓練につながった。上記NSCLCの手順を用いて、3名のメラノーマ患者の追加データセットを検討した。メラノーマ検証データセット及び独立したメラノーマ試料のF1スコアが高いことから、観察結果は性能に関してほぼ同じであったが、モデルをNSCLCデータ(対照)に適用した場合のF1スコアは低かった。
【0324】
〔合成血漿中の低腫瘍画分におけるエンジン感度及び精度〕
低腫瘍画分設定における本システム及び/又は方法の性能を評価するために、エンジンの精度及び感度を、最先端呼出、MUTECT、SNOOPER、及びSTRELKAと比較した。図9Aが示す結果は、エンジンで達成された優れた感度、特に低い腫瘍画分で達成された感度を示す。対照的に、MUTECTは、どの腫瘍画分でも合成試料中の3つ以上の変異を検出できず、変異予測に成功した場合は必ず、腫瘍画分で同じ呼出があった。したがって、エンジンは、MUTECTに対する感度を200倍以上増加させる一方で、腫瘍画分0.01の単純フィルタに対する精度を向上させた。これらの驚くほど良好な結果に基づいて、本開示のシステム及び方法を、実際の血漿試料との関連で適用した。
【0325】
また、エンジンと簡易呼出方式PILEUPの比較も行った。結果を図9B及び図9Cに示す。比較評価は、エンジンを用いて実行されたフィルタにわたり実行された。比較評価はさらに濃縮という別の測定基準を用いて行われ、これはフィルタを意味する場合に腫瘍対正常変異の比率の増加に関する情報を提供する。濃縮係数は、以下の:
〔濃縮〕=〔精度out〕/〔精度in〕...(式5)
式5を用いて計算することができる。
【0326】
PILEUPは、擬似形質における体細胞変異の検出する感度としては十分であるが、全ての変異を含む。これは、濃縮度と精度の測定基準に反映されない。パイプラインの次の段階で、変異頻度によるフィルタを用いた。MF及びBQ+MQフィルタは、実際には腫瘍読取の試料を枯渇させるが、TF=0.01の場合、濃縮の増加が観察された。これは、フィルタが評価パイプラインに有用であると同時に、CNNへの提示前にノイズの大部分の除去にも有用であることを示す良好な指標である。CNNフィルタを適用すると、ノイズのオーダーの追加(第3)の低減が観察された。最も重要なことは、感受性の低下が伴うのは約25%のみであることである。完全なパイプラインでは、腫瘍画分0.01及び腫瘍画分0.0001の両方で30倍の濃縮(PILEUPを上回る;緑色ライン)が観察された。データを図9Cに示す。
【0327】
〔エンジンを用いた実際のcfDNA試料における体細胞変異の解析〕
開示の方法及びシステムが実際の臨床現場で安定であることを確認するために、2つの異なるタイプの試料で実際の評価を行った。1つは健常者(識別子:BB600;BB601)由来のcfDNA試料であり、2つは手術前に採取された早期肺がん患者(識別子:BB1122;BB1125)由来のcfDNA試料である。実際の診療所では、検査を実施する臨床医は患者に関する変異情報を入手しえなかった。しかし、BB1125は手術を受けたため、臨床医は標準的な変異呼出パイプラインを用いて真の体細胞変異を測定できた。当該呼出を用いて、cfDNAから得られた読取と組合わせて、エンジンの感度、精度、及び濃縮度の第2定性的推定値が得られうる。
【0328】
フィルタリングパイプラインを適用後、試料中に存在する413個の変異のうち27個が成功裏に捕獲されたことが分かった。最も顕著なのは、対照群では偽陽性が266例から3例に抑制されたことである(表2参照)。その結果、パイプライン全体では実際には腫瘍シグナルが約50%減少するが、対照的に、エンジンは試料を約1.7倍濃縮することが示された。
【表2】
【0329】
結果は、前処理工程の違いがBQMQフィルタの不良な設定をもたらした可能性を示す。本試料では、塩基品質スコアが20であることが余りにも緩いと推測された。
【0330】
全身性エラーにより生じる変異候補を拒絶しつつ、高感度で真の体細胞変異を検出しうる訓練スキームを用いることが有利であることを認識しつつ、様々な肺がん患者をサンプリングし、その全身性エラープロファイルを一致させた。本計画の実施のための訓練に、様々な喫煙肺がん患者から4つの代表的試料を選択した(表3)。
【表3】
【0331】
追加の喫煙肺がん患者を検査に供した。試料は処理され、ニューヨークゲノムセンターのCancer Allianceから提供された。当該標本には、完全腫瘍標本と同じ患者由来の健常組織標本がある。STRELKA、LOFREQ、及びMUTECTの3呼出コンセンサスを選んで、体細胞変異の最終呼出を行った。次いで、訓練用腫瘍読取として、当該変異を支持する読取を用いた。
【0332】
配列決定人為体に対する区別の学習モデルが望ましかったので、変異が生じた健常試料から読取を一度正確に採取した。当該変異体は複数の読取では支持されないため、全身性エラーによる可能性が高い。次いで、当該低品質変異体をフィルタリングし、変異での基本品質スコアが20未満の場合、又はマッピング品質が40未満の場合(BQ 20、MQ 40)をフィルタリングした。当該閾値BQMQ値は、検査で決定したが、より品質が低い試料を訓練に含められるように、ウインドウが生成された。訓練セットの小サブセットは、検証データセットとして用いるために追加的に準備した。当該データセットは、訓練の進捗状況をモニターし、独立した読取(独立した変異ではない)でもモデル性能の検証に用いられる。次に、モデルの性能を試験肺データセットで評価した。
【0333】
〔合成血漿〕
低頻度での体細胞変異を検出するモデル性能を試験するため、試験肺試料(CA0044、表3)由来の4つの模擬血漿試料を、患者の健常DNA及び患者の腫瘍DNAから無作為にサンプリングして生成した。サンプリングは、35%をカバーし、0%、0.01%、0.001%及び0.0001%の腫瘍混合物を用いて実施した。安定性のために3つの無作為シードを用いて混合を行った。cfDNAでの体細胞変異率として約0.1の閾値率を選択した。したがって、合成血漿読取法を調製する場合、混合物中でカバーされる読取の1/10th未満で支持される変異のみが選択された。
【0334】
低腫瘍画分設定における本開示の方法及び/又はシステムの性能を評価するため、精度、感度、及び濃縮度等のパラメータを、エンジンと最先端の低周波数呼出側、MUTECTとの間で比較した。さらに、観察されたミスマッチを許容するPILEUPという簡易呼出方法を含めて比較した。PILEUP後、エンジンに用いたのと同じフィルタを繰り返し適用し、各工程の性能を測定した。本方法で実装されたフィルタは、MF(変異頻度)であり、PILEUPが血漿中で予想されるよりも頻繁に起こる(変異が10%起こる)PILEUPの読取をフィルタリングする、BQMQである。BQMQは、変異の塩基品質が20未満又はマッピング品質が40未満の読取をフィルタリングし、最後に、エンジンを用いたインスタントフィルタリング方法を用いる。
【0335】
〔cfDNA試料の評価〕
合成試料でエンジンを評価後、実際の血漿DNA試料での性能を試験した。分析には対照試料(BB600;BB601)及び喫煙肺がん患者試料(BB1125又はBB1122)を用いた。当該患者には腫瘍生検も実施されていたため、cfDNAにも存在する生検からの変異と呼ばれるすべてのMUTECTを仮定して真の陽性を測定した。当該呼出を用いて、合成プラズマ(前出)と同じ分析を行った。
【0336】
〔感度、精度、濃縮度の評価〕
対照については、被験体BB1125の変異に対してすべての測定を行った。
【0337】
〔特徴構成〕
配列決定読取、アラインメント、及びゲノムコンテキストを完全に捕捉するため、読取の空間指向表示を作成した(図5)。参照の挿入について、参照における欠失を「N」として、空間的アラインメントを維持した。参照中の欠失について、欠失の位置を、「N」として読取配列決定中に配置した。さソフトマスクされた領域は、読取が、読取マッピング部分に隣接し、参照コンテキストが、ソフトマスクされた領域の末端まで連続した「N」で破壊されるように、セグメント化される。これは、ソフトマスクされた領域の信号が強力であることを保証するため、そして第2に、読取がその位置合わせから独立するという概念を維持するため、という二つの理由から行われる。
【0338】
セグメント(例えば、+/25塩基)は、ゲノムコンテキストから読取の両側に挿入された(図6)。この結果、150塩基の読取に対して16×200塩基の行列が得られ、読取が150塩基でない場合、余分なコンテキスト塩基が追加される。最大塩基品質スコアは40(p=99:99%)に設定し、スコアは間隔[0,1]とした。読取(ゲノム関連)でカバーされない塩基は、基本品質スコアがゼロであった。読取における欠失は、読取における2つの隣接位置の平均である品質スコアを受け取った。
【0339】
〔ハイパーパラメータと実施の詳細〕
当該モデルを、初期学習速度=:1及び運動量=:9のミニバッチ確率勾配ディーセントを用いて訓練した。妥当性確認の損失がHeら(In Proceedings of the IEEE conference on computer vision and pattern recognition,pp.770-778,2016)に概説されるようにプラトーに達すると、学習率は10倍に低下した。256のミニバッチサイズを用いたが、これは検証ロスと訓練速度の間の最良のトレードオフを提供すると思われたためである。64個のフィルタ塩基を用いて、各ダウンサンプリング層の後に2倍にして、各段階で一貫した数のパラメータを維持した。これは、32塩基のフィルタモデルが十分に機能しないことを観察した後に経験的に選択された。各畳込層の後、バッチ正規化を適用した後、整流線形ユニットを適用した。各プール層の前に、降下確率=0.5の脱落を適用した。
【0340】
エンジンは、バランスのとれた腫瘍分画設定で強い性能を示した。さらに、シミュレートした血漿でも性能の大部分が維持された。また、当該エンジンは0.0001の腫瘍画分の2倍の濃縮を達成したことから、配列決定ノイズ自体よりも10倍頻度が低くても関連する体細胞変異の捕捉能があることが示唆された。対照的に、MUTECTは、cfDNA設定で機能するように意図的に設計されないツールであり、すべての腫瘍画分で2未満の予測しか行わない。図9A~9C参照。
【0341】
エンジンの詳細な結果を表4に示す。
【表4】
【0342】
〔他の実施形態〕
以上から、当該システム及び方法は、完全な早期検出エンジンに発展させうる。エンジンは、完全接続されたシグモイド層を用いて読取の位置で捕捉するが、読取上の相対的位置を捕捉するのにより適した構造がある。さらに、予備試験で除外されたDNA断片由来の読取対に含まれる追加情報源を用いて、起点鎖(ワトソン又はクリック)を決定し、DNA断片の大きさを推定できる。ctDNAの断片サイズ分布は、通常の循環健常DNAとは異なることが観察された(Underhill et al.,PLoS genetics,12(7):e1006162,2016)。
【0343】
上記システム及び方法は、リカレントニューラルネットワーク(RNN)と統合できる。RNNは、長さをバイオインフォマティクスの特徴として、最大1kbの距離でも利用しうる強力なツールであることが示された(Hill et al.,bioRxiv,pp.200758,2017)。ロジスティック回帰層の代わりにリカレントニューラルネットワークを統合すると、本開示の方法及びシステムの性能をさらに向上させる可能性がある。
【実施例0344】
〔腫瘍特異的低存在量腫瘍マーカーの検出及びその検証方法及びシステム、並びにがん診断におけるその使用〕
本開示のシステム及び方法は、がんの早期診断で有用である。当技術分野で公知の、転移性がん(疾患負荷が高く、ctDNAが有意に高値である)とは対照的に、早期がん又は残存疾患の検出の設定では、ctDNAの存在量のため、標的配列決定技術の使用が制限される。腫瘍負荷が低い状況での既知の限定量のcfDNAを考慮して、まず、cfDNA抽出の最適化の可能性を調べた。第一に、試料獲得及び個人間変動に由来する変動を低減するため、商業的に入手可能な抽出キット及び方法を、健常被験体及び造血幹細胞採取を受けるがん患者のプラスマフェレーシスを通して、大量の血漿採取(約300cc)を通して生成された均一なcfDNA材料を用いて比較した。大量の血漿により、同じcfDNA入力上で複数の方法及びプロトコルパラメータを試験することができ、収率及び品質の微差を正確に測定しうる。
【0345】
Capital Biosciences(Gaithersburg,MD,USA;Catalog#CFDNA-0050)、Qiagen(Germantown,MD,USA)、Zymo(Irvine,CA,USA;Catalog#D4076)、OmegaBIO-TEK(Norcross,GA,USA;Catalog#M3298)、及びNEOGENESTAR(Somerset,NJ,USA,Catalog#NGS-cfDNA-WPR)からのキット及び試薬を当該比較試験に用いた。当該基っと及び試薬は、製造業者の指示に従って統一的に用いて、大容量血漿試料1mlについて抽出を実施した。複数の血漿アリコートを並行して処理し、方法間及び方法内のばらつきを評価した。回収した各cfDNA試料の収率及び純度は、蛍光定量(総質量)、UV吸光度(塩及びタンパク質汚染物質の検出)、及びオンチップ電気泳動(サイズ分布及びgDNA汚染)を用いて測定した。
【0346】
結果は、OmegaBIO-TEKのMAG-BINDcfDNA抽出キットが、他の全ての試験方法を上回ったことを実証した。付着物質のキャリーオーバーを低減し、cfDNAの回収を改善するために、製造業者のプロトコルの各工程の系統的な最適化をさらに行った。
【0347】
次いで、最適化抽出プロトコルを早期肺がん由来の試料に適用した。本コホートには、術前の肺がん初期血漿11検体及び良性患者(対照)から採取した血漿4検体が含まれる。例示的な患者特性を図11に示す。最適抽出にもかかわらず、低疾患負荷試料のcfDNA収量は低く、0.13ng/mL~1.6ng/mLの範囲の患者間で高い変動があった。当該データは、cfDNA配列決定に利用可能なDNA分子の数が少なく、かつ可変することを確認する。
【0348】
〔高感度がん検出におけるcfDNA存在量の限界を克服するに、広範囲の配列決定深度が、配列決定に代替しうる〕
上記のデータは、患者の血漿試料中の単一sSNVの検出が、2つの連続した統計的サンプリングプロセスの結果であることを示す。第1プロセスは、通常の血液試料中に存在する限定数のゲノム等価物で、変異断片がサンプリングされる確率を提供する。第2プロセスは、その存在量、配列決定深度及び配列決定エラー(シグナル対ノイズ)を前提として、試料中の変異断片を検出する確率を評価する。後者のプロセスは、科学コミュニティによる徹底的な調査と技術開発の焦点であるが(例:超深層誤差フリー配列決定プロトコル)、前者の確率論的プロセスはあまり取り上げられていない。しかし、低負荷疾患ctDNA検出では、上記のように両プロセスがともに重要な役割を果たす。標的sSNVを表す物理的断片が存在しない場合、理想的な超深層標的配列決定でさえ、がんシグナルを発見しえない。これは、当該アプローチの感度が低い原因の1つと考えられる(約40%、Rosenfeldら)。実際には、本問題は、1回の観察(変異読取)では確信ある検出にはほとんど不十分であるという事実のため、さらに複雑である。
【0349】
所定のcfDNA試料中の変異体断片のサンプリングの確率を定式化するため、cfDNAサンプリングは、2つの集団に由来するcfDNA断片、正常細胞に由来するcfDNA断片と悪性細胞に由来するcfDNA断片とを、腫瘍断片(TF)により定義される比率で混合したBernoulli試験としてモデル化した。従って、血漿試料中に存在するゲノム等価物は、患者循環中のcfDNA断片のプール全体の無作為サンプリングを構成する。したがって、特定の置換を支持する血漿試料中の少なくとも1つの変異体断片をサンプリングする確率は、以下の:P=1-(1-TF)GEと定義することができる。ここで、Pは確率であり、TFは腫瘍分画であり、GEは患者のcfDNA中に存在するゲノム等価物の数に対応する。迅速モデルは、早期がんレジメンに関連するTF中の検出確率(TF<1%)は、低TFに対して急速に低下し、0.1%(1/1000)の頻度でさえ、検出確率は、0.65より低いと予測される(図3A)。当該限界は、1000のゲノム等価物(約6ngのcfDNA)を効率的に利用する徹底的な配列決定の理想的条件下でも観察され、理想的なシグナル対ノイズがある単一支持DNA断片に基づく検出に基づくことが注目された。当該結果は、血漿サンプリング確率が、MRD及び早期がんステージ検出等の低TFレジメンでの変異検出に厳しい上限を課すことを示す。
【0350】
その反面、本モデルは、配列決定深度に関する本制限は、各SNVについてのBernoulli試験(Bernomial distribution over the Bernomil trial probability)を繰り返すことから生じる、幅の増加による検出部位(SNV)数の増加により効果的に克服できることも示す。本モデルは、Bin(N,P)の二項分布で表しうる。ここで、Nは試験部位の数(変異)を表し、P=1-(1-TF)GEは単部分位の検出確率である。重要なことに、数学モデルは、検出された部位の平均数並びに少なくとも1つの検出の確率を、ユニークなDNA断片の数(ゲノム等価物又はカバレッジ)、変異負荷(N、パネルサイズとしても使用可能)及びTF(図3B)の関数として予測する。本モデルを利用して、20,000sSNV(ヒトがんの17%で見つかる約10の変異/mb)を統合することにより、TFが1:100,000であっても高い検出確率(0.98まで)が得られ、標準的な全ゲノム配列決定(WGS)で容易に達成できることがわかった(図3C)。
【0351】
〔ゲノムワイド統合sSNV検出のインシリコ検証〕
迅速モデルは、サイト数の増加が検出確率の有意な増加をもたらすことを示す。この予測を検証するために、肺腺がん、乳管腺がん(乳房)、皮膚黒色腫、尿路上皮がん(膀胱)及び骨肉腫(図式Aの完全臨床的詳細、図1F)からの高悪性度腫瘍を含む様々ながんである11人のがん患者由来の腫瘍及び正常なWGSデータのインシリコ混合物を用いて、cfDNA検出をシミュレートした。
【0352】
すべての試料を、~80倍の腫瘍WGS及び~40倍のPBMC WGSで深層配列決定した。インシリコ混合物を作製するため、腫瘍及び正常WGS読取値を様々な割合で混合し、異なるTF(0.00001、0.00005、0.0001、0.0005、0.001、0.005、0.01)及びカバレッジ(0.01)の患者特異的仮想血漿試料のデータセットを得た。本データセットは、ダウンサンプリングプロセス中に用いられた様々な無作為シードを通して得られた各条件について5つの独立した反復であった。残存疾患の設定での検出をシミュレートするため、原腫瘍及び生殖細胞系のWGSデータについて体細胞変異呼出を行い、sSNVの患者特異的一覧を得た。次いで、インシリコ血漿シミュレーション混合物中の腫瘍関連変異部位の数を、患者特異的sSNV一覧のための少なくとも1つの支持体の検出を通して測定した。また、多くの部位を統合すると、上記シグナルの検出を制限し得る配列決定エラーに起因するノイズが蓄積されることが判明した。WGSに基づくcfDNA検出でのノイズの程度を推定するため、腫瘍WGSからの読取の混合を伴わないダウンサンプリングされた正常読取の相補的データ塩基が生成された(TF=0、20倍及び35倍の範囲での20反復)。当該データは、シグナル対ノイズ測定を可能にし、統合型全ゲノムSNV検出が、様々な腫瘍タイプに対して20倍のカバレッジを有する高変異負荷腫瘍において、TF>1:2000を確実に検出できることを実証する。
【0353】
当該データはまた、TFの低下によりノイズの相対的寄与が高まるにつれて、配列決定エラー由来のノイズが、検出部位数とTFの間の関係をどのように形成するかを示す。推定配列決定ノイズと統合された数学モデル予測との比較は、全ての患者とがんタイプに対して異なるTFとカバレッジ値に高い一致を示した。当該解析はまた、変異負荷(N)とカバレッジが高まるとどのように検出シグナルが高まるかを示し、1%TF中の検出数は40K変異負荷(メラノーマ)から8K変異負荷(非タバコ肺)の間で変動した。
【0354】
推定されたノイズの基礎となる変数を特徴づけ、最適化フィルタを開発することで、信号対ノイズ及び検出感度を大幅に改善できる。変異負荷、カバレッジ、がんの種類等の他の独立変数によるノイズ分布のモデル化である。結果は、以前発表された配列決定エラー確率(~1/1000塩基)を反映するがん型独立エラー確率を示す。また、検出シグナルは、ごくわずかな生殖系列関連ノイズと患者に特異的な関係を示した。
【0355】
データは、配列決定誤差が塩基品質(BQ)、マッピング品質(MQ)、断片長及び可変対立遺伝子頻度(VAF)等のパラメータと関連することを示した。従って、配列決定エラー確率を低減するため、最適受信機点解析(ROC)を通して、結合塩基品質(BQ)とマッピング品質(MQ)最適化フィルタを開発し、測定エラー確率を3FC(約3×10-4)低減した。WGSの深度が35Xの腫瘍ではTFが1/20,000に低下しても、本フィルタを35Xのカバレッジを軽減して適用すると、マーカーの検出が可能となる。当該データは、cfDNAの存在量とは無関係に(例えば、1ngの入力で100XWGSが可能)、非常に低いTFでもがんの検出が可能になりうるため、患者を一致させる統合型ゲノムワイドsSNVプロファイリングの使用を支持する。さらに、実験結果と数学モデルの間の高い一致は、検出部位数(患者特異的sSNV)の測定が血漿TFの推定に変換でき、早期検出設定における定量的TFモニタリングが可能になることを示す。
【0356】
特定のモチーフ、パターン等に関する情報の利用を含む、品質測定基準を超えた追加のパラメータを、残存するノイズをフィルタリングするためにさらに利用することができる。代表的な方法には、例えば、断片サイズフィルタリングの実施(例えば、約200bp以下の断片のみが考慮される)及び可変対立遺伝子頻度(VAF)フィルタリング(例えば、2%、5%、10%等の閾値を超えるVAFを有する対立遺伝子のみが考慮される)が含まれる。タバコ曝露及びUV曝露の種々の変異パターンを各々、図12Aの上パネル及び下パネルに示す。肺腫瘍、乳房腫瘍及びメラノーマ試料で差次的に発現されたCOSMICパターンを図12B及び図12Cに示す。
【0357】
〔適用〕
その後、本高感度デノボ変異検出を、5人の早期患者の術前に配列決定された血漿に適用し、全ゲノムcfDNA変異検出を生成した。ゲノムワイド変異データを集計し、各患者の変異一覧を計算し、その後、畳込ニューラルネットワーク(CNN)等の新しい機械学習アルゴリズム及びツールを用いて、高感度変異パターン検出の新しい分析方法を用いた。
【0358】
CNNは、まず2方向からの戦略の応用に基づき、深層学習アルゴリズムは、真の腫瘍変異と人為的エラーを識別する特徴を同定するために教師付き学習を利用して、汎用肺がんコホート(深部腫瘍とPBMC WGSがある患者5例)上で訓練された。次に、得られたモデルを用いて、肺腺がん早期患者の早期検出血漿検体で検出された個々の変異を推測し、信頼性推定値を割り当てた。第2に、検出シグナルは、全ゲノムワイドの当該信頼性推定値の統合を通して導出され、続いて、単一血漿試料中の特異的COSMIC変異パターンの非負最小二乗(NNLS)を用いた高感度検出用の新しい分析方法が続いた。パターン検出は、100の無作為バックグラウンドパターン(zスコア>2 STD)について推測された曝露値とCOSMIC変異曝露値との比較を用いて信頼性についてさらに検証された。
【0359】
図13で示される結果は、本開示のCNNが早期腫瘍検出で特に有用であることを示す。本方法により、肺がん患者ではタバコ特異的パターンが検出され、黒色腫患者ではUV特異的パターンが検出され、乳がん患者ではTFが1/1000以下でもBRCA特異的パターンが検出された。タバコ曝露リスクのある被験体における現在の肺がんCTスクリーニングの低陽性適中率(PPV)を改善するため、本方法を、CTスクリーニングで陽性として検出された5人の早期肺患者及び4人の良性結節からの血漿試料に適用して本方法の能力を評価した。本データから、早期肺がん検体では陽性検出が示され、良性結節では(偽)陽性検出が少なく、PPVの改善が示された。
【0360】
次に、患者特異的特徴スコア(zスコア)を、結節検出用の陽性又は陰性(ND)等の組織病理学的特徴を含む、喫煙者又は非喫煙者、喫煙歴(例えば、各患者(喫煙者)が喫煙したパック年数)等の患者特性にマッピングした。図14Aに示す結果は、タバコに曝露された患者からの早期がん血漿中にタバコパターンが検出されるが、良性結節又は喫煙歴のない患者では検出されないことが明らかである。本方法から、タバコ曝露歴のある早期肺患者4例中3例でタバコパターンを検出できたが、良性肺結節切除を受けた3例の非喫煙者肺患者及び血漿試料ではパターンは検出されなかった。1つを除いた全ての病期で、肺がん患者の検出におけるタバコパターンの特異度は少なくとも67%であり、特異度は高病期(例えば、IIIa期以降)患者で100%に近接した。
【0361】
〔PPV改善のCTスクリーニングと診断法の併用〕
CTスクリーニング方法の低い陽性適中率(PPV)の改善に、上記スクリーニング方法を、CTスクリーニングの有無にかかわらず、タバコに曝露されたリスクのある被験体の診断/予後判定に適用した。第1に、マーカー及びパターン(SNV、CNV、インデル及び/又はSVを含む)を、全ゲノム配列決定(WGS)を介して新規に検出し、上記方法を用いてマーカーをノイズ/エラーについて分析する。このように、早期NSCLC患者(I期及びII期)から採取した計30の術前検体を分析する。さらに、施設のCT系スクリーニングプログラムにより良性病変が認められた30歳及びタバコ曝露が一致する患者に対してWGSを実施する。cfDNAデータ由来の検出シグナルは、CTスクリーニングの陽性適中率がcfDNA情報で改善されるかを決定するため、盲検化法でCT系読取と統合される。本コホートは、現在の方法では約40%であったPPVの20%の効果サイズが、統合cfDNA及びCTスクリーニングでは約60%に高まることを検出し、検出性が推定される。試験の結果に応じて、より大規模なプロスペクティブな施設内臨床試験を実施しうる。
【0362】
〔考察〕
データは、本開示の方法及び/又はシステムが、特に、腫瘍(ED)の早期検出に用いる低存在量マーカーの検出という文脈において、既存の方法よりも優れていることを示す。早期がん検出では、適合する腫瘍DNAが利用できず、がんの新規変異検出に挑む必要がある。本開示のゲノムワイド統合方法は、タバコ、UV光、APOBEC多活性、BRCA変異、PARP活性、又はMSIへの曝露等の特異的変異誘発プロセスに関連する変異パターンの検出に、sSNV配列コンテキスト情報を利用する。当該パターンは、腫瘍体細胞変異で特異的に現れ、PBMC体細胞変異では、試験した全ての試料において完全に欠如した。
【0363】
低TF試料のcfDNAでの高感度で特異的デノボ変異の検出は、既存の変異検出アルゴリズムでは根本的に困難である。全技術的公知の方法は、特定のゲノム部位における腫瘍及び正常DNAの比較を指向する。ゲノム中の変異部位の検出の検出性能は、配列決定ノイズの源(配列決定エラー、マッピングエラー等)から当該複数の観察を区別する統計的枠組部位をカバーする複数の支持読取の観察から得られる。しかし、早期検出では、変異したctDNA量は、配列決定深度(又は特定の部位の配列決定に利用可能な断片数)よりかなり小さく、したがって、せいぜい1つの支持的読取が各部位で観察されるにすぎない。例えば、仮想血漿データへのMUTECTの適用は、コールスタットファイルに含まれるすべての検出(変異体ろ過前)を考慮しても、TFの減少に伴って真の腫瘍関連体細胞変異の急速減少を示すが、シングルサポーティング読取による検出を考慮する場合、当該変異部位がより多く呼出される。
【0364】
低TFでの無エラーデノボ単一ctDNA検出を可能にするため、がん変異由来の交互読取と配列決定人為体由来の読取とを区別しうる新しい枠組を要する。変異パターンは通常トリヌクレオチドコンテキストを利用するが、最近のデータは、配列コンテキストが本範囲をはるかに超えて広がる可能性があり、監視付き特徴選択での捕捉の困難性を示唆する。
【0365】
本開示は、配列決定エラーをフィルタリングする新規な方法及びパイプラインを提供する。例えば、特異的変異プロセスから生じた腫瘍は、異なる変異パターンを生じ、これは、人為体の実際のノイズ除去に利用され得、被験体特異性、感度、及び精度が改良された濃縮化マーカーを提供する。本開示のニューラルネットワークは、機械学習を利用し、これにより、当該技術分野で公知の呼出の上記制限を克服できる。機械学習構造は、がん改変配列決定読取及び配列決定エラーにより改変された読取を区別し、全身配列決定ノイズを特異的及び適応的にフィルタリングする。本文脈では、本開示の深層畳込ニューラルネットワークは、多数の特徴を監視された方法で統合する人為的知能プラットフォームを提供し、これはゲノム配列読取の文脈における分類問題の解決に特有である。CNNの設計に用いられるアプローチは、困難な変異の再考に基づく。MUTECT等の当技術分野で公知の変異呼出とは異なり、本開示のCNNは、真の変異体を含む読取と、配列決定人為体を含む読取とを区別できる。本開示のCNNは、多数の腫瘍及び正常なWGSデータの収集を用いて、何百万もの真の変異読取及びエラーを訓練しうるため、静的ではなく動的である。
CNNの上記特徴は、多くの患者の広範な様々な腫瘍型の検出に関連する高感度及び特異性により証明されるように、当該技術分野で公知の変異呼出より有利である。
【0366】
〔肺がん検出への本開示の方法及びシステムの適用〕
上記結果は、ゲノムワイドの情報の統合が、疾患状態を示す低存在量マーカーの検出に関連する主要な障壁を克服できることを示す。本開示の方法及びシステムを分析方法に適用することは、検出限界の打破となり、1/10,000の低い腫瘍画分の検出を可能にし、配列決定深度に応じて改善する。当該利点は、肺がんの検出及び手術後及び/又は治療後の患者の残存病変の検出の分野で特に有用である。
【0367】
前悪性肺病変との関連では、低浸潤病変の検出は早期NSCLCと比較してさらに困難でありうる。注目すべきことに、がん変異の大部分は、悪性転換前に起こると考えられるため、前悪性増殖も存在する可能性が高い。従って、本明細書に記載されるシステム及び方法は、特に肺腫瘍との関連において、前悪性病変の検出にも用いうる。
【0368】
〔SNVに基づく方法での断片サイズの特徴の直交的統合〕
cfDNA断片分布には、血液循環中のDNA分解の独特のプロファイルがある。健常cfDNA試料の断片サイズ分布を図17Aに示す。腫瘍由来の循環DNA断片は、主に造血細胞(免疫細胞)のアポトーシス由来の「正常」DNA断片と比較して、断片サイズがより短い。乳腫瘍cfDNA(赤色及び紫色)は、正常なcfDNA試料と比較して断片サイズシフトを示す(図17B)。最初のヌクレオソームの質量中心(COM)を計算すると(約170bpのピーク)、TFに直線的に対応するより低いCOMへのシフトが示される。ヒト腫瘍異種移植モデル(PDX)をマウスに用いると、腫瘍由来の循環DNA(赤色、ヒトにアラインメント)は、正常由来の循環DNA(黒色、マウスにアラインメント)よりも有意に短かった。図17C参照。
【0369】
単一のDNA断片が腫瘍又は正常な起源に由来する確率を定量化できる安定モデルを作成するために、結合ガウス混合モデル(GMM)を用いて循環DNAの断片サイズ分布を特徴付けた。循環腫瘍DNAモデル(赤破線)は、ヒトゲノムに整列した循環DNAのみを用いて、発明者らのPDX試料から抽出した循環腫瘍DNAにGMM分析を適用して推定した。循環正常DNAモデル(灰色破線)を、健常ヒトボランティアの血漿試料からの循環DNAにGMM分析を適用することにより推定した。次いで、結合対数オッズ比(黄色線)を用いて、特定の循環DNAの断片サイズが腫瘍又は正常由来である確率を推定した。データを図17Dに示す。
【0370】
患者特異的変異検出を用いて、当該DNA断片がその断片サイズ分布及びGMM結合対数オッズ比に基づいて腫瘍由来であるかどうかを確認できる。信頼性を高め、バッチ効果バイアスを減少させるために、患者間相互検出を用いて患者内コントロールを開発した。例えば、検出された腫瘍変異(灰色、一致した検出)の下に示される特定の患者では、断片サイズが小さいサイズにシフトする傾向を示す。同じ患者試料で、他の患者と関連する変異が検出され(赤色の患者間検出)、当該人為的検出は同じタバコパターンのコンテキスト情報パターンを共有するが、真の検出ではない。興味深いことに、当該患者間検出は、断片サイズシフトが低い傾向を示さず、それらの断片サイズ分布は、真の腫瘍検出と有意に異なった(Wilcoxonランク和、P値3×10-9)。GMM結合対数オッズ比を用いると、患者特異的変異の検出は腫瘍由来(結合対数オッズ比=0.3)であり、一方、同じ患者試料からの人為的変異は正常由来(結合対数オッズ比=-0.35)であることが確認される。3人の患者の代表的なデータを図17Eに示す。
【0371】
〔CNVマーカーとの関連における断片サイズの直交的統合〕
cfDNA断片分布は、血液循環中のDNA分解のために独特のプロファイルがある。正常なcfDNA試料は、断片サイズの分布の変化を示す(上記図17A及び図17B参照)。ここで、質量中心分布(COM)を分析するコンテキストにおいて、最初のヌクレオソームのCOM(約170bpのピーク)の計算は、TFに線形に対応する低COMへのシフトを示す。
【0372】
患者間の断片サイズの質量中心(COM)の比較分析は、感度に関して制限されうるし、またバッチ効果を生じやすい。患者内の局所的断片サイズCOMは、エピジェネティックなパターンやコピー数事象で変化しうる。実際、増幅セグメントでは、(腫瘍DNAの割合の増加のため)腫瘍分画が局所的に増加する結果、局所的断片サイズの質量中心(COM)が減少する。一方、欠失部位では、(腫瘍DNAの割合の減少に起因して)腫瘍分画が局所的に減少した結果、局所的な断片サイズの質量中心(COM)が増加する。データを図18Bに示す。
【0373】
ゲノムを横断するすべてのウインドウの推定Log2及びCOM値を用いて、Log2/COM線形モデルの中央値質量中心(COM)、勾配及びR^2を計算した。当該特徴は、それ自体、腫瘍DNAの画分に対応する(図18C)。より具体的には、データは、Log2/FS相関(R2)が腫瘍DNAの画分と強い関係があることを示す(図18D)。
【0374】
この図18Dの各ドットは、患者試料に対応する。X軸は、本患者のすべての1MbpビンのすべてのLog2とCOM値の間の相関(R^2)を表す。この値は標本TF(y軸)の直交推定と強い相関を示す。健常血漿試料中のLog2とCOMの相関をチェックすると、がん患者(図18E)で見られる相関値と比較して、相関(R^2=0.008)(図18F参照)は極めて低い。
【0375】
本開示は、以下の非限定的な実施形態に関する。
実施形態1:被験体のがんを遺伝子スクリーニングする方法であって、以下の:
(A)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧(compendium)を受け取る工程であって、前記遺伝子マーカー一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(Indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)(1)前記読取塩基品質(BQ)、(2)前記読取マッピング品質(MQ)、(3)前記読取の推定断片サイズ、及び/又は(4)前記読取の推定対立遺伝子分画(VAF)の関数としてのノイズ(PN)の検出確率に基づき、前記一覧中の各読取をシグナル又はノイズとして統計的に分類して、人為的読取を前記一覧から除去する工程;(c)前記一覧中の各読取に関連する配列決定ノイズを、機械学習(ML)モデルを利用して、適応的及び/又は体系的にフィルタリングして、がん関連変異特徴及びPCR又は配列決定エラー関連特徴を区別する工程;(d)ノイズ除去工程(c)及びフィルタリング工程(b)に基づいて、一覧内の複数の真の読取を含む被験体特異的特徴を編集する工程;(e)被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間の一致の程度に基づいて、循環腫瘍DNA(ctDNA)を含むという信頼性推定値を統計的に定量する工程;及び(f)被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値が所与の閾値を超える場合、被験体をがんについてスクリーニングする工程を含む。
【0376】
実施形態2:被験体の生物学的試料が、血漿、脳脊髄液、胸水、眼液、便、尿、又はそれらの組合わせを含む、実施形態1に記載の方法。
【0377】
実施形態3:がんパターンがCOSMICタバコパターン、UVパターン、乳がん(BRCA)パターン、マイクロサテライト不安定性(MSI)パターン、アポリポタンパク質B mRNA編集酵素、ポリ(ADP-リボース)ポリメラーゼ(PARP)多活性化パターン、触媒性ポリペプチド様パターンを含む、実施形態1及び2のいずれか1項に記載の方法。
【0378】
実施形態4:がんパターンが、組織特異的クロマチン接近性パターン等の組織特異的エピジェネティックパターンに関連するパターンを含む、実施形態1~3のいずれかに記載の方法。
【0379】
実施形態5:がんに関連する変異の特徴(真陽性)とPCR又は配列決定エラーに関連する特徴(偽陽性)とを識別する機械学習(ML)モデルを利用して、前記一覧内の各読取に関連する配列決定ノイズをフィルタリングする工程をさらに含む、実施形態1~4のいずれかに記載の方法。
【0380】
実施形態6:前記機械学習モデルは、深層畳込ニューラルネットワーク(CNN)、反復ニューラルネットワーク(RNN)、ランダムフォレスト(RF)、サポートベクタマシン(SVM)、判別分析、最隣接分析(KNN)、アンサンブル分類器、又はそれらの組合わせを含む、実施形態1~5のいずれかに記載の方法。前記MLが、がん改変配列決定読取と、配列決定又はPCRエラーにより改変された読取とを区別するように訓練された、前記実施形態のいずれかに記載の方法。
【0381】
実施形態7:前記MLが、腫瘍変異及び正常な配列決定エラーを横断する複数の読取を含む全ゲノム配列決定(WGS)がんデータセット上で訓練される、実施形態1~6のいずれかに記載の方法。
【0382】
実施形態8:前記MLが、(a)高精度で、配列決定又はPCR人為体を同定し、(b)配列コンテキストを統合し、特定の特徴を読み取ることができる、実施形態1~7のいずれかに記載の方法。
【0383】
実施形態9:工程(c)が、結合塩基品質(BQ)、マッピング品質(MQ)スコア、及び断片サイズに基づいて、前記一覧内の遺伝子マーカーの確率的分類を含む最適受信者動作特性(ROC)曲線を実施する工程を含む、実施形態1~8のいずれかに記載の方法。
【0384】
実施形態10:前記腫瘍が、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口がん、胃がん、固形腫瘍、非小細胞肺がん(NSCLC)、タバコ誘発がん(TIC)、UV光誘発がん、アポリポ蛋白B mRNA編集酵素(APOBEC)活性により媒介されるがん、乳がん蛋白(BRCA)変異を含むがん、ポリ(ADP-リボース)ポリメラーゼ(PARP)活性を含むがん、及びマイクロサテライト不安定性(MSI)を含む腫瘍からなる群より選択される腫瘍である、いずれかの実施形態1~9記載の方法。
【0385】
実施形態11:前記被験体が、がんと診断されていない、及び/又は無症候性である、実施形態1~10のいずれかに記載の方法。
【0386】
実施形態12:前記被験体が、ステージI~IIIの早期がん患者である、実施形態1~11のいずれかに記載の方法。
【0387】
実施形態13:さらに、スクリーニングで用いられる被験体特異的特徴に基づくパターン系治療の推薦又は推奨を含む、実施形態1~13のいずれかに記載の方法。
【0388】
実施形態14:治療法の推薦が、BRCAパターンに対するPARP-阻害剤、MSIパターンに対する免疫療法を含む、実施形態13に記載の方法。
【0389】
実施形態15:前記腫瘍が、肺腺がん、導管腺がん(乳房腫瘍)、非小細胞肺がん肺腺がん(NSCLC LUAD)、皮膚黒色腫、尿路上皮がん(膀胱腫瘍)、結腸直腸がん(リンチ)又は骨肉腫である、実施形態1~14のいずれかに記載の方法。
【0390】
実施形態16:工程(f)が、線形最適化問題minllAx-bll,x≧0を解いて信頼性推定値を決定する工程をさらに含み、ここで、Aは、変異パターン配列コンテキストマトリックスであり、xは、各コスミック変異パターン(変数)の寄与であり、bは、患者特異的配列コンテキスト一覧である実施形態1~15のいずれかに記載の方法。
【0391】
実施形態17:前記最適化方程式は、非負最小二乗法(NNLS)、横断エントロピー大域最適化法、黄金断面探索法、又はそれらの組合わせにより解かれる、実施形態16のいずれかに記載の方法。
【0392】
実施形態18:工程(b)は、さらに、(1)低いマッピング品質の読取(例えば、<29、ROC最適化)を除去する工程;(2)重複ファミリーを構築し(同じDNA断片の複数のPCR/配列決定コピーを表す)、コンセンサス試験に基づいて補正読取を生成する工程;(3)低い塩基品質の読取(例えば、<21、ROC最適化)を除去する工程;及び/又は(4)高い断片サイズの読取(例えば、>160、ROC最適化)を除去する工程、により前記一覧から人為的読取を除去する工程を含み、かつ、工程(e)は、さらに、前記被験体の配列コンテキスト一覧と特定のCOSMIC的配列コンテキストとの間の配列の類似性を計算して、被験体の生物学的試料が、がん関連変異パターンを含むことの信頼性推定値を決定する工程をさらに含む、実施形態1~17のいずれかに記載の方法。
【0393】
実施形態19:工程(f)は、さらに、余弦類似性、相関、相互情報、又はそれらの組合わせに基づいて、被験体特異的特徴とがん特徴との間の類似性を推定する工程を含む、実施形態1~18のいずれかに記載の方法。
【0394】
実施形態20:さらに、がん変異パターンと複数の無作為バックグラウンドパターンとの比較を用いて信頼性のスクリーニングの検証を含む、実施形態1~19のいずれかに記載の方法。
【0395】
実施形態21:比較工程がzスコアの評価を含み、閾値を超えるzスコアは、被験体特異的特徴ががん特徴に特異的であり、無作為バックグラウンド特徴と関連しないことを示す、実施形態20のいずれかに記載の方法。
【0396】
実施形態22:工程(f)は、さらに、がん特異的特徴信頼度(zスコア)を、バックグラウンドノイズモデルにより計算された経験的閾値と比較する工程を含む、実施形態1~22のいずれかに記載の方法。
【0397】
実施形態23:前記経験的に計算されたバックグラウンドノイズモデルは、正常健常試料に関する基本ノイズzスコア推定値に対する前記がん特異的特徴信頼度(zスコア)を測定することを含み、前記閾値ノイズzスコア推定値が少なくとも1、少なくとも2、少なくとも3、少なくとも4、又は少なくとも5であると、マーカーががん特異的であることを示す、実施形態22のいずれかに記載の方法。
【0398】
実施形態24:前記被験体特異的パターンが、腫瘍では差次的に発現されるが、正常試料では発現されないマーカーを含む、がん特異的変異パターンと適合する、実施形態1~23のいずれかに記載の方法。
【0399】
実施形態25:前記腫瘍試料が、肺腫瘍、乳房腫瘍、メラノーマ、膀胱腫瘍、結腸直腸腫瘍、又は骨腫瘍を含む、実施形態1~24のいずれかに記載の方法。
【0400】
実施形態26:複数の被験体がスクリーニングされて、前記方法が、少なくとも50%の被験体で早期検出が可能になる、実施形態1~25のいずれかに記載の方法。
【0401】
実施形態27:コンピュータ断層撮影(CT)スクリーニング工程をさらに含み、前記CTスクリーニング工程は、工程(a)~(f)のいずれか1工程の前、同時、又はその後に実行される、実施形態1~27のいずれかに記載の方法。
【0402】
実施形態28:前記がんが固形腫瘍であり、前記CTスクリーニングが疑わしい結節の検出を含む、実施形態27に記載の方法。
【0403】
実施形態29:被験体が良性病変を有する患者である、実施形態1~28のいずれかに記載の方法。
【0404】
実施形態30:良性病変が、CTスクリーニング、組織病理学、生検、又はそれらの組合わせにより同定される、実施形態29のいずれかに記載の方法。
【0405】
実施形態31:さらに、悪性結節と良性結節とを識別して、CTスクリーニングの陽性適中率(PPV)を高める工程を含む、実施形態1~30のいずれかに記載の方法。
【0406】
実施形態32:前記PPVが少なくとも30%高まる、実施形態31のいずれかに記載の方法。
【0407】
実施形態33:実施形態1~32のいずれかに記載の方法を実施することを含む、それを必要とする被験体における悪性腫瘍の早期検出方法。
【0408】
実施形態34:工程(a)は、さらに、全ゲノム配列決定でゲノムワイド変異データを凝集させる工程を含み、かつ、工程(c)は、さらに、数学的最適化工程を用いて変異サインを検出する工程を含み、ここで、前記数学的最適化工程が、非負の最小二乗(NNLS)を使用することを含む、実施形態1~33のいずれかに記載の方法。
【0409】
実施形態35:被験体における前悪性腫瘍パターンを検出するための方法であって、以下の:(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイド一覧を生成する工程であって、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)(1)前記読取の塩基品質(BQ)、(2)前記読取のマッピング品質(MQ)、及び/又は(3)前記読取の推定断片サイズ、(4)前記読取のアリル分画(VAF)の関数としてのノイズ(P)の検出可能性に基づいて、前記一覧中の各読取を統計的に分類して、前記一覧から人為的読取を除去する工程;(c)各読取に関連する配列決定ノイズを、機械学習(ML)モデルを用いて、適応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴を区別する工程;(d)ノイズ除去工程(c)及びフィルタリング工程(b)に基づき、前記一覧内の複数の真正読取を含む被験体特異的特徴を編集する工程;(e)被験体特異的パターンとがんパターンとの間の一致の程度に基づき、被験体の生物学的試料が、循環腫瘍DNA(ctDNA)を含むとの信頼性推定値を統計的に定量する工程;及び、(f)被験体の生物学的試料ががん関連変異パターンを含むとの信頼性推定値が所定の閾値を超える場合に、前悪性腫瘍パターンを検出する工程を含む、方法。
【0410】
実施形態36:被験体が、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形腫瘍、非小細胞肺がん(NSCLC)、タバコ誘発がん(TIC)、UV光誘発がん、アポリポ蛋白B mRNAエディティング酵素タンパク質(APOBEC)活性により媒介されるがん、乳がんタンパク質(BRCA)変異を含むがん、ポリ(ADP-リボース)ポリメラーゼ(PARP)活性を含むがん、及びマイクロサテライト不安定性(MSI)、リンチ症候群、又はBRCA遺伝子欠失を含む腫瘍があるか又はその疑いのある患者である、実施形態35の方法。
【0411】
実施形態37:前記機械学習(ML)モデルが、順序立てノイズを適応的に及び/又は体系的にフィルタリングする深層畳込ニューラルネットワーク(CNN)を含む、実施形態35及び36のいずれかに記載の方法。
【0412】
実施形態38:前記CNNが、汎腫瘍コホート上で深層学習アルゴリズムを用いて、真正腫瘍変異と人為的エラーとを識別するパターン特徴を同定する工程;腫瘍患者由来試料中で検出された各個々の変異に信頼性推定値を割り当てる工程;全ゲノムの信頼性推定値を統合する工程;及び、試料中の特定のCOSMIC変異のパターンの非負最小二乗(NNLS)を用いる工程を含む、実施形態37に記載の方法。
【0413】
実施形態39:コンピュータ実行可能命令を含むコンピュータ読取可能媒体であって、プロセッサにより実行されると、プロセッサに腫瘍の早期検出又は前がん性腫瘍病変の以下の:(a)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイド一覧を生成する工程であって、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(indels)、コピー数変異、構造的変異(SV)及びそれらの組合わせからなる群から選択され;(b)(1)前記読取の塩基品質(BQ)、(2)前記読取のマッピング品質(MQ)、及び/又は(3)前記読取の推定断片サイズ、(4)前記読取のアリル分画(VAF)の関数としてのノイズ(P)の検出可能性に基づいて、前記一覧中の各読取を統計的に分類して、前記一覧から人為的読取を除去する工程;(c)各読取に関連する配列決定ノイズを、機械学習(ML)モデルを用いて、適応的及び/又は体系的にフィルタリングして、がん関連変異特徴とPCR又は配列決定エラー関連特徴を区別する工程;(d)ノイズ除去工程(c)及びフィルタリング工程(b)に基づき、前記一覧内の複数の真正読取を含む被験体特異的特徴を編集する工程;(e)被験体特異的パターンとがんパターンとの間の一致の程度に基づき、被験体の生物学的試料が、循環腫瘍DNA(ctDNA)を含むとの信頼性推定値を統計的に定量する工程;及び、(f)被験体の生物学的試料ががん関連変異パターンを含むとの信頼性推定値が所定の閾値を超える場合に、前悪性腫瘍パターンを検出する工程を含む、検出方法又は一連の工程を実行させるコンピュータ読取り可能媒体。
【0414】
実施形態40:前記機械学習(ML)モデルは、一端に単一完全接続層を有する層状畳込ニューラルネットワーク(CNN)を含み、前記CNNは、三塩基ウインドウ上を合成する際に空間的不変性を維持し、かつ、読取断片を、各々約8ヌクレオチド領域を表す複数のセグメントに折り畳むことで、品質マッピングを維持する、実施形態39に記載のコンピュータ読取り可能媒体。
【0415】
実施形態41:前記CNNは、一端が単一完全接続層及び2連続畳込層を含む8層と、前記出力は、2受容野と2ストライドで最大プーリングすることにより、ダウンサンプリングされ;ここで、前記8層CNNは、読取断片を約25個の個々のセグメントに折り畳むことにより品質マッピングを維持し、サイズ3の知覚野を用いて、ゲノム読取内の位置の列を折り畳み;かつ、ここで、最終畳込層の出力は、直接、完全接続シグモイド層に適用され、そこから、マーカーの最終分類が行われる、実施形態40に記載のコンピュータ読取可能媒体。
【0416】
実施形態42:前記CNNは、アラインメントのゲノムコンテキスト、前記完全読取配列、及び前記塩基毎の品質スコアの積分を同時に捕捉する読取表示を含む、実施形態40及び41のいずれかに記載のコンピュータ読取可能媒体。
【0417】
実施形態43:工程(a)~(f)ともに、MUTECTと比較して約1.12倍~約30倍読み取られたゲノムにおける体細胞変異を含む腫瘍特異的マーカーの濃縮を提供する、実施形態39及び42のいずれかに記載のコンピュータ読取可能媒体。
【0418】
実施形態44:コンピュータ実行可能命令を含むコンピュータ読取可能媒体であって、プロセッサにより実行されると、プロセッサは、被験体のがんを診断する方法又は一連の工程を実行する、コンピュータ実行可能命令を含む媒体であって、以下の:(A)複数の被験体の試料から、各被験体の遺伝子マーカーの一覧を受信する工程であって、遺伝子マーカーは、体細胞単一ヌクレオチド変異(sSNV)、体細胞コピー数変異(sCNV)、挿入/欠失(インデル)、又はゲノム読取における構造的変異(SV)を含み;(B)汎腫瘍コホートにわたり各被験体の遺伝子マーカーの一覧を処理して、真正がんマーカーと人為的エラーとを識別するパターンを同定する工程;(C)処理工程(B)に基づいて、前記一覧における各パターンに信頼性推定値を割り当てる工程;(D)前記読取ゲノムパターンを横断して、工程(C)の各パターンの信頼性推定値を統合して、腫瘍パターンを構築する工程、かつ、(E)CNNが各被験体の信頼性推定値の所定の閾値を達成するまで、各被験体試料サンプルの工程(B)~(D)の結果を前記CNNに戻すことにより、前記腫瘍パターンを数学的に最適化する工程、を含む方法により開発された畳込ニューラルネットワーク(CNN)を含む、媒体。
【0419】
実施形態45:信頼性推定値の割り当ては、(1)線形混合最適化を用いたCOSMIC変異パターンの寄与に関する信頼基準の計算工程、又は(2)特定のCOSMICパターンに対する患者配列コンテキスト一覧の類似性の計算工程を含む、実施形態44に記載のコンピュータ読取可能媒体。
【0420】
実施形態46:実施形態45に記載のコンピュータ読取可能媒体であって、前記線形混合最適化は代数関数minllAx-bll,x≧0を解くことを含み、ここで、Aは、変異パターン配列コンテキストマトリックスであり、xは、各コスミック変異パターン(変数)の寄与であり、bは、患者特異的配列コンテキスト一覧である、コンピュータ読取可能媒体。
【0421】
実施形態47:Aが、100個の無作為変異パターンとともに、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、又は少なくとも30個のCOSMICパターンを含む、実施形態46に記載のコンピュータ読取可能媒体。
【0422】
実施形態48:前記線形混合最適化は、抽出E_random(平均寄与スコア)及びstd_random(std寄与スコア)を含む無作為パターンの寄与分布を計算する工程;及び、メトリック(cosmic_sig_contribution-E_random)/std_randomを計算する工程を含む、各COSMICパターンに対する寄与検出信頼性をzスコアでチェックする工程を含み、ここで、前記メトリックは、無作為セットと比較して特定のパターンの有意差を表す、実施形態45~47のいずれかに記載のコンピュータ読取可能媒体。
【0423】
実施形態49:前記数学的最適化工程は、非負最小二乗(NNLS)を用いる工程を含む、実施形態44~48のいずれかに記載のコンピュータ読取可能媒体。
【0424】
実施形態50:それを必要とする被験体の腫瘍診断システムであって、被験体の血漿試料及び正常細胞試料を含む生物学的試料から増幅及び配列決定された遺伝子マーカーを含む複数の読取を受け取るように構成されかつ配置されたデータ収集ユニット;
遺伝子マーカーの前記被験体特異的一覧における被験体特異的マーカーを同定するように構成されたマーカー同定ユニットであって、前記マーカー同定ユニットは、前記データ収集ユニットと通信可能に接続され、前記読取の基本品質、前記読取のマッピング品質、該読取の断片サイズ、及び/又は前記読取の可変対立遺伝子頻度(VAF)に基づいて人為的ノイズを除去するノイズ除去ユニット;前記読取と前記腫瘍との統計的関連性の統計的レベルを示す信頼区間スコアに基づいて前記一覧におけるノイズ除去読取各々を統計的に分類するように構成された分類エンジンとを含み、前記分類エンジンは、前記増幅工程又は前記配列決定工程の間に導入されたノイズの適応的かつ体系的なフィルタリングのために機械学習(ML)モデルを利用し、かつ、さらに、前記一覧におけるノイズ除去MLフィルタリング済読取と、1又はそれ以上の公知のがんパターンとを適合させ;前記適合に基づき、腫瘍を診断するように構成される診断ユニットを含む。
【0425】
実施形態51:前記分類エンジンは、さらに、線形混合最適化問題を用いて信頼性メトリックを計算して、前記一覧内におけるノイズ除去MLフィルタリング済読取を、1又はそれ以上の公知のがんパターンと適合させるように構成される、実施形態50に記載のシステム。
【0426】
実施形態52:前記線形混合物の最適化は、腫瘍発生率と、タバコ曝露、紫外線曝露、非制御DNA修復、DNA編集欠陥、マイクロサテライト不安定性、又はそれらの組合わせから選択される腫瘍メディエータとの関連のzスコア信頼性推定値を計算することを含む、実施形態51に記載のシステム。
【0427】
実施形態53:zスコア信頼性推定値は、代数関数minllAx-bll,x≧0を解くことを含み、ここで、Aは、変異パターン配列コンテキストマトリックスであり、xは、各コスミック変異パターン(変数)の寄与であり、bは、患者特異的配列コンテキスト一覧である、実施形態52に記載のシステム。
【0428】
実施形態54:zスコアの信頼性推定値は、Aが30個のCOSMICパターンと100個の無作為変異パターンとを含む代数関数minllAx-bll,x≧0を解く工程;及び、平均寄与スコア(ACS)と標準寄与スコア(std_random)とを含むCOSMICパターン寄与(CSC)無作為パターン(E_random)の分布を計算する工程;及び、関数(CSC-E_random)/std_randomと共にzスコアメトリックを計算して、各COSMICパターンに対する寄与の信頼性をチェックする工程を含み、前記zスコアは、無作為セットと比較して特定のパターン寄与の有意性を表す、実施形態52及び53のいずれかに記載のシステム。
【0429】
実施形態55:前記zスコア信頼性推定値は、特定のCOSMICサインに対する前記患者配列決定コンテキスト一覧の類似性の計算工程を含む、実施形態52及び54のいずれかに記載のシステム。
【0430】
実施形態56:前記zスコア信頼性推定値は、密度関数を得るために患者配列決定コンテキスト一覧を正規化する工程、前記患者配列決定コンテキスト密度関数と前記COSMICパターン密度関数との間のコサイン類似性を計算する工程、前記患者配列決定コンテキスト密度関数と前記非情報的な均一密度関数との間のコサイン類似性で除して前記コサイン類似性を正規化する工程を含む、実施形態52~55のいずれかに記載のシステム。
【0431】
実施形態57:前記zスコアの信頼性推定値は、前記zスコアが検出閾値を超えるかをチェックする工程を含み、前記閾値は、健常試料において経験的に推定された基本ノイズを含む、実施形態52及び56のいずれかに記載のシステム。
【0432】
実施形態58:がんパターンがタバコパターンを含み、正の信頼区間が2、3、4より大きく、好ましくは5標準偏差より大きいzスコアを含む、実施形態52及び57のいずれかに記載のシステム。
【0433】
実施形態59:前記遺伝子マーカーは、前記DNA中のSNV、CNV、インデル及び/又はSVを含み、前記受容ユニットは、全ゲノム配列決定(WGS)済遺伝子データを受け取る、実施形態50及び58のいずれかに記載のシステム。
【0434】
実施形態60:血漿試料を含む生物学的試料が、無細胞DNA(cfDNA)を含み、正常細胞試料が、末梢単核球細胞(PMBC)を含み、マーカーが、体細胞性単一ヌクレオチド変異(sSNV)若しくは体細胞性コピー数変異(sCNV)又はそれらの組合わせを含む、実施形態50~59のいずれかに記載のシステム。
【0435】
実施形態61:前記試料中のcfDNAの量が約0.1ng/ml~約20.0ng/mlである、実施形態60に記載のシステム。
【0436】
実施形態62:前記試料が、正常なDNA分子に対する腫瘍DNA分子の量比により測定される、低い腫瘍画分(TF)を備える、実施形態50~61のいずれかに記載のシステム。
【0437】
実施形態63:腫瘍画分(TF)が約0.0001%(1~100万分子)~約20%である、実施形態62に記載のシステム。
【0438】
実施形態64:前記人為的ノイズ除去エンジンは、前記読取の基本品質(BQ)スコア、前記読取のマッピング品質(MQ)スコア、前記読取の断片サイズ、又は前記読取の可変対立遺伝子頻度(VAG)に基づく、前記一覧における前記読取の確率的分類を含む、最適な受信者動作特性(ROC)曲線を実行するように構成される、実施形態50及び6のいずれかに記載のシステム。
【0439】
実施形態65:前記人為的ノイズ除去エンジンは、さらに、(iii)前記読取における位置(RP)、(iv)前記読取の配列決定コンテキスト(SC)、(v)前記読取の濃度、(vi)配列決定深度及び/又は(vii)配列決定エラー、に基づいてノイズをフィルタリングするようにさらに構成される、実施形態50~64のいずれかに記載のシステム。
【0440】
実施形態66:被験体のがんの遺伝子スクリーニング方法であって、以下の:(A)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料が血漿試料を含み、前記読取一覧が各々単一の塩基対長の読取を含み;(B)前記読取一覧から人為体をフィルタリングする工程であって、(a)前記読取一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程、(b)前記生物学的試料における生殖細胞系変異を同定する工程、及び/又は腫瘍試料と正常細胞試料における末梢血単核細胞で共有された変異を生殖細胞系変異として同定する工程、及び、前記読取一覧から前記生殖細胞系変異を除去する工程;(C)少なくとも1つのエラー抑制プロトコルを用いて前記読取一覧からノイズをフィルタリングし、ゲノムに対するフィルタリング済読取セットを生成する工程であって、前記少なくとも1つのエラー抑制プロトコルが、(a)前記一覧におけるいかなる単一ヌクレオチド変異が、人為的変異であるという可能性を計算し、かつ、前記変異を除去する工程であって、前記可能性は、マッピング品質(MQ)、変異塩基品質(MBQ)、位置読取(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせを含む群から選択される特徴の関数として計算され;及び/又は(b)ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一DNA断片の独立した複製間の不一致試験及び/又は所定の重複ファミリーの大部分が一致しない場合に人為的変異が同定されて、除去される重複コンセンサスを用いて人為的変異を除去する工程:(D)所定の変異誘発プロセスに関連する特定の変異パターンとの比較に基づき、前記フィルタリング済読取セットを用いた被験体特異的パターンの編集工程;(E)前記被験体の生物学的試料が、被験体特異的パターンを介して、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含むという信頼性推定値を統計的に定量する工程; 及び、(F)前記被験体の生物学的試料が所定の閾値を超えるがん関連変異パターンを含むと信頼性が推定される工程を含む、方法。
【0441】
実施形態67:被験体のがんの遺伝子スクリーニング方法であって、以下の:(A)被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、血漿試料を含み、前記読取一覧は各々、コピー数変化(CNV)又は構造的変異(SV)を含み;(B)前記読取一覧を複数のウインドウに分割する工程;(C)ウインドウ当たりの特徴のセットを計算する工程であって、前記特徴は、ウインドウ当たりの中央の深度カバレッジ及びウインドウ当たりの代表的な断片サイズを含み、場合によっては、読取を分割し;(D)前記読取一覧から人為的部位をフィルタリングする工程であって、前記フィルタリング工程は、参照健常試料のコホート上に生成された反復部位を前記読取一覧から除去する工程であり;(E)前記読取一覧を正規化して、前記ゲノムワイド読取一覧用のフィルタリング済読取セットを生成する工程;(F)(i)ウインドウ当たりの特徴間の線形関係を計算して、前記変換済関係を、回帰モデルを用いて推定腫瘍分画に変換する工程、及び/又は(ii)読取の前記被験体特異的ゲノムワイド一覧にわたりウインドウ当たりの特徴の計算済セットの関数として、1又はそれ以上の統合的数学モデルに基づいて、前記フィルタリング済読取セットを用いて推定腫瘍分画を計算する工程;及び(G)推定された腫瘍分画が経験的閾値を超える場合に、被験体をがんについてスクリーニングする、工程を含む、方法である。
【0442】
実施形態68:被験体のがんの遺伝子スクリーニングのシステムであって、以下の:
分析ユニットであって、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取り、前記一覧から人為的読取部位をフィルタリングするように構成されかつ配置されたプレフィルタエンジンを含み、ここで、前記分析ユニットは、前記生物学的試料は血漿試料を含み、前記一覧が各々単一の塩基対長の読取を含み、かつ、前記フィルタリングは、前記一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程、前記生物学的試料中の生殖細胞系変異を同定する工程、及び/又は、前記腫瘍試料と前記正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定する工程、前記生殖細胞系変異を前記読取一覧から除去する工程とを含み;少なくとも1のエラー抑制プロトコルを用いてフィルタリングして、読取の前記ゲノムワイド一覧用のフィルタリング済読取セットを作成するように構成されかつ配置された補正エンジンであって、ここで、前記少なくとも1のエラー抑制プロトコルは、(a)前記一覧中の単一ヌクレオチド変異が人為的変異である可能性を計算し、かつ、前記変異を除去することであって、ここで、前記可能性は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組合わせを含む群から選択された特徴の関数として計算され;及び/又は;(b)ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一DNA断片の独立した複製間の不一致試験及び/又は所定の重複ファミリーの大部分が一致しない場合に人為的変異が同定されて、除去される重複コンセンサスを用いて人為的変異を除去すること、を含み;並びに、所定の変異誘発プロセスに関連する特定の変異パターンとの比較に基づき、前記フィルタリング済読取セットを用いて、被験体に関連する変異パターンを編集するように構成されかつ配置された演算ユニットであって、がん関連する変異パターンの曝露値をバックグラウンドの変異パターンのコホートとの比較に基づき、被験体の生物学的試料が、前記被験体特異的パターンを介して、がん関連変異パターンを含むという、信頼性推定値を統計的に定量化し;かつ、被験体の生物学的試料ががん関連の変異パターンを含むとの信頼性推定値が所定の閾値を超える場合、被験体のがんについてスクリーニングする;を含むシステムである。
【0443】
実施形態69:それを必要とする被験体における残存疾患を検出するシステムであって、以下の:分析ユニットであって、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取り、前記生物学的試料が血漿試料を含み、前記読取の覧がそれぞれコピー数変異(CNV)を含み、前記読取一覧を複数のウインドウに分割し、及びウインドウ当たりの中央値の深度カバレッジ及びウインドウ当たりの代表的な断片サイズを含む、前記ウインドウ当たりの特徴のセットを計算するように構成されかつ配置されたビンニングエンジン;し、前記特徴と、前記読取りの一覧から人為的のサイトをフィルタリングするように構成されかつ配置されたプレフィルタエンジンであって、前記フィルタリングが、参照健常試料のコホート上で生成された反復部位を、前記一覧から除去することを含み;かつ、前置フィルタエンジンと、前記読取りの一覧を正規化して、ゲノムのためのフィルタリングされた読取セットを生成するように構成されかつ配置された正規化エンジンとを含む、分析ユニット;並びに、(i)ウインドウ当たりの特徴間の線形関係を計算して、前記変換済関係を、回帰モデルを用いて推定腫瘍分画に変換し、及び/又は(ii)読取の前記被験体特異的ゲノムワイド一覧にわたりウインドウ当たりの特徴の計算済セットの関数として、1又はそれ以上の統合的数学モデルに基づいて、前記フィルタリング済読取セットを用いて推定腫瘍分率を計算し、及び推定された腫瘍分画が経験的閾値を超える場合に、被験体をがんについてスクリーニングするように構成されかつ配置された演算ユニットを含むシステムである。
【0444】
実施形態70:前記マーカーが、単一ヌクレオチド変異(SNV)又は挿入/欠失(indels);好ましくはSNVを含む、実施形態66の方法。
【0445】
実施形態71:参照健常試料のコホート上で生成された反復部位をフィルタリングすることが、ブラックリスト又はマスクの正常パネル(PON)を生成することを含む、実施形態66~70のいずれか1つの方法。
【0446】
実施形態72:参照健常試料が末梢血単核細胞(PBMC)を含む、実施形態66及び70~71のいずれか1つに記載の方法。
【0447】
実施形態73:工程(C)が、機械学習(ML)アルゴリズム、例えば、深層畳込ニューラルネットワーク(CNN)、反復ニューラルネットワーク(RNN)、ランダムフォレスト(RF)、サポートベクタマシン(SVM)、判別分析、最隣接分析(KNN)、アンサンブル分類器、又はそれらの組合わせ;好ましくは、サポートベクタマシン(SVM)を用いて、人為的ノイズをフィルタリングすることを含む、実施形態66及び70~73のいずれか1つの方法。
【0448】
実施形態74:工程(C)(b)において、人為的変異の補正が、元の核酸断片の独立した複製の比較を用いて、PCR又は配列決定で生成された人為的変異の補正を含む、実施形態66及び70~73のいずれか1つの方法。
【0449】
実施形態75:工程(C)(b)において、対末端150bp配列決定により生成され、重複する対読取(R1及びR2)を生じる人為的変異が、対応する参照ゲノム、R1及びR2対間の不一致を修正して除去される、実施形態74の方法。
【0450】
実施形態76:工程(C)(b)において、配列決定及び/又はPCR増幅の間に重複により生成された人為的変異が補正され、重複ファミリーが5’及び3’類似性並びにアラインメント位置により認識され、かつ、各重複ファミリーが独立した複製にわたる特定の変異のコンセンサスのチェックに用いられ、それにより、重複ファミリーの大部分において一致がない人為的変異を補正する、実施形態66及び70~75のいずれか1つの方法。
【0451】
実施形態77:工程(D)において、単一の血漿試料中の特異的変異パターンが、非負最小二乗(NNLS)法を用いて同定される、実施形態66及び70~76のいずれか1つの方法。
【0452】
実施形態78:工程(E)において、特異的変異パターンを、複数の無作為バックグラウンドパターンに対して推測される曝露値とがん特異的変異パターン曝露値との比較を用いて、信頼性についてさらに検証する、実施形態66及び70~77のいずれか1つの方法。
【0453】
実施形態79:工程(F)において、被験体の生物学的試料ががん関連変異パターンを含むと信頼性推定される場合、前記被験体は、z-スコア>2stdの所定の閾値を超える場合、がんであると同定される、実施形態78の方法。
【0454】
実施形態80:工程(D)において、追加的又は代替的に、機械学習アルゴリズム、例えば深層学習法を用いて、がん改変配列決定読取と配列決定エラーにより改変された読取を区別することを含む、実施形態66及び70~79のいずれか1つの方法。
【0455】
実施形態81:前記MLが、腫瘍及び正常なWGSデータの大コレクションを用いて、複数の真正変異読取及びエラーに関して訓練され、前記訓練済みMLが、真正変異体を含む読取と、配列決定人為体を含む読取とを区別することができる、実施形態80に記載の方法。
【0456】
実施形態82:断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、実施形態66~81のいずれか1つに記載の方法。
【0457】
実施形態83:腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計的方法、例えば有意性又はガウス混合モデル(GMM)の検定を用いて分析される、実施形態82の方法。
【0458】
実施形態84:前記マーカーが、コピー数変異(CNV)を含む、実施形態67のいずれか1つに記載の方法。
【0459】
実施形態85:工程(B)において、各ウインドウが少なくとも≧150bpである、実施形態67及び84のいずれか1つの方法。
【0460】
実施形態86:工程(C)が、ゲノムワイド特徴ベクトルからの深度カバレッジ(Log2)及び断片サイズ(COM)関係(勾配、R^2)の抽出を含む、実施形態67及び84~85のいずれか1つの方法。
【0461】
実施形態87:工程(D)が、ブラックリスト又はマスクの正常パネル(PON)を生成することにより、参照健常血漿試料のコホート上に生成された反復部位をフィルタリングする工程;及び/又は低いマッピング可能性又はカバレッジのウインドウをフィルタリングする工程を含む、実施形態67及び84~86のいずれか1つの方法。
【0462】
実施形態88:前記正規化工程は、ビンワイズGCフラクション及びマッピング可能性スコア上で2つのLOESS回帰曲線フィッティングを行い、GC内容バイアス及びマッピング可能性バイアスを補正するために、深度カバレッジ値を正規化する工程を含む、実施形態67及び84~87のいずれか1つの方法。
【0463】
実施形態89:前記正規化工程は、各試料ごとに適用される、ロバスト-zスコア正規化を用いるバッチ効果補正を含む、実施形態67及び84~88のいずれか1つの方法。
【0464】
実施形態90:前記zスコアの正規化が、各試料の中立領域に基づく中央値及び中央値絶対偏差(MAD)の計算を含み、並びに、すべてのCNVビンの正規化が、中央値を差分し、かつ、MADにより差分を除して正規化される、実施例89に記載の方法。
【0465】
実施形態91:工程(E)が、健常血漿試料の正常(PON)パネルと比較して、血漿試料中の深度カバレッジスキュー及び/又は断片サイズ質量中心(COM)スキューを計算する工程を含む、実施形態67及び84~90のいずれか1つの方法。
【0466】
実施形態92:工程(F)が、隠れMarkovモデル又は自己組織化ニューラルネットワーク、例えば、適応共鳴理論又は自己組織化マップに基づくニューラルネットワークを用いて、フィルタされたリードセットの腫瘍分率を呼び出すコピー数変異(CNV)を含む、実施形態67及び84~91のいずれか1つの方法。
【0467】
実施形態93:断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、実施形態67及び84~92のいずれか1つに記載の方法。
【0468】
実施形態94:腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計的方法、例えば有意性又はガウス混合モデル(GMM)の検定を用いて分析される、実施形態93のいずれか1つに記載の方法。
【0469】
ある例示的な態様及び実施形態を上記で論じてきたが、当業者には、それらの特定の変形形態、置換形態、追加形態、及び部分結合形態が理解されよう。したがって、添付の特許請求の範囲、及び今後導入される特許請求の範囲は、すべての当該変形形態、置換形態、追加形態、及び部分結合形態をそれらの真の精神及び範囲にあるとして含むと解釈される。便宜上、本明細書、実施例及び特許請求の範囲において用いられる特定の用語をここに集める。別段の定義がない限り、本開示で用いられるすべての技術的及び科学用語は、本開示が属する技術分野の当業者により一般的に理解されるのと同じ意味である。
本開示を通して、種々の特許、特許出願及び刊行物が参照される。当該特許、特許出願、アクセシンされた情報(例えば、PUBMED、PUBCHEM、NCBI、UNIPROT、又はEBIアクセション番号により識別されるもの)及びそれらの全体の刊行物の開示は、本開示の日付で当業者に公知の技術水準をより完全に説明するため、参照により本開示に援用される。本開示は、引用された特許、特許出願及び刊行物と本開示との間に矛盾がある場合に適用される。
図1A
図1B
図1C
図1D
図1E
図1F
図2
図3A
図3B
図3C
図4A
図4B
図4C
図4D
図4E
図5
図6
図7
図8A
図8B
図8C
図9
図10
図11
図12A
図12B
図12C
図13
図14A
図14B
図15
図16A
図16B
図16C
図17
図17C
図17D
図17E
図18A
図18B
図18C
図18D
図18E
図18F
【外国語明細書】