(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-12
(54)【発明の名称】生殖系列ゲノム配列から体細胞ゲノム配列を区別するための方法及びシステム
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20230705BHJP
C12Q 1/02 20060101ALI20230705BHJP
C12Q 1/6844 20180101ALI20230705BHJP
C12Q 1/686 20180101ALI20230705BHJP
C12M 1/00 20060101ALI20230705BHJP
C12N 15/09 20060101ALI20230705BHJP
A61P 35/00 20060101ALI20230705BHJP
A61K 45/00 20060101ALI20230705BHJP
【FI】
C12Q1/6869 Z
C12Q1/02
C12Q1/6844 Z
C12Q1/686 Z
C12M1/00 A
C12N15/09 Z
A61P35/00
A61K45/00 101
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022574458
(86)(22)【出願日】2021-06-03
(85)【翻訳文提出日】2022-12-26
(86)【国際出願番号】 US2021035751
(87)【国際公開番号】W WO2021247902
(87)【国際公開日】2021-12-09
(32)【優先日】2020-06-05
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-06-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517192663
【氏名又は名称】ファウンデーション・メディシン・インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ファン, ヤンメイ
(72)【発明者】
【氏名】ヒューズ, ジェイソン ディー.
(72)【発明者】
【氏名】ゴーウェン, カイル
【テーマコード(参考)】
4B029
4B063
4C084
【Fターム(参考)】
4B029AA27
4B029BB11
4B029FA15
4B063QA13
4B063QQ03
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR08
4B063QR62
4B063QS25
4C084AA17
4C084NA20
4C084ZB261
4C084ZB262
4C084ZC412
(57)【要約】
本明細書には、体細胞バリアントと生殖系列バリアントとを区別するための方法、及びそのような方法を実装するためのデバイスが記載される。本方法のある特定の実装では、本方法は、ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定することと、目的の配列に対する1つ以上のプロキシゲノム配列を同定することと、目的の配列の観測された頻度を1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度と比較することと、この比較に基づいて、目的のゲノム配列を生殖系列又は体細胞のいずれかとして特徴付けることと、を含み得る。
【特許請求の範囲】
【請求項1】
目的のゲノム配列を生殖系列又は体細胞として同定する方法であって、前記方法が、
対象からの試料から得られた複数の核酸分子を提供することであって、前記複数の核酸分子が、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む、複数の核酸分子を提供することと、
任意選択的に、前記複数の核酸分子からの1つ以上の核酸に1つ以上のアダプターを連結することと、
前記複数の核酸分子から核酸分子を増幅することと、
増幅した前記核酸分子から核酸分子を捕捉することであって、捕捉した前記核酸分子が、1つ以上のベイト分子へのハイブリダイゼーションによって前記増幅した核酸分子から捕捉される、核酸分子を捕捉することと、
シーケンサーによって、前記捕捉した核酸分子をシーケンシングして、1つ以上のゲノム遺伝子座に対応する複数の配列読取りを取得することと、
1つ以上のプロセッサによって、前記1つ以上のゲノム遺伝子座からのゲノム遺伝子座における目的のゲノム配列を選択することと、
前記1つ以上のプロセッサによって、前記目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択することと、
前記1つ以上のプロセッサによって、前記目的のゲノム配列の観測された対立遺伝子頻度、及び前記1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて、対立遺伝子頻度距離を決定することと、
前記1つ以上のプロセッサによって、前記対立遺伝子頻度距離を用いて、前記目的のゲノム配列を生殖系列又は体細胞として同定することと
を含む、方法。
【請求項2】
前記対象が、がん患者である、請求項1に記載の方法。
【請求項3】
前記試料が、組織生検試料、液体生検試料、循環腫瘍細胞(CTC)試料、無細胞DNA(cfDNA)試料、又は正常対照を含む、請求項1又は請求項2に記載の方法。
【請求項4】
前記試料が、液体生検試料であり、かつ血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む、請求項3に記載の方法。
【請求項5】
前記腫瘍核酸分子が、不均質組織生検試料の腫瘍部分に由来し、かつ前記非腫瘍核酸分子が、前記不均質組織生検試料の正常部分に由来する、請求項1~3のいずれか一項に記載の方法。
【請求項6】
前記腫瘍核酸分子が、無細胞DNA試料の循環腫瘍DNA(ctDNA)画分に由来し、かつ前記非腫瘍核酸分子が、前記無細胞DNA試料の非腫瘍画分に由来する、請求項1~3のいずれか一項に記載の方法。
【請求項7】
前記1つ以上のアダプターが、増幅プライマー又はシーケンシングアダプターを含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記1つ以上のベイト分子が、1つ以上の核酸分子を含み、各核酸分子が、捕捉された核酸分子の領域に相補的な領域を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
核酸分子を増幅することが、ポリメラーゼ連鎖反応(PCR)又は等温増幅技術を実施することを含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記シーケンシングが、次世代シーケンシング(NGS)技術の使用を含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記シーケンサーが、次世代シーケンサーを含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記1つ以上のプロキシゲノム配列が、前記対象のゲノム配列の定義されたセグメント内に位置し、かつ選択された前記目的のゲノム配列が、同じ定義されたセグメント内に位置する、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記対象のゲノム配列が、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される、請求項12に記載の方法。
【請求項14】
前記要約統計量が、平均対立遺伝子頻度又は中央対立遺伝子頻度である、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記対立遺伝子頻度距離が、前記目的のゲノム配列の前記観測された対立遺伝子頻度及び複数のプロキシゲノム配列の前記観測された頻度を示す分布を用いて決定され、前記目的のゲノム配列が、前記目的のゲノム配列の前記観測された対立遺伝子頻度が前記分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される、請求項1~14のいずれか一項に記載の方法。
【請求項16】
目的のゲノム配列を生殖系列又は体細胞として同定する方法であって、前記方法が、
1つ以上のプロセッサによって、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内から、ゲノム遺伝子座における目的のゲノム配列を選択することと、
前記1つ以上のプロセッサによって、前記目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択することと、
前記1つ以上のプロセッサによって、前記目的のゲノム配列の観測された対立遺伝子頻度、及び前記1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて、対立遺伝子頻度距離を決定することと、
前記1つ以上のプロセッサによって、前記対立遺伝子頻度距離を用いて、前記目的のゲノム配列を生殖系列又は体細胞として同定することと
を含む、方法。
【請求項17】
シーケンサーによって、前記患者試料からの前記腫瘍核酸分子及び前記非腫瘍核酸分子をシーケンシングして、前記患者ゲノム配列を決定することを含む、請求項16に記載の方法。
【請求項18】
前記患者ゲノム配列が、次世代シーケンシング技術を用いて得られる、請求項17に記載の方法。
【請求項19】
前記シーケンサーが、次世代シーケンサーである、請求項17に記載の方法。
【請求項20】
前記1つ以上のプロキシゲノム配列が、前記患者ゲノム配列の定義されたセグメント内に位置し、かつ選択された前記目的のゲノム配列が、同じ定義されたセグメント内に位置する、請求項16~19のいずれか一項に記載の方法。
【請求項21】
前記患者ゲノム配列が、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される、請求項20に記載の方法。
【請求項22】
前記患者ゲノム配列を複数のセグメントにセグメント化することを含む、請求項20又は21に記載の方法。
【請求項23】
前記要約統計量が、平均対立遺伝子頻度又は中央対立遺伝子頻度である、請求項16~22のいずれか一項に記載の方法。
【請求項24】
前記対立遺伝子頻度距離が、前記目的のゲノム配列の前記観測された対立遺伝子頻度及び複数のプロキシゲノム配列の前記観測された頻度を示す分布を用いて決定され、前記目的のゲノム配列が、前記目的のゲノム配列の前記観測された対立遺伝子頻度が前記分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される、請求項16~23のいずれか一項に記載の方法。
【請求項25】
前記腫瘍核酸分子及び前記非腫瘍核酸分子が、DNA分子を含む、請求項16~24のいずれか一項に記載の方法。
【請求項26】
前記腫瘍核酸分子及び前記非腫瘍核酸分子が、RNA分子を含む、請求項16~25のいずれか一項に記載の方法。
【請求項27】
前記患者ゲノム配列が、標的化シーケンシングを用いて決定される、請求項16~26のいずれか一項に記載の方法。
【請求項28】
前記標的化シーケンシングが、がんに関連する1つ以上の遺伝子又はその一部の標的化シーケンシングを含む、請求項27に記載の方法。
【請求項29】
前記標的化シーケンシングが、1つ以上のエクソン領域の標的化シーケンシングを含む、請求項27又は請求項28に記載の方法。
【請求項30】
目的のゲノム配列を生殖系列又は体細胞として同定する方法であって、前記方法が、
1つ以上のプロセッサによって、ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定することと、
前記1つ以上のプロセッサによって、前記目的の配列に対する1つ以上のプロキシゲノム配列を同定することと、
前記1つ以上のプロセッサによって、前記目的のゲノム配列の観測された頻度を、前記1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度と比較することと、
前記1つ以上のプロセッサによって、前記比較に基づき前記目的のゲノム配列を生殖系列又は体細胞として同定することと
を含む、方法。
【請求項31】
前記1つ以上のプロセッサによって、前記ゲノム遺伝子座が含まれる患者のゲノムのセグメントを同定することを更に含む、請求項30に記載の方法。
【請求項32】
前記1つ以上のプロセッサによって、前記セグメントを同定することが、前記患者のゲノムの連続部分に対してセグメント化手順を実施することを含む、請求項31に記載の方法。
【請求項33】
前記患者のゲノムの前記部分が、3つの異なるセグメントを同定するのに充分な大きさである、請求項32に記載の方法。
【請求項34】
前記プロキシが、前記ゲノム遺伝子座と同じセグメント内に位置するように、前記1つ以上のプロセッサによって同定される、請求項31に記載の方法。
【請求項35】
前記セグメント化手順が、ゲノムパラメータが各個別セグメントの全体にわたって等しいかどうかに従って、前記1つ以上のプロセッサによってセグメントを同定する、請求項32に記載の方法。
【請求項36】
前記ゲノムパラメータが、コピー数である、請求項35に記載の方法。
【請求項37】
前記1つ以上のプロセッサによって、前記目的のゲノム配列を生殖系列又は体細胞として同定することが、
対立遺伝子頻度距離を訓練済み統計モデルに入力することと、
前記訓練済み統計モデルから、前記目的のゲノム配列が生殖細胞系である可能性を示す値、又は前記目的のゲノム配列が体細胞性である可能性を示す値を出力することと
を含む、請求項16~36のいずれか一項に記載の方法。
【請求項38】
前記対立遺伝子頻度距離が、前記患者試料における汚染レベル、低いシーケンシング読取り深度、対立遺伝子頻度のノイズの多い推定値、低いセグメント生殖系列一塩基多型(SNP)数、又はセグメント生殖系列SNP対立遺伝子頻度の高い変動性について補正するために調整される、請求項16~37のいずれか一項に記載の方法。
【請求項39】
前記訓練済み統計モデルが、前記対立遺伝子頻度距離を、前記目的のゲノム配列が生殖系列である可能性を示す前記値、又は前記目的のゲノム配列が体細胞性である可能性を示す前記値と関連付ける関数を含む、請求項37又は請求項38に記載の方法。
【請求項40】
前記訓練済み統計モデルが、ロジスティック回帰モデルである、請求項37~39のいずれか一項に記載の方法。
【請求項41】
既知の生殖系列配列を有する腫瘍試料についてのデータを用いて、前記統計モデルを訓練することを更に含む、請求項37~40のいずれか一項に記載の方法。
【請求項42】
既知の生殖系列配列及び既知の体細胞配列を有する腫瘍試料についてのデータを用いて、前記統計モデルを訓練することを更に含む、請求項37~41のいずれか一項に記載の方法。
【請求項43】
前記訓練済み統計モデルが、既知の生殖系列配列を有する腫瘍試料についてのデータを用いて訓練される、請求項37~40のいずれか一項に記載の方法。
【請求項44】
前記訓練済み統計モデルが、既知の生殖系列配列及び既知の体細胞配列を有する腫瘍試料についてのデータを用いて訓練される、請求項43に記載の方法。
【請求項45】
期待値から逸脱する対立遺伝子頻度を有することが知られているゲノム領域に位置するバリアントを除外する、バリアント対立遺伝子頻度についてのデータを用いて前記統計モデルを訓練することを更に含む、請求項37~44のいずれか一項に記載の方法。
【請求項46】
前記訓練済み統計モデルが、期待値から逸脱する対立遺伝子頻度を有することが知られているゲノム領域に位置するバリアントを除外する、バリアント対立遺伝子頻度についてのデータを用いて訓練される、請求項37~44のいずれか一項に記載の方法。
【請求項47】
履歴データ又はデータベースに基づく、生殖系列、体細胞バリアント、又は未確定の潜在能をもつクローン性造血(CHIP)バリアントであるバリアントの可能性の事前知識を組み込むデータを用いて、前記統計モデルを訓練することを更に含む、請求項37~46のいずれか一項に記載の方法。
【請求項48】
前記訓練済み統計モデルが、履歴データ又はデータベースに基づく、生殖系列、体細胞バリアント、又は未確定の潜在能をもつクローン性造血(CHIP)バリアントであるバリアントの可能性の事前知識を組み込むデータを用いて訓練される、請求項37~46のいずれか一項に記載の方法。
【請求項49】
所与のバリアント呼出し及びそのゲノムコンテクストについてのノイズレベルを説明するデータを用いて前記統計モデルを訓練することを更に含む、請求項37~48のいずれか一項に記載の方法。
【請求項50】
前記訓練済み統計モデルが、所与のバリアント呼出し及びそのゲノムコンテクストに対するノイズレベルを説明するデータを用いて訓練される、請求項37~48のいずれか一項に記載の方法。
【請求項51】
前記1つ以上のプロキシゲノム配列が、一塩基多型(SNP)を含む、請求項16~50のいずれか一項に記載の方法。
【請求項52】
前記1つ以上のプロキシゲノム配列が、対立遺伝子を含む、請求項16~51のいずれか一項に記載の方法。
【請求項53】
前記目的のゲノム配列が、ゲノムバリアントを含む、請求項16~52のいずれか一項に記載の方法。
【請求項54】
前記1つ以上のプロセッサによって、生殖系列又は体細胞として前記目的のゲノム配列を示す報告を生成することを更に含む、請求項16~53のいずれか一項に記載の方法。
【請求項55】
前記報告をヘルスケア提供者に送信することを含む、請求項54に記載の方法。
【請求項56】
前記報告は、コンピュータネットワーク又はピアツーピア接続を介して送信される、請求項54又は請求項55に記載の方法。
【請求項57】
前記患者試料が、腫瘍組織及び非腫瘍組織を含む組織生検に由来する、請求項16~56のいずれか一項に記載の方法。
【請求項58】
前記組織生検が、固形組織生検又は液体生検である、請求項57に記載の方法。
【請求項59】
前記組織生検が、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む液体生検である、請求項58に記載の方法。
【請求項60】
前記患者試料が、前記対象から得られた無細胞DNA(cfDNA)を含む、請求項16~59のいずれか一項に記載の方法。
【請求項61】
前記患者試料が、前記対象から得られた循環腫瘍DNA(ctDNA)を含む、請求項16~60のいずれか一項に記載の方法。
【請求項62】
患者のがんを治療する方法であって、
請求項16~61のいずれか一項に記載の方法を用いて、前記1つ以上のプロセッサによって、体細胞として1つ以上の目的のゲノム配列を同定することと、
1つ以上の同定された体細胞配列に基づいてがん治療様式を選択することと、
選択された前記がん治療様式を用いて前記がんを治療することと
を含む、方法。
【請求項63】
前記1つ以上の同定された体細胞配列が、前記選択された治療様式を用いたがん治療の成功に関与する、請求項62に記載の方法。
【請求項64】
前記1つ以上のプロセッサによって、前記1つ以上の同定された体細胞配列を用いて前記がんのマイクロサテライト不安定性状態を決定することと、
前記がんの前記マイクロサテライト不安定性状態に基づいて前記がん治療様式を選択することと
を含む、請求項62に記載の方法。
【請求項65】
前記1つ以上のプロセッサによって、前記1つ以上の同定された体細胞配列を用いて前記がんについての腫瘍変異負荷を決定することと、
前記腫瘍変異負荷が所定の腫瘍変異負荷の閾値を上回っていることに基づいて、前記がん治療様式を選択することと
を含む、請求項62に記載の方法。
【請求項66】
前記がん治療様式が、前記腫瘍変異負荷が所定の閾値を上回る場合、有効量の1つ以上の抗がん剤を前記患者へと投与することを含む、請求項64又は請求項65に記載の方法。
【請求項67】
前記1つ以上の抗がん剤が、がん免疫療法剤を含む、請求項66に記載の方法。
【請求項68】
前記がん免疫療法剤が、免疫チェックポイント阻害剤である、請求項67に記載の方法。
【請求項69】
患者におけるがんの進行又は再発を監視する方法であって、
前記1つ以上のプロセッサによって、請求項16~67のいずれか一項に記載の方法を用いて1つ以上の目的のゲノム配列を体細胞として同定することであって、前記患者試料が、がんを有する患者から得られる、1つ以上の目的のゲノム配列を体細胞として同定することと、
前記1つ以上のプロセッサによって、前記がんが治療された後に患者から得られた第2の患者試料内にて体細胞として同定された前記1つ以上の目的のゲノム配列の存在又は非存在を検出することと
を含む、方法。
【請求項70】
前記患者から前記第2の患者試料を得ることを含む、請求項69に記載の方法。
【請求項71】
前記第1の患者試料が前記患者から得られた後で、かつ前記第2の患者試料が前記患者から得られる前に、前記患者の前記がんを治療することを含む、請求項69又は請求項70に記載の方法。
【請求項72】
前記第2の患者試料が、無細胞DNAを含む、請求項69~71のいずれか一項に記載の方法。
【請求項73】
前記第2の患者試料内で体細胞として同定された前記1つ以上の目的のゲノム配列の存在又は非存在を検出することが、前記第2の患者試料中の核酸分子をシーケンシングすることを含む、請求項69~72のいずれか一項に記載の方法。
【請求項74】
がんを有する対象に対して個別化されたがんワクチンのためのネオ抗原を選択する方法であって、
前記1つ以上のプロセッサにより、請求項16~67のいずれか一項に記載の方法を用いて1つ以上の目的のゲノム配列を体細胞として同定することであって、体細胞として同定された前記1つ以上の目的のゲノム配列が、遺伝子のエクソン領域内に位置する、1つ以上の目的のゲノム配列を体細胞として同定することと、
前記1つ以上のプロセッサによって、体細胞として同定された前記1つ以上の目的のゲノム配列から、前記対象に対するがんワクチンとして好適なネオ抗原をコードするゲノム配列を選択することと
を含む、方法。
【請求項75】
前記ネオ抗原を含むワクチンを作製することを更に含む、請求項74に記載の方法。
【請求項76】
1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つ以上のプログラムが命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、前記電子デバイスに、
腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内から、ゲノム遺伝子座における目的のゲノム配列を選択させ、
前記目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択させ、
前記目的のゲノム配列の観測された対立遺伝子頻度、及び前記1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて対立遺伝子頻度距離を決定させ、かつ
前記対立遺伝子頻度距離を用いて、前記目的のゲノム配列を生殖系列又は体細胞として同定させる
非一時的コンピュータ可読記憶媒体。
【請求項77】
前記1つ以上のプロキシゲノム配列が、前記患者ゲノム配列の定義されたセグメント内に位置し、かつ選択された前記目的のゲノム配列が、同じ定義されたセグメント内に位置する、請求項76に記載の非一時的コンピュータ可読記憶媒体。
【請求項78】
前記患者ゲノム配列が、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される、請求項77に記載の非一時的コンピュータ可読記憶媒体。
【請求項79】
前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの前記1つ以上のプロセッサによって実行される場合、前記電子デバイスに、前記患者ゲノム配列を複数のセグメントにセグメント化させる、請求項77又は請求項78に記載の非一時的コンピュータ可読記憶媒体。
【請求項80】
前記要約統計量が、平均対立遺伝子頻度又は中央対立遺伝子頻度である、請求項76~79のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項81】
前記対立遺伝子頻度距離が、前記目的のゲノム配列の前記観測された対立遺伝子頻度及び複数のプロキシゲノム配列の前記観測された頻度を示す分布を用いて決定され、前記目的のゲノム配列が、前記目的のゲノム配列の前記観測された対立遺伝子頻度が前記分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される、請求項76~80のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項82】
前記腫瘍核酸分子及び前記非腫瘍核酸分子が、DNA分子を含む、請求項76~81のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項83】
前記腫瘍核酸分子及び前記非腫瘍核酸分子が、RNA分子を含む、請求項76~82のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項84】
前記患者ゲノム配列が、標的化シーケンシングを用いて決定される、請求項76~83のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項85】
前記患者ゲノム配列が、次世代シーケンシングを用いて決定される、請求項76~84のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項86】
前記標的化シーケンシングが、がんに関連する1つ以上の遺伝子又はその一部の標的化シーケンシングを含む、請求項84又は請求項85に記載の非一時的コンピュータ可読記憶媒体。
【請求項87】
前記標的化シーケンシングが、1つ以上のエクソン領域の標的化シーケンシングを含む、請求項84~86のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項88】
1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つ以上のプログラムが命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、前記電子デバイスに、
ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定させ、
前記目的の配列に対する1つ以上のプロキシゲノム配列を同定させ、
前記目的の配列の観測された頻度を、前記1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度に対して同定させ、かつ
前記比較に基づいて、前記目的のゲノム配列を生殖系列又は体細胞のいずれかとして特徴付けさせる、非一時的コンピュータ可読記憶媒体。
【請求項89】
前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの前記1つ以上のプロセッサによって実行される場合、前記電子デバイスに、前記ゲノム遺伝子座が含まれる患者のゲノムのセグメントを同定させる、請求項88に記載の非一時的コンピュータ可読記憶媒体。
【請求項90】
前記セグメントを同定することが、前記患者のゲノムの連続部分に対してセグメント化手順を実施することを含む、請求項88に記載の非一時的コンピュータ可読記憶媒体。
【請求項91】
前記患者のゲノムの前記部分が、3つの異なるセグメントを同定するのに充分な大きさである、請求項90に記載の非一時的コンピュータ可読記憶媒体。
【請求項92】
前記1つ以上のプロキシゲノム配列が、前記ゲノム遺伝子座と同じセグメント上に位置するものと同定される、請求項88~91のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項93】
前記セグメント化手順が、ゲノムパラメータが各個別セグメントの全体にわたって等しいかどうかに従ってセグメントを同定する、請求項90~92のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項94】
前記ゲノムパラメータが、コピー数である、請求項93に記載の非一時的コンピュータ可読記憶媒体。
【請求項95】
前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの1つ以上のプロセッサによって実行される場合、前記電子デバイスに、前記患者ゲノム配列に関連するシーケンシングデータを受信させる、請求項76~94のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項96】
前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの1つ以上のプロセッサによって実行される場合、前記電子デバイスに、前記シーケンシングデータを用いて前記患者ゲノム配列をアセンブルさせる、請求項95に記載の非一時的コンピュータ可読記憶媒体。
【請求項97】
前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの1つ以上のプロセッサによって実行される場合、前記患者試料に由来する核酸分子をシーケンシングし、それによって前記シーケンシングデータを取得するようにシーケンサーを動作させる、請求項95又は請求項96に記載の非一時的コンピュータ可読記憶媒体。
【請求項98】
前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの前記1つ以上のプロセッサによって実行される場合、前記電子デバイスに、前記目的のゲノム配列を生殖系列又は体細胞のいずれかとして示す報告を生成させる、請求項76~97のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項99】
前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの前記1つ以上のプロセッサによって実行される場合、前記電子デバイスに、コンピュータネットワークを用いて前記報告を送信させる、請求項76~98のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項100】
前記電子デバイスが、ディスプレイを備え、かつ前記1つ以上のプログラムが命令を更に含み、該命令が、前記電子デバイスの前記1つ以上のプロセッサによって実行される場合、前記電子デバイスに前記報告を表示させる、請求項76~99のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項101】
前記1つ以上のプロキシゲノム配列が、一塩基多型(SNP)を含む、請求項76~100のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項102】
前記1つ以上のプロキシゲノム配列が、対立遺伝子を含む、請求項76~101のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項103】
前記目的のゲノム配列が、ゲノムバリアントを含む、請求項76~102のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項104】
電子デバイスであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行されるように構成された1つ以上のプログラムを記憶するメモリであって、前記1つ以上のプログラムが、
腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内から、ゲノム遺伝子座における目的のゲノム配列を選択させる命令、
前記目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択させる命令、
前記目的のゲノム配列の観測された対立遺伝子頻度、及び前記1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて対立遺伝子頻度距離を決定させる命令、及び
前記対立遺伝子頻度距離を用いて、前記目的のゲノム配列を生殖系列又は体細胞として同定させる命令、を含む、1つ以上のプログラムを記憶するメモリと
を備える、電子デバイス。
【請求項105】
前記1つ以上のプロキシゲノム配列が、前記患者ゲノム配列の定義されたセグメント内に位置し、かつ選択された前記目的のゲノム配列が、同じ定義されたセグメント内に位置する、請求項104に記載の電子デバイス。
【請求項106】
前記患者ゲノム配列が、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される、請求項105に記載の電子デバイス。
【請求項107】
前記1つ以上のプログラムが、前記患者ゲノム配列を複数のセグメントにセグメント化させる命令を更に含む、請求項104~106のいずれか一項に記載の電子デバイス。
【請求項108】
前記要約統計量が、平均対立遺伝子頻度又は中央対立遺伝子頻度である、請求項104~107のいずれか一項に記載の電子デバイス。
【請求項109】
前記対立遺伝子頻度距離が、前記目的のゲノム配列の前記観測された対立遺伝子頻度及び複数のプロキシゲノム配列の前記観測された頻度を示す分布を用いて決定され、前記目的のゲノム配列が、前記目的のゲノム配列の前記観測された対立遺伝子頻度が前記分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される、請求項104~108のいずれか一項に記載の電子デバイス。
【請求項110】
前記腫瘍核酸分子及び前記非腫瘍核酸分子が、DNA分子を含む、請求項104~109のいずれか一項に記載の電子デバイス。
【請求項111】
前記腫瘍核酸分子及び前記非腫瘍核酸分子が、RNA分子を含む、請求項104~110のいずれか一項に記載の電子デバイス。
【請求項112】
前記患者ゲノム配列が、次世代シーケンシングを用いて決定される、請求項104~111のいずれか一項に記載の電子デバイス。
【請求項113】
前記患者ゲノム配列が、標的化シーケンシングを用いて決定される、請求項104~112のいずれか一項に記載の電子デバイス。
【請求項114】
前記標的化シーケンシングが、がんに関連する1つ以上の遺伝子又はその一部の標的化シーケンシングを含む、請求項113に記載の電子デバイス。
【請求項115】
前記標的化シーケンシングが、1つ以上のエクソン領域の標的化シーケンシングを含む、請求項113又は請求項114に記載の電子デバイス。
【請求項116】
電子デバイスであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行されるように構成された1つ以上のプログラムを記憶するメモリであって、前記1つ以上のプログラムが、
ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定させる命令、
前記目的の配列に対する1つ以上のプロキシゲノム配列を同定させる命令、
前記目的のゲノム配列の観測された頻度を、前記1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度と比較させる命令、及び
前記比較に基づき前記目的のゲノム配列を生殖系列又は体細胞として同定させる命令、を含む、1つ以上のプログラムを記憶するメモリと、
を備える、電子デバイス。
【請求項117】
前記1つ以上のプログラムが、前記ゲノム遺伝子座が含まれる患者のゲノムのセグメントを同定するための命令を更に含む、請求項116に記載の電子デバイス。
【請求項118】
前記セグメントを同定することが、前記患者のゲノムの連続部分に対してセグメント化手順を実施することを含む、請求項117に記載の電子デバイス。
【請求項119】
前記患者のゲノムの前記部分が、3つの異なるセグメントを同定するのに充分な大きさである、請求項118に記載の電子デバイス。
【請求項120】
前記1つ以上のプロキシゲノム配列が、前記ゲノム遺伝子座と同じセグメント内に位置するものと同定される、請求項117~119のいずれか一項に記載の電子デバイス。
【請求項121】
前記セグメント化手順が、ゲノムパラメータが各個別セグメントの全体にわたって等しいかどうかに従ってセグメントを同定する、請求項118~120のいずれか一項に記載の電子デバイス。
【請求項122】
前記ゲノムパラメータが、コピー数である、請求項121に記載の電子デバイス。
【請求項123】
前記1つ以上のプログラムが、前記患者ゲノム配列に関連するシーケンシングデータを受信するための命令を更に含む、請求項104~122のいずれか一項に記載の電子デバイス。
【請求項124】
前記1つ以上のプログラムが、前記シーケンシングデータを用いて前記患者ゲノム配列をアセンブルするための命令を更に含む、請求項123に記載の電子デバイス。
【請求項125】
前記1つ以上のプログラムが、シーケンサーに、前記患者試料に由来する核酸分子をシーケンシングさせ、それによって前記シーケンシングデータを得るための命令を更に含む、請求項123又は請求項124に記載の電子デバイス。
【請求項126】
前記1つ以上のプロキシゲノム配列が、一塩基多型(SNP)を含む、請求項104~125のいずれか一項に記載の電子デバイス。
【請求項127】
前記1つ以上のプロキシゲノム配列が、対立遺伝子を含む、請求項104~126のいずれか一項に記載の電子デバイス。
【請求項128】
前記目的のゲノム配列が、ゲノムバリアントを含む、請求項104~127のいずれか一項に記載の電子デバイス。
【請求項129】
前記1つ以上のプログラムが、生殖系列又は体細胞のいずれかとして前記目的のゲノム配列を示す報告を生成するための命令を更に含む、請求項104~128のいずれか一項に記載の電子デバイス。
【請求項130】
前記1つ以上のプログラムは、コンピュータネットワーク又はピアツーピア接続を介して前記報告を送信するための命令を更に含む、請求項129に記載の電子デバイス。
【請求項131】
前記デバイスが、ディスプレイを更に備え、かつ前記1つ以上のプログラムが、前記報告を表示するための命令を更に含む、請求項129又は130に記載の電子デバイス。
【請求項132】
前記患者試料が、腫瘍組織及び非腫瘍組織を含む組織生検に由来する、請求項104~131のいずれか一項に記載の電子デバイス。
【請求項133】
前記組織生検が、固形組織生検又は液体生検である、請求項132に記載の電子デバイス。
【請求項134】
前記組織生検が、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む液体生検である、請求項133に記載の電子デバイス。
【請求項135】
前記患者試料が、前記対象から得られた無細胞DNA(cfDNA)を含む、請求項104~134のいずれか一項に記載の電子デバイス。
【請求項136】
前記患者試料が、前記対象から得られた循環腫瘍DNA(ctDNA)を含む、請求項104~135のいずれか一項に記載の電子デバイス。
【請求項137】
請求項104~136のいずれか一項に記載の電子デバイスと、前記患者試料に由来する核酸分子をシーケンシングするように構成されたシーケンサーとを含む、システム。
【請求項138】
前記シーケンサーが、次世代シーケンサーである、請求項137に記載のシステム。
【請求項139】
目的のゲノム配列を生殖系列又は体細胞として同定する方法であって、前記方法が、
1つ以上のプロセッサによって、ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定することと、
前記1つ以上のプロセッサによって、前記目的のゲノム配列に対するプロキシゲノム配列を同定することと、
前記1つ以上のプロセッサによって、前記目的のゲノム配列の観測された対立遺伝子画分を、前記プロキシゲノム配列の観測された対立遺伝子画分と比較することと、
前記1つ以上のプロセッサによって、前記比較に基づき前記目的のゲノム配列を生殖系列又は体細胞として同定することと
を含む、方法。
【請求項140】
前記プロキシゲノム配列が、前記目的のゲノム配列と同じコピー数を有する、請求項139に記載の方法。
【請求項141】
前記1つ以上のプロセッサによって、前記目的のゲノム配列を生殖系列又は体細胞として同定することが、
対立遺伝子頻度距離を訓練済み統計モデルに入力することと、
前記訓練済み統計モデルから、前記目的のゲノム配列が生殖細胞系である可能性を示す値、又は前記目的のゲノム配列が体細胞性である可能性を示す値を出力することと
を含む、請求項139又は請求項140に記載の方法。
【請求項142】
前記ゲノム配列の前記対立遺伝子画分及び前記プロキシゲノム配列の前記対立遺伝子画分が、次世代シーケンシング技術を用いて決定される、請求項139~141のいずれか一項に記載の方法。
【請求項143】
前記ゲノム配列の前記対立遺伝子画分及び前記プロキシゲノム配列の前記対立遺伝子画分が、マイクロアレイ技術を用いて決定される、請求項142に記載の方法。
【請求項144】
前記患者試料が、固形組織生検又は液体生検を含む、請求項139~143のいずれか一項に記載の方法。
【請求項145】
前記患者試料が、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む液体生検である、請求項144に記載の方法。
【請求項146】
前記患者試料が、前記対象から得られた無細胞DNA(cfDNA)を含む、請求項139~145のいずれか一項に記載の方法。
【請求項147】
前記患者試料が、前記対象から得られた循環腫瘍DNA(ctDNA)を含む、請求項139~146のいずれか一項に記載の方法。
【請求項148】
前記患者が、がん患者である、請求項139~147のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年6月5日に出願された米国仮特許出願第63/035,572号、及び2020年6月19日に出願された米国仮特許出願第63/041,437号の利益を主張し、これらの両方は、参照によりその全体が本明細書に組み込まれる。
【0002】
技術分野
本開示は、体細胞ゲノム配列を生殖系列ゲノム配列から区別するためのシステム及び方法に関する。
【背景技術】
【0003】
背景
生殖系列ゲノム配列は、生物がその親から継承する配列を指す。特に、生物の親の一方又は両方が特定のゲノム突然変異を有する場合(又は、生物がその極めて初期の発生において特定の突然変異を経験する場合)、それらの突然変異は生物の生殖系列であってもよく、生物の子孫に(もしあれば)引き継がれる。
【0004】
対照的に、体細胞ゲノム配列は、親から子に渡されない配列である。例えば、生物は、外部因子(例えば、汚染、放射線、食事、喫煙など)に起因するゲノム突然変異を発達させることができ、それらのゲノム変異は、特定の組織、体液、又は他の解剖学的材料にのみ限定される。場合により、これらの突然変異は、がんを含むがこれに限定されない望ましくない医学的状態をもたらす。
【0005】
精密医療は、患者の個々の特徴又は患者の状態を標的とする治療法により患者を治療する分野である。多くの患者(がん患者を含む)にとって、これは、患者の「正常な」ゲノム状態と、患者の「異常な」組織、体液、又は他の解剖学的材料のゲノム状態との両方に関するゲノム情報を決定することを含み得る。この情報は、腫瘍生検、採血、又は正常及び異常の両方の組織、体液、又は他の解剖学的材料を有する他の何らかの種類の試料などの、患者からの試料に由来し得る。
【0006】
これらの試料は、その中に含まれる材料のゲノム配列を(少なくとも部分的に)決定するためにアッセイされ得る。しかしながら、特定のゲノム配列が患者の正常な解剖学的材料に由来するかどうか、又は異常な解剖学的材料に由来するかどうかを同定することは困難なときがあり、すなわち、特定のゲノム配列が生殖系列であるか体細胞であるかを決定することは時に困難である。
【0007】
がん患者のDNAにおいて観測される遺伝的バリアントが生殖系列又は体細胞起源であるかどうかを理解することは、臨床診療及びがん研究の両方において極めて重要である。体細胞/生殖系列の区別は、例えば、同じ患者由来の一致した腫瘍組織及び正常組織をシーケンシングすることによって行うことができる。腫瘍に存在するが正常組織には存在しないバリアントは体細胞として分類されるが、一方で両方に存在するバリアントは生殖系列として分類される。しかしながら、そのような二重試料アプローチは、コストと、検体の入手可能性とによって制約される。典型的には、臨床診療では一致した正常検体は得られない。例えば、組織生検の場合、腫瘍とその隣接する正常組織の両方を含む単一の検体が収集される。したがって、起源が体細胞又は生殖系列として、検出されたバリアントを確実に分類することができる方法を開発する必要がある。
【発明の概要】
【課題を解決するための手段】
【0008】
概要
体細胞ゲノム配列を生殖系列ゲノム配列から区別するための方法、デバイス、及びコンピュータ可読媒体が本明細書に記載されている。
【0009】
本明細書には、対象のゲノム配列を生殖系列又は体細胞として同定する方法であって、本方法が、対象からの試料から得られた複数の核酸分子を提供することであって、前記複数の核酸分子が、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む、複数の核酸分子を提供することと;任意選択的に、前記複数の核酸分子からの1つ以上の核酸に1つ以上のアダプターを連結することと;前記複数の核酸分子から核酸分子を増幅することと;増幅した前記核酸分子から核酸分子を捕捉することであって、捕捉した前記核酸分子が、1つ以上のベイト分子へのハイブリダイゼーションによって前記増幅した核酸分子から捕捉される、核酸分子を捕捉することと;シーケンサーによって、前記捕捉した核酸分子をシーケンシングして、1つ以上のゲノム遺伝子座に対応する複数の配列読取りを取得することと;1つ以上のプロセッサによって、前記1つ以上のゲノム遺伝子座からのゲノム遺伝子座における目的のゲノム配列を選択することと;前記1つ以上のプロセッサによって、前記目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択することと前記1つ以上のプロセッサによって、前記目的のゲノム配列の観測された対立遺伝子頻度、及び前記1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて、対立遺伝子頻度距離を決定することと;前記1つ以上のプロセッサによって、前記対立遺伝子頻度距離を用いて、前記目的のゲノム配列を生殖系列又は体細胞として同定することと、を含む方法が開示される。
【0010】
いくつかの実施形態では、対象は、がん患者である。いくつかの実施形態では、試料は、組織生検試料、液体生検試料、循環腫瘍細胞(CTC)試料、無細胞DNA(cfDNA)試料、又は正常対照を含む。いくつかの実施形態では、試料は、液体生検試料であり、かつ血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む。いくつかの実施形態では、腫瘍核酸分子は、不均質組織生検試料の腫瘍部分に由来し、かつ非腫瘍核酸分子は、不均質組織生検試料の正常部分に由来する。いくつかの実施形態では、腫瘍核酸分子は、無細胞DNA試料の循環腫瘍DNA(ctDNA)画分に由来し、かつ非腫瘍核酸分子は、前記無細胞DNA試料の非腫瘍画分に由来する。いくつかの実施形態では、1つ以上のアダプターは、増幅プライマー又はシーケンシングアダプターを含む。いくつかの実施形態では、1つ以上のベイト分子が、1つ以上の核酸分子を含み、各核酸分子が、捕捉された核酸分子の領域に相補的な領域を含む。いくつかの実施形態では、核酸分子を増幅することは、ポリメラーゼ連鎖反応(PCR)又は等温増幅技術を実施することを含む。いくつかの実施形態では、シーケンシングは、次世代シーケンシング(NGS)技術の使用を含む。いくつかの実施形態では、シーケンシングは、次世代シーケンサーを含む。いくつかの実施形態では、1つ以上のプロキシゲノム配列は、対象のゲノム配列の定義されたセグメント内に位置し、かつ選択された目的のゲノム配列は、同じ定義されたセグメント内に位置する。いくつかの実施形態では、対象のゲノム配列は、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される。いくつかの実施形態では、要約統計量は、平均対立遺伝子頻度又は中央値対立遺伝子頻度である。いくつかの実施形態では、対立遺伝子頻度距離は、目的のゲノム配列の観測された対立遺伝子頻度及び複数のプロキシゲノム配列の観測された頻度を示す分布を用いて決定され、目的のゲノム配列は、目的のゲノム配列の観測された対立遺伝子頻度が分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される。
【0011】
いくつかの実施形態では、目的のゲノム配列を生殖系列又は体細胞として同定する方法は:1つ以上のプロセッサによって、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内からゲノム遺伝子座における目的のゲノム配列を選択することと;1つ以上のプロセッサによって、目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択することと;1つ以上のプロセッサによって、目的のゲノム配列の観測された対立遺伝子頻度及び1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて、対立遺伝子頻度距離を決定することと;1つ以上のプロセッサによって、対立遺伝子頻度距離を用いて目的のゲノム配列を生殖系列又は体細胞として同定すること(例えば、分類すること)とを含む。
【0012】
本方法のいくつかの実施形態では、要約統計量は、平均対立遺伝子頻度又は中央値対立遺伝子頻度である。いくつかの実施形態では、対立遺伝子頻度距離は、目的のゲノム配列の観測された対立遺伝子頻度及び複数のプロキシゲノム配列の観測された頻度を示す分布を用いて決定され、目的のゲノム配列は、目的のゲノム配列の観測された対立遺伝子頻度が分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される。
【0013】
いくつかの実施形態では、腫瘍核酸分子及び非腫瘍核酸分子は、DNA分子を含む。いくつかの実施形態では、腫瘍核酸分子及び非腫瘍核酸分子は、RNA分子を含む。
【0014】
いくつかの実施形態では、本方法は、患者試料からの腫瘍核酸分子及び非腫瘍核酸分子をシーケンシングして、患者ゲノム配列を決定することを更に含む。いくつかの実施形態では、患者ゲノム配列は、次世代シーケンシング技術を用いて得られる、又は次世代シーケンシング技術を用いて決定される。いくつかの実施形態では、シーケンサーは、次世代シーケンサーである。
【0015】
本方法のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、患者ゲノム配列の定義されたセグメント内に位置し、かつ選択された目的のゲノム配列は、同じ定義されたセグメント内に位置する。いくつかの実施形態では、患者ゲノム配列は、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される。いくつかの実施形態では、本方法は、患者ゲノム配列を複数のセグメントにセグメント化することを含む。
【0016】
本方法のいくつかの実施形態では、患者ゲノム配列は、標的化シーケンシングを用いて決定される。いくつかの実施形態では、標的化シーケンシングは、がんに関連する1つ以上の遺伝子又はその一部の標的化シーケンシングを含む。いくつかの実施形態では、標的化シーケンシングは、1つ以上のエクソン領域の標的化シーケンシングを含む。
【0017】
いくつかの実施形態では、本方法は、1つ以上のプロセッサによってゲノム遺伝子座において患者試料中の目的のゲノム配列を同定することと、1つ以上のプロセッサによって目的の配列に対する1つ以上のプロキシゲノム配列を同定することと、1つ以上のプロセッサによって、目的の配列の観測された頻度を1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度と比較することと、この比較に基づいて、目的のゲノム配列を生殖系列又は体細胞のいずれかとして同定すること(例えば、分類すること又は特徴付ける付けること)とを含む。
【0018】
本方法のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、一塩基多型(SNP)を含む。
【0019】
本方法のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、対立遺伝子を含む。
【0020】
いくつかの実施形態では、本方法は、1つ以上のプロセッサによって、ゲノム遺伝子座が含まれる患者のゲノムのセグメントを同定することを更に含む。いくつかの実施形態では、1つ以上のプロセッサによって、セグメントを同定することが、患者のゲノムの連続部分に対してセグメント化手順を実施することを含む。いくつかの実施形態では、患者のゲノムの部分は、3つの異なるセグメントを同定するのに充分な大きさである。いくつかの実施形態では、プロキシは、ゲノム遺伝子座と同じセグメント上に位置するように、1つ以上のプロセッサによって同定される。いくつかの実施形態では、セグメント化手順は、ゲノムパラメータが各個別セグメントの全体にわたって等しいかどうかに従ってセグメントを同定する。いくつかの実施形態では、ゲノムパラメータは、コピー数である。
【0021】
目的のゲノム配列を生殖系列又は体細胞として同定する上記の方法のいずれかのいくつかの実施形態では、1つ以上のプロセッサによって、目的のゲノム配列を生殖系列又は体細胞として同定する工程は:対立遺伝子頻度距離を訓練済み統計モデルに入力することと;訓練済み統計モデルから、目的のゲノム配列が生殖系列である可能性を示す値、又は目的のゲノム配列が体細胞性である可能性を示す値を出力することとを含む。いくつかの実施形態では、対立遺伝子頻度距離は、患者試料における汚染レベル、低いシーケンシング読取り深度、対立遺伝子頻度のノイズの多い推定値、低いセグメント生殖系列一塩基多型(SNP)数、又はセグメント生殖系列SNP対立遺伝子頻度の高い変動性について補正するために調整される。いくつかの実施形態では、訓練済み統計モデルは、対立遺伝子頻度距離を、目的のゲノム配列が生殖系列である可能性を示す値、又は目的のゲノム配列が体細胞性である可能性を示す値と関連付ける関数を含む。
【0022】
いくつかの実施形態では、訓練済み統計モデルは、ロジスティック回帰モデルである。いくつかの実施形態では、訓練済み統計モデルは、既知の生殖系列配列を有する腫瘍試料を用いて訓練される。いくつかの実施形態では、訓練済み統計モデルは、既知の生殖系列配列及び既知の体細胞配列を有する腫瘍試料についてのデータを用いて訓練される。いくつかの実施形態では、本方法は、既知の生殖系列配列を有する腫瘍試料についてのデータを用いて、統計モデルを訓練することを更に含む。いくつかの実施形態では、本方法は、既知の生殖系列配列及び既知の体細胞配列を有する腫瘍試料についてのデータを用いて、統計モデルを訓練することを更に含む。
【0023】
いくつかの実施形態では、訓練済み統計モデルは、期待値から逸脱する対立遺伝子頻度を有することが知られているゲノム領域に位置するバリアントを除外する、バリアント対立遺伝子頻度についてのデータを用いて訓練される。いくつかの実施形態では、本方法は、期待値から逸脱する対立遺伝子頻度を有することが知られているゲノム領域に位置するバリアントを除外する、バリアント対立遺伝子頻度についてのデータを用いて、統計モデルを訓練することを更に含む。
【0024】
いくつかの実施形態では、訓練済み統計モデルは、履歴データ又はデータベースに基づく、生殖系列、体細胞バリアント、又は未確定の潜在能をもつクローン性造血(CHIP)バリアントであるバリアントの可能性の事前知識を組み込むデータを用いて訓練される。いくつかの実施形態では、本方法は、履歴データ又はデータベースに基づく、生殖系列、体細胞バリアント、又は未確定の潜在能をもつクローン性造血(CHIP)バリアントであるバリアントの可能性の事前知識を組み込むデータを用いて、統計モデルを訓練することを更に含む。
【0025】
いくつかの実施形態では、訓練済み統計モデルは、所与のバリアント呼出し及びそのゲノムコンテクストに対するノイズレベルを説明するデータを用いて訓練される。いくつかの実施形態では、本方法は、所与のバリアント呼出し及びそのゲノムコンテクストについてのノイズレベルを説明するデータを用いて、統計モデルを訓練することを更に含む。
【0026】
いくつかの実施形態では、1つ以上のプロキシゲノム配列は、一塩基多型(SNP)を含む。いくつかの実施形態では、1つ以上のプロキシゲノム配列は、対立遺伝子を含む。本方法のいくつかの実施形態では、目的のゲノム配列は、ゲノムバリアントを含む。
【0027】
本方法のいくつかの実施形態では、本方法は、1つ以上のプロセッサによって、生殖系列又は体細胞のいずれかとして目的のゲノム配列を示す報告を生成することを更に含む。いくつかの実施形態では、本方法は、例えばヘルスケア提供者に報告を送信することを含む。いくつかの実施形態では、報告は、コンピュータネットワーク又はピアツーピア接続を介して送信される。
【0028】
上記方法のいずれかのいくつかの実施形態では、患者試料は、腫瘍組織及び非腫瘍組織を含む組織生検に由来する。いくつかの実施形態では、組織生検は、固形組織生検又は液体生検である。いくつかの実施形態では、組織生検は、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む液体生検である。いくつかの実施形態では、患者試料は、当該対象から得られた無細胞DNA(cdDNA)を含む。いくつかの実施形態では、患者試料は、対象から得られた循環腫瘍DNA(ctDNA)を含む。
【0029】
本明細書には、患者のがんを治療する方法が更に記載され、この方法は、1つ以上のプロセッサによって、上記の方法のいずれかを用いて1つ以上の目的のゲノム配列を体細胞として同定することと;1つ以上の同定された体細胞配列に基づいてがん治療様式を選択することと;選択されたがん治療様式を用いてがんを治療することとを含む。いくつかの実施形態では、1つ以上の同定された体細胞配列は、選択された治療様式を用いたがん治療の成功に関与する。いくつかの実施形態では、本方法は、1つ以上のプロセッサによって、1つ以上の同定された体細胞配列を用いてがんのマイクロサテライト不安定性状態を決定することと;がんのマイクロサテライト不安定性状態に基づいてがん治療様式を選択することとを含む。いくつかの実施形態では、本方法は、1つ以上のプロセッサによって、1つ以上の同定された体細胞配列を用いてがんについての腫瘍変異負荷を決定することと;腫瘍変異負荷が所定の腫瘍変異負荷の閾値を上回っていることに基づいてがん治療様式を選択することとを含む。いくつかの実施形態では、がん治療様式は、腫瘍変異負荷が所定の閾値を上回る場合、有効量の1つ以上の抗がん剤を患者へと投与することを含む。いくつかの実施形態では、1つ以上の抗がん剤は、がん免疫療法剤を含む。いくつかの実施形態では、がん免疫療法剤は、免疫チェックポイント阻害剤である。
【0030】
本明細書にはまた、患者におけるがんの進行又は再発を監視する方法が記載され、この方法は、1つ以上のプロセッサによって、上記の方法のいずれかを用いて1つ以上の目的のゲノム配列を体細胞として同定することと;1つ以上のプロセッサによって、がんが治療された後に患者から得られた第2の患者試料内の体細胞として同定された、1つ以上の目的のゲノム配列の存在又は非存在を検出することとを含む。いくつかの実施形態では、本方法は、患者から第2の患者試料を得ることを含む。いくつかの実施形態では、本方法は、第1の患者試料が患者から得られた後で、及び第2の患者試料が患者から得られる前に、患者のがんを治療することを含む。いくつかの実施形態では、第2の患者試料は、無細胞DNAを含む。いくつかの実施形態では、第2の患者試料内で体細胞として同定された1つ以上の目的のゲノム配列の存在又は非存在を検出することは、第2の患者試料中の核酸分子をシーケンシングすることを含む。
【0031】
本明細書には、がんを有する対象に個別化されたがんワクチンのためのネオ抗原を選択する方法が更に記載され、この方法は、1つ以上のプロセッサによって、上記の方法のいずれかを用いて1つ以上の目的のゲノム配列を体細胞として同定することであって、体細胞として同定された1つ以上の目的のゲノム配列が、遺伝子のエクソン領域内に位置する、1つ以上の目的のゲノム配列を体細胞として同定することと;1つ以上のプロセッサによって、体細胞として同定された1つ以上の目的のゲノム配列から、対象に対するがんワクチンとして好適なネオ抗原をコードするゲノム配列を選択することとを含む。いくつかの実施形態では、本方法は、ネオ抗原を含むワクチンを作製することを更に含む。
【0032】
本明細書にはまた、1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体も記載され、この1つ以上のプログラムが命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内からゲノム遺伝子座における目的のゲノム配列を選択させ;目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択させ;目的のゲノム配列の観測された対立遺伝子頻度及び1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて、対立遺伝子頻度距離を決定させ、かつ;対立遺伝子頻度距離を用いて目的のゲノム配列を生殖系列又は体細胞として同定させる。いくつかの実施形態では、要約統計量は、平均対立遺伝子頻度又は中央値対立遺伝子頻度である。いくつかの実施形態では、対立遺伝子頻度距離は、目的のゲノム配列の観測された対立遺伝子頻度及び複数のプロキシゲノム配列の観測された頻度を示す分布を用いて決定され、目的のゲノム配列は、目的のゲノム配列の観測された対立遺伝子頻度が分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される。いくつかの実施形態では、腫瘍核酸分子及び非腫瘍核酸分子は、DNA分子を含む。いくつかの実施形態では、腫瘍核酸分子及び非腫瘍核酸分子は、RNA分子を含む。
【0033】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、患者ゲノム配列の定義されたセグメント内に位置し、かつ選択された目的のゲノム配列は、同じ定義されたセグメント内に位置する。いくつかの実施形態では、患者ゲノム配列は、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される。
【0034】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに患者ゲノム配列を複数のセグメントにセグメント化させる。
【0035】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、患者ゲノム配列は、標的化シーケンシングを用いて決定される。いくつかの実施形態では、患者ゲノム配列は、次世代シーケンシングを用いて決定される。いくつかの実施形態では、標的化シーケンシングは、がんに関連する1つ以上の遺伝子又はその一部の標的化シーケンシングを含む。いくつかの実施形態では、標的化シーケンシングは、1つ以上のエクソン領域の標的化シーケンシングを含む。
【0036】
いくつかの実施形態では、非一時的コンピュータ可読記憶媒体は、1つ以上のプログラムを保存し、この1つ以上のプログラムが命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに、ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定させ、目的の配列に対する1つ以上のプロキシゲノム配列を同定させ、目的の配列の観測された頻度を1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度に対して同定させ、この比較に基づいて、目的のゲノム配列を生殖系列又は体細胞のいずれかとして特徴付けさせる。
【0037】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに、目的のゲノム配列を生殖系列又は体細胞のいずれかとして示す報告を生成させる。いくつかの実施形態では、電子デバイスは、ディスプレイを備え、かつ1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに報告を表示させる。
【0038】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、一塩基多型(SNP)を含む。
【0039】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、対立遺伝子を含む。
【0040】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに、ゲノム遺伝子座が含まれる患者のゲノムのセグメントを同定させる。いくつかの実施形態では、セグメントを同定することは、患者のゲノムの連続部分に対してセグメント化手順を実施することを含む。いくつかの実施形態では、患者のゲノムの部分は、3つの異なるセグメントを同定するのに充分な大きさである。いくつかの実施形態では、1つ以上のプロキシゲノム配列は、ゲノム遺伝子座と同じセグメント上に位置するものと同定される。いくつかの実施形態では、セグメント化手順は、ゲノムパラメータが各個別セグメントの全体にわたって等しいかどうかに従ってセグメントを同定する。いくつかの実施形態では、ゲノムパラメータは、コピー数である。
【0041】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、目的のゲノム配列は、ゲノムバリアントを含む。
【0042】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに、患者ゲノム配列に関連するシーケンシングデータを受信させる。いくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに、シーケンシングデータを用いて患者ゲノム配列をアセンブルさせる。いくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、患者試料に由来する核酸分子をシーケンシングし、それによってシーケンシングデータを取得するようにシーケンサーを動作させる。
【0043】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに、目的のゲノム配列を生殖系列又は体細胞のいずれかとして示す報告を生成させる。いくつかの実施形態では、1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスにコンピュータネットワークを用いて報告を送信させる。
【0044】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、電子デバイスは、ディスプレイを備え、かつ1つ以上のプログラムは更に命令を含み、該命令が、電子デバイスの1つ以上のプロセッサによって実行される場合、電子デバイスに報告を表示させる。
【0045】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、一塩基多型(SNP)を含む。
【0046】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、1つ以上のプロキシゲノム配列は、対立遺伝子を含む。
【0047】
非一時的コンピュータ可読記憶媒体のいくつかの実施形態では、目的のゲノム配列は、ゲノムバリアントを含む。
【0048】
本明細書にはまた、1つ以上のプロセッサと、前記1つ以上のプロセッサによって実行されるように構成された1つ以上のプログラムを記憶するメモリであって、前記1つ以上のプログラムが、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内から、ゲノム遺伝子座における目的のゲノム配列を選択させる命令;前記目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択させる命令前記目的のゲノム配列の観測された対立遺伝子頻度、及び前記1つ以上のプロキシゲノム配列の観測された対立遺伝子頻度を示す要約統計量又は分布を用いて対立遺伝子頻度距離を決定させる命令;及び前記対立遺伝子頻度距離を用いて、前記目的のゲノム配列を生殖系列又は体細胞として同定させる命令、を含む、1つ以上のプログラムを記憶するメモリと、を備える電子デバイスが開示される。いくつかの実施形態では、要約統計量は、平均対立遺伝子頻度又は中央値対立遺伝子頻度である。いくつかの実施形態では、対立遺伝子頻度距離は、目的のゲノム配列の観測された対立遺伝子頻度及び複数のプロキシゲノム配列の観測された頻度を示す分布を用いて決定され、目的のゲノム配列は、目的のゲノム配列の観測された対立遺伝子頻度が分布内に適合するか又は適合しない確率に基づいて、生殖系列又は体細胞として同定される。いくつかの実施形態では、腫瘍核酸分子及び非腫瘍核酸分子は、DNA分子を含む。いくつかの実施形態では、腫瘍核酸分子及び非腫瘍核酸分子は、RNA分子を含む。いくつかの実施形態では、患者ゲノム配列は、次世代シーケンシングを用いて決定される。
【0049】
電子デバイスのいくつかの実施形態では、1つ以上のプロキシゲノム配列は、患者ゲノム配列の定義されたセグメント内に位置し、かつ選択された目的のゲノム配列は、同じ定義されたセグメント内に位置する。いくつかの実施形態では、患者ゲノム配列は、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される。いくつかの実施形態では、1つ以上のプログラムは、患者ゲノム配列を複数のセグメントにセグメント化させる命令を更に含む。
【0050】
電子デバイスのいくつかの実施形態では、患者ゲノム配列は、標的化シーケンシングを用いて決定される。いくつかの実施形態では、標的化シーケンシングは、がんに関連する1つ以上の遺伝子又はその一部の標的化シーケンシングを含む。いくつかの実施形態では、標的化シーケンシングは、1つ以上のエクソン領域の標的化シーケンシングを含む。
【0051】
いくつかの実施形態では、電子デバイスは、1つ以上のプロセッサと、前記1つ以上のプロセッサによって実行されるように構成された1つ以上のプログラムを記憶するメモリであって、前記1つ以上のプログラムが、ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定させる命令、前記目的の配列に対する1つ以上のプロキシゲノム配列を同定させる命令、前記目的のゲノム配列の観測された頻度を、前記1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度と比較させる命令、及びこの比較に基づき前記目的のゲノム配列を生殖系列又は体細胞として同定させる命令を含む、1つ以上のプログラムを記憶するメモリと、を備える。
【0052】
電子デバイスのいくつかの実施形態では、1つ以上のプロキシゲノム配列は、一塩基多型(SNP)を含む。
【0053】
電子デバイスのいくつかの実施形態では、1つ以上のプロキシゲノム配列は、対立遺伝子を含む。
【0054】
電子デバイスのいくつかの実施形態では、1つ以上のプログラムは、ゲノム遺伝子座が含まれる患者のゲノムのセグメントを同定するための命令を更に含む。いくつかの実施形態では、セグメントを同定することは、患者のゲノムの連続部分に対してセグメント化手順を実施することを含む。いくつかの実施形態では、患者のゲノムの部分は、3つの異なるセグメントを同定するのに充分な大きさである。いくつかの実施形態では、プロキシは、ゲノム遺伝子座と同じセグメント上に位置するものと同定される。いくつかの実施形態では、セグメント化手順は、ゲノムパラメータが各個別セグメントの全体にわたって等しいかどうかに従ってセグメントを同定する。いくつかの実施形態では、ゲノムパラメータは、コピー数である。
【0055】
電子デバイスのいくつかの実施形態では、目的のゲノム配列は、ゲノムバリアントを含む。
【0056】
電子デバイスのいくつかの実施形態では、1つ以上のプログラムは、患者ゲノム配列に関連するシーケンシングデータを受信するための命令を更に含む。いくつかの実施形態では、1つ以上のプログラムは、シーケンシングデータを用いて患者ゲノム配列をアセンブルするための命令を更に含む。いくつかの実施形態では、1つ以上のプログラムは、シーケンサーに、患者試料に由来する核酸分子をシーケンシングさせ、それによってシーケンシングデータを得るための命令を更に含む。
【0057】
電子デバイスのいくつかの実施形態では、1つ以上のプロキシゲノム配列は、一塩基多型(SNP)を含む。
【0058】
電子デバイスのいくつかの実施形態では、1つ以上のプロキシゲノム配列は、対立遺伝子を含む。
【0059】
電子デバイスのいくつかの実施形態では、目的のゲノム配列は、ゲノムバリアントを含む。
【0060】
電子デバイスのいくつかの実施形態では、1つ以上のプログラムは、生殖系列又は体細胞のいずれかとして目的のゲノム配列を示す報告を生成するための命令を更に含む。いくつかの実施形態では、1つ以上のプログラムは、コンピュータネットワーク又はピアツーピア接続を介して報告を送信するための命令を更に含む。いくつかの実施形態では、デバイスは、ディスプレイを更に備え、かつ1つ以上のプログラムは、報告を表示するための命令を更に含む。
【0061】
電子デバイスのいくつかの実施形態では、患者試料は、腫瘍組織及び非腫瘍組織を含む組織生検に由来する。いくつかの実施形態では、組織生検は、固形組織生検又は液体生検である。いくつかの場合では、組織試料は、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む液体生検である。いくつかの実施形態では、患者試料は、当該対象から得られた無細胞DNA(cfDNA)を含む。いくつかの実施形態では、患者試料は、対象から得られた循環腫瘍DNA(ctDNA)を含む。
【0062】
本明細書にはまた、本明細書に記載の電子デバイスと、患者試料に由来する核酸分子をシーケンシングするように構成されたシーケンサーとのいずれかを含む、システムが記載される。いくつかの実施形態では、シーケンサーは、次世代シーケンサーである。
【0063】
本明細書には、生殖系列又は体細胞として目的のゲノム配列を同定する方法が開示され、この方法は、1つ以上のプロセッサによって、ゲノム遺伝子座において患者試料中の目的のゲノム配列を同定することと;1つ以上のプロセッサによって、目的のゲノム配列に対するプロキシゲノム配列を同定することと;1つ以上のプロセッサによって、目的のゲノム配列の観測された対立遺伝子画分をプロキシゲノム配列の観測された対立遺伝子画分と比較することと;1つ以上のプロセッサによって、比較に基づいて、目的のゲノム配列を生殖系列又は体細胞として同定することとを含む。いくつかの実施形態では、プロキシゲノム配列は、目的のゲノム配列と同じコピー数を有する。いくつかの実施形態では、1つ以上のプロセッサによって、目的のゲノム配列を生殖系列又は体細胞として同定することは、対立遺伝子頻度距離を訓練済み統計モデルに入力することと;訓練済み統計モデルから、目的のゲノム配列が生殖系列である可能性を示す値、又は目的のゲノム配列が体細胞性である可能性を示す値を出力することとを含む。いくつかの実施形態では、ゲノム配列の対立遺伝子画分及びプロキシゲノム配列の対立遺伝子画分は、次世代シーケンシング技術を用いて決定される。いくつかの実施形態では、ゲノム配列の対立遺伝子画分及びプロキシゲノム配列の対立遺伝子画分は、マイクロアレイ技術を用いて決定される。いくつかの実施形態では、患者試料は、固形組織生検又は液体生検を含む。いくつかの実施形態では、患者試料は、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む液体生検である。いくつかの実施形態では、患者試料は、当該対象から得られた無細胞DNA(cfDNA)を含む。いくつかの実施形態では、患者試料は、対象から得られた循環腫瘍DNA(ctDNA)を含む。いくつかの実施形態では、患者は、がん患者である。
【0064】
参照による組込み
この明細書で言及される全ての刊行物、特許及び特許出願は、あたかも各個々の刊行物、特許又は特許出願が参照によりその全体が組み込まれることが具体的かつ個別に示されているのと同程度に、その全体が参照により本明細書に組み込まれる。本明細書の用語と組み込まれた参考文献の用語との間に矛盾がある場合、本明細書の用語が支配する。
【図面の簡単な説明】
【0065】
【
図1】
図1は、患者のゲノムの切片の概略図である。
【0066】
【
図2】
図2は、生殖系列と体細胞ゲノム配列とを区別するためのプロセスのフローチャートである。
【0067】
【
図3】
図3は、ゲノムセグメント化の概略図である。
【0068】
【
図4】
図4は、本明細書に記載の方法を実行するために使用され得る、電子デバイスを含む例示的なシステムを示す。
【0069】
【
図5A】
図5Aは、同じ腫瘍画分、倍数性、及びコピー数が与えられた体細胞及び生殖系列バリアントについて予想される、バリアント対立遺伝子画分の差を決定するための例示的なプロセスを示す。
【0070】
【
図5B】
図5Bは、予想される生殖系列対立遺伝子頻度(AFDIS)から対立遺伝子頻度距離を決定するための例示的な方法と、AFDISの例示的な密度分布とを示し、そこから経験的累積分布関数(ECDF)を構築することができる。
【0071】
【
図5C】
図5Cは、腫瘍試料の計算された純度に対してプロットされたAFDISの例示的なプロットを示す。
【0072】
【
図5D】
図5Dは、本明細書に開示される方法による腫瘍試料中の体細胞及び生殖系列バリアントの分類のためのROC曲線の非限定的な例を示す。
【0073】
【
図5E】
図5Eは、いくつかの実施形態で使用され得る例示的なロジスティック回帰モデルの確率プロットの非限定的な例を示す。
【0074】
【
図5F】
図5Fは、例示的なロジスティック回帰モデルを用いて決定された異なるバリアントの体細胞確率のプロットを示す。
【0075】
【
図5G】
図5Gは、従来のSGZ法に対する特許請求される方法の改善を示す。
【0076】
【
図5H】
図5Hは、本明細書に開示される例示的な方法に従ってロジスティック回帰モデルを訓練及び試験するために使用される、訓練データ及び試験データの感度プロットの非限定的な例を示す。
【0077】
【
図5I】
図5Iは、本明細書に開示される例示的な方法に従ってロジスティック回帰モデルを訓練及び試験するために使用される、訓練データ及び試験データについての陽性的中率(PPV)プロットの非限定的な例を示す。
【0078】
【
図5J】
図5Jは、記載された方法の例示的な実施形態を用いて、BRCA1及びBRCA2遺伝子におけるバリアントの分類のためのデータの非限定的な例を示す。
【0079】
【
図5K】
図5Kは、記載された方法の例示的な実施形態を用いて、STH11遺伝子におけるバリアントの分類のためのデータの非限定的な例を示す。
【0080】
【
図6A】
図6Aは、腫瘍試料における既知の生殖系列バリアントについてのバリアント対立遺伝子頻度(AF)対セグメントマイナー対立遺伝子頻度(MAF)のプロットの非限定的な例を示す。
【0081】
【
図6B】
図6Bは、
図6Aにプロットされたデータから導出された、それぞれ、0.1、0.2、及び0.3のセグメントMAF値に対応する密度対バリアントAFプロットの非限定的な例を示す。
【発明を実施するための形態】
【0082】
詳細な説明
体細胞ゲノム配列を生殖系列ゲノム配列から区別するための方法、デバイス、及びコンピュータ可読媒体が本明細書に記載されている。ゲノム遺伝子座における患者試料中の目的のゲノム配列は、同定され得る。次いで、目的の配列に対して、1つ以上のプロキシゲノム配列を同定することができる。目的の配列の観測された頻度は、1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度と比較することができ、この比較に基づいて、目的のゲノム配列を生殖系列配列又は体細胞配列のいずれかとして特徴付けることができる。
【0083】
単一試料設定におけるバリアントの体細胞/生殖系列状態を決定するためのいくつかの方法が過去に開発されており、これには、dbSNPなどの公的生殖系列データベースとの照合、又は一致した正常の代わりに多数の正常個体から構築された代用物の使用が含まれる。例えば、Hiltemannら、「Discriminating somatic and germline mutations in tumor DNA samples without matching normal」、Genome Res.、第25巻第9号第1382~1390頁(2015年)を参照されたい。しかしながら、そのような方法は、家族又は少数の集団に限定される希少な生殖系列バリアントを扱う場合には効果がない。対立遺伝子頻度(又は対立遺伝子画分)が50%又は100%に近いバリアントを生殖系列とみなし、この基準を満たさないものを体細胞と分類する、いわゆる「基本的方法」も存在する。Jonesら、「Personalized genomic analyses for cancer mutation discovery and interpretation」、Sci.Transl.Med.、第7巻第283号第283ra53頁(2015年)。この基本的方法は、異数性が生殖系列バリアントの対立遺伝子頻度を50%又は100%の予想から有意に遠ざけることができるという事実を説明できない。「対立遺伝子頻度」及び「対立遺伝子画分」という用語は、本明細書では互換的に使用され、ゲノム遺伝子座に対する配列読取りの総数に対する特定の対立遺伝子に対応する配列読取りの割合を指す。
【0084】
2018年初期に公開されたSGZ(体細胞生殖系列接合性)アルゴリズムは、腫瘍内容物、腫瘍倍数性、及び局所コピー数を考慮することによって、単一試料体細胞/生殖系列分類問題に対する解決策を提供しようとした。SGZは、検証データセットにおける体細胞/生殖系列の呼出し精度における「基本的方法」を大きく上回ることが実証された(Sunら、「A computational approach to distinguish somatic vs.germline origin of genomic alterations from deep sequencing of cancer specimens without a matched normal」、PLoS Comput Biol.、第14巻第2号第e1005965頁(2018年)これは、その全体が参照により本明細書に組み込まれる)。FMIの大規模並列処理シーケンシング(MPS)ベースの診断製品へのSGZアルゴリズムの適用は、短いバリアント(置換及びインデル)に対する効果的な体細胞/生殖系列の状態の決定を可能にし、腫瘍変異負荷(TMB)推定などの用途に不可欠なツールとなった。
【0085】
体細胞/生殖系列分類のための本明細書に記載の方法は、SGZアプローチを超える更なる改善を表す。新しいアプローチは、同じ基本原理に基づいて、すなわち腫瘍/正常混合物において、体細胞及び生殖系列バリアントが、腫瘍画分、腫瘍倍数性、及び局所コピー数によって決定される異なる予想対立遺伝子頻度を有することが多い。しかしながら、腫瘍画分、腫瘍倍数性、及び局所コピー数の計算モデリングによって予想される生殖系列対立遺伝子頻度を推定するSGZとは対照的に、本明細書中に開示される新たな方法は、問題のバリアントと同じコピー数セグメント上に位置する公知の生殖系列SNPから予想される生殖系列対立遺伝子頻度を直接推測する。したがって、本明細書に記載の方法を用いて、体細胞及び生殖系列バリアントの正確な呼出しを得るためにコピー数又は腫瘍純度を決定又はモデリングする必要はない。
【0086】
いくつかの実施形態では、ロジスティック回帰モデルなどの訓練済みモデルを使用して、観測されたバリアント対立遺伝子頻度と推定された予想される生殖系列バリアント対立遺伝子頻度との間の差に基づいて、バリアントが体細胞性である確率を予測する。いくつかの実施形態では、モデルは、一致した腫瘍/正常対のデータを用いて訓練され、かつ独立したデータセットで検証される。いくつかの実施形態では、モデルは、既知の生殖系列(及び、任意選択的には、既知の体細胞)配列を有する腫瘍試料についてのデータを用いて訓練される。いくつかの実施形態では、モデルは、既知の生殖系列(及び、任意選択的には、既知の体細胞)配列を有する、混合した腫瘍/正常試料のデータを用いて訓練される。この検証は、新しい分類指標が、体細胞バリアント分類の感度及び陽性的中率(PPV)においてSGZよりも優れていることを示している。
【0087】
決定されたゲノム配列は、体細胞バリアント配列又は生殖系列配列であり得る。既知の生殖系列配列の公的にアクセス可能なデータベースが存在し(例えば、dbSNP(
1671675357232_0
にて利用可能)又はgnomAD(gnomad.broadinstitute.orgにて利用可能)を参照のこと)、かつ既知の生殖系列配列と、対象から得られた試料中の核酸をシーケンシングすることによって決定された配列との間の一致は、試料に関連する配列が生殖系列配列である可能性が高いことを示す。しかしながら、既知の生殖系列配列と一致しないことは、その配列が、対象の以前に未知の(又は未記録の)生殖系列配列であり得るので、体細胞バリアント配列であるということを実証しない。本明細書に記載の方法は、生殖系列配列又は体細胞バリアント配列としての配列の分類を可能にする。
【0088】
体細胞配列又は生殖系列配列を呼び出すための方法
本明細書に記載の方法は、生殖系列配列又は体細胞配列としての目的のゲノム配列の同定を可能にする。いくつかの実施形態では、体細胞配列は、患者のがんに関連する。例えば、患者試料は、腫瘍核酸分子(すなわち、直接的(腫瘍生検の場合など)又は間接的(循環腫瘍DNA(ctDNA)及び無細胞DNA(cfDNA)を含む液体生検又は体液試料の場合など)のいずれかの腫瘍に由来する核酸分子)と、非腫瘍核酸分子(すなわち、非腫瘍性、好ましくは健康な組織、細胞、液体生検試料、又は体液試料に由来する核酸分子)との混合物を含み得る。本方法は、患者ゲノム配列(すなわち、全ゲノム又はその一部(例えば、全ゲノム内のエクソーム又は標的領域)であり得る、患者について得られたゲノム配列)内から目的のゲノム配列を選択する工程と、目的のゲノム配列に対して1つ以上のプロキシゲノム配列を選択する工程とを含み得る。患者ゲノム配列は、任意の所与の遺伝子座(例えば、任意の所与の遺伝子座における体細胞配列及び/又は生殖系列配列)に1つ以上の対立遺伝子を含み得る。
【0089】
試料(例えば、混合腫瘍/正常組織試料、又はctDNAと非腫瘍cfDNAとの混合物を含む無細胞DNA(cfDNA)試料)からの核酸分子をシーケンシングして、患者ゲノム配列を決定することができる。目的のゲノム配列は、患者ゲノム配列からのゲノム遺伝子座で同定又は選択することができる。選択されたゲノム配列は、生殖系列又は体細胞として特徴付けられる試験配列である。いくつかの実施形態では、目的のゲノム配列は、参照配列とは異なる。いくつかの実施形態では、目的のゲノム配列は、選択された生殖系列配列データベースにおける配列とは異なる。
【0090】
図1は試料ゲノム領域の概略図である。領域100は、生物のゲノム全体を含んでもよいし、又はゲノム全体の画分のみを含んでもよい。領域100は
図1に連続線として示されているが、一般に、領域100は、生物の染色体(複数可)上で物理的に分離されたいくつかの構成成分を含み得る。いくつかの実装形態では、領域100が決定される試料は、正常な患者組織、正常な細胞若しくは無細胞DNAを含む流体、又は他の解剖学的材料を含み得る。いくつかの実装形態では、試料は、異常な(例えば、がん性又は遺伝的に突然変異した)組織、異常な細胞若しくは循環腫瘍DNAを含む流体、又は他の解剖学的材料を含み得る。いくつかの実装形態では、試料は、正常組織と異常組織との組合せ、体液、又は他の解剖学的材料を含み得る。
【0091】
図1に示されるゲノム領域100は、DNAの一本鎖若しくは鎖断片、又はRNAの鎖若しくは鎖断片に対応し得る。
図1には示されていないが、領域100は、様々な塩基(すなわち、シトシン(「C」)、グアニン(「G」)、アデニン(「A」)、チミン(「T」)、又はウラシル(「U」))からなる配列を含む。塩基の特定の配列は、多くの場合、解剖学的材料又は患者の重要な特徴、例えば、患者ががんを有するかどうか、及びもし有するのであれば、治療に有効又は無効であり得る治療法を決定することができる。
【0092】
以下に記載される技術は、ゲノム領域100内の目的の配列102を、生殖系列又は体細胞のいずれかとして特徴付けることを含む。特徴付けは参照配列104の使用によって支援される。参照配列104は、「正常な」(例えば、非がん性)患者を表す例示的なゲノム配列である。いくつかの実装形態では、参照配列104は、ヒトゲノムプロジェクトによって決定された配列、例えばhg19を含み得る。
【0093】
参照配列104には、既知の多型領域106a、106bが存在する。多型領域106a、106bは、特定の生物のゲノム配列の変異が、その変異に対応する悪影響なしに、生物の集団にわたって予想される領域(単一の塩基~数百又はそれ以上の塩基までの任意の数の塩基を含む)である。例えば、ヒトには、様々な髪の色、目の色、又は他の個別化された特徴に対応する多型の領域がある。実際の患者試料に対応するゲノム領域100は、参照配列104中の多型領域106a、106bに対応する領域100中の位置に特異的塩基値108a、108bを有する。換言すれば、参照配列104の多型領域106a、106bは、人の特定の特徴(例えば、毛髪の色)が決定される位置である。塩基値108a、108bは、特定の患者を記述するそれらの特徴(例えば、赤毛)の個別化された決定である。
【0094】
場合により、多型領域106a、106bは、1つ以上の一塩基多型(又は「SNP」)を含む。場合により、多型の領域は、対立遺伝子全体又はその一部を含み得る。
【0095】
図2は、生殖系列と体細胞ゲノム配列とを区別するためのプロセスのフローチャートである。プロセス200は、目的のゲノム領域を同定すること(すなわち、選択又は分類)から始まる(工程202)。いくつかの実装形態では、工程202は、より大きなゲノム領域100内から目的の領域(すなわち、目的の配列)102を同定することを含む。
【0096】
物理的試料からのゲノム配列(例えば、ゲノム領域100)の決定は、様々な方法で達成することができる。そのような方法の1つは米国特許第9,340,830号に記載されており、別の方法が、米国特許公開第2017/0356053号に記載されており、これら両方の全体が参照により本明細書に組み込まれる。より一般的には、ゲノムシーケンサーと呼ばれる入力試料の遺伝子配列を決定するように動作可能な機械のカテゴリがある。いくつかの場合では、開示される方法及びシステムは、大規模並列シーケンシング用に構成された循環アレイシーケンサー及び単一分子シーケンサーを含む、様々な次世代シーケンシング(NGS)技術及びシーケンサーのいずれかを用いて実装され得る。更に、様々な医学的状態に関連することが知られているヒト及び他の生物のゲノムの様々な既知のサブ領域がある。
【0097】
本明細書に記載の技術は、特定のシーケンシングプラットフォーム又は特定のシーケンシング技術の使用に依存せず、これらの機械及び付随する技術のいずれもが、工程202で使用することができる。いくつかの場合では、開示される方法は、代替の核酸配列分析技術、例えばマイクロアレイ、及び蛍光インサイチュハイブリダイゼーション(FISH)などを用いて実装され得る。
【0098】
いくつかの実装形態では、目的の領域(すなわち、配列)102は、参照ゲノム104内の既知の遺伝子座に対応すると同定される。いくつかの実装形態では、目的の領域102は、参照配列104(すなわち、参照配列104の対応する部分の遺伝子配列とは異なる遺伝子配列を有する多型領域以外のゲノム領域100のサブセクション)に対する突然変異に対応する。いくつかの実装形態では、目的の配列は、患者が保有する医学的状態に関連する遺伝子に対応する。いくつかの実装形態では、目的の領域102は、発がん遺伝子又はその一部である。
【0099】
工程204において、ゲノム配列に対する1つ以上のプロキシゲノム配列が同定される(工程204)。選択された1つ以上のプロキシゲノム配列は、既知の生殖系列配列であり得る(例えば、既知の生殖系列配列のデータベースからの既知の生殖系列配列と一致することに基づいて、又は対象若しくは別の健康な個体からの健康な組織、細胞、若しくは無細胞DNAをシーケンシングすることによる)。
図1を参照すると、プロキシ110の1つの特徴は、(a)生殖系列の遺伝情報をコードすることが知られており、かつ(b)目的の配列102(例えば、目的の配列102と、物理的に近いか、又は同じコピー数セグメント内に位置することが確認されたため)と同じコピー数を有することが知られている、遺伝子座における配列である。代替的な特徴付けは、プロキシ110が体細胞遺伝情報をコードすることが知られていることを必要とする。便宜上、この文書は、プロキシ110が特に指定されない限り生殖系列情報をコードするものと仮定するが、当業者は、2つのアプローチの等価性を理解するであろう。
【0100】
特定の代理配列候補の生殖系列の状態は、研究文献、公的に入手可能なデータベース(例えば、dbSNP(
1671675357232_1
で利用可能)若しくはgnomAD(gnomad.broadinstitute.orgで利用可能))から知られていてもいか、又は他のアブイニシオの手段によって発見されてもよい。一方で、体細胞バリアントは、一致した腫瘍/正常試料から同定することができ、すなわち、腫瘍DNAと非腫瘍(「正常」)DNAとの両方を含む同じ患者からの試料であり得る。特に、腫瘍DNAに見られるが対応する正常DNAには見られないバリアントは、必然的に体細胞性である。既知の体細胞バリアントはまた、他のアブイニシオの手段によっても発見され得る。
【0101】
図3を参照すると、いくつかの実装形態では、工程204は、セグメント化プロセスを採用することによって実行される。そのようなプロセスでは、患者のゲノムの部分100は、遺伝的パラメータに基づいてセグメント(
図3中で破線の縦線によって描写)に分割される。セグメントは、特定のセグメント内のパラメータ値が全て等しい(所望の範囲内、又は所望の閾値内)ように定義される。例えば、セグメントは、およそ同じ(すなわち、所望の範囲内、又は所望の閾値内)シーケンシング深度又はコピー数を有する連続配列であり得る。いくつかの実装形態では、入力をセグメント化するために使用される遺伝的パラメータは、コピー数、又は目的の対立遺伝子若しくはサブ対立遺伝子セグメントの頻度などを含む。1つ以上のプロキシ配列は、目的のゲノム配列と同じセグメント内に位置してもよく、したがって、1つ以上のプロキシゲノム配列及び目的のゲノム配列が同じコピー数を有する可能性が非常に高くなる。
【0102】
様々なセグメント化手順が当技術分野で知られている。例えば、iSeg(その全体が本明細書に組み込まれる、Girimuruganら、「iSeg:an Efficient Algorithm for Segmentation of Genomic and Epigenomic Data」、BMC Bioinformatics、第19巻:第131頁(2018年)に記載)、CBS(その全体が本明細書に組み込まれる、Olshenら、「Circular Binary Segmentation for the Analysis of Array-Based DNA Copy Number Data」、Biostatistics、2004年10月;第5巻(第4号):第557~72頁に記載)、SLMSuite(その全体が本明細書に組み込まれる、Orlandiniら、「SLMSuite:A Suite of Algorithms for Segmenting Genomic Profiles」、BMC Bioinformatics、第18巻:第321頁(2017年)に記載、Pelt(Killickら、「Optimal detection of changepoints with a linear computational cost」、Journal of the American Statistical Association、第107巻:第500頁(2012年)に記載)は、多くのそのようなアルゴリズムの中の4つである。いくつかの実施形態では、患者ゲノム配列は、各セグメント内のコピー数の均一性に基づいて複数のセグメントにセグメント化される。
【0103】
図2を再度参照すると、いくつかの実装形態では、目的の領域102と同じセグメント上にあるプロキシ110のみが同定される。いくつかの実装形態では、プロキシ110は、目的の領域102と同じセグメント上にある全ての既知の生殖系列SNPを含む。いくつかの実装形態では、プロキシ110は、目的の領域102と同じセグメント上の全ての既知の生殖系列対立遺伝子を含む。いくつかの実装形態では、例えば、ゲノム配列を異なるコピー数に対応するセグメントへと正しくセグメント化することが困難である場合、目的の領域102から所定数以下の塩基しか離れていないプロキシ110のみが特定される。例えば、いくつかの場合では、プロキシ配列から目的の領域を分離する最大塩基数は、約10塩基~約1,000塩基の範囲であり得る。いくつかの場合では、プロキシ配列から目的の領域を分離する最大塩基数は、約10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、100塩基、200塩基、300塩基、400塩基、500塩基、600塩基、700塩基、800塩基、900塩基、又は1,000塩基であり得る。いくつかの場合では、プロキシ配列から目的の領域を分離する塩基の最大数は、この段落に記載されている値の範囲内の任意の値を有し得る。
【0104】
工程206では、プロキシ110の頻度が同定される。工程208では、目的の領域(すなわち、目的のゲノム配列)102からの配列の対立遺伝子頻度(対立遺伝子画分)が同定される。ここで、「頻度」とは、正規化された統計的頻度、例えば試料内の配列又はプロキシの出現数を、同じゲノム遺伝子座における任意の配列の出現の総数で割ったものを指す。いくつかの実装形態では、いくつかの頻度測定を行ってもよい。目的のゲノム配列及び1つ以上のプロキシゲノム配列の対立遺伝子頻度は、対象からの試料中の核酸分子をシーケンシングすることによって決定することができる。いくつかの場合では、対立遺伝子頻度は、他の方法論、例えばマイクロアレイ又は蛍光インサイチュハイブリダイゼーション(FISH)技術を用いて決定され得る。いくつかのプロキシを用いる場合、外れ値のプロキシ頻度が破棄されてもよく、残りの頻度は、単一の統計的中心性尺度(例えば、平均、中央値、若しくは最頻値などの要約統計量、又はプロキシ配列の対立遺伝子頻度の分布(確率分布など))として組み合わされてもよく、その結果、工程210は単一の数値比較を含む。例えば、いくつかの実施形態では、中心性尺度(要約統計量)とは、1つ以上のプロキシ配列についての平均対立遺伝子頻度である。いくつかの実施形態では、中心性尺度(要約統計量)とは、1つ以上のプロキシ配列についての中央値対立遺伝子頻度である。単一のプロキシゲノム配列が使用される場合、プロキシゲノム配列の観測された頻度の中心性尺度は、そのプロキシ配列の頻度である。中心性尺度は、いくつかの実施形態では、プロキシ配列についての観測された対立遺伝子頻度の分布であり得る。
【0105】
判定210において、プロキシ頻度(単数)又はプロキシ頻度(複数)(例えば、1つ以上のプロキシ配列の観測周波数の中心性尺度)は、それらが等しいか否かを決定するために目的の領域の頻度(単数)又は頻度(複数)と比較される。本明細書及び本出願を通して、「等しい」という用語は、プロセス200の所望の選択性及び特異性に基づいて日常的に決定することができる「所望の範囲内に等しい」又は「所望の閾値内に等しい」を含む。範囲又は閾値は、例えば、当業者によって選択された統計的閾値又は統計的試験を用いて設定することができる。上記のようにプロキシ頻度を組み合わせる代わりに、いくつかのプロキシ110が使用され、かつ個々の比較が行われる場合、次いで、比較の特定の割合(例えば、50%超、55%超、60%超、65%超、70%超、75%超、80%超、85%超、90%超、又は95%超)が等しい場合に、判定210は「はい」となる。
【0106】
プロキシ頻度が目的の配列の頻度に等しい場合、目的の配列は生殖系列として分類される(工程212)。そうでなければ、目的の配列は体細胞として分類される(工程214)。あるいは、プロキシ110が(生殖系列の代わりに)体細胞情報をコードすることが知られていると選択された場合、次いで、等しい頻度は体細胞である目的の配列として解釈され、等しくない頻度は生殖系列である目的の配列として解釈される。
【0107】
いくつかの実装形態では、判定210における比較はまた、潜在的に誤った分類を排除するために使用されてもよい。特に、真の体細胞バリアントの頻度は、腫瘍DNAと非腫瘍DNAの両方が生殖系列バリアントの頻度数に寄与し、腫瘍DNAのみが体細胞バリアントの頻度数に寄与するので、真の生殖系列バリアントよりも必然的に少ない。したがって、いくつかの実装形態では、目的の配列の頻度がプロキシ頻度を超える場合、次いで、目的の配列は生殖系列として分類される。
【0108】
例として、いくつかの実施形態では、目的のゲノム配列の観測された頻度を1つ以上のプロキシゲノム配列の観測された頻度の中心性尺度と比較することは、予想される対立遺伝子頻度から目的のゲノム配列の「対立遺伝子頻度距離」(AFDIS)を決定することを含み得る。目的のゲノム配列が生殖系列配列である場合に予想される対立遺伝子頻度は、1つ以上のプロキシ配列の選択に基づいて生殖系列であると仮定される、1つ以上のプロキシ配列の頻度(又は1つ以上のプロキシ配列の観測された頻度を示す要約統計量)に基づいて決定される。AFDISは、いくつかの実施形態では、以下に従って数値的に表現されてもよい:
AFDIS=AF生殖系列-AFバリアント
式中、AF生殖系列は、1つ以上のプロキシ配列の観測された対立遺伝子頻度に基づいて決定されるように、目的のゲノム配列が生殖系列であった場合に予想される対立遺伝子頻度であり、AFバリアントは、目的のゲノム配列の観測された対立遺伝子頻度である。
【0109】
いくつかの実施形態では、対立遺伝子頻度距離は、プロキシゲノム配列の観測された頻度の分布を用いて決定され得る。分布を使用して、目的のゲノム配列が生殖系列又は体細胞である確率を決定することができる。いくつかの実施形態では、対立遺伝子頻度距離は、目的のゲノム配列の観測された頻度が、複数のプロキシ配列の観測された頻度の分布に適合する(又は適合しない)確率である。例えば、目的のゲノム配列の対立遺伝子頻度が分布内に収まる場合、目的のゲノム配列は生殖系列配列として同定され得る。目的のゲノム配列の対立遺伝子頻度が分布内に適合しない場合、目的のゲノム配列は体細胞として同定され得る。当業者は、目的のゲノム配列の対立遺伝子頻度が分布内に適合するかどうかを決定するために、統計的試験又は所定の閾値を選択し得る。
【0110】
いくつかの実施形態では、対立遺伝子頻度距離は、目的のゲノム配列を分類するために使用され得る。例えば、いくつかの実施形態では、対立遺伝子頻度距離が選択された閾値を上回る場合、目的のゲノム配列は体細胞として分類される。いくつかの実施形態では、対立遺伝子頻度距離が選択された閾値を下回る場合、目的のゲノム配列は生殖系列として分類される。閾値は所望の精度又は特異度公差に基づいて設定することができる。
【0111】
いくつかの実施形態では、生殖系列又は体細胞としての目的のゲノム配列の分類は、統計モデルの使用を含み得る。統計モデルは、例えば、目的の所与のゲノム配列に対する対立遺伝子頻度距離を受け取り、目的のゲノム配列の分類を体細胞(若しくは可能性のある体細胞)又は生殖系列(若しくは可能性のある生殖系列)として出力することができる。分類は目的のゲノム配列が体細胞又は生殖系列である確率に基づいてもよい。いくつかの実装形態では、目的のゲノム配列は、例えばその配列が体細胞又は生殖系列である確率が充分に高くない場合、曖昧として分類され得る。呼出しを行うための確率閾値は、呼出しの所望の特異度及び/又は精度に基づき得る。例えば、いくつかの実施形態では、目的のゲノム配列が体細胞である確率が、0.8、0.85、0.9、0.95、0.96、0.97、0.98、又は0.99のいずれか1つ(若しくはそれらの間の任意の選択された値)を上回る場合、目的のゲノム配列は体細胞として分類され、目的のゲノム配列が体細胞である確率が0.2、0.15、0.1、0.05、0.04、0.03、0.02、又は0.01のいずれか1つ(若しくはそれらの間の任意の選択された値)を下回る場合、目的のゲノム配列は生殖系列として分類される。統計モデルに基づいて、体細胞又は生殖系列として分類されない目的のゲノム配列は、曖昧としてラベル付けされ得る。
【0112】
いくつかの実施形態では、統計モデルは、1つ以上の一致した腫瘍/正常試料対からのデータを用いて訓練される。一致した腫瘍/正常試料対における正常な試料を、生殖系列配列に対するグラウンドトルースを確立するためにシーケンシングすることができ、この腫瘍試料を、体細胞バリアント配列に対するグラウンドトルースを確立するためにシーケンシングすることができる(すなわち、マッチした正常な試料に従う生殖系列ではない配列)。正常核酸分子と腫瘍核酸分子との混合物を含み得る腫瘍試料からのシーケンシングデータを使用して、次いで、体細胞(体細胞である確率(psomatic)は1に等しい)又は生殖系列(psomaticは0に等しい)として標識される、選択された目的のゲノム配列についての対立遺伝子頻度距離を決定することができる。次いで、対立遺伝子頻度距離を体細胞である確率に関連付ける関数を、訓練データを用いて生成することができる。
【0113】
統計モデルを訓練する他の方法が使用されてもよい。例えば、いくつかの実施形態では、モデルは、生殖系列配列についてのデータのみ又は体細胞配列についてのデータのみを用いて訓練される。
【0114】
いくつかの実装形態では、工程210の比較は、統計モデルによって間接的に実行されてもよい。例えば、プロキシの集合の中央値対立遺伝子頻度が工程206の中心尺度として使用される場合、次いで、ロジスティック回帰モデルは、プロキシの中央値対立遺伝子頻度の中央値からの目的の配列の対立遺伝子頻度の差を記述するように構築することができる。いくつかの実装形態では、このロジスティック回帰モデルは、前述の文が
【数1】
に比例すると記載されている差のように、一致した腫瘍/正常試料の集合のデータから構築することができ、式中、pは、目的の配列が体細胞バリアントを含む確率を表す。
【0115】
この特徴付けの根底にある理論的根拠は、各プロキシが患者のゲノム内の目的の配列と物理的に近いことである。したがって、プロキシ及び目的の配列は、重複事象又は欠失などの同一又は類似のゲノム動態又は突然変異を経験する可能性が高い。観測された頻度を生殖系列/体細胞状態と相関させるために目的の配列の特定の動態をモデリングしようと試みるのではなく、このアプローチは、そのようなモデルを直接的な経験的測定に置き換える。従来技術のモデルが歴史的にある程度鈍感又は不正確である限り、このアプローチは利点を提供する。
【0116】
本明細書に記載の方法は、生殖系列又は体細胞として1つ以上の目的のゲノム配列を示す報告を生成することを更に含み得る。生成された報告は、患者、ヘルスケア提供者、又は他の者へと(例えば、コンピュータネットワークを用いて)送信することができる。この報告は、がん治療療法の評価、治療の判定、がんの進行又は再発の監視、個別化がんワクチンの設計、及び他の有益な使用で特に有益である。
【0117】
電子デバイス及びシステム
図4は、一実施形態によるシステムの例を示す。デバイス400は、ネットワークに接続されたホストコンピュータであり得る。デバイス400は、クライアントコンピュータ又はサーバであり得る。
図4に示されるように、デバイス400は、パーソナルコンピュータ、ワークステーション、サーバ、又はハンドヘルド計算デバイス(携帯電子デバイス、例えば、電話又はタブレット)などの任意の好適なタイプのマイクロプロセッサベースのデバイスであり得る。デバイスは、例えば、プロセッサ410、入力デバイス420、出力デバイス430、メモリストレージ440、及び/又は通信デバイス460のうち1つ以上を含むことができる。入力デバイス420及び出力デバイス430は、コンピュータと接続可能又は一体化のいずれかをされ得る。いくつかの実施形態では、デバイスは、患者試料中の核酸分子をシーケンシングしてシーケンシングデータを得ることができる、シーケンサー470を動作させるように構成される。
【0118】
入力デバイス420は、タッチスクリーン、キーボード若しくはキーパッド、マウス、又は音声認識デバイスなどの入力を提供する任意の好適なデバイスであり得る。出力デバイス430は、ディスプレイ、タッチスクリーン、触覚デバイス、又はスピーカなど、出力を提供する任意の好適なデバイスであり得る。
【0119】
メモリストレージ440は、RAM、キャッシュ、ハードドライブ、又はリムーバブルストレージディスクを含む、電気、磁気、又は光学メモリなどのストレージを提供する任意の好適なデバイスであり得る。通信デバイス460は、ネットワークインターフェースチップ又はデバイスなどの、ネットワークを介して信号を送受信することができる任意の好適なデバイスを含むことができる。コンピュータの構成成分は、物理的バス又は無線などの任意の好適な様式で接続することができる。
【0120】
SGZモジュール450並びに他の配列分析及びバリアント呼出しプログラムモジュールなどのソフトウェアは、メモリストレージ440に記憶され、プロセッサ(複数可)410によって実行することができ、例えば、AFDISベースのロジスティック回帰モデルのためのコードと、及び本開示の機能を(例えば、上記のようなデバイスで実施されるように)実施する他のプログラミングとを含むことができる。
【0121】
SGZモジュール450などのソフトウェア、並びに他の配列分析及びバリアント呼出しプログラムモジュールはまた、命令実行システム、装置、若しくはデバイス(例えば、上記のもの)によって、又はそれらと接続して使用するための任意の非一時的コンピュータ可読記憶媒体内に記憶及び/又は伝送することができ、命令実行システム、装置、若しくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、コンピュータ可読記憶媒体は、ストレージ440などの任意の媒体であり得、命令実行システム、装置、若しくはデバイスによって、又はそれらと接続して使用するためのプログラミングを含む若しくは記憶することができる。
【0122】
SGZモジュール450などのソフトウェア、並びに他の配列分析及びバリアント呼出しプログラムモジュールはまた、命令実行システム、装置、若しくはデバイス(例えば、上記のもの)によって、又はそれらと接続して使用するための任意の伝送媒体内に伝播することができ、命令実行システム、装置、若しくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、伝送媒体は、任意の媒体であり得、命令実行システム、装置、若しくはデバイスによって、又はそれらと接続して使用するための伝送プログラミングを通信、伝播、又は伝送することができる。伝送可読媒体には、電子、磁気、光学、電磁気、若しくは赤外線の有線又は無線伝播媒体が含まれ得るが、これらに限定されない。
【0123】
デバイス400は、任意の好適な種類の相互接続された通信システムであり得るネットワークへと接続され得る。ネットワークは、任意の好適な通信プロトコルを実装することができ、任意の好適なセキュリティプロトコルによって保護され得る。ネットワークは、無線ネットワーク接続(T1又はT3回線)、ケーブルネットワーク、DSL、又は電話回線などの、ネットワーク信号の送受信を実装し得る任意の好適な構成のネットワークリンクを含むことができる。
【0124】
デバイス400は、ネットワーク上で動作するのに好適な任意のオペレーティングシステムを実装することができる。SGZモジュール450並びに他の配列分析及びバリアント呼出しプログラムモジュールなどのソフトウェアは、C、C++、Java(登録商標)、又はPythonなどの任意の好適なプログラミング言語で記載することができる。様々な実施形態では、本開示の機能を具現化するアプリケーションソフトウェアは、異なる構成で(例えば、クライアント/サーバ構成で、又はウェブベースのアプリケーション若しくはウェブサービスとしてのウェブブラウザを介して)展開することができる。
【0125】
対象、試料、及びシーケンシング
本明細書に記載の方法で使用される対象試料(例えば、患者試料)は、腫瘍核酸分子と非腫瘍核酸分子の混合物を含み得る。腫瘍核酸分子は腫瘍から直接的又は間接的に得ることができる。例えば、腫瘍核酸分子は、腫瘍の組織生検から得ることができる。腫瘍生検は、腫瘍組織及び非腫瘍組織の両方を含むことが多く、それによって、腫瘍核酸分子と非腫瘍核酸分子との混合物を提供する。いくつかの実施形態では、腫瘍核酸分子及び非腫瘍核酸分子は、腫瘍(例えば、循環腫瘍DNA又はctDNA)及び非腫瘍無細胞核酸分子を含む、無細胞(又は循環遊離)DNAを含み得る体液又は液体生検試料(例えば、血液、血漿、脊髄液など)から得られる。
【0126】
患者試料は、例えば、がんを有する対象、がんを有すると疑われる対象、又はがんの治療を以前に受けたことがある対象から採取され得る。ある特定の実施形態では、試料は、固形腫瘍、血液がん、又はその転移形態を有する対象から得られる。ある特定の実施形態では、試料は、がんを有するか、又はがんを有するリスクがある対象から得られる。ある特定の実施形態では、試料は、本明細書に記載されるように、がんを処置するための治療を受けていない、がんを処置するための治療を受けている、又はがんを処置するための治療を受けたことがある対象から得られる。
【0127】
様々な組織が、本方法で使用される試料の供給源であり得る。ゲノム又はサブゲノム核酸(例えば、DNA又はRNA)は、対象の試料(例えば、腫瘍細胞を含む試料、血液試料、血液構成試料、無細胞DNA(cfDNA)を含む試料、循環腫瘍DNA(ctDNA)を含む試料、循環腫瘍細胞(CTC)を含む試料、又は任意の正常対照(例えば、正常な隣接組織(NAT))から単離することができる。
【0128】
いくつかの実施形態では、試料は、液体生検から取得される。液体生検患者試料は、例えば、血液、血漿、脳脊髄液、痰、便、尿、又は唾液に由来し得る。
【0129】
いくつかの実施形態では、患者試料は、固形腫瘍生検などの固形組織試料に由来する。固形腫瘍生検は、腫瘍組織と非腫瘍組織との混合物を含むことが多い。いくつかの実施形態では、固形組織生検試料は、新鮮な試料である。いくつかの実施形態では、固形組織生検試料は、凍結試料又は以前に凍結された試料である。いくつかの実施形態では、固形組織生検試料は、新鮮な試料である。いくつかの実施形態では、固形組織生検試料は、保存試料(例えば、化学的に保存された試料)である。ある特定の実施形態では、試料は、ホルマリン固定パラフィン包埋(FFPE)試料である。
【0130】
いくつかの実施形態では、本明細書に開示される試料タイプのいずれかに対する患者試料(すなわち、全核酸分子と比較して、腫瘍核酸分子である試料の部分)の腫瘍純度は、約1%以上、約5%以上、約10%以上、約15%以上、約20%以上、約25%以上、約30%以上、約40%以上、約50%以上、約60%以上、約70%以上、又は約80%以上である。いくつかの実施形態では、患者試料の腫瘍純度は、約99%以下、約95%以下、約90%以下、約85%以下、約80%以下、約75%以下、約70%以下、約60%以下、約50%以下、約40%以下、約30%以下、約25%以下、又は約20%以下である。
【0131】
一実施形態では、本方法は、試料、例えば本明細書に記載の患者試料を取得することを更に含む。試料は、直接的又は間接的に取得することができる。一実施形態では、試料は、例えば、cfDNAを含む試料からの単離又は精製によって得られる。一実施形態では、試料は、例えば、ctDNAを含む試料からの単離又は精製によって得られる。一実施形態では、試料は、悪性細胞と非悪性細胞(例えば、腫瘍浸潤リンパ球)の両方を含む試料から、例えば単離又は精製によって得られる。一実施形態では、試料は、例えば、CTCを含む試料からの単離又は精製によって得られる。いくつかの実施形態では、試料は、固形組織生検によって得られる。
【0132】
シーケンシングライブラリは公知の方法を用いて患者試料から調製することができる。核酸分子は患者試料から精製又は単離され得る。いくつかの実施形態では、単離核酸は、公知の方法を用いて断片化又は剪断される。例えば、核酸分子は、物理的剪断法(例えば、超音波処理)、酵素的切断法、化学的切断法、及び当業者に周知の他の方法によって断片化することができる。核酸はシーケンシングのためにアダプター配列に連結され得る。いくつかの場合では、アダプターは、増幅プライマー及び/又はシーケンシングアダプターを含み得る。いくつかの場合では、患者試料又はそこから調製されたシーケンシングライブラリから精製又は単離された核酸分子は、例えば、当業者に公知のポリメラーゼ連鎖反応(PCR)又は等温増幅法を用いて増幅され得る。
【0133】
いくつかの実施形態では、患者試料からの、かつシーケンシングライブラリ(又はその選択された(例えば、捕捉される)サブセット)を調製するために使用される核酸分子は、患者ゲノム配列を生成するためにシーケンシングされる。シーケンシング方法は当技術分野で周知であり、かつ多重(例えば、次世代)又は単一分子シーケンシングを用いて実施することができる。シーケンシングによって決定される患者ゲノム配列は、患者の全ゲノムである必要はない。例えば、いくつかの実施形態では、標的化シーケンシング法(例えば、ハイブリダイゼーションに基づく捕捉のための特異的プローブ(又はベイト)分子の使用)を使用して、患者のゲノムの一部(すなわち、全ゲノム未満)をシーケンシングする。例えば、米国特許第9,340,830B2号を参照されたい。標的化シーケンシングは、例えば、1つ以上のエクソン領域、1つ以上のイントロン領域、1つ以上の遺伝子内領域、1つ以上の3’-UTR(非翻訳領域)、及び/又は1つ以上の5’-UTRを標的化するために使用され得る。
【0134】
いくつかの実施形態では、標的化シーケンシングを使用して、がんに関連する、1つ以上の遺伝子又は1つ以上の遺伝子の一部をシーケンシングしてもよい。標的化シーケンシングを用いてシーケンシングされ得るがんに関連する例示的な遺伝子としては、ABL2、AKT2、AKT3、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRCA1、BRCA2、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CDH1、CDH2、CDH20、CDH5、CDK4、CDK6、CDK8、CDKN2B、CDKN2C、CHEK1、CHEK2、CRKL、CRLF2、DNMT3A、DOT1L、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB3、ERBB4、ERG、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FGFR4、FLT1、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GUCY1A2、HOXA3、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、JAK1、JAK3、JUN、KDR、LRP1B、LTK、MAP2K1、MAP2K2、MAP2K4、MCL1、MDM2、MDM4、MEN1、MITF、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYCL1、MYCN、NF2、NKX2-1、NTRK1、NTRK3、PAK3、PAX5、PDGFRB、PIK3R1、PKHD1、PLCG1、PRKDC、PTCH1、PTPN11、PTPRD、RAF1、RARA、RICTOR、RPTOR、RUNX1、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMO、SOX10、SOX2、SRC、STK11、TBX22、TET2、TGFBR2、TMPRSS2、TOP1、TSC1、TSC2、USP9X、VHL、WT1、ABL1、AKT1、ALK、APC、AR、BRAF、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、PDGFRA、PIK3CA、PTEN、RB1、RET、及びTP53が挙げられるが、これらに限定されない。
【0135】
ある特定の実施形態では、試料は、がんを有する対象から得られる。例示的ながんには、B細胞がん、例えば、多発性骨髄腫、黒色腫、乳がん、肺がん(非小細胞肺がん又はNSCLCなど)、気管支がん、結腸直腸がん、前立腺がん、膵臓がんが含まれるが、これらに限定されない、胃がん、卵巣がん、膀胱がん、脳又は中枢神経系がん、末梢神経系がん、食道がん、子宮頸がん、子宮がん又は子宮内膜がん、口腔又は咽頭がん、肝がん、腎臓がん、精巣がん、胆道がん、小腸又は付属器がん、唾液腺がん、甲状腺がん、副腎腺がん、骨肉腫、軟骨肉腫、血液組織のがん、腺がん、炎症性筋線維芽細胞腫瘍、胃腸間質腫瘍(GIST)、結腸がん、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ球性白血病(ALL)、急性骨髄球性白血病(AML)、慢性骨髄球性白血病(CML)、慢性リンパ球性白血病(CLL)、多発性細胞血症ベラ、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨形成性肉腫、脊索腫、血管肉腫、内皮肉腫滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮がん、基底細胞がん、腺がん、汗腺がん、脂腺がん、乳頭がん、乳頭腺がん、髄質がん、気管支原性がん、腎細胞がん、肝細胞腫、胆管がん、絨毛がん、セミノーマ、胚性がん腫、ウィルムス腫瘍、膀胱がん、上皮がん、神経膠腫、星状細胞腫、髄芽細胞腫、頭蓋咽頭腫、上衣腫、松果体腫、血管芽細胞腫、聴神経腫、乏突起膠腫、髄膜腫、神経芽細胞腫、網膜芽細胞腫、細胞リンパ腫、マントル細胞リンパ腫、肝細胞がんa、甲状腺がん、胃がん、頭頸部がん、小細胞がん、本態性血小板血症、アグノーゲン性骨髄性化生、高好酸球性症候群、全身性肥満細胞症、おなじみの高好酸球増加症、慢性好酸球性白血病、神経内分泌がん、がん様腫瘍などが含まれる。
【0136】
一実施形態では、がんは、血液悪性腫瘍(又は前悪性腫瘍)である。本明細書で使用される場合、血液悪性腫瘍は、造血又はリンパ組織の腫瘍、例えば血液、骨髄、又はリンパ節に影響を及ぼす腫瘍を指す。例示的な血液悪性腫瘍には、白血病(例えば、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、有毛細胞白血病、急性単球性白血病(AMoL)、慢性骨髄単球性白血病(CMML)、若年性骨髄単球性白血病(JMML)、又は大顆粒リンパ球性白血病)、リンパ腫(例えば、AIDS関連リンパ腫、皮膚T細胞リンパ腫、ホジキンリンパ腫(例えば、古典的ホジキンリンパ腫又は結節性リンパ球優位型ホジキンリンパ腫)、菌状息肉症、非ホジキンリンパ腫(例えば、B細胞非ホジキンリンパ腫(例えば、バーキットリンパ腫、小リンパ球性リンパ腫(CLL/SLL)、びまん性大細胞型B細胞リンパ腫、濾胞性リンパ腫、免疫芽球性大細胞リンパ腫、前駆Bリンパ芽球性リンパ腫、又はマントル細胞リンパ腫)又はT細胞非ホジキンリンパ腫(菌状息肉症、未分化大細胞リンパ腫、又は前駆Tリンパ芽球性リンパ腫))、原発性中枢神経系が含まれるが、これらに限定されない。本明細書で使用される場合、前悪性腫瘍とは、まだ悪性ではないが、悪性になる準備ができている組織を指す。
【0137】
いくつかの実施形態では、試料は、状態又は疾患、例えば過剰増殖性疾患(例えば、本明細書に記載されるように)又は非がん適応症を有する対象、例えば患者から得られる、例えば収集される。いくつかの実施形態では、疾患は、過剰増殖性疾患である。いくつかの実施形態では、過剰増殖性疾患は、がん、例えば固形腫瘍又は血液がんである。いくつかの実施形態では、がんは、固形腫瘍である。いくつかの実施形態では、がんは、血液がん、例えば白血病又はリンパ腫である。
【0138】
いくつかの実施形態では、対象は、がんを有する。いくつかの実施形態では、対象は、がんに対して処置されてたか、又は処置されている。いくつかの実施形態では、対象は、例えばがん療法で処置された後に、がんの進行又は退縮について監視されることを必要としている。いくつかの実施形態では、対象は、がんの再発について監視されることを必要としている。いくつかの実施形態では、対象は、がんを有するリスクがある。いくつかの実施形態では、対象は、がん療法で処置されていない。いくつかの実施形態では、対象は、がん(例えば、がんを発症するためのベースラインのリスクを増加させる突然変異を有すること)に対する遺伝的素因を有する。いくつかの実施形態では、対象は、がんを発症するリスクを増加させる環境(例えば、放射線又は化学物質)に曝露されている。いくつかの実施形態では、対象は、がんの発症について監視されることを必要とする。
【0139】
いくつかの実施形態では、患者は、標的化療法、例えば1つ以上の標的化療法で以前に処置されている。いくつかの実施形態では、標的化療法で以前に処置されたことがある患者について、標的化療法後試料、例えば検体が得られ、例えば収集される。いくつかの実施形態では、標的化療法後試料は、標的化療法の完了後に得られた、例えば収集された試料である。
【0140】
いくつかの実施形態では、患者は、標的化療法で以前に処置されていない。いくつかの実施形態では、以前に標的化療法で処置されていない患者について、試料は、切除、例えば元の切除、又は再発、例えば治療後の疾患再発、例えば非標的化療法を含む。いくつかの実施形態では、試料は、原発性腫瘍又は転移、例えば転移生検であるか、又はその一部である。いくつかの実施形態では、試料は、隣接部位、例えば腫瘍細胞を有する隣接部位と比較して、腫瘍、例えば腫瘍細胞のパーセントが最も高い部位、例えば腫瘍部位から得られる。いくつかの実施形態では、試料は、隣接部位、例えば腫瘍細胞を有する隣接部位と比較して最大の腫瘍焦点を有する部位、例えば腫瘍部位から得られる。
【0141】
いくつかの実施形態では、対象は、ヒトである。
【0142】
がんの処置法
がんのゲノムプロファイルは、多くの場合、様々ながん治療様式の成功の可能性に影響を及ぼし得る。例えば、所与の抗がん剤は、あるゲノムプロファイルを持つ特定のがんの治療に成功する可能性が、別のゲノムプロファイルを持つ特定のがんの治療に比べて高い場合がある。本明細書に記載の方法は、がんに起因し得る体細胞配列を生殖系列配列から区別することによって、がんのゲノムプロファイルを特徴付けるために使用することができる。
【0143】
例として、患者のがんを治療する方法は、本明細書に記載の方法を用いて1つ以上の目的のゲノム配列を体細胞として同定すること(例えば、分類すること)と、1つ以上の同定された体細胞配列に基づいてがん治療様式を選択することとを含み得る。次いで、有効量の選択されたがん治療様式を用いてがんを治療することができる。これにより、その患者のがんに特異的な体細胞配列に基づく患者の個別化がん治療が可能になる。対照的に、治療選択が体細胞バリアントではなく生殖系列バリアントに基づいていた場合、選択された治療様式が患者のがんに無効であり得るというリスクが存在する。
【0144】
例示的ながん治療様式には、例えば、とりわけ、選択された化学療法剤、選択された免疫腫瘍剤(免疫チェックポイント阻害剤など)、切除手術、放射線療法、標的化療法、遺伝子発現調節剤、血管新生阻害剤、及びホルモン療法が含まれ得る。
【0145】
がん治療は、例えば、1つ以上の同定された体細胞配列と、選択された治療様式を用いる成功したがん治療との間の関連に基づいて選択され得る。がん型、体細胞配列、及び治療様式の間の例示的な関連を表1に列挙する。
【表1-1】
【表1-2】
【0146】
がんのマイクロサテライト不安定性(MSI)状態は、がんの治療様式を選択するのに有用であり得る。マイクロサテライト不安定性は、がん細胞におけるDNAミスマッチ修復(MMR)経路の欠損に起因する可能性があり、これは、異常に高い頻度の遺伝子変異をもたらす。Kimら、「The Landscape of Microsatellite Instability in Colorectal and Endometrial Cancer Genomes」、Cell、第155巻第4号第858~868頁(2013年)を参照されたい。MSI状態は、一般に、MSIシグネチャに基づいて、高い(MSI-H)、低い(MSI-L)、又は安定している(MSS)(又は代替的には、MSI-H若しくはMSI-Hではない;又はMSI-H若しくはMSI未決定)として特徴付けられる。MSI-Hの状態は複数の種類の固形腫瘍について検出されており、特定のがん治療様式を用いたがん治療の成功の指標となり得る。Cortes-Cirianoら、「A molecular portrait of microsatellite instability across multiple cancers」、Nature Communications、第8巻第15180頁(2017年)を参照されたい。マイクロサテライト(すなわち、MSI事象)中の突然変異は、本明細書に記載の方法を用いて体細胞配列を生殖系列配列から区別することによって検出することができる。
【0147】
特定のがん治療様式の成功は、がんのMSI-H状態に関連している。例えば、PD-1阻害剤(すなわち、ペンブロリズマブ)は、MSI-H固形腫瘍の治療に特に有効であることが分かっている(例えば、切除不能又は転移性固形腫瘍)。いくつかの実施形態では、MSI-H状態を有すると決定されたがんは、有効量の免疫腫瘍剤で治療される。いくつかの実施形態では、MSI-H状態を有すると決定されたがんは、有効量の免疫チェックポイント阻害剤で治療される。いくつかの実施形態では、免疫チェックポイント阻害剤は、AMP-224、AMP-514、アテゾリズマブ、AUNP12、アベルマブ、BGB-A317、BMS-986189、CA-170、カンレリズマブ、セミプリマブ、CK-301、ドスタリマブ、デュルバルマブ、イピリムマブ、INCMGA00012、KN035、ニボルマブ、ペンブロリルズマブ、シンチリマブ、スパルタリズマブ、チスレリズマブ、又はトリパリマブである。いくつかの実施形態では、MSI-H状態を有すると決定されたがんは、有効量のPD-1阻害剤、PD-L1阻害剤、又はCTLA-4阻害剤で治療される。いくつかの実施形態では、MSI-H状態を有すると決定されたがんは、有効量のペンブロリズマブで治療される。
【0148】
いくつかの実施形態では、がんを治療する本方法は、本明細書に記載される方法を用いて、1つ以上の目的のゲノム配列を体細胞として同定すること(例えば、分類)と;同定された体細胞配列を用いてがんのマイクロサテライト不安定性状態を決定することと;がんのマイクロサテライト不安定性状態に基づいてがん治療様式を選択することとを含む。次いで、有効量の選択されたがん治療様式を用いてがんを治療することができる。いくつかの実施形態では、がんは、結腸直腸がん、子宮内膜がん、胆道がん、膀胱がん、乳がん、食道がん、胃がん、胃食道接合部がん、膵臓がん、前立腺がん、腎細胞がん、後腹膜腺がん、肉腫、小細胞肺がん、小腸がん、又は甲状腺がんである。
【0149】
いくつかの実施形態では、がんの腫瘍変異負荷(TMB)は、治療様式を選択するために本明細書に記載の方法を用いて同定された1つ以上の体細胞配列を用いて決定される。TMBは、患者の腫瘍における体細胞突然変異の頻度を定量化するがんのゲノムバイオマーカである。TMB-高は、免疫系が腫瘍を認識するのを助けるより高いネオ抗原発現と相関する。これは多数の腫瘍型にわたって検出されており、免疫療法を受けている患者の奏効率の改善及び無増悪生存期間の延長に関連している。Goodmanら、「Tumor Mutational Burden as an Independent Predictor of Response to Immunotherapy in Diverse Cancers」、Mol.Cancer Ther.、第16巻第11号第2598~2608頁(2017年)を参照されたい。
【0150】
腫瘍変異負荷は、本明細書に記載の方法を用いてがんに関連する体細胞配列を同定することによって、がんについて決定することができる。
【0151】
TMBは、所定の腫瘍変異負荷の閾値を上回る又は下回る腫瘍変異負荷に基づいてがん治療様式を選択することができるような定量値を提供することができる。いくつかの実施形態では、所定の閾値は、約5突然変異/Mb、約10突然変異/Mb、約15突然変異/Mb、約20突然変異/Mb、約25突然変異/Mb、約30突然変異/MB、約40突然変異/Mb、約50突然変異/Mb若しくはそれ以上、又はそれらの間の任意の数である(例えば、所定の閾値は、5突然変異/Mb~約50突然変異/Mbであり得る)。例として、特定の免疫腫瘍剤は、高い腫瘍変異負荷を有する腫瘍を治療するために使用される場合に特に有効であることが見出されている。例えば、Fabrizioら、「Beyond microsatellite testing:assessment of tumor mutational burden identifies subsets of colorectal cancer who may respond to immune checkpoint inhibition」、J.Gastrointestinal Oncology、第9巻第4号第610~617頁(2018年)を参照されたい。
【0152】
いくつかの実施形態では、所定の閾値を超えるTMBを有すると決定されたがんは、有効量の免疫腫瘍剤で治療される。いくつかの実施形態では、所定の閾値を超えるTMBを有すると決定されたがんは、有効量の免疫チェックポイント阻害剤で治療される。いくつかの実施形態では、免疫チェックポイント阻害剤は、AMP-224、AMP-514、アテゾリズマブ、AUNP12、アベルマブ、BGB-A317、BMS-986189、CA-170、カンレリズマブ、セミプリマブ、CK-301、ドスタリマブ、デュルバルマブ、イピリムマブ、INCMGA00012、KN035、ニボルマブ、ペンブロリルズマブ、シンチリマブ、スパルタリズマブ、チスレリズマブ、又はトリパリマブである。いくつかの実施形態では、所定の閾値を超えるTMBを有すると決定されたがんは、有効量のPD-1阻害剤、PD-L1阻害剤、又はCTLA-4阻害剤で治療される。いくつかの実施形態では、所定の閾値を超えるTMBを有すると決定されたがんは、有効量のペンブロリズマブで治療される。いくつかの実施形態では、所定の閾値を超えるTMBを有すると決定されたがんは、有効量のペンブロリズマブで治療され、所定の閾値は、約10突然変異/Mbである。
【0153】
いくつかの実施形態では、がんを処置する方法は、本明細書に記載される方法を用いて、1つ以上の目的のゲノム配列を体細胞として同定することと;1つ以上の同定された体細胞配列を用いてがんについての腫瘍変異負荷を決定することと;所定の腫瘍変異負荷の閾値を上回っている腫瘍変異負荷に基づいて、がん治療様式を選択することとを含む。次いで、有効量の選択されたがん治療様式を用いてがんを治療することができる。いくつかの実施形態では、がんは、結腸直腸がん、子宮内膜がん、胆道がん、膀胱がん、乳がん、食道がん、胃がん、胃食道接合部がん、膵臓がん、前立腺がん、腎細胞がん、後腹膜腺がん、肉腫、小細胞肺がん、小腸がん、又は甲状腺がんである。
【0154】
がん進行の監視
がんの進行のモニタリング及び/又は最小残存疾患の検出は、がん治療計画の評価及び/又は患者のがん再発の監視に有益である。がん患者は、がんが検出できなくなるまで、がんの治療を受けることができる。それにもかかわらず、患者は再発しやすいままであり得る。患者は、再発性腫瘍(例えば、ctDNA分子)に由来する核酸分子を検出することによって、がんの再発について監視され得る。他の実施形態では、がん患者を疾患について治療することができ、がん(例えば、がんの量の増加又は減少)の進行を、患者(例えば、ctDNAレベル)において検出された腫瘍核酸分子の量を定量化することによって監視することができる。
【0155】
体細胞配列の同定は、がん進行の監視又はがんの最小残存疾患の検出において特に有用であり得る。体細胞配列は、がんのゲノムシグネチャを提供し、かつ腫瘍核酸分子を非腫瘍核酸分子と区別するために使用することができる。
【0156】
患者試料を取得し、2つ以上の時点で分析して、がんの進行又はがんの再発を監視することができる。第1の試料を分析して、本明細書に記載の方法に従って1つ以上の体細胞配列を同定する。第1の試料は、がん治療の前、がん治療の間、又はがん治療の後に得ることができるが、患者は概してある程度の検出可能ながんを有する。
【0157】
第2の試料は、患者ががんについて治療された後の遅い時点で得てもよく、かつ同定された体細胞配列の1つ以上が試料中に存在するかどうかを決定するために分析することができる。体細胞配列の存在は、患者が依然としてがんを有すること、又はがんが再発したことを示す。体細胞配列を検出できないことは、患者ががんを有していないことを決定的に証明するものではないが、がんレベルが低い可能性があることを示す。
【0158】
第2の患者試料は、第1の患者試料型と同じ型の試料であってもよく、又は異なる試料型であってもよい。いくつかの実施形態では、第2の患者試料は、液体生検から得られる。例えば、液体生検患者試料は、血液、血漿、脳脊髄液、痰、便、尿、又は唾液であり得る。いくつかの実施形態では、患者試料は、固形腫瘍生検などの固形組織試料から得られる。いくつかの実施形態では、固形組織生検試料は、新鮮な試料である。いくつかの実施形態では、固形組織生検試料は、凍結試料又は以前に凍結された試料である。いくつかの実施形態では、固形組織生検試料は、新鮮な試料である。いくつかの実施形態では、固形組織生検試料は、保存試料(例えば、化学的に保存された試料)である。ある特定の実施形態では、試料は、ホルマリン固定パラフィン包埋(FFPE)試料である。
【0159】
体細胞配列は、第2の試料からのDNA又はRNA(又はその両方)において検出され得る。第2の試料中の体細胞配列の存在又は非存在は、シーケンシング、定量的PCR(qPCR)、逆転写PCR(RT-PCR)、蛍光インサイチュハイブリダイゼーション(FISH)、又は1つ以上の体細胞配列の特異的検出の任意の他の好適な方法によって検出され得る。ある特定の実施形態では、核酸分子は、第2の試料から単離される。いくつかの実施形態では、核酸分子は、第2の試料から直接的に検出される。
【0160】
いくつかの実施形態では、1つ以上の体細胞配列の存在が第2の試料で同定され、患者は、がんが以前に治療されたものと同じ治療様式又は異なる治療様式を用いてがんを治療してもよい。
【0161】
いくつかの実施形態では、患者におけるがんの進行又は再発を監視する方法は、本明細書に記載される方法を用いて、1つ以上の目的のゲノム配列を体細胞として同定することであって、この患者試料が、がんを有する患者から得られる、1つ以上の目的のゲノム配列を体細胞として同定することと;がんが治療された後に患者から第2の患者試料を得ることと;第2の患者試料内の体細胞として同定された1つ以上の目的のゲノム配列の存在又は非存在を検出することとを含む。例えば、1つ以上の目的のゲノム配列は、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内からゲノム遺伝子座で目的のゲノム配列を選択することと;目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択することと;目的のゲノム配列の観測された対立遺伝子頻度及び1つ以上のプロキシゲノム配列の観測された頻度を示す要約統計量を用いて、対立遺伝子頻度距離を決定することと;対立遺伝子頻度距離を用いて、目的のゲノム配列を生殖系列又は体細胞として同定することと、によって、体細胞として同定され得る。いくつかの実施形態では、本方法は、第1の患者試料が患者から得られた後で、及び第2の患者試料が患者から得られる前に、患者のがんを治療することを含む。いくつかの実施形態では、本方法は、体細胞として同定された1つ以上の目的のゲノム配列の存在が第2の患者試料内で検出された場合、患者のがんを治療することを含む。
【0162】
ネオ抗原選択及びがんワクチン産生
様々な遺伝子のエクソン領域で検出される体細胞配列は、例えば、個別化がんワクチンの開発におけるネオ抗原として好適であってもよい。ペプチドは、免疫系を刺激してがん細胞を死滅させることができる体細胞バリアント配列によってコードされる核酸配列に基づいて生成することができる。例えば、Richtersら、「Best practices for bioinformatics characterization of neoantigens for clinical utility」、Genome Medicine、第11巻第56頁(2019年)を参照されたい。
【0163】
いくつかの実施形態では、がんを有する対象に個別化されたがんワクチンのためのネオ抗原を選択する方法は、本明細書に記載の方法を用いて体細胞として1つ以上の目的のゲノム配列を同定することであって、体細胞として同定された1つ以上の目的のゲノム配列は、遺伝子のエクソン領域内に位置する、1つ以上の目的のゲノム配列を体細胞として同定することと、体細胞として同定された1つ以上の目的のゲノム配列から、対象に対するがんワクチンとして好適なネオ抗原をコードするゲノム配列を選択することとを含む。例えば、1つ以上の目的のゲノム配列は、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む患者試料について得られた患者ゲノム配列内からゲノム遺伝子座で目的のゲノム配列を選択することと;目的のゲノム配列に対する1つ以上のプロキシゲノム配列を選択することと;目的のゲノム配列の観測された対立遺伝子頻度及び1つ以上のプロキシゲノム配列の観測された頻度を示す要約統計量を用いて、対立遺伝子頻度距離を決定することと;対立遺伝子頻度距離を用いて、目的のゲノム配列を生殖系列又は体細胞として同定することと、によって、体細胞として同定され得る。
【0164】
いくつかの実施形態では、本方法は、ネオ抗原を含むワクチンを作製することを更に含む。
【実施例】
【0165】
実施例1-対立遺伝子頻度距離(AFDIS)に基づく体細胞バリアントと生殖系列バリアントとの間の識別
以下の実施例は、本明細書に記載の本発明の例示的な実施形態を説明するために提供され、本発明の範囲を限定することを意図しない。
【0166】
以前に記載されたSGZアルゴリズム(例えば、Sunら(2018年)、同書参)を使用して、体細胞及び生殖系列バリアント(例えば、CをTに置換する突然変異)の予想されるバリアント対立遺伝子頻度の差を決定することができるが、ただし、
図5Aに示すように、試料の腫瘍画分、バリアントの対立遺伝子数、及びゲノム遺伝子座のコピー数が決定された。体細胞バリアント及び生殖系列バリアントについて予想されるバリアント対立遺伝子頻度(VAF)は、以下のように決定することができる:
【数2】
式中、pは腫瘍純度であり、Vはバリアント対立遺伝子数であり、Cは対立遺伝子のコピー数である。例えば、試料の腫瘍純度(p)が0.25、バリアント対立遺伝子数(V)が3、コピー数(C)が4であるとすると、バリアントが体細胞性である場合、予想される対立遺伝子頻度は0.3であり、生殖系列である場合、予想される対立遺伝子頻度は0.6である。例えば、Sunら、「A computational approach to distinguish somatic vs.germline origin of genomic alterations from deep sequencing of cancer specimens without a matched normal」、PLoS Comput Biol.、第14巻第2号第e1005965頁(2018年)を参照されたい。
【0167】
この実施例は、腫瘍純度、バリアント対立遺伝子数、又はコピー数の値のモデリングを必要としない、前述のSGZアルゴリズムに対する代替アプローチを提供する。予想される生殖系列対立遺伝子頻度(AFDIS)からの対立遺伝子頻度距離は、以下のように決定される:
AFDIS=AF
生殖系列-AF
バリアント
AF
生殖系列は、対応するプロキシ配列の対立遺伝子頻度によって定義されるように、配列が決定的な生殖系列配列であると仮定した場合の配列の対立遺伝子頻度である。AF
バリアントは、特徴付けられている所与の配列の観測された対立遺伝子頻度である。生殖系列バリアントの対立遺伝子頻度距離分布を理解するために、Olshenら、「Circular Binary Segmentation for the Analysis of Array-Based DNA Copy Number Data」、Biostatistics、第5巻第4号第557~572頁(2004年10月)に記載のthe Circular Binary Segmentationアルゴリズムを用いて、コピー数の均一性に基づいて3802個の腫瘍試料からのゲノム配列をセグメント化した。3802個の試料からおよそ210万個の既知の生殖系列バリアント(dbSNP及び/又はgnomADデータベースで同定)を選択し、各生殖系列バリアントの対立遺伝子頻度(シーケンシングに基づく)を、同じセグメント内のプロキシ配列の中央値対立遺伝子頻度と比較して、各生殖系列バリアントの対立遺伝子頻度距離を決定した。3,802個の試料からの約210万個の生殖系列バリアントの確率密度を
図5Bに示し、選択値を表2に示す。経験的累積分布関数(ECDF)をこの生殖系列AFDIS分布データから構築し、これを使用して、所与のAFDISが生殖系列バリアントから誘導される確率を評価することができる。
【表2】
【0168】
上述したECDFに基づく0.993の累積分布に対応する0.1AFDISの閾値は、生殖系列バリアントから効果的に体細胞を分離することができると経験的に決定された。表2に示されるように、約0.05~0.1の範囲にわたるAFDIS閾値は、全て、体細胞バリアントと生殖系列バリアントとの間の良好な識別を提供した。それにもかかわらず、以下に説明するように、任意の所与の配列が生殖系列又は体細胞である確率を理解するために、訓練済み統計モデルが構築された。
【0169】
次いで、既知の生殖系列配列、体細胞配列、及び腫瘍純度を有する92個の遺伝子型が一致した高純度/低純度腫瘍試料について、対立遺伝子頻度距離を決定した。一般に、低純度試料が正常試料の近似値であると考えられ、その中のバリアントの体細胞対生殖系列状態の信頼できる決定を可能にするので、低純度試料を使用して、選択された配列の体細胞/生殖系列の状態についてのグラウンドトルースを確立した。
図5Cは、試料の計算純度に対してプロットされた、92個の腫瘍試料由来の生殖系列及び体細胞配列についてのバリアントAFDISを示す。灰色の円はグラウンドトルース体細胞配列を示し、黒い円はグラウンドトルース生殖系列配列を示す。
【0170】
実施例2-AFDISに基づく体細胞/生殖系列状態のロジスティック回帰
21の一致した腫瘍/正常対(肺扁平上皮がん(n=5)、卵巣漿液性がん腫(n=4)、肺腺がん(n=3)、乳房浸潤乳管がん腫(n=2)、肛門がん腫(n=1)、膀胱尿路上皮がん腫(n=1)、CRC(n=1)、腎明細胞がん腫(n=1)、卵巣高悪性度漿液性がん腫(n=1)、皮膚肉腫(n=1)、子宮内膜腺がん(n=1)からの利用可能なデータを用いて、ロジスティック回帰モデルを生成した。一致した腫瘍/正常対は、体細胞及び生殖系列配列の信頼できる決定を可能にした。
図5Dは、このアプローチの受信者動作特性(ROC)曲線、すなわち、体細胞バリアントと生殖系列バリアントとを識別する際の分類モデルの真陽性(TP)性能及び偽陽性(FP)性能のグラフプロットを示す。モデルの「1つ抜き交差検証」(LOOCV)結果は、0.97(95%信頼区間=[0.95、0.99])の精度及び0.93のCohenの(重み付けされていない)カッパ統計量を示した。一致した腫瘍/正常対データを用いてモデルを訓練して、所与の配列が体細胞配列である確率を出力した。訓練データ中の既知の生殖系列配列の場合、配列が体細胞性である確率は、0である。訓練データ中の既知の体細胞配列について、配列が体細胞性である確率は、1である。ロジスティック回帰モデルは、訓練データセットを用いて、以下の関数に従って訓練された:
【数3】
式中、p
somaticとは、所与のバリアントが体細胞バリアントである確率である。
図5Eを参照されたい。この非限定的な例では、p
somatic>0.5の配列は体細胞と呼ばれ、その他は全て生殖系列と呼ばれた。
【0171】
3つの異なる試験セットにおける合計188個の腫瘍試料中のバリアントについて上記のように計算されたAFDISデータを、訓練されたモデルへと入力して、各選択された配列が体細胞又は生殖系列である確率を決定した。体細胞バリアント確率に基づいて、バリアント配列を、体細胞(体細胞確率閾値を上回る場合)、生殖系列(生殖系列確率閾値を下回る場合)、又は曖昧(すなわち、体細胞確率閾値と生殖系列確率閾値との間)として標識した。
図5Fを参照されたい。
【0172】
図5Gに示すように、従来のSGZ法の検証に使用された一致した正常試料を有する93個の腫瘍試料のセットに対するAFDIS分類指標による分類の結果は、従来のSGZ法を超える改善を実証している。93個の腫瘍試料のゲノム配列は、訓練データセットで使用されたものとは異なるハイブリッド捕捉ベイトセットを用いて得られ、AFDIS分類指標がロバストであり、様々な方法で収集されたゲノムデータに適用可能であることを実証した。本方法の様々なレベルの性能(#真陽性(True)、#偽陽性(FP)、及び陽性的中率(PPV))の非限定的な例を、表3に概説する。
【表3】
【0173】
本方法の試料レベルの感度性能に関するデータの非限定的な例を
図5Hに示し、陽性的中率(PPV)性能に関するデータの非限定的な例を
図5Iに示す。
図5H及び
図5Iに示す「バイオリン図」は、プロットの形状が縦軸の値の確率密度を示している。バイオリン図の内側に入れ子になった箱ひげプロットは、縦軸にプロットされたパラメータの中央値、第1及び第3四分位値、最小値、最大値、及び外れ値を示す。この実施例のPPVプロットでは、大部分の試料のPPVが100%であり、したがって、中央値、最大値、並びに第1及び第3の四分位数の指標が圧縮される。
【0174】
BRCA1及びBRCA2遺伝子におけるバリアントの分類のためのデータの非限定的な例を
図5Jに示す。STK11遺伝子におけるバリアントの分類のためのデータの非限定的な例を
図5Kに示す。予想されたように、BRCA1及びBRCA2突然変異は、他のがん型と比較して、乳がんの中の生殖系列起源バリアントが豊富であることが見出され(p=0.025カイ二乗検定)、STK11突然変異は、他のがん型と比較して、肺がんの中の体細胞起源バリアントが豊富であることが見出された(p=0.0026カイ二乗検定)。
【0175】
実施例3-AFDISに基づく体細胞/生殖系列状態のロジスティック回帰
体細胞バリアントと生殖系列バリアントとを識別するための開示された方法は、問題のバリアントの対立遺伝子頻度(AF)と、そのゲノム位置に近接する既知のバリアントの対立遺伝子頻度との比較に基づく。いくつかの場合では、上記のように、生殖系列データベース(例えば、公開データベース)中の既知の生殖系列バリアントを比較に使用することができる。問題のバリアントのAFが、近接して位置する既知の生殖系列バリアントのAFと非常に類似しているか、又は非常に異なっている場合、問題のバリアントはそれぞれ生殖系列である可能性が非常に高いか、又はその可能性が低いと結論付けるであろう。
【0176】
一般に、所与のバリアントのAFは、そのコピー数並びに試料の腫瘍画分によって主に決定される。腫瘍画分は特定の試料の定数であり、したがって、所与の試料中の所与のバリアントのAFは、そのコピー数によって大きく決定される。これは、バリアントの体細胞/生殖系列の状態を推測するために、AFを同じコピー数の生殖系列バリアントのAFと比較することができることを意味する。そのような比較を実装する2つの非限定的な例を、以下及び実施例4に記載する。
【0177】
一実装態様では、問題のバリアントのAFと、同じコピー数セグメント上に位置する(例えば、ゲノムセグメントの同じ物理的に連続した部分に位置するか、又はセグメントが問題のバリアントと同じコピー数で存在する限り、ゲノムセグメントの不連続な部分に位置する)生殖系列バリアントのAF中央値との間の距離を表す「対立遺伝子頻度距離」(AFDIS)を計算する。最初に、AFDISを以下のように計算した:
AFDIS=|MAFバリアント-MAFセグメント|
式中、MAF=マイナー対立遺伝子頻度、すなわち、目的のバリアントと、セグメント生殖系列バリアントについてのマイナー対立遺伝子頻度の中央値との両方についてのマイナー対立遺伝子頻度を使用して、それらの絶対距離を計算した。次いで、「体細胞確率」とAFDISとの間の関係を捕捉するために、既知の体細胞及び生殖系列バリアントからなる訓練データセットによりロジスティック回帰モデルを訓練した。モデルは、その後、方向を伴う距離を用いることによって、すなわち、AFDISをAFDIS=AFセグメント-AFバリアントとして再定義することによって改善され、ここで、AFセグメントは、セグメント生殖系列バリアントについての対立遺伝子頻度の中央値である。この式において、AFDISの符号は、試料中に正常な組織、細胞、又はcfDNAが混合されている場合、同じコピー数の生殖系列バリアントと比較して、より低い対立遺伝子頻度を有する体細胞バリアントを説明する。これは、試料の正常部分又は血液中の正常細胞に由来するシーケンシング読取りが、体細胞バリアントではなく生殖系列バリアントを保有するためである。ロジスティック回帰モデルは、負のAFDISが、バリアントが体細胞性である低い確率と関連していることを認識するように訓練される。指向性AFDIS計算の使用は、体細胞バリアントと生殖系列バリアントとを識別するためのモデルの性能を改善した。
【0178】
AFDISベースのアプローチは、計算が簡単で容易であるという利点を有し、したがって、所与の実装形態に他の考慮事項を含めるように容易に修正することができる。具体的には、AFDISはロジスティック回帰モデルにおける単一の予測変数であるため、AFDIS値を容易に調整して、他の潜在的な技術的問題を考慮して結果を修正することができる。例えば、核酸試料の軽度の汚染によって導入される不確実性の増加を説明するために、汚染レベルに応じてAFDIS値に調整を適用して、モデルによる体細胞/生殖系列バリアントのより正確な分類に対応する範囲へとAFDIS値を移動させることができる。同様の調整は、低い読取り深度、ノイズの多いAF推定、低いセグメント生殖系列SNP数、セグメント生殖系列SNP AFにおける高い変動性などの要因によって導入される、追加の不確実性を説明するために行うことができる。これらの調整を実装する程度及び様式は、既知の体細胞及び生殖系列バリアントを含む訓練データセットを用いて設計及び調整することができる。
【0179】
実施例4-生殖系列対立遺伝子頻度の確率分布に基づく生殖系列除外
この特定の実装形態では、各々がそれ自体のAF及び対応するセグメントMAFを有する既知の生殖系列バリアントの大きなデータセットが構築され、これは、同じコピー数セグメントに位置する他の既知の生殖系列バリアントの中央値MAFであり、
図6AはバリアントAF対セグメントMAFのプロットを示す。分類される未知のバリアントについて、そのAF及び対応するセグメントMAFが決定される。未知のバリアントを分類するために、未知のバリアントのセグメントMAFと類似のセグメントMAFを有する既知の生殖系列バリアントのサブセットを含む、既知の生殖系列データセットからデータを取得する(例えば、
図6Aに示されるように、それぞれ、0.1、0.2、及び0.3付近のセグメントMAFにおけるバリアント対立遺伝子頻度分布に対応する、
図6Bに示される3つの密度対変異AFプロットのうちの1つ)。このデータを用いて、所与のセグメントMAFに対する生殖系列AF値の分布を確立することができる(すなわち、セグメントMAFはセグメントのコピー数によって本質的に決定されるので、所与のコピー数)。未知のバリアントのAFをこの生殖系列AF分布と比較して、未知のバリアントが生殖系列バリアントである確率を推測する。例えば、AFが0.1又は0.9のいずれか、及びセグメントMAFが0.1を有する未知のバリアントは、生殖系列バリアントである可能性が高く、一方でAFが0.4、及びセグメントMAFが0.1を有する未知のバリアントは、体細胞バリアントである可能性が高い。
【0180】
実施例5-性能検証
開示される方法は、血漿監視のためにベースライン組織又は液体生検試料から体細胞バリアントを選択するための例示的な技術を提供する。この特定の目的のための性能を更に高めるために、(i)ロジスティック回帰モデルを構築するための、良好に挙動するバリアント(例えば、対立遺伝子頻度が期待値から逸脱することが知られているか、又はそう予想されるゲノム領域に位置するバリアント(反復配列を有する領域若しくはゲノムの他の領域と相同性を共有する領域に位置するバリアントなど)を除外することによって)の選択と、(ii)履歴データ及び公開データベースに基づいて、未確定の潜在能をもつクローン性造血(CHIP)バリアントの生殖系列、体細胞、又はクローン造血であるバリアントの可能性の事前知識を組み込むことと、(iii)バリアント呼出しのノイズレベル及びそのゲノムコンテクストを考慮に入れることとを含む、いくつかの追加の手段が考案された。これらの測定は体細胞バリアント分類の性能を高めることが見出された。
【0181】
試料中の体細胞バリアントを生殖系列バリアントと区別する開示されたAFDISベースのロジスティック回帰モデルの能力を、例えば、一致した腫瘍/正常対からのデータを用いて検証した。ロジスティック回帰モデルを開発するために使用される初期訓練データセット及び試験データセット、並びに様々なレベル及び試料レベルの性能について得られた性能測定基準(#偽陽性(FP)、感度、及び陽性的中率(PPV))の非限定的な例を、それぞれ、表4及び表5に概説する。
【表4】
【表5】
【0182】
バリアント呼出しパイプライン検証研究で使用されたデータセットは、86個の一致した組織/末梢血単核球細胞(peripheral blood mononuclear cell:PBMC)試料対からのデータを含んでいた。様々なレベル及び試料レベルの性能測定基準を、それぞれ、表6及び表7に要約する。
【表6】
【表7】
【0183】
追加のバリアント呼出しパイプライン検証研究で使用されたデータセットは、746個の一致した組織/末梢血単核球細胞(PBMC)試料対からのデータを含んでいた。様々なレベル及び試料レベルの性能測定基準を、それぞれ、表8及び表9に要約する。
【表8】
【表9】
【0184】
上記の方法及びシステムは、限定のためではなく例として示されていることが理解されよう。多数の変形、追加、省略、及び他の修正が当業者には明らかであろう。加えて、上記の説明及び図面における方法工程の順序又は提示は、特定の順序が明示的に要求されない限り、又は文脈から明らかでない限り、列挙された工程を実行するこの順序を要求することを意図しない。
【0185】
本明細書に記載の本発明の方法工程は、異なる意味が明示的に提供されるか、又は文脈から明らかでない限り、1つ以上の他の当事者又は事業体に工程を実行させる任意の好適な方法を含むことを意図している。いくつかの態様では、そのような当事者又は事業体は、他の当事者又は事業体の指示又は管理下にある必要はなく、特定の管轄区域内に位置する必要はない。したがって、例えば、「第1の数を第2の数に足す」という記述又は列挙は、1つ以上の当事者又は事業体に2つの数を一緒に加えさせることを含む。例えば、人Xが人Yと対等な取引を行って、2つの数を足し、人Yが実際に2つの数を足した場合、人X及び人Yの両者は、人Yが、実際に数を足したという事実によって、人Xが、人Yに数を加えさせたという事実によって、示された工程を実行する。更に、人Xが米国内に位置し、人Yが米国外に位置する場合、方法は、人Xが工程を実行させることに関与することによって米国において実行される。
【0186】
本明細書で説明される様々な実施形態の説明で使用される用語は、特定の実施形態を説明することだけを目的としており、限定することを意図していない。説明される様々な実施形態及び添付の特許請求の範囲の説明で使用されるように、単数形「a」、「an」、及び「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことを意図している。本明細書で使用される「及び/又は」という用語は、関連する列挙された項目のうち1つ以上のあらゆる可能な組合せを指し、包含することも理解されるであろう。本明細書で使用される場合、「含む(includes)」、「含む(including)」、「含む(comprises)」、及び/又は「含む(comprising)」という用語は、記載された特徴、整数、工程、操作、要素、及び/又は成分の存在を明示するが、1つ以上の他の特徴、整数、工程、操作、要素、成分、及び/又はそれらの群の存在又は追加を排除しないことが更に理解されるであろう。
【0187】
本明細書で参照される全ての刊行物、特許、及び特許出願の開示は、各々、参照によりその全体が本明細書に援用される。参照により援用される参考文献が本開示と矛盾する限り、本開示が優先するものとする。
【0188】
本発明の特定の実施形態が示され、説明されてきたが、当業者には、以下の特許請求の範囲によって定義される本発明の趣旨及び範囲から逸脱することなく、形態及び詳細における様々な変更及び修正がなされ得ることが明らかであろう。以下の特許請求の範囲は、その範囲内にあり得る全ての変更及び修正を含むことを意図しており、法律で許容される最も広い意味で解釈されるべきである。
【国際調査報告】