(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-19
(54)【発明の名称】父子判定のための組成物、方法、およびシステム
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20230412BHJP
C12Q 1/683 20180101ALI20230412BHJP
C12Q 1/6858 20180101ALI20230412BHJP
C12Q 1/6876 20180101ALN20230412BHJP
【FI】
C12Q1/6869 Z
C12Q1/683 Z
C12Q1/6858 Z
C12Q1/6876 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022551636
(86)(22)【出願日】2021-02-26
(85)【翻訳文提出日】2022-10-25
(86)【国際出願番号】 US2021020021
(87)【国際公開番号】W WO2021174079
(87)【国際公開日】2021-09-02
(32)【優先日】2020-02-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】511172461
【氏名又は名称】ラボラトリー コーポレイション オブ アメリカ ホールディングス
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ウィリアムズ, ジョナサン
(72)【発明者】
【氏名】タイナン, ジョン エー.
(72)【発明者】
【氏名】オニール, エリック
(72)【発明者】
【氏名】レフコウィッツ, ロイ ブライアン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA18
4B063QA20
4B063QQ03
4B063QQ42
4B063QR08
4B063QR55
4B063QR58
4B063QR62
4B063QS16
4B063QS25
4B063QS34
4B063QX02
(57)【要約】
本出願は、父子判定のための方法およびシステムを提供する。いくつかの実施形態では、該方法は、擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的の遺伝子型を得ること、胎児核酸を含む妊娠中の母親から得られた生体サンプルから無細胞核酸を単離することを含む、非侵襲的出生前父子判定方法である。無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の量を決定し、有益な多型核酸標的を同定する。次に、選択された有益な多型核酸標的の各対立遺伝子の対立遺伝子頻度を測定し、各選択された有益な多型核酸標的の胎児遺伝子型を対立遺伝子頻度に基づいて決定する。最後に、有益な核酸標的に対する母親、擬父および胎児の遺伝子型に基づいて、胎児の父子関係を決定する。
【特許請求の範囲】
【請求項1】
妊娠中の母親の胎児の父性を判定する方法であって、
(a)擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的についての遺伝子型を得ること、
(b)胎児核酸を含む前記妊娠中の母親から得られた生体サンプルから無細胞核酸を単離すること、
(c)無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の頻度を測定すること
(d)前記1またはそれよりも多くの多型核酸標的から有益な多型核酸標的を選択すること、
(e)選択された有益な多型核酸標的の各対立遺伝子の測定された対立遺伝子頻度を決定し、それにより、選択された有益な多型核酸標的ごとの前記測定された対立遺伝子頻度に基づいて胎児遺伝子型を決定すること、および
(f)前記有益な核酸標的に対する前記母親、擬父および前記胎児の前記遺伝子型に基づいて、前記胎児の父子関係を判定すること、を含む、方法。
【請求項2】
工程(a)が、前記妊娠中の母親から得られたゲノムDNAサンプル中の前記1またはそれよりも多くの多型核酸標的の遺伝子型を得ることを更に含む、請求項1に記載の方法。
【請求項3】
工程(e)が、前記測定された対立遺伝子頻度をそれぞれの多型核酸標的の閾値と比較することを更に含む、先行する請求項のいずれか1項に記載の方法。
【請求項4】
工程(f)が、各有益な多型核酸標的についての父性指数を決定すること、各有益な多型核酸標的についての前記父性指数の積である、全ての有益な多型核酸標的についての総合父性指数を決定することを含む、先行する請求項のいずれか1項に記載の方法。
【請求項5】
前記有益な多型核酸標的の各々についての前記母親の遺伝子型、ならびに擬父および胎児の遺伝子型を父子判定ソフトウェアに入力することによって、前記父性指数が決定される、請求項4に記載の方法。
【請求項6】
前記総合父性指数が所定の閾値よりも大きい場合、前記擬父が生物学的父親であると判定される、請求項4に記載の方法。
【請求項7】
工程(c)が、無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の量に基づいて、測定された対立遺伝子頻度を決定することを含む、請求項1に記載の方法。
【請求項8】
前記有益な多型核酸標的が、前記1またはそれよりも多くの多型核酸標的の測定値からなるデータセットに対してコンピュータアルゴリズムを実行して第1のクラスタおよび第2のクラスタを形成することによって選択され、
前記第1のクラスタが、AA
母親/AB
胎児、もしくはBB
母親/AB
胎児の遺伝子型の組み合わせで前記母親および前記胎児に存在する多型核酸標的を含み、ならびに/または
前記第2のクラスタが、AB
母親/BB
胎児もしくはAB
母親/AA
胎児の遺伝子型の組み合わせで前記母親および前記胎児に存在するSNPを含む、上記請求項のいずれか1項に記載の方法。
【請求項9】
前記多型核酸標的が、(i)1もしくはそれよりも多くのSNV、(ii)1もしくはそれよりも多くの制限断片長多型(RFLP)、(iii)1もしくはそれよりも多くのショートタンデムリピート(STR)、(iv)1もしくはそれよりも多くの可変数のタンデムリピート(VNTR)、(v)1もしくはそれよりも多くのコピー数変異体、(vi)挿入/欠失変異体、または(vii)(i)~(vi)のいずれかの組み合わせを含む、先行する請求項のいずれか1項に記載の方法。
【請求項10】
前記多型核酸標的が1またはそれよりも多くのSNVを含む、先行する請求項のいずれか1項に記載の方法。
【請求項11】
前記1またはそれよりも多くのSNVが任意のSNVを除外し、その前記参照対立遺伝子および代替対立遺伝子の組み合わせが、A_G、G_A、C_T、およびT_Cからなる群から選択される、請求項10に記載の方法。
【請求項12】
各多型核酸標的が15%~49%のマイナー集団対立遺伝子頻度を有する、先行する請求項のいずれか1項に記載の方法。
【請求項13】
前記SNVが、表1または表5の配列番号の少なくとも2つ、3つもしくは4つ、またはそれよりも多くのSNVを含む、先行する請求項のいずれか1項に記載の方法。
【請求項14】
工程(b)の前記生体サンプルが、血液、血清および血漿のうちの1または複数である、先行する請求項のいずれか1項に記載の方法。
【請求項15】
1またはそれよりも多くの無細胞核酸を胎児特異的核酸として同定することが、動的クラスタリングアルゴリズムを、
(i)前記無細胞核酸中の前記1またはそれよりも多くの多型核酸標的を、前記多型核酸標的の各々の参照対立遺伝子または代替対立遺伝子についての前記測定された対立遺伝子頻度に基づいて、母親のホモ接合群および胎児のヘテロ接合群に層別化すること、
(ii)レシピエントホモ接合群を有益でない群および有益な群に更に層別化すること、ならびに
(iii)前記有益な群における1またはそれよりも多くの多型核酸標的の量を測定すること、に適用することを含む、先行する請求項のいずれか1項に記載の方法。
【請求項16】
前記1またはそれよりも多くの多型核酸標的の参照対立遺伝子の測定された頻度と、参照集団における前記参照対立遺伝子の予想頻度との間の偏差が固定カットオフより大きい場合、胎児特異的核酸が検出され、
前記参照対立遺伝子についての前記予想頻度が、
前記母親が前記代替対立遺伝子についてホモ接合である場合、0.00~0.03、
前記母親が前記代替対立遺伝子についてヘテロ接合である場合、0.40~0.60、または
前記母親が前記参照対立遺伝子についてホモ接合である場合、0.97~1.00の範囲である、先行する請求項のいずれか1項に記載の方法。
【請求項17】
前記母親が、前記参照対立遺伝子についてホモ接合であり、前記固定カットオフアルゴリズムが、前記1またはそれよりも多くの多型核酸標的の前記参照対立遺伝子の前記測定された対立遺伝子頻度が前記固定カットオフ未満である場合、胎児特異的核酸を検出する、請求項16に記載の方法。
【請求項18】
前記母親が、前記代替対立遺伝子についてホモ接合であり、前記固定カットオフアルゴリズムが、前記1またはそれよりも多くの多型核酸標的の前記参照対立遺伝子の前記測定された対立遺伝子頻度が前記固定カットオフより大きい場合、胎児特異的核酸を検出する、請求項16に記載の方法。
【請求項19】
前記固定カットオフが、参照集団における前記1またはそれよりも多くの多型核酸標的の前記参照または代替対立遺伝子の前記測定されたホモ接合対立遺伝子頻度に基づく、請求項16~17のいずれか一項に記載の方法。
【請求項20】
前記固定カットオフが、参照サンプルセット中の前記1またはそれよりも多くの多型核酸標的の前記参照または代替対立遺伝子の前記測定されたホモ接合対立遺伝子頻度の前記測定された分布のパーセンタイル値に基づく、請求項16~19のいずれか一項記載の方法。
【請求項21】
前記個々の多型核酸標的閾値アルゴリズムが、前記1またはそれよりも多くの多型核酸標的の各々の前記測定された対立遺伝子頻度が閾値より大きい場合、前記1またはそれよりも多くの核酸を胎児特異的核酸として同定する、請求項14に記載の方法。
【請求項22】
前記閾値が、参照サンプルセット中の前記1またはそれよりも多くの多型核酸標的のそれぞれの前記測定されたホモ接合対立遺伝子頻度に基づく、請求項21に記載の方法。
【請求項23】
前記閾値が、前記参照サンプルセット中の前記1またはそれよりも多くの多型核酸標的のそれぞれの前記測定されたホモ接合対立遺伝子頻度の分布のパーセンタイル値である、請求項21に記載の方法。
【請求項24】
1またはそれよりも多くの多型核酸標的の前記量が、ハイスループットシーケンシング、キャピラリー電気泳動またはデジタルポリメラーゼ連鎖反応(dPCR)から選択される少なくとも1つのアッセイにおいて決定される、請求項1~23のいずれか1項に記載の方法。
【請求項25】
前記1またはそれよりも多くの多型核酸標的の各対立遺伝子の前記頻度を検出することが、前記対立遺伝子について特異的に設計されたフォワードプライマーおよびリバースプライマーを使用する標的化増幅、または前記対立遺伝子の配列を含むプローブ配列を使用する標的化ハイブリダイゼーションおよびハイスループットシーケンシングを含む、請求項24に記載の方法。
【請求項26】
前記1またはそれよりも多くの多型核酸標的がSNVを含み、前記SNVの対立遺伝子の量を検出することが、少なくとも二本のプローブを前記SNVを含む前記多型核酸標的にハイブリダイズさせることを含み、前記二本のプローブの一方が前記SNVの前記対立遺伝子に相補的なヌクレオチドを含む場合、前記二本のプローブをライゲートして連結プローブを形成する、請求項24に記載の方法。
【請求項27】
前記対立遺伝子の前記量を検出することが、増幅された連結プローブを生成するために前記連結プローブにアニーリングされたプライマーをハイブリダイズさせること、および前記増幅された連結プローブをシーケンシングすることをさらに含む、請求項26に記載の方法。
【請求項28】
1またはそれよりも多くのプロセッサと、1またはそれよりも多くのプロセッサに結合されたメモリとを備える、父性を判定するためのシステムであって、前記メモリが、プロセスであって、
擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的について遺伝子型を得ること、
妊娠中の母親から得られたサンプルからの無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の量を決定すること、
前記1またはそれよりも多くの多型核酸標的から有益な多型核酸標的を選択すること、
前記選択された有益な多型核酸標的の各対立遺伝子の前記測定された対立遺伝子頻度を決定し、それにより、選択された有益な多型核酸標的ごとの前記対立遺伝子頻度に基づいて胎児遺伝子型を決定すること、および
前記有益な核酸標的についての前記母親、擬父および前記胎児の前記遺伝子型に基づいて前記胎児の前記父子関係を判定すること、を含むプロセスを実行するように構成された命令のセットでコードされる、システム。
【請求項29】
1またはそれよりも多くのプロセッサによって遂行されると、前記1またはそれよりも多くのプロセッサに、請求項1~27のいずれか1項に記載の父子関係を判定する方法を実行させるプログラム命令を備える、非一時的機械可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
分野
本技術の一部は、父性を判定するために使用される方法およびシステムに関する。
【背景技術】
【0002】
背景
父子判定は、ある個人が別の個人の生物学的父親であるかどうかを判定することである。場合によっては、出生前段階、すなわち出生前に、父性を判定することが望ましい。絨毛膜絨毛の採取または羊水穿刺を含む実父確定検査は非常に正確であるが、胎盤組織を回収する、または母親の腹壁を通して針を挿入する等の侵襲的処置を必要とする。最近では、非侵襲的な出生前の実父確定検査(rests)が開発されているが、妊娠中の母親由来の無細胞サンプル中の胎児DNAの量は非常に少なく、無細胞DNAは高度に断片化されたサンプルであるため、現在の非侵襲的実父確定検査の精度は依然として懸念される。
【発明の概要】
【課題を解決するための手段】
【0003】
本発明は、多型核酸標的のパネルを使用する出生前の父子判定の非侵襲的方法を提供する。パネルを多重化様式で増幅し、シーケンシングによって分析することができる。この方法は、混合母体および胎児DNAを有するサンプル中の胎児特異的対立遺伝子の存在を定量し、胎児の遺伝子型を決定する。次いで、トリオ(すなわち、母親、胎児、および擬父)の遺伝子型を分析して、擬父が生物学的父親である可能性対擬父と同じ集団からのランダムな男性が生物学的父親である可能性を表す父性指数を作成する。この方法は、迅速、簡便かつ正確に父性の有無を判定する。
【0004】
いくつかの実施形態では、妊娠中の母親の胎児の父性(paternty)を判定する方法が本明細書に開示される。この方法は、(a)擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的についての遺伝子型を得ること、(b)胎児核酸を含む妊娠中の母親から得られた生体サンプルから無細胞核酸を単離すること、(c)無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の頻度を測定すること、(d)1またはそれよりも多くの多型核酸標的から有益な多型核酸標的を選択すること、(e)選択された有益な多型核酸標的の各対立遺伝子の測定対立遺伝子頻度を決定し、それにより、選択された有益な多型核酸標的ごとの測定対立遺伝子頻度に基づいて胎児遺伝子型を決定すること、および(f)有益な核酸標的に対する母親、擬父および胎児の遺伝子型に基づいて、胎児の父子関係を判定すること、を含む。いくつかの実施形態では、工程(a)は、妊娠中の母親から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的の遺伝子型を得ることをさらに含む。工程(e)は、測定対立遺伝子頻度をそれぞれの多型核酸標的の閾値と比較することをさらに含む。いくつかの実施形態では、工程(f)は、各有益な多型核酸標的についての父性指数を決定すること、各有益な多型核酸標的についての父性指数の積である、全ての有益な多型核酸標的についての総合父性指数を決定することを更に含む。いくつかの実施形態では、工程(c)は、無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の量に基づいて、測定対立遺伝子頻度を決定することを含む。
【0005】
いくつかの実施形態では、有益な多型核酸標的が、1またはそれよりも多くの多型核酸標的の測定値からなるデータセットに対してコンピュータアルゴリズムを実行して第1のクラスタおよび第2のクラスタを形成することによって選択され、第1のクラスタが、AA母親/AB胎児、またはBB母親/AB胎児の遺伝子型の組み合わせで母親および胎児に存在する多型核酸標的を含み、および/または
第2のクラスタが、AB母親/BB胎児またはAB母親/AA胎児の遺伝子型の組み合わせで母親および胎児に存在するSNPを含む。
【0006】
いくつかの実施形態では、有益な多型核酸標的の各々についての母親の遺伝子型、ならびに擬父および胎児の遺伝子型を父子判定ソフトウェアに入力することによって、父性指数が決定される。いくつかの実施形態では、総合父性指数が所定の閾値よりも大きい場合、擬父が生物学的父親であると判定される。
【0007】
1またはそれよりも多くのプロセッサと、1またはそれよりも多くのプロセッサに結合されたメモリとを備える、父性を判定するためのシステムであって、メモリが、プロセスであって、擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的について遺伝子型を得ること、妊娠中の母親から得られたサンプルからの無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の量を決定すること、1またはそれよりも多くの多型核酸標的から有益な多型核酸標的を選択すること、選択された有益な多型核酸標的の各対立遺伝子の測定対立遺伝子頻度を決定し、それにより、選択された有益な多型核酸標的ごとの対立遺伝子頻度に基づいて胎児遺伝子型を決定すること、および有益な核酸標的についての母親、擬父および胎児の遺伝子型に基づいて胎児の父子関係を判定すること、を含むプロセスを実行するように構成された命令のセットでコードされる、システムも提供される。
【0008】
1またはそれよりも多くのプロセッサによって遂行されると、1またはそれよりも多くのプロセッサに、上に記載される父子関係を判定する方法のいずれか1つを実行させるプログラム命令を備える、非一時的機械可読記憶媒体も提供される。
【0009】
図面は、本明細書の技術の例示的な実施形態を示しており、限定するものではない。説明を明確かつ容易にするために、図面は縮尺通りには作られておらず、場合によっては、特定の実施形態の理解を容易にするために、様々な実施形態が誇張または拡大されて示されている場合がある。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本明細書に記載の父子判定方法の例示的なワークフローを示す。
【
図2】
図2は、本技術の特定の実施形態が実装され得るシステムの例示的な実施形態を示す。
【
図3】
図3は、母体DNAおよび胎児DNAをモデル化する合成混合物中の予想される胎児画分および検出された胎児分率を示す。X軸は、シーケンシング測定された参照対立遺伝子頻度に基づくSNV決定混合比を表す。Y軸は、混合物を調製するために使用されるDNAの蛍光定量に基づく予想混合物分率を表す。
【
図4】
図4は、子ゲノムDNA遺伝子型決定によって決定された子ヘテロ接合/母性ホモ接合遺伝子座の潜在的な数と比較した、同定された子ヘテロ接合/母性ホモ接合遺伝子座の数を示す。
【
図5】
図5は、母体と子のDNAの混合物を含むサンプルにおいて、母親がホモ接合であり、子供がヘテロ接合である有益なSNVに基づく父性の尤度比(父性指数)を示す。「含まれる父親」とは、試験により、擬父が子供の生物学的な父親であることが確認されたことを意味する。「除外された父親」は、試験結果が0であったことを意味し、擬父が生物学的な父親ではないことを示す。
【
図6】
図6は、子供がヘテロ接合であり、母親がホモ接合である有益なSNVに基づく胎児分率の反復測定を示す。母体ゲノムDNAは遺伝子型決定に利用できなかった。各cf DNAサンプル(SQcfDNA番号によって識別される)からの2つの複製物(RDSR番号によって識別される)を試験した。
【
図7】
図7は、
図6に示すのと同じ実験で分析したcfDNAサンプルについて、子供がヘテロ接合である有益なSNVの数の反復測定を示す。母体ゲノムDNAは遺伝子型決定に利用できなかった。各cf DNAサンプル(SQcfDNA番号によって識別される)からの2つの複製物(RDSR番号によって識別される)を試験した。
【
図8】
図8は、異なる参照対立遺伝子および代替対立遺伝子の組み合わせ(「Ref_Alt組み合わせ」)を有するSNPのホモ接合対立遺伝子頻度についての中央値およびMADを示す。A_G、G_A、C_T、またはT_Cの組み合わせを有するSNPについて、より高い中央値およびより高いMADが観察された。
【
図9】
図9は、Ref_Altの組み合わせの分布を示す。A_G、G_A、C_TおよびT_Cは、v1.1パネル(すなわち、表1に開示されるパネルAおよびパネルBのサブセットの組み合わせである)における参照対立遺伝子と代替対立遺伝子との最も頻度の高い組み合わせであり、パネルの標的の79.5%(219のドナー分率アッセイのうち172)に存在する。
【
図10】
図10Aおよび
図10Bは、プローブ(1)および(2)からなる対立遺伝子特異的プローブ対が、SNV遺伝子座において対立遺伝子A(参照対立遺伝子)を検出するように設計される実施形態を示す。プローブ(1)および(2)は、標的核酸分子にハイブリダイズしたとき、すなわち、2つのプローブの近位端の間にヌクレオチドが存在しないとき、互いに直接隣接している。この実施形態では、プローブ(1)は、プローブ(2)がハイブリダイズする配列の5’である配列にハイブリダイズする。プローブ(2)はその5’末端にTを含有し、これはSNV遺伝子座(
図10A)でAにハイブリダイズし、G(同じ遺伝子座の代替対立遺伝子)にはハイブリダイズしない(
図10B)。この特定の実施形態では、検出された対立遺伝子に相補的なヌクレオチドは、1つのプローブの3’末端にある。他の実施形態では、検出された対立遺伝子Aに相補的なヌクレオチドはまた、プローブ(1)の5’末端にあり得る。
【発明を実施するための形態】
【0011】
定義
「核酸」および「核酸分子」という用語は、本開示全体を通して互換的に使用され得る。この用語は、DNA(例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)等)、RNA(例えば、メッセンジャー(message)RNA(mRNA)、短阻害性RNA(siRNA)、リボソームRNA(rRNA)、トランスファーRNA(tRNA)、マイクロRNA)、DNAもしくはRNA類縁体(例えば、塩基類縁体、糖類縁体および/または非天然骨格等を含有する)、および/またはRNA/DNAハイブリッドおよびポリアミド核酸(PNA)等空の任意の組成の核酸を指し、その全てが一本鎖または二本鎖形態であり得、特に限定されない限り、天然に存在するヌクレオチドと同様の様式で機能し得る天然ヌクレオチドの既知の類縁体を包含し得る。核酸は、本明細書のプロセスを行うのに有用な任意の形態(例えば、直鎖状、環状、スーパーコイル状、一本鎖、二本鎖等)であり得るか、または本技術の一部としてのそれらの有用性を変化させない変異(例えば、挿入、欠失または置換)を含み得る。核酸は、特定の実施形態では、プラスミド、ファージ、自律複製配列(ARS)、セントロメア、人工染色体、染色体、またはin vitroもしくは宿主細胞、細胞、細胞核もしくは細胞の細胞質において複製することができる、または複製され得る他の核酸であり得るか、またはそれらに由来し得る。いくつかの実施形態で鋳型核酸は、単一の染色体に由来し得る(例えば、核酸サンプルは、二倍体生物から得られたサンプルの単一の染色体に由来し得る)。具体的に限定されない限り、この用語は、参照核酸と同様の結合特性を有し、天然に存在するヌクレオチドと同様の様式で代謝される天然ヌクレオチドの既知の類縁体を含有する核酸を包含する。別段の指示がない限り、特定の核酸配列は、その保存的に改変された変異体(例えば縮重コドン置換)、対立遺伝子、オルソログ、一塩基多型(SNP)、一塩基変異体(SNV)、および相補的配列、ならびに明示的に示された配列も暗黙的に包含する。具体的には、縮重コドン置換は、1またはそれよりも多くの選択された(または全ての)コドンの3番目の位置が混合塩基および/またはデオキシイノシン残基で置換された配列を生成することによって達成され得る(Batzerら、Nucleic Acid Res.19:5081(1991);Ohtsukaら、J.Biol.Chem.260:2605-2608(1985);およびRossoliniら、Mol.Cell.Probes 8:91-98(1994))。核酸という用語は、遺伝子座、遺伝子、cDNA、および遺伝子によってコードされるmRNAと互換的に使用される。この用語はまた、等価物として、ヌクレオチド類縁体、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)および二本鎖ポリヌクレオチドから合成されたRNAまたはDNAの誘導体、変異体および類縁体を含み得る。デオキシリボヌクレオチドとしては、デオキシアデノシン、デオキシシチジン、デオキシグアノシンおよびデオキシチミジンが挙げられる。RNAの場合、塩基シトシンはウラシルで置換されている。対象から得られた核酸を鋳型として鋳型核酸を調製してもよい。
【0012】
本明細書で使用される場合、「多型」または「多型核酸標的」という用語は、同じゲノム配列の異なる対立遺伝子間の配列変異を指す。多型を含有する配列は、「多型配列」と考えられる。1またはそれよりも多くの多型の検出は、単一のゲノム配列の異なる対立遺伝子または2つを超える個体間の異なる対立遺伝子の分化を可能にする。本明細書で使用される場合、「多型マーカー」、「多型配列」、「多型核酸標的」という用語は、個体間のDNA配列の遺伝的変異を示すゲノムDNAのセグメントを指す。そのようなマーカーとしては、限定されないが、一塩基変異体(SNV)、制限断片長多型(RFLP)、短いタンデムリピート、例えばジヌクレオチドリピート、トリヌクレオチドリピートまたはテトラヌクレオチドリピート(STR)、可変数のタンデムリピート(VNTR)、コピー数変異体、挿入、欠失、重複等が挙げられる。本技術による多型マーカーは、濃縮された胎児特異的核酸サンプル中の母体対立遺伝子と胎児対立遺伝子とを特異的に区別するために使用することができ、上記のマーカーのうちの1または複数を含み得る。
【0013】
本明細書で使用される場合、「単一ヌクレオチド変異体」または「SNV」という用語(「一塩基多型」または「SNP」と互換的に使用される)は、同じゲノム配列の異なる対立遺伝子間の一塩基残基に存在するポリヌクレオチド配列の変異を指す。この変異は、ゲノム配列がタンパク質産生中に転写される場合、ゲノム配列のコード領域または非コード領域(すなわち、プロモーター領域またはイントロン領域)内で起こり得る。1またはそれよりも多くのSNVの検出は、単一のゲノム配列の異なる対立遺伝子または2つを超える個体間の異なる対立遺伝子の分化を可能にする。
【0014】
本明細書で使用される「対立遺伝子」という用語は、染色体上の同じ位置を占める遺伝子またはDNAの非コード領域のいくつかの代替形態の1つである。対立遺伝子という用語は、細菌、ウイルス、真菌、原虫、カビ、酵母、植物、ヒト、非ヒト、動物、および古細菌を含むがこれらに限定されない任意の生物由来のDNAを表すために使用することができる。本明細書に開示される多型核酸標的は、染色体上の同じ位置を占める遺伝子またはDNAの非コード領域の2つ、3つ、4つ、またはそれよりも多くの代替形態を有し得る。2つの代替形態を有する多型核酸標的は、一般に2対立遺伝子多型核酸標的と呼ばれる。本開示の目的のため、一方の対立遺伝子は参照対立遺伝子と呼ばれ、他方は代替対立遺伝子と呼ばれる。いくつかの実施形態では、参照対立遺伝子は、ゲノム参照コンソーシアム(Genome Reference Consortium)(www.ncbi.nlm.nih.gov/grc)によって公表されているように、1またはそれよりも多くの参照ゲノム中に存在する対立遺伝子である。いくつかの実施形態では、参照対立遺伝子は、参照ゲノムGRCh38に存在する対立遺伝子である。www.ncbi.nlm.nih.gov/grc/humanを参照されたい。いくつかの実施形態では、参照対立遺伝子は、1またはそれよりも多くの参照ゲノムに存在する対立遺伝子ではなく、例えば、参照対立遺伝子は、1またはそれよりも多くの参照ゲノムに見出される対立遺伝子の代替対立遺伝子である。
【0015】
本明細書で使用される場合、「対立遺伝子の比率」または「対立遺伝子比」という用語は、サンプル中の一方の対立遺伝子の量対他方の対立遺伝子の量の比を指す。
【0016】
SNVに関する「Ref_Alt」という用語の組み合わせは、集団内のSNVについての参照対立遺伝子と代替対立遺伝子との組み合わせを指す。例えば、C_GのRef_Altは、参照対立遺伝子がCであり、代替対立遺伝子がSNVのGであることを指す。
【0017】
本明細書で使用される「量」または「コピー数」という用語は、分析物(例えば、全核酸または胎児特異的核酸)の量または分量を指す。本技術は、混合レシピエントサンプル中の胎児特異的核酸の絶対量を決定するための組成物およびプロセスを提供する。量またはコピー数は、検出に利用可能な分子の数を表し、単位当たりのゲノム等価物として表され得る。
【0018】
「分率」という用語は、混合物または溶液(例えば、レシピエントと胎児特異的核酸との混合物を含むレシピエントサンプル中の胎児特異的核酸の割合)中の物質の割合を指す。分率は、ある量が別の量に対してどの程度大きい/小さいかを100の分率として表すために使用されるパーセンテージとして表すことができる。
【0019】
本明細書で使用される場合、「サンプル」という用語は、核酸を含有する検体を指す。サンプルの例としては、限定されないが、当技術分野で十分に確立されたプロトコルを使用して、組織、体液(例えば、血液、血清、血漿、唾液、尿、涙、腹腔水、腹水、膣分泌物、乳汁、母乳、リンパ液、痰、脳脊髄液または粘膜分泌物)または他の身体滲出物、糞便(例えば、便)、その核酸を含有するそのような供給源の個々の細胞または抽出物、およびミトコンドリア等の細胞内構造物が挙げられる。
【0020】
本明細書で使用される場合、「血液」という用語は、対象からの血液サンプルまたは調製物を指す。この用語は、全血または従来定義されているような血清および血漿等の血液の任意の画分を包含する。
【0021】
本明細書で使用される「標的核酸」という用語は、核酸が胎児由来または母体由来の無細胞核酸であるかどうかを判定するために本明細書に開示される方法を使用して検査される核酸を指す。
【0022】
本明細書で使用される場合、「配列特異的」または「遺伝子座特異的方法」という用語は、配列組成に基づいてゲノム内の特定の位置(または遺伝子座)で核酸を調べる(例えば、を定量化する)方法を指す。配列特異的または遺伝子座特異的な方法は、特定の領域または染色体の定量を可能にする。
【0023】
「遺伝子」という用語は、ポリペプチド鎖の産生に関与するDNAのセグメントを意味し、それは、遺伝子産物の転写/翻訳および転写/翻訳の調節に関与するコード領域(リーダーおよびトレーラ)の前後の領域、ならびに個々のコードセグメント(エクソン)間の介在配列(イントロン)を含む。
【0024】
本出願では、「ポリペプチド、」、「ペプチド、」および「タンパク質」という用語は、アミノ酸残基のポリマーを指すために本明細書で互換的に使用される。この用語は、1またはそれよりも多くのアミノ酸残基が対応する天然アミノ酸の人工化学模倣物であるアミノ酸ポリマー、ならびに天然アミノ酸ポリマーおよび非天然アミノ酸ポリマーに適用される。本明細書で使用される場合、この用語は、全長タンパク質(すなわち、抗原)を含む任意の長さのアミノ酸鎖を包含し、アミノ酸残基は共有ペプチド結合によって連結されている。
【0025】
「アミノ酸」という用語は、天然に存在するアミノ酸および合成アミノ酸、ならびに天然に存在するアミノ酸と同様の様式で機能するアミノ酸類縁体およびアミノ酸模倣物を指す。天然に存在するアミノ酸は、遺伝暗号によってコードされるアミノ酸、ならびに後に改変されるアミノ酸、例えばヒドロキシプロリン、ガンマ-カルボキシグルタメート、およびO-ホスホセリンである。アミノ酸は、一般に知られている3文字記号またはIUPAC-IUB生化学命名法委員会によって推奨される1文字記号のいずれかによって本明細書で言及され得る。同様に、ヌクレオチドは、一般に受け入れられている一文字コードによって参照され得る。
【0026】
本明細書で使用される場合、「プライマー」は、特定のゲノム配列に対応するポリヌクレオチド配列に基づいてヌクレオチド配列を増幅するために、ポリメラーゼ連鎖反応(PCR)等の増幅方法で使用することができるオリゴヌクレオチドを指す。ポリヌクレオチド配列を増幅するための少なくとも1つのPCRプライマーは、配列に対して配列特異的である。
【0027】
「テンプレート」という用語は、本明細書の技術における増幅に使用することができる任意の核酸分子を指す。天然には二本鎖でないRNAやDNAを二本鎖DNAとし、鋳型DNAとして用いることができる。複数の異なる二本鎖DNA分子を含む任意の二本鎖DNAまたは調製物を鋳型DNAとして使用して、鋳型DNAに含まれる目的の遺伝子座を増幅することができる。
【0028】
本明細書で使用される場合、「増幅反応」という用語は、核酸を1またはそれを超えてコピーするプロセスを指す。いくつかの実施形態では、増幅方法としては、ポリメラーゼ連鎖反応、自家持続配列反応、リガーゼ連鎖反応、cDNA末端の迅速増幅、ポリメラーゼ連鎖反応およびリガーゼ連鎖反応、Q-ベータファージ増幅、鎖置換増幅、またはスプライスオーバーラップ伸長ポリメラーゼ連鎖反応が挙げられるが、これらに限定されない。いくつかの実施形態では、核酸の単一分子が、例えばデジタルPCRによって増幅される。
【0029】
本明細書で使用される場合、「リード」は、本明細書に記載されるまたは当技術分野で公知の任意のシーケンシングプロセスによって産生される短いヌクレオチド配列である。リードは、核酸断片の一端から生成することができ(「シングルエンドリード」、核酸の両端から生成することもある(「ダブルエンドリード」)。特定の実施形態では、対象からのサンプルの核酸配列リードを「得ること」および/または1またはそれよりも多くの参照者からの生物学的検体の核酸配列リードを「得ること」は、配列情報を得るために核酸を直接シーケンシングすることを含み得る。いくつかの実施形態では、「得ること」は、別のものによって核酸から直接得られた配列情報を受け取ることを含み得る。
【0030】
本明細書で使用される「カットオフ値」または「閾値」という用語は、その値が生体サンプルに対する分類の2またはそれよりも多くの状態(例えば、罹患および非罹患)の間で調停するために使用される数値を意味する。例えば、パラメータがカットオフ値より大きい場合、定量的データの第1の分類が行われ(例えば、胎児無細胞核酸は、母親由来のサンプル中に存在する)、またはパラメータがカットオフ値未満である場合、定量的データの異なる分類が行われる(例えば、胎児特異的無細胞核酸は、母体に由来するサンプル中に存在しない)。
【0031】
特に明記しない限り、「胎児」または「胎児の」という用語は、妊娠中の「母親」または「母体」のヒトまたは動物の胎児を指す。例えば、動物は、哺乳動物、霊長類(例えば、サル)、家畜動物(例えば、ウマ、ウシ、ヒツジ、ブタ、またはヤギ)、コンパニオンアニマル(例えば、イヌ、またはネコ)、実験動物(例えば、マウス、ラット、モルモット、または鳥)、獣医学的意義または経済的意義を有する動物であり得る。「父親」という用語は、起源がヒトまたは動物の父系の親を指す。本明細書で使用される場合、「擬父」または「父親候補者」は、胎児との父系関係について試験されている男性の対象を指す。
【0032】
「予想対立遺伝子頻度」という用語は、単一の二倍体ゲノムを有する個体の群、例えば妊娠していない女性において観察される対立遺伝子頻度を指す。場合によっては、予想対立遺伝子頻度は、個体群における対立遺伝子頻度の中央値または平均である。予想対立遺伝子頻度は、典型的には、ヘテロ接合の場合は約0.5、代替対立遺伝子のホモ接合の場合は約0、参照対立遺伝子のホモ接合の場合は約1である。胎児と母親が同じ遺伝子型である場合、妊娠中の母親からのサンプルにおける対立遺伝子頻度は、予想対立遺伝子頻度に等しい。
【0033】
「父性」という用語は、胎児または子供についての父親または男親の同一性を指す。いくつかの実施形態では、胎児または子供の父性は、1またはそれよりも多くの父親候補者の間で決定される。
【0034】
1またはそれよりも多くの「予測アルゴリズム」を使用して、互いに独立してまたは依存して重み付けすることができる可変条件下で収集された検出データの有意性を決定するか、または意味を与えることができる。本明細書で使用される場合、「変数」という用語は、値または値のセットを有するアルゴリズムの係数、量、または関数を指す。例えば、変数は、増幅された核酸種のセットの設計、増幅された核酸種のセットの数、試験された胎児の遺伝的寄与のパーセント、または試験された母体の遺伝的寄与のパーセントであり得る。本明細書で使用される場合、「独立して」という用語は、別のものによって影響されていないまたは制御されていないことを指す。本明細書で使用される「依存して」という用語は、別のものによって影響または制御されることを指す。そのような予測アルゴリズムは、本明細書でより詳細に開示されるように、コンピュータを使用して実施することができる。
【0035】
当業者は、許容され得る感度および/または特異性の範囲内で本技術のデータに有意性を与えるために、任意のタイプの方法または予測アルゴリズムを使用することができる。例えば、カイ二乗検定、z検定、t検定、ANOVA(分散分析)、回帰分析、ニューラルネット、ファジー論理、隠れマルコフモデル、マルチモデル状態推定等の予測アルゴリズムを用いてもよい。1またはそれよりも多くの方法または予測アルゴリズムは、本技術の異なる独立変数および/または従属変数を有するデータに有意性を与えるように、決定することができる。また、1またはそれよりも多くの方法または予測アルゴリズムは、本技術の異なる独立変数および/または従属変数を有するデータに有意性を与えないように決定されてもよい。1またはそれよりも多くの予測アルゴリズム(例えば、分析されたセットの数、各セットにおけるヌクレオチド種のタイプ)の結果に基づいて、本明細書に記載の方法の異なる変数のパラメータを設計または変更することができる。例えば、検出データにカイ二乗検定を適用することは、胎児特異的無細胞核酸の特定の範囲が、父性を確認するより高い可能性と相関することを示唆し得る。
【0036】
特定の実施形態では、いくつかのアルゴリズムを選択して試験することができる。これらのアルゴリズムを生データで訓練することができる。新しい生データサンプルごとに、訓練されたアルゴリズムはそのサンプルに分類(例えば、予測される父性同一性)を割り当てる。新たな生データサンプルの分類に基づいて、訓練されたアルゴリズムの性能は、感度および特異性に基づいて評定され得る。最後に、最も高い感度および/または特異度またはそれらの組み合わせを有するアルゴリズムを特定することができる。
【0037】
詳細な説明
概要
本技術は、妊娠中の母親からの血液中に見出される胎児DNAを非侵襲的手段として解析し、胎児の父性を判定することに関する。本開示は、母体サンプル中に存在する胎児由来の1またはそれよりも多くの無細胞核酸の量を検出する方法を提供する。
【0038】
いくつかの実施形態では、胎児の遺伝子型は、妊娠中の母親から単離された無細胞核酸中の胎児特異的核酸の量に基づいて決定される。母親、胎児、および擬父の遺伝子型を比較および分析して、擬父が胎児の生物学的父親である可能性を判定する。胎児特異的核酸は、1またはそれよりも多くの有益な多型核酸標的に対する胎児特異的対立遺伝子の測定に基づいて定量される。以下に記載されるように、種々のアプローチを使用して有益な多型核酸標的を選択することができる。いくつかの実施形態では、多型核酸標的は、表1または表5から選択される一塩基変異体である。この方法は、典型的には、1000SNV未満のSNVのパネルを使用し、これは費用効果が高く、作業フローを単純化する。さらに、様々な工程は、ノイズを低減するために使用される。例えば、この方法は、集団全体で高い出現率を有する低いバックグラウンドを有するSNVのみに焦点を合わせる。場合によっては、本方法は、QCモニタとして含めるための総コピー数競争相手を組み込む。いくつかの実施形態では、本方法は、ゲノム母体DNAが利用できない場合に、ユーザが母体サンプルの遺伝子型を推測することを可能にするコンピュータアルゴリズムを使用する。
【0039】
したがって、本明細書に開示される方法は、胎児の父性を簡便かつ正確に判定するために使用することができる。
【0040】
具体的な実施形態
本明細書における技術の実施は、分子生物学の分野における日常的な技術を利用する。本明細書の技術における一般的な使用方法を開示する基本的な文章としては、SambrookおよびRussell,Molecular Cloning,A Laboratory Manual(3rd ed.2001);Kriegler,Gene Transfer and Expression:A Laboratory Manual(1990);およびCurrent Protocols in Molecular Biology(Ausubelら、eds.,1994))が挙げられる。
【0041】
核酸の場合、サイズはキロベース(kb)または塩基対(bp)のいずれかで与えられる。これらは、アガロースまたはアクリルアミドゲル電気泳動、配列決定された核酸、または公開されたDNA配列に由来する推定値である。タンパク質の場合、サイズはキロダルトン(kDa)またはアミノ酸残基数で与えられる。タンパク質サイズは、ゲル電気泳動、配列決定されたタンパク質、由来するアミノ酸配列、または公開されたタンパク質配列から推定される。
【0042】
市販されていないオリゴヌクレオチドは、例えば、Beaucage&Caruthers,Tetrahedron Lett.22:1859-1862(1981)によって最初に記載された固相ホスホラミダイトトリエステル法に従って、Van Devanter et.al.,Nucleic Acids Res.12:6159-6168(1984)に記載されている自動合成器を使用して化学的に合成することができる。オリゴヌクレオチドの精製は、任意の当技術分野で認識されている戦略、例えば、Pearson&Reanier,J.Chrom.255:137-149(1983)に記載される天然アクリルアミドゲル電気泳動またはアニオン交換高速液体クロマトグラフィー(HPLC)を用いて行われる。
【0043】
サンプル
核酸を分析するための方法および組成物が本明細書で提供される。いくつかの実施形態では、核酸断片の混合物中の核酸断片が分析される。核酸の混合物は、異なるヌクレオチド配列、異なる断片長、異なる起源(例えば、ゲノム起源、胎児起源対母体起源、細胞起源または組織起源、サンプル起源、対象起源等)、またはそれらの組み合わせを有する2またはそれよりも多くの核酸断片種を含むことができる。
【0044】
本明細書に記載の方法および装置で利用される核酸または核酸混合物は、対象から得られたサンプルから単離されることが多い。対象は、ヒト、非ヒト動物を含むがこれらに限定されない任意の生物または非生物であり得る。哺乳動物、爬虫類、鳥類、両生類、魚、有蹄動物、反芻動物、ウシ属(例えば、ウシ)、ウマ科(例えば、ウマ)、ヤギ(caprine)およびヒツジ(ovine)(例えば、ヒツジ(sheep)、ヤギ(goat))、ブタ(swine)(例えば、ブタ(pig))、ラクダ類(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(ursid)(例えば、クマ(bear))、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラおよびサメを含むがこれらに限定されない、任意のヒトまたは非ヒト動物を選択することができる。対象は男性であっても女性であってもよい。
【0045】
核酸は、任意の種類の適切な生物学的検体またはサンプルから単離され得る。サンプルの非限定的な例としては、当技術分野で十分に確立されたプロトコルを使用して、組織、体液(例えば、血液、血清、血漿、唾液、尿、涙、腹腔水、腹水、膣分泌物、乳汁、母乳、リンパ液、脳脊髄液または粘膜分泌物)、リンパ液、脳脊髄液、粘膜分泌物、または他の身体滲出物、糞便(例えば、便)、その核酸を含有するそのような供給源の個々の細胞または抽出物、およびミトコンドリア等の細胞内構造物が挙げられる。本明細書で使用される場合、「血液」という用語は、例えば、従来定義されているような血清および血漿等の全血または血液の任意の画分を包含する。血漿とは、抗凝固剤で処置した血液の遠心分離から生じる全血の画分を指す。血清とは、血液サンプルが凝固した後に残っている液体の水様部分を指す。流体または組織サンプルは、病院または診療所が一般に従う標準的なプロトコルに従って収集されることが多い。血液の場合、適切な量の末梢血(例えば、3~40ミリリットルの間)がしばしば採取され、さらなる調製の前に標準的な手順に従って保存することができる。核酸が抽出される流体または組織サンプルは、無細胞であり得る。いくつかの実施形態では、体液または組織サンプルは、細胞要素または細胞残存物を含み得る。いくつかの実施形態では、胎児細胞または癌細胞がサンプルに含まれ得る。
【0046】
サンプルは不均一であることが多く、これはサンプル中に2種類を超える核酸種が存在することを意味する。例えば、異種核酸サンプルは、(i)胎児由来および母親由来の核酸、(ii)癌および非癌核酸、(iii)病原体および宿主核酸、より一般的には、(iv)変異したおよび野生型核酸を含み得るが、これらに限定されない。サンプルは、胎児細胞および母体細胞、癌および非癌細胞、または病原性および宿主細胞等の複数の細胞型が存在するため、不均一であり得る。いくつかの実施形態では、少数核酸種および多数核酸種が存在する。
【0047】
本明細書中に記載される方法は、出生後(誕生後)または出生前(分娩前)のサンプルに対する父子判定のために使用され得る。出生前検査のため、妊娠中、第1期、第2期、または第3期の1またはそれよりも多くの時点でサンプルを採取することができる。いくつかの実施形態では、時点は、受胎後少なくとも1ヶ月、例えば、受胎後少なくとも2ヶ月、少なくとも3ヶ月、少なくとも4ヶ月、少なくとも5ヶ月、少なくとも6ヶ月、少なくとも7ヶ月、少なくとも8ヶ月である。場合によっては、妊娠初期に採取された1つのサンプルの実父確定検査が不確定である場合、妊娠後期に1またはそれよりも多くの追加のサンプルを採取することができる。
【0048】
いくつかの実施形態では、母親の遺伝子型は、サンプル、例えば口腔スワブまたはバフィーコートからのゲノムDNA中の多型核酸標的のシーケンシングから決定することができる。
【0049】
サンプル
本明細書に開示される父子判定試験では、様々なサンプルが使用される。胎児遺伝子型は、例えば、妊娠中の母親由来の血漿、血液、血清サンプルを使用して決定される。これらのサンプルは、胎児の遺伝子型を決定するために、以下に開示されるように無細胞核酸を産生するように処理される。擬父の遺伝子型は、擬父由来の任意の組織/細胞または体液、例えば頬側スワブから決定することができる。必要に応じて、母体DNA(すなわち、サンプルは胎児DNAを含まない)のみを含有する任意の組織/細胞または体液、例えば頬側細胞またはバフィーコートを使用して、母親の遺伝子型を決定することもできる。場合によっては、母体のゲノムDNAおよび無細胞DNAは、妊娠中の母親から得られた同じ血液サンプルから得られる:血液サンプルの1つの画分を処理して、胎児の遺伝子型決定のために無細胞DNAを抽出し(extrace)、別の画分を処理して、母体の遺伝子型決定のためにゲノムDNAを抽出する(
図1を参照)。
【0050】
血液サンプル
対象からの血液の収集は、病院または診療所が一般に従う標準プロトコルに従って行うことができる。適切な量の末梢血、例えば、典型的には5~50mlの間が収集され、さらなる調製の前に標準的な手順に従って保存され得る。血液サンプルは、サンプル中に存在する核酸の分解または品質を最小限に抑えるために、当業者に公知の方法で収集、保存または輸送され得る。
【0051】
血清サンプルまたは血漿サンプル
いくつかの実施形態では、サンプルは血清サンプルまたは血漿サンプルである。レシピエント血液から血清または血漿を調製する方法は、当業者に周知である。例えば、妊娠中の母親の血液を、EDTAまたはVacutainer SST(Becton Dickinson、ニュージャージー州フランクリンレイクス)等の特殊な市販品を含むチューブに入れて血液凝固を防ぐことができ、次いで、遠心分離によって全血から血漿を得ることができる。一方、血清は、遠心分離後の血液凝固の有無にかかわらず得ることができる。遠心分離が使用される場合、それは、排他的ではないが、典型的には、適切な速度、例えば、1,500~3,000回gで行われる。血漿または血清は、DNA抽出のために新しいチューブに移す前に、追加の遠心分離工程に供され得る。
【0052】
対象から得た血液(例えば、妊娠中の母親または擬父)から血清または血漿を調製する方法は公知である。例えば、対象の血液(例えば、妊娠中の母親の血液)を、EDTAまたはVacutainer SST(Becton Dickinson、ニュージャージー州フランクリンレイクス)等の特殊な市販品を含むチューブに入れて血液凝固を防ぐことができ、次いで、遠心分離によって全血から血漿を得ることができる。血清は、遠心分離後の血液凝固の有無にかかわらず得ることができる。遠心分離が使用される場合、次いで、排他的ではないが、典型的には、適切な速度、例えば、1,500~3,000回gで行われる。血漿または血清は、核酸抽出のために新しいチューブに移す前に、追加の遠心分離工程に供され得る。全血の無細胞部分に加えて、対象からの全血サンプルの遠心分離および血漿の除去後に得ることができるバフィーコート部分が濃縮された細胞画分から核酸を回収することもできる。
【0053】
細胞核酸の単離および処理
生体サンプルからDNAを抽出するための様々な方法が知られており、父性を判定する方法に使用することができる。DNA調製の一般的な方法(例えば、SambrookおよびRussell,Molecular Cloning:A Laboratory Manual 3d ed.,2001に記載される)に従うことができ、様々な市販の試薬またはキット、例えばQiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini KitまたはQiaAmp DNA Blood Mini Kit(Qiagen、ドイツ国ヒルデン)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、ウィスコンシン州マディソン)、およびGFX(商標)ゲノム血液DNA精製キット(Amersham、ニュージャージー州ピスカタウェイ)も対象からの血液サンプルからDNAを得るために使用することができる。これらの方法の2つを超える組み合わせを使用することもできる。
【0054】
場合によっては、サンプルからの細胞核酸を単離する。細胞を含有するサンプルは、典型的には、細胞核酸を単離するために溶解される。細胞溶解手順および試薬は当技術分野で公知であり、一般に化学的、物理的、または電解溶解の方法によって実施することができる。例えば、化学的方法は、一般に、溶解剤を使用して細胞を破壊し、細胞から核酸を抽出し、続いてカオトロピック塩で処置する。凍結/解凍、その後の粉砕、セルプレスの使用等の物理的方法も有用である。高塩溶解手順も一般的に使用される。例えば、アルカリ溶解手順を利用することができる。後者の手順は、従来からフェノール-クロロホルム溶液の使用を組み込んでおり、3つの溶液を含む代替的なフェノール-クロロホルムを含まない手順を利用することができる。後者の手順では、1つの溶液は15mM Tris、pH8.0;10mM EDTAおよび100ug/ml Rnase Aを含むことができ、第2の溶液は、0.2N NaOHおよび1%SDSを含むことができ、第3の溶液は、3M KOAc(pH5.5)を含むことができる。これらの手順は、その全体が本明細書に組み込まれるCurrent Protocols in Molecular Biology,John Wiley&Sons,N.Y.,6.3.1-6.3.6(1989)に見出すことができる。
【0055】
妊娠中の母親からの無細胞DNAの単離
いくつかの実施形態では、無細胞核酸をサンプルから単離する。「無細胞DNA」という用語は、「無細胞循環核酸」または「細胞外核酸」とも呼ばれ、検出可能な細胞を有しない供給源から単離された核酸を指すが、供給源は細胞要素または細胞残存物を含み得る。本明細書で使用される場合、「無細胞循環サンプル核酸を得る」という用語は、サンプルを直接得ること(例えば、サンプルを収集すること)、またはサンプルを収集した別の者からサンプルを得ることを含む。理論によって限定されるものではないが、細胞外核酸は、細胞アポトーシスおよび細胞破壊の産物であり得、これは、しばしばスペクトルにわたって一連の長さを有する細胞外核酸の基礎を提供する(例えば、「ラダー」)。
【0056】
妊娠中の母親から単離された無細胞核酸は、異なる核酸種を含むことができ、したがって、特定の実施形態では、本明細書では「異種」と呼ばれる。例えば、妊娠中の母親由来の血清または血漿は、母体無細胞核酸(母体特異的核酸とも呼ばれる)および胎児無細胞核酸(胎児特異的核酸とも呼ばれる)を含み得る。場合によっては、胎児無細胞核酸は、全無細胞核酸の約1%~約50%であることがある(例えば、全無細胞核酸の約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48または49%が胎児特異的核酸である)。いくつかの実施形態では、試験サンプル中の胎児無細胞核酸の分率は、約20%未満である。いくつかの実施形態では、試験サンプル中の胎児無細胞核酸の分率は、約10%未満である。いくつかの実施形態では、試験サンプル中の胎児無細胞核酸の分率は、約5%未満である。いくつかの実施形態では、核酸中の胎児特異的無細胞核酸の大部分は、約500塩基対またはそれ未満の長さである(例えば、胎児特異的核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約500塩基対またはそれ未満の長さである)。いくつかの実施形態では、核酸中の胎児特異的核酸の大部分は、約250塩基対またはそれ未満の長さである(例えば、胎児特異的核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約250塩基対またはそれ未満の長さである)。いくつかの実施形態では、核酸中の胎児特異的無細胞核酸の大部分は、約200塩基対またはそれ未満の長さである(例えば、胎児特異的核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約200塩基対またはそれ未満の長さである)。いくつかの実施形態では、核酸中の胎児特異的無細胞核酸の大部分は、約150塩基対またはそれ未満の長さである(例えば、胎児特異的無細胞核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約150塩基対またはそれ未満の長さである)。いくつかの実施形態では、胎児特異的無細胞核酸の大部分は、約100塩基対またはそれ未満の長さである(例えば、胎児特異的核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約100塩基対またはそれ未満の長さである)。
【0057】
血液または血清サンプル等の液体生体サンプルから無細胞DNAを単離する方法は周知である。1つの実例では、磁気ビーズを使用してcfDNAを結合し、次いでビーズに結合したcfDNAを洗浄し、磁気ビーズから溶出させる。無細胞DNAを単離する例示的な方法は国際公開第2017074926号に記載されており、その全内容は参照により本明細書に組み込まれる。無細胞DNAを単離するための市販のキット、例えば、MagNA Pure Compact(MPC)Nucleic Acid Isolation Kit I、Maxwell RSC(MR)ccfDNA Plasma Kit、QIAamp Circulating Nucleic Acid(QCNA)キットも利用可能である。
【0058】
場合によっては、無細胞核酸は、異なる妊娠時点で得られたサンプルから単離され得る。胎児特異的対立遺伝子頻度および遺伝子型は、上記のように各時点について決定され、時点間の比較は、胎児遺伝子型を確認することができることが多い。核酸は、サンプルからの核酸分子の核酸精製または単離および/または増幅の結果であり得る。本明細書に記載されるプロセスのために提供される核酸は、1つのサンプルまたは2またはそれよりも多くのサンプル(例えば、1またはそれよりも多くの、2またはそれよりも多くの、3またはそれよりも多くの、4またはそれよりも多くの、5またはそれよりも多くの、6またはそれよりも多くの、7またはそれよりも多くの、8またはそれよりも多くの、9またはそれよりも多くの、10またはそれよりも多くの、11またはそれよりも多くの、12またはそれよりも多くの、13またはそれよりも多くの、14またはそれよりも多くの、15またはそれよりも多くの、16またはそれよりも多くの、17またはそれよりも多くの、18またはそれよりも多くの、19またはそれよりも多くの、または20またはそれよりも多くのサンプル)からの核酸を含み得る。いくつかの実施形態では、プールされたサンプルは、同じ患者、例えば妊娠中の母親に由来し得るが、異なる時点で採取されるか、または異なる組織型である。いくつかの実施形態では、プールされたサンプルは、異なる患者に由来し得る。以下にさらに記載されるように、いくつかの実施形態では、サンプルの供給源を区別するために、1またはそれよりも多くのサンプルのそれぞれに由来する核酸に識別子が結合される。
【0059】
特定の実施形態では、核酸を含有するサンプル(複数可)を処理することなく、本明細書に記載の方法を実施するために核酸を提供することができる。いくつかの実施形態では、核酸は、核酸を含有するサンプル(複数可)の処理後に本明細書に記載の方法を実施するために提供される。例えば、核酸は、サンプル(複数可)から抽出、単離、精製または増幅され得る。本明細書で使用される「単離された」という用語は、その元の環境(例えば、天然に存在する場合は天然環境、または外因的に発現される場合は宿主細胞)から除去された核酸を指し、したがって、その元の環境からの人の介入によって(例えば、「人の手によって」)変更される。単離された核酸には、供給源サンプル中に存在する成分の量よりも少ない非核酸成分(例えば、タンパク質、脂質)が提供される。単離された核酸を含む組成物は、非核酸成分を約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%若しくは99%またはそれを超えて含まないものであり得る。本明細書で使用される場合、「精製された」という用語は、核酸が由来するサンプル源よりも少ない核酸種を含む提供される核酸を指す。核酸を含む組成物は、他の核酸種を約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%もしくは99%またはそれを超えて含まないものであり得る。本明細書で使用される場合、「増幅された」という用語は、サンプルの核酸を、サンプル中の核酸のヌクレオチド配列もしくはその一部と同じ、または実質的に同じヌクレオチド配列を有するアンプリコン核酸を、直線的または指数関数的に生成するプロセスに供することを指す。
【0060】
核酸は、一本鎖または二本鎖であり得る。一本鎖DNAは、例えば、加熱によりまたはアルカリ処置により、二本鎖DNAを変性させることによって生成することができる。場合によっては、核酸は、オリゴヌクレオチドまたはペプチド核酸(PNA)等のDNA様分子による二重鎖DNA分子の鎖侵入によって形成されるDループ構造である。Dループ形成は、例えば当技術分野で公知の方法を使用して、大腸菌(E.Coli)RecAタンパク質の添加および/または塩濃度の変化によって促進することができる。場合によっては、核酸は、当技術分野で公知の物理的方法または酵素的方法のいずれかを使用して断片化され得る。
【0061】
DNA標的配列
本明細書で提供される方法のいくつかの実施形態では、1またはそれよりも多くの核酸種、および時には1またはそれよりも多くのヌクレオチド配列種が、増幅および定量のために標的化される。いくつかの実施形態では、標的核酸はゲノムDNA配列である。例えば、特定のDNA標的配列は、所与のアッセイの特定の特徴の決定を可能にすることができるので、特定のDNA標的配列が使用される。DNA標的配列は、本明細書では所与のアッセイのマーカーと呼ぶことができる。場合によっては、標的配列は多型性であり、例えば、本明細書中に記載されるような1またはそれよりも多くのSNVである。いくつかの実施形態では、2つを超えるDNA標的配列またはマーカーは、所与のアッセイの特定の特徴の決定を可能にすることができる。そのようなゲノムDNA標的配列は、特定の「領域」のものであると考えられる。本明細書で使用される場合、「領域」は、特定の染色体、染色体DNAのストレッチまたは遺伝子座等のゲノム位置の説明に限定されることを意図しない。むしろ、「領域」という用語は、本明細書では、特定のアッセイを示すことができる1またはそれよりも多くのゲノムDNA標的配列またはマーカーの集合を同定するために使用される。そのようなアッセイとしては、限定されないが、胎児特異的核酸の検出および定量のためのアッセイ、母体核酸の検出および定量のためのアッセイ、全DNAの検出および定量のためのアッセイ、メチル化DNAの検出および定量のためのアッセイ、1またはそれよりも多くの父親候補者由来のDNAの検出および定量のためのアッセイ、ならびに消化効率の指標としての消化および/または未消化DNAの検出および定量のためのアッセイを挙げることができる。いくつかの実施形態では、ゲノムDNA標的配列は、特定のゲノム遺伝子座内にあると記載される。本明細書で使用される場合、ゲノム遺伝子座は、オープンリーディングフレームDNA、非転写DNA、イントロン配列、エクソン配列、プロモーター配列、エンハンサー配列、フランキング配列、または所与のゲノム遺伝子座と関連すると当業者によって考えられる任意の配列のいずれかまたは組み合わせを含み得る。
【0062】
いくつかの実施形態では、サンプルは、最初に、1またはそれよりも多くの方法によって胎児特異的核酸について濃縮または相対的に濃縮され得る。例えば、胎児および母体DNAの識別は、本技術の組成物およびプロセスを単独で、または他の識別因子と組み合わせて使用して行うことができる。これらの因子の例には、ゲノム内に位置する多型間の一塩基差異が含まれるが、これらに限定されない。
【0063】
核酸の特定の種についてサンプルを濃縮するための他の方法は、2007年5月30日に出願されたPCT特許出願番号PCT/US07/69991号、2007年6月15日に出願されたPCT特許出願番号PCT/US2007/071232号、米国仮出願番号60/968,876号および60/968,878号(2005年11月28日に出願されたPCT特許出願番号PCT/EP05/012707号)に記載されており、これらは全て参照により本明細書に組み込まれる。特定の実施形態では、レシピエント核酸は、サンプルから選択的に(部分的に、実質的に、ほぼ完全に、または完全に)除去される。
【0064】
胎児特異的無細胞核酸含有量を決定するための方法
いくつかの実施形態では、サンプル中の胎児特異的無細胞核酸の量が決定される。場合によっては、胎児特異的核酸の量は、本明細書に記載の配列リードカウントの定量に基づいて決定される。定量は、特定の標的部位をカバーする配列リードの直接カウントによって、または競合的PCR(すなわち、本明細書中に記載される既知量の競合オリゴヌクレオチドの共増幅)によって達成され得る。核酸に関して本明細書で使用される場合、「量」という用語は、限定されるものではないが、絶対量(例えば、コピー数)、相対量(例えば、分率または比)、重量(例えば、グラム)、および濃度(例えば、単位体積当たりのグラム数(例えば、ミリリットル);モル単位)を含む任意の適切な測定値を指す。本明細書で使用される場合、何かの判定等の動作が何か「によって」、「に従って」または「に基づいて」「誘発される」場合、これは、その動作が、何かの少なくとも一部に従って、または少なくとも一部に基づいて誘発されることを意味する。
【0065】
いくつかの実施形態では、胎児特異的無細胞核酸の相対量または割合は、多型配列の対立遺伝子比に従って、または母体核酸ではなく胎児特異的核酸に特異的な1またはそれよりも多くのマーカーに従って決定される。場合によっては、サンプル中の全無細胞核酸に対する胎児特異的無細胞核酸の量を「胎児特異的核酸分率」と呼ぶ。
【0066】
多形に基づくドナー数量(quantifier)アッセイ
胎児特異的核酸含有量(例えば、胎児特異的核酸分率)の決定は、本明細書中に記載されるように、多型に基づく胎児定量アッセイを使用して行われるときがある。このタイプのアッセイは、多型核酸標的配列(例えば、単一ヌクレオチド変異体(SNV))の対立遺伝子比に基づいて、妊娠中の母親由来のサンプル中の胎児特異的核酸の検出および定量を可能にする。
【0067】
場合によっては、胎児特異的対立遺伝子は、例えば、母体核酸による混合物への主要な寄与と比較した場合、サンプル中の胎児および母体の無細胞核酸の混合物へのそれらの相対的なわずかな寄与によって同定される。場合によっては、胎児特異的対立遺伝子は、以下に記載されるように、予想対立遺伝子頻度からの無細胞核酸全体における測定対立遺伝子頻度の偏差によって同定される。場合によっては、母体サンプル中の胎児特異的無細胞核酸の相対量は、多型部位の2つの対立遺伝子(参照対立遺伝子および代替対立遺伝子)のそれぞれについて、参照ゲノム上の標的核酸配列にマッピングされたユニーク配列リードの総数のパラメータとして決定することができる。場合によっては、母体サンプル中の胎児特異的無細胞核酸の相対量を、濃縮サンプルからの各対立遺伝子に対する配列リードの相対数のパラメータとして決定することができる。
【0068】
多型核酸標的の選択
いくつかの実施形態では、多型核酸標的は、以下のうちの1または複数である:(i)単一ヌクレオチド変異体(SNV);(ii)挿入/欠失多型、(iii)制限断片長多型(RFLP)、(iv)ショートタンデムリピート(STR)、(v)可変数タンデムリピート(VNTR)、(vi)コピー数変異体、(vii)挿入/欠失変異体、または(viii)それらの(i)~(vii)のいずれかの組み合わせ。
【0069】
多型マーカーまたは多型部位は、多様化が起こる場所である。多形形態はまた、遺伝子についての異なる対立遺伝子として現れる。いくつかの実施形態では、多型核酸標的には2つの対立遺伝子があり、これらの多型核酸標的は二対立遺伝子多型核酸標的と呼ばれる。いくつかの実施形態では、多型核酸標的に対して3つ、4つ、またはそれよりも多くの対立遺伝子が存在する。
【0070】
いくつかの実施形態では、これらの対立遺伝子のうちの1つは、参照対立遺伝子と称され、他のものは、代替対立遺伝子と称される。多型は、タンパク質の違い、タンパク質修飾、RNA発現修飾、DNAおよびRNAメチル化、遺伝子発現およびDNA複製を変化させる調節因子、ならびにゲノム核酸または細胞小器官核酸における変化の任意の他の発現によって観察することができる。
【0071】
多数の遺伝子が多型領域を有する。個体は多型領域のいくつかの対立遺伝子変異体のいずれか1つを有するため、遺伝子の多型領域の対立遺伝子変異体のタイプに基づいて個体を同定することができる。これは、例えば、法医学目的または家族関係を特定するために使用することができる。例えば、胎児の父性(すなわち、父系の親の起源または父親の同一性)は、胎児の対立遺伝子変異体を1またはそれよりも多くの父親候補者の対立遺伝子変異体と比較することによって決定することができる。他の状況では、個体が有する対立遺伝子変異体の同一性を知ることが重要である。例えば、特定の遺伝子、例えば、主要組織適合遺伝子複合体(MHC)遺伝子における対立遺伝子の相違は、骨髄移植における移植片拒絶または移植片対宿主病に関与する。したがって、遺伝子または遺伝子病変の多型領域の対立遺伝子変異体の同一性を決定するための迅速、高感度、かつ正確な方法を開発することが非常に望ましい。
【0072】
いくつかの実施形態では、多型核酸標的は、一塩基変異体(SNV)である。単一ヌクレオチド変異体(SNV)は、一般に二対立遺伝子系であり、すなわち、個体が任意の特定のマーカーについて有することができる2つの対立遺伝子があり、その一方は参照対立遺伝子と呼ばれ、他方は代替対立遺伝子と呼ばれる。これは、10を超える対立遺伝子を有し得るマイクロサテライトマーカーと比較した場合、SNVマーカーあたりの情報含有量が比較的低いことを意味する。SNVはまた、非常に集団特異的である傾向があり、ある集団において多型であるマーカーは、別の集団においてあまり多型ではないときがある。ほぼ全てのキロベース(Wang et al.(1998)Science 280:1077-1082を参照)で見られるSNVは、非常に高密度の遺伝子マップを生成する可能性を提供し、これは目的の遺伝子または領域のハプロタイプシステムを開発するのに非常に有用であり、SNVの性質のため、実際に研究中の疾患表現型に関連する多型であり得る。SNVの低い突然変異率はまた、SNVを複雑な遺伝的形質を研究するための優れたマーカーにする。
【0073】
ゲノミクスの焦点の多くは、様々な理由で重要であるSNVの同定に向けられてきた。SNVは、間接的検査(ハプロタイプの関連)および直接的検査(機能的変異体)を可能にする。SNVは、最も豊富で安定した遺伝子マーカーである。一般的な疾患は、一般的な遺伝子変化によって最もよく説明され、ヒト集団の自然変異は、疾患、治療および環境相互作用を理解するのを助ける。
【0074】
いくつかの実施形態では、多型核酸マーカー標的は、表1または表5の少なくとも1、2、3、4またはそれよりも多くのSNVを含む。これらのSNVは、集団内の個体に頻繁に発生する代替対立遺伝子を有する。同様に、これらのSNVは多様であり、複数の集団に存在する。情報分析は、オフターゲット非特異的増幅の可能性が低いこれらのSNVに特異的な核酸プライマーを設計する可能性を示している。
【表1-1】
【表1-2】
【表1-3】
【0075】
いくつかの実施形態では、父性を判定するために選択される多型核酸標的は、表1(パネルAおよび/またはパネルB)または表5の多型核酸標的のいずれかの組み合わせである。
【0076】
複数の多型核酸標的は、コレクションまたはパネル(例えば、ターゲットパネル、SNVパネル、SNVコレクション)と呼ばれることがある。場合によっては、パネルは、2個~1000個、例えば、10個~1000個、50個~800個、または100個~500個、または150個~300個の多型核酸標的を含む。複数の多形体標的は、2またはそれよりも多くの標的を含むことができる。例えば、複数の多型標的は、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000個またはそれよりも多くの標的を含み得る。
【0077】
場合によっては、10またはそれよりも多くの多型核酸標的が、本明細書中に記載される方法を使用して濃縮される。場合によっては、50またはそれよりも多くの多型核酸標的が濃縮される。場合によっては、100またはそれよりも多くの多型核酸標的が濃縮される。場合によっては、500またはそれよりも多くの多型核酸標的が濃縮される。場合によっては、約10~約500個の多型核酸標的が濃縮される。場合によっては、約20~約400個の多型核酸標的が濃縮される。場合によっては、約30~約200個の多型核酸標的が濃縮される。場合によっては、約40~約100個の多型核酸標的が濃縮される。場合によっては、約60~約90個の多型核酸標的が濃縮される。例えば、一定の実施形態では、約60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89または90個の多型核酸標的が濃縮される。
【0078】
有益な多型核酸標的の同定
いくつかの実施形態では、複数の多型核酸標的のうちの少なくとも1つの多型核酸標的は、所与のサンプル中の胎児特異的核酸分率を決定および/また父性を判定するのに有益である。胎児特異的核酸分率を決定および/または父性を判定するために有益である多型核酸標的は、有益な標的または有益な多型(例えば、有益なSNV)と呼ばれることもあり、典型的には胎児と母親との間でいくつかの態様で異なる。例えば、有益な標的は、胎児に対して1つの対立遺伝子を有し、母親に対して異なる対立遺伝子を有し得る(例えば、母親は多型標的に対立遺伝子Aを有し、胎児は多型標的部位に対立遺伝子Bを有する)。
【0079】
場合によっては、多型核酸標的は、特定の胎児/母親の遺伝子型の組み合わせの状況において有益である。二対立遺伝子多型標的(すなわち、2つの可能な対立遺伝子(例えば、AおよびB(Aは参照対立遺伝子であるか、Bは代替対立遺伝子であるか、またはその逆である))について、可能な胎児/母体遺伝子型の組み合わせには、以下が含まれる:1)母親AA、胎児AA;2)母親AA、胎児AB;3)母親AB、胎児AA;4)母親AB、胎児AB;5)母親AB;胎児BB;6)母親BB、胎児AB;7)母親BB、胎児BB。場合によっては、有益な遺伝子型の組み合わせ(すなわち、胎児特異的核酸分率を決定および/または父性を判定するために有益であり得る多型核酸標的の遺伝子型の組合せ)は、母親がホモ接合であり、胎児がヘテロ接合である組み合わせ(例えば、母AA、胎児AB;または母BB、胎児AB)を含む。そのような遺伝子型の組み合わせは、タイプ1の有益な遺伝子型と呼ばれることがある。場合によっては、有益な遺伝子型の組み合わせ(すなわち、胎児特異的核酸分率を決定および/または父性を判定するために有益であり得る多型核酸標的の遺伝子型の組合せ)は、母親がヘテロ接合であり、胎児がホモ接合である組み合わせ(例えば、母AB、胎児AA;または母AB、胎児BB)を含む。そのような遺伝子型の組み合わせは、タイプ2の有益な遺伝子型と呼ばれることがある。場合によっては、有益でない遺伝子型の組み合わせ(すなわち、胎児特異的核酸分率を決定および/または父性を判定するために有益でない可能性がある多型核酸標的に対する遺伝子型の組合せ)は、母親がヘテロ接合であり、胎児がヘテロ接合である組み合わせ(例えば、母親AB、胎児AB)を含む。そのような遺伝子型の組み合わせは、有益でない遺伝子型または有益でないヘテロ接合体と呼ばれることがある。場合によっては、有益でない遺伝子型の組み合わせ(すなわち、胎児特異的核酸分率を決定および/または父性を判定するために有益でない可能性がある多型核酸標的に対する遺伝子型の組合せ)は、母親がホモ接合であり、胎児がホモ接合である組み合わせ(例えば、母AA、胎児AA;または母BB、胎児BB)を含む。そのような遺伝子型の組み合わせは、有益でない遺伝子型または有益でないホモ接合体と呼ばれることがある。いくつかの実施形態では、多型核酸標的に対する母親の遺伝子型は、妊娠前に決定される。いくつかの実施形態では、多型核酸標的に対する母親の遺伝子型は、胎児核酸を含まないサンプル(例えば、本明細書に記載の血液バフィーコート画分または頬側スワブサンプルに由来する核酸)から決定される。胎児特異的無細胞核酸の存在は、上記のように有益な多型核酸標的を選択し、本明細書に記載のアッセイを使用して多型核酸標的の胎児特異的対立遺伝子を検出および/または定量することによって容易に決定することができる。
【0080】
いくつかの実施形態では、個々の多型核酸標的および/または多型核酸標的のパネルは、例えば、マイナー対立遺伝子頻度、分散、分散係数、MAD値等の特定の基準に基づいて選択される。場合によっては、多型核酸標的は、多型標的のパネル内の少なくとも1つの多型核酸標的が、試験されるサンプルの大部分について有益である高い確率を有するように選択される。さらに、場合によっては、少なくとも1つの多型核酸標的が、試験されるサンプルの大部分について有益である高い確率を有するように、多型核酸標的の数(すなわち、パネル内のターゲットの数)が選択される。例えば、より多数の多型標的の選択は、一般に、少なくとも1つの多型核酸標的が試験されたサンプルの大部分で有益である確率を高める。場合によっては、多型核酸標的およびその数(例えば、濃縮のために選択された多型標的の数)は、サンプルの少なくとも約80%~約100%について胎児特異的核酸分率を決定および/または父性を判定するのに有益な少なくとも約2~約50個またはそれよりも多くの多型核酸標的をもたらす。例えば、多型核酸標的およびその数は、少なくとも約5、10、15、20、25、30、35、40、45、50またはそれよりも多くの多型核酸標的が、サンプルの少なくとも約81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%について胎児特異的核酸分率を決定を決定および/または父性を判定するために有益であることをもたらす。場合によっては、多型核酸標的およびその数は、少なくとも90%のサンプルについて胎児特異的核酸分率を決定および/または父性を判定するために有益である少なくとも5つの多型核酸標的をもたらす。場合によっては、多型核酸標的およびその数は、少なくとも95%のサンプルについて胎児特異的核酸分率を決定および/または父性を判定するために有益である少なくとも5つの多型核酸標的をもたらす。場合によっては、多型核酸標的およびその数は、少なくとも99%のサンプルについて胎児特異的核酸分率を決定および/または父性を判定するために有益である少なくとも5つの多型核酸標的をもたらす。場合によっては、多型核酸標的およびその数は、少なくとも90%のサンプルについて胎児特異的核酸分率を決定および/または父性を判定するために有益である少なくとも10個の多型核酸標的をもたらす。場合によっては、多型核酸標的およびその数は、少なくとも95%のサンプルについて胎児特異的核酸分率を決定および/または父性を判定するために有益である少なくとも10個の多型核酸標的をもたらす。場合によっては、多型核酸標的およびその数は、少なくとも99%のサンプルについて胎児特異的核酸分率を決定および/または父性を判定するために有益である少なくとも10個の多型核酸標的をもたらす。
【0081】
いくつかの実施形態では、個々の多型核酸標的は、マイナー対立遺伝子頻度に部分的に基づいて選択される。場合によっては、約10%~約50%のマイナー対立遺伝子頻度を有する多型核酸標的が選択される。例えば、15~49%の間、例えば20~49%、25~45%、35~49%または40~40%の範囲のマイナー対立遺伝子頻度を有する多型核酸標的。いくつかの実施形態では、多型核酸標的は、約15%、20%、25%、30%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%または49%のマイナー対立遺伝子対立遺伝子頻度を有し、選択される。いくつかの実施形態では、約40%またはそれよりも多くのマイナー対立遺伝子頻度を有する多型核酸標的が選択される。場合によっては、多型核酸標的のマイナー対立遺伝子頻度は、公開されたデータベースから、または参照集団からの研究結果に基づいて同定することができる。
【0082】
高いマイナー対立遺伝子頻度(例えば0.4~0.5)を有する複数の多型核酸標的(例えば、SNV)(例えば100、200、300程度等)のパネルを分析することにより、かなりの数「有益な 」の胎児と母体の遺伝子型の組み合わせ(母体の遺伝子型とは異なる胎児の遺伝子型を有する)が見られ得る。いくつかの実施形態では、パネル中の多型核酸標的の数は、20~10,000の間、例えば30~5000の間、50~950の間、100~500の間、150~400の間、または200~350の間の範囲であり、そこから有益な多型核酸標的を本明細書に開示される方法を用いて決定することができる。いくつかの実施形態では、母親が1つの対立遺伝子についてホモ接合であり、胎児がヘテロ接合である、タイプ1の有益な遺伝子型の多型核酸標的を使用して、背景の母親ホモ接合対立遺伝子頻度に対する分子サンプリングエラーの影響が最小限であることによる対立遺伝子頻度の変化を決定する。いくつかの実施形態では、パネルにおける多型核酸標的の約25%は、母親が1つの参照対立遺伝子または1つの代替対立遺伝子についてホモ接合であり、胎児がヘテロ接合である場合に有益である。
【0083】
いくつかの実施形態では、多型核酸標的は、多型核酸標的を取り囲む領域のGC含有量および多型核酸標的の増幅効率に基づいて選択される。いくつかの実施形態では、GC含有量は、10%~80%、例えば20%~70%、または25%~70%、21%~61%もしくは30%~61%の範囲である。
【0084】
いくつかの実施形態では、個々の多型核酸標的および/または多型核酸標的のパネルは、部分的に、個々の多型標的または多型標的のパネルの分散度に基づいて選択される。分散は、場合によっては、特定の多型標的または多型標的のパネルに特異的であり得、系統的、実験的、手順的、および/または固有の誤差もしくはバイアス(例えば、サンプリングエラー、シーケンシングエラー、PCRバイアス等)に由来し得る。個々の多形標的または多形標的のパネルの分散は、分散を評定するための当技術分野で公知の任意の方法によって決定することができ、例えば、計算された分散、誤差、標準偏差、p値、平均絶対偏差、中央絶対偏差、中央調整偏差(MADスコア)、分散係数(CV)等に関して表すことができる。いくつかの実施形態では、特定のSNV(例えばホモ接合の場合)について測定対立遺伝子頻度分散(すなわち、バックグラウンド対立遺伝子頻度)は、約0.001~約0.01(すなわち、0.1%~約1.0%)であり得る。例えば、測定対立遺伝子頻度分散は、約0.002、0.003、0.004、0.005、0.006、0.007、0.008、または0.009であり得る。場合によっては、測定対立遺伝子頻度分散は約0.007である。
【0085】
場合によっては、ノイズの多い多型標的は、胎児特異的核酸分率を決定および/または父性を判定するために選択された多型核酸標的のパネルから除外される。「ノイズの多い多形標的」または「ノイズの多いSNV」という用語は、(a)分析またはプロットされたときにデータ点(例えば、測定胎児特異的核酸分率、測定対立遺伝子頻度)間に有意な分散を有する標的またはSNV、(b)有意な標準偏差(例えば、1、2、または3標準偏差を超える)を有する標的またはSNV、(c)平均の有意な標準誤差を有する標的またはSNV等、および前述のものの組み合わせを指す。特定の多型標的またはSNVに対するノイズは、出発物質(例えば、核酸サンプル)の量および/または品質に起因して生じるときがあり、配列リードを生成するために使用されるDNAを調製または複製するためのプロセスの一部として生じるときがあり、シーケンシングプロセスの一部として生じるときがある。特定の実施形態では、いくつかの多型標的またはSNVに対するノイズは、PCRに基づく方法を用いて調製されたときに過剰に表される特定の配列から生じる。場合によっては、いくつかの多型標的またはSNVに対するノイズは、例えば、多型標的またはSNVを取り囲んでいるかまたはそれに隣接している特定のヌクレオチド配列および/または塩基組成物等の部位の1またはそれよりも多くの固有の特徴から生じる。約0.005またはそれよりも多くの測定対立遺伝子頻度分散(例えばホモ接合の場合、)を有するSNVは、ノイズが多いと見なされ得る。例えば、約0.006、0.007、0.008、0.009、0.01またはそれよりも多くの測定対立遺伝子頻度分散を有するSNVは、ノイズが多いと考えられ得る。
【0086】
いくつかの実施形態では、父性を決定するために選択された1またはそれよりも多くのSNVの参照対立遺伝子および代替対立遺伝子の組み合わせは、A_G、G_A、C_T、およびT_Cのいずれでもない(最初の文字は参照対立遺伝子を指し、2番目の文字は代替対立遺伝子を指す)。
図8および実施例2に示すように、上記の参照対立遺伝子および代替対立遺伝子の組み合わせを有するSNVは、より高い量のバイアスおよび変動性を示し、したがって、それらは、胎児分率を決定および/または父性を判定するための本明細書に開示される方法における使用に適していない。
【0087】
いくつかの実施形態では、父性を判定するために選択された1またはそれよりも多くのSNVは、以下の基準の1もしくは複数、または全てを満たす:
1.二対立遺伝子。
2.SNVはプライマーアニーリング領域内に位置しない。
3.1000のゲノムプロジェクトにより検証。
4.ref_altの組み合わせは、A_G、G_A、C_T、T_Cのいずれでもない。
5.マイナー対立遺伝子頻度は少なくとも0.3である。
6.増幅された標的領域の配列は独特であり、ゲノムの他の場所では見つけることができない。
【0088】
いくつかの実施形態では、個々の多型標的または多型標的のパネルの分散は、分散係数(CV)を使用して表すことができる。分散係数(すなわち、標準偏差を平均で割ったもの)は、例えば、母体特異的核酸および胎児特異的核酸を含む単一の母体サンプルのいくつかのアリコートについて胎児特異的核酸分率を決定し、平均胎児特異的核酸分率および標準偏差を計算することによって決定することができる。場合によっては、0.30またはそれ未満の変動係数(CV)で胎児特異的核酸分率が決定されるように、個々の多型核酸標的および/または多型核酸標的のパネルが選択される。例えば、いくつかの実施形態では、胎児特異的核酸分率は、0.25、0.20、0.19、0.18、0.17、0.16、0.15、0.14、0.13、0.12、0.11、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01またはそれ未満の変動係数(CV)で決定され得る。場合によっては、0.20またはそれ未満の変動係数(CV)で胎児特異的核酸分率が決定される。場合によっては、0.10またはそれ未満の変動係数(CV)で胎児特異的核酸分率が決定される。場合によっては、0.05またはそれ未満の変動係数(CV)で胎児特異的核酸分率が決定される。
【0089】
いくつかの実施形態では、対立遺伝子頻度は、サンプル中の多型核酸標的の1またはそれよりも多くの対立遺伝子について決定される。これは、測定対立遺伝子頻度と呼ばれることがある。対立遺伝子頻度は、例えば、対立遺伝子に対する配列リードの数(例えば、対立遺伝子B)をカウントし、その遺伝子座に対する配列リードの総数(例えば、対立遺伝子B+対立遺伝子A)で割ることによって決定することができる。場合によっては、対立遺伝子頻度の代表値、平均値または中央値が決定される。場合によっては、胎児特異的核酸分率は、対立遺伝子頻度平均(例えば、対立遺伝子頻度平均に2を掛けたもの)に基づいて決定することができる。
【0090】
いくつかの実施形態では、多型核酸標的を網羅する定量データ(例えば、シーケンシングデータ)を使用して、多型核酸標的(例えば、SNV)のゲノム位置がシーケンシングされる回数をカウントする。多型核酸標的の参照対立遺伝子および代替対立遺伝子をそれぞれ含むシーケンシングリードの数を決定することができる。例えば、SNVの参照対立遺伝子についてホモ接合のサンプルでは、理想的には約1.0(例えば、0.99~1.00)の参照SNV対立遺伝子頻度があり、SNVをカバーする全てのシーケンシングリードは参照SNV対立遺伝子を含む。サンプルが参照対立遺伝子と代替対立遺伝子の両方についてヘテロ接合である場合、参照SNV対立遺伝子についての予想対立遺伝子頻度は、約0.5(例えば、0.46~0.53)である。サンプルが代替対立遺伝子についてホモ接合である場合、予想される参照SNV対立遺伝子頻度は0になる。しかしながら、1.0、0.5、および0のこれらの値は理想化されており、測定値は一般にこれらの値に近づくが、現実世界のSNV対立遺伝子頻度測定値は、生化学的、シーケンシング、およびプロセス誤差の影響を受ける。ヘテロ接合対立遺伝子頻度の場合、これらは分子サンプリング誤差の影響も受ける。
【0091】
いくつかの実施形態では、母親の遺伝子型は、妊娠中または妊娠前にゲノムDNAサンプル(例えば、上記のバフィーコート画分から)とは別に決定され、胎児特異的対立遺伝子の存在を容易に検出および定量化することができる。しかしながら、場合によっては、ゲノムDNAサンプルがないために、母親の遺伝子型決定が不可能であり得る。場合によっては、1またはそれよりも多くの多型標的に対する母親の遺伝子型は、父子判定の前に決定されない。いくつかの実施形態では、本開示は、母親の遺伝子型情報が存在しない場合でも、胎児特異的無細胞核酸を検出および/または定量するために使用することができる方法およびシステムを提供する。これは、妊娠中まで患者が検査に供されない状況において有利であり得、その時点で、母親からの妊娠前のサンプルは遺伝子型判定にアクセスできない。妊娠前の遺伝子型決定の必要性を分配することはまた、患者情報を追跡する際のコストを節約する。特定の理論に束縛されるものではないが、本発明は、妊娠中に採取されたサンプルからの胎児および母体無細胞DNAの両方を含む混合物から、妊娠中の母親の遺伝子型を決定することができる。これは、妊娠前のSNV対立遺伝子頻度のそれぞれがヘテロ接合(0.5)またはホモ接合(0または1)の周りに集まるという事実に基づいている。胎児および母体の遺伝子型に差がある場合、ヘテロ接合またはホモ接合からの偏差(胎児分率に比例する)がある。胎児と母体の遺伝子型が一致する場合、無細胞混合DNAにおける対立遺伝子頻度は、妊娠前の母体の遺伝子型における対立遺伝子頻度と同じになる。これら2つのカテゴリの母体-胎児の遺伝子型の組み合わせを以下にさらに例示する。
【0092】
胎児および母体の遺伝子型は異なる(対立遺伝子頻度の胎児特異的偏差をもたらす):
AA母親/AB胎児
AB母親/AA胎児
AB母親/BB胎児
BB母親/AB胎児
【0093】
胎児および母体の遺伝子型は同じである(したがって、結果として生じる対立遺伝子頻度は「予想される」母体の遺伝子型である):
AA母親/AA胎児
AB母親/AB胎児
BB母親/BB胎児
(Aは参照対立遺伝子を表し、Bは代替対立遺伝子を表す)
【0094】
偏差は、胎児の遺伝子型が母体の遺伝子型と一致する母体からの無細胞DNAサンプルにおける対立遺伝子頻度(すなわち、予想対立遺伝子頻度)と、胎児の遺伝子型が母体の遺伝子型と一致しない無細胞DNAサンプルにおける対立遺伝子頻度(すなわち、測定対立遺伝子頻度)との差である。場合によっては、対立遺伝子頻度の代表値、平均値または中央値が、予想対立遺伝子頻度および測定対立遺伝子頻度について決定され、偏差の計算に使用される。
【0095】
したがって、母親が代替対立遺伝子についてホモ接合であるSNVの場合(参照対立遺伝子頻度が約0であるか、または、0.00~0.03、0.00~0.02の範囲内であり、例えば、0.00~0.01である)、偏差は、胎児が代替対立遺伝子についてホモ接合である対立遺伝子頻度の平均または中央値(一致する母体遺伝子型)対胎児が参照対立遺伝子についてヘテロ接合またはホモ接合のいずれかである(母体遺伝子型とは異なる)対立遺伝子頻度の平均または中央値の差である。
【0096】
母親が代替対立遺伝子についてヘテロ接合であるSNVの場合(参照対立遺伝子頻度が約0.5であるか、または0.40~0.60、0.42~0.56もしくは0.46~0.53の範囲である)、偏差は、胎児が代替対立遺伝子についてヘテロ接合である対立遺伝子頻度の平均または中央値(一致する母体遺伝子型)対胎児が代替対立遺伝子についてホモ接合であるかまたは参照対立遺伝子についてホモ接合である(母体遺伝子型とは異なる)対立遺伝子頻度の平均または中央値の差である。
【0097】
母親が参照対立遺伝子についてホモ接合であるSNVの場合(参照対立遺伝子頻度は、約1.00、または0.97~1.00、または0.98~1.00の範囲、例えば、0.99~1.00である)、偏差は、胎児が参照対立遺伝子についてホモ接合である対立遺伝子頻度の平均または中央値(一致する母体遺伝子型)対胎児が代替対立遺伝子についてヘテロ接合またはホモ接合のいずれかである(母体遺伝子型とは異なる)対立遺伝子頻度の平均または中央値の差である。特定の胎児/母親の遺伝子型の組み合わせが1つまたは別のカテゴリに属するかどうかは、以下に記載される方法を使用することによって、胎児を遺伝子型決定することなく、または妊娠前に母親を遺伝子型決定することなく、母体DNAと胎児DNAの混合物を含む単一のサンプルに基づいて決定することができる。これらの場合、これらの方法は、正常なSNV対立遺伝子頻度(ホモ接合代替対立遺伝子遺伝子型に関連する対立遺伝子頻度、ヘテロ接合代替および参照対立遺伝子遺伝子型またはホモ接合参照対立遺伝子遺伝子型)母親の対立遺伝子の背景から存在すると仮定する。これらの場合、胎児特異的核酸は、例えば、以下に記載されるように、固定カットオフアプローチ、動的クラスタリングアプローチ、および個々の多型核酸標的閾値アプローチのうちの1または複数を使用して同定することができる。表2は、これらの目的のために使用することができる様々な例示的なアプローチの特徴を示す。そのような手法は、プロセッサ、マイクロプロセッサ、コンピュータシステムによって、メモリと併せて、および/またはマイクロプロセッサ制御装置によって実行されてもよい。様々な実施形態では、手法は、本明細書において
図2に関して説明した動作環境110における一連のイベントまたは工程(例えば、方法またはプロセス)として実行される。
【表2】
【0098】
固定カットオフ方法
いくつかの実施形態では、多型核酸標的が有益であるかどうかを決定すること、および/または胎児特異的無細胞核酸を検出することは、母親におけるその測定対立遺伝子頻度を固定カットオフ頻度と比較することを含む。場合によっては、どの多型核酸標的が有益であるかを決定することは、各対立遺伝子頻度を1またはそれよりも多くの固定カットオフ頻度と比較することによって有益な遺伝子型を同定することを含む。固定カットオフ頻度は、例えば、妊娠していない対象の集団からの1またはそれよりも多くの適格データセットに基づく所定の閾値であり得、妊娠していない対象における測定された対立遺伝子頻度の分散を表す。
【0099】
場合によっては、有益でない遺伝子型から有益な遺伝子型を同定するための固定カットオフは、予想対立遺伝子頻度からの対立遺伝子頻度のパーセント(%)シフトとして表される。一般に、所与の対立遺伝子(例えば、対立遺伝子A)についての予想対立遺伝子頻度は、0(BB遺伝子型について)、0.5(AB遺伝子型について)および1.0(AA遺伝子型について)、または任意の数値スケールでの同等の値である。母親における多型核酸標的対立遺伝子頻度が予想対立遺伝子頻度から逸脱し、そのような偏差が1またはそれよりも多くの固定カットオフ頻度を超える場合、多型核酸標的は有益であると考えられ得る(すなわち、胎児は、母親とは異なる遺伝子型を有する)。偏差の程度は、一般に、胎児特異的核酸分率(すなわち、高い胎児特異的核酸分率を有するサンプルでは、予想対立遺伝子頻度からの大きな逸脱が観察され得る)に比例する。予想対立遺伝子頻度と測定対立遺伝子頻度との間の偏差は、上記のように決定することができる。
【0100】
場合によっては、妊娠前または妊娠中の母体ゲノム中の多型核酸標的はホモ接合であり、予想対立遺伝子頻度(参照対立遺伝子または代替対立遺伝子のいずれか)は、例えば0である。これらの状況では、妊娠中の母親からのサンプルにおける測定対立遺伝子頻度と予想対立遺伝子頻度との間の偏差は、測定対立遺伝子頻度に等しい。測定対立遺伝子頻度が固定カットオフよりも大きい場合、多型核酸標的は有益であると同定される。
【0101】
場合によっては、固定カットオフは、アッセイで使用される全ての多型核酸標的の対立遺伝子頻度の尺度のパーセンタイル値である。いくつかの実施形態では、パーセンタイル値は、90、95または98パーセンタイル値である。
【0102】
場合によっては、有益でないホモ接合体から有益な遺伝子型を同定するための固定カットオフは、予想対立遺伝子頻度の中央値からの対立遺伝子頻度の約0.5%またはそれよりも多くのシフトである。例えば、固定カットオフは、対立遺伝子頻度の約0.6%、0.7%、0.8%、0.9%、1%、1.5%、2%、3%、4%、5%、10%またはそれよりも多くのシフトであり得る。場合によっては、有益でないホモ接合体から有益な遺伝子型を同定するための固定カットオフは、対立遺伝子頻度の約1%またはそれよりも多くのシフトである。場合によっては、有益でないホモ接合体から有益な遺伝子型を同定するための固定カットオフは、対立遺伝子頻度の約2%またはそれよりも多くのシフトである。いくつかの実施形態では、有益でないヘテロ接合体から有益な遺伝子型を同定するための固定カットオフは、対立遺伝子頻度の約10%またはそれよりも多くのシフトである。例えば、固定カットオフは、対立遺伝子頻度の約10%、15%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、35%、40%、45%、50%、55%、60%、70%、80%またはそれよりも多くのシフトであり得る。場合によっては、有益でないヘテロ接合体から有益な遺伝子型を同定するための固定カットオフは、対立遺伝子頻度の約25%またはそれよりも多くのシフトである。場合によっては、有益でないヘテロ接合体から有益な遺伝子型を同定するための固定カットオフは、対立遺伝子頻度の約50%またはそれよりも多くのシフトである。
【0103】
標的特異的閾値法
いくつかの実施形態では、多型核酸標的が有益であるかどうかを決定することおよび/または胎児特異的対立遺伝子を検出することは、その測定対立遺伝子頻度を標的特異的閾値(例えば、カットオフ値)と比較することを含む。いくつかの実施形態では、標的特異的閾値頻度が、各多型核酸標的について決定される。典型的には、標的特異的閾値頻度は、対応する多型核酸標的に対する対立遺伝子頻度分散に基づいて決定される。いくつかの実施形態では、個々の多型標的の分散は、例えば、絶対偏差の中央値(MAD)によって表され得る。場合によっては、各多型核酸標的に対するMAD値を決定することにより、ユニークな(すなわち、標的特異的)閾値を生成することができる。絶対偏差の中央値を決定するために、例えば、母親のみの核酸サンプル(例えば、バフィーコートサンプル)の複数の複製物(例えば、5、6、7、8、9、10、15、20またはそれよりも多くの反復)について、測定対立遺伝子頻度を決定することができる。各複製物中の各多型標的は、典型的には、例えばPCRおよび/またはシーケンシングエラーのために、わずかに異なる測定対立遺伝子頻度を有する。各多型標的について、対立遺伝子頻度中央値を同定することができる。残りの複製物の中央値からの偏差を計算することができる(すなわち、観察された対立遺伝子頻度と対立遺伝子頻度の中央値との間の差)。偏差の絶対値(すなわち、負の値は正になる)を取得し、絶対偏差の中央値を計算して、各多型核酸標的の絶対偏差の中央値(MAD)を提供する。標的特異的閾値は、例えば、MADの倍数(例えば、1×MAD、2×MAD、3×MAD、4×MADまたは5×MAD)として割り当てることができる。典型的には、分散がより少ない多型標的は、より多くの可変標的よりも低いMAD、したがってより低い閾値を有する。
【0104】
いくつかの実施形態では、標的特異的閾値は、アッセイにおいて使用される多型核酸標的の測定された対立遺伝子頻度のパーセンタイル値である。いくつかの実施形態では、パーセンタイル値は、90、95または98パーセンタイル値である。
【0105】
動的クラスタリングアルゴリズム
いくつかの実施形態では、多型核酸標的が有益であるかどうかの判定および/または胎児特異的対立遺伝子の検出は、動的クラスタリングアルゴリズムを含む。動的クラスタリングアルゴリズムの非限定的な例としては、K平均、アフィニティ伝播、平均シフト、スペクトルクラスタリング、ウォード(ward)階層クラスタリング、凝集クラスタリング、DBSCAN、ガウス混合、およびBirchが挙げられる。http://scikit-learn.org/stable/modules/clustering.html#k-meansを参照されたい。そのようなアルゴリズムは、メモリと併せて、および/またはマイクロプロセッサ制御装置によって、プロセッサ、マイクロプロセッサ、コンピュータシステムを用いて実装されてもよい。
【0106】
いくつかの実施形態では、動的クラスタリングアルゴリズムはk平均クラスタリングである。k平均アルゴリズムは、サンプルのセットを互いに素なクラスタに分割し、それぞれがクラスタ内のサンプルの平均位置によって記述される。この手段は、一般にクラスタ「重心」と呼ばれる。k平均アルゴリズムは、慣性、またはクラスタ内二乗和基準を最小にする重心を選択することを目的とする。k平均は、しばしばLloydのアルゴリズムと呼ばれる。基本的な用語では、アルゴリズムは3つの工程を有する。第1の工程は、初期重心を選択し、最も基本的な方法は、データセットXからkサンプルを選択することである。初期化後、k平均は、他の2つの工程間のループからなる。第1の工程は、各サンプルをその最も近い重心に割り当てる。第2の工程は、各前の重心に割り当てられた全てのサンプルの平均値をとることによって新たな重心を作成する。古い重心と新たな重心との間の差が計算され、アルゴリズムは、この値が閾値未満になるまでこれらの最後の2つの工程を繰り返す。言い換えれば、重心が大きく移動しなくなるまで繰り返す。
【0107】
いくつかの実施形態では、動的クラスタリングは、無細胞核酸中の1またはそれよりも多くの多型核酸標的を、多型核酸標的のそれぞれについての参照対立遺伝子または代替対立遺伝子についての測定対立遺伝子頻度に基づいて、母体のホモ接合群および母体のヘテロ接合群に層別化することを含む。ホモ接合群は0または1に近い平均位置を有してクラスタ化され、ヘテロ接合群は0.5に近い平均位置を有してクラスタ化される。
【0108】
この方法は、さらに、母体ホモ接合群を有益でない群および有益な群に層別化すること、ならびに有益な群における1またはそれよりも多くの多型核酸標的の量を測定することを含み得る。いくつかの実施形態では、母体ホモ接合群を有益でない群および有益でない群に層別化することは、その群が胎児特異的対立遺伝子を含有するかどうかに基づき(有益な群は、母体ゲノムに存在しない母体に由来しない別個の胎児対立遺伝子を含む群であり、有益でない群は、母体ゲノムから区別できない胎児由来の対立遺伝子を含む)、有益なSNVは、より高い平均または中央対立遺伝子頻度を有するクラスタ内のものである。これらの有益なSNVを使用して、胎児由来cfDNAの分画濃度を決定することができる。
【0109】
いくつかの実施形態では、有益なSNVSのカットオフを識別するために、k平均クラスタリングプロセスが上記のように繰り返される。カットオフを見つけるために、(0、0.25)の範囲の対立遺伝子頻度を有するSNVに対してクラスタリングを行う。これにより、クラスタ1(下位クラスタ)が有益でないSNV(胎児と母体の対立遺伝子が一致する)であり、クラスタ2(上位クラスタ)が有益なSNV(胎児は母体とは少なくとも1つの異なる対立遺伝子を有する)である2つのクラスタが得られる。カットオフは、第1/下位クラスタの最大値と第2/上位クラスタの最小値との代表値として計算される。
【0110】
いくつかの実施形態では、有益なSNVを決定するために、対立遺伝子頻度を最初に鏡像化して鏡像化対立遺伝子頻度を生成する。鏡像対立遺伝子頻度は、対立遺伝子の対立遺伝子頻度および(1-対立遺伝子頻度)のより低い値である。これは、0.5より大きい対立遺伝子頻度を[0,0.5]の範囲に反映し、類似する胎児-母親遺伝子型の組み合わせを一緒にグループ化する(例えば、BB母親/AB胎児をと共にAA母親/AB胎児)。「有益な」SNVは、SNVの胎児遺伝子型と母体遺伝子型が異なるSNVとして同定される。参照対立遺伝子をAとし、代替対立遺伝子をBと定義すると、2つのカテゴリの有益なSNVが存在する:
1)情報カテゴリ1は、母親がホモ接合であり、胎児がヘテロ接合である(例えば、AA母親/AB胎児またはBB母親/AB胎児)「Homo-Het」カテゴリを指す。
2)情報カテゴリ2は、母親がヘテロ接合であり、胎児がホモ接合である(例えば、AB母親/AA胎児またはAB母親/BB胎児)「Het-Homo」カテゴリを指す。
【0111】
いくつかの実施形態では、胎児特異的核酸を検出するおよび/または胎児特異的核酸分率を決定するために選択される有益なSNVは、カテゴリ2のSNVを含まない。いくつかの実施形態では、胎児特異的核酸を検出するおよび/または胎児特異的核酸分率を決定するために選択される有益なSNVは、カテゴリ1およびカテゴリ2の両方のSNVを含む。いくつかの実施形態では、カテゴリ1のSNVを使用して胎児特異的核酸を検出し、および/または胎児特異的核酸分率を最初に決定し、結果が決定的でない場合、カテゴリ2のSNVを使用して胎児特異的核酸を検出し、および/または胎児特異的核酸分率を決定する。
【0112】
次いで、有益でないSNVを、異なるアプローチ、例えば2段階クラスタリング分析によって同定および除去することができる。いくつかの実施形態では、最初の工程は、有益なSNV(例えば、AA母親/AB胎児)から有益でないSNV(例えば、AA母親/AA胎児)を分離するより低いカットオフを決定するために、0~0.3の間の鏡像対立遺伝子頻度の範囲内のfuzzy K平均の反復である。2回目のクラスタリングでは、このより低いカットオフと対立遺伝子頻度0.49との間でhard K平均クラスタリングを実行して、所望の有益なSNVの上限を決定する(例えば、AA母親/AB胎児をAB母親/AA胎児およびAB母親/AB胎児から分離する)。
【0113】
母親の遺伝子型の利用可能性に応じて、2つの異なるアプローチが以下のように詳述される:
【0114】
1)アプローチ1(胎児分率1-「FF 1」):
母親の遺伝子型が知られていない場合、K平均クラスタリングを使用して、有益でないSNV(AA母親/AA胎児、BB母親/BB胎児、およびAB母親/AB胎児、AB母親/AA胎児、およびAB母親/BB胎児の組み合わせ)を同定および除去する。2つのクラスタは、以下の母親/胎児の遺伝子型の組み合わせを含むと予想される:
a.クラスタ1=(AA母親/AB胎児、BB母親/AB胎児)。
b.クラスタ2=(AB母親/AB胎児、AB母親/AA胎児、AB母親/BB胎児)。
胎児分率計算に関連するSNVのみをクラスタ1に保持する。
【0115】
したがって、FF1アプローチを使用して、母親の遺伝子型が知られていない状況下で、父性を判定する方法は、
I)擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くのSNVの遺伝子型を得ること、
II)妊娠中の母親から得られた生体サンプルから無細胞核酸を単離すること、
III)生体サンプル中の1またはそれよりも多くのSNVの各対立遺伝子の量を測定して、1またはそれよりも多くのSNVの量の測定値からなるデータセットを生成すること;「有益な」SNVは、SNVの胎児の遺伝子型と母親の遺伝子型が異なるSNVとして識別される。
IV)第1のクラスタおよび第2のクラスタを形成するためにデータセットに対してコンピュータアルゴリズムを実行することであって、第1のクラスタは有益なSNVを含み、第2のクラスタは有益でないSNVを含み、
有益なSNVが、AA母親/AB胎児、BB母親/AB胎児の遺伝子型の組み合わせで母親および胎児に存在し、
有益でないSNVが、AA母親/AA胎児、BB 母親/BB胎児、AB母親/AB胎児、ABmother/AA胎児、またはAB母親/BB胎児の遺伝子型の組み合わせで母体および胎児に存在すること;
V)有益なSNVの存在に基づいて胎児特異的対立遺伝子を検出すること。いくつかの実施形態では、方法は、胎児特異的対立遺伝子の量に基づいて胎児特異的核酸分率を決定することをさらに含み、
VI)有益な核酸標的に対する母親、擬父および胎児の遺伝子型に基づいて、胎児の父子関係を決定すること。
【0116】
2)アプローチ2(「FF2」):
アプローチ2は、母親の遺伝子型が分かっている場合に使用される。
アプローチ2A(「FF2A」)
【0117】
アプローチ2Aは、母親が父子判定のためにホモ接合であるSNVのみを利用する。アプローチ2Aでは、この方法は、母親がヘテロ接合である症例を除外することを含む(したがって、AB母親/AB胎児、AB母親/AA胎児、およびAB母親/BB胎児は除外される)。次に、残りのSNVに対してクラスタリングを実行して、有益でないSNVを除去する。残りの有益なSNVは、以下の遺伝子型の組み合わせを有する:AA母親/AB胎児、BB母親/AB胎児。
【0118】
クラスタ1のSNVは胎児分率計算に関連し、保持されるべきである。
【0119】
したがって、FF2Aアプローチを使用して、母親の遺伝子型が知られている状況下で、本開示は、以下を含む父子判定の方法を提供する:
I)擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くのSNVの遺伝子型を得ること、
II)妊娠中の母親から得られた生体サンプルから無細胞核酸を単離すること、
III)生体サンプル中の1またはそれよりも多くのSNVの各対立遺伝子の量を測定して、1またはそれよりも多くのSNVの量の測定値からなるデータセットを生成すること;
IV)AB母親/AB胎児、AB母親/AA胎児、およびAB母親/BB胎児の遺伝子型の組み合わせにおいて母親および胎児に存在するSNVを除外することであって、
V)残りのSNVは、AA母親/BB胎児またはBB母親/AA胎児:およびAA母親/AB胎児またはBB母親/AB胎児の遺伝子型の組み合わせにおいて母親および胎児に存在する。
生体サンプル中の1またはそれよりも多くのSNV中の残りのSNVの存在に基づいて胎児特異的対立遺伝子を検出すること。いくつかの実施形態では、本方法は、胎児特異的対立遺伝子の量に基づいて、生体サンプル中の胎児特異的核酸分率を決定することをさらに含む;ならびに
VI)有益な核酸標的に対する母親、擬父および胎児の遺伝子型に基づいて、胎児の父子関係を決定すること。
【0120】
アプローチ2B(「FF2B」):
アプローチ2Bは、母親の遺伝子型がヘテロ接合であるSNVのみを利用する。アプローチ2Bは、母親がホモ接合(したがって、AA母親/AB胎児、BB母親/AB胎児)である場合を除外することを含む。有益でないSNV(AA母親/AA胎児、BB 母親/BB胎児)を除去した後、残りのSNVは有益であり、AB母親/AA胎児およびAB母親/BB胎児の遺伝子型の組み合わせを含む。胎児特異的対立遺伝子の量を決定することができ、これを胎児の遺伝子型を決定するために使用することができる。
【0121】
いくつかの実施形態では、父子判定の方法は、アプローチ2Aを含み得るが、アプローチ2Bを含まない。いくつかの実施形態では、父子判定の方法は、アプローチ2Aおよびアプローチ2Bの両方を含む。いくつかの実施形態では、本方法は、最初にアプローチ2Aを使用して父性を判定することを含み、その決定が決定的でない場合、アプローチ2Bが使用される。
【0122】
いくつかの実施形態では、最尤およびベイズ統計量(実験データへのベイズ理論の適用を含む)を使用して、胎児の遺伝子型を決定することができる。最尤は、観測されたデータの確率を最大化するモデルを選択する統計的手法である。したがって、観察されたデータの確率が各可能な遺伝子型について評価され、観察されたデータに最も高い確率を与える可能な遺伝子型が選択される。ベイズ統計は、データの尤度および仮説(hypoteses)の事前確率に基づいており、これは、この場合、集団における遺伝子型の観察された頻度である(例えば、予想対立遺伝子頻度)。ベイズ統計は、遺伝子型が正しい確率を提供する。父子判定のために、SNVの対立遺伝子頻度の値を分析し、胎児および/または母親の可能性のある遺伝子型の仮説を評価する。胎児の遺伝子型は、(最尤を使用して)データに基づいて最も高い尤度を有する、または(ベイズ統計を使用して)所定の閾値より高い真である確率を有する仮説に従って決定される。いくつかの実施形態では、最尤および/またはベイズ統計で使用されるSNVは、本明細書に開示される他のアルゴリズム、例えばクラスタリングアルゴリズムに基づいて選択された有益なSNVである。
【0123】
父子関係の判定
胎児特異的無細胞DNA画分率(「胎児分率」)および胎児遺伝子型の計算
いくつかの実施形態では、胎児分率は、全ての有益なSNVにわたる頻度の中央値として計算される。有益なSNVは、上記の方法のいずれかを使用して決定される。
【0124】
いくつかの実施形態では、別の核酸の量に対する1つの核酸の量について、分率または比を決定することができる。いくつかの実施形態では、サンプル中の無細胞核酸の総量に対するサンプル中の胎児特異的無細胞核酸の分率が決定される。一般に、サンプル中の無細胞核酸の総量に対するサンプル中の胎児特異的無細胞核酸の分率を計算するために、以下の式を適用することができる:
【0125】
胎児特異的無細胞核酸の分率=(胎児特異的無細胞核酸の量)/[(全無細胞核酸の量)]。
【0126】
いくつかの実施形態では、胎児の遺伝子型を決定することは、上記のように、1またはそれよりも多くの有益なポリ核酸標的(例えば、有益なSNV)に対する胎児特異的対立遺伝子の対立遺伝子頻度を決定することから始まる。胎児の遺伝子型判定または父子判定には必要ではないが、胎児分率を決定することは品質管理に有用であり、胎児分率が十分に高くない場合、父性指数を誤って推定し、したがって、父性を誤って分類する可能性がある。より低い胎児分率は、妊娠初期に対応する傾向があり、母のより高いBMIにも対応する傾向がある。確実な父子判定のために、胎児の血統は、少なくとも2%、少なくとも3%、少なくとも4%、少なくとも5%、または少なくとも10%であることが望ましい。いくつかの実施形態では、無細胞サンプル中の胎児分率は、2%~50%、4%~40%、または6%~30%の範囲である。
【0127】
いくつかの実施形態では、所与のSNVについて、胎児対立遺伝子頻度を、それぞれの多型核酸標的のバックグラウンド頻度と比較する。すなわち、対立遺伝子が胎児核酸を含むサンプル中に実際に存在しなくても、例えばシーケンシングエラーのためにバックグラウンド割合が依然として検出されるであろう。場合によっては、バックグラウンド周波数は約0.001~約0.01(すなわち、0.1%~約1.0%)であり得る。例えば、バックグラウンド周波数は、約0.002、0.003、0.004、0.005、0.006、0.007、0.008、または0.009であり得る。場合によっては、バックグラウンド周波数は約0.005である。各SNVの各対立遺伝子のバックグラウンド頻度は経験的に決定することができる。所与のSNVについて、胎児対立遺伝子頻度がバックグラウンド頻度を上回る場合、胎児の遺伝子型は妊娠中の母親の遺伝子型とは異なることが確認され得る。
【0128】
父性の判定
父性は、有益なSNVを同定し、有益なSNVにおける胎児の遺伝子型を1またはそれよりも多くの擬父の遺伝子型と比較することによって決定することができる。
【0129】
父性指数は、有益なSNVごとに決定することができ、これは、擬父が生物学的父親である可能性対擬父と同じ集団からのランダムな男性が生物学的父親である可能性を表す。ランダムな男性が生物学的父親である可能性は、公開されている集団における対立遺伝子頻度の関数である。
【0130】
いくつかの実施形態では、総合父性指数(別名「尤度比」または「LR」)は、各有益なSNVの父性指数を乗算することによって決定される。組み合わせた総合父性指数値は、それを閾値指数と比較することによって父性を判定するために使用することができる。すなわち、閾値を上回る総合父性指数は、擬父が胎児の生物学的父親であることを示す。場合によっては、総合父性指数数値の閾値は、約2,000~約50,000の範囲であり得る。例えば、閾値は、少なくとも3,000、少なくとも4,000、少なくとも5,000、少なくとも10,000、少なくとも15,000、少なくとも20,000、少なくとも25,000、少なくとも30,000、または少なくとも40,000であり得る。場合によっては、父性を判定するための父性指数閾値は約10,000である。
【0131】
いくつかの実施形態では、父性の確率は、ベイズの定理を使用して計算される。父性の確率は、擬父が生物学的父親である事後確率であり、競合する仮説の尤度および事前確率を使用して計算される。事後確率を決定するための方法は公知であり、例えば、Thore Egeland,Daniel Kling,and Petter Mostad.2016Relationship Inference with Familias and R,Statistical Methods in Forensic Genetics.Academic Press,Elsevier、例えば16~21頁および21~22頁に記載されている。当該参考文献の全内容は、参照により本明細書に組み込まれる。
【0132】
いくつかの実施形態では、上記で決定された母体遺伝子型、胎児遺伝子型、および擬父の遺伝子型は、当技術分野で公知のソフトウェア、例えば、Familas3またはその拡張(例えば、Famlink、FamlinkX等。)を使用して分析して、総合父性指数を決定することができる。
【0133】
いくつかの実施形態では、他の既知のソフトウェアプログラムを使用して、父性指数計算および/または父子判定を行う。
【0134】
いくつかの実施形態では、上記の有益なSNV(すなわち、母親がホモ接合であり、胎児がヘテロ接合であるもの)は、父性を決定するには不十分である。すなわち、算出された父性指数は、父性を判定するための閾値を超えない。これらの場合、2回目の分析を実行して、追加の有益なSNVを特定することができる。いくつかの実施形態では、この2回目の分析は、母親がヘテロ接合であり、胎児がホモ接合であるSNVを同定することを含む。例えば、最尤分析およびベイズ統計を、母親がヘテロ接合であるSNVに適用して、測定対立遺伝子頻度に基づいて胎児がホモ接合であるかどうかを判定することができる。いくつかの実施形態では、母親がヘテロ接合であり、胎児がホモ接合であるSNVも、父性を判定するために使用される(上記のアプローチ2Aおよびアプローチ2Bの検討を参照)。
【0135】
多型核酸標的の定量
いくつかの実施形態では、多型核酸標的の量は、配列リードに基づいて定量される。ある特定の実施形態では、各対立遺伝子について参照ゲノム上の多型核酸標的にマッピングされる配列リードの量は、カウントまたはリード密度と称される。特定の実施形態では、カウントは、多型核酸標的にマッピングされた配列リードの一部または全部から決定される。
【0136】
カウントは、適切な方法、演算または数学的プロセスによって決定することができる。カウントは、セグメントに対応するゲノム部分またはゲノム部分の群、ゲノムのサブ領域に対応する部分の群にマッピングされた全ての配列リードの直接和である(例えば、コピー数変異領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域または他の染色体再編成)および/または時にはゲノムに対応する部分の群であるときがある。
【0137】
いくつかの実施形態では、カウントは、生の配列リードおよび/またはフィルタリングされた配列リードに由来する。特定の実施形態では、カウントは、数学的プロセスによって決定される。ある特定の実施形態では、カウントは、多型部位の2つの対立遺伝子(参照対立遺伝子および代替対立遺伝子)の各々について、参照ゲノム上の標的核酸配列にマッピングされた配列リードの代表値、平均値または和である。いくつかの実施形態では、カウントは、不確定値と関連付けられる。カウントを調整する場合がある。カウントは、重み付けされた、除去された、フィルタリングされた、正規化された、調整された、平均化された(averaged)、平均値として導出された、中央値として導出された、付加された、またはそれらの組み合わせである多型部位の2つの対立遺伝子(参照対立遺伝子および代替対立遺伝子)のそれぞれについて、参照ゲノム上の標的核酸配列に関連する配列リードに従って調整され得る。
【0138】
配列リードの定量化は、リード密度であるときがある。リード密度は、ゲノムの1またはそれよりも多くのセグメントについて決定および/または生成され得る。特定の場合では、リード密度が、1またはそれよりも多くの染色体について決定され得、および/または生成され得る。いくつかの実施形態では、リード密度は、多型部位の2つの対立遺伝子(参照対立遺伝子および代替対立遺伝子)の各々について、参照ゲノム上の標的核酸配列にマッピングされた配列リードのカウントの定量的尺度を含む。リード密度は、適切なプロセスによって決定することができる。いくつかの実施形態では、リード密度は、適切な分布および/または適切な分布関数によって決定される。分布関数の非限定的な例は、確率関数、確率分布関数、確率密度関数(PDF)、カーネル密度関数(カーネル密度推定)、累積分布関数、確率質量関数、離散確率分布、絶対連続単変量分布等、任意の適切な分布、またはそれらの組み合わせを含む。リード密度は、適切な確率密度関数から導出された密度推定であり得る。密度推定は、観測データに基づいて、基礎となる確率密度関数の推定値を構築することである。いくつかの実施形態では、リード密度は、密度推定(例えば、確率密度推定、カーネル密度推定)を含む。リード密度は、各部分が配列リードのカウントを含むゲノムの1またはそれよりも多くの部分のそれぞれについて密度推定値を生成することを含むプロセスに従って生成され得る。リード密度は、部分またはセグメントにマッピングされた正規化されたカウントおよび/または重み付けされたカウントのために生成され得る。場合によっては、部分またはセグメントにマッピングされた各リードは、本明細書に記載の正規化プロセスから得られたその重みに等しい値(例えば、カウント)であるリード密度に寄与し得る。いくつかの実施形態では、1またはそれよりも多くの部分またはセグメントに対するリード密度が調整される。リード密度は、適切な方法によって調整することができる。例えば、1またはそれよりも多くの部分に対するリード密度を重み付けおよび/または正規化することができる。
【0139】
無細胞核酸の濃縮
いくつかの実施形態では、本明細書に記載の方法を使用して胎児特異的無細胞核酸を同定する前に、多型核酸標的を濃縮する。いくつかの実施形態では、濃縮することは、複数の多型核酸標的を増幅することを含む。場合によっては、濃縮することは、増幅反応において増幅産物を生成することを含む。多型標的の増幅は、核酸を増幅するための本明細書に記載されるまたは当技術分野で公知の任意の方法(例えば、PCR)によって達成され得る。場合によっては、増幅反応は、本明細書で多重増幅と呼ばれることもある単一の容器(例えば、チューブ、容器、プレート上のウェル)で行われる。
【0140】
胎児特異的無細胞核酸の量を定量化し、父性を評定するための他の方法と併せて使用することができる。胎児特異的核酸の量は、サンプル核酸を調製するための処理の前または後に対象からの核酸サンプルにおいて決定することができる。特定の実施形態では、胎児特異的核酸の量は、サンプル核酸が処理され、調製された後、サンプル中で決定され、その量は、さらなる評定のために利用される。いくつかの実施形態では、アウトカムは、サンプル核酸中の胎児特異的核酸の分率をファクタリングすること(例えば、カウントを調整すること、サンプルを除去すること、コールを行うこと、またはコールを行わないこと)を含む。
【0141】
いくつかの実施形態では、胎児特異的無細胞核酸を決定するかまたは胎児特異的画分を定量する前に、妊娠中の母親に由来するサンプルからの無細胞核酸を濃縮することができる。場合によっては、濃縮方法は、増幅(例えば、PCR)ベースのアプローチを含み得る。
【0142】
ヌクレオチド配列の増幅
多くの場合、当技術分野で周知のいくつかの核酸増幅手順のいずれかを使用して、本明細書の技術の核酸配列を増幅することが望ましい(上に列挙し、以下により詳細に説明する)。具体的には、核酸増幅は、増幅される核酸配列に相補的な配列を含む核酸アンプリコン(コピー)の酵素合成である。核酸増幅は、サンプル中に存在する標的配列の量が非常に少ない場合に特に有益である。標的配列を増幅し、合成されたアンプリコンを検出することによって、目的の生物またはウイルスに属するサンプル中の核酸の検出をより確実にするためにアッセイの開始時に必要な標的配列が少なくなるので、アッセイの感度を大幅に改善することができる。
【0143】
任意の適切な増幅技術を利用することができる。ポリヌクレオチドの増幅としては、ポリメラーゼ連鎖反応(PCR);ライゲーション増幅(またはリガーゼ連鎖反応(LCR));Q-ベータレプリカーゼまたは鋳型依存性ポリメラーゼの使用に基づく増幅方法(米国特許出願公開第20050287592号を参照);ヘリカーゼ依存性等温増幅(Vincentら、”Helicase-dependent isothermal DNA amplification”.EMBO reports 5(8):795-800(2004));鎖置換増幅(SDA);好熱性SDA核酸配列に基づく増幅(3 SRまたはNASBA)、および転写関連増幅(TAA)が挙げられるが、これらに限定されない。PCR増幅法の非限定的な例としては、標準PCR、AFLP-PCR、対立遺伝子特異的PCR、Alu-PCR、非対称PCR、コロニーPCR、ホットスタートPCR、逆PCR(IPCR)、In situ PCR(ISH)、配列間特異的PCR(ISSR-PCR)、ロングPCR、マルチプレックスPCR、ネステッドPCR、定量PCR、逆転写酵素PCR(RT-PCR)、リアルタイムPCR、単一細胞PCR、固相PCR、デジタルPCR、それらの組み合わせ等が挙げられる。例えば、増幅は、特定の実施形態では、デジタルPCRを使用して達成することができる(例えば、Kalininaら、”Nanoliter scale PCR with TaqMan detection.”Nucleic Acids Research.25;1999-2004,(1997);VogelsteinおよびKinzler(Digital PCR.Proc Natl Acad Sci U S A.96;9236-41,(1999);PCT特許公開番号 国際公開第05023091号A2;米国特許公開第20070202525号)。デジタルPCRは、単一分子レベルでの核酸(DNA、cDNAまたはRNA)増幅を利用し、低コピー数核酸を定量するための高感度の方法を提供する。核酸のデジタル増幅および分析のためのシステムが利用可能である(例えば、Fluidigm(登録商標)Corporation)。PCRを行うための試薬およびハードウェアは市販されている。
【0144】
いくつかの実施形態では、増幅産物は、天然に存在するヌクレオチド、天然に存在しないヌクレオチド、ヌクレオチド類縁体等、および前述のものの組み合わせを含み得る。増幅産物は、本明細書の核酸配列またはその相補体と同一または実質的に同一のヌクレオチド配列を有することが多い。増幅産物中の「実質的に同一の」ヌクレオチド配列は、一般に、増幅されるヌクレオチド配列種またはその相補体(例えば、約75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%またはそれよりも多くの配列同一性)に対して高度の配列同一性を有し、変異は、伸長および/または増幅に使用されるポリメラーゼの不忠実性の結果であるときがあるか、または増幅に使用されるプライマーに追加される追加のヌクレオチド配列(複数可)である。
【0145】
プライマー
核酸の検出、増幅、定量、シーケンシングおよび分析に有用なプライマーが提供される。本明細書で使用される場合、「プライマー」という用語は、特定の目的の領域で、またはその付近で(例えば、それに隣接して)、標的核酸にハイブリダイズまたはアニーリングすることができるヌクレオチド配列を含む核酸を指す。プライマーは、例えば、標的核酸ヌクレオチド配列の特異的決定または標的核酸(例えば、配列の有無または配列のコピー数)もしくはその特徴の検出を可能にすることができる。プライマーは、天然に存在するものであってもよく、または合成のものであってもよい。本明細書で使用される場合、「特異的」または「特異性」という用語は、標的ポリヌクレオチドのプライマー等の別の分子への1つの分子の結合またはハイブリダイゼーションを指す。すなわち、「特異的」または「特異性」は、2つの分子のいずれかと他の分子との認識、接触、または複合体形成が実質的に少ない場合と比較した、2つの分子間の認識、接触、および安定な複合体の形成を指す。本明細書で使用される場合、「アニール」という用語は、2つの分子間の安定な複合体の形成を指す。「プライマー」、「オリゴ」、または「オリゴヌクレオチド」という用語は、プライマーを指す場合、本文書全体を通して互換的に使用され得る。
【0146】
プライマー核酸は、適切なプロセスを使用して設計および合成することができ、目的のヌクレオチド配列(例えば、核酸が液相であるか、または固体支持体に結合している場合)にハイブリダイズし、本明細書に記載の分析プロセスを実行するのに適した任意の長さであり得る。プライマーは、標的ヌクレオチド配列に基づいて設計され得る。いくつかの実施形態におけるプライマーは、約10~約100ヌクレオチド、約10~約70ヌクレオチド、約10~約50ヌクレオチド、約15~約30ヌクレオチド、または約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95または100ヌクレオチド長であり得る。プライマーは、天然に存在するおよび/または天然に存在しないヌクレオチド(例えば、標識ヌクレオチド)、またはそれらの混合物から構成され得る。本明細書に記載の実施形態での使用に適したプライマーは、公知の技術を使用して合成および標識することができる。プライマーは、BeaucageおよびCaruthers,Tetrahedron Letts.,22:1859-1862,1981によって最初に記載された固相ホスホラミダイトトリエステル法に従い、Needham-VanDevanterら、Nucleic Acids Res.12:6159-6168,1984記載される自動合成装置を使用して、化学合成することができる。プライマーの精製は、例えば、PearsonおよびRegnier,J.Chrom.,255:137-149,1983に記載されているように、天然アクリルアミドゲル電気泳動またはアニオン交換高速液体クロマトグラフィー(HPLC)によって行うことができる。
【0147】
場合によっては、遺伝子座特異的増幅法を使用することができる(例えば、遺伝子座特異的増幅プライマーの使用)。場合によっては、マルチプレックスSNV対立遺伝子PCRアプローチを使用することができる。場合によっては、マルチプレックスSNV対立遺伝子PCRアプローチをユニプレックスシーケンシングと組み合わせて使用することができる。例えば、そのようなアプローチは、マルチプレックスPCR(例えば、MASSARRAYシステム)の使用と、捕捉プローブ配列のアンプリコンへの組み込みと、それに続く、例えばIllumina MPSSシステムを用いたシーケンシングとを含み得る。場合によっては、マルチプレックスSNV対立遺伝子PCRアプローチを、3プライマーシステムおよびインデックス付きシーケンシングと組み合わせて使用することができる。例えば、そのようなアプローチは、特定の遺伝子座特異的フォワードPCRプライマーに組み込まれた第1の捕捉プローブおよび遺伝子座特異的リバースPCRプライマーに組み込まれたアダプター配列を有するプライマーを用いたマルチプレックスPCR(例えば、MASSARRAYシステム)を使用してアンプリコンを生成し、続いて、例えばIllumina MPSSシステムを使用してシーケンシングのためにリバース捕捉配列および分子インデックスバーコードを組み込む二次PCRを使用することを含み得る。場合によっては、マルチプレックスSNV対立遺伝子PCRアプローチを、4プライマーシステムおよびインデックス付きシーケンシングと組み合わせて使用することができる。例えば、そのようなアプローチは、遺伝子座特異的フォワードPCRプライマーと遺伝子座特異的リバースPCRプライマーの両方に組み込まれたアダプター配列を有するプライマーを用いたマルチプレックスPCR(例えば、MASSARRAYシステム)の使用、続いて、例えばIllumina MPSSシステムを使用するシーケンシングのためにフォワードとリバース捕捉配列の両方および分子インデックスバーコードを組み込む二次PCRを含み得る。場合によっては、マイクロフルイディクスアプローチを使用することができる。場合によっては、アレイベースのマイクロフルイディクスアプローチを使用することができる。例えば、そのようなアプローチは、低プレックスでの増幅ならびにインデックスおよび捕捉プローブの組み込みのためのマイクロ流体アレイ(例えば、Fluidigm)の使用と、それに続くシーケンシングとを含み得る。場合によっては、例えばデジタル液滴PCR等のエマルジョンマイクロフルイディクスアプローチを使用することができる。
【0148】
場合によっては、ユニバーサル増幅法を使用することができる(例えば、ユニバーサルまたは非遺伝子座特異的増幅プライマーの使用)。場合によっては、ユニバーサル増幅法をプルダウンアプローチと組み合わせて使用することができる。場合によっては、本方法は、普遍的に増幅されたシーケンシングライブラリーからのビオチン化ウルトラマープルダウン(例えば、AgilentまたはIDTからのビオチン化プルダウンアッセイ)を含み得る。例えば、そのようなアプローチは、標準ライブラリーの調製、プルダウンアッセイによる選択された領域の濃縮、および二次ユニバーサル増幅工程を含み得る。場合によっては、プルダウンアプローチをライゲーションに基づく方法と組み合わせて使用することができる。場合によっては、本方法は、配列特異的アダプターライゲーション(例えば、HALOPLEX PCR、Halo Genomics)によるビオチン化ウルトラマープルダウンを含み得る。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するためのセレクタープローブの使用、それに続く捕捉産物のアダプターへのライゲーション、およびユニバーサル増幅、それに続くシーケンシング含み得る。場合によっては、プルダウンアプローチを伸長およびライゲーションに基づく方法と組み合わせて使用することができる。場合によっては、方法は、分子反転プローブ(MIP)伸長およびライゲーションを含み得る。例えば、そのようなアプローチは、配列アダプターと組み合わせた分子反転プローブの使用、それに続くユニバーサル増幅およびシーケンシングを含み得る。場合によっては、相補的DNAを増幅せずに合成および配列決定することができる。
【0149】
場合によっては、プルダウン成分なしで伸長およびライゲーション手法を実施することができる。場合によっては、本方法は、遺伝子座特異的フォワードプライマーハイブリダイゼーションおよびリバースプライマーハイブリダイゼーション、伸長およびライゲーションを含み得る。そのような方法は、ユニバーサル増幅または増幅なしの相補的DNA合成、それに続くシーケンシングをさらに含み得る。そのような方法は、場合によっては、分析中のバックグラウンド配列を低減または排除することができる。
【0150】
場合によっては、プルダウンアプローチは、任意の増幅成分と共に、または増幅成分なしで使用することができる。場合によっては、この方法は、ユニバーサル増幅なしで捕捉プローブを完全に組み込んだ改変プルダウンアッセイおよびライゲーションを含み得る。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するための改変されたセレクタープローブの使用、その後の捕捉された産物のアダプターへのライゲーション、任意選択の増幅、およびシーケンシングを含み得る。場合によっては、方法は、環状一本鎖ライゲーションと組み合わせたアダプター配列の伸長およびライゲーションを伴うビオチン化プルダウンアッセイを含み得る。例えば、そのようなアプローチは、目的の領域(すなわち標的配列)を捕捉するためのセレクタープローブの使用、プローブの伸長、アダプターライゲーション、一本鎖環状ライゲーション、任意の増幅、およびシーケンシングを含み得る。場合によっては、シーケンシング結果の分析は、バックグラウンドから標的配列を分離することができる。
【0151】
いくつかの実施形態では、核酸は、本明細書中に記載される1またはそれよりも多くの配列に基づく分離方法を使用して、選択されたゲノム領域(例えば、染色体)からの断片について濃縮される。配列に基づく分離は、一般に、目的の断片(例えば、標的断片および/または参照断片)中に存在し、サンプルの他の断片中に実質的に存在しないか、またはわずかな量の他の断片(例えば5%またはそれ未満)中に存在するヌクレオチド配列に基づく。いくつかの実施形態では、配列に基づく分離は、分離された標的断片および/または分離された参照断片を生成することができる。分離された標的断片および/または分離された参照断片は、典型的には、核酸サンプル中の残りの断片から単離される。場合によっては、分離された標的断片および分離された参照断片も互いに離れて単離される(例えば、別々のアッセイ区画に単離される)。場合によっては、分離された標的断片および分離された参照断片は一緒に単離される(例えば、同じアッセイ区画で単離される)。いくつかの実施形態では、未結合断片を差次的に除去または分解または消化することができる。
【0152】
いくつかの実施形態では、選択的核酸捕捉プロセスを使用して、核酸サンプルから標的および/または参照断片を分離する。市販の核酸捕捉システムとしては、例えば、Nimblegen配列捕捉システム(Roche NimbleGen、ウィスコンシン州マディソン);Illumina BEADARRAYプラットフォーム(Illumina、カリフォルニア州サンディエゴ);Affymetrix GENECHIPプラットフォーム(Affymetrix、カリフォルニア州サンタクララ);Agilent SureSelect標的濃縮システム(Agilent Technologies、カリフォルニア州サンタクララ);および関連プラットフォームが挙げられる。そのような方法は、典型的には、標的または参照断片のヌクレオチド配列の一部または全部に対する捕捉オリゴヌクレオチドのハイブリダイゼーションを含み、固相(例えば、固相アレイ)および/または溶液ベースのプラットフォームの使用を含み得る。捕捉オリゴヌクレオチド(「ベイト」と呼ばれることもある)は、選択されたゲノム領域または遺伝子座(例えば、21、18、13、XもしくはY染色体の一方、または参照染色体)からの核酸断片に優先的にハイブリダイズするように選択または設計することができる。
【0153】
いくつかの実施形態では、核酸は、1またはそれよりも多くの長さに基づく分離方法を使用して、特定の核酸断片長さ、長さの範囲、または特定の閾値もしくはカットオフ以下もしくはそれよりも多くの長さについて濃縮される。核酸断片長は、典型的には、断片中のヌクレオチドの数を指す。核酸断片長は、核酸断片サイズと呼ばれることもある。いくつかの実施形態では、長さに基づく分離方法は、個々の断片の長さを測定することなく行われる。いくつかの実施形態では、長さに基づく分離方法は、個々の断片の長さを決定するための方法と併せて行われる。いくつかの実施形態では、長さに基づく分離は、分画プールの全部または一部を単離(例えば、保持される)および/または分析することができるサイズ分画手順を指す。サイズ分画手順は当技術分野で公知である(例えば、アレイ上での分離、モレキュラーシーブによる分離、ゲル電気泳動による分離、カラムクロマトグラフィー(例えば、サイズ排除カラム)による分離、およびマイクロフルイディクスベースの手法)。場合によっては、長さに基づく分離アプローチとしては、例えば、断片の環状化、化学処置(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG))、質量分析および/またはサイズ特異的核酸増幅を挙げることができる。
【0154】
本明細書中に記載される方法とともに使用され得る特定の長さに基づく分離方法は、例えば、選択的配列タグ付けアプローチを用いる。そのような方法では、断片サイズ種(例えば、短い断片)核酸は、長い核酸および短い核酸を含むサンプル中で選択的にタグ付けされる。そのような方法は、典型的には、内側プライマーおよび外側プライマーを含むネステッドプライマーのセットを使用して核酸増幅反応を行うことを含む。場合によっては、内側の一方または両方をタグ付けし、それによって標的増幅産物にタグを導入することができる。外側プライマーは、一般に、(内側の)標的配列を有する短い断片にアニールしない。内側プライマーは、短い断片にアニールし、タグおよび標的配列を有する増幅産物を生成することができる。典型的には、長い断片のタグ付けは、例えば、事前のアニーリングおよび外側プライマーの伸長による内側プライマーの伸長のブロックを含む機構の組み合わせによって阻害される。タグ付断片の濃縮は、例えば、一本鎖核酸のエキソヌクレアーゼ消化および少なくとも1つのタグに特異的な増幅プライマーを使用したタグ付断片の増幅を含む様々な方法のいずれかによって達成することができる。
【0155】
本明細書に記載の方法と共に使用することができる別の長さに基づく分離方法は、核酸サンプルをポリエチレングリコール(PEG)沈殿に供することを含む。方法の例としては、国際公開第2007/140417号および国際公開第2010/115016号に記載されているものが挙げられる。この方法は一般に、小さい(例えば、300ヌクレオチド未満)核酸を実質的に沈殿させることなく大きい核酸を実質的に沈殿させるのに十分な条件のもと、1またはそれよりも多くの一価塩の存在下で核酸サンプルをPEGと接触させることを伴う。
【0156】
本明細書に記載の方法と共に使用することができる別のサイズに基づく濃縮方法は、例えばサークリガーゼを使用したライゲーションによる環状化を含む。短い核酸断片は、典型的には、長い断片よりも高い効率で環状化することができる。非環状化配列は環状化配列から分離することができ、濃縮された短い断片はさらなる分析に使用することができる。
【0157】
多型核酸標的を検出するためのアッセイ
いくつかの実施形態では、1またはそれよりも多くの多型核酸標的は、当技術分野で公知の1またはそれよりも多くのアッセイを使用して決定することができる。検出、定量、シーケンシング等の方法の非限定的な例としては、質量修飾アンプリコン(例えば、マトリックス支援レーザー脱離イオン化(MALDI)質量分析およびエレクトロスプレー(ES)質量分析)の質量検出、プライマー伸長法(例えば、iPLEX(商標);Sequenom,Inc.)、直接DNAシーケンシング、AffymetrixからのMolecular Inversion Probe(MIP)技術、制限断片長多型(RFLP分析)、対立遺伝子特異的オリゴヌクレオチド(ASO)分析、メチル化特異的PCR(MSPCR)、パイロシーケンシング分析、アシクロプライム分析、リバースドットブロット、GeneChipマイクロアレイ、動的対立遺伝子特異的ハイブリダイゼーション(DASH)、ペプチド核酸(PNA)およびロックド核酸(LNA)プローブ、TaqMan、モレキュラービーコン、インターカレート色素、FRETプライマー、AlphaScreen、SNPstream、遺伝子ビット解析(GBA)、マルチプレックスミニシーケンシング、SNaPshot、GOODアッセイ、マイクロアレイminiseq、アレイプライマー伸長(APEX)、Microarrayプライマー伸長、Tagアレイ、コード化ミクロスフェア、鋳型指向性取り込み(TDI)、蛍光偏光、比色オリゴヌクレオチドライゲーションアッセイ(OLA)、配列コードOLA、マイクロアレイライゲーション、リガーゼ連鎖反応、パドロックプローブ、インベーダーアッセイ、少なくとも1つのプローブを使用するハイブリダイゼーション、少なくとも1つの蛍光標識プローブを使用するハイブリダイゼーション、クローニングおよびシーケンシング、電気泳動、ハイブリダイゼーションプローブおよび定量的リアルタイムポリメラーゼ連鎖反応(QRT-PCR)の使用、デジタルPCR、ナノポアシーケンシング、チップおよびそれらの組み合わせが挙げられる。いくつかの実施形態では、各増幅核酸種の量は、質量分析、プライマー伸長、シーケンシング(例えば、任意の適切な方法、例えばナノポアまたはパイロシーケンシング)、定量PCR(Q-PCRまたはQRT-PCR)、デジタルPCR、それらの組み合わせ等によって決定される。
【0158】
いくつかの実施形態では、アッセイは、本明細書中に記載されるようなシーケンシング反応である。シーケンシング、マッピングおよび関連する分析方法は、当技術分野で公知である(例えば、参照により組み込まれる米国特許出願公開第2009/0029377号)。そのようなプロセスの特定の態様を以下に記載する。
【0159】
いくつかの実施形態では、多型核酸標的は、多型核酸標的を含む領域を増幅するように設計されたプライマーを使用して検出することができる。
【0160】
いくつかの実施形態では、多型核酸標的は、以下にさらに記載されるように、多型核酸標的に隣接する2つのプローブを使用するライゲーションに基づくアッセイを使用して検出することができる。
【0161】
上記の方法のいずれも、一反応で少なくとも5個、少なくとも10個、少なくとも100個または少なくとも200個の多型核酸標的を検出するために使用することができるプローブまたはプライマーを組み合わせることによって多重化することができる。いくつかの実施形態では、多重化反応において検出され得る多型核酸標的の数は、20個~10,000個の間、例えば、30個~5000個の間、50個~950個の間、100個~500個の間、150個~400個の間または200個~350個の間の範囲である。
【0162】
実父確定検査のためにSNVを検出するためのライゲーションベースのアッセイ
プローブ
標的核酸の検出、定量、シーケンシングおよび分析に有用なプローブは、本明細書に記載の実施形態で提供される。いくつかの実施形態では、プローブはセットで使用され、セットは一対のプローブを含む。本明細書で使用される場合、「プローブ」という用語は、特定の目的の領域で、またはその付近で(すなわち、それに隣接して)、標的核酸にハイブリダイズまたはアニーリングすることができるヌクレオチド配列を含む核酸を指す。
【0163】
いくつかの実施形態では、多型核酸標的は、SNV、例えば表1または表5に開示されるSNVである。プローブ対を形成する2つのプローブは、適切な条件下で各SNVを含む標的領域にハイブリダイズするように設計される。2つのプローブの一方は、対立遺伝子特異的プローブであり、すなわち、SNVの1つの特異的対立遺伝子に相補的なヌクレオチドを含み、当該ヌクレオチドは、プローブ対の他方のプローブ(「パートナープローブ」)の近位にある対立遺伝子特異的プローブの末端にある。2つのプローブは、標的領域にハイブリダイズすると互いに直接隣接する。標的領域が特異的対立遺伝子を含む場合、2つのプローブをDNAリガーゼによってライゲートし、連結プローブを形成することができる。標的核酸分子が特異的対立遺伝子を含まない場合、2つのプローブはライゲートしない。対立遺伝子を含む連結プローブを標的(例えば、変性によって)から解離させ、続いてシーケンシングして特異的対立遺伝子を検出することができる。
【0164】
1つの実例が
図10Aおよび
図10Bに示されており、2つのプローブがプローブ対を形成し、これらは両方がSNV遺伝子座に特異的対立遺伝子を含む標的にハイブリダイズしたときに互いにライゲートされる。両方のプローブは、標的核酸分子にハイブリダイズしないプライマーハイブリダイゼーション配列を含む。次いで、連結プローブを増幅し、配列決定する。
【0165】
同じSNV遺伝子座で他の対立遺伝子を検出するためのプローブ対も同様に設計することができる。例えば、各々が一端にSNVの異なる特異的対立遺伝子に相補的なヌクレオチドを含む複数の対立遺伝子特異的プローブ(例えば、2、3または4個の対立遺伝子特異的プローブ)を使用して、1つのSNV遺伝子座で全ての可能な対立遺伝子を検出することができる。各対立遺伝子特異的プローブは、SNVの特異的対立遺伝子を含む標的領域にハイブリダイズするために、パートナープローブと対合される。対立遺伝子特異的プローブおよびそのパートナープローブは、互いに直接隣接している。これらのプローブ対のライゲーションから形成された連結プローブは、SNVの様々な対立遺伝子を検出するために配列決定される。
【0166】
例示的な一実施形態では、2つのDNAプローブが、表5の各SNVの各対立遺伝子遺伝子遺伝子遺伝子型を検出するように設計される。例えば、SNV遺伝子座に2つの対立遺伝子AおよびGがある場合、2つのプローブはA対立遺伝子を検出するように設計され、2つのプローブはG対立遺伝子を検出するように設計される。
【0167】
いくつかの実施形態では、1つまたは両方のプローブは、1またはそれよりも多くの追加の配列、例えば、サンプル起源(すなわち、一意のサンプル識別子)を同定するための1またはそれよりも多くの配列、増幅プライマーにハイブリダイズするための1またはそれよりも多くのプライマー結合配列、および/またはシーケンシングプライマーにハイブリダイズするための1またはそれよりも多くのプライマー(primber)結合配列を含む。いくつかの実施形態では、増幅プライマーはユニバーサルプライマーである。連結プローブを標的核酸分子から解離させた後、増幅プライマーを連結プローブにアニーリングして、連結プローブのコピーを作製する。
【0168】
いくつかの実施形態では、連結プローブは、シーケンシングの前に増幅される。連結プローブ(または増幅された連結プローブ)を配列決定することができ、SNVの様々な対立遺伝子を含む連結プローブの配列リードをカウントすることができる。このSNV遺伝子座における各対立遺伝子の対立遺伝子頻度は、SNVの全ての異なる対立遺伝子の配列リードの数に基づいて決定することができる。有益なSNVは、上記のように対立遺伝子頻度に基づいて選択され、これは、妊娠中の母親および擬父の遺伝子型の情報と組み合わせて、擬父が生物学的父親であるかどうかを本明細書(例えば、「多型核酸標的の選択」、「有益な多型核酸標的の同定」および「父子関係の判定」と題された上記のセクション)に開示される方法を用いて決定するために使用することができる。
【0169】
いくつかの実施形態では、レシピエントサンプル中の胎児特異的無細胞核酸の相対存在量は、多型部位の対立遺伝子(参照対立遺伝子および1またはそれよりも多くの代替対立遺伝子)のそれぞれについて、参照ゲノム上の標的核酸配列にマッピングされたユニーク配列リードの総数のパラメータとして決定することができる。いくつかの実施形態では、アッセイはハイスループットシーケンシングである。いくつかの実施形態では、アッセイはデジタルポリメラーゼ連鎖反応(dPCR)である。いくつかの実施形態では、アッセイはマイクロアレイ分析である。
【0170】
いくつかの実施形態では、シーケンシングプロセスは、本明細書に記載の合成方法によるシーケンシングである。典型的には、合成方法によるシーケンシングは複数の合成サイクルを含み、それによって相補的ヌクレオチドが一本鎖鋳型に付加され、各サイクル中に同定される。サイクル数は、一般に、リードの長さに対応する。場合によっては、多型標的は、増幅プライマー配列および多型標的部位(例えば、SNV)をリードに含めるために最小リード長(すなわち、最小サイクル数)が必要とされるように選択される。場合によっては、増幅プライマー配列は、約10~約30ヌクレオチドを含む。例えば、増幅プライマー配列は、いくつかの実施形態では、約11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28または29ヌクレオチドを含み得る。場合によっては、増幅プライマー配列は約20ヌクレオチドを含む。いくつかの実施形態では、SNV部位は、増幅プライマーの3’末端から1ヌクレオチド塩基位置(すなわち、3’末端に隣接)から約30塩基位置内に位置する。例えば、SNV部位は、増幅プライマー末端の2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28または29ヌクレオチド以内であり得る。リード長は、増幅プライマー配列および多型配列または位置を含む任意の長さであり得る。いくつかの実施形態では、リード長は、約10ヌクレオチド長~約50ヌクレオチド長であり得る。例えば、リード長は、約15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40または45ヌクレオチド長であり得る。場合によっては、リード長は約36ヌクレオチドである。場合によっては、リード長は約27ヌクレオチドである。したがって、場合によっては、合成方法によるシーケンシングは約36サイクルを含み、時には約27サイクルを含む。
【0171】
いくつかの実施形態では、複数のサンプルが単一の区画(例えば、フローセル)において配列決定され、これは本明細書ではサンプルの多重化と呼ばれることがある。したがって、いくつかの実施形態では、多重化アッセイにおいて複数のサンプルについて胎児特異的核酸分率が決定される。例えば、胎児特異的核酸分率は、約10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000またはそれよりも多くのサンプルについて決定され得る。場合によっては、胎児特異的核酸分率を約10個またはそれよりも多くのサンプルについて決定する。場合によっては、胎児特異的核酸分率を約100個またはそれよりも多くのサンプルについて決定する。場合によっては、胎児特異的核酸分率を約1000個またはそれよりも多くのサンプルについて決定する。
【0172】
典型的には、配列リードは、低品質の配列リードを除外するために監視およびフィルタリングされる。本明細書で使用される場合、「フィルタリング」という用語は、考慮すべきものからデータの一部またはデータのセットを除去し、データのサブセットを保持することを指す。配列リードは、冗長なデータ(例えば、重複または重複するマッピングされたリード)、有益でないデータ、過剰に表されたまたは過小に表された配列、ノイズの多いデータ等、または前述の組み合わせを含むがこれらに限定されない任意の適切な基準に基づいて除去のために選択され得る。フィルタリングプロセスは、1またはそれよりも多くのリードおよび/またはリード対(例えば、不一致リード対)を考慮から除去することを含むことが多い。リード、リード対および/または有益なSNVの有無について分析されたデータセットからの候補SNVを含むリードの数を減らすことは、データセットの複雑さおよび/または次元を減少させることが多く、有益なSNVを探索および/または同定する速度を2桁またはそれを超えて増加させることがある。
【0173】
核酸検出および/または定量化はまた、例えば、PCR中もしくはPCR後に組み込まれた蛍光標識を有する蛍光標識核酸の固体支持アレイに基づく検出、溶液中のもしくは固相に捕捉された蛍光標識分子の単分子検出、または他のシーケンシング技術(例えば、ION TORRENTもしくはMISEQプラットフォームを使用したシーケンシング等)、または機器を使用した単分子シーケンシング技術(例えば、PACBIOシーケンサ、HELICOSシーケンサ、もしくはナノポアシーケンシング技術等)を含み得る。
【0174】
場合によっては、シーケンシング検出プロセスを含む方法によって生成された核酸定量を、異なる検出プロセス(例えば、質量分析)を含む方法によって生成された核酸定量と比較することができる。そのような比較は、2つのアウトカム(例えば、核酸定量)間の相関の尺度であるR2値を使用して表すことができる。場合によっては、核酸定量(例えば、胎児コピー数の定量化)は、異なる検出プロセス(例えば、シーケンシングおよび質量分析)を使用して生成された定量に対して高度に相関している(すなわち、高いR2値を有する)。場合によっては、異なる検出プロセスを使用して生成された核酸定量のためのR2値は、約0.90~約1.0の間であり得る。例えば、R2値は、約0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、または0.99であり得る。
【0175】
いくつかの実施形態では、多型核酸標的は、制限断片長多型(RFLP)である。RFLP検出は、核酸を酵素で切断することによって実施され得、切断された産物にハイブリダイズし、したがって対立遺伝子に対応するユニークなサイズの制限断片を定義するプローブで評価され得る。RFLPは、胎児無細胞核酸を検出するために使用することができる。実例として、ホモ接合の母親が、制限断片長多型プローブにハイブリダイズする特定の制限酵素によって生成された単一断片のみを有する場合、ヘテロ接合の胎児を妊娠中、妊娠中の母親の無細胞核酸は、酵素によって生成された同じプローブにハイブリダイズする2つの明確なサイズの断片を有する。したがって、RFLPの検出を使用して、胎児特異的無細胞核酸の存在を同定することができる。
【0176】
ポリヌクレオチド配列決定のための技術もまた、十分に確立されており、関連する研究分野において広く実施されている。例えば、ポリヌクレオチドシーケンシングのための基本原理および一般的な技術は、分子生物学および組換え遺伝学に関する様々な研究報告および論文(上記Wallace et al.,;上記SambrookおよびRussell、および上記Ausubel et al.,)に記載されている。手動または自動のいずれかで、研究室で日常的に実施されるDNAシーケンシング法を、本技術を実施するために使用することができる。本技術の方法を実施するためのポリヌクレオチド配列の変化を検出するのに適したさらなる手段としては、質量分析、プライマー伸長、ポリヌクレオチドハイブリダイゼーション、リアルタイムPCRおよび電気泳動が挙げられるが、これらに限定されない。
【0177】
プライマー伸長反応の使用も、本明細書の技術の方法に適用することができる。プライマー伸長反応は、例えば、SNV部位に隣接する領域にハイブリダイズするプライマー伸長プライマーにデオキシヌクレオチドおよび/またはジデオキシヌクレオチドを組み込むことによってSNV対立遺伝子を識別することにより作動する。プライマーをポリメラーゼで伸長する。プライマー伸長SNVは、質量分析またはビオチン等のタグ付け部分によって物理的に検出することができる。SNV部位は、特定の標識によってタグ付けされるかまたは特定の質量を有するプライマー伸長産物を生成する相補的デオキシヌクレオチドまたはジデオキシヌクレオチドによってのみ伸長されるため、SNV対立遺伝子を識別および定量することができる。
【0178】
逆転写および増幅された核酸は、修飾核酸であり得る。修飾核酸は、ヌクレオチド類縁体を含むことができ、特定の実施形態では、検出可能な標識および/または捕捉剤を含む。検出可能な標識の例としては、限定されないが、フルオロフォア、放射性同位元素、比色剤、発光剤、化学発光剤、光散乱剤、酵素等が挙げられる。捕捉剤の例としては、抗体/抗原、抗体/抗体、抗体/抗体断片、抗体/抗体受容体、抗体/プロテインAまたはプロテインG、ハプテン/抗ハプテン、ビオチン/アビジン、ビオチン/ストレプトアビジン、葉酸/葉酸結合タンパク質、ビタミンB12/内因性因子、化学反応基/相補化学反応基(例えば、スルフヒドリル/マレイミド、スルフヒドリル/ハロアセチル誘導体、アミン/イソトリシアネート、アミン/スクシンイミジルエステル、およびアミン/スルホニルハライド)対等から選択される結合対からの薬剤が挙げられるが、これらに限定されない。特定の実施形態では、捕捉剤を有する修飾核酸を固体支持体に固定化することができる。
【0179】
質量分析は、本明細書の技術のポリヌクレオチド、例えば標的核酸から切断されるPCRアンプリコン、プライマー伸長産物または検出プローブの検出に特に有効な方法である。ポリヌクレオチド配列の存在は、検出されたシグナルの質量を目的のポリヌクレオチドの予想質量と比較することによって検証される。特定のポリヌクレオチド配列に対する相対的なシグナル強度、例えば、スペクトル上の質量ピークは、特定の対立遺伝子の相対的な集団を示し、したがって、データから対立遺伝子比を直接計算することを可能にする。Sequenom(登録商標)標準iPLEX(商標)アッセイおよびMassARRAY(登録商標)技術を使用した遺伝子タイピング方法の概説については、それらの両方が参照により本明細書に組み込まれる、Jurinke,C.,Oeth,P.,van den Boom,D.,”MALDI-TOF mass spectrometry:a versatile tool for high-performance DNA analysis.”Mol.Biotechnol.26,147-164(2004);およびOeth,P.ら、”iPLEX(商標)Assay:Increased Plexing Efficiency and Flexibility for MassARRAY(登録商標)System through single base primer extension with mass-modified Terminators.” SEQUENOM Application Note(2005)を参照されたい。増幅プロセス中に切断され、質量分析によって検出される切断可能な検出プローブを使用して標的核酸を検出および定量することの総説については、2007年12月4日に出願され、参照により本明細書に組み込まれる米国特許出願第11/950,395号を参照されたい。
【0180】
使用に適した様々なシーケンシング技術としては、合成によるシーケンシング、可逆的ターミネーターに基づくシーケンシング、454シーケンシング(Roche)(Margulies,M.et al.2005 Nature 437,376-380)、Applied BiosystemsのSOLiD(商標)技術、Helicos True Single Molecule Sequencing(tSMS)、Pacific Biosciencesの単一分子、リアルタイム(SMRT(商標))シーケンシング技術、ION TORRENT(Life Technologies)単一分子シーケンシング、化学感応性電界効果トランジスタ(CHEMFET)アレイ、電子顕微鏡シーケンシング技術、デジタルPCR、ハイブリダイゼーションによるシーケンシング、ナノポアシーケンシング、Illumina Genome Analyzer(またはSolexa platform)またはSOLiDシステム(Applied Biosystems)またはHelicos True Single Molecule DNAシーケンシング技術(Harris T D et al.2008 Science,320,106-109)、Pacific Biosciencesの単一分子リアルタイム(SMRT.TM.)技術、およびナノポアシーケンシング(Soni GVおよびMeller A.2007 Clin Chem 53:1996-2001)が挙げられる。これらの方法の多くは、検体から単離された多くの核酸分子のシーケンシングを、並列様式での高次多重化で可能にする(Dear Brief Funct Genomic Proteomic 2003;1:397-416)。
【0181】
クローン的に拡大されたまたは増幅されていない核酸断片の単一分子のシーケンシングを可能にする多くのシーケンシングプラットフォームを、胎児特異的無細胞核酸を検出するために使用することができる。特定のプラットフォームは、例えば、(i)色素修飾プローブのライゲーション(環状ライゲーションおよび切断を含む)によるシーケンシング、(ii)パイロシーケンシング、および(iii)単一分子シーケンシングを含む。ヌクレオチド配列種、増幅核酸種、およびそこから生成された検出可能な生成物は、そのような配列分析プラットフォームによってヌクレオチド配列を分析する目的のための「研究核酸」と考えることができる。
【0182】
ライゲーションによるシーケンシングは、DNAリガーゼの塩基対合ミスマッチに対する感受性に依存する核酸シーケンシングである。DNAリガーゼは、正しく塩基対を形成しているDNAの末端を結合する。蛍光標識されたオリゴヌクレオチドまたはプライマーの混合プールを用いて、DNAリガーゼが正しく塩基対を形成したDNA末端のみを一緒に連結する能力を組み合わせることにより、蛍光検出による配列決定が可能になる。より長い配列リードは、標識同定後に切断され得る切断可能な結合を含むプライマーを含めることによって得ることができる。リンカーにおける切断は、標識を除去し、ライゲートされたプライマーの末端に5’リン酸を再生し、別のライゲーションラウンドのためのプライマーを調製する。いくつかの実施形態では、プライマーは、2つを超える蛍光標識(例えば、1つの蛍光標識、2つ、3つまたは4つの蛍光標識)で標識され得る。
【0183】
ライゲーションによるシーケンシングに基づいて当業者によって使用され得るシステムの一例は、一般に、以下の工程を含む。クローンビーズ集団は、研究核酸(「鋳型」)、増幅反応成分、ビーズおよびプライマーを含有するエマルジョンマイクロリアクタで調製することができる。増幅後、鋳型を変性させ、ビーズ濃縮を行って、伸長した鋳型を有するビーズを望ましくないビーズから分離する(例えば、拡張鋳型を有しないビーズ)。選択されたビーズ上の鋳型は、スライドへの共有結合を可能にするために3’修飾を受け、修飾されたビーズをガラススライド上に堆積させることができる。堆積チャンバは、ビーズ充填プロセス中にスライドを1つ、4つまたは8つのチャンバに分割する能力を提供する。配列分析のために、プライマーはアダプター配列にハイブリダイズする。4色染料標識プローブのセットは、シーケンシングプライマーへのライゲーションについて競合する。プローブライゲーションの特異性は、ライゲーションシリーズ中に4塩基目および5塩基目ごとに調べることによって達成される。5~7ラウンドのライゲーション、検出および切断は、使用されるライブラリーの種類によって決定されるラウンド数で、5つおきの位置で色を記録する。ライゲーションの各回に続いて、別の一連のライゲーションのために、5’方向に1塩基だけオフセットした新しい相補的プライマーを置く。プライマーリセットおよびライゲーションラウンド(1ラウンドあたり5~7ライゲーションサイクル)を連続して5回繰り返して、単一タグに対して25~35塩基対の配列を生成する。一致対シーケンシングでは、このプロセスは第2のタグに対して繰り返される。そのようなシステムは、本明細書に記載の方法によって生成された増幅産物を指数関数的に増幅するために、例えば、本明細書に記載の方法によって生成された第1の増幅産物に異種核酸を連結し、第1の増幅産物を生成するために最初に使用された同じまたは異なる固体支持体を使用してエマルジョン増幅を行うことによって使用することができる。そのようなシステムはまた、指数関数的増幅プロセスを迂回し、スライドガラス上の本明細書に記載の固体支持体を直接選別することによって、本明細書に記載のプロセスによって直接生成された増幅産物を分析するために使用され得る。
【0184】
パイロシーケンシングは、合成によるシーケンシングに基づく核酸シーケンシング法であり、ヌクレオチド取り込み時に放出されるピロリン酸の検出に依存する。一般に、合成によるシーケンシングは、配列が求められている鎖に相補的なDNA鎖を一度に1ヌクレオチドずつ合成することを含む。研究核酸は、固体支持体に固定化され、シーケンシングプライマーとハイブリダイズされ、DNAポリメラーゼ、ATPスルフリラーゼ、ルシフェラーゼ、アピラーゼ、アデノシン5’ホスフェートおよびルシフェリンとインキュベートされ得る。ヌクレオチド溶液を順次添加し、除去する。ヌクレオチドの正しい組み込みは、ATPスルフリラーゼと相互作用し、アデノシン5’ホスフェートの存在下でATPを産生するピロリン酸を放出し、ルシフェリン反応を促進し、配列決定を可能にする化学発光シグナルを生成する。
【0185】
パイロシーケンシングに基づいて当業者によって使用され得るシステムの一例は、一般に以下を含む:アダプター核酸を研究核酸にライゲートし、研究核酸をビーズにハイブリダイズさせる工程;エマルジョン中の研究核酸中のヌクレオチド配列を増幅する工程;ピコリットルのマルチウェル固体支持体を使用してビーズを選別する工程;およびパイロシーケンシング方法論(例えば、Nakanoら、”Single-molecule PCR using water-in-oil emulsion;”Journal of Biotechnology 102:117-124(2003))による増幅されたヌクレオチド配列をシーケンシングする工程。そのようなシステムは、例えば、異種核酸を本明細書に記載の方法によって生成された第1の増幅産物にライゲートすることによって、本明細書に記載の方法によって生成された増幅産物を指数関数的に増幅するために使用することができる。
【0186】
特定の一分子シーケンシング実施形態は、合成によるシーケンシングの原理に基づいており、ヌクレオチド取り込みの成功の結果として光子が放出される機構として単対蛍光共鳴エネルギー移動(単対FRET)を利用する。放出された光子は、全反射顕微鏡(TIRM)と組み合わせて、強化または高感度の冷却電荷結合素子を使用して検出されることが多い。導入された反応溶液が、シーケンシングプロセスの結果として合成される成長中の核酸鎖に組み込むための正しいヌクレオチドを含有する場合にのみ、光子が放出される。FRETベースの一分子シーケンシングでは、長距離双極子相互作用を介して、2つの蛍光色素、時にはポリメチンシアニン色素Cy3とCy5との間でエネルギーが伝達される。ドナーは、その特定の励起波長で励起され、励起状態エネルギーは、非放射的にアクセプター色素に伝達され、次いでアクセプター色素が励起される。アクセプター色素は、光子の放射放出によって最終的に基底状態に戻る。エネルギー移動プロセスで使用される2つの染料は、単一ペアFRETにおいて、「単一ペア」を表す。Cy3は、ドナーフルオロフォアとして使用されることが多く、第1の標識ヌクレオチドとして組み込まれることが多い。Cy5は、アクセプターフルオロフォアとして使用されることが多く、最初のCy3標識ヌクレオチドの組み込み後の連続的なヌクレオチド付加のためのヌクレオチド標識として使用される。フルオロフォアは、一般に、エネルギー伝達がうまく起こるようにそれぞれ10ナノメートル以内である。
【0187】
単一分子シーケンシングに基づいて使用することができるシステムの例は、一般に、プライマーを研究核酸にハイブリダイズさせて複合体を生成すること;複合体を固相と会合させること;蛍光分子でタグ付けされたヌクレオチドによってプライマーを反復的に伸長させること;各反復の後に蛍光共鳴エネルギー移動信号の画像を取り込むこと(例えば、米国特許第7,169,314号;Braslavskyら、PNAS 100(7):3960-3964(2003))、を含む。そのようなシステムは、本明細書に記載のプロセスによって生成された増幅産物を直接配列決定するために使用することができる。いくつかの実施形態では、放出された線状増幅産物は、固体支持体、例えばビーズまたはガラススライド上に存在する固定化された捕捉配列に相補的な配列を含むプライマーにハイブリダイズすることができる。プライマー放出線形増幅産物複合体と固定化捕捉配列とのハイブリダイゼーションは、合成による単一対FRETベースのシーケンシングのために、放出線形増幅産物を固体支持体に固定化する。プライマーは、多くの場合、固定化された核酸を有するスライドの表面の初期参照画像を生成することができるように蛍光性である。初期参照画像は、真のヌクレオチド取り込みが起こっている位置を決定するのに有用である。「プライマーのみ」の参照画像で最初に同定されなかったアレイ位置で検出された蛍光シグナルは、非特異的蛍光として廃棄される。プライマー放出線形増幅産物複合体の固定化後、結合した核酸は、a)1つの蛍光標識ヌクレオチドの存在下でのポリメラーゼ伸長、b)適切な顕微鏡法を用いた蛍光の検出、例えばTIRM、c)蛍光ヌクレオチドの除去、およびd)異なる蛍光標識ヌクレオチドを有する工程aに戻る反復工程によって並行して配列決定されることが多い。
【0188】
いくつかの実施形態では、ヌクレオチドシーケンシングは、固相単一ヌクレオチドシーケンシング方法およびプロセスによるものであり得る。固相単一ヌクレオチドシーケンシング方法は、サンプル核酸の単一分子が固体支持体の単一分子にハイブリダイズする条件下でサンプル核酸と固体支持体とを接触させることを含む。そのような条件は、固体支持体分子および単一分子のサンプル核酸を「マイクロリアクタ」内に提供することを含み得る。そのような条件はまた、サンプル核酸分子が固体支持体上の固相核酸にハイブリダイズすることができる混合物を提供することを含み得る。本明細書に記載の実施形態において有用な一塩基シーケンシング法は、2008年1月17日に出願された米国仮特許出願第61/021,871号に記載されている。
【0189】
特定の実施形態では、ナノポアシーケンシング検出方法は、(a)シーケンシングのための核酸(「塩基核酸、」、例えば連結プローブ分子)を、塩基核酸の実質的に相補的な部分配列に検出器が特異的にハイブリダイズする条件下で、配列特異的検出器と接触させること、(b)検出器からのシグナルを検出すること、および(c)検出されたシグナルに従って塩基核酸の配列を決定すること、を含む。特定の実施形態では、塩基核酸が細孔を通過する際に検出器がナノポア構造と干渉する場合、塩基核酸にハイブリダイズした検出器は塩基核酸から解離し(例えば、順次解離される)、塩基配列から解離した検出器が検出される。いくつかの実施形態では、塩基核酸から解離した検出器は検出可能なシグナルを放出し、塩基核酸にハイブリダイズした検出器は異なる検出可能なシグナルを放出するか、または検出可能なシグナルを放出しない。特定の実施形態では、核酸(例えば、連結プローブ分子)中のヌクレオチドは、特定のヌクレオチド(「ヌクレオチド代表」に対応する特定のヌクレオチド配列で置換され、それによって、拡張された核酸(例えば、米国特許第6,723,513号)を生じ、検出器は、塩基核酸として働く、拡張された核酸中のヌクレオチド代表にハイブリダイズする。そのような実施形態では、ヌクレオチド代表は、二次またはより高次の配置(例えば、SoniおよびMeller,Clinical Chemistry 53(11):1996-2001(2007))で配置され得る。いくつかの実施形態では、核酸は拡大されず、拡大された核酸を生じず、塩基核酸(例えば、連結プローブ分子は、非伸長塩基核酸として機能する)に直接機能し、検出器は塩基核酸と直接接触する。例えば、第1の検出器は第1の部分配列にハイブリダイズし得、第2の検出器は第2の部分配列にハイブリダイズし得、第1の検出器および第2の検出器は各々、互いに区別することができる検出可能な標識を有し、第1の検出器および第2の検出器からのシグナルは、検出器が塩基核酸から解離しているときに互いに区別することができる。特定の実施形態では、検出器は、約3~約100ヌクレオチド長(例えば、約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、50、55、60、65、70、75、80、85、90または95ヌクレオチド長)であり得る塩基核酸にハイブリダイズする領域(例えば、2つの領域)を含む。検出器はまた、塩基核酸にハイブリダイズしないヌクレオチドの1またはそれよりも多くの領域を含み得る。いくつかの実施形態では、検出器は分子ビーコンである。検出器は、本明細書に記載のものから独立して選択される1またはそれよりも多くの検出可能な標識を含むことが多い。各検出可能な標識は、各標識によって生成されるシグナル(例えば、磁気、電気、化学、光学等)を検出することができる任意の好都合な検出プロセスによって検出することができる。例えば、CDカメラを使用して、検出器に連結された1またはそれよりも多くの区別可能な量子ドットからの信号を検出することができる。
【0190】
特定の配列分析実施形態では、リードは、より大きなヌクレオチド配列を構築するために使用され得、これは、異なるリードにおける重複配列を同定することによって、およびリードにおける同定配列を使用することによって促進され得る。リードからより大きな配列を構築するためのそのような配列分析方法およびソフトウェアは、当業者に公知である(例えば、Venterら、Science 291:1304-1351(2001))。特定のリード、部分的なヌクレオチド配列構築物、および完全なヌクレオチド配列構築物は、サンプル核酸(すなわち、内部比較)内のヌクレオチド配列間で比較され得るか、または特定の配列分析実施形態において参照配列(すなわち、参照比較)と比較され得る。内部比較は、サンプル核酸が複数のサンプルから、または配列変異を含む単一のサンプル供給源から調製される状況で行われるときがある。参照比較は、参照ヌクレオチド配列が知られており、目的が、サンプル核酸が参照ヌクレオチド配列と実質的に類似しているか、同じであるか、または異なるヌクレオチド配列を含むかどうかを決定することであるときに行われるときがある。配列分析は、当業者に公知の配列分析装置およびコンポーネントによって促進される。
【0191】
本明細書で提供される方法は、複数の核酸(例えば、ヌクレオチド配列種、増幅された核酸種および前述のものから生成された検出可能な生成物)中の核酸種のハイスループット検出を可能にする。多重化とは、2つを超える核酸種の同時検出を指す。質量分析と併せて多重化反応を行うための一般的な方法が知られている(例えば、第6,043,031号、第5,547,835号およびPCT出願の国際公開第97/37041号)。多重化は、個々の標的核酸種ごとに別個の質量分析を実施しなければならないのと比較して、複数の核酸種(例えば、いくつかは異なる配列変異を有する)を単一のマススペクトルほどの少なさで同定できるという利点を提供する。本明細書で提供される方法は、いくつかの実施形態では、高速かつ正確に配列変異を分析するためのハイスループットで高度に自動化されたプロセスに役立つ。いくつかの実施形態では、本明細書中の方法は、単一の反応において高レベルで多重化され得る。
【0192】
一定の実施形態では、多重化される核酸種の数には、約1~約500(例えば、約1~3、3~5、5~7、7~9、9~11、11~13、13~15、15~17、17~19、19~21、21~23、23~25、25~27、27~29、29~31、31~33、33~35、35~37、37~39、39~41、41~43、43~45、45~47、47~49、49~51、51~53、53~55、55~57、57~59、59~61、61~63、63~65、65~67、67~69、69~71、71~73、73~75、75~77、77~79、79~81、81~83、83~85、85~87、87~89、89~91、91~93、93~95、95~97、97~101、101~103、103~105、105~107、107~109、109~111、111~113、113~115、115~117、117~119、121~123、123~125、125~127、127~129、129~131、131~133、133~135、135~137、137~139、139~141、141~143、143~145、145~147、147~149、149~151、151~153、153~155、155~157、157~159、159~161、161~163、163~165、165~167、167~169、169~171、171~173、173~175、175~177、177~179、179~181、181~183、183~185、185~187、187~189、189~191、191~193、193~195、195~197、197~199、199~201、201~203、203~205、205~207、207~209、209~211、211~213、213~215、215~217、217~219、219~221、221~223、223~225、225~227、227~229、229~231、231~233、233~235、235~237、237~239、239~241、241~243、243~245、245~247、247~249、249~251、251~253、253~255、255~257、257~259、259~261、261~263、263~265、265~267、267~269、269~271、271~273、273~275、275~277、277~279、279~281、281~283、283~285、285~287、287~289、289~291、291~293、293~295、295~297、297~299、299~301、301~303、303~305、305~307、307~309、309~311、311~313、313~315、315~317、317~319、319~321、321~323、323~325、325~327、327~329、329~331、331~333、333~335、335~337、337~339、339~341、341~343、343~345、345~347、347~349、349~351、351~353、353~355、355~357、357~359、359~361、361~363、363~365、365~367、367~369、369~371、371~373、373~375、375~377、377~379、379~381、381~383、383~385、385~387、387~389、389~391、391~393、393~395、395~397、397~401、401~403、403~405、405~407、407~409、409~411、411~413、413~415、415~417、417~419、419~421、421~423、423~425、425~427、427~429、429~431、431~433、433~435、435~437、437~439、439~441、441~443、443~445、445~447、447~449、449~451、451~453、453~455、455~457、457~459、459~461、461~463、463~465、465~467、467~469、469~471、471~473、473~475、475~477、477~479、479~481、481~483、483~485、485~487、487~489、489~491、491~493、493~495、495~497、497~501)が含まれるが、これらに限定されない。
【0193】
多重化アッセイを用いて分解マススペクトルを達成するための設計方法は、プライマーおよびオリゴヌクレオチド設計方法ならびに反応設計方法を含み得る。多重化アッセイにおけるプライマーおよびオリゴヌクレオチド設計のために、プライマーデザインのための同じ一般的なガイドラインが、偽プライミングおよびプライマー二量体を回避する等、多重化反応に適用され、より多くのプライマーのみが、多重化反応に関与する。質量分析用途では、1つのアッセイのマススペクトル中の分析物ピークは、休止ピークおよび任意の他の副生成物ピークを含む、そのアッセイが多重化される任意のアッセイの生成物から十分に分離される。また、分析物ピークは、最適にはユーザ指定の質量ウインドウ、例えば5,000~8,500Daの範囲内に入る。いくつかの実施形態では、多重分析は、例えば、染色体異常の質量分析検出に適合され得る。特定の実施形態では、多重分析は、本明細書中に記載される様々な単一ヌクレオチドまたはナノポアベースのシーケンシング方法に適合され得る。多重分析を容易にするために、市販のマイクロ反応チャンバまたはデバイスまたはアレイまたはチップを使用してもよく、これらは市販されている。
【0194】
アダプター
いくつかの実施形態では、核酸(例えば、PCRプライマー、PCRアンプリコン、サンプル核酸)は、アダプター配列および/またはその相補体を含み得る。アダプター配列は、例えば、本明細書に記載の合成によるシーケンシングプロセス等の特定のシーケンシング方法に有用であることが多い。アダプターは、シーケンシングアダプターまたはアダプターオリゴヌクレオチドと呼ばれることもある。アダプター配列は、典型的には、固体支持体(例えば、フローセル)への付着に有用な1またはそれよりも多くの部位を含む。アダプターはまた、以下に記載されるように、シーケンシングプライマーハイブリダイゼーション部位(すなわち、シーケンシング反応で使用されるプライマーに相補的な配列)および識別子(例えば、インデックス)を含み得る。アダプター配列は、核酸の5’および/または3’末端に位置することができ、時にはより大きな核酸配列内に位置することができる。アダプタは、任意の長さおよび任意の配列とすることができ、アダプタ設計のための当技術分野における標準的な方法に基づいて選択することができる。
【0195】
1またはそれよりも多くのアダプターオリゴヌクレオチドを、アダプター配列を核酸に組み込むのに適した任意の方法によって核酸(例えば、PCRアンプリコン)に組み込むことができる。例えば、PCRアンプリコン(すなわち、増幅産物)を生成するために使用されるPCRプライマーは、アダプター配列またはその相補体を含み得る。したがって、1またはそれよりも多くのアダプター配列を含むPCRアンプリコンを増幅プロセス中に生成することができる。場合によっては、アダプター配列を核酸に付着させるのに適した任意のライゲーション方法によって、1またはそれよりも多くのアダプター配列を核酸(例えば、PCRアンプリコン)にライゲートすることができる。ライゲーションプロセスには、例えば、平滑末端ライゲーション、増幅プロセス中にTaqポリメラーゼによって生成された3’アデニン(A)オーバーハングを利用し、3’チミン(T)オーバーハングを有するアダプターをライゲートするライゲーション、ならびに他の「粘着末端」ライゲーションが含まれ得る。アダプター配列が核酸の各末端にハイブリダイズし、互いにハイブリダイズしないように、ライゲーション過程を最適化することができる。
【0196】
場合によっては、アダプターライゲーションは双方向であり、これは、核酸の両端がその後のシーケンシングプロセスでシーケンシングされるように、アダプター配列が核酸に結合していることを意味する。場合によっては、アダプターライゲーションは一方向的であり、これは、核酸の一端が後続のシーケンシングプロセスでシーケンシングされるように、アダプター配列が核酸に結合していることを意味する。一方向および双方向ライゲーション方式の例は、米国特許出願公開第20170058350号に記載されている通りであり、本開示全体は参照により本明細書に組み込まれる。
【0197】
識別子
いくつかの実施形態では、核酸(例えば、PCRプライマー、PCRアンプリコン、サンプル核酸、シーケンシングアダプター)は識別子を含み得る。場合によっては、識別子は、アダプター配列内またはアダプター配列に隣接して配置される。識別子は、核酸標的配列の特定の起源または態様を識別することができる任意の特徴であり得る。例えば、識別子(例えば、サンプル識別子)は、特定の核酸標的配列が由来するサンプルを識別することができる。別の例では、識別子(例えば、サンプルアリコート識別子)は、特定の核酸標的配列が由来するサンプルアリコートを識別することができる。別の例では、識別子(例えば、染色体識別子)は、特定の核酸標的配列が由来する染色体を識別することができる。識別子は、本明細書ではタグ、インデックス、バーコード、識別タグ、インデックスプライマー等と呼ばれることがある。識別子は、ヌクレオチドのユニークな配列(例えば、配列ベースの識別子)、検出可能な標識、例えば下記の標識(例えば、識別子ラベル)、および/または特定の長さのポリヌクレオチド(例えば、長さベースの識別子;サイズベースの識別子)、例えばスタッファー配列であり得る。例えば、サンプルまたは複数の染色体の集合体の識別子はそれぞれ、ユニークなヌクレオチドの配列を含み得る。識別子(例えば、シーケンスベースの識別子、長さベースの識別子)は、特定の標的ゲノム配列を他の標的ゲノム配列と区別するのに適した任意の長さであり得る。いくつかの実施形態では、識別子は、約1~約100ヌクレオチド長であり得る。例えば、識別子は、独立して、約1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90または100ヌクレオチド長であり得る。いくつかの実施形態では、識別子は6ヌクレオチドの配列を含む。場合によっては、識別子は、例えば本明細書でさらに詳細に記載される合成によるシーケンシングプロセス等のシーケンシングプロセスのためのアダプター配列の一部である。場合によっては、識別子は、単一ヌクレオチドの反復配列(例えば、ポリA、ポリT、ポリG、ポリC)であり得る。そのような識別子は、本明細書に記載されるように、例えばナノポア技術を使用して検出され、互いに区別され得る。
【0198】
いくつかの実施形態では、分析は、識別子を分析すること(例えば、検出、カウント、処理カウント等)を含む。いくつかの実施形態では、検出プロセスは、識別子を検出することを含み、核酸の他の特徴(例えば、配列)を検出しないこともある。いくつかの実施形態では、カウントプロセスは、各識別子をカウントすることを含む。いくつかの実施形態では、識別子は、検出、分析および/またはカウントされる核酸の唯一の特徴である。
【0199】
シーケンシング
本明細書に記載の方法を実施するのに適した任意のシーケンシング方法を利用することができる。いくつかの実施形態では、ハイスループットシーケンシング法が使用される。ハイスループットシーケンシング法は、一般に、フローセル内で大規模並列様式でシーケンシングされるクローン増幅DNA鋳型または単一DNA分子を含む(例えば、Metzker M Nature Rev 11:31-46(2010);Volkerding et al.Clin Chem 55:641-658(2009)に記載される)。そのようなシーケンシング方法はまた、デジタル定量情報を提供することができ、各配列リードは、個々のクローンDNA鋳型または単一のDNA分子を表すカウント可能な「配列タグ」または「カウント」である。ハイスループットシーケンシング技術としては、例えば、可逆的色素ターミネーターによる合成によるシーケンシング、オリゴヌクレオチドプローブライゲーションによるシーケンシング、パイロシーケンシングおよびリアルタイムシーケンシングが挙げられる。
【0200】
ハイスループットシーケンシング法に利用されるシステムは市販されており、例えば、Roche 454プラットフォーム、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNAシーケンシング技術、Affymetrix Inc.からのハイブリダイゼーションによるシーケンシングのプラットフォーム、Pacific Biosciencesの単一分子、リアルタイム(SMRT)技術、454 Life Sciences、Illumina/SolexaおよびHelicos Biosciencesからの合成によるシーケンシングのプラットフォーム、およびApplied Biosystemsからのライゲーションによるシーケンシングのプラットフォームが挙げられる。Life technologiesのION TORRENT技術およびナノポアシーケンシングもまた、ハイスループットシーケンシング手法において使用することができる。
【0201】
いくつかの実施形態では、例えば、自動サンガーシーケンシングを含むサンガーシーケンシング等の第1世代技術を、本明細書で提供される方法で使用することができる。開発中の核酸イメージング技術(例えば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含むさらなるシーケンシング技術も本明細書において企図される。様々なシーケンシング技術の例を以下に記載する。
【0202】
配列リードの長さは、特定のシーケンシング技術に関連することが多い。例えば、ハイスループット法は、数十~数百塩基対(bp)のサイズで変動し得る配列リードを提供する。例えば、ナノポアシーケンシングは、数十~数百~数千の塩基対のサイズで変動し得る配列リードを提供し得る。いくつかの実施形態では、配列リードは、約15bp~900bp長(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bpまたは約500bp)の平均値、中央値または代表値の長さである。いくつかの実施形態では、配列リードは、約1000bpまたはそれよりも多くの長さの平均値、中央値または代表値である。
【0203】
いくつかの実施形態では、核酸は、蛍光シグナルまたは配列タグ情報を含み得る。シグナルまたはタグの定量は、例えば、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、遺伝子チップ分析、マイクロアレイ、質量分析、細胞蛍光分析、蛍光顕微鏡法、共焦点レーザー走査顕微鏡法、レーザー走査サイトメトリー、アフィニティークロマトグラフィー、手動バッチモード分離、電場懸濁、シーケンシング、およびそれらの組み合わせ等の様々な技術で使用され得る。
【0204】
データ処理および正規化
いくつかの実施形態では、多型核酸標的の量を表すために使用される配列リードデータは、アウトカムの提供を容易にするためにさらに処理(例えば、数学的におよび/または統計的に操作される)および/または表示され得る。特定の実施形態では、より大きなデータセットを含むデータセットは、さらなる分析を容易にするために前処理から利益を得ることができる。データセットの前処理は、参照ゲノム(例えば、有益でないデータを有する参照ゲノムの部分、重複したマッピングされたリード、カウントの中央値が0の部分、過剰に表された配列または過小に表された配列)の冗長なおよび/または有益でない部分または部分の除去を含むときがある。理論によって制限されることなく、データ処理および/または前処理は、(i)ノイズの多いデータを除去し、(ii)有益でないデータを除去し、(iii)冗長なデータを除去し、(iv)より大きなデータセットの複雑さを低減し、および/または(v)1つの形式から1またはそれよりも多くの他の形式へのデータの変換を容易にすることができる。「前処理」および「処理」という用語は、データまたはデータセットに関して利用される場合、本明細書では集合的に「処理」と呼ばれる。処理は、データをさらなる分析により適したものにすることができ、いくつかの実施形態ではアウトカムを生成することができる。いくつかの実施形態では、1もしくはそれよりも多くのまたは全ての処理方法(例えば、正規化方法、ポーションフィルタリング、マッピング、検証等、またはそれらの組み合わせ)は、プロセッサ、マイクロプロセッサ、コンピュータによって、メモリと共に、および/またはマイクロプロセッサ制御装置によって実行される。
【0205】
本明細書で使用される場合、「ノイズの多いデータ」という用語は、(a)分析またはプロットされたときにデータ点間に有意な分散を有するデータ、(b)有意な標準偏差(例えば、3標準偏差を超える)を有するデータ、(c)平均の有意な標準誤差を有するデータ等、およびこれらの組み合わせを指す。ノイズの多いデータは、出発物質(例えば、核酸サンプル)の量および/または品質に起因して生じるときがあり、配列リードを生成するために使用されるDNAを調製または複製するためのプロセスの一部として生じるときがある。特定の実施形態では、ノイズは、PCRベースの方法を使用して調製した場合に過剰に表される特定の配列から生じる。本明細書に記載の方法は、ノイズの多いデータの寄与を低減または排除することができ、したがって、提供されるアウトカムに対するノイズの多いデータの影響を低減することができる。
【0206】
本明細書で使用される場合、「有益でないデータ」、「参照ゲノムの有益でない部分」および「有益でない部分」という用語は、所定の閾値と有意に異なるか、または所定のカットオフ値の範囲外である数値を有する部分またはそれに由来するデータを指す。本明細書において「閾値」および「閾値」という用語は、適格なデータセットを使用して計算され、遺伝的変異または遺伝的変化(例えば、コピー数の変化、異数性、微小重複、微小欠失、染色体異常等)の診断の限界として機能する任意の数を指す。特定の実施形態では、閾値は、本明細書中に記載される方法によって得られる結果によって超えられ、対象は、コピー数変化と診断される。閾値または値の範囲は、配列リードデータ(例えば、参照および/または対象由来)を数学的および/または統計的に操作することによって計算されることが多く、いくつかの実施形態では、また特定の実施形態では、閾値または値の範囲を生成するために操作される配列リードデータは、配列リードデータ(例えば、参照および/または対象由来)である。いくつかの実施形態では、不確定値が決定される。不確定値は、一般に、分散または誤差の尺度であり、分散または誤差の任意の適切な尺度であり得る。いくつかの実施形態では、不確定値は、標準偏差、標準誤差、計算された分散、p値または平均絶対偏差(MAD)である。いくつかの実施形態では、不確定値は、本明細書中に記載される式に従って計算され得る。
【0207】
本明細書に記載のデータセットを処理するために、任意の適切な手順を利用することができる。データセットを処理するために使用するのに適した手順の非限定的な例としては、フィルタリング、正規化、重み付け、ピーク高さの監視、ピーク面積の監視、ピークエッジの監視、ピークレベル分析、ピーク幅分析、ピークエッジ位置分析、ピーク側方公差、面積比の決定、データの数学的処理、データの統計的処理、統計的アルゴリズムの適用、固定変数を用いた分析、最適化された変数を用いた分析、追加の処理のためのパターンまたは傾向を識別するためのデータのプロット等、および前述のものの組み合わせが上げられる。いくつかの実施形態では、データセットは、様々な特徴(例えば、GC含有量、重複してマッピングされたリード、セントロメア領域、テロメア領域等およびそれらの組み合わせ)および/または変数(例えば、対象の性別、対象の年齢、対象の倍数性、癌細胞核酸の寄与率、胎児の性別、母体の年齢、母体の倍数性、胎児の核酸の寄与率等またはそれらの組み合わせ)に基づいて処理される。特定の実施形態では、本明細書に記載のデータセットを処理することは、大規模および/または複雑なデータセットの複雑さおよび/または次元を低減することができる。複合データセットの非限定的な例は、1またはそれよりも多くの試験対象(例えば、妊娠中の母親)ならびに異なる年齢および民族的背景の複数の参照対象から生成された配列リードデータを含む。いくつかの実施形態では、データセットは、各試験対象および/または参照対象に対する数千~数百万の配列リードを含み得る。
【0208】
特定の実施形態では、データ処理を任意の数の工程で実行することができる。例えば、データは、いくつかの実施形態では単一の処理手順のみを使用して処理されてもよく、特定の実施形態では、データは、1またはそれよりも多くの、5またはそれよりも多くの、10またはそれよりも多くのまたは20またはそれよりも多くの処理工程(例えば、1またはそれよりも多くの処理工程、2またはそれよりも多くの処理工程、3またはそれよりも多くの処理工程、4またはそれよりも多くの処理工程、5またはそれよりも多くの処理工程、6またはそれよりも多くの処理工程、7またはそれよりも多くの処理工程、8またはそれよりも多くの処理工程、9またはそれよりも多くの処理工程、10またはそれよりも多くの処理工程、11またはそれよりも多くの処理工程、12またはそれよりも多くの処理工程、13またはそれよりも多くの処理工程、14またはそれよりも多くの処理工程、15またはそれよりも多くの処理工程、16またはそれよりも多くの処理工程、17またはそれよりも多くの処理工程、18またはそれよりも多くの処理工程、19またはそれよりも多くの処理工程、20またはそれよりも多くの処理工程)を使用して処理されてもよい。いくつかの実施形態では、処理工程は、2またはそれを超えて繰り返される同じ工程(例えば、2回またはそれよりも多くのフィルタリング、2回またはそれよりも多くの正規化)であってもよく、特定の実施形態では、処理工程は、同時にまたは順次実行される2つを超える異なる処理工程(例えば、フィルタリング、正規化;正規化、ピーク高さおよびエッジの監視;フィルタリング、正規化、基準に対する正規化、p値を決定するための統計的操作等)であってもよい。いくつかの実施形態では、同じまたは異なる処理工程の任意の適切な数および/または組み合わせを利用して、配列リードデータを処理し、アウトカムの提供を容易にすることができる。特定の実施形態では、本明細書に記載の基準によってデータセットを処理することは、データセットの複雑さおよび/または次元を低減することができる。
【0209】
いくつかの実施形態では、1またはそれよりも多くの処理工程は、1またはそれよりも多くの正規化工程を含み得る。正規化は、本明細書に記載されているかまたは当技術分野で公知の適切な方法によって行うことができる。特定の実施形態では、正規化は、異なる尺度で測定された値を理論的に共通の尺度に調整することを含む。特定の実施形態では、正規化は、調整値の確率分布を整列させる高度な数学的調整を含む。いくつかの実施形態では、正規化は、分布を正規分布に整列させることを含む。特定の実施形態では、正規化は、特定の悪影響(例えば、エラーおよび異常)の影響を排除する方法で、異なるデータセットの対応する正規化値の比較を可能にする数学的調整を含む。特定の実施形態では、正規化は、スケーリングを含む。正規化は、所定の変数または式による1またはそれよりも多くのデータセットの分割を含むときがある。正規化は、所定の変数または式による1またはそれよりも多くのデータセットの減算を含むときがある。正規化方法の非限定的な例としては、部分ごとの正規化、GC含有量による正規化、カウントの中央値(中央ビンカウント、中央部分カウント)正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的に重み付けされたスキャッタプロットスムージング)、主成分正規化、リピートマスキング(RM)、GC正規化およびリピートマスキング(GCRM)、cQnならびに/またはそれらの組み合わせが挙げられる。いくつかの実施形態では、コピー数変化(例えば、異数性、微小重複、微小欠失)の有無の判定は、正規化方法(例えば、部分ごとの正規化、GC含有量による正規化、カウントの中央値(中央ビンカウント、中央部分カウント)の正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的に重み付けされたスキャッタプロットスムージング)、主成分正規化、リピートマスキング(RM)、GC-正規化およびリピートマスキング(GCRM)、cQn、当技術分野で公知の正規化方法、ならびに/またはそれらの組み合わせ)を利用する。例えば、LOESS正規化、主成分正規化、およびハイブリッド正規化方法等の、利用することができる正規化プロセスの特定の例を以下により詳細に説明する。特定の正規化プロセスの態様はまた、例えば、それぞれ参照により本明細書に組み込まれる国際特許出願公開第2013/052913号および国際特許出願公開第2015/051163号に記載されている。
【0210】
任意の適切な数の正規化を使用することができる。いくつかの実施形態では、データセットは、1回またはそれを超えて、5回またはそれを超えて、10回またはそれを超えて、さらには20回またはそれを超えて正規化することができる。データセットは、任意の適切な特徴または変数(例えば、サンプルデータ、基準データ、またはその両方)を表す値(例えば、正規化値)に対して正規化することができる。使用され得るデータ正規化のタイプの非限定的な例としては、1またはそれよりも多くの選択された試験部分または参照部分についての生のカウントデータを、選択された1またはそれよりも多くの部分がマッピングされる染色体またはゲノム全体にマッピングされたカウントの総数に正規化すること;1またはそれよりも多くの選択された部分についての生のカウントデータを、1またはそれよりも多くの部分または選択された部分がマッピングされる染色体についての参照カウントの中央値に対して正規化すること;生のカウントデータを以前に正規化されたデータまたはその派生物に正規化すること;および予め正規化されたデータを1またはそれよりも多くの他の所定の正規化変数に対して正規化すること、を含む。データセットを正規化することは、所定の正規化変数として選択された特徴または特性に応じて、統計的誤差を分離する効果を有することがある。データセットを正規化することは、データを共通の尺度(例えば、所定の正規化変数)にすることによって、異なる尺度を有するデータのデータ特性の比較を可能にするときもある。いくつかの実施形態では、統計的に導出された値に対する1またはそれよりも多くの正規化を利用して、データ差を最小化し、外れ値データの重要性を減らすことができる。正規化値に関して、部分または参照ゲノムの部分を正規化することは、「部分ごとの正規化」と呼ばれることがある。
【0211】
特定の実施形態では、処理工程は、1またはそれよりも多くの数学的操作および/または統計的操作を含むことができる。本明細書に記載のデータセットを分析および/または操作するために、単独でまたは組み合わせて、任意の適切な数学的および/または統計的操作を使用することができる。任意の適切な数の数学的操作および/または統計的操作を使用することができる。いくつかの実施形態では、データセットは、1回もしくはそれを超えて、5回もしくはそれを超えて、10回もしくはそれを超えて、または20回もしくはそれを超えて、数学的および/または統計的に操作することができる。使用することができる数学的および統計的操作の非限定的な例としては、加算、減算、乗算、除算、代数関数、最小二乗推定器、カーブフィッティング、微分方程式、有理多項式、二重多項式、直交多項式、zスコア、p値、カイ値、ファイ値、ピークレベルの分析、ピークエッジ位置の決定、ピーク面積比の計算、中央染色体レベルの分析、平均絶対偏差の計算、二乗残差の和、平均、標準偏差、標準誤差等、またはそれらの組み合わせが挙げられる。数学的操作および/または統計的操作は、配列リードデータまたはその処理された生成物の全部または一部に対して行うことができる。統計学的に操作され得るデータセット変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク面積、ピークエッジ、側方公差、P値、中央値レベル、平均レベル、ゲノム領域内のカウント分布、核酸種の相対的表現等またはそれらの組み合わせが挙げられる。
【0212】
いくつかの実施形態では、処理工程は、1またはそれよりも多くの統計的アルゴリズムの使用を含むことができる。任意の適切な統計アルゴリズムを単独でまたは組み合わせて使用して、本明細書に記載のデータセットを分析および/または操作することができる。任意の適切な数の統計的アルゴリズムを使用することができる。いくつかの実施形態では、データセットは、1またはそれよりも多くの、5またはそれよりも多くの、10またはそれよりも多くの、または20またはそれよりも多くの統計的アルゴリズムを使用して分析することができる。本明細書に記載の方法と共に使用するのに適した統計的アルゴリズムの非限定的な例としては、主成分分析、決定木、対立帰無仮説、多重比較、オムニバス検定、Behrens-Fisher問題、ブートストラップ、有意性の独立検定を組み合わせるためのFisherの方法、帰無仮説、I型エラー、II型エラー、正確確立検定、1サンプルZ検定、2サンプルZ検定、1サンプルt検定、対応のあるt検定、等しい分散を有する2つのサンプルのプールされたt検定、等しくない分散を有する2つのサンプルのプールされていないt検定、1比率のz検定、プールされた2つの比率z検定、プールされていない2つの比率のz検定1サンプルカイ二乗検定、分散の等価性についての2サンプルF検定、信頼区間、信頼区間、有意性、メタ分析、単純線形回帰、ロバスト線形回帰等、または前述のものの組み合わせが挙げられる。統計的アルゴリズムを使用して分析することができるデータセット変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピークエッジ、側方公差、P値、中央値レベル、平均レベル、ゲノム領域内のカウント分布、核酸種の相対的表現等またはそれらの組み合わせが挙げられる。
【0213】
特定の実施形態では、データセットは、複数の(例えば、2またはそれよりも多くの)統計アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、k近傍法、ロジスティック回帰および/または平滑化)および/または数学的および/または統計的操作(例えば、本明細書では操作と呼ばれる)を利用することによって分析することができる。いくつかの実施形態では、複数の操作の使用は、アウトカムを提供するために使用することができるN次元空間を生成することができる。特定の実施形態では、複数の操作を利用することによるデータセットの分析は、データセットの複雑さおよび/または次元を低減することができる。例えば、参照データセットに対する複数の操作の使用は、参照サンプル(例えば、選択されたコピー数の変更について陽性または陰性である)の状態に応じて、遺伝的変異/遺伝子変化および/またはコピー数変化の有無を表すために使用することができるN次元空間(例えば、確率プロット)を生成することができる。実質的に同様の操作セットを使用した試験サンプルの分析を使用して、各試験サンプルのN次元点を生成することができる。試験対象データセットの複雑さおよび/または次元は、基準データから生成されたN次元空間と容易に比較することができる単一の値またはN次元点に低減されるときがある。参照対象データによって占められたN次元空間内に入る試験サンプルデータは、参照対象の遺伝的状態と実質的に同様の遺伝的状態を示す。参照対象データによって占められたN次元空間の外側にある試験サンプルデータは、参照対象の遺伝的状態と実質的に非類似の遺伝的状態を示す。いくつかの実施形態では、参照は正倍数性であるか、そうでなければ遺伝的変異/遺伝子変化および/またはコピー数変化および/または医学的症状を有さない。
【0214】
データセットがカウントされ、必要に応じてフィルタリングされ、正規化され、必要に応じて重み付けされた後、処理されたデータセットは、いくつかの実施形態では、1またはそれよりも多くのフィルタリングおよび/または正規化および/または重み付け手順によってさらに操作することができる。特定の実施形態では、1またはそれよりも多くのフィルタリングおよび/または正規化および/または重み付け手順によってさらに操作されたデータセットを使用して、プロファイルを生成することができる。いくつかの実施形態では、1またはそれよりも多くのフィルタリングおよび/または正規化および/または重み付け手順は、データセットの複雑さおよび/または次元を低減することができるときがある。アウトカムは、低減された複雑さおよび/または次元のデータセットに基づいて提供することができる。いくつかの実施形態では、分類および/またはアウトカムの提供を容易にするために、例えば重み付けによってさらに操作された処理済みデータのプロファイルプロットが生成される。アウトカムは、例えば、重み付けされたデータのプロファイルプロットに基づいて提供することができる。
【0215】
部分のフィルタリングまたは重み付けは、分析における1またはそれよりも多くの適切な点で実行することができる。例えば、部分は、配列リードが参照ゲノムの部分にマッピングされる前または後にフィルタリングまたは重み付けされ得る。いくつかの実施形態では、個々のゲノム部分に対する実験バイアスが決定される前または後に、部分をフィルタリングまたは重み付けすることができる。特定の実施形態では、レベルが計算される前または後に、部分をフィルタリングまたは重み付けすることができる。
【0216】
データセットがカウントされ、必要に応じてフィルタリングされ、正規化され、必要に応じて重み付けされた後、処理されたデータセットは、いくつかの実施形態では、1またはそれよりも多くの数学的および/または統計的(例えば、統計的関数または統計的アルゴリズム)操作によって操作することができる。特定の実施形態では、処理されたデータセットは、1またはそれよりも多くの選択された部分、染色体、または染色体の部分についてZスコアを計算することによってさらに操作することができる。いくつかの実施形態では、処理されたデータセットは、P値を計算することによってさらに操作することができる。特定の実施形態では、数学的操作および/または統計的操作は、少数種(例えば、癌細胞核酸の画分;胎児分率)の倍数性および/または割合に関する1またはそれよりも多くの仮定を含む。いくつかの実施形態では、分類および/またはアウトカムの提供を容易にするために、1またはそれよりも多くの統計的操作および/または数学的操作によってさらに操作された処理済みデータのプロファイルプロットが生成される。アウトカムは、統計的および/または数学的に操作されたデータのプロファイルプロットに基づいて提供することができる。統計的および/または数学的に操作されたデータのプロファイルプロットに基づいて提供されるアウトカムは、多くの場合、少数種(例えば、癌細胞核酸の分率;胎児分率)の倍数性および/または割合に関する1またはそれよりも多くの仮定を含む。
【0217】
いくつかの実施形態では、データの分析および処理は、1またはそれよりも多くの仮定の使用を含むことができる。適切な数または種類の仮定を利用して、データセットを分析または処理することができる。データ処理および/または分析に使用することができる仮定の非限定的な例としては、対象の倍数性、癌細胞の寄与、母体倍数性、胎児寄与、参照集団における特定の配列の有病率、民族的背景、関連する家族における選択された医学的症状の有病率、異なる患者からの生のカウントプロファイル間の平行度および/またはGC正規化およびリピートマスキング後の実行(例えば、GCRM)、同一の一致はPCRアーチファクトを表す(例えば、同じベース位置)、核酸定量アッセイに固有の仮定(例えば、胎児定量アッセイ(FQA))、双生児に関する仮定(例えば、二人の双生児の一人だけが影響を受ける場合、有効胎児分率は、測定された全胎児分率のわずか50%である(トリプレット、四重極等についても同様である))、ゲノム全体をカバーする無細胞DNA(例えば、cfDNA)等およびそれらの組み合わせが挙げられる。
【0218】
マッピングされた配列リードの品質および/または深さが所望の信頼水準(例えば、95%以上の信頼水準)での遺伝的変異/遺伝子改変および/またはコピー数変更の有無のアウトカム予測を可能にしない場合、正規化されたカウントプロファイルに基づいて、1またはそれよりも多くのさらなる数学的操作アルゴリズムおよび/または統計的予測アルゴリズムが、データ分析および/またはアウトカムの提供に有用なさらなる数値を生成するために利用され得る。本明細書で使用される場合、「正規化されたカウントプロファイル」という用語は、正規化されたカウントを使用して生成されたプロファイルを指す。正規化されたカウントおよび正規化されたカウントプロファイルを生成するために使用することができる方法の例は、本明細書に記載されている。述べたように、カウントされたマッピングされた配列リードは、試験サンプルカウントまたは参照サンプルカウントに関して正規化され得る。いくつかの実施形態では、正規化されたカウントプロファイルをプロットとして提示することができる。
【0219】
ウインドウ(静的またはスライディング)に対する正規化、重み付け、バイアス関係の決定、LOESS正規化、主成分正規化、ハイブリッド正規化、プロファイルの生成および比較の実行等、利用することができる処理工程および正規化方法の非限定的な例を以下により詳細に説明する。
【0220】
ウインドウ(静的またはスライディング)に対する正規化
特定の実施形態では、処理工程は、静的ウインドウに対して正規化することを含み、いくつかの実施形態では、処理工程は、移動またはスライディングウインドウに対して正規化することを含む。本明細書で使用される「ウインドウ」という用語は、分析のために選択された1またはそれよりも多くの部分を指し、時には比較のための基準として使用される(例えば、正規化および/または他の数学的もしくは統計的操作に使用される)。本明細書で使用される「静的ウインドウに対して正規化する」という用語は、試験対象と参照対象データセットとの比較のために選択された1またはそれよりも多くの部分を使用する正規化プロセスを指す。いくつかの実施形態では、選択された部分は、プロファイルを生成するために利用される。静的ウインドウは、一般に、操作および/または分析中に変化しない部分の所定のセットを含む。本明細書で使用される「ムービングウインドウに対して正規化する」および「スライディングウインドウに対して正規化する」という用語は、選択された試験部分のゲノム領域(例えば、直接取り囲んでいる部分、隣接している1またはそれよりも多くの部分等)に局在する部分に対して行われる正規化を指し、1またはそれよりも多くの選択された試験部分は、選択された試験部分を直接取り囲む部分に対して正規化される。特定の実施形態では、選択された部分は、プロファイルを生成するために利用される。スライディングまたはムービングウインドウ正規化は、多くの場合、隣接する試験部分に繰り返し移動またはスライディングすることと、新たに選択された試験部分を、新たに選択された試験部分のすぐ周囲または隣接する部分に正規化することとを含み、隣接するウインドウは1またはそれよりも多くの部分を共通に有する。特定の実施形態では、複数の選択された試験部分および/または染色体は、スライディングウインドウプロセスによって分析することができる。
【0221】
いくつかの実施形態では、スライディングウインドウまたはムービングウインドウに対する正規化は、1またはそれよりも多くの値を生成することができ、各値は、ゲノムの異なる領域(例えば、染色体)から選択される異なる参照部分のセットに対する正規化を表す。特定の実施形態では、生成される1またはそれよりも多くの値は、累積和(例えば、選択された部分、ドメイン(例えば、染色体の一部)または染色体に対する正規化されたカウントプロファイルの積分の数値推定値)である。スライディングまたはムービングウインドウプロセスによって生成された値は、プロファイルを生成し、アウトカムへの到達を容易にするために使用することができる。いくつかの実施形態では、1またはそれよりも多くの部分の累積和は、ゲノム位置の関数として示され得る。微小欠失および/または微小重複の有無についてゲノムを分析するために、移動またはスライディングウインドウ分析が使用されるときがある。特定の実施形態では、1またはそれよりも多くの部分の累積和を表示することは、コピー数変化の領域(例えば、微小欠失、微小重複)の有無を識別するために使用される。
【0222】
重み付け
いくつかの実施形態では、処理工程は重み付けを含む。本明細書で使用される「重み付けされた」、「重み付け」もしくは「重み関数」という用語またはその文法上の派生語もしくは等価物は、他のデータセット特徴または変数(例えば、参照ゲノムの選択された1またはそれよりも多くの部分におけるデータの品質または有用性に基づいて、参照ゲノムの1またはそれよりも多くの部分または部分に含まれるデータの有意性および/または寄与を増加または減少させる)に関する特定のデータセット特徴または変数の影響を変更するために利用されることがあるデータセットの一部または全部の数学的操作を指す。いくつかの実施形態では、重み関数を使用して、比較的小さい測定分散を有するデータの影響を増加させ、および/または比較的大きい測定分散を有するデータの影響を減少させることができる。例えば、過小評価されたまたは低品質の配列データを有する参照ゲノムの部分は、データセットに対する影響を最小限に抑えるために「ダウンウェイト(down weighted)」され得るが、参照ゲノムの選択された部分は、データセットに対する影響を増大させるために「アップウェイト(up weighted)」され得る。重み関数の非限定的な例は、[1/(標準偏差)2]である。重み付け部分は、部分依存を除去するときがある。いくつかの実施形態では、1またはそれよりも多くの部分は、固有関数(例えば、固有関数)によって重み付けされる。いくつかの実施形態では、固有関数は、部分を直交する固有部分で置き換えることを含む。重み付け工程は、正規化工程と実質的に同様に実行されるときがある。いくつかの実施形態では、データセットは、所定の変数(例えば、重み付け変数)によって調整(例えば、除算、乗算、加算、減算)される。いくつかの実施形態では、データセットは、所定の変数(例えば、重み付け変数)によって分割される。所定の変数(例えば、最小化された目的関数Phi)は、データセットの異なる部分を異なるように重み付けするために選択されることが多い(例えば、特定のデータタイプの影響を増加させ、一方で他のデータタイプの影響を減少させる)。
【0223】
バイアス関係
いくつかの実施形態では、処理工程は、バイアス関係を決定することを含む。例えば、局所ゲノムバイアス推定値とバイアス頻度との間に1またはそれよりも多くの関係が生成され得る。本明細書で使用される「関係」という用語は、2またはそれよりも多くの変数または値の間の数学的および/またはグラフ的関係を指す。関係は、適切な数学的および/またはグラフィックプロセスによって生成することができる。関係の非限定的な例は、関数、相関、分布、線形または非線形方程式、線、回帰、当てはめ回帰等、またはそれらの組み合わせの数学的および/またはグラフ表示を含む。関係は、フィッティングされた関係を含むときがある。いくつかの実施形態では、フィッティングされた関係は、フィッティングされた回帰を含む。関係は、重み付けされた2またはそれよりも多くの変数または値を含むときがある。いくつかの実施形態では、関係は、関係の1またはそれよりも多くの変数または値が重み付けされるフィッティングされた回帰を含む。回帰は、重み付けされた様式でフィッティングされるときがある。回帰は重み付けなしでフィッティングされることがある。特定の実施形態では、関係を生成することは、プロットまたはグラフ化を含む。
【0224】
特定の実施形態では、GC密度とGC密度頻度との間に関係が生成される。いくつかの実施形態では、サンプルについて(i)GC密度と(ii)GC密度頻度との間の関係を生成することにより、サンプルGC密度関係が提供される。いくつかの実施形態では、参照について(i)GC密度と(ii)GC密度頻度との間の関係を生成することにより、参照GC密度関係が提供される。いくつかの実施形態では、局所ゲノムバイアス推定値がGC密度である場合、サンプルバイアス関係はサンプルGC密度関係であり、参照バイアス関係は参照GC密度関係である。参照GC密度関係および/またはサンプルGC密度関係のGC密度は、しばしば局所GC含有量の表現(例えば、数学的表現または定量的表現)である。
【0225】
いくつかの実施形態では、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、分布を含む。いくつかの実施形態では、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、適合関係(例えば、フィッティングされた回帰)を含む。いくつかの実施形態では、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、当てはめられた線形または非線形回帰(例えば、多項式回帰)を含む。ある特定の実施形態では、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、局所ゲノムバイアス推定値および/またはバイアス頻度が適切なプロセスによって重み付けされる重み付けされた関係を含む。いくつかの実施形態では、重み付けされフィッティングされた関係(例えば、重み付きフィッティング)は、分位回帰、パラメータ化分布、または補間による経験的分布を含むプロセスによって得ることができる。特定の実施形態では、局所ゲノムバイアス推定値と、試験サンプル、参照またはその一部に対するバイアス頻度との間の関係は、局所ゲノムバイアス推定値が重み付けされる多項式回帰を含む。いくつかの実施形態では、重み付けされフィッティングされたモデルは、分布の重み付け値を含む。分布の値は、適切なプロセスによって重み付けすることができる。いくつかの実施形態では、分布のテール付近に位置する値は、分布の中央値に近い値よりも低い重みで提供される。例えば、局所ゲノムバイアス推定値(例えば、GC密度)とバイアス頻度(例えば、GC密度頻度)との間の分布について、所与の局所ゲノムバイアス推定値についてのバイアス頻度に従って重みが決定され、分布の平均に近いバイアス頻度を含む局所ゲノムバイアス推定値は、平均から遠いバイアス頻度を含む局所ゲノムバイアス推定値よりも大きな重みが提供される。
【0226】
いくつかの実施形態では、処理工程は、試験サンプルの配列リードの局所ゲノムバイアス推定値を参照(例えば、参照ゲノムまたはその一部)の局所ゲノムバイアス推定値と比較することによって配列リードカウントを正規化することを含む。いくつかの実施形態では、配列リードのカウントは、試験サンプルの局所ゲノムバイアス推定値のバイアス頻度を参照の局所ゲノムバイアス推定値のバイアス頻度と比較することによって正規化される。いくつかの実施形態では、配列リードのカウントは、サンプルバイアス関係と参照バイアス関係とを比較することによって正規化され、それにより、比較が生成される。
【0227】
配列リードのカウントは、2つまたはそれよりも多くの関係の比較に従って正規化され得る。ある特定の実施形態では、2つまたはそれよりも多くの関係が比較され、それにより、配列リードにおける局所バイアスを低減するために使用される比較が提供される(例えば、カウントの正規化)。2またはそれよりも多くの関係は、適切な方法によって比較することができる。いくつかの実施形態では、比較は、第2の関係から第1の関係を加算、減算、乗算および/または除算することを含む。特定の実施形態では、2またはそれよりも多くの関係を比較することは、適切な線形回帰および/または非線形回帰の使用を含む。ある特定の実施形態では、2つまたはそれよりも多くの関係を比較することは、適切な多項式回帰(例えば、3次多項式回帰)を含む。いくつかの実施形態では、比較は、第2の回帰から第1の回帰を加算、減算、乗算および/または除算することを含む。いくつかの実施形態では、2つまたはそれよりも多くの関係は、多重回帰の推論フレームワークを含むプロセスによって比較される。いくつかの実施形態では、2つまたはそれよりも多くの関係が、好適な多変量解析を含むプロセスによって比較される。いくつかの実施形態では、2またはそれよりも多くの関係は、基底関数(例えば、ブレンド関数、例えば多項式基底、フーリエ基底等)、スプライン、放射基底関数および/またはウェーブレットを含むプロセスによって比較される。
【0228】
特定の実施形態では、試験サンプルおよび参照に対するバイアス頻度を含む局所ゲノムバイアス推定値の分布は、局所ゲノムバイアス推定値が重み付けされる多項式回帰を含むプロセスによって比較される。いくつかの実施形態では、多項式回帰が、(i)参照の局所ゲノムバイアス推定値のバイアス頻度およびサンプルの局所ゲノムバイアス推定値のバイアス頻度をそれぞれ含む比と、(ii)局所ゲノムバイアス推定値との間で生成される。いくつかの実施形態では、多項式回帰が、(i)サンプルの局所ゲノムバイアス推定値のバイアス頻度に対する参照の局所ゲノムバイアス推定値のバイアス頻度の比と、(ii)局所ゲノムバイアス推定値との間で生成される。いくつかの実施形態では、試験サンプルおよび参照のリードに対する局所ゲノムバイアス推定値の分布の比較は、参照およびサンプルに対する局所ゲノムバイアス推定値のバイアス頻度の対数比(例えば、log2比)を決定することを含む。いくつかの実施形態では、局所ゲノムバイアス推定値の分布の比較は、参照に対する局所ゲノムバイアス推定値のバイアス頻度の対数比(例えば、log2比)を、サンプルに対する局所ゲノムバイアス推定値のバイアス頻度の対数比(例えば、log2比)で割ることを含む。
【0229】
比較に従ってカウントを正規化することは、典型的には、いくつかのカウントを調整し、他のカウントを調整しない。カウントの正規化は、全てのカウントを調整するときがあり、配列リードのカウントを調整しないときがある。配列リードのカウントは、重み付け係数を決定することを含むプロセスによって正規化されるときがあり、プロセスは、重み付け係数を直接生成および利用することを含まないときがある。比較に従ってカウントを正規化することは、配列リードの各カウントに対する重み係数を決定することを含むときがある。重み係数は、配列リードに特異的であることが多く、特定の配列リードのカウントに適用される。重み係数は、2またはそれよりも多くのバイアス関係(例えば、基準バイアス関係と比較されるサンプルバイアス関係)の比較に従って決定されることが多い。正規化されたカウントは、重み係数に従ってカウント値を調整することによって決定されることが多い。重み係数に従ってカウントを調整することは、重み係数によって読み取られたシーケンスのカウントを加算、減算、乗算および/または除算することを含む場合がある。重み係数および/または正規化されたカウントは、回帰(例えば、回帰直線)から決定されるときがある。正規化されたカウントは、参照(例えば、参照ゲノム)と試験サンプルの局所ゲノムバイアス推定値のバイアス頻度の比較から得られる回帰直線(例えば、フィッティングされた回帰直線)から直接得られるときがある。いくつかの実施形態では、サンプルのリードの各カウントには、(i)リードの局所ゲノムバイアス推定値のバイアス頻度と(ii)参照の局所ゲノムバイアス推定値のバイアス頻度との比較に従って正規化されたカウント値を提供される。ある特定の実施形態では、サンプルについて得られた配列リードのカウントが正規化され、配列リードにおけるバイアスが低減される。
【0230】
機械、システム、ソフトウェアおよびインターフェース
本明細書に記載の特定のプロセスおよび方法(例えば、固定カットオフ、動的k-平均クラスタリング、または個々の多型核酸標的閾値を使用する、シーケンシングリードの取得およびフィルタリング、多型核酸標的が有益であるかどうかの判定、または1もしくはそれよりも多くの無細胞核酸が胎児特異的核酸であるかどうかの判定)は、コンピュータ、マイクロプロセッサ、ソフトウェア、モジュールまたは他の機械なしでは実行できないことが多い。本明細書に記載の方法は、典型的には、コンピュータ実装方法であり、方法の1またはそれよりも多くの部分は、1またはそれよりも多くのプロセッサ(例えば、マイクロプロセッサ)、コンピュータ、システム、装置、または機械(例えば、マイクロプロセッサ制御機械)によって実行されるときがある。
【0231】
使用に適したコンピュータ、システム、装置、機械、およびコンピュータプログラム製品は、多くの場合、コンピュータ可読記憶媒体を含むか、またはコンピュータ可読記憶媒体と共に利用される。コンピュータ可読記憶媒体の非限定的な例としては、メモリ、ハードディスク、CD-ROM、フラッシュメモリデバイス等が挙げられる。コンピュータ可読記憶媒体は、一般に、コンピュータハードウェアであり、多くの場合、非一時的なコンピュータ可読記憶媒体である。コンピュータ可読記憶媒体はコンピュータ可読伝送媒体ではなく、後者はそれ自体が伝送信号である。
【0232】
本明細書で提供されるのは、本明細書に開示される、父性を判定するための方法の実施形態のいずれかを実行するように構成されたコンピュータシステムである。いくつかの実施形態では、本開示は、1またはそれよりも多くのプロセッサと、1またはそれよりも多くのプロセッサに結合された非一時的機械可読記憶媒体および/またはメモリと、プロセスを実行するように構成された命令のセットでコードされたメモリまたは非一時的機械可読記憶媒体とを備える、父性を判定するためのシステムを提供し、このシステムは、(a)生体サンプルから単離された循環無細胞核酸内の1またはそれよりも多くの多型核酸標的の測定値を得ることであって、生体サンプルが妊娠中の母親から得られること、(b)コンピューティングシステムによって、(a)からの測定値に基づいて1またはそれよりも多くの胎児特異的循環無細胞核酸を検出すること、および(c)当該1またはそれよりも多くの胎児特異的核酸の存在または量に基づいて父性を判定すること、を含む。
【0233】
いくつかの実施形態では、説明書のセットは、多型核酸標的が有益であるかどうかを判定するための説明書、および/または例えば、1またはそれよりも多くの、上記の固定カットオフアプローチ、動的クラスタリングアプローチ、および/または個々の多型核酸標的閾値アプローチに従って、試験対象のサンプルからのサンプル中の胎児特異的無細胞核酸を検出するための説明書をさらに含む。場合によっては、実験バイアスを減少させるための説明書は、配列リードのGC正規化された定量に従う。
【0234】
実行可能プログラムが格納されたコンピュータ可読記憶媒体も本明細書で提供され、プログラムは、本明細書に記載の方法を実行するようにマイクロプロセッサに命令する。実行可能プログラムモジュールが格納されたコンピュータ可読記憶媒体も提供され、プログラムモジュールは、本明細書に記載の方法の一部を実行するようにマイクロプロセッサに命令する。実行可能プログラムが格納されたコンピュータ可読記憶媒体を含むシステム、機械、装置、およびコンピュータプログラム製品も本明細書で提供され、プログラムは、本明細書に記載の方法を実行するようにマイクロプロセッサに命令する。実行可能プログラムモジュールが格納されたコンピュータ可読記憶媒体を含むシステム、機械、および装置も提供され、プログラムモジュールは、本明細書に記載の方法の一部を実行するようにマイクロプロセッサに命令する。いくつかの実施形態では、プログラムモジュールは、マイクロプロセッサに、(a)生体サンプルから単離された循環無細胞核酸内の1またはそれよりも多くの多型核酸標的の測定値を得ることであって、生体サンプルが妊娠中の母親から得られること、(b)コンピューティングシステムによって、(a)からの測定値に基づいて1またはそれよりも多くの胎児特異的循環無細胞核酸を検出すること、および(c)当該1またはそれよりも多くの胎児特異的核酸の存在または量に基づいて父性を判定すること、を含むプロセスを実行するように命令する。コンピュータで再利用可能な記憶媒体に記憶された実行可能プログラムは、例えば、上記の固定カットオフアプローチ、動的クラスタリングアプローチ、および/または個々の多型核酸標的閾値アプローチのうちの1または複数に従って、多型核酸標的が有益であるかどうかを判定すること、および/または試験対象(妊娠中の母親)のサンプルからのサンプル中の胎児特異的無細胞核酸を検出することをマイクロプロセッサにさらに命令することができる。
【0235】
いくつかの実施形態では、本開示は、1またはそれよりも多くのプロセッサによって実行されると、1またはそれよりも多くのプロセッサに方法を実行させるプログラム命令を含む非一時的機械可読記憶媒体を提供し、この方法は、(a)生体サンプルから単離された循環無細胞核酸内の1またはそれよりも多くの多型核酸標的の測定値を得ることであって、生体サンプルが妊娠中の母親から得られること、(b)コンピューティングシステムによって、(a)からの測定値に基づいて1またはそれよりも多くの胎児特異的循環無細胞核酸を検出すること、および(c)当該1またはそれよりも多くの胎児特異的核酸の存在または量に基づいて父性を判定すること、を含む。プログラム命令は、例えば、1またはそれよりも多くの、上記の固定カットオフアプローチ、動的クラスタリングアプローチ、および/または個々の多型核酸標的閾値アプローチに従って、多型核酸標的が有益であるかどうかを判定し、および/または妊娠中の母親由来のサンプル中の胎児特異的無細胞核酸を検出するための1またはそれよりも多くのプロセッサに対する命令をさらに含み得る。
【0236】
非一時的機械可読記憶媒体は、1またはそれよりも多くのプロセッサによって実行されると、1またはそれよりも多くのプロセッサに、実験バイアスを減少させる調整プロセスによってゲノム部分のそれぞれについて定量された配列リードを調整することを含む方法を行わせるプログラム命令をさらに含み得、調整プロセスは、多型核酸標的のそれぞれについて配列リードの正規化された定量を生成する。
【0237】
したがって、コンピュータプログラム製品も提供される。コンピュータプログラム製品は、多くの場合、その中に具体化されたコンピュータ可読プログラムコードを含むコンピュータ使用可能媒体を含み、コンピュータ可読プログラムコードは、本明細書に記載の方法または方法の一部を実施するように実行ため適合される。コンピュータ使用可能媒体および読み取り可能なプログラムコードは、伝送媒体ではない(すなわち、送信信号自体)。コンピュータ可読プログラムコードは、多くの場合、プロセッサ、コンピュータ、システム、装置、または機械によって実行されるように適合されている。
【0238】
いくつかの実施形態では、本明細書中に記載される方法(例えば、固定カットオフ、動的k-平均クラスタリング、または個々の多型核酸標的閾値を使用する、シーケンシングリードの取得およびフィルタリング、多型核酸標的が有益であるかどうかの判定、または1またはそれよりも多くの無細胞核酸が胎児特異的核酸であるかどうかの判定)は、自動化された方法によって行われる。いくつかの実施形態では、本明細書に記載の方法の1またはそれよりも多くの工程は、マイクロプロセッサおよび/またはコンピュータによって実行され、および/またはメモリと共に実行される。いくつかの実施形態では、自動化された方法は、本明細書に記載の方法を実行するソフトウェア、モジュール、マイクロプロセッサ、周辺機器、および/またはこれらを含む機械において具現化される。本明細書で使用される場合、ソフトウェアは、マイクロプロセッサによって実行されると、本明細書で説明されるようなコンピュータ動作を実行するコンピュータ可読プログラム命令を指す。
【0239】
配列リード、カウント、レベルおよび/または測定値は、「データ」または「データセット」と呼ばれることがある。いくつかの実施形態では、データまたはデータセットは、1またはそれよりも多くの特徴または変数(例えば、シーケンスベース(例えば、GC含有量、特定のヌクレオチド配列等)、機能特異的(例えば、発現遺伝子、癌遺伝子等)、位置ベース(ゲノム特異的、染色体特異的、部分または部分特異的)等、およびそれらの組み合わせ)によって特徴付けることができる。特定の実施形態では、データまたはデータセットは、1またはそれよりも多くの特徴または変数に基づいて2またはそれよりも多くの次元を有する行列に編成することができる。行列に編成されたデータは、任意の適切な特徴または変数を使用して編成することができる。特定の実施形態では、1またはそれよりも多くの特徴または変数によって特徴付けられるデータセットは、カウント後に処理されるときがある。
【0240】
本明細書に記載の方法を実行するために、機械、ソフトウェア、およびインターフェースを使用することができる。機械、ソフトウェアおよびインターフェースを使用して、ユーザは、特定の情報、プログラムまたはプロセス(例えば、配列リードのマッピング、マッピングされたデータの処理および/またはアウトカムの提供)を使用するためのオプションを入力、要求、照会または決定することができ、これは、例えば、統計分析アルゴリズム、統計的有意性アルゴリズム、統計アルゴリズム、反復工程、検証アルゴリズム、およびグラフィカル表現を実装することを含むことができる。いくつかの実施形態では、データセットは、入力情報としてユーザによって入力されてもよく、ユーザは、適切なハードウェア媒体(例えば、フラッシュドライブ)によって1またはそれよりも多くのデータセットをダウンロードしてもよく、および/またはユーザは、後続の処理および/またはアウトカム(例えば、配列リードマッピングのためにシーケンサからコンピューターシステムに配列リードデータを送信する;マッピングされた配列データを処理し、アウトカムおよび/または報告をもたらすためにコンピュータシステムに送信する)を提供するために、あるシステムから別のシステムにデータセットを送信してもよい。
【0241】
システムは、典型的には、1またはそれよりも多くの機械を備える。各マシンは、メモリ、1またはそれよりも多くのマイクロプロセッサ、および命令のうちの1またはそれを超えて備える。システムが2またはそれよりも多くの機械を含む場合、機械の一部または全てが同じ場所に配置されてもよく、機械の一部または全てが異なる場所に配置されてもよく、機械の全てが1つの場所に配置されてもよく、および/または機械の全てが異なる場所に配置されてもよい。システムが2またはそれよりも多くの機械を含む場合、機械の一部または全てがユーザと同じ場所に位置してもよく、機械の一部または全てがユーザとは異なる場所に位置してもよく、機械の全てがユーザと同じ場所に位置してもよく、および/または機械の全てがユーザとは異なる1またはそれよりも多くの場所に位置してもよい。
【0242】
システムは、計算機とシーケンシング装置または機械とを備えることがあり、シーケンシング装置または機械は、物理的核酸を受け取り、配列リードを生成するように構成されており、計算装置は、シーケンシング装置または機械からのリードを処理するように構成されている。計算機は、配列リードから分類アウトカムを決定するように構成されるときがある。
【0243】
ユーザは、例えば、インターネットアクセスを介してデータセットを取得することができるソフトウェアにクエリを配置することができ、特定の実施形態では、所与のパラメータに基づいて適切なデータセットを取得するようにプログラマブルマイクロプロセッサを促すことができる。プログラム可能マイクロプロセッサはまた、所与のパラメータに基づいてマイクロプロセッサによって選択された1またはそれよりも多くのデータセットオプションを選択するようにユーザに促すことができる。プログラム可能マイクロプロセッサは、インターネットを介して見つけられた情報、他の内部または外部情報等に基づいてマイクロプロセッサによって選択された1またはそれよりも多くのデータセットオプションを選択するようにユーザに促すことができる。オプションは、1またはそれよりも多くのデータ特徴選択、1またはそれよりも多くの統計的アルゴリズム、1またはそれよりも多くの統計的分析アルゴリズム、1またはそれよりも多くの統計的有意性アルゴリズム、反復工程、1またはそれよりも多くの検証アルゴリズム、および方法、機械、装置、コンピュータプログラム、または実行可能プログラムが記憶された非一時的コンピュータ可読記憶媒体の1またはそれよりも多くのグラフィカル表現を選択するために選択されてもよい。
【0244】
本明細書で対処されるシステムは、例えば、ネットワークサーバ、ラップトップシステム、デスクトップシステム、ハンドヘルドシステム、携帯情報端末、コンピューティングキオスク等のコンピュータシステムの一般的なコンポーネントを含むことができる。コンピュータシステムは、キーボード、タッチスクリーン、マウス、音声認識、またはユーザがシステムにデータを入力することを可能にする他の手段等の1またはそれよりも多くの入力手段を備えることができる。システムは、ディスプレイ画面(例えば、CRTまたはLCD)、スピーカ、FAX機、プリンタ(例えば、レーザ、インクジェット、衝撃、白黒またはカラープリンタ)、または情報の視覚的、聴覚的および/またはハードコピー出力を提供するのに有用な他の出力(例えば、アウトカムおよび/または報告)を含むがこれらに限定されない1またはそれよりも多くの出力をさらに備えることができる。
【0245】
システムでは、入力および出力コンポーネント素は、他のコンポーネントの中でも、プログラム命令を実行するためのマイクロプロセッサと、プログラムコードおよびデータを記憶するためのメモリとを備えることができる中央処理ユニットに接続され得る。いくつかの実施形態では、プロセスは、単一の地理的サイトに配置された単一のユーザシステムとして実施されてもよい。特定の実施形態では、プロセスは、マルチユーザシステムとして実装されてもよい。マルチユーザ実装の場合、複数の中央処理ユニットがネットワークによって接続されてもよい。ネットワークは、ローカルであってもよく、建物の一部の単一の部門、建物全体、複数の建物にまたがる、地域にまたがる、国全体にまたがる、または世界的であってもよい。ネットワークは、プライベートであってもよく、プロバイダによって所有および制御されてもよく、またはユーザがウェブページにアクセスして情報を入力および取得するインターネットベースのサービスとして実装されてもよい。したがって、特定の実施形態では、システムは、ユーザに対してローカルまたはリモートであり得る1またはそれよりも多くの機械を含む。1つの場所または複数の場所にある2以上の機械は、ユーザによってアクセスされてもよく、データは、直列および/または並列にマッピングおよび/または処理されてもよい。したがって、ローカルネットワーク、リモートネットワークおよび/または「クラウド」コンピューティングプラットフォーム等の複数の機械を使用してデータをマッピングおよび/または処理するために、適切な構成および制御を利用することができる。
【0246】
いくつかの実施形態では、システムは通信インターフェースを含むことができる。通信インターフェースは、コンピュータシステムと1またはそれよりも多くの外部デバイスとの間のソフトウェアおよびデータの転送を可能にする。通信インターフェースの非限定的な例としては、モデム、ネットワークインターフェース(イーサネット(登録商標)カード等)、通信ポート、PCMCIAスロットおよびカード等が挙げられる。通信インターフェースを介して転送されるソフトウェアおよびデータは、一般に、電子信号、電磁信号、光学信号、および/または通信インターフェースによって受信可能な他の信号とすることができる信号の形態である。信号は、チャネルを介して通信インターフェースに提供されることが多い。チャネルは、信号を搬送することが多く、ワイヤまたはケーブル、光ファイバ、電話回線、携帯電話リンク、RFリンク、および/または他の通信チャネルを使用して実装することができる。したがって、一例では、通信インターフェースを使用して、信号検出モジュールによって検出され得る信号情報を受信することができる。
【0247】
データは、手動入力デバイスまたは直接データ入力デバイス(DDE)を含むがこれらに限定されない適切なデバイスおよび/または方法によって入力され得る。手動デバイスの非限定的な例としては、キーボード、コンセプトキーボード、タッチセンシティブスクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナ、デジタルカメラ、ビデオデジタイザ、および音声認識デバイスが挙げられる。DDEの非限定的な例としては、バーコードリーダ、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学式マーク認識、およびターンアラウンドドキュメントが挙げられる。
【0248】
いくつかの実施形態では、シーケンシングデバイスまたは機械からの出力は、入力デバイスを介して入力され得るデータとして機能し得る。特定の実施形態では、マッピングされた配列リードは、入力デバイスを介して入力され得るデータとして機能し得る。特定の実施形態では、核酸断片サイズ(例えば、長さ)は、入力デバイスを介して入力することができるデータとして機能し得る。特定の実施形態では、核酸捕捉プロセス(例えば、ゲノム領域起源データ)からの出力は、入力デバイスを介して入力することができるデータとして機能し得る。特定の実施形態では、核酸断片サイズ(例えば、長さ)と核酸捕捉プロセスからの出力(例えば、ゲノム領域起源データ)との組み合わせは、入力デバイスを介して入力することができるデータとして機能し得る。特定の実施形態では、シミュレートされたデータはインシリコプロセスによって生成され、シミュレートされたデータは、入力デバイスを介して入力することができるデータとして機能する。「インシリコ」という用語は、コンピュータを使用して行われる研究および実験を指す。インシリコプロセスとしては、本明細書中に記載されるプロセスに従って配列リードをマッピングすること、およびマッピングされた配列リードを処理することが挙げられるが、これらに限定されない。
【0249】
システムは、本明細書に記載のプロセスまたはプロセスの一部を実行するのに有用なソフトウェアを含むことができ、ソフトウェアは、そのようなプロセスを実行するための1またはそれよりも多くのモジュール(例えば、シーケンシングモジュール、論理処理モジュール、データ表示編成モジュール)を含むことができる。「ソフトウェア」という用語は、コンピュータによって実行されると、コンピュータ動作を実行するコンピュータ可読プログラム命令を指す。1またはそれよりも多くのマイクロプロセッサによって実行可能な命令は、実行されると、1またはそれよりも多くのマイクロプロセッサに本明細書に記載の方法を実施させることができる実行可能コードとして提供されることがある。
【0250】
本明細書に記載のモジュールはソフトウェアとして存在することができ、ソフトウェアに組み込まれた命令(例えば、プロセス、ルーチン、サブルーチン)は、マイクロプロセッサによって実施または実行することができる。例えば、モジュール(例えば、ソフトウェアモジュール)は、特定のプロセスまたはタスクを実行するプログラムの一部とすることができる。「モジュール」という用語は、より大きな機械またはソフトウェアシステムで使用できる自己完結型の機能ユニットを指す。モジュールは、モジュールの機能を実施するための命令のセットを備えることができる。モジュールは、データおよび/または情報を変換することができる。データおよび/または情報は、適切な形態であり得る。例えば、データおよび/または情報は、デジタルまたはアナログであり得る。特定の実施形態では、データおよび/または情報は、パケット、バイト、文字、またはビットであり得るときがある。いくつかの実施形態では、データおよび/または情報は、任意の収集された、組み立てられた、または使用可能なデータまたは情報であり得る。データおよび/または情報の非限定的な例としては、適切な媒体、写真、ビデオ、音(例えば、周波数、可聴または非可聴)、数字、定数、値、オブジェクト、時間、関数、命令、マップ、参照、配列、リード、マッピングされたリード、レベル、範囲、閾値、信号、表示、表現、またはそれらの変換が挙げられる。モジュールは、データおよび/または情報を受け取り、データおよび/または情報を第2の形態に変換し、第2の形態を機械、周辺機器、コンポーネント、または別のモジュールに提供または転送することができる。モジュールは、以下の1またはそれよりも多くの非限定的な機能を実行することができる:例えば、配列リードのマッピング、カウントの提供、部分のアセンブリング、レベルの提供または決定、カウントプロファイルの提供、正規化(例えば、リードの正規化、カウントの正規化等)、正規化されたカウントプロファイルまたは正規化されたカウントレベルの提供、2つを超えるレベルの比較、不確定値の提供、予想されるレベルおよび予想される範囲(例えば、予想されるレベル範囲、閾値範囲および閾値レベル)の提供および決定、レベルへの調整の提供(例えば、第1のレベルの調節、第2のレベルの調節、染色体もしくはその一部のプロファイルの調節、および/またはパディング)、同定(例えば、コピー数の変化、遺伝的変異/遺伝的変化または異数性を特定すること)の提供、カテゴリ化、プロット、および/またはアウトカムの判定。マイクロプロセッサは、特定の実施形態では、モジュール内の命令を実行することができる。いくつかの実施形態では、1またはそれよりも多くのマイクロプロセッサは、モジュールまたはモジュールのグループ内の命令を実施する必要がある。モジュールは、別のモジュール、機械またはソースにデータおよび/または情報を提供することができ、別のモジュール、機械またはソースからデータおよび/または情報を受信することができる。
【0251】
コンピュータプログラム製品は、有形のコンピュータ可読媒体上で具現化されるときもあり、非一時的なコンピュータ可読媒体上で有形に具現化されるときもある。モジュールは、コンピュータ可読媒体(例えば、ディスク、ドライブ)またはメモリ(例えば、ランダムアクセスメモリ)に記憶されるときがある。モジュールからの命令を実施することができるモジュールおよびマイクロプロセッサは、機械または異なる機械に配置することができる。モジュールのための命令を実施することができるモジュールおよび/またはマイクロプロセッサは、ユーザと同じ場所(例えば、ローカルネットワーク)またはユーザとは異なる場所(例えば、リモートネットワーク、クラウドシステム)に配置することができる。方法が2またはそれよりも多くのモジュールと共に実施される実施形態では、モジュールは同じ機械内に配置することができ、1またはそれよりも多くのモジュールは同じ物理的位置の異なる機械内に配置することができ、1またはそれよりも多くのモジュールは異なる物理的位置の異なる機械内に配置することができる。
【0252】
機械は、いくつかの実施形態では、モジュール内の命令を実行するための少なくとも1つのマイクロプロセッサを備える。配列リード定量(例えば、カウント)は、本明細書中に記載される方法を実行するように構成される命令を実行するマイクロプロセッサによってアクセスされるときがある。マイクロプロセッサによってアクセスされる配列リード定量化は、システムのメモリ内にあり得、カウントは、取得された後にアクセスされ、システムのメモリに配置され得る。いくつかの実施形態では、機械は、マイクロプロセッサがモジュールからの1またはそれよりも多くの命令(例えば、プロセス、ルーチンおよび/またはサブルーチン)を実行および/または実施することができるマイクロプロセッサ(例えば、1またはそれよりも多くのマイクロプロセッサ)を含む。いくつかの実施形態では、機械は、協調されて並列に機能するマイクロプロセッサ等の複数のマイクロプロセッサを含む。いくつかの実施形態では、機械は、1またはそれよりも多くの外部マイクロプロセッサ(例えば、内部または外部ネットワーク、サーバ、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))で動作する。いくつかの実施形態では、機械はモジュール(例えば、1またはそれよりも多くのモジュール)を備える。モジュールを備える機械は、多くの場合、1またはそれよりも多くのデータおよび/または情報を他のモジュールとの間で送受信することができる。
【0253】
特定の実施形態では、機械は、周辺機器および/またはコンポーネントを含む。特定の実施形態では、機械は、他のモジュール、周辺機器および/またはコンポーネントへと、またはそれらからデータおよび/または情報を転送することができる1またはそれよりも多くの周辺機器またはコンポーネントを備えることができる。特定の実施形態では、機械は、データおよび/または情報を提供する周辺装置および/またはコンポーネントとインタラクトする。特定の実施形態では、周辺機器およびコンポーネントは、機械が機能を実施すること、またはモジュールと直接対話することを支援する。周辺機器および/または構成要素の非限定的な例としては、限定されないが、スキャナ、プリンタ、ディスプレイ(例えば、モニタ、LED、LCTまたはCRT)カメラ、マイクロフォン、パッド(例えば、ipad(登録商標)、タブレット)、タッチスクリーン、スマートフォン、携帯電話、USB I/Oデバイス、USB大容量ストレージデバイス、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサ、サーバ、CD、DVD、グラフィックカード、専用I/Oデバイス(例えば、シーケンサ、フォトセル、光電子増倍管、光学リーダ、センサ等)、1またはそれよりも多くのフローセル、流体処理コンポーネント、ネットワークインターフェースコントローラ、ROM、RAM、無線転送方法およびデバイス(Bluetooth(登録商標)、WiFi等)、ワールドワイドウェブ(www)、インターネット、コンピュータおよび/または別のモジュールを含む適切なコンピュータ周辺機器、I/Oまたは記憶方法またはデバイスが挙げられる。
【0254】
プログラム命令を含むソフトウェアは、コンピュータ可読媒体に記録されたプログラム命令を含むプログラム製品上に提供されることが多く、限定されないが、フロッピー(登録商標)ディスク、ハードディスク、および磁気テープを含む磁気媒;ならびにCD-ROMディスク、DVDディスク、光磁気ディスク、フラッシュメモリデバイス(例えば、フラッシュドライブ)、RAM、フロッピーディスク等を含む光学媒体、およびプログラム命令を記録することができる他のそのような媒体が挙げられる。オンライン実装では、組織によって維持されるサーバおよびウェブサイトは、リモートユーザにソフトウェアダウンロードを提供するように構成することができ、またはリモートユーザは、組織によって維持されるリモートシステムにアクセスしてソフトウェアにリモートアクセスすることができる。ソフトウェアは、入力情報を取得または受信することができる。ソフトウェアは、具体的にデータを取得または受信するモジュール(例えば、配列読み取りデータおよび/またはマッピング読み取りデータを受信するデータ受信モジュール)を含むことができ、具体的にデータを処理するモジュール(例えば、フィルタリング、正規化、アウトカムおよび/またはレポートの提供)を含むことができる。入力情報を「取得する」および「受信する」という用語は、ローカルまたはリモートサイト、人のデータ入力、またはデータを受信する任意の他の方法からコンピュータ通信手段によってデータ(例えば、配列リード、マッピングされたリード)を受信することを指す。入力情報は、受信されたのと同じ場所で生成されてもよいし、異なる場所で生成されて受信場所に送信されてもよい。いくつかの実施形態では、入力情報は、処理される前に修正される(例えば、処理に適したフォーマットに配置される(例えば、表形式))。
【0255】
ソフトウェアは、特定の実施形態では1またはそれよりも多くのアルゴリズムを含むことができる。アルゴリズムは、有限の命令シーケンスに従ってデータを処理し、および/またはアウトカムまたは報告を提供するために使用され得る。アルゴリズムは、タスクを完了するための定義された命令のリストであることが多い。初期状態から開始して、命令は、定義された一連の連続状態を通って進み、最終的に最終終了状態で終了する計算を記述することができる。ある状態から次の状態への遷移は、必ずしも決定的ではない(例えば、いくつかのアルゴリズムはランダム性を組み込んでいる)。限定ではなく例として、アルゴリズムは、検索アルゴリズム、ソートアルゴリズム、マージアルゴリズム、数値アルゴリズム、グラフアルゴリズム、ストリングアルゴリズム、モデリングアルゴリズム、計算ゲノムアルゴリズム、組み合わせアルゴリズム、機械学習アルゴリズム、暗号アルゴリズム、データ圧縮アルゴリズム、パーズアルゴリズム等であり得る。アルゴリズムは、1つのアルゴリズムまたは組み合わせて動作する2またはそれよりも多くのアルゴリズムを含むことができる。アルゴリズムは、任意の適切な複雑度クラスおよび/またはパラメータ化された複雑度を有することができる。アルゴリズムは、計算および/またはデータ処理に使用することができ、いくつかの実施形態では、決定論的または確率的/予測的手法で使用することができる。アルゴリズムは、適切なプログラミング言語を使用することによってコンピューティング環境で実装することができ、その非限定的な例は、C、C++、Java(登録商標)、Perl、Python、Fortran等である。いくつかの実施形態では、アルゴリズムは、誤差のマージン、統計分析、統計的有意性、および/または他の情報もしくはデータセット(例えば、固定カットオフアルゴリズム、動的クラスタリングアルゴリズム、または個々の多型核酸標的閾値アルゴリズム等の胎児特異的核酸を決定するための本明細書に記載のアルゴリズムを、例えば、使用する際のアプリケーション)の比較を含むように構成または修正することができる。
【0256】
特定の実施形態では、ソフトウェアで使用するためにいくつかのアルゴリズムを実装することができる。いくつかの実施形態では、これらのアルゴリズムは生データで訓練することができる。新たな生データサンプルごとに、訓練されたアルゴリズムは、代表的な処理されたデータセットまたはアウトカムを生成することができる。処理されたデータセットは、処理された親データセットと比較して複雑さが低減されることがある。いくつかの実施形態では、処理されたセットに基づいて、訓練されたアルゴリズムの性能を、感度および特異度に基づいて評定することができる。特定の実施形態では、最も高い感度および/または特異性を有するアルゴリズムを特定し、利用することができる。
【0257】
特定の実施形態では、シミュレートされた(またはシミュレーション)データは、例えば、アルゴリズムを訓練することまたはアルゴリズムを試験することによって、データ処理を支援することができる。いくつかの実施形態では、シミュレートされたデータは、配列リードの異なるグループ分けの仮説的な様々なサンプリングを含む。シミュレートされたデータは、実際の集団から予想され得るものに基づいてもよく、またはアルゴリズムを試験するためおよび/または正しい分類を割り当てるために歪められてもよい。シミュレートされたデータは、本明細書では「仮想」データとも呼ばれる。シミュレーションは、特定の実施形態ではコンピュータプログラムによって実行することができる。シミュレートされたデータセットを使用する際の1つの可能な工程は、識別された結果の信頼性、例えば、ランダムサンプリングが元のデータとどの程度一致するか、または最も良く表すかを評価することである。1つの手法は、確率値(p値)を計算することであり、これは、選択されたサンプルよりも良好なスコアを有するランダムサンプルの確率を推定する。いくつかの実施形態では、経験的モデルが評定される場合があり、ここでは、少なくとも1つのサンプルが(解決された変動の有無にかかわらず)参照サンプルと一致すると仮定される。いくつかの実施形態では、確率分布を定義するために、例えばポアソン分布等の別の分布を使用することができる。
【0258】
システムは、特定の実施形態では、1またはそれよりも多くのマイクロプロセッサを含むことができる。マイクロプロセッサは、通信バスに接続することができる。コンピュータシステムは、メインメモリ、しばしばランダムアクセスメモリ(RAM)を含むことができ、二次メモリも含むことができる。いくつかの実施形態におけるメモリは、非一時的コンピュータ可読記憶媒体を含む。二次メモリは、例えば、ハードディスクドライブおよび/またはフロッピーディスクドライブ、磁気テープドライブ、光ディスクドライブ、メモリカード等を代表する取り外し可能な記憶ドライブを含むことができる。リムーバブル記憶ドライブは、リムーバブル記憶ユニットからの読み取りおよび/またはリムーバブル記憶ユニットへの書き込みを行うことが多い。リムーバブル記憶ユニットの非限定的な例には、フロッピーディスク、磁気テープ、光ディスク等が含まれ、これらは、例えば、リムーバブル記憶ドライブによって読み書きすることができる。リムーバブル記憶ユニットは、コンピュータソフトウェアおよび/またはデータを記憶したコンピュータ使用可能記憶媒体を含むことができる。
【0259】
マイクロプロセッサは、システム内にソフトウェアを実装することができる。いくつかの実施形態では、マイクロプロセッサは、ユーザが実行することができる本明細書に記載のタスクを自動的に実行するようにプログラムすることができる。したがって、マイクロプロセッサ、またはそのようなマイクロプロセッサによって遂行されるアルゴリズムは、ユーザからの監視または入力をほとんどまたは全く必要としない可能性がある(例えば、ソフトウェアは、機能を自動的に実施するようにプログラムされてもよい)。いくつかの実施形態では、プロセスの複雑さは非常に大きいため、単一の人または人のグループは、遺伝的変異または遺伝的変化の有無を判定するのに十分短い時間枠でプロセスを実行することができない。
【0260】
いくつかの実施形態では、二次メモリは、コンピュータプログラムまたは他の命令がコンピュータシステムにロードされることを可能にするための他の同様の手段を含むことができる。例えば、システムは、リムーバブル記憶ユニットおよびインターフェースデバイスを含むことができる。そのようなシステムの非限定的な例としては、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲームデバイスに見られるもの等)、リムーバブルメモリチップ(例えば、EPROMまたはPROM)および関連するソケット、ならびにソフトウェアおよびデータがリムーバブルス記憶ユニットからコンピュータシステムに転送されることを可能にする他のリムーバブル記憶ユニットおよびインターフェースが挙げられる。
【0261】
図2は、本明細書に記載の様々なシステム、方法、アルゴリズム、およびデータ構造が実装され得るコンピューティング環境110の非限定的な例を示す。コンピューティング環境110は、適切なコンピューティング環境の一例にすぎず、本明細書に記載のシステム、方法、およびデータ構造の使用または機能の範囲に関するいかなる制限も示唆することを意図していない。コンピューティング環境110は、コンピューティング環境110に示されているコンポーネントのいずれかまたは組み合わせに関する依存関係または要件を有すると解釈されるべきではない。特定の実施形態では、
図2に示すシステム、方法、およびデータ構造のサブセットを利用することができる。本明細書に記載のシステム、方法、およびデータ構造は、多数の他の汎用または専用コンピューティングシステム環境または構成で動作可能である。適切であり得る既知のコンピューティングシステム、環境、および/または構成の例としては、パーソナルコンピュータ、サーバコンピュータ、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラム可能な家庭用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境等が挙げられるが、これらに限定されない。
【0262】
図2の動作環境110は、処理ユニット121と、システムメモリ122と、システムメモリ122を含む様々なシステムコンポーネントを処理ユニット121に動作可能に結合するシステムバス123とを含む、コンピュータ120の形態の汎用コンピューティングデバイスを含む。コンピュータ120のプロセッサが単一の中央処理ユニット(CPU)または一般に並列処理環境と呼ばれる複数の処理ユニットを含むように、ただ1つの処理ユニット121が存在してもよいし、複数の処理ユニットが存在してもよい。コンピュータ120は、従来のコンピュータ、分散型コンピュータ、または任意の他の種類のコンピュータであってもよい。
【0263】
システムバス123は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含むいくつかのタイプのバス構造のいずれかであってもよい。システムメモリは、単にメモリとも呼ばれ、読み出し専用メモリ(ROM)124およびランダムアクセスメモリ(RAM)を含む。起動中等にコンピュータ120内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム(BIOS)126は、ROM 124に記憶されている。コンピュータ120は、図示されていないハードディスクから読み書きするためのハードディスクドライブインターフェース127と、リムーバブル磁気ディスク129から読み書きするための磁気ディスクドライブ128と、CD-ROMまたは他の光学媒体等のリムーバブル光ディスク131から読み書きするための光ディスクドライブ130とをさらに備えることができる。
【0264】
ハードディスクドライブ127、磁気ディスクドライブ128、および光ディスクドライブ130は、それぞれハードディスクドライブインターフェース132、磁気ディスクドライブインターフェース133、および光ディスクドライブインターフェース134によってシステムバス123に接続される。ドライブおよびそれらの関連するコンピュータ可読媒体は、コンピュータ120に対してコンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータの不揮発性記憶を提供する。磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)等、コンピュータによってアクセス可能なデータを格納することができる任意のタイプのコンピュータ可読媒体が、動作環境で使用され得る。
【0265】
オペレーティングシステム135、1またはそれよりも多くのアプリケーションプログラム136、他のプログラムモジュール137、およびプログラムデータ138を含むいくつかのプログラムモジュールが、ハードディスク、磁気ディスク129、光ディスク131、ROM124、またはRAMに格納されてもよい。ユーザは、キーボード140およびポインティングデバイス142等の入力デバイスを介してパーソナルコンピュータ120にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)は、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等を含むことができる。これらおよび他の入力デバイスは、システムバスに結合されたシリアルポートインターフェース146を介して処理ユニット121に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)等の他のインターフェースによって接続されてもよい。モニタ147または他の種類の表示デバイスも、ビデオアダプタ148等のインターフェースを介してシステムバス123に接続される。コンピュータは、モニタに加えて、典型的には、スピーカおよびプリンタ等の他の周辺出力デバイス(図示せず)を含む。
【0266】
コンピュータ120は、リモートコンピュータ149等の1またはそれよりも多くのリモートコンピュータへの論理接続を使用してネットワーク環境で動作することができる。これらの論理接続は、コンピュータ120またはその一部に結合された通信デバイスによって、または他の方法で達成されてもよい。リモートコンピュータ149は、別のコンピュータ、サーバ、ルータ、ネットワークPC、クライアント、ピアデバイス、または他の共通ネットワークノードであってもよく、典型的には、コンピュータ120に関して上述した要素の多くまたは全てを含むが、
図2にはメモリ記憶デバイス150のみが示されている。
図2に示す論理接続は、ローカルエリアネットワーク(LAN)151およびワイドエリアネットワーク(WAN)152を含む。そのようなネットワーキング環境は、オフィスネットワーク、企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいて一般的であり、これらは全てネットワークのタイプである。
【0267】
LANネットワーキング環境で使用される場合、コンピュータ120は、通信デバイスの一種であるネットワークインターフェースまたはアダプタ153を介してローカルネットワーク151に接続される。WANネットワーク環境で使用される場合、コンピュータ120は、多くの場合、モデム154、あるタイプの通信デバイス、または広域ネットワーク152を介した通信を確立するための任意の他のタイプの通信デバイスを含む。モデム154は、内部であっても外部であってもよく、シリアルポートインターフェース146を介してシステムバス123に接続される。ネットワーク化された環境では、パーソナルコンピュータ120またはその一部に関して示されたプログラムモジュールは、リモートメモリ記憶デバイスに格納されてもよい。示されるネットワーク接続は非限定的な例であり、コンピュータ間の通信リンクを確立するための他の通信デバイスが使用されてもよいことが理解される。
【0268】
変換
上記のように、データは、ある形式から別の形式に変換されるときがある。本明細書で使用される「変換された」、「変換」という用語、および文法的派生物またはそれらの等価物は、物理的出発物質(例えば、試験対象および/または参照対象サンプル核酸)から物理的出発物質のデジタル表現(例えば、配列リードデータ)へのデータの変更を指し、いくつかの実施形態では、アウトカムを提供するために利用することができるデジタル表現の1またはそれよりも多くの数値またはグラフィカル表現へのさらなる変換を含む。特定の実施形態では、デジタル表現されたデータの1またはそれよりも多くの数値および/またはグラフ表示は、試験対象の物理的ゲノム(例えば、ゲノム挿入、重複または欠失の有無を仮想的に表すかまたは視覚的に表す;医学的症状に関連する配列の物理量の変動の有無を表す)の外観を表すために利用され得る。仮想表現は、出発物質のデジタル表現の1またはそれよりも多くの数値またはグラフィカル表現にさらに変換されることがある。これらの方法は、物理的出発物質を数値もしくはグラフ表示、または試験対象の核酸の物理的外観の表示に変換することができる。
【0269】
いくつかの実施形態では、データセットの変換は、データの複雑さおよび/またはデータ次元を削減することによってアウトカムを提供することを容易にする。データセットの複雑さは、物理的な出発物質を出発物質の仮想表現(例えば、物理的出発物質を表す配列リード)に変換するプロセス中に削減されるときがある。適切な特徴または変数を利用して、データセットの複雑さおよび/または次元を削減することができる。データ処理用の標的の特徴として使用するために選択され得る特徴の非限定的な例としては、GC含量、断片サイズ(例えば、循環無細胞断片、リードまたはその適切な表現の長さ(例えば、FRS))、断片配列、特定の遺伝子またはタンパク質の同定、癌の同定、疾患、遺伝した遺伝子/形質、染色体異常、生物学的カテゴリ、化学的カテゴリ、生化学カテゴリ、遺伝子またはタンパク質のカテゴリ、遺伝子オントロジー、タンパク質オントロジー、共調節遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、前述の遺伝子に関連するタンパク質、遺伝子変異体、タンパク質変異体、共調節遺伝子、共調節タンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データ等、およびこれらの組み合わせが挙げられる。データセットの複雑さおよび/または次元の削減の非限定的な例としては、複数の配列リードのプロファイルプロットに対する削減、複数の配列リードの数値(例えば、対立遺伝子頻度、正規化値、Zスコア、p値)に対する削減;複数の分析方法の確率プロットまたは単一点に対する削減;導出量の主成分分析等、またはそれらの組み合わせである。
【0270】
実施形態
本出願は、以下の非例示的な実施形態を含む。
実施形態1.妊娠中の母親の胎児の父性を判定する方法であって、
(a)擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的についての遺伝子型を得ること、
(b)胎児核酸を含む前記妊娠中の母親から得られた生体サンプルから無細胞核酸を単離すること、
(c)無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の頻度を測定すること、
(d)前記1またはそれよりも多くの多型核酸標的から有益な多型核酸標的を選択すること、
(e)選択された有益な多型核酸標的の各対立遺伝子の前記測定された対立遺伝子頻度を決定し、それにより、選択された有益な多型核酸標的ごとの前記測定された対立遺伝子頻度に基づいて胎児遺伝子型を決定すること、および
(f)有益な核酸標的に対する母親、擬父および胎児の遺伝子型に基づいて、胎児の父子関係を決定すること、を含む、方法。
【0271】
実施形態2.工程(a)が、前記妊娠中の母親から得られたゲノムDNAサンプル中の前記1またはそれよりも多くの多型核酸標的の遺伝子型を得ることを更に含む、実施形態1に記載の方法。
【0272】
実施形態3.工程(e)が、前記測定された対立遺伝子頻度をそれぞれの多型核酸標的の閾値と比較することを更に含む、先行する実施形態のいずれか1項に記載の方法。
【0273】
実施形態4.工程(f)が、各有益な多型核酸標的についての父性指数を決定すること、各有益な多型核酸標的についての前記父性指数の積である、全ての有益な多型核酸標的についての総合父性指数を決定することを含む、先行する実施形態のいずれか1項に記載の方法。
【0274】
実施形態5.前記有益な多型核酸標的の各々についての前記母親の遺伝子型、ならびに擬父および胎児の遺伝子型を父子判定ソフトウェアに入力することによって、前記父性指数が決定される、実施形態4に記載の方法。
【0275】
実施形態6.前記総合父性指数が所定の閾値よりも大きい場合、前記擬父が生物学的父親であると判定される、実施形態4に記載の方法。
【0276】
実施形態7.工程(c)が、無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の量に基づいて、測定対立遺伝子頻度を決定することを含む、実施形態1に記載の方法。
【0277】
実施形態8.前記有益な多型核酸標的が、前記1またはそれよりも多くの多型核酸標的の測定値からなるデータセットに対してコンピュータアルゴリズムを実行して第1のクラスタおよび第2のクラスタを形成することによって選択され、
前記第1のクラスタが、AA母親/AB胎児、またはBB母親/AB胎児の遺伝子型の組み合わせで前記母親および前記胎児に存在する多型核酸標的を含み、および/または
前記第2のクラスタが、AB母親/BB胎児またはAB母親/AA胎児の遺伝子型の組み合わせで前記母親および前記胎児に存在するSNPを含む、先行する実施形態のいずれか1項に記載の方法。
【0278】
実施形態9.前記多型核酸標的が、(i)1もしくはそれよりも多くのSNV、(ii)1もしくはそれよりも多くの制限断片長多型(RFLP)、(iii)1もしくはそれよりも多くのショートタンデムリピート(STR)、(iv)1もしくはそれよりも多くの可変数のタンデムリピート(VNTR)、(v)1もしくはそれよりも多くのコピー数変異体、(vi)挿入/欠失変異体、または(vii)(i)~(vi)のいずれかの組み合わせを含む、先行する実施形態のいずれか1項に記載の方法。
【0279】
実施形態10.前記多型核酸標的が1またはそれよりも多くのSNVを含む、先行する実施形態のいずれか1項に記載の方法。
【0280】
実施形態11.前記1またはそれよりも多くのSNVが任意のSNVを除外し、その前記参照対立遺伝子および代替対立遺伝子の組み合わせが、A_G、G_A、C_T、およびT_Cからなる群から選択される、実施形態10に記載の方法。
【0281】
実施形態12.各多型核酸標的が15%~49%のマイナー集団対立遺伝子頻度を有する、先行する実施形態のいずれか1項に記載の方法。
【0282】
実施形態13.前記SNVが、表1または表5の配列番号の少なくとも2つ、3つもしくは4つ、またはそれよりも多くのSNVを含む、先行する実施形態のいずれか1項に記載の方法。
【0283】
実施形態14.工程(b)の前記生体サンプルが、血液、血清および血漿のうちの1または複数である、先行する実施形態のいずれか1項に記載の方法。
【0284】
実施形態15.1またはそれよりも多くの無細胞核酸を胎児特異的核酸として同定することが、動的クラスタリングアルゴリズムを、
(i)前記無細胞核酸中の前記1またはそれよりも多くの多型核酸標的を、前記多型核酸標的の各々の参照対立遺伝子または代替対立遺伝子についての前記測定された対立遺伝子頻度に基づいて、母親のホモ接合群および胎児のヘテロ接合群に層別化すること、
(ii)レシピエントホモ接合群を有益でない群および有益な群に更に層別化すること、ならびに
(iii)前記有益な群における1またはそれよりも多くの多型核酸標的の量を測定すること、に適用することを含む、先行する実施形態のいずれか1項に記載の方法。
【0285】
実施形態16.前記1またはそれよりも多くの多型核酸標的の参照対立遺伝子の前記測定された頻度と、参照集団における前記参照対立遺伝子の予想頻度との間の偏差が固定カットオフより大きい場合、胎児特異的核酸が検出され、
前記参照対立遺伝子についての前記予想頻度が、
前記母親が前記代替対立遺伝子についてホモ接合である場合、0.00~0.03、
前記母親が前記代替対立遺伝子についてヘテロ接合である場合、0.40~0.60、または
前記母親が前記参照対立遺伝子についてホモ接合である場合、0.97~1.00の範囲である、先行する実施形態のいずれか1項に記載の方法。
【0286】
実施形態17.前記母親が、前記参照対立遺伝子についてホモ接合であり、前記固定カットオフアルゴリズムが、前記1またはそれよりも多くの多型核酸標的の前記参照対立遺伝子の前記測定された対立遺伝子頻度が前記固定カットオフ未満である場合、胎児特異的核酸を検出する、実施形態16に記載の方法。
【0287】
実施形態18.前記母親が、前記代替対立遺伝子についてホモ接合であり、前記固定カットオフアルゴリズムが、前記1またはそれよりも多くの多型核酸標的の前記参照対立遺伝子の前記測定された対立遺伝子頻度が前記固定カットオフより大きい場合、胎児特異的核酸を検出する、実施形態16に記載の方法。
【0288】
実施形態19.前記固定カットオフが、参照集団における前記1またはそれよりも多くの多型核酸標的の前記参照または代替対立遺伝子の前記測定されたホモ接合対立遺伝子頻度に基づく、実施形態16~17のいずれか一項に記載の方法。
【0289】
実施形態20.前記固定カットオフが、参照サンプルセット中の前記1またはそれよりも多くの多型核酸標的の前記参照または代替対立遺伝子の前記測定されたホモ接合対立遺伝子頻度の前記測定された分布のパーセンタイル値に基づく、実施形態16~19のいずれか一項記載の方法。
【0290】
実施形態21.前記個々の多型核酸標的閾値アルゴリズムが、前記1またはそれよりも多くの多型核酸標的の各々の前記測定された対立遺伝子頻度が閾値より大きい場合、前記1またはそれよりも多くの核酸を胎児特異的核酸として同定する、実施形態14に記載の方法。
【0291】
実施形態22.前記閾値が、参照サンプルセット中の前記1またはそれよりも多くの多型核酸標的のそれぞれの前記測定されたホモ接合対立遺伝子頻度に基づく、実施形態21に記載の方法。
【0292】
実施形態23.前記閾値が、前記参照サンプルセット中の前記1またはそれよりも多くの多型核酸標的のそれぞれの前記測定されたホモ接合対立遺伝子頻度の分布のパーセンタイル値である、実施形態21に記載の方法。
【0293】
実施形態24.1またはそれよりも多くの多型核酸標的の前記量が、ハイスループットシーケンシング、キャピラリー電気泳動またはデジタルポリメラーゼ連鎖反応(dPCR)から選択される少なくとも1つのアッセイにおいて決定される、実施形態1~23のいずれか1項に記載の方法。
【0294】
実施形態25.前記1またはそれよりも多くの多型核酸標的の各対立遺伝子の前記頻度を検出することが、前記対立遺伝子について特異的に設計されたフォワードプライマーおよびリバースプライマーを使用する標的化増幅、または前記対立遺伝子の配列を含むプローブ配列を使用する標的化ハイブリダイゼーションおよびハイスループットシーケンシングを含む、実施形態24に記載の方法。
【0295】
実施形態26.前記1またはそれよりも多くの多型核酸標的がSNVを含み、前記SNVの対立遺伝子の量を検出することが、少なくとも二本のプローブを前記SNVを含む前記多型核酸標的にハイブリダイズさせることを含み、前記二本のプローブの一方が前記SNVの前記対立遺伝子に相補的なヌクレオチドを含む場合、前記二本のプローブをライゲートして連結プローブを形成する、実施形態24に記載の方法。
【0296】
実施形態27.前記対立遺伝子の前記量を検出することが、増幅された連結プローブを生成するために前記連結プローブにアニーリングされたプライマーをハイブリダイズさせること、および前記増幅された連結プローブをシーケンシングすることをさらに含む、実施形態26に記載の方法。
【0297】
実施形態28.1またはそれよりも多くのプロセッサと、1またはそれよりも多くのプロセッサに結合されたメモリとを備える、父性を判定するためのシステムであって、前記メモリが、プロセスであって、
擬父から得られたゲノムDNAサンプル中の1またはそれよりも多くの多型核酸標的についての遺伝子型を得ること、
妊娠中の母親から得られたサンプルからの無細胞核酸中の1またはそれよりも多くの多型核酸標的の各対立遺伝子の量を決定すること、
前記1またはそれよりも多くの多型核酸標的から有益な多型核酸標的を選択すること、
前記選択された有益な多型核酸標的の各対立遺伝子の前記測定された対立遺伝子頻度を決定し、それにより、選択された有益な多型核酸標的ごとの前記対立遺伝子頻度に基づいて胎児遺伝子型を決定すること、および
有益な核酸標的に対する母親、擬父および胎児の遺伝子型に基づいて、胎児の父子関係を決定すること。
【0298】
実施形態29.1またはそれよりも多くのプロセッサによって遂行されると、前記1またはそれよりも多くのプロセッサに、実施形態1~27のいずれか1項に記載の父子関係を判定する方法を実行させるプログラム命令を備える、非一時的機械可読記憶媒体。
【実施例】
【0299】
本発明を実施するための具体的な態様の以下の実施例は、例示のみを目的として提供され、決して本発明の範囲を限定することを意図するものではない。
【0300】
実施例1.ワークフロー
図1は、本明細書に開示される父子判定方法の例示的なワークフローを示す。妊娠中の母親からStreckまたはRoche無細胞DNA(cfDNA)チューブに血液(8mL)を採取する。冷蔵した遠心分離機を使用して1,000~2,000×gで10分間遠心分離することによって血漿から細胞を除去する。得られた血漿である上清を、滅菌ピペットを用いて清潔なバイアルに直ちに移す。血漿サンプルを-20℃で保存し、使用のために解凍する。血漿サンプルを、ビーズベースまたはQiagenカラムベースの抽出方法を用いて処理して、単離されたcfDNAを生成する。母親および擬父のゲノムDNAは、従来の方法によって抽出される。母体ゲノムDNAは、血液サンプルからの残留バフィーコートから抽出することができ、擬父ゲノムDNAは、血液、頬側またはスポーツカード(sport card)から抽出することができる。1~5ngの各ゲノムDNAを以下に記載される反応に添加する。
【0301】
DNA抽出後、SNVパネルに特異的なプライマーを用いてマルチプレックスPCR反応を設定する。SNVおよびそれぞれのプライマー(第1のプライマーおよび第2のプライマー)の配列を表3および表4に提供する。PCRに続いて、反応産物を希釈し、サンプル特異的バーコード配列に付加するユニバーサルPCRで再度増幅する。次いで、個々のサンプルを合わせる。ゲノムDNAの遺伝子型決定およびcfDNAシーケンシングは、正確な分析のために異なる読み取り深度を必要とするため、同じシーケンシング細胞にロードするために、それぞれのサンプルを異なる濃度で組み合わせることができる。遺伝子型決定サンプルは、cfDNAサンプルに対して1:10の比で添加することができる。
【0302】
合わせたサンプルを、Illumina HiSeqまたはMiSeqシーケンサ等のシーケンシング装置にロードして、生のシーケンシングデータを生成する。生のシーケンシングリードを参照ゲノムにアラインメントし、リードカウントをSNV位置の可能なヌクレオチドごとに行う。次いで、所与のSNVにおける各ヌクレオチドに対するリードの数を、以下の式を使用してパーセント参照対立遺伝子頻度(RAF)に変換する:参照対立遺伝子頻度=参照対立遺伝子に対するリードの数/(参照対立遺伝子に対するリードの数+代替対立遺伝子に対するリードの数)。
【0303】
母体および潜在的な父性ゲノムDNAの遺伝子型決定のため、RAFを使用して、個体が参照対立遺伝子についてホモ接合であるか、代替対立遺伝子についてホモ接合であるか、またはヘテロ接合であるかを決定する。判定は、0~0.1 RAFの保存的RAFカットオフに基づいており、これはホモ接合代替対立遺伝子を示し、0.9~1 RAFはホモ接合参照対立遺伝子を示し、0.4~0.6 RAFはヘテロ接合を示す。この決定に続いて、関係分析のためにfamilias3オープンソースソフトウェアに遺伝子型をアップロードする。
【0304】
出生前の実父確定検査のため、上記の方法を使用して、単離された単一ソースゲノムDNAから母親および擬父の遺伝子型を同定する。次いで、胎児の遺伝子型を抽出するために、配列決定されたcfDNAを異なる方法で分析する。まず、上記のように各SNVについてRAFが計算されるが、これらの値はその後、鏡像対立遺伝子頻度(mAF:mirrored allele frequency)に変換される。mAFは、RAFおよび(1-RAF)のより小さい値として計算される。これは、0.5より大きいRAF値を0~0.5の範囲に反映し、同様の胎児-母体遺伝子型の組み合わせを一緒にグループ化する。すなわち、母体のホモ接合代替対立遺伝子SNV/胎児ヘテロ接合SNVを有する母体のホモ接合参照対立遺伝子SNV/胎児ヘテロ接合SNV群である。代替対立遺伝子についての予想頻度が0である、参照対立遺伝子についてホモ接合である遺伝子座についてさえ、代替対立遺伝子についての測定された頻度は、0超、例えば0.005であり得ることが発見された。この例では、0.005がリードカットオフとして使用される。次に、0.005 mAF未満の全てのcfDNAリードを除去する(0.005 RAF未満および0.995 RAF超)。これにより、1つの対立遺伝子のみが検出されるSNVが除去される(すなわち、胎児DNAと母体DNAが区別できないか、または胎児DNAが検出できない)。最初に、母親がホモ接合であると遺伝子型決定された遺伝子座を分析する。mAFがカットオフを上回るこれらの遺伝子座における全てのcfDNAリードが、胎児DNAがヘテロ接合である遺伝子座であると決定される。全ての胎児ヘテロ接合遺伝子座の代表値mAFを計算して、胎児分率を設定する。次いで、ヘテロ接合胎児特異的遺伝子型、母体遺伝子型、および擬父遺伝子型(複数可)をfamilias3において分析する。ソフトウェアは、擬父が生物学的父親である可能性を表す父性指数を、各有益なSNVのトリオの遺伝子型(gentope)に基づいて産生し、次いで、総合父性指数は、各有益なSNVの父性指数を乗算することによって決定される。総合父性指数が所定の閾値10,000よりも高い場合、擬父は生物学的父親であると確認される。総合父性指数が閾値を下回る場合、試験は決定的ではない。総合父性指数が0である場合、擬父は生物学的父親ではない。
【0305】
擬父を除外することができない場合、胎児がホモ接合であり、母親がヘテロ接合である有益なSNVが選択される。これは、最も可能性の高い遺伝子型を推測し、これらの遺伝子型に事後確率を割り当てるために、上に記載したような最尤分析およびベイズ分析を使用して達成することができる。特定の閾値(例えば、99.99%)を下回る事後確率を有する遺伝子型は除外される。これにより、試験に利用可能な遺伝子座が増え、分析の能力が高まる。
【0306】
実施例2.感度が改善されたSNVパネルを設計する
SNVを増幅するために、SNVパネルに特異的なプライマー(SNVおよびそれぞれのプライマーの配列を表3および表4に提供する)を用いてPCR反応を設定した。
【表3-1】
【表3-2】
【表3-3】
【表3-4】
【表3-5】
【表3-6】
【表3-7】
【表3-8】
【表3-9】
【表4-1】
【表4-2】
【表4-3】
【表4-4】
【0307】
上記のSNVパネルを特徴付している間に、SNVの特定のカテゴリがそれらの対立遺伝子頻度においてより高い量のバイアスおよび変動性を有することが決定された。ホモ接合SNVの場合、対立遺伝子頻度は0または1に等しくなければならない。バックグラウンドは、0または1から離れた中央値バイアスとして定義される。これは、部分的にはシーケンシングエラーまたはPCRエラーによって引き起こされる。変動度は、ホモ接合対立遺伝子頻度の絶対偏差の中央値(MAD)であり、エラーのない測定では、これは0になる。これらの二対立遺伝子SNVを参照対立遺伝子と代替対立遺伝子との組み合わせ(Ref_Altと略す)によって分類すると、ホモ接合SNVについてA_G、G_A、C_T、およびT_Cが最も高い中央値およびMADを有し(
図8)、パネルの78.5%を占めることが観察される(
図9)。これらのRef_Altの組み合わせは、検出され得る胎児分率の下限として機能する。
【0308】
これは、低レベルの胎児分率に対する感度を改善するために、より低いバックグラウンドRef_Altの組み合わせのみを有するv2パネルの開発の動機付けとなった。v2パネルは、v1パネルからの47のSNVを保持し、328個の新たなアッセイに、全てが所望のRef_Alt組み合わせ(A_G、G_A、C_T、またはT_Cのいずれでもない)を有するものを追加する。
【0309】
設計プロセスの最初の工程は、ユニバーサル個人識別パネルとして機能することができるSNVを同定することであった。目標は、集団にかかわらず(例えば、アジア人、ヨーロッパ人、アフリカ人等)胎児DNAと母体DNAとを区別できるようにすることであった。ALlele FREquency Database(ALFRED、サイト:http://afred.med.yale.edu/afred/sitesWithfst.asp)は、ヒト集団に関する対立遺伝子頻度データを提供する。固定指数(FST)は、総遺伝分散に対する亜集団に含まれる総遺伝分散の割合である。ほとんどの集団で同様の遺伝的分散を有するSNVを得るためには、低い値が望ましい。パネル開発の最初の工程は、このデータベースをフィルタにかけて、最小50個の集団に基づいて0.06未満のFSTを有するSNVを得ることであった。SNVをさらにフィルタにかけ、0.4(可能な最大値は0.5である)の最小代表値のヘテロ接合を確保した。これにより、「有益」となるパネル中のSNVの割合が増加し、ドナー分率の測定の信頼性が高まる。このフィルタリングは3618のSNVをもたらした。
【0310】
FASTA配列を、dbSNP(サイト:Error! Hyperlink reference not valid.ncbi.nlm.nih.gov/projects/SNP/dbSNP.cgi?list=rslist)からこれらのSNVについて得た。平均して、これは、SNVの上流および下流の両方に500bpを加えたSNVを含む1001bpの隣接配列を提供した。これらの配列を以下のパラメータと共にプライマー設計ツールBatchPrimer3(サイト:Error! Hyperlink reference not valid.probes.pw.usda.gov/batchprimer3/)で使用して、各SNVの候補プライマーを得た。
生成物サイズ最大:40;生成物サイズ最大:54;
返却回数:1回;最大3’安定性:9.0;
最大ミスプライミング:12.00;ペア最大ミスプライミング:24.00;
プライマーサイズ最小:18;プライマーサイズ最適:20;最大プライマーサイズ:24;
プライマーTm最小:52.0;プライマーTm最適60.0;プライマーTm最大:64.0;最大Tm差:10.0;
プライマーGC%最小:30.0;プライマーGC%最大:70.0;
最大自己相補性:8.00;最大3’自己相補性:3.00;
最大#Ns:0;Max-Poly-X:5;
標的外ペナルティ:0;
CGクランプ:0;
塩濃度:50.0;
アニーリングオリゴ濃度:50.0。
【0311】
BatchPrimer3による処理は、設計基準を満たす2645のアッセイをもたらした。これらのSNVを、dbSNPデータベースから得られた追加の特性に基づいてさらにフィルタリングした。以下の基準の全てを満たす場合、SNVを選択した:
1.二対立遺伝子。
2.SNVはプライマーアニーリング領域内に位置しない。
3.1000のゲノムプロジェクトにより検証。
4.ref_altの組み合わせは、A_G、G_A、C_T、T_Cのいずれでもない。
5.マイナー対立遺伝子頻度は少なくとも0.3である。
6.増幅された標的領域の配列は独特であり、ゲノムの他の場所では見つけることができない。
【0312】
結果は、全コピー計算のための2つのアッセイおよび胎児分率測定のための375のアッセイを含む377プレックスパネルである。胎児分率アッセイは、v1パネルからの47個のプライマーおよび328個の新たに設計されたプライマーからなる。このパネルをさらにフィルタにかけ、低深度、高対立遺伝子頻度バイアス(純粋なサンプルを用いた試験における0、0.5、または1からの偏差)を有するアッセイを除去した後、またはアラインメントもしくはオンターゲットレートを低下させるのに有意な役割を有する(アラインメントされていないリードまたはオフターゲットリードを各プライマーの最初の18bpに再アラインメントすることから決定される)アッセイを除去した後、198プレックス(総コピー数については2、胎児分率については196)を得た(表5)。表6は、除外されるSNVを列挙し、それらの除外の理由を提供する。第1のプライマーおよび第2のプライマーをプライマー対として用いて、表5および表6の同一行のSNVを含む領域を増幅した。
【表5-1】
【表5-2】
【表5-3】
【表5-4】
【表5-5】
【表5-6】
【表5-7】
【表5-8】
【表6-1】
【表6-2】
【表6-3】
【表6-4】
【表6-5】
【表6-6】
【表6-7】
【表6-8】
【表6-9】
【0313】
実施例3 対照の実父確定検査サンプルに対するSNVパネルマルチプレックスPCRの検証
DNA同定部の米国病理医協会(CAP)熟達度試験で以前に使用されたゲノムDNAを使用して、cfDNA新生児および出生前の実父確定検査をシミュレートした。CAP熟達度例は、母親、子供、確認された父親、および除外された父親由来のゲノムDNAを包含する。3つの熟達度試験例を、様々なシミュレートされた胎児分率で分析した。
【0314】
Promega Quantusデバイスで二本鎖DNA特異的蛍光アッセイを使用して、全個体のゲノムDNA濃度を測定した。胎児/母体cfDNAの混合プロファイルをシミュレートするために、混合物中の胎児分率がそれぞれ2%、10%および20%になるように、子供由来のゲノムDNAを母体ゲノムDNAと様々な割合で混合した。これらの混合物は、胎児分率の予想される範囲をシミュレートする。次いで、混合物を800ゲノム当量(gEqs)に等しい濃度に希釈し、続いて表5に列挙したプライマーを使用してSNV増幅した。家族研究(母親、子供、および父親候補者)における個体から単離されたゲノムDNAを、同じSNVパネル増幅を使用して個々の反応において遺伝子型決定した。出生前cfDNA実父確定検査では、単一供給源胎児ゲノムDNAは利用できないが、胎児関連混合物SNVの検証のためにここでは別個に分析した。非特定化臨床母体cfDNAの重複物も合成混合物と並行してアッセイした。分析に利用可能な母体または父性のゲノム材料はなかったが、抽出された胎児SNVの数を合成混合物と比較することができ、実父確定検査の実現可能性を評価することができた。
【0315】
HiSeq2500に対するSNV増幅およびIlluminaシーケンシングの後、リードをヒトゲノムにアラインメントし、SNV位置の各可能なヌクレオチドについてカウントした。次いで、所与のSNVにおける各ヌクレオチドに対するリードの数を、以下の式によって参照対立遺伝子頻度(RAF)に変換した:参照対立遺伝子頻度=参照対立遺伝子に対するリードの数/(参照対立遺伝子に対するリードの数+代替対立遺伝子に対するリードの数)。純粋な母体、子供、および潜在的な父性ゲノムDNAの場合、RAFを使用して、個体がホモ接合の参照対立遺伝子、ホモ接合の代替対立遺伝子、またはヘテロ接合であるかどうかを判定した。判定は、0~0.1 RAFの保存的RAFカットオフに基づいており、これはホモ接合代替対立遺伝子を示し、0.9~1 RAFはホモ接合参照対立遺伝子を示し、0.4~0.6 RAFはヘテロ接合を示す。遺伝子型を決定した後、それらを関係確認のためにFamilias3オープンソースソフトウェアにアップロードした。トリオ、すなわち、母親、子供、および擬父の実父確定検査のための基準は、10,000を超える尤度比(LR)を必要とする。非混合DNAとして分析した場合、1,000,000,000を超えるLRを有する3つの熟達度試験症例全てにおいて正しい父親が同定され、LRが0であり、多重除外SNVを有する3つの症例全てにおいて誤った父親は除外された(データは示さず)。
【0316】
上記と同様に、合成混合物モデルサンプルおよび臨床cfDNAサンプルについて、参照SNV対立遺伝子頻度を決定した。対立遺伝子頻度の計算後、k平均クラスタリング分析を合成混合物およびcfDNAサンプルに対して実施して、子供の遺伝子型を決定することができるSNV(有益なSNV)の集団を抽出した。モデル化された胎児DNAおよび胎児cfDNA分率のパーセントは、有益なSNVの代表値の対立遺伝子頻度を使用して計算することができる。合成混合物の標的胎児分率が成功したかどうかを分析するため、熟達度試験合成混合物の推定胎児分率対検出胎児分率をプロットした(
図3)。推定胎児分率と検出胎児分率との間に正の相関があり(p=0.003、R2=0.86)、cfDNA混合物をシミュレートする方法が成功したこと、およびこれらのSNVの使用が胎児分率を正確に決定することができることを示す。胎児分率の正確な検出により、選択された有益なSNVが胎児特異的DNAと関連していることが確認される。胎児分率はまた、品質管理メトリックとしての役割を果たすことができ、胎児分率が十分に高い場合、父性指数は不正確であり、父性を誤って分類する原因となり得る。
【0317】
次いで、この方法を3つの技能試験混合物で実施し、各熟達度試験の混合物は、低濃度の母親およびその子供からのゲノムDNAを、妊娠中の母親から得られたサンプル中のシミュレートされたcfDNAと混合することによって生成した。PT1、PT2およびPT3は、3人の異なる母親に由来する。例えば、PT3 14%は、母親#3を含有する混合物を指し、子供のゲノムDNAが混合物中の全ゲノムDNAの14%を占めるように、その子供のゲノムDNAが混合される。熟達度試験3(PT3)は3つの混合物全てについて予想されるよりも低かったが、熟達度試験2(PT2)および熟達度試験1(PT1)はわずかに上昇した。さらなる分析における検出された胎児分率は、SNV測定混合物パーセント(例えば、PT3 14%=14%胎児分率でのPT3混合物)によって示され、それに基づく。
図4を参照されたい。
【0318】
胎児画分の遺伝子型決定中の1つまたは2つの塩基のミスコールでさえも、父性指数(別名「尤度比」または「LR」)計算中に誤った父性除外をもたらし得る。したがって、偽遺伝子型が呼び出されないことを確実にするために、k-mer推定胎児遺伝子型に関するさらなる分析を行った。具体的には、母体のゲノムDNAのみの遺伝子型決定から母体の遺伝子型を定義した後、ある位置で母親がホモ接合である遺伝子座のみを考慮した。これらの遺伝子座について、以下の工程を行った。母親の遺伝子型決定頻度0.005を超えない全てのcfDNAリードを除去した。全リード400個未満の全ての遺伝子座を除去した。遺伝子座の残りのプールは、所与のSNVにおいて母親がホモ接合であり、子供がヘテロ接合であることを示した。各熟達度試験の混合物を、子ゲノムDNA遺伝子型決定によって決定された子ヘテロ接合遺伝子型の潜在的な数と比較される、子ヘテロ接合/母体ホモ接合遺伝子座の総数についてアッセイした(
図4)。結果は、PT3 1.1%を除く全ての混合物が、潜在的な遺伝子座の90%超を返し、父性の計算のために37から52の胎児遺伝子型の範囲であったことを示した。PT3 1.1%は37%の遺伝子座しか返さなかったが、これはおそらく胎児分率の入力が低いためである。最も重要なことに、誤った胎児遺伝子型コールは行われなかった。
【0319】
抽出された胎児のヘテロ接合、母体性、含まれる父性および除外された父性の遺伝子型をLR計算のためFamilias3に入力した。9つの混合物全てについて、除外された父親のLRは0であった。7つの混合物は、胎児のヘテロ接合遺伝子座のみを使用して、内部LR閾値(10,000超)に達することができた(
図5)。2つの混合物(それぞれ約2%)は統計学的有意性に達しなかったが、生物学的父親を除外しなかった。1)母親がホモ接合であり、子供がヘテロ接合であった場合、2)LRが不確定であった場合、および3)擬父が除外されなかった場合、さらなる分析を行った。具体的には、母親がヘテロ接合であり、子供がホモ接合である遺伝子座を分析した。誤った胎児ホモ接合遺伝子型が分析されないことを確実にするため、最小および最大ヘテロ接合範囲を、シーケンシングランの全てのゲノム遺伝子型に基づいて各遺伝子座に設定した。この範囲の任意の潜在的な胎児分率を除去した。次いで、パーセント胎児分率を母体のヘテロ接合対立遺伝子頻度に加算または減算し、この範囲より下または上の全ての潜在的遺伝子座を除去した。残りの遺伝子座は、子ホモ接合であると考えられ、LR計算に使用された。PT1 2.7%では、LRを10,000超に上昇させて複数の胎児遺伝子型を抽出することができた(
図5)。しかしながら、さらなる胎児遺伝子型をPT3 1.1%について決定することはできなかった。したがって、このアッセイの検出限界は2~4%であると推定される。
【0320】
熟達度検査サンプルを分析するために使用されたバイオインフォマティクス分析を使用して、非特定化された臨床母体cfDNAサンプルの複製の胎児分率を分析した。サンプルの胎児分率は、6.3%~15.5%の範囲であり、2~4%の予測検出限界をはるかに上回った(
図6)。母体ゲノムDNAは遺伝子型決定に利用できなかったが、サンプル複製間の比較のために胎児特異的ヘテロ接合遺伝子型を抽出して、さらなる実父確定検査を実施した場合に遺伝子座数が統計的有意性を確立できるかどうかを判定した(
図7)。抽出された胎児の遺伝子型の数39~69は、決定的な実父確定検査の検査結果を返すと予測される。複製サンプルを比較すると、2つのみが不一致を表示した。さらなる調査により、これは、欠損遺伝子座が閾値のすぐ下にある低い読み取り数に起因する可能性が最も高く、胎児対立遺伝子の誤った包含ではないことが明らかになった。
【0321】
参照による組み込み
本開示において言及されるあらゆる刊行物および特許文献は、そのような各刊行物または文献が参照により本明細書に組み込まれることが具体的かつ個別に示されているのと同程度に、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。
【0322】
本発明を特定の実施例および例示を参照して説明してきたが、日常的な開発および最適化の問題として、当業者の範囲内で、特定の状況または意図される用途に適合するように変更を行うことができ、均等物を置き換えることができ、それにより、特許請求されるものおよびそれらの均等物の範囲から逸脱することなく本発明の利益を達成する。
【配列表】
【国際調査報告】