IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パーソナル ゲノム ダイアグノスティクス インコーポレイテッドの特許一覧

<>
  • 特表-遺伝子解析の方法およびシステム 図1
  • 特表-遺伝子解析の方法およびシステム 図2
  • 特表-遺伝子解析の方法およびシステム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-29
(54)【発明の名称】遺伝子解析の方法およびシステム
(51)【国際特許分類】
   C12Q 1/68 20180101AFI20220622BHJP
   C12Q 1/6869 20180101ALI20220622BHJP
   C12Q 1/6813 20180101ALI20220622BHJP
   C12Q 1/6844 20180101ALI20220622BHJP
   G01N 33/53 20060101ALI20220622BHJP
【FI】
C12Q1/68
C12Q1/6869 Z
C12Q1/6813 Z
C12Q1/6844 Z
G01N33/53 M
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021562794
(86)(22)【出願日】2020-04-21
(85)【翻訳文提出日】2021-12-09
(86)【国際出願番号】 US2020029113
(87)【国際公開番号】W WO2020219444
(87)【国際公開日】2020-10-29
(31)【優先権主張番号】62/837,034
(32)【優先日】2019-04-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521209823
【氏名又は名称】パーソナル ゲノム ダイアグノスティクス インコーポレイテッド
(74)【代理人】
【識別番号】100102978
【弁理士】
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【弁理士】
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【弁理士】
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【弁理士】
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【弁理士】
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【弁理士】
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【弁理士】
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【弁理士】
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【弁理士】
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【弁理士】
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100121072
【弁理士】
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】トンプソン ジョン エフ.
(72)【発明者】
【氏名】ウィッティ ブレット
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QQ03
4B063QQ08
4B063QQ42
4B063QR32
4B063QR62
4B063QS25
4B063QS36
(57)【要約】
本開示は、遺伝子解析のための計算方法、およびそのような解析を実現するシステムを提供する。本開示は、挿入SNPまたは欠失SNPではなく一塩基対置換(SBS)であるSNPに関連する、マイクロハプロタイプを利用する遺伝子解析の方法を提供する。そうしたマイクロハプロタイプの解析はとりわけ、法医学的遺伝子応用、試料汚染解析、および疾患解析において有用である。
【特許請求の範囲】
【請求項1】
ゲノム中のマイクロハプロタイプを同定する方法であって:
a)ゲノムの対象領域を特定することと;
b)前記対象領域内の一塩基対置換(SBS)を検出して、複数の配列バリアントセットを生成することと;
c)各バリアントセットを連鎖不平衡について解析して、候補マイクロハプロタイプを同定することと;
d)候補マイクロハプロタイプを同定することと、
を含む、前記方法。
【請求項2】
前記対象領域のフランキング領域においてSBSを検出することをさらに含む、請求項1に記載の方法。
【請求項3】
前記対象領域の前記フランキング領域が、ショート・リード・シーケンサーによって配列決定可能な約50個未満、約100個未満、約150個未満、約180個未満、または約200個未満のヌクレオチド塩基対を含む、請求項2に記載の方法。
【請求項4】
前記対象領域の前記フランキング領域が、ロング・リード・シーケンサーによって配列決定可能な約10,000個未満のヌクレオチド塩基対を含む、請求項2に記載の方法。
【請求項5】
a)の対象領域が、約10~90%の間の頻度でSBSを有する、請求項1に記載の方法。
【請求項6】
前記対象領域の前記フランキング領域が、約5~95%の頻度でSBSを有する、請求項2に記載の方法。
【請求項7】
候補マイクロハプロタイプに対するカットオフ値を較正して試料の汚染を評価することをさらに含む、請求項1に記載の方法。
【請求項8】
前記候補マイクロハプロタイプと重なり合うDNA配列リードのみが使用され、汚染検出の閾値および汚染の程度が計算される、請求項6に記載の方法。
【請求項9】
汚染検出の閾値および汚染の程度を較正するのに使用される前記DNA配列が、一次試料および汚染物質として各DNA配列を交互に使用して、インシリコで対にして混合される、請求項8に記載の方法。
【請求項10】
1つおよび/または2つのマイクロハプロタイプを伴うSNPセットの数および遺伝型を、異なる個体間で比較して、同一性または汚染を評価する、請求項8または9に記載の方法。
【請求項11】
少なくとも3つのマイクロハプロタイプを伴う一塩基多型(SNP)セットを有する候補マイクロハプロタイプの頻度に対して決定されたカットオフ値を利用して、試料汚染を評価することをさらに含む、請求項7に記載の方法。
【請求項12】
少なくとも4つまたはそれ以上のマイクロハプロタイプを伴うSNPセットを有する候補マイクロハプロタイプの頻度に対して決定されたカットオフ値を利用して、試料汚染を評価することをさらに含む、請求項11に記載の方法。
【請求項13】
前記候補マイクロハプロタイプが、表5、表6、または表7に記載のものから選択される1つまたは複数のゲノム領域に対応する、請求項1に記載の方法。
【請求項14】
前記試料が、腫瘍または液体生検物に由来するDNAを含む、請求項7に記載の方法。
【請求項15】
前記試料が、ホルマリン固定パラフィン包埋されたブロック、スライド、またはカール(curl)から抽出されたDNAを含む、請求項7に記載の方法。
【請求項16】
前記液体生検物が、羊水、房水、硝子体液、血液、全血、分画血液、血漿、血清、母乳、脳脊髄液(CSF)、セルーメン(耳垢)、乳糜、糜粥、内リンパ液、周囲リンパ液、便、呼気、胃酸、胃液、リンパ液、粘液(鼻水および痰を含む)、心嚢液、腹水、胸水、膿、粘膜分泌物、唾液、呼気凝縮液、皮脂、精液、喀痰、汗、滑液、涙、嘔吐物、前立腺液、乳頭吸引液、涙液、汗、口腔粘膜検体採取物、細胞溶解液、胃腸液、生検組織、尿、または他の生物学的流体に由来する、請求項14に記載の方法。
【請求項17】
前記試料が循環腫瘍細胞由来である、請求項14に記載の方法。
【請求項18】
前記較正が、異なる民族性のヒトから得られた複数の試料における候補マイクロハプロタイプの解析を含む、請求項7に記載の方法。
【請求項19】
前記候補マイクロハプロタイプが、SNP配列バリアントの少なくとも3つ、4つまたはそれ以上のセットを有するSNPセットを含む、請求項1に記載の方法。
【請求項20】
前記対象領域が、遺伝子内、イントロン内、および/もしくはエクソン内、または遺伝子の間にある、請求項1に記載の方法。
【請求項21】
前記対象領域がエクソーム内にある、請求項1に記載の方法。
【請求項22】
前記候補マイクロハプロタイプを含むDNAを分離することをさらに含む、請求項1に記載の方法。
【請求項23】
前記ゲノムがヒト由来である、請求項1に記載の方法。
【請求項24】
少なくとも3つまたは4つのマイクロハプロタイプを伴うSNPセット内のハプロタイプのマイクロハプロタイプ頻度の中央値、平均値、またはその他の尺度を解析することにより、試料汚染を評価することをさらに含む、請求項1に記載の方法。
【請求項25】
前記試料と前記汚染物質のマイクロハプロタイプに共通するまたは特異的なマイクロハプロタイプを同定することにより、試料の汚染源を決定することをさらに含む、前記請求項のいずれか一項に記載の方法。
【請求項26】
マイクロハプロタイプ情報がデータベースに記憶され、新たに/同時に配列決定された個体と比較して、DNA試料が同一個体由来か異なる個体由来かが同定される、請求項25に記載の方法。
【請求項27】
マイクロハプロタイプ情報がデータベースに記憶され、新たに/同時に配列決定された個体と比較して、特定のDNA試料が他の試料を汚染しているかどうかが同定される、請求項25に記載の方法。
【請求項28】
1つおよび/または2つのマイクロハプロタイプを伴うSNPセットの数および遺伝型が、異なる個体間で比較され、同一性または汚染が評価される、請求項26または27に記載の方法。
【請求項29】
前記試料および前記汚染物質の民族性を決定することをさらに含む、前記請求項のいずれか一項に記載の方法。
【請求項30】
マイクロハプロタイプの頻度が、前記方法において使用される集団で見出される共通の遺伝型のみを用いて計算される、請求項1に記載の方法。
【請求項31】
前記共通の遺伝型が、1000 Genomes(商標)または他のデータベース中に1%より多く存在する、請求項30記載の方法。
【請求項32】
特定の供給源から、業者から、または試料を準備もしくは配列決定する技術者からの試料の品質を評価するための、請求項1に記載の方法の使用。
【請求項33】
試料中に存在する複数の被検体に由来する少なくとも3つのマイクロハプロタイプを有する一塩基多型(SNP)セットを検出するための方法であって:
a)i)ゲノムの対象領域を特定すること、
ii)前記対象領域内の一塩基対置換(SBS)を検出し、それにより、複数の配列バリアントセットを生成すること、および
iii)各バリアントセットを連鎖不平衡について解析して、マイクロハプロタイプを同定すること
を含む、試料中のゲノムにおけるマイクロハプロタイプを同定することと;
b)前記試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットの数を決定することと;
c)2つより大きいマイクロハプロタイプを伴うSNPセットの頻度を定量化して、前記試料中の複数の被検体に由来するDNAの存在を検出し、それにより、前記試料中の複数の被検体に由来するDNAを検出することと、
を含む、前記方法。
【請求項34】
前記マイクロハプロタイプを含むDNAを前記試料から分離することをさらに含む、請求項33に記載の方法。
【請求項35】
前記対象領域のフランキングゲノム領域においてSBSを検出することをさらに含む、請求項33に記載の方法。
【請求項36】
前記対象領域のフランキング領域が、ショート・リード・シーケンサーによって配列決定可能な約50個未満、約100個未満、約150個未満、約180個未満、または約200個未満のヌクレオチド塩基対を含む、請求項35に記載の方法。
【請求項37】
前記対象領域のフランキング領域が、ロング・リード・シーケンサーで配列決定可能な約10,000個未満のヌクレオチド塩基対を含む、請求項35に記載の方法。
【請求項38】
i)の対象領域が、約10~90%の頻度で遺伝型を伴うSBSを有する、請求項33記載の方法。
【請求項39】
前記対象領域の前記フランキング領域が、約5~95%の頻度で遺伝型を伴うSBSを有する、請求項35に記載の方法。
【請求項40】
2つ、3つ、4つ、またはそれ以上のマイクロハプロタイプを伴うSNPセットのカットオフ値を較正して、前記試料中の複数の被検体に由来するDNAの存在を評価する、請求項33に記載の方法。
【請求項41】
前記試料が、腫瘍または液体生検物に由来するDNAを含む、請求項33に記載の方法。
【請求項42】
前記液体生検物が、羊水、房水、硝子体液、血液、全血、分画血液、血漿、血清、母乳、脳脊髄液(CSF)、セルーメン(耳垢)、乳糜、糜粥、内リンパ液、周囲リンパ液、便、呼気、胃酸、胃液、リンパ液、粘液(鼻水および痰を含む)、心嚢液、腹水、胸水、膿、粘膜分泌物、唾液、呼気凝縮液、皮脂、精液、喀痰、汗、滑液、涙、嘔吐物、前立腺液、乳頭吸引液、涙液、汗、口腔粘膜検体採取物、細胞溶解液、胃腸液、生検組織、尿、またはその他の生物学的流体に由来する、請求項41に記載の方法。
【請求項43】
前記試料が、循環腫瘍細胞に由来する、請求項41に記載の方法。
【請求項44】
2つ以上の被検体に由来する2つより多いマイクロハプロタイプを伴うSNPセットが検出される、請求項33に記載の方法。
【請求項45】
前記試料が、母方のDNAおよび胎児のDNAを含む、請求項33に記載の方法。
【請求項46】
前記胎児のDNAを前記母方のDNAから識別することをさらに含む、請求項45に記載の方法。
【請求項47】
前記母方のDNAおよび前記胎児のDNA以外のDNAの存在を評価することをさらに含む、請求項46に記載の方法。
【請求項48】
前記被検体がヒトである、請求項33に記載の方法。
【請求項49】
試料中に存在する複数の被検体に由来する少なくとも3つのマイクロハプロタイプを有する一塩基多型(SNP)セットを検出するための方法であって:
a)試料中の2つより多いマイクロハプロタイプを有するSNPセットの存在または非存在を決定することであって、前記SNPセットが複数の一塩基対置換を含み、表5、表6、および表7に記載された領域から選択されるゲノム領域に対応する、ことと;
b)前記SNPセットの頻度を定量化して、前記試料中の複数の被検体に由来するDNAの存在を決定し、それにより、前記試料中の複数の被検体に由来する少なくとも3つのマイクロハプロタイプを有するSNPセットを検出することと、
を含む、前記方法。
【請求項50】
請求項1~6のいずれか一項において同定されたSBSセットを含有する1つまたは複数のゲノム領域に対応するゲノムの領域を増幅するまたはハイブリッド捕捉するためのオリゴヌクレオチドを含む、オリゴヌクレオチド・パネル。
【請求項51】
表5、表6、および表7に記載の領域から選択される1つまたは複数のゲノム領域に対応するゲノムの領域を増幅するまたはハイブリッド捕捉するためのオリゴヌクレオチドを含む、オリゴヌクレオチド・パネル。
【請求項52】
a)試料中に存在するゲノムの領域を増幅し、前記領域が、請求項50、表5、表6、または表7に記載の領域から選択されるゲノム領域に対応し、増幅によりアンプリコンを生成することと;
b)前記アンプリコンを配列決定して、前記アンプリコンの核酸配列を決定することと、
を含む、方法。
【請求項53】
前記試料中に存在する2つより多いマイクロハプロタイプを有するSNPセットの数を定量化することをさらに含む、請求項52に記載の方法。
【請求項54】
前記試料中に存在する3つより多いマイクロハプロタイプを有するSNPセットの数を定量化することをさらに含む、請求項53に記載の方法。
【請求項55】
前記試料中に存在する4つより多いマイクロハプロタイプを有するSNPセットの数を定量化することをさらに含む、請求項54に記載の方法。
【請求項56】
被検体の疾患または障害を検出するための方法であって:
a)被検体から試料を取得することと;
b)i)対象領域を同定することであって、前記対象領域が疾患または障害に関連する、こと、
ii)前記対象領域内の一塩基対置換(SBS)を検出し、それにより、複数の配列バリアントセットを生成すること、および
iii)各バリアントセットを連鎖不平衡について解析して、マイクロハプロタイプを同定すること
を含む、試料中に存在するDNA分子におけるマイクロハプロタイプを同定することと;
c)前記試料中の2つより大きいマイクロハプロタイプを有する一塩基多型(SNP)セットの存在または非存在を決定することと;
d)SNPセットの頻度を定量化して、疾患または障害を示す遺伝子マーカーの存在または非存在を決定し、それにより、疾患または障害を検出することと、
を含む、前記方法。
【請求項57】
前記疾患または障害が、13、18、または21トリソミーである、請求項56に記載の方法。
【請求項58】
前記疾患または障害が遺伝子コピー数変異である、請求項56に記載の方法。
【請求項59】
前記疾患または障害が胎児障害である、請求項56に記載の方法。
【請求項60】
特定の染色体または染色体領域における第3のマイクロハプロタイプの頻度を、ゲノム内の他の場所における第3のマイクロハプロタイプの頻度と比較する、請求項56~59のいずれか一項に記載の方法。
【請求項61】
a)メモリに動作可能に接続された少なくとも1つのプロセッサと;
b)DNA試料中のDNAのPCR増幅から生成されたマイクロハプロタイプ配列情報を含むDNA解析情報を受信するように構成される受信器構成成分と;
c)i)一塩基対置換の存在に基づいて、試料中のマイクロハプロタイプを同定し、
ii)前記DNA試料中のマイクロハプロタイプに対してSNPセットの数の存在を確認し、かつ
iii)前記DNA試料中の2つより多いマイクロハプロタイプを伴うSNPセット内の遺伝型の頻度を定量化する、
少なくとも1つのプロセッサによって実行される解析構成成分と、
を含む、遺伝子解析システム。
【請求項62】
前記解析構成成分が、前記試料中のDNA汚染物の存在の可能性を決定するようにさらに構成される、請求項61に記載のシステム。
【請求項63】
前記解析構成成分が、遺伝子変異の存在または非存在を決定するようにさらに構成される、請求項61に記載のシステム。
【請求項64】
前記遺伝子変異が疾患または障害と関連する、請求項63に記載のシステム。
【請求項65】
前記疾患または障害が遺伝子コピー数変異と関連する、請求項64に記載のシステム。
【請求項66】
前記疾患または障害が、13、18、または21トリソミーである、請求項65に記載のシステム。
【請求項67】
a)メモリに動作可能に接続された少なくとも1つのプロセッサと;
b)DNA試料中のDNAのPCR増幅から生成されたマイクロハプロタイプ配列情報を含むDNA解析情報を受信するように構成される受信器構成成分と;
c)前記少なくとも1つのプロセッサによって実行され、請求項1に記載の(a)~(d)を実行するように構成される解析構成成分と、
を含む、遺伝子解析システム。
【請求項68】
a)メモリに動作可能に接続された少なくとも1つのプロセッサと;
b)DNA試料中のDNAのPCR増幅から生成されたマイクロハプロタイプ配列情報を含むDNA解析情報を受信するように構成される受信器構成成分と;
c)前記少なくとも1つのプロセッサによって実行され、請求項33に記載の(a)~(c)を実行するように構成される解析構成成分と、
を含む、遺伝子解析システム。
【請求項69】
a)メモリに動作可能に接続された少なくとも1つのプロセッサと;
b)DNA試料中のDNAのPCR増幅から生成されたマイクロハプロタイプ配列情報を含むDNA解析情報を受信するように構成される受信器構成成分と;
c)前記少なくとも1つのプロセッサによって実行され、請求項49または52に記載の方法を実行するように構成される解析構成成分と、
を含む、遺伝子解析システム。
【請求項70】
a)メモリに動作可能に接続された少なくとも1つのプロセッサと;
b)DNA試料中のDNAのPCR増幅から生成されたマイクロハプロタイプ配列情報を含むDNA解析情報を受信するように構成される受信器構成成分と;
c)前記少なくとも1つのプロセッサによって実行され、請求項56の(b)~(d)を実行するように構成される解析構成成分と、
を含む、遺伝子解析システム。
【請求項71】
a)試料中の少なくとも3つのマイクロハプロタイプを有する一塩基多型(SNP)セットを同定することと;
b)2つより多いマイクロハプロタイプを伴うSNPセット内のハプロタイプの頻度を定量化して、前記試料中のDNA汚染の存在または非存在を決定することと、
を含む、方法。
【請求項72】
前記試料中の少なくとも3つまたは4つのマイクロハプロタイプを有するSNPセット内のハプロタイプの頻度を定量化して、前記試料中のDNA汚染の量を決定することをさらに含む、請求項71に記載の方法。
【請求項73】
前記試料が、腫瘍または液体生検物に由来するDNAを含む、請求項71に記載の方法。
【請求項74】
前記液体生検物が、羊水、房水、硝子体液、血液、全血、分画血液、血漿、血清、母乳、脳脊髄液(CSF)、セルーメン(耳垢)、乳糜、糜粥、内リンパ液、周囲リンパ液、便、呼気、胃酸、胃液、リンパ液、粘液(鼻水および痰を含む)、心嚢液、腹水、胸水、膿、粘膜分泌物、唾液、呼気凝縮液、皮脂、精液、喀痰、汗、滑液、涙、嘔吐物、前立腺液、乳頭吸引液、涙液、汗、口腔粘膜検体採取物、細胞溶解液、胃腸液、生検組織、尿、または他の生物学的流体に由来する、請求項73に記載の方法。
【請求項75】
前記試料が循環腫瘍細胞に由来する、請求項71に記載の方法。
【請求項76】
前記SNPセットが、一塩基対置換を有する配列バリアントを含む、請求項71に記載の方法。
【請求項77】
a)試料中の少なくとも3つのマイクロハプロタイプを有する一塩基多型(SNP)セットを同定することと;
b)2つより多いマイクロハプロタイプを伴うSNPセット内のハプロタイプの頻度を定量化して、疾患または障害を示す遺伝子マーカーの存在または非存在を決定することと、
を含む、方法。
【請求項78】
前記試料中の少なくとも3つまたは4つのマイクロハプロタイプを有するSNPセット内のハプロタイプの頻度を定量化することをさらに含む、請求項77に記載の方法。
【請求項79】
前記疾患または障害が遺伝子コピー数変異である、請求項77に記載の方法。
【請求項80】
前記疾患または障害が、13、18、または21トリソミーである、請求項79に記載の方法。
【請求項81】
前記疾患または障害が、胎児障害である、請求項77に記載の方法。
【請求項82】
特定の染色体上のSNPセットの数を増加させ、それにより、トリソミーの同定を強化する、請求項77~81のいずれか一項に記載の方法。
【請求項83】
前記特定の染色体が、13番、18番、および/または21番染色体のうちの1つまたは複数である、請求項82に記載の方法。
【請求項84】
従来の方法の使用と比較して、女性の妊娠の早期に実行される、請求項77~83のいずれか一項に記載の方法。
【請求項85】
母体のコピー数に起因するエラーの影響に対する感受性が低いことにより特異性が向上する、請求項77~84のいずれか一項に記載の方法。
【請求項86】
a)試料中の少なくとも3つのマイクロハプロタイプを有する一塩基多型(SNP)セットを同定することと;
b)2つより多いマイクロハプロタイプを伴うSNPセット内のハプロタイプの頻度を定量化して、母方のDNA源における胎児のDNA割合を決定することと、
を含む、方法。
【請求項87】
前記母方のDNA源が生物学的流体に由来する、請求項86に記載の方法。
【請求項88】
前記母方のDNA源が、羊水、房水、硝子体液、血液、全血、分画血液、血漿、血清、母乳、脳脊髄液(CSF)、セルーメン(耳垢)、乳糜、糜粥、内リンパ液、周囲リンパ液、便、呼気、胃酸、胃液、リンパ液、粘液(鼻水および痰を含む)、心嚢液、腹水、胸水、膿、粘膜分泌物、唾液、呼気凝縮液、皮脂、精液、喀痰、汗、滑液、涙、嘔吐物、前立腺液、乳頭吸引液、涙液、汗、口腔粘膜検体採取物、細胞溶解液、胃腸液、生検組織、尿、または他の生物学的流体に由来する、請求項86に記載の方法。
【請求項89】
コンピュータプログラムをエンコードされた非一時的なコンピュータ可読記憶媒体であって、前記プログラムが、1つまたは複数のプロセッサによって実行される場合に、請求項1~31、33~49、52~60、または77~88のいずれか一項に記載の方法を実行する動作を前記1つまたは複数のプロセッサに実行させる命令を含む、前記コンピュータ可読記憶媒体。
【請求項90】
メモリと;前記メモリに結合された1つまたは複数のプロセッサとを含む、計算システムであって、前記1つまたは複数のプロセッサが、請求項1~31、33~49、52~60、または77~88のいずれか一項に記載の方法を実行する動作を実行するように構成される、前記計算システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2019年4月22日に出願された米国特許出願第62/837,034号の、米国特許法119条(e)の下での優先権の利益を主張するものであり、その内容の全体が参照により本明細書に組み込まれる。
【0002】
発明の分野
本発明は概して、遺伝子解析に関するものであり、より詳細には、複合的DNA混合物における遺伝的同一性を決定するためのマイクロハプロタイプの解析を行う方法およびシステムに関する。
【背景技術】
【0003】
背景の情報
ヒトゲノムにおける配列多様性は、ヒトの同定および法医学的応用における礎となっている。遺伝子指紋法は、個体の遺伝子情報(例えば、RNA、DNA)の特徴によってその個体を同定するのに使用される法医学的技術である。遺伝子指紋とは、1つまたは複数の核酸多様性の小さなセットであり、それは、血縁関係にないすべての個体で異なる可能性が高く、それによって、指紋と同様に個体に固有のものである。
【0004】
配列多様性は、生物学的試料中の汚染の検出、法医学的解析、疾患の検出、および集団遺伝学などの多くの用途のための遺伝子解析において有用である。一塩基多型(SNP)は長い間、そうした用途向けの遺伝子解析に使用されてきた。
【0005】
生物学的試料におけるDNA汚染は、広範囲にわたる問題である。汚染は、試料収集/処理のほぼすべての段階で起こる可能性がある。例えば、スライドは切断中に汚染され得るし、液体はチューブ間で不注意に移され得るし、ライブラリは混ざり得るし、そして試料バーコードは不純であるか、または低品質の配列を有し得る。汚染は、低収率および/または低品質のDNAを有する試料でさらに顕著になりやすい。
【0006】
SNPCheck(商標)は、SNPの存在についてバッチ検査を行うツールであり、試料中のDNA汚染の存在を確認するのに利用することができる。正常組織やcfDNAのような「振る舞いの良い」DNAでは、マイナーアレル頻度(MAF)がほぼすべて0または0.5前後であるため、SNPCheck(商標)は妥当な結果を提供することができる。しかし、極めて高い汚染レベルは、MAFが非常に高く0.5に近づき得るので、見逃される。腫瘍DNAは、極端なコピー数多様性により、MAFが0.02から0.98の範囲になり得るので、「振る舞いが良く」ない。このことは、汚染と実際のバリアントのMAFが大幅に重なり得ることを意味する。
【0007】
DNA汚染を検出し、さらに汚染の量を正確に定量することができるようにするためには、MAFに依存しない、またはほぼ依存しない検出方法が必要である。
【発明の概要】
【0008】
本開示は、挿入SNPまたは欠失SNPよりもむしろ一塩基対置換(SBS)であるSNPに関連するマイクロハプロタイプを利用する遺伝子解析の方法を提供する。そのようなマイクロハプロタイプの解析は、特に、法医学的な遺伝子応用、試料汚染解析、および疾患解析において有用である。
【0009】
一実施形態では、本開示は:a)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットを同定することと;b)2つより多いマイクロハプロタイプを有するSNPセット内のハプロタイプの頻度を定量化することと、を含む遺伝子解析の方法を提供する。
【0010】
別の実施形態では、本開示は:a)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットを同定することと;b)2つより多いマイクロハプロタイプを有するSNPセット内のハプロタイプの頻度を定量化して、試料中のDNA汚染の存在または非存在を決定することと、を含む遺伝子解析の方法を提供する。
【0011】
さらに別の実施形態では、本開示は:a)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットを同定することと;b)2つより多いマイクロハプロタイプを有するSNPセット内のハプロタイプの頻度を定量化して、疾患または障害を示す遺伝子マーカーの存在または非存在を決定することと、を含む遺伝子解析の方法を提供する。
【0012】
さらに別の実施形態では、本開示は、ゲノム中のマイクロハプロタイプを同定する方法を提供する。この方法は、a)ゲノムの対象領域を同定することと;b)対象領域内でSBSを検出し、それにより、複数の配列バリアントセットを生成することと;c)各バリアントセットを連鎖不平衡について解析して、候補マイクロハプロタイプを同定することと;d)候補マイクロハプロタイプを同定することと、を含む。
【0013】
別の実施形態では、本開示は、試料中に存在する複数の被検体に由来する少なくとも3つのマイクロハプロタイプを有するSNPセットを検出するための方法を提供する。この方法は:a)試料中のゲノムにおけるマイクロハプロタイプを同定することと;b)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットの数を決定することと;c)2つより大きいマイクロハプロタイプを伴うSNPセット内のハプロタイプの頻度を定量化して、試料中の複数の被検体に由来するDNAの存在を決定し、それにより、試料中の複数の被検体に由来するDNAを検出することと、を含む。一実施形態では、同定することは:i)ゲノムの対象領域を同定することと;ii)対象領域内のSBSを検出し、それにより、複数の配列バリアントセットを生成することと;iii)各バリアントセットをLDについて解析して、マイクロハプロタイプを同定することと、を含む。
【0014】
ある実施形態では、本開示は、試料中に存在する複数の被検体に由来する少なくとも2つのマイクロハプロタイプを有するSNPセットを検出するための方法を提供する。この方法は:a)試料中の2つより多いマイクロハプロタイプを有するSNPセットの存在または非存在を決定することであって、SNPセットが複数の一塩基対置換を含み、表5、表6、および表7に記載のゲノム領域に対応する、ことと;b)SNPセット内のハプロタイプの頻度を定量化して、試料中の複数の被検体に由来するDNAの存在を決定し、それにより、試料中の複数の被検体に由来する2つより多いマイクロハプロタイプを有するSNPセットを検出することと、を含む。
【0015】
一実施形態では、本開示は、オリゴヌクレオチド・パネルを提供する。このパネルは、表5、表6、および表7に記載の1つまたは複数のゲノム領域に対応するゲノムの領域を増幅するまたはハイブリッド捕捉するためのオリゴヌクレオチドを含む。
【0016】
別の実施形態では、本開示は:a)試料中に存在するゲノムの領域を増幅し、領域が、表5、表6、および表7に記載のゲノム領域に対応し、増幅により、アンプリコンを生成することと;b)アンプリコンを配列決定して、アンプリコンの核酸配列を決定することと、を含む遺伝子解析の方法を提供する。
【0017】
さらなる実施形態では、本開示は、被検体における疾患または障害を検出するための方法を提供する。この方法は:a)被検体から試料を取得することと;b)試料中に存在するDNA分子中のマイクロハプロタイプを同定することと;c)試料中の2つより多いマイクロハプロタイプを有するSNPセットの存在または非存在を決定することと;d)SNPセット内のハプロタイプの頻度を定量化して、疾患または障害を示す遺伝子マーカーの存在または非存在を決定し、それにより、疾患または障害を検出することと、を含む。一実施形態では、同定することは:i)対象領域を同定することであって、対象領域が疾患または障害に関連している、ことと;ii)対象領域対象領域内でSBSを検出し、それにより、複数の配列バリアントセットを生成することと;iii)各バリアントセットをLDについて解析して、マイクロハプロタイプを同定することと、を含む。
【0018】
ある実施形態では、本開示は、遺伝子解析システムを提供する。このシステムは:a)メモリに動作可能に接続された少なくとも1つのプロセッサと;b)DNA試料中のDNAのPCR増幅から生成されたマイクロハプロタイプ配列情報を含むDNA解析情報を受信するように構成される受信器構成成分と;c)少なくとも1つのプロセッサによって実行される解析構成成分であって:i)一塩基対置換の存在に基づいて、試料中のマイクロハプロタイプを同定し;ii)DNA試料中のマイクロハプロタイプに対するSNPセットの数の存在を確認し、かつiii)DNA試料中の2つより多いマイクロハプロタイプを伴うSNPセット内の遺伝型の頻度を定量化するように構成される、解析構成成分とを含む。
【0019】
関連する実施形態では、本開示は、本開示の方法を実行するように構成される遺伝子解析システムを提供する。このシステムは:a)メモリに動作可能に接続された少なくとも1つのプロセッサと;b)DNA試料中のDNAのPCR増幅から生成されたマイクロハプロタイプ配列情報を含むDNA解析情報を受信するように構成される受信器構成成分と;c)少なくとも1つのプロセッサによって実行される解析構成成分であって、本開示の方法を実行するように構成される解析構成成分と、を含む。
【0020】
さらに別の実施形態では、本発明は、コンピュータプログラムをエンコードされた非一時的なコンピュータ可読記憶媒体を提供する。このプログラムは、1つまたは複数のプロセッサによって実行されると、本開示の方法を実行する動作を1つまたは複数のプロセッサに実行させる命令を含む。
【0021】
さらに別の実施形態では、本発明は、計算システムを提供する。このシステムは、メモリと、メモリに結合された1つまたは複数のプロセッサとを含み、1つまたは複数のプロセッサは、本開示の方法を実現する動作を実行するように構成される。
【図面の簡単な説明】
【0022】
図1図1は、本発明の一実施形態において本開示の方法を用いて生成されたデータを示すグラフである。
図2図2は、本発明の一実施形態において本開示の方法を用いて生成されたデータを示すグラフである。
図3図3は、本発明の実施形態において汚染の存在下でのマイクロハプロタイプの頻度を示す画像である。
【発明を実施するための形態】
【0023】
発明の詳細な説明
本発明は、マイクロハプロタイプの遺伝子解析のための革新性のある方法およびシステムに基づく。本発明の構成および方法を説明する前に、本発明は記載の特定の方法および実験条件には限定されないということを理解されたいが、それは、こうした構成、方法、および条件が変化する場合があるからである。また、本明細書で使用される用語は、特定の実施形態を説明する目的のためでしかなく、限定することを意図するものではないことを理解されたいが、それは、本発明の範囲が添付の特許請求の範囲においてのみ限定されることになるからである。
【0024】
本明細書および添付の特許請求の範囲で使用されるとおり、単数形の「a」、「an」、および「the」は、文脈が明らかに他に指示しているのでない限り、複数の参照物を含む。よって、例えば、「方法(the method)」への参照は、本明細書に記載の種類の1つまたは複数の方法および/またはステップを含んでおり、これらは、本開示等を読めば当業者に明らかなものである。
【0025】
他に定義されているのでない限り、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する技術分野の通常の業者による共通理解と同一の意味を有する。本明細書に記載のものと類似または同等のいずれの方法および材料も、本発明の実施または検査に使用することができるが、好ましい方法および材料を以下に記載する。
【0026】
本開示は、マイクロハプロタイプを利用する遺伝子解析のための革新性のある方法およびシステムを提供する。この方法は、SBSのSNP、そして諸実施形態では低エラーゲノム領域のSBS変化を利用する。これにより、DNA汚染の検出、疾患の検出だけでなく、法医学的解析における精度を高めることができる。本明細書で開示の方法は、SBSを使用し、STRまたは挿入/欠失SNPは使用しないが、その理由は、後者が、試料中の低レベルの汚染の検出に影響を与える許容できないほど高いエラー率を有するからである。本開示のあらゆる方法は、互いの遺伝的距離が短いSNPバリアントに焦点を当てており、理想的にはそれらのバリアントは、単一の配列リード上に存在し得る。ロング・リード技術では、SNPバリアントが単一リード上にある限り、距離はさらに長くてもよい。さらに長い距離を使用することもできるが、対をなすリードを使用するとエラー率が高くなり、バリアントの距離が遠いほどカバレッジが低くなる。さらに、本開示の特定の方法は、最初に汚染を検出し、ついでそれを定量化するという2段階の解析を有利に利用する。本明細書に開示の方法を通じたDNA汚染の検出は、各SNPセットに対するマイクロハプロタイプの数、および/または第3/第4のハプロタイプの頻度に依存しており、個々のSNPのMAFには依存しない。
【0027】
これまでの調査では、人類学において、集団の関係、および最近のヒト多様性のパターンに対するもっともらしい説明を提供する能力という理由から、複数の密に連鎖したSNPに基づくマーカーの有用性が例示されている。加えて、多アレルSNPは、家族/祖先共通集団、家系の推定、個体同定など、法医学上の問題に対処するのに好適なマーカーとしての地位が高まっている。キッド・ラボラトリ(Kidd laboratory)は、法医学や集団遺伝学のための現在のDNAタイピング・ツールを補完することを目的として、マイクロハプロタイプ(例えば、「マイクロハプ」またはMH)と呼ばれる新しいタイプの遺伝子マーカーを提案した。これらは、DNAの短いセグメント(300ヌクレオチド未満、よって「マイクロ」)であり、ある集団内での3つ以上の対立遺伝子の組み合わせ(すなわち「ハプロタイプ」)を表す2つ以上の密に連鎖したSNPの存在が、その特徴である。SNPの間の距離が短いことは、それらの間の組み換え率が極めて低いことを意味している。マイクロハプロタイプのヘテロ接合性のレベルは、対象となる領域内の異なる位置でのアレルバリアントの歴史的な蓄積、まれな交差事象の発生、無秩序な遺伝的浮動の発現、および/または選択を含め、さまざまな要因に依存する。マイクロハプロタイプは多SNPハプロタイプであるため、遺伝子座ごとに、単独のSNPマーカーよりも多くの情報を提供することができる。
【0028】
さらに、バリアントがゲノム上で互いに近接している場合、それらは相関する傾向がある。単一の染色体アレル上のそれぞれ異なるSNPのセットは、ハプロタイプ(常に一緒に発現する傾向がある(すなわち、統計的に関連している)、連鎖SNPアレルのセット)と呼ばれる。各個人は自分のゲノムの2つのコピーを有するので、各人は、常染色体領域に2つのハプロタイプを有する。これらのハプロタイプは、異なる(ヘテロ接合)または同一である(ホモ接合)可能性がある。上述したとおり、マイクロハプロタイプは、約300ヌクレオチド以下の短いハプロタイプであり、または長いリードの場合はさらに長い距離である。本明細書に記載の方法の目的にとっては、マイクロハプロタイプは、バリアントが同じ配列決定リード上にあるような充分短い長さであるため、まぎれなくフェージングすることができる。ほとんどのマイクロハプロタイプは、遺伝子解析ではそれほど有用ではないが、これは、ある集団において2つのそしてただ2つのマイクロハプロタイプしかこれまで見出だされていないためである。しかし、本発明の方法では、統計的に有用な情報を提供することができるマイクロハプロタイプを同定することが可能になり、例えば、異なる個体間で3、4、5、またはそれ以上の異なるハプロタイプが見いだされる(ただし、1つの個体では2つより多いハプロタイプが見られることはない)マイクロハプロタイプなどがそうである。
【0029】
本明細書で使用されるとおり、「SNP」とは、ゲノムの特定の位置、すなわち遺伝子座のところで、1つの塩基(例えば、シトシン、チミン、ウラシル、アデニン、またはグアニン)が別の塩基に置換された一ヌクレオチド置換であり、この置換は、集団内に評価可能な(例えば、集団の1%より多い)程度で存在する。
【0030】
特定の実施形態では、本開示の方法は、DNA試料におけるDNA汚染の存在を決定し定量化することに関する。
【0031】
関連する実施形態では、本開示の方法は、試料が複数の個体からのDNAの複合的な混合物を含むかどうか決定することに関する。そのような個体は、母親と子孫のみならず、血縁関係にあるまたは血縁関係にない個体であってもよい。
【0032】
従来の法医学的解析では、短タンデムリピート(STR)の抽出、および/またはミトコンドリアDNA(mtDNA)配列の決定を通じて、個々のDNA試料を一意的に同定している。キャピラリー電気泳動が、STRの長さおよびmtDNAの配列を定量化するのに用いられることが多い。この方法論は、個体プロファイル同定には正確であることが証明されている。
【0033】
本開示に従う方法にとって重要なことは、複合的DNA混合物を構成成分プロファイルにデコンボリュートするこれらの方法の能力は、構成成分に関するいかなる事前の知識も必要としないことである。例えば、本明細書に記載の方法は、複合的DNA混合物を構成成分プロファイルにデコンボリュートするのに有効であり、複合的DNA混合物のいずれの1つに寄与するいずれの個体または構成成分に属する遺伝子マーカーまたはDNA配列の知識も、なくてよい。よって、本開示の方法の優れた特性の1つは、その方法が、複合的DNA混合物の個体プロファイル、寄与体、または構成成分に関するいかなる事前の知識またはデータも必要としないことである。
【0034】
いくつかの態様では、本明細書に記載の技術は、生物学的試料中に存在するDNAに関連する個人の民族性を決定するのに使用することができる。
【0035】
実施形態では、本開示は、ゲノム中のマイクロハプロタイプを同定する方法を提供する。マイクロハプロタイプは、本明細書に開示の方法のいずれにおいても、例えば、試料汚染の検出、疾患解析、および/または複合的試料のデコンボリューションにおいて使用するのに有用である。
【0036】
したがって、本開示は、ゲノム中のマイクロハプロタイプを同定する方法を提供する。この方法は:a)ゲノムの対象領域を特定することと;b)対象領域内でSBSを検出し、それにより、複数の配列バリアントセットを生成することと;c)各バリアントセットをLDについて解析して、候補マイクロハプロタイプを特定することと;d)候補マイクロハプロタイプを特定することと、を含む。
【0037】
また、a)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットを同定することと;b)2つより多いマイクロハプロタイプを伴うSNPセット内のハプロタイプの頻度を定量化することと、を含む方法が提供される。
【0038】
加えて、本開示は:a)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットを同定することと;b)2つより多いマイクロハプロタイプを伴うSNPセット内のハプロタイプの頻度を定量化して、試料中のDNA汚染の存在または非存在を決定することと、を含む方法もまた提供する。
【0039】
a)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットを同定することと;b)2つより多いマイクロハプロタイプを伴うSNPセット内のハプロタイプの頻度を定量化して、疾患または障害を示す遺伝子マーカーの存在または非存在を決定することと、を含む遺伝子解析の方法もまた提供される。
【0040】
様々な実施形態では、本開示の方法論は、試料中の少なくとも3、4、5、6、またはそれ以上のマイクロハプロタイプを有するSNPセットの頻度を定量化することをさらに含んでもよい。これを実行して、試料中のDNA汚染の量を決定してもよい。実施形態では、実施例1で考察するとおり、この方法は、候補マイクロハプロタイプのカットオフ値を較正することをさらに含む。試料汚染は、少なくとも3、4、5、6、7、8、またはそれ以上のマイクロハプロタイプを伴うSNPセットを有する候補マイクロハプロタイプの頻度に対して決定されたカットオフ値を利用して、評価することができる。
【0041】
本発明のマイクロハプロタイプは、異なるSNPセットを使用することができるが、それらを選択する原則は同一である。ここで考察するとおり、この原則は:候補SNPを選び出すには、gnomAD(商標)(エクソンについては、約52%の欧州人、7%の東アジア人、6%のアフリカ人)、LDを評価するには1000 Genomes(商標)データベース(約20%の欧州人、20%の東アジア人、26%のアフリカ人)などのデータベースを使用することと;祖先間の変動を均等にするために、第3/第4のハプロタイプの1000 Genomes頻度(または同様のデータベース)に基づいてSNPの最終的なセットを選択する(gnomADデータベースを使用すると、欧州人の間の変動がわずかに大きくなる)ことと;バリアントは、同一配列リード上にあるよう充分近くなければならないことと;繰り返し配列/インデルを避けて、一塩基置換を用い、エラー率を最小化することと;ホモポリマーおよび低信頼度の配列領域を避けることと;第3/第4のハプロタイプの頻度が高くなるように、低LDにあるSNPを選択することと;情報が独立するようにSNPセット間の距離を最大化することと;実際の試料に対して候補SNPセットを検査して、純粋な試料における高いカバレッジ、多様な遺伝型、および第3/第4のハプロタイプの低率を保証することと、を含む。
【0042】
本開示の方法論は、実施例1で考察するとおり、解析のための候補バリアントセットの同定を含んでもよい。
【0043】
これは、ゲノムの対象領域を同定することと、解析に使用するためにその領域のヌクレオチド配列を決定することと、を含んでもよい。対象領域は、SBSの存在について調べられる。実施形態では、SBS頻度は、典型的には約5~95%の間であり、これは、好適なゲノムデータベース、例えばgnomAD(商標)データベース(gnomad.broadinstitute.org/)を用いて決定してもよい。
【0044】
実施形態では、利用される対象領域は、随意にフランキング領域を含んでおり、このフランキング領域は、これもまたSBSの存在について調べられて、その頻度が約5~95%の間と決定されるものである。様々な実施形態では、対象領域のフランキング領域は、約50個未満、約100個未満、約150個未満、約180個未満、または約200個未満のヌクレオチド塩基対を含む。様々な実施形態では、随意にフランキング領域を含む対象領域の全長は、約500個未満、約450個未満、約400個未満、約350個未満、約300個未満、約250個未満、約200個未満、約150個未満、約100個未満、約90個未満、約80個未満、約70個未満、約60個未満、約50個未満、約40個未満、約30個未満、約20個未満、約10個未満の塩基対である。
【0045】
実施形態では、同定される候補バリアント対は、次いでLDについて調べられる。これは、1000 Genomes(商標)データベース(ldlink.nci.nih.gov/?tab=ldhap)を用いて実行してもよい。
【0046】
少なくとも3つのハプロタイプを有し、第3のおよびそれ以上のハプロタイプが1%より大きい合計頻度を有するものである対、トリプレット、カルテット、および同類のものが、次いで使用候補として検討される。様々な実施形態では、マイクロハプロタイプのバリアントセットを、挿入/欠失を回避するように選択したが、その理由は、そのようなバリアントにおける本質的な配列決定エラー率が高まり、ノイズを発生させる可能性が高まるからである。いくつかの実施形態では、バリアントが1000 Genomes(商標)データベースには存在しない場合があるので、LDついて評価を容易に行うことができない。しかし、そのようなバリアントは、gnomAD(商標)データベース中に認められるMAFによってそれが適切であることが示唆される場合には、利用してもよい。
【0047】
対象領域は、遺伝子、イントロン、および/もしくはエクソンの内部、または遺伝子間にあってもよいことは理解されるであろう。あるいは、対象領域はエクソーム内にあってもよい。実施形態では、対象領域は、疾患に関連する遺伝子マーカーを含んでもよい。実施形態では、対象領域は、特定の民族性に関連する遺伝子マーカーを含んでもよい。
【0048】
このアプローチを利用して、本開示の方法を用いて同定されたマイクロハプロタイプを含む特定の領域を増幅するまたはハイブリッド捕捉するためのオリゴヌクレオチド・パネルを生成してもよい。一実施形態では、オリゴヌクレオチド・パネルは、表5に記載の1つまたは複数のゲノム領域に対応するゲノムの領域を増幅するまたはハイブリッド捕捉するためのオリゴヌクレオチドを含む。別の実施形態では、オリゴヌクレオチド・パネルは、表6または7に記載の1つまたは複数のゲノム領域に対応するゲノムの領域を増幅するまたはハイブリッド捕捉するためのオリゴヌクレオチドを含む。
【0049】
このように、本開示は:a)試料中に存在するゲノムの領域を増幅し、その領域が表5、表6、および表7に記載のゲノム領域に対応し、増幅によってアンプリコンを生成することと;b)アンプリコンを配列決定して、アンプリコンの核酸配列を決定することと、を含む遺伝子解析の方法も提供する。
【0050】
本明細書で考察するとおり、本開示の方法によって同定されたマイクロハプロタイプは、様々な用途、例えば、DNA汚染検出、疾患解析、および試料デコンボリューション(すなわち、単一の試料中の複数の被検体または細胞型に由来するDNAの検出)を含むがこれらに限定されない用途に利用してもよい。
【0051】
一実施形態では、本開示は、試料中に存在する複数の被検体に由来する少なくとも3つのマイクロハプロタイプを有するSNPセットを検出するための方法を提供する。この方法は、a)試料のゲノム中のマイクロハプロタイプを同定することと;b)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットの数を決定することと;c)2つより大きいマイクロハプロタイプを伴うSNPセットの頻度を定量化して、試料中の複数の被検体に由来するDNAの存在を決定し、それにより、試料中の複数の被検体に由来するDNAを検出することと、を含む。一実施形態では、同定することは:i)ゲノムの対象領域を同定することと;ii)対象領域内のSBSを検出し、それにより、複数の配列バリアントセットを生成することと;iii)各バリアントセットをLDについて解析して、マイクロハプロタイプを同定することと、を含む。
【0052】
別の実施形態では、本開示は、試料中に存在する複数の被検体に由来する少なくとも3つのマイクロハプロタイプを有するSNPセットを検出するための方法を提供する。この方法は:a)試料中の少なくとも3つのマイクロハプロタイプを有するSNPセットの存在または非存在を決定し、SNPセットが複数の一塩基対置換を含み、表5、表6、および表7に記載のゲノム領域に対応することと;b)SNPセットの頻度を定量化して、試料中の複数の被検体に由来するDNAの存在を決定し、それにより、試料中の複数の被検体に由来する少なくとも3つのマイクロハプロタイプを有するSNPセットを検出することと、を含む。
【0053】
したがって、複合的DNA混合物から構成成分をデコンボリュートまたは分解する本開示の方法は、単一の複合的DNA混合物を分析することによって実行される場合がある。複合的DNA混合物から構成成分をデコンボリュートまたは分解する本開示の方法の特定の実施形態では、この方法は、2つ以上の複合的DNA混合物を解析する場合がある。これらの方法を用いたDNAプロファイルの分解能は、使用されるパネルにおいてSNP遺伝子座の数が増加するにつれて増加する。本明細書で使用されるとおり、複合的DNA混合物という用語は、2つ以上の寄与体に由来するDNAを含むDNA混合物を指す。好ましくは、本明細書に記載の方法の複合的DNA混合物は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20個、またはそれ以上の寄与体に由来するDNAを含む。
【0054】
本開示の方法は、DNAプロファイルをデコンボリュートする既存の方法よりも優れている。注目すべきは、本明細書に記載の方法の用途は、法医学的解析またはDNA汚染検出の状況には限定されないことである。例えば、本開示の方法は、医療診断および/または予後に使用されてもよい。疾患を検出するために、対象領域は、癌または胎児障害などの疾患または病態と関連する遺伝子マーカーを含むようにして選択されてもよい。この方法では、対象領域は、例えば、ダウン症候群としても知られる21トリソミーの診断を可能にする21番染色体上にあってもよい。試料が母体および胎児に由来すると決定されて、第3のマイクロハプロタイプの頻度が他の染色体と比較して21番染色体上で異なる場合、これは遺伝子コピーの変異、例えば21トリソミーを示している。chr13トリソミーおよびchl18トリソミーを含む他のトリソミーも同様に検出することができる。
【0055】
このように、本明細書に記載の方法を様々なやり方で使用して、癌や胎児障害などの疾患を、予測、診断、および/またはモニタリングしてもよい。さらに、本方法は、様々な細胞型を互いに識別するのに利用してもよい。
【0056】
癌の分野では、生検試料は多くの細胞型を含むことが多く、そのうちのごく一部が腫瘍のいずれかの部分を形成する場合がある。その結果、腫瘍生検から得られたDNAは、複合的DNA混合物の別の形態であり、そして特定のDNA分子上に生じる体細胞バリアントを含む場合もある。体細胞多様性の場合、SBSへの制限を緩和することができるが、その理由は、体細胞多様性が、インデルである、またはそうでなければ回避される可能性のある他の修飾である可能性があるからである。さらに腫瘍内では、多数の細胞が、例えば、血管新生および/または転移を示すまたは促進する要因の発現に関して、分子的に異なる場合がある。腫瘍試料から得られたDNA混合物はまた、本開示の複合的DNA混合物を形成する場合がある。これらの非限定的な例の両方において、本開示の方法を使用して、複合的DNA混合物に寄与する各細胞または細胞型についての個別プロファイルを構築してもよい。さらに、本開示の方法を使用して、複合的DNA混合物への寄与体をデコンボリュートしてもよい。実例として、乳がんの腫瘍生検から得られた複合的DNA混合物を使用して、悪性細胞の個体プロファイルを構築してもよい。同一患者、脳癌腫瘍生検では、この個体プロファイルを用いて、脳癌腫瘍生検から得られた複合的DNA混合物の寄与体をデコンボリュートして、実例としては、その被検体からの悪性乳癌細胞が脳に転移して二次的な腫瘍を形成したかどうかを決定してもよい。この方法は、腫瘍が独立して生じたのかどうか、また一方では、これらの腫瘍が関連しているのかどうかという疑問を解決する可能性がある。
【0057】
したがって、本開示は、被検体における疾患または障害を検出するための方法を提供する。この方法は:a)被検体から試料を得ることと;b)試料中に存在するDNA分子におけるマイクロハプロタイプを同定することと;c)試料中の2つより多いマイクロハプロタイプを有するSNPセットの存在または非存在を決定することと;d)SNPセット内のハプロタイプの頻度を定量化して、疾患または障害を示す遺伝子マーカーの存在または不在を決定し、それにより、疾患または障害を検出することと、を含む。一実施形態では、同定することは;i)対象領域を同定することであって、対象領域が疾患または障害に関連する、ことと;ii)対象領域内のSBSを検出し、それにより、複数の配列バリアントセットを生成することと;iii)各バリアントセットをLDについて解析して、マイクロハプロタイプを同定することと、を含む。
【0058】
様々な実施形態では、ゲノムは、被検体から採取された生物学的試料中に存在する。生物学的試料は、事実上いかなる種類の生物学的試料、特にDNAを含む試料でもあり得る。生物学的試料は、生殖細胞系、幹細胞、再プログラム化された細胞、培養細胞、または1000~約10,000,000個の細胞を含む組織試料、または循環するDNAを含む流体であり得る。実施形態では、試料は、腫瘍または液体生検物、例えば、羊水、房水、硝子体液、血液、全血、分画血液、血漿、血清、母乳、脳脊髄液(CSF)、セルーメン(耳垢)、乳糜(にゅうび)、糜粥(びじゅく)、内リンパ液、周囲リンパ液、便、呼気、胃酸、胃液、リンパ液、粘液(鼻水および痰を含む)、心嚢液、腹水、胸水、膿、粘膜分泌物、唾液、呼気凝縮液、皮脂、精液、喀痰、汗、滑液、涙、嘔吐物、前立腺液、乳頭吸引液、涙液、汗、口腔粘膜検体採取物、細胞溶解液、胃腸液、生検組織、尿、または他の生物学的流体などであるがこれらには限定されないものに由来するDNAを含む。一実施形態では、試料は、循環腫瘍細胞に由来するDNAを含む。PCRなどの増幅プロトコルを利用する実施形態では、多数の細胞を、たとえそれが単一の細胞であっても含有する試料を得ることが可能である。この試料は、ゲノムの1つまたは複数の領域の遺伝子解析を実行するのに十分な生物学的材料(例えば、DNA)を含む限り、無傷細胞を含む必要はない。
【0059】
いくつかの実施形態では、生物学的試料または組織試料は、DNAを伴う細胞を含むいずれの組織からも、または循環DNAを伴う流体から採取することができる。生物学的試料または組織試料は、手術、生検、粘膜検体採取物、大便、または他の収集方法によって得てもよい。いくつかの実施形態では、試料は、血液、血漿、血清、リンパ液、神経細胞含有組織、脳脊髄液、生検材料、腫瘍組織、骨髄、神経組織、皮膚、毛髪、涙、尿、胎児材料、羊水穿刺材料、子宮組織、唾液、便、または精子に由来する。全血からPBLを分離する方法は、当技術分野では周知である。
【0060】
上記で開示されたとおり、生物学的試料は、血液試料とすることができる。血液試料は、指穿刺または瀉血などの当技術分野で公知の方法を用いて得ることができる。好適には、血液試料は、約0.1~20ml、または約1~15mlであり、その血液の体積は約10mlである。血液中の循環する遊離DNAと同様に、少量を使用することができる。マイクロサンプリング、および針生検、カテーテル、DNAを含有する体液の排泄または産生によるサンプリングもまた、潜在的な生物学的試料源である。
【0061】
本発明では、被検体は、典型的にはヒトであるが、また、イヌ、ネコ、ウサギ、ウシ、鳥、ラット、ウマ、ブタ、またはサルを含むがこれらに限定されないいかなる種とすることもできる。
【0062】
本開示の方法は、核酸配列情報を利用するものであり、したがって、核酸増幅、ポリメラーゼ連鎖反応(PCR)、ナノポア配列決定、454配列決定、挿入タグ付き配列決定を含む核酸配列決定を実行するいかなる方法も含むことができる。実施形態では、本開示の方法論は、イルミナ社(Illumina, Inc)、(HiSeq(商標) X10、HiSeq(商標) 1000、HiSeq(商標) 2000、HiSeq(商標) 2500、Genome Analyzers(商標)、MiSeqTM、NextSeq、NovaSeqシステムを含むがこれらに限定されない)、アプライド・バイオシステムズ・ライフ・テクノロジーズ社(Applied Biosystems Life Technologies)(SOLiD(商標) System、Ion PGM(商標) Sequencer、ion Proton(商標) Sequencer)、またはGenapsys、またはBGI MGI、および他のシステムを利用する。また、核酸解析は、オックスフォード・ナノポア・テクノロジーズ社(Oxford Nanopore Technologies)(GridiON(商標)、MiniON(商標))またはパシフィック・バイオサイエンシーズ社(Pacific Biosciences)(Pacbio(商標) RS IIまたはSequel IもしくはII)が提供するシステムによって実行することができる。重要なことには、実施形態では、本明細書に記載の方法のいずれを用いて配列決定を行ってもよい。PacBio(商標)またはOxford Nanopore(商標)などのロング・リード技術が使用される場合、DNAに課される長さの制限が緩和されて、SNPは、さらに長いリード長に合致して、さらに離れたものとすることができる。
【0063】
本発明は、開示された方法のステップを実行するシステムを含み、部分的には、機能的構成成分および様々な処理ステップの観点から記載される。このような機能的構成成分および処理ステップは、指定された機能を実行するように、そして様々な結果を達成するように構成されるいかなる数の構成成分、動作、および技術によって実現されてもよい。例えば、本発明は、様々な生物学的試料、バイオマーカー、元素、材料、コンピュータ、データ源、記憶システムおよび媒体、情報収集の技術および工程、データ処理基準、統計解析、回帰分析、ならびに同類のものを採用してもよく、これらが、様々な機能を実行してもよい。
【0064】
本発明の様々な態様に従う遺伝子解析の方法は、いかなる好適なやり方でも、例えば、コンピュータシステム上で動作するコンピュータプログラムを用いて実現してもよい。本発明の様々な態様に従う例示的な遺伝子解析システムは、コンピュータシステム、例えば、プロセッサおよびランダムアクセスメモリを含む従来型のコンピュータシステム、例えば、遠隔アクセス可能なアプリケーション・サーバ、ネットワーク・サーバ、パーソナル・コンピュータ、またはワークステーションとの併用で実現されてもよい。また、コンピュータシステムは好適には、追加のメモリ装置または情報記憶システム、例えば、大容量記憶システムおよびユーザ・インタフェース、例えば従来型のモニタ、キーボード、トラッキング・デバイスを含んでもよい。しかし、コンピュータシステムは、いかなる好適なコンピュータシステムおよび関連機器を含んでもよく、そしていかなる好適なやり方で構成されてもよい。一実施形態では、コンピュータシステムは、スタンドアロン・システムを含む。別の実施形態では、コンピュータシステムは、サーバおよびデータベースを含むコンピュータのネットワークの一部である。
【0065】
遺伝子情報の受信、処理、および解析に必要なソフトウェアは、単一の装置に実装されてもよいし、複数の装置に実装されてもよい。ソフトウェアは、情報の記憶および処理が、ユーザに対して遠隔で行われるようにして、ネットワークを介してアクセス可能であってもよい。本発明の様々な態様に従う遺伝子解析システム、およびその様々な構成要素は、遺伝子解析を容易にする機能および動作、例えばデータ収集、処理、解析、報告、および/または診断を提供する。例えば、本実施形態では、コンピュータシステムがコンピュータプログラムを実行し、このプログラムが、ヒトゲノムまたはその領域に関連する情報を受信、記憶、検索、解析、および報告してもよい。コンピュータプログラムは、様々な機能または動作を実行する複数のモジュール、例えば生データを処理して補足データを生成する処理モジュールと、生データおよび補足データを解析して、汚染もしくは病態モデルの定量的評価、および/または診断情報を生成する解析モジュールを含んでもよい。
【0066】
遺伝子解析システムによって実行される手順は、遺伝子解析および/または疾患診断を容易にするいかなる好適な工程を含んでもよい。一実施形態では、遺伝子解析システムは、病態モデルを確立するように、および/または患者の病態を決定するように構成される。病態を決定または同定することは、疾患に関連する患者の状態に関するあらゆる有用な情報を生成すること、例えば、診断を行うこと、診断に役立つ情報を提供すること、疾患の段階または進行を評価すること、その疾患に対する感受性を示す可能性のある状態を同定することと、さらなる検査が推奨されるかどうかを同定すること、1つまたは複数の治療プログラムの有効性を予測および/または評価すること、またはそうでなければ、病態、疾患の可能性、もしくは患者の他の健康面を評価することを含んでもよい。
【0067】
遺伝子解析システムは好適には、病態モデルを生成し、ならびに/または遺伝子データおよび/もしくは被検体に関連する追加の被検体データに基づいて患者のための診断を提供する。遺伝子データは、遺伝子情報を記憶するデータベースからのみならず、いずれの好適な生物学的試料から取得してもよい。
【0068】
以下の実施例が、本発明の利点および特徴をさらに説明するために提供されるが、本発明の範囲を限定することを意図するものではない。この実施例は、使用される可能性のあるものの典型であるが、当業者に公知の他の手順、方法論、または技術を代わりに使用してもよい。
【実施例
【0069】
実施例1
試料汚染の検出
この実施例では、本開示の方法論を利用して試料汚染を検出した。以下は、検出のために使用された方法および工程の詳細な考察を提供する。
【0070】
候補バリアントセットの同定
対象領域ごとに、追加の境界領域(最高100bpまで)とともに配列決定の対象となる領域を、gnomAD(商標)データベース(gnomad.broadinstitute.org/)に従って、10~90%の頻度を有するSBSについて調べた。低信頼性領域ではないところにバリアントがいったん見つかると、両方向に隣接する180bpの領域を、頻度5~95%を有するSBSについて調べた。これらのカットオフは、様々なパネルについて分析されることになる試料の種類、および必要なSNPセットの数に応じて変わることがある。次いでこのようなバリアント対を、1000 genomesデータ(ldlink.nci.nih.gov/?tab=ldhap)を用いてLDについて調べた。少なくとも3つのハプロタイプを有し、第3のおよびそれ以上のハプロタイプが1%より大きい合計頻度を有するものである対、トリプレット等を、使用候補として検討した。これらのカットオフは、必要に応じて追加のバリアントセットを含むように拡張したり、または最も情報量の多いバリアントセットのみを保持してノイズを最小化するように制限したりすることができる可能性がある。例えば、バリアントセットを、挿入/欠失を回避するように選択したが、その理由は、そのようなバリアントでは本質的な配列決定エラー率が高まり、ノイズを発生させる可能性が高まるからである。同様に、エラー率に基づいて他の配列コンテクストが有利である可能性がある。さらに、いくつかのバリアントは1000 Genomes(商標)データベースには見つからなかったので、LDについて評価できなかったが、gnomAD(商標)中に認められたMAFによってそれらが適切である可能性が示唆されていた場合には、候補検査に進めた。SNPは理論上、対になるリード相手と同じくらい離れて存在する可能性があるが、解析を単純化するために、互いにもっと近くに位置する、そして単一リードでカバーされるSNPを選択した。
【0071】
候補バリアントセットの特性評価
候補バリアントセットを実際の試料においてさらに評価することで、リード上に両方/すべてのバリアントを有するに足る充分なリードが存在するよう保証して、フェージングされるハプロタイプを生成できるようにした。各SBSについてカバレッジの中央値の100倍というカットオフを用いて、すべてのまたはほぼすべてのSNPセットを各比較に含めることができるようにした。解析の感度を最大限に高めるためには、高いカバレッジが必要である。他のパネルについては、使用するSBSの正しいセットは、調べられることになるパネルによって変化することになる。さらに、いくつかの配列コンテクストは他よりも高いエラー率を有しており、それらのバリアントを使用すると、追加のアーチファクト的なマイクロハプロタイプが生じる可能性がある。純粋であるとされる試料において第3/第4のマイクロハプロタイプが多すぎる傾向にあるバリアントセットは使用から除外したが、その理由は、信号に対して高レベルのノイズを発生させる可能性があったためである。
【0072】
高いカバレッジと低いバックグラウンドノイズレベルに基づいて、507遺伝子パネル(表5)とともに使用するために106個のバリアントセットを選択した。可能な限り、冗長な情報を最小限にするためにSBSセット間の距離を最大化した。この表においてSBSについて列挙されているMAFは、1000 Genomes(商標)データベースの「All Populations」から得られたものであり、gnomAD(商標)から得られた元のMAFとは異なる。
【0073】
汚染レベルの推定
いずれの試料も理論上、汚染される可能性があるため、純粋な試料で工程を開始できるように、較正に使用する前に試料を特性評価する必要があった。さらに、バリアントおよびマイクロハプロタイプの頻度は、民族性によって大きく変化し得るので、SBSの所与のセットがあらゆる試料および汚染物質でもうまく働くことを保証するために、異なる民族性を伴う試料を特性評価することが有用である。このデータセットについて、少なくとも105/106個のバリアントセットをカバーすることと、2つより多いマイクロハプロタイプを伴うバリアントセットが2つ未満であることとを基準に、5名のアフリカ人、5名のアジア人、6名のヨーロッパ人(いずれも自称)を選択した。これらの試料とその特性を表1に示す。ヨーロッパ人の試料は、非有意に数の低下した一マイクロハプロタイプSBSを有する。
【0074】
(表1)較正に使用した試料
【0075】
インシリコでの汚染を模倣するために、純粋な試料からとったフィルタリングされていないfastQ(商標)リードを、人為的に「汚染された」試料を生成することを目的として、他の試料と計算上混合した。X%の汚染を目標とするには、原則上の試料からとったリード100-X%を、「汚染物質」からとったリードX%と混合した。次いで、これらの混合試料をパイプラインで流し、我々の標準的な方法を用いてアラインメントおよびコールを行った。各試料について、各SBSセットにおけるハプロタイプの数とその頻度を計数し表にした。次いで、各SBSセットについて第3のハプロタイプの頻度を、もしそれがあるのであれば、各試料内で調べ、第3のハプロタイプの頻度の各セットについて、最小値、最大値、中央値、平均値を算出した。次いで、混合物を調べて、これらのパラメータによって汚染がどの程度までうまく予測できるかを確認した。
【0076】
結果を詳細に調べるのに先立って、複数の技術的なそして生物学的な交絡因子がどのように結果に影響する可能性があるかを検討した。「純粋な」試料にさえ観察されたとおり、第3/第4のハプロタイプの数が小さくなる結果となる技術的ノイズが存在する。これらが汚染検出に干渉するのを回避するために、第3/第4のハプロタイプの最小数を設定した。所望の汚染検出のレベルは1~2%のレベルであるので、第3/第4のハプロタイプの最小数を5~10の範囲内にあるように選択した。これにより、低レベルの技術的ノイズを汚染として誤ってアラインメントする課題が回避される。
【0077】
(表2)2つより多いマイクロハプロタイプを伴うSBSセットの数(それぞれn=70)
【0078】
2つより多いマイクロハプロタイプを伴うSNPの百分率によって、試料が汚染されているかどうかが決まるが、この百分率は、汚染の程度には比較的低感度である。2つより多いマイクロハプロタイプの%値は急速に最大に達するので、このパラメータだけを見ていると、2%対5%対20%の汚染は非常に類似しているように見える。この課題を回避するために、我々は、第3のハプロタイプについてのMAFを用いて、汚染レベルを定量化した。この値は、技術的なアーチファクトのせいで、低汚染のところで誤解を招く可能性がある。この値は、汚染を生じるDNAが第3のハプロタイプの2つのコピーを与えるという可能性に起因して異常に高く見える可能性があるため、汚染が実際よりも2倍高くなっているように見える可能性がある(図3)。また、腫瘍試料によく見られる極端なコピー数多様性もまた、いずれの方向にも見かけ上の汚染に影響するが、これは、どのハプロタイプが過剰であるかによる。これは、正常なDNAではふつう問題にはならないが、腫瘍DNAでは深刻な問題になり得る。こうした課題を回避するために、我々は、第3のハプロタイプについてのMAFの中央値を使用して、MAFが異常に高いかまたは低いかのいずれかによる影響を最小限にしている。第2および第4のマイクロハプロタイプについてのアレル頻度に見いだされる追加情報が存在するが、ただしこのデータは計算には使用しなかった。調べることができるセットが充分存在するならば、ハプロタイプの頻度のさらに複雑な解析を使用することができる。
【0079】
設定された数を上回る第3/第4のハプロタイプを有する試料については、様々な要因が、正確な頻度の決定に干渉している可能性がある。この較正系列では、公称汚染レベルが実際に正確であるかどうかが1つの技術的課題である。添加されるリードの数は正確に制御できるが、各試料はDNAの質の観点で異なる特性を有し、この特性が、機能面での汚染レベルに影響を与える場合がある。DNAの質が異なることに起因する、または捕捉効率が異なることに起因して狙い通りのリードの割合が異なることに起因する、DNA長さが多岐にわたる試料では、機能面での汚染レベルが異なることになるが、この理由は、同一リード上に出現するSNPセットの頻度が長さに依存するためである。これは、1%の添加されたリードが、0.5%または2%、またはそれらの間のいずれかの長さと機能面で同等であることを意味する。この理由から、各試料およびその汚染物を、試料および汚染物として同時並行して入れ替えた。よって、これにより、質の差がある程度まで正規化され、機能面での汚染レベルのさらに良好な推定結果が提供される。これらの方法を実際の試料に適用する場合、正しくないバリアントコールが行われる可能性を考慮すると、化学量論的な汚染ではなく機能面での汚染がより重要となる。
【0080】
定量性の課題については、生物学的な理由も存在する。純粋な試料が、各SBSセットにおいて1つまたは2つのマイクロハプロタイプを有する可能性があり、混入する汚染物の1つまたは2つのマイクロハプロタイプは、一次試料のマイクロハプロタイプの1つ、2つと一致する、またはどちらとも一致しない可能性がある。汚染が低く、信号がちょうど出現し始める場合には、新たな第3のハプロタイプは、試料のマイクロハプロタイプとは合致しない二重の寄与から優先的に構成される一方で、汚染レベルがさらに高くなると単一/二重の寄与の混在があることになる。よって、汚染レベルと様々なハプロタイプの頻度との間に単純な線形関係を期待しないことが望ましい。この困難さに重ねて、腫瘍試料同士の間に広範なコピー数多様性が発現し、これもまたハプロタイプ頻度に大きく影響し得る。これらの注意点を理由として、汚染の経験的な推定値を使用したが、その理由は、第3のハプロタイプの頻度を単に見るだけでは、低い汚染レベルが過大評価され、高い汚染レベルが過小評価されることになるためである。非常に高いカバレッジレベルでバリアントセットがさらに多くあれば、頻度データを合わせ込んで、機能面での汚染をよりさらに良好に推定することができる可能性がある。表3に示すとおり、このSNPセットとカバレッジ条件を用いて、過大な計数と過小な計数のバランスがとれて比較的正確な汚染推定値が得られる領域は、約2%である。これは、我々が感度を設定したいところのレベルとほぼ同じであるので、第3のハプロタイプの中央値を、汚染レベルの近似値として使用することになり、2%から大きく離れると精度に課題が生じる可能性がある。他の汚染レベルを正確に推定するには、他のSBSセットで行ったように、さらに多くの混合体を調べる必要があろう。
【0081】
(表3)民族性による第3のハプロタイプの頻度の中央値
【0082】
実際の試料への応用
インシリコでの汚染物混合体に使用される試料を、その高い品質に基づいて選択した。残念なことに、実際の試料にははるかに大きな変動があるので、どの試料を分析できるか、またその解析をどのように行うべきかの基準を設定することが必要である。理想的には、あらゆる試料が、106個のSBSセットすべてで100×より大きいカバレッジを有する可能性があるが、実際にはそうならない場合がしばしばである。SBSセットが欠落すると、整合性のない比較結果となり、そして特定のSBSでのカバレッジが低いと、第3のハプロタイプの頻度が大幅に過大評価される、または欠落する場合がある。よって、1000個の試料を標準的なパイプラインで流し、マイクロハプロタイプデータを調べた。これら1000個の試料のうち、151個の試料は標準的な品質管理指標に合格せず、849個の試料がマイクロハプロタイプ解析用に残った。SBSを計数するためには、最低でも20というカバレッジが必要である。大多数の試料(709個)は106個のSBSセットすべてについてのデータを有する。しかし、最低基準を満たすSBSセットの数が著しく少ない試料も存在する。他の品質管理指標に合格する試料よりも不合格になる試料の方が多い点は100回のSBSコールである。よって、以下の解析では、100回より多いSBSコールで合格した825個の試料のみを使用する。これら825個の試料のうち、24個は、試料汚染を監視するのに先に使用したSNPCheck(商標)に不合格であった。
【0083】
表4に、これら825個の試料について、カットオフを変化させた場合の汚染検出に及ぼす効果を示す。試料は、2つより多いマイクロハプロタイプのSBSセットが、カットオフ数より少ないか、第3のマイクロハプロタイプのMAF中央値が、設定された閾値以下であるかのいずれかによって、合格となる。上記のインシリコ実験に基づくと、2つより多いマイクロハプロタイプを伴うSBSセットの数は、これらのマイクロハプロタイプを伴って5~10の範囲になるはずである。加えて、カットオフ数より多いマイクロハプロタイプが存在していたとしても、第3のハプロタイプ頻度の中央値が1.5%未満の試料も合格と判断する。これらのカットオフを使用すると、SNPCheck(商標)に不合格となった18~19個の試料を含め804~811個の試料が合格となる。第3のハプロタイプの頻度が2~4%である場合には、随意に試料をチェックして、観察された体細胞変異頻度に基づき、その汚染レベルが問題を生じる可能性があるかどうかを確認する。これら11~18個の試料のうち4~5つの試料がSNPCheck(商標)に不合格であった。第3のマイクロハプロタイプの頻度が4%より多い試料は不合格となった。いずれの場合でも、これは3つの試料となったが、そのうち1つはSNPCheck(商標)に不合格であった。上記の825個の合格ランに加えて、他のQC指標に不合格となった試料、または本開示のマイクロハプロタイプ法においてコールされたSBSの数が少なすぎる試料でも、SNPCheck(商標)を実行した。QCおよびSNPCheck(商標)で不合格となった4つの試料のうち、3つがマイクロハプロタイプ法で不合格となり、汚染は10%より高かった。コールされた101個未満のSBSを伴うマイクロハプロタイプによっては普通評価されないであろう、SNPCheck(商標)不合格の7つの試料のうち、4つもまた、カットオフに関係なくマイクロハプロタイプ法により不合格であった一方で、別の1つは一部のカットオフ値で不合格であった。
【0084】
(表4)マイクロハプロタイプとSNPCheck(商標)の比較
【0085】
本発明の方法とSNPCheck(商標)との完全な一致は期待されなかった。SNPCheck(商標)は、純粋な試料を、汚染されたものとコールすることにより、コピー数多様性が非常に高い一部の腫瘍試料を不合格にして、偽陽性を生じる。偽陰性はまた、汚染レベルが非常に高くその多様性が生殖細胞系の多様性と誤認される場合に生じることが公知である。
【0086】
エクソームにおける汚染検出
507遺伝子パネルにおいて使用されたSBSの多くは非コード領域にあるため、エクソーム解析では無価値である。よって、エクソームを調べるために新しいSBSのセットを選択した。エクソームのカバレッジはROIごとでは低いため、できるだけ多くのカバレッジでバリアントを捉えることがより重要である。よって、SBSセットは、507遺伝子パネルよりも、バリアント間の間隔が短くなるように、そしてエクソンに近く限局されるように選択した。また、ROIの数が非常に多いので、より情報量の多いSBSを含めるように試み、その試みは、平均よりも高いカバレッジを有するROIにおいて選択された。次いで、これらを、エクソームデータのセットにおいて調べ、80より大きいカバレッジの中央値と多様なハプロタイプとを有するSBSを、パネルに使用するために選択した。これらのSBSセットを表6に列挙する。上記のものと同様の方法を用いて、汚染が疑われる2つのエクソームを調べ、このSBSセットを用いて、15%より大きく汚染されていることを見出した。
【0087】
507遺伝子パネルに使用した最初のマイクロハプロタイプのセットを用いると、異なる祖先群どうしの間で感度に違いが観察された。この課題は、マイクロハプロタイプセットを選択するのに使用したデータベースにおける偏りと、異なる祖先間のヘテロ接合性の違いの両方が原因である可能性が高い。これを正すために、1000 genomesプロジェクトから得られた集団ハプロタイプ頻度を用いて、第3/第4のハプロタイプ頻度をバランスさせて、すべての祖先にわたりほぼ等しくなるようにした。SNPセット間の第3/第4のハプロタイプの頻度を合計し、過剰出現する祖先において過剰な頻度に寄与するSNPセットを脱落させた。これにより、東アジア人、アフリカ人、ヨーロッパ人の祖先を持つ人々の間で、第3/第4のハプロタイプの期待される平均数が同じになるようなマイクロハプロタイプのセットの生成が可能になった。しかし、他の2つの1000 genome祖先、すなわち混血アメリカ人と南アジア人については、同一頻度を同時に生成することは不可能であった。これらの祖先は両方とも、他の3つの祖先よりも第3/第4のマイクロハプロタイプの頻度が高かったため、他の祖先と同一の閾値を用いて汚染を容易に検出できるはずである。
【0088】
さらに性能特性を向上させるために、純粋な試料の中で高いカバレッジと低いノイズを有するマイクロハプロタイプセットのみを選択するよう試みた。SNPセットの最小平均カバレッジを、100から250に上げた。しかし、高いカバレッジは諸刃の剣である。高いカバレッジは、感度と精度を向上させる一方で、典型的には0.1%程度のレベルである固有の配列決定エラーに起因するアーチファクト的な第3のハプロタイプを生成する可能性もある。このような技術上のエラーの影響を最小限にするために、低頻度のハプロタイプを考慮から外すことができる。これを設定すべきレベルは、カバレッジと配列決定の質に基づいて最適化することができる。今回の実験については、閾値を0.2%に設定し、ここで、0.2%を下回る頻度のハプロタイプは現実のものでないとみなした。配列の質やその他の要因に応じて、他の閾値を使用することができる。
【0089】
加えて、信号を増強して汚染推定の精度向上を可能にするために、さらに多くのSNPセットを使用した。これらの考慮に基づき、これらすべての基準を満たす第2のマイクロハプロタイプ・パネル用に164個のSNPセットを選択した。これらのSNPセットのうち51個は、第1のパネルにも存在していたものであり、両セットを、領域、dbSNP番号、および第3/第4のハプロタイプの1000 genome頻度とともに表7に示す。
【0090】
上に考察したとおり、正確なレベルの汚染を有する試料の生成は非常に困難である。試料をインシリコで組み合わせると、正確なレベルの汚染を有する混合試料が得られるが、機能面での影響は必ずしも正確ではない。マイクロハプロタイプの検出は、配列決定された分子の長さに依存するので、同一の部分的構成成分を有していてもDNAの質が異なる試料は、マイクロハプロタイプの頻度に異なる影響を及ぼすことになる。この影響を最小限に抑えるために、試料を対にして分析し、「試料」と「汚染物質」を入れ替え、次いで各対のうちで結果を平均した。次いで、各カテゴリ(アフリカ人、東アジア人、ヨーロッパ人、混血者)の15個のそうした対を、汚染レベルの関数として第3/第4のマイクロハプロタイプの数について分析した。図1に示すとおり、東アジア人とヨーロッパ人祖先の個体の第3/第4のMH数はほぼ重なり合っていた。アフリカ系アメリカ人の祖先の個体、そして祖先の混血者についての第3/第4のMH数は、東アジア人/ヨーロッパ人よりも高かったが、お互いに類似していた。アフリカ系アメリカ人での食い違いは、アフリカからの5つのサブグループと、アフリカ系アメリカ人からの2つのサブグループとを含む1000 genomesのアフリカ人パネルの構成に起因する可能性が高い。この2つのグループはある程度混血しており、よって、他のグループよりも高い数値を生成する。さらに均等な第3/第4のマイクロハプロタイプの頻度と、検査されるさらに多数のマイクロハプロタイプセットとの組み合わせにより、汚染された試料をさらに確実に同定することができることになる。
【0091】
第3/第4のマイクロハプロタイプの数は、異なる祖先の間でわずかに異なるにもかかわらず、汚染レベルの関数としての第3のマイクロハプロタイプの頻度の中央値は、異なる祖先に由来する混合された試料を含め、それらの祖先の間でほぼ同一である(図2)。この関係は、約1%からは線形である。1%を下回る汚染レベルは、配列決定のアーチファクトに大きく影響するだけでなく、意図を超えて、汚染を生じるさらなるDNAが存在する可能性も考えられる。1%を上回ると、観測された頻度の中央値は、おおまかには汚染レベルの半分である。これは、図3に示すとおり、第3のMHが生成されるやり方に基づいて予想される。さらに高い汚染レベルでは、この値は低下し始めるが、これは、第3のマイクロハプロタイプが実際には汚染物にではなく試料に由来するものである可能性を含め、複数の要因に起因する。
【0092】
汚染レベル=2×第3のマイクロハプロタイプレベルの中央値、という関係を用いて、異なるレベルでの汚染レベルの検出結果を、各祖先について表8に示す。それらのパターンは類似しており、予測される汚染レベルが第3のマイクロハプロタイプレベルの2倍である場合、さらに高い汚染レベルで検出される試料の割合は減少している。この表は、所与のレベルで汚染をほぼ100%の検出を達成するためには、どこに閾値を設定しなければならないかという指針を与える。例えば、2%で汚染された試料をほぼ全て検出したい場合、第3のマイクロハプロタイプのカットオフ=0.75%を設定すると、2%で汚染された試料の97%が検出される一方で、1.5%で汚染された試料は82%含まれ、1%で汚染された試料はわずか15%しか含まれず、0.5%で汚染されたものはまったく含まれない。閾値の選択は、偽陽性と偽陰性の相対的なレベルに基づいて行うことができる。
【0093】
実施例2
染色体異常のNIPT検出のためのマイクロハプロタイプの使用
染色体異常を検出するための非侵襲的出生前検査(NIPT)は、母体から血液試料を採取することによって、そして大きなバックグラウンド割合の母方のDNAの存在下で、循環する胎児のDNAを評価することによって、実行される。典型的には、配列リードを単純にアラインメントし、各染色体にアラインメントしている数を計数する。トリソミーに感受性の高い染色体(通常はchr13、chr18、chr21)にアラインメントしている過剰なリードが存在する場合、陽性と診断される。この検査は典型的には、母体の血液中に含まれる胎児のDNAの量が、検査精度に充分となる10週目以降に行われる。マイクロハプロタイプを使用することにより、検査をより早期に行うことができるが、その理由は、さらに正確な定量がさらに低いDNA濃度で可能になって、さらに正確な結果が得られるためであり、これは、解釈の誤りにつながる可能性のある、母体にあらかじめ存在する良性のコピー数多様性とは独立していることに起因する。
【0094】
NIPT試料の挙動は、2つの理由により、腫瘍試料の場合よりもさらに直接的になる。第1に、広範なコピー数多様性の複雑さは課題になりにくくなる。第2に、胎児のハプロタイプの1つは、母体に既に存在することになり、父方から入ってくる第3のハプロタイプは単一コピーのみとなるので、低レベルでは過剰に計数されないことになる。よって、頻度のさらに予測可能な増加が期待される。
【0095】
ほとんどの21トリソミーの場合では、余分な染色体は母方から生じ、その染色体上の新たな父方ハプロタイプの寄与を縮小させる。よって、影響を受けていない染色体上の父方ハプロタイプ頻度が決定されて、潜在的に影響を受けている染色体上の父方ハプロタイプの頻度と比較される可能性がある。多くのSBSセットが利用可能となり得るため、ふるまいの良いSBSのリストが直接的に生成されることになる。これらのSBSは、標的捕捉やPCR増幅によって濃縮され、現状可能な検出よりも早期に検出することができる。典型的なNIPTについてのDNAの非バイアスPCR増幅は困難であり、その理由は、わずかな非線形性が定量性に影響を与えるためである。マイクロハプロタイプ法では、単純にリードの数を計数するのではなく、マイクロハプロタイプの比を見るので、増幅バイアスへの感受性が下がる。配列決定エラーを起こしにくいSBSセットを選択することにより、または母方のマイクロハプロタイプから父方のマイクロハプロタイプに行く2つ以上の配列変化を生じる多SBSセットを選択することにより、精度をさらに高めることができる。加えて、3つのマイクロハプロタイプを有するSNPセットにおける遺伝型の頻度を調べることを通じて、胎児のDNA割合を容易に決定することができる。胎児の割合は、第3のマイクロハプロタイプの頻度の2倍となる。胎児の割合とその多様性の知識があれば、検査結果が妥当か不確定かをさらに正確に決定できることになる。
【0096】
トリソミーまたは他のDNAコピー数異常を決定するためには、異なる領域の第3のマイクロハプロタイプの頻度を比較する。いずれかの大きなゲノム領域(染色体の一部または全体)に由来する第3のマイクロハプロタイプの頻度が他のゲノム領域の頻度と異なる場合には、それは、トリソミーまたは他の増幅(第3のマイクロハプロタイプの頻度の増加)または欠失(第3のマイクロハプロタイプなし)を意味する。
補足表
【0097】
(表5)507遺伝子パネルのSBSセット
【0098】
(表6)エクソーム解析用SBSセット
【0099】
(表7)SNPセット
【0100】
(表8)観察された第3のMHの頻度(×2)
【0101】
以上、実施例を参照しつつ本発明を説明してきたが、本発明の趣旨と範囲の中には、修正例更および変形例が包含されることは理解されよう。したがって、本発明は、添付の特許請求の範囲によってのみ限定される。
図1
図2
図3
【国際調査報告】