(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-06
(45)【発行日】2023-10-17
(54)【発明の名称】精子提供者、卵母細胞提供者、及びそれぞれの受胎産物の間の遺伝的関係を決定するためのシステム、コンピュータプログラム及び方法
(51)【国際特許分類】
G16B 20/20 20190101AFI20231010BHJP
G16B 30/10 20190101ALI20231010BHJP
G16B 20/10 20190101ALI20231010BHJP
C12Q 1/6869 20180101ALN20231010BHJP
C12N 5/071 20100101ALN20231010BHJP
【FI】
G16B20/20
G16B30/10
G16B20/10
C12Q1/6869 Z
C12N5/071
(21)【出願番号】P 2021576184
(86)(22)【出願日】2020-06-19
(86)【国際出願番号】 US2020038824
(87)【国際公開番号】W WO2020257717
(87)【国際公開日】2020-12-24
【審査請求日】2022-03-24
(32)【優先日】2019-06-21
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510236656
【氏名又は名称】クーパーサージカル・インコーポレイテッド
【氏名又は名称原語表記】CooperSurgical, Inc.
(74)【代理人】
【識別番号】110000556
【氏名又は名称】弁理士法人有古特許事務所
(72)【発明者】
【氏名】バーク, ジョン
(72)【発明者】
【氏名】リーズ, ブライアン
(72)【発明者】
【氏名】ブラゼク, ジョシュア デイヴィッド
(72)【発明者】
【氏名】ラージ, マイケル ジョン
【審査官】鈴木 和樹
(56)【参考文献】
【文献】米国特許出願公開第2013/0261984(US,A1)
【文献】国際公開第2015/042980(WO,A1)
【文献】D. Marinほか,The perks of going targeted: sample contamination, DNA fingerprinting and chromosomal mosaicism accurately predicted by targeted NGS-based comprehensive chromosome screening,Fertility and Sterility[ONLINE],第108巻,第3号(Supplement),2017年09月,p.e88,[検索日:2023/01/23],[URL:https://www.fertstert.org/article/S0015-0282(17)30795-1/fulltext]
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
C12Q 1/6869
C12N 5/071
(57)【特許請求の範囲】
【請求項1】
受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するための方法であって、
受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るステップと、
前記受け取った配列データを参照ゲノムにアライメントするステップと、
前記精子提供者、卵母細胞提供者、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するステップと、
前記精子提供者の配列データ及び前記卵母細胞提供者の配列データ内の欠落した
SNP遺伝子型を、インピュテーション参照を使用して、
推定するステップと、
前記精子提供者と前記受胎産物との間の父方一致性スコアを計算するステップであり、前記スコアが、(a)前記受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)前記受胎産物において見出されるが前記精子提供者においては見出されないSNPのカウントを含む、計算するステップと、
前記卵母細胞提供者と受胎産物との間の母方一致性スコアを計算するステップであり、前記スコアが、(a)前記受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)前記受胎産物において見出されるが前記卵母細胞提供者においては見出されないSNPのカウントを含む、計算するステップと、
前記父方一致性スコア及び/又は前記母方一致性スコアが所定の閾値を超える場合、前記精子提供者及び/又は前記卵母細胞提供者を前記受胎産物に関連するものとして分類するステップと、
を含む、方法。
【請求項2】
前記受胎産物が着床前受胎産物である、請求項1に記載の方法。
【請求項3】
前記アライメントするステップの後に前記アライメントされた受胎産物の配列データにおいて関心領域を同定するステップと、前記精子提供者、卵母細胞提供者、及び前記受胎産物の配列データの前記同定された関心領域においてSNPを同定するステップとをさらに含む、請求項1に記載の方法。
【請求項4】
前記関心領域がゲノム全体である、請求項3に記載の方法。
【請求項5】
前記関心領域がコピー数変異である、請求項3に記載の方法。
【請求項6】
前記受胎産物、精子提供者、及び卵母細胞提供者の配列データのうちの少なくとも1つが低カバレッジ配列決定によって取得される、請求項1に記載の方法。
【請求項7】
前記低カバレッジ配列決定
が0.001~10×である、請求項6に記載の方法。
【請求項8】
前記低カバレッジ配列決定
が0.01~0.5×である、請求項6に記載の方法。
【請求項9】
前記インピュテーション参照が少なくとも1000個のゲノムを含む、請求項1に記載の方法。
【請求項10】
前記同定するステップの後に、前記受胎産物、精子提供者、及び卵母細胞提供者の配列決定データのうちの少なくとも1つをフィルタリングして、配列決定アーチファクトを除去するステップをさらに含む、請求項1に記載の方法。
【請求項11】
前記フィルタリングが、既知のSNPの参照リストに含まれないSNPを除外するステップを含む、請求項
10に記載の方法。
【請求項12】
前記参照リスト
が1000個の既知のゲノムを含む、請求項
11に記載の方法。
【請求項13】
前記フィルタリングが、メンデルの法則と矛盾するSNPを除外するステップを含む、請求項
10に記載の方法。
【請求項14】
前記フィルタリングが、前記受胎産物、精子、及び卵母細胞の間でなんらかの対立遺伝子が欠落した部位の配列を除外するステップを含む、請求項
10に記載の方法。
【請求項15】
前記フィルタリングが、前記受胎産物、精子、及び卵母細胞の間にわたって対立遺伝子が一定の部位の配列を除外するステップを含む、請求項
10に記載の方法。
【請求項16】
前記フィルタリングが、前記受胎産物、精子、及び卵母細胞のうちの1つ内で対立遺伝子が新規の部位の配列を除外するステップを含む、請求項
10に記載の方法。
【請求項17】
コンピュータによって実行されると、前記コンピュータに請求項1乃至
16の何れか1項に記載の方法を実行させる命令を含むコンピュータプログラ
ム。
【請求項18】
受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するためのシステムであって、
受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るためのデータストアと、
前記データストアに通信可能に接続されたコンピューティングデバイスであり、
前記受け取った配列データを参照ゲノムにアライメントするように構成されたアライメントエンジン、
前記精子提供者の配列データ、卵母細胞提供者の配列データ、及び前記受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するように構成されたSNP同定エンジン、
前記精子提供者の配列データ及び前記卵母細胞提供者の配列データ内の欠落した
SNP遺伝子型を、インピュテーション参照を使用して、
推定するように構成されたインピュテーションエンジン、並びに
関連性エンジンであり、
前記精子提供者と前記受胎産物との間の父方一致性スコアを計算し、前記スコアが、(a)前記受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)前記受胎産物において見出されるが前記精子提供者においては見出されないSNPのカウントを含み、
前記卵母細胞提供者と受胎産物との間の母方一致性スコアを計算し、前記スコアが、(a)前記受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)前記受胎産物において見出されるが前記卵母細胞提供者においては見出されないSNPのカウントを含み、
前記父方一致性スコア及び/又は前記母方一致性スコアが所定の閾値を超える場合、前記精子提供者及び/又は前記卵母細胞提供者を前記受胎産物に関連するものとして分類する、
ように構成された、関連性エンジン、
を備える、コンピューティングデバイスと、
前記コンピューティングデバイスに通信可能に接続され、前記受胎産物に対する前記分類された関連性を含むレポートを表示するように構成されたディスプレイと、
を備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2019年6月21日に出願された米国仮特許出願第62/865130号の優先権の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
(参照による組み込み)
本明細書で引用される任意の特許、特許出願及び刊行物の開示は、その全体が参照により本明細書に組み込まれる。
【0003】
本明細書で提供される実施形態は、一般に、ゲノム核酸の分析及びゲノム特徴の分類のためのシステム及び方法に関する。本明細書で提供される実施形態には、受胎産物、卵母細胞及び精子の間の関連性を決定することに関するシステム及び方法が含まれる。
【背景技術】
【0004】
体外受精(IVF)は、母体年齢の高い女性や妊娠が困難なカップル向けに、また妊娠代理出産(Gestational Surrogacy)を容易にする手段としてますます普及してきている生殖補助技術である。受精のプロセスは、卵を抽出し、精子サンプルを採取し、次いで、実験室において卵と精子とを手作業で組み合わせることを含む。次いで、胚を宿主の子宮に着床させ胚を出産日まで育てる。胚が生検されるか、又は無細胞DNAが遺伝子分析のために収集される場合に4つ目の検体が生成される。多くのIVF施設では、年間に何千人もの患者を診察し、何万もの胚を生成している。一連の管理は重要であり、これが確実に行われないと、カップルが自分の子供ではない子供を出産することになる。着床前の受胎産物に対して行われる遺伝子分析の最も一般的な形態であるローパス次世代シーケンシング(NGS)では、今のところ、受胎産物がそれぞれの親と遺伝的に関連しているかどうかを判定することができない。
【0005】
現在のIVFにおける一連の管理上の問題は、主に、人間による広範囲にわたる監視と、場合によっては、バーコード又はRFIDタグを読み取る電子システムによって対処されている。しかしながら、人間の監視は、エラーを起こしやすく、患者又は検体のラベリングは、誤りを犯しがちである。着床前トリオ連鎖(PTL)と呼ばれることがある、それぞれの精子寄与者、卵寄与者、及び結果として生じる着床前受胎産物が関連しているかどうかを遺伝的に同定するために、SNPアレイが使用されることがある。しかしながら、この技術は、陳腐化して寿命が近づいており、シーケンシング法に着実に置き換えられている。さらに、市場にはローパスシーケンシング法を使用してPTLを行うためのオプションがない。
【0006】
そのため、遺伝的関係を適切に同定することができるように、血縁関係の検出及びサンプルの誤認を考慮した、より迅速でより安価なシステム及び方法が必要とされている。
【発明の概要】
【0007】
本明細書では、例えば、PTLなどの遺伝的関係を決定するという目的を含む、ゲノム核酸の分析及びゲノム特徴の分類のための方法及びシステムが提供される。
【0008】
様々な実施形態に従って、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するための方法が提供される。本方法は、受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るステップと、受け取った配列データを参照ゲノムにアライメントするステップと、精子提供者、卵母細胞提供者、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するステップと、精子提供者の配列データ及び卵母細胞提供者の配列データ内の欠落したギャップを、インピュテーション参照を使用して、インピュートするステップと、精子提供者と受胎産物との間の父方一致性スコアを計算するステップであって、本スコアが、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含む、計算するステップと、卵母細胞提供者と受胎産物との間の母方一致性スコアを計算するステップであって、本スコアが、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含む、計算するステップと、父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者を受胎産物に関連するものとして分類するステップと、を含む。
【0009】
様々な実施形態によると、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するためのコンピュータ命令を記憶する非一時的コンピュータ可読媒体が提供される。本方法は、受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るステップと、受け取った配列データを参照ゲノムにアライメントするステップと、精子提供者、卵母細胞提供者、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するステップと、精子提供者の配列データ及び卵母細胞提供者の配列データ内の欠落したギャップを、インピュテーション参照を使用して、インピュートするステップと、精子提供者と受胎産物との間の父方一致性スコアを計算するステップであって、本スコアが、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含む、計算するステップと、卵母細胞提供者と受胎産物との間の母方一致性スコアを計算するステップであって、本スコアが、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含む、計算するステップと、父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者を受胎産物に関連するものとして分類するステップと、を含む。
【0010】
様々な実施形態によると、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するためのシステムが提供される。本システムは、受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るためのデータストアと、データストアに通信可能に接続されたコンピューティングデバイスと、コンピューティングデバイスに通信可能に接続され、受胎産物に対する分類された関連性を含むレポートを表示するように構成されたディスプレイと、を備えることができる。本コンピューティングデバイスは、受け取った配列データを参照ゲノムにアライメントするように構成されたアライメントエンジンと、精子提供者の配列データ、卵母細胞提供者の配列データ、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するように構成されたSNP同定エンジンと、精子提供者の配列データ及び卵母細胞提供者の配列データ内の欠落したギャップを、インピュテーション参照を使用して、インピュートするように構成されたインピュテーションエンジンと、関連性エンジンと、を備える。関連性エンジンは、精子提供者と受胎産物との間の父方一致性スコアを計算し、本スコアが、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含み、卵母細胞提供者と受胎産物との間の母方一致性スコアを計算し、本スコアが、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含み、父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者を受胎産物に関連するものとして分類する、ように構成することができる。
【図面の簡単な説明】
【0011】
本明細書に開示される原理及びその利点のより完全な理解のために、ここで、添付の図面と併せて以下の説明を参照する。
【
図1】様々な実施形態による、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するためのプロセスフローを示す例示的な流れ図である。
【
図2】様々な実施形態による、子孫、例えば、受胎産物又は胚の遺伝子異常を、母方由来又は父方由来のいずれかであるとして分類するためのプロセスフローを示す例示的な流れ図である。
【
図3】様々な実施形態による、同定された遺伝子異常の親由来を検出及び/又は分類するための論理フローを示す決定木図である。
【
図4】様々な実施形態による、染色体ごとに分析された全変異対立遺伝子のうち、一染色体性胚の変異対立遺伝子にマッチした母親の変異対立遺伝子の比率(青色の棒)を、胚の変異対立遺伝子にマッチした父親の変異対立遺伝子の比率(オレンジ色の棒)と比較して示す棒グラフである。
【
図5A】様々な実施形態による、染色体ごとに父方変異対立遺伝子にマッチした三染色体性胚の分析された変異対立遺伝子の数と、染色体ごとに母方変異対立遺伝子にマッチした胚の分析された変異対立遺伝子の数との比較の結果を示す図である。
【
図5B】様々な実施形態による、染色体ごとに父方変異対立遺伝子にマッチした三染色体性胚の分析された変異対立遺伝子の数と、染色体ごとに母方変異対立遺伝子にマッチした胚の分析された変異対立遺伝子の数との比較の結果を示す図である。
図5Aは、様々な実施形態による、23個の染色体(青色の点)のそれぞれについて、父方起源と共有される胚変異対立遺伝子の数(OvP)対母方起源と共有される胚変異対立遺伝子の数(OvM)のグラフである。点線の対角線は、各染色体について、母方起源と共有される胚変異対立遺伝子の数が、父方起源と共有される胚変異対立遺伝子の数と等しくなるグラフ上の点を表す。
図5Bは、
図6Aに示される結果の別のグラフ表示であり、様々な実施形態による、染色体ごとの、母親と共有される対立遺伝子のカウント対父親と共有される対立遺伝子のカウントの比率を示す。
【
図6】様々な実施形態による、第6染色体上の位置(塩基対のx軸)に関して、父方起源と共有される胚変異対立遺伝子の数(OVP)に対する、母方起源と共有される胚変異対立遺伝子の数(OvM)の比率(y軸)を示すグラフである。
【
図7】様々な実施形態による、23個の染色体(青色の点)のそれぞれについて、父方起源と共有される胚変異対立遺伝子の数(OvP)対母方起源と共有される胚変異対立遺伝子の数(OvM)のグラフである。点線の対角線は、各染色体について、母方起源と共有される胚変異対立遺伝子の数が、父方起源と共有される胚変異対立遺伝子の数と等しくなるグラフ上の点を表す。
【
図8】様々な実施形態による、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するためのシステムの概略図である。
【
図9】様々な実施形態による、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するための方法を示す例示的な流れ図である。
【
図10】様々な実施形態による、初期N=14のファミリーデータセット上の親一致性及び新規スコアのグラフを示す。
【
図11】様々な実施形態による、親マッチング・クラスタ・プロットである。
【
図12】様々な実施形態による、親マッチング・クラスタ・プロットである。
【
図13】様々な実施形態による、受胎産物の遺伝的関係を決定する際の相対的な、母方及び父方の新規性及び類似性スコアを示すグラフである。
【
図14】様々な実施形態による、受胎産物の遺伝的関係を決定する際の相対的な母方及び父方の新規性及び類似性スコアを示すグラフである。
【
図15】様々な実施形態による、本明細書で提供される方法を実行する際に使用するためのコンピュータシステムを示すブロック図である。
【0012】
図は必ずしも縮尺通りに描かれておらず、図中の物体も互いに関連して必ずしも縮尺通りに描かれていないことを理解されたい。図は、本明細書で開示される装置、システム、及び方法の様々な実施形態に明確さと理解をもたらすように意図された描写である。可能な限り、同一又は同様の部分を指すために、図面全体を通して同一の参照番号が使用される。さらに、図面は、決して本教示の範囲を限定することを意図するものではないことを理解されたい。
【0013】
上記の図は、限定ではなく、例示として提供されている。図は、簡略化された又は部分的な図を示す場合があり、図中の要素の寸法は、誇張されるか、さもなければ比例していないことがある。加えて、用語「上にある」、「取り付けられている」、「接続されている」、「結合されている」又は同様の単語が本明細書で使用される場合、1つの要素(例えば、材料、層、基板など)は、1つの要素が他の要素の直接上にあるか、他の要素に取り付けられているか、接続されているか、又は結合されているか、或いは1つの要素と他の要素との間に1つ又は複数の介在要素があるかどうかにかかわらず、別の要素の「上にある」、「取り付けられている」、「接続されている」、又は「結合されている」とすることができる。加えて、要素のリスト(例えば、要素a、b、c)に言及している場合、そのような言及は、列挙された要素のいずれか1つを単独で、列挙された要素の全てよりも少ない任意の組合せを、及び/又は列挙された要素の全ての組合せを含むことが意図されている。本明細書におけるセクション分割は、検討を容易にするためのものにすぎず、論じられる要素の任意の組合せを制限するものではない。
【発明を実施するための形態】
【0014】
本明細書では、ゲノム核酸の分析、及び例えば、遺伝子異常を含むゲノム特徴の分類のための方法及びシステムが提供される。一部の実施形態において、本方法及びシステムは、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定する際に使用される。
【0015】
説明全体を通して、受胎産物へのいかなる言及も胚を含むことができることに留意されたい。そのため、両方の用語は、交換可能に使用することができ、1つの用語対他の用語のこれらの使用は、決して本明細書の様々な実施形態を、1つのタイプのサンプル対他のタイプのサンプルに限定するものではない。分析されるサンプルは、広義には、受胎の産物である。そのため、受胎産物又は胚という用語は、胎児、流産、子供などと交換可能に使用することができ、いかなるそのような用語の使用も、決して本明細書の様々な実施形態を、一方のタイプのサンプル対他方のタイプのサンプルに限定するものではない。
【0016】
同じことが、分析される母親及び父親(又は両親)に関しても言える。母及び父という用語には、社会的な構成があるため、このようなカテゴリに帰属する幅広さを理解することが重要である。様々な実施形態によると、母親、父親、又は両親という用語の使用は、既知の識別に関する一般的なものであり、そのため、分析されるサンプルの親子関係が既知であることを意味すると解釈されるべきではない。本明細書で詳述されるように、例えば、遺伝又は遺伝的関係のパターンが決定される様々な実施形態について論じる。いずれの場合も、親子関係が既知である可能性、又は未知である可能性があるが、本明細書の様々な実施形態を介して決定することができる。さらに、母親という用語は、母方のDNA、推定母方のDNA、遺伝的関係が既知及び未知の卵子/卵母細胞、卵子ドナー、卵子又は妊婦キャリア、血液などを指すことができる。同様に、父親という用語は、父方のDNA、推定父方のDNA、精子、精子ドナー、血液などを指すことができる。
【0017】
別段の規定がない限り、本明細書に記載される本教示に関連して使用される科学用語及び技術用語は、当業者によって一般に理解される意味を有するものとする。さらに、文脈上別段の要求がない限り、単数形の用語は複数形を含み、複数形の用語は単数形を含むものとする。一般に、本明細書に記載される細胞及び組織培養、分子生物学、並びにタンパク質及びオリゴヌクレオチド又はポリヌクレオチド化学反応及びハイブリダイゼーションに関連して利用される命名法及びそれらの技法は、当技術分野でよく知られており、一般的に使用されているものである。標準的な技法が、例えば、核酸精製及び調製、化学分析、組換え核酸、並びにオリゴヌクレオチドの合成に使用される。酵素反応及び精製技法は、メーカの仕様書に従って、又は当技術分野で一般的に達成されるように、又は本明細書に記載されるように行われる。本明細書に記載される標準的な分子生物学的技法及び手順は、一般に、当技術分野でよく知られている従来の方法に従って、そして本明細書全体を通して引用及び議論される様々な一般的な参考文献及びより特定の参考文献に記載されるように、実施される。例えば、Sambrook et al.,Molecular Cloning:A Laboratory Manual(第3版、Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.2000)を参照されたい。本明細書に記載される実験手順及び標準的技法に関連して利用される命名法は、当技術分野でよく知られており、一般的に使用されているものである。
【0018】
「ポリヌクレオチド」、「核酸」又は「オリゴヌクレオチド」は、ヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド又はそれらの類似体を含む)がヌクレオシド間結合によって連結された直鎖状のポリマを指す。典型的には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。通常、オリゴヌクレオチドのサイズは、数個のモノマー単位、例えば、3~4個から数百個のモノマー単位の範囲にある。オリゴヌクレオチドなどのポリヌクレオチドが「ATGCCTG」などの文字列によって表される場合は常に、特に断りのない限り、ヌクレオチドは、左から右に5’→3’の順序であり、「A」は、デオキシアデノシンを表し、「C」はデオキシシチジンを表し、「G」はデオキシグアノシンを表し、「T」はチミジンを表すことを理解されよう。文字A、C、G、及びTは、当技術分野で標準的使用されているように、塩基自体、ヌクレオシド、又は塩基を含むヌクレオチドを指すために使用されることがある。
【0019】
DNA(デオキシリボ核酸)は、A(アデニン)、T(チミン)、C(シトシン)及びG(グアニン)の4種類のヌクレオチドを含むヌクレオチド鎖であり、RNA(リボ核酸)は、A、U(ウラシル)、G及びCの4種類のヌクレオチドを含む。特定のヌクレオチドの対が、互いに相補的に特異的に結合する(相補的塩基対と呼ばれる)。すなわち、アデニン(A)は、チミン(T)と対になり(しかしながら、RNAの場合、アデニン(A)は、ウラシル(U)と対になる)、シトシン(C)は、グアニン(G)と対になっている。第1の核酸鎖が、第1の鎖中のヌクレオチドに相補的なヌクレオチドからなる第2の核酸鎖と結合すると、2つの鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ゲノム配列」、「遺伝子配列」又は「フラグメント配列」又は「核酸配列決定リード」は、DNA又はRNAの分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、及びチミン/ウラシル)の順序を示す任意の情報又はデータを指す。本教示は、キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接的又は間接的なヌクレオチド同定システム、パイロ配列決定、イオン又はpHベースの検出システム、電子署名ベースのシステムなどを含むがこれらに限定されない、全ての利用可能な様々な技法、プラットフォーム又は技法を使用して得られる配列情報を企図していることを理解されたい。
【0020】
本明細書で使用される場合、「細胞」という用語は、「生物学的細胞」という用語と交換可能に使用される。生物学的細胞の非限定的な例としては、真核生物細胞、植物細胞、例えば、哺乳動物細胞、爬虫類細胞、鳥類細胞、魚類細胞などの動物細胞、原核細胞、細菌細胞、真菌細胞、原生動物細胞など、例えば、筋肉、軟骨、脂肪、皮膚、肝臓、肺、神経組織などの組織から解離した細胞、例えば、T細胞、B細胞、ナチュラルキラー細胞、マクロファージなどの免疫学的細胞、胚(例えば、接合体)、卵母細胞、卵子、精子細胞、ハイブリドーマ、培養細胞、細胞株由来の細胞、癌細胞、感染細胞、トランスフェクト細胞及び/又は形質転換細胞、レポータ細胞などが挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類などからのものとすることができる。
【0021】
ゲノムは、哺乳動物、例えばヒトなどの動物を含む、細胞又は生物の遺伝物質であり、DNAなどの核酸を含む。ヒトにおいて、全DNAには、例えば、遺伝子、非コードDNA及びミトコンドリアDNAが含まれる。ヒトゲノムは、典型的には、23対の直線状染色体、すなわち、22対の常染色体+性を決定するX及びY染色体を含む。23対の染色体には、それぞれの親からのコピーが1つずつ含まれている。染色体を構成するDNAは、染色体DNAと呼ばれ、ヒト細胞の核の中に存在する(核DNA)。ミトコンドリアDNAは、環状染色体としてミトコンドリアに位置し、雌の親のみから遺伝し、しばしば、核に位置するDNAの核ゲノムと比較して、ミトコンドリアゲノムと呼ばれる。
【0022】
本明細書で使用される場合、「ゲノム特徴」という語句は、規定された又は特定されたゲノム要素又は領域を指す。一部の事例において、ゲノム要素又は領域は、何らかの注釈付き構造及び/又は機能(例えば、染色体、遺伝子、タンパク質コード配列、mRNA、tRNA、rRNA、反復配列、逆方向反復、miRNA、siRNAなど)を有することができ、又は例えば、突然変異、組換え/交差又は遺伝的ドリフトに起因して特定の種又は特定の種内の亜集団に対して参照される変化を受けた1つ又は複数のヌクレオチド、ゲノム領域、遺伝子又はゲノム領域若しくは遺伝子のグループ(DNA若しくはRNAにおける)を示す遺伝的/ゲノム変異(例えば、単一ヌクレオチド多型/変異、挿入/欠失配列、コピー数変異、逆位など)であり得る。
【0023】
倍数性は、細胞又は生物のゲノム中の相同染色体のセットの数(nとして示される)を指す。例えば、1セットの染色体を有する細胞又は生物は、一倍体と呼ばれる。2セットの相同染色体(2n)を有する細胞又は生物は、二倍体と呼ばれる。多倍数性とは、細胞(例えば、胚)又は生物が、2つ以上の完全な一倍体の染色体セットを有する状態である。一倍体とは、生物の体細胞染色体が通常の完全なセットの半分である細胞を指す。例えば、ヒトにおける卵細胞及び精子細胞などの配偶子、すなわち生殖(性)細胞は、一倍体である。受精中の一倍体配偶子の融合により、雌性配偶子由来の1セットの相同染色体及び雄性配偶子由来の1セットの相同染色体を含む二倍体接合体が生成される。正常な数の常染色体(22)及び単一の性染色体対(XX又はXY)を有するヒト胚は、正倍数体胚と呼ばれる。したがって、ヒトについては、正倍数体の状態は、二倍体である。様々な実施形態において、「全染色体」という語句は、全常染色体及び性染色体を含むことができる。様々な実施形態において、「全染色体」という語句は、性染色体を含まない。
【0024】
「対立遺伝子」という用語は、遺伝子の代替形態を指す。ヒト又は他の二倍体生物では、各遺伝子座に2つの対立遺伝子が存在する。対立遺伝子は、各親から受け継がれ、1つの対立遺伝子は、母親から受け継がれ、1つの対立遺伝子は、父親から受け継がれる。一対の対立遺伝子は、遺伝子の遺伝子型を表す。特定の遺伝子座における2つの対立遺伝子が同一である場合、その遺伝子型は、ホモ接合と呼ばれる。特定の遺伝子座で2つの対立遺伝子に差がある場合、その遺伝子型は、ヘテロ接合と呼ばれる。
【0025】
「ハプロタイプ」という用語は、染色体の近接性に起因して同時分離する傾向がある染色体の変異又は多型のセット又は組合せを指す。ハプロタイプは、単一の遺伝子、複数の遺伝子又は遺伝子間の配列における変異の組合せに関して記述することができる。ハプロタイプの変異は近接しているため、変異が生じる位置の組換え又は交差が、ほとんど又は全くない傾向があり、それらは世代を超えて、一緒に遺伝する傾向がある。
【0026】
本明細書で使用される場合、「遺伝子異常」という語句は、正常なゲノム、野生型ゲノム又は参照ゲノムと比較したゲノムの変化を指す。一般に、遺伝子異常は、染色体異常及び遺伝子欠損を含む。典型的には、遺伝子欠損には、一塩基突然変異、置換、挿入及び欠失並びにコピー数変異を含むが、これらに限定されない変化が含まれる。染色体異常には、染色体の数又は構造の変化、例えば、重複及び欠失、例えば染色体の領域の繰り返し又は喪失、逆位及び転座が含まれる。一般的な染色体異常は、異数性と呼ばれ、これは染色体の過剰又は欠落に起因する染色体数の異常である。例えば、ヒトにおける単一染色体性は、コピー喪失した染色体(正常な2つのコピーではなく1つのコピーのみ)を特徴とする異常である。ヒトにおける三染色体性は、染色体のコピー数獲得(正常な2つのコピーではなく3つのコピー)を特徴とする異常である。染色体数が異常な胚は、異数体胚と呼ばれる。ほとんどの異数性は、母方由来であり、減数分裂中の分離におけるエラーに起因する。したがって、減数分裂異数性は、胚のすべての細胞において起きる。しかしながら、有糸分裂エラーは、ヒト着床前胚においても一般的であり、有糸分裂異数性及び複数の細胞集団を有する染色体モザイク胚が生じる可能性がある(例えば、一部の細胞が異数体であり、一部の細胞が正倍数体である)。ヒト細胞における多倍数性は、細胞(例えば、胚)が3つ以上の完全な染色体セットを有する異常である。多倍数性の例としては、三倍性(3n)及び四倍性(4n)が挙げられる。ヒトにおける多倍数性は、性均衡型染色体(現在のCNV方法によって検出不可能)又は性不均衡型染色体(CNV方法によって検出可能)のいずれかを有することになるいくつかの形態で起こり得る。ヒトにおける性均衡型多倍数性は、3つ以上のゲノムの完全なコピーを含み、各コピーがX染色体のみを含むか(例えば、69:XXX又は92:XXXX)又は同等数のX及びY染色体を含む(例えば、92:XXYY)。ヒトにおける性不均衡型倍数性は、3つ以上のゲノムの完全なコピーを含み、少なくとも1つのコピーがY染色体(例えば、69:XXY、69:XYY)を含み、同等のコピー数のX及びY染色体を含まない。染色体異常は、流産並びに遺伝的疾患及び疾病を含む、細胞及び生物に多数の様々な影響を与える可能性がある。
【0027】
一般に、ゲノム変異は、アレイベースの方法(例えば、DNAマイクロアレイなど)、リアルタイム/デジタル/定量PCR機器法及び全核酸配列決定システム又は標的核酸配列決定システム(例えば、NGSシステム、キャピラリー電気泳動システムなど)を含むが、これらに限定されない様々な技法を使用して同定することができる。核酸配列決定に関しては、分解能又はカバレッジは、1つ又は複数のレベルで可能であり、場合によっては、単一塩基の分解能で利用可能である。
【0028】
本明細書中で使用される場合、「遺伝パターン」という語句は、親細胞又は生物(例えば、二倍体細胞及び生物)から、細胞、胚又は生物のゲノムに、ゲノム特徴(例えば、異数性)が伝達される様式を指す。例えば、ヒトにおいて、子孫(例えば、胚)は、各親からそれぞれ1つの遺伝子対立遺伝子(1つは母方及び1つは父方)を受け取り、次いで、この遺伝子対立遺伝子が子孫の二倍体細胞において2つの対立遺伝子を構成する。子孫又は胚における特定の対立遺伝子又はゲノム特徴の遺伝パターンは、どの親がゲノム特徴を子孫に伝達したかを規定する。ゲノム特徴が子孫又は胚に伝達された親は、親由来と呼ばれる。
【0029】
本明細書で使用される場合、「子孫」とは、配偶子(例えば、雌性生殖細胞及び雄性生殖細胞)の結合の産物を指し、例えば、割球、接合体、胚、胎児、新生児又は子供が挙げられるが、これらに限定されない。子孫のDNAは、例えば、割球生検、栄養外胚葉生検、内部細胞塊生検、胞胚腔生検、胚使用済み培地、cfDNA、受胎産物、絨毛膜絨毛サンプル及び/又は羊水穿刺を含む任意のソースから得ることができる。
【0030】
本明細書で使用される場合、「親」又は「遺伝的親」とは、子孫への配偶子の寄与者を指し、配偶子DNAがドナーに由来する限り、例えば、卵ドナー及び精子ドナーを含む。
【0031】
「モザイク胚」という語句は、2つ以上の細胞遺伝学的に異なる細胞株を含む胚を意味する。例えば、モザイク胚は、異なるタイプの異数性を有する細胞株、又は妊娠中の胚の生存能力に有害である場合がある遺伝子変異を有するDNAを含む正倍数体細胞及び遺伝的に異常な細胞の混合物を含むことができる。
【0032】
「次世代シーケンシング」(NGS:next generation sequencing)という語句は、例えば、一度に数十万の比較的小さな配列リードを生成する能力を有する、従来のサンガー及びキャピラリー電気泳動に基づく手法と比較してスループットが向上した配列決定技術を指す。次世代シーケンシング技法の一部の例としては、合成による配列決定、ライゲーションによる配列決定、及びハイブリダイゼーションによる配列決定が挙げられるが、これらに限定されない。より具体的には、IlluminaのMISEQ、HISEQ及びNEXTSEQシステム並びにLife Technologies CorpのPersonal Genome Machine(PGM)、Ion Torrent、及びSOLiD Sequencing Systemは、全ゲノム又は標的ゲノムの大規模並列配列決定を提供する。SOLiDシステム及び関連するワークフロー、プロトコル、ケミストリなどは、国際出願日2006年2月1日の「Reagents,Methods,and Libraries for Bead-Based Sequencing」と題するPCT公開第WO2006/084132号、2010年8月31日に出願された「Low-Volume Sequencing System and Method of Use」と題する米国特許出願第12/873190号、及び2010年8月31日に出願された「Fast-Indexing Filter Wheel and Method of Use」と題する米国特許出願第12/873132号にさらに詳細に記載されており、これらの出願のそれぞれの全体が参照により本明細書に組み込まれる。
【0033】
「配列決定実行」という語句は、少なくとも1つの生体分子(例えば、核酸分子)に関する何らかの情報を決定するために行われる配列決定プロセスの任意のステップ又は部分を指す。
【0034】
核酸配列決定に関する「リード」という用語は、例えば、NGSなどの配列決定に供された核酸フラグメントについて決定されたヌクレオチドの配列を指す。リードは、リード長を規定する任意の数のヌクレオチドの任意の配列とすることができる。
【0035】
本明細書で交換可能に使用される「配列決定カバレッジ」又は「配列カバレッジ」という語句は、一般に、配列リードと、例えば、細胞又は生物の全ゲノム、ゲノム中の1つの遺伝子座又はゲノム中の1つのヌクレオチド位置などの参照との間の関係を指す。カバレッジは、いくつかの形式で記述することができる(例えば、Simsら(2014)Nature Reviews Genetics 15:121-132を参照)。例えば、カバレッジは、ゲノムのどれくらいが塩基対レベルで配列されているかを指すことができ、NL/Gとして計算することができ、式中、Nはリードの数であり、Lは平均リード長であり、Gはゲノム(参照)の長さ又は塩基の数である。例えば、参照ゲノムが1000Mbpであり、平均長100bpの1億個のリードが配列される場合、カバレッジの冗長度は10×である。このようなカバレッジは、1×、2×、3×などの「倍数(fold)」(又は1、2、3回などのカバレッジ)として表すことができる。カバレッジは、参照核酸に対する配列決定の冗長度を指すこともでき、参照配列がリードによってカバーされる頻度、例えば、任意の所与の遺伝子座の単一の塩基が配列決定中に読み取られる回数を表す。したがって、カバーされていない、深度が0の塩基がある場合もあれば、カバーされている、深度が例えば1~50あたりの塩基がある場合もある。カバレッジの冗長度は、配列データの信頼性の指標を提供し、カバレッジ深度とも呼ばれる。カバレッジの冗長度は、参照にアライメントされていない「生」のリード、又はアライメントされた(マッピングされた)リードに関して記述することができる。カバレッジはまた、リードによってカバーされている参照(例えば、ゲノム)のパーセンテージの観点から考えることができる。例えば、参照ゲノムが10Mbpであり、配列リードデータが参照の8Mbpにマッピングされている場合、カバレッジのパーセンテージは、80%である。配列カバレッジは、特定の深度で所与の回数配列決定される参照の塩基のパーセンテージを指すカバレッジの幅(breadth of coverage)の観点からも記述することができる。
【0036】
本明細書で使用される場合、核酸配列決定に関して「低カバレッジ」という語句は、約10×未満、又は約0.001×~約10×、又は約0.002×~約0.2×、又は約0.01×~約0.05×の配列決定カバレッジを指す。
【0037】
本明細書で使用される場合、核酸配列決定に関する「低深度」という語句は、約10×(倍)未満、又は約0.1×~約10×、又は約0.2×~約5×、又は約0.5×~約2×の配列決定深度を指す。
【0038】
ゲノム配列核酸配列に関する用語「分解能」は、細胞、例えば、胚又は生物の核酸配列決定によって得られるゲノム核酸配列(例えば、ゲノム全体又はゲノムの特定の領域又は遺伝子座の配列)の質、又は正確さ、及び程度を指す。ゲノム核酸配列の分解能は、配列決定プロセスのカバレッジ及び深度によって主に決定され、配列決定中に読み取られる固有の塩基の数及び配列決定中に任意の1つの塩基が読み取られる回数を考慮するステップを含む。細胞、例えば、胚又は生物のゲノム核酸配列に関して本明細書で交換可能に使用される「低分解能配列」又は「低分解能配列データ」又は「スパース配列データ」という語句は、低カバレッジ及び低深度配列決定法によって得られるゲノム核酸のヌクレオチド塩基配列情報を指す。
【0039】
(核酸配列データの生成)
ゲノム核酸の分析及びゲノム特徴の分類のために本明細書で提供される方法及びシステムの一部の実施形態は、細胞及び/又は生物のゲノムのヌクレオチド配列の分析を含む。一部の実施形態では、本明細書で提供される方法及びシステムは、細胞及び/又は生物の全ゲノム配列決定から得られた配列の分析を含む。一部の実施形態では、本明細書で提供される方法及びシステムは、細胞及び/又は生物の全ゲノムの配列の分析を含む。核酸の配列データは、本明細書に記載される及び/又は当技術分野で知られている様々な方法を使用して得ることができる。一例では、細胞、例えば細胞のゲノム核酸の配列は、細胞から抽出されたDNAサンプルの次世代シーケンシング(NGS)から得ることができる。第2世代シーケンシングとしても知られるNGSは、高スループットの大規模並列配列決定技術に基づいており、(例えば、胚から抽出された)DNAサンプルの核酸増幅によって生成された数百万のヌクレオチドを並列に配列決定することを含む(例えば、Kulski(2016)“Next-Generation Sequencing-An Overview of the History,Tools and‘Omic’Applications”in Next Generation Sequencing-Advances,Applications and Challenges,J.Kulski ed.,London:Intech Open,pages 3-60を参照)。
【0040】
NGSによって配列決定される核酸サンプルは、サンプルのソースに応じて、様々な方法で得られる。例えば、ヒトの核酸は、綿棒で頬の細胞を収集し、そこから核酸を抽出することで容易に得ることができる。配列決定のために胚から最適な量のDNAを得るために(例えば、着床前の遺伝子スクリーニングのために)、細胞(例えば、5~7個の細胞)が、通常、胚盤胞の段階の間に栄養外胚葉生検によって収集される。胎児の核酸は、例えば、受胎産物、絨毛膜絨毛サンプル及び/又は羊水穿刺から得ることができる。DNAサンプルは、NGSによる配列決定の前に、例えば、フラグメント化、増幅及びアダプターライゲーションを含む処理を必要とする。このような処理で核酸を操作すると、増幅された配列にアーチファクト(例えば、ポリメラーゼ連鎖反応(PCR)増幅に関連付けられたGCバイアス)が導入され、配列リードのサイズが制限されることがある。したがって、NGSの方法及びシステムは、システム間で異なることがあるエラー率と関連付けられる。さらに、配列リード中の塩基を同定すること(例えば、塩基コーリング)と併せて使用されるソフトウェアは、NGS配列決定からの配列データの精度に影響を与える可能性がある。このようなアーチファクト及び制限により、ゲノムの長い繰り返し領域を配列及びマッピングし、ゲノム中の多型対立遺伝子及び異数性を同定することが困難になる可能性がある。例えば、ヒトゲノムの約40%は繰り返しDNA要素で構成されているため、参照ゲノム中の繰り返し要素にアライメントしている同一配列の短い単一リードは、しばしば、ゲノムの特定の領域に正確にマッピングすることができない。配列の決定におけるエラー及び/又は不完全性の影響のいくつかに対処し、場合によっては低減する1つの方法は、配列決定のカバレッジ及び/又は深度を増加させることによるものである。しかしながら、配列決定カバレッジの増加は、配列決定時間及びコストの増加に関連付けられる。ペアエンド(Paired-end)配列決定も利用することができ、これは、配列をゲノム又は参照にマッピングする場合、例えば、長い繰り返し領域の配列リードの配置の精度を高め、遺伝子の欠失、挿入及び逆位などの構造的な再配置の分解能を高める。例えば、本明細書で提供される方法の一部の実施形態では、胚からの核酸のペアエンドNGSから得られたデータを使用することで、リードマッピングが平均15%増加した。ペアエンド配列決定法は、当技術分野で知られており、及び/又は本明細書に記載されており、両方向(すなわち、フラグメントの一方の端部からの第1のリード及びフラグメントの反対側の端部からの第2のリード)で核酸フラグメントの配列を決定することを含む。ペアエンド配列決定はまた、リード数を二倍にすることによって配列決定カバレッジ冗長度を効果的に増加させ、特に難しいゲノム領域のカバレッジを増加させる。
【0041】
3つの主なタイプの核酸NGS配列決定が一般に行われており、すなわち、全ゲノム配列決定(WGS)、全エクソーム配列決定(WES)及び標的化配列決定(TS)である。全ゲノム配列決定は、その一部とは対照的に全ゲノムが配列決定される包括的な方法である。WESは、ゲノムの約2%未満しか占めないゲノムのタンパク質コード領域(エクソン)の配列決定である。標的化配列決定は、ゲノムの限定された数の特定の領域が配列決定される、高深度カバレッジ型の配列決定である。標的化配列決定は、典型的には、配列決定のために核酸ライブラリーが調製される特定の関心領域のみを増幅するために特異的プライマーが使用されるアンプリコンベースの濃縮(標的化増幅)、又は配列決定のために関心領域を単離するために断片化核酸が捕捉オリゴヌクレオチドにハイブリダイズされる捕捉ベースの方法を使用して実施される。
【0042】
(核酸配列分析)
ゲノム核酸の分析及びゲノム特徴の分類のために本明細書で提供される方法及びシステムの一部の実施形態では、細胞、例えば、胚細胞、又は生物から得られた核酸の配列は、ゲノムマッピングの方法を用いて細胞/生物のゲノム(又はその一部)を再構築するために用いられる。典型的には、ゲノムマッピングは、アラインメントと呼ばれるプロセスにおいて、配列を参照ゲノム(例えば、ヒトゲノム)にマッチさせることを含む。マッピングプロセスに使用することができるヒト参照ゲノムの例としては、2009年にリリースされたGRCh37(hg19)及び2013年にリリースされたGRCh38(hg38)などのGenome Reference Consortiumからリリースされたものが挙げられる(例えば、https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39を参照)。アラインメントを通して、配列リードは、典型的にはコンピュータプログラムを使用してゲノム遺伝子座に割り当てられ、配列のマッチングを行う。多数のアラインメントプログラムが公的に利用可能であり、Bowtie(例えば、http://bowtie-bio.sourceforge.net/manual.shtmlを参照のこと)及びBWA(例えば、http://bio-bwa.sourceforge.net/を参照)が挙げられる。(例えば、PCRの重複及び低品質配列を除去するために)処理され、遺伝子座にマッチングさせた配列は、しばしば、アライメント及び/又はマッピングされた配列、或いはアライメント及び/又はマッピングされたリードと呼ばれる。
【0043】
ゲノム参照への配列リードのマッピングにおいて、単一ヌクレオチド変異(SNV)を検出及び/又は同定することが可能である。単一ヌクレオチド変異は、単一ヌクレオチド位置でのゲノムにおける変異の結果である。SNV検出のためのいくつかの異なるNGS分析プログラム(例えば、変異コーリングソフトウェア)は、公的に利用可能であり、当技術分野で知られており、及び/又は本明細書に記載されている(例えば、限定されないが、GATK(例えば、https://gatk.broadinstitute.org/)及びdeepvariant(例えば、Poplinら(2018年)Nature Biotech.36巻:983~987頁を参照)を含む)。簡単に言えば、アラインメント後、bcftoolsソフトウェア(オープンソース)を使用して、最小カバレッジ(例えば、1)及び最小深度(例えば、1)で同定されたすべての塩基のパイルアップを生成し、アラインメント中に生成されたbamファイルから遺伝子型コールを生成する。細胞又は生物のサンプル核酸からの配列のゲノムマッピングによる染色体異常、例えば異数性などのゲノム特徴の検出及び同定は、特に配列データが低カバレッジ及び/又は低分解能配列決定法から得られる場合に、特定の課題を提示する。このアプローチにおける主な課題は、NGS法がリード生成中に配列決定リードにエラーを導入する傾向があるという概念に由来する。1:100~1:10,000あたりのエラー率で、配列決定プラットフォーム方法論に依存して、低カバレッジ及び/又は低深度配列決定における変異と配列決定エラーとの間の差異を特定することは、固有の困難な情報科学的課題を提供する。特定のゲノム特徴を同定する際の配列データの解釈の容易さ及び/又は精度を向上させるためのコンピュータプログラム並びにシステムは、当技術分野で知られており、及び/又は本明細書に記載されている。例えば、分節重複/欠失、モザイク特徴、異数性、及び性不均衡型染色体を有する多倍数性を含む染色体異常の自動検出のためのシステム及び方法は、米国特許出願公開第2020/0111573号に記載されており、本公開は参照によりその全体が本明細書に組み込まれる。このような方法は、(生の配列リードをノイズ除去し、ゲノム配列情報を正規化して遺伝子座の影響を補正するための)ノイズ除去/正規化、並びに遺伝子座スコアをカリオグラムに解釈(又はデコード)するための機械学習及び人工知能を含む。例えば、配列決定が完了した後、生の配列データをデマルチプレクスし(所与のサンプルに帰属させ)、リードを、例えば、HG19などの参照ゲノムにアライメントし、100万塩基対の各ビン(bin)におけるリードの総数をカウントする。このデータは、GCの含有量及び深度に基づいて正規化され、既知の結果のサンプルから生成されたベースラインに対して試験される。次いで、コピー数2からの統計的偏差を異数性として報告する(存在する場合、存在しない場合=正倍数体)。本方法を使用して、減数分裂異数性と有糸分裂異数性を、CNVメトリックに基づいて互いに区別することができる。正常からの偏差に基づいて、存在する染色体の総数、存在する任意の異数性、及びこれらの異数性のモザイクレベル(該当する場合)を用いて核型が生成される。
【0044】
SNV及びSNP(単一ヌクレオチド多型)という用語の両方が、様々な実施形態に応じて使用されることにも留意されたい。両方の用語は、当業者に区別可能である可能性があるが(SNPは十分に特徴付けられたSNVである)、これらの用語は、本明細書中の様々な実施形態に応じて交換可能に使用することができる。したがって、受け取った配列決定データを分析するためのプロセスに適用される場合、どちらかの用語を使用することは、両方の用語を含むべきである。
【0045】
NGSにおいて発生し得るアーチファクト、カバレッジのばらつき及びエラーはまた、特定のゲノム特徴を正確に分類するための配列データの使用(例えば、ゲノム特徴の遺伝パターンの評価及びゲノム特徴の親由来の決定、予測/推定、又は受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係の決定)において課題を提示する。例えば、ゲノム特徴、例えば、異数性の遺伝パターンの分析において生じ得る、低カバレッジ及び/又は低深度(例えば、低解像度)配列データを使用する課題には、正確なコーリングのための米国遺伝学会の標準要件(例えば、Richardsら(2015)のGenetics in Medicine 17:405-423を参照)を満たす高品質の高深度SNPが極めてわずかしか得られず、子孫(例えば、胚)及び親(例えば、母親及び/又は父親)の配列における重複の欠如につながり、フェージング/ハプロタイプ決定の正確な評価を妨げることが含まれる。配列カバレッジを増加させることは、それに関連付けられる効率の低下及びコストの増加を伴うが、NGS配列データを改善することができ、そのため、ゲノム特徴の遺伝パターン又は受胎産物に対する遺伝的関係を決定する際に使用することができる。ゲノム特徴(例えば、異数性)の親由来を判断するために、例えば、遺伝パターンを評価することに関連付けられた課題を満たすための他の方法としては、マイクロアレイ及び蛍光インシトゥ・ハイブリダイゼーション(FISH)の使用が挙げられ、これらは、NGSのような高スループット技術ではなく、コストも高く、分析を実施するのにより長い時間を必要とする。
【0046】
本明細書では、細胞、例えば、胚又は生物の細胞の複数のゲノム特徴を検出及び/又は同定するため、並びに/或いは1つ以上又は複数のゲノム特徴の遺伝パターンを評価、分類又は決定して、ゲノム特徴の親由来又は系統を母方又は父方であると決定、予測及び/又は推定するため、或いは受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するための、改善された、効率的な、迅速な、費用対効果の高い方法及びシステムが提供される。本明細書において提供される方法の一部の実施形態では、比較的低いカバレッジ及び/又は低深度(例えば、低分解能)の配列データを使用して、細胞、例えば、胚又は生物の細胞のゲノム特徴、例えば、染色体異常を同定し、ゲノム特徴の遺伝パターンを評価して、ゲノム特徴の親由来を母方若しくは父方であると決定、予測及び/又は推定するか、或いは受胎産物と精子提供者若しくは卵母細胞提供者との遺伝的関係を決定する。様々な実施形態において、本方法、及び本方法を組み込むシステムは、ゲノムの一部又は所定の特定の標的領域のみの配列決定から得られるのとは対照的に、細胞の全ゲノム核酸又は全DNA(又は全核DNA)の核酸サンプルの低カバレッジ及び/又は低深度全ゲノム配列決定から得られる核酸配列データ(例えば、低分解能配列データ)を使用する。様々な実施形態おいて、例えば、本方法及びシステムを使用して、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定することができ、又は例えば、着床前にIVFによって生成された胚を含む、胚におけるゲノム特徴の遺伝パターンを分類することができる。一部の実施形態において、本明細書に提供される方法及びシステムを使用して、着床前の胚、例えば、IVF胚において、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定することができ、又は染色体異常、例えば、異数性、多倍数性及び/又は染色体分節の獲得及び/又は喪失(例えば、約20メガ塩基以上のサイズの分節の獲得及び/又は喪失)などの遺伝パターンを分類することができる。
【0047】
図1は、ゲノム特徴を検出及び/又は同定し、並びに/或いは、細胞、例えば胚又は生物のゲノム核酸の1つ若しくは複数の遺伝パターン並びに/又は親由来を評価、分類、決定、予測及び/若しくは推定し、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するための例示的な方法のワークフロー100の概略図である。一部の実施形態では、本方法を使用して、染色体異常(例えば、性均衡型染色体多倍数性などの多倍数性)を検出又は同定し、並びに/或いは、1つ若しくは複数の染色体異常の遺伝及び/又は親由来のパターンを評価、分類、決定、予測及び/若しくは推定する。一部の実施形態では、染色体異常は、異数性、例えば、減数分裂異数性、及び/又は多倍数性(例えば、性均衡型染色体多倍数性)である。
【0048】
図1のステップ101及び102に示されるように、子孫、例えば、胚、及び想定される母方及び父方の寄与者(母及び父、又は両親)の核酸配列の配列決定からの配列リード(データ)を受け取り、適切な設定を有する任意の適切なアラインメントソフトウェアプログラムを使用して、参照(例えば、ヒト)ゲノムにアラインメントしてマッピングする。方法100の一部の実施形態では、配列リードは、子孫及び親のゲノム核酸の低カバレッジ及び/又は低深度(例えば、低分解能)の配列決定、例えば、核酸の低カバレッジ及び/又は低深度(例えば、分解能)の全ゲノム配列決定から得られる。ステップ103では、配列データを分析して、子孫のSNV及び染色体異常、例えば、染色体コピー数変異(CNV)及び構造的コピー数変異(例えば、異数性、性不均衡型多倍数性及び分節染色体の獲得及び喪失)を検出及び/又は同定し、親のSNVを検出及び/又は同定する。染色体異常の検出/同定のためのステップ103における分析は、本明細書において「CNV」分析と呼ばれる。最終的なコピー数分析結果を含むカリオグラムが子孫及びそれについて生成され、子孫及び親についてのSNVデータファイルをステップ104A及び104Bで受け取る。一部の実施形態では、本方法は、ステップ104A及び104Bにおいて、子孫及び親のゲノム核酸の低カバレッジ及び/又は低深度(例えば、低分解能)の配列決定、例えば、核酸の低カバレッジ及び/又は低深度(例えば、分解能)の全ゲノム配列決定によって得られた核酸配列情報に基づくことができる、子孫についてのカリオグラム及びSNVデータと親についてのSNVデータとを受け取ることから開始する。一部の事例において、カリオグラム及びSNVデータを生成する際に使用される配列リードは、低カバレッジ及び/又は低深度(例えば、低分解能)のペアエンド配列決定法を介して得られ、これは、データの桁数を大幅に増加させることができる。マッピングされたリードの分析及び解釈のための方法は、当技術分野において知られており、及び/又は本明細書に記載されている。例えば、一部の実施形態において、カリオグラム及びSNVデータは、米国特許出願公開第2020/011573号に記載されるように行われるマッピングされたリードの分析を含むプロセスにおいて生成される。例えば、人工知能(AI)/機械学習(ML)を使用して、染色体位置にアライメントされたゲノム配列リードの頻度が頻度閾値から逸脱した場合、ノイズ除去されたサンプルゲノム配列データセットにおけるコピー数変異を同定することができる。次いで、この分析から胚の核型を決定する。
【0049】
本例示的な方法において子孫及び両方の配偶子寄与者(遺伝的両親)からの核酸において同定された単一ヌクレオチド変異(SNV)は、胚及び両親における対立遺伝子及び/又はハプロタイプを予測又は推定する際に使用される。集団の1%超がゲノム中の特定の位置に同じヌクレオチドを持っていない場合、SNVはしばしば、単一ヌクレオチド多型(SNP)と呼ばれる。SNVは、典型的には、あまり十分に特徴付けられていない遺伝子座についてのより一般的な用語である。ヒトゲノム全体にわたって平均200bpごとに約1000万個以上のSNPが存在する。いくつかのSNPは、形質又は疾患と関連している可能性があるが、ほとんどは、機能がわかっていない。一卵性双生児を除いて、2つの個体は、所与の集団内でメジャーアイソフォーム及びマイナーアイソフォームとして存在するSNPのパターンが同じではない。ゲノム特徴(例えば、性均衡型染色体多倍数性などの多倍数性)を検出及び/又は同定し、並びに/或いは、1つ若しくは複数のゲノム特徴(例えば、異数性及び/又は多倍数性)の遺伝及び/又は親由来のパターンを評価、分類、決定、予測及び/若しくは推定するための本明細書において提供される方法及びシステムの一実施形態では、子孫(例えば、胚)及びそのそれぞれの配偶子寄与者又は遺伝的親のゲノムのすべての染色体について、ゲノムの配列において同定されたSNVの分析に基づいて予測される対立遺伝子及び/又はハプロタイプを構築及び推定するために、遺伝子型インピュテーション(
図1のステップ105)が使用される。
【0050】
低カバレッジ及び/又は低深度(例えば、低分解能)の配列決定は、データ点が欠落した疎なデータとなるため、遺伝子型の確率的表現(遺伝子型の尤度)を提供する。遺伝子型インピュテーション法は、胚と親との間の配列情報の重複の量が制限されていることがある場合に、子孫及び親ゲノム核酸の低カバレッジ及び/又は低深度(例えば、低分解能)配列決定から生じる疎にマッピングされた配列リードに起因する遺伝子型の尤度を洗練し、ギャップを埋めるために使用される。インピュテーションは、欠落した遺伝子型及びハプロタイプフェーズを統計的に推定することによって、子孫(例えば、胚)及び片親又は両親のゲノムの全染色体について、対立遺伝子又はハプロタイプを推定することができる。遺伝子型インピュテーションは、配列データ及び完全に決定された対立遺伝子でフェーズされた個体のハプロタイプの参照パネルから、遺伝子型決定されたSNV位置において遺伝子型をフェージングし、続いて遺伝子型決定された位置においてマッチするハプロタイプをマッチングするステップを含む。既知のハプロタイプ(例えば、ヒトハプロタイプ)の公的に利用可能な参照パネルとしては、ヒトゲノムアセンブリGRCh37にてコードされたフェーズ済みSNV遺伝子型を含むHaplotype Reference Consortiumデータセット(例えば、https://www.ebi.ac.uk/ega/studies/EGAS00001001710を参照)、及び1000 Genomes Project(例えば、https://www.internationalgenome.org/)を参照)が挙げられる。遺伝子型インピュテーションのための方法は、当技術分野で知られており、例えば、Beagle(例えば、Browningら(2018)Am J Hum Genet 103(3):338-348、Browning及びBrowning(2007)Am J Hum Genet 81:1084-1097及びhttp://faculty.washington.edu/browning/beagle/beagle.html#download),MACH(例えば、Liら(2009)Ann Rev Genom Hum Genet 10:387-406、Liら(2010)Genet Epidemiol 34:816-834及びhttp://csg.sph.umich.edu/abecasis/MACH/tour/imputation.html)を参照)が挙げられる。
【0051】
図1の方法の様々な実施形態において、欠落変異データのインピュート及び染色体ハプロタイプのフェージングは、Beagleバージョン5.0を使用して実施される。Beagleプログラムは、ゲノムサンプル間の関連性についていかなる仮定も行わない。これは、他の方法と比較して、関係がわかっているゲノムサンプルに対する変異体の回収及び適切なフェージングの精度が相対的に低下する可能性があるが、1つの利点は、関連性のないサンプル(例えば、誤ってラベル付けされた親/子孫サンプル)の場合に、Beagleは、その分析に関係性を強制しようとしないことである。さらに、Beagleバージョン5は、一部の他のプログラムと比較して比較的高速である。インピュテーション及びインピュテーションのフェージング性能は、データベース中の関連するプリフェーズされたハプロタイプデータの利用可能性によって制限されることがある。
図1の方法の一部の実施形態において、インピュテーションプロセスは、2504人の被験者からのハプロタイプを含むPhase 3 1000 Genomesゲノムハプロタイプ参照データベースを使用して実施される。参照データベースを追加の配列変異データで増強することにより、特定の標的集団についてのハプロタイプの推定を改善することができる。本明細書で提供される方法及びシステムの一部の実施形態におけるインピュテーションの組み込みは、片親又は両親及び子孫(例えば、胚)について予測される対立遺伝子及び/又はハプロタイプの完全にフェーズされた完全なセットをもたらす。次いで、この情報は、ゲノム特徴を検出及び/又は同定すること、並びに/或いは、ゲノム特徴の遺伝パターン(POI)(例えば、異数性及び多倍数性)を評価、推定若しくは決定する際に使用される、胚に対する対立遺伝子の母方寄与及び/又は父方寄与の比率を決定する際に使用される。
【0052】
図1の方法のステップ105で決定された、推定された対立遺伝子及び/又は変異のハプロタイプ(SNVを含む配列)の完全にフェーズされた完全なセットを使用して、子孫の遺伝子異常(すなわち、ステップ104Aで以前に同定された異常)を、
図1に示される方法のステップ106A又はステップ107において由来が母方又は父方のいずれかであるとして分類する。
図1に示されるように、子孫(例えば、胚)についてのカリオグラムが、胚に異数性が存在することを示している場合、本方法は、遺伝パターンの分析及び決定のためのステップ106Aに進む。子孫のカリオグラムが、子孫に異数性及び/又は性不均衡型多倍数性が存在しないことを示す場合、本方法は、ステップ106Bに進み、まず、子孫がゲノム全体の用量不均衡を示しているか、そして多倍数体であるかどうかを判定し、次いで、多倍数性の遺伝パターンの判定のためのステップ107に進む。Beagleバージョン5.0インピュテーションプログラムの限界は、分析したすべての染色体が二倍体であると仮定し、それに応じてインピュテーションされたデータを返すことである。そのため、一倍体データは一般に、ホモ接合二倍体としてコードされる。三倍体(及びより複雑な)ハプロタイプは、二倍体として同様にインピュートされる。このような場合、本明細書に記載される遺伝分析のパターンは、推定された正確なハプロタイプのセットに基づくのではなく、本明細書に記載されるように、低カバレッジ及び/又は低深度(例えば、低分解能)の配列決定データで同定されたSNVを含む変異の頻度、並びに両親に対するそれらの用量関係に基づく。具体的には、フェーズされ、インピュートされたデータは、擬似染色体として扱われ、真に異数体である場合は、同一であり、少なくとも情報量の多い変異体については、両親ではなく母方又は父方の遺伝子型のいずれかと一致すると予想される。
図2では、遺伝パターン(POI)決定ステップ106A又はステップ107の一実施形態で使用される例示的な方法200のワークフローを示す。
【0053】
図1の方法の実施形態のステップ106A又はステップ107において、胚異常(例えば、異数性及び/又は多倍数性)を母方由来又は父方由来であるとして分類する際に、子孫、例えば、胚のゲノムDNAの母親及び父親の両方に対する関連性の尺度が計算される。一実施形態では、計算は、子孫、例えば胚において、定義されたゲノムビン(ゲノムの定義された領域、例えば100万塩基)それぞれにおいて同定された、母親又は父親と共有される全変異をカウントし、そのカウントをユーザ定義サイズのゲノム領域ごとに単一の関連性値に変換するステップを含む。カウントする前に、入力された対立遺伝子/ハプロタイプの変異配列データをフィルタリングする(
図2のステップ201を参照)。入力データは、特に特定のシーケンサからのローパス配列データが一般に多数の配列決定アーチファクトを含むことを考えると、不完全であると予想される。したがって、カウントプロセスにおける第1のステップは、検出された変異をフィルタリングすることである。具体的には、一部の実施形態において、以下の配列が同定され、カウントから除外される。(1)子孫と、母親と、父親(トリオ)との間で対立遺伝子が欠落している部位の配列(このような場合、関連性を推定することができない)、(2)トリオ間で対立遺伝子が一定である部位の配列(情報提供なし)、(3)トリオのうちのいずれかの個体内の新規の対立遺伝子を有する部位の配列(情報提供なし及び配列決定アーチファクトの可能性)、及び(4)正倍数体遺伝のみと一致する部位の配列(異数体の関係推定について情報提供なし)。
【0054】
フィルタリングは、メンデルの法則と矛盾するSNPを除外することも含むことができる。
図2の方法の本実施形態では、入力された変異は間接的に(すなわち、子孫と親との間の関係を比較することによって)フィルタリングされる。この方法は、正しいトリオを仮定しており、親の指定が間違っている場合、正しい部位が必ずしもフィルタリングされるわけではない。
【0055】
変異をフィルタリングした後(一般に、入力された観察されたフェーズ/インピュートされたSNVを含む変異の約10%まで)、残りの変異が、個々の染色体内のゲノム領域によってユーザ定義されたサイズのビンに分配される(例えば、100万塩基)(
図2のステップ202)。
【0056】
図2のステップ203において、定義された各ビン内の変異がカウントされ、各ビンについて2つの値が生成される。第1の値は、子孫と母方の成分との間で互いにフェーズされた変異の数であり、第2の値は、子孫と父方の成分との間で互いにフェーズされた変異の数である。個々の染色体異数性についての遺伝を判定するために、(異数性CNVコールに関連するビンに基づいて)異数体であることがわかっているビンのみが、その特定の異数性について評価される。これらは、結果ファイルに報告されていないカウントのセット、例えば、(a)胚と母親との間で共有される代替(すなわち、非参照)の対立遺伝子のカウントであるOvM(すなわち、「母方起源と共有される子孫変異体(offspring variants shared with maternal source)」)、及び(b)胚と父方サンプルとの間で共有される代替の対立遺伝子のカウントであるOvP(すなわち、「父方起源と共有される子孫変異体(offspring variants shared with paternal source)」)を含む。参照対立遺伝子は、参照ゲノムとマッチしており、一般に、対立遺伝子の大部分が参照ゲノムとマッチしていることが予想される。代替対立遺伝子は、任意の所与の遺伝子座について、参照ゲノムと一致しない変異体が存在する対立遺伝子である。塩基/対立遺伝子の大部分は、母親、父親及び子孫についての参照ゲノムとマッチしているため、参照対立遺伝子は、情報量が少ない。参照対立遺伝子は、一般に情報量がないため、代替対立遺伝子のみが使用される。
【0057】
ステップ203のカウント関数の出力は、指定された分析におけるすべての染色体(異数体の核型を有する胚の場合は異数性の特定の染色体のみ、又は異数性を示さないが多倍数性と相関する核型を有する胚の場合はすべての染色体)にわたる、ビンごとのOvM及びOvPカウントのセットである。
図2のステップ204において、これらのカウントは、ビンごとに、用量尺度と呼ばれる単一の関連性値に変換される。各ビン内で2つの統計値が計算される。(1)L2RATは、
【数1】
平滑化パラメータsは、カウントが0のビンの場合に無限の値を防止するために使用される。1~30の値が妥当であり(値が大きいと推定値が縮小する)、(2)DIFFはOvM-OvPとして定義される。一部の実施形態では、L2RATは、デフォルトの用量尺度であり、外れ値に対してよりロバストであり、所望に応じて縮小することができる。どちらの推定値も、0を中心としており(子孫が母親又は父親に対してより強い関係性を示さない場合)、子孫との関係性が父親よりも母親に対してより強い場合は両方とも正の値をとり、そうでない場合は負の値をとる。本実施形態では、正倍数体遺伝については、用量統計は、0を中心とすべきであり、偶然に予想される以上の0からの逸脱は、母親又は父親のいずれかからのより強い関係性(すなわち、遺伝した変異が多いこと)を示すという仮定がある。この仮定は、胚のサンプルが母方材料で汚染されている場合には誤りである。このような場合、用量統計は、すべての染色体について正の方向にシフトするため、誤って多倍数体に見える可能性がある。
【0058】
図2のステップ205において、1つのサンプルのt統計量が、指定された用量尺度、例えばL2RATに対して計算される。計算された検定統計量のデータセットは、関心領域内のすべてのビンに対する推定用量値のセットである。例えば、10メガベース領域が指定され、ビンサイズが1メガベースであった場合、t検定は、各ビンから1つずつ、10個のL2RAT推定値に基づく。ステップ205において、提供されたすべての関心領域(例えば、ゲノム全体、指定されたすべての染色体、及び指定された任意の分節領域)について検定統計量が生成される。このステップでは、ビンの数、用量統計の平均及び標準偏差、並びにp値及びカスタム信頼度メトリックも提供される。ビンのサイズ及び最小分析領域のサイズの両方の選択は、ユーザ制御可能である。推定されるハプロタイプは大きいため、隣接する領域が相関しており、その結果、小さい隣接するビンにおけるカウントも同様に相関している可能性があるため、小さいビンサイズは最適ではない。これは、所望するよりも大きな分散を有するt統計をもたらす可能性がある(すなわち、正及び負の両方のt検定値が保証されているよりも大きくなる可能性がある)。
【0059】
図2のステップ206において、各遺伝子異常、例えば、異数性は、t統計量及びユーザ制御可能な分類/検出閾値を使用して、親由来が割り当てられる。親由来の判定は、すべての染色体についての親と子孫の対立遺伝子がマッチした数(ゲノムレベルの関連性、例えば、多倍数体の子孫の場合)、及び個々の染色体レベル(異数体の子孫の場合)に基づく。サンプルが多倍数体でない場合、既知の染色体異数体は、完全な染色体検査統計に基づいて親由来について分類される。したがって、減数分裂異数性レベル(全染色体及び部分染色体の両方)では、類似性の比較を行う場合、異数性と相関のあるその染色体中に存在する対立遺伝子のみが考慮される。試験のビンの数は、ビンのサイズ及び染色体の長さの両方に依存する(分析は、より長い染色体については異数性を分類するのにより大きな統計的能力を有する)。このような試験の出力は、「母方」、「父方」又は「分類されず」のいずれかである。検定統計量がユーザ制御可能な閾値(CLASS_THRESHOLD_ANEUPLOID)を超えない場合、「分類されず」という出力が返される。これらのカテゴリは固定されているが、返される特定のメッセージはユーザ制御可能である。胚サンプルが多倍数体ではない場合、既知の分節異数性(ユーザ制御可能なサイズ要件を満たす)は、領域検定統計量に基づいて分類される。試験のビンの数は、ビンのサイズ及び領域のサイズの両方に依存する(より長い領域については異数性を分類するのに統計的能力がより大きくなる)。このような試験の出力は、「母方」、「父方」又は「分類されず」のいずれかである。検定統計量がユーザ制御可能な閾値(CLASS_THRESHOLD_ANEUPLOID)を超えない場合、「分類されず」という出力が返される。これらのカテゴリは固定されているが、返される特定のメッセージはユーザ制御可能である。
【0060】
図1に戻ると、ステップ106Bにおいて、子孫、例えば、胚の全ゲノム(すなわち、全染色体)に対する母方及び父方の寄与が、共有される変異対立遺伝子の数に基づいて推定され、以前に検出されなかった多倍数性を検出する際に、又は子孫についてのカリオグラムにおいて検出及び同定された多倍数性を確認するために使用される。ステップ106Bは、以前の核型分析プロセスによって異数体として同定されず、そして二倍体男性胚を除いて、CNVデータにおいて多倍数性の証拠を示すか又は示さないかのいずれかである任意の子孫について、ステップ105の後に直ぐ行われる。子孫が二倍体男性(46,XY)として同定された場合、多倍数性又は遺伝パターンについては評価されない。さらに、
図1のステップ106Aにおいて遺伝パターンについて評価された非男性異数体の子孫はすべて、ステップ106Bにおいて、子孫の全ゲノム(すなわち、全染色体)に対する母方及び父方の寄与の分析を受け、未検出の多倍数性が存在するかどうかを判定する。このステップは、子孫のサンプルが「多倍数体」として以前に報告されていない場合、及びサンプルが男性でもない場合にのみ行われる。このような試験の出力は、「母方」、「父方」又は「検出されず」のいずれかである。検定統計量がユーザ制御可能な閾値(DETECT_THRESHOLD_POLYPLOIDY)を超えない場合、「検出されず」の出力が返される。これらのカテゴリは固定されているが、返される特定のメッセージはユーザ制御可能である。全ゲノム解析の場合でも、多倍数性検出のための閾値は、多倍数性の親由来の分類よりも高く設定される。既知の(最初のカリオグラムにおいて同定されるような)非正倍数体の子孫サンプルの場合、多倍数性の親由来は、
図1のステップ107における全ゲノム検定統計量に基づいて分類される。試験のビンの数は、ビンのサイズに依存する。このような試験の出力は、「母方」、「父方」又は「分類されず」のいずれかである。検定統計量がユーザ制御可能な閾値(CLASS_THRESHOLD_POLYPLOID)を超えない場合、「分類されず」という出力が返される。これらのカテゴリは固定されているが、返される特定のメッセージはユーザ制御可能である。
【0061】
図3は、本明細書で提供される遺伝子異常の親由来を検出及び/又は分類するための方法の一部の実施形態を行うための論理フローを示す決定木図である。この図は、本方法の一部の実施形態について、その実施形態によって試験されている任意の検体についての最終結果を決定するプロセスを描写しており、Parent of Origin(POO)パイプラインと呼ばれる。子孫、例えば、胚の核酸サンプルについての試験は、以下のように決定経路を進む。サンプルが非多倍数体の女性(XX)である場合、本方法によって、ゲノム用量が予想から著しく逸脱しているかどうかを決定するために評価され、逸脱している場合、多倍数体(母方又は父方)として特徴付けられ、報告される。サンプルが非多倍数体のXXではなく、多倍数体(XXY又はXYY)とコールされる場合は、多倍数性の遺伝パターン(POI)の特徴付けのためのパイプラインに入り、次いで報告される。サンプルが非多倍数体のXXでも多倍数体のXXY又はXYYでもなく、CNV分析によって一倍体とコールされる場合、ゲノム全体の用量不均衡を評価するためのパイプラインに入り、報告される。以前に列挙された基準を満たさないすべての他のサンプルは、完全な染色体異数性及び分節染色体異数性について評価される。これらが、CNV分析によって判定されるようなモザイク異数性である場合、この方法では調べられない。この異数性がコピー全体の変化(減数分裂異数性)である場合、本方法は、関心領域を母方、父方又は非分類として分類することを試み、結果はそのように報告される。
【0062】
図1のステップ108を参照すると、様々な実施形態によると、血縁関係及びサンプルの誤同定の問題に対処及び克服するために、上記で議論された方法を拡張して、関連性分析を行うことによって、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定することができる。一般に、サンプルの誤同定の問題は、いくつかの一般的なステップによって対処することができる。これらのステップは、例えば、1)予備配列決定データを使用して完全なサンプルゲノムをインピュートするステップ(上記で一部詳細に説明)、2)サンプルと推定親との間の関連性指標を計算するステップ(上記で一部詳細に説明)、及び3)母方関係スコア及び父方関係スコアを生成するステップ(上記で一部詳細に説明、以下でより詳細に説明)、並びに4)スコアを閾値と比較して、結果を、指定された親子関係と一致するか又は潜在的に一致しないかのいずれかとして分類するステップを含む。
【0063】
(1)に関して、疎な配列データファイルのセットが与えられると(特に、低カバレッジ/深度で配列決定された場合)、取得された配列決定データをヒトゲノムの既知の変異の参照セット(例えば、1000ゲノムプロジェクトからの)と比較することによって、事前フィルタリングのステップが行われる。このフィルタは、配列決定アーチファクトに起因する可能性のある変異を除去することができる。フィルタリングされたデータファイルは、インピュテーションを受けることができる。繰り返しになるが、ローパス配列データが多数の配列決定アーチファクト及び不完全性を生成することを考えると、これらは元々インピュートされたデータに含まれている。したがって、検出された変異をカウントする前にさらなるフィルタリングを行うことができる。この第2のフィルタは、例えば、トリオ間でなんらかの対立遺伝子が欠落している部位(このような場合、関連性を推定することができない)及びトリオ間で対立遺伝子が一定の部位(非情報提供性)をフィルタリングすることができ、一方で、胚における対立遺伝子が新規の部位を保持して、親一致性を測定する(すなわち、サンプルの関連性を確認する)。
【0064】
インピュテーション及び事前カウントフィルタリングの後、変異をカウントして、遺伝的性質の一致性及び新規性を測定する。具体的には、例えば、すべてのフィルタリングされた変異をカウントすることができ、胚(又は受胎産物)遺伝子型のいずれかの対立遺伝子が、正倍数体又は異数体伝達を介して、いずれの親(例えば、推定親)からも遺伝可能でない場合に、新規の変異をカウントすることができ、母親と共有されていない少なくとも1つの対立遺伝子が父親と共有されているか、又は父親と共有されていない少なくとも1つの対立遺伝子が母親と共有されている場合、一致する変異(指定された遺伝と一致する)をカウントすることができる。子孫の少なくとも1つの対立遺伝子が母親と共有されている場合、母方一致の変異をカウントすることができる。子孫の少なくとも1つの対立遺伝子が父親と共有されている場合、父方一致の変異をカウントすることができる。次いで、新規性を、全(フィルタリングされた)変異に対する新規変異の比として計算することができる。
【0065】
様々な実施形態によると、及びステップ108によると、親の一致性スコアは、母方及び父方の一致性について上述した計数結果を使用して全体的な(親)スコアを計算することによって決定することができる。母方及び父方の一致性の比較は、個々の親スコアの比の対数(底2)をとることによって得ることができる。
【0066】
親の一致性についての指標は、以下の式を使用して新規性のある母方及び父方のスコアも取り入れながら計算することができ、
【数2】
以下の実施例において議論及び例示されるように、これらの計算は、定義された閾値を使用して、スコアを比較し、推定親と考慮中の受胎産物との間の一般的な関係を決定することができる。
【0067】
様々な実施形態において、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を評価、分類、決定、予測及び/又は推定するための方法が提供される。本方法は、コンピュータソフトウェア又はハードウェアを介して実装することができる。本方法はまた、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を評価、分類、決定、予測及び/又は推定するためのエンジンの組合せを含むことができるコンピューティングデバイス/システム上で実施することができる。様々な実施形態において、コンピューティングデバイス/システムは、直接接続を介して、又はインターネット接続を通して、データソース、サンプル分析器、及びディスプレイデバイスのうちの1つ又は複数に通信可能に接続することができる。
【0068】
図8は、様々な実施形態による、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係のためのシステム800の概略図である。システム800は、データストア810、コンピューティングデバイス830、及びディスプレイ880を含むことができる。システム800はまた、サンプル分析器890を含むことができる。
【0069】
サンプル分析器890は、シリアルバスを介して(両方が統合された機器プラットフォーム812を形成する場合)、又はネットワーク接続を介して(両方が分散した/別個のデバイスである場合)、データストア810に通信可能に接続することができる。サンプル分析器890は、受胎産物820、卵母細胞822及び精子824からのサンプルを分析するように構成することができる。サンプル分析器は、さらなる分析のために配列決定データを収集するためにサンプルの配列決定をするように構成された、次世代シーケンシング機器などの配列決定機器とすることができる。様々な実施形態において、配列決定データは、次いで、その後の処理のためにデータストア810に記憶することができる。様々な実施形態において、配列決定データセットは、リアルタイムでコンピューティングデバイス830に供給することができる。様々な実施形態において、配列決定データセットは、処理の前にデータストア810に記憶することもできる。様々な実施形態において、配列決定データセットは、リアルタイムでコンピューティングデバイス830に供給することもできる。
【0070】
データストア810は、コンピューティングデバイス830に通信可能に接続することができる。様々な実施形態において、コンピューティングデバイス830は、「ハードワイヤード」物理ネットワーク接続(例えば、インターネット、LAN、WAN、VPNなど)又はワイヤレスネットワーク接続(例えば、Wi-Fi、WLANなど)のいずれかとすることができるネットワーク接続を介してデータストア810に通信可能に接続することができる。様々な実施形態において、コンピューティングデバイス830は、ワークステーション、メインフレームコンピュータ、分散型コンピューティングノード(「クラウドコンピューティング」又は分散型ネットワーキングシステムの一部)、パーソナルコンピュータ、モバイルデバイスなどとすることができる。
【0071】
データストア810は、受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るように構成することができる。様々な実施形態において、受胎産物は、着床前受胎産物である。様々な実施形態において、受胎産物、精子提供者、及び卵母細胞提供者の配列データのうちの少なくとも1つは、低カバレッジ配列決定によって取得される。低カバレッジ配列決定は、約0.001~10×とすることができる。低カバレッジ配列決定は、約0.01~0.5×とすることができる。低カバレッジ配列決定は、約0.25~0.2×とすることができる。
【0072】
コンピューティングデバイス830は、アライメントエンジン840、単一ヌクレオチド多型同定エンジン(SNP同定エンジン)850、インピュテーションエンジン860、及び関連性エンジン870をさらに含むことができる。上述したように、コンピューティングデバイス830は、データストア810に通信可能に接続することができる。
【0073】
アライメントエンジン840は、受け取った配列データを参照ゲノムにアラインメントするように構成することができる。エンジン840はまた、アライメントされた受胎産物の配列データにおいて関心領域を同定し、精子提供者、卵母細胞提供者、及び受胎産物の配列データの同定された関心領域においてSNPを同定するようにも構成することができる。関心領域は、ゲノム全体(genome wide)とすることができる。関心領域は、観察されたコピー数変異とすることができる。
【0074】
SNP同定エンジン850は、精子提供者の配列データ、卵母細胞提供者の配列データ及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するように構成することができる。
【0075】
インピュテーションエンジン860は、インピュテーション参照を使用して、精子提供者の配列データ及び卵母細胞提供者の配列データにおける欠落したギャップをインピュートするように構成することができる。インピュテーション参照は、少なくとも1000個のゲノムを含むことができる。
【0076】
インピュテーションエンジン860は、受胎産物、精子提供者、及び卵母細胞提供者の配列決定データのうちの少なくとも1つをフィルタリングして、配列決定アーチファクトを除去するようにさらに構成することができる。フィルタリングは、既知のSNPの参照リストに含まれていないSNPを除外するステップを含むことができる。参照リストは、少なくとも1000個のゲノムを含むことができる。フィルタリングは、受胎産物、精子、及び卵母細胞の間でなんらかの対立遺伝子が欠落した部位の配列を除外するステップを含むことができる。フィルタリングは、受胎産物、精子、及び卵母細胞の間にわたって対立遺伝子が一定の部位の配列を除外するステップを含むことができる。フィルタリングは、受胎産物、精子、及び卵母細胞のうちの1つ内で対立遺伝子が新規の部位の配列を除外するステップを含むことができる。フィルタリングは、メンデルの法則と矛盾するSNPを除外することも含むことができる。
【0077】
関連性エンジン870は、精子提供者と受胎産物との間の父方一致性スコアを計算するように構成することができ、本スコアは、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含む。関連性エンジン870は、卵母細胞提供者と受胎産物との間の母方一致性スコアを計算するように構成することができ、本スコアは、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含む。関連性エンジン870は、父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者を受胎産物に関連するものとして分類するように構成することができる。
【0078】
アライメントエンジンは、アラインメントされた受胎産物の配列データにおいて関心領域を同定するようにさらに構成することができ、関連性エンジン870は、受胎産物の配列データについての同定された関心領域及び卵母細胞提供者の配列データの対応する領域において、受胎産物と卵母細胞との間で共通するSNPの数をカウントして、母方寄与値を決定し、受胎産物の配列データについての同定された関心領域及び精子提供者の配列データの対応する領域において、受胎産物と精子との間で共通するSNPの数をカウントして、父方寄与値を決定し、卵母細胞と精子との間の相対的寄与値に基づいて、受胎産物についての遺伝パターンを母方又は父方として分類するように構成することができる。様々な実施形態において、関心領域はゲノム全体であり、関連性エンジン870は、ゲノム全体にわたってSNPをカウントして、母方及び父方寄与値を決定し、受胎産物が多倍数体であるかどうかを判定するように構成することができる。受胎産物が多倍数体である場合、関連性エンジン870は、卵母細胞と精子との間の相対的寄与値に基づいて、多倍数体についての遺伝パターンを母方又は父方として分類するように構成することができる。
【0079】
受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係が決定された後、遺伝的関係は、結果又は要約として、コンピューティングデバイス830に通信可能に接続されたディスプレイ又はクライアント端末880上に表示することができる。様々な実施形態において、ディスプレイ880は、シン・クライアント・コンピューティングデバイスとすることができる。様々な実施形態において、ディスプレイ880は、関心領域エンジン(ROIエンジン)840、単一ヌクレオチド多型識別エンジン(SNP識別エンジン)850、インピュテーションエンジン860、及び遺伝パターンエンジン(POIエンジン)870の動作を制御するために使用することができるウェブブラウザ(例えば、INTERNET EXPLORER(商標)、FIREFOX(商標)、SAFARI(商標)など)を有するパーソナル・コンピューティング・デバイスとすることができる。
【0080】
特定のアプリケーション又はシステムアーキテクチャの要件に応じて、様々なエンジンを単一のエンジン、コンポーネント、又はモジュールに組み合わせるか、或いはまとめることができることを理解されたい。様々な実施形態において、関心領域エンジン(ROIエンジン)840、単一ヌクレオチド多型識別エンジン(SNP識別エンジン)850、インピュテーションエンジン860、及び遺伝パターンエンジン(POIエンジン)870は、特定の用途又はシステムアーキテクチャによって必要とされる追加のエンジン又はコンポーネントを含むことができる。
【0081】
図9は、様々な実施形態による、受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するための方法900を示す例示的な流れ図である。
【0082】
ステップ910では、受胎産物、精子提供者、及び卵母細胞提供者の配列データが受け取られる。受胎産物は、着床前受胎産物とすることができる。様々な実施形態において、受胎産物、精子提供者、及び卵母細胞提供者の配列データのうちの少なくとも1つは、低カバレッジ配列決定によって取得される。低カバレッジ配列決定は、約0.001~10×とすることができる。低カバレッジ配列決定は、約0.01~0.5×とすることができる。低カバレッジ配列決定は、約0.25~0.2×とすることができる。
【0083】
ステップ920では、受け取った配列データを参照ゲノムにアライメントする。
【0084】
ステップ930において、精子提供者、卵母細胞提供者、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)が同定される。
【0085】
ステップ940において、精子提供者の配列データ及び卵母細胞提供者の配列データにおける欠落したギャップがインピュテーション参照を使用してインピュートされる。インピュテーション参照は、少なくとも1000個のゲノムを含むことができる。
【0086】
様々な実施形態において、本方法はまた、配列決定アーチファクトを除去するために、精子提供者、卵母細胞提供者、及び受胎産物の配列データのうちの少なくとも1つをフィルタリングするステップを含むことができる。フィルタリングは、既知のSNPの参照リストに含まれていないSNPを除外するステップを含むことができる。参照リストは、約1000個の既知のゲノムを含むことができる。フィルタリングは、受胎産物、精子、及び卵母細胞の間でなんらかの対立遺伝子が欠落した部位の配列を除外するステップを含むことができる。フィルタリングは、受胎産物、精子、及び卵母細胞の間にわたって対立遺伝子が一定の部位の配列を除外するステップを含むことができる。フィルタリングは、受胎産物、精子、及び卵母細胞のうちの1つ内で対立遺伝子が新規の部位の配列を除外するステップを含むことができる。フィルタリングは、メンデルの法則と矛盾するSNPを除外することも含むことができる。
【0087】
ステップ950において、精子提供者と受胎産物との間の父方一致性スコアが計算され、本スコアは、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含む。
【0088】
ステップ960において、卵母細胞提供者と受胎産物との間の母方一致性スコアが計算され、本スコアは、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含む。
【0089】
ステップ970において、父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者は、受胎産物に関連するものとして分類される。
【0090】
様々な実施形態において、本方法は、アライメントされた受胎産物の配列データにおいて関心領域を同定するステップ、並びに精子提供者、卵母細胞提供者、及び受胎産物の配列データの同定された関心領域においてSNPを同定するステップをさらに含むことができる。関心領域は、ゲノム全体(genome wide)とすることができる。関心領域は、コピー数変異とすることができる。
【0091】
様々な実施形態において、本方法は、アライメントされた受胎産物の配列データにおいて関心領域を同定するステップをさらに含むことができる。本方法は、受胎産物の配列データについての同定された関心領域及び卵母細胞提供者の配列データの対応する領域において、受胎産物と卵母細胞との間で共通するSNPの数をカウントして、母方寄与値を決定するステップを含むことができる。本方法は、受胎産物の配列データについての同定された関心領域及び精子提供者の配列データの対応する領域において、受胎産物と精子との間で共通するSNPの数をカウントして、父方寄与値を決定するステップを含むことができる。本方法は、卵母細胞と精子との間の相対的寄与値に基づいて、受胎産物についての遺伝パターンを母方又は父方として分類するステップを含むことができる。
【0092】
様々な実施形態において、関心領域が全ゲノムである場合、本方法は、全ゲノムにわたってSNPをカウントして、母方寄与値及び父方寄与値を決定し、受胎産物が多倍数体であるかどうかを判定するステップをさらに含むことができる。受胎産物が多倍数体である場合、その多倍数体についての遺伝パターンは、卵母細胞と精子との間の相対的寄与値に基づいて、母方又は父方として分類することができる。
【0093】
(実施例)
<実施例1-単一染色体性の親由来の分類>
既知の核型42;XY;-14;-15;-19;-21を有するヒト胚から抽出された核酸及び両親からの核酸サンプルを、NextSeq配列決定システム(Illumina)を用いて、0.1×カバレッジで配列決定した。配列リードを、Bowtie2アラインメントプログラムを用いてアラインメントし、ヒト参照ゲノム(HG19)にマッピングした。100万塩基対のビンごとに、リードの総数をカウントした。データをGCの含有量及び深度に基づいて正規化し、既知の結果のサンプルから生成されたベースラインに対して試験した。コピー数2からの統計的偏差を異数性として報告した(存在する場合、存在しない場合は=正倍数体)。42;XY;-14;-15;-19;-21の核型が決定された。配列決定データ中のSNVは、本明細書に記載の方法によって定義されるように同定された。欠落した変異体データのインピューティング及び染色体ハプロタイプのフェージングを、胚及び各親からのSNVデータと、Phase 3 1000 Genomesハプロタイプデータベースを参照パネルとして使用するBeagleバージョン5.0インピュテーションプログラムと、を使用して行った。胚ゲノムDNAの母親及び父親の両方に対する関連性の尺度は、本明細書に記載されているように、母親及び父親と共有する胚の変異をカウントし、このカウントをユーザ定義のサイズのゲノム領域ごとに単一の関連性値に変換することによって計算された。
【0094】
分析の結果を
図4に示す棒グラフに示す。
図4は、22個の常染色体及びX染色体のそれぞれについて(グラフのX軸は染色体番号である)、その染色体中の変異対立遺伝子のうち母親にマッチするものの比率(青色の棒)と、父親にマッチするものの比率(オレンジ色の棒)と、を示す(y軸は、いずれかの所与の親とマッチする胚の変異対立遺伝子の比率である)。マッチする変異体対立遺伝子の比率の比較は、(このXY男性胚のX染色体以外の)ほとんどの染色体について、平均して母親及び父親にマッチする対立遺伝子の比率がかなり類似していることを示す。しかしながら、染色体14、15、19及び21については、父親についてのマッチする対立遺伝子の比率が、母親についてのマッチする対立遺伝子の比率よりも高い。さらに、父親にマッチする情報量の多い対立遺伝子の数のカウントの全体的な割合(全変異対立遺伝子に対するマッチする対立遺伝子の比率)は、母親にマッチするものよりも高い。これらの結果は、4つの染色体欠失が母方由来であり、単一染色体性の母方の遺伝パターンを示していることを示す。
【0095】
<実施例2-三染色体性の親由来の分類>
既知の核型47;XX;+16を有するヒト胚から抽出された核酸及び両親からの核酸サンプルを、実施例1に記載されるように配列決定し、分析した。
図5Aは、23個の染色体(青色の点)のそれぞれについて、父方起源と共有された胚の変異対立遺伝子の数(OvP)対母方起源と共有された胚の変異対立遺伝子の数(OvM)のグラフを示す。点線の対角線は、各染色体について、母方起源と共有される胚変異対立遺伝子の数が、父方起源と共有される胚変異対立遺伝子の数と等しくなるグラフ上の点を表す。対角線上に位置する点は、胚と父親との間で共有される変異対立遺伝子が胚と母親との間で共有される変異対立遺伝子よりも多く存在する染色体を表す。対角線の下に位置する点は、胚と母親との間で共有される変異対立遺伝子が胚と父親との間で共有される変異対立遺伝子よりも多く存在する染色体を表す。
図5Aのグラフに示すように、対角線の下にはより多くの点がある。さらに、第16染色体についての共有対立遺伝子についてのカウントを表す対角線から最も遠い点は、母親と共有される対立遺伝子と父親と共有される対立遺伝子のカウントとの比率が最も大きい(ほぼ2:1)。これらの結果は、胚における追加の第16染色体が母方由来であり、三染色体性の母方の遺伝パターンを示していることを示す。
図5Bは、
図5Aに示される結果の別のグラフ表示であり、染色体ごとに、父親と共有される対立遺伝子のカウントに対する、母親と共有される対立遺伝子のカウントの比率を示す。
【0096】
<実施例3-染色体の分節欠失の親由来の分類>
既知の核型46;XY;del(6)(q25.1-qter);mos33.0%del(6)(pter-q25.1)を有するヒト胚から抽出された核酸及び両親からの核酸サンプルを、実施例1に記載されるように配列決定し、分析した。胚における第6染色体のpアームの欠失のサイズは、約2000万塩基である。本実施例では、母親及び父親の第6染色体変異対立遺伝子とマッチする胚の第6染色体について分析した変異対立遺伝子の数をカウントした。
図6は、第6染色体上の位置(x軸が塩基対)に関する、母方起源と共有された胚の変異体対立遺伝子の数(OvM)と父方起源と共有された胚の変異体対立遺伝子の数(OvP)との比率(y軸)を示す。染色体のqアームの位置は、約62000000bpで始まり、q25.1-terの位置は、約150000000bpに位置する。グラフに示されるように、150000000bp以上の位置からのOvM/OvPの比率は、ほぼ全体に1.0よりも大きい。これらの結果は、第6染色体の分節欠失が父方由来であることを示しており、欠失の遺伝パターンが父方であることを示す。
【0097】
<実施例4-多倍数性の親由来の分類>
既知の核型68;XXY;mos28.2%-19を有するヒト胚から抽出された核酸及び両親からの核酸サンプルを、実施例1に記載されるように配列決定し、分析した。
図7は、23個の染色体(青色の点)のそれぞれについて、父方起源と共有された胚の変異対立遺伝子の数(OvP)対母方起源と共有された胚の変異対立遺伝子の数(OvM)のグラフを示す。点線の対角線は、各染色体について、母方起源と共有される胚変異対立遺伝子の数が、父方起源と共有される胚変異対立遺伝子の数と等しくなるグラフ上の点を表す。対角線上に位置する点は、胚と父親との間で共有される変異対立遺伝子が胚と母親との間で共有される変異対立遺伝子よりも多く存在する染色体を表す。対角線の下に位置する点は、胚と母親との間で共有される変異対立遺伝子が胚と父親との間で共有される変異対立遺伝子よりも多く存在する染色体を表す。
図7のグラフに示されるように、すべての点は対角線より十分下にある。
図8に示される対立遺伝子の母方寄与がより高い方へ全体的にシフトしていることは、多倍数性が母方に由来する可能性が高いという結果を裏付けている。
【0098】
別の例において、0.1×のカバレッジで配列決定されたヒト胚の栄養外胚葉生検からの核酸のCNV分析(本明細書に記載された方法を使用して行われた)により、その胚が男性であり、第8染色体を喪失していることが判明した。
図10Aは、CNV分析の結果を、各染色体(x軸上に列挙される)について染色体コピー数(CN)をy軸上に示したグラフであり、染色体8のCNが2から逸脱していることを示している。胚及び両親の核酸(0.1×で配列決定)を、本質的に実施例1に記載されるように、本明細書に記載される方法を使用して分析して、倍数性及び遺伝パターンを評価した。分析の結果は、
図10Bにおいて染色体用量チャートの形態で示され、染色体番号が縦に列挙され、母方の用量尺度がx軸上にある。染色体用量は、母方対父方サンプルの胚に対する関連性の相対的尺度であり、log2スケールで表される。正の値は、胚と母親との間の関係が強いことを示し、負の値は胚と父親との間の関係が強いことを示す。
図10Bに示されるように、結果は、胚にはゲノム全体で母方の用量不均衡が確認され、胚には母親からの遺伝物質が追加されていることを示す。染色体8の喪失は、ゲノム全体の獲得に与えられた優先性のためにコールされないが、用量チャートが母親からの染色体8の1コピー及び父親からの染色体8の1コピーが存在することを示唆しているため、母方であるように思われる(
図10Bの青枠)。これらの結果に基づいて、胚は、三倍性の由来が母方である68,XXX;-8と報告される。
【0099】
<実施例5-多倍数性の親由来の分類>
非血縁家族データに対する指標の有用性及び性能に対処するために、初期N=14の家族データセットに対する親一致性及び新規スコアの結果が
図10に示され、この図は、様々な実施形態による、初期N=14の家族データセットに対する例示的な親一致性及び新規スコアのグラフを示す。
【0100】
結果は、家族構成によって分類され、「Ref」は元の並べ替えられていない家族を指し、「MM-母方」(すなわち、「ミスマッチ母方」)は母親が無関係な家族から母親であるように意図的に選択された家族を指し、「MM-父方」(すなわち、「ミスマッチ父方」)は父親が無関係な家族から父親であるように意図的に選択された家族を指し、「MM-両親」(すなわち、「ミスマッチ両親」)は胚が無関係な家族からの両親に割り当てられた家族を指す。
【0101】
図10に示されるように、親の一致性及び新規性スコアを利用するアプローチでは、各クラスが明確に別個のクラスタに分離されるため、結果がうまく識別される。クラスタは正規分布しておらず、有意な外れ値(例えば、縦軸に沿った参照サンプルにおける偏差)を示していることも観察可能である。これは、胚の染色体異常、集団レベルでより遺伝的に異なる胚、又は配列決定若しくは他の実験室での変動要因による可能性がある。
【0102】
加えて、クラスタは明確であるが、対角線に沿って最もよく分離が観察されることがわかる。そのため、上述したように、変換された親スコアを計算し、これには胚の新規性の尺度も組まれる。
【0103】
この計算結果のプロットが、
図11の親マッチング・クラスタ・プロットによって示されている。この図は、ミスマッチなし、両親ともミスマッチ、父方ミスマッチ、及び母方ミスマッチについての4つの別個のクラスタを示す。この図は、サンプルの親子関係を分類するために使用することができる潜在的な単純な閾値(水平線及び垂直線)も表示する。
【0104】
血縁関係のある家族が分類に与える影響の問題に取り組む際に、当初の予想は、血縁関係のある家族では、父方及び母方サンプルが、血縁関係のない場合よりも類似して見えることを考えると、変異がわずかしかないということであった。そのため、スコアの親の一致性成分がより変動し、胚の新規性成分がより小さくなる可能性がある。この予想を試験するために、13家族のセットを評価した。これらの家族についての結果は、正しいスコアと、配列決定QCに失敗したサンプルを除いた類似の並べ替えシナリオの下でのそれらのスコアの両方が、
図12の親のマッチング・クラスタ・プロットによって示されている。プロット上で観察可能な結果は、概ね、最初に観察されたものと同じクラスタリングパターンを示す(
図11と
図12を比較されたい)。
【0105】
<実施例6-検証及び妥当性確認>
様々な実施形態による本明細書で議論されたシステム及び方法は、妥当性確認のためにゴールドスタンダードに対して試験され、
図13及び
図14は、そのような試験の結果を図示する。
【0106】
図13は、様々な実施形態よる、受胎産物の遺伝的関係を決定する際の相対的な母方スコア及び父方スコアのグラフを示す。特に、本グラフでは、トレーニングデータを使用して、遺伝のクラスタを分離する際の精度について確立された閾値を試験している。被験者は、多倍数性及び非多倍数体の両方が観察された。閾値の表は、以下の表1によって提供される。
【0107】
【表1】
このグラフは、実施例5の
図11~
図12と同様にクラスタを生成し、ミスマッチなし、両親がミスマッチ、父方がミスマッチ、及び母方がミスマッチの4つの別個のクラスタを示す。
【0108】
図13と同様に、
図14は、様々な実施形態による、受胎産物の遺伝的関係を決定する際の相対的な母方及び父方の新規性及び類似性スコアのグラフを示す。特に、このグラフは、先に論じたゴールドスタンダードSNPアレイ技術の精度に対する、本明細書の様々な実施形態の精度を示す。図に詳述されているように、受胎産物と推定親との間の遺伝的関係を分類する精度は、ゴールドスタンダードの99.4~100%であった。感度及び特異性の指標も非常に高く、偽陽性が1つだけ、及び偽陰性が0と報告された。
【0109】
(コンピュータ実装システム)
様々な実施形態において、関心領域について胚における遺伝パターンを決定するための方法は、コンピュータソフトウェア又はハードウェアを介して実施することができる。すなわち、
図8に示されるように、本明細書に開示される方法は、アライメントエンジン840、単一ヌクレオチド多型同定エンジン(SNP同定エンジン)850、インピュテーションエンジン860、及び関連性エンジン870を含むコンピューティングデバイス830上で実施することができる。様々な実施形態において、コンピューティングデバイス830は、直接接続を介して、又はインターネット接続を通して、データストア810及びディスプレイデバイス880に通信可能に接続することができる。
【0110】
図8に示される様々なエンジンは、特定の用途又はシステムアーキテクチャの要件に応じて、単一のエンジン、コンポーネント、又はモジュールに組み合わせるか、或いはまとめることができることを理解されたい。さらに、様々な実施形態において、アライメントエンジン840、SNP同定エンジン850、インピュテーションエンジン860、及び関連性エンジン870は、特定のアプリケーション又はシステムアーキテクチャによって必要とされる追加のエンジン又はコンポーネントを含むことができる。
【0111】
図15は、本教示の実施形態を実装することができるコンピュータシステム1500を示すブロック図である。本教示の様々な実施形態では、コンピュータシステム1500は、情報を通信するためのバス1502又は他の通信機構と、情報を処理するためにバス1502と結合されたプロセッサ1504と、を含むことができる。様々な実施形態において、コンピュータシステム1500はまた、プロセッサ1504によって実行される命令を決定するためにバス1502に結合されたランダムアクセスメモリ(RAM)1506又は他の動的記憶デバイスとすることができるメモリを含むことができる。メモリは、プロセッサ1504によって実行される命令の実行中に一時変数又は他の中間情報を記憶するために使用することもできる。様々な実施形態において、コンピュータシステム1500は、プロセッサ1504のための静的情報及び命令を記憶するためにバス1502に結合された読み取り専用メモリ(ROM)1508又は他の静的記憶デバイスをさらに含むことができる。情報及び命令を記憶するために、磁気ディスク又は光ディスクなどの記憶デバイス1510を設け、バス1502に結合することができる。
【0112】
様々な実施形態において、コンピュータシステム1500は、コンピュータユーザに情報を表示するために、バス1502を介して、陰極線管(CRT)又は液晶ディスプレイ(LCD)などのディスプレイ1512に結合することができる。英数字及び他のキーを含む入力デバイス1514は、プロセッサ1504への情報及びコマンド選択の通信のためにバス1502に結合することができる。別のタイプのユーザ入力デバイスは、方向情報及びコマンド選択をプロセッサ1504に通信し、ディスプレイ1512上のカーソル移動を制御するための、マウス、トラックボール、又はカーソル方向キーなどのカーソル制御装置1516である。この入力デバイス1514は、典型的には、デバイスが平面内の位置を指定することを可能にする、2つの軸、第1の軸(すなわち、x)及び第2の軸(すなわち、y)における2つの自由度を有する。しかしながら、本明細書では、3次元(x、y及びz)カーソル移動を可能にする入力デバイス1514も企図されていることを理解されたい。
【0113】
本教示の特定の実装と一致して、結果は、メモリ1506内に含まれる1つ又は複数の命令の1つ若しくは複数のシーケンスを実行するプロセッサ1504に応答して、コンピュータシステム1500によって提供することができる。このような命令は、記憶デバイス1510などの別のコンピュータ可読媒体又はコンピュータ可読記憶媒体からメモリ1506に読み込むことができる。メモリ1506に含まれる一連の命令を実行することで、プロセッサ1504に本明細書で記載された処理を実行させることができる。代替として、本教示を実施するために、ソフトウェア命令の代わりに、又はそれと組み合わせて、ハードワイヤード回路を使用することができる。したがって、本教示の実装は、ハードウェア回路及びソフトウェアの任意の特定の組合せに限定されない。
【0114】
本明細書で使用される「コンピュータ可読媒体」(例えば、データストア、データストレージなど)又は「コンピュータ可読記憶媒体」という用語は、実行のためにプロセッサ1554に命令を与えることに関与する任意の媒体を指す。このような媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形態をとることができるが、これらに限定されない。不揮発性媒体の例は、メモリ1206などの動的メモリを含むことができるが、これに限定されない。伝送媒体の例は、バス1502を備えるワイヤを含む、同軸ケーブル、銅線、及び光ファイバを含むことができるが、これらに限定されない。
【0115】
コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又は任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、フラッシュEPROM、任意の他のメモリチップ若しくはカートリッジ、又はコンピュータが読み取ることができる任意の他の有形媒体を含む。
【0116】
コンピュータ可読媒体に加えて、命令又はデータは、実行のためにコンピュータシステム1500のプロセッサ1504に1つ又は複数の一連の命令を提供するために、通信装置又はシステムに含まれる伝送媒体上の信号として提供することができる。例えば、通信装置は、命令及びデータを示す信号を有するトランシーバを含むことができる。命令及びデータは、1つ又は複数のプロセッサに、本明細書の開示で概説した機能を実施させるように構成される。データ通信伝送接続の代表的な例は、電話モデム接続、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、赤外線データ接続、NFC接続などを含むことができるが、これらに限定されない。
【0117】
本明細書に記載される方法、フローチャート、図、及び付随する開示は、スタンドアロンデバイスとして、又は分散型ネットワーク若しくはクラウドコンピューティングネットワークなどの共有コンピュータ処理リソース上で、コンピュータシステム1500を使用して実施することができることを理解されたい。
【0118】
本明細書に記載される方法は、用途に応じて様々な手段によって実施することができる。例えば、これらの方法は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組合せで実施することができる。ハードウェア実装の場合、処理ユニットは、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書に記載された機能を実行するように設計された他の電子ユニット、又はそれらの組合せ内に実装されてもよい。
【0119】
様々な実施形態において、本教示の方法は、C、C++、Pythonなどの従来のプログラミング言語で書かれたファームウェア及び/又はソフトウェアプログラム及びアプリケーションとして実装することができる。ファームウェア及び/又はソフトウェアとして実装される場合、本明細書に記載された実施形態は、コンピュータに上記で説明した方法を実行させるためのプログラムが記憶された非一時的コンピュータ可読媒体上に実装することができる。本明細書に記載された様々なエンジンは、コンピュータシステム1500などのコンピュータシステム上に設けることができ、それによって、プロセッサ1504は、メモリコンポーネント1506/1508/1510のうちのいずれか、又はその組合せによって提供される命令と、入力デバイス1514を介して提供されるユーザ入力とに従って、これらのエンジンによって提供される分析及び判定を実行することになることを理解されたい。
【0120】
本教示は、様々な実施形態と併せて説明されているが、本教示がそのような実施形態に限定されることは意図されない。反対に、本教示は、当業者によって理解されるように、様々な代替形態、修正形態、及び均等物形態を包含する。
【0121】
様々な実施形態を説明する際に、本明細書は、ステップの特定の配列として方法及び/又はプロセスを提示している場合がある。しかしながら、方法又はプロセスが、本明細書に記載されるステップの特定の順序に依存しない範囲で、方法又はプロセスは、記載されたステップの特定の順序に限定されるべきではなく、当業者は、順序を変えても、依然として様々な実施形態の精神及び範囲内にあることを容易に理解することができる。
【0122】
(実施形態の列挙)
実施形態1:受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するための方法であって、
受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るステップと、
受け取った配列データを参照ゲノムにアライメントするステップと、精子提供者、卵母細胞提供者、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するステップと、
精子提供者の配列データ及び卵母細胞提供者の配列データ内の欠落したギャップを、インピュテーション参照を使用して、インピュートするステップと、
精子提供者と受胎産物との間の父方一致性スコアを計算するステップであり、本スコアが、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含む、計算するステップと、
卵母細胞提供者と受胎産物との間の母方一致性スコアを計算するステップであり、本スコアが、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含む、計算するステップと、
父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者を受胎産物に関連するものとして分類するステップと、を含む方法。
【0123】
実施形態2:受胎産物が着床前受胎産物である、実施形態1に記載の方法。
【0124】
実施形態3:アライメントされた受胎産物の配列データにおいて関心領域を同定するステップと、精子提供者、卵母細胞提供者、及び受胎産物の配列データの同定された関心領域においてSNPを同定するステップをさらに含む、実施形態1及び2に記載の方法。
【0125】
実施形態4:関心領域がゲノム全体である、実施形態3に記載の方法。
【0126】
実施形態5:関心領域がコピー数変異である、請求項3に記載の方法。
【0127】
実施形態6:受胎産物、精子提供者、及び卵母細胞提供者の配列データのうちの少なくとも1つが、低カバレッジ配列決定によって取得される、実施形態1から5のいずれかに記載の方法。
【0128】
実施形態7:低カバレッジ配列決定が約0.001~10×である、実施形態6に記載の方法。
【0129】
実施形態8:低カバレッジ配列決定が約0.01~0.5×である、実施形態6に記載の方法。
【0130】
実施形態9:低カバレッジ配列決定が約0.25~0.2×である、実施形態6に記載の方法。
【0131】
実施形態10:インピュテーション参照が少なくとも1000個のゲノムを含む、実施形態1から9のいずれかに記載の方法。
【0132】
実施形態11:受胎産物、精子提供者、及び卵母細胞提供者の配列決定データのうちの少なくとも1つをフィルタリングして、配列決定アーチファクトを除去するステップさらに含む、実施形態1から10のいずれかに記載の方法。
【0133】
実施形態12:フィルタリングが、既知のSNPの参照リストに含まれないSNPを除外するステップを含む、実施形態11に記載の方法。
【0134】
実施形態13:参照リストが約1000個の既知のゲノムを含む、実施形態12に記載の方法。
【0135】
実施形態14:フィルタリングが、メンデルの法則と矛盾するSNPを除外するステップを含む、実施形態11に記載の方法。
【0136】
実施形態15:フィルタリングが、受胎産物、精子、及び卵母細胞の間でなんらかの対立遺伝子が欠落した部位の配列を除外するステップを含む、実施形態11に記載の方法。
【0137】
実施形態16:フィルタリングが、受胎産物、精子、及び卵母細胞の間にわたって対立遺伝子が一定の部位の配列を除外するステップを含む、実施形態11の方法。
【0138】
実施形態17:フィルタリングが、受胎産物、精子、及び卵母細胞のうちの1つ内で対立遺伝子が新規の部位の配列を除外するステップを含む、実施形態11に記載の方法。
【0139】
実施形態18:アライメントされた受胎産物の配列データにおいて関心領域を同定するステップと、
受胎産物の配列データについての同定された関心領域及び卵母細胞提供者の配列データの対応する領域において、受胎産物と卵母細胞との間で共通するSNPの数をカウントして、母方寄与値を決定するステップと、
受胎産物の配列データについての同定された関心領域及び精子提供者の配列データの対応する領域において、受胎産物と精子との間で共通するSNPの数をカウントして、父方寄与値を決定するステップと、
卵母細胞と精子との間の相対的寄与値に基づいて、受胎産物についての遺伝パターンを母方又は父方として分類するステップと、
をさらに含む、実施形態1から17のいずれかに記載の方法。
【0140】
実施形態19:関心領域がゲノム全体であり、ゲノム全体にわたってSNPをカウントして、母方及び父方寄与値を決定し、受胎産物が多倍数体であるかどうかを判定するステップをさらに含む、実施形態18に記載の方法。
【0141】
実施形態20:多倍数体である受胎産物について、卵母細胞と精子との間の相対的寄与値に基づいて、多倍数体についての遺伝パターンを母方又は父方として分類するステップをさらに含む、実施形態19に記載の方法。
【0142】
実施形態21:受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するためのコンピュータ命令を記憶する非一時的コンピュータ可読媒体であって、
受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るステップと、
受け取った配列データを参照ゲノムにアライメントするステップと、精子提供者の配列データ、卵母細胞提供者の配列データ、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するステップと、
精子提供者の配列データ及び卵母細胞提供者の配列データ内の欠落したギャップを、インピュテーション参照を使用して、インピュートするステップと、精子提供者と受胎産物との間の父方一致性スコアを計算するステップであり、本スコアが、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含む、計算するステップと、
卵母細胞提供者と受胎産物との間の母方一致性スコアを計算するステップであり、本スコアが、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含む、計算するステップと、
父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者を受胎産物に関連するものとして分類するステップと、
を含む非一時的コンピュータ可読媒体。
【0143】
実施形態22:受胎産物が着床前受胎産物である、実施形態21に記載の方法。
【0144】
実施形態23:アライメントされた受胎産物の配列データにおいて関心領域を同定するステップと、精子提供者、卵母細胞提供者、及び受胎産物の配列データの同定された関心領域においてSNPを同定するステップをさらに含む、実施形態21及び22に記載の方法。
【0145】
実施形態24:関心領域がゲノム全体である、実施形態23に記載の方法。
【0146】
実施形態25:関心領域がコピー数変異である、実施形態23に記載の方法。
【0147】
実施形態26:受胎産物、精子提供者、及び卵母細胞提供者の配列データのうちの少なくとも1つが、低カバレッジ配列決定によって取得される、実施形態21から25のいずれかに記載の方法。
【0148】
実施形態27:低カバレッジ配列決定が約0.001~10×である、実施形態26に記載の方法。
【0149】
実施形態28:低カバレッジ配列決定が約0.01~0.5×である、実施形態26に記載の方法。
【0150】
実施形態29:低カバレッジ配列決定が約0.25~0.2×である、実施形態26に記載の方法。
【0151】
実施形態30:インピュテーション参照が、少なくとも1000個のゲノムを含む、実施形態21から29のいずれかに記載の方法。
【0152】
実施形態31:受胎産物、精子提供者、及び卵母細胞提供者の配列決定データのうちの少なくとも1つをフィルタリングして、配列決定アーチファクトを除去するステップをさらに含む、実施形態21から30のいずれかに記載の方法。
【0153】
実施形態32:フィルタリングが、既知のSNPの参照リストに含まれないSNPを除外するステップを含む、実施形態31に記載の方法。
【0154】
実施形態33:参照リストが約1000個の既知のゲノムを含む、実施形態32に記載の方法。
【0155】
実施形態34:フィルタリングが、メンデルの法則と矛盾するSNPを除外するステップを含む、実施形態31に記載の方法。
【0156】
実施形態35:フィルタリングが、受胎産物、精子、及び卵母細胞の間でなんらかの対立遺伝子が欠落した部位の配列を除外するステップを含む、実施形態31に記載の方法。
【0157】
実施形態36:フィルタリングが、受胎産物、精子、及び卵母細胞の間にわたって対立遺伝子が一定の部位の配列を除外するステップを含む、実施形態31に記載の方法。
【0158】
実施形態37:フィルタリングが、受胎産物、精子、及び卵母細胞のうちの1つ内で対立遺伝子が新規の部位の配列を除外するステップを含む、実施形態31に記載の方法。
【0159】
実施形態38:アライメントされた受胎産物の配列データにおいて関心領域を同定するステップと、
受胎産物の配列データについての同定された関心領域及び卵母細胞提供者の配列データの対応する領域において、受胎産物と卵母細胞との間で共通するSNPの数をカウントして、母方寄与値を決定するステップと、
受胎産物の配列データについての同定された関心領域及び精子提供者の配列データの対応する領域において、受胎産物と精子との間で共通するSNPの数をカウントして、父方寄与値を決定するステップと、
卵母細胞と精子との間の相対的寄与値に基づいて、受胎産物についての遺伝パターンを母方又は父方として分類するステップと、
をさらに含む、請求項21から37のいずれかに記載の方法。
【0160】
実施形態39:関心領域がゲノム全体であり、ゲノム全体にわたってSNPをカウントして、母方及び父方寄与値を決定し、受胎産物が多倍数体であるかどうかを判定するステップをさらに含む、実施形態38に記載の方法。
【0161】
実施形態40:多倍数体である受胎産物について、卵母細胞と精子との間の相対的寄与値に基づいて、多倍数体についての遺伝パターンを母方又は父方として分類するステップをさらに含む、実施形態39に記載の方法。
【0162】
実施形態41:受胎産物と精子提供者及び卵母細胞提供者との遺伝的関係を決定するためのシステムであって、
受胎産物、精子提供者、及び卵母細胞提供者の配列データを受け取るためのデータストアと、
データストアに通信可能に接続されたコンピューティングデバイスであり、
受け取った配列データを参照ゲノムにアライメントするように構成されたアライメントエンジン、
精子提供者の配列データ、卵母細胞提供者の配列データ、及び受胎産物の配列データにおける単一ヌクレオチド多型(SNP)を同定するように構成されたSNP同定エンジン、
精子提供者の配列データ及び卵母細胞提供者の配列データ内の欠落したギャップを、インピュテーション参照を使用して、インピュートするように構成されたインピュテーションエンジン、並びに
関連性エンジンであり、
精子提供者と受胎産物との間の父方一致性スコアを計算し、本スコアが、(a)受胎産物と精子提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが精子提供者においては見出されないSNPのカウントを含み、
卵母細胞提供者と受胎産物との間の母方一致性スコアを計算し、本スコアが、(a)受胎産物と卵母細胞提供者との間で共通するSNPのカウント、及び(b)受胎産物において見出されるが卵母細胞提供者においては見出されないSNPのカウントを含み、
父方一致性スコア及び/又は母方一致性スコアが所定の閾値を超える場合、精子提供者及び/又は卵母細胞提供者を受胎産物に関連するものとして分類する、
ように構成された、関連性エンジン、
を備える、コンピューティングデバイスと、
コンピューティングデバイスに通信可能に接続され、受胎産物に対する分類された関連性を含むレポートを表示するように構成されたディスプレイと、を備える、システム。
【0163】
実施形態42:受胎産物が着床前受胎産物である、実施形態41のシステム。
【0164】
実施形態43:アライメントエンジンが、アライメントされた受胎産物の配列データにおいて関心領域を同定し、精子提供者、卵母細胞提供者、及び受胎産物の配列データの同定された関心領域においてSNPを同定するようにさらに構成されている、
実施形態41又は42に記載のシステム。
【0165】
実施形態44:関心領域がゲノム全体である、実施形態43に記載のシステム。
【0166】
実施形態45:関心領域がコピー数変異である、実施形態43のシステム。
【0167】
実施形態46:受胎産物、精子提供者、及び卵母細胞提供者の配列データのうちの少なくとも1つが、低カバレッジ配列決定によって取得される、実施形態41から45のいずれかに記載のシステム。
【0168】
実施形態47:低カバレッジ配列決定が約0.001~10×である、実施形態46に記載のシステム。
【0169】
実施形態48:低カバレッジ配列決定が約0.01~0.5×である、実施形態46に記載のシステム。
【0170】
実施形態49:低カバレッジ配列決定が約0.25~0.2×である、実施形態46に記載のシステム。
【0171】
実施形態50:インピュテーション参照が、少なくとも1000個のゲノムを含む、実施形態41から49のいずれかに記載のシステム。
【0172】
実施形態51:インピュテーションエンジンが、受胎産物、精子提供者、及び卵母細胞提供者の配列決定データのうちの少なくとも1つをフィルタリングして、配列決定アーチファクトを除去するようにさらに構成されている、実施形態41から50のいずれかに記載のシステム。
【0173】
実施形態52:フィルタリングが、既知のSNPの参照リストに含まれないSNPを除外するステップを含む、実施形態51に記載のシステム。
【0174】
実施形態53:参照リストが約1000個の既知のゲノムを含む、実施形態52に記載のシステム。
【0175】
実施形態54:フィルタリングが、メンデルの法則と矛盾するSNPを除外するステップを含む、実施形態51に記載のシステム。
【0176】
実施形態55:フィルタリングが、受胎産物、精子、及び卵母細胞の間でなんらかの対立遺伝子が欠落した部位の配列を除外するステップを含む、実施形態51に記載のシステム。
【0177】
実施形態56:フィルタリングが、受胎産物、精子、及び卵母細胞の間にわたって対立遺伝子が一定の部位の配列を除外するステップを含む、実施形態51に記載のシステム。
【0178】
実施形態57:フィルタリングが、受胎産物、精子、及び卵母細胞のうちの1つ内で対立遺伝子が新規の部位の配列を除外するステップを含む、実施形態51に記載のシステム。
【0179】
実施形態58:アラインメントされた受胎産物の配列データにおいて関心領域を同定するようにさらに構成されている、アライメントエンジンと、
関連性エンジンであって、
受胎産物の配列データについての同定された関心領域及び卵母細胞提供者の配列データの対応する領域において、受胎産物と卵母細胞との間で共通するSNPの数をカウントして、母方寄与値を決定し、
受胎産物の配列データについての同定された関心領域及び精子提供者の配列データの対応する領域において、受胎産物と精子との間で共通するSNPの数をカウントして、父方寄与値を決定し、
卵母細胞と精子との間の相対的寄与値に基づいて、受胎産物についての遺伝パターンを母方又は父方として分類するようにさらに構成されている、
関連性エンジンと、
を備える、実施形態41から47のいずれかに記載のシステム。
【0180】
実施形態59:関心領域がゲノム全体であり、関連性エンジンが、ゲノム全体にわたってSNPをカウントして、母方及び父方寄与値を決定し、受胎産物が多倍数体であるかどうかを判定するように構成されている、実施形態58に記載のシステム。
【0181】
実施形態60:多倍数体である受胎産物について、関連性エンジンが、卵母細胞と精子との間の相対的寄与値に基づいて、多倍数体についての遺伝パターンを母方又は父方として分類するように構成されている、実施形態59に記載のシステム。