IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ マイオーム,インコーポレイテッドの特許一覧

特表2024-536848予期される胚の遺伝子型をシミュレートし、その疾患発生リスクを概算する方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-08
(54)【発明の名称】予期される胚の遺伝子型をシミュレートし、その疾患発生リスクを概算する方法
(51)【国際特許分類】
   C12Q 1/68 20180101AFI20241001BHJP
   C12M 1/34 20060101ALI20241001BHJP
   C12Q 1/6837 20180101ALI20241001BHJP
【FI】
C12Q1/68
C12M1/34 A
C12Q1/6837 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024518661
(86)(22)【出願日】2022-09-27
(85)【翻訳文提出日】2024-05-17
(86)【国際出願番号】 US2022077123
(87)【国際公開番号】W WO2023049941
(87)【国際公開日】2023-03-30
(31)【優先権主張番号】63/248,749
(32)【優先日】2021-09-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522125216
【氏名又は名称】マイオーム,インコーポレイテッド
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【弁理士】
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【弁理士】
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【弁理士】
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【弁理士】
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】クマル,アカシュ
(72)【発明者】
【氏名】イム,ケイト
(72)【発明者】
【氏名】ラビノヴィッチ,マシュー
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB11
4B029BB20
4B029CC02
4B029CC03
4B029FA15
4B063QA13
4B063QA19
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QR55
4B063QR82
4B063QR90
4B063QS34
4B063QS36
4B063QS39
4B063QX01
(57)【要約】
本明細書に開示されるのは、フェージングされた親染色体を生成することにより予期される胚に関連する疾患分布の確率を決定する、1つ以上の目的の減数分裂組換え部位を決定する、および1つ以上のシミュレートされた胚遺伝子型を生成する方法である。多遺伝子リスクモデルをシミュレートされた各胚の遺伝子型に適用して、多遺伝子リスクスコアを生成し、かつ予期される胚の1つ以上の疾患の疾患分布の確率を決定し得る。
【選択図】なし
【特許請求の範囲】
【請求項1】
予期される胚に関連する疾患分布の確率を決定するための方法であって、
フェージングされた母方染色体セットおよびフェージングされた父方染色体セットを生成することと;
目的の1つ以上の減数分裂組換え部位を決定することと;
前記フェージングされた母方染色体セット、前記フェージングされた父方染色体セット、および前記目的の1つ以上の減数分裂組換え部位に基づき1つ以上のシミュレートされた胚遺伝子型を生成することと、
多遺伝子リスクスコアセットを生成するために前記1つ以上のシミュレートされた胚遺伝子型に少なくとも1つの多遺伝子リスクモデルを適用することであって、前記多遺伝子リスクスコアセットが、前記1つ以上のシミュレートされた胚遺伝子型の各シミュレートされた胚遺伝子型についての多遺伝子リスクスコアを含む、適用することと;
前記多遺伝子リスクスコアセットに基づき予期される胚について1つ以上の疾患についての疾患分布の確率を決定すること、
を含む、方法。
【請求項2】
前記多遺伝子リスクスコアに基づき疾患の相対リスクへと各多遺伝子リスクスコアを変換することをさらに含む、請求項1に記載の方法。
【請求項3】
前記疾患の相対リスクへと各多遺伝子リスクスコアを変換することが、
前記多遺伝子リスクスコアについてのオッズ比を、効果サイズモデルを使用して、計算することと;
特定の疾患に関連するオッズ比および疾患の有病率に基づき前記疾患の相対リスクを決定すること、
をさらに含む、請求項2に記載の方法。
【請求項4】
各疾患について1つ以上のリスク閾値を決定することをさらに含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記疾患に対応する前記1つ以上のリスク閾値を満たす疾患についての疾患分布の確率のパーセンテージを決定することをさらに含む、請求項4に記載の方法。
【請求項6】
正規化された多遺伝子リスクスコアセットを生成するために前記多遺伝子リスクスコアセット中の各多遺伝子リスクスコアを、集団データに基づき、正規化することをさらに含み、疾患分布の確率を決定することが、前記正規化された多遺伝子リスクスコアセットに基づく、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記集団データが、祖先特異的集団データを含む、請求項6に記載の方法。
【請求項8】
前記フェージングされた母方染色体セットおよび前記目的の1つ以上の減数分裂組換え部位に基づき母方配偶子を、減数分裂組換えモデルを使用して、生成することと;
前記フェージングされた父方染色体セットおよび前記目的の1つ以上の減数分裂組換え部位に基づき父方配偶子を、前記減数分裂組換えモデルを使用して、生成することと;
前記父方配偶子および前記母方配偶子に基づき1つ以上のシミュレートされた胚の遺伝子型を生成すること、
をさらに含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
母方対象からの母方ゲノムと父方対象からの父方ゲノムを取得することと;
フェージングされた母方染色体セットを生成するために前記母方ゲノムをフェージングすることと;
フェージングされた父方染色体セットを生成するために前記父方ゲノムをフェージングすること、
をさらに含む、
請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記母方ゲノムまたは前記父方ゲノムのフェージングが、集団ベースの方法または分子ベースの方法の1つ以上を使用して実施される、請求項9に記載の方法。
【請求項11】
母方ゲノムを決定するために前記母方対象から得られた生物学的サンプルに対し全ゲノムシーケンスを実施することと;
父方ゲノムを決定するために前記父方対象から得られた生物学的サンプルに対し全ゲノムシーケンスを実施すること、
をさらに含む、請求項9または10に記載の方法。
【請求項12】
兄弟のゲノム情報を決定することと;
前記母方ゲノムおよび前記兄弟のゲノム情報に基づきフェージングされた母方染色体セットを生成することと、
前記父方ゲノムおよび前記兄弟のゲノム情報に基づきフェージングされた父方染色体セットを生成すること、
をさらに含む、請求項9~11のいずれか一項に記載の方法。
【請求項13】
複数の関係のない個体について個々の遺伝子型を含む集団遺伝子型データを取得することと;
前記母方ゲノムおよび前記集団遺伝子型データに基づき前記フェージングされた母方染色体セットを生成することと;
前記父方ゲノムおよび前記集団遺伝子型データに基づき前記フェージングされた父方染色体セットを生成すること、
をさらに含む、請求項9~12のいずれか一項に記載の方法。
【請求項14】
兄弟のゲノム情報を決定することと;
前記兄弟ゲノム、前記母方ゲノム、および前記父方ゲノムに基づき目的の1つ以上の減数分裂組換え部位を決定すること、
をさらに含む、請求項9~13のいずれか一項に記載の方法。
【請求項15】
前記兄弟のゲノム情報が、アレイ測定、次世代シーケンシング、または全ゲノムシーケンスの少なくとも1つを使用して決定され、
前記兄弟ゲノムが、兄弟の胚、完全な生物学的兄弟、または半生物学的兄弟の少なくとも1つから取得される、
請求項12または14に記載の方法。
【請求項16】
染色体長の親ハプロタイプが、各シミュレートされた胚についてゲノム全体にわたり取得される、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記予期される胚について1つ以上の疾患についての前記疾患分布の確率に基づき追加の体外受精(IVF)サイクルの推奨を生成することと;
前記IVFサイクルの推奨を出力すること、
をさらに含む、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記疾患分布の確率に基づき疾患発生リスクを決定すること
をさらに含み、前記IVFサイクルの推奨が、前記疾患発生リスクに基づく、請求項17に記載の方法。
【請求項19】
前記追加のIVFサイクルの推奨が、IVFの追加のラウンドを実施するか否かを示す、請求項18に記載の方法。
【請求項20】
予期される胚に関連する疾患分布の確率を決定するための装置であって、プロセッサと、前記プロセッサにより実行されると、前記装置に請求項1~19のいずれか一項に記載のステップを実施させるソフトウェア命令を格納するメモリ、を備える、装置。
【請求項21】
予期される胚に関連する疾患分布の確率を決定するためのコンピュータプログラム製品であって、前記装置により実行されると、前記装置に請求項1~19のいずれか一項に記載のステップを実施させるソフトウェア命令を格納する少なくとも1つの非一時的コンピュータ可読記憶媒体を備える、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願との相互参照
本出願は、2021年9月27日に出願の米国仮出願第63/248,749号の利益を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
技術分野
本開示は、一般的には疾患リスクを決定することに関し、より具体的には、予期される胚の疾患発生リスクを決定するための方法に関する。
【背景技術】
【0003】
現在、体外受精(IVF)クリニックは、家族内で発生することが知られている異数体および単一遺伝子障害を検査する。しかし、2組に1組のカップルは、遺伝的、環境的、およびライフスタイルのリスク因子の組み合わせによって影響を受ける一般的な疾患の家族歴を有する。さらに、現在、精子提供クリニックは、単一遺伝子障害によって引き起こされる一連の疾患を発症する傾向を検査するが、将来の胚が複雑な多遺伝子疾患を発症する可能性を考慮できない。
【発明の概要】
【0004】
本明細書で説明するように、例示的な実施形態は、予期される胚に関連する疾患分布の確率を決定する。多数のシミュレートされる胚の遺伝子型が、生成され、多遺伝子リスクスコアセットを生成するためにその後使用され、これは今度は、予期される胚について1つ以上の疾患についての疾患分布の確率の決定を可能にする。
【0005】
本明細書に記載の実施形態例は、IVFにより作製される将来の予期される胚に関連する疾患の発生または再発の推定を可能にする。現在、特定の方法は、フェージングされた親ゲノムに基づき、かつ既存の胚のマイクロアレイジェノタイピングを用いて、既存の胚の遺伝子型を推測し得るが、そのような方法は、将来の胚に関連する特定の疾患の発生または再発の可能性に関する情報を与えない。IVFに関連する財政的コストおよび身体的コストを考慮すると、IVFを受ける前に予期される胚について疾患(複数可)の可能性を考慮することは有利であり得、これによりすべての関係者が、取るべき行動方針についてより情報に基づいた決定を下し得る。これは、個人的におよび/または家族的に複雑な疾患の病歴を有する個体にとって、特に興味深いであろう。
【0006】
疾患リスクを予測するための1つの考えられるアプローチは、非連結近似法を用いて、可能性のある胚をシミュレートすることである。非連結近似法により、胚遺伝子型中の各部位が、他の部位から独立して扱われ得る。例えば、胚の遺伝子型をシミュレートするために、それぞれの親からの各遺伝子型の確率が決定され、それを使用してシミュレートされた胚の遺伝子型を構築するできる。
【0007】
非連結近似法は、比較的計算が単純で速く、場合によっては満足のいく結果を生じ得る。しかし、非連結近似法は、胚の遺伝子型において部位間の連鎖が重要な場合、いくつかの欠点がある。特に、非連結近似法は、親の染色体が大きなセグメントで受け継がれることを考慮しないため、このような近似法は、兄弟の胚間の遺伝的変動性を過小評価し、それは今度は、兄弟の胚間の疾患リスクの変動性および遺伝的祖先の変動性の過小評価につながる。胚は、親の一方からそれらのDNAの半分を受け継ぐため、主成分により定量化されるそれらの祖先は、平均で、親の祖先の中間に収まる。しかし、この平均値の周りには大きな変動があり、兄弟間の遺伝的祖先の変動をもたらし、これは非連結近似法では見逃される。
【0008】
さらに、近くの遺伝子部位間(例えば、エピスタシス)またはハプロタイプ間(例えば、優性)の非相加的効果は、疾患リスクへの寄与において重要な役割を果たす。例えば、あるオリゴジェニックの状況におけるこの1つの特殊なケースは、複合ヘテロ接合性であり、そこで2つの劣性対立遺伝子は、2つの対立遺伝子が同じ親からまたは異なる親から受け継がれたかにより、影響を有し得ないか、または疾患の原因となるかのいずれかであり得る。
【0009】
本明細書に記載の実施形態は有利に、連結近似法を使用して予期される胚の疾患リスクを決定することを可能にする。特に、親の染色体(例えば、父方の染色体と母方の染色体)をフェージングして、父方遺伝子型および母方遺伝子型を取得し得る。いくつかの実施形態では、兄弟の胚(例えば、以前のIVFラウンド)からのゲノム情報も決定され得る。連結近似では、目的の減数分裂組換え部位が、親の染色体および兄弟の胚からのゲノム情報に基づき推測され得る。親配偶子を次に、それぞれのフェージングされた親染色体および目的の減数分裂組換え部位に基づきシミュレートし、その後シミュレートされた胚の遺伝子型を生成するために使用され得る。したがって、連結近似法は有利に、それぞれの親から染色体セグメントを受け継ぐ胚の遺伝子型のシミュレーションを可能にし、かつシミュレートされた胚についてゲノム全体にわたり染色体長の親のハプロタイプが決定されることを可能にする。これは、親の祖先の保存を可能にし、シミュレートされた胚の遺伝的変異における精度の向上をもたらす。連鎖の考慮は、自己免疫状態などの効果の高い連鎖した一塩基多型(SNP)を含む多遺伝子リスクモデルを考慮する場合、特に重要であり得る。そのため、その後の多遺伝子リスクスコアリングを、シミュレートされた胚に対し実施して、予期される胚について疾患分布のより正確な確率を出すことができる。
【0010】
したがって、予期される胚に関連する疾患分布の確率を決定するための方法が、本明細書で提供される。この方法は、フェージングされた母方染色体セットおよびフェージングされた父方染色体セットを生成することと、目的の1つ以上の減数分裂組換え部位を決定することを含む。方法はさらに、フェージングされた母方染色体セット、フェージングされた父方染色体セット、および目的の1つ以上の減数分裂組換え部位に基づき、1つ以上のシミュレートされた胚遺伝子型を生成することを含む。この方法はさらに、1つ以上のシミュレートされた胚の遺伝子型に多遺伝子リスクモデルを適用して多遺伝子リスクスコアセットを生成することであって、ここで多遺伝子リスクスコアセットは、1つ以上のシミュレートされた胚遺伝子型のシミュレートされた各胚遺伝子型の多遺伝子リスクスコアを含む、生成すること、および多遺伝子性リスクスコアセットに基づき予期される胚について1つ以上の疾患の疾患分布の確率を決定することを含む。
【0011】
いくつかの実施形態では、方法は、各多遺伝子リスクスコアを、多遺伝子リスクスコアに基づき疾患の相対リスクへと変換することをさらに含む。いくつかの実施形態では、各多遺伝子リスクスコアを疾患の相対リスクに変換することは、多遺伝子リスクスコアのオッズ比を、効果サイズモデルを使用して、計算することと、オッズ比および特定の疾患に関連する疾患の有病率に基づき、疾患の相対リスクを決定すること、をさらに含む。
【0012】
いくつかの実施形態では、方法は、各疾患について1つ以上のリスク閾値を決定することをさらに含む。いくつかの実施形態では、方法は、疾患に対応する1つ以上のリスク閾値を満たす疾患の疾患分布の確率のパーセンテージを決定することをさらに含む。
【0013】
いくつかの実施形態では、方法はさらに、多遺伝子リスクスコアセット中の各多遺伝子リスクスコアを、集団データに基づき、正規化して、正規化された多遺伝子リスクスコアセットを生成することを含み、疾患分布の確率を決定することは、正規化された多遺伝子リスクスコアセットに基づく。いくつかの実施形態では、集団データは、祖先特異的集団データを含む。
【0014】
いくつかの実施形態では、方法は、フェージングされた母方染色体セットおよび目的の1つ以上の減数分裂組換え部位に基づき、減数分裂組換えモデルを使用して、母方配偶子を生成することをさらに含む。いくつかの実施形態では、方法は、フェージングされた父方染色体セットおよび目的の1つ以上の減数分裂組換え部位に基づき、減数分裂組換えモデルを使用して、父方配偶子を生成することをさらに含む。いくつかの実施形態では、方法は、父方配偶子および母方配偶子に基づき、1つ以上のシミュレートされた胚の遺伝子型を生成することをさらに含む。
【0015】
いくつかの実施形態では、方法は、母方対象からの母方ゲノムおよび父方対象からの父方ゲノムを得ることをさらに含む。いくつかの実施形態では、方法は、母方ゲノムをフェージングして、フェージングされた母方染色体セットを生成することをさらに含む。いくつかの実施形態では、この方法は、父方ゲノムをフェージングして、フェージングされた父方染色体セットを生成することをさらに含む。いくつかの実施形態では、母方ゲノムまたは父方ゲノムをフェージングすることは、集団ベースの方法または分子ベースの方法の1つ以上を使用して実施される。
【0016】
いくつかの実施形態では、方法は、母方対象から得られた生物学的サンプルに対して全ゲノムシーケンスを実施して、母方ゲノムを決定することをさらに含む。いくつかの実施形態では、方法は、父方対象から得られた生物学的サンプルに対して全ゲノムシーケンスを実施して、父方ゲノムを決定することをさらに含む。
【0017】
いくつかの実施形態では、方法は、兄弟のゲノム情報を決定することをさらに含む。いくつかの実施形態では、方法は、母方ゲノムおよび兄弟のゲノム情報に基づき、フェージングされた母方染色体セットを生成することをさらに含む。いくつかの実施形態では、方法は、父方ゲノムおよび兄弟のゲノム情報に基づき、フェージングされた父方染色体セットを生成することをさらに含む。
【0018】
いくつかの実施形態では、染色体長の親のハプロタイプが、シミュレートされた各胚についてゲノム全体において得られる。
【0019】
いくつかの実施形態では、方法は、複数の関係のない個体についての個々の遺伝子型を含む集団遺伝子型データを得ることをさらに含む。いくつかの実施形態では、方法は、母方ゲノムおよび集団遺伝子型データに基づき、フェージングされた母方染色体セットを生成することをさらに含む。いくつかの実施形態では、方法は、父方ゲノムおよび集団遺伝子型データに基づき、フェージングされた父方染色体セットを生成することをさらに含む。
【0020】
いくつかの実施形態では、方法は、兄弟のゲノム情報を決定することをさらに含む。いくつかの実施形態では、方法は、兄弟ゲノム、母方ゲノム、および父方ゲノムに基づき、目的の1つ以上の減数分裂組換え部位を決定することをさらに含む。
【0021】
いくつかの実施形態では、兄弟ゲノム情報は、アレイ測定、次世代シーケンシング、または全ゲノムシーケンスの少なくとも1つを使用して決定され、兄弟ゲノム情報は、兄弟胚、完全な生物学的兄弟、または半分の生物学的兄弟の少なくとも1つから得られる。
【0022】
いくつかの実施形態では、方法は、予期される胚の1つ以上の疾患の疾患分布の確率に基づき、追加の体外受精(IVF)サイクルの推奨を生成することをさらに含む。いくつかの実施形態では、方法はさらに、IVFサイクルの推奨を出力することを含む。いくつかの実施形態では、追加のIVFサイクルの推奨は、追加のIVFラウンドを実施するか否かを示す。いくつかの実施形態では、方法は、疾患分布の確率に基づき、疾患発生リスクを決定することをさらに含み、ここでIVFサイクルの推奨は、疾患発生リスクに基づく。
【0023】
同様に、予期される胚に関連する疾患分布の確率を決定するための装置が、本明細書で開示される。例示の装置は、プロセッサとメモリを備え、メモリは、プロセッサにより実行されると、装置に、フェージングされた母方染色体セットおよびフェージングされた父方染色体セットを生成させ、目的の1つ以上の減数分裂組換え部位を決定させる、ソフトウェア命令を格納する。プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、フェージングされた母方染色体セット、フェージングされた父方染色体セット、および目的の1つ以上の減数分裂組換え部位に基づき1つ以上のシミュレートされた胚の遺伝子型を生成させる、ソフトウェア命令を格納する。プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、1つ以上のシミュレートされた胚遺伝子型に多遺伝子リスクモデルを適用させて多遺伝子リスクスコアセットを生成させ、ここで多遺伝子リスクスコアセットは、1つ以上のシミュレートされた胚遺伝子型のシミュレートされた各胚遺伝子型についての多遺伝子リスクスコアを含み、かつ装置に、多遺伝子性リスクスコアセットに基づき予期される胚についての1つ以上の疾患の疾患分布の確率を決定させる、ソフトウェア命令を格納する。
【0024】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、各多遺伝子リスクスコアを多遺伝子リスクスコアに基づき疾患の相対リスクに変換させるソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、各多遺伝子リスクスコアを疾患の相対リスクに変換するときに、装置にさらに、多遺伝子リスクスコアのオッズ比を、効果サイズモデルを使用して、計算させ、かつオッズ比および特定の疾患に関連する疾患の有病率に基づき疾患の相対リスクを決定させる、ソフトウェア命令を格納する。
【0025】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、各疾患の1つ以上のリスク閾値を決定させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、疾患に対応する1つ以上のリスク閾値を満たす疾患の疾患分布の確率のパーセンテージを決定させる、ソフトウェア命令を格納する。
【0026】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、集団データに基づき、多遺伝子リスクスコアセット内の各多遺伝子リスクスコアを正規化させて、正規化された多遺伝子リスクスコアセットを生成させる、ソフトウェア命令を格納し、ここで疾患分布の確率を決定することは、正規化された多遺伝子リスクスコアセットに基づく。いくつかの実施形態では、集団データは、祖先特異的集団データを含む。
【0027】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、フェージングされた母方染色体セットおよび目的の1つ以上の減数分裂組換え部位に基づき、母方配偶子を、減数分裂組換えモデルを使用して、生成させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、フェージングされた父方染色体セットおよび目的の1つ以上の減数分裂組換え部位に基づき、父方配偶子を、減数分裂組換えモデルを使用して、生成させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、父方配偶子および母方配偶子に基づき、1つ以上のシミュレートされた胚の遺伝子型を生成させる、ソフトウェア命令を格納する。
【0028】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、母方対象から母方ゲノムを得かつ父方対象から父方ゲノムを得るようにさせる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、母方ゲノムをフェージングてフェージングされた母方染色体セットを生成させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、父方ゲノムをフェージングしてフェージングされた父方染色体セットを生成させる、ソフトウェア命令を格納する。いくつかの実施形態では、母方ゲノムまたは父方ゲノムをフェージングすることは、集団ベースの方法または分子ベースの方法の1つ以上を使用して実施される。
【0029】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、母方対象から得られた生物学的サンプルの全ゲノムシーケンスを実施させて母方ゲノムを決定する、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、父方対象から得られた生物学的サンプルの全ゲノムシーケンスを実施させて父方ゲノムを決定する、ソフトウェア命令を格納する。
【0030】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、兄弟のゲノム情報を決定させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、母方ゲノムおよび兄弟ゲノム情報に基づきフェージングされた母方染色体セットを生成させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、父方ゲノムおよび兄弟ゲノム情報に基づきフェージングされた父方染色体セットを生成させる、ソフトウェア命令を格納する。
【0031】
いくつかの実施形態では、染色体長の親のハプロタイプが、シミュレートされた各胚についてゲノム全体にわたり得られる。
【0032】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、複数の関係のない個人についての個々の遺伝子型を含む集団遺伝子型データを取得させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、母方ゲノムおよび集団遺伝子型データに基づきフェージングされた母方染色体セットを生成させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、父方ゲノムおよび集団遺伝子型データに基づきフェージングされた父方染色体セットを生成させる、ソフトウェア命令を格納する。
【0033】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、兄弟のゲノム情報を決定させるソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、兄弟ゲノム、母方ゲノム、および父方ゲノムに基づき目的の1つ以上の減数分裂組換え部位を決定させるソフトウェア命令を格納する。
【0034】
いくつかの実施形態では、兄弟ゲノム情報は、アレイ測定、次世代シーケンシング、または全ゲノムシーケンスの少なくとも1つを使用して決定され、かつ兄弟ゲノム情報は、兄弟胚、完全な生物学的兄弟、または半分の生物学的兄弟の少なくとも1つから得られる。
【0035】
いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、予期される胚についての1つ以上の疾患の疾患分布の確率に基づき、追加の体外受精(IVF)サイクルの推奨を生成させる、ソフトウェア命令を格納する。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、IVFサイクルの推奨を出力させる、ソフトウェア命令を格納する。いくつかの実施形態では、追加のIVFサイクルの推奨は、追加のIVFラウンドを実施するか否かを示す。いくつかの実施形態では、プロセッサおよびメモリであって、メモリは、プロセッサにより実行されると、装置にさらに、疾患分布の確率に基づき疾患発生リスクを決定させる、ソフトウェア命令を格納し、ここでIVFサイクルの推奨は、疾患発生リスクに基づく。
【0036】
さらに、予期される胚に関連する疾患分布の確率を決定するためのコンピュータプログラム製品が、本明細書で開示される。コンピュータプログラム製品は、装置により実行されると、装置に、フェージングされた母方染色体セットおよびフェージングされた父方染色体セットを生成させ、かつ目的の1つ以上の減数分裂組換え部位を決定させる、ソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。コンピュータプログラム製品は、装置により実行されると、装置にさらに、フェージングされた母方染色体セット、フェージングされた父方染色体セット、および目的の1つ以上の減数分裂組換え部位に基づき1つ以上のシミュレートされた胚遺伝子型を生成するソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。コンピュータプログラム製品は、装置により実行されると、装置にさらに、多遺伝子リスクスコアセットを生成するために1つ以上のシミュレートされた胚の遺伝子型に多遺伝子リスクモデルを適用させ、(ここで多遺伝子リスクスコアセットは、1つ以上のシミュレートされた胚の遺伝子型の各多遺伝子についてのリスクスコアを含む)、かつ多遺伝子リスクスコアセットに基づき、予期される胚について1つ以上の疾患の疾患分布の確率を決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。
【0037】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、各多遺伝子リスクスコアを多遺伝子リスクスコアに基づく疾患の相対リスクに変換させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されるときに、かつ各多遺伝子リスクスコアを疾患の相対リスクに変換するときに、装置にさらに、多遺伝子リスクスコアについてのオッズ比を、効果サイズモデルを使用して、計算させ、かつオッズ比と特定の疾患に関連する疾患の有病率に基づき疾患の相対リスクを決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。
【0038】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、各疾患について1つ以上のリスク閾値を決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、疾患に対応する1つ以上のリスク閾値を満たす疾患についての疾患分布の確率のパーセンテージを決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。
【0039】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、多遺伝子リスクスコアセット中の各多遺伝子リスクスコアを、集団データに基づき、正規化して、正規化された多遺伝子リスクスコアセットを生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備え、ここで疾患分布の確率を決定することは、正規化された多遺伝子リスクスコアセットに基づく。いくつかの実施形態では、集団データは、祖先特異的集団データを含む。
【0040】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、フェージングされた母方染色体セットおよび1つ以上の目的の減数分裂組換え部位に基づき、減数分裂組換えモデルを使用して、母方配偶子を生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を含む。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、フェージングされた父方染色体セットおよび1つ以上の目的の減数分裂組換え部位に基づき、減数分裂組換えモデルを使用して、父方配偶子を生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を含む。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、父方配偶子および母方配偶子に基づき1つ以上のシミュレートされた胚の遺伝子型を生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を含む。
【0041】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、母方対象からの母方ゲノムと父方対象からの父方ゲノムを取得させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、母方ゲノムをフェージングしてフェージングされた母方染色体セットを生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、父方ゲノムをフェージングしてフェージングされた父方染色体セットを生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、母方ゲノムまたは父方ゲノムをフェージングすることは、集団ベースの方法または分子ベースの方法の1つ以上を使用して実施される。
【0042】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、母方対象から得られた生物学的サンプルの全ゲノムシーケンスを実施させて母方ゲノムを決定するソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、父方対象から得られた生物学的サンプルの全ゲノムシーケンスを実施させて父方ゲノムを決定するソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。
【0043】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、兄弟のゲノム情報を決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、母方ゲノムおよび兄弟ゲノム情報に基づきフェージングされた母方染色体セットを生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、父方ゲノムおよび兄弟ゲノム情報に基づきフェージングされた父方染色体セットを生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。
【0044】
いくつかの実施形態では、染色体長の親のハプロタイプが、シミュレートされた各胚についてゲノム全体にわたり得られる。
【0045】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、複数の関係のない個人についての個々の遺伝子型を含む集団遺伝子型データを取得させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、母方ゲノムおよび集団遺伝子型データに基づきフェージングされた母方染色体セットを生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。コンピュータプログラム製品は、装置により実行されると、装置にさらに、父方ゲノムおよび集団遺伝子型データに基づきフェージングされた父方染色体セットを生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。
【0046】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、兄弟のゲノム情報を決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、兄弟ゲノム、母方ゲノム、および父方ゲノムに基づき目的の1つ以上の減数分裂組換え部位を決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。
【0047】
いくつかの実施形態では、兄弟ゲノム情報は、アレイ測定、次世代シーケンシング、または全ゲノムシーケンスの少なくとも1つを使用して決定され、かつ兄弟胚、完全な生物学的兄弟、または半分の生物学的兄弟の少なくとも1つから得られる。
【0048】
いくつかの実施形態では、コンピュータプログラム製品は、装置により実行されると、装置にさらに、予期される胚の1つ以上の疾患の疾患分布の確率に基づき追加の体外受精(IVF)サイクルの推奨を生成させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。コンピュータプログラム製品は、装置により実行されると、装置にさらに、IVFサイクルの推奨を出力させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備える。いくつかの実施形態では、追加のIVFサイクルの推奨は、追加のIVFラウンドを実施するか否かを示す。コンピュータプログラム製品は、装置により実行されると、装置にさらに、疾患分布の確率に基づき疾患発生リスクをさらに決定させるソフトウェア命令を格納する、少なくとも1つの非一時的コンピュータ可読記憶媒体を備え、ここでIVFサイクルの推奨は、疾患発生リスクに基づく。
【0049】
上記の簡潔な概要は、本明細書に記載されるいくつかの実施形態例を要約する目的でのみ提供される。上述の実施形態は、単なる例であるため、本発明の範囲をいかなる形でも狭めるものとして解釈されるべきではない。本開示の範囲は、上で要約したものに加えて、多くの潜在的な実施形態を包含し、そのうちのいくつかは、以下でさらに詳細に説明されることが理解されるであろう。
【0050】
特定の実施形態の例を上記の一般的な用語で説明したが、必ずしも縮尺通りに描かれていない添付の図面をここで参照する。いくつかの実施形態は、図に示されるものよりも少ないまたは多くの構成要素を含み得る。
【図面の簡単な説明】
【0051】
図1】本明細書に記載のいくつかの例示的な実施形態に従って使用されてよい、シミュレートされた胚遺伝子型について多遺伝子リスクスコアを生成するための例示的なプロセスの概要を示す。
図2A-2B】本明細書に記載のいくつかの実施形態に従って使用され得る、親サポートモデルを使用して親ゲノムをフェージングするための例示的なプロセスを示す。
図3】本明細書に記載のいくつかの実施形態に従う、隠れマルコフモデルの設定例を示す。
図4】本明細書に記載のいくつかの実施形態に従う、隠れマルコフモデルの計算例を示す。
図5】本明細書に記載のいくつかの実施形態に従う、親サポートモデルのフレームワークの一例を示す。
図6】本明細書に記載のいくつかの実施形態に従う、疾患分布の確率の操作例を示す。
図7A-7L】本明細書に記載のいくつかの実施形態に従う、非連結近似および連結近似を使用して決定される、様々な疾患についての疾患分布の確率の操作例を示す。
図8】本明細書に記載のいくつかの実施形態に従う、非連結近似値および連結近似値についての多遺伝子リスクスコア分布の例を示す。
図9】本明細書に記載のいくつかの実施形態に従い、非連結近似および連結近似を使用する、シミュレートされた胚の遺伝子型に含まれる祖先情報の例を示す。
図10】本明細書に記載のいくつかの例示的な実施形態に従い様々な操作を実施できる、例示的なデバイスの概略ブロック図を示す。
図11】本明細書に記載のいくつかの実施形態に従い、親ゲノムをフェージングするための例示的なプロセスを示す。
図12】本明細書に記載のいくつかの実施形態に従い、シミュレートされた胚の遺伝子型を生成するための例示的なプロセスを示す。
図13A-13D】実施例7に対応する様々な疾患についての疾患分布の確率の例を示す。
図14A-14B】実施例6に対応する多遺伝子リスクスコア10分位ごとの疾患オッズ比を示す。
図15】胚予測と生まれた子供からの多遺伝子リスクスコアの相関を示す。
図16】兄弟の胚について伝達されたハプロタイプのプロット例を示す。
図17】連結近似値を使用する出力に基づき1つ以上の作用を実施するためのフローチャートの例を示す。
【発明を実施するための形態】
【0052】
いくつかの例示的実施形態を、添付の図を参照して、以下でより詳細に説明する。添付の図では、いくつかの、しかし必ずしもすべてではない、実施形態が示される。本明細書に記載される発明は多くの異なる形態で実施され得るため、本発明は、本明細書に記載された実施形態のみに限定されるものではなく、むしろ、これらの実施形態は、本開示が適用される法的要件を満たすように、提供される。
【0053】
本明細書に記載される開示の多くの修正および他の実施形態が、前述の説明および関連する図面に示される教示の恩恵を有する本開示が関係する技術の専門家に想起されるであろう。したがって、実施形態は、開示される特定の実施形態に限定されるものではなく、修正および他の実施形態も添付の特許請求の範囲内に含まれると意図されることを理解されたい。さらに、前述の説明および関連する図面は、要素および/または機能の特定の例示的な組み合わせの文脈において例示的な実施形態を説明するが、要素および/または機能の異なる組み合わせが、添付の請求項の範囲から逸脱することなく、代替の実施形態により提供され得ることを理解されたい。この点に関して、例えば、本明細書に明示的に記載されるものとは異なる要素および/または機能の組み合わせもまた、添付の請求項のいくつかに記載されるように企図される。特定の用語がここで使用されるが、これらは、一般的な説明的な意味でのみ使用され、限定の目的のために使用されるものではない。
【0054】
特定の用語の定義
本明細書で使用される技術および科学用語は、別途定義されない限り、本発明が属する当業者により、より一般的に理解されるものと同じ意味を有する。以下の説明および実施例において言及される材料は、特に記載がない限り、市販の供給源から入手され得る。
【0055】
「コンピュータ可読媒体」および「メモリ」という用語は、コントローラ、マイクロコントローラ、計算システム、または計算システムのモジュールによりアクセスされ得るコンピュータ実行可能命令またはソフトウェアプログラムを保存できる、非一時的ストレージハードウェア、非一時的ストレージデバイス、または非一時的コンピュータシステムメモリを指す。非一時的コンピュータ可読媒体は、計算システムまたは計算システムのモジュールによりアクセスされて、媒体に格納されるコンピュータ実行可能命令またはソフトウェアプログラムを取得するおよび/または実行することができる。例示的な非一時的コンピュータ可読媒体としては、これらに限定されないが、1つ以上の種類のハードウェアメモリ、非一時的有形媒体(例えば、1つ以上の磁気ストレージディスク、1つ以上の光ディスク、1つ以上のUSBフラッシュドライブ)、コンピュータシステムメモリまたはランダムアクセスメモリ(DRAM、SRAM、EDORAMなど)などが挙げられる。
【0056】
「コンピューティングデバイス」という用語は、ハードウェア、ソフトウェア、ファームウェア、および/またはそれらの組み合わせで実現される任意のコンピュータを指し得る。コンピューティングデバイスの非限定的な例としては、パーソナルコンピュータ、サーバー、ラップトップ、モバイルデバイス、スマートフォン、固定端末、パーソナルデジタルアシスタント(「PDA」)、キオスク、カスタムハードウェアデバイス、ウェアラブルデバイス、スマートホームデバイス、IoT(「Internet-of-Things」)対応デバイス、およびネットワークリンクコンピューティングデバイスが挙げられる。
【0057】
「約」という用語は、理解される数値が本明細書に記載される正確な数値に限定されず、本発明の範囲から逸脱することなく、記載された数値に実質的に近い数値を指すことを意味する。本明細書で使用される「約」は、当業者により理解され、それが使用される文脈によりある程度変化する。その用語が使用される文脈から当業者には明らかでない用語の使用がある場合、「約」は、特定の用語の最大でプラスまたはマイナス10%を意味する。
【0058】
「遺伝子」という用語は、ポリペプチドをコードする、または生物体内で機能的役割を果たす、DNAまたはRNAの一続きを指す。遺伝子は、野生型遺伝子、または野生型遺伝子のバリアントまたは変異であり得る。「目的の遺伝子」は、特定の表現型、または特定の表現型のリスクと関連していることが知られているまたは知られていない、遺伝子、または遺伝子のバリアントを指す。
【0059】
「発現」という用語は、それによりポリヌクレオチドがDNA鋳型から転写される(mRNAまたは他のRNA転写物へとなど)プロセス、および/またはそれにより転写されたmRNAがその後、ペプチド、ポリペプチド、またはタンパク質へと翻訳されるプロセスを指す。遺伝子の発現は、細胞遺伝子の発現のみでなく、クローニングシステムおよび他の状況における核酸(複数可)の転写および翻訳も包含する。核酸配列がペプチド、ポリペプチド、またはタンパク質をコードする場合、遺伝子発現は、核酸(例えば、DNAまたはRNA、例えばmRNA)および/またはペプチド、ポリペプチド、またはタンパク質の生成に関する。したがって、「発現レベル」は、サンプル中の核酸(例えば、mRNAなど)またはタンパク質の量を指し得る。
【0060】
「ハプロタイプ」という用語は、単一の先祖(父親、母親、祖父、祖母など)から、一緒に受け継がれる、または一緒に受け継がれと予想される遺伝子または対立遺伝子の群を指す。「先祖」という用語は、対象がその系統である人物、または胚の場合は潜在的な対象がその系統であろう人物を指す。好ましい態様では、先祖は、ヒト対象などの哺乳動物対象を指す。
【0061】
データ収集
本明細書に記載の方法による分析のための遺伝物質は、体細胞(例えば、白血球、組織生検からの細胞)、生殖細胞(例えば、精子、卵子、極体)を含む、様々な供給源から得られ得る。遺伝物質は、予期される胚の遺伝的親族(例えば、生物学的母親、生物学的父親、生物学的兄弟、兄弟の胚、祖父母など)から収集され得る。いくつかの実施形態では、ゲノムDNAは、父方対象、母方対象、兄弟対象(例えば、生まれた子供)、祖父母の対象などにより提供される全血または唾液サンプルから抽出され得る。
【0062】
シミュレートされた胚遺伝子型の生成-連結アプローチ
上に記載のとおり、シミュレートされた胚の遺伝子型を生成するために連結アプローチを使用することは有利であり得、これにより染色体長の親のハプロタイプを、シミュレートされた胚のゲノム全体にわたり決定でき得るようになる。さらに、連結アプローチを使用することは、兄弟の胚の間で起こり得る遺伝子型の範囲(したがってPRSスコア)をより正確にシミュレートし、かつゲノム祖先の構成(これは、非連結遺伝子型を使用すると失われる)を維持し、これによりローカル祖先(local ancestry)アプローチがリスクスコアリングに適用されることを可能にする。いくつかの実施形態では、連結近似の特定の操作は、「Whole-genome risk prediction of common diseases in human preimplantation embryos.」(Nat Med28,513-516(2022).Kumar et al.,2022年3月21日に発表され、その全体が参照により本明細書に組み込まれる)の方法に従い、実施され得る。
【0063】
図1では、シミュレートされた胚の遺伝子型を生成する、かつその後、予期される胚の疾患分布の確率を予測するために実施される様々な操作の概要を示す。これらの操作は、下でさらに詳細に概説される。操作102~106は、予期される胚について可能性のある遺伝子型を表すシミュレートされた胚遺伝子型を生成するために実施され得る。操作108を次に、シミュレートされた胚の遺伝子型に対し実施して、シミュレートされた胚の遺伝子型についてPRSスコア(例えば、疾患リスク)を決定できる。操作102~108は、1つ以上のシミュレートされた胚遺伝子型が予期される胚について生成され得るように、所望の回数繰り返される。いくつかの実施形態では、閾値数のシミュレートされた胚の遺伝子型が必要とされ得る。いくつかの実施形態では、少なくとも10個以上のシミュレートされた胚の遺伝子型が、必要とされ得る。PRSが次に、シミュレートされた各胚の遺伝子型について生成され、PRSを使用して、予期される胚について疾患分布の確率を決定し得る。
【0064】
シーケンシング
様々な分子ベースのフェージング方法が、当技術分野において周知であり、文脈により別途指示されない限り、本明細書に記載の方法を実施するために使用され得る。ショットガンシーケンシングは、ゲノムまたは大規模遺伝子サンプルからランダムなDNA鎖を配列決定する方法を指す。DNAを、多数の小セグメントへとランダムに切断し、それらを配列決定して(例えば、鎖終結法を使用して)、リードを得る。ターゲットDNAについて複数の重複するリードが、この断片化および配列決定を数ラウンド実施することにより得られる。計算アルゴリズムは次に、異なるリードの重複する末端を使用して、連続する配列へとランダムセグメントのリードを統合する。ショットガンシーケンスは、全ゲノムシーケンスに使用されてよい。本明細書に記載のものを含む、任意の好適な形態のシーケンシングが、対象におけるバリアント(例えば、SNP)を同定するために使用され得、それはその後、本明細書の他の箇所に記載されるとおり、そのバリアントを含む染色体セグメントについての倍数性状態を示す遺伝子シグナルを測定するための基礎として使用され得る。本発明の特定の態様により、階層化シーケンスは、全ゲノムシーケンスに使用され得る。いくつかの実施形態では、親ゲノム配列のフェージングは、その内容が全体として本明細書に参照により組み込まれる、2021年4月8日公開の国際公開第2021/067417号(Kumar et al.,)の方法に従い実施され得る。
【0065】
いくつかの実施形態では、DNAシーケンシングは、例えばサンガーシーケンシング(連鎖終結シーケンシング)を含み得る。DNAシーケンシングは、次世代シーケンシング(NGS)または第二世代シーケンシング技術の使用を含み得、これは典型的には、非常に拡張できることにより特徴づけられ、ゲノム全体が一度に配列決定されることを可能にする。NGS技術は通常、複数の断片が一度に配列決定されることを可能にし、自動化されたプロセスにおける「大規模並列」シーケンシングを可能にする。DNAシーケンシングは、第三世代シーケンシング技術(例えば、ナノポアシーケンシングまたはSMRTシーケンシング)を含み得、これは一般に、第二世代シーケンシング技術により得られるものよりも長いリードを得ることを可能にする。シーケンシングは、実現可能であれば、DNA断片の両端の配列決定を行う、ペアエンドシーケンスを含み得、これは、リードをより長い配列に並べる能力を改善し得る。DNAシーケンシングは、合成/ライゲーション(例えば、ILLUMINA(登録商標)シーケンシング)、単一分子リアルタイム(SMRT)シーケンシング(例えば、PACBIO(登録商標)シーケンシング)、ナノポアシーケンシング(例えば、OXFORD NANOPORE(登録商標)シーケンシング)、イオン半導体シーケンシング(Ion Torrent シーケンシング)、コンビナトリアルプローブアンカー合成シーケンシング、パイロシーケンシングなどによるシーケンシングを含んでよい。
【0066】
いくつかの態様では、フェージングは、リンクリードシーケンス(linked-read sequencing)、ロングフラグメントリード、フォスミドプールベースのフェージング、連続性保存トランスポゾンシーケンス、全ゲノムシーケンス、Hi-C法、希釈ベースのシーケンス、ターゲットシーケンス(HLAタイピングなど)、またはマイクロアレイから生成されたデータを使用する。
【0067】
いくつかの態様は、フェージングをガイドするための足場を提供するために、独立して得られたスパースフェージング遺伝子型(sparse phased genotype)の使用を含む。HapCUT、SHAPEIT、MaCH、BEAGLE、またはEAGLEなどのコンピュータソフトウェアを使用して、先祖の遺伝子型をフェージングできる。
【0068】
集団ベースのフェージングは、1000人GenomesまたはHaplotype Reference Consortiumなどの参照パネルを使用して、遺伝子型をフェージングしてよい。場合によっては、フェージングの精度は、祖父母、兄弟、または子供などの親族の遺伝子型データの追加により改善され得る。
【0069】
フェージングされた親の遺伝子型の生成
シミュレートされた胚の遺伝子型を生成するためのプロセスを開始するために、、フェージングされた母方染色体セットおよびフェージングされた父方染色体セットが、それぞれ、母方対象および父方対象に対して生成され得る。それぞれの染色体セットは、相同染色体対に対応する1つ以上の染色体を含み得る。フェージングされた母方の染色体セットおよびフェージングされた父方の染色体セットは、上述の集団ベースおよび/または分子ベースの方法などの様々な方法を使用して、それぞれ、母方対象および父方対象に関連付けられたゲノムのフェージングにより生成され得る。
【0070】
母方ゲノムおよび父方ゲノムの両方が、完全にフェージングされ得る。それぞれの親ゲノムは、全ゲノムシーケンス(WGS)を使用して、フェージングされ得る。いくつかの実施形態では、各親ゲノムは、親サポートモデルを使用して、フェージングされる。親サポートモデルは、米国特許第8,515,679号(Rabinowitz et al.,)(その全体が参照により本明細書に組み込まれる)に記載される方法と同様の方法を用いて、染色体コピー数、挿入および欠失、胚の遺伝子型、親のハプロタイプならびに胚の親のハプロタイプ起源仮説の正確な予測を可能にするために、1つ以上の既存の胚および親からのSNPアレイ測定と、データベース(例えば、HapMap)からの組換え頻度を組み合わせる方法を説明する。親サポートモデルは、それぞれの親配偶子の減数分裂中の減数分裂組換え部位をシミュレートする、1つ以上の減数分裂組換えモデルを含み得る。
【0071】
親ゲノム全体の再構築のために、2つのデータソースが必要とされる。第一に、予期される親の全ゲノムシーケンスが、以下に説明するように、必要とされる。第二に、兄弟のゲノム情報もまた、必要とされる。兄弟のゲノム情報は、様々な方法で取得され得る。いくつかの実施形態では、兄弟のゲノム情報は、SNPマイクロアレイ遺伝子型、次世代シーケンシング(NGS)などにより兄弟の胚から取得され得る。いくつかの実施形態では、兄弟のゲノム情報は、WGSなどにより、完全な生物学的兄弟または半分の生物学的兄弟から取得されてよい。本明細書では、兄弟のゲノム情報は、いくつかの例示的な実施形態において、兄弟の胚に関して決定されるものとして説明され得るが、完全な生物学的兄弟および/または半分の生物学的兄弟などの兄弟のゲノム情報の代替的供給源が、兄弟の胚に加えてまたは兄弟の胚の代わりに使用され得ることは、当業者に理解されるであろう。SNPマイクロアレイジェノタイピングを使用して兄弟のゲノム情報を決定する場合、胚生検は限られた量のDNAしか生じないため、増幅が必要とされる。
【0072】
兄弟ゲノムデータを図2Aに示す。図2Aでは、各SNPでの対立遺伝子測定値は、この実施例において親の起源のハプロタイプに基づきパターンコード化される。
【0073】
図2Bに示すとおり、親サポートモデルは、データソース(例えば、親からのWGSおよび1つ以上の兄弟胚からのSNPマイクロアレイジェノタイピング(例えば、ゲノム情報))を受け取り処理して、1つ以上の出力を生成し得る。1つ以上の出力は、フェージングされた親ゲノム(例えば、フェージングされた母方ゲノムおよびフェージングされた父方ゲノムの両方)、親の起源の仮説、および兄弟の胚の遺伝子型を含み得る。親サポートモデルは、数十万の位置にわたり精度を改善するために兄弟の遺伝子型および親の遺伝子型の測定値を考慮する、隠れマルコフモデル(HMM)であってよい。表1は、親サポートモデルの入力および出力をさらに詳細に概説する。
【表1】
【0074】
図3は、親サポートモデルの設定例を示し、図4は、親サポートモデルの出力例を示す。いくつかの実施形態では、減数分裂交差をサポートする親サポートモデルの完全な実装は、順方向-逆方向(FBA)アルゴリズムが実装されたHMMを含む。
【0075】
HMMは、統計的マルコフモデルであり、そこでモデル化されるシステムは、観測不可能な(すなわち隠れた)状態{x}を有する、「時間」tによるマルコフ過程Xtであると想定される。このアプローチは、観測可能な状態{y}を有する別のプロセスYtが存在し、その時間の経過に伴う動作はXに依存する、ということを想定する。目標は、Yを観察することによりXについて理解することである。HMMでは、各時間インスタンスtについて、Ytの条件付き分布は、確率P(y|x)=P(Yt=y|Xt=x)を介して、Xtのみに依存する、ということが想定され得る。この確率が、出力確率である。観測可能な配列Y=(Y1,...,Yn)の確率は、ベイズの定理により、P(Y)=ΣXP(Y|X)P(X)と表記され得る。
【0076】
図4はさらに、事後確率P(Xt=x|(y1,..,yn))、すなわち観測された状態(y1,..,yn)が与えられた場合に、時間tでの観測不可能な状態xの確率を示す。フォワードアルゴリズムは、隠れ状態xと(y1,..,yt)の結合確率A(x,t)=P(Xt=x,y1,..,yt)をA(x,t)=P(Yt=yt|Xt=x)*ΣzP(x|z,t)*A(z,t-1)として計算し、したがって、図3に示すとおり、順序tの問題を順序t-1の問題に換算する。P(x|z,t)は、時間tでの隠れ状態遷移確率と呼ばれる。時間nでの任意の隠れ状態xの事後確率はしたがって、P(x|(y1,..,yn))~A(x,n)である。
【0077】
上記を考慮して、図5は、親サポートモデルのHHMフレームワークを示す。親サポートモデルの場合、胚は、減数分裂組換え(HapMapなどのデータベースから推定される確率)が2つのSNP間で起こっていない限り、連続SNP上の同じ親の相同体から対立遺伝子を受け継ぐという事実を組み込む。遺伝子型確率の結合分布はしたがって、アレイデータ、アレイデータにより示唆される個々の胚の遺伝子型、および様々な胚間での遺伝子型の分布を生成できる親のハプロタイピングを組み合わせる。連続SNPは、「時間」tを表す。このアプローチは、アレイ上のすべての部位において、各染色体全体に個々に適用される。染色体あたりのSNPの数は、約4,300(例えば、染色体21)~23,700(例えば、染色体2)の範囲である。このアプローチは、ゲノムの小さい領域のかわりに、染色体全体にわたり行われ得る。これは、ビン内およびビン間の交差、および問題のあるゲノムセクションの推論を可能にする。
【0078】
以下の表2は、図5に示す親サポートモデルからの様々なパラメータおよび出力をさらに示す。
【表2】
【0079】
図4に示す遷移確率は、連続SNP間の減数分裂組換えをモデル化するために使用され得る。SNP t-1での状態zからSNPtでの状態xへの遷移確率は、次のようにモデル化される:
【数1】
【0080】
式1において、P(MG,t)およびP(FG,t)は、大規模なトレーニングデータセットおよび対立遺伝子頻度公開データベースから得られるSNP tでの親ハプロタイプ集団の事前分布である。P(MH|MHz,t)およびP(FH|FHz,t)は、仮説遷移確率であり、SNP間の減数分裂交差の可能性をシミュレートするデータベース(例えば、HapMap)から、SNPt-1とt間の交差確率を介して導出される。具体的には、遷移確率は、P(H1|H1,t)=P(H2|H2,t)=1-ct(例えば、交差は発生しない)およびP(H1|H2,t)=P(H2|H1,t)=ct(例えば、交差が発生した)として表され得る。ここでctは、SNP t-1とt間の交差確率である。
【0081】
図4にも示される出力確率は、親サンプルまたは兄弟サンプルの配列決定におけるマイクロアレイ測定におけるノイズを考慮するために使用され得る。具体的には、出力確率は、真の遺伝子型Gである場合のチャネルごとのデータ尤度のSNPごとの積である:P(データ|遺伝子型=G)=P(チャネルAのデータ|G)*P(チャネルBのデータ|G)。2つの異なるアプローチが、チャネルデータの尤度をモデル化するために使用され得る。第1のアプローチでは、簡略化された離散出力モデルが、使用される。
【0082】
離散出力モデルの場合、チャネル非依存行列積は、式2を用いて得られる:
【数2】
【0083】
ここで、dinは、ドロップイン率、doutは、ドロップアウト率である。この積は、表3に示すとおり、真の遺伝子型Gおよび測定された遺伝子型gの対立遺伝子A、Bの数に基づく。ドロップイン(din)およびドロップアウト(dout)レートパラメータは、マイクロアレイ強度データを用いて、個別に適合される。いくつかの実施形態では、ゲノムデータのドロップイン率は0.1%に設定され得、ゲノムデータのドロップアウト率は0.15%に設定され得る。
【表3】
【0084】
第2のアプローチは、より複雑な連続出力モデルである。連続出力モデルの場合、2次元尤度P(データ|G)=P(チャネルA測定|G)*P(チャネルB測定|G)が使用され、ここで各チャネル尤度は、特定の遺伝子型Gの既知の連続分布によりパラメータ化される。分布パラメータは、遺伝子型Gをもたらす親のコンテキストの胚マイクロアレイ測定を使用して、各カップルに適合される。
【0085】
親サポートモデルから得られる出力は、フェージングされた母方染色体セットとフェージングされた父方染色体セットであり得る。
【0086】
シミュレートされた親配偶子の生成
フェージングされた母方染色体セットおよびフェージングされた父方染色体セットが生成されると、減数分裂組換えモデルを使用して、フェージングされた母方染色体セットに基づく母方配偶子、およびフェージングされた父方染色体セットに基づく父方配偶子を生成し得る。さらに、減数分裂組換えモデルは、1つ以上の目的の減数分裂組換え部位に基づき、母方配偶子および父方配偶子を生成し得る。
【0087】
いくつかの実施形態では、母方配偶子および父方配偶子は、図2A図2Bにおいて上述されるように親サポートモデルを使用すること、および/または1つ以上の減数分裂組換えモデルを使用する(これらは、親サポートモデルに含められてよい)ことなどにより、ソフトウェアベースのアプローチを使用してシミュレートされ得る。いくつかの実施形態では、目的の減数分裂組換え部位(例えば、ブレークポイントとして表される)は、ソフトウェアベースのアプローチを使用して導出され得る。それぞれのフェージングされた親染色体セット(例えば、母方染色体セットまたは父方染色体セット)を次に、目的の減数分裂組換え部位で交差させて、対応する親配偶子(例えば、母方配偶子または父方配偶子)を生成する。
【0088】
シミュレートされた胚遺伝子型の生成
母方配偶子および父方配偶子が生成されると、これらの配偶子を組み合わせて、シミュレートされた胚の遺伝子型を生成し得る。上述のとおり、上記の操作は、所望の回数繰り返されてよく、これにより1つ以上のシミュレートされた胚遺伝子型が予期される胚について生成され得る。いくつかの実施形態では、閾値数のシミュレートされた胚遺伝子型が、下流の疾患確率の決定における信頼性を高めるために必要とされ得る。例えば、いくつかの実施形態では、少なくとも10個以上のシミュレートされた胚の遺伝子型が、必要とされ得る。PRSが次に、シミュレートされた各胚の遺伝子型について生成され得、PRSを使用して、以下でさらに説明するように、予期される胚の疾患分布の確率を決定し得る。
【0089】
多遺伝子リスクスコアの決定
多遺伝子リスクスコアリング
上述のように1つ以上のシミュレートされた胚の遺伝子型が生成されると、多遺伝子リスクモデルを、シミュレートされた各胚の遺伝子型に適用して、対応するシミュレートされた胚の遺伝子型について、多遺伝子リスクスコア(PRS)(多遺伝子スコア(PGS)または遺伝的リスクスコア(GRS)とも呼ばれる)を生成し得る。1つ以上のPRSが、PRSセットに格納されてよい。PRSは、シミュレートされた胚の遺伝子型の遺伝子構成を有する胚について特定の状態のリスクを示し得る。PRSは、シミュレートされた胚の遺伝子型(先行ゲノムから継承されたもの)中に疾患を引き起こすバリアントが存在するか否かを決定する。特定の疾患を引き起こすバリアントの存在または不在は、疾患感受性を上昇させ得る。疾患を引き起こすバリアントとしては、例えば、一塩基バリアント(SNV)、小さいDNA塩基の挿入または欠失(インデル)、および/またはコピー数バリアント(CNV)が挙げられる。
【0090】
特に、多遺伝子リスクモデルは、以下に説明する式3を用いて、シミュレートされた胚の遺伝子型について多遺伝子リスクスコアを生成し得る。
【数3】
【0091】
式3において、βiは、SNPiの関連対立遺伝子の対数オッズ比であり、xiは、SNPiの対立遺伝子量であり、nは、多遺伝子リスクモデルに含まれるSNPの総数である。
【0092】
表4は、白斑PRSを計算するために使用される様々な疾患を引き起こすバリアントに関連する対数オッズ比の例を示す。
【表4】
【0093】
正規化
いくつかの実施形態では、各PRSは、1つ以上の正規化方法を使用して正規化され得る。いくつかの実施形態では、各PRSは、集団データに基づき正規化される。いくつかの実施形態では、集団データは、祖先特異的集団データであり得る。祖先特異的集団データは、特定の祖先について収集された集団データであり得る。いくつかの実施形態では、シミュレートされた胚遺伝子型の1つ以上のハプロタイプが、各ハプロタイプについて対応する祖先を同定するためにを評価され得る。最大部分(例えば、最大の割合)を有する祖先が、シミュレートされた胚の遺伝子型に対し選択され、その祖先に対応する祖先特異的集団データが、シミュレートされた胚の遺伝子型に対し選択され得る。それにより、シミュレートされた各胚の遺伝子型は、祖先を考慮したデータを用いて正規化され得る。
【0094】
正規化の方法の一例は、標準スコア正規化であり、これは式4で表され得る。
【数4】
【0095】
式4において、zは、正規化されたPRSであり、xは、生のPRS(式1を用いて決定される)であり、μは、一致する集団についての平均であり、σは、一致する集団についての標準偏差である。
【0096】
追加的にまたは代替的に、PRSは、以下の式5に示すとおり、PRSを中心化すること、および中心化されたPRSを標準偏差で割ることにより、正規化され得る。
【数5】
【0097】
式5において、zは、正規化されたPRSであり、PRScenteredは、中心化されたPRSであり、σは、1000人ゲノムプロジェクトに記載される集団などの、シミュレートされた胚の遺伝子型に最も密接に関連する集団の標準偏差である。中心化されたPRS値は、式6および7に示すとおり、対照個体(例えば、目的の表現型を有しない個体)における最初の4つの主成分(PC)スコアに対するPRSの線形回帰から予測されるPRS値を差し引くことにより決定され得る。
【数6】
【0098】
式7において、βiは、SNPiの関連対立遺伝子についての対数オッズ比であり、(PC)iは、線形回帰を用いて決定される対応する主成分スコアである。式6では、xは、PRS値であり、xpredは、予測されるPRS値である。
【0099】
疾患分布決定の確率
1つ以上のPRSを決定した後(およびいくつかの実施形態では、正規化の後)、シミュレートされた胚の遺伝子型についての各PRSを使用して、予期される胚について疾患分布の確率を決定し得る。いくつかの実施形態では、疾患分布の正確な確率を決定するために、閾値数のシミュレートされた胚遺伝子型が必要とされ得る。いくつかの実施形態では、少なくとも10個以上のシミュレートされた胚の遺伝子型が、必要とされ得る。
【0100】
さらに、1つ以上のリスク閾値が、目的の各疾患について決定され得る。いくつかの実施形態では、リスク閾値は、平均疾患リスクよりも高いリスクと関連付けられるPRS値(または、以下でさらに論ずる相対リスク値)であってよい。リスク閾値は、臨床データまたは他のデータを用いて決定され得る。
【0101】
相対リスクへの変換
1つ以上のPRSを決定した後で、かつ正規化の後で、各PRSは、疾患の相対リスク(RR)に変換され得る。RRは、効果サイズモデルを使用して決定され得る。効果サイズモデルは、各PRSを受け取り、式8に従ってPRSについて対応するオッズ比を決定する。
【数7】
【0102】
式8において、zscoreは、上記のように正規化されたPRSであり、Β_PRSは、PRSの対数オッズ比である。効果サイズモデルは次いで、式9に従いRRを決定し得る。
【数8】
【0103】
式9において、prevは、疾患の有病率である。PRSがRRに変換されると、疾患分布の確率は、PRSの代わりにRRを用いて表され得る。
【0104】
図7A~7Kは、様々な疾患について、RRを用いる疾患分布の確率の実施例の追加例を示す。さらに、図7A~7Kでは、非連結アプローチ法および連結アプローチ法の両方が、疾患分布の確率を生成するために使用される。同様にここで、矢印は、実際の胚について決定されたそれぞれの疾患の予測されるリスクを表す。図7A~7Kに示すとおり、いくつかの実施例では、非連結アプローチは、クローン病についての疾患分布の確率を示す図7Aでのように、連結アプローチにかなり近くへと疾患分布の確率を接近させる。しかし、多くの他の場合、非連結アプローチにより決定される疾患分布の確率は、1型糖尿病の疾患分布の確率を示す図7Jでなどの、連結アプローチにより決定される疾患分布の確率から顕著にそれる。上述のとおり、この発散は、非連結アプローチが、一緒に伝達されしたがって協調的にリスクを増大させる、同じハプロタイプ上で連結されるリスクに寄与するバリアントを考慮できないことによる。
【0105】
図8は、非連結近似値および連結近似値のスコア分布の例を示す。連結近似値がPRSの決定に与える影響をよりわかりやすく示すために、2つの部位を有する簡略化されたモデルを考慮してもよい。それぞれの親は、両方の部位において、ヘテロ接合性であり得る(0/1)。非連結近似では、子供が遺伝子型0/0、0/1、および1/1を有する確率は、それぞれ0.25、0.5、および0.25である。各リスク対立遺伝子の重みは、図8に示す非連鎖スコア分布を得るために0.5であると想定され得る。連結アプローチでは、これらの2つの部位は、連結されかつ単一の部位へと縮小できると想定される。ここでリスク対立遺伝子の重みは、図8に示す連結スコア分布を得るために、1である。図8に示すとおり、平均PRSは同じであり得るが、PRSの分布は、連鎖を考慮すると変化する。
【0106】
さらに、図9は、コンテキスト上、祖先情報の伝達に関して、シミュレートされた胚の遺伝子型に対する非連結アプローチおよび連結アプローチの影響をさらに示す。非連結アプローチでは、シミュレートされた胚の遺伝子型への父親の寄与は曖昧であり、それによりPRS予測リスクに人為的な変化を生じ得る。逆に、連結アプローチでは、ローカル祖先が維持され、したがってPRSモデルがリスクスコアリングを決定する際にローカル祖先アプローチを考慮することを可能にする。
【0107】
疾患発生リスク
疾患分布の確率が予期される胚について決定されると、1つ以上の疾患についての発生リスクもまた、予期される胚について決定され得る。発生リスクは、疾患分布の確率および1つ以上の閾値に基づき決定され得る。1つ以上の閾値は、疾患の高リスクに関連するPRSを区分する1つ以上のPRS閾値および/またはRR閾値であってよい。閾値を満たす(例えば、閾値を超える)シミュレートされた胚の遺伝子型の割合は、予期される胚についての発生リスクを決定するために使用され得る。発生リスクは、連結近似を用いて決定されるシミュレートされた胚の遺伝子型に基づき、予期される胚において発生する特定の疾患の尤度を示し得る。
【0108】
例えば、図6は、白斑についてのRRを用いる疾患分布の確率の例を示す。図6に示すとおり、シミュレートされた胚の遺伝子型を使用して決定された、予期される胚についての疾患リスク分布(例えば、白斑)は、上記のように生成され処理された。図6はさらに、三角形を示し、これは、提供され配列決定されたサンプルに基づき計算された親RRを表す。さらに、矢印は、実際の胚について白斑の予測されるリスクを示す。点線は、高い疾患リスクに関連するPRSを区別するために使用される閾値である。図6に示される、結果として得られる疾患分布の確率は、胚の93%がRR閾値3を下回るRRを有するであろうこと、および胚の7%が閾値以上のRRを有するであろうことを示唆する。したがって、予期される胚についての発生リスクは、7%であり得る。そのため、家族、医療提供者、および他の関係者は、予期される胚が高リスクの白斑に関連する遺伝子型を有するリスクは比較的低いことを知らされ得る。
【0109】
実装例
連結近似の実装の一例は、臨床現場内である。特に、多遺伝子障害について着床前遺伝子検査(PGT-P)を実施する臨床現場である。典型的には、IVFを受ける女性はしばしば、必要とされる数よりも多い、移植に利用可能な胚を有する。これは、妊娠が成功する可能性を最大化するのみでなく、母親またはその家族メンバーのいずれかに影響を与える疾患を子供に移す可能性を最小限に抑える機会も与える。胚の疾患リスクを予測することは、一般的な疾患および稀な疾患の大部分を含む、遺伝的成分を有するあらゆる疾患について可能である。
【0110】
着床前遺伝子検査はすでに、胚生検片を得ることを伴う異数性スクリーニング(PGT-A)のために、日常的に実施されている。このプロセスで収集された胚細胞は次いで、シーケンシングまたはマイクロアレイ技術により遺伝子型決定されて、特定の胚について一般的な疾患リスク(PGT-P)を予測するために必要とされる塩基対レベルの情報を収集し得る。これらの予測に基づき、IVFクリニックは次いで、高められた疾患リスクを保持しない胚を移植用に選択できる。
【0111】
しかし、場合によっては、IVFの特定のラウンドは、すべてが高い疾患のリスクを有すると決定される胚を生成し得る。図17の例のフローチャートに示すとおり、第1のIVFサイクル(例えば、サイクル1)が、カップルに対して実施され得、PGT-Pが、操作1702に示すとおり、各胚について疾患のリスクを推測するために使用され得る。操作1704では、PGT-Pの結果に基づき、すべての胚が1つ以上の疾患について高リスクであるか否かを決定できる。胚の1つ以上が、1つ以上の疾患についてリスクが高くないと決定されると、それらの胚は、移植用に選択され、追加のIVFサイクルは必要とされず、これによりこのプロセスは、操作1712に進み得る。
【0112】
すべての胚が高リスクである場合、プロセスは、操作1706に進み、そこで予期される胚が、上記の連結アプローチを使用してシミュレートされ得る。操作1708では、予期される胚についての発生リスクが1つ以上の閾値を満たすか否かが決定され得る。例えば、50%の閾値が、50%以下である値を有する発生リスクが閾値を満たすように、設定され得る。50%を超える発生リスクが予期される胚について決定されると、閾値は満たされない。
【0113】
発生リスクが1つ以上の閾値を満たさない場合、プロセスは、操作1712に進む。操作1710では、追加のIVFラウンド(例えば、サイクル2)は、推奨されない場合がある。この推奨は、高い疾患リスクを有しない(例えば、PGT-Pから決定される)予期される胚の成功の可能性がほとんどない場合に起こり得る。
【0114】
発生リスクが1つ以上の閾値を満たす場合、プロセスは、操作1710に進む。操作1710では、PGT-PによるIVFの2回目のサイクル(例えば、サイクル2)が推奨されると決定され得る。
【0115】
結果にかかわらず、IVFの追加のラウンドの推奨のいずれかが、臨床従事者(医師、看護師、産科医など)、遺伝学者、患者などに出力され得、これにより次の行動方針の決定に関与する当事者が、IVFの別のラウンドのリスクおよび潜在的な成功率についてよりよく知らされ得る。連結アプローチは、シミュレートされた胚の遺伝子型間で予測リスクに大きな相違がある場合に特に有益であり得る。
【0116】
実装システムの例
ここに記載する方法は、様々なシステムで実装され得る。例えば、いくつかの実施形態では、本システムは、フェージングされた親染色体セットを生成するため、目的の組換え部位を決定するため、1つ以上のシミュレートされた胚の遺伝子型を生成するため、多遺伝子リスクモデルを1つ以上のシミュレートされた胚の遺伝子型に適用するため、疾患分布の確率を決定するためなどに使用され得る。
【0117】
本システムは、1つ以上のシステムデバイスを備え得、これは、図10で装置1000として示されるように、1つ以上のコンピューティングデバイスまたはサーバーにより実現され得る。図10に示すとおり、装置1000は、プロセッサ1002、メモリ1004、および通信ハードウェア1006を備え、それらのそれぞれは、以下に詳細に記載される。様々な構成要素は単に、装置1000と接続されているとして図10で示されるが、装置1000は、装置1000の様々な構成要素の任意の組み合わせの間で情報を渡すためのバス(図10では明示的に示されない)をさらに備え得ることが理解されるであろう。装置1000は、上述の様々な操作を実行するように構成され得る。
【0118】
プロセッサ1002(および/またはプロセッサを支援するかまたはさもなければプロセッサと関連付けられるコプロセッサまたは任意の他のプロセッサ)は、装置の構成要素間で情報を渡すために、バスを介してメモリ1004と通信され得る。プロセッサ1002は、多数の異なる方法で実現され得、例えば、独立して実施するように構成される1つ以上の処理デバイスを備え得る。さらに、プロセッサは、ソフトウェア命令、パイプライン処理、および/またはマルチスレッド処理の独立した実行を可能にするためにバスを介してタンデムに構成される1つ以上のプロセッサを備え得る。「プロセッサ」という用語の使用は、シングルコアプロセッサ、マルチコアプロセッサ、装置1000の複数のプロセッサ、リモートまたは「クラウド」プロセッサ、またはそれらの任意の組み合わせを含むと理解され得る。
【0119】
プロセッサ1002は、メモリ1004に格納されるソフトウェア命令またはさもなければプロセッサにアクセス可能なソフトウェア命令(例えば、別のストレージデバイスに格納されるソフトウェア命令)を実行するように構成され得る。場合によっては、プロセッサは、ハードコードされた機能を実行するように構成され得る。したがって、ハードウェアまたはソフトウェアの方法により構成されるか、またはハードウェアとソフトウェアの組み合わせにより構成されるかにかかわらず、プロセッサ1002は、それに応じて構成されながら、本発明の様々な実施形態に従い操作を実施できるエンティティ(例えば、回路で物理的に具現化される)を表す。あるいは、別の例として、プロセッサ1002がソフトウェア命令の実行者として具体化される場合、ソフトウェア命令は、プロセッサ1002を、ソフトウェア命令が実行されると本明細書に記載のアルゴリズムおよび/または操作を実施するように、具体的に設定し得る。
【0120】
メモリ1004は、非一時的であり、例えば、1つ以上の揮発性メモリおよび/または不揮発性メモリを備えてよい。換言すれば、例えば、メモリ1004は、電子記憶装置(例えば、コンピュータ可読憶媒体)であってよい。メモリ1004は、本明細書で企図される実施形態例に従い、装置が様々な機能を実施できるようにするための、情報、データ、コンテンツ、アプリケーション、ソフトウェア命令などを格納するように構成され得る。
【0121】
通信ハードウェア1006は、装置1000と通信するネットワークおよび/または任意の他のデバイス、回路、またはモジュールから/へとデータを受信するおよび/または送信するように構成される、ハードウェアまたはハードウェアとソフトウェアの組み合わせのいずれかで実現されるデバイスまたは回路などの、任意の手段であり得る。この点に関して、通信ハードウェア1006は、例えば、有線または無線通信ネットワークとの通信を可能にするネットワークインターフェイスを含み得る。例えば、通信ハードウェア1006は、1つ以上のネットワークインターフェイスカード、アンテナ、バス、スイッチ、ルータ、モデム、ならびに支援ハードウェアおよび/もしくはソフトウェア、またはネットワーク経由の通信を可能にするのに好適な任意の他のデバイスを備え得る。さらに、通信ハードウェア1006は、このような信号をネットワークに送信させるための、またはネットワークから受信される信号の受けとりを処理するための処理回路を備え得る。
【0122】
通信ハードウェア1006は、ユーザに出力を提供するように構成され得、いくつかの実施形態では、ユーザ入力の指示を受信するように構成され得る。通信ハードウェア1006は、ディスプレイなどのユーザーインターフェイスを備え、かつWebブラウザ、モバイルアプリケーション、専用ユーザーデバイスなどの、ユーザーインターフェイスの使用を制御する構成要素もさらに備え得る。いくつかの実施形態では、通信ハードウェア1006は、キーボード、マウス、タッチスクリーン、タッチ領域、ソフトキー、マイク、スピーカー、および/または他の入出力機構を備え得る。通信ハードウェア1006は、プロセッサ1002を使用して、プロセッサ1002にアクセス可能なメモリ(例えば、メモリ1004)に格納されたソフトウェア命令(例えば、アプリケーションソフトウェアおよび/またはファームウェアなどのシステムソフトウェア)を介してこれらのユーザーインターフェイス要素の1つ以上の機能を制御し得る。
【0123】
実施例
実施例1
体外受精した胚の着床前遺伝子検査(PGT)を実施して、10組のカップルにわたり110個の胚における継承されたゲノム配列を推測し、かつ12の一般的な状態にわたりる感受性をモデル化した。シミュレートされた予期される胚をその後、生まれた子供のゲノム配列と比較し、かつ多遺伝子リスクスコアを計算することおよび疾患リスクに対し大きな影響を有する希少バリアントの継承を推測することにより、一般的な疾患リスクを予測するためにまた使用した。
【0124】
表5は、各カップル(それぞれがめいめいのケース識別子に割り当てられる)の概要を示す。各ケースについてのパフォーマンスを、シミュレートされた胚の遺伝子型を生まれた子供のDNA遺伝子型と比較することにより決定した。表5に示すとおり、多遺伝子予測に使用した部位で、5日目の胚では99.0~99.4%の、3日目の胚では97.2~99.1%の範囲の精度が得られた。ケース1は、3日目の胚のみを含み、ケース2は、3日目の胚および5日目の胚の両方を含む。すべての他のケースは、5日目の胚のみを含んだ。統計を、生まれた子供における遺伝子型(ヘテロ接合型またはホモ接合型)別に分類する。胚生検からのPGTを、3個~33個の胚にわたり、HumanCytoSNP-12 BeadChipアレイで民間の研究所(例えば、Natera、旧Gene Security Network)により実施した。カバレッジおよび精度を、親および生まれた子供における信頼性の高い遺伝子型のコールであるゲノム位置において評価した。
【表5】
【0125】
さらに、図15は、シミュレートされた胚予測と生まれた子供からのPRSの相関を示す。図15の最初のグラフは、予測された生のPRSと測定された(出生児の)生のPRSの密接な相関を示しており、予測された多遺伝子リスクと測定された多遺伝子リスクの間の遺伝子型の一致と矛盾しない。
【0126】
図15の2番目のグラフは、生のPRSから導出された予測されたZスコアと測定されたZスコアの相関を示す(r2=0.947)。家族5および9は、集団祖先を用いる平均中心多遺伝子リスクへのアプローチが混合を考慮できないため、この分析から除外された。
【0127】
新鮮な血液サンプルが入手可能であった4つのケースでは、合成ロングリードシーケンシングもまた、母方サンプルおよび父方サンプルの両方に対し実施した。上記のプロトコルに対する変更は、低減された転移酵素を除き、標準プロトコルを使用してTELL-Seqライブラリを用いる高分子量DNAおよびライブラリの調製をさらに行うことを含んだ。
【0128】
実施例2
親の遺伝子型および生まれた子供の遺伝子型の全ゲノムシーケンスでは、平均深度30xを目標とした。すべてのサンプルの実際の平均カバレッジは、29x~111倍xの範囲であった。表6は、対応する母親、父親、および子供のシーケンシングで各ケースについて使用された実際の平均深度を示す。20xを超えるパーセンテージ(%≧20x)は、少なくとも20個のシーケンスリードによりカバーされるゲノム塩基のパーセンテージを示す。
【表6】
【0129】
WGS一次分析および二次分析を、Sentieon Softwareにより実装されたBroad Institute’s best practices pipeline(GATK)に従い行った。ヒト参照ゲノム配列(GRCh37)を、Burrow-Wheeler Aligner(bwa)バージョン0.7.17を使用してマッピングした。次に、それぞれの親および実際の子供についてのジェノタイピングを、2つのステップを用いて実施した。最初に、親および生まれた子供に対する共同バリアントコールは、SentieonのGVCFtyperを使用して、配列をキャプチャし、内部品質管理閾値に基づきこれらをフィルタした。共同バリアントコールは、すべてのサンプル(例えば、母方サンプル、父方サンプル、生まれた子供のサンプル)が同時に考慮されて、所与ののサンプルから検出されるバリアント位置と対照的に多くのバリアント位置で遺伝子型を生成することを可能にする。内部品質管理閾値は、基本品質管理、中央深度(DP)、フィッシャーストランド(FS)、および対立遺伝子深度により正規化された品質スコア(QD)を含み得る。これらの内部品質管理閾値は、シーケンシングエラーを同定するために使用され得る。特に、内部品質管理の閾値を、次のように設定した:BPは20以上であり、DPは8以上であり、FSは30未満であり、QDは4より大きい。次に、遺伝子型を、少なくとも8xのリード深度で多遺伝子モデルに特異的な部位においてコールした。
【0130】
実施例3
胚生検を、胚DNAを抽出することおよび増幅することにより、その後迅速なSNPマイクロアレイプロトコル(例えば、IlluminaのHumanCytoSNP-12BeadChipで)を使用してジェノタイピングを行うことにより、遺伝子型同定した。兄弟の胚と親のSNPマイクロアレイ測定を、親サポートモデルを使用して組み合わせて、HapMapデータベースからの組換え頻度を親由来のSNPアレイ測定および兄弟の胚由来のSNPアレイ測定と組み合わせることにより、各親におけるヘテロ接合性SNVの最大尤度推定(MLE)フェーズを決定した。この組み合わせは、親サポートハプロタイプを生成し得る。
【0131】
次に、親サポートモデルのHMMを使用して、胚からのSNPアレイ測定値と各親についてのMLE期を考慮して、各胚に伝達される可能性が最も高い親のハプロタイプを決定した。HMMの出力を、減数分裂組換え部位を通知するために使用した。
【0132】
実施例4
それぞれの親におけるWGS由来バリアントのフェージングを行うために、別のシミュレーションモデルを使用して、親についてハプロタイプを推定した(例えば、SHAPEIT4を使用して)。デフォルトのパラメータを、UK10Kインピュテーションコホート+1000ゲノムフェーズ3(データセットEGAD00001000776)などで利用可能なものなどの、追加のデータベースデータと共に使用し、これらは、参照パネルおよび親のサポートハプロタイプ足場として役立った。この足場は、約200,000個のフェージングされたバリアントで構成され、参照パネルを使用して実施されるフェージングを固定するために役立つ。図11は、フェージングされた親の遺伝子型を取得するプロセスを示す。各染色体は、独立してかつ並行して処理され、すべての染色体がその後、組み合わされる。多重対立遺伝子部位を、除外し、破棄した。参照パネルにより表されない希少バリアントに対する追加のパフォーマンスを得るために、高分子量DNAの連結リード配列が使用され得る。
【0133】
特に、連結リード配列データを、TELL-Seqライブラリ調製方法を使用してケースID5、8、9、および10について生成した。各リードの分子バーコード情報を維持することを加えて、上記と同じプロセスを用いるリードアライメントおよびバリアントのコールの後で、分子のフェーズを、別のモデル(例えば、HapCut2モデル)を用いて推測した。HapCut2モデルは、DNAシーケンスリードからハプロタイプを統合するための最大尤度ベースのツールである。これらのハプロタイプの位置は、gnomadデータベースを用いて、それらのグローバルな対立遺伝子頻度によりアノテーションされ得る。
【0134】
図16は、家族5に由来する兄弟の胚について3番染色体~8番染色体上の伝達されたハプロタイプのプロットを示す。伝達されたハプロタイプは、親サポートから出力され、マイクロアレイ部位のPS胚遺伝子型の基礎を形成する。緑および赤の線は、各胚における母方(MH)ハプロタイプおよび父方(FH)ハプロタイプについて、それぞれ親のハプロタイプ1および2を示す(不確実な領域を、黄色で示す)。
【0135】
実施例5
各兄弟の胚の全ゲノム配列を予測するために、遺伝子型を、親サポートモデルのHMMを使用して、染色体にわたるハプロタイプの追加を有しフェージングされた親のゲノムと組み合わせた。胚に伝達された親のハプロタイプを、ハプロタイプと兄弟の胚の遺伝子型を比較することにより得た。これは、それぞれ母方の染色体および父方の染色体にわたり実施したプロセスであった。図11および図12は、より詳細にこのプロセスを示す。
【0136】
親および生まれた子供のゲノム中の低品質部位、ならびに各家族の配列データ中の多対立遺伝子部位とメンデルの法則エラーに対応する部位が、フィルタにかけられて、「信頼性の高い部位」のセットが形成され得、これらをカバレッジおよび精度を評価するために使用した。予測される胚の遺伝子型のコール(再構築から得られる)を、生まれた子供のDNAのシーケンシングによりコールされたバリアントと比較する。
【0137】
信頼性の高い部位を、7つの集団(アフリカ系、ラテン系、アシュケナージ系ユダヤ人、東アジア系、欧州系、南アジア系、およびその他)から得られた約15,000個の全ゲノムおよび125,000個のエクソームで構成される、gnomADv2.1データセットからの集団対立遺伝子頻度によりアノテーションした。対立遺伝子頻度が0.1%未満であるか、またはgnomADデータベースに存在しないバリアントを、希少であるとみなした。
【0138】
表7は、参照パネルにより、かつ連結リードシーケンスを用いて予測される部位の精度を示す。
【表7】
【0139】
実施例6
多遺伝子リスクスコアおよび祖先主成分を、シミュレートされた各胚遺伝子型について、同様のアプローチを使用して計算した。場合によっては、胚の遺伝子型の予測が決定できなかったため、集団の対立遺伝子頻度を使用して、PRSスコアを調節した。PRSスコアを、上記のように中心化しおよび標準化し、PRSを考慮した疾患のオッズ比へと変換した。具体的には、式3を使用し、βは、UK Biobankから得られたPRS効果サイズ(すなわち、標準偏差あたりのログオッズ)であり、PRSは、中心化され標準化されたPRSである。図14A~14Bは、多遺伝子リスクスコア10分位ごとの疾患オッズ比を示す。
【0140】
実施例7
連結アプローチを使用して、両方の親のフェージングされたゲノムにより始めること、2つの母方のまたは2つの父方の染色体間の組換えを追加すること(配偶子の減数分裂組み換えを近似するため)、およびこれらの「仮想配偶子」をランダムに組み合わせることにより、シミュレートされた胚の遺伝子型を生成した。親サポートモデルを用いて導出されたハプロタイプを、全ゲノムシーケンスと組み合わせて、フェージングされた親ゲノムを生成した。減数分裂組換えモデル(例えば、家系図(両親2名および子供1名)ならびに遺伝子マップを含むped-sim)を使用して、組換えの部位をシミュレートした。減数分裂組換えモデルから得られたブレークポイント(例えば、減数分裂組換え部位)を、フェージングされた親ゲノムと交差させて、「仮想配偶子」を生成した。母親および父親由来の仮想配偶子を次に、組み合わせて、シミュレートされた胚の遺伝子型を生成した。PRSを、上述のとおりこれらのシミュレートされた胚遺伝子型で実施した。リスクスコアの分布を生成するために、このプロセスを、各カップルに対し500回繰り返した。非連結アプローチでは、シミュレートされた胚の遺伝子型を、ランダムに各親から1つの対立遺伝子を選択することにより生成し、隣接するバリアントが連結されたか否かについて想定しない。図13A~13Dは、非連結アプローチおよび連結アプローチの両方を使用する様々な疾患についてのリスクスコアの分布を示す。
【0141】
さらに、表8に示すとおり、シミュレートされた胚の遺伝子型に対し実施した異数性についての臨床PGT(PGT-A)は、110個の胚の69個が正倍数体であり、かつ110個のうち41個が異数体であることを明らかにした。胚の全ゲノム再構築を、双方の親の高カバレッジゲノム配列決定を行うこと、および上記の兄弟胚のアレイ測定により達成した。
【表8】
【0142】
結論
本明細書に記載の発明の多くの変形および他の実施形態を、前述の説明および関連する図面に示された教示の恩恵を有する、これらの発明が関連する当業者は想起するであろう。したがって、本発明は、開示された特定の実施形態に限定されるものではなく、修正および他の実施形態が添付の特許請求の範囲内に含まれると意図されることを理解されたい。さらに、前述の説明および関連する図面は、要素および/または機能の特定の例示的な組み合わせの文脈において例示的な実施形態を説明しているが、添付の請求項の範囲から逸脱することなく、要素および/または機能の異なる組み合わせが、代替の実施形態により提供され得ることを理解されたい。この点に関して、例えば、上で明示的に記載されるものとは異なる要素および/または機能の組み合わせも、添付の請求項のいくつかに記載され得るように企図される。ここでは特定の用語が使用されるが、これらは、一般的な説明的な意味でのみ使用されて、限定の目的として使用されるものではない。
【0143】
本明細書に記載されるすべての特許および刊行物は、本発明が関係する技術分野における当業者のレベルを示すものである。本明細書におけるすべての特許および刊行物は、個々の刊行物が具体的かつ個別に参照により組み込まれるように示される場合と同程度に、参照により組み込まれる。
図1
図2A
図2B
図3
図4
図5
図6
図7A
図7B
図7C
図7D
図7E
図7F
図7G
図7H
図7I
図7J
図7K
図7L
図8
図9
図10
図11
図12
図13A
図13B
図13C
図13D
図14A-1】
図14A-2】
図14B-1】
図14B-2】
図15
図16
図17
【国際調査報告】