(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-25
(54)【発明の名称】ヒト胚におけるコピー数変異を検証するために単一ヌクレオチド変異の密度を使用するシステム、コンピュータプログラム製品及び方法
(51)【国際特許分類】
G16B 20/00 20190101AFI20220818BHJP
C12Q 1/6869 20180101ALI20220818BHJP
C12M 1/00 20060101ALI20220818BHJP
【FI】
G16B20/00
C12Q1/6869 Z
C12M1/00 A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021576181
(86)(22)【出願日】2020-06-19
(85)【翻訳文提出日】2022-02-18
(86)【国際出願番号】 US2020038670
(87)【国際公開番号】W WO2020257605
(87)【国際公開日】2020-12-24
(32)【優先日】2019-06-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】510236656
【氏名又は名称】クーパーサージカル・インコーポレイテッド
【氏名又は名称原語表記】CooperSurgical, Inc.
(74)【代理人】
【識別番号】110000556
【氏名又は名称】特許業務法人 有古特許事務所
(72)【発明者】
【氏名】バーク, ジョン
(72)【発明者】
【氏名】リーズ, ブライアン
(72)【発明者】
【氏名】ブラゼク, ジョシュア デイヴィッド
(72)【発明者】
【氏名】ラージ, マイケル ジョン
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB20
4B029FA15
4B063QA17
4B063QA18
4B063QA19
4B063QQ02
4B063QQ08
4B063QQ42
4B063QS39
4B063QX10
(57)【要約】
胚におけるゲノム変異領域を検証するための方法が開示される。1つ又は複数のプロセッサによって、胚の配列決定データを受け取る。1つ又は複数のプロセッサによって、受け取った胚の配列決定データを参照ゲノムにアライメントする。1つ又は複数のプロセッサによって、アライメントされた胚の配列決定データにおいてゲノム変異領域を同定する。1つ又は複数のプロセッサによって、同定されたゲノム変異領域において単一ヌクレオチド変異(SNV)の数をカウントする。1つ又は複数のプロセッサによって、同定されたゲノム変異領域におけるカウントされたSNVの数を、同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して正規化して、ゲノム変異領域についての正規化されたSNV密度を生成する。1つ又は複数のプロセッサによって、同定されたゲノム変異領域における正規化されたSNV密度が許容基準を満たす場合に、同定されたゲノム変異領域を検証する。
【特許請求の範囲】
【請求項1】
胚におけるゲノム変異領域を検証するための方法であって、
1つ又は複数のプロセッサによって、胚の配列決定データを受け取るステップと、
前記1つ又は複数のプロセッサによって、前記受け取った胚の配列決定データを参照ゲノムにアライメントするステップと、
前記1つ又は複数のプロセッサによって、前記アライメントされた胚の配列決定データにおけるゲノム変異領域を同定するステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における単一ヌクレオチド変異(SNV)の数をカウントするステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における前記カウントされたSNVの数を、前記同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して正規化して、前記ゲノム変異領域についての正規化されたSNV密度を生成するステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における前記正規化されたSNV密度が許容基準を満たす場合に、前記同定されたゲノム変異領域を検証するステップと、
を含む、方法。
【請求項2】
前記ゲノム変異領域がコピー数変異領域である、請求項1に記載の方法。
【請求項3】
前記ゲノム変異領域が異数性領域である、請求項1に記載の方法。
【請求項4】
前記ゲノム変異領域が多倍数性領域である、請求項1に記載の方法。
【請求項5】
前記参照領域が、前記同定されたゲノム変異領域の正確な長さである、請求項1に記載の方法。
【請求項6】
前記参照領域が正倍数体サンプルから導出される、請求項1に記載の方法。
【請求項7】
前記許容基準が、正倍数体胚から導出される参照領域についての予測されるSNV密度である、請求項1に記載の方法。
【請求項8】
前記同定されたゲノム変異領域の前記正規化されたSNV密度が、前記参照領域についての前記予想されるSNV密度の予め設定された信頼区間よりも大きいか又は小さい場合に、前記同定されたゲノム変異領域が検証される、請求項7に記載の方法。
【請求項9】
前記低い方の予め設定された信頼区間が95%である、請求項8に記載の方法。
【請求項10】
前記許容基準が、モザイク胚から導出された参照領域についての予測されるSNV密度である、請求項1に記載の方法。
【請求項11】
前記同定されたゲノム変異領域の前記正規化されたSNV密度が、前記参照領域についての前記予想されるSNV密度の予め設定された信頼区間を上回る場合に、前記同定されたゲノム変異領域が検証される、請求項10に記載の方法。
【請求項12】
前記予め設定された信頼区間が95%である、請求項11に記載の方法。
【請求項13】
前記許容基準が、前記参照領域に対するSNVのベースラインカウントを上回るか又は下回る予め設定されたSNVの分散数である、請求項1に記載の方法。
【請求項14】
胚におけるゲノム変異領域を検証するためのコンピュータ命令を記憶する非一時的コンピュータ可読媒体であって、
1つ又は複数のプロセッサによって、胚の配列決定データを受け取るステップと、
前記1つ又は複数のプロセッサによって、前記受け取った胚の配列決定データを参照ゲノムにアライメントするステップと、
前記1つ又は複数のプロセッサによって、前記アライメントされた胚の配列決定データにおけるゲノム変異領域を同定するステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における単一ヌクレオチド変異(SNV)の数をカウントするステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における前記カウントされたSNVの数を、前記同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して正規化して、前記ゲノム変異領域についての正規化されたSNV密度を生成するステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における前記正規化されたSNV密度が許容基準を満たす場合に、前記同定されたゲノム変異領域を検証するステップと、
を含む、非一時的コンピュータ可読媒体。
【請求項15】
胚の配列決定データを記憶するためのデータストアと、
前記データストアに通信可能に接続されたコンピューティングデバイスであって、
前記胚の配列決定データを受け取り、参照ゲノムに対してアライメントするように構成されたアライメントエンジン、
前記アライメントされた胚の配列決定データにおけるゲノム変異領域を同定するように構成されたゲノム変異コーラー、及び
検証エンジンであり、
前記同定されたゲノム変異領域における単一ヌクレオチド変異(SNV)の数をカウントし、前記同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して前記同定されたゲノム変異領域における前記SNVカウントを正規化して、前記同定されたゲノム変異領域についての正規化されたSNV密度を生成し、
前記同定されたゲノム変異領域における前記正規化されたSNV密度が許容基準を満たす場合に、前記同定されたゲノム変異領域を検証するように構成された、検証エンジン、
を備えるコンピューティングデバイスと、
前記コンピューティングデバイスに通信可能に接続され、前記検証エンジンからのゲノム変異領域の結果を含むレポートを表示するように構成されたディスプレイと、
を備える、胚のゲノム変異領域を検証するシステム。
【請求項16】
前記ゲノム変異領域がコピー数変異領域である、請求項15に記載のシステム。
【請求項17】
前記ゲノム変異領域が異数性領域である、請求項15に記載のシステム。
【請求項18】
前記ゲノム変異領域が多倍数性領域である、請求項15に記載のシステム。
【請求項19】
前記参照領域が、前記同定されたゲノム変異領域の正確な長さである、請求項15に記載のシステム。
【請求項20】
前記参照領域が正倍数体サンプルから導出される、請求項15に記載のシステム。
【請求項21】
前記許容基準が、正倍数体胚から導出される参照領域について予測されるSNV密度である、請求項15に記載のシステム。
【請求項22】
前記同定されたゲノム変異領域の前記正規化されたSNV密度が、前記参照領域についての前記予想されるSNV密度の予め設定された信頼区間よりも大きいか又は小さい場合に、前記同定されたゲノム変異領域が検証される、請求項21に記載のシステム。
【請求項23】
前記低い方の予め設定された信頼区間が95%である、請求項22に記載のシステム。
【請求項24】
前記許容基準が、モザイク胚から導出された参照領域についての予測されるSNV密度である、請求項15に記載のシステム。
【請求項25】
前記同定されたゲノム変異領域の前記正規化されたSNV密度が、前記参照領域についての前記予想されるSNV密度の予め設定された信頼区間を上回る場合に、前記同定されたゲノム変異領域が検証される、請求項24に記載のシステム。
【請求項26】
前記予め設定された信頼区間が95%である、請求項25に記載のシステム。
【請求項27】
前記許容基準が、前記参照領域に対するSNVのベースラインカウントを上回るか又は下回る予め設定されたSNVの分散数である、請求項15に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2019年6月21日に出願された米国仮特許出願第62/865126号の優先権の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
(参照による組み込み)
本明細書で引用される任意の特許、特許出願及び刊行物の開示は、その全体が参照により本明細書に組み込まれる。
【0003】
本明細書に開示される実施形態は、一般に、ヒト胚におけるコピー数変異(CNV)を同定するためのシステム及び方法を対象とする。より詳細には、母親への着床前にヒト胚に対してなされるCNVコールを検証するために最適化されたシステム及び方法が必要とされている。
【背景技術】
【0004】
体外受精(IVF)は、母体年齢の高い女性や妊娠が困難なカップル向けの、また妊娠代理出産(Gestational Surrogacy)を容易にする手段としてますます普及してきている生殖補助技術である。受精のプロセスは、卵を抽出し、精子サンプルを採取し、次いで、実験室において卵と精子とを手作業で組み合わせることを含む。次いで、胚を宿主の子宮に着床させて胚を出産日まで育てる。
【0005】
IVF手順は高価であり、患者に対して著しい感情的/物理的犠牲を強いる可能性があるため、着床前の胚の遺伝子スクリーニングは、IVF手順を受けている患者にとってますます一般的になりつつある。例えば、現在、IVF胚は、一般に、遺伝子異常(例えば、CNV、SNVなど)及び移植の実行可能性(すなわち、胚の着床生存可能性)に影響を与える可能性がある他の条件についてスクリーニングされる。あらゆる診断試験と同様に、結果として得られる診断の精度は、重要であり、データ収集及び使用する分析技法などのいくつかの要因によって影響を受ける可能性がある。特に、カバレッジが低い(~0.1×)ゲノム配列決定データのバイオインフォマティクス分析では、配列決定データにおける配列決定アーチファクト及びノイズに起因して、分節及びモザイクの異数性並びにコピー数変異(CNV)が不適切に同定される可能性がある。
【0006】
そのため、胚において同定された遺伝子異常を独立して検証することができるシステム及び方法が必要とされている。
【発明の概要】
【0007】
本明細書は、母親への移植前にヒト胚に対してなされたCNVコールを検証するために最適化された様々な例示的な実施形態のシステム及び方法を記載する。
【0008】
一態様では、胚におけるゲノム変異領域を検証するための方法が開示される。1つ又は複数のプロセッサによって、胚の配列決定データを受け取る。1つ又は複数のプロセッサによって、受け取った胚の配列決定データを参照ゲノムにアライメントする。1つ又は複数のプロセッサによって、アライメントされた胚の配列決定データにおいてゲノム変異領域を同定する。1つ又は複数のプロセッサによって、同定されたゲノム変異領域において単一ヌクレオチド変異(SNV)の数をカウントする。1つ又は複数のプロセッサによって、同定されたゲノム変異領域におけるカウントされたSNVの数を、同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して正規化して、ゲノム変異領域についての正規化されたSNV密度を生成する。1つ又は複数のプロセッサによって、同定されたゲノム変異領域における正規化されたSNV密度が許容基準を満たす場合に、同定されたゲノム変異領域を検証する。
【0009】
別の態様において、胚におけるゲノム変異領域を検証するためのシステムが開示される。本システムは、データストアと、コンピューティングデバイスと、ディスプレイと、を含む。データストアは、胚の配列決定データを記憶するためのものである。コンピューティングデバイスは、データストアに通信可能に接続され、アライメントエンジンと、ゲノム変異コーラーと、検証エンジンと、をホストする。
【0010】
アライメントエンジンは、胚の配列決定データを受け取り、参照ゲノムに対してアライメントするように構成されている。ゲノム変異コーラーは、アライメントされた胚の配列決定データにおけるゲノム変異領域を同定するように構成されている。検証エンジンは、同定されたゲノム変異領域における単一ヌクレオチド変異(SNV)の数をカウントし、同定されたゲノム変異領域におけるSNVカウントを、同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して正規化して、同定されたゲノム変異領域についての正規化されたSNV密度を生成し、同定されたゲノム変異領域における正規化されたSNV密度が許容基準を満たす場合に、同定されたゲノム変異領域を検証するように構成されている。
【0011】
ディスプレイは、コンピューティングデバイスに通信可能に接続され、検証エンジンからのゲノム変異領域の結果を含むレポートを表示するように構成されている。
【図面の簡単な説明】
【0012】
本明細書に開示される原理及びその利点のより完全な理解のために、ここで、添付の図面と併せて以下の説明を参照する。
【
図1】様々な実施形態による、全配列決定カバレッジの正規化密度相関が、コピー数の真の生物学的変化(すなわち、CNV)を検出する際に、配列決定カバレッジの人為的変化に基づく相関よりもどのように優れているかを示すグラフ図である。
【
図2】様々な実施形態による、100個の正常な(CNVを含まない)胚サンプルの平均SNV密度と比較した臨床胚サンプルからのSNV密度のグラフ描写である。
【
図3】様々な実施形態による、カウントベースのCNVコールを確認するためにSNV密度をどのように使用することができるかを示すグラフである。
【
図4】様々な実施形態による、胚に対して行われるCNVコールを検証するための方法を示す例示的な流れ図である。
【
図5】様々な実施形態による、胚に対して行われるCNVコールを検証するためのシステムの概略図である。
【
図6】様々な実施形態による、本明細書で提供される方法を実行する際に使用するためのコンピュータシステムを示すブロック図である。
【0013】
図は必ずしも縮尺通りに描かれておらず、図中の物体も互いに関連して必ずしも縮尺通りに描かれていないことを理解されたい。図は、本明細書で開示される装置、システム、及び方法の様々な実施形態に明確さと理解をもたらすように意図された描写である。可能な限り、同一又は同様の部分を指すために、図面全体を通して同一の参照番号が使用される。さらに、図面は、決して本教示の範囲を限定することを意図するものではないことを理解されたい。
【発明を実施するための形態】
【0014】
本明細書は、母親への着床前にヒト胚に対してなされたCNVコールを検証するために最適化された様々な例示的な実施形態のシステム及び方法を記載する。
【0015】
しかしながら、本開示は、これらの例示的な実施形態及び適用例に、又は例示的な実施形態及び適用例が動作する、若しくは本明細書に記載されている方法に限定されない。
【0016】
さらに、図は、簡略化された又は部分的な図を示す場合があり、図中の要素の寸法は、誇張されるか、さもなければ比例していないことがある。加えて、用語「上にある」、「取り付けられている」、「接続されている」、「結合されている」又は同様の単語が本明細書で使用される場合、1つの要素(例えば、材料、層、基板など)は、1つの要素が他の要素の直接上にあるか、他の要素に取り付けられているか、接続されているか、又は結合されているか、或いは1つの要素と他の要素との間に1つ又は複数の介在要素があるかどうかにかかわらず、別の要素の「上にある」、「取り付けられている」、「接続されている」、又は「結合されている」とすることができる。加えて、要素のリスト(例えば、要素a、b、c)に言及している場合、そのような言及は、列挙された要素のいずれか1つを単独で、列挙された要素の全てよりも少ない任意の組合せを、及び/又は列挙された要素の全ての組合せを含むことが意図されている。本明細書におけるセクション分割は、検討を容易にするためのものにすぎず、論じられる要素の任意の組合せを制限するものではない。
【0017】
別段の規定がない限り、本明細書に記載される本教示に関連して使用される科学用語及び技術用語は、当業者によって一般に理解される意味を有するものとする。さらに、文脈上別段の要求がない限り、単数形の用語は複数形を含み、複数形の用語は単数形を含むものとする。一般に、本明細書に記載される細胞及び組織培養、分子生物学、並びにタンパク質及びオリゴヌクレオチド又はポリヌクレオチド化学反応及びハイブリダイゼーションに関連して利用される命名法及びそれらの技法は、当技術分野でよく知られており、一般的に使用されているものである。標準的な技法が、例えば、核酸精製及び調製、化学分析、組換え核酸、並びにオリゴヌクレオチドの合成に使用される。酵素反応及び精製技法は、メーカの仕様書に従って、又は当技術分野で一般的に達成されるように、又は本明細書に記載されるように行われる。本明細書に記載される技法及び手順は、一般に、当技術分野でよく知られている従来の方法に従って、そして本明細書全体を通して引用及び議論される様々な一般的な参考文献及びより特定の参考文献に記載されるように、実施される。例えば、Sambrook et al.,Molecular Cloning:A Laboratory Manual(第3版、Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.2000)を参照されたい。本明細書に記載される実験手順及び技法に関連して利用される命名法は、当技術分野でよく知られており、一般的に使用されるものである。
【0018】
DNA(デオキシリボ核酸)は、A(アデニン)、T(チミン)、C(シトシン)及びG(グアニン)の4種類のヌクレオチドから構成されたヌクレオチド鎖であり、そのRNA(リボ核酸)は、A、U(ウラシル)、G及びCの4種類のヌクレオチドから構成される。特定のヌクレオチドの対が、互いに相補的に特異的に結合する(相補的塩基対と呼ばれる)。すなわち、アデニン(A)は、チミン(T)と対になり(しかしながら、RNAの場合、アデニン(A)は、ウラシル(U)と対になる)、シトシン(C)は、グアニン(G)と対になっている。第1の核酸鎖が、第1の鎖中のヌクレオチドに相補的なヌクレオチドからなる第2の核酸鎖と結合すると、2つの鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ゲノム配列」、「遺伝子配列」又は「フラグメント配列」又は「核酸配列決定リード」は、DNA又はRNAの分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、及びチミン/ウラシル)の順序を示す任意の情報又はデータを指す。本教示は、キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接的又は間接的なヌクレオチド同定システム、パイロ配列決定、イオン又はpHベースの検出システム、電子署名ベースのシステムなどを含むがこれらに限定されない、全ての利用可能な様々な技法、プラットフォーム又は技法を使用して得られる配列情報を企図していることを理解されたい。
【0019】
「ポリヌクレオチド」、「核酸」又は「オリゴヌクレオチド」は、ヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド又はそれらの類似体を含む)がヌクレオシド間結合によって連結された直鎖状のポリマを指す。典型的には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。通常、オリゴヌクレオチドのサイズは、数個のモノマー単位、例えば、3~4個から数百個のモノマー単位の範囲にある。オリゴヌクレオチドなどのポリヌクレオチドが「ATGCCTG」などの文字列によって表される場合は常に、特に断りのない限り、ヌクレオチドは、左から右に5’→3’の順序であり、「A」は、デオキシアデノシンを表し、「C」はデオキシシチジンを表し、「G」はデオキシグアノシンを表し、「T」はチミジンを表すことを理解されよう。文字A、C、G、及びTは、当技術分野で標準的使用されているように、塩基自体、ヌクレオシド、又は塩基を含むヌクレオチドを指すために使用されることがある。
【0020】
本明細書で使用される場合、「細胞」という用語は、「生物学的細胞」という用語と交換可能に使用される。生物学的細胞の非限定的な例としては、真核生物細胞、植物細胞、例えば、哺乳動物細胞、爬虫類細胞、鳥類細胞、魚類細胞などの動物細胞、原核細胞、細菌細胞、真菌細胞、原生動物細胞など、例えば、筋肉、軟骨、脂肪、皮膚、肝臓、肺、神経組織などの組織から解離した細胞、例えば、T細胞、B細胞、ナチュラルキラー細胞、マクロファージなどの免疫学的細胞、胚(例えば、接合体)、卵母細胞、卵子、精子細胞、ハイブリドーマ、培養細胞、細胞株由来の細胞、癌細胞、感染細胞、トランスフェクト細胞及び/又は形質転換細胞、レポータ細胞などが挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類などからのものとすることができる。
【0021】
ゲノムは、哺乳動物、例えばヒトなどの動物を含む、細胞又は生物の遺伝物質である。ヒトの場合、ゲノムには、例えば、遺伝子、非コードDNA及びミトコンドリアDNAなどの全DNAが含まれる。ヒトゲノムは、典型的には、23対の直線状染色体、すなわち、22対の常染色体+性を決定するX及びY染色体を含む。23対の染色体には、それぞれの親からのコピーが1つずつ含まれている。染色体を構成するDNAは、染色体DNAと呼ばれ、ヒト細胞の核の中に存在する(核DNA)。ミトコンドリアDNAは、環状染色体としてミトコンドリアに位置し、雌の親のみから遺伝し、しばしば、核に位置するDNAの核ゲノムと比較して、ミトコンドリアゲノムと呼ばれる。
【0022】
「次世代シーケンシング」(NGS:next generation sequencing)という語句は、例えば、一度に数十万の比較的小さな配列リードを生成する能力を有する、従来のサンガー及びキャピラリー電気泳動に基づく手法と比較してスループットが向上した配列決定技術を指す。次世代シーケンシング技法の一部の例としては、合成による配列決定、ライゲーションによる配列決定、及びハイブリダイゼーションによる配列決定が挙げられるが、これらに限定されない。より具体的には、IlluminaのMISEQ、HISEQ及びNEXTSEQシステム並びにLife Technologies CorpのPersonal Genome Machine(PGM)及びSOLiD Sequencing Systemは、全ゲノム又は標的ゲノムの大規模並列配列決定を提供する。SOLiDシステム及び関連するワークフロー、プロトコル、ケミストリなどは、国際出願日2006年2月1日の「Reagents,Methods,and Libraries for Bead-Based Sequencing」と題するPCT公開第WO2006/084132号、2010年8月31日に出願された「Low-Volume Sequencing System and Method of Use」と題する米国特許出願第12/873190号、及び2010年8月31日に出願された「Fast-Indexing Filter Wheel and Method of Use」と題する米国特許出願第12/873132号にさらに詳細に記載されており、これらの出願のそれぞれの全体が参照により本明細書に組み込まれる。
【0023】
「配列決定実行」という語句は、少なくとも1つの生体分子(例えば、核酸分子)に関する何らかの情報を決定するために行われる配列決定実験の任意のステップ又は部分をいう。
【0024】
核酸配列決定に関する「リード」という用語は、例えば、NGSなどの配列決定に供された核酸フラグメントについて決定されたヌクレオチドの配列を指す。リードは、リード長を規定する任意の数のヌクレオチドの任意の配列とすることができる。
【0025】
本明細書で交換可能に使用される「配列決定カバレッジ」又は「配列カバレッジ」という語句は、一般に、配列リードと、例えば、細胞又は生物の全ゲノム、ゲノム中の1つの遺伝子座又はゲノム中の1つのヌクレオチド位置などの参照との間の関係を指す。カバレッジは、いくつかの形式で記述することができる(例えば、Simsら(2014)Nature Reviews Genetics 15:121-132を参照)。例えば、カバレッジは、ゲノムのどれくらいが塩基対レベルで配列されているかを意味し、NL/Gとして計算することができる。式中、Nはリードの数であり、Lは平均リード長であり、Gはゲノム(参照)の長さ又は塩基の数である。例えば、参照ゲノムが1000Mbpであり、平均長100bpの1億個のリードが配列される場合、カバレッジの冗長度は10×(倍)である。このようなカバレッジは、1×、2×、3×などの「倍数(fold)」(又は1、2、3回などのカバレッジ)として表すことができる。カバレッジは、参照核酸に対する配列決定の冗長度を意味することもでき、参照配列がリードによってカバーされる頻度、例えば、任意の所与の遺伝子座の単一の塩基が配列決定中に読み取られる回数を表すこともできる。したがって、カバーされていない深度が0の塩基と、カバーされている深度が1~50の塩基がある場合がある。カバレッジの冗長度は、配列データの信頼性の指標を提供し、カバレッジ深度とも呼ばれる。カバレッジの冗長度は、参照にアライメントされていない「生」のリード、又はアライメントされた(マッピングされた)リードに関して記述することができる。カバレッジはまた、リードによってカバーされている参照(例えば、ゲノム)のパーセンテージの観点から考えることができる。例えば、参照ゲノムが10Mbpであり、配列リードデータが参照の8Mbpにマッピングされている場合、カバレッジのパーセンテージは、80%である。配列カバレッジは、特定の深度で所与の回数配列決定される参照の塩基のパーセンテージを指すカバレッジの幅(breadth of coverage)の観点からも記述することができる。
【0026】
本明細書で使用される場合、核酸配列決定に関して「低カバレッジ」という語句は、約10×(倍)未満、又は約0.001×~約10×、又は約0.002×~約0.2×、又は約0.01×~約0.05×の配列決定カバレッジを指す。
【0027】
本明細書で使用される場合、核酸配列決定に関する「低深度」という語句は、約10×未満、又は約0.1×~約10×、又は約0.2×~約5×、又は約0.5×~約2×の配列決定深度を指す。
【0028】
ゲノム配列核酸配列に関する用語「分解能」は、細胞、例えば、胚又は生物の核酸配列決定によって得られるゲノム核酸配列(例えば、ゲノム全体又はゲノムの特定の領域又は遺伝子座の配列)の質、又は正確さ、及び程度を指す。ゲノム核酸配列の分解能は、主に、配列決定プロセスのカバレッジの深度及び幅によって決定され、配列決定中に読み取られる固有の塩基の数及び配列決定中に任意の1つの塩基が読み取られる回数を考慮することを含む。細胞、例えば、胚又は生物のゲノム核酸配列に関して本明細書で交換可能に使用される「低分解能配列」又は「低分解能配列データ」又は「スパース配列データ」という語句は、低カバレッジ及び低幅配列決定法によって得られるゲノム核酸のヌクレオチド塩基配列情報を指す。
【0029】
本明細書で使用される場合、「ゲノム特徴」という語句は、何らかの注釈付き機能(例えば、遺伝子、タンパク質コード化配列、mRNA、tRNA、rRNA、反復配列、逆方向反復、miRNA、siRNAなど)又は遺伝子/ゲノム変異(例えば、単一ヌクレオチド多型/変異、挿入/欠失配列、コピー数変異(CNV)、逆位など)を有するゲノム領域を指すことができ、これらは、突然変異、組換え/交差又は遺伝的ドリフトに起因して、特定の種又は特定の種内の亜集団に対して、参照されるような変化を受けた単一又はグループの遺伝子(DNA又はRNAにおける)を表す。
【0030】
ゲノム変異は、様々な技法を使用して同定することができる。当該様々な技法には、アレイベースの方法(例えば、DNAマイクロアレイなど)、リアルタイム/デジタル/定量的PCR機器法及び全核酸配列決定システム又は標的核酸配列決定システム(例えば、NGSシステム、キャピラリー電気泳動システムなど)が含まれるがこれらに限定されない。核酸配列決定では、単一塩基の分解能でカバレッジデータを入手することができる。
【0031】
「モザイク胚」という語句は、細胞遺伝的に異なる2つ以上の細胞株を含む胚を表す。例えば、モザイク胚は、異なるタイプの異数性を有する細胞株、又は妊娠中の胚の生存能力に有害な可能性のある遺伝子変異を有するDNAを含む正倍数体細胞及び遺伝的に異常な細胞の混合物を含むことができる。
【0032】
遺伝子座についての「SNV密度」という語句(ここで、遺伝子座は、染色体内の動的な関心領域を指す)は、その遺伝子座で同定されたSNVの数を、サンプルについてその同じ遺伝子座において同定された配列数の総数で除算して導出される値を指す。
【0033】
(核酸の配列データの生成)
ゲノム核酸の分析及びゲノム特徴の分類のために本明細書で提供される方法及びシステムの一部の実施形態は、細胞及び/又は生物のゲノムのヌクレオチド配列の分析を含む。核酸の配列データは、本明細書に記載される及び/又は当技術分野で知られている様々な方法を使用して得ることができる。一例では、細胞、例えば細胞のゲノム核酸の配列は、細胞から抽出されたDNAサンプルの次世代シーケンシング(NGS)から得ることができる。第2世代シーケンシングとしても知られるNGSは、高スループットの大規模並列配列決定技術に基づいており、(例えば、胚から抽出された)DNAサンプルの核酸増幅によって生成された数百万のヌクレオチドを並列に配列決定することを含む(例えば、Kulski(2016)“Next-Generation Sequencing-An Overview of the History,Tools and‘Omic’Applications”in Next Generation Sequencing-Advances,Applications and Challenges,J.Kulski ed.,London:Intech Open,pages 3-60を参照)。
【0034】
NGSによって配列決定される核酸サンプルは、サンプルのソースに応じて、様々な方法で得られる。例えば、ヒトの核酸は、綿棒で頬の細胞を収集し、そこから核酸を抽出することで容易に得ることができる。配列決定のために胚から最適な量のDNAを得るために(例えば、着床前の遺伝子スクリーニングのために)、細胞(例えば、5~7個の細胞)が、通常、胚盤胞の段階の間に栄養外胚葉生検によって収集される。DNAサンプルは、NGSによる配列決定の前に、例えば、フラグメント化、増幅及びアダプターライゲーションを含む処理を必要とする。このような処理で核酸を操作すると、増幅された配列にアーチファクト(例えば、ポリメラーゼ連鎖反応(PCR)増幅に関連付けられたGCバイアス)が導入され、配列リードのサイズが制限されることがある。したがって、NGSの方法及びシステムは、システム間で異なることがあるエラー率と関連付けられる。
【0035】
さらに、配列リード中の塩基を同定すること(例えば、塩基コーリング)と併せて使用されるソフトウェアは、NGS配列決定からの配列データの精度に影響を与える可能性がある。このようなアーチファクト及び制限により、ゲノムの長い繰り返し領域を配列及びマッピングし、ゲノム中の多型対立遺伝子及び異数性を同定することが困難になる可能性がある。例えば、ヒトゲノムの約40%は繰り返しDNA要素で構成されているため、参照ゲノム中の繰り返し要素にアライメントしている同一配列の短い単一リードは、しばしば、ゲノムの特定の領域に正確にマッピングすることができない。配列の決定におけるエラー及び/又は不完全性の影響のいくつかに対処し、場合によっては低減する1つの方法は、配列決定のカバレッジ又は深度を増加させることによるものである。しかしながら、配列決定カバレッジの増加は、配列決定時間及びコストの増加に関連付けられる。ペアエンド(Paired-end)配列決定も利用することができ、これは、配列をゲノム又は参照にマッピングする場合、例えば、長い繰り返し領域の配列リードの配置の精度を高め、遺伝子の欠失、挿入及び逆位などの構造的な再配置の分解能を高める。例えば、本明細書で提供される方法の一部の実施形態では、胚からの核酸のペアエンドNGSから得られたデータを使用することで、リードマッピングが平均15%増加した。ペアエンド配列決定法は、当技術分野で知られており、及び/又は本明細書に記載されており、両方向(すなわち、フラグメントの一方の端部からの第1のリード及びフラグメントの反対側の端部からの第2のリード)で核酸フラグメントの配列を決定することを含む。ペアエンド配列決定はまた、リード数を二倍にすることによって配列決定カバレッジ冗長度を効果的に増加させ、特に難しいゲノム領域のカバレッジを増加させる。
【0036】
(核酸配列分析)
ゲノム核酸の分析及びゲノム特徴の分類のために本明細書で提供される方法及びシステムの一部の実施形態では、細胞、例えば、胚細胞、又は生物から得られた核酸の配列は、ゲノムマッピングの方法を用いて細胞/生物のゲノム(又はその一部)を再構築するために用いられる。典型的には、ゲノムマッピングは、アラインメントと呼ばれるプロセスにおいて、配列を参照ゲノム(例えば、ヒトゲノム)にマッチさせることを含む。マッピングプロセスに使用することができるヒト参照ゲノムの例としては、2009年にリリースされたGRCh37(hg19)及び2013年にリリースされたGRCh38(hg38)などのGenome Reference Consortiumからリリースされたものが挙げられる(例えば、https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39を参照)。アラインメントを通して、配列リードは、典型的にはコンピュータプログラムを使用してゲノム遺伝子座に割り当てられ、配列のマッチングを行う。多数のアラインメントプログラムが公的に利用可能であり、Bowtie(例えば、http://bowtie-bio.sourceforge.net/manual.shtmlを参照のこと)及びBWA(例えば、http://bio-bwa.sourceforge.net/を参照)が挙げられる。(例えば、PCRの重複及び低品質配列を除去するために)処理され、遺伝子座にマッチングさせた配列は、しばしば、アライメントされた配列又はアライメントされたリードと呼ばれる。
【0037】
ゲノム参照への配列リードのマッピングでは、配列ヌクレオチド変異(SNV)又は単一ヌクレオチド多型(SNP)を同定することが可能である。SNV及びSNPという用語の両方が、様々な実施形態に応じて使用されることにも留意されたい。両方の用語は、当業者には区別可能である可能性があるが、これらの用語は、本明細書の様々な実施形態に応じて交換可能に使用することができる。したがって、受け取った配列決定データを分析するためのプロセスに適用される場合、どちらかの用語を使用することは、両方の用語を含むべきである。単一ヌクレオチド変異/多型は、単一ヌクレオチド位置でのゲノムの変異の結果である。SNV検出のためのいくつかの異なるNGS分析プログラムが公的に利用可能であり、当技術分野で知られており、及び/又は本明細書に記載されている。本方法は、BCFTOOLS(オープンソース)を利用して、アライメントされた配列決定データを整理し、下流のプロセスで使用されるSNV/遺伝子型コールを生成する。細胞又は生物のサンプル核酸からの配列をゲノムマッピングすることにより、染色体異常(例えば異数性)、CNVなどのゲノム特徴を検出及び同定することは、特に配列データが低カバレッジ及び低深度配列決定法から得られた場合は、特定の課題がもたらされます。その理由は、ゲノム全体が調べられているわけはなく、ゲノム内の何が調べられているかは、全ゲノム増幅、ライブラリ調製、並びに次世代シーケンシングシステム及び方法論の選択を含む(これらに限定されない)配列決定データを生成するために利用される方法論に起因するバイアス及びエラーに特に影響を受けやすくなるためである。特定のゲノム特徴を同定する際の配列データの解釈の容易さ及び/又は精度を向上させるためのコンピュータプログラム並びにシステムは、当技術分野で知られており、及び/又は本明細書に記載されている。例えば、分節の重複/欠失、モザイク特徴、異数性及びいくつかの形態の多倍数性を含む染色体異常を自動検出するためのシステム及び方法は、参照により本明細書に組み込まれる米国特許出願公開第2020/0111573号に記載されている。このような方法は、(生の配列リードをノイズ除去し、ゲノム配列情報を正規化して遺伝子座の影響を補正するための)ノイズ除去/正規化、並びに遺伝子座スコアをカリオグラムに解釈(又はデコード)するための機械学習及び人工知能を含む。例えば、配列決定が完了した後、生の配列データをデマルチプレクスし(所与のサンプルに帰属させ)、リードを、例えば、HG19などの参照ゲノムにアライメントし、100万塩基対の各ビン(bin)におけるリードの総数をカウントする。このデータは、GCの含有量及び深度に基づいて正規化され、既知の結果のサンプルから生成されたベースラインに対して試験される。次いで、コピー数2からの統計的偏差を異数性として報告する(存在する場合、存在しない場合=正倍数体)。本方法を使用して、減数分裂異数性と有糸分裂異数性を、CNVメトリックに基づいて互いに区別することができる。正常からの偏差に基づいて、存在する染色体の総数、存在する任意の異数性、及びこれらの異数性のモザイクレベル(該当する場合)を用いて核型が生成される。
【0038】
NGSにおいて発生する可能性があるアーチファクト、カバレッジのばらつき、及びエラーも、低カバレッジ配列決定データを使用してゲノム変異を正確に同定する際に課題となる。したがって、低カバレッジ配列決定から得られたデータから同定されたゲノム変異が実際に真のゲノム変異であるかどうかを検証して、それらが正しくコールされていることを確実にすることができる方法が必要とされている。
【0039】
本明細書では、低カバレッジ配列決定データを使用して行われるゲノム変異コール(特にCNVコール)を検証するための、改善された、効率的な、迅速な、費用対効果の高い方法及びシステムが提供される。
【0040】
(SNV密度を用いたCNVコールの検証)
本明細書に開示されるシステム及び方法は、全配列決定カバレッジ正規化密度相関が、コピー数の真の生物学的変化(すなわち、CNV)を検出する際に、配列決定カバレッジの人為的変化に基づく相関よりも優れているという決定を使用することを含む。歴史的に、SNV密度データを使用して、15×未満の配列決定カバレッジレベルでCNVコールを検証することはこれまで行われていない。生の形態では、異なる遺伝子座間のSNV密度ばらつきは、しばしば、コピー数の変化によるばらつきよりも大きい。この欠点は、異なる遺伝子座間のSNV密度ばらつきを平滑化する正規化ステップを組み込むことによって対処され、したがって、SNV密度を使用して、低カバレッジのゲノム配列決定データで行われるCNVコールを検証することが可能になった。これは、必要とされる配列決定カバレッジレベルが高ければ高いほど、分析に多くのコスト及び時間がかかる(低スループットになる)ため、(配列決定カバレッジレベルが15×以上のデータを必要とする)従来の方法に比べて著しく改善される。
【0041】
図1は、様々な実施形態による、全配列決定カバレッジの正規化密度相関が、コピー数の真の生物学的変化(すなわち、CNV)を検出する際に、配列決定カバレッジの人為的変化に基づく相関よりもどのように優れているかを示すグラフ図である。
【0042】
図1に示されるように、リード円102は、真の生物学的変化が胚に存在する(及びCNVプロファイルでも観察される。CNVプロファイル104を指し示す赤色矢印を参照されたい)場合の全配列決定カバレッジを正規化した密度間の相関関係を表す。線106によって表される準線形関係によって表されるような、正規化されたCNVビンスコア(Y軸)とそれらの個々のビンのSNV密度スコア(X軸)との相関関係は、真の生物学的変化が存在する場合に円108に見出されるCNVビンとそれらのSNV密度との相関関係、及びそれに続く勾配の減少したトレンドライン110よって示されるように、信号がアーチファクト又はノイズである場合と比較して、より高い。したがって、本方法は、CNV法において同定された変化が本開示に記載された方法によって検証されるかどうかを判断する際に、CNVビンスコアとSNVスコアとの間のこれらの相関値を活用する。
【0043】
図2は、様々な実施形態による、100個の正常な(CNVを含まない)胚サンプルの平均SNV密度202と比較した、臨床胚サンプルからのSNV密度204のグラフ描写である。
【0044】
本明細書に開示される正規化操作は、CNVコールのないサンプルのSNV密度が一貫したパターンに従うという事実を利用しており、これを使用してSNV密度を正規化することができる。したがって、
図2に示されるように、SNV密度の正規化は、遺伝子座のSNV密度204(臨床胚サンプルから導出される)を、正常なサンプルのベースラインセット(すなわち、100個の正常な雌の胚)における平均SNV密度202で割ることを含むことができる。この正規化関数を式1に示す。
(式1)
D
norm(遺伝子座、ベースラインサンプル)=(遺伝子座におけるサンプルSNV密度)/(遺伝子座における平均ベースラインSNV密度)
【0045】
次いで、得られた正規化されたSNV密度を使用して、カウントベースのCNVコールを確認することができる。
【0046】
図3は、様々な実施形態による、カウントベースのCNVコールを確認するためにSNV密度をどのように使用することができるかを示すグラフである。
【0047】
図3に示されるように、染色体1(欠失)302、染色体7(重複)304、染色体14(重複)306、及び染色体21(重複)308について、カウントベースの方法を使用して潜在的なCNVコールが行われる。これらのCNVコールは、正規化されたSNV密度グラフに対して検証され、このグラフは、潜在的なCNVコールが実際に本当であるかどうかを検証するために使用される予め設定された信頼区間を含む。この事例では、グラフは、CNVコールの染色体位置のSNV密度が予め設定された信頼区間の外側にあることを示しているため、4つCNVコールは全て本当のCNVコールであると検証された。
【0048】
図4は、様々な実施形態による、胚に対して行われるCNVコールを検証するための方法を示す例示的な流れ図である。
【0049】
ステップ402において、1つ又は複数のプロセッサによって、胚の配列決定データを受け取る。様々な実施形態において、胚は、ヒト胚とすることができる。様々な実施形態において、胚は、非ヒト胚である。
【0050】
ステップ404では、1つ又は複数のプロセッサによって、受け取った胚の配列決定データを参照ゲノムにアライメントする。様々な実施形態において、参照ゲノムは、単一の個体から得られた全ゲノムとすることができる。様々な実施形態において、参照ゲノムは、複数の個体からの複合全ゲノムとすることができる。アライメントプロセスにおいて使用することができる参照ゲノムの例としては、2009年にリリースされたGRCh37(hg19)及び2013年にリリースされたGRCh38(hg38)などの、Genome Reference Consortiumからリリースされたゲノムが挙げられるが、これらに限定されない(例えば、https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39を参照)。
【0051】
ステップ406において、1つ又は複数のプロセッサによって、アライメントされた胚の配列決定データにおけるゲノム変異領域を同定する。様々な実施形態において、ゲノム変異領域は、カウントベースのCNVコーリング法を使用して同定されたCNV領域である。様々な実施形態において、ゲノム変異領域は、異数性領域である。様々な実施形態において、ゲノム変異領域は、多倍数性領域である。様々な実施形態において、ゲノム変異領域は、染色体全体を表す配列分節を含む。様々な実施形態において、ゲノム変異領域は、染色体の一部のみを表す配列分節を含む。
【0052】
ステップ408において、1つ又は複数のプロセッサによって、同定されたゲノム変異領域中のSNVの数をカウントする。
【0053】
ステップ410において、1つ又は複数のプロセッサによって、同定されたゲノム変異領域のカウントされたSNVの数を、同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して正規化して、ゲノム変異領域についての正規化されたSNV密度を生成する。様々な実施形態において、SNVのベースラインカウントは、1つ又は複数の正常な(非CNV)サンプルから導出される配列決定データから得られる。様々な実施形態において、同定された変異領域及び参照領域は、同じ対応するゲノム分節(又はゲノム位置)をカバーする。様々な実施形態において、同定されたゲノム変異領域及び参照領域は、染色体全体を表す配列分節を含む。様々な実施形態において、同定されたゲノム変異領域及び参照領域は、染色体の一部のみを表す配列分節を含む。
【0054】
ステップ412において、1つ又は複数のプロセッサによって、同定されたゲノム変異領域における正規化されたSNV密度スコアが許容基準を満たす場合、同定されたゲノム変異領域が検証される。様々な実施形態において、同定されたゲノム変異領域のSNV密度が、帰無仮説下での平均SNV密度の予め設定された信頼区間の外側にある場合、真のコピー数変異は存在しない。様々な実施形態において、予め設定された信頼区間は、約90%である。様々な実施形態において、予め設定された信頼区間は、約95%である。様々な実施形態において、予め設定された信頼区間は、約96%、約97%、約98%及び約99%である。
【0055】
SNV密度が予め設定された信頼性上限よりも大きい場合、重複が検証され、SNV密度が予め設定された信頼性下限よりも小さい場合、欠失が検証される。予め設定された信頼区間は、正規性の仮定(C±Zシグマ/sqrt(N))に従って定義され、ここで、Cは、帰無仮説下での平均SNV密度の中心又は期待値であり、Nは、同定されたゲノム変異領域と重なるウィンドウの数であり、シグマは、全常染色体にわたる正規化されたSNV密度のグローバルな標準偏差であり、Zは、標準正規分布のX番目のパーセンタイルである。「+」記号は、値が信頼区間の上限に対しては加算されることを示し、「-」記号は、信頼区間の下限に対しては減算されることを示す。
【0056】
様々な実施形態において、許容基準は、モザイク胚から導出された参照領域の予想されるSNV密度である。
【0057】
様々な実施形態において、同定されたゲノム変異領域は、そのSNV密度が、モザイク胚(モザイクレベルのパーセンテージmの真のコピー数変異を含む)の代替仮説の予め設定された信頼区間の下限(重複の場合)を上回るか、又は上限(欠失の場合)を下回る場合に検証される。様々な実施形態において、予め設定された信頼区間は、約90%である。様々な実施形態において、予め設定された信頼区間は、約95%である。様々な実施形態において、予め設定された信頼区間は、約96%、約97%、約98%及び約99%である。
【0058】
代替仮説の予め設定された信頼区間は、正規性の仮定(C±Zシグマ/sqrt(N))に従って定義され、ここで、Cは、代替仮説下での平均SNV密度の中心又は期待値であり、C=E(SNV密度m)=1.0±0.5*m/100であり、Nは、同定されたゲノム変異領域と重なるウィンドウの数であり、シグマは、全常染色にわたる正規化されたSNV密度のグローバル標準偏差であり、Zは、標準正規分布のX番目のパーセンタイルである。「+」記号は、値が信頼区間の上限に対しては加算されることを示し、「-」記号は、信頼区間の下限に対しては減算されることを示す。
【0059】
様々な実施形態において、同定されたゲノム変異領域が、参照領域のSNVのベースラインカウントを上回る又は下回る予め設定されたSNVの分散数を超える数のSNVを含む場合、同定されたゲノム変異領域が検証される。
【0060】
図5は、様々な実施形態による、胚に対して行われるCNVコールを検証するためのシステムの概略図である。
【0061】
システム500は、ゲノムシーケンサ502、データストア504、コンピューティングデバイス/分析サーバ506、及びディスプレイ514を含む。
【0062】
ゲノム配列分析器502は、(両方が統合された機器プラットフォームを形成する場合)シリアルバスによって、又は(両方が分散した/別個のデバイスである場合)ネットワーク接続によって、データ記憶ユニット504に通信可能に接続することができる。ゲノム配列分析器502は、複数のフラグメント配列リードを含む胚サンプルから得られた1つ又は複数のゲノム配列データセットを処理及び分析するように構成することができる。様々な実施形態において、ゲノム配列分析器902は、llumina(登録商標)シーケンサ、MiSeq(商標)、NextSeq(商標)500/550(High Output)、HiSeq 2500(商標)(Rapid Run)、HiSeq(商標)3000/4000、及びNovaSeqなどの次世代シーケンシングプラットフォーム及びシーケンサによって生成される1つ又は複数のゲノム配列データセットを処理及び分析することができる。
【0063】
様々な実施形態において、処理及び分析されたゲノム配列データセットは、次いで、その後の処理のためにデータ記憶ユニット504に記憶することができる。様々な実施形態において、1つ又は複数の生のゲノム配列データセットを、処理及び分析の前にデータ記憶ユニット504に記憶することもできる。したがって、様々な実施形態において、データ記憶ユニット504は、1つ又は複数のゲノム配列データセットを記憶するように構成される。様々な実施形態において、処理及び分析されたゲノム配列データセットは、さらなる下流の分析のためにリアルタイムでコンピューティングデバイス/分析サーバ506に供給することができる。
【0064】
様々な実施形態において、データ記憶ユニット504は、コンピューティングデバイス/分析サーバ506に通信可能に接続されている。様々な実施形態において、データ記憶ユニット904及びコンピューティングデバイス/分析サーバ506は、統合された装置の一部とすることができる。様々な実施形態において、データ記憶ユニット504は、コンピューティングデバイス/分析サーバ506とは異なるデバイスによってホストすることができる。様々な実施形態において、データ記憶ユニット904及びコンピューティングデバイス/分析サーバ506は、分散型ネットワークシステムの一部とすることができる。様々な実施形態において、コンピューティングデバイス/分析サーバ506は、「ハードワイヤード」物理ネットワーク接続(例えば、インターネット、LAN、WAN、VPNなど)又は無線ネットワーク接続(例えば、Wi-Fi、WLANなど)のいずれかとすることができるネットワーク接続を介してデータ記憶ユニット504に通信可能に接続することができる。様々な実施形態において、コンピューティングデバイス/分析サーバ506は、ワークステーション、メインフレームコンピュータ、分散型コンピューティングノード(「クラウドコンピューティング」又は分散型ネットワーキングシステムの一部)、パーソナルコンピュータ、モバイルデバイスなどとすることができる。
【0065】
様々な実施形態において、コンピューティングデバイス/分析サーバ506は、アライメントエンジン508、ゲノム変異コーラー510、及び検証エンジン512をホストするように構成することができる。
【0066】
アライメントエンジン508は、胚の配列決定データを受け取り、参照ゲノムに対してアライメントするように構成することができる。様々な実施形態において、参照ゲノムは、単一の個体から得られた全ゲノムとすることができる。様々な実施形態において、参照ゲノムは、複数の個体からの複合全ゲノムとすることができる。アライメントプロセスにおいて使用することができる参照ゲノムの例としては、2009年にリリースされたGRCh37(hg19)及び2013年にリリースされたGRCh38(hg38)などの、Genome Reference Consortiumからリリースされたゲノムが挙げられるが、これらに限定されない(例えば、https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39を参照)。
【0067】
ゲノム変異コーラー510は、アライメントされた胚の配列決定データのゲノム変異領域を同定するように構成することができる。様々な実施形態において、ゲノム変異領域は、カウントベースのCNVコーリング法を使用して同定されたCNV領域である。様々な実施形態において、ゲノム変異領域は、異数性領域である。様々な実施形態において、ゲノム変異領域は、多倍数性領域である。様々な実施形態において、ゲノム変異領域は、染色体全体を表す配列分節を含む。様々な実施形態において、ゲノム変異領域は、染色体の一部のみを表す配列分節を含む。
【0068】
検証エンジン512は、同定されたゲノム変異領域における単一ヌクレオチド変異(SNV)の数をカウントし、同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対してSNVカウントを正規化して、同定されたゲノム変異領域についての正規化されたSNV密度を生成し、同定されたゲノム変異領域におけるSNV密度が許容基準を満たす場合に、同定されたゲノム変異領域を検証するように構成することができる。
【0069】
様々な実施形態において、SNVのベースラインカウントは、1つ又は複数の正常な(非CNV)サンプルから導出される配列決定データから得られる。様々な実施形態において、同定された変異領域及び参照領域は、同じ対応するゲノム分節(又はゲノム位置)をカバーする。様々な実施形態において、同定されたゲノム変異領域及び参照領域は、染色体全体を表す配列分節を含む。様々な実施形態において、同定されたゲノム変異領域及び参照領域は、染色体の一部のみを表す配列分節を含む。
【0070】
様々な実施形態において、同定されたゲノム変異領域のSNV密度が、帰無仮説下での平均SNV密度の予め設定された信頼区間の外側にある場合、真のコピー数変異は存在しない。様々な実施形態において、予め設定された信頼区間は、約90%である。様々な実施形態において、予め設定された信頼区間は、約95%である。様々な実施形態において、予め設定された信頼区間は、約96%、約97%、約98%及び約99%である。
【0071】
SNV密度が予め設定された信頼性上限よりも大きい場合、重複が検証され、SNV密度が予め設定された信頼性下限よりも小さい場合、欠失が検証される。予め設定された信頼区間は、正規性の仮定(C±Zシグマ/sqrt(N))に従って定義され、ここで、Cは、帰無仮説下での平均SNV密度の中心又は期待値であり、Nは、同定されたゲノム変異領域と重なるウィンドウの数であり、シグマは、全常染色体にわたる正規化されたSNV密度のグローバルな標準偏差であり、Zは、標準正規分布のX番目のパーセンタイルである。「+」記号は、値が信頼区間の上限に対しては加算されることを示し、「-」記号は、信頼区間の下限に対しては減算されることを示す。
【0072】
様々な実施形態において、許容基準は、モザイク胚から導出された参照領域の予想されるSNV密度である。
【0073】
様々な実施形態において、同定されたゲノム変異領域は、そのSNV密度が、モザイク胚(モザイクレベルのパーセンテージmの真のコピー数変異を含む)の代替仮説の予め設定された信頼区間の下限(重複の場合)を上回るか、又は上限(欠失の場合)を下回る場合に検証される。様々な実施形態において、予め設定された信頼区間は、約90%である。様々な実施形態において、予め設定された信頼区間は、約95%である。様々な実施形態において、予め設定された信頼区間は、約96%、約97%、約98%及び約99%である。
【0074】
代替仮説の予め設定された信頼区間は、正規性の仮定(C±Zシグマ/sqrt(N))に従って定義され、ここで、Cは、代替仮説下での平均SNV密度の中心又は期待値であり、C=E(SNV密度m)=1.0±0.5*m/100であり、Nは、同定されたゲノム変異領域と重なるウィンドウの数であり、シグマは、全常染色にわたる正規化されたSNV密度のグローバル標準偏差であり、Zは、標準正規分布のX番目のパーセンタイルである。「+」記号は、値が信頼区間の上限に対しては加算されることを示し、「-」記号は、信頼区間の下限に対しては減算されることを示す。
【0075】
様々な実施形態において、同定されたゲノム変異領域が、参照領域のSNVのベースラインカウントを上回る又は下回る予め設定されたSNVの分散数を超える数のSNVを含む場合、同定されたゲノム変異領域が検証される。
【0076】
同定されたゲノム変異領域の検証が行われた後、その結果は、コンピューティングデバイス/分析サーバ506に通信可能に接続されたディスプレイ又はクライアント端末514上に結果又は要約として表示することができる。様々な実施形態において、ディスプレイ又はクライアント端末514は、シン・クライアント・コンピューティングデバイスとすることができる。様々な実施形態において、ディスプレイ又はクライアント端末514は、ゲノム配列分析器502、データストア504、アライメントエンジン508、ゲノム変異コーラー510、及び検証エンジン512の動作を制御するために使用することができるウェブブラウザ(例えば、INTERNET EXPLORER(商標)、FIREFOX(商標)、SAFARI(商標)など)を有するパーソナル・コンピューティング・デバイスとすることができる。
【0077】
(実験結果)
【表1】
上記の表1に示されるように、真が既知である全部で70個の三倍体サンプル及び349個の二倍体サンプル(SNPアレイ)を、本明細書に開示される方法によって雌性三倍体の有無について調べた。結果を上記に記載し、ここで、「真陽性」は、疾患状態(多倍数体)と首尾よくコールされたとして定義され、「真陰性」は、「正倍数体」状態として首尾よくコールされたとして定義され、「偽陽性」は、正倍数体胚において疾患状態として誤ってコールされたとして定義され、「偽陰性」は、疾患状態胚において正倍数体として誤ってコールされたとして定義される。
【0078】
表は、胚における真のCNVの存在を検証する際の開示された方法の高い精度を明確に示している。
【0079】
(コンピュータ実装システム)
様々な実施形態において、胚におけるCNVの検証のためにSNVの密度を使用するための方法は、コンピュータソフトウェア又はハードウェアを介して実装することができる。すなわち、
図5に示されるように、本明細書に開示される方法は、アライメントエンジン508、データストア504、ゲノム変異コーラー510、及び検証エンジン512を含むコンピューティングデバイス/分析サーバ506上に実装することができる。様々な実施形態において、コンピューティングデバイス/分析サーバ506は、直接接続を介して、又はインターネット接続を通じて、ディスプレイデバイス514に通信可能に接続することができる。
【0080】
図5に示される様々なエンジンは、特定の用途又はシステムアーキテクチャの要件に応じて、単一のエンジン、コンポーネント、又はモジュールに組み合わせるか、又はまとめることができることを理解されたい。さらに、様々な実施形態において、アライメントエンジン508、データストア504、ゲノム変異コーラー510、及び検証エンジン512は、特定のアプリケーション又はシステムアーキテクチャによって必要とされる追加のエンジン又はコンポーネントを含むことができる。
【0081】
図6は、様々な実施形態による、コンピュータシステムを示すブロック図である。本教示の様々な実施形態において、コンピュータシステム600は、情報を通信するためのバス602又は他の通信機構と、情報を処理するためにバス602と結合されたプロセッサ604と、を含むことができる。様々な実施形態において、コンピュータシステム600は、プロセッサ604によって実行される命令を決定するためにバス602に結合されたランダムアクセスメモリ(RAM)606又は他の動的記憶デバイスとすることができるメモリも含むことができる。メモリは、プロセッサ604によって実行される命令の実行中に一時的な変数又は他の中間情報を記憶するために使用することもできる。様々な実施形態において、コンピュータシステム600は、プロセッサ604のための静的情報及び命令を記憶するためにバス602に結合された読み取り専用メモリ(ROM)608又は他の静的記憶デバイスをさらに含むことができる。情報及び命令を記憶するために、磁気ディスク又は光ディスクなどの記憶デバイス610を設け、バス602に結合することができる。
【0082】
様々な実施形態において、コンピュータシステム600は、コンピュータユーザに情報を表示するために、バス602を介して、陰極線管(CRT)又は液晶ディスプレイ(LCD)などのディスプレイ612に結合することができる。プロセッサ604に情報及びコマンド選択を伝達するために、英数字及び他のキーを含む入力デバイス614をバス602に結合することができる。別のタイプのユーザ入力デバイスは、方向情報及びコマンド選択をプロセッサ604に伝達し、ディスプレイ612上のカーソル移動を制御するための、マウス、トラックボール、又はカーソル方向キーなどのカーソル制御装置616である。この入力デバイス614は、典型的には、第1の軸(すなわち、x)及び第2の軸(すなわち、y)の2つの軸における2つの自由度を有し、これにより、デバイスが平面内の位置を指定することができる。しかしながら、本明細書では、3次元(x、y及びz)カーソル移動を可能にする入力デバイス614も企図されていることを理解されたい。
【0083】
本教示の特定の実装と一致して、結果は、メモリ606内に含まれる1つ又は複数の命令の1つ若しくは複数の配列を実行するプロセッサ604に応答して、コンピュータシステム600によって提供することができる。このような命令は、記憶デバイス610などの別のコンピュータ可読媒体又はコンピュータ可読記憶媒体からメモリ606に読み込むことができる。メモリ606に含まれる一連の命令を実行することで、プロセッサ604に本明細書に記載されたプロセスを実行させることができる。代替として、本教示を実施するために、ソフトウェア命令の代わりに、又はそれと組み合わせて、ハードワイヤード回路を使用することができる。したがって、本教示の実装は、ハードウェア回路及びソフトウェアの任意の特定の組合せに限定されない。
【0084】
本明細書で使用される「コンピュータ可読媒体」(例えば、データストア、データストレージなど)又は「コンピュータ可読記憶媒体」という用語は、実行のためにプロセッサ604に命令を与えることに関与する任意の媒体を指す。このような媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形態をとることができるが、これらに限定されない。不揮発性媒体の例は、記憶デバイス610などの光学、ソリッドステート、磁気ディスクを含むことができるが、これらに限定されない。揮発性媒体の例は、メモリ606などのダイナミックメモリを含むことができるが、これに限定されない。伝送媒体の例は、バス602を構成するワイヤを含む、同軸ケーブル、銅線、及び光ファイバを含むことができるが、これらに限定されない。
【0085】
コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又は任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、フラッシュEPROM、任意の他のメモリチップ若しくはカートリッジ、又はコンピュータが読み取ることができる任意の他の有形媒体を含む。
【0086】
コンピュータ可読媒体に加えて、命令又はデータは、実行のためにコンピュータシステム600のプロセッサ604に1つ又は複数の一連の命令を提供するために、通信装置又はシステムに含まれる伝送媒体上の信号として提供することができる。例えば、通信装置は、命令及びデータを示す信号を有するトランシーバを含むことができる。命令及びデータは、1つ又は複数のプロセッサに、本明細書の開示で概説した機能を実施させるように構成される。データ通信伝送接続の代表的な例は、電話モデム接続、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、赤外線データ接続、NFC接続などを含むことができるが、これらに限定されない。
【0087】
本明細書の流れ図、図、及び添付の開示に記載される方法は、スタンドアロンデバイスとしてのコンピュータシステム600を使用して、又はクラウドコンピューティングネットワークなどの共有コンピュータ処理リソースの分散型ネットワーク上で実施することができることを理解されたい。
【0088】
本明細書に記載される方法は、用途に応じて様々な手段によって実施することができる。例えば、これらの方法は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組合せで実施することができる。ハードウェア実装の場合、処理ユニットは、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書に記載された機能を実行するように設計された他の電子ユニット、又はそれらの組合せ内に実装されてもよい。
【0089】
様々な実施形態において、本教示の方法は、C、C++、Pythonなどの従来のプログラミング言語で書かれたファームウェア及び/又はソフトウェアプログラム及びアプリケーションとして実装することができる。ファームウェア及び/又はソフトウェアとして実装される場合、本明細書に記載された実施形態は、コンピュータに上記で説明した方法を実行させるためのプログラムが記憶された非一時的コンピュータ可読媒体上に実装することができる。本明細書に記載された様々なエンジンは、コンピュータシステム600などのコンピュータシステム上に設けることができ、それによって、プロセッサ604は、メモリコンポーネント606/608/610のうちのいずれか、又はその組合せによって提供される命令と、入力デバイス614を介して提供されるユーザ入力とに従って、これらのエンジンによって提供される分析及び判定を実行することになることを理解されたい。
【0090】
本教示は、様々な実施形態と併せて説明されているが、本教示がそのような実施形態に限定されることは意図されない。反対に、本教示は、当業者によって理解されるように、様々な代替形態、修正形態、及び均等物形態を包含する。
【0091】
様々な実施形態を説明する際に、本明細書は、ステップの特定の配列として方法及び/又はプロセスを提示している場合がある。しかしながら、方法又はプロセスが、本明細書に記載されるステップの特定の順序に依存しない範囲で、方法又はプロセスは、記載されたステップの特定の順序に限定されるべきではなく、当業者は、順序を変えても、依然として様々な実施形態の精神及び範囲内にあることを容易に理解することができる。
【手続補正書】
【提出日】2022-03-24
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
胚におけるゲノム変異領域を検証するための方法であって、
1つ又は複数のプロセッサによって、胚の配列決定データを受け取るステップと、
前記1つ又は複数のプロセッサによって、前記受け取った胚の配列決定データを参照ゲノムにアライメントするステップと、
前記1つ又は複数のプロセッサによって、前記アライメントされた胚の配列決定データにおけるゲノム変異領域を同定するステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における単一ヌクレオチド変異(SNV)の数をカウントするステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における前記カウントされたSNVの数を、前記同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して正規化して、前記ゲノム変異領域についての正規化されたSNV密度を生成するステップと、
前記1つ又は複数のプロセッサによって、前記同定されたゲノム変異領域における前記正規化されたSNV密度が許容基準を満たす場合に、前記同定されたゲノム変異領域を検証するステップと、
を含む、方法。
【請求項2】
前記ゲノム変異領域がコピー数変異領域である、請求項1に記載の方法。
【請求項3】
前記ゲノム変異領域が異数性領域である、請求項1に記載の方法。
【請求項4】
前記ゲノム変異領域が多倍数性領域である、請求項1に記載の方法。
【請求項5】
前記参照領域が、前記同定されたゲノム変異領域の正確な長さである、請求項1に記載の方法。
【請求項6】
前記参照領域が正倍数体サンプルから導出される、請求項1に記載の方法。
【請求項7】
前記許容基準が、正倍数体胚から導出される参照領域についての予測されるSNV密度である、請求項1に記載の方法。
【請求項8】
前記同定されたゲノム変異領域の前記正規化されたSNV密度が、前記参照領域についての前記予想されるSNV密度の予め設定された信頼区間よりも大きいか又は小さい場合に、前記同定されたゲノム変異領域が検証される、請求項7に記載の方法。
【請求項9】
前記低い方の予め設定された信頼区間が95%である、請求項8に記載の方法。
【請求項10】
前記許容基準が、モザイク胚から導出された参照領域についての予測されるSNV密度である、請求項1に記載の方法。
【請求項11】
前記同定されたゲノム変異領域の前記正規化されたSNV密度が、前記参照領域についての前記予想されるSNV密度の予め設定された信頼区間を上回る場合に、前記同定されたゲノム変異領域が検証される、請求項10に記載の方法。
【請求項12】
前記予め設定された信頼区間が95%である、請求項11に記載の方法。
【請求項13】
前記許容基準が、前記参照領域に対するSNVのベースラインカウントを上回るか又は下回る予め設定されたSNVの分散数である、請求項1に記載の方法。
【請求項14】
コンピュータによって実行されると、前記コンピュータに請求項1乃至13の何れか1項に記載の方法を実行させる命令を含むコンピュータプログラム製品。
【請求項15】
胚の配列決定データを記憶するためのデータストアと、
前記データストアに通信可能に接続されたコンピューティングデバイスであって、
前記胚の配列決定データを受け取り、参照ゲノムに対してアライメントするように構成されたアライメントエンジン、
前記アライメントされた胚の配列決定データにおけるゲノム変異領域を同定するように構成されたゲノム変異コーラー、及び
検証エンジンであり、
前記同定されたゲノム変異領域における単一ヌクレオチド変異(SNV)の数をカウントし、前記同定されたゲノム変異領域に対応する参照領域のSNVのベースラインカウントに対して前記同定されたゲノム変異領域における前記SNVカウントを正規化して、前記同定されたゲノム変異領域についての正規化されたSNV密度を生成し、
前記同定されたゲノム変異領域における前記正規化されたSNV密度が許容基準を満たす場合に、前記同定されたゲノム変異領域を検証するように構成された、検証エンジン、
を備えるコンピューティングデバイスと、
前記コンピューティングデバイスに通信可能に接続され、前記検証エンジンからのゲノム変異領域の結果を含むレポートを表示するように構成されたディスプレイと、
を備える、胚のゲノム変異領域を検証するシステム。
【国際調査報告】