(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-26
(54)【発明の名称】非侵襲性出生前検査のための方法及びデバイス
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240918BHJP
C12Q 1/6806 20180101ALI20240918BHJP
C12M 1/00 20060101ALI20240918BHJP
C12M 1/34 20060101ALI20240918BHJP
G01N 33/53 20060101ALI20240918BHJP
【FI】
C12Q1/6869 Z
C12Q1/6806 Z
C12M1/00 A
C12M1/34 Z
G01N33/53 M
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024513991
(86)(22)【出願日】2021-09-03
(85)【翻訳文提出日】2024-04-30
(86)【国際出願番号】 IB2021000635
(87)【国際公開番号】W WO2023031641
(87)【国際公開日】2023-03-09
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】591100596
【氏名又は名称】アンスティチュ ナショナル ドゥ ラ サンテ エ ドゥ ラ ルシェルシュ メディカル
(71)【出願人】
【識別番号】595040744
【氏名又は名称】サントル・ナショナル・ドゥ・ラ・ルシェルシュ・シャンティフィク
【氏名又は名称原語表記】CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE
(71)【出願人】
【識別番号】520100435
【氏名又は名称】ユニヴェルシテ・コート・ダジュール
【氏名又は名称原語表記】Universite Cote d’Azur
(71)【出願人】
【識別番号】520306129
【氏名又は名称】サントル・オスピタリエ・ユニヴェルシテル・ドゥ・ニース
【氏名又は名称原語表記】CENTRE HOSPITALIER UNIVERSITAIRE DE NICE
(74)【代理人】
【識別番号】110001508
【氏名又は名称】弁理士法人 津国
(72)【発明者】
【氏名】ボッティーニ,シルヴィア
(72)【発明者】
【氏名】プラテッラ,ダヴィッド
(72)【発明者】
【氏名】ミラネシオ,マルコ
(72)【発明者】
【氏名】デュボック,ヴェロニク
(72)【発明者】
【氏名】パキイス-フラックリンガー,ヴェロニク
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB20
4B063QA05
4B063QA13
4B063QA20
4B063QQ02
4B063QQ42
4B063QS36
4B063QS39
(57)【要約】
本明細書において、非侵襲性出生前検査(NIPT)の分析を行うためのパッケージ、合成シークエンスを作成し、異数性の予測のために信頼区間を推定するための半教師ありアプローチ、及び信頼区間に基づきNIPTの結果の信頼度を検定するためのパッケージという、臨床診療におけるNIPTの結果を検証するための戦略の実行を可能にする方法及びデバイスのスイートが提供される。確認された異数体を含む2つのコホートでこれらの新しいツールを検証し、100%の感度及び特異度を実証した。したがって、本発明は、NIPTにおいて胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法;前記方法を実行するためのデバイス、コンピュータプログラム製品並びにコンピュータ可読媒体に関する。この結果は、データ解析パイプライン、染色体及びコホート毎にff、sd及びE値の閾値を評価する必要があるという結論をもたらしている。したがって、これらの閾値を実験室特異的に特定してNIPTの性能を改善できるようになるので、提供されるデバイス及び方法は、広く関心がもたれる。
【特許請求の範囲】
【請求項1】
非侵襲性出生前検査(NIPT)において胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法であって、
a)母体生物学的サンプルからシークエンスリードのセットを提供するステップであって、シークエンスリード毎に断片長が公知であるステップと、
b)シークエンスリードのセットの1つ以上の断片長に重み係数を割り当てるステップと、
c)合成プロファイルを計算するステップであって、母体生物学的サンプルからの少なくとも1つのシークエンスリードの選択が削除される、又は非妊娠サンプルからのシークエンスリードの選択と置換されるステップと、
d)(i)参照胎児範囲内の断片長を有するリードの総数及び(ii)参照胎児範囲内の関心対象の染色体(T)における断片長を有するリードの数のうちの少なくとも1つに基づき合成プロファイルに対応する値(E)を計算するステップと、
e)少なくとも前記値(E)に基づき合成プロファイルの胎児ゲノム率及びシークエンス深度を推定するステップと
を含む方法。
【請求項2】
母体生物学的サンプルから無細胞DNA(cfDNA)を単離するステップをさらに含む、請求項1記載の方法。
【請求項3】
母体生物学的サンプルから単離された無細胞DNA(cfDNA)をシークエンシングし、それによりシークエンスリードのセットを得るステップをさらに含む、請求項1又は2記載の方法。
【請求項4】
シークエンスリードから少なくとも1つのリードを削除し、それによりステップc)の合成プロファイルと比較してモジュレートされたシークエンス深度(sd)を有する合成プロファイルを生成するステップを含む、前記請求項のいずれか一項記載の方法。
【請求項5】
シークエンスリードから少なくとも1つのリードを置換し、それによりステップc)の合成プロファイルと比較してモジュレートされた胎児ゲノム率(ff)を有する合成プロファイルを生成するステップを含む、前記請求項のいずれか一項記載の方法。
【請求項6】
値(E)が、
【数11】
[式中、
【数12】
は、参照胎児範囲内の断片長を有するリードの総数に対応し、
【数13】
は、参照胎児範囲内の関心対象の染色体(T)における断片長を有するリードの数に対応し、
【数14】
は、関心対象の染色体(T)に関するリード数を合成プロファイルにおけるリードの総数で割ったものに対応する]として定義される、前記請求項のいずれか一項記載の方法。
【請求項7】
関心対象の染色体(T)が、13、18、21番、X及びY染色体からなる群より選択される、前記請求項のいずれか一項記載の方法。
【請求項8】
関心対象の染色体(T)が、13、18、及び21番染色体からなる群より選択される、前記請求項のいずれか一項記載の方法。
【請求項9】
参照プロファイルで事前に訓練された決定木を使用して非侵襲性出生前検査(NIPT)の信頼度を決定するための方法であって、
a)母体生物学的サンプルから前記請求項のいずれか一項記載の胎児ゲノム率(ff)、シークエンス深度(sd)、合成プロファイル及び前記合成プロファイルに対応する値(E)を提供するステップと、
b)それを前記参照プロファイルのZスコアと比較することによって前記合成プロファイルについてのZスコアを計算するステップと、
c)前記計算されたZスコアをZスコアの閾値と比較することによって前記合成プロファイルを群に分類するために、前記計算されたZスコア並びに前記胎児ゲノム率、シークエンス深度及び前記合成プロファイルの値(E)を前記決定木にフィードするステップと、
d)前記分類から、前記母体生物学的サンプルのNIPTについての信頼度スコア(Rscore)を決定するステップと
を含む方法。
【請求項10】
胎児異数性の検出における非侵襲性出生前検査の信頼度を決定するために、ステップc)で前記合成プロファイルが、異数体プロファイルの群又は正倍数体プロファイルの群に分類される、前記請求項のいずれか一項記載の方法。
【請求項11】
胎児異数性が、13、18、21番、X及びY染色体からなる群より選択される関心対象の染色体(T)のヒト胎児異数性である、前記請求項のいずれか一項記載の方法。
【請求項12】
胎児異数性が、13、18及び21番染色体からなる群より選択される関心対象の染色体(T)のヒト胎児異数性である、前記請求項のいずれか一項記載の方法。
【請求項13】
請求項1~8のいずれか一項記載の非侵襲性出生前検査(NIPT)における胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法を実行するためのデバイス。
【請求項14】
参照プロファイルで事前に訓練された決定木を含み、請求項9又は10又は11又は12に記載の非侵襲性出生前検査(NIPT)の信頼度を決定するための方法を実行するために構成されている、請求項13記載のデバイス。
【請求項15】
サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されたコンピュータプログラム製品であって、これらの命令が、請求項1~8のいずれか一項記載の非侵襲性出生前検査(NIPT)における胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するために、並びに/又は請求項9若しくは10若しくは11若しくは12のいずれか一項記載の非侵襲性出生前検査(NIPT)の信頼度を決定するために構成されている、コンピュータプログラム製品。
【請求項16】
請求項15に記載のコンピュータプログラム製品を含むコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
開示の分野
本発明は、非侵襲性出生前検査の分野に関する。
【0002】
特に、本発明は、胎児染色体異常、より詳細には胎児異数性の検出に関する。
【0003】
開示の背景
非侵襲性出生前検査(NIPT)の開発は、トリソミー21(ダウン症候群)などの胎児異数性を検査するための安全な選択肢を妊婦に与えることによって出生前診断の景観を改革した。この検査は、母体血中の循環無細胞DNA断片(cfDNA)に基づく。母体血漿は、低カバレッジの次世代シークエンシング(NGS)によって分析される母体cfDNA及び胎児cfDNAの両方を含有する。胎児ゲノム率(ff)は、母体血漿中の胎児胎盤起源cfDNAのパーセントである(ff=胎児cfDNA/胎児cfDNA+母体cfDNA)。これは、母体血中の胎児cfDNAの直接測定によって評価された場合、妊娠中の妊娠10~20週に平均10~15%増加する。ffは、ボディマス指数(BMI)及び疾患を含む種々の母体パラメータのみならず、胎児胎盤パラメータに依存する。NIPTの信頼度は高いが、十分なffに依存する。
【0004】
Palomakiら("DNA sequencing of maternal plasma to detect Down syndrome: an international clinical validation study". Genet Med. 2011;13(11):913-920)によると、NIPTの結果を検証するためにffは少なくとも4%であるべきであると提唱されている。
【0005】
Peng & Jiang("Bioinformatics Approaches for Fetal DNA Fraction Estimation in Non-Invasive Prenatal Testing". International Journal of Molecular Sciences. 2017;18(2):453)、Beekら("Comparing methods for fetal fraction determination and quality control of NIPT samples". Prenatal Diagnosis. 2017;37(8):769-773)及びHestandら("Fetal fraction evaluation in non-invasive prenatal screening (NIPS)". Eur J Hum Genet. 2019;27(2):198-202)に報告されているように、いくつかのバイオインフォマティクスツールがffの推定のために開発されており、それらの性能は非常に異なる。
【0006】
DEFRAGアルゴリズムを含む、ffを計算するための初期のアプローチは、Hudecovaら("Maternal Plasma Fetal DNA Fractions in Pregnancies with Low and High Risks for Fetal Chromosomal Aneuploidies". PLoS One. 2014;9(2))によって報告されているように観察されたY染色体のリードカウントに基づく。
【0007】
もっとも正確であるにもかかわらず、これらの方法は男性胎児だけに有益である。Kimら("Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts. Prenatal Diagnosis. 2015;35(8):810-815)及びStraverら("Calculating the fetal fraction for Non-Invasive Prenatal Testing based on genome-wide nucleosome profiles". Prenat Diagn. 2016;36(7):614-621)によって報告されているように、胎児の性別に依存しない2つの他のアプローチ、Seqff及びSanefalconが開発されている。第1のアプローチは、胎児及び母体断片がゲノム上に均等に分布していないという仮定に基づく。したがって、著者らは、あらかじめ定義されたビンの分割内でこれらの小さな差異を検出可能なモデルを予備訓練するため及びffを推定するために大きなコホートを使用した。第2は、胎児と母体DNAの間にヌクレオソームパッケージングの差異が存在し、より短い胎児断片の集団をもたらすという仮説に基礎を置いている。したがって、著者らは、推定されたヌクレオソームプロファイルでのリードの空間分布を活用することによってffを推定することを提唱した。ff値を計算するためのゴールドスタンダードがないことに加えて、診断実験室にわたって適用可能なユニバーサルff閾値はない。
【0008】
したがって、
・ 非侵襲性出生前検査のための、より信頼できる高感度の方法及びデバイスを提供すること、そのうえ、NIPTにおける既存の方法及びデバイスの信頼度を評価すること、
・ 低い胎児ゲノム率(ff)及び/又は低いシークエンス深度(sd)の場合に検査の信頼度を改善すること。重大な態様は、診断未確定の異数性をもたらしうる偽陰性、及び不必要な侵襲性検査を引き起こす偽陽性の数を低下させることにある、
・ 個体のより幅広い選択のための、及び妊娠中の潜在的障害のより幅広い選択のための予測を行う方法及びデバイス、並びに
・ 依然として高い費用効果であり、妊娠中に低い侵襲性又は危険性である、このような状態の診断のための方法
の必要性がある。
【0009】
本発明は、上述の必要性をもたすことを目的とする。
【0010】
概要
第1の主な実施態様によると、本発明は、非侵襲性出生前検査(NIPT)において胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法であって、
a)母体生物学的サンプルからシークエンスリードのセットを提供するステップであって、シークエンスリード毎に断片長が公知であるステップと、
b)シークエンスリードのセットの1つ以上の断片長に重み係数を割り当てるステップと、
c)合成プロファイルを計算するステップであって、母体生物学的サンプルからの少なくとも1つのシークエンスリードの選択が削除される、又は非妊娠サンプルからのシークエンスリードの選択と置換されるステップと、
d)(i)参照胎児範囲内の断片長を有するリードの総数及び(ii)参照胎児範囲内の関心対象の染色体(T)における断片長を有するリードの数のうちの少なくとも1つに基づき合成プロファイルに対応する値Eを計算するステップと、
e)少なくとも前記値Eに基づき合成プロファイルの胎児ゲノム率及びシークエンス深度を推定するステップと
を含む方法に関する。
【0011】
第2の主な実施態様では、本発明は、参照プロファイルで事前に訓練された決定木を使用して非侵襲性出生前検査(NIPT)の信頼度を決定するための方法であって、
a)母体生物学的サンプルから、前記請求項のいずれか一項記載の胎児ゲノム率(ff)、シークエンス深度(sd)、合成プロファイル及び前記合成プロファイルに対応する値Eを提供するステップと、
b)それを前記参照プロファイルのZスコアと比較することによって前記合成プロファイルについてのZスコアを計算するステップと、
c)前記計算されたZスコアをZスコア閾値と比較することによって前記合成プロファイルを群に分類するために、前記決定木に、前記計算されたZスコア並びに前記胎児ゲノム率、シークエンス深度及び前記合成プロファイルの値Eをフィードするステップと、
d)前記分類から前記母体生物学的サンプルのNIPTについての信頼度スコア(Rscore)を決定するステップと
を含む方法に関する。
【0012】
本発明はまた、本発明による非侵襲性出生前検査(NIPT)における胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法を実行するためのデバイスに関する。
【0013】
好ましい実施態様では、前記デバイスは、参照プロファイルで事前に訓練された決定木を含み、デアバイスは、本発明により非侵襲性出生前検査(NIPT)の信頼度を決定するための方法を実行するために構成されている。
【図面の簡単な説明】
【0014】
【
図1】
図1Aでは、NiPTUNE(完全スイート)は、各々1つ以上のモジュールを含む7つのブロックから構成される。対応するモジュールを白ボックス内に表示する。関連するpythonスクリプト名をイタリック体で報告する。最後のカラムは、各ブロックのアウトカムを報告する。
図1Bでは、iSanefalcon(ff推定のためのモジュール)は、各々1つ以上のモジュールを含む5つの主ステップから構成される。対応するモジュールを白ボックス内に表示する。最後のカラムに各ステップの結果を報告する。
【
図2】GenomeMixer:妊婦の合成シークエンシングを作成するための新規なバイオインフォマティクスツール。コホート1(
図2A)及びコホート2(
図2B)からの妊婦(SPW)及び非妊婦(SNPW)からの正倍数体サンプルのリード長分布。対応するサンプルについてSeqffによって推定されたffに従い分布を色づけする。コホート毎にffの範囲を表すために一色の濃淡の階調を使用する。SNPWを対照として加えた。
図2CにGenomeMixerのワークフロー。最初のカラムにGenomeMixerの主ステップを報告する。模式図は、サンプルがそれぞれGenomeMixer_sd又はGenomeMixer_ffによってどのように生成されるかを示す。両方がトリソミーを有するSPWを入力と見なし、GenomeMixer_ffはSNPWを同様に使用する。長さ依存性の重みを使用して、母体又は胎児集団に属する可能性がもっとも高いとしてリードにラベルする。次いで、n個のリードをサンプリングし、その際、nは、ユーザによって選ばれたリードのパーセントに依存する。最終的に、GenomeMixer_sdは、サンプルリードを削除し、一方でGenomeMixer_ffは、サンプルリードを、SNPWリードからサンプリングされたリードに置換する。この手順は、すべてのリードが削除又は置換されるまで最初のリードカウントから一定パーセントのリードの増分を削減又は置換して反復される。色分け:黒色バーはラベル前のSPWリード;紫色バーはSNPWリード;緑色バーは胎児リードとしてラベルされたリード;赤色リードは母体リードとしてラベルされたリード。
【
図3】胎児染色体異常の予測に対するff及びsdの影響。
図3AにGenomeMixer_ffで生成されたサンプル、上のパネル(A~F)及び
図3BにGenomeMixer_sd、下のパネル(G~L)。30個のネイティブな異数体(NA)サンプルから開始して、本発明者らは、初期リードカウントから5%の増分を置換することによってNAあたり19個の合成異数体(SA)サンプルを生成した。NAの開始プールは、Defrag aについて男児のみ(A~E、G~K)、又はSeqffについてすべてのNA(B~F,H~L)のいずれかを含む。合成サンプルの生成の間のモジュレートされたパラメータ(ff:A~B、sd:G~H)の傾向を示す。反復に沿って安定を保つパラメータの傾向(sd:C~D、ff:I~J)を示す。サンプルの生成の間のモジュレートされたパラメータ(ff:E~F、sd:K~L)とZスコアとの間の関係を示す。5未満のZスコアを有するサンプルに赤色を付ける。NAサンプルを四角で、SAを三角で表す。
【
図4】両方のコホートについてのZスコアの関数としてのサンプル毎のchr 18及びchr 21のE値。それぞれ18番及び21番染色体についてのパネルA及びBは、両方ともコホート1に関する。それぞれ18番及び21番染色体についてのパネルC及びDは、両方ともコホート2に関する。
【
図5】Seqffによって推定されたffを用いた臨床診療のための信頼できるNIPTについての信頼区間の評価。
図5A:Seqffを用いて計算された3つのパラメータ、E値、sd及びffについての信頼区間を示す決定木。各ノードは、パラメータの1つについての判別値を表す(sd:丸、ff:長方形、E値:角丸の長方形)。木の根元に信頼区間毎のRscoreを報告する。置換又は削除されたリードの各%についての(
図5B)GenomeMixer_ff又は(
図5C)GenomeMixer_sdのいずれかを用いて生成されたRscore別のSAのパーセント。
【
図6】上のヒストグラムは、ffを決定することができたサンプルのカウントを示す。カテゴリー(NE18、NE21、NA18、NA21、SA18、SA21)毎のRscore別のサンプルのパーセント。
図6Aは、「高い信頼性がある」に対応する0.9以上のRscoreに対応し;
図6Bは、「信頼性がある」に対応する0.2以上0.8未満のRscoreに対応し;
図6Cは、「信頼性がない」に対応する0.2未満のRscoreに対応する。
【
図7】Defrag aによって推定されたffについての臨床診療における信頼できるNIPTのための信頼区間の評価。A)Defrag aを用いて計算された3つのパラメータ、E値、sd及びffについての信頼区間を示す決定木。各ノードは、パラメータの1つについての判別値を表す(sd:円、ff:長方形、E値:角丸の長方形)。木の根元に信頼区間毎にRscoreを報告する。置換又は削除されたリードの%毎にB)GenomeMixer_ff又はC)GenomeMixer_sdのいずれかを用いて生成されたRscore別のSAのパーセント。上のヒストグラムは、ffを決定することができたサンプルのカウントを示す。D)
図6と同様にカテゴリー(NE18、NE21、NA18、NA21、SA18、SA21)についてのRscore別のサンプルのパーセントを提供する。
【0015】
開示の詳細な説明
本明細書において、臨床診療におけるNIPTの結果を検証するための戦略の実行を可能にする方法及びデバイスのスイートが提供される。このスイートは、NIPT分析を行うためのパッケージNiPTUNE、合成シークエンスを作成し、異数性の予測のために信頼区間を推定するための半教師ありアプローチGenomeMixer、及び信頼区間に基づきNIPTの結果の信頼度を検定するためのTRUSTである。確認された31個の異数体を有する合計1439個のサンプルを含む2つのコホートでこれらの新しいツールを検証し、100%の感度及び特異度を実証した。
【0016】
特に、(i)参照胎児範囲内の断片長を有するリードの総数及び(ii)参照胎児範囲内の関心対象の染色体(T)における断片長を有するリードの数のうちの少なくとも1つに基づく新しい指標「E値」又は「値E」が報告される。
【0017】
本発明者らの知るかぎりでは、これは、胎児ゲノム率(ff)、シークエンス深度(sd)、及びZスコアが前記E値と深く関連することを示す、それらの間の関係の最初の研究である。重要なことには、ff、sd及びE値についての単一の閾値が、信頼できるNIPTを達成するために不十分であるが、検査を層別化するためにより複雑な絡み合った閾値が必要であることが本明細書に示される。さらに、ffを計算するために使用されるデバイス/方法に応じて、異なる閾値及び区間が得られることが示される。この結果は、ff、sd及びE値の閾値がデータ解析パイプライン、染色体及びコホート毎に評価される必要があるという結論をもたらす。したがって、提供されるデバイス及び方法は、NIPTの性能を改善するためにこれらの閾値を研究室特異的に特定できるようにするので、広く関心がもたれる。
【0018】
NIPTにおける胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法
本発明者らは今回、本明細書において、非侵襲性出生前検査(NIPT)における胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法であって、
a)母体生物学的サンプルからシークエンスリードのセットを提供するステップであって、シークエンスリード毎に断片長が公知であるステップと、
b)シークエンスリードのセットの1つ以上の断片長に重み係数を割り当てるステップと、
c)合成プロファイルを計算するステップであって、母体生物学的サンプルからの少なくとも1つのシークエンスリードの選択が削除される、又は非妊娠サンプルからのシークエンスリードの選択と置換されるステップと、
d)(i)参照胎児範囲内の断片長を有するリードの総数及び(ii)参照胎児範囲内の関心対象の染色体(T)における断片長を有するリードの数のうちの少なくとも1つに基づき合成プロファイルに対応する値Eを計算するステップと、
e)少なくとも前記値Eに基づいて合成プロファイルの胎児ゲノム率及びシークエンス深度を推定するステップと
を含む方法を提供する。
【0019】
代替的な一実施態様により、方法は、非侵襲性出生前検査(NIPT)において胎児ゲノム率(ff)を評価するためのものである。
【0020】
代替的な一実施態様により、方法は、非侵襲性出生前検査(NIPT)においてシークエンス深度(sd)を評価するためのものである。
【0021】
例示的な一実施態様では、方法は、母体生物学的サンプルから無細胞DNA(cfDNA)を単離するステップをさらに含む。
【0022】
例示的な一実施態様では、本明細書に報告される方法は、母体生物学的サンプルから単離された無細胞DNA(cfDNA)をシークエンシングし、それによりシークエンスリードのセットを得るステップを含みうる。
【0023】
例示的な一実施態様では、本明細書に報告される方法は、母体生物学的サンプルから単離された無細胞DNA(cfDNA)を増幅させるステップを含みうる。
【0024】
例示的な一実施態様では、本明細書に報告される方法は、単離された無細胞DNA(cfDNA)を増幅させ、増幅されたcfDNAをシークエンシングし、それによりシークエンスリードのセットを得るステップを含みうる。
【0025】
例示的な一実施態様では、母体生物学的サンプルは、血液サンプル又はその画分より選択される生物学的サンプルであり、より詳細には母体血漿サンプルである。
【0026】
例示的な一実施態様では、方法は、母体生物学的サンプルから無細胞DNA(cfDNA)を単離するステップをさらに含む。
【0027】
例示的な一実施態様では、方法は、シークエンスリードのセットの複数の断片長に重み係数を割り当てるステップを含む。
【0028】
例示的な一実施態様では、方法は、合成プロファイルを計算するステップであって、母体生物学的サンプルからの複数のシークエンスリードの選択が削除される、又は非妊娠サンプルからの複数のシークエンスリードの選択と置換されるステップを含む。
【0029】
例示的な一実施態様では、方法は、シークエンスリードから少なくとも1つのリードを削除し、それによりステップc)の合成プロファイルと比較してモジュレートされたシークエンス深度(sd)を有する合成プロファイルを生成するステップを含む。
【0030】
例示的な一実施態様では、方法は、シークエンスリードから少なくとも1つのリードを置換し、それによりステップc)の合成プロファイルと比較してモジュレートされた胎児ゲノム率(ff)を有する合成プロファイルを生成するステップをさらに含む。
【0031】
好ましい実施態様では、値Eは、
【数1】
[式中、
【数2】
は、参照胎児範囲(reference fetal range)内の断片長を有するリードの総数に対応し、
【数3】
は、参照胎児範囲内の関心対象の染色体Tにおける断片長を有するリードの数に対応し、
【数4】
は、関心対象の染色体Tに関するリード数を合成プロファイルにおけるリードの総数で割ったものに対応する]として定義される。
【0032】
有利には、値Eが0から離れるほど、関心対象の染色体Tが異常を示す可能性が高くなる。
【0033】
値Eは、0よりも大きな数でありうる。
【0034】
例示的な一実施態様では、関心対象の染色体Tは、ヒト若しくは非ヒト染色体のいずれか、又はそれらの複数、好ましくは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22番染色体、並びにX及び/又はY染色体のいずれか1つからなるリストから選択される染色体を含むヒト染色体から選択されうる。
【0035】
いくつかの実施態様により、関心対象の染色体Tは、ヒト性染色体より選択される。
【0036】
いくつかの実施態様により、関心対象の染色体Tは、ヒト性染色体ではない1つ以上の染色体より選択される。
【0037】
例示的な一実施態様では、関心対象の染色体Tは、13、18、21番、X及びYからなる群より選択される1つ以上の染色体からなる群より選択される。
【0038】
例示的な一実施態様では、関心対象の染色体Tは、13、18及び21番;特に18番染色体及び/又は21番染色体からなる群より選択される1つ以上の染色体からなる群より選択される。
【0039】
例示的な一実施態様では、方法は、母体生物学的サンプルから胎児の性別を決定するステップをさらに含む。
【0040】
特に方法は、リードの前記比率を参照値と比較し、それにより母体生物学的サンプルから胎児の性別を決定するステップをさらに含みうる。
【0041】
非侵襲性出生前検査の信頼度を決定するための方法
本発明者らはまた、本明細書において、参照プロファイルで事前に訓練された決定木を使用して非侵襲性出生前検査(NIPT)の信頼度を決定するための方法であって、
a)本開示の胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法により、母体生物学的サンプルから、ff、sd、合成プロファイル及び前記合成プロファイルに対応する値Eを提供するステップと、
b)それを前記参照プロファイルのZスコアと比較することによって前記合成プロファイルについてのZスコアを計算するステップと、
c)前記計算されたZスコアをZスコアの閾値と比較することによって前記合成プロファイルを群に分類するために、前記計算されたZスコア並びに前記胎児ゲノム率、シークエンス深度及び前記合成プロファイルの値Eを前記決定木にフィードするステップと、
d)前記分類から、前記母体生物学的サンプルのNIPTについての信頼度スコア(Rscore)を決定するステップと
を含む方法を提供する。
【0042】
好ましい実施態様では、ステップc)で、胎児異数性を検出することにおける非侵襲性出生前検査の信頼度を決定するために、前記合成プロファイルは、異数体プロファイルの群又は正倍数体プロファイルの群に分類される。
【0043】
例示的な一実施態様では、胎児異数性は、関心対象の染色体(T)、特に13、18、21番、X及びY染色体からなる群より選択される染色体;好ましくは13、18、及び21番染色体からなる群より選択される染色体のヒト胎児異数性である。
【0044】
決定木の使用は、胎児ゲノム率、シークエンス深度及び値Eに基づき、前記Rscoreによって表される異なる信頼度レベルに対応するサンプルについての異なる区間を得ることを可能にする。
【0045】
Zスコアの閾値は、例えば、Ramanら("WisecondorX: improved copy number detection for routine shallow whole-genome sequencing". Nucleic Acids Research. 2019. Vol. 47, No. 4, 1605-1614)に報告されるようにデフォルト値を用いるWisecondor Xプログラムによって決定されうる。
【0046】
信頼度スコアは、好ましくは0から1の間に含まれる確率である。好ましくは、信頼度スコアが1に近いほど、被験サンプルのNIPTはより信頼できる。
【0047】
いくつかの実施態様により、sd、ff及び値Eについての最小閾値を計算して信頼できるNIPTを得るために、2つのコホートからの異数体サンプル及びGenomeMixerで生成された合成異数体サンプルが使用された。本発明者らは、Rパッケージcaret(https://cran.r-project.org/web/packages/caret/index.html)、具体的には関数rpartを使用する決定木アプローチを使用した。簡潔には、本発明者らは、合成サンプルのZスコアを計算するためにWisecondorXを、それらのffを評価するためにSeqff及びDefrag_aを使用した。
【0048】
NiPTUNEパイプラインからのモジュールdespina.py及びnereid.pyを使用してsd及び値Eを計算した。Zスコアに関する閾値5を使用してサンプルを「異数体」(Zスコア≧5)及び「正倍数体」(Zスコア<5)として分類した。
【0049】
この閾値は、ツールWisecondorXによってデフォルトの閾値として定義される。次いで本発明者らは、決定木にsd、ff、値Eの値及び分類をフィードして、サンプルを群分けする決定木を得た。Seqffについての1つ及びDefrag_aについての1つという2つの木を計算した。
【0050】
非侵襲性出生前検査における胎児ゲノム率及びシークエンス深度を評価するための方法についての上に定義される特徴は、非侵襲性出生前検査の信頼度を決定するための方法に適用され、逆もまた同様である。
【0051】
デバイス
なお別の態様では、本発明は、本発明による非侵襲性出生前検査(NIPT)において胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するための方法を実行するためのデバイスに関する。
【0052】
好ましい実施態様では、デバイスは、参照プロファイルで事前に訓練された決定木を含み、デバイスは、本発明により非侵襲性出生前検査(NIPT)の信頼度を決定するための方法を実行するために構成されている。
【0053】
別の実施態様では、本発明は、本発明により非侵襲性出生前検査(NIPT)の信頼度を決定するための方法を実行するためのデバイスに関し、前記デバイスは、参照プロファイルで事前に訓練された決定木を含み、前記デバイスは、本発明により非侵襲性出生前検査(NIPT)の信頼度を決定するための方法を実行するために構成されている。
【0054】
方法についての上に定義される特徴は、デバイスに適用される。
【0055】
本発明による方法に使用される前記胎児ゲノム率、シークエンス深度、E値、Zスコア、信頼度スコア及びZスコア閾値は、任意の適切な手段によって、例えば、電子デバイスの画面に表示されることによって、印刷されて、又は音声合成によってユーザに送信されうる。
【0056】
本発明による方法の各ステップは、好ましくは少なくともマイクロコントローラ及びメモリを含む1つ以上の電子システム、特にパーソナルコンピュータ、計算サーバ又は医用画像デバイスで行われうる。
【0057】
コンピュータプログラム製品
本発明によるこのような方法は、有利には、コンピュータプログラムを用いて、プロセッサ、特にコンピュータを含む任意の電子システムで自動的に実行される。
【0058】
なお別の態様では、本発明は、サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されるコンピュータプログラム製品に関し、これらの命令は、本発明により非侵襲性出生前検査(NIPT)において胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するように、かつ/又は本発明による非侵襲性出生前検査(NIPT)の信頼度を決定するために構成されている。
【0059】
本発明はまた、サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されるコンピュータプログラム製品に関し、これらの命令は、本発明により非侵襲性出生前検査(NIPT)において胎児ゲノム率(ff)及びシークエンス深度(sd)を評価するために構成されている。
【0060】
本発明はまた、サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されるコンピュータプログラム製品に関し、これらの命令は、本発明による非侵襲性出生前検査(NIPT)の信頼度を決定するために構成されている。
【0061】
本発明はまた、本発明によるコンピュータプログラム製品を含むコンピュータ可読媒体に関する。
【0062】
方法のための上に定義される特徴は、コンピュータプログラム製品に適応される。
【0063】
定義
本明細書に使用される用語は、一般的に、当技術分野におけるそれらの通常の意味を有する。ここに開示される主題の製品及び方法の説明にさらなる指針を提供するために、ある特定の用語を、下記又は本開示の他の箇所に述べる。
【0064】
以下の定義は、本開示に関連して適用される。
【0065】
本明細書及び添付の特許請求の範囲に使用される場合、単数形「a」、「an」及び「the」は、文脈が明らかに他のことを指示しないかぎり、複数の指示対象を含む。
【0066】
本明細書及び添付の特許請求の範囲に使用される場合、「少なくとも1つの」という用語は、したがって、1つ又は「1つを超える」を含みうる。したがって、「複数の」又は「1つを超える」という用語は、したがって、『2つ』又は『2つ以上』を含みうる。
【0067】
本明細書に使用される場合、「母体サンプル」という用語は、検査に適した任意の妊娠期間の女性からのもの、又は妊娠の可能性について検査されている女性からのものである場合があり、それらには、非包括的に、妊娠第1期、妊娠第2期、又は妊娠第3期の妊婦対象例えば、胎児妊娠1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44及び45週(例えば、胎児妊娠1~4、4~8、8~12、12~16、16~20、20~24、24~28、28~32、32~36、36~40又は40~44週)を含む胎児妊娠約1~約45週の妊婦が含まれる。これはまた、分娩途中又は分娩後(例えば、0~72時間後)に収集された母体サンプルを指す場合がある。
【0068】
本明細書に使用される場合、「母体生物学的サンプル」という用語は、無細胞DNAを含む傾向がある任意の母体サンプル又はその画分を指す。したがって、母体生物学的サンプルは、非限定的に、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液(例えば、気管支肺胞、胃、腹腔、管、耳、関節鏡)、生検サンプル(例えば、着床前胚からのもの)、体腔穿刺(celocentesis)サンプル、胎児有核細胞又は胎児細胞残骸、女性生殖器系の洗液、尿、便、痰、唾液、鼻粘液、前立腺液、洗浄物、精液、リンパ液、胆汁、涙液、汗、母乳、乳汁、胚細胞、胎児細胞(例えば、胎盤細胞)、子宮頸部スワブ、血液、又は血漿若しくは血清を含む任意のその画分を含む液体又は組織サンプルからなる群より選択されうる。
【0069】
本明細書に使用される場合、「血液」という用語は、全血又は任意の血液画分、例えば慣例的に定義される血清及び血漿を包含する。
【0070】
本明細書に使用される場合、「無細胞DNA」又はcfDNAという用語は、母体生物学的サンプル(例えば母体血漿サンプル)中に存在するDNAであって、母体DNAと胎児DNAとの混合物に対応するDNAを指す。無細胞胎児DNA(cffDNA)は、胎児DNAに対応するcfDNAの部分に対応する。
【0071】
本明細書に使用される場合、「胎児ゲノム率(ff)」という用語は、次式:ff=胎児cfDNA/胎児cfDNA+母体cfDNA)に対応する、母体生物学的サンプル(例えば母体血漿サンプル)中の胎児胎盤起源cfDNAのパーセントを指す。
【0072】
本明細書に使用される場合、「シークエンスリード」という用語は、例えばシークエンシング方法(例えば次世代シークエンシング又はNGS)を使用して、所与の生物学的サンプル(例えば、母体血漿サンプル)中で測定されたヌクレオチド塩基のシークエンスを表すデータを差す。特に、「リード」という用語は、連続するヌクレオチドシークエンス(例えば、上に報告される無細胞DNA)の断片を指す場合がある。非包括的に、このようなリードは、核酸及び/又は核酸断片の一端から生成される場合があり(「シングルエンドリード」)、時に、核酸又は核酸断片の両端から生成される(例えば、ペアードエンドリード、ダブルエンドリード)。
【0073】
本明細書に使用される場合、「シークエンス深度(sd)」という用語は、各塩基対がシークエンシングされる平均回数を指し、シークエンス深度は、所与の母体サンプルについてのシークエンシングリードの総数と共に統計的に増加する。いくつかの実施態様により、シークエンス深度は、染色体別にGC(グアニン-シトシン)含量のパーセントを考慮に入れて正規化sdに対応する補正シークエンス深度に対応しうる。
【0074】
本明細書に使用される場合、「シークエンシング」という用語は、サンガー生化学のキャピラリーベースの半自動実行で行われた核酸シークエンシング、又は非限定的にハイスループットシークエンシングなどの任意の他の種類の核酸シークエンシングを含むすべての種類のシークエンシング方法を指す場合がある。例えば、本明細書において考慮されうるシークエンシング方法は、サンガーシークエンシング、ハイブリダーゼーションによるシークエンシング、ナノポアシークエンシング、ピロシークエンシング、単一分子リアルタイムシークエンシング、イオン半導体シークエンシング、合成によるシークエンシング、コンビナトリアルプローブアンカー合成、ライゲーションによるシークエンシング、GenapSys(商標)シークエンシング;又はその他を含む。非排他的に、シークエンシング方法は、増幅された核酸(例えば、母体生物学的サンプルからの核酸)に適用されうる。
【0075】
「増幅された」という用語は、本明細書に使用される場合、サンプル中の標的核酸を、標的核酸と同じ又は実質的に同じヌクレオチドシークエンスを有するアンプリコン核酸又はそのセグメントを線形的に又は指数的に生成する工程に供することを指す。「増幅された」という用語は、本明細書に使用される場合、標的核酸(例えば、他の核酸を含むサンプル中の)を、標的核酸と同じ又は実質的に同じヌクレオチドシークエンスを有するアンプリコン核酸又はそのセグメントを選択的に、かつ線形的に又は指数的に生成する工程に供することを指すことができる。「増幅された」という用語は、本明細書に使用される場合、核酸の集団を、増幅の前にサンプル中に存在した核酸と同じ又は実質的に同じヌクレオチドシークエンスを有するアンプリコン核酸又はそのセグメントを非選択的に、かつ線形的に又は指数的に生成する工程に供することを指すことができる。特定の実施態様では、「増幅された」という用語は、ポリメラーゼ連鎖反応(PCR)を含む方法を指す。
【0076】
本明細書に使用される場合、「異数性」という用語は、誤った数の染色体が細胞中に存在する状態(例えば、誤った数の完全な染色体又は誤った数の染色体セグメント、例えば、染色体セグメントの欠失又は重複の存在)を指す。ヒト体細胞の場合、これは、細胞が22対の常染色体及び1対の性染色体を含まない場合を指すことがある。ヒト配偶子の場合、細胞が23種の染色体を1つずつ含まない場合を指すことがある。単染色体型の場合、これは、およそ2つの相同であるが同一でない染色体コピーが存在する場合、又は同じ親に由来する2つの染色体コピーが存在する場合を指すことがある。いくつかの実施態様では、染色体セグメントの欠失は微小欠失である。異数性は、例えば、モノソミー、部分モノソミー、トリソミー、部分トリソミー、テトラソミー、及びペンタソミーを含むことができる。検出できる異数性の例は、アンジェルマン症候群(15q11.2-q13)、ネコ鳴き症候群(5p-)、ディジョージ症候群及び口蓋心臓顔面症候群(22q11.2)、ミラー・ディカー症候群(17p13.3)、プラダー・ウィリー症候群(15q11.2-q13)、網膜芽細胞腫(13q14)、スミス・マギニス症候群(17p11.2)、トリソミー13(パトー症候群)、トリソミー16、トリソミー18(エドワード症候群)、トリソミー21(ダウン症候群)、三倍性、ウィリアムズ症候群(7q11.23)、並びにウォルフ・ヒルシュホーン症候群(4p-)を含む。本明細書に記載される方法によって検出できる染色体異常の例は、非限定的に、カルマン症候群(Xp22.3)、硫酸ステロイド欠損(STS)(Xp22.3)、X連鎖魚鱗癬(Xp22.3)、クラインフェルター症候群(XXY)、脆弱X症候群、ターナー症候群、超雌又はトリソミーX(XXX症候群、47,XXX異数性)、及びモノソミーXを含む。
【0077】
本明細書に使用される場合、トリソミー21としても知られる「ダウン症候群」という用語は、染色体21の第3のコピーのすべて又は一部の存在によって引き起こされる遺伝性障害を指す。これは通常、身体発育遅滞、軽度から中等度の知的障害、及び特徴的な顔特徴を伴う。
【0078】
本明細書に使用される場合、「Zスコア」という用語は、統計学で使用される標準スコアを指し、生スコアの値(すなわち、観測値又はデータ点)が、観測又は測定された値の平均値を標準偏差の何個分だけ超える又は下回るかを表すことを意図する。平均を超える生スコアは、好ましくは正の標準スコアを有するのに対し、平均を下回る生スコアは、好ましくは負の標準スコアを有する。
【0079】
本明細書に使用される場合、「決定木」という表現は、分類及び回帰分析のために使用されるデータを解析する関連学習アルゴリズムを有する学習モデルを意味することを意図する。
【0080】
本明細書に使用される場合、「分類すること」という表現は、合成プロファイルのために、少なくとも異数体又は正倍数体プロファイルを代表する特性及び特徴を有する群を選ぶことを意味することを意図する。
【0081】
「含む」という用語は、述べられた特徴、整数、ステップ又は構成要素の存在を特定化することとして解釈すべきであり、1つ以上の他の特徴、整数、ステップ若しくは構成要素、又はそれらの群の存在を除外することとして解釈すべきでない。またこれは、述べられた特徴、整数、ステップ又は構成要素を厳密に特定する場合があり、したがってこのような場合、これは、「からなる」で置換される場合がある。
【0082】
本発明の範囲内で、変化に関して使用される「有意に」という用語は、観測された変化が注目すべきであり、かつ/又はそれが統計的な意味を有することを意味することを意図する。
【0083】
本発明の範囲内で、本発明の特徴と併せて使用される「実質的に」という用語は、この特徴とおおむね同様であるが、完全には同様でない、この特徴に関係する実施態様のセットを定義することを意図する。
【0084】
本明細書にわたり与えられるあらゆる数的最大限度は、あらゆるより低い数的限度が本明細書に明白に述べられているかの如く、このようなより低い数的限度を含むことが理解されるべきである。本明細書にわたり与えられるあらゆる数的最小限度は、あらゆるより高い数的限度が本明細書に明白に述べられているかの如く、このようなより高い数的限度を含む。本明細書にわたり与えられるあらゆる数的範囲は、あらゆるより狭い数的範囲が本明細書に明白に述べられているかの如く、このようなより広い数的範囲内に入るこのようなより狭い数的範囲を含む。
【0085】
本開示に利用される構成要素について、商品名が本明細書において参照される場合がある。本発明者らは、本明細書において任意の特定商品名の材料によって限定されることを意図しない。商品名によって参照される材料と等価の材料(例えば、異なる名称又は参照番号の異なる入手源から得られるもの)が、本明細書において置換され、利用される場合がある。
【0086】
本開示の様々な実施態様の説明では、様々な実施態様又は個々の特徴が開示される。当業者に明らかなように、このような実施態様及び特徴のすべての組み合わせが可能であり、結果として本開示の好ましい実行をもたらすことができる。本発明の様々な実施態様及び個々の特徴が例示され、説明されたが、本発明の精神及び範囲から逸脱せずに様々な他の変化及び変形を加えることができる。同様に明らかなように、本開示において教示される実施態様及び特徴のすべての組み合わせが可能であり、結果として本発明の好ましい実行をもたらすことができる。
【0087】
実施例
材料及び方法
患者のコホート
インフォームドコンセントの後、ニース大学病院の妊婦(SPW)からの377個のサンプル(コホート1)及びマルセイユ大学病院の1062個のサンプル(コホート2)にNIPTを行った。研究の同意を得た上でこれらのシリーズによって生じたシークエンシングデータを後ろ向きに使用して、本発明者らのバイオインフォマティクススイートを検証した(INDS - MR3310281119; R04-018 Nice及びPADS20-53 Marseille)。2人の非妊婦が陰性対照として血液を提供した(SNPW)。DNAの抽出、ライブラリーの調製及びシークエンシングのプロトコルは、両方のコホートで同一であった。
【0088】
DNAの単離
Streck(cfDNA BCT)又はRoche Diagnostics(無細胞DNA収集チューブ)からの採血チューブに母体サンプルを収集し、1600gで10分間遠心分離して、血球から血漿を分離した。続いて血漿を16000gで10分間遠心分離した。上清を新しい微小遠心チューブに移し、さらなる処理まで-80℃で保存した。QIAamp(登録商標)循環核酸キット(Qiagen(登録商標)、Hilden、Germany)を製造業者のプロトコルに従って使用して血漿4mlからcfDNAを抽出した。最終体積35μlのAVE緩衝液中にDNAを溶出させ、Qubit dsDNA High Sensitivity Kit(Thermo Fisher Scientific)を使用して濃度を測定し、その後-20℃で保存した。
【0089】
ライブラリーの調製及びシークエンシング
Proton又はS5XLシークエンサ(Thermo Fisher Scientific(登録商標)、Waltham、MA、USA)のいずれかを使用して、cfDNAのインプット 15ngから開始してcfDNAのシャロー全ゲノムシークエンシングを行った。ライブラリー構築のために、最適化手順6を使用して、それぞれIon Plus fragment library kit及びIon Plus Core Library Module for AB Library Builder(商標)System(Life Technologies -Thermo Fisher Scientific(登録商標), Waltham, MA, USA)を用いる手作業で又は半自動手順でcfDNAサンプルを処理した。Ion Library TaqMan(商標)Quantitation Kit(Thermo Fisher Scientific)を使用してライブラリーの濃度を測定した。次いで、等モル濃度(15pM)の各ライブラリーを自動的に調製し、Ion Chef(Thermo Fisher Scientific(登録商標), Waltham, MA, USA)を使用してチップ(IonPI(商標) Chip Kit V3又はIon 540 Chip Kit)に負荷した。Ion Torrentスイートを使用して処理前の品質管理、トリミング及びGRCh37へのマッピングを行った。
【0090】
正規化及び品質管理
以前に、Straverら("WISECONDOR: detection of fetal aberrations from shallow sequencing maternal plasma based on a within-sample comparison scheme". Nucleic Acids Res. 2014;42(5):e31)に報告されたようにWisecondorからのスクリプトgcc.py、及び以前にRamanら("WisecondorX: improved copy number detection for routine shallow whole-genome sequencing". Nucleic Acids Res. 2019;47(4):1605-1614)に報告されたようにWisecondorXを使用して、アライメントされたシークエンス(.BAM)をGC含量について補正した。
【0091】
各サンプルを1Mbのビンに分割した。次いで、ビンあたりで正規化されたGC含量を得るためにGRCh37ヒトゲノムに関連してloess関数を適用した。正規化リードカウントは約1と予想される。本発明者らは、不均衡なビンカウントを有するサンプル、すなわち潜在的なライブラリー若しくはシークエンシング品質デフォルト、アライメントエラー又は母体病理と見なされるべきサンプルを同定するために、主成分分析(PCA)を使用した。
【0092】
iSanefalcon(ff推定のために最適化されたモジュール)
独立型アプリケーションは、Straverら("Calculating the fetal fraction for Non-Invasive Prenatal Testing based on genome-wide nucleosome profiles"; Prenatal Diagnosis; 2016, 36, 614-621)によって報告された元のSanefalcon("Single reAds Nucleosome-basEd FetAL fraCtiON ")モジュールの改変バージョンである。
【0093】
最初に本発明者らは、より新しいバージョンのサポートソフトウェアへの従属を更新して、より独立型のアプリケーションを作るために、Bashスクリプトとpythonスクリプトとの間の内部従属を削除するPython3.6に切り換えた。独立型アプリケーションは任意のプラットフォーム上で実行することができ、同時実行及び並列化のためにコアPythonライブラリーを活用する。本発明者らは、リード開始位置の抽出からヌクレオソームプロファイルの計算まですべてのステップを重度に並列化した。本発明者らは、すべてのファイルシステム動作を管理するために専用のクラスを導入し、このようにして、行われるべきマニュアル介入はなく、すべてが実行時間で管理される。最終的に、本発明者らは、取り組む必要のあるマニュアル構成ステップを最低限まで低減した。このようにして、本発明者らは、アプリケーションをより頑健で、誤りにくくした。アプリケーションのためのすべてのロケーション及び最重要パラメータを設定するために簡単な構成ファイルを提供する。Sanefalconの新規なワークフローを
図1Bにさらに説明する。
【0094】
iSanefalconが元の実装と同じ結果を得ることを実証するために、本発明者らは、相関プロットを含む両方のバージョンで両方のコホートについてffを計算した。同じ実行からのサンプルを一緒に保つように注意して、コホート毎に約300個のサンプルを訓練セットとして、残りを検査セットとして使用した。サンプル毎にffを提供するために、コホート1について手順を5回、コホート2について2回適用した。両方について良好な相関値が報告され、2つのバージョンのSanefalconがffの計算に有意差を示さないことを確認している。しかし、コホート1にだけ異なる傾向が観察される。この結果を検証するために、本発明者らは、予想される線形モデルを、群毎にY軸上にオフセットを引き起こすランダム効果rと組み合わせて、式
y=ax+b+r
を有する混合効果モデルを使用した。線形及び混合モデルの尤度及び赤池の情報量基準(AIC)の両方により、混合モデルがコホート1のためのモデル化によりよく適合することが確認された(線形モデル、対数尤度:-537.31、AIC:819.906;混合モデル、対数尤度:735.863、AIC:-1463.727)。混合効果は、コホート1についてのみ関連しており、混合効果がSanefalconの新しい実装のせいであることを排除している。両方のコホートへのPCA分析は、コホート1についての混合効果がサンプルに由来しないことを示唆している。Sanefalcon戦略は、読み取り開始位置の分解能で行われる唯一の分析であり、他はビンレベルである。これは、読み取り開始位置の分解能が、おそらく可変性の欠如のせいで小サイズのコホートに適さないことを示唆している。
【0095】
NiPTUNE
次いでff及びsdが評価されるNIPTのための完全スイートは、以前に報告されたブロック/モジュールの選択を含み、その一部は下記及び
図1Aに説明されるように改変された。以下のパラグラフに、各ブロックの組み立て及び目的を説明する。
【0096】
構成及び入力ファイルの前処理
2つのモジュールから構成されるこのブロックは、パイプラインの下流のツールによる使用のためにサンプルファイルを準備し、sdを計算する。
【0097】
モジュールtriton.pyは、元のファイル形式(.bam)を、NiPTUNEでの下流の処理のための入力として役立つ他の形式(.gcc、.pickle、.npz)に変換する。「.pickle」出力は、アライメントされたリードを1Mbのビンに分割したものを含む(調整可能なパラメータ)、「.gcc」出力は、参照ゲノムに関してlowessモデルを適用することによって得られたビンレベルでのGC補正の結果である。最終的に、「.npz」形式は、WisecondorXのための入力として使用される特定ファイルである。モジュールdespina.pyは、提供されるサンプルのsdを計算する。
【0098】
品質管理
モジュールproteus.pyは、コホートの全サンプルに主成分分析を行い、コホートへの外れ値サンプル又は亜集団があるかどうかをチェックするための視覚的な出力を生成する。本発明者らは、Rソフトウェアの関数prcompを使用した。
【0099】
胎児の性別予測
胎児の性別を予測するために、モジュールhalimede.pyは、Y染色体に関するリード数(
reads on the Y chromosome)に対する7つのY特異的領域のリード(reads of seven Y-specific regions)の比率を最初に定量化する新規な方法(本明細書において「MagicY」と称する)を実装している。
【数5】
【0100】
本明細書において考慮される7つのY特異的領域を表1に挙げる:
【表1】
【0101】
次いで、カウント比の分布にフィットさせるために、及び男性集団と女性集団とを分離するための閾値を特定するために使用される2つのガウス分布を有する混合ガウスモデルとこれを組み合わせる。本発明者らは、Pythonパッケージsklearn(バージョン0.23.1)からの関数GaussianMixtureを使用する同じ混合ガウスモデルを実行して、Bayindirら("Non-Invasive Prenatal Testing using a novel analysis pipeline to screen for all autosomal fetal aneuploidies improves pregnancy management". Eur J Hum Genet. 2015;23(10):1286-1293.)に報告されたアルゴリズムによって計算された胎児ゲノム率(ff)に基づき性別を予測した。
【0102】
WisecondorXは、サンプルあたりのリードの総数に対するY染色体上のリードの比率を定量化する。胎児の性別を判別するための閾値を特定するために、本発明者らは、y画分カウントに基づきMagicYの閾値を算出した。最終的にDefragは、サンプルを男性又は女性として分類するために訓練セットに対してKNNバイナリ分類を使用する。
【0103】
参照セットの作成
モジュールlarissa.pyは、Defrag及びWisecondorXについての参照として使用されるべきn個のサンプルをランダムに選択する。本研究では、本発明者らは、コホート毎にn=100個のサンプルを設定する。本発明者らは、異なる検査の精度及び信頼度を改善するためにコホート特異的サンプルの使用を強く推奨する。このモジュールは、下流のプログラム(すなわちDefrag a、WisecondorX)によって使用されるべき参照サンプルを準備する。
【0104】
胎児ゲノム率の予測
本発明者らの2つのコホートで4つのff推定ツールの性能を評価した:
- Defrag a及びDefrag b。これらは、以前にBeekら("Comparing methods for fetal fraction determination and quality control of NIPT samples". Prenatal Diagnosis. 2017;37(8):769-773)に記載された。
- Seqff。これは、以前にKimら("Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts: Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts". Prenatal Diagnosis. 2015;35(8):810-815)に記載された。
- 前述のSanefalcon及びその最適化モジュールiSanefalcon。
【0105】
Defrag a、Defrag b及びSeqffのためにデフォルトのパラメータを使用した。
【0106】
NiPTUNEではffを計算するために2つの方法が提唱されている。すなわち、モジュールlaomedeida.pyに実装される、Y染色体のリードカウントに基づくDefrag a及びモジュールneso.pyにおける予備訓練されたビンカウントに基づくSeqffである。Defrag及びSeqffの主コードをNiPTUNEで維持した。本発明者らは、Seqff入力を解析するためのスクリプトを追加して、より効率的に、元の実装と同じように複数のサンプル及び単一のサンプルでffを計算できるようにした。Sanefalconはメインワークフローに実装されていない。それは、本発明者らのベンチマークで本発明者らのサンプルに対する性能があまり効率的でないことが実証されたからである。本発明者らは、ユーザがNiPTUNEと独立して実行できるようにこのツールの改良バージョンを提供する。
【0107】
最終的に、E値を計算するためのモジュールnereid.pyが存在する。E値は、異数性のffへの推定された寄与を表し、染色体特異的である。モジュールは、18番染色体についての1つ及び21番染色体についての1つという2つの値を計算する(本発明者らのコホートについて検証された)。E値の詳細な説明については、「ffへの染色体特異的寄与のモデル化」の節を参照されたい。
【0108】
コピー数変化の予測
本発明者らは、モジュールsao.pyにWisecondorXを実装した。このモジュールに提示されたサンプル毎に、参照サンプルに対してビニングされたサンプルでグローバルZスコアを計算する。異常なカウントを有する染色体を目視検証するために画像出力も提供する。
【0109】
出力の準備
パイプラインのこの最終モジュールthalassa.pyは、テーブル内の上流モジュールからの結果を収集する。各サンプル(ライン)は、以下のカラムによって説明される:品質管理(視覚的出力)、18番染色体(chr18)についてのE値、chr21についてのE値、sd、性別予測(magicY)、ff(2つのカラム、方法毎に1つ)並びに13、18及び21番染色体についてのZスコア。
【0110】
GenomeMixer(合成シークエンシングを作成するための新規なモジュール)
ff及びsdがどのように染色体異常の予測に影響するかを研究するために、本発明者らは、自由に使える異数体サンプルの数を増加させるための戦略を確立した。具体的には、本発明者らは、シークエンシング入力のff又はsdのいずれかをモジュレートして、これらの2つのパラメータについての最小閾値を特定する必要があった。本発明者らは、2つの戦略に基づいて欠損サンプルを作成するためのバイオインフォマティクスツールを設定することを考えた。
【0111】
一方で、より低いffを有する合成シークエンシングを作成するために(GenomeMixer_ff)、元のアライメントファイルからのリードを、対照ファイル、非妊婦からのサンプル(SNPW)からのリードによって置換する必要がある。具体的には、安定なsdを保ちながらffを低減するために、置換すべきリードは、胎児ゲノムに由来する必要がある。
【0112】
他方で、sdを減少させるために(GenomeMixer_sd)、削除されるべきリードは、母体集団及び胎児集団の比を不変に保ちながらこれらの集団の両方に属するべきである。しかし、母体又は胎児起源の断片を明白に識別することは不可能である。
【0113】
したがって、本発明者らは、胎児又は母体DNAに由来する傾向を表す重みを各リードに関連付けることを考えた。
【0114】
Lo(Non-invasive prenatal testing using massively parallel sequencing of maternal plasma DNA: from molecular karyotyping to fetal whole-genome sequencing. 2013. Reprod. Biomed. Online, 27, 593-598)及びChiuら(Non-Invasive Prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma. 2008. Proc. Natl. Acad. Sci., 105, 20458-20463)に以前に報告されたように、文献では、胎児起源の断片が母体起源よりも短いことが受け入れられている。
【0115】
本発明者らは、本発明者らのコホートからの正倍数体サンプルに対するこの観察を確認し、各リードに関連すべき重みを計算するためにこの傾向を利用することを決定した。簡潔には、本発明者らは、すべての異数体T18サンプルを併合し、T21及びSNPWについての類似性を続行し、リード長分布を計算した。これらの3つの分布は、カテゴリー毎の「参照分布」を表す。
【0116】
次いで本発明者らは、各トリソミープール(この場合T18及びT21)とSNPWとの間で、関連する参照分布の差を計算した。これらの曲線は、異数体サンプルプールとSNPWとの間の各リード長の頻度における差の定量化を表す。
【0117】
2つの分布の間の差異を最大化するために、本発明者らは、階段関数を適用した。階段の振幅は、差分曲線の最小と極大との間の値に対応する。同じ長さを有するすべてのリードは、等しい重みでラベルされる。重みは、GenomeMixer_ffについて母体集団に属するリードよりも先に胎児集団に属するリードの選択が置換されること、及びGenomeMixer_sdについてリードを削除しながら胎児/母体リードのバランスを維持することを可能にする。
【0118】
合成シークエンシングを構築するために本発明者らの戦略を適用するために、本発明者らは、染色体異常を提示しているシークエンシングされたゲノムに重み付き確率サンプリングを行った。本発明者らは、モデル化されるべきパラメータ(すなわちff又はsd)に応じて、置換又は削除すべき候補リードとして推定上の胎児断片集団からのリードを優先した。SNPWは、GenomeMixer_ffについてのみ使用される。各サンプリングは染色体レベルで行われる。置換又は削除されるべきリードの量は、ユーザ定義されたパーセントであるが、2つの戦略はわずかに異なる。
【0119】
GenomeMixer_ffについて、胎児異常を有する妊婦からのサンプル(SPW)から置換されるべきリードは、以前に説明されたように計算された重みを使用して非妊婦からのサンプル(SNPW)より選択される。異数体染色体に関して、胎児集団からサンプリングされたリードの半分が置換され、リードの半分は止められる(詳細な説明については「ffへの染色体特異的寄与のモデル化」の節を参照されたい)。工程の終わりに、結果として、合成シークエンシングは元のシークエンシングと同じ数のリードを有し、0.001%未満のエラーを有するが、異なる供給源に由来する。
【0120】
GenomeMixer_sdについて、sdを低下させながらffを安定に保つために、ffの比率を考慮して削除されるべきリードが選択される。例えば、本発明者らが100個のリードを削除することを望み、ffが10%ならば、本発明者らは、胎児集団に属する可能性がもっとも高いとラベルされたリードから10個のリード及び正反対の重みを有するとラベルされた90個のリードを削除する。
【0121】
ffへの染色体特異的寄与のモデル化
Budisら("Combining count- and length-based Z-scores leads to improved predictions in Non-invasive prenatal testing". 2019. Bioinformatics, 35, 1284-1291)は、7つの長さ限度に基づく断片の漸進的除去を使用するラムダスコアプロファイルを定義した。彼らは、異数体サンプルのラムダスコアが正倍数体から逸脱することを示し、正倍数体サンプルと比較して異数体染色体の胎児リードの余分の寄与があるという考えをもたらした。本発明者らは、E値を定義して予測の正確度を上げるためにこの特性を使用した。
【0122】
以前の節において、本発明者らは、SPWがSNPWと比較して特定の長さ範囲(fetal_range)のリードに富むことを観察した。したがって、本発明者らは、胎児範囲内の長さを有するリードの数のff倍:
【数6】
として染色体に関するリードカウントへの胎児リードの寄与を近似できると考えた。
【0123】
他方で、胎児リードがゲノム上にランダムに分布するという仮定に基づき、本発明者らは、染色体に由来する胎児リードを、胎児範囲におけるリード数ff倍と、関心対象の染色体に関するリードの比率との積として推定できると考えた。
【0124】
この比率は、関心対象の染色体(T)に関するリード数(reads on the chromosome of interest (T))をリードの総数(total number of reads)で割ったものとして定義される:
【数7】
【0125】
本発明者らは、胎児リードを一様なランダム抽選としてモデル化することができ、したがって、これは分散
【数8】
を有する二項分布によって表される。
【0126】
E値は、
【数9】
として定義され、式中、
【数10】
である。
【0127】
図4に示すように、E値が0から離れるほど、染色体Tが異常を提示する可能性は高くなり、図中、2つのコホートからの18番染色体及び21番染色体についての異数体サンプルが示される。
【0128】
合成サンプルの生成
ffが染色体異常の予測にどのように影響するかを研究するために、本発明者らは、漸減するffを有するが、リード数が一定なサンプルを作成するためにGenomeMixer_ffを使用した。GenomeMixer_ffは、胎児トリソミーが確定したSPW及びSNPWをインプットとして採用する。胎児トリソミーを有する各SPWについて、本発明者らは、SPWの初回リードカウントの5%の増分をSNPWからの等量と置換することによって19個の新しいサンプルを生成した(置換される/置換すべきリードを選択するために使用される基準についての詳細な説明については材料及び方法を参照されたい)。少数(2つ)の双胎異数体サンプルは、本発明者らを、双胎妊娠に関する本発明者らのモデルを検証させなかった。本発明者らは、GenomeMixerにフィードするために、≧5のZスコアによって特定されたT21又はT18を有するSPWサンプルを使用した。したがって、胎児T21を有する23個のネイティブな異数体(NA)サンプル及びT18を有する7つのNAサンプルから、本発明者らは、それぞれ437個及び133個の合成異数体(SA)を生成した。Seqffは、すべてのSAについてffを推定して、0.88~35.5の範囲を得た。Defrag aは、NA男児に由来する345個のSAのうち197個についてffを推定した。ffの最小値は、3.04~37.91の範囲である。
【0129】
sdが染色体異常の予測に対する影響を評価するために、本発明者らはGenomeMixer_sdを使用した。これは、胎児染色体異常を有するSPWだけを入力として採用する。漸減するsdを有する新しいサンプルを生成するために、本発明者らは、胎児リードと母体リードの比を安定に保ちながら初回リードカウントの5%の増分を削除した。本発明者らは、NA毎にこの工程を19回繰り返し、sd範囲が360261~15002811の437及び133個のSAを得た。Seqff及びDefrag aの両方は、GenomeMixer_sdで生成されたSA全体についてffを推定することができなかった(Seqffについて28/670及びDefrag aについて154/345)。
【0130】
まとめると、本発明者らの結果は、Seqffが非常に低い値の場合であってもffを推定するのに対し、Defrag aは3よりも低いffの場合に推定できなかったことを示している。
【0131】
TRUST
本発明者らは、パラメータff、sd及びeの値に基づきNIPT検査の信頼度を検定するために、TRUST(Trisomy Reliability Unique Score Test:トリソミー信頼度ユニークスコア検定)と呼ばれるウェブアプリケーションを実行した。決定木を使用して、このアプリケーションは、信頼度スコア(Rscore)を計算し、NIPTの結果を以下のように分類する:
・ 「高度に信頼できる(highly reliable)」:Rscoreが0.8~1である。サンプルについて提供されたsd、ff及びeは、信頼できる予測を達成するために必要な値を満たす。
・ 「信頼できる(reliable)」:Rscoreが0.2~0.8である。1つ以上のパラメータが閾値未満であり、したがって、Zスコアの計算によって潜在的異常が見逃される場合がある。この場合、より高いレベルの正確度を達成したいならば、サンプリングの再実行を考慮することができる。
・ 「信頼できない(not reliable)」:Rscoreが0~0.2である。必要な基準をパラメータが満たし、したがって、Zスコア計算による異常評価は信頼できない。新しいサンプリングが強く勧められる。
【0132】
統計解析
ソフトウェアRを使用してすべての統計を行った。Rからのライブラリーggplot2を使用してバイオリンプロットを行った。Rからのcorr関数を使用して補正を計算した。
【0133】
結果
シークエンシングの品質管理
妊婦の2つのコホート:ニース(コホート1)及びマルセイユ(コホート2)に関してNIPTを行った。コホート1は、11個の胎児異数体を含む377個のサンプルからなる。コホート2は、20個の胎児異数体を含む1062個のサンプルから構成される(表1)。サンプルが異常なリードカウント分布を有しないことを検証するために、本発明者らは、各コホートに属するサンプルについて正規化リードのビニングされたカウントに主成分分析(PCA)を適用した。本発明者らは、ポイント(サンプル)の分布が2つのコホートで整合し、大部分のポイントがプロットの重心にクラスターを形成することを観察した。コホートが2つの異なる病院からのものであったならば、抽出及びシークエンシング方法は同一であった。したがって、本発明者らは、交差比較のために2つのコホートを合わせた。対照として追加された2つのSNPWからのシークエンシング結果は、胎児異数体と同様に均一に分布している。方法の信頼度を検定するために、本発明者らはまた、シークエンシング結果から3つの被験サンプルをコホート1からのサンプルに追加した。それらのうちの2つは、参照ゲノムとのアライメントの失敗に起因し、3番目は母体異数性に対応した。3つの被験サンプルに対応するポイントは主な群から分散していた。これらの分析は、マッピングの後、さらなる分析の前にリードカウントの分布を検定するための品質管理としてPCAを使用する妥当性及び重要性を支持している。さらに、それらは、誤ったNIPTの解釈につながる可能性もある疾患関連ゲノム母体異常を特定するためのPCAの寄与を強調している。
【0134】
胎児性別予測のための信頼できる戦略の特定
胎児の性別は、参照として使用されるべきサンプルのセットを決定するためにいくつかのツールによって使用されるので、胎児性別予測は、NIPTパイプラインの重要なステップである。したがって、本発明者らは、シークエンシングデータから胎児の性別を予測するために信頼できる方法を確立する必要があった。本発明者らは、文献に記載された種々のツールを検査し、本発明者らは、胎児の性別を推定するために、それらのツールを、Y染色体特異的領域に基づく「MagicY」と呼ばれる本発明者らが開発した新規な方法に続く混合ガウスモデルアプローチ(補足情報)と比較した。本発明者らは、MagicYが、検査された方法よりも優れていることを示した。
【0135】
ffの推定のためのツールのベンチマーク
ffの推定は、染色体異常の計算の信頼度のための基礎パラメータである。異数性が本質的にff非依存的であるならば、その予測は、低いffによって影響される可能性がある6。ffの重要性にもかかわらず、その計算のためのゴールドスタンダード方法はまだ確立されていない。本発明者らは、文献に最も一般的に使用される4つのツール:Defrag a、Defrag b、Seqff及びSanefalconの性能を比較した。
【0136】
Defrag bが2つのコホートについて安定な結果を示すものの、本発明者らのベンチマークは、このツールが低いffを過小評価し、高いffを過大評価することを実証した。iSanefalconは、強いコホート依存性挙動及びff計算のための任意の他のツールとの非常に低い相関の両方を示した。したがって、本発明者らは、ff計算のための信頼できるツールとしてDefrag a及びSeqffを選択した。
【0137】
染色体異常のコンピュータ予測
胎児異数性について検査するために、本発明者らは、元のバージョンのWisecondorの改良型であるWisecondorXを使用した。5よりも大きなZスコアは、潜在的染色体異常を指し示す。コホート1は、5つの18番染色体のトリソミー(T18)及び6つの21番染色体のトリソミー(T21)を含む11個の異数体サンプルから構成される。コホート2は、20個の異数体を含み、その中に2つのT18、16個のT21、T18及びT21の両方を有する1つのサンプル並びに1つのT13が含まれる。異数性サンプルのうちの2つは二絨毛膜二羊膜妊娠に対応し、2つのうちの1つの胎児がT18又はT21のいずれかを保有する。
【0138】
WisecondorXを用いたZスコアの計算は、両方のコホートにおいて双胎妊娠についてのトリソミー及びダブルトリソミーを含むすべてのトリソミーを特定した。さらに、WisecondorXは、13、18及び21番染色体について偽陰性の結果をもたらさなかった。これらの結果は、WisecondorXアプローチの特異度及び感度を確認している。
【0139】
NiPTUNE:NIPTを正確、統合的で柔軟なフレームワーク(an accUrate, iNtegrative and flexiblE framework)で行うためのコンピュータパイプライン
NiPTUNEは、シークエンシング技術にかかわらず任意のデータに使用することができる。本発明者らは、主成分分析(PCA)が妥当な品質管理であることを実証し、したがって、本発明者らは、任意の他の計算の前に第一ステップとしてこれを実行した。本発明者らは、MagicYを用いて胎児の性別を推定するモジュールを提供する。NiPTUNEは、2つのツール、すなわちDefrag a及びSeqffを用いたffの推定を提供し、染色体異常は、WisecondorXによって評価される。最終的に、本発明者らは、容易に処理できるテーブル様形式で分析されたサンプルのすべての結果を自動的に収集するモジュールを生成した。注目すべきことにNiPTUNEは、単一のサンプル又はサンプルのバッチを実行することができる。
【0140】
GenomeMixer:妊婦の合成シークエンシングを作成するための新規なバイオインフォマティクスツール
本発明者らは、ffを推定するためのバイオインフォマティクスツールが非常に異なる結果を生成することを示した。したがって、異なる臨床検査室でのff値は類似でなく、NIPTの結果を検証するためのffのゴールドスタンダードの閾値を決定することができない。そのうえ、偽陰性の結果を避けるために十分なffが必要である。より高いsdは低いffを代償することができたが、この関係の明白な説明は欠如している。本発明者らは、NIPTのための信頼区間を確立する信頼できる方法、具体的には染色体異常を自信をもって予測するために必要な最小のff及びsdを検査室に提供することを目標とした。しかし、これらの最小値の決定は、異数体サンプルにおける非常に大きな範囲のff及びsdの両方を必要とし、これは臨床診療で得ることが非常に困難である。
【0141】
したがって、本発明者らは、ff(すなわちGenomeMixer_ff)又はsd(すなわちGenomeMixer_sd)を調節しながら新しい合成サンプルを生成する半教師ありデータ拡張アプローチであるGenomeMixerを開発した。簡潔には、GenomeMixerは、リード数を安定に保ちながらffを、又はffを安定に保ちながらsdをモジュレートするために、異数体が確認された胎児を有する妊婦(SPW)及び非妊婦(SNPW)からの「ネイティブな」サンプルからのシークエンシングリードを混合する合成アライメントファイルを作成する。妊婦血漿中のcfDNAは、母胎又は胎児のいずれかに属する断片の混合物である。したがって、その起源を容易に識別する方法はない。リードをラベルするために使用することができる特性の1つはその長さである。胎児cfDNAの集団は、母体cfDNAと比較してより小さな断片が豊富なことが証明されおり、胎児の主ピークは約143bpであり、母体の主ピークは約166bpである。本発明者らは、本発明者らのコホートについてリード長分布を計算したときにこのパターンを観察した(
図2A~2B)。本発明者らのコホートについて167bpに見出される「母体」ピークの前に、潜在的胎児起源のより短い断片から構成されるショルダーがある。
図2Aは、ffに応じてリード長分布が極めて異なり、より低いff値がより大きい数のロングリードに対応することを示す。実際に最高のピークは、より低いff値について観察される。ffが増加するにつれ、より短い断片の数の増加と同時にこのピークは低下する。本発明者らは、重みを断片長と関連付けることで、断片がどちらか一方(母体又は胎児)の集団に属する可能性を表すことができると考えた。GenomeMixerのワークフローは、
図2Cに十分に説明されている。このプログラムは、本発明者らがNIPT信頼度のための品質の閾値を確立するために必要な合成サンプルを生成できるようにした。
【0142】
胎児染色体異常の予測に対するff及びsdの影響
図3A及び3Bは、T18及びT21の両方を含むGenomeMixerによって生成された全サンプルについての結果を報告し、ff値はDefrag a又はSeqffにより計算した。全体として、GenomeMixer_ffにより生成されたサンプルのffは、置換されたリードのパーセントと共に一貫して減少し(
図3A)、一方で、sdは変化しない(
図3B)。削除されたリードのパーセントが同じであれば、全サンプルについてffが比例して減少すると予想される。Defrag aによる分析でこの関係が観察された場合、驚くことに、置換されたリードのパーセントが高いときにSeqffでこの比例関係は見出されない。この可変性は、低いffを有するサンプルについてSeqffによるff計算があまり信頼できなくなることを示唆している。
【0143】
次いで、本発明者らは、SAについてのZスコアを計算し、すべてのサンプル(ネイティブ及び合成)についてffに対してZスコアをプロットした。Defrag a(相関:スピアマンは0.96、ピアソンは0.94)又はSeqff(相関:スピアマンは0.88、ピアソンは0.92)のいずれかで計算されたZスコアとffとの間に直線関係が見出される。この分析は、胎児異数体の推定が、シークエンシングされたサンプルで見出されたffに強く依存することを実証している。さらに、本発明者らは、異数体と呼ばれない低いff(Zスコアが5未満)を有するSAを観察し、これは、染色体異常の信頼できる予測を達成するために必要な最小ffの閾値を見出す重要性を強調している。
【0144】
同じ戦略を使用して、本発明者らは、GenomeMixer_sdで生成されたサンプルのsdが次第に低下することを確認した(
図3G~H)。予想通り、Defrag aで計算されたffの有意な変動は観察されなかった。対照的に、Seqffによるff計算の信頼度は、削減されたリード数に比例して減少し、これは、sdがSeqffによるffの計算の妥当性に影響することを示唆している。最終的に、本発明者らは、SA及びNAについてのZスコアとsdとの関係をプロットした。本発明者らは、限界値に達するまではリードを削減する間のZスコアの挙動は平坦であり、限界値の後でZスコアが劇的に下落するという2つの傾向を観察した。この結果は、Zスコアの計算がsdに対して極めて頑健であることを示唆している。しかしsdが極端に低い場合、Zスコアは異常なサンプルを高い信頼性で特定することができない。
【0145】
本発明者らは初めて、Zスコアと、ff又はsdのいずれかとの関係の分析を提供した。低いff値の計算についてSeqffはDefragよりも信頼できないように見え、信頼できるNIPTを保証するために必要な最小ff値についての閾値を決定する難度が高まる。それとは逆に、Zスコアは、sdにあまり影響されないように思われる。しかし、NAについてのZスコアがおよそ閾値5である場合、sdの減少は、直ちにZスコアの低下及び偽陰性の結果をもたらす。まとめると、本発明者らのデータは、ff、sd及びZスコアの間の相互依存を強調している。
【0146】
臨床診療のための信頼できるNIPTについての信頼区間の評価
本発明者らは、sd、ff及びZスコアの間の関係を見出すために決定木ベースのアプローチ(材料及び方法を参照されたい)を準備した。本発明者らは、ffへの染色体特異的寄与に対応するE値を含ませることを決定した。それは、E値がサンプルの分類の助けになることができるからである。
【0147】
本発明者らは、GenomeMixerにより生成され、Zスコアによって分類されたNA及びSAを使用して決定木にフィードした。ff、sd及びeの組み合わせを基にサンプルの群を分離した。本発明者らは、各ツールに特異的なff、sd及びeについての最小閾値を特定するために、Seqff又はDefrag aのいずれかによって推定されたffを使用して決定木アプローチを実行した。
図4Aは、Seqffを使用した決定木アプローチの結果を報告する。本発明者らは、数レベルの分類を観察した。第1のレベルは、560万個のリードの判別閾値を用いてそれらのsdに基づきサンプルを分割する。第2レベルは、以前の判別閾値よりも高いsdを有するサンプルを、6.7%の判別値でそれらのffを基に群分けする。レベル1における閾値よりも低いsdを有するサンプルを、0.61の判別閾値でそれらのE値を基に群分けする。次に続くレベルは、sd、ff及びeの異なる組み合わせに依存する。最終的に、パラメータの14の組み合わせがサンプルを層別化することが見出された(
図5A、B、C)。Defrag aの場合も同じアプローチを使用した。
【0148】
サンプルの層別化を容易にするために、本発明者らは、これらの群の各々に属するサンプルに関連する信頼度スコアであるRscoreを定義した。Rscoreは、Zスコアの計算に基づく異数性の予測がff、sd及びeの値に関して信頼できる確率を表す。Rscoreの値は、0~1である。使用しやすくするために、本発明者らは、Rscoreが0.8~1である場合に「高度に信頼できる」、Rscoreが0.2~0.8である場合に「信頼できる」、Rscoreが0.2未満である場合に「信頼できない」の3つのカテゴリーを定義した。
【0149】
TRUST:信頼度スコアをNIPTの結果に帰するウェブアプリケーション
特定された信頼区間を、ネイティブな正倍数体(NE)、NA及びGenomeMixerにより生成されたSAを含む本発明者らのコホートに対して検査するために、本発明者らは、染色体特異的RscoreをNIPTの結果に帰するウェブアプリケーションであるTRUST(トリソミー信頼度ユニークスコア検査)を開発した。
【0150】
最初に、本発明者らはSAに焦点を合わせた。本発明者らは、ff又はsdが低いほど、「信頼できない」のカテゴリーに属するRscoreのカウントが大きくなることを実証した。この結果は、NIPTの信頼度におけるこれらの2つのパラメータの重要性を強化している。
【0151】
GenomeMixer_ffによって生成されたSAの場合、置換されたリードが60%で症例の3%に「信頼できない」NIPTアウトカムがもたらされる。リードの85%超が置換された場合、これは50%超に増加する(
図5B)。対照的に、GenomeMixer_sdにより生成されたSAでは、リードの85%が削減された場合、「信頼できない」スコアが得られるのは症例の20%未満である(
図5C)。まとめるとこの分析は、検査の信頼度がffを推定するために使用されるツールとは無関係に低いsdよりも低いffによって大きく影響されることを示している。
【0152】
Seqff tree(木)の場合、正倍数体及び異数体両方のネイティブなサンプルの大部分(NE18の72.5%及びNE21の73.9%;NA18の62.5%及びNA21の92%)が、最高のRscore(R≧0.8)を有する信頼区間に入る(
図6A)。より低いパーセントのNEサンプルが中間レベル(「信頼できる」)に分類される:Seqffの場合、NE18の23.7%及びNE21の21.8%、Defrag aの場合、NE18の13.3%及びNE21の13.3%。Seqff決定木において3つのNA18及び2つのNA21だけが「信頼できる」と分類される。これらの3つのNA18サンプルは低いffを有する(1_240:4.25%、2_477:4.96%、1_40:6.42%)。NA21のサンプルは、両方ともDefrag a木でも「信頼できる」と分類される。
【0153】
この結果は、2つのサンプルのsd:サンプル2_1012及び1_128についてそれぞれ8162972及び8819954が原因である。サンプル2_1012はT18も有し、Defrag a決定木で「信頼できる」と分類されるのに対し、これはSeqffの場合「高度に信頼できる」のアウトカムを有する。Rscoreアウトカムにおける差異は、Seqff木と比較してDefrag a木であまり重要でない役割を果たすE値が原因である。重要なことに、両方の木における0個のNAサンプル、Seqffの場合、非常に少数のNEサンプル(4%未満)及びDefrag aの場合0個が「信頼できない」と分類される(
図6C)。
【0154】
この結果は、古典的方法によって検出されない、問題のあるサンプルを発見することへのTRUSTの寄与を強調している。これは、欠損したパラメータを特定すること及びそれの特異的補正(すなわち、さらなるサンプルシークエンシング又は新規な血液検査)により偽陰性の結果の率を減少させることを助け、NIPTの信頼度を改善する。本発明者らは、特に低いff及び/又は低いsdの場合にE値がサンプルの層別化を助けることができることを示した。より高いsdは低いffを代償できることが示唆されている。本発明者らのデータは、低いff値の場合にこのパラメータを使用して検査の信頼度を改善できることを示した。
【0155】
胎児性別予測のための信頼できる戦略の特定
胎児の性別は参照として使用されるサンプルのセットを決定するためにいくつかのツールによって使用されるため、胎児の性別予測はNIPTパイプラインの重要なステップである。したがって、本発明者らは、シークエンシングデータから胎児の性別を予測するために信頼できる方法を確立する必要があった。本発明者らは、377個のサンプルを含むコホート1に関して、文献に記載された異なるツールを検査した。377個のうち28個のサンプルで性別を確定することができなかった。それは、これらの胎児(NIPTにより染色体異常を有しない)について妊娠アウトカムを得ることができなかったからである。性別のアウトカムが入手できなかったので、コホート2に対して分析を行わなかった。
【0156】
本発明者らは、本発明者らが「MagicY」と呼んだ新しい計算を定義した。本発明者らは、7つのY染色体特異的領域を選択し、これらの領域に属するリードの比率を推定した(表1)。2峰性分布が観察される。したがって、雄性サンプルと雌性サンプルとを分離するために、本発明者らは、コホート全体についてのこれらのカウントの分布に混合ガウスモデルを適用した。この方法は、それぞれ性別アウトカムと97.1%の一致を与えた。
【0157】
本発明者らのアプローチを検証するために、本発明者らは、他の3つの利用可能な方法と比較した。第1に本発明者らは、それらの異数性検出パイプラインの一部としてBayindirらによって提唱された常染色体及びX染色体に基づく計算を使用した。Beek及び共同研究者らは、Bayindirがff計算のためのもっとも信頼できるツールのわけではないことを示唆した。本発明者らのデータは彼らと一致し、本発明者らは、ffの計算がサンプルを性別により層別化することを観察した(p値<2.2 10-16、ウィルコクソン検定)。したがって、本発明者らは、性別予測のためにこの特性を使用することを決意した。次いで本発明者らは、混合ガウスモデルをBayindirの結果に適用し、性別のアウトカムと94.3%の一致を得た。WisecondorXからのツールのスイートは、サンプル毎のリードの総数に対するY染色体上のリードの比率を計算し、続いて混合ガウスモデルを行うことによって胎児の性別を予測する。しかし、このモデルは、男性集団と女性集団とを分離するための閾値を見出すことができなかった。性別予測はWisecondorXのための必須のステップであるので、本発明者らは、この閾値を評価するために別の戦略を見出す必要があった。
【0158】
したがって、本発明者らは、WisecondorXによって得られたy比率カウントの、MagicYカウントから混合モデルによって推定された閾値を算出した。この手順は、妊娠アウトカムと87.7%の一致を与えた。この一致がより低いことは、Y染色体特異的リードの数え違いをもたらすX及びY染色体の偽常染色体領域が原因の可能性があった。Defrag ff推定ツールは、性別予測ステップを含む。Defragによるコホート1の分析は、性別アウトカムの90.3%と一致するだけであった(補足の表2)。
【0159】
結論として、これらの分析は、本発明者らが、Y染色体特異的領域に基づき新規なリードカウントを発生させ、続いてMagicYと呼ばれる混合ガウスモデルアプローチを行って、高い正確度で胎児の性別を推定できるようにした。
【0160】
臨床診療のための信頼できるNIPTについての信頼区間の評価
Defrag aと同じアプローチを使用した(
図7を参照されたい)。5つのレベルを特定した。第1に、サンプルを11%の閾値でそれらのffを基に分割する。第2のレベルについて、ffの識別値は9.4%である。続くレベルはsdによって規定される。ffが9.4%よりも高い場合、1100万リードのsdでサンプルを分離する。ffが9.4%未満の場合、サンプルのsdを基にサンプルを820万リードの閾値でさらに群分けする。この最終レベルのサンプルを、それらのE値(閾値1.3)で、次いでそれらのff(閾値8.5%)でさらに群分けする。サンプルを層別化するためにパラメータの合計7つの組み合わせを決定した。この決定木は、以前のものよりも少ない組み合わせを有する。これは、分析されるサンプルの複雑度がより低いことによって説明することができた。Defrag aは、低いsd及び低いffの両方の場合にffを推定することができず、男性についてだけの結果を提供する。注目すべきは、E値はDefrag a木にせいぜい第5のレベルで出現するのに対し、Seqffでは早くも第2レベルで重要な役割を果たす。これは、2つの木によってサンプルを異なって分類できることを示唆している。
【0161】
サンプルの層別化を促進するために、本発明者らは、これらの群の各々に属するサンプルに関連する信頼度スコア、Rscoreを定義した。Rscoreは、Zスコアの計算に基づく異数性の予測が、ff、sd及びeの値に関して信頼できる確率を表す。Rscoreの値は0~1である。使用しやすいように、本発明者らは、Rscoreが0.8~1の場合に「高度に信頼できる」;Rscoreの場合に「信頼できる」の3つのカテゴリーを定義した。
【国際調査報告】