特表2024-534899 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アンスティチュ　ナショナル　ドゥ　ラ　サンテ　エ　ドゥ　ラ　ルシェルシュ　メディカルの特許一覧 ▶ サントル・ナショナル・ドゥ・ラ・ルシェルシュ・シャンティフィクの特許一覧 ▶ ユニヴェルシテ・コート・ダジュールの特許一覧 ▶ サントル・オスピタリエ・ユニヴェルシテル・ドゥ・ニースの特許一覧

特表2024-534899非侵襲性出生前検査のための方法及びデバイス

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
2C
3A
3B
4
5A
5B-C
6A-C
7A
7B-D

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-26

(54)【発明の名称】非侵襲性出生前検査のための方法及びデバイス

(51)【国際特許分類】

C12Q 1/6869 20180101AFI20240918BHJP

C12Q 1/6806 20180101ALI20240918BHJP

C12M 1/00 20060101ALI20240918BHJP

C12M 1/34 20060101ALI20240918BHJP

G01N 33/53 20060101ALI20240918BHJP

【ＦＩ】

C12Q1/6869 Z

C12Q1/6806 Z

C12M1/00 A

C12M1/34 Z

G01N33/53 M

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024513991

(86)(22)【出願日】2021-09-03

(85)【翻訳文提出日】2024-04-30

(86)【国際出願番号】 IB2021000635

(87)【国際公開番号】W WO2023031641

(87)【国際公開日】2023-03-09

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】591100596

【氏名又は名称】アンスティチュナショナルドゥラサンテエドゥラルシェルシュメディカル

(71)【出願人】

【識別番号】595040744

【氏名又は名称】サントル・ナショナル・ドゥ・ラ・ルシェルシュ・シャンティフィク

【氏名又は名称原語表記】ＣＥＮＴＲＥＮＡＴＩＯＮＡＬＤＥＬＡＲＥＣＨＥＲＣＨＥＳＣＩＥＮＴＩＦＩＱＵＥ

(71)【出願人】

【識別番号】520100435

【氏名又は名称】ユニヴェルシテ・コート・ダジュール

【氏名又は名称原語表記】ＵｎｉｖｅｒｓｉｔｅＣｏｔｅｄ’Ａｚｕｒ

(71)【出願人】

【識別番号】520306129

【氏名又は名称】サントル・オスピタリエ・ユニヴェルシテル・ドゥ・ニース

【氏名又は名称原語表記】ＣＥＮＴＲＥＨＯＳＰＩＴＡＬＩＥＲＵＮＩＶＥＲＳＩＴＡＩＲＥＤＥＮＩＣＥ

(74)【代理人】

【識別番号】110001508

【氏名又は名称】弁理士法人津国

(72)【発明者】

【氏名】ボッティーニ，シルヴィア

(72)【発明者】

【氏名】プラテッラ，ダヴィッド

(72)【発明者】

【氏名】ミラネシオ，マルコ

(72)【発明者】

【氏名】デュボック，ヴェロニク

(72)【発明者】

【氏名】パキイス－フラックリンガー，ヴェロニク

【テーマコード（参考）】

4B029

4B063

【Ｆターム（参考）】

4B029AA07

4B029BB20

4B063QA05

4B063QA13

4B063QA20

4B063QQ02

4B063QQ42

4B063QS36

4B063QS39

(57)【要約】

本明細書において、非侵襲性出生前検査（ＮＩＰＴ）の分析を行うためのパッケージ、合成シークエンスを作成し、異数性の予測のために信頼区間を推定するための半教師ありアプローチ、及び信頼区間に基づきＮＩＰＴの結果の信頼度を検定するためのパッケージという、臨床診療におけるＮＩＰＴの結果を検証するための戦略の実行を可能にする方法及びデバイスのスイートが提供される。確認された異数体を含む２つのコホートでこれらの新しいツールを検証し、１００％の感度及び特異度を実証した。したがって、本発明は、ＮＩＰＴにおいて胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法；前記方法を実行するためのデバイス、コンピュータプログラム製品並びにコンピュータ可読媒体に関する。この結果は、データ解析パイプライン、染色体及びコホート毎にｆｆ、ｓｄ及びＥ値の閾値を評価する必要があるという結論をもたらしている。したがって、これらの閾値を実験室特異的に特定してＮＩＰＴの性能を改善できるようになるので、提供されるデバイス及び方法は、広く関心がもたれる。

【特許請求の範囲】

【請求項1】

非侵襲性出生前検査（ＮＩＰＴ）において胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法であって、
ａ）母体生物学的サンプルからシークエンスリードのセットを提供するステップであって、シークエンスリード毎に断片長が公知であるステップと、
ｂ）シークエンスリードのセットの１つ以上の断片長に重み係数を割り当てるステップと、
ｃ）合成プロファイルを計算するステップであって、母体生物学的サンプルからの少なくとも１つのシークエンスリードの選択が削除される、又は非妊娠サンプルからのシークエンスリードの選択と置換されるステップと、
ｄ）（ｉ）参照胎児範囲内の断片長を有するリードの総数及び（ｉｉ）参照胎児範囲内の関心対象の染色体（Ｔ）における断片長を有するリードの数のうちの少なくとも１つに基づき合成プロファイルに対応する値（Ｅ）を計算するステップと、
ｅ）少なくとも前記値（Ｅ）に基づき合成プロファイルの胎児ゲノム率及びシークエンス深度を推定するステップと
を含む方法。

【請求項2】

母体生物学的サンプルから無細胞ＤＮＡ（ｃｆＤＮＡ）を単離するステップをさらに含む、請求項１記載の方法。

【請求項3】

母体生物学的サンプルから単離された無細胞ＤＮＡ（ｃｆＤＮＡ）をシークエンシングし、それによりシークエンスリードのセットを得るステップをさらに含む、請求項１又は２記載の方法。

【請求項4】

シークエンスリードから少なくとも１つのリードを削除し、それによりステップｃ）の合成プロファイルと比較してモジュレートされたシークエンス深度（ｓｄ）を有する合成プロファイルを生成するステップを含む、前記請求項のいずれか一項記載の方法。

【請求項5】

シークエンスリードから少なくとも１つのリードを置換し、それによりステップｃ）の合成プロファイルと比較してモジュレートされた胎児ゲノム率（ｆｆ）を有する合成プロファイルを生成するステップを含む、前記請求項のいずれか一項記載の方法。

【請求項6】

値（Ｅ）が、

【数11】

［式中、

【数12】

は、参照胎児範囲内の断片長を有するリードの総数に対応し、

【数13】

は、参照胎児範囲内の関心対象の染色体（Ｔ）における断片長を有するリードの数に対応し、

【数14】

は、関心対象の染色体（Ｔ）に関するリード数を合成プロファイルにおけるリードの総数で割ったものに対応する］として定義される、前記請求項のいずれか一項記載の方法。

【請求項7】

関心対象の染色体（Ｔ）が、１３、１８、２１番、Ｘ及びＹ染色体からなる群より選択される、前記請求項のいずれか一項記載の方法。

【請求項8】

関心対象の染色体（Ｔ）が、１３、１８、及び２１番染色体からなる群より選択される、前記請求項のいずれか一項記載の方法。

【請求項9】

参照プロファイルで事前に訓練された決定木を使用して非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法であって、
ａ）母体生物学的サンプルから前記請求項のいずれか一項記載の胎児ゲノム率（ｆｆ）、シークエンス深度（ｓｄ）、合成プロファイル及び前記合成プロファイルに対応する値（Ｅ）を提供するステップと、
ｂ）それを前記参照プロファイルのＺスコアと比較することによって前記合成プロファイルについてのＺスコアを計算するステップと、
ｃ）前記計算されたＺスコアをＺスコアの閾値と比較することによって前記合成プロファイルを群に分類するために、前記計算されたＺスコア並びに前記胎児ゲノム率、シークエンス深度及び前記合成プロファイルの値（Ｅ）を前記決定木にフィードするステップと、
ｄ）前記分類から、前記母体生物学的サンプルのＮＩＰＴについての信頼度スコア（Ｒｓｃｏｒｅ）を決定するステップと
を含む方法。

【請求項10】

胎児異数性の検出における非侵襲性出生前検査の信頼度を決定するために、ステップｃ）で前記合成プロファイルが、異数体プロファイルの群又は正倍数体プロファイルの群に分類される、前記請求項のいずれか一項記載の方法。

【請求項11】

胎児異数性が、１３、１８、２１番、Ｘ及びＹ染色体からなる群より選択される関心対象の染色体（Ｔ）のヒト胎児異数性である、前記請求項のいずれか一項記載の方法。

【請求項12】

胎児異数性が、１３、１８及び２１番染色体からなる群より選択される関心対象の染色体（Ｔ）のヒト胎児異数性である、前記請求項のいずれか一項記載の方法。

【請求項13】

請求項１～８のいずれか一項記載の非侵襲性出生前検査（ＮＩＰＴ）における胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法を実行するためのデバイス。

【請求項14】

参照プロファイルで事前に訓練された決定木を含み、請求項９又は１０又は１１又は１２に記載の非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法を実行するために構成されている、請求項１３記載のデバイス。

【請求項15】

サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されたコンピュータプログラム製品であって、これらの命令が、請求項１～８のいずれか一項記載の非侵襲性出生前検査（ＮＩＰＴ）における胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するために、並びに／又は請求項９若しくは１０若しくは１１若しくは１２のいずれか一項記載の非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するために構成されている、コンピュータプログラム製品。

【請求項16】

請求項１５に記載のコンピュータプログラム製品を含むコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

開示の分野
本発明は、非侵襲性出生前検査の分野に関する。

【0002】

特に、本発明は、胎児染色体異常、より詳細には胎児異数性の検出に関する。

【0003】

開示の背景
非侵襲性出生前検査（ＮＩＰＴ）の開発は、トリソミー２１（ダウン症候群）などの胎児異数性を検査するための安全な選択肢を妊婦に与えることによって出生前診断の景観を改革した。この検査は、母体血中の循環無細胞ＤＮＡ断片（ｃｆＤＮＡ）に基づく。母体血漿は、低カバレッジの次世代シークエンシング（ＮＧＳ）によって分析される母体ｃｆＤＮＡ及び胎児ｃｆＤＮＡの両方を含有する。胎児ゲノム率（ｆｆ）は、母体血漿中の胎児胎盤起源ｃｆＤＮＡのパーセントである（ｆｆ＝胎児ｃｆＤＮＡ／胎児ｃｆＤＮＡ＋母体ｃｆＤＮＡ）。これは、母体血中の胎児ｃｆＤＮＡの直接測定によって評価された場合、妊娠中の妊娠１０～２０週に平均１０～１５％増加する。ｆｆは、ボディマス指数（ＢＭＩ）及び疾患を含む種々の母体パラメータのみならず、胎児胎盤パラメータに依存する。ＮＩＰＴの信頼度は高いが、十分なｆｆに依存する。

【0004】

Palomakiら（"DNA sequencing of maternal plasma to detect Down syndrome: an international clinical validation study". Genet Med. 2011;13(11):913-920）によると、ＮＩＰＴの結果を検証するためにｆｆは少なくとも４％であるべきであると提唱されている。

【0005】

Peng & Jiang（"Bioinformatics Approaches for Fetal DNA Fraction Estimation in Non-Invasive Prenatal Testing". International Journal of Molecular Sciences. 2017;18(2):453）、Beekら（"Comparing methods for fetal fraction determination and quality control of NIPT samples". Prenatal Diagnosis. 2017;37(8):769-773）及びHestandら（"Fetal fraction evaluation in non-invasive prenatal screening (NIPS)". Eur J Hum Genet. 2019;27(2):198-202）に報告されているように、いくつかのバイオインフォマティクスツールがｆｆの推定のために開発されており、それらの性能は非常に異なる。

【0006】

DEFRAGアルゴリズムを含む、ｆｆを計算するための初期のアプローチは、Hudecovaら（"Maternal Plasma Fetal DNA Fractions in Pregnancies with Low and High Risks for Fetal Chromosomal Aneuploidies". PLoS One. 2014;9(2)）によって報告されているように観察されたＹ染色体のリードカウントに基づく。

【0007】

もっとも正確であるにもかかわらず、これらの方法は男性胎児だけに有益である。Kimら（"Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts. Prenatal Diagnosis. 2015;35(8):810-815）及びStraverら（"Calculating the fetal fraction for Non-Invasive Prenatal Testing based on genome-wide nucleosome profiles". Prenat Diagn. 2016;36(7):614-621）によって報告されているように、胎児の性別に依存しない２つの他のアプローチ、Seqff及びSanefalconが開発されている。第１のアプローチは、胎児及び母体断片がゲノム上に均等に分布していないという仮定に基づく。したがって、著者らは、あらかじめ定義されたビンの分割内でこれらの小さな差異を検出可能なモデルを予備訓練するため及びｆｆを推定するために大きなコホートを使用した。第２は、胎児と母体ＤＮＡの間にヌクレオソームパッケージングの差異が存在し、より短い胎児断片の集団をもたらすという仮説に基礎を置いている。したがって、著者らは、推定されたヌクレオソームプロファイルでのリードの空間分布を活用することによってｆｆを推定することを提唱した。ｆｆ値を計算するためのゴールドスタンダードがないことに加えて、診断実験室にわたって適用可能なユニバーサルｆｆ閾値はない。

【0008】

したがって、
・非侵襲性出生前検査のための、より信頼できる高感度の方法及びデバイスを提供すること、そのうえ、ＮＩＰＴにおける既存の方法及びデバイスの信頼度を評価すること、
・低い胎児ゲノム率（ｆｆ）及び／又は低いシークエンス深度（ｓｄ）の場合に検査の信頼度を改善すること。重大な態様は、診断未確定の異数性をもたらしうる偽陰性、及び不必要な侵襲性検査を引き起こす偽陽性の数を低下させることにある、
・個体のより幅広い選択のための、及び妊娠中の潜在的障害のより幅広い選択のための予測を行う方法及びデバイス、並びに
・依然として高い費用効果であり、妊娠中に低い侵襲性又は危険性である、このような状態の診断のための方法
の必要性がある。

【0009】

本発明は、上述の必要性をもたすことを目的とする。

【0010】

概要
第１の主な実施態様によると、本発明は、非侵襲性出生前検査（ＮＩＰＴ）において胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法であって、
ａ）母体生物学的サンプルからシークエンスリードのセットを提供するステップであって、シークエンスリード毎に断片長が公知であるステップと、
ｂ）シークエンスリードのセットの１つ以上の断片長に重み係数を割り当てるステップと、
ｃ）合成プロファイルを計算するステップであって、母体生物学的サンプルからの少なくとも１つのシークエンスリードの選択が削除される、又は非妊娠サンプルからのシークエンスリードの選択と置換されるステップと、
ｄ）（ｉ）参照胎児範囲内の断片長を有するリードの総数及び（ｉｉ）参照胎児範囲内の関心対象の染色体（Ｔ）における断片長を有するリードの数のうちの少なくとも１つに基づき合成プロファイルに対応する値Ｅを計算するステップと、
ｅ）少なくとも前記値Ｅに基づき合成プロファイルの胎児ゲノム率及びシークエンス深度を推定するステップと
を含む方法に関する。

【0011】

第２の主な実施態様では、本発明は、参照プロファイルで事前に訓練された決定木を使用して非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法であって、
ａ）母体生物学的サンプルから、前記請求項のいずれか一項記載の胎児ゲノム率（ｆｆ）、シークエンス深度（ｓｄ）、合成プロファイル及び前記合成プロファイルに対応する値Ｅを提供するステップと、
ｂ）それを前記参照プロファイルのＺスコアと比較することによって前記合成プロファイルについてのＺスコアを計算するステップと、
ｃ）前記計算されたＺスコアをＺスコア閾値と比較することによって前記合成プロファイルを群に分類するために、前記決定木に、前記計算されたＺスコア並びに前記胎児ゲノム率、シークエンス深度及び前記合成プロファイルの値Ｅをフィードするステップと、
ｄ）前記分類から前記母体生物学的サンプルのＮＩＰＴについての信頼度スコア（Ｒｓｃｏｒｅ）を決定するステップと
を含む方法に関する。

【0012】

本発明はまた、本発明による非侵襲性出生前検査（ＮＩＰＴ）における胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法を実行するためのデバイスに関する。

【0013】

好ましい実施態様では、前記デバイスは、参照プロファイルで事前に訓練された決定木を含み、デアバイスは、本発明により非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法を実行するために構成されている。

【図面の簡単な説明】

【0014】

【図1】図１Ａでは、NiPTUNE（完全スイート）は、各々１つ以上のモジュールを含む７つのブロックから構成される。対応するモジュールを白ボックス内に表示する。関連するpythonスクリプト名をイタリック体で報告する。最後のカラムは、各ブロックのアウトカムを報告する。図１Ｂでは、iSanefalcon（ｆｆ推定のためのモジュール）は、各々１つ以上のモジュールを含む５つの主ステップから構成される。対応するモジュールを白ボックス内に表示する。最後のカラムに各ステップの結果を報告する。

【図2】GenomeMixer：妊婦の合成シークエンシングを作成するための新規なバイオインフォマティクスツール。コホート１（図２Ａ）及びコホート２（図２Ｂ）からの妊婦（ＳＰＷ）及び非妊婦（ＳＮＰＷ）からの正倍数体サンプルのリード長分布。対応するサンプルについてSeqffによって推定されたｆｆに従い分布を色づけする。コホート毎にｆｆの範囲を表すために一色の濃淡の階調を使用する。ＳＮＰＷを対照として加えた。図２ＣにGenomeMixerのワークフロー。最初のカラムにGenomeMixerの主ステップを報告する。模式図は、サンプルがそれぞれGenomeMixer_sd又はGenomeMixer_ffによってどのように生成されるかを示す。両方がトリソミーを有するＳＰＷを入力と見なし、GenomeMixer_ffはＳＮＰＷを同様に使用する。長さ依存性の重みを使用して、母体又は胎児集団に属する可能性がもっとも高いとしてリードにラベルする。次いで、ｎ個のリードをサンプリングし、その際、ｎは、ユーザによって選ばれたリードのパーセントに依存する。最終的に、GenomeMixer_sdは、サンプルリードを削除し、一方でGenomeMixer_ffは、サンプルリードを、ＳＮＰＷリードからサンプリングされたリードに置換する。この手順は、すべてのリードが削除又は置換されるまで最初のリードカウントから一定パーセントのリードの増分を削減又は置換して反復される。色分け：黒色バーはラベル前のＳＰＷリード；紫色バーはＳＮＰＷリード；緑色バーは胎児リードとしてラベルされたリード；赤色リードは母体リードとしてラベルされたリード。

【図3】胎児染色体異常の予測に対するｆｆ及びｓｄの影響。図３ＡにGenomeMixer_ffで生成されたサンプル、上のパネル（Ａ～Ｆ）及び図３ＢにGenomeMixer_sd、下のパネル（Ｇ～Ｌ）。３０個のネイティブな異数体（ＮＡ）サンプルから開始して、本発明者らは、初期リードカウントから５％の増分を置換することによってＮＡあたり１９個の合成異数体（ＳＡ）サンプルを生成した。ＮＡの開始プールは、Defrag aについて男児のみ（Ａ～Ｅ、Ｇ～Ｋ）、又はSeqffについてすべてのＮＡ（Ｂ～Ｆ，Ｈ～Ｌ）のいずれかを含む。合成サンプルの生成の間のモジュレートされたパラメータ（ｆｆ：Ａ～Ｂ、ｓｄ：Ｇ～Ｈ）の傾向を示す。反復に沿って安定を保つパラメータの傾向（ｓｄ：Ｃ～Ｄ、ｆｆ：Ｉ～Ｊ）を示す。サンプルの生成の間のモジュレートされたパラメータ（ｆｆ：Ｅ～Ｆ、ｓｄ：Ｋ～Ｌ）とＺスコアとの間の関係を示す。５未満のＺスコアを有するサンプルに赤色を付ける。ＮＡサンプルを四角で、ＳＡを三角で表す。

【図4】両方のコホートについてのＺスコアの関数としてのサンプル毎のｃｈｒ１８及びｃｈｒ２１のＥ値。それぞれ１８番及び２１番染色体についてのパネルＡ及びＢは、両方ともコホート１に関する。それぞれ１８番及び２１番染色体についてのパネルＣ及びＤは、両方ともコホート２に関する。

【図5】Seqffによって推定されたｆｆを用いた臨床診療のための信頼できるＮＩＰＴについての信頼区間の評価。図５Ａ：Seqffを用いて計算された３つのパラメータ、Ｅ値、ｓｄ及びｆｆについての信頼区間を示す決定木。各ノードは、パラメータの１つについての判別値を表す（ｓｄ：丸、ｆｆ：長方形、Ｅ値：角丸の長方形）。木の根元に信頼区間毎のＲｓｃｏｒｅを報告する。置換又は削除されたリードの各％についての（図５Ｂ）GenomeMixer_ff又は（図５Ｃ）GenomeMixer_sdのいずれかを用いて生成されたＲｓｃｏｒｅ別のＳＡのパーセント。

【図6】上のヒストグラムは、ｆｆを決定することができたサンプルのカウントを示す。カテゴリー（ＮＥ１８、ＮＥ２１、ＮＡ１８、ＮＡ２１、ＳＡ１８、ＳＡ２１）毎のＲｓｃｏｒｅ別のサンプルのパーセント。図６Ａは、「高い信頼性がある」に対応する０．９以上のＲｓｃｏｒｅに対応し；図６Ｂは、「信頼性がある」に対応する０．２以上０．８未満のＲｓｃｏｒｅに対応し；図６Ｃは、「信頼性がない」に対応する０．２未満のＲｓｃｏｒｅに対応する。

【図7】Defrag aによって推定されたｆｆについての臨床診療における信頼できるＮＩＰＴのための信頼区間の評価。Ａ）Defrag aを用いて計算された３つのパラメータ、Ｅ値、ｓｄ及びｆｆについての信頼区間を示す決定木。各ノードは、パラメータの１つについての判別値を表す（ｓｄ：円、ｆｆ：長方形、Ｅ値：角丸の長方形）。木の根元に信頼区間毎にＲｓｃｏｒｅを報告する。置換又は削除されたリードの％毎にＢ）GenomeMixer_ff又はＣ）GenomeMixer_sdのいずれかを用いて生成されたＲｓｃｏｒｅ別のＳＡのパーセント。上のヒストグラムは、ｆｆを決定することができたサンプルのカウントを示す。Ｄ）図６と同様にカテゴリー（ＮＥ１８、ＮＥ２１、ＮＡ１８、ＮＡ２１、ＳＡ１８、ＳＡ２１）についてのＲｓｃｏｒｅ別のサンプルのパーセントを提供する。

【0015】

開示の詳細な説明
本明細書において、臨床診療におけるＮＩＰＴの結果を検証するための戦略の実行を可能にする方法及びデバイスのスイートが提供される。このスイートは、ＮＩＰＴ分析を行うためのパッケージNiPTUNE、合成シークエンスを作成し、異数性の予測のために信頼区間を推定するための半教師ありアプローチGenomeMixer、及び信頼区間に基づきＮＩＰＴの結果の信頼度を検定するためのTRUSTである。確認された３１個の異数体を有する合計１４３９個のサンプルを含む２つのコホートでこれらの新しいツールを検証し、１００％の感度及び特異度を実証した。

【0016】

特に、（ｉ）参照胎児範囲内の断片長を有するリードの総数及び（ｉｉ）参照胎児範囲内の関心対象の染色体（Ｔ）における断片長を有するリードの数のうちの少なくとも１つに基づく新しい指標「Ｅ値」又は「値Ｅ」が報告される。

【0017】

本発明者らの知るかぎりでは、これは、胎児ゲノム率（ｆｆ）、シークエンス深度（ｓｄ）、及びＺスコアが前記Ｅ値と深く関連することを示す、それらの間の関係の最初の研究である。重要なことには、ｆｆ、ｓｄ及びＥ値についての単一の閾値が、信頼できるＮＩＰＴを達成するために不十分であるが、検査を層別化するためにより複雑な絡み合った閾値が必要であることが本明細書に示される。さらに、ｆｆを計算するために使用されるデバイス／方法に応じて、異なる閾値及び区間が得られることが示される。この結果は、ｆｆ、ｓｄ及びＥ値の閾値がデータ解析パイプライン、染色体及びコホート毎に評価される必要があるという結論をもたらす。したがって、提供されるデバイス及び方法は、ＮＩＰＴの性能を改善するためにこれらの閾値を研究室特異的に特定できるようにするので、広く関心がもたれる。

【0018】

ＮＩＰＴにおける胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法
本発明者らは今回、本明細書において、非侵襲性出生前検査（ＮＩＰＴ）における胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法であって、
ａ）母体生物学的サンプルからシークエンスリードのセットを提供するステップであって、シークエンスリード毎に断片長が公知であるステップと、
ｂ）シークエンスリードのセットの１つ以上の断片長に重み係数を割り当てるステップと、
ｃ）合成プロファイルを計算するステップであって、母体生物学的サンプルからの少なくとも１つのシークエンスリードの選択が削除される、又は非妊娠サンプルからのシークエンスリードの選択と置換されるステップと、
ｄ）（ｉ）参照胎児範囲内の断片長を有するリードの総数及び（ｉｉ）参照胎児範囲内の関心対象の染色体（Ｔ）における断片長を有するリードの数のうちの少なくとも１つに基づき合成プロファイルに対応する値Ｅを計算するステップと、
ｅ）少なくとも前記値Ｅに基づいて合成プロファイルの胎児ゲノム率及びシークエンス深度を推定するステップと
を含む方法を提供する。

【0019】

代替的な一実施態様により、方法は、非侵襲性出生前検査（ＮＩＰＴ）において胎児ゲノム率（ｆｆ）を評価するためのものである。

【0020】

代替的な一実施態様により、方法は、非侵襲性出生前検査（ＮＩＰＴ）においてシークエンス深度（ｓｄ）を評価するためのものである。

【0021】

例示的な一実施態様では、方法は、母体生物学的サンプルから無細胞ＤＮＡ（ｃｆＤＮＡ）を単離するステップをさらに含む。

【0022】

例示的な一実施態様では、本明細書に報告される方法は、母体生物学的サンプルから単離された無細胞ＤＮＡ（ｃｆＤＮＡ）をシークエンシングし、それによりシークエンスリードのセットを得るステップを含みうる。

【0023】

例示的な一実施態様では、本明細書に報告される方法は、母体生物学的サンプルから単離された無細胞ＤＮＡ（ｃｆＤＮＡ）を増幅させるステップを含みうる。

【0024】

例示的な一実施態様では、本明細書に報告される方法は、単離された無細胞ＤＮＡ（ｃｆＤＮＡ）を増幅させ、増幅されたｃｆＤＮＡをシークエンシングし、それによりシークエンスリードのセットを得るステップを含みうる。

【0025】

例示的な一実施態様では、母体生物学的サンプルは、血液サンプル又はその画分より選択される生物学的サンプルであり、より詳細には母体血漿サンプルである。

【0026】

例示的な一実施態様では、方法は、母体生物学的サンプルから無細胞ＤＮＡ（ｃｆＤＮＡ）を単離するステップをさらに含む。

【0027】

例示的な一実施態様では、方法は、シークエンスリードのセットの複数の断片長に重み係数を割り当てるステップを含む。

【0028】

例示的な一実施態様では、方法は、合成プロファイルを計算するステップであって、母体生物学的サンプルからの複数のシークエンスリードの選択が削除される、又は非妊娠サンプルからの複数のシークエンスリードの選択と置換されるステップを含む。

【0029】

例示的な一実施態様では、方法は、シークエンスリードから少なくとも１つのリードを削除し、それによりステップｃ）の合成プロファイルと比較してモジュレートされたシークエンス深度（ｓｄ）を有する合成プロファイルを生成するステップを含む。

【0030】

例示的な一実施態様では、方法は、シークエンスリードから少なくとも１つのリードを置換し、それによりステップｃ）の合成プロファイルと比較してモジュレートされた胎児ゲノム率（ｆｆ）を有する合成プロファイルを生成するステップをさらに含む。

【0031】

好ましい実施態様では、値Ｅは、

【数1】

［式中、

【数2】

は、参照胎児範囲(reference fetal range)内の断片長を有するリードの総数に対応し、

【数3】

は、参照胎児範囲内の関心対象の染色体Ｔにおける断片長を有するリードの数に対応し、

【数4】

は、関心対象の染色体Ｔに関するリード数を合成プロファイルにおけるリードの総数で割ったものに対応する］として定義される。

【0032】

有利には、値Ｅが０から離れるほど、関心対象の染色体Ｔが異常を示す可能性が高くなる。

【0033】

値Ｅは、０よりも大きな数でありうる。

【0034】

例示的な一実施態様では、関心対象の染色体Ｔは、ヒト若しくは非ヒト染色体のいずれか、又はそれらの複数、好ましくは、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２番染色体、並びにＸ及び／又はＹ染色体のいずれか１つからなるリストから選択される染色体を含むヒト染色体から選択されうる。

【0035】

いくつかの実施態様により、関心対象の染色体Ｔは、ヒト性染色体より選択される。

【0036】

いくつかの実施態様により、関心対象の染色体Ｔは、ヒト性染色体ではない１つ以上の染色体より選択される。

【0037】

例示的な一実施態様では、関心対象の染色体Ｔは、１３、１８、２１番、Ｘ及びＹからなる群より選択される１つ以上の染色体からなる群より選択される。

【0038】

例示的な一実施態様では、関心対象の染色体Ｔは、１３、１８及び２１番；特に１８番染色体及び／又は２１番染色体からなる群より選択される１つ以上の染色体からなる群より選択される。

【0039】

例示的な一実施態様では、方法は、母体生物学的サンプルから胎児の性別を決定するステップをさらに含む。

【0040】

特に方法は、リードの前記比率を参照値と比較し、それにより母体生物学的サンプルから胎児の性別を決定するステップをさらに含みうる。

【0041】

非侵襲性出生前検査の信頼度を決定するための方法
本発明者らはまた、本明細書において、参照プロファイルで事前に訓練された決定木を使用して非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法であって、
ａ）本開示の胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法により、母体生物学的サンプルから、ｆｆ、ｓｄ、合成プロファイル及び前記合成プロファイルに対応する値Ｅを提供するステップと、
ｂ）それを前記参照プロファイルのＺスコアと比較することによって前記合成プロファイルについてのＺスコアを計算するステップと、
ｃ）前記計算されたＺスコアをＺスコアの閾値と比較することによって前記合成プロファイルを群に分類するために、前記計算されたＺスコア並びに前記胎児ゲノム率、シークエンス深度及び前記合成プロファイルの値Ｅを前記決定木にフィードするステップと、
ｄ）前記分類から、前記母体生物学的サンプルのＮＩＰＴについての信頼度スコア（Ｒｓｃｏｒｅ）を決定するステップと
を含む方法を提供する。

【0042】

好ましい実施態様では、ステップｃ）で、胎児異数性を検出することにおける非侵襲性出生前検査の信頼度を決定するために、前記合成プロファイルは、異数体プロファイルの群又は正倍数体プロファイルの群に分類される。

【0043】

例示的な一実施態様では、胎児異数性は、関心対象の染色体（Ｔ）、特に１３、１８、２１番、Ｘ及びＹ染色体からなる群より選択される染色体；好ましくは１３、１８、及び２１番染色体からなる群より選択される染色体のヒト胎児異数性である。

【0044】

決定木の使用は、胎児ゲノム率、シークエンス深度及び値Ｅに基づき、前記Ｒｓｃｏｒｅによって表される異なる信頼度レベルに対応するサンプルについての異なる区間を得ることを可能にする。

【0045】

Ｚスコアの閾値は、例えば、Ramanら（"WisecondorX: improved copy number detection for routine shallow whole-genome sequencing". Nucleic Acids Research. 2019. Vol. 47, No. 4, 1605-1614）に報告されるようにデフォルト値を用いるWisecondor Xプログラムによって決定されうる。

【0046】

信頼度スコアは、好ましくは０から１の間に含まれる確率である。好ましくは、信頼度スコアが１に近いほど、被験サンプルのＮＩＰＴはより信頼できる。

【0047】

いくつかの実施態様により、ｓｄ、ｆｆ及び値Ｅについての最小閾値を計算して信頼できるＮＩＰＴを得るために、２つのコホートからの異数体サンプル及びGenomeMixerで生成された合成異数体サンプルが使用された。本発明者らは、Ｒパッケージcaret（https://cran.r-project.org/web/packages/caret/index.html）、具体的には関数rpartを使用する決定木アプローチを使用した。簡潔には、本発明者らは、合成サンプルのＺスコアを計算するためにWisecondorXを、それらのｆｆを評価するためにSeqff及びDefrag_aを使用した。

【0048】

NiPTUNEパイプラインからのモジュールdespina.py及びnereid.pyを使用してｓｄ及び値Ｅを計算した。Ｚスコアに関する閾値５を使用してサンプルを「異数体」（Ｚスコア≧５）及び「正倍数体」（Ｚスコア＜５）として分類した。

【0049】

この閾値は、ツールWisecondorXによってデフォルトの閾値として定義される。次いで本発明者らは、決定木にｓｄ、ｆｆ、値Ｅの値及び分類をフィードして、サンプルを群分けする決定木を得た。Seqffについての１つ及びDefrag_aについての１つという２つの木を計算した。

【0050】

非侵襲性出生前検査における胎児ゲノム率及びシークエンス深度を評価するための方法についての上に定義される特徴は、非侵襲性出生前検査の信頼度を決定するための方法に適用され、逆もまた同様である。

【0051】

デバイス
なお別の態様では、本発明は、本発明による非侵襲性出生前検査（ＮＩＰＴ）において胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するための方法を実行するためのデバイスに関する。

【0052】

好ましい実施態様では、デバイスは、参照プロファイルで事前に訓練された決定木を含み、デバイスは、本発明により非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法を実行するために構成されている。

【0053】

別の実施態様では、本発明は、本発明により非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法を実行するためのデバイスに関し、前記デバイスは、参照プロファイルで事前に訓練された決定木を含み、前記デバイスは、本発明により非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するための方法を実行するために構成されている。

【0054】

方法についての上に定義される特徴は、デバイスに適用される。

【0055】

本発明による方法に使用される前記胎児ゲノム率、シークエンス深度、Ｅ値、Ｚスコア、信頼度スコア及びＺスコア閾値は、任意の適切な手段によって、例えば、電子デバイスの画面に表示されることによって、印刷されて、又は音声合成によってユーザに送信されうる。

【0056】

本発明による方法の各ステップは、好ましくは少なくともマイクロコントローラ及びメモリを含む１つ以上の電子システム、特にパーソナルコンピュータ、計算サーバ又は医用画像デバイスで行われうる。

【0057】

コンピュータプログラム製品
本発明によるこのような方法は、有利には、コンピュータプログラムを用いて、プロセッサ、特にコンピュータを含む任意の電子システムで自動的に実行される。

【0058】

なお別の態様では、本発明は、サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されるコンピュータプログラム製品に関し、これらの命令は、本発明により非侵襲性出生前検査（ＮＩＰＴ）において胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するように、かつ／又は本発明による非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するために構成されている。

【0059】

本発明はまた、サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されるコンピュータプログラム製品に関し、これらの命令は、本発明により非侵襲性出生前検査（ＮＩＰＴ）において胎児ゲノム率（ｆｆ）及びシークエンス深度（ｓｄ）を評価するために構成されている。

【0060】

本発明はまた、サポートを含み、プロセッサによって読むことができるこのサポート命令に記憶されるコンピュータプログラム製品に関し、これらの命令は、本発明による非侵襲性出生前検査（ＮＩＰＴ）の信頼度を決定するために構成されている。

【0061】

本発明はまた、本発明によるコンピュータプログラム製品を含むコンピュータ可読媒体に関する。

【0062】

方法のための上に定義される特徴は、コンピュータプログラム製品に適応される。

【0063】

定義
本明細書に使用される用語は、一般的に、当技術分野におけるそれらの通常の意味を有する。ここに開示される主題の製品及び方法の説明にさらなる指針を提供するために、ある特定の用語を、下記又は本開示の他の箇所に述べる。

【0064】

以下の定義は、本開示に関連して適用される。

【0065】

本明細書及び添付の特許請求の範囲に使用される場合、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈が明らかに他のことを指示しないかぎり、複数の指示対象を含む。

【0066】

本明細書及び添付の特許請求の範囲に使用される場合、「少なくとも１つの」という用語は、したがって、１つ又は「１つを超える」を含みうる。したがって、「複数の」又は「１つを超える」という用語は、したがって、『２つ』又は『２つ以上』を含みうる。

【0067】

本明細書に使用される場合、「母体サンプル」という用語は、検査に適した任意の妊娠期間の女性からのもの、又は妊娠の可能性について検査されている女性からのものである場合があり、それらには、非包括的に、妊娠第１期、妊娠第２期、又は妊娠第３期の妊婦対象例えば、胎児妊娠１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４及び４５週（例えば、胎児妊娠１～４、４～８、８～１２、１２～１６、１６～２０、２０～２４、２４～２８、２８～３２、３２～３６、３６～４０又は４０～４４週）を含む胎児妊娠約１～約４５週の妊婦が含まれる。これはまた、分娩途中又は分娩後（例えば、０～７２時間後）に収集された母体サンプルを指す場合がある。

【0068】

本明細書に使用される場合、「母体生物学的サンプル」という用語は、無細胞ＤＮＡを含む傾向がある任意の母体サンプル又はその画分を指す。したがって、母体生物学的サンプルは、非限定的に、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液（例えば、気管支肺胞、胃、腹腔、管、耳、関節鏡）、生検サンプル（例えば、着床前胚からのもの）、体腔穿刺（celocentesis）サンプル、胎児有核細胞又は胎児細胞残骸、女性生殖器系の洗液、尿、便、痰、唾液、鼻粘液、前立腺液、洗浄物、精液、リンパ液、胆汁、涙液、汗、母乳、乳汁、胚細胞、胎児細胞（例えば、胎盤細胞）、子宮頸部スワブ、血液、又は血漿若しくは血清を含む任意のその画分を含む液体又は組織サンプルからなる群より選択されうる。

【0069】

本明細書に使用される場合、「血液」という用語は、全血又は任意の血液画分、例えば慣例的に定義される血清及び血漿を包含する。

【0070】

本明細書に使用される場合、「無細胞ＤＮＡ」又はｃｆＤＮＡという用語は、母体生物学的サンプル（例えば母体血漿サンプル）中に存在するＤＮＡであって、母体ＤＮＡと胎児ＤＮＡとの混合物に対応するＤＮＡを指す。無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）は、胎児ＤＮＡに対応するｃｆＤＮＡの部分に対応する。

【0071】

本明細書に使用される場合、「胎児ゲノム率（ｆｆ）」という用語は、次式：ｆｆ＝胎児ｃｆＤＮＡ／胎児ｃｆＤＮＡ＋母体ｃｆＤＮＡ）に対応する、母体生物学的サンプル（例えば母体血漿サンプル）中の胎児胎盤起源ｃｆＤＮＡのパーセントを指す。

【0072】

本明細書に使用される場合、「シークエンスリード」という用語は、例えばシークエンシング方法（例えば次世代シークエンシング又はＮＧＳ）を使用して、所与の生物学的サンプル（例えば、母体血漿サンプル）中で測定されたヌクレオチド塩基のシークエンスを表すデータを差す。特に、「リード」という用語は、連続するヌクレオチドシークエンス（例えば、上に報告される無細胞ＤＮＡ）の断片を指す場合がある。非包括的に、このようなリードは、核酸及び／又は核酸断片の一端から生成される場合があり（「シングルエンドリード」）、時に、核酸又は核酸断片の両端から生成される（例えば、ペアードエンドリード、ダブルエンドリード）。

【0073】

本明細書に使用される場合、「シークエンス深度（ｓｄ）」という用語は、各塩基対がシークエンシングされる平均回数を指し、シークエンス深度は、所与の母体サンプルについてのシークエンシングリードの総数と共に統計的に増加する。いくつかの実施態様により、シークエンス深度は、染色体別にＧＣ（グアニン－シトシン）含量のパーセントを考慮に入れて正規化ｓｄに対応する補正シークエンス深度に対応しうる。

【0074】

本明細書に使用される場合、「シークエンシング」という用語は、サンガー生化学のキャピラリーベースの半自動実行で行われた核酸シークエンシング、又は非限定的にハイスループットシークエンシングなどの任意の他の種類の核酸シークエンシングを含むすべての種類のシークエンシング方法を指す場合がある。例えば、本明細書において考慮されうるシークエンシング方法は、サンガーシークエンシング、ハイブリダーゼーションによるシークエンシング、ナノポアシークエンシング、ピロシークエンシング、単一分子リアルタイムシークエンシング、イオン半導体シークエンシング、合成によるシークエンシング、コンビナトリアルプローブアンカー合成、ライゲーションによるシークエンシング、GenapSys（商標）シークエンシング；又はその他を含む。非排他的に、シークエンシング方法は、増幅された核酸（例えば、母体生物学的サンプルからの核酸）に適用されうる。

【0075】

「増幅された」という用語は、本明細書に使用される場合、サンプル中の標的核酸を、標的核酸と同じ又は実質的に同じヌクレオチドシークエンスを有するアンプリコン核酸又はそのセグメントを線形的に又は指数的に生成する工程に供することを指す。「増幅された」という用語は、本明細書に使用される場合、標的核酸（例えば、他の核酸を含むサンプル中の）を、標的核酸と同じ又は実質的に同じヌクレオチドシークエンスを有するアンプリコン核酸又はそのセグメントを選択的に、かつ線形的に又は指数的に生成する工程に供することを指すことができる。「増幅された」という用語は、本明細書に使用される場合、核酸の集団を、増幅の前にサンプル中に存在した核酸と同じ又は実質的に同じヌクレオチドシークエンスを有するアンプリコン核酸又はそのセグメントを非選択的に、かつ線形的に又は指数的に生成する工程に供することを指すことができる。特定の実施態様では、「増幅された」という用語は、ポリメラーゼ連鎖反応（ＰＣＲ）を含む方法を指す。

【0076】

本明細書に使用される場合、「異数性」という用語は、誤った数の染色体が細胞中に存在する状態（例えば、誤った数の完全な染色体又は誤った数の染色体セグメント、例えば、染色体セグメントの欠失又は重複の存在）を指す。ヒト体細胞の場合、これは、細胞が２２対の常染色体及び１対の性染色体を含まない場合を指すことがある。ヒト配偶子の場合、細胞が２３種の染色体を１つずつ含まない場合を指すことがある。単染色体型の場合、これは、およそ２つの相同であるが同一でない染色体コピーが存在する場合、又は同じ親に由来する２つの染色体コピーが存在する場合を指すことがある。いくつかの実施態様では、染色体セグメントの欠失は微小欠失である。異数性は、例えば、モノソミー、部分モノソミー、トリソミー、部分トリソミー、テトラソミー、及びペンタソミーを含むことができる。検出できる異数性の例は、アンジェルマン症候群（１５ｑ１１．２－ｑ１３）、ネコ鳴き症候群（５ｐ－）、ディジョージ症候群及び口蓋心臓顔面症候群（２２ｑ１１．２）、ミラー・ディカー症候群（１７ｐ１３．３）、プラダー・ウィリー症候群（１５ｑ１１．２－ｑ１３）、網膜芽細胞腫（１３ｑ１４）、スミス・マギニス症候群（１７ｐ１１．２）、トリソミー１３（パトー症候群）、トリソミー１６、トリソミー１８（エドワード症候群）、トリソミー２１（ダウン症候群）、三倍性、ウィリアムズ症候群（７ｑ１１．２３）、並びにウォルフ・ヒルシュホーン症候群（４ｐ－）を含む。本明細書に記載される方法によって検出できる染色体異常の例は、非限定的に、カルマン症候群（Ｘｐ２２．３）、硫酸ステロイド欠損（ＳＴＳ）（Ｘｐ２２．３）、Ｘ連鎖魚鱗癬（Ｘｐ２２．３）、クラインフェルター症候群（ＸＸＹ）、脆弱Ｘ症候群、ターナー症候群、超雌又はトリソミーＸ（ＸＸＸ症候群、４７，ＸＸＸ異数性）、及びモノソミーＸを含む。

【0077】

本明細書に使用される場合、トリソミー２１としても知られる「ダウン症候群」という用語は、染色体２１の第３のコピーのすべて又は一部の存在によって引き起こされる遺伝性障害を指す。これは通常、身体発育遅滞、軽度から中等度の知的障害、及び特徴的な顔特徴を伴う。

【0078】

本明細書に使用される場合、「Ｚスコア」という用語は、統計学で使用される標準スコアを指し、生スコアの値（すなわち、観測値又はデータ点）が、観測又は測定された値の平均値を標準偏差の何個分だけ超える又は下回るかを表すことを意図する。平均を超える生スコアは、好ましくは正の標準スコアを有するのに対し、平均を下回る生スコアは、好ましくは負の標準スコアを有する。

【0079】

本明細書に使用される場合、「決定木」という表現は、分類及び回帰分析のために使用されるデータを解析する関連学習アルゴリズムを有する学習モデルを意味することを意図する。

【0080】

本明細書に使用される場合、「分類すること」という表現は、合成プロファイルのために、少なくとも異数体又は正倍数体プロファイルを代表する特性及び特徴を有する群を選ぶことを意味することを意図する。

【0081】

「含む」という用語は、述べられた特徴、整数、ステップ又は構成要素の存在を特定化することとして解釈すべきであり、１つ以上の他の特徴、整数、ステップ若しくは構成要素、又はそれらの群の存在を除外することとして解釈すべきでない。またこれは、述べられた特徴、整数、ステップ又は構成要素を厳密に特定する場合があり、したがってこのような場合、これは、「からなる」で置換される場合がある。

【0082】

本発明の範囲内で、変化に関して使用される「有意に」という用語は、観測された変化が注目すべきであり、かつ／又はそれが統計的な意味を有することを意味することを意図する。

【0083】

本発明の範囲内で、本発明の特徴と併せて使用される「実質的に」という用語は、この特徴とおおむね同様であるが、完全には同様でない、この特徴に関係する実施態様のセットを定義することを意図する。

【0084】

本明細書にわたり与えられるあらゆる数的最大限度は、あらゆるより低い数的限度が本明細書に明白に述べられているかの如く、このようなより低い数的限度を含むことが理解されるべきである。本明細書にわたり与えられるあらゆる数的最小限度は、あらゆるより高い数的限度が本明細書に明白に述べられているかの如く、このようなより高い数的限度を含む。本明細書にわたり与えられるあらゆる数的範囲は、あらゆるより狭い数的範囲が本明細書に明白に述べられているかの如く、このようなより広い数的範囲内に入るこのようなより狭い数的範囲を含む。

【0085】

本開示に利用される構成要素について、商品名が本明細書において参照される場合がある。本発明者らは、本明細書において任意の特定商品名の材料によって限定されることを意図しない。商品名によって参照される材料と等価の材料（例えば、異なる名称又は参照番号の異なる入手源から得られるもの）が、本明細書において置換され、利用される場合がある。

【0086】

本開示の様々な実施態様の説明では、様々な実施態様又は個々の特徴が開示される。当業者に明らかなように、このような実施態様及び特徴のすべての組み合わせが可能であり、結果として本開示の好ましい実行をもたらすことができる。本発明の様々な実施態様及び個々の特徴が例示され、説明されたが、本発明の精神及び範囲から逸脱せずに様々な他の変化及び変形を加えることができる。同様に明らかなように、本開示において教示される実施態様及び特徴のすべての組み合わせが可能であり、結果として本発明の好ましい実行をもたらすことができる。

【0087】

実施例
材料及び方法
患者のコホート
インフォームドコンセントの後、ニース大学病院の妊婦（ＳＰＷ）からの３７７個のサンプル（コホート１）及びマルセイユ大学病院の１０６２個のサンプル（コホート２）にＮＩＰＴを行った。研究の同意を得た上でこれらのシリーズによって生じたシークエンシングデータを後ろ向きに使用して、本発明者らのバイオインフォマティクススイートを検証した（INDS - MR3310281119; R04-018 Nice及びPADS20-53 Marseille）。２人の非妊婦が陰性対照として血液を提供した（ＳＮＰＷ）。ＤＮＡの抽出、ライブラリーの調製及びシークエンシングのプロトコルは、両方のコホートで同一であった。

【0088】

ＤＮＡの単離
Streck（cfDNA BCT）又はRoche Diagnostics（無細胞ＤＮＡ収集チューブ）からの採血チューブに母体サンプルを収集し、１６００ｇで１０分間遠心分離して、血球から血漿を分離した。続いて血漿を１６０００ｇで１０分間遠心分離した。上清を新しい微小遠心チューブに移し、さらなる処理まで－８０℃で保存した。QIAamp（登録商標）循環核酸キット（Qiagen（登録商標）、Hilden、Germany）を製造業者のプロトコルに従って使用して血漿４mlからｃｆＤＮＡを抽出した。最終体積３５μlのＡＶＥ緩衝液中にＤＮＡを溶出させ、Qubit dsDNA High Sensitivity Kit（Thermo Fisher Scientific）を使用して濃度を測定し、その後－２０℃で保存した。

【0089】

ライブラリーの調製及びシークエンシング
Proton又はS5XLシークエンサ（Thermo Fisher Scientific（登録商標）、Waltham、MA、USA）のいずれかを使用して、ｃｆＤＮＡのインプット１５ngから開始してｃｆＤＮＡのシャロー全ゲノムシークエンシングを行った。ライブラリー構築のために、最適化手順６を使用して、それぞれIon Plus fragment library kit及びIon Plus Core Library Module for AB Library Builder（商標）System（Life Technologies -Thermo Fisher Scientific（登録商標）, Waltham, MA, USA）を用いる手作業で又は半自動手順でｃｆＤＮＡサンプルを処理した。Ion Library TaqMan（商標）Quantitation Kit（Thermo Fisher Scientific）を使用してライブラリーの濃度を測定した。次いで、等モル濃度（15pM）の各ライブラリーを自動的に調製し、Ion Chef（Thermo Fisher Scientific（登録商標）, Waltham, MA, USA）を使用してチップ（IonPI（商標） Chip Kit V3又はIon 540 Chip Kit）に負荷した。Ion Torrentスイートを使用して処理前の品質管理、トリミング及びGRCh37へのマッピングを行った。

【0090】

正規化及び品質管理
以前に、Straverら（"WISECONDOR: detection of fetal aberrations from shallow sequencing maternal plasma based on a within-sample comparison scheme". Nucleic Acids Res. 2014;42(5):e31）に報告されたようにWisecondorからのスクリプトgcc.py、及び以前にRamanら（"WisecondorX: improved copy number detection for routine shallow whole-genome sequencing". Nucleic Acids Res. 2019;47(4):1605-1614）に報告されたようにWisecondorXを使用して、アライメントされたシークエンス（.BAM）をＧＣ含量について補正した。

【0091】

各サンプルを１Mbのビンに分割した。次いで、ビンあたりで正規化されたＧＣ含量を得るためにＧＲＣｈ３７ヒトゲノムに関連してloess関数を適用した。正規化リードカウントは約１と予想される。本発明者らは、不均衡なビンカウントを有するサンプル、すなわち潜在的なライブラリー若しくはシークエンシング品質デフォルト、アライメントエラー又は母体病理と見なされるべきサンプルを同定するために、主成分分析（ＰＣＡ）を使用した。

【0092】

iSanefalcon（ｆｆ推定のために最適化されたモジュール）
独立型アプリケーションは、Straverら（"Calculating the fetal fraction for Non-Invasive Prenatal Testing based on genome-wide nucleosome profiles"; Prenatal Diagnosis; 2016, 36, 614-621）によって報告された元のSanefalcon（"Single reAds Nucleosome-basEd FetAL fraCtiON "）モジュールの改変バージョンである。

【0093】

最初に本発明者らは、より新しいバージョンのサポートソフトウェアへの従属を更新して、より独立型のアプリケーションを作るために、Bashスクリプトとpythonスクリプトとの間の内部従属を削除するPython3.6に切り換えた。独立型アプリケーションは任意のプラットフォーム上で実行することができ、同時実行及び並列化のためにコアPythonライブラリーを活用する。本発明者らは、リード開始位置の抽出からヌクレオソームプロファイルの計算まですべてのステップを重度に並列化した。本発明者らは、すべてのファイルシステム動作を管理するために専用のクラスを導入し、このようにして、行われるべきマニュアル介入はなく、すべてが実行時間で管理される。最終的に、本発明者らは、取り組む必要のあるマニュアル構成ステップを最低限まで低減した。このようにして、本発明者らは、アプリケーションをより頑健で、誤りにくくした。アプリケーションのためのすべてのロケーション及び最重要パラメータを設定するために簡単な構成ファイルを提供する。Sanefalconの新規なワークフローを図１Ｂにさらに説明する。

【0094】

iSanefalconが元の実装と同じ結果を得ることを実証するために、本発明者らは、相関プロットを含む両方のバージョンで両方のコホートについてｆｆを計算した。同じ実行からのサンプルを一緒に保つように注意して、コホート毎に約３００個のサンプルを訓練セットとして、残りを検査セットとして使用した。サンプル毎にｆｆを提供するために、コホート１について手順を５回、コホート２について２回適用した。両方について良好な相関値が報告され、２つのバージョンのSanefalconがｆｆの計算に有意差を示さないことを確認している。しかし、コホート１にだけ異なる傾向が観察される。この結果を検証するために、本発明者らは、予想される線形モデルを、群毎にＹ軸上にオフセットを引き起こすランダム効果ｒと組み合わせて、式
ｙ＝ａｘ＋ｂ＋ｒ
を有する混合効果モデルを使用した。線形及び混合モデルの尤度及び赤池の情報量基準（ＡＩＣ）の両方により、混合モデルがコホート１のためのモデル化によりよく適合することが確認された（線形モデル、対数尤度：－５３７．３１、ＡＩＣ：８１９．９０６；混合モデル、対数尤度：７３５．８６３、ＡＩＣ：－１４６３．７２７）。混合効果は、コホート１についてのみ関連しており、混合効果がSanefalconの新しい実装のせいであることを排除している。両方のコホートへのＰＣＡ分析は、コホート１についての混合効果がサンプルに由来しないことを示唆している。Sanefalcon戦略は、読み取り開始位置の分解能で行われる唯一の分析であり、他はビンレベルである。これは、読み取り開始位置の分解能が、おそらく可変性の欠如のせいで小サイズのコホートに適さないことを示唆している。

【0095】

NiPTUNE
次いでｆｆ及びｓｄが評価されるＮＩＰＴのための完全スイートは、以前に報告されたブロック／モジュールの選択を含み、その一部は下記及び図１Ａに説明されるように改変された。以下のパラグラフに、各ブロックの組み立て及び目的を説明する。

【0096】

構成及び入力ファイルの前処理
２つのモジュールから構成されるこのブロックは、パイプラインの下流のツールによる使用のためにサンプルファイルを準備し、ｓｄを計算する。

【0097】

モジュールtriton.pyは、元のファイル形式（.bam）を、NiPTUNEでの下流の処理のための入力として役立つ他の形式（.gcc、.pickle、.npz）に変換する。「.pickle」出力は、アライメントされたリードを１Mbのビンに分割したものを含む（調整可能なパラメータ）、「.gcc」出力は、参照ゲノムに関してlowessモデルを適用することによって得られたビンレベルでのＧＣ補正の結果である。最終的に、「.npz」形式は、WisecondorXのための入力として使用される特定ファイルである。モジュールdespina.pyは、提供されるサンプルのｓｄを計算する。

【0098】

品質管理
モジュールproteus.pyは、コホートの全サンプルに主成分分析を行い、コホートへの外れ値サンプル又は亜集団があるかどうかをチェックするための視覚的な出力を生成する。本発明者らは、Ｒソフトウェアの関数prcompを使用した。

【0099】

胎児の性別予測
胎児の性別を予測するために、モジュールhalimede.pyは、Ｙ染色体に関するリード数(
reads on the Y chromosome)に対する７つのＹ特異的領域のリード(reads of seven Y-specific regions)の比率を最初に定量化する新規な方法（本明細書において「MagicY」と称する）を実装している。

【数5】

【0100】

本明細書において考慮される７つのＹ特異的領域を表１に挙げる：

【表1】

【0101】

次いで、カウント比の分布にフィットさせるために、及び男性集団と女性集団とを分離するための閾値を特定するために使用される２つのガウス分布を有する混合ガウスモデルとこれを組み合わせる。本発明者らは、Pythonパッケージsklearn（バージョン０．２３．１）からの関数GaussianMixtureを使用する同じ混合ガウスモデルを実行して、Bayindirら（"Non-Invasive Prenatal Testing using a novel analysis pipeline to screen for all autosomal fetal aneuploidies improves pregnancy management". Eur J Hum Genet. 2015;23(10):1286-1293.）に報告されたアルゴリズムによって計算された胎児ゲノム率（ｆｆ）に基づき性別を予測した。

【0102】

WisecondorXは、サンプルあたりのリードの総数に対するＹ染色体上のリードの比率を定量化する。胎児の性別を判別するための閾値を特定するために、本発明者らは、ｙ画分カウントに基づきMagicYの閾値を算出した。最終的にDefragは、サンプルを男性又は女性として分類するために訓練セットに対してＫＮＮバイナリ分類を使用する。

【0103】

参照セットの作成
モジュールlarissa.pyは、Defrag及びWisecondorXについての参照として使用されるべきｎ個のサンプルをランダムに選択する。本研究では、本発明者らは、コホート毎にｎ＝１００個のサンプルを設定する。本発明者らは、異なる検査の精度及び信頼度を改善するためにコホート特異的サンプルの使用を強く推奨する。このモジュールは、下流のプログラム（すなわちDefrag a、WisecondorX）によって使用されるべき参照サンプルを準備する。

【0104】

胎児ゲノム率の予測
本発明者らの２つのコホートで４つのｆｆ推定ツールの性能を評価した：
－ Defrag a及びDefrag b。これらは、以前にBeekら（"Comparing methods for fetal fraction determination and quality control of NIPT samples". Prenatal Diagnosis. 2017;37(8):769-773）に記載された。
- Seqff。これは、以前にKimら（"Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts: Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts". Prenatal Diagnosis. 2015;35(8):810-815）に記載された。
- 前述のSanefalcon及びその最適化モジュールiSanefalcon。

【0105】

Defrag a、Defrag b及びSeqffのためにデフォルトのパラメータを使用した。

【0106】

NiPTUNEではｆｆを計算するために２つの方法が提唱されている。すなわち、モジュールlaomedeida.pyに実装される、Ｙ染色体のリードカウントに基づくDefrag a及びモジュールneso.pyにおける予備訓練されたビンカウントに基づくSeqffである。Defrag及びSeqffの主コードをNiPTUNEで維持した。本発明者らは、Seqff入力を解析するためのスクリプトを追加して、より効率的に、元の実装と同じように複数のサンプル及び単一のサンプルでｆｆを計算できるようにした。Sanefalconはメインワークフローに実装されていない。それは、本発明者らのベンチマークで本発明者らのサンプルに対する性能があまり効率的でないことが実証されたからである。本発明者らは、ユーザがNiPTUNEと独立して実行できるようにこのツールの改良バージョンを提供する。

【0107】

最終的に、Ｅ値を計算するためのモジュールnereid.pyが存在する。Ｅ値は、異数性のｆｆへの推定された寄与を表し、染色体特異的である。モジュールは、１８番染色体についての１つ及び２１番染色体についての１つという２つの値を計算する（本発明者らのコホートについて検証された）。Ｅ値の詳細な説明については、「ｆｆへの染色体特異的寄与のモデル化」の節を参照されたい。

【0108】

コピー数変化の予測
本発明者らは、モジュールsao.pyにWisecondorXを実装した。このモジュールに提示されたサンプル毎に、参照サンプルに対してビニングされたサンプルでグローバルＺスコアを計算する。異常なカウントを有する染色体を目視検証するために画像出力も提供する。

【0109】

出力の準備
パイプラインのこの最終モジュールthalassa.pyは、テーブル内の上流モジュールからの結果を収集する。各サンプル（ライン）は、以下のカラムによって説明される：品質管理（視覚的出力）、１８番染色体（ｃｈｒ１８）についてのＥ値、ｃｈｒ２１についてのＥ値、ｓｄ、性別予測（magicY）、ｆｆ（２つのカラム、方法毎に１つ）並びに１３、１８及び２１番染色体についてのＺスコア。

【0110】

GenomeMixer（合成シークエンシングを作成するための新規なモジュール）
ｆｆ及びｓｄがどのように染色体異常の予測に影響するかを研究するために、本発明者らは、自由に使える異数体サンプルの数を増加させるための戦略を確立した。具体的には、本発明者らは、シークエンシング入力のｆｆ又はｓｄのいずれかをモジュレートして、これらの２つのパラメータについての最小閾値を特定する必要があった。本発明者らは、２つの戦略に基づいて欠損サンプルを作成するためのバイオインフォマティクスツールを設定することを考えた。

【0111】

一方で、より低いｆｆを有する合成シークエンシングを作成するために（GenomeMixer_ff）、元のアライメントファイルからのリードを、対照ファイル、非妊婦からのサンプル（ＳＮＰＷ）からのリードによって置換する必要がある。具体的には、安定なｓｄを保ちながらｆｆを低減するために、置換すべきリードは、胎児ゲノムに由来する必要がある。

【0112】

他方で、ｓｄを減少させるために（GenomeMixer_sd）、削除されるべきリードは、母体集団及び胎児集団の比を不変に保ちながらこれらの集団の両方に属するべきである。しかし、母体又は胎児起源の断片を明白に識別することは不可能である。

【0113】

したがって、本発明者らは、胎児又は母体ＤＮＡに由来する傾向を表す重みを各リードに関連付けることを考えた。

【0114】

Lo（Non-invasive prenatal testing using massively parallel sequencing of maternal plasma DNA: from molecular karyotyping to fetal whole-genome sequencing. 2013. Reprod. Biomed. Online, 27, 593-598）及びChiuら（Non-Invasive Prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma. 2008. Proc. Natl. Acad. Sci., 105, 20458-20463）に以前に報告されたように、文献では、胎児起源の断片が母体起源よりも短いことが受け入れられている。

【0115】

本発明者らは、本発明者らのコホートからの正倍数体サンプルに対するこの観察を確認し、各リードに関連すべき重みを計算するためにこの傾向を利用することを決定した。簡潔には、本発明者らは、すべての異数体Ｔ１８サンプルを併合し、Ｔ２１及びＳＮＰＷについての類似性を続行し、リード長分布を計算した。これらの３つの分布は、カテゴリー毎の「参照分布」を表す。

【0116】

次いで本発明者らは、各トリソミープール（この場合Ｔ１８及びＴ２１）とＳＮＰＷとの間で、関連する参照分布の差を計算した。これらの曲線は、異数体サンプルプールとＳＮＰＷとの間の各リード長の頻度における差の定量化を表す。

【0117】

２つの分布の間の差異を最大化するために、本発明者らは、階段関数を適用した。階段の振幅は、差分曲線の最小と極大との間の値に対応する。同じ長さを有するすべてのリードは、等しい重みでラベルされる。重みは、GenomeMixer_ffについて母体集団に属するリードよりも先に胎児集団に属するリードの選択が置換されること、及びGenomeMixer_sdについてリードを削除しながら胎児／母体リードのバランスを維持することを可能にする。

【0118】

合成シークエンシングを構築するために本発明者らの戦略を適用するために、本発明者らは、染色体異常を提示しているシークエンシングされたゲノムに重み付き確率サンプリングを行った。本発明者らは、モデル化されるべきパラメータ（すなわちｆｆ又はｓｄ）に応じて、置換又は削除すべき候補リードとして推定上の胎児断片集団からのリードを優先した。ＳＮＰＷは、GenomeMixer_ffについてのみ使用される。各サンプリングは染色体レベルで行われる。置換又は削除されるべきリードの量は、ユーザ定義されたパーセントであるが、２つの戦略はわずかに異なる。

【0119】

GenomeMixer_ffについて、胎児異常を有する妊婦からのサンプル（ＳＰＷ）から置換されるべきリードは、以前に説明されたように計算された重みを使用して非妊婦からのサンプル（ＳＮＰＷ）より選択される。異数体染色体に関して、胎児集団からサンプリングされたリードの半分が置換され、リードの半分は止められる（詳細な説明については「ｆｆへの染色体特異的寄与のモデル化」の節を参照されたい）。工程の終わりに、結果として、合成シークエンシングは元のシークエンシングと同じ数のリードを有し、０．００１％未満のエラーを有するが、異なる供給源に由来する。

【0120】

GenomeMixer_sdについて、ｓｄを低下させながらｆｆを安定に保つために、ｆｆの比率を考慮して削除されるべきリードが選択される。例えば、本発明者らが１００個のリードを削除することを望み、ｆｆが１０％ならば、本発明者らは、胎児集団に属する可能性がもっとも高いとラベルされたリードから１０個のリード及び正反対の重みを有するとラベルされた９０個のリードを削除する。

【0121】

ｆｆへの染色体特異的寄与のモデル化
Budisら（"Combining count- and length-based Z-scores leads to improved predictions in Non-invasive prenatal testing". 2019. Bioinformatics, 35, 1284-1291）は、７つの長さ限度に基づく断片の漸進的除去を使用するラムダスコアプロファイルを定義した。彼らは、異数体サンプルのラムダスコアが正倍数体から逸脱することを示し、正倍数体サンプルと比較して異数体染色体の胎児リードの余分の寄与があるという考えをもたらした。本発明者らは、Ｅ値を定義して予測の正確度を上げるためにこの特性を使用した。

【0122】

以前の節において、本発明者らは、ＳＰＷがＳＮＰＷと比較して特定の長さ範囲（fetal_range）のリードに富むことを観察した。したがって、本発明者らは、胎児範囲内の長さを有するリードの数のｆｆ倍：

【数6】

として染色体に関するリードカウントへの胎児リードの寄与を近似できると考えた。

【0123】

他方で、胎児リードがゲノム上にランダムに分布するという仮定に基づき、本発明者らは、染色体に由来する胎児リードを、胎児範囲におけるリード数ｆｆ倍と、関心対象の染色体に関するリードの比率との積として推定できると考えた。

【0124】

この比率は、関心対象の染色体（Ｔ）に関するリード数(reads on the chromosome of interest (T))をリードの総数(total number of reads)で割ったものとして定義される：

【数7】

【0125】

本発明者らは、胎児リードを一様なランダム抽選としてモデル化することができ、したがって、これは分散

【数8】

を有する二項分布によって表される。

【0126】

Ｅ値は、

【数9】

として定義され、式中、

【数10】

である。

【0127】

図４に示すように、Ｅ値が０から離れるほど、染色体Ｔが異常を提示する可能性は高くなり、図中、２つのコホートからの１８番染色体及び２１番染色体についての異数体サンプルが示される。

【0128】

合成サンプルの生成
ｆｆが染色体異常の予測にどのように影響するかを研究するために、本発明者らは、漸減するｆｆを有するが、リード数が一定なサンプルを作成するためにGenomeMixer_ffを使用した。GenomeMixer_ffは、胎児トリソミーが確定したＳＰＷ及びＳＮＰＷをインプットとして採用する。胎児トリソミーを有する各ＳＰＷについて、本発明者らは、ＳＰＷの初回リードカウントの５％の増分をＳＮＰＷからの等量と置換することによって１９個の新しいサンプルを生成した（置換される／置換すべきリードを選択するために使用される基準についての詳細な説明については材料及び方法を参照されたい）。少数（２つ）の双胎異数体サンプルは、本発明者らを、双胎妊娠に関する本発明者らのモデルを検証させなかった。本発明者らは、GenomeMixerにフィードするために、≧５のＺスコアによって特定されたＴ２１又はＴ１８を有するＳＰＷサンプルを使用した。したがって、胎児Ｔ２１を有する２３個のネイティブな異数体（ＮＡ）サンプル及びＴ１８を有する７つのＮＡサンプルから、本発明者らは、それぞれ４３７個及び１３３個の合成異数体（ＳＡ）を生成した。Seqffは、すべてのＳＡについてｆｆを推定して、０．８８～３５．５の範囲を得た。Defrag aは、ＮＡ男児に由来する３４５個のＳＡのうち１９７個についてｆｆを推定した。ｆｆの最小値は、３．０４～３７．９１の範囲である。

【0129】

ｓｄが染色体異常の予測に対する影響を評価するために、本発明者らはGenomeMixer_sdを使用した。これは、胎児染色体異常を有するＳＰＷだけを入力として採用する。漸減するｓｄを有する新しいサンプルを生成するために、本発明者らは、胎児リードと母体リードの比を安定に保ちながら初回リードカウントの５％の増分を削除した。本発明者らは、ＮＡ毎にこの工程を１９回繰り返し、ｓｄ範囲が３６０２６１～１５００２８１１の４３７及び１３３個のＳＡを得た。Seqff及びDefrag aの両方は、GenomeMixer_sdで生成されたＳＡ全体についてｆｆを推定することができなかった（Seqffについて２８／６７０及びDefrag aについて１５４／３４５）。

【0130】

まとめると、本発明者らの結果は、Seqffが非常に低い値の場合であってもｆｆを推定するのに対し、Defrag aは３よりも低いｆｆの場合に推定できなかったことを示している。

【0131】

TRUST
本発明者らは、パラメータｆｆ、ｓｄ及びｅの値に基づきＮＩＰＴ検査の信頼度を検定するために、TRUST（Trisomy Reliability Unique Score Test：トリソミー信頼度ユニークスコア検定）と呼ばれるウェブアプリケーションを実行した。決定木を使用して、このアプリケーションは、信頼度スコア（Ｒｓｃｏｒｅ）を計算し、ＮＩＰＴの結果を以下のように分類する：
・「高度に信頼できる(highly reliable)」：Ｒｓｃｏｒｅが０．８～１である。サンプルについて提供されたｓｄ、ｆｆ及びｅは、信頼できる予測を達成するために必要な値を満たす。
・「信頼できる(reliable)」：Ｒｓｃｏｒｅが０．２～０．８である。１つ以上のパラメータが閾値未満であり、したがって、Ｚスコアの計算によって潜在的異常が見逃される場合がある。この場合、より高いレベルの正確度を達成したいならば、サンプリングの再実行を考慮することができる。
・「信頼できない(not reliable)」：Ｒｓｃｏｒｅが０～０．２である。必要な基準をパラメータが満たし、したがって、Ｚスコア計算による異常評価は信頼できない。新しいサンプリングが強く勧められる。

【0132】

統計解析
ソフトウェアＲを使用してすべての統計を行った。Ｒからのライブラリーggplot2を使用してバイオリンプロットを行った。Ｒからのcorr関数を使用して補正を計算した。

【0133】

結果
シークエンシングの品質管理
妊婦の２つのコホート：ニース（コホート１）及びマルセイユ（コホート２）に関してＮＩＰＴを行った。コホート１は、１１個の胎児異数体を含む３７７個のサンプルからなる。コホート２は、２０個の胎児異数体を含む１０６２個のサンプルから構成される（表１）。サンプルが異常なリードカウント分布を有しないことを検証するために、本発明者らは、各コホートに属するサンプルについて正規化リードのビニングされたカウントに主成分分析（ＰＣＡ）を適用した。本発明者らは、ポイント（サンプル）の分布が２つのコホートで整合し、大部分のポイントがプロットの重心にクラスターを形成することを観察した。コホートが２つの異なる病院からのものであったならば、抽出及びシークエンシング方法は同一であった。したがって、本発明者らは、交差比較のために２つのコホートを合わせた。対照として追加された２つのＳＮＰＷからのシークエンシング結果は、胎児異数体と同様に均一に分布している。方法の信頼度を検定するために、本発明者らはまた、シークエンシング結果から３つの被験サンプルをコホート１からのサンプルに追加した。それらのうちの２つは、参照ゲノムとのアライメントの失敗に起因し、３番目は母体異数性に対応した。３つの被験サンプルに対応するポイントは主な群から分散していた。これらの分析は、マッピングの後、さらなる分析の前にリードカウントの分布を検定するための品質管理としてＰＣＡを使用する妥当性及び重要性を支持している。さらに、それらは、誤ったＮＩＰＴの解釈につながる可能性もある疾患関連ゲノム母体異常を特定するためのＰＣＡの寄与を強調している。

【0134】

胎児性別予測のための信頼できる戦略の特定
胎児の性別は、参照として使用されるべきサンプルのセットを決定するためにいくつかのツールによって使用されるので、胎児性別予測は、ＮＩＰＴパイプラインの重要なステップである。したがって、本発明者らは、シークエンシングデータから胎児の性別を予測するために信頼できる方法を確立する必要があった。本発明者らは、文献に記載された種々のツールを検査し、本発明者らは、胎児の性別を推定するために、それらのツールを、Ｙ染色体特異的領域に基づく「MagicY」と呼ばれる本発明者らが開発した新規な方法に続く混合ガウスモデルアプローチ（補足情報）と比較した。本発明者らは、MagicYが、検査された方法よりも優れていることを示した。

【0135】

ｆｆの推定のためのツールのベンチマーク
ｆｆの推定は、染色体異常の計算の信頼度のための基礎パラメータである。異数性が本質的にｆｆ非依存的であるならば、その予測は、低いｆｆによって影響される可能性がある^６。ｆｆの重要性にもかかわらず、その計算のためのゴールドスタンダード方法はまだ確立されていない。本発明者らは、文献に最も一般的に使用される４つのツール：Defrag a、Defrag b、Seqff及びSanefalconの性能を比較した。

【0136】

Defrag bが２つのコホートについて安定な結果を示すものの、本発明者らのベンチマークは、このツールが低いｆｆを過小評価し、高いｆｆを過大評価することを実証した。iSanefalconは、強いコホート依存性挙動及びｆｆ計算のための任意の他のツールとの非常に低い相関の両方を示した。したがって、本発明者らは、ｆｆ計算のための信頼できるツールとしてDefrag a及びSeqffを選択した。

【0137】

染色体異常のコンピュータ予測
胎児異数性について検査するために、本発明者らは、元のバージョンのWisecondorの改良型であるWisecondorXを使用した。５よりも大きなＺスコアは、潜在的染色体異常を指し示す。コホート１は、５つの１８番染色体のトリソミー（Ｔ１８）及び６つの２１番染色体のトリソミー（Ｔ２１）を含む１１個の異数体サンプルから構成される。コホート２は、２０個の異数体を含み、その中に２つのＴ１８、１６個のＴ２１、Ｔ１８及びＴ２１の両方を有する１つのサンプル並びに１つのＴ１３が含まれる。異数性サンプルのうちの２つは二絨毛膜二羊膜妊娠に対応し、２つのうちの１つの胎児がＴ１８又はＴ２１のいずれかを保有する。

【0138】

WisecondorXを用いたＺスコアの計算は、両方のコホートにおいて双胎妊娠についてのトリソミー及びダブルトリソミーを含むすべてのトリソミーを特定した。さらに、WisecondorXは、１３、１８及び２１番染色体について偽陰性の結果をもたらさなかった。これらの結果は、WisecondorXアプローチの特異度及び感度を確認している。

【0139】

NiPTUNE：ＮＩＰＴを正確、統合的で柔軟なフレームワーク（an accUrate, iNtegrative and flexiblE framework）で行うためのコンピュータパイプライン
NiPTUNEは、シークエンシング技術にかかわらず任意のデータに使用することができる。本発明者らは、主成分分析（ＰＣＡ）が妥当な品質管理であることを実証し、したがって、本発明者らは、任意の他の計算の前に第一ステップとしてこれを実行した。本発明者らは、MagicYを用いて胎児の性別を推定するモジュールを提供する。NiPTUNEは、２つのツール、すなわちDefrag a及びSeqffを用いたｆｆの推定を提供し、染色体異常は、WisecondorXによって評価される。最終的に、本発明者らは、容易に処理できるテーブル様形式で分析されたサンプルのすべての結果を自動的に収集するモジュールを生成した。注目すべきことにNiPTUNEは、単一のサンプル又はサンプルのバッチを実行することができる。

【0140】

GenomeMixer:妊婦の合成シークエンシングを作成するための新規なバイオインフォマティクスツール
本発明者らは、ｆｆを推定するためのバイオインフォマティクスツールが非常に異なる結果を生成することを示した。したがって、異なる臨床検査室でのｆｆ値は類似でなく、ＮＩＰＴの結果を検証するためのｆｆのゴールドスタンダードの閾値を決定することができない。そのうえ、偽陰性の結果を避けるために十分なｆｆが必要である。より高いｓｄは低いｆｆを代償することができたが、この関係の明白な説明は欠如している。本発明者らは、ＮＩＰＴのための信頼区間を確立する信頼できる方法、具体的には染色体異常を自信をもって予測するために必要な最小のｆｆ及びｓｄを検査室に提供することを目標とした。しかし、これらの最小値の決定は、異数体サンプルにおける非常に大きな範囲のｆｆ及びｓｄの両方を必要とし、これは臨床診療で得ることが非常に困難である。

【0141】

したがって、本発明者らは、ｆｆ（すなわちGenomeMixer_ff）又はｓｄ（すなわちGenomeMixer_sd）を調節しながら新しい合成サンプルを生成する半教師ありデータ拡張アプローチであるGenomeMixerを開発した。簡潔には、GenomeMixerは、リード数を安定に保ちながらｆｆを、又はｆｆを安定に保ちながらｓｄをモジュレートするために、異数体が確認された胎児を有する妊婦（ＳＰＷ）及び非妊婦（ＳＮＰＷ）からの「ネイティブな」サンプルからのシークエンシングリードを混合する合成アライメントファイルを作成する。妊婦血漿中のｃｆＤＮＡは、母胎又は胎児のいずれかに属する断片の混合物である。したがって、その起源を容易に識別する方法はない。リードをラベルするために使用することができる特性の１つはその長さである。胎児ｃｆＤＮＡの集団は、母体ｃｆＤＮＡと比較してより小さな断片が豊富なことが証明されおり、胎児の主ピークは約１４３bpであり、母体の主ピークは約１６６bpである。本発明者らは、本発明者らのコホートについてリード長分布を計算したときにこのパターンを観察した（図２Ａ～２Ｂ）。本発明者らのコホートについて１６７bpに見出される「母体」ピークの前に、潜在的胎児起源のより短い断片から構成されるショルダーがある。図２Ａは、ｆｆに応じてリード長分布が極めて異なり、より低いｆｆ値がより大きい数のロングリードに対応することを示す。実際に最高のピークは、より低いｆｆ値について観察される。ｆｆが増加するにつれ、より短い断片の数の増加と同時にこのピークは低下する。本発明者らは、重みを断片長と関連付けることで、断片がどちらか一方（母体又は胎児）の集団に属する可能性を表すことができると考えた。GenomeMixerのワークフローは、図２Ｃに十分に説明されている。このプログラムは、本発明者らがＮＩＰＴ信頼度のための品質の閾値を確立するために必要な合成サンプルを生成できるようにした。

【0142】

胎児染色体異常の予測に対するｆｆ及びｓｄの影響
図３Ａ及び３Ｂは、Ｔ１８及びＴ２１の両方を含むGenomeMixerによって生成された全サンプルについての結果を報告し、ｆｆ値はDefrag a又はSeqffにより計算した。全体として、GenomeMixer_ffにより生成されたサンプルのｆｆは、置換されたリードのパーセントと共に一貫して減少し（図３Ａ）、一方で、ｓｄは変化しない（図３Ｂ）。削除されたリードのパーセントが同じであれば、全サンプルについてｆｆが比例して減少すると予想される。Defrag aによる分析でこの関係が観察された場合、驚くことに、置換されたリードのパーセントが高いときにSeqffでこの比例関係は見出されない。この可変性は、低いｆｆを有するサンプルについてSeqffによるｆｆ計算があまり信頼できなくなることを示唆している。

【0143】

次いで、本発明者らは、ＳＡについてのＺスコアを計算し、すべてのサンプル（ネイティブ及び合成）についてｆｆに対してＺスコアをプロットした。Defrag a（相関：スピアマンは０．９６、ピアソンは０．９４）又はSeqff（相関：スピアマンは０．８８、ピアソンは０．９２）のいずれかで計算されたＺスコアとｆｆとの間に直線関係が見出される。この分析は、胎児異数体の推定が、シークエンシングされたサンプルで見出されたｆｆに強く依存することを実証している。さらに、本発明者らは、異数体と呼ばれない低いｆｆ（Ｚスコアが５未満）を有するＳＡを観察し、これは、染色体異常の信頼できる予測を達成するために必要な最小ｆｆの閾値を見出す重要性を強調している。

【0144】

同じ戦略を使用して、本発明者らは、GenomeMixer_sdで生成されたサンプルのｓｄが次第に低下することを確認した（図３Ｇ～Ｈ）。予想通り、Defrag aで計算されたｆｆの有意な変動は観察されなかった。対照的に、Seqffによるｆｆ計算の信頼度は、削減されたリード数に比例して減少し、これは、ｓｄがSeqffによるｆｆの計算の妥当性に影響することを示唆している。最終的に、本発明者らは、ＳＡ及びＮＡについてのＺスコアとｓｄとの関係をプロットした。本発明者らは、限界値に達するまではリードを削減する間のＺスコアの挙動は平坦であり、限界値の後でＺスコアが劇的に下落するという２つの傾向を観察した。この結果は、Ｚスコアの計算がｓｄに対して極めて頑健であることを示唆している。しかしｓｄが極端に低い場合、Ｚスコアは異常なサンプルを高い信頼性で特定することができない。

【0145】

本発明者らは初めて、Ｚスコアと、ｆｆ又はｓｄのいずれかとの関係の分析を提供した。低いｆｆ値の計算についてSeqffはDefragよりも信頼できないように見え、信頼できるＮＩＰＴを保証するために必要な最小ｆｆ値についての閾値を決定する難度が高まる。それとは逆に、Ｚスコアは、ｓｄにあまり影響されないように思われる。しかし、ＮＡについてのＺスコアがおよそ閾値５である場合、ｓｄの減少は、直ちにＺスコアの低下及び偽陰性の結果をもたらす。まとめると、本発明者らのデータは、ｆｆ、ｓｄ及びＺスコアの間の相互依存を強調している。

【0146】

臨床診療のための信頼できるＮＩＰＴについての信頼区間の評価
本発明者らは、ｓｄ、ｆｆ及びＺスコアの間の関係を見出すために決定木ベースのアプローチ（材料及び方法を参照されたい）を準備した。本発明者らは、ｆｆへの染色体特異的寄与に対応するＥ値を含ませることを決定した。それは、Ｅ値がサンプルの分類の助けになることができるからである。

【0147】

本発明者らは、GenomeMixerにより生成され、Ｚスコアによって分類されたＮＡ及びＳＡを使用して決定木にフィードした。ｆｆ、ｓｄ及びｅの組み合わせを基にサンプルの群を分離した。本発明者らは、各ツールに特異的なｆｆ、ｓｄ及びｅについての最小閾値を特定するために、Seqff又はDefrag aのいずれかによって推定されたｆｆを使用して決定木アプローチを実行した。図４Ａは、Seqffを使用した決定木アプローチの結果を報告する。本発明者らは、数レベルの分類を観察した。第１のレベルは、５６０万個のリードの判別閾値を用いてそれらのｓｄに基づきサンプルを分割する。第２レベルは、以前の判別閾値よりも高いｓｄを有するサンプルを、６．７％の判別値でそれらのｆｆを基に群分けする。レベル１における閾値よりも低いｓｄを有するサンプルを、０．６１の判別閾値でそれらのＥ値を基に群分けする。次に続くレベルは、ｓｄ、ｆｆ及びｅの異なる組み合わせに依存する。最終的に、パラメータの１４の組み合わせがサンプルを層別化することが見出された（図５Ａ、Ｂ、Ｃ）。Defrag aの場合も同じアプローチを使用した。

【0148】

サンプルの層別化を容易にするために、本発明者らは、これらの群の各々に属するサンプルに関連する信頼度スコアであるＲｓｃｏｒｅを定義した。Ｒｓｃｏｒｅは、Ｚスコアの計算に基づく異数性の予測がｆｆ、ｓｄ及びｅの値に関して信頼できる確率を表す。Ｒｓｃｏｒｅの値は、０～１である。使用しやすくするために、本発明者らは、Ｒｓｃｏｒｅが０．８～１である場合に「高度に信頼できる」、Ｒｓｃｏｒｅが０．２～０．８である場合に「信頼できる」、Ｒｓｃｏｒｅが０．２未満である場合に「信頼できない」の３つのカテゴリーを定義した。

【0149】

TRUST：信頼度スコアをＮＩＰＴの結果に帰するウェブアプリケーション
特定された信頼区間を、ネイティブな正倍数体（ＮＥ）、ＮＡ及びGenomeMixerにより生成されたＳＡを含む本発明者らのコホートに対して検査するために、本発明者らは、染色体特異的ＲｓｃｏｒｅをＮＩＰＴの結果に帰するウェブアプリケーションであるTRUST（トリソミー信頼度ユニークスコア検査）を開発した。

【0150】

最初に、本発明者らはＳＡに焦点を合わせた。本発明者らは、ｆｆ又はｓｄが低いほど、「信頼できない」のカテゴリーに属するＲｓｃｏｒｅのカウントが大きくなることを実証した。この結果は、ＮＩＰＴの信頼度におけるこれらの２つのパラメータの重要性を強化している。

【0151】

GenomeMixer_ffによって生成されたＳＡの場合、置換されたリードが６０％で症例の３％に「信頼できない」ＮＩＰＴアウトカムがもたらされる。リードの８５％超が置換された場合、これは５０％超に増加する（図５Ｂ）。対照的に、GenomeMixer_sdにより生成されたＳＡでは、リードの８５％が削減された場合、「信頼できない」スコアが得られるのは症例の２０％未満である（図５Ｃ）。まとめるとこの分析は、検査の信頼度がｆｆを推定するために使用されるツールとは無関係に低いｓｄよりも低いｆｆによって大きく影響されることを示している。

【0152】

Seqff tree（木）の場合、正倍数体及び異数体両方のネイティブなサンプルの大部分（ＮＥ１８の７２．５％及びＮＥ２１の７３．９％；ＮＡ１８の６２．５％及びＮＡ２１の９２％）が、最高のＲｓｃｏｒｅ（Ｒ≧０．８）を有する信頼区間に入る（図６Ａ）。より低いパーセントのＮＥサンプルが中間レベル（「信頼できる」）に分類される：Seqffの場合、ＮＥ１８の２３．７％及びＮＥ２１の２１．８％、Defrag aの場合、ＮＥ１８の１３．３％及びＮＥ２１の１３．３％。Seqff決定木において３つのＮＡ１８及び２つのＮＡ２１だけが「信頼できる」と分類される。これらの３つのＮＡ１８サンプルは低いｆｆを有する（１＿２４０：４．２５％、２＿４７７：４．９６％、１＿４０：６．４２％）。ＮＡ２１のサンプルは、両方ともDefrag a木でも「信頼できる」と分類される。

【0153】

この結果は、２つのサンプルのｓｄ：サンプル２＿１０１２及び１＿１２８についてそれぞれ８１６２９７２及び８８１９９５４が原因である。サンプル２＿１０１２はＴ１８も有し、Defrag a決定木で「信頼できる」と分類されるのに対し、これはSeqffの場合「高度に信頼できる」のアウトカムを有する。Ｒｓｃｏｒｅアウトカムにおける差異は、Seqff木と比較してDefrag a木であまり重要でない役割を果たすＥ値が原因である。重要なことに、両方の木における０個のＮＡサンプル、Seqffの場合、非常に少数のＮＥサンプル（４％未満）及びDefrag aの場合０個が「信頼できない」と分類される（図６Ｃ）。

【0154】

この結果は、古典的方法によって検出されない、問題のあるサンプルを発見することへのTRUSTの寄与を強調している。これは、欠損したパラメータを特定すること及びそれの特異的補正（すなわち、さらなるサンプルシークエンシング又は新規な血液検査）により偽陰性の結果の率を減少させることを助け、ＮＩＰＴの信頼度を改善する。本発明者らは、特に低いｆｆ及び／又は低いｓｄの場合にＥ値がサンプルの層別化を助けることができることを示した。より高いｓｄは低いｆｆを代償できることが示唆されている。本発明者らのデータは、低いｆｆ値の場合にこのパラメータを使用して検査の信頼度を改善できることを示した。

【0155】

胎児性別予測のための信頼できる戦略の特定
胎児の性別は参照として使用されるサンプルのセットを決定するためにいくつかのツールによって使用されるため、胎児の性別予測はＮＩＰＴパイプラインの重要なステップである。したがって、本発明者らは、シークエンシングデータから胎児の性別を予測するために信頼できる方法を確立する必要があった。本発明者らは、３７７個のサンプルを含むコホート１に関して、文献に記載された異なるツールを検査した。３７７個のうち２８個のサンプルで性別を確定することができなかった。それは、これらの胎児（ＮＩＰＴにより染色体異常を有しない）について妊娠アウトカムを得ることができなかったからである。性別のアウトカムが入手できなかったので、コホート２に対して分析を行わなかった。

【0156】

本発明者らは、本発明者らが「MagicY」と呼んだ新しい計算を定義した。本発明者らは、７つのＹ染色体特異的領域を選択し、これらの領域に属するリードの比率を推定した（表１）。２峰性分布が観察される。したがって、雄性サンプルと雌性サンプルとを分離するために、本発明者らは、コホート全体についてのこれらのカウントの分布に混合ガウスモデルを適用した。この方法は、それぞれ性別アウトカムと９７．１％の一致を与えた。

【0157】

本発明者らのアプローチを検証するために、本発明者らは、他の３つの利用可能な方法と比較した。第１に本発明者らは、それらの異数性検出パイプラインの一部としてBayindirらによって提唱された常染色体及びＸ染色体に基づく計算を使用した。Beek及び共同研究者らは、Bayindirがｆｆ計算のためのもっとも信頼できるツールのわけではないことを示唆した。本発明者らのデータは彼らと一致し、本発明者らは、ｆｆの計算がサンプルを性別により層別化することを観察した（ｐ値＜２．２１０^－１６、ウィルコクソン検定）。したがって、本発明者らは、性別予測のためにこの特性を使用することを決意した。次いで本発明者らは、混合ガウスモデルをBayindirの結果に適用し、性別のアウトカムと９４．３％の一致を得た。WisecondorXからのツールのスイートは、サンプル毎のリードの総数に対するＹ染色体上のリードの比率を計算し、続いて混合ガウスモデルを行うことによって胎児の性別を予測する。しかし、このモデルは、男性集団と女性集団とを分離するための閾値を見出すことができなかった。性別予測はWisecondorXのための必須のステップであるので、本発明者らは、この閾値を評価するために別の戦略を見出す必要があった。

【0158】

したがって、本発明者らは、WisecondorXによって得られたｙ比率カウントの、MagicYカウントから混合モデルによって推定された閾値を算出した。この手順は、妊娠アウトカムと８７．７％の一致を与えた。この一致がより低いことは、Ｙ染色体特異的リードの数え違いをもたらすＸ及びＹ染色体の偽常染色体領域が原因の可能性があった。Defrag ff推定ツールは、性別予測ステップを含む。Defragによるコホート１の分析は、性別アウトカムの９０．３％と一致するだけであった（補足の表２）。

【0159】

結論として、これらの分析は、本発明者らが、Ｙ染色体特異的領域に基づき新規なリードカウントを発生させ、続いてMagicYと呼ばれる混合ガウスモデルアプローチを行って、高い正確度で胎児の性別を推定できるようにした。

【0160】

臨床診療のための信頼できるＮＩＰＴについての信頼区間の評価
Defrag aと同じアプローチを使用した（図７を参照されたい）。５つのレベルを特定した。第１に、サンプルを１１％の閾値でそれらのｆｆを基に分割する。第２のレベルについて、ｆｆの識別値は９．４％である。続くレベルはｓｄによって規定される。ｆｆが９．４％よりも高い場合、１１００万リードのｓｄでサンプルを分離する。ｆｆが９．４％未満の場合、サンプルのｓｄを基にサンプルを８２０万リードの閾値でさらに群分けする。この最終レベルのサンプルを、それらのＥ値（閾値１．３）で、次いでそれらのｆｆ（閾値８．５％）でさらに群分けする。サンプルを層別化するためにパラメータの合計７つの組み合わせを決定した。この決定木は、以前のものよりも少ない組み合わせを有する。これは、分析されるサンプルの複雑度がより低いことによって説明することができた。Defrag aは、低いｓｄ及び低いｆｆの両方の場合にｆｆを推定することができず、男性についてだけの結果を提供する。注目すべきは、Ｅ値はDefrag a木にせいぜい第５のレベルで出現するのに対し、Seqffでは早くも第２レベルで重要な役割を果たす。これは、２つの木によってサンプルを異なって分類できることを示唆している。

【0161】

サンプルの層別化を促進するために、本発明者らは、これらの群の各々に属するサンプルに関連する信頼度スコア、Ｒｓｃｏｒｅを定義した。Ｒｓｃｏｒｅは、Ｚスコアの計算に基づく異数性の予測が、ｆｆ、ｓｄ及びｅの値に関して信頼できる確率を表す。Ｒｓｃｏｒｅの値は０～１である。使用しやすいように、本発明者らは、Ｒｓｃｏｒｅが０．８～１の場合に「高度に信頼できる」；Ｒｓｃｏｒｅの場合に「信頼できる」の３つのカテゴリーを定義した。

【図1A】