(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-08
(54)【発明の名称】胎児染色体異常を検出する方法およびシステム
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240201BHJP
【FI】
C12Q1/6869 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023532353
(86)(22)【出願日】2020-11-27
(85)【翻訳文提出日】2023-07-25
(86)【国際出願番号】 CN2020132331
(87)【国際公開番号】W WO2022110039
(87)【国際公開日】2022-06-02
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517110612
【氏名又は名称】ビージーアイ シェンチェン
【住所又は居所原語表記】Main building, Beishan Industrial Zone, Yantian Street, Yantian District, Shenzhen, Guangdong 518083, China
(74)【代理人】
【識別番号】100115255
【氏名又は名称】辻丸 光一郎
(74)【代理人】
【識別番号】100201732
【氏名又は名称】松縄 正登
(74)【代理人】
【識別番号】100154081
【氏名又は名称】伊佐治 創
(74)【代理人】
【識別番号】100227019
【氏名又は名称】安 修央
(72)【発明者】
【氏名】白 勇
(72)【発明者】
【氏名】黄 樹嘉
(72)【発明者】
【氏名】高 雅
(72)【発明者】
【氏名】金 ▲シン▼
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QA17
4B063QA19
4B063QQ02
4B063QQ42
4B063QR08
4B063QR42
4B063QR62
4B063QS34
4B063QX01
(57)【要約】
本発明は、バイオ技術の分野に関する。胎児染色体異常を検出する方法およびシステムを開示する。本方法は、(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程と、(4)前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程と、を含む。
【特許請求の範囲】
【請求項1】
以下の工程を含む、胎児染色体異常を検出する方法:
(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、
前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程;
(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程;
(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程;
(4)前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、
前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程。
【請求項2】
前記工程(1)において、前記無細胞核酸断片が、前記妊婦の末梢血、肝臓、および/または胎盤に由来する、請求項1に記載の方法。
【請求項3】
前記工程(1)において、前記無細胞核酸断片が、無細胞DNAである、請求項1または2に記載の方法。
【請求項4】
前記工程(1)において、前記シーケンシングデータが超低深度シーケンシングに由来し、
好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記工程(1)において、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、
好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記GC含量補正が以下のように行われる、請求項5に記載の方法:
a.長さlのフラグメントm個を前記ヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数N
iを以下の式により計算し、
【数1】
式中、
【数2】
であり、f(k)はフラグメントkのGC含量であり、
iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iのシーケンシングリードセグメントの数F
iを以下の式により計算し、
【数3】
式中、
c
k・II
i(f(k))はフラグメントkのGC含量を表し、
F
iは、GC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λ
iが以下の式により計算され、
【数4】
式中、
rは以下のように定義されるグローバルスケール因子であり、
【数5】
e.シーケンシングリードセグメントの数が以下の式により補正され、
【数6】
式中、
R
iは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
【請求項7】
前記工程(1)において、前記妊婦の前記臨床表現型特徴データが、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記工程(1)において、
前記妊婦の前記臨床表現型特徴データが、異常値処理、欠損値処理、および/またはヌル値処理される、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記工程(1)において、以下の記録:
a.x
age<10またはx
age>80;
b.x
GW<5またはx
GW>50;
c.x
height<40またはx
height>300;
d.x
weight<10またはx
weight>200;
が表示されると、前記妊婦のサンプルの表現型データが異常値として判定され、
これらの異常値がヌル値として設定される、請求項8に記載の方法。
【請求項10】
前記欠損値および前記ヌル値が、ミスフォレストアルゴリズムによってパディングされる、請求項8または9に記載の方法。
【請求項11】
前記工程(2)において、前記染色体が、第21染色体、第18染色体、第13染色体および/または性染色体である、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記工程(2)が、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせて、複数のスライディングウィンドウを取得する工程であって、
bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記工程(2)において、前記配列特徴行列が、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記塩基品質が、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む、請求項13に記載の方法。
【請求項15】
前記マッピング品質が、前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む、請求項13に記載の方法。
【請求項16】
前記工程(2)において、前記配列特徴行列が以下の式で表され、
【数7】
式中、hがスライディングウィンドウの数を表し、
wが単一のスライディングウィンドウ内の配列特徴の数を表し、
x
ijがi番目のスライディングウィンドウ内のj番目の配列固有値を表す、
請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記工程(3)において、前記配列特徴行列が正規化される、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記工程(3)において、前記配列特徴行列が、式(I)を使用して正規化され、
【数8】
式中、Z
(k)
i,jはサンプルkの正規化された配列特徴行列であり、
X
(k)
i,jはサンプルkのi番目のスライディングウィンドウ内のj番目の配列固有値を表し、
μ
i,jおよびσ
i,jは全てのサンプルのi番目のスライディングウィンドウ内のj番目の配列固有値の平均および標準偏差をそれぞれ表す、請求項17記載の方法。
【請求項19】
前記工程(3)において、前記訓練済み機械学習モデルがニューラルネットワークモデルまたはオートエンコーダモデルであり、
好ましくは、前記ニューラルネットワークモデルがディープニューラルネットワークモデルであり、
より好ましくは、前記ニューラルネットワークモデルが1D畳み込みに基づくディープニューラルネットワークモデルである、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記ディープニューラルネットワークモデルの構造が、
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第1の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第1のグローバル平均プーリング層と、
を含む、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記プレモジュールが、
(I)1D畳み込み層と、
(II)(I)に記載の1D畳み込み層と接続されたバッチ正規化層と、
(III)(II)に記載のバッチ正規化層と接続されたReLU活性化層と、
を含む、請求項20に記載の方法。
【請求項22】
前記コアモジュールが、同じ構造を持つ1つ以上の残差サブモジュールで構成され、
各残差モジュールの出力が、次の残差モジュールの入力である、
請求項20または21に記載の方法。
【請求項23】
前記残差サブモジュールが、
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層とを各々含む、前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールのプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと、
(D)(C)に記載のSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと接続された第1の追加層と、
(E)前記プレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層と、
を含む、請求項20~22のいずれか一項に記載の方法。
【請求項24】
前記Squeeze-Exciteモジュールが、
(a) (B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、
前記再形成層の出力特徴マップの大きさが1×fであり、
fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、
前記第1の完全接続層の出力ニューロンの数がf/r
SEであり、
fが1D畳み込みカーネルの数であり、r
SEが前記Squeez-Exciteモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、
前記第2の完全接続層の出力ニューロンの数がfであり、
fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(d)に記載の第2の完全接続層および(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された乗算層と、
を含む、請求項23に記載の方法。
【請求項25】
前記Spatial Squeeze-Exciteモジュールが、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層と、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層と、
を含む、請求項23または24に記載の方法。
【請求項26】
前記工程(4)において、前記複合特徴ベクトルが前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせることにより得られる、請求項1~25のいずれか一項に記載の方法。
【請求項27】
前記工程(4)において、前記複合特徴ベクトルxが以下の式によって正規化され、
【数9】
式中、x
’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、
x
iは前記複合特徴ベクトルxのi番目の配列固有値であり、
μ
iは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、
σ
iは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である、
請求項1~26のいずれか一項に記載の方法。
【請求項28】
前記工程(4)において、前記分類検出モデルがアンサンブル学習モデルである、請求項1~27のいずれか一項に記載の方法。
【請求項29】
前記アンサンブル学習モデルが、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、
好ましくは、前記アンサンブル学習モデルが、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である、請求項28に記載の方法。
【請求項30】
前記染色体異常が、トリソミー21症候群、トリソミー18症候群、トリソミー13症候群、5p症候群、染色体微小欠失および染色体微小重複のうちの少なくとも1つ以上を含む、請求項1に記載の方法。
【請求項31】
以下の工程を含む、胎児染色体異常を検出する分類検出モデルを構築する方法:
(1)複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程;
(2)前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程;
(3)前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程;
(4)前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程。
【請求項32】
前記妊婦各々の前記胎児染色体状態が、正常な二倍体、染色体異数体、部分的モノソミー症候群、染色体微小欠失および染色体微小重複の1つ以上であり、
好ましくは、前記染色体異数体が、トリソミー21症候群、トリソミー18症候群およびトリソミー13症候群の少なくとも1つ以上を含み、
好ましくは、前記部分的モノソミー症候群が5p症候群を含む、
請求項31に記載の方法。
【請求項33】
前記妊婦の人数が10人を超え、染色体異数性の胎児の数に対する正常な二倍体の胎児の数の比が1/2~2である、請求項32または33に記載の方法。
【請求項34】
前記工程(3)において、前記訓練データセットが、以下のように表され、
【数10】
【数11】
式中、Nは訓練サンプルの数を表し、Nは1以上の整数であり、
Z
(k)
i,jは訓練サンプルkの正規化された配列特徴行列であり、k∈[1,N]であり、iは1以上の整数であり、jは1以上の整数であり、
前記染色体異常が、21トリソミー症候群、18トリソミー症候群、13トリソミー症候群、5p症候群、染色体微小欠失および染色体微小重複のうちの少なくとも1つ以上を含む、請求項31~33のいずれか一項に記載の方法。
【請求項35】
以下のモジュールを含む、胎児染色体異常を検出するシステム:
検出対象の妊婦サンプルから無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、
前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦サンプルの前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュール;
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュール;
訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュール;
前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の前記胎児染色体異常状態を取得する分類検出モジュール。
【請求項36】
前記シーケンシングデータのリードを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む、請求項35に記載のシステム。
【請求項37】
前記データ取得モジュールにおいて、前記無細胞核酸断片が、前記妊婦の末梢血、肝臓、および/または胎盤に由来する、請求項35または36に記載のシステム。
【請求項38】
前記データ取得モジュールにおいて、前記無細胞核酸断片が無細胞DNAである、請求項35~37のいずれか一項に記載のシステム。
【請求項39】
前記データ取得モジュールにおいて、前記シーケンシングデータが超低深度シーケンシングに由来し、
好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である、請求項35~38のいずれか一項に記載のシステム。
【請求項40】
前記データ取得モジュールにおいて、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、
好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)、
請求項35~39のいずれか一項に記載のシステム。
【請求項41】
前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データが、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される、請求項35~40のいずれか一項に記載のシステム。
【請求項42】
前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データが、異常値処理、欠損値処理、および/またはヌル値処理される、請求項35~40のいずれか一項に記載のシステム。
【請求項43】
前記データ取得モジュールにおいて、以下の記録:
a.x
age<10またはx
age>80;
b.x
GW<5またはx
GW>50;
c.x
height<40またはx
height>300;
d.x
weight<10またはx
weight>200;
が表示されると、前記妊婦サンプルの表現型データが異常値として判定され、
これらの異常値がヌル値として設定される、請求項35~42のいずれか一項に記載のシステム。
【請求項44】
前記欠損値および前記ヌル値がミスフォレストアルゴリズムによってパディングされる、請求項42または43に記載のシステム。
【請求項45】
前記配列特徴行列生成モジュールにおいて、前記染色体が、第21染色体、第18染色体、第13染色体および/または性染色体である、請求項35~44のいずれか一項に記載のシステム。
【請求項46】
前記配列特徴行列生成モジュールにおいて、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、
bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を行う請求項35~45のいずれか一項に記載のシステム
【請求項47】
前記配列特徴行列生成モジュールにおいて、前記配列特徴行列が、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む、請求項35~46のいずれか一項に記載のシステム。
【請求項48】
前記塩基品質が、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む、請求項47にシステムの装置。
【請求項49】
前記マッピング品質が、前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む、請求項47に記載のシステム。
【請求項50】
前記配列特徴行列生成モジュールにおいて、前記配列特徴行列が以下の式で表され、
【数7】
式中、hはスライディングウィンドウの数を表し、
wは単一のスライディングウィンドウ内の配列特徴の数を表し、
x
ijはi番目のスライディングウィンドウ内のj番目の配列固有値を表す、
請求項35~49のいずれか一項に記載のシステム。
【請求項51】
前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列が正規化される、請求項35~50のいずれか一項に記載のシステム。
【請求項52】
前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列が、式(I)を使用して正規化され、
【数8】
式中、Z
(k)
i,jはサンプルkの正規化された配列特徴行列であり、
X
(k)
i,jはサンプルkのi番目のスライディングウィンドウにおけるj番目の配列固有値を表し、
μ
i,jおよびσ
i,jは全てのサンプルのi番目のスライディングウィンドウにおけるj番目の配列固有値の平均および標準偏差をそれぞれ表す、
請求項35~51のいずれか一項に記載のシステム。
【請求項53】
前記配列特徴ベクトル抽出モジュールにおいて、前記訓練済み機械学習モデルがニューラルネットワークモデルまたはオートエンコーダモデルであり、
好ましくは、前記ニューラルネットワークモデルが、ディープニューラルネットワークモデルであり、
より好ましくは、前記ニューラルネットワークモデルが1D畳み込みに基づくディープニューラルネットワークモデルである、
請求項35~52のいずれか一項に記載のシステム。
【請求項54】
前記分類検出モジュールにおいて、前記複合特徴ベクトルが前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせることにより得られる、請求項35~53のいずれか一項に記載のシステム。
【請求項55】
前記分類検出モジュールにおいて、前記複合特徴ベクトルxが以下の式によって正規化され、
【数9】
式中、x
’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、
x
iは前記複合特徴ベクトルxのi番目の配列固有値であり、
μ
iは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、
σ
iは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である、
請求項35~54のいずれか一項に記載のシステム。
【請求項56】
前記分類検出モジュールにおいて、前記分類検出モデルがアンサンブル学習モデルである、請求項35~55のいずれか一項に記載のシステム。
【請求項57】
前記アンサンブル学習モデルが、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、
好ましくは、前記アンサンブル学習モデルが、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である、請求項56に記載のシステム。
【請求項58】
以下のモジュールを含む、胎児染色体異常を検出する分類検出モデルを構築するシステム:
妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、
前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の胎児染色体状態が既知であり、前記妊婦の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュール;
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュール;
前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュール;
前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、複数の妊婦の前記複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する分類検出モジュール。
【請求項59】
前記シーケンシングデータのリードセグメントを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む、請求項58に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、バイオテクノロジーの分野に関し、より具体的には、胎児染色体異常を検出する方法およびシステムに関する。
【背景技術】
【0002】
染色体異数性疾患は、胎児における個々の染色体の数が増加または減少することによって正常な遺伝子発現に影響を及ぼす重篤な遺伝病の一種を指す。主に21トリソミー症候群、18トリソミー症候群、13トリソミー症候群、5p症候群などが含まれる。染色体異数性疾患は、死亡および身体障害のリスクが高く、効果的な治療法はない。現在、出生前スクリーニングおよび出生前診断が、染色体異数性の小児の出生率を低下させるために、主に使用されている。
【0003】
従来の染色体異数性検出は、超音波診断検査または血清学的スクリーニングに基づく非侵襲的出生前スクリーニング、および侵襲的サンプリングに基づく出生前診断を主に含む。超音波診断検査に基づく出生前スクリーニング法では、妊娠10~14週で胎児の項部透過像(NT)の厚さをチェックすることによって、胎児染色体が異常であるかどうかを判定することができる。NTが3mmより大きい場合、胎児の染色体異数性のリスクはより高いと一般的に考えられている。血清学に基づく出生前スクリーニングは、妊娠13~16週に母体血清中のαフェトプロテイン(AFP)およびヒト絨毛性ゴナドトロピン(HCG)の濃度を検出して、妊婦の出産予定日および年齢ならびに採血時の妊娠週数と組み合わせて、胎児染色体異常の危険因子を計算することによって実施される。侵襲的サンプリングに基づく出生前診断法は、一般的に、妊娠16~24週での羊水穿刺、臍帯穿刺または直接絨毛膜サンプリングによって胎児サンプルを取得して、胎児が染色体異常を有するかどうかを検出する。超音波診断検査と血清学的検査に基づく複合スクリーニング方法は、胎児染色体を直接的に検出するのではなく、胎児病の危険性を推定することであり、検出精度は50%~95%、偽陽性率は3%~7%である[1,2]。侵襲的サンプリングに基づく方法は、胎児の異数性を正確に直接診断することができる胎児染色体異常の検出および診断の「絶対的基準」である。しかしながら、この方法は一定の流産率(0.5%~2%)があり、また、B型肝炎などの感染性疾患に罹患している妊婦は、胎児に感染するリスクがあるため侵襲的サンプリング(羊水穿刺など)に適していない。加えて、羊水穿刺はB走査超音波検査の誘導の下で実施される必要があるが、これは長い時間を要し、操作者に高い技術的要件が必要とされる。
【0004】
母体末梢血における胎児の無細胞DNA(cfDNA)の発見、次世代シーケンシング(NGS)技術の成熟、シーケンシングコストの有意な低減、および情報分析技術の発展により、NGS技術に基づく非侵襲的出生前検査(NIPT)は、胎児染色体異数性疾患に最も広く使用される出生前スクリーニング方法になりつつある。NIPT技術では、母体末梢血を利用し、NGS技術によって母体末梢血(無細胞胎児DNAを含む)中の無細胞DNAの配列を決定し、バイオインフォマティクス解析と組み合わせて胎児遺伝情報を取得することにより、胎児が21トリソミー症候群(ダウン症候群)、18トリソミー症候群(エドワーズ症候群)、13トリソミー症候群(パタウ症候群)などの染色体異常疾患に罹患しているかどうかを検出することができる。
【0005】
NIPT技術は、感度と特異性(T21、T18、T13のそれぞれの感度は99%以上)が高く、偽陽性率が低いため(0.1%未満)、診療で広く使用されている[3-5]。NIPT技術は、血清学的スクリーニングの偽陽性率を低下させることができ、侵襲的な出生前診断処置(羊水穿刺および絨毛膜絨毛採取など)によって引き起こされる胎児の子宮内感染および流産のリスクを回避することができる。これは、妊娠初期および中期において安全性の高い非侵襲的出生前スクリーニング技術である。
【0006】
NGS技術に基づく従来のNIPTは、シーケンシングのリードカウントを計算し、ベースラインZ検定[6]を使用することによって胎児染色体異常を検出する。原理は以下の通りである。まず、妊娠12~22週の母体末梢血サンプルを採取し、NGS技術を用いて前記末梢血サンプル中の無細胞DNAをシーケンシングし、得られたシーケンシングリードセグメントをヒト参照ゲノム配列とアラインメントさせ(そして、リードカウントに対するGC含量を同時に補正し)、各染色体の一意マッピングリードの数をカウントし、サンプル中の染色体の一意マッピングリードカウントの総数に対するその割合を計算し、さらに、検出対象サンプル中の染色体のZスコアを検出対象サンプル中の染色体の一意マッピングリードの割合からコントロールサンプル(すなわち、正常サンプル)中の染色体の一意マッピングリードカウントの対応する割合の平均値を減算することによって取得する。その後、コントロールサンプル中の染色体の一意マッピングリードカウントの対応する割合の標準偏差で除算する。最後に、Zスコアを所与の閾値と比較して、Zスコアが前記閾値より大きい場合はトリソミー症候群のリスクが高いと判定し、そうでない場合はトリソミー症候群のリスクが低いと判定する。ここで、コントロール群の正常サンプル中の各染色体の一意マッピングリードカウントの平均値は、ベースライン値である。したがって、前記コントロール群中に存在する正常サンプルが多いほど、一意のマッピングリードの割合の平均値および標準偏差がより正確に得られ、結果として、Zスコアがより正確に得られる。ここで、Zスコアの前記所与の閾値は一般的に3であるが、これは、統計的に定義されている、すなわち、通常の期待値から99.9%の偏差である。
【0007】
異なる統計的仮説検定は、異なるベースライン値に応じて選択することができる。例えば、参考文献[7]において、相関分析およびT検定が採用され、サンプル中の固定サイズウィンドウ内の各染色体のリードカウントの中央値をこの染色体のリードカウントを表すベースライン値として使用し、サンプル中の染色体の総リードカウントの中央値を用いてサンプルのリードカウントを表し、各染色体のリードカウントをサンプルのリードカウントで除算して対応する染色体の正規化されたリードカウントを取得し、最後に、コントロール群中の全てのサンプルの各染色体の正規化されたリードカウントを用いて信頼区間を計算し、検出対象サンプルのスコアが前記信頼区間内に含まれない場合、前記サンプルは異常であると考えられる。別の例として、参考文献[8]において、目的の染色体(第21染色体など)と同程度のGC含量の参照染色体を既知の核型のサンプルにおいて選択し、前記参照染色体のリードカウントをZ検定のベースライン値として用いることが提案されており、これにより、既知の核型のサンプル中の目的の染色体異常の検出精度が最大限となる。ベースライン値となる前記参照染色体は、いわゆる内部染色体である。別の例として、非侵襲的胎児トリソミー(NIFTY)検出法が参考文献[9]において提案されている。染色体のリードカウントを正常コントロールサンプルのリードカウントと比較することに加えて、この方法は、無細胞胎児DNAの割合も考慮する。この方法では、2値仮説検定、対数尤度比、およびFCAPS2値分割アルゴリズムを用いて検出結果を判定する。NIFTYは、ゲノム全体に基づくアプローチである。この方法は大きな母集団によって高い精度で検証されているが、プロセスは比較的複雑である。リードカウントに基づく前述の統計的仮説検定(Z検定またはT検定)方法は、現在のNIPT解析の鍵である。
【0008】
リードカウントに基づく前述の統計的仮説検定(Z検定など)は、現在のところ主流のNIPT分析法であるが、これらの分析方法は以下のように明らかな制限がある。(1)現在のNIPT分析法は、個々のサンプルのシーケンシングリードセグメント分布に偏差をもたらして異なる状況におけるZ-スコア計算に変動をもたらすことにより、最終結果判断および関連する性能指標に影響を及ぼす可能性がある。(2)現在のNIPT分析法は、母体末梢血中の無細胞胎児DNAの割合に大きく依存しており、無細胞胎児DNAの割合が過度に低い(4%未満)と妊婦間の個体差が大きいために偽陰性検出のリスクが高まる可能性がある。(3)現在のNIPT分析法は、トリソミー21症候群の検出においては良好に機能するが、トリソミー18症候群およびトリソミー13症候群の検出におけるその精度は妊婦の個体差および異なる染色体におけるGC含量の偏差のために低い。(4)現在のNIPT分析法は、ダウン症候群に代表される一般的なトリソミー症候群を主に検出するが、ジョージ症候群、プラダー・ウィリー症候群などの総合的な発生率も高い染色体微小欠失症候群および微小重複症候群の検出に対する臨床効果は限定的である[14]。
【0009】
さらに、NIPTシーケンシング結果を用いた機械学習モデルに基づいて染色体異常を検出する新しい技術が提案されている。例えば、参考文献[10]において、サポートベクターマシン(SVM)を用いてNIPT決定を支持する方法が提案されている。この方法では、異なるベースライン値を計算することによって6つの異なるZスコア結果を取得し、サンプルの臨床適応も追加してSVMモデルを訓練して染色体異常を判定する。別の例として、参考文献[11]において、染色体異常を判定するベイズ法が考案されている。この方法は無細胞胎児DNA割合の事前情報を利用し、隠れマルコフモデル(HMM)を用いて集団レベルの干渉および母体のCNVを排除し、GC含量補正を行い、その後、Z検定の尤度値および性染色体含有量からの無細胞胎児DNA割合の推定事前値を組み合わせることにより、ベイズ因子を計算する。同時に、妊婦の年齢などの複数の危険因子を事前確率に組み込んでベイズ因子を補正し、Zスコアおよびベイズ因子を統合して染色体が異常であるかどうかを評価する。別の例として、公開特許公報[12]において、NIPTシーケンシング結果を用いて簡易畳み込みニューラルネットワークモデルを訓練し、染色体コピー数のバラツキや染色体異数性の異常を検出することが提案されている。例えば、公開特許公報[13]において、無細胞胎児DNAおよび無細胞母体DNAをまず末梢血サンプルから単離し、前記単離された無細胞DNAから各種一塩基変異(SNV)遺伝子座を増幅し、増幅産物をシーケンシングして、複数SNV遺伝子座の遺伝子シーケンシングデータまたは遺伝子配列データを決定することが提案されている。次いで、これらの遺伝子シーケンシングデータまたは遺伝子配列データに基づいて、人工ニューラルネットワークモデルを訓練して、個々の染色体の倍数正常態、組織癌状態、または臓器移植拒絶状態を検出する。
【0010】
また、NIPTシーケンシング結果を用いた機械学習モデルに基づいて染色体異常を検出する前述の方法は以下のような制限がある。これらの方法のほとんどはシーケンシングデータのリードカウントに基づいてモデル訓練のための望ましい特徴を算出し、これらの方法のほとんどはZスコアの算出に依存し、算出が複雑すぎる(例えば、参考文献[11])か、モデル設計が単純すぎる(例えば、特許公開公報[12])か、またはSNV遺伝子座に基づく遺伝子シーケンシングデータもしくは遺伝子配列データが必要であり(例えば、特許公開公報[13])、これは、臨床応用の見通し、モデルのスケーラビリティおよび検出精度を制限するため、検出精度を改善する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0011】
染色体異常、特に異数性の検出における従来技術に存在する問題に鑑み、染色体異常をより効果的に検出するために、本発明は、少なくとも、ディープハイブリッドモデルに基づく染色体異常の検出精度をさらに向上させることを目的とする。
【0012】
したがって、本発明の第1の態様の胎児染色体異常を検出する方法は、
(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程と、
(4)前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程と、
を含む。
【0013】
一実施形態では、前記工程(1)において、前記無細胞核酸断片は、前記妊婦の末梢血、肝臓、および/または胎盤に由来する。
【0014】
一実施形態では、前記工程(1)において、前記無細胞核酸断片は、無細胞DNAである。
【0015】
一実施形態では、前記工程(1)において、前記シーケンシングデータは超低深度シーケンシングに由来し、好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である。
【0016】
一実施形態では、前記工程(1)において、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)。
【0017】
一実施形態では、前記GC含量補正は、以下のように行われる:
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数N
iを以下の式により計算し、
【数1】
式中、
【数2】
であり、f(k)はフラグメントkのGC含量であり、iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iのシーケンシングリードセグメントの数F
iを以下の式により計算し、
【数3】
式中、
c
k・II
i(f(k))はフラグメントkのGC含量を表し、F
iはGC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λ
iが以下の式により計算され、
【数4】
式中、
rは以下のように定義されるグローバルスケール因子であり、
【数5】
e.シーケンシングリードセグメントの数が以下の式により補正され、
【数6】
式中、
R
iは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
【0018】
一実施形態では、前記工程(1)において、前記妊婦の前記臨床表現型特徴データは、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される。
【0019】
一実施形態では、前記工程(1)において、前記妊婦の前記臨床表現型特徴データは、異常値処理、欠損値処理、および/またはヌル値処理される。
【0020】
一実施形態では、前記工程(1)において、以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦サンプルの表現型データが異常値として判定され、これらの異常値がヌル値として設定される。
【0021】
一実施形態では、前記欠損値および前記ヌル値は、ミスフォレストアルゴリズムによってパディングされる。
【0022】
一実施形態では、前記工程(2)において、前記染色体は、第21染色体、第18染色体、第13染色体および/または性染色体である。
【0023】
一実施形態では、前記工程(2)は、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と
を含む。
【0024】
一実施形態では、前記工程(2)において、前記配列特徴行列は、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む。
【0025】
一実施形態では、前記塩基品質は、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む。
【0026】
一実施形態では、前記マッピング品質は、前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む。
【0027】
一実施形態では、前記工程(2)において、前記配列特徴行列は以下の式で表され、
【数7】
式中、hはスライディングウィンドウの数を表し、wは単一のスライディングウィンドウ内の配列特徴の数を表し、x
ijはi番目のスライディングウィンドウ内のj番目の配列固有値を表す。
【0028】
一実施形態では、前記工程(3)において、前記配列特徴行列は正規化される。
【0029】
一実施形態では、前記工程(3)において、前記配列特徴行列は、式(I)を使用して正規化され、
【数8】
式中、Z
(k)
i,jはサンプルkの正規化された配列特徴行列であり、X
(k)
i,jはサンプルkのi番目のスライディングウィンドウにおけるj番目の配列固有値を表し、μ
i,jおよびσ
i,jは全てのサンプルのi番目のスライディングウィンドウにおけるj番目の配列固有値の平均および標準偏差をそれぞれ表す。
【0030】
一実施形態では、前記工程(3)において、前記訓練済み機械学習モデルはニューラルネットワークモデルまたはオートエンコーダモデルであり、好ましくは、前記ニューラルネットワークモデルはディープニューラルネットワークモデルであり、より好ましくは、前記ニューラルネットワークモデルは1D畳み込みに基づくディープニューラルネットワークモデルである。
【0031】
一実施形態では、前記ディープニューラルネットワークモデルの構造は、
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第1の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第1のグローバル平均プーリング層と、
を含む。
【0032】
一実施形態では、前記プレモジュールは、
(I)1D畳み込み層と、
(II)(I)に記載の1D畳み込み層と接続されたバッチ正規化層と、
(III)(II)に記載のバッチ正規化層と接続されたReLU活性化層と、
を含む。
【0033】
一実施形態では、前記コアモジュールは、同じ構造を持つ1つ以上の残差サブモジュールで構成され、各残差モジュールの出力が、次の残差モジュールの入力である。
【0034】
一実施形態では、前記残差サブモジュールは、
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層を各々含む、前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールのプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュール(SEモジュール)および/またはSpatial Squeeze-Exciteモジュール(sSEモジュール)と、
(D)(C)に記載のSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと接続された第1の追加層(Add層)と、
(E)前記プレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層(Add層)と、
を含む。
【0035】
一実施形態では、前記SEモジュールは、
(a)(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、前記再形成層の出力特徴マップの大きさが1×fであり、fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、前記第1の完全接続層の出力ニューロンの数がf/rSEであり、fが1D畳み込みカーネルの数であり、rSEがSqueez-Exciteモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、前記第2の完全接続層の出力ニューロンの数がfであり、fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(d)に記載の第2の完全接続層および(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された乗算層と、
を含む。
【0036】
一実施形態では、前記sSEモジュールは、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層と、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層と、
を含む。
【0037】
一実施形態では、前記工程(4)において、前記複合特徴ベクトルは前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせることにより得られる。
【0038】
一実施形態では、前記工程(4)において、前記複合特徴ベクトルxは以下の式によって正規化され、
【数9】
式中、x
’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、x
iは前記複合特徴ベクトルxのi番目の配列固有値であり、μ
iは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σ
iは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
【0039】
一実施形態では、前記工程(4)において、前記分類検出モデルはアンサンブル学習モデルである。
【0040】
一実施形態では、前記アンサンブル学習モデルは、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、好ましくは、前記アンサンブル学習モデルは、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である。
【0041】
一実施形態では、前記染色体異常は、トリソミー21症候群、トリソミー18症候群、トリソミー13症候群、5p症候群、染色体微小欠失および染色体微小重複のうちの少なくとも1つ以上を含む。
【0042】
本発明の第2の態様の胎児染色体異常を検出するための分類検出モデルを構築する方法は、
(1)複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
(2)前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
(3)前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程と、
(4)前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程と、
を含む。
【0043】
一実施形態では、各妊婦の前記胎児染色体状態は、正常な二倍体、染色体異数体、部分的モノソミー症候群、染色体微小欠失および染色体微小重複の1つ以上である。
【0044】
一実施形態では、前記染色体異数体は、トリソミー21症候群、トリソミー18症候群およびトリソミー13症候群の少なくとも1つ以上を含む。
【0045】
一実施形態では、前記部分的モノソミー症候群は5p症候群を含む。
【0046】
一実施形態では、前記妊婦の人数は10人を超え、染色体異数性の胎児の数に対する正常な二倍体の胎児の数の比は1/2~2である。
【0047】
一実施形態では、前記工程(3)において、前記訓練データセットは、以下のように表され、
【数10】
【数11】
式中、Nは訓練サンプルの数を表し、Nは1以上の整数であり、Z
(k)
i,jは訓練サンプルkの正規化された配列特徴行列であり、k∈[1,N]であり、iは1以上の整数であり、jは1以上の整数である。
【0048】
前記訓練済み機械学習モデル以外は本発明の第1の態様と同じ技術的特徴を持つため、本発明の第1の態様の実施形態における定義も適用される。本態様では、前記訓練済み機械学習モデルは出力層を含む。例えば、前記ディープニューラルネットワークモデルの構造は前記第1のグローバル平均プーリング層の後の出力層を含み、前記出力層は、前記第1のグローバル平均プーリング層と接続され、前記染色体異常状態を出力するために使用される出力ニューロンの数が1の完全接続層である。
【0049】
本発明の第3の態様の胎児染色体異常を検出するシステムは、
検出対象の妊婦サンプルから無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦サンプルの前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の前記胎児染色体異常状態を取得する分類検出モジュールと、
を含む。
【0050】
一実施形態では、前記システムは、前記シーケンシングデータのリードを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む。
【0051】
一実施形態では、前記データ取得モジュールにおいて、前記無細胞核酸断片は前記妊婦の末梢血、肝臓、および/または胎盤に由来する。
【0052】
一実施形態では、前記データ取得モジュールにおいて、前記無細胞核酸断片は無細胞DNAである。
【0053】
一実施形態では、前記データ取得モジュールにおいて、前記シーケンシングデータは超低深度シーケンシングに由来し、好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である。
【0054】
一実施形態では、前記データ取得モジュールにおいて、前記リードセグメントを前記参照ゲノムにアラインメントさせて前記一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)。
【0055】
一実施形態では、前記GC含量補正は、以下のように行われる:
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数N
iを以下の式により計算し、
【数1】
式中、
【数2】
であり、f(k)はフラグメントkのGC含量であり、iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iのシーケンシングリードセグメントの数F
iを以下の式により計算し、
【数3】
式中、
c
k・II
i(f(k))はフラグメントkのGC含量を表し、F
iはGC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λ
iが以下の式により計算され、
【数4】
式中、
rは以下のように定義されるグローバルスケール因子であり、
【数5】
e.シーケンシングリードセグメントの数が以下の式により補正され、
【数6】
式中、
R
iは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
【0056】
一実施形態では、前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データは、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される。
【0057】
一実施形態では、前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データは異常値処理、欠損値処理、および/またはヌル値処理される。
【0058】
一実施形態では、前記データ取得モジュールにおいて、以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
【0059】
一実施形態では、前記欠損値および前記ヌル値はミスフォレストアルゴリズムによってパディングされる。
【0060】
一実施形態では、前記配列特徴行列生成モジュールにおいて、前記染色体は第21染色体、第18染色体、第13染色体および/または性染色体である。
【0061】
一実施形態では、前記配列特徴行列生成モジュールにおいて、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を行う。
【0062】
一実施形態では、前記配列特徴行列生成部において、前記配列特徴行列は前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む。
【0063】
一実施形態では、前記塩基品質は、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む。
【0064】
一実施形態では、前記マッピング品質は前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む。
【0065】
一実施形態では、前記配列特徴行列生成モジュールにおいて、前記配列特徴行列は以下の式で表され、
【数7】
式中、hはスライディングウィンドウの数を表し、wは単一のスライディングウィンドウ内の配列特徴の数を表し、x
ijはi番目のスライディングウィンドウ内のj番目の配列固有値を表す。
【0066】
一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列は正規化される。
【0067】
一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列は、式(I)を使用して正規化され、
【数8】
式中、Z
(k)
i,jはサンプルkの正規化された配列特徴行列であり、X
(k)
i,jはサンプルkのi番目のスライディングウィンドウにおけるj番目の配列固有値を表し、μ
i,jおよびσ
i,jは全てのサンプルのi番目のスライディングウィンドウにおけるj番目の配列固有値の平均および標準偏差をそれぞれ表す。
【0068】
一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記訓練済み機械学習モデルは、ニューラルネットワークモデルまたはオートエンコーダモデルであり、好ましくは、前記ニューラルネットワークモデルはディープニューラルネットワークモデルであり、より好ましくは、前記ニューラルネットワークモデルは
1D畳み込みに基づくディープニューラルネットワークモデルである。
【0069】
ディープニューラルネットワークモデルについては、本発明の第1の態様の実施形態における定義も適用される。
【0070】
一実施形態では、前記分類検出モジュールにおいて、前記複合特徴ベクトルは前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせることにより得られる。
【0071】
一実施形態において、前記分類検出モジュールにおいて、前記複合特徴ベクトルxは以下の式によって正規化され、
【数9】
式中、x
’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、x
iは前記複合特徴ベクトルxのi番目の配列固有値であり、μ
iは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σ
iは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
【0072】
一実施形態では、前記分類検出モジュールにおいて、前記分類検出モデルはアンサンブル学習モデルである。
【0073】
一実施形態では、前記アンサンブル学習モデルは、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、好ましくは、前記アンサンブル学習モデルは、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である。
【0074】
本発明の第4の態様の胎児染色体異常を検出するための分類検出モデルを構築するシステムは、
妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の胎児染色体状態が既知であり、前記妊婦の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記分類モデルを複数の妊婦の複合特徴ベクトルと胎児染色体状態とを用いて訓練して訓練済み分類検出モデルを取得する分類検出モジュールと、
を含む。
【0075】
一実施形態では、前記システムは、前記シーケンシングデータのリードセグメントを参照ゲノムにアラインメントさせて前記一意のマッピングリードを取得するアラインメントモジュールをさらに含む。
【0076】
前記訓練済み機械学習モデル以外は本発明の第3の態様と同じ技術的特徴を持つため、本発明の第3の態様の実施形態における定義も適用される。本態様では、前記訓練済み機械学習モデルは出力層を含む。例えば、前記ディープニューラルネットワークモデルの構造は前記第1のグローバル平均プーリング層の後の出力層を含み、前記出力層は、前記第1のグローバル平均プーリング層と接続され、前記染色体異常状態を出力するために使用される出力ニューロンの数が1の完全接続層である。本発明の方法およびモデルはZ検定の代わりにシーケンシングデータの革新的なアルゴリズムに基づいており、結果スコアが「グレー領域」に含まれる場合に閾値に応じて判断することが困難であるという臨床的問題を回避する。さらに、サンプルの数(例えば、サンプルのシーケンシングデータおよび妊婦の対応する表現型データ)が増加するにつれて、本発明によって提案されるハイブリッドモデルは、自動的にアップグレードされて最適化され、検出精度を改善することができる。
【図面の簡単な説明】
【0077】
【
図1】本発明の一実施形態に係るディープニューラルネットワークハイブリッドモデルに基づいて胎児染色体異常を検出する方法のフローチャートを示す。
【
図2】本発明の一実施形態に係るシーケンシングデータの特徴行列の計算を示す。
【
図3】本発明の一実施形態に係るディープニューラルネットワークの構造を示す。
【
図4】本発明の一実施形態に係るSqueeze-Exciteモジュール(SEモジュール)を示す。
【
図5】本発明の一実施形態に係るSpatial Squeeze-Excite(sSEモジュール)を示す。
【
図6】本発明の一実施形態に係る表現型データセットの欠損値パディングを示す。
【
図7】本発明の一実施形態に係るスタッキングに基づくアンサンブル学習モデルの構造を示す。
【
図8】本発明の一実施形態に係るスタッキングに基づくアンサンブル学習モデルの5倍交差検証訓練結果のROC曲線を示す。
【
図9】本発明の一実施形態に係る試験セットに基くモデルによって評価されたROC曲線を示す。
【
図10】本発明の一実施形態に係る試験セットに基づくモデルによって評価された適合率-再現率曲線を示す。
【
図11】本発明の一実施形態に係る決定閾値がデフォルト(すなわち、0.5)である場合の混同行列図を示す。
【
図12】本発明の一実施形態に係る閾値としての適合率および再現率の関数を示す。
【
図13】本発明の一実施形態に係る最小再現率が0.95である場合(すなわち、タイプIIエラーを制限する場合)の混同行列図を示す。
【発明を実施するための形態】
【0078】
本発明において、胎児染色体異常を検出する方法は胎児染色体異常を検出するシステムによって実施することができ、胎児染色体異常を検出する分類検出モデルを構築する方法は、胎児染色体異常を検出する検出モデルのシステムによって実施することができる。
【0079】
本発明では、前記データ取得モジュールを使用して、妊婦の無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する。前記シーケンシングデータは複数のリードセグメントを含み、前記妊婦の胎児染色体状態は既知(訓練サンプル)または未知(検出対象サンプル)であり、前記妊婦の前記臨床表現型特徴データは前記妊婦の表現型特徴ベクトルを形成する。前記データ取得モジュールは、上記データを受信するためのデータ受信モジュールを含み得る。前記データ取得モジュールは、シーケンシングのために妊婦の無細胞核酸を入力することによってシーケンシングデータを取得することができるシーケンシング装置をさらに含むことができる。シーケンシングはハイスループットシーケンシングおよび超低深度シーケンシングであり得、前記超低深度シーケンシングのシーケンシング深度は1×、0.1×、または0.01×である。前記無細胞核酸は、妊婦の末梢血、肝臓、および/または胎盤に由来し得る。前記妊婦の前記臨床表現型特徴および前記妊婦の前記胎児染色体状態(訓練サンプル)はデータベースにおいて利用可能であり、前記妊婦の前記胎児染色体状態は染色体異数性、微小欠失および/または微小重複であり得る。
【0080】
本発明では、前記アラインメントモジュールを使用して、前記リードセグメントを参照ゲノムにアラインメントして、前記一意のマッピングリードを取得する。前記配列を参照ゲノムにアラインメントさせるアプリケーションソフトウェアは、オープンソース開発者から、例えば、いくつかのオンラインウェブサイトから入手してもよいし自社で開発してもよい。
【0081】
本発明では、前記配列特徴行列生成モジュールを使用して参照ゲノムの染色体配列の少なくとも一部をウィンドウ分割してスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する。これは固定長を有するウィンドウを使用して前記染色体配列上をスライドさせることによって実施することができ、前記固定長を有するウィンドウは10k、100k、1M、または10Mなどであってもよい。ステップサイズは任意の長さとすることができ、一般的に、計算に便利なようにスライディングウィンドウの長さの半分として設定される。染色体配列の長さは、前記スライディングウィンドウの長さより長ければよく、10k、100k、1M、10M、または100M・・・染色体全体の長さまで可能である。染色体は、例えば、21トリソミー症候群の検出に対応する第21染色体、18トリソミー症候群の検出に対応する18番染色体、13トリソミー症候群の検出に対応する13番染色体、性染色体異常の検出に対応するXY染色体、および染色体微小欠失/微小重複の検出に対応する全ての常染色体といった標的染色体であり得る。それぞれのウィンドウについて、リード数、塩基品質(シーケンシングの精度の基準)、およびマッピング品質(前記参照ゲノムに対するリードセグメントのアラインメントの精度の基準であって、マッピング品質が高いほど、前記参照ゲノムに対する前記リードセグメントのアラインメント位置が一意になる)などを含むパラメータがカウントされるが、これはコンピュータソフトウエアを用いて行うことができる。
【0082】
本発明では、前記配列特徴抽出モジュールを使用して、染色体配列の配列特徴を抽出する。訓練データセットについて、前記配列特徴ベクトル生成モジュールは、前記妊婦の前記配列特徴行列および前記胎児染色体状態を使用して、前記訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の前記配列特徴ベクトルを抽出する。試験データについて、前記配列特徴ベクトル生成モジュールは、前記配列特徴行列を使用して試験データセットを構築し、ディープニューラルネットワークモデルなどの訓練済み機械学習モデルに入力して、前記染色体配列の前記配列特徴ベクトルを抽出する。
【0083】
本発明では、前記訓練データセットについて、前記アンサンブル学習モデルの訓練モジュールなどの分類検出モジュールを使用して、前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルならびに前記胎児染色体状態によって形成される複合特徴ベクトルによって分類検出モデルを訓練し、前記訓練済み分類検出モデルを取得する。
【0084】
前記試験データセットについて、前記分類検出モジュールを使用して、前記配列特徴ベクトルを前記妊婦の前記表現型特徴ベクトルと組み合わせて、複合特徴ベクトルを入力として形成し、前記訓練済み分類検出モデルを利用して染色体異常状態を検出する。
【0085】
本発明は、異数性、微小欠失または微小重複などの染色体異常を検出する完全に革新的な方法を提案する。従来の方法とは異なり、本発明は、リードセグメントの数およびZスコアに基づいて異数性を直接検出せず、データ前処理および特徴抽出選択の余計な作業を必要としない。代わりに、本発明は前記シーケンシングデータから生成された前記配列特徴行列から配列特徴ベクトルを自動的に抽出し、前記配列特徴ベクトルを前記妊婦の前記臨床表現型特徴と組み合わせ、前記分類検出モデルを使用して検出し、最終的に前記胎児染色体に遺伝的異常があるかどうかの予測結果を取得するための機械学習モデルを設計する。
【0086】
本発明では、前記機械学習モデルを使用して前記シーケンシングデータから前記配列特徴ベクトルを自動的に抽出することでNIPT全ゲノム配列特徴の従来の手動抽出の欠点を回避する。本発明の方法は前記シーケンシングデータ情報を十分にマイニングするだけでなく、妊婦の前記臨床表現型情報(モデルに追加できる表現型データ情報は出産年齢、妊娠週、身長、体重、BMI(肥満度指数)、出生前検査の生化学的検査結果、NT値などの超音波診断結果などを含む)を十分に利用し、抽出された配列特徴ベクトルを前記妊婦の表現型特徴ベクトルと組み合わせて、前記NIPTシーケンシングデータに含まれる豊富な特徴データ情報および前記妊婦の臨床表現型結果を十分にマイニングし、検出結果の信頼性および妥当性の高さを保証する。本発明の方法は、一般的なトリソミー症候群を検出するために使用することができるだけでなく、染色体コピー数のバラツキ、染色体微小欠失、染色体微小重複などの他の染色体欠損を検出するためにも使用することができる。
【0087】
本発明において、前記配列特徴ベクトルの抽出は、オートエンコーダネットワークまたはバリエーションオートエンコーダネットワーク等に基づくディープニューラルネットワークモデルを使用することによっても行うことができる。
【0088】
本発明において、スタッキングまたは多数決に基づくアンサンブル学習モデルは、染色体異常を検出するように訓練され、異なる分類器による異数性の発見が十分に利用されて異数性を発見する精度が大幅に改善される。
【0089】
本発明において、前記参照ゲノムは例えば、hg38、hg19などのヒトゲノムプロジェクトによって作製される正常な二倍体染色体を有するヒトゲノムのマップを指す。前記参照ゲノムは、1つの染色体または複数の染色体であってもよく、または染色体の一部であってもよい。
【実施例】
【0090】
以下、具体的な実施例により本発明をさらに説明する。ただし、本発明は実施例によって限定されるものではない。
【0091】
実施例1 検出モデルの構築例
【0092】
例示的な実施形態において、検出モデルを構築する例示的なモデル実施形態のプロセスおよび工程を以下に説明する。
【0093】
1.NIPTシーケンシングデータおよびアラインメント結果の取得
【0094】
ハイスループットシーケンシングプラットフォームBGIseq500を使用して、訓練サンプル、すなわち、妊婦の無細胞核酸断片をシーケンシングする(SE35を採用、シーケンシング深度:0.1×)。前記妊婦の胎児染色体状態は知られている。シーケンシングデータを参照ゲノムにアラインメントし、反復アラインメント配列をフィルタリングして、一意のマッピングリードを取得する。
【0095】
2.上記工程1で得られた一意のマッピングリードを前処理し、ゲノムの各カバレッジ領域の配列カバレッジ深度を、GC含量とシーケンシング深度との間の関係を通して再補正する。具体的なプロセスは以下の通りである(詳しくは参考文献
[15]参照)。
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体(第21染色体など)から無作為に選択し、
b.GC含量iのフラグメントの数N
iを以下の式により計算し、
【数1】
式中、
【数2】
であり、f(k)はフラグメントkのGC含量であり、iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iの一意のマッピングリードの数F
iを以下の式により計算し、
【数3】
式中、
c
k・II
i(f(k))はフラグメントkのGC含量を表し、F
iはGC含量iおよび前記フラグメントと同じ開始サイトを有する一意のマッピングリードの数を表し、
d.GC含量の観測値-期待値比率λ
iを以下の式により計算し、
【数4】
式中、
rは以下のように定義されるグローバルスケール因子であり、
【数5】
e.一意のマッピングリードの数を以下の式により補正し、
【数6】
式中、
R
iは補正後のGC含量iの一意のマッピングリードの数の期待値を表す。
【0096】
3.配列特徴行列の生成
【0097】
上記工程2の結果を使用して特徴行列を計算する。(
図2に示されるように)計算のプロセスは以下の通りである。長さbのスライディングウィンドウを使用して、開始部位から終了部位までの長さLの標的染色体をステップサイズtでスライドさせる。以下の特徴:
a.領域内のGC補正リードの数
b.領域内の塩基品質の平均
c.領域内の塩基品質の標準偏差(std)
d.領域内の塩基品質の歪度
e.領域内の塩基品質の尖度
f.領域内のマッピング品質の平均
g.領域内のマッピング品質の標準偏差(std)
h.領域内のマッピング品質の歪度
i.領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さbの領域に対して計算し、これにより、配列特徴行列を得る:
【数7】
式中、
hはスライディングウィンドウの数を表し、例えば、
【数12】
であり、
wは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、w=9
(すなわち、長さbの各スライディングウィンドウについて9つの異なる特徴が計算される)であり、
x
ijはi番目のスライディングウィンドウにおけるj番目の配列固有値を表す。
【0098】
塩基品質は、シーケンシング結果の精度を定量的に説明するためのものである。塩基品質の平均、標準偏差、歪度および尖度は、それぞれ、シーケンシングリードにおける全ての塩基品質の平均、標準偏差、歪度および尖度を指す。マップ品質は、参照ゲノム配列に対する所与のシーケンシングリードセグメントのアラインメントの信頼性を指し、マップ品質の平均、標準偏差、歪度および尖度はそれぞれ、所与のシーケンシングリードセグメントのマップ品質の平均、標準偏差、歪度および尖度を指す。
【0099】
4.ディープニューラルネットワークモデルの構築
【0100】
4.1 データセットの構築
【0101】
工程3の結果を使用して訓練セット
【数13】
を構築する。式中、Nはサンプルの数を表し、Nは1以上の整数であり、Z
(k)はサンプルkの正規化された配列特徴行列(以下、正規化された配列特徴行列と称する)であり、k∈[1,N]であり、以下のように定義され、
【数14】
式中、X
(k)
i,jは前記訓練セット中のサンプルkのi番目のスライディングウィンドウにおけるj番目の配列特徴ベクトルを表し、μ
i,jは前記訓練セット中のi番目のスライディングウィンドウにおけるj番目の配列特徴ベクトルの平均であり、σ
i,jは前記訓練セット中のi番目のスライディングウィンドウにおけるj番目の配列特徴ベクトルの標準偏差であり、iは1以上の整数であり、jは1以上の整数である。
【数11】
【0102】
4.2 ディープニューラルネットワークモデルの構築
【0103】
ディープニューラルネットワークモデルを構築し、その構造を
図3に示す。ディープニューラルネットワークモデルに関与する全ての畳み込み層は、1D畳み込み演算される。特に明記しない限り、1D畳み込みカーネル(すなわち、1Dフィルタ)のパラメータは同じであり、すなわち、前記1D畳み込みカーネルの数はfであり、前記1D畳み込みカーネルの大きさはkであり、前記1D畳み込み演算のステップサイズはsであり、前記1D畳み込みはL2正則化を使用し、正則化係数はr
L2であり、前記1D畳み込みカーネルの初期化関数がgであり、前記1D畳み込み演算の出力特徴マップの大きさは入力特徴マップの大きさと同じままになるように設定され、プーリングカーネルの大きさはpであり、プーリング工程大きさはp
sである。
【0104】
ディープニューラルネットワークモデルに関与するドロップアウト層の使用ドロップアウト比は同じであり、dと設定される。
【0105】
ディープニューラルネットワークモデルの構造は以下を含む。
4.2.1 入力層
入力層を使用して、サイズがh×wの正規化配列特徴行列Z
(k)を受信する。
4.2.2 プレモジュール
プレモジュールを前記入力層と接続して使用し、入力配列特徴行列の第1の畳み込みおよび活性化動作を実行して抽象表現特徴マップを取得する。前記モジュールは、1D畳み込み層と、前記1D畳み込み層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層とを含む。
4.2.3 コアモジュール
コアモジュールを、前記プレモジュールと接続して使用し、前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する。前記コアモジュールは、同じ構造を有する残差モジュールの3回の繰り返し操作で構成され、各残差モジュールの出力は、次の残差モジュールの入力である。各残差モジュールは
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層を含み、同じ構造を各々持つ、2回繰り返される前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールの第2のプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュール(SEモジュール)またはSpatial Squeeze-Exciteモジュール(sSEモジュール)と、
を含む。
まず、SEモジュールの減少速度をr
SEと設定する。
図4に示すように、前記SEモジュールの構造は、
(a)(B)に記載の第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、出力特徴マップの大きさが1×fであり、fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、その出力ニューロンの数がf/r
SEであり、fが1D畳み込みカーネルの数であり、r
SEが前記SEモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、その出力ニューロンの数がfであり、式中、fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(B)に記載の第1の1D平均プーリング層と(d)に記載の第2の完全接続層と接続された乗算層と、を含む(詳しくは参考文献
[16]参照)。
図5に示すように、sSEモジュールの構造は、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層、
(D)(C)に記載のSEモジュールおよびsSEモジュールと接続された第1の追加層(Add層)と、
(E)4.2.2に記載のプレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層(Add層)と、
を含む(詳しくは参考文献
[17]参照)。
上記(A)~(D)は、残差モジュールの左側の分岐であり、(E)は、残差モジュールの右側の分岐である。
4.2.4 ポストモジュール
ポストモジュールは、前記プレモジュールと同じ構造を有し、唯一の違いは、前記ポストモジュール内の1D畳み込みカーネルの数がn
outと設定されており、出力前にポストモジュールを使用して前記コアモジュールから前記特徴マップを特徴抽象化表現することである。
4.2.5 第1のグローバル平均プーリング層
第1のグローバル平均プーリング層は、前記ポストモジュールと接続して使用し、前記特徴抽象化表現の特徴マップをベクトル化する。
4.2.6 出力層
出力層は、前記第1のグローバル平均プーリング層と接続され、出力ニューロンの数が1の完全接続層であり、活性化関数は、染色体異常を出力するために使用されるシグモイド関数である。
【0106】
5.配列特徴ベクトルの計算
【0107】
訓練セットを使用して、工程4においてディープニューラルネットワークモデルを訓練する。前記サンプルの配列特徴ベクトルは、前記訓練済みディープニューラルネットワークモデルを使用して計算される。このプロセスは、以下のとおりである。
(1)上記4.1に従って各サンプルの正規化された配列特徴ベクトルを計算し
(2)(1)で得られた正規化された配列特徴行列を前記ディープニューラルネットワークモデルに入力して計算し、
(3)4.2.5に記載のディープニューラルネットワークモデルの第1のグローバル平均プーリング層の出力を、
【数15】
と定義される入力サンプルに対応する生成された配列特徴ベクトルseqとして保存する。式中、n
outは4.2.4に記載のポストモジュールで定義された1D畳み込みカーネルの数である。
【0108】
6.妊婦サンプルに対応する表現型結果の取得
【0109】
妊婦サンプルに対応する表現型結果を取得し、
【数16】
と定義される5つの特徴を含む初期表現型特徴ベクトルphe
initを構築する。式中、x
ageはサンプリング時の妊婦の年齢(歳)を表し、x
GWはサンプリング時の妊婦の妊娠週を表し、x
heightは妊婦の身長(cm)を表し、x
weightは妊婦の体重(kg)を表し、x
FFは妊婦の血漿中の無細胞胎児DNAの濃度を表す。
【0110】
7. 表現型データの前処理
【0111】
妊婦の表現型データセットは、異常値処理および欠損値またはヌル値処理を含む、前処理を実施される。
【0112】
(1)異常値処理
【0113】
以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
【0114】
(2)欠損値またはヌル値の処理
【0115】
表現型データ行列Pは、以下のように定義され、
【数17】
式中、(工程6で定義されるように)phe
i
initは前記訓練セット中のi番目のサンプルの表現型特徴ベクトルを表し、Nは前記訓練セット中のサンプルの数を表す。前記訓練セット中の前記サンプルは4.1に記載の訓練セットのサンプルと一致しているため、表現型データ行列PはサイズがN×Mの行列であり、Mは表現型特徴の数であり、M=5である。
【0116】
ミスフォレストアルゴリズムを使用して、ランダムフォレストに基づくノンパラメトリック欠損値パディングアルゴリズムである欠損値パディングを行う(詳しくは参考文献
[18]参照)。そのアルゴリズムは以下の通りである。
【表1】
【0117】
(3)BMIの計算
【0118】
欠損値パディング後の表現型結果を使用して、
【数18】
のように定義されるBMIを計算する。
【0119】
(4)(3)の結果を欠損値パディング後の表現型特徴ベクトルに加算して、最終的な表現型特徴ベクトルを取得する。
【数19】
【0120】
8.複合特徴ベクトルの生成
【0121】
工程5に記載の配列特徴ベクトルと工程7に記載の最終的な特徴ベクトルとを組み合わせて複合特徴ベクトルを取得する。
【数20】
【0122】
9.複合特徴ベクトルの正規化
【0123】
8.に記載の複合特徴ベクトルは以下の式によって正規化され、
【数9】
式中、x
’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、x
iは前記複合特徴ベクトルxのi番目の配列固有値であり、μ
iは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σ
iは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
【0124】
10.スタッキングに基づくアンサンブル学習モデルの構築
【0125】
工程9に記載の結果を使用して、
【数10】
【数11】
のように表される訓練セットを構築する。式中、Nは訓練サンプルの数を表し、Nは1以上の整数であり、Z
(k)
i,jは訓練サンプルkの正規化された配列特徴行列であり、k∈[1,N]であり、iは1以上の整数であり、jは1以上の整数であり、y=0は正常胎児染色体を表し、y=1は異常胎児染色体を表す。
【0126】
スタッキングに基づくアンサンブル訓練アルゴリズムを用いて異数性を予測する。そのアルゴリズムは以下の通りである(詳しくは参考文献
[19]参照)。
【表2】
【0127】
実施例2.染色体異常の検出例
【0128】
例示的な実施形態において、本発明は、非侵襲的出生前検査(NIPT)の核酸シーケンシング結果および妊婦の表現型データを一緒に使用して、遺伝的異常が胎児染色体に存在するかどうかを予測する、胎児染色体異常を検出する方法を提案する。具体的な実施形態では、胎児染色体異常を検出する方法のプロセスおよび工程を
図1に示し、具体的なプロセスを以下に説明する。
【0129】
1.NIPTシーケンシングデータおよびアラインメント結果の取得
【0130】
ハイスループットシーケンシングプラットフォームBGIseq500を使用して、検出対象サンプルのシーケンシングを行う(SE35を採用、シーケンシング深度:0.1×)。シーケンシングデータを参照ゲノムにアラインメントし、反復アラインメント配列をフィルタリングして、一意のマッピングリードを取得する。
【0131】
2.上記工程1で得られた一意のマッピングリードを前処理し、ゲノムの各カバレッジ領域の配列カバレッジ深度を、GC含量とシーケンシング深度との間の関係を通して再補正する。具体的なプロセスについては、実施例1を参照のこと。
【0132】
3.配列特徴行列の生成
【0133】
上記工程2の結果を使用して特徴行列を計算する。(
図2に示されるように)計算のプロセスは以下の通りである。長さbのウィンドウを使用して、開始部位から終了部位までの長さLの標的染色体を、ステップサイズtでスライドさせる。以下の特徴:
a.領域内のGC補正リードの数
b.領域内の塩基品質の平均
c.領域内の塩基品質の標準偏差(std)
d.領域内の塩基品質の歪度
e.領域内の塩基品質の尖度
f.領域内のマッピング品質の平均
g.領域内のマッピング品質の標準偏差(std)
h.領域内のマッピング品質の歪度
i.領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さbの領域に対して計算し、これにより、配列特徴行列を得る:
【数7】
式中、
hはスライディングウィンドウの数を表し、例えば、
【数12】
であり、
wは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、w=9(すなわち、長さbの各スライディングウィンドウについて9つの異なる特徴が計算される)であり、x
ijはi番目のスライディングウィンドウにおけるj番目の配列固有値を表す。
【0134】
塩基品質は、シーケンシング結果の精度を定量的に説明するためのものである。塩基品質の平均、標準偏差、歪度および尖度は、それぞれ、シーケンシングリードセグメントにおける全ての塩基品質の平均、標準偏差、歪度および尖度を指す。マップ品質は、参照ゲノム配列に対する所与のシーケンシングセグメントのアラインメントの信頼性を指し、マップ品質の平均、標準偏差、歪度および尖度はそれぞれ、所与のシーケンシングリードセグメントのマップ品質の平均、標準偏差、歪度および尖度を指す。
【0135】
4.実施例1における訓練済みディープニューラルネットワークモデルを使用してサンプルの配列特徴ベクトルを計算する。プロセスは以下の通りである:
(1)実施例1の4.1に従って前記サンプルの正規化された配列特徴行列を計算し
(2)(1)で得られた正規化された配列特徴行列をディープニューラルネットワークモデルに入力して計算し、
(3)実施例1の4.2.5に記載のディープニューラルネットワークモデルの第1のグローバル平均プーリング層の出力を、
【数15】
と定義されるサンプルに対応する生成された配列特徴ベクトルseqとして保存する。式中、n
outは4.2.4に記載のポストモジュールで定義された1D畳み込みカーネルの数である。
【0136】
5.検出対象の妊婦サンプルに対応する表現型結果の取得
【0137】
検出対象の妊婦サンプルに対応する表現型結果を取得し、
【数16】
と定義される5つの特徴を含む初期表現型特徴ベクトルphe
initを構築する。式中、x
ageはサンプリング時の妊婦の年齢(歳)を表し、x
GWはサンプリング時の妊婦の妊娠週を表し、x
heightは妊婦の身長(cm)を表し、x
weightは妊婦の体重(kg)を表し、x
FFは妊婦の血漿中の無細胞胎児DNAの濃度を表す。
【0138】
6.表現型データの異常値処理
【0139】
以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、検出対象の妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
【0140】
7.工程4に記載の配列特徴ベクトルと工程6に記載の最終的な特徴ベクトルとを組み合わせて複合特徴ベクトルを取得する。
【数20】
【0141】
8.複合特徴ベクトルの正規化
【0142】
7.に記載の複合特徴ベクトルは以下の式によって正規化され、
【数9】
式中、x
’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、x
iは前記複合特徴ベクトルxのi番目の配列固有値であり、μ
iは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σ
iは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
【0143】
9.実施例1のスタッキングに基づくアンサンブル学習モデルに合成特徴ベクトルを入力し、検出対象の妊婦の胎児染色体状態を取得する。
【0144】
実施例3.検証の例
【0145】
1.サンプル数
【0146】
本実施例では、陽性検体として「21トリソミー(T21)」のサンプルを1205検体使用し、陰性検体として正常染色体(二倍体)のサンプルを1600検体使用する。
【0147】
【0148】
2.実施例1の2.に記載の工程に従って、全ての陽性検体および陰性検体のシーケンシングデータを前処理する。ランダムサンプリングフラグメントの数はm=50000000であり、フラグメントはl=180である。
【0149】
3.実施例1の工程3に記載の工程に従って、全ての陽性検体および陰性検体の配列特徴行列を生成する。パラメータは、以下のように設定される。
第21染色体の長さ:L=46709983
スライディングウィンドウの長さ:b=1000000
スライディングのステップサイズ:t=500000
【0150】
したがって、各サンプルに対応する配列特徴行列は9×93の大きさ、すなわち、w=9、h=93で得られる。第21染色体の開始部分は参照ゲノム中にマッピング配列を持たないので、本実施例では配列特徴行列の最初の8列がフィルタリングされる、すなわち、実際に使用される配列特徴行列の大きさは9×85である。
【0151】
4.工程3の結果に基づいて、前記訓練セット中の対応するシーケンシングデータの特徴行列を使用して、前記ディープニューラルネットワークモデルを訓練する。
(1)上記実施例1の4.1に従って、訓練セットのシーケンシングデータの特徴行列を正規化し、正規化モデルを保存する。
(2)(1)に記載のディープニューラルネットワークモデルに従って、大きさが2524×85×9の入力テンソルを取得し、前記ディープニューラルネットワークモデルを訓練する。
(3)実施例1の4.2に記載のディープニューラルネットワークモデルに従って、前記ディープニューラルネットワークモデルを訓練し、前記ディープニューラルネットワークモデルのパラメータを以下のように設定する:
1D畳み込みカーネルの数:f=32であり、
1D畳み込みカーネルの大きさ:k=8であり、
1D畳み込み演算のステップサイズ:s=1であり、
1D畳み込みカーネルのl2の正則化係数:r
l2=0.0004であり、
1D畳み込みカーネルの初期化関数gは、参考文献
[20]に記載の「He正規化」初期化関数を使用し、
1D畳み込み演算の出力特徴マップの大きさは、入力特徴マップの大きさと同じであり、
プーリング・カーネルの大きさ:p=2であり、
プーリングのステップサイズ:p
s=2であり、
ドロップアウト層のドロップアウト比:r
d=0.5であり、
SEモジュールの下降速度:r
SE=16であり、
ポストモジュール内の1D畳み込みカーネルの数:n
out=8である。
本実施例は、Tensorflow(バージョン=1.12.2)およびkeras(バージョン=2.2.4)のGPUバージョンに基づいて実施される。表4-1から表4-5は、上述のパラメータに基づく、ディープニューラルネットワークモデルにおける、各層の操作、出力特徴マップの大きさ、およびネットワーク接続を示す。
【表4-1】
【表4-2】
【表4-3】
【表4-4】
【表4-5】
(4)前記訓練セット中のサンプルの80%を使用して前記ディープニューラルネットワークの訓練をし、20%を使用して検証し精度を計算する。
(5)前記ディープニューラルネットワークの訓練は、反復エポック=100およびサンプルバッチmini_batchの大きさ=64のように設定する。勾配降下の最適化アルゴリズムとしてAdamアルゴリズム(パラメータβ
1=0.9、β
2=0.999)を用い、初期訓練率を0.01に設定する。訓練プロセスでは、連続する2回の反復後に正解率が改善されない場合、訓練率を2倍に低減し(すなわち、0.5倍し)、10回の連続する反復後に正解率が改善されない場合、訓練を停止する。
(6)クラス重み係数を(機械訓練ライブラリscikit-learn(バージョン=0.22.2)においてcompute_class_weight()関数を使用してクラス重みを計算し、対応するクラスのサンプルにクラス重みを割り当てて)ディープニューラルネットワークモデルの訓練プロセスに導入する。
(7)訓練済みディープニューラルネットワークモデルを保存する。
【0152】
5.上記実施例1の工程5に従って配列特徴ベクトルを計算する。
(1)上記実施例1における工程3に従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルに対する配列特徴行列を計算し、
(2)4.1に記載の配列正規化モデルに従って、得られた配列正規化モデルを用いて、上記(1)で得られた配列特徴行列を正規化し、
(3)上記(2)の結果を、4で得られたディープニューラルネットワークモデルに入力し、前記モデルの出力層を前記グローバル平均プーリング層(すなわち、表4-5における65番目の層)に修正し、
(4)(3)のプロセスに従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルの配列特徴ベクトルを取得する。
【0153】
6.上記実施例1の工程7に従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルの表現型特徴を取得し、前記表現型特徴の異常値を処理する。
【0154】
7.上記実施例1の工程7に従って、前記訓練セット中の表現型特徴を欠損値パディングし、欠損値のパディングモデルを保存する。
【0155】
8.上記実施例1の工程7に従って、
図6に示すように、欠損値処理後の訓練セット中の表現型特徴についてBMIを計算する。
【0156】
9.上記実施例1の工程8に従って、前記訓練セット中の配列特徴ベクトルを対応するサンプルの表現型特徴ベクトルと組み合わせて複合特徴ベクトルを得る。
【0157】
10.上記実施例1の工程9に従って、訓練セット中の各サンプルの複合特徴ベクトルを正規化して正規化された特徴ベクトルを取得し、複合特徴ベクトルの正規化モデルを保存する。
【0158】
11.上記工程7~10のプロセスに従って、前記欠損値の保存されたパディングモデルを使用して前記試験セット中の各サンプルの表現型特徴の欠損値パディングを行い、前記試験セットの配列特徴ベクトルを対応するサンプルの表現型特徴ベクトルと組み合わせて、前記試験セットの複合特徴ベクトルを取得し、保存した前記複合特徴ベクトルの正規化モデルを使用して前記試験セット中の複合特徴ベクトルを正規化する。
【0159】
12.
図7に示すように、上記工程10で取得した訓練セットの正規化された特徴ベクトルを使用して、スタッキングに基づいてアンサンブル学習モデルを訓練する。本実施例はscikit-learn(バージョン=0.22.2)機械訓練ライブラリに基づいて実施されるが、クラス重み係数はそれぞれのベース分類器モデルおよび最終メタ分類器モデルに導入され、パラメータは別段の指定がない場合、デフォルトとして設定される。
(1)上記実施例1の工程10に従い、実施例で使用されるベース分類器は、
・C=0.5、カーネル=「rbf」のパラメータを持つSVC、
・ν=0.25、カーネル=「rbf」のパラメータを持つν-svc、
・ガウシアンNB(ガウシアン単純ベイズモデル)、
・n_estimators=100、criterion=「gini」、max_depth=5、min_samples_leaf=1およびmin_samples_split=2のパラメータを持つランダムフォレスト分類器、
・n_estimators=100、min_child_weight=1、gamma=0.1、colsample_bytree=0.8、subsample=0.7、reg_alpha=0.01、max_depth=5、learning_rate=0.05のパラメータを持つXGB分類器、
・C=0.5のパラメータを持つロジスティック回帰、
を含む。
(2)実施例1の工程10に従い、最終メタ分類器は、エクストラツリー分類器(極めてランダム化されたツリー分類器)である。この分類器に関与するパラメータは、それぞれ、n_estimators=110、max_depth=6、min_samples_split=3、およびmin_samples_leaf=1と設定される。
(3)スタッキングに基づくアンサンブル学習モデルに対して、5倍交差検証訓練を行い、その結果を
図8に示す。これは、5倍交差検証訓練を用いて前記モデルを訓練することによって得られた平均AUCが0.96であることを示す。
【0160】
13.工程12に記載のスタッキングに基づいて訓練済みアンサンブル学習モデルを、前記試験セットを使用して検証する。
(1)試験結果のROC曲線を
図9に示す。AUC=0.96である。
(2)試験結果の適合率-再現率曲線を
図10に示す。AP=0.95である。
(3)デフォルトの決定閾値(すなわち、0.5)での混同行列を
図11に示す。再現率および適合率はそれぞれ、0.83および0.89である。
(4)判定閾値としての適合率と再現率の関数を
図12に示す。
(5)最小再現率を0.95に設定する(すなわち、タイプIIエラーを制限する)。得られた結果を
図12に示す。再現率および適合率はそれぞれ0.96および0.70である。
【0161】
本発明は、機械学習モデル(ディープニューラルネットワークなど)を使用してNIPTシーケンシングデータの配列特徴ベクトルを抽出し、前記配列特徴ベクトル(リードカウント、塩基品質、およびマッピング品質を含むが、これらに限定されない特徴)を妊婦の表現型特徴ベクトル(出産年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、およびNT値などの超音波診断結果を含むが、これらに限定されない妊婦の表現型特徴)と組み合わせてベクトル組み合わせを形成し、スタッキングに基づくアンサンブル学習モデルなどの分類モデルを使用して、最終的な予測異数性を取得することを提案する。本発明において、前記配列特徴ベクトルの抽出は本明細書で使用される方法に限定されず、オートエンコーダネットワークまたはバリエーションオートエンコーダネットワークを含むがこれらに限定されない方法を使用することもできる。本発明によって提案されるモデル構造はハイブリッドモデルであり、すなわち、モデルは、2つの段階を含む。第1の段階では、(ディープニューラルネットワークなどの)機械学習モデルを使用して、前記配列特徴ベクトルを計算する。第2の段階では、分類モデル(スタッキングに基づくアンサンブル学習モデルなど)を使用して、配列特徴ベクトルと表現型特徴ベクトルの組合せを用いて異数性を予測する。多数決に基づくモデルなどの他のアンサンブル学習モデルも使用することができる。
【0162】
他の畳み込みニューラルネットワークと比較して、本発明の実施例で使用される検証された高度なディープニューラルネットワークモデルは、ネットワーク設計およびアーキテクチャに関する以下の特徴を有する。本発明の実施例で使用されるディープニューラルネットワークモデルは1D畳み込みモデルに基づくディープニューラルネットワークモデルであり、本発明の実施例で使用されるディープニューラルネットワークモデルは残差ネットワークに基づくネットワークモデルであり、Squeeze-ExciteネットワークのSEモジュールは本発明の実施例で使用されるディープニューラルネットワークモデルに導入される。これらの設計に基づいて、本発明の実施例で使用されるニューラルネットワークモデルはより多くの層を有し(実施例3参照)、訓練モデルのプロセスにおける勾配消失および過剰適合のリスクを効果的に低減し、安定性を改善するため、モデル予測結果の精度を効果的に改善する。
【0163】
本発明は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体として実施することができ、本発明の方法を実施する工程は、コンピュータプログラムがプロセッサによって実行されるときに実行される。一例として、コンピュータプログラムがネットワークによって結合されたいくつかのコンピュータ装置またはプロセッサに分散され、その結果、コンピュータプログラムは、1つ以上のコンピュータ装置またはプロセッサによって分散された形で記憶され、アクセスされ、実行される。単一の工程/操作、または2つ以上の工程/操作は、単一のコンピュータ装置もしくはプロセッサによって、または2つ以上のコンピュータ装置もしくはプロセッサによって実行され得る。1つ以上の工程/操作は1つ以上のコンピュータ装置またはプロセッサによって実行され得、1つ以上の他の工程/操作は1つ以上の他のコンピュータ装置またはプロセッサによって実行され得る。1つ以上のコンピュータ装置またはプロセッサは、単一の工程/操作、または2つ以上の工程/操作を実行することができる。
【0164】
当業者は、本発明の胎児染色体異常を検出する方法における工程の分割および順序が単なる例示であり、限定するものではなく、添付の特許請求の範囲に記載される本発明の技術的思想または技術的範囲およびその同等技術的解決策から逸脱することなく、削除、付加、置換、変更および変形が、当業者によって行われ得ることを理解するであろう。本発明の実施形態の技術的特徴は任意に組み合わせることができるが、説明を簡潔にするために、上記実施形態における技術的特徴の全ての可能な組み合わせが記載されているわけではない。ただし、これらの技術的特徴の組合せに矛盾がない場合には、本明細書の範囲に属するものとする。
【0165】
例示的な実施形態を参照して本発明を説明してきたが、本発明は上記の実施形態の構成および方法に限定されないことを理解されたい。その代わりに、本発明は、様々な変更および同等の構成を包含することが意図される。加えて、本発明において開示される様々な要素および方法工程は様々な例示的な組合せおよび構成で示されるが、より多いまたはより少ない要素または方法を含む他の組合せも、本発明の範囲内に含まれる。
参考文献:
[1] Evans, Mark I., Stephanie Andriole, and Shara M. Evans. "Genetics: update on prenatal screening and diagnosis." Obstetrics and Gynecology Clinics 42.2 (2015): 193-208.
[2] Norwitz, Errol R., and Brynn Levy. "Noninvasive prenatal testing: the future is now." Reviews in obstetrics and gynecology 6.2 (2013): 48.
[3] Norton, Mary E., et al. "Cell-free DNA analysis for noninvasive examination of trisomy." New England Journal of Medicine 372.17 (2015): 1589-1597.
[4] Langlois, Sylvie, et al. "Current status in non-invasive prenatal detection of Down syndrome, trisomy 18, and trisomy 13 using cell-free DNA in maternal plasma." Journal of Obstetrics and Gynaecology Canada 35.2 (2013): 177-181.
[5] Allyse, Megan, et al. "Non-invasive prenatal testing: a review of international implementation and challenges." International journal of women's health 7 (2015): 113.
[6] Chiu, Rossa WK, et al. "Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma." Proceedings of the National Academy of Sciences 105.51 (2008): 20458-20463.
[7] Fan, H. Christina, et al. "Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood." Proceedings of the National Academy of Sciences 105.42 (2008): 16266-16271.
[8] Lau, Tze Kin, et al. "Noninvasive prenatal diagnosis of common fetal chromosomal aneuploidies by maternal plasma DNA sequencing." The Journal of Maternal-Fetal & Neonatal Medicine 25.8 (2012): 1370-1374.
[9] Jiang, Fuman, et al. "Noninvasive Fetal Trisomy (NIFTY) test: an advanced noninvasive prenatal diagnosis methodology for fetal autosomal and sex chromosomal aneuploidies." BMC medical genomics 5.1 (2012): 57.
[10] Yang, Jianfeng, Xiaofan Ding, and Weidong Zhu. "Improving the calling of non-invasive prenatal testing on 13-/18-/21-trisomy by support vector machine discrimination." BioRxiv (2017): 216689.
[11] Xu, Hanli, et al. "Informative priors on fetal fraction increase power of the noninvasive prenatal screen." Genetics in Medicine 20.8 (2018): 817-824.
[12] Ehrich, Mathias, et al. "Deep learning-based methods, devices, and systems for prenatal testing", Publication number: WO2019191319A1, Filing Date: 27 March 2019.
[13] Egilsson, Agust, et al. "Methods and systems for calling ploidy status using a neural network". Publication number: WO2020018522A1, Filing date: 16 July 2019.
[14] Petersen, Andrea K., et al. "Positive predictive value estimates for cell-free noninvasive prenatal screening from data of a large referral genetic diagnostic laboratory." American journal of obstetrics and gynecology 217.6 (2017): 691-e1.
[15] Benjamini, Yuval, and Terence P. Speed. "Summarizing and correcting the GC content bias in high-throughput sequencing." Nucleic acids research 40.10 (2012): e72-e72.
[16] Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[17] Roy, Abhijit Guha, Nassir Navab, and Christian Wachinger. "Concurrent spatial and channel ‘squeeze & excitation’in fully convolutional networks." International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2018.
[18] Stekhoven, Daniel J., and Peter Buhlmann. "MissForest-non-parametric missing value imputation for mixed-type data." Bioinformatics 28.1 (2012): 112-118.
[19] Tang, J., S. Alelyani, and H. Liu. "Data Classification: Algorithms and Applications." Data Mining and Knowledge Discovery Series, CRC Press (2015): pp. 498-500.
[20] He, Kaiming, et al. "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification." Proceedings of the IEEE international conference on computer vision. 2015.
【手続補正書】
【提出日】2024-01-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
以下の工程を含む、胎児染色体異常を検出する方法:
(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、
前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程;
(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程;
(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程;
(4)前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、
前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程。
【請求項2】
前記工程(1)において、前記無細胞核酸断片が、前記妊婦の末梢血、肝臓、および/または胎盤に由来
し、
前記無細胞核酸断片が、無細胞DNAである、請求項1に記載の方法。
【請求項3】
前記工程(1)において、前記シーケンシングデータが超低深度シーケンシングに由来
する、請求項1
または2に記載の方法。
【請求項4】
前記工程(1)において、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得
し、
後続の工程が前記一意のマッピングリードを用いて実行され
る、請求項1~
3のいずれか一項に記載の方法。
【請求項5】
前記リードセグメントがGC含量により補正され、
前記GC含量補正が以下のように行われる、請求項
4に記載の方法:
a.長さlのフラグメントm個を前記ヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数N
iを以下の式により計算し、
【数1】
式中、
【数2】
であり、f(k)はフラグメントkのGC含量であり、
iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iのシーケンシングリードセグメントの数F
iを以下の式により計算し、
【数3】
式中、
c
k・II
i(f(k))はフラグメントkのGC含量を表し、
F
iは、GC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λ
iが以下の式により計算され、
【数4】
式中、
rは以下のように定義されるグローバルスケール因子であり、
【数5】
e.シーケンシングリードセグメントの数が以下の式により補正され、
【数6】
式中、
R
iは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
【請求項6】
前記工程(1)において、前記妊婦の前記臨床表現型特徴データが、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される、請求項1~
5のいずれか一項に記載の方法。
【請求項7】
前記工程(1)において、
前記妊婦の前記臨床表現型特徴データが、異常値処理、欠損値処理、および/またはヌル値処理され
、
前記欠損値および前記ヌル値が、ミスフォレストアルゴリズムによってパディングされ、
以下の記録:
a.x
age
<10またはx
age
>80;
b.x
GW
<5またはx
GW
>50;
c.x
height
<40またはx
height
>300;
d.x
weight
<10またはx
weight
>200;
が表示されると、前記妊婦のサンプルの表現型データが異常値として判定され、
これらの異常値がヌル値として設定される、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記工程(2)が、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせて、複数のスライディングウィンドウを取得する工程であって、
bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を含む、請求項1~
7のいずれか一項に記載の方法。
【請求項9】
前記工程(2)において、前記配列特徴行列が、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む、請求項1~
8のいずれか一項に記載の方法。
【請求項10】
前記工程(2)において、前記配列特徴行列が以下の式で表され、
【数7】
式中、hがスライディングウィンドウの数を表し、
wが単一のスライディングウィンドウ内の配列特徴の数を表し、
x
ijがi番目のスライディングウィンドウ内のj番目の配列固有値を表す、
請求項1~
9のいずれか一項に記載の方法。
【請求項11】
前記工程(3)において、前記配列特徴行列が正規化され
、
前記配列特徴行列が、式(I)を使用して正規化され、
【数8】
式中、Z
(k)
i,j
はサンプルkの正規化された配列特徴行列であり、
X
(k)
i,j
はサンプルkのi番目のスライディングウィンドウにおけるj番目の配列固有値を表し、
μ
i,j
およびσ
i,j
は全てのサンプルのi番目のスライディングウィンドウ内のj番目の配列固有値の平均および標準偏差をそれぞれ表す、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記工程(3)において、前記訓練済み機械学習モデルがニューラルネットワークモデルまたはオートエンコーダモデル
である、請求項1~
11のいずれか一項に記載の方法。
【請求項13】
前記ニューラルネットワークモデルがディープニューラルネットワークモデルであり、
前記ディープニューラルネットワークモデルの構造が、
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第1の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第1のグローバル平均プーリング層と、
を含む、請求項
12に記載の方法。
【請求項14】
前記プレモジュールが、
(I)1D畳み込み層と、
(II)(I)に記載の1D畳み込み層と接続されたバッチ正規化層と、
(III)(II)に記載のバッチ正規化層と接続されたReLU活性化層と、
を含む、請求項
13に記載の方法。
【請求項15】
前記コアモジュールが、同じ構造を持つ1つ以上の残差サブモジュールで構成され、
各残差モジュールの出力が、次の残差モジュールの入力であ
り、
前記残差サブモジュールが、
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層とを各々含む、前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールのプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと、
(D)(C)に記載のSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと接続された第1の追加層と、
(E)前記プレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層と、
を含む、請求項13または14に記載の方法。
【請求項16】
前記Squeeze-Exciteモジュールが、
(a) (B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、
前記再形成層の出力特徴マップの大きさが1×fであり、
fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、
前記第1の完全接続層の出力ニューロンの数がf/r
SEであり、
fが1D畳み込みカーネルの数であり、r
SEが前記Squeez-Exciteモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、
前記第2の完全接続層の出力ニューロンの数がfであり、
fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(d)に記載の第2の完全接続層および(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された乗算層と、
を含む、請求項
15に記載の方法。
【請求項17】
前記Spatial Squeeze-Exciteモジュールが、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層と、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層と、
を含む、請求項
15または
16に記載の方法。
【請求項18】
前記工程(4)において、前記複合特徴ベクトルが前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせることにより得られる、請求項1~
17のいずれか一項に記載の方法。
【請求項19】
前記工程(4)において、前記複合特徴ベクトルxが以下の式によって正規化され、
【数9】
式中、x
’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、
x
iは前記複合特徴ベクトルxのi番目の配列固有値であり、
μ
iは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、
σ
iは前記複合特徴ベクトルxのi番目の配列固有値の基準偏差である、
請求項1~
18のいずれか一項に記載の方法。
【請求項20】
前記工程(4)において、前記分類検出モデルがアンサンブル学習モデルであ
り、前記アンサンブル学習モデルが、スタッキングまたは多数決に基づくアンサンブル学習モデルである、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記染色体異常が、トリソミー21症候群、トリソミー18症候群、トリソミー13症候群、5p症候群、染色体微小欠失および染色体微小重複のうちの少なくとも1つ以上を含む、請求項1に記載の方法。
【請求項22】
以下の工程を含む、胎児染色体異常を検出する分類検出モデルを構築する方法:
(1)複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程;
(2)前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程;
(3)前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程;
(4)前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程。
【請求項23】
前記妊婦各々の前記胎児染色体状態が、正常な二倍体、染色体異数体、部分的モノソミー症候群、染色体微小欠失および染色体微小重複の1つ以上で
ある、
請求項
22に記載の方法。
【請求項24】
前記妊婦の人数が10人を超え、染色体異数性の胎児の数に対する正常な二倍体の胎児の数の比が1/2~2である、請求項
22または
23に記載の方法。
【請求項25】
前記工程(3)において、前記訓練データセットが、以下のように表され、
【数10】
【数11】
式中、Nは訓練サンプルの数を表し、Nは1以上の整数であり、
Z
(k)
i,jは訓練サンプルkの正規化された配列特徴行列であり、k∈[1,N]であり、iは1以上の整数であり、jは1以上の整数であり、
前記染色体異常が、21トリソミー症候群、18トリソミー症候群、13トリソミー症候群、5p症候群、染色体微小欠失および染色体微小重複のうちの少なくとも1つ以上を含む、請求項
22~
24のいずれか一項に記載の方法。
【国際調査報告】