(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-05
(45)【発行日】2024-04-15
(54)【発明の名称】染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
(51)【国際特許分類】
G16B 20/10 20190101AFI20240408BHJP
C12Q 1/68 20180101ALI20240408BHJP
【FI】
G16B20/10
C12Q1/68
(21)【出願番号】P 2021569370
(86)(22)【出願日】2019-12-31
(86)【国際出願番号】 CN2019130625
(87)【国際公開番号】W WO2021134513
(87)【国際公開日】2021-07-08
【審査請求日】2022-12-23
(73)【特許権者】
【識別番号】521508874
【氏名又は名称】ビージーアイ、クリニカル、ラボラトリーズ、(シェンチェン)、カンパニー、リミテッド
【氏名又は名称原語表記】BGI CLINICAL LABORATORIES (SHENZHEN) CO., LTD.
(74)【代理人】
【識別番号】100091487
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100120031
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100118843
【氏名又は名称】赤岡 明
(74)【代理人】
【識別番号】100213654
【氏名又は名称】成瀬 晃樹
(72)【発明者】
【氏名】チャン、ホンユン
(72)【発明者】
【氏名】ユアン、ユーイン
(72)【発明者】
【氏名】チャイ、シアンホア
(72)【発明者】
【氏名】チョウ、リーチュン
(72)【発明者】
【氏名】ワン、モンチエ
(72)【発明者】
【氏名】リウ、チアン
(72)【発明者】
【氏名】イン、イェー
【審査官】岡北 有平
(56)【参考文献】
【文献】国際公開第2017/093561(WO,A1)
【文献】国際公開第2018/132400(WO,A1)
【文献】国際公開第2019/020180(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00ー99/00
C12Q 1/68
(57)【特許請求の範囲】
【請求項1】
コンピュータ・プログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムがプロセッサによって実行されたとき、方法のステップが実施されることを特徴とするコンピュータ可読記憶媒体であって、前記方法が、胎児が染色体異数性を有するかどうかを判定するための方法であり、
(1)妊娠女性検体から核酸シーケンシング・データを取得するステップであって、前記妊娠女性検体は胎児フリー核酸を含み、前記核酸シーケンシング・データは複数のシーケンシング・リードから構成される、ステップと、
(2)前記核酸シーケンシング・データに基づいて、前記妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による前記推定分画は、前記所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、前記所定の染色体は、検査対象の染色体および第2の比較染色体を含み、前記第1の比較染色体は、前記所定の染色体と異なる少なくとも1つの常染色体を含む、ステップと、
(3)前記検査対象の染色体による前記推定分画と、前記第2の比較染色体による前記推定分画との差に基づいて第1の特徴を判定し、前記検査対象の染色体による前記推定分画と、前記胎児分画との差に基づいて第2の特徴を判定するステップと、
(4)対応する対照検体のデータを使用することにより、前記第1の特徴および前記第2の特徴に基づいて、前記胎児が前記検査対象の染色体に異数性を有するかどうかを判定するステップであって、前記対照検体は陽性検体および陰性検体を含み、前記陽性検体は前記検査対象の染色体に異数性を有し、前記陰性検体は前記検査対象の染色体に異数性を有さない、ステップと、を含むコンピュータ可読記憶媒体。
【請求項2】
前記胎児分画が、
(a)所定の窓に入るシーケンシング・リードの数を判定するように、前記妊娠女性検体から得られた前記核酸シーケンシング・データを参照配列と比較するステップと、
(b)前記所定の窓に入るシーケンシング・リードの数に基づいて、前記妊娠女性検体の前記胎児分画を判定するステップと、によって判定されることを特徴とする、請求項1に記載のコンピュータ可読記憶媒体。
【請求項3】
前記ステップ(2)において、前記第1の比較染色体のシーケンシング・リードの数が、複数の常染色体のシーケンシング・リードの平均数であり、前記複数の常染色体は、異数性を有さないことが分かっている少なくとも1つの常染色体を含むことを特徴とする、請求項1に記載のコンピュータ可読記憶媒体。
【請求項4】
前記ステップ(2)において、前記第1の比較染色体のシーケンシング・リードの数が、少なくとも15個の常染色体、少なくとも20個の常染色体、または、すべての常染色体のシーケンシング・リードの平均数であることを特徴とする、請求項3に記載のコンピュータ可読記憶媒体。
【請求項5】
前記推定分画が、式:
F
j=2×|R
j-R
r|/R
rに従って判定され、ここで、
jは、推定分画が判定される必要のある染色体の通し番号を表し、
F
jは、染色体jによる前記推定分画を表し、
R
rは、前記複数の常染色体のシーケンシング・リードの平均数を表し、
R
jは、前記染色体jのシーケンシング・リードの数を表すことを特徴とする、請求項3に記載のコンピュータ可読記憶媒体。
【請求項6】
前記ステップ(2)において、前記第2の比較染色体が、異数性のない複数の常染色体を含み、前記ステップ(3)において、前記第1の特徴が、前記検査対象の染色体による前記推定分画と、前記第2の比較染色体による前記推定分画の平均値との差に基づいて判定されることを特徴とする、請求項1に記載のコンピュータ可読記憶媒体。
【請求項7】
複数の常染色体による前記推定分画を判定するステップと、
並べ替えられた前記常染色体から、小さい方から大きい方への優先順で、目標常染色体を前記第2の比較染色体として選択するステップと、をさらに含むことを特徴とする、請求項6に記載のコンピュータ可読記憶媒体。
【請求項8】
前記第1の特徴が、式
X
1=F
i-F
r
に従って判定され、ここで、
X
1は、前記第1の特徴を表し、
iは、前記検査対象の染色体の通し番号を表し、
F
iは、前記検査対象の染色体による前記推定分画を表し、
F
rは、前記第2の比較染色体による前記推定分画の平均値を表すことを特徴とする、請求項1に記載のコンピュータ可読記憶媒体。
【請求項9】
前記第2の特徴が、式:
【数1】
に従って判定され、ここで、
X
2は、前記第2の特徴を表し、
iは、前記検査対象の染色体の通し番号を表し、
F
iは、前記検査対象の染色体による前記推定分画を表し、
F
aは、前記胎児分画を表すことを特徴とする、請求項8に記載のコンピュータ可読記憶媒体。
【請求項10】
前記ステップ(4)において、前記陽性検体の数と前記陰性検体の数とが、1:0.1~5の比を有することを特徴とする、請求項1に記載のコンピュータ可読記憶媒体。
【請求項11】
前記ステップ(4)において、前記陽性検体の数と前記陰性検体の数とが、1:0.25~4の比を有することを特徴とする、請求項1に記載のコンピュータ可読記憶媒体。
【請求項12】
前記ステップ(4)において、前記第1の特徴および前記第2の特徴に基づいて、前記妊娠女性検体および前記対照検体の2次元特徴ベクトルが判定され、前記2次元特徴ベクトルに基づいて検体間の距離が判定され、前記妊娠女性検体が、陽性検体または陰性検体として分類され、前記胎児が前記検査対象の染色体に異数性を有するかどうかを判定することを特徴とする、請求項1に記載のコンピュータ可読記憶媒体。
【請求項13】
前記距離が、ユークリッド距離、マンハッタン距離、またはチェビシェフ距離であることを特徴とする、請求項12に記載のコンピュータ可読記憶媒体。
【請求項14】
前記ステップ(4)が、
(4-1)前記妊娠女性検体と各前記対照検体との間の距離をそれぞれ計算するステップと、
(4-2)得られた前記距離を並べ替えるステップであって、前記並べ替えが小さい方から大きい方への順に基づく、ステップと、
(4-3)前記並べ替えに基づいて、小さい方から大きい方への順で所定の数の対照検体を選択するステップと、
(4-4)前記所定の数の対照検体中での陽性検体の数および陰性検体の数をそれぞれ判定するステップと、
(4-5)多数決法に基づいて前記妊娠女性検体の分類結果を判定するステップと、をさらに含むことを特徴とする、請求項12に記載のコンピュータ可読記憶媒体。
【請求項15】
前記所定の数が20を超えないことを特徴とする、請求項14に記載のコンピュータ可読記憶媒体。
【請求項16】
前記所定の数が3から10であることを特徴とする、請求項14に記載のコンピュータ可読記憶媒体。
【請求項17】
前記ステップ(4-2)において、検査対象の検体と所定の対照検体との間の距離が、前記並べ替えが行われる前に予め重み付けされることを特徴とする、請求項14に記載のコンピュータ可読記憶媒体。
【請求項18】
(i)前記妊娠女性検体が妊娠女性の末梢血を含み、
(ii)前記核酸シーケンシング・データが、ペアエンド・シーケンシング、シングルエンド・シーケンシング、または単一分子シーケンシングによって得られ、
(iii)前記ステップ(4)を行う前に、前記第1の特徴および前記第2の特徴の絶対値がそれぞれ独立して0から1の間になるように、前記第1の特徴および前記第2の特徴が標準化され、
(iv)前記ステップ(4)において、前記陽性検体の数と前記陰性検体の数とが、1:4以上の
比または4:1を超えない比を有し、および/または
(v)前記陽性検体および前記陰性検体のどちらも、前記検査対象の染色体以外の染色体に異数性を有さない、請求項1に記載のコンピュータ可読記憶媒体。
【請求項19】
胎児が染色体異数性を有するかどうかを判定するためのデバイスであって、
妊娠女性検体から核酸シーケンシング・データを取得するように構成されたデータ取得モジュールであって、前記妊娠女性検体は胎児フリー核酸を含み、前記核酸シーケンシング・データは、複数のシーケンシング・リードから構成される、データ取得モジュールと、
前記核酸シーケンシング・データに基づいて、前記妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するように構成された胎児分画・推定分画判定モジュールであって、所定の染色体による前記推定分画は、前記所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、前記所定の染色体は、検査対象の染色体および第2の比較染色体を含み、前記第1の比較染色体は、前記所定の染色体と異なる少なくとも1つの常染色体を含む、胎児分画・推定分画判定モジュールと、
前記検査対象の染色体による前記推定分画と、前記第2の比較染色体による前記推定分画との差に基づいて第1の特徴を判定し、前記検査対象の染色体による前記推定分画と、前記胎児分画との差に基づいて第2の特徴を判定するように構成された特徴判定モジュールと、
対応する対照検体のデータを使用することにより、前記第1の特徴および前記第2の特徴に基づいて、妊娠女性の前記胎児が前記検査対象の染色体に異数性を有するかどうかを判定するように構成された異数性判定モジュールであって、前記対照検体は陽性検体および陰性検体を含み、前記陽性検体は前記検査対象の染色体に異数性を有し、前記陰性検体は前記検査対象の染色体に異数性を有さない、異数性判定モジュールと、を備えることを特徴とするデバイス。
【請求項20】
前記胎児分画・推定分画判定モジュールが、
所定の窓に入るシーケンシング・リードの数を判定するように、前記妊娠女性検体から得られた前記核酸シーケンシング・データを参照配列と位置合わせするように構成された位置合わせ部と、
前記所定の窓に入るシーケンシング・リードの数に基づいて、前記妊娠女性検体の前記胎児分画を判定するように構成された胎児分画計算部と、を備えることを特徴とする、請求項19に記載のデバイス。
【請求項21】
前記胎児分画・推定分画判定モジュールが、
推定分画計算部であって、式:
F
j=2×|R
j-R
r|/R
rに従って前記推定分画を判定するように構成された推定分画計算部を備え、ここで、
jは、推定分画が判定される必要のある染色体の通し番号を表し、
F
jは、染色体jによる前記推定分画を表し、
R
rは、複数の常染色体のシーケンシング・リードの平均数を表し、
R
jは、前記染色体jのシーケンシング・リードの数を表すことを特徴とする、請求項19に記載のデバイス。
【請求項22】
前記胎児分画・推定分画判定モジュールが、
複数の常染色体による前記推定分画を小さい方から大きい方への優先順で並べ替え、並べ替えられた前記常染色体から、目標常染色体を前記第2の比較染色体として選択するように構成された第2の比較染色体判定部、を備えることを特徴とする、請求項19に記載のデバイス。
【請求項23】
前記特徴判定モジュールが、
第1の特徴判定部であって、式:
X
1=F
i-F
r
に従って前記第1の特徴を判定するように構成された第1の特徴判定部を備え、ここで、 X
1は、前記第1の特徴を表し、
iは、前記検査対象の染色体の通し番号を表し、
F
iは、前記検査対象の染色体による前記推定分画を表し、
F
rは、前記第2の比較染色体による前記推定分画の平均値を表すことを特徴とする、請求項19に記載のデバイス。
【請求項24】
前記特徴判定モジュールが、
第2の特徴判定部であって、式:
【数2】
に従って前記第2の特徴を判定するように構成された第2の特徴判定部を備え、ここで、 X
2は、前記第2の特徴を表し、
iは、前記検査対象の染色体の通し番号を表し、
F
iは、前記検査対象の染色体による前記推定分画を表し、
F
aは、前記胎児分画を表すことを特徴とする、請求項19に記載のデバイス。
【請求項25】
前記特徴判定モジュールが、
前記第1の特徴および前記第2の特徴の絶対値がそれぞれ独立して0から1の間になるように、前記第1の特徴および前記第2の特徴に標準化処理を行うように構成された標準化処理部、を備えることを特徴とする、請求項19に記載のデバイス。
【請求項26】
前記異数性判定モジュールが、前記妊娠女性検体および前記対照検体の2次元特徴ベクトルを判定し、前記2次元特徴ベクトルに基づいて検体間の距離を判定し、前記妊娠女性検体を陽性検体または陰性検体として分類し、前記胎児が前記検査対象の染色体に異数性を有するかどうかを判定するように構成されることを特徴とする、請求項19に記載のデバイス。
【請求項27】
前記距離が、ユークリッド距離、マンハッタン距離、またはチェビシェフ距離であることを特徴とする、請求項26に記載のデバイス。
【請求項28】
前記異数性判定モジュールが、k最近傍モデルを使用することにより前記妊娠女性検体の分類結果を判定するように構成されることを特徴とする、請求項19に記載のデバイス。
【請求項29】
前記k最近傍モデルが、20を超えないk値を採用することを特徴とする、請求項28に記載のデバイス。
【請求項30】
前記k最近傍モデルが、3から10のk値を採用することを特徴とする、請求項28に記載のデバイス。
【請求項31】
前記k最近傍モデル内で検体間の距離が重み付けされることを特徴とする、請求項28に記載のデバイス。
【請求項32】
電子デバイスであって、
請求項1から18のいずれか一項に記載のコンピュータ可読記憶媒体と、
前記コンピュータ可読記憶媒体に記憶された前記プログラムを実行するように構成された1つまたは複数のプロセッサと、を備えることを特徴とする電子デバイス。
【請求項33】
機械学習分類モデルを構築するための方法であって、
(a)複数の妊娠女性検体の各々に対して、
前記妊娠女性検体から核酸シーケンシング・データを取得するステップであって、前記妊娠女性検体は胎児フリー核酸を含み、前記核酸シーケンシング・データは複数のシーケンシング・リードから構成され、前記妊娠女性検体は、少なくとも1つの陽性検体および少なくとも1つの陰性検体を含み、前記陽性検体は検査対象の染色体に異数性を有し、前記陰性検体は前記検査対象の染色体に異数性を有さない、ステップ、
前記核酸シーケンシング・データに基づいて、前記妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による前記推定分画は、前記所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、前記所定の染色体は、検査対象の染色体および第2の比較染色体を含み、前記第1の比較染色体は、前記所定の染色体と異なる少なくとも1つの常染色体を含む、ステップ、および
前記検査対象の染色体による前記推定分画と、前記第2の比較染色体による前記推定分画との差に基づいて第1の特徴を判定し、前記検査対象の染色体による前記推定分画と、前記胎児分画との差に基づいて第2の特徴を判定するステップ、
を行う(a)ステップと、
(b)胎児が異数性を有するかどうかを判定するための機械学習分類モデルを構築するように、前記複数の妊娠女性検体を検体として受け取り、前記検体の前記第1の特徴および前記第2の特徴を使用することによって機械学習訓練を行うステップと、を含むことを特徴とする方法。
【請求項34】
前記機械学習分類モデルがKNNモデルであることを特徴とする、請求項33に記載の方法。
【請求項35】
前記KNNモデルがユークリッド距離を採用することを特徴とする、請求項34に記載の方法。
【請求項36】
機械学習分類モデルを構築するためのデバイスであって、
特徴取得モジュールであって、複数の妊娠女性検体の各々に対して、
前記妊娠女性検体から核酸シーケンシング・データを取得するステップであって、前記妊娠女性検体は胎児フリー核酸を含み、前記核酸シーケンシング・データは複数のシーケンシング・リードから構成され、前記妊娠女性検体は、少なくとも1つの陽性検体および少なくとも1つの陰性検体を含み、前記陽性検体は検査対象の染色体に異数性を有し、前記陰性検体は前記検査対象の染色体に異数性を有さない、ステップ、
前記核酸シーケンシング・データに基づいて、前記妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による前記推定分画は、前記所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、前記所定の染色体は、検査対象の染色体および第2の比較染色体を含み、前記第1の比較染色体は、前記所定の染色体と異なる少なくとも1つの常染色体を含む、ステップ、および
前記検査対象の染色体による前記推定分画と、前記胎児分画との差に基づいて第2の特徴を判定し、前記検査対象の染色体による前記推定分画と、前記第2の比較染色体による前記推定分画との差に基づいて第1の特徴を判定するステップと、
を行うように構成された特徴取得モジュールと、
胎児が異数性を有するかどうかを判定するための機械学習分類モデルを構築するように、前記複数の妊娠女性検体を検体として受け取
り、前記検体の前記第1の特徴および前記第2の特徴を使用することによって機械学習訓練を行うように構成された訓練モデルと、を備えることを特徴とするデバイス。
【請求項37】
前記機械学習分類モデルがKNNモデルであることを特徴とする、請求項36に記載のデバイス。
【請求項38】
コンピュータ・プログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムがプロセッサによって実行されたとき、請求項33~35のいずれか一項に記載の方法のステップが実施されることを特徴とする、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生物工学、特に非侵襲性の出生前遺伝子検査の分野に関し、具体的には、染色体異数性を判定するための方法およびデバイス、ならびに機械学習分類モデルを構築するための対応する方法およびデバイスに関する。
【背景技術】
【0002】
出生前スクリーニング法は通常、2つの部類、すなわち侵襲性の方法(出生前診断とも呼ばれる)と非侵襲性の方法に分けられる。前者は主に、羊水穿刺、絨毛採取、臍帯血の採取等を含み、後者は、超音波検査、母体末梢血清マーカの判定、胎児細胞の検出等を含む。絨毛採取(CVS(chorionic villus sampling))や羊水穿刺などの侵襲性の方法は、胎児から分離された細胞を得るために使用され、それは平常の出生前診断に使用され得る。これらの方法は胎児の異数性を診断するのに非常に高精度であるが、これら従来の方法は侵襲性であり、妊娠女性と胎児の双方に対して一定のリスクを有する。
【0003】
出生前血清学的スクリーニングなどの従来の非侵襲性のスクリーニング法は、通常、それに比べて精度が劣る。
【0004】
Dennis Loらは、母体血漿および血清中に無細胞胎児DNAが存在することを突き止め、それにより非侵襲性出生前検査(NIPT(non-invasive prenatal testing))のための新しい概念を提供している。非侵襲性出生前検査は、主として高スループット・シーケンシング技術を使用して、妊娠女性の末梢血中の無細胞胎児DNAを分析することにより、胎児中の一般的な染色体異数性のリスクを評価する。現在、一般的なスクリーニング範囲は、染色体21異数性(T21)、染色体18異数性(T18)、染色体13異数性(T13)および性染色体である。
【0005】
高スループット・シーケンシング技術に基づき、妊娠女性の末梢血中の無細胞胎児DNAを使用して胎児染色体異数性を検出するための既存の一般的技術は以下のようなものである:
1.リード(read)の数の定量化に基づく方法によって行われるNIPT。この方法の主たる原理は、リード(「シーケンシング・リード」と呼ばれることもある)が、予め定義された窓内で比較ソフトウェアを使用して特定され、次いで適当な方法を使用して、検査対象の染色体の異数性検出を行うというものである。
【0006】
2.一塩基多型(SNP(single nucleotide polymorphism))に基づく方法によって行われるNIPT。この方法の主たる原理は、両親の遺伝子DNAと無細胞胎児DNA両方の取得およびシーケンシングが、所定のSNP部位領域に基づいてそれぞれ行われ、次いで、両親と胎児の遺伝子型情報を使用して、ベイズ・モデルによって検査対象の染色体の異数性検出が行われるというものである。
【0007】
3.DNA断片のサイズに基づく方法によって行われるNIPT。この方法の主たる概念は、無細胞胎児DNA断片が、無細胞胎児DNA断片と母体DNA断片との間の分布差に基づくペアエンド(PE(paired-end))シーケンシング技術を使用することによって特異的に抽出され、最後に、検査対象の染色体の異数性検出が、参照検体に基づいてZ検定を使用して行われるというものである。
【0008】
しかし、これらの既存の非侵襲性出生前診断方法はそれぞれ固有の短所がある。理解を助けるために、それらが以下の表に要約される。
【表1】
【0009】
したがって、非侵襲性の方法を通じて染色体異数性を判定するための現在の方法は、なお改良される必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明は、従来技術に存在する技術的問題の少なくとも1つを解決しようとするものである。この理由から、本発明の目的は、染色体異数性を効果的に判定することができる方法を提供することである。
【課題を解決するための手段】
【0011】
本発明の一態様によれば、本発明は、胎児が染色体異数性を有するかどうかを判定するための方法を提供する。本発明の一実施形態によれば、方法は、(1)妊娠女性検体から核酸シーケンシング・データを取得するステップであって、妊娠女性検体は無細胞胎児核酸(a cell-free fetal nucleic acid)を含み、核酸シーケンシング・データは複数のシーケンシング・リードから構成される、ステップと、(2)核酸シーケンシング・データに基づいて、妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、所定の染色体は、検査対象の染色体および第2の比較染色体を含み、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む、ステップと、(3)検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差に基づいて第1の特徴を判定し、検査対象の染色体による推定分画と、胎児分画との差に基づいて第2の特徴を判定するステップと、(4)対応する対照検体のデータを使用することにより、第1の特徴および第2の特徴に基づいて、胎児が検査対象の染色体に異数性を有するかどうかを判定するステップであって、対照検体は陽性検体および陰性検体を含み、陽性検体は検査対象の染色体に異数性を有し、陰性検体は検査対象の染色体に異数性を有さない、ステップと、を含む。
【0012】
この方法は、胎児が検査対象の染色体に異数性を有するかどうかを効果的に判定することができる。また、本発明の本実施形態によれば、この方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。
【0013】
本発明の一実施形態によれば、上記方法は、以下のように追加的な技術的特徴を有してもよい:
本発明の一実施形態によれば、妊娠女性検体は妊娠女性の末梢血を含む。
【0014】
本発明の一実施形態によれば、核酸シーケンシング・データは、ペアエンド・シーケンシング、シングルエンド・シーケンシング、または単一分子シーケンシングによって得られる。
【0015】
本発明の一実施形態によれば、胎児分画は、(a)所定の窓に入るシーケンシング・リードの数を判定するために、妊娠女性検体から得られた核酸シーケンシング・データを参照配列と比較するステップと、(b)所定の窓に入るシーケンシング・リードの数に基づいて、妊娠女性検体の胎児分画を判定するステップと、によって判定される。
【0016】
本発明の一実施形態によれば、ステップ(2)において、第1の比較染色体のシーケンシング・リードの数は、複数の常染色体のシーケンシング・リードの平均数であり、複数の常染色体は、異数性を有することが分かっていない少なくとも1つの常染色体を含む。
【0017】
本発明の一実施形態によれば、ステップ(2)において、第1の比較染色体のシーケンシング・リードの数は、少なくとも15個の常染色体のシーケンシング・リードの平均数であり、任意で、第1の比較染色体のシーケンシング・リードの数は、少なくとも20個の常染色体のシーケンシング・リードの平均数であり、任意で、第1の比較染色体のシーケンシング・リードの数は、すべての常染色体のシーケンシング・リードの平均数である。
【0018】
本発明の一実施形態によれば、推定分画は、式:
Fj=2×|Rj-Rr|/Rr
に従って判定され、ここで、
jは、推定分画が判定される必要のある染色体の通し番号を表し、
Fjは、染色体jによる推定分画を表し、
Rrは、複数の常染色体のシーケンシング・リードの平均数を表し、
Rjは、染色体jのシーケンシング・リードの数を表す。
【0019】
本発明の一実施形態によれば、ステップ(3)において、第1の特徴は、検査対象の染色体による推定分画と、第2の比較染色体による推定分画の平均値との差に基づいて判定される。
【0020】
本発明の一実施形態によれば、第2の比較染色体は、少なくとも10個の常染色体を含む。
【0021】
本発明の一実施形態によれば、第2の比較染色体は、15個の常染色体を含む。
【0022】
本発明の一実施形態によれば、上記方法は、複数の常染色体による推定分画を判定するステップと、小さい方から大きい方への優先順で、目標常染色体を第2の比較染色体として選択するステップと、をさらに含む。
【0023】
本発明の一実施形態によれば、第1の特徴は、式:
X1=Fi-Fr
に従って判定され、ここで、
X1は、第1の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Frは、第2の比較染色体による推定分画の平均値を表す。
【0024】
本発明の一実施形態によれば、第2の特徴は、式:
【数1】
【0025】
に従って判定され、ここで、
X2は、第2の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Faは、胎児分画を表す。
【0026】
本発明の一実施形態によれば、ステップ(4)を行う前に、第1の特徴および第2の特徴の絶対値がそれぞれ独立して0から1の間になるように、第1の特徴および第2の特徴が標準化される。
【0027】
本発明の一実施形態によれば、ステップ(4)において、陽性検体の数と陰性検体の数とが、1:4以上の比を有する。
【0028】
本発明の一実施形態によれば、ステップ(4)において、陽性検体の数と陰性検体の数とが、4:1を超えない比を有する。
【0029】
本発明の一実施形態によれば、ステップ(4)において、陽性検体の数と陰性検体の数とが、1:0.1~5の比を有する。
【0030】
本発明の一実施形態によれば、ステップ(4)において、陽性検体の数と陰性検体の数とが、1:0.25~4の比を有する。
【0031】
本発明の一実施形態によれば、陽性検体および陰性検体のどちらも、検査対象の染色体以外の染色体に異数性を有さない。
【0032】
本発明の一実施形態によれば、ステップ(4)において、第1の特徴および第2の特徴が使用されて、妊娠女性検体および対照検体の2次元特徴ベクトルを判定し、2次元特徴ベクトルに基づいて検体間の距離が判定され、妊娠女性検体が陽性検体または陰性検体として分類され、それにより胎児が検査対象の染色体に異数性を有するかどうかを判定する。
【0033】
本発明の一実施形態によれば、距離は、ユークリッド距離、マンハッタン距離、またはチェビシェフ距離である。
【0034】
本発明の一実施形態によれば、ステップ(4)は、(4-1)妊娠女性検体と各対照検体との間の距離をそれぞれ計算するステップと、(4-2)得られた距離を並べ替えるステップであって、並べ替えが小さい方から大きい方への順に基づく、ステップと、(4-3)並べ替えに基づいて、小さい方から大きい方への順で所定の数の対照検体を選択するステップと、(4-4)所定の数の対照検体中での陽性検体の数および陰性検体の数をそれぞれ判定するステップと、(4-5)多数決法に基づいて妊娠女性検体の分類結果を判定するステップと、をさらに含む。
【0035】
本発明の一実施形態によれば、所定の数は、20以下である。
【0036】
本発明の一実施形態によれば、所定の数は3から10である。
【0037】
本発明の一実施形態によれば、ステップ(4-2)において、並べ替えが行われる前に、検査対象の検体と所定の対照検体との間の距離が予め重み付けされる。
【0038】
本発明の第2の態様において、本発明は、胎児が染色体異数性を有するかどうかを判定するためのデバイスを提供し、このデバイスは、妊娠女性検体から核酸シーケンシング・データを取得するように構成されたデータ取得モジュールであって、妊娠女性検体は胎児フリー核酸(a fetal free nucleic acid)を含み、核酸シーケンシング・データは、複数のシーケンシング・リードから構成される、データ取得モジュールと、核酸シーケンシング・データに基づいて、妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するように構成された胎児分画・推定分画判定モジュールであって、所定の染色体による推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、所定の染色体は、検査対象の染色体および第2の比較染色体を含み、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む、胎児分画・推定分画判定モジュールと、検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差に基づいて第1の特徴を判定し、検査対象の染色体による推定分画と、胎児分画との差に基づいて第2の特徴を判定するように構成された特徴判定モジュールと、対応する対照検体のデータを使用することにより、第1の特徴および第2の特徴に基づいて、妊娠女性の胎児が検査対象の染色体に異数性を有するかどうかを判定するように構成された異数性判定モジュールであって、対照検体は陽性検体および陰性検体を含み、陽性検体は検査対象の染色体に異数性を有し、陰性検体は検査対象の染色体に異数性を有さない、異数性判定モジュールと、を備えることを特徴とする。本発明の一実施形態による胎児が染色体異数性を有するかどうかを判定するためのデバイスを使用することにより、胎児が染色体異数性を有するかどうかを判定するための上述の方法が効果的に実施されることができ、それにより、胎児が検査対象の染色体に異数性を有するかどうかが効果的に判定され得る。また、本発明の一実施形態によれば、本発明の方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。
【0039】
本発明の一実施形態によれば、上記デバイスは、以下のように追加的な技術的特徴を有してもよい:
本発明の一実施形態によれば、胎児分画・推定分画判定モジュールは、所定の窓に入るシーケンシング・リードの数を判定するために、妊娠女性検体から得られた核酸シーケンシング・データを参照配列と位置合わせするように構成された位置合わせ部と、所定の窓に入るシーケンシング・リードの数に基づいて、妊娠女性検体の胎児分画を判定するように構成された胎児分画計算部と、を備える。
【0040】
本発明の一実施形態によれば、胎児分画・推定分画判定モジュールは、推定分画計算部であって、式:
Fj=2×|Rj-Rr|/Rr
に従って推定分画を判定するように構成された推定分画計算部、を備え、ここで、
jは、推定分画が判定される必要のある染色体の通し番号を表し、
Fjは、染色体jによる推定分画を表し、
Rrは、複数の常染色体のシーケンシング・リードの平均数を表し、
Rjは、染色体jのシーケンシング・リードの数を表す。
【0041】
本発明の一実施形態によれば、胎児分画・推定分画判定モジュールは、複数の常染色体による推定分画を小さい方から大きい方への優先順で並べ替え、並べ替えられた常染色体から、目標常染色体を第2の比較染色体として選択するように構成された第2の比較染色体判定部、を備える。
【0042】
本発明の一実施形態によれば、特徴判定モジュールは、
第1の特徴判定部であって、式:
X1=Fi-Fr
に従って第1の特徴を判定するように構成された第1の特徴判定部、を備え、ここで、
X1は、第1の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Frは、第2の比較染色体による推定分画の平均値を表す。
【0043】
本発明の一実施形態によれば、特徴判定モジュールは、第2の特徴判定部であって、式
【数2】
【0044】
に従って第2の特徴を判定するように構成された第2の特徴判定部、を備え、ここで、
X2は、第2の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Faは、胎児分画を表す。
【0045】
本発明の一実施形態によれば、特徴判定モジュールは、第1の特徴および第2の特徴の絶対値がそれぞれ独立して0から1の間になるように、第1の特徴および第2の特徴に標準化処理を行うように構成された標準化処理部、を備える。
【0046】
本発明の一実施形態によれば、異数性判定モジュールは、妊娠女性検体および対照検体の2次元特徴ベクトルを判定し、2次元特徴ベクトルに基づいて検体間の距離が判定され、妊娠女性検体が陽性検体または陰性検体として分類され、それにより胎児が検査対象の染色体に異数性を有するかどうかを判定するように構成される。
【0047】
本発明の一実施形態によれば、距離は、ユークリッド距離、マンハッタン距離、またはチェビシェフ距離である。
【0048】
本発明の一実施形態によれば、異数性判定モジュールは、k最近傍モデルを使用することにより妊娠女性検体の分類結果を判定するように構成される。
【0049】
本発明の一実施形態によれば、k最近傍モデルは、20を超えないk値を採用する。
【0050】
本発明の一実施形態によれば、k最近傍モデルは、3から10のk値を採用する。
【0051】
本発明の一実施形態によれば、k最近傍モデル内で検体間の距離が重み付けされる。
【0052】
本発明の第3の態様において、本発明は、コンピュータ・プログラムが記憶されたコンピュータ可読記憶媒体を提供し、これは、プログラムがプロセッサによって実行されたとき、胎児が染色体異数性を有するかどうかを判定するための上述の方法のステップが実施されることを特徴とする。したがって、胎児が染色体異数性を有するかどうかを判定するための上述の方法が効果的に実施されることができ、それにより、胎児が検査対象の染色体に異数性を有するかどうかが効果的に判定され得る。また、本発明の一実施形態によれば、この方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。
【0053】
本発明の第4の態様において、本発明は、上述のコンピュータ可読記憶媒体と、コンピュータ可読記憶媒体に記憶されたプログラムを実行するように構成された1つまたは複数のプロセッサと、を備える電子デバイスを提供する。したがって、胎児が染色体異数性を有するかどうかを判定するための上述の方法が効果的に実施されることができ、それにより、胎児が検査対象の染色体に異数性を有するかどうかが効果的に判定され得る。また、本発明の一実施形態によれば、この方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。
【0054】
本発明の第5の態様において、本発明は、機械学習分類モデルを構築するための方法を提供する。本発明の一実施形態によれば、方法は、(a)複数の妊娠女性検体の各々に対して、妊娠女性検体から核酸シーケンシング・データを取得するステップであって、妊娠女性検体は胎児フリー核酸を含み、核酸シーケンシング・データは複数のシーケンシング・リードから構成され、妊娠女性検体は、少なくとも1つの陽性検体および少なくとも1つの陰性検体を含み、陽性検体は検査対象の染色体に異数性を有し、陰性検体は検査対象の染色体に異数性を有さない、ステップ、核酸シーケンシング・データに基づいて、妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、所定の染色体は、検査対象の染色体および第2の比較染色体を含み、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む、ステップ、および、検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差に基づいて第1の特徴を判定し、検査対象の染色体による推定分画と、胎児分画との差に基づいて第2の特徴を判定するステップ、を行う(a)ステップと、(b)胎児が異数性を有するかどうかを判定するための機械学習分類モデルを構築するために、複数の妊娠女性検体を検体として受け取り、検体の第1の特徴および第2の特徴を使用することによって、機械学習訓練を行うステップと、を含む。この方法を使用することにより、本発明の一実施形態によれば、機械学習分類モデルが効果的に構築されることができ、そのため、その分類モデルがさらに使用されて、未知の検体を特定および分類して、特定の染色体について染色体異数性があるかどうかを判定することができる。
【0055】
本発明の一実施形態によれば、機械学習分類モデルは、k最近傍(KNN)モデルである。
【0056】
本発明の一実施形態によれば、KNNモデルは、ユークリッド距離を採用する。
【0057】
本発明の第6の態様において、本発明は、機械学習分類モデルを構築するためのデバイスを提供し、このデバイスは、特徴取得モジュールであって、複数の妊娠女性検体の各々に対して、妊娠女性検体から核酸シーケンシング・データを取得するステップであって、妊娠女性検体は胎児フリー核酸を含み、核酸シーケンシング・データは複数のシーケンシング・リードから構成され、妊娠女性検体は、少なくとも1つの陽性検体および少なくとも1つの陰性検体を含み、陽性検体は検査対象の染色体に異数性を有し、陰性検体は検査対象の染色体に異数性を有さない、ステップと、核酸シーケンシング・データに基づいて、妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、所定の染色体は、検査対象の染色体および第2の比較染色体を含み、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む、ステップと、検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差に基づいて第1の特徴を判定し、検査対象の染色体による推定分画と、胎児分画との差に基づいて第2の特徴を判定するステップと、を行うように構成された特徴取得モジュールと、胎児が異数性を有するかどうかを判定するための機械学習分類モデルを構築するために、複数の妊娠女性検体を検体として受け取ることによって機械学習訓練を行うように構成された訓練モデルと、を備える。このデバイスを使用することにより、機械学習分類モデルを構築するための上述の方法が効果的に実施されることができ、それにより、機械学習分類モデルを効果的に構築することができ、そのため、その分類モデルがさらに使用されて、未知の検体を特定および分類して、特定の染色体について染色体異数性があるかどうかを判定することができる。
【0058】
本発明の一実施形態によれば、機械学習分類モデルはKNNモデルである。
【0059】
本発明の第7の態様において、本発明は、コンピュータ・プログラムが記憶されたコンピュータ可読記憶媒体を提供し、プログラムがプロセッサによって実行されたとき、先行する請求項に記載された機械学習分類方法を構築するためのステップが実施される。その結果、機械学習分類モデルを構築するための上述の方法が効果的に実施されることができ、それにより、機械学習分類モデルを効果的に構築することができ、そのため、その分類モデルがさらに使用されて、未知の検体を特定および分類して、特定の染色体について染色体異数性があるかどうかを判定することができる。
【0060】
本発明のさらなる態様および利点は、部分的には以下の説明で述べられ、部分的には以下の説明から明らかになるか、または本発明の実施を通じて理解されよう。
【0061】
本発明の上記のならびに/またはさらなる態様および利点は、以下の図面と併せた実施形態の説明から明らかになり、容易に理解される。
【図面の簡単な説明】
【0062】
【
図1】本発明の一実施形態による、胎児が染色体異数性を有するかどうかを判定するための方法の模式的フローチャートである。
【
図2】本発明の一実施形態による、胎児分画を判定するための方法の模式的フローチャートである。
【
図3】本発明の一実施形態による、妊娠女性検体を分類するための方法の模式的フローチャートである。
【
図4】本発明の一実施形態による、胎児が染色体異数性を有するかどうかを判定するための装置のブロック図である。
【
図5】本発明の一実施形態による胎児分画・推定分画判定モジュールのブロック図である。
【
図6】本発明の一実施形態による特徴判定モジュールのブロック図である。
【
図7】本発明の一実施形態による機械学習分類モデルを構築するブロック図である。
【
図8】本発明の一実施形態による、KNNモデルを使用してT21を検出する際のパラメータkに対応するROC曲線を示す図である。
【
図9】本発明の一実施形態による、KNNモデルを使用してT21を検出する際のパラメータkに対応するROC曲線を示す図である。
【
図10】本発明の一実施形態による、KNNモデルを使用してT18を検出する際のパラメータkに対応するROC曲線を示す図である。
【
図11】本発明の一実施形態による、KNNモデルを使用してT18を検出する際のパラメータkに対応するROC曲線を示す図である。
【
図12】本発明の一実施形態による、KNNモデルを使用してT13を検出する際のパラメータkに対応するROC曲線を示す図である。
【
図13】本発明の一実施形態による、KNNモデルを使用してT13を検出する際のパラメータkに対応するROC曲線を示す図である。
【発明を実施するための形態】
【0063】
本発明の実施形態が以下に詳細に説明される。以下に説明される実施形態は例示的なものであり、本発明を説明するために使用されるに過ぎず、本発明を制限するものと解釈すべきではない。本出願は、多くの一般的または特殊なコンピューティング・デバイス環境または構成で使用され得ることが留意されるべきである。例えば、パーソナル・コンピュータ、サーバ・コンピュータ、手持ち型または携帯型デバイス、タブレット・デバイス、マルチプロセッサ・デバイス、上記の装置またはデバイスのいずれかを含む分散コンピューティング環境等。本出願は、プログラム・モジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的文脈で説明されることがある。一般に、プログラム・モジュールは、特定のタスクを行うかまたは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。本出願は、分散コンピューティング環境で実施されることも可能である。そのような分散コンピューティング環境では、タスクは、通信ネットワークを通じて接続された遠隔の処理デバイスによって行われる。そのような分散コンピューティング環境では、プログラム・モジュールは、記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に記憶され得る。
【0064】
本発明の一態様によれば、本発明は、胎児が染色体異数性を有するかどうかを判定するための方法を提供する。本発明の一実施形態による胎児が染色体異数性を有するかどうかを判定するための方法が、
図1~
図3を参照することによって以下で詳細に説明される。
【0065】
図1を参照すると、本発明の一実施形態によれば、胎児が染色体異数性を有するかどうかを判定するための方法は、
S100:妊娠女性検体からの核酸シーケンシング・データの取得、を含む。
【0066】
本発明の一実施形態によれば、このステップで、胎児フリー核酸を含有する妊娠女性検体から核酸シーケンシング・データが初めに取得される。例えば、本発明の一実施形態によれば、使用され得る妊娠女性検体は、これに限定されないが、妊娠女性の末梢血を含む。先に述べられたように、Dennis Loらは、母体血漿および血清中に非細胞性フリー胎児DNAが存在することを突き止め、それにより、非侵襲性出生前検査(NIPT)のための新しい概念を提供している。妊娠女性の末梢血を使用すると、妊娠女性に対して外傷を生じず、検体採集に起因する流産のリスクが回避される。本発明の一実施形態によれば、妊娠女性の末梢血などの妊娠女性検体を採集する際、そのような検体に核酸シーケンシングが行われて、その妊娠女性検体の核酸シーケンシング・データを得ることができる。一般に、核酸シーケンシング・データは、複数のまたは多数のシーケンシング・リードから構成される。本発明の一実施形態によれば、妊娠女性検体の核酸分子の配列を決定するための方法は特に限定されない。具体的には、例えば、これらに限定されないが、ペアエンド・シーケンシング、シングルエンド・シーケンシング、エンド・シーケンシングまたは単一分子シーケンシングを含む、当業者に知られている任意のシーケンシング法が、妊娠女性検体の核酸分子の配列を決定するために使用され得る。
【0067】
当業者は、核酸シーケンシング・データを取得した後、多数のシーケンシング・リードから構成される取得されたシーケンシング・データを、品質管理基準に従ってフィルタリングおよびスクリーニングして、シーケンシング品質の問題があるシーケンシング・リードを除去することができ、それにより後のデータ分析の正確度を向上できることを理解することができる。
【0068】
S200:推定分画および胎児分画の判定
妊娠女性検体から核酸シーケンシング・データを取得した後、核酸シーケンシング・データのシーケンシング・リードの数を分析することにより、妊娠女性検体の胎児分画および特定の染色体による推定分画が判定され得る。
【0069】
本発明の一実施形態によれば、胎児分画とは、末梢血などの妊娠女性検体のフリー核酸中の総フリー核酸の数に対する、胎児からのフリー核酸の数の比を言う。通常、胎児分画の値は、在胎週数の増加と共に大きくなる。例えば、在胎12週前後では、総フリー核酸に対する胎児フリー核酸(時に直截に「胎児フリーDNA」と呼ばれることもある)の比(すなわち「胎児分画」)は、10から14%に達し得、在胎20週後には、この比は20%以上に達し得る。胎児が染色体異数性などの異常状態を有する場合、胎児分画は異常なものとなる。したがって、胎児分画は、妊娠女性検体を特徴付ける重要な指標として使用され得る。
【0070】
当業者は、各種の知られている方法で妊娠女性検体の胎児分画データを得ることができる。例えば、本発明の一実施形態によれば、これに限定されないが、Y染色体推定法、SNPに基づく胎児特異SNP部位法、およびヌクレオソームに基づくインプリンティング法を含む方法が使用され得る。しかし、本発明の発明者らは、これらの方法にはそれぞれの限界があることを発見した。例えば、Y染色体推定法は女性胎児には適さず、SNPに基づく胎児特異SNP部位法は、父親のDNA検体を得る必要があり(時にそのような検体はほとんど得られないことがある)、ヌクレオソームに基づくインプリンティング法は、精度が低く、モデルを構築する際に深層シーケンシングを行う必要がある。
【0071】
図2を参照すると、本発明の一実施形態によれば、核酸検体の胎児分画は以下のステップにより判定されることができ、具体的には、
S210:所定の窓に入るシーケンシング・リードの数を判定するために、妊娠女性検体から得られた核酸シーケンシング・データを参照配列と比較するステップ、および
S220:所定の窓に入るシーケンシング・リードの数に基づいて、妊娠女性検体の胎児分画を判定するステップ、を含む。
【0072】
胎児分画を判定する方法は、特定の窓(すなわち、特定の長さの核酸配列)内のシーケンシング・リードの数に基づき、それは胎児分画と明らかに相関がある。したがって、少なくとも1つの所定の窓内のシーケンシング・リードの数を判定することにより、妊娠女性検体の胎児分画が、例えば加重平均方式で、逆方向に得られる。所定の窓は、統計または機械学習によって決定され得る。本発明の一実施形態によれば、所定の窓は、参照ゲノム配列の特定の染色体を連続的に分割することによって得られ、それぞれの所定の窓の重みがさらに使用されて胎児分画を判定する。本発明のいくつかの特定の例によれば、それぞれの所定の窓の重みは、訓練検体を使用することによって予め決定される。したがって、結果は正確で、信頼性が高く、反復可能となる。
【0073】
本発明の一実施形態によれば、重みは、リッジ回帰統計モデルおよびニューラル・ネットワーク・モデルの少なくとも一方を使用して決定される。本発明のいくつかの実施形態によれば、ニューラル・ネットワーク・モデルは、TensorFlow学習システムを採用する。本発明のいくつかの特定の例によれば、TensorFlow学習システムのパラメータは、各窓の常染色体のシーケンシング・データの数を入力層として採用すること、胎児分画を出力層として採用すること、ReLuをニューロン・タイプとして採用すること、および、Adam、SGD、およびFTRLから選択される少なくとも1つの最適化アルゴリズム、好ましくはFTRL、を採用することを含む。好ましくは、TensorFlow学習システムのパラメータは、学習率が0.002に設定されること、隠れ層の数が1であること、隠れ層のニューロンの数が200であることをさらに含む。それにより、結果が正確で信頼性の高いものになる。この文脈で使用される用語「重み」は、指標に関する相対的な概念であることが留意されるべきである。指標の重みは、評価全体における指標の相対的重要性を言う。例えば、ある「所定の窓重み」は、すべての所定の窓のうちでの当該所定の窓の相対的重要性を言う。ある「結合重み」は、2つの異なる層の間のすべての結合における2つの異なる層の間の結合の相対的重要性を言う。
【0074】
胎児分画を判定する方法に関しては、PCT/CN2018/07204(発明の名称:Method and device for determining proportion of free nucleic acid of predetermined origin in biological sample)に詳細な紹介があり、そのため、ここでは繰り返されず、同特許出願の全文は参照によりここに組み込まれる。この方法が使用されて、胎児分画データを簡便、迅速、かつ正確に取得することができる。同時に、取得された胎児分画データは、胎児が染色体異数性を有するかどうかを判定する本発明の方法に、より効果的に適用され得る。
【0075】
また、妊娠女性検体から核酸シーケンシング・データを取得した後に、胎児分画が判定され得るだけではなく、所定の染色体による推定分画がさらに判定され得る。
【0076】
この文脈で使用される用語「推定分画」は、特定の染色体のDNA含量と正常な染色体のDNA含量との差を特徴付ける尺度を言う。具体的には、それは、特定の染色体のシーケンシング・リードの数と正常な染色体のシーケンシング・リードの数との差で表され得る。例えば、理想的な状態では、トリソミーのある染色体について、推定分画は、1つの余分な染色体のDNA含量を表す量であり、対して正常な染色体については、余分な染色体がないため、推定分画は0になる。
【0077】
この文脈は、染色体異数性の分析に着目するため、この文脈で使用される用語「正常な染色体」は、染色体異数性のない染色体を指し、これは、その染色体が他の異常を有さないことは意味しない。
【0078】
また、「正常な染色体のシーケンシング・リードの数」、「特定の染色体のシーケンシング・リードの数」、「所定のペアに該当するシーケンシング・リードの数」等の、この文脈で何回か述べられたような「...のシーケンシング・リードの数」という表現は、当該領域と一致され得るシーケンシング・リードの数を言う。例えば、SOAPなどの従来のソフトウェアを使用することにより、核酸シーケンシング結果が、hg19などの参照配列と位置合わせされるとき、特定の領域にマッピングされ得るシーケンシング・リードは、その領域のシーケンシング・リードと見なされる。また、本発明の一実施形態によれば、「一意にマッピングされたシーケンシング・リード」を、特定の領域に該当するシーケンシング・リード、すなわち、参照配列の1つの位置にのみマッピングできるシーケンシング・リード、としてのみ選択することもできる。さらに、シーケンシング時にシーケンシング・デバイスに対するGC含量などの特定の要因の影響によって引き起こされる偏向的なバイアスを考慮するとき、取得されたシーケンシング・リードの数が補正されてよく、例えばGC含量によって補正されてよい。具体的には、例えば、本発明の一実施形態によれば、補正されたシーケンシング・リードの数を判定するステップは以下を含む:
ヒト・ゲノム(GRCh37)などの参照配列を複数の窓に分割し、bwa(0.7.7-r441)を使用することによって高スループット・シーケンシング・リードをヒトの参照ゲノム(GRCh37)と位置合わせし、シーケンシング・リードが各染色体の各窓にマッピングされている情報、すなわち各窓のシーケンシング・リードの数、を計数し、i番目の窓のシーケンシング・リードの数をURiとして記録し、i番目の窓の参照ゲノムのGC含量をGCiとして記録し、シーケンシング・リードの数およびGC含量を窓ごとにフィッティングし、フィッティング係数に基づいて元の窓のシーケンシング・リードの数を補正し、i番目の窓のGC補正後の有効配列番号をURAiとして記録する。
【0079】
それにより、一意にマッピングされたシーケンシング・リードを選択し、GC含量補正処理を行うことにより、高スループット・シーケンシング・データの分析の正確度および精度が効果的に向上され得る。
【0080】
先に述べられたように、「推定分画」とは、特定の染色体のDNA含量と、正常な染色体のDNA含量との差を特徴付ける尺度を言う。したがって、推定分画は、妊娠女性検体を特徴付けるための重要な指標として使用されることが可能である。本発明の一実施形態によれば、推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定される。
【0081】
本明細書で使用される用語「所定の染色体」は、検査対象の染色体、すなわち、異数性が判定される必要のある染色体を含む。また、所定の染色体は、第2の比較染色体も含む。本発明の一実施形態によれば、第2の比較染色体は、少なくとも1つの常染色体を含む。推定分画は、所定の染色体ごとに別々に計算され、そのため、検査対象の染色体および第2の比較染色体の各々に対して、その染色体に対応する推定分画がそれぞれ得られることが留意されるべきである。また、第1の比較染色体および第2の比較染色体ならびに検査対象の染色体は、分析される他の検体からのデータを使用するのではなく、同じ検体から導出されることが留意されるべきである。
【0082】
本発明の一実施形態によれば、第2の比較染色体は、少なくとも10個の常染色体を含む。本発明の一実施形態によれば、第2の比較染色体は、15個の常染色体を含む。また、上述されたように、推定分画は、染色体が異常であるかどうかを特徴付ける指標として使用され得る。したがって、第2の比較染色体は、推定分画を使用することによって選択され得る。本発明の一実施形態によれば、それは、複数の常染色体による推定分画を判定するステップと、並べ替えられた常染色体から、小さい方から大きい方への優先順に従って、目標常染色体を第2の比較染色体として選択するステップと、をさらに含む。上記の説明に従えば、推定分画が小さいほど、染色体が正常な染色体である確率が高くなる。例えば、すべての常染色体(絶対推定分画の絶対値が使用され得る)による推定分画を小さい方から大きい方へ並べ替えることにより、推定分画が小さい上位15個の常染色体が第2の比較染色体として選択されてよい。したがって、不確定な染色体異数性状態の前提下で、適切な常染色体が第2の比較染色体として選択され得る。当業者であれば、実際には染色体の数に異常があるかどうかが経験を通じて判定される場合もあることを必ず理解されよう。例えば、統計分析により一部の染色体は異数性がほとんどないことが判明することがあり、そのため、そのような染色体が第2の比較染色体と見なされ得る。
【0083】
また、第1の比較染色体に関して、上述されたように、推定分画は、特徴的な染色体と正常な染色体との差を特徴付けるものである。したがって、本発明の一実施形態によれば、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む。ここで述べられる第1の比較染色体および第2の比較染色体は、重複していてよいことが留意されるべきである。具体的には、推定分画を計算する際、所定の染色体から特定の染色体が選択され、したがって、残りの染色体は「第2の比較染色体」の意味に包含され得るが、それらは依然として「所定の染色体と異なる常染色体」の概念に属する。例えば、染色体23が検査対象の染色体として選択され、染色体2~5が第2の比較染色体として使用される場合、染色体23による推定分画が計算されるとき、染色体2~5は、依然として第1の比較染色体として使用され得る。また、本発明の一実施形態によれば、第1の比較染色体は、複数の常染色体を含んでよく、そのシーケンシング・リードの平均数が推定分画を計算するために選択されてよい。このようにして、シーケンシング・データ分析の効率および正確度がさらに向上され得る。本発明の一実施形態によれば、第1の比較染色体のシーケンシング・リードの数は、複数の常染色体のシーケンシング・リードの平均数であり、複数の常染色体は、異数性を有さないことが分かっている少なくとも1つの常染色体を含む。本発明の一実施形態によれば、第1の比較染色体のシーケンシング・リードの数は、少なくとも15個の常染色体のシーケンシング・リードの平均数である。任意で、第1の比較染色体のシーケンシング・リードの数は、少なくとも20個の常染色体のシーケンシング・リードの平均数である。任意で、第1の比較染色体のシーケンシング・リードの数は、すべての常染色体のシーケンシング・リードの平均数である。このようにして、複数の染色体についてのシーケンシング・リードの平均数を選択することにより、染色体間の差が排除され得る。
【0084】
本発明の一実施形態によれば、推定分画は、式:
Fj=2×|Rj-Rr|/Rr
に従って判定され、ここで、
jは、推定分画が判定される必要のある染色体の通し番号を表し、
Fjは、染色体jによる推定分画を表し、
Rrは、複数の常染色体のシーケンシング・リードの平均数を表し、
Rjは、染色体jのシーケンシング・リードの数を表す。
【0085】
本発明者らは、この式によって計算された推定分画は、後の機械学習分類モデルに効果的に適用され得ることを発見した。
【0086】
上述されたように、このステップで判定される胎児分画および推定分画は両方とも、染色体異数性によって異なる度合いで影響される。したがって、これら2つのパラメータは、後の異数性検出で使用され得る。
【0087】
S300:第1の特徴および第2の特徴の判定
胎児分画および推定分画が判定された後、それらのパラメータはさらに検体の特徴値として使用されることが可能であり、そのため、さらに機械学習を使用することによって分析が行われてよい。
【0088】
具体的には、本発明の一実施形態によれば、第1の特徴は、検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差によって判定され、第2の特徴は、検査対象の染色体による事前に判定された推定分画と胎児分画との差によって判定される。それにより、得られた第1の特徴および第2の特徴は、異数性によって影響され得る特徴と見なされてよく、よって後の分析に効果的に適用され得る。本発明の一実施形態によれば、当業者は、各種のアルゴリズムを使用して、例えば値の差、値の比等を計算することにより、上述の差を特徴付けることができる。
【0089】
上述されたように、第2の比較染色体による推定分画は、好ましくは、複数の常染色体による平均推定分画である。その結果、分析の効率および正確度がさらに向上され得る。
【0090】
また、本発明の一実施形態によれば、第1の特徴は、式:
X1=Fi-Fr
に従って判定され、ここで、
X1は、第1の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Frは、第2の比較染色体による推定分画の平均値を表す。
【0091】
本発明の一実施形態によれば、第2の特徴は、式:
【数3】
【0092】
に従って判定され、ここで、
X2は、第2の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Faは、胎児分画を表す。
【0093】
本発明の一実施形態によれば、そのようにして得られた第1の特徴および第2の特徴は、互いによって採用される差を反映することができ、さらに、得られた値はすべて同じオーダーにあり、それにより、単一のパラメータが過度に分析結果に影響する状況を回避する。特徴の選択が不適当である場合、後の分析結果にバイアスが現れることがある。例えば、Kモデルでは、検体間の距離が、それら検体の特徴に応じて計算されるべきであり(例えば、検体x
1の特徴が
【数4】
【0094】
【0095】
となり、そして検体x
1と検体x
2との間の距離は
【数6】
【0096】
となり、それら2つの検体間の特徴値が極端に異なる場合、例えば、距離が
【数7】
【0097】
である場合、それら2次元特徴は等しく重要ではあるが、第2の次元特徴の方が距離に対してより大きい影響を有することが明らかである。
【0098】
この影響を排除するために、本発明の一実施形態によれば、そのようにして得られた第1の特徴および第2の特徴が、第1の特徴および第2の特徴の絶対値がそれぞれ独立して0から1の間になるように、後続のステップの前に標準化される。本発明の一実施形態によれば、第1の特徴および第2の特徴を標準化する方法は特に限定されない。具体的には、以下の方法が使用されて、次の式に従って、同じ次元のデータ(そのすべてが第1の特徴または第2の特徴である)のバッチを処理することができる。
【0099】
newValue=(oldValue-min)/(max-min)
ここで、minおよびmaxは、このデータのバッチの最小値および最大値であり、oldValueは、処理前の値を表し、newvalueは、正規化処理後の値を表す。
【0100】
その結果、最終的な分析結果に対する特定の特徴の過度な影響を排除することができ、よって分析結果の正確度を向上させることができる。
【0101】
S400:第1の特徴および第2の特徴に基づく異数性の判定
上述されたように、第1の特徴および第2の特徴の値は両方とも異数性によって影響される。したがって、第1の特徴および第2の特徴を得た後に、胎児が検査対象の染色体に異数性を有するかどうかを判定するために、それに対応する対照検体のデータが使用される。具体的には、対照検体は、陽性検体および陰性検体を含む。陽性検体は、検査対象の染色体に異数性を有し、陰性検体は、検査対象の染色体に異数性を有さない。
【0102】
第1の特徴および第2の特徴を分類特徴として使用し、検査対象の検体を検査対象の染色体について陽性検体または陰性検体に分類することにより、検査対象の染色体が異数性を有するかどうかの判定が達成され得る。本発明の一実施形態によれば、本発明者らは、研究過程で、陽性検体の数と陰性検体の数とが一定の比であるときに分析の正確度がさらに向上され得ることを発見した。例えば、本発明の一実施形態によれば、陽性検体の数と陰性検体の数との比は、1:4以上である。本発明の一実施形態によれば、陽性検体の数と陰性検体の数との比は、4:1を超えない。本発明の一実施形態によれば、陽性検体の数と陰性検体の数との比は、1:0.1~5である。本発明の一実施形態によれば、陽性検体の数と陰性検体の数との比は、1:0.25~4である。本発明者らは、モデル結果のバイアスは上記の比を使用することによって回避され得ることを発見した。本発明者らは、過度に多くの陽性検体があると、結果は陽性の方にバイアスされる、すなわち偽陽性率が上昇し、過度に多くの陰性検体があると、結果は陰性の方にバイアスされる、すなわち偽陰性率が上昇することを発見した。
【0103】
本発明の一実施形態によれば、陽性検体および陰性検体のどちらも、検査対象の染色体以外の染色体に異数性を有さない。その結果、対照検体の分類参照能力がさらに向上され得る。
【0104】
本発明の一実施形態によれば、第1の特徴および第2の特徴を分類のために使用する方法は特に限定されず、ニューラル・ネットワーク、SVM法等の各種の機械学習法が使用され得る。詳しい研究の際、本発明者らは、ニューラル・ネットワークによって必要とされる訓練セットの数は比較的多く、SVMは、分類の正確度を向上させるために分類に追加的なパラメータを必要とする場合もあることを発見した。本発明の一実施形態によれば、第1の特徴および第2の特徴が使用されて、妊娠女性検体および対照検体の2次元特徴ベクトルを判定してよく、それら検体間の距離がその2次元特徴ベクトルによって判定され、妊娠女性検体が陽性検体または陰性検体として分類されることにより、胎児が検査対象の染色体に異数性を有するかどうかを判定する。本発明の一実施形態によれば、使用される距離は、これらに限定されないが、ユークリッド距離、マンハッタン距離、またはチェビシェフ距離を含む。
【0105】
具体的には、本発明の一実施形態によれば、分類分析のためにk最近傍法(KNN)モデルが使用され得る。理解を容易にするために、KNNモデルの処理が、以下のように
図3を参照して簡単に説明される。
【0106】
本発明の一実施形態によれば、分類処理は、
S410:妊娠女性検体と対照検体の各々との間の距離をそれぞれ計算するステップ;
S420:得られた距離を並べ替えるステップであって、並べ替えは小さい方から大きい方への順に基づく、ステップ;
S430:得られた並べ替えに基づいて、所定の数の対照検体を小さい方から大きい方へと選択するステップ(この所定の数がKNNモデルのk値である);
S440:得られた所定の数の対照検体中での陽性検体の数および陰性検体の数をそれぞれ判定するステップ;
S450:多数決法に基づいて妊娠女性検体の分類結果を判定するステップ、を含む。
【0107】
本発明の一実施形態によれば、所定の数は20以下である。本発明の一実施形態によれば、所定の数は3から10である。処理を助けるために、k値は、決定が行えない状況を回避するために奇数であってよい。無論、当業者は、検査対象となる種々の染色体に対して最終的に選択されるk値は異なってよいことを理解することができる。例えば、本発明の一実施形態によれば、T13およびT18の検出のために最終的に選択されるk値は7であり、T21の検出のために最終的に選択されるk値は9である。
【0108】
また、本発明の一実施形態によれば、検査対象の検体と所定の対照検体との間の距離は、並べ替えの前に予め重み付けされてよい。よって、検出の正確度がさらに向上され得る。
【0109】
当業者は、それら重み付け処理の重み付け係数またはKNNモデルのk値は、既知の検体を訓練用の訓練セットとして使用することにより、機械学習によって得られることを理解することができる。
【0110】
具体的には、本発明の一実施形態によれば、それは以下のステップを通じて行われ得る。
【0111】
A.検体セットの選択
再診(return visit)結果を有する検体が検体セットとして選択され、6:2:2の比で、訓練セット、テスト・セット、および検証セットに分割される。
【0112】
B.モデルの訓練
モデル入力:k値;訓練データ・セットT={(x1,y1),(x2,y2),...,(xN,yN)}、ここで、xi∈Rnは検体のn次元特徴ベクトルであり、yi∈{+1,-1},i=1,2,...,Nは検体の陰性または陽性のラベルであり(-1が陰性を表し、+1が陽性を表す)、Nは検体セットのサイズである。
【0113】
モデル出力:検体xが属するカテゴリy。
【0114】
C.モデルの検証
初期化k=1、k値は、モデルの予測能力が良好な正確度を示すまで、検証セットに基づいて継続的に調整される(交差検証やグリッド検索などの方法が使用されてよい)。
【0115】
D.モデル予測
訓練されたモデルが使用されて、テスト・セットに予測を行って、モデルの予測性能を評価する。
【0116】
それにより、この方法は、胎児が検査対象の染色体に異数性を有するかどうかを効果的に判定することができる。また、本発明の一実施形態によれば、この方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、この方法では検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。
【0117】
本発明の第2の態様では、上述の方法に対応して、本出願の一実施形態は、上述の方法を実施するための対応するデバイスも提供する。具体的には、本発明は、胎児が染色体異数性を有するかどうかを判定するためのデバイスを提供する。
図4を参照すると、胎児が染色体異数性を有するかどうかを判定するためのデバイスは、
妊娠女性検体から核酸シーケンシング・データを取得するように構成されたデータ取得モジュール100であって、妊娠女性検体は胎児フリー核酸を含み、核酸シーケンシング・データは、複数のシーケンシング・リードから構成される、データ取得モジュール100;
核酸シーケンシング・データに基づいて、妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するように構成された胎児分画・推定分画判定モジュール200であって、所定の染色体による推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、所定の染色体は、検査対象の染色体および第2の比較染色体を含み、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む、胎児分画・推定分画判定モジュール200;
検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差に基づいて第1の特徴を判定し、検査対象の染色体による推定分画と、胎児分画との差に基づいて第2の特徴を判定するように構成された特徴判定モジュール300;および
対応する対照検体のデータを使用することにより、第1の特徴および第2の特徴に基づいて、妊娠女性の胎児が検査対象の染色体に異数性を有するかどうかを判定するように構成された異数性判定モジュール400であって、対照検体は陽性検体および陰性検体を含み、陽性検体は検査対象の染色体に異数性を有し、陰性検体は検査対象の染色体に異数性を有さない、異数性判定モジュール400、を備える。
【0118】
本発明の一実施形態による胎児が染色体異数性を有するかどうかを判定するためのデバイスを使用することにより、胎児が染色体異数性を有するかどうかを判定するための上述の方法が効果的に実施されることができ、それにより、胎児が検査対象の染色体に異数性を有するかどうかが効果的に判定され得る。また、本発明の一実施形態によれば、本発明の方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。
【0119】
図5を参照すると、本発明の一実施形態によれば、胎児分画・推定分画判定モジュール200は、
所定の窓内に該当するシーケンシング・リードの数を判定するために、妊娠女性検体から得られた核酸シーケンシング・データを参照配列と比較するように構成された比較部210;および
所定の窓内に該当するシーケンシング・リードの数に基づいて、妊娠女性検体の胎児分画を判定するように構成された胎児分画計算部220、を備える。
【0120】
本発明の一実施形態によれば、胎児分画・推定分画判定モジュール200は、
推定分画計算部230であって、式:
Fj=2×|Rj-Rr|/Rr
に従って推定分画を判定するように構成された推定分画計算部230をさらに備え、ここで、
jは、推定分画が判定される必要のある染色体の通し番号を表し、
Fjは、染色体jによる推定分画を表し、
Rrは、複数の常染色体のシーケンシング・リードの平均数を表し、
Rjは、染色体jのシーケンシング・リードの数を表す。
【0121】
本発明の一実施形態によれば、胎児分画・推定分画判定モジュール200は、
複数の常染色体による推定分画を小さい方から大きい方への優先順で並べ替え、並べ替えられた常染色体から、目標常染色体を第2の比較染色体として選択するように構成された第2の比較染色体判定部240、を備える。
【0122】
本発明の一実施形態によれば、特徴判定モジュール300は、
第1の特徴判定部310であって、式:
X1=Fi-Fr
に従って第1の特徴を判定するように構成された第1の特徴判定部310を備え、ここで、
X1は、第1の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Frは、第2の比較染色体による推定分画の平均値を表す。
【0123】
本発明の一実施形態によれば、特徴判定モジュール300は、
第2の特徴判定部320であって、式:
【数8】
【0124】
に従って第2の特徴を判定するように構成された第2の特徴判定部320をさらに備え、ここで、
X2は、第2の特徴を表し、
iは、検査対象の染色体の通し番号を表し、
Fiは、検査対象の染色体による推定分画を表し、
Faは、胎児分画を表す。
【0125】
本発明の一実施形態によれば、特徴判定モジュール300は、
第1の特徴および第2の特徴の絶対値がそれぞれ独立して0から1の間になるように、第1の特徴および第2の特徴に標準化処理を行うように構成された標準化処理部330、をさらに備える。
【0126】
本発明の一実施形態によれば、異数性判定モジュール400は、妊娠女性検体および対照検体の2次元特徴ベクトルを判定し、検体間の距離をその2次元特徴ベクトルに基づいて判定し、妊娠女性検体を陽性検体または陰性検体として分類することにより、胎児が検査対象の染色体に異数性を有するかどうかを判定するように構成される。
【0127】
本発明の一実施形態によれば、距離は、ユークリッド距離、マンハッタン距離、またはチェビシェフ距離である。
【0128】
本発明の一実施形態によれば、異数性判定モジュールは、k最近傍モデルを使用することによって妊娠女性検体の分類結果を判定するように構成される。
【0129】
本発明の一実施形態によれば、k最近傍モデルは、20を超えないk値を採用する。
【0130】
本発明の一実施形態によれば、k最近傍モデルは、3から10のk値を採用する。
【0131】
本発明の一実施形態によれば、k最近傍モデル内で、検体間の距離が重み付けされる。
【0132】
胎児が染色体異数性を有するかどうかを判定する方法に関して上記で説明された特性および利点はすべて、胎児が染色体異数性を有するかどうかを判定するためのデバイスに適用可能であり、よってここでは繰り返されないことが留意されるべきである。
【0133】
本発明の第3の態様では、本発明は、コンピュータ・プログラムが記憶されたコンピュータ可読記憶媒体を提供し、これは、プログラムがプロセッサによって実行されたとき、胎児が染色体異数性を有するかどうかを判定するための上述の方法のステップが実施されることを特徴とする。したがって、胎児が染色体異数性を有するかどうかを判定するための上述の方法が効果的に実施されることができ、それにより、胎児が検査対象の染色体に異数性を有するかどうかが効果的に判定され得る。また、本発明の一実施形態によれば、この方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。
【0134】
当業者は、胎児が染色体異数性を有するかどうかを判定するための方法に関して上記で説明された特性および利点は、このコンピュータ可読記憶媒体に適用可能であり、よってここでは繰り返されないことを理解することができる。
【0135】
本発明の第4の態様では、本発明は、上述のコンピュータ可読記憶媒体と、コンピュータ可読記憶媒体に記憶されたプログラムを実行するように構成された1つまたは複数のプロセッサと、を備える電子デバイスを提供する。したがって、胎児が染色体異数性を有するかどうかを判定するための上述の方法が効果的に実施されることができ、それにより、胎児が検査対象の染色体に異数性を有するかどうかが効果的に判定され得る。また、本発明の一実施形態によれば、この方法を実施するプロセスにおいて、この方法では、従来技術のシーケンシング・リードの数に基づいて閾値を設定するという方針が置き換えられ、検出のグレー・エリアが回避され、検体検出サイクルも短縮され、よって顧客経験が改良され、シーケンシングおよび検査の費用が大幅に低減されることが分かる。当業者は、胎児が染色体異数性を有するかどうかを判定するための方法に関して上記で説明された特性および利点は、この電子デバイスに適用可能であり、よってここでは繰り返されないことを理解することができる。
【0136】
本発明の第5の態様では、本発明は、機械学習分類モデルを構築するための方法を提供する。本発明の一実施形態によれば、方法は、
(a)複数の妊娠女性検体の各々に対して、
妊娠女性検体から核酸シーケンシング・データを取得するステップであって、妊娠女性検体は胎児フリー核酸を含み、核酸シーケンシング・データは複数のシーケンシング・リードから構成され、妊娠女性検体は、少なくとも1つの陽性検体および少なくとも1つの陰性検体を含み、陽性検体は検査対象の染色体に異数性を有し、陰性検体は検査対象の染色体に異数性を有さない、ステップ、
核酸シーケンシング・データに基づいて、妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、所定の染色体は、検査対象の染色体および第2の比較染色体を含み、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む、ステップ、および、検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差に基づいて第1の特徴を判定し、検査対象の染色体による推定分画と、胎児分画との差に基づいて第2の特徴を判定するステップ、
を行う(a)ステップと、
(b)胎児が異数性を有するかどうかを判定するための機械学習分類モデルを構築するために、複数の妊娠女性検体を検体として受け取り、検体の第1の特徴および第2の特徴を使用することによって機械学習訓練を行うステップと、を含む。
【0137】
この方法を使用することにより、本発明の一実施形態によれば、機械学習分類モデルが効果的に構築されることができ、そのため、その分類モデルがさらに使用されて、未知の検体を特定および分類して、特定の染色体について染色体異数性があるかどうかを判定することができる。本発明の一実施形態によれば、機械学習分類モデルはKNNモデルである。本発明の一実施形態によれば、KNNモデルは、ユークリッド距離を採用する。
【0138】
当業者は、胎児が染色体異数性を有するかどうかを判定するための方法に関して上記で説明された特性および利点は、モデルを構築するための方法に適用可能であり、よってここでは繰り返されないことを理解することができる。
【0139】
本発明の第6の態様では、本発明は、機械学習分類モデルを構築するためのデバイスを提供する。
【0140】
図7を参照すると、デバイスは、
特徴取得モジュール800であって、複数の妊娠女性検体の各々に対して、妊娠女性検体から核酸シーケンシング・データを取得するステップであって、妊娠女性検体は胎児フリー核酸を含み、核酸シーケンシング・データは複数のシーケンシング・リードから構成され、妊娠女性検体は、少なくとも1つの陽性検体および少なくとも1つの陰性検体を含み、陽性検体は検査対象の染色体に異数性を有し、陰性検体は検査対象の染色体に異数性を有さない、ステップと、核酸シーケンシング・データに基づいて、妊娠女性検体の胎児分画および所定の染色体による推定分画を判定するステップであって、所定の染色体による推定分画は、所定の染色体のシーケンシング・リードの数と、第1の比較染色体のシーケンシング・リードの数との差に基づいて判定され、所定の染色体は、検査対象の染色体および第2の比較染色体を含み、第1の比較染色体は、所定の染色体と異なる少なくとも1つの常染色体を含む、ステップと、検査対象の染色体による推定分画と、第2の比較染色体による推定分画との差に基づいて第1の特徴を判定し、検査対象の染色体による推定分画と、胎児分画との差に基づいて第2の特徴を判定するステップと、を行うように構成された特徴取得モジュール800と、
胎児が異数性を有するかどうかを判定するための機械学習分類モデルを構築するために、複数の妊娠女性検体を検体として受け取ることによって機械学習訓練を行うように構成された訓練モデル900と、を備える。このデバイスを使用することにより、機械学習分類モデルを構築するための上述の方法が効果的に実施されることができ、それにより、機械学習分類モデルを効果的に構築することができ、そのため、その分類モデルがさらに使用されて、未知の検体を特定および分類して、特定の染色体について染色体異数性があるかどうかを判定することができる。
【0141】
本発明の一実施形態によれば、機械学習分類モデルはKNNモデルである。
【0142】
このデバイスを使用することにより、本発明の一実施形態によれば、機械学習分類モデルが効果的に構築されることができ、そのため、その分離モデルがさらに使用されて、未知の検体を特定および分類して、特定の染色体について染色体異数性があるかどうかを判定することができる。本発明の一実施形態によれば、機械学習分類モデルはKNNモデルである。本発明の一実施形態によれば、KNNモデルは、ユークリッド距離を採用する。
【0143】
当業者は、胎児が染色体異数性を有するかどうかを判定するための方法に関して上記で説明された特性および利点は、モデルを構築するためのデバイスに適用可能であり、よってここでは繰り返されないことを理解することができる。
【0144】
本発明の第7の態様では、本発明は、コンピュータ・プログラムが記憶されたコンピュータ可読記憶媒体を提供し、プログラムがプロセッサによって実行されたとき、先行する請求項に記載された機械学習分類方法を構築するためのステップが実施される。その結果、機械学習分類モデルを構築するための上述の方法が効果的に実施されることができ、それにより、機械学習分類モデルを効果的に構築することができ、そのため、その分類モデルがさらに使用されて、未知の検体を特定および分類して、特定の染色体について染色体異数性があるかどうかを判定することができる。当業者は、胎児が染色体異数性を有するかどうかを判定するための方法に関して上記で説明された特性および利点は、モデルを構築するためのコンピュータ可読記憶媒体に適用可能であり、よってここでは繰り返されないことを理解することができる。
【0145】
本発明の技術的解決法が以下に実施例と併せて説明される。当業者は、以下の実施例は、本発明を説明するためにだけ使用され、本発明の範囲を制限するものと見なされるべきではないことを理解されよう。実施例中で具体的な技術または条件が示されない場合、その手順は、当技術分野の文献に記載される技術もしくは条件に従って、または製品仕様に従って実施されるものとする。実施例中で具体的な条件が示されない場合、それは、従来の条件または製造者によって推奨される条件に従って実施されるものとする。使用される試薬や機器で、製造者が記載されないものはすべて、市場で得ることが可能な従来の製品である。
【0146】
実施例1:
この実施例では、モデルの訓練およびモデル予測が、BGISEQ-500プラットフォームに基づき、2017~2018年の再診結果を伴う3,075個の検体に基づいて行われた(男性胎児:1716事例、女性胎児:1359事例、陰性検体:2215事例、染色体21トリソミー(T21):637事例、トリソミー18(T18):165事例、トリソミー13(T13):58事例を含む)。
【0147】
まず、参照ゲノム(GRCh37)が、固定長(この方法では60Kが使用された)に従って隣接する窓に分類され、Nエリア内の窓がフィルタリングで除外され、窓の中のGC含量が計数され、それにより参照窓ファイルhg19.gcを得た;
次に、CGプラットフォームに基づくSEシーケンシング後の配列(35bp)が、参照ゲノム(GRCh37)と位置合わせされた(BWA V0.7.7-r441);
フィルタリングおよび予備統計:比較結果に従って、一意に完全にマッピングされた配列が選択され、反復的な配列および塩基ミスマッチのある配列を除去して有効配列を得、次いで、各窓の有効配列の数およびGC含量が、hg19.gcファイル内の窓に従って計数された;
GC補正、そのステップは以下の通りであった:
ある検体について、i番目の窓の有効配列の数がUR
iとして記録され、その窓の参照ゲノムのGC含量がGC
iとして記録され(hg19.gcファイルに記録された)、常染色体(染色体1-22)についてすべての窓にある有効配列の数の平均が
【数9】
【0148】
として記録され;
常染色体についてのすべての窓の有効配列の数およびGC含量を使用してフィッティングを行い(この実施例では3次スプライン・フィッティングが使用された)、それによりそれらの関係:ur=f(gc)を得た;
すべての染色体の窓に対する補正:
【数10】
【0149】
i=1,2,3,...,N;GC補正後のi番目の窓の有効配列の数がURAiとして記録された。
【0150】
各染色体による推定分画が次の式に従って計算された:
推定分画を計算するための式は以下の通りであった:
【数11】
【0151】
【0152】
は、染色体jの参照配列と一致されたGC補正されたシーケンシング・リードの数を表し、
【数13】
【0153】
は、すべての常染色体参照配列と一致されたGC補正されたシーケンシング・リードの平均数を表した。
【0154】
胎児分画は、従来の方法またはPCT/CN2018/072045に開示される方法に従って判定された。
【0155】
KNNモデルの訓練およびサンプル予測は、検体セットに基づいて行われ、具体的なステップは以下の通りであった:
(a)検体セットの分割およびデータの前処理:検体セットは、6:2:2の比で、訓練セット、検証セット、およびテスト・セットにランダムに分割され、それら訓練セット、検証セット、およびテスト・セットの検体にデータの前処理がそれぞれ行われ、それにより、各検体が、2次元特徴ベクトルおよび対応するラベル(-1が陰性を表し、+1が陽性を表した)を得た。
【0156】
(b)ハイパーパラメータkの選択:本発明者らにより、より小さいkの値が選択された場合(これは、より小さい近傍にある検体からなる訓練検体セットを予測に使用することに相当した)、予測結果は、隣接するサンプル点に非常に敏感になり、モデル全体が複雑になり、オーバーフィッティングを起こしやすくなり、より大きいkの値が選択された場合(これは、より大きい近傍にある訓練検体セットを予測に使用することに相当した)、この時に新たに入力された検体から遠い(検体と似ていない)訓練検体セットが同じく予測結果に影響し、予測を不適切にし、ある値のkを用いる制限事例では、新しく入力される検体が属したカテゴリに関係なく、訓練検体セット中で最も多いものを有するクラスに属すると単純に予測されることが発見された。したがって、本発明の実施では、概して、比較的小さい値がkとして採用された。
【0157】
(c)モデルの訓練:KNNモデルの訓練およびk値の選択、の2つの部分を含む。このとき、ユークリッド距離および多数決投票規則が選択された。
【0158】
KNNモデルの訓練:次の分類判定関数に対して:
f:R
n→{c
1,c
2}={-1,+1}
ここで、x∈R
nは、n次元の特徴空間であり、-1および+1はそれぞれ検体ラベル(-1が陰性を表し、+1が陽性を表した)であった。そして、誤分類の確率は以下となった:
P(Y≠f(X))=1-P(Y=f(X))
所与の検体x∈Xについて、最も近いk個の近傍訓練サンプル点からなる集合は、N
k(x)であった。カバーされる領域N
k(x)がc
jと分類された場合、誤分類の確率は以下となった。
【数14】
【0159】
【0160】
が最大化されなければならない。したがって、k値を選択した後、モデル訓練の工程は、
【数16】
【0161】
を最大化する工程となった。
【0162】
k値の選択:初期化k=1(k∈{1,2,...,20})が実施され、線形探索法を使用して検証セットに基づいてk値が決定された。その結果が
図8~13に示され、ここで
図8~13はいずれもROC曲線図であり、それぞれ、パラメータkとして異なる値が選択された場合の対応するROC曲線図を示し、これは対応する分類器の効果を反映しており、評価標準は、ROC曲線の下の面積を参照したAUCであり、AUCが大きいほど分類性能が良い。
図8および
図9は、KNNモデルを使用してそれぞれ6、7、8、および9のパラメータkでT21を検出したときのROC曲線を示していた。
図10および
図11は、KNNモデルを使用してそれぞれ6、7、8、および9のパラメータkでT18を検出したときのROC曲線を示していた。
図12および
図13は、KNNモデルを使用してそれぞれ6、7、8、および9のパラメータkでT13を検出したときのROC曲線を示していた。
図8~
図13の結果に従って、T13およびT18のために最終的に選択されたkは7であり、T21のために最終的に選択されたkは9であった。
【0163】
(d)モデル予測:上記ステップで訓練されたモデルに基づき、テスト・セットに対する予測が実施され、予測結果が以下の表に示された。
【表2】
【表3】
【表4】
【0164】
検出の感度、特異度、PPV、およびACCが計算され、結果が以下の表に示された。
【表5】
【0165】
2.5 SVMモデルとの比較
同じ訓練セット、検証セット、およびテスト・セットに基づき、SVM(サポート・ベクトル・マシン)法を使用して陰性検体および陽性検体を分類した。結果は以下の通りであった。
【表6】
【表7】
【表8】
【0166】
検出の感度、特異度、PPV、およびACCが計算され、結果が以下の表に示された。
【表9】
【0167】
このデータから、KNNモデルおよびSVMモデルはどちらも、テスト・セットに対してT13、T18およびT21の検出で未検出エラーは示さず、100%の感度を有していたことが分かる。しかし、T21の検出で、SVMモデルは14個の偽陽性検体を有したのに対し、KNNモデルは偽陽性検体を3つ有したに過ぎず、T18の検出で、SVMモデルは8個の偽陽性検体を有したのに対し、KNNモデルは、偽陽性検体を5個有したに過ぎず、T13の検査では、SVMモデルは8個の偽陽性検体を有したのに対し、KNNモデルは偽陽性検体を6個有したに過ぎなかった。T21、T18、またはT13であるかに関係なく、KNNモデルは常にSVMモデルよりも低い偽陽性率を有した。
【0168】
本発明者らの分析によると、KNNモデルの偽陽性率がSVMモデルよりも低いことの主な理由は、モデル自体、すなわちKNNが、主としてクラスタリングに基づいており、精緻化されたクラスタを多く有するのに対し、SVMは2つの単純なカテゴリしか有さず、よって詳細度においてKNNに劣るためである。
【0169】
本説明において、用語「一実施形態」、「いくつかの実施形態」、「実施例」、「具体的な実施例」、または「いくつかの実施例」等に関する説明は、その実施形態または実施例との関連で説明される特定の特性、構造、材料、または特徴が、本発明の少なくとも1つの実施形態または実施例に含まれることを意味する。本説明において、上記用語の形式的表現は、必ずしも同じ実施形態または実施例を指すとは限らない。さらに、説明される特定の特性、構造、材料、または特徴は、任意の1つまたは複数の実施形態または実施例内で適宜組み合わされてよい。
【0170】
本発明の例が示され、説明されたが、当業者は、本発明の原理および目的から逸脱することなく、様々な変更、改変、置換および改変がそれらの例に行われ得ることを理解することができる。本発明の範囲は、特許請求の範囲およびそれに相当するものによって定められる。