(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-16
(45)【発行日】2024-08-26
(54)【発明の名称】人工知能ベースの染色体異常検出方法
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240819BHJP
G16B 20/10 20190101ALI20240819BHJP
C12Q 1/6809 20180101ALI20240819BHJP
C12M 1/00 20060101ALI20240819BHJP
【FI】
C12Q1/6869 Z
G16B20/10
C12Q1/6809 Z
C12M1/00 A
(21)【出願番号】P 2022532058
(86)(22)【出願日】2020-11-27
(86)【国際出願番号】 KR2020017065
(87)【国際公開番号】W WO2021107676
(87)【国際公開日】2021-06-03
【審査請求日】2022-07-27
(31)【優先権主張番号】10-2019-0157257
(32)【優先日】2019-11-29
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】522211977
【氏名又は名称】ジーシー ジェノム コーポレーション
【氏名又は名称原語表記】GC GENOME CORPORATION
(74)【代理人】
【識別番号】100139594
【氏名又は名称】山口 健次郎
(72)【発明者】
【氏名】キ チャンソク
(72)【発明者】
【氏名】チョ ウンヘ
(72)【発明者】
【氏名】イ ジュンナム
(72)【発明者】
【氏名】イ テリム
(72)【発明者】
【氏名】アン ジンモ
【審査官】伊達 利奈
(56)【参考文献】
【文献】特表2019-531700(JP,A)
【文献】特表2014-534507(JP,A)
【文献】韓国特許第10-1686146(KR,B1)
【文献】Nature Communications, 2019.03.04, Vol.10, No.1041, pp.1-10
【文献】PLoS One, 2019.07.08, Vol.14, No.7, #e0209139, pp.1-19
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00
C12M 1/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
PubMed
(57)【特許請求の範囲】
【請求項1】
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)
工程b)で得られた整列された配列情報(reads)ベースの核酸断片(fragments)を用いたベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階を含み、
前記c)段階のベクトル化されたデータは、グランドキャニオンプロット(Grand Canyon plot,GCプロット)又はゲノミックキャッスルウォールプロット(Genomic Castle Wall plot ,GCWプロット)であり、
前記GCプロットは、整列された核酸断片の染色体区間別分布を核酸断片(fragment)間の距離を計算して生成し、ここで、前記計算は下記の段階:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片間の距離(距離値、FD)を計算する段階;
iii)各区間別に計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iv)前記iii)段階で計算された代表値を全核酸断片間の距離値の代表値で割って正規化(normalization)する段階;及び
v)各区間の順序をX軸値とし、前記iv)段階で計算した正規化値をY軸値としてGCプロットを生成する段階
を含んで行い、
前記GCWプロットは、下記の段階:
i)各染色体別に整列された核酸断片間の距離を計算する段階;
ii)前記i)段階で計算された距離値に基づいて各区間の距離の代表値を決定する段階;
iii)前記ii)段階で決定された染色体別代表値を標準化(standardization)する段階;
iv)異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階;及び
v)比較染色体群に属する染色体と異数性を判別する染色体をX軸に沿って順次に交差配列し、各染色体の標準化された計算値をY値とするGCWプロットを生成する段階
を含む方法によって行われ、
前記の順次に行う交差配列は、x軸に沿って([正常染色体の前記ii)段階の計算値],[異数性を判別する染色体の前記ii)段階の計算値])
n値を配列し、
前記代表値(RepFD)は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上であり、
前記(d)段階の人工知能モデルは、染色体状態が正常であるベクトル化されたデータと、染色体異常があるベクトル化されたデータとを区別できるように学習する、
人工知能ベースの染色体異常検出方法。
【請求項2】
前記a)段階は、次の段階を含む方法で行われることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法:
(a-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞又はその混合物から核酸を取得する段階;
(a-ii)採取された核酸から、塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を取得する段階;
(a-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
(a-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)で反応させる段階;及び
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階。
。
【請求項3】
前記iii)段階の代表値を標準化する段階は、下記の段階を含む方法で行われることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法:
1
)正常サンプルからなる標準集団を設定する段階;
2)前記標準集団から観察される染色体別RepFD値の平均(Reference_Mean)と標準偏差(Reference_Standard_Deviation)を計算する段階;
3)前記2)段階で計算した平均と標準偏差を下記数式1に代入してZ標準化する段階;
数式1:
Z
chr = ((RepFD
chr - Reference_Mean
chr) /Reference_Standard_Deviation
chr) + 5
4)前記3)段階で計算した染色体別Z
chr値を、異数性を判別しようとする染色体のZ
chr値で割る段階。
【請求項4】
前記人工知能モデルは、convolutional neural network(CNN)、Deep Neural Network(DNN)、Recurrent
Neural Network(RNN)及びオートエンコーダ(autoencoder)からなる群から選ばれることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
【請求項5】
前記人工知能モデルがCNNであり、二項分類(binary classification)を学習する場合に、損失関数は下記数式2で表示され、前記人工知能モデルがCNNであり、多クラス分類(Multi-class classification)を学習する場合に、損失関数は下記数式3で表示されることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法:
数式2:二項分類(Binary classification)
数式3:多クラス分類(Multi-class classification)
【請求項6】
前記d)段階の人工知能モデルが入力されたベクトル化されたデータを分析して出力する結果値は、DPI(Deep Probability Index)値であることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
【請求項7】
前記d)段階の基準値は0.5であり、0.5以上である場合に、染色体異常があると判定することを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
【請求項8】
コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)
工程b)で得られた整列された配列情報(reads)ベースの核酸断片を用いたベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)を比較して染色体異常の有無を判定する段階、
によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
前記c)段階のベクトル化されたデータは、グランドキャニオンプロット(Grand Canyon plot,GCプロット)又はゲノミックキャッスルウォールプロット(Genomic Castle Wall plot ,GCWプロット)であり、
前記GCプロットは、整列された核酸断片の染色体区間別分布を核酸断片(fragment)間の距離を計算して生成し、ここで、前記計算は下記の段階:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片間の距離(距離値、FD)を計算する段階;
iii)各区間別に計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iv)前記iii)段階で計算された代表値を全核酸断片間の距離値の代表値で割って正規化(normalization)する段階;及び
v)各区間の順序をX軸値とし、前記iv)段階で計算した正規化値をY軸値としてGCプロットを生成する段階
を含んで行い、
前記GCWプロットは、下記の段階:
i)各染色体別に整列された核酸断片間の距離を計算する段階;
ii)前記i)段階で計算された距離値に基づいて各区間の距離の代表値を決定する段階;
iii)前記ii)段階で決定された染色体別代表値を標準化(standardization)する段階;
iv)異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階;及び
v)比較染色体群に属する染色体と異数性を判別する染色体をX軸に沿って順次に交差配列し、各染色体の標準化された計算値をY値とするGCWプロットを生成する段階
を含む方法によって行われ、
前記の順次に行う交差配列は、x軸に沿って([正常染色体の前記ii)段階の計算値],[異数性を判別する染色体の前記ii)段階の計算値])
n値を配列し、
前記代表値(RepFD)は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上であり、
前記(d)段階の人工知能モデルは、染色体状態が正常であるベクトル化されたデータと、染色体異常があるベクトル化されたデータとを区別できるように学習する、
コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能ベースの染色体異常検出方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列したリードに基づいてベクトル化されたデータを生成した後、学習された人工知能モデルに入力して計算された値と基準値とを比較する方法を用いた人工知能ベースの染色体異常検出方法に関する。
【背景技術】
【0002】
染色体異常(chromosomal abnormality)は、遺伝的欠陥及び腫瘍疾患に関連している。染色体異常は、染色体の欠失又は重複、染色体のうち一部の欠失又は重複、又は染色体内の損傷(break)、転位(translocation)、又は逆位(inversion)を意味することもある。染色体異常は、遺伝的バランス障害の一つであって、胎児死亡又は肉体及び精神状態の深刻な欠陥及び腫瘍疾患を誘発する。例えば、ダウン症候群(Down’s syndrome)は、21番染色体が3個存在(trisomy 21)して誘発される染色体数異常のありふれた形態である。エドワード症候群(Edwards syndrome)(trisomy 18)、パトウ症候群(Patau syndrome)(trisomy 13)、ターナー症候群(Turner syndrome)(XO)、及びクラインフェルター症候群(Klinefelter syndrome)(XXY)も染色体数異常に該当する。また、腫瘍患者からも染色体異常が発見される。例えば、肝癌患者(Liver Adenomas and adenocarcinomas)から4q、11q、22q領域の重複と13q領域の欠失が確認され、膵癌患者からは2p、2q、6p、11q領域の重複と6q、8p、9p、21番染色体領域の欠失が確認された。これらの領域は、腫瘍と関連した腫瘍遺伝子(Oncogene)、癌抑制遺伝子(Tumor suppressor gene)領域と関連している。
【0003】
染色体異常は、核型検査(Karyotype)、FISH(Fluorescent In Situ Hybridization)を用いて検出可能である。このような検出法は、時間、努力及び正確度の側面で不利である。また、DNAマイクロアレイを染色体異常の検出に用いることができる。特に、ゲノムDNAマイクロアレイシステムは、プローブの作製が容易であり、染色体の拡張された領域の他に染色体のイントロン領域における染色体異常も検出できるが、染色体内の位置付け及び機能が確認されたDNA断片を多数作製することは困難である。
【0004】
近年、次世代シーケンシング技術が染色体数異常分析に用いられている(Park,H.,Kim et al.,Nat Genet 2010,42,400-405.;Kidd,J.M.et al.,Nature 2008,453,56-64)。しかしながら、この技術は、染色体数異常分析のための高いカバレッジ読み(coverage reading)を要求し、CNV測定は、独立した立証(validation)も必要とする。このため、非常に高コストとなり、結果が理解し難いため、その当時では一般の遺伝子検索分析として不適であった。
【0005】
一方、胎児染色体異常に対する既存の産前検査項目には、超音波検査、血中標識子検査、羊水検査、絨毛膜検査、経皮臍帯血検査などがある(Mujezinovic F,et al.Obstet Gynecol.2007,110(3):687-94.)。このうち、超音波検査と血中標識子検査は選別検査に、羊水染色体検査は確診検査に分類する。非侵襲的方法である超音波検査及び血中標識子検査は、胎児に対する直接の試料採取をせず、安全な方法であるが、検査の敏感度が80%以下と劣っている(ACOG Committee on Practice Bulletins.2007)。侵襲的方法である羊水検査、絨毛膜検査、経皮臍帯血検査は、胎児染色体異常を確診できるが、侵襲的医療行為による胎児の消失確率が存在するという短所がある。
【0006】
1997年にLo等が母体血漿及び血清から、胎児由来遺伝物質のY染色体塩基配列分析に成功し、母体内胎児遺伝物質を産前検査に利用可能になった(Lo YM,et al.Lancet.1997,350(9076):485-7)。母体血液中の胎児遺伝物質は、胎盤再形成過程中に細胞死過程を経た栄養膜細胞の一部分が物質交換機序によって母体血液に入ったものであり、実際には胎盤に由来し、これをcff DNA(cell-free fetal DNA)と定義する。
【0007】
cff DNAは、早ければ胚移植18日目から、遅くとも37日目には大部分の母体血液から発見される。cff DNAは、300bp以下の短い鎖であり、母体血液中に少量で存在する特徴を有するので、これを胎児染色体異常検出に適用する目的に、次世代塩基配列分析手法(NGS)を用いた大規模並列塩基分析技術が用いられている。大規模並列塩基分析技術を用いた非侵襲的胎児染色体異常検出性能は、染色体によって90~99%以上の検出敏感度を示しているが、偽陽性及び偽陰性の結果が1~10%に及んでおり、これに対する矯正技術が必要な現状である(Gil MM,et al.Ultrasound Obstet Gynecol.2015,45(3):249-66)。
【0008】
一方、工学分野で頻繁に接し得る入力パターンを特定のグループに分類する問題を解決する方案として、人間が持つ効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が活発に行われている。
【0009】
様々なコンピュータ適用研究のうち、効率的なパターン認識作用が起きる人間の頭脳細胞構造を工学的にモデリングした人工神経網(Artificial Neural Network)に関する研究がある。入力パターンを特定のグループに分類する問題を解決するために、人工神経網は、人間が有する学習という能力を摸倣したアルゴリズムを利用する。このアルゴリズムを用いて入力パターンと出力パターンとの間の写像(Mapping)を人工神経網が生成することができ、これを、人工神経網に学習能力がある、と表現する。また、人工神経網は、学習された結果に基づき、学習に使用されなかった
【0010】
入力パターンに対して比較的に正しい出力を生成できる一般化能力がある。学習及び一般化という2つの代表的な性能のため、人工神経網は、既存の順次的なプログラミング方法によってはなかなか解決し難い問題に適用されている。人工神経網はその使用範囲が広いので、パターン分類問題、連続写像、非線形システム識別、非線形制御及びロボット制御分野などに活発に応用されている。
【0011】
人工神経網とは、連結線で連結された数多くの人工ニューロンを用いて生物学的なシステムの計算能力を摸倣するソフトウェア又はハードウェアによって具現された演算モデルを意味する。人工神経網では、生物学的なニューロンの機能を単純化させた人工ニューロンを使用する。そして、連結強度を有する連結線を介して相互連結させ、人間の認知作用又は学習過程を行うことになる。連結強度は、連結線が有する特定値であり、連結加重値ともいう。人工神経網の学習は、教師あり学習と教師なし学習とに分けられる。教師あり学習とは、入力データとそれに対応する出力データを共に神経網に入れ、入力データに対応する出力データが出力されるように連結線の連結強度を更新させる方法である。代表的な学習アルゴリズムには、デルタ規則(Delta Rule)と誤り逆伝播学習(Back propagation Learning)がある。教師なし学習とは、目標値無しで入力データのみを用いて人工神経網が自ら連結強度を学習させる方法である。教師なし学習は、入力パターン間の相関関係によって連結加重値を更新させて行く方法である。
【0012】
機械学習で適用される多くのデータは、複雑化し次元が増えることにより、次元の呪い(curse of dimensionality)の問題が発生する。すなわち、これは、必要なデータの次元が無限に行くほど任意の2点間の距離が無限大に発散し、データの存在量、すなわち密度が高次元の空間では多少低くなるため、データの特性(Feature)を正しく反映できなくなってしまうことをいう(Richard Bellman,Dynamic Programming,2003,chapter 1)。近年、深層神経網(deep learning)の発達は、入力層(input layer)と出力層(output layer)との間に隠れた層(hidden layer)がある構造であって、入力層から伝達される変数値の線形結合(linear combination)を非線形関数で処理しながら、イメージ、映像、信号データなどの高次元のデータにおける分類器(classifier)の性能を大きく向上させたと報告されている(Hinton,Geoffrey,et al.,IEEESignal Processing Magazine Vol.29.6,pp.82-97,2012)。
【0013】
このような人工神経網を用いてバイオ分野に活用する様々な特許(KR10-2017-0185041、KR10-2017-0144237、KR10-2018-124550)が存在しているが、cffDNAの配列分析情報に基づき、人工神経網分析を用いて染色体異常を検出する方法についての研究は足りない実情である。
【0014】
そこで、本発明者らは、上記の問題点を解決し、高い敏感度及び正確度の人工知能ベースの染色体異常検出方法を開発するために鋭意努力した結果、染色体領域に整列されるリードに基づき、ベクトル化されたデータを生成し、これを学習された人工知能モデルで分析する場合に、高い敏感度及び正確度で染色体異常が検出できるということを確認し、本発明を完成するに至った。
【発明の概要】
【0015】
本発明の目的は、人工知能ベースの染色体異常検出方法を提供することである。
【0016】
本発明の他の目的は、人工知能ベースの染色体異常判定装置を提供することである。
【0017】
本発明のさらに他の目的は、上記の方法で染色体の異常を判定するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供することである。
【0018】
上記の目的を達成するために、本発明は、a)生体試料から核酸を抽出して配列情報を取得する段階;b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;c)前記整列された配列情報(reads)に基づき、ベクトル化されたデータを生成する段階;d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階を含む、人工知能ベースの染色体異常検出方法を提供する。
【0019】
本発明は、また、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;整列された配列情報(read)に基づき、ベクトル化されたデータを生成するデータ生成部;生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、染色体異常の有無を判定する染色体異常判定部を含む、人工知能ベースの染色体異常検出装置を提供する。
【0020】
本発明は、また、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含むが、a)生体試料から核酸を抽出して配列情報を取得する段階;b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;c)前記整列された配列情報(reads)に基づき、ベクトル化されたデータを生成する段階;d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階により染色体異常を検出するプロセッサによって実行されるように構成される命令を含む、コンピュータ可読記憶媒体を提供する。
【図面の簡単な説明】
【0021】
【
図1】本発明の人工知能ベース染色体異常を判定するための全体フローチャートである。
【0022】
【
図2】本発明の一実施例によって生成したGCプロットの例示であり、X軸は、区間別染色体を表し、Y軸は、各区間に該当する核酸断片間の距離値を意味する。
【0023】
【
図3】(A)は、本発明の一実施例によって生成した正常サンプルのGCWプロットの例示であり、(B)は、21番染色体が3個であるサンプルのGCWプロットの例示であり、X軸は染色体、Y軸は染色体に該当する核酸断片間の距離値をZ点数に変換したものを意味する。
【0024】
【
図4】(A)は、本発明の一実施例によって生成した正常サンプルのGCWプロットの例示であり、(B)は21番染色体が3個であるサンプルのGCWプロットの例示であり、X軸は染色体、Y軸は染色体に該当するリードの数をZ点数に変換したものを意味する。
【0025】
【
図5】(A)は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 21判定の正確度を確認した結果であり、(B)は、各データセット別確率分布を示した結果である。
【0026】
【
図6】(A)は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 18判定の正確度を確認した結果であり、(B)は、各データセット別確率分布を示した結果である。
【0027】
【
図7】(A)は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCプロットイメージデータを学習したディープラーニングモデルに対してtrisomy13判定の正確度を確認した結果であり、(B)は、各データセット別確率分布を示した結果である。
【0028】
【
図8】上パネルは、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCWプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 21判定の正確度を確認した結果であり、下パネルは、各データセット別確率分布を示した結果である。
【0029】
【
図9】左パネルは、
図8で学習したディープラーニングモデルで18番染色体の異常を検出した結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。
【0030】
【
図10】左パネルは、
図8で学習したディープラーニングモデルで13番染色体の異常を検出した結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。
【0031】
【
図11】左パネルは、
図8で学習したディープラーニングモデルで21番染色体の異常を検出するためにダウンサンプリングを試みた結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。
【0032】
【
図12】上パネルは、本発明の一実施例によって、核酸断片間の距離を計算した値の逆数値に基づいて生成したGCWプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 21判定の正確度を確認した結果であり、下パネルは、各データセット別確率分布を示した結果である。
【0033】
【
図13】上パネルは、
図12で学習したディープラーニングモデルで18番染色体の異常を検出した結果の正確度を確認した結果であり、下パネルは、確率分布を示した結果である。
【0034】
【
図14】上パネルは、
図12で学習したディープラーニングモデルで13番染色体の異常を検出した結果の正確度を確認した結果であり、下パネルは、確率分布を示した結果である。
【発明を実施するための形態】
【0035】
特に断りのない限り、本明細書で使われる全ての技術的及び科学的用語は、本発明の属する技術の分野における熟練した専門家によって通常理解されるのと同じ意味を有する。一般に、本明細書における命名法及び以下に記述する実験方法は、本技術分野でよく知られており、通常使われるものである。
【0036】
本発明では、サンプルから取得した配列分析データを参照遺伝体に整列した後、整列された核酸断片に基づいてベクトル化されたデータを生成した後、学習された人工知能モデルでDPI値を計算して基準値と比較して染色体異常を検出する場合に、高い敏感度及び正確度で染色体異常を検出できるということを確認しようとした。
【0037】
すなわち、本発明の一実施例では、血液から抽出したDNAをシーケンシングした後、参照染色体に整列した後、核酸断片間の距離又は量を一定の染色体区間別に計算し、各遺伝領域をX軸にし、核酸断片間の距離又は量をY軸にするベクトル化されたデータを生成した後、それをディープラーニングモデルに学習させてDPI値を計算し、DPI値が基準値以上の場合に染色体異常があると決定する方法を開発した(
図1)
【0038】
したがって、本発明は、一観点において、
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階、を含む、人工知能ベースの染色体異常検出方法に関する。
【0039】
本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であればいずれも使用可能であるが、好ましくは、細胞遊離核酸又は細胞内核酸の断片であってよい。ただし、これに限定されるものではない。
【0040】
本発明において、前記核酸断片は、直接に配列分析する、次世代塩基配列分析によって配列分析する、又は非特異的全長遺伝体増幅(non-specific whole genome amplification)によって配列分析して得たものであることを特徴とし得る。
【0041】
本発明において、前記核酸断片は、次世代塩基配列分析を利用する場合にはリードを意味できる。
【0042】
本発明において、用語“染色体の異常”は、染色体に発生する様々な変異を意味するが、大きく、数異常、構造異常、微細欠失、及び染色体不安定性などに区分できる。
【0043】
染色体の数異常は、染色体の個数に異常が発生する場合であり、例えば、ダウン症候群(Down Syndrome,21番目染色体が1個さらに多くて全染色体の数が47個)、ターナー症候群(Turner Syndrome、単一Xを有し、染色体の数が45個)、及びクラインフェルター症候群(Klinefelter Syndrome,XXYY、XXXY、XXXXYなどの染色体数を有する)のように、全染色体の個数である23対46個から異常が発生するあらゆる場合を含むことができる。
【0044】
染色体の構造異常は、欠失、重複、逆位、転座などの、染色体の個数には変化がないが、染色体の構造に変化が発生するあらゆる場合を意味する。例えば、5番染色体の一部分が欠失(猫泣き症候群)、7番染色体の一部分が欠失(ウィリアムズ症候群)、12番染色体の一部分が重複(ウォルフヒルシュホーン症候群)、9番と22番染色体との転座(慢性骨髄白血病)などが挙げられ、腫瘍患者から発見される一部の染色体領域の微細重複と微細欠失も含まれてよい。ただし、上述の内容に限定されるものではない。
【0045】
本発明において、
前記a)段階は、
(a-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びそれらの混合物から核酸を得る段階;
(a-ii)採取された核酸から塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階;
(a-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
(a-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)に反応させる段階;及び
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階;を含むことを特徴とし得る。
【0046】
本発明において、前記次世代シークエンサー(next-generation sequencer)は、当業界に公知の任意のシーケンシング方法で用いられてよい。選択方法によって分離された核酸のシーケンシングは、典型的には次世代シーケンシング(NGS)を用いて行われる。次世代シーケンシングは、個々の核酸分子又は高度に類似な方式で個々の核酸分子に対してクローンで拡張されたプロキシのうち一つのヌクレオチド配列を決定する任意のシーケンシング方法を含む(例えば、105個以上の分子が同時にシーケンシングされる。)。一実施形態において、ライブラリー内の核酸種の相対的存在比は、シーケンシング実験によって作られたデータからそれの同族配列の相対的発生数を計測することによって推定することができる。次世代シーケンシング方法は、当業界に公知されており、例えば、本明細書に援用により組み込まれた文献(Metzker,M.(2010)Nature Biotechnology Reviews 11:31-46)に記載されている。
【0047】
一実施形態において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる(例えば、ヘリコスバイオサイエンス(Helicos BioSciences)のヘリスコープ遺伝子シーケンシングシステム(HeliScope Gene Sequencing system)及びパシフィックバイオサイエンスのパックバイオアールエスシステム(PacBio RS system))。他の実施形態において、シーケンシング、例えば、より少ないが、より長いリードを生成する他のシーケンシング方法に比べて、シーケンシング単位当たりに配列のより多い塩基を生成する大量並列の短いリードシーケンシング(例えば、カリフォルニア州サンディエゴに所在するイルミナインコポレイテッド(Illumina Inc.)ソレキサシーケンサー(Solexa sequencer))方法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在のイルミナインコポレイテッド(Illumina Inc.)ソレキサシーケンサー(Solexa sequencer);454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)及びイオントレント(Ion Torrent))。次世代シーケンシングのための他の方法又は機械は、以下に制限されるものではないが、454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)、アプライドバイオシーステムズ(カリフォルニア州フォスターシティに所在;SOLiDシーケンサー)、ヘリコスバイオサイエンスコポーレーション(マサチューセッツ州カンブリッジに所在)、及びエマルジョン及びマイクロ流動シーケンシング手法ナノ点滴(例えば、ジヌバイオ(GnuBio)点滴)によって提供される。
【0048】
次世代シーケンシングのためのプラットホームは、以下に制限されるものではないが、ロシュ(Roche)/454のゲノムシーケンサー(Genome Sequencer:GS)FLXシステム、イルミナ(Illumina)/ソレキサ(Solexa)ゲノム分析器(Genome Analyzer:GA)、ライフ(Life)/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection:SOLiD)システム、ポロネーター(Polonator)のG.007システム、ヘリコスバイオサイエンスのヘリスコープ遺伝子シーケンシングシステム(Helicos BioSciences’ HeliScope Gene Sequencing system)及びパシフィックバイオサイエンス(Pacific Biosciences)のパックバイオアールエス(PacBio RS)システム、を含む。
【0049】
NGSテクノロジーズは、例えば、鋳型製造、シーケンシング及びイメージング及びデータ分析段階のうち一つ以上を含むことができる。
【0050】
鋳型製造。鋳型製造のための方法は、核酸(例えば、ゲノムDNA又はcDNA)を小さいサイズに無作為に破壊する段階、及びシーケンシング鋳型(例えば、断片鋳型又はメート対鋳型)を作る段階のような段階を含むことができる。空間的に分離された鋳型は、固体表面又は支持体に付着したり又は固定されてよいが、これは、大量のシーケンシング反応が同時に行われるようにする。NGS反応のために使用可能な鋳型の類型は、例えば、単一DNA分子に由来するクローンが増幅された鋳型及び単一DNA分子鋳型を含む。
【0051】
クローンが増幅された鋳型の製造方法は、例えば、エマルジョンPCR(emulsion PCR:emPCR)及び固体相増幅を含む。
【0052】
EmPCRは、NGSのための鋳型を製造するために用いることができる。典型的に、核酸断片のライブラリーが作られ、通常のプライミング部位を含有するアダプターは、断片の末端に結紮される。その後、断片は単一鎖に変性され、ビーズによって捕獲される。各ビーズは、単一核酸分子を捕獲する。増幅及びemPCRビーズの豊富化後に、多量の鋳型が付着し得、標準顕微鏡スライド(例えば、ポロネーター(Polonator))上でポリアクリルアミドゲルに固定され、アミノコーティングされたガラス表面(例えば、Life/APG;ポロネーター(Polonator))に化学的に架橋される、又は個々のピコタイタプレート(PicoTiterPlate:PTP)ウェル(例えば、ロシュ(Roche)/454)上に蒸着されるが、この際、NGS反応が行われ得る。
【0053】
固体相増幅もまた用いられ、NGSのための鋳型を生成することができる。典型的に、前方及び後方プライマーは、固体支持体に共有的に付着する。増幅された断片の表面密度は、支持体上でプライマー対鋳型の比として定義される。固体相増幅は、数百万個の空間的に分離された鋳型クラスター(例えば、イルミナ/ソレキサ(Illumina/Solexa))を生成できる。鋳型クラスターの末端は、NGS反応のための通常のプライマーに混成化されてよい。
【0054】
クローンで増幅された鋳型の製造のための他の方法は、例えば、多重置換増幅(Multiple Displacement Amplification:MDA)(Lasken R.S.Curr Opin Microbiol.2007;10(5):510-6)を含む。MDAは、非PCRベースのDNA増幅手法である。反応は、鋳型に対して無作為にヘキサマープライマーをアニーリングする段階、及び一定の温度で高忠実度酵素、典型的にФ29によってDNAを合成する段階を伴う。MDAは、より低い誤り頻度で巨大なサイズの生成物を作ることができる。
【0055】
PCRのような鋳型増幅方法は、標的にNGSプラットホームを結合させ得るか又はゲノムの特異的領域を豊富化させ得る(例えば、エクソン)。代表的な鋳型豊富化方法は、例えば、マイクロ点滴PCR手法(Tewhey R.et al.,Nature Biotech.2009,27:1025-1031)、カスタマイズ設計されたオリゴヌクレオチドマイクロアレイ(例えば、ロシュ(Roche)/ニンブルジェン(NimbleGen)オリゴヌクレオチドマイクロアレイ)及び溶液ベースの混成化方法(例えば、分子逆位プローブ(molecular inversion probe:MIP))(Porreca G.J.et al.,Nature Methods,2007,4:931-936;Krishnakumar S.et al.,Proc.Natl.Acad.Sci.USA,2008,105:9296-9310;Turner E.H.et al.,Nature Methods,2009,6:315-316)及びビオチン化されたRNA捕獲配列(Gnirke A.et al.,Nat.Biotechnol.2009;27(2):182-9)を含む。
【0056】
単一分子鋳型は、NGS反応のために利用可能な鋳型の他の類型である。空間的に分離された単一分子鋳型は、様々な方法によって固体支持体上に固定されてよい。一接近において、個々のプライマー分子は、固体支持体に共有的に付着する。アダプターは鋳型に添加され、鋳型は、その次に固定されたプライマーに混成化される。他の接近において、単一分子鋳型は、固定されたプライマーから単一鎖の単一分子鋳型をプライミングし延長させることによって固体支持体に共有的に付着する。その後、通常のプライマーは、鋳型に混成化される。さらに他の接近において、単一ポリメラーゼ分子は、プライミングされた鋳型が結合した固体支持体に付着する。
【0057】
シーケンシング及びイメージング。NGSのための代表的なシーケンシング及びイメージング方法は、以下に制限されるものではないが、サイクリック可逆的終結(cyclic reversible termination:CRT)、結紮によるシーケンシング(sequencing by ligation:SBL)、単一分子添加(パイロシーケンシング(pyrosequencing))及び実時間シーケンシングを含む。
【0058】
CRTは、ヌクレオチド取り込み、蛍光イメージング及び切断段階を最小限に含むサイクリック方法において可逆ターミネーターを使用する。典型的に、DNAポリメラーゼは、プライマーに鋳型塩基のヌクレオチドに対して相補的な単一の蛍光で修飾されたヌクレオチドを含める。DNA合成は、単一ヌクレオチドの添加後に終結され、含まれなかったヌクレオチドは洗浄される。含まれた標識ヌクレオチドの同一性を決定するためにイメージングが行われる。その後、切断段階において、ターミネーター/インヒビター及び蛍光染料は除去される。CRT方法を用いる代表的なNGSプラットホームは、以下に制限されるものではないが、全体内部反射蛍光(total internal reflection fluorescence:TIRF)によって検出された4色CRT方法と結合したクローンで増幅された鋳型方法を用いるイルミナ(Illumina)/ソレキサ(Solexa)ゲノム分析器(GA);及びTIRFによって検出された1色CRT方法と結合した単一分子鋳型方法を用いるヘリコスバイオサイエンス(Helicos BioSciences)/ヘリスコープ(HeliScope)を含む。
【0059】
SBLは、シーケンシングのためにDNAリガーゼ及び1塩基暗号化されたプローブ又は2塩基暗号化されたプローブのいずれかを使用する。
【0060】
典型的に、蛍光標識されたプローブは、プライミングされた鋳型に隣接した相補的配列に混成化される。DNAリガーゼは、プライマーに染料標識されたプローブを結紮させるために用いられる。非結紮プローブが洗浄された後、結紮されたプローブの同一性を決定するために蛍光イメージングが行われる。蛍光染料は、後続の結紮周期のために5’-PO4基を再生する切断可能なプローブを用いて除去されてよい。代案として、新しいプライマーは、古くなったプライマーが除去された後、鋳型に混成化されてよい。代表的なSBLプラットホームは、以下に制限されるものではないが、ライフ(Life)/APG/SOLiD(支持体オリゴヌクレオチド結紮検出)を含むが、これは、2塩基暗号化されたプローブを使用する。
【0061】
パイロシーケンシング方法は、他の化学発光酵素でDNAポリメラーゼの活性を検出する段階に基づく。典型的に、当該方法は、1回に1つの塩基対に沿って相補的鎖を合成し、各段階で実際に添加された塩基を検出することによってDNAの単一鎖をシーケンシングさせる。鋳型DNAは固定的であり、A、C、G及びTヌクレオチドの溶液は順次に添加され、反応から除去される。光は、単にヌクレオチド溶液が、鋳型の対をなしていない塩基を補充する時にのみ生成される。化学発光信号を生成する溶液の配列は、鋳型の配列を決定させる。代表的なパイロシーケンシングプラットホームは、以下に制限されるものではないが、PTPウェルに蒸着された1百万~2百万個のビーズによるemPCRによって製造されたDNA鋳型を使用するロシュ(Roche)/454を含む。
【0062】
実時間シーケンシングは、DNA合成の間に染料標識されたヌクレオチドの連続的取り込みをイメージングする段階を伴う。代表的な実時間シーケンシングプラットホームは、以下に制限されるものではないが、ホスフェート連結されたヌクレオチドが成長するプライマー鎖に含まれる時に配列情報を得るための個々の0モードウェーブガイド(zero-mode waveguide,ZMW)検出器の表面に付着したDNAポリメラーゼ分子を使用するパシフィックバイオサイエンスプラットホーム(Pacific Biosciences);蛍光共鳴エネルギー伝達(fluorescence resonance energy transfer,FRET)によるヌクレオチド取り込み後に、向上した信号を作るために付着した蛍光染料と共に遺伝子操作されたDNAポリメラーゼを使用するライフ(Life)/ビシゲン(VisiGen)プラットホーム;及び、シーケンシング反応で染料クエンチャーヌクレオチドを使用するLI-CORバイオサイエンス(Biosciences)プラットホームを含む。
【0063】
NGSの他のシーケンシング方法は、以下に制限されるものではないが、ナノポアシーケンシング、混成化によるシーケンシング、ナノトランジスターアレイベースのシーケンシング、ポロニー(polony)シーケンシング、走査型電子トンネルリング顕微鏡(scanning tunneling microscopy,STM)ベースのシーケンシング、及びナノワイヤー分子センサーベースのシーケンシングを含む。
【0064】
ナノポアシーケンシングは、単一核酸ポリマーから分析され得る高度に密閉した空間を提供するナノ規模ポアを通じて溶液中の核酸分子の電気泳動を伴う。ナノポアシーケンシングの代表的な方法は、例えば、文献[Branton D.et al.,Nat Biotechnol.2008;26(10):1146-53]に記載されている。
【0065】
混成化によるシーケンシングは、DNAマイクロアレイを使用する非酵素的方法である。典型的に、DNAの単一プールは蛍光で標識され、公知された配列を含有するアレイに混成化される。アレイ上の与えられたスポットから混成化信号はDNA配列を確認することができる。DNA二重鎖においてDNAのうち1本のそれの相補的鎖への結合は、混成体領域が短いか又は具体化したミスマッチ検出タンパク質が存在する時に、単一塩基ミスマッチに対してすら敏感である。混成化によるシーケンシングの代表的な方法は、例えば、文献(Hanna G.J.et al.,J.Clin.Microbiol.2000;38(7):2715-21;及びEdwards J.R.et al.,Mut.Res.2005;573(1-2):3-12)に記載されている。
【0066】
ポロニーシーケンシングは、ポロニー増幅及び多重単一塩基延長(FISSEQ)を通じてシーケンシングに従うことに基づく。ポロニー増幅は、ポリアクリルアミドフィルム上でインシチュでDNAを増幅させる方法である。代表的なポロニーシーケンシング方法は、例えば、米国特許出願公開第2007/0087362号に記載されている。
【0067】
炭素ナノチューブ電界効果トランジスター(Carbon NanoTube Field Effect Transistor:CNTFET)のようなナノトランジスターアレイベース装置も、NGSのために用いられてよい。例えば、DNA分子は伸張され、マイクロ作製された電極によってナノチューブにわたって駆動される。DNA分子は、炭素ナノチューブ表面と順次に接触し、DNA分子とナノチューブとの間の電荷伝達に起因して各塩基からの電流流れの差異が生成される。DNAはこれらの差異を記録することによってシーケンシングされる。代表的なナノトランジスターアレイベースシーケンシング方法は、例えば、米国特許公開第2006/0246497号に記載されている。
【0068】
走査型電子トンネルリング顕微鏡(STM)は、また、NGSのために用いられてよい。STMは、標本のラスター走査(raster scan)を行うピエゾ電子制御プローブを用いてそれの表面のイメージを形成する。STMは、例えば、作動器駆動可撓性ギャップと走査型電子トンネルリング顕微鏡を統合させることによって一貫した電子トンネルリングイメージング及び分光学を作る単一DNA分子の物理的特性をイメージングするために用いられてよい。STMを使用する代表的なシーケンシング方法は、例えば、米国特許出願公開第2007/0194225号に記載されている。
【0069】
ナノワイヤー分子センサーで構成された分子分析装置もまたNGSのために用いられてよい。このような装置は、DNAのようなナノワイヤー及び核酸分子に配置された窒素性物質の相互作用を検出できる。分子ガイドは相互作用及び後続する検出を許容するために、分子センサーに近くの分子をガイドするために配置される。ナノワイヤー分子センサーを用いる代表的なシーケンシング方法は、例えば、米国特許出願公開第2006/0275779号に記載されている。
【0070】
二重末端のシーケンシング方法がNGSのために用いられてよい。二重末端シーケンシングは、DNAのセンスとアンチセンス鎖の両方をシーケンシングするために、遮断及び未遮断プライマーを使用する。典型的に、これらの方法は、核酸の第1鎖に未遮断プライマーをアニーリングさせる段階;核酸の第2鎖に第2の遮断プライマーをアニーリングさせる段階;ポリメラーゼで第1鎖に沿って核酸を延長させる段階;第1シーケンシングプライマーを終結させる段階;第2プライマーを遮断解除(deblocking)する段階;及び、第2鎖に沿って核酸を延長させる段階を含む。代表的な二重鎖シーケンシング方法は、例えば、米国特許第7,244,567号に記載されている。
【0071】
データ分析段階。
【0072】
NGSリードが作られた後、それらは公知の基準配列に対して整列されるか又はデノボ組立(de novo assemble)される。
【0073】
例えば、サンプル(例えば、腫瘍サンプル)から単一ヌクレオチド多形性及び構造的変異体のような遺伝的修飾を確認することは、基準配列(例えば、野生型配列)に対してNGSリードを整列することによって行われてよい。NGSに対する配列整列方法は、例えば、文献(Trapnell C.and Salzberg S.L.Nature Biotech.,2009,27:455-457]に記載されている。
【0074】
デノボ組立体の例は、例えば、文献(Warren R.et al.,Bioinformatics,2007,23:500-501;Butler J.et al.,Genome Res.,2008,18:810-820;及び、Zerbino D.R.and Birney E.,Genome Res.,2008,18:821-829)に記載されている。
【0075】
配列整列又は組立(assembly)は、一つ以上のNGSプラットホームからのリードデータを用いて、例えば、ロシュ(Roche)/454及びイルミナ(Illumina)/ソレキサ(Solexa)リードデータを混合して行われてよい。本発明において、前記整列段階は、これに制限されないが、BWAアルゴリズム及びhg19配列を用いて行われてよい。
【0076】
本発明において、前記(b)段階の配列整列は、コンピュータアルゴリズムであって、ゲノムにおいてリード配列(例えば、次世代シーケンシングからの、例えば、短いリード配列)が殆どリード配列と基準配列間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的方法又は接近を含む。配列整列問題に様々なアルゴリズムが適用されてよい。一部のアルゴリズムは相対的に遅いが、相対的に高い特異性を許容する。これらは、例えば、力動的プログラミングベースアルゴリズムを含む。力動的プログラミングは、それらがより簡単な段階に分けられることによって複雑な問題を解決する方法である。他の接近は、相対的により効率的であるが、典型的に徹底していない。これは、例えば、大量データベース検索のために設計されたヒューリスティク(heuristic)アルゴリズム及び確率的(probabilistic)方法を含む。
【0077】
典型的に、整列過程に2段階があり得る:候補者検査及び配列整列。候補者検査は、可能な整列位置のより短い列挙に対して全ゲノムから配列整列のための検索空間を減少させる。用語が示唆するように、配列整列は、候補者検査段階に提供された配列を有する配列を整列させる段階を含む。これは、広域整列(例えば、ニードルマンブンシュ(Needleman-Wunsch)整列)又は局所整列(例えば、スミスウォーターマン整列)を用いて行われてよい。
【0078】
大部分の属性整列アルゴリズムは、索引方法に基づく3類型のいずれか一つを特徴とし得る:ハッシュテーブル(例えば、BLAST、ELAND、SOAP)、接尾辞ツリー(例えば、Bowtie、BWA)及び併合整列(例えば、スライダー(Slider))に基づくアルゴリズム。短いリード配列は、整列のために典型的に用いられる。短いリード配列に対する配列整列アルゴリズム/プログラムの例は、以下に制限されるものではないが、BFAST(Homer N.et al.,PLoS One.2009;4(11):e7767)、BLASTN(ワールドワイドウェブ上のblast.ncbi.nlm.nih.govから)、BLAT(Kent W.J.Genome Res.2002;12(4):656-64)、ボウタイ(Bowtie)(Langmead B.et al.,Genome Biol.2009;10(3):R25)、BWA(Li H.and Durbin R.Bioinformatics,2009,25:1754-60)、BWA-SW(Li H.and Durbin R.Bioinformatics,2010;26(5):589-95)、クラウドバースト(CloudBurst)(Schatz M.C.Bioinformatics.2009;25(11):1363-9)、コロナライト(Corona Lite)(Applied Biosystems,Carlsbad,California,USA)、CASHX(Fahlgren N.et al.,RNA,2009;15,992-1002)、CUDA-EC(Shi H.et al.,J Comput Biol.2010;17(4):603-15)、ELAND(ワールドワイドウェブ上のbioit.dbi.udel.edu/howto/elandで)、GNUMAP(Clement N.L.et al.,Bioinformatics.2010;26(1):38-45)、GMAP(Wu T.D.and Watanabe C.K.Bioinformatics.2005;21(9):1859-75)、GSNAP(Wu T.D.and Nacu S.,Bioinformatics.2010;26(7):873-81)、ジー二アスアセンブラ(Geneious Assembler)(ニュージーランド、オークランドに所在のBiomatters Ltd.)、LAST、MAQ(Li H.et al.,Genome Res.2008;18(11):1851-8)、Mega-BLAST(ワールドワイドウェブ上のncbi.nlm.nih.gov/blast/megablast.shtmlで)、MOM(Eaves H.L.and Gao Y.Bioinformatics.2009;25(7):969-70)、MOSAIK(ワールドワイドウェブ上のbioinformatics.bc.edu/marthlab/Mosaikで)、ノボアライン(Novoalign)(ワールドワイドウェブ上のnovocraft.com/main/index.phpで)、パルマッパー(PALMapper)(ワールドワイドウェブ上のfml.tuebingen.mpg.de/raetsch/suppl/palmapperで)、PASS(Campagna D.et al.,Bioinformatics.2009;25(7):967-8)、PatMaN(Prufer K.et al.,Bioinformatics.2008;24(13):1530-1)、PerM(Chen Y.et al.,Bioinformatics,2009,25(19):2514-2521)、ProbeMatch(Kim Y.J.et al.,Bioinformatics.2009;25(11):1424-5)、QPalma(de Bona F.et al.,Bioinformatics,2008,24(16):i174)、RazerS(Weese D.et al.,Genome Research,2009,19:1646-1654)、RMAP(Smith A.D.et al.,Bioinformatics.2009;25(21):2841-2)、SeqMap(Jiang H.et al.Bioinformatics.2008;24:2395-2396.)、Shrec(Salmela L.,Bioinformatics.2010;26(10):1284-90)、SHRiMP(Rumble S.M.et al.,PLoS Comput.Biol.,2009,5(5):e1000386)、SLIDER(Malhis N.et al.,Bioinformatics,2009,25(1):6-13)、スリムサーチ(SLIM Search)(Muller T.et al.,Bioinformatics.2001;17 Suppl 1:S182-9)、SOAP(Li R.et al.,Bioinformatics.2008;24(5):713-4)、SOAP2(Li R.et al.,Bioinformatics.2009;25(15):1966-7)、SOCS(Ondov B.D.et al.,Bioinformatics,2008;24(23):2776-7)、SSAHA(Ning Z.et al.,Genome Res.2001;11(10):1725-9)、SSAHA2(Ning Z.et al.,Genome Res.2001;11(10):1725-9)、スタンピー(Stampy)(Lunter G.and Goodson M.Genome Res.2010,epub ahead of print)、タイパン(Taipan)(ワールドワイドウェブ上のtaipan.sourceforge.netで)、UGENE(ワールドワイドウェブ上のugene.unipro.ruで)、XpressAlign(ワールドワイドウェブ上のbcgsc.ca/platform/bioinfo/software/XpressAlignで)、及びZOOM(カナダオンタリオ州ウォータールーに所在のバイオインフォマティクスソリューションインコポレイテッド(Bioinformatics Solutions Inc.))を含む。
【0079】
配列整列アルゴリズムは、例えば、シーケンシング手法、リード長さ、リード数、入手可能なコンピューティング資料及び敏感性/スコアリング必要条件を含む多数の因子に基づいて選択されてよい。異なる配列整列アルゴリズムは、異なる速度レベル、整列敏感性及び整列特異性を達成することができる。整列特異性は、予測された整列と比較して正確に整列された典型的にサブミッションから発見されるように、整列された標的配列残基の百分率のことを指す。整列敏感性は、また、サブミッションで正確に整列された一般に予測された整列から発見されるように、整列された標的配列残基の百分率のことを指す。
【0080】
整列アルゴリズム、例えば、ELAND又はSOAPは、速度が考慮される第1因子である時に、基準ゲノムに対して短いリード(例えば、イルミナ(Illumina)/ソレキサ(Solexa)シーケンサー製)を整列する目的に用いられてよい。BLAST又はMega-BLASTのような整列アルゴリズムは、特異性が最も重要な因子である時に、これらの方法が相対的に遅いが、短い判読(例えば、ロシュ(Roche)FLX製)を用いて類似性調査の目的のために使用されてよい。MAQ又はノボアライン(Novoalign)のような整列アルゴリズムは、品質スコアを考慮し、よって、正確性が必須のときに、単一又はペアード末端データに対して使用されてよい(例えば、高速大量SNP検索で)。ボウタイ(Bowtie)又はBWAのような整列アルゴリズムは、バローズウィーラー変換(Burrows-Wheeler Transform:BWT)を利用し、したがって、相対的に小さいメモリフットプリント(memory footprint)を必要とする。BFAST、PerM、SHRiMP、SOCS又はZOOMのような整列アルゴリズムは、色空間リードをマッピングし、したがって、ABIのSOLiDプラットホームと共に用いられてよい。一部の適用において、2以上の整列アルゴリズムからの結果が組み合わせられてよい。
【0081】
本発明において、前記b)段階の配列情報(reads)の長さは5~5000bpであり、使用する配列情報の数は5,000~50,000個でよいが、これに限定されない。
【0082】
本発明において、前記c)段階のベクトル化されたデータは、整列された核酸断片に基づいて生成できるベクトル化されたデータであればいずれも利用可能であるが、好ましくは、グランドキャニオンプロット(Grand Canyon plot,GCプロット)又はゲノミックキャッスルウォールプロット(Genomic Castle Wall plot,GCWプロット)であることを特徴とし得るが、これに限定されるものではない。
【0083】
本発明においてベクトル化されたデータは、これに限定されないが、好ましくは、イメージ化されたことを特徴とし得る。イメージは、基本的にピクセルで構成されるが、ピクセルで構成されたイメージをベクトル化させると、イメージの種類によって1次元2Dベクトル(白黒)、3次元2Dベクトル(カラー(RGB))又は4次元2Dベクトル(カラー(CMYK))で表現されてよい。
【0084】
本発明のベクトル化されたデータは、イメージに限定されず、例えば、n個の白黒イメージを複数枚積み、n次元の2Dベクトル(Multi-dimensional Vector)を用いて人工知能モデルの入力データとして使用することができる。
【0085】
本発明において、GCWプロットは、正常染色体と判別染色体の区間別差異点を明確に示すために、正常染色体と判別染色体とを交差配列して作成したグラフを意味し、例えば、染色体別RepFD値をイメージ化する場合に、正常サンプルでは全染色体においてRepFD値が類似に出るので、GCWプロットにおいてUp-Downパターンが生成されないが、染色体異数性サンプルでは、異数性のある染色体において正常染色体に比べて相対的に低いRepFD値が出るので、GCWプロットにおいて明確なUp-Downパターンが生成される。このようなパターンの差異を極大化させるために(正常染色体,異数性染色体)nを反復、交差配列して人工知能モデルに学習させ、正常サンプルと染色体異数性サンプルとを区分可能にするものである。
【0086】
本発明において、GCプロットは、特定の区間(一定のbin又は異なるサイズのbin)をX軸に置き、核酸断片間の距離又は数のような核酸断片で表現できる数値をY軸に生成したプロットである。
【0087】
本発明において、前記c)段階を行うに先立って整列された核酸断片の整列一致度点数(mapping quality score)を満たす核酸断片を別に分類する段階をさらに含むことを特徴とし得る。
【0088】
本発明において、前記整列一致度点数(mapping quality score)は、所望の基準によって変わり得るが、好ましくは15~70点、より好ましくは50~70点でよく、最も好ましくは60点でよい。
【0089】
本発明において、前記c)段階のGCプロットは、整列された核酸断片の染色体区間別分布を、区間別核酸断片の数又は核酸断片間の距離を計算してベクトル化されたデータとして生成することを特徴とし得る。
【0090】
本発明において、核酸断片の数又は核酸断片間の距離計算値をベクトル化する方法は、計算値をベクトル化する公知の技術であればいずれも利用可能である。
【0091】
本発明において、前記整列された配列情報の染色体区間別分布を核酸断片の数で計算することは、下記の段階を含んで行うことを特徴とし得る:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片の数を決定する段階;
iii)各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化(normalization)する段階;及び
iv)各区間の順序をX軸値とし、前記iii)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
【0092】
本発明において、前記整列された配列情報の染色体区間別分布を核酸断片間の距離で計算することは、下記の段階を含んで行うことを特徴とし得る:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片間の距離(Fragments Distance,FD)を計算する段階;
iii)各区間別に計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iv)前記iii)段階で計算された代表値を全核酸断片距離値の代表値で割って正規化(normalization)する段階;及び
v)各区間の順序をX軸値とし、前記iv)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
【0093】
本発明において、前記代表値(RepFD)は、FD値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数及びそれらの組合せからなる群から選ばれる一つ以上であることを特徴とし得るが、これに限定されるものではない。
【0094】
本発明において、前記一定区間(bin)は、1Kb~3Gbであることを特徴とし得るが、これに限定されるものではない。
【0095】
本発明では、核酸断片をグループ化する段階をさらに用いることができ、このとき、グループ化は、整列された核酸断片のアダプター配列に基づいて行うことができる。正方向に整列された核酸断片と逆方向に整列された核酸断片とに別個に区分し、選別された配列情報に対して核酸断片間の距離を計算することができる。
【0096】
本発明において、前記FD値は、取得したn個の核酸断片に対して、i番目核酸断片の基準値とi+1~n番目核酸断片から選択されるいずれか一つ以上の核酸断片の基準値との間の距離として定義されることを特徴とし得る。
【0097】
本発明において、前記FD値は、取得したn個の核酸断片に対して、第1核酸断片の基準値と第2~第n個の核酸断片からなる群から選ばれるいずれか一つ以上の核酸断片の基準値との距離を計算し、それらの和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をFD値として使用できるが、これに限定されるものではない。
【0098】
本発明において、“一つ以上の値及び/又は一つ以上のそれらの逆数値”という記載は、上述した数値のから1つ又は2つ以上が組み合わせられて使用可能であるという意味で解釈される。
【0099】
本発明において、前記“核酸断片の基準値”は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。
【0100】
前記FD値は、取得したn個の核酸断片に対して、次のように定義できる。
【0101】
FD=Dist(Ri~Rj)(1<i<j<n)
【0102】
ここで、Dist関数は、選別されたRiとRjの両核酸断片間に含まれる全ての核酸断片の整列位置値の差の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値を計算する。
【0103】
すなわち、本発明において、FD値(Fragment Distance Value)は、整列された核酸断片間の距離を意味する。ここで、距離計算のための核酸断片の選別の場合の数は、次のように定義できる。合計N個の核酸断片が存在する場合に、
個の核酸断片間距離の組合せが可能である。すなわち、iが1の場合に、i+1は2となり、2~n番目核酸断片から選択されるいずれか一つ以上の核酸断片との距離を定義することができる。
【0104】
本発明において、前記FD値は、前記i番目核酸断片内部の特定位置とi+1~n番目のいずれか一つ以上の核酸断片内部の特定位置との間の距離を計算することを特徴とし得る。
【0105】
例えば、ある核酸断片の長さが50bpであり、染色体1番の4,183位置に整列されているとすれば、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,183~4,232である。
【0106】
前記核酸断片と隣接した50bp長の核酸断片が染色体1番の4,232番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,232~4,281であり、両核酸断片間のFD値は、1~99になり得る。
【0107】
さらに他の隣接した50bp長の核酸断片が染色体1番の4123番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,123~4,172であり、両核酸断片間のFD値は61~159であり、最初の例示核酸断片とのFD値は12~110であり、前記両FD値範囲の一つの値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をFD値として使用でき、好ましくは、両FD値範囲の一つの値の逆数値であることを特徴とし得るが、これに限定されるものではない。
【0108】
好ましくは、本発明において、前記FD値は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。
【0109】
本発明において、FDの中央値は、計算されたFD値を大きさの順に整列したとき、最も中央に位置する値を意味する。例えば1、2、100のように3個の値があるとき、2が最も中央にあるので、2が中央値となる。仮に、偶数個のFD値がある場合に、中央にある2つの値の平均を中央値として決定する。例えば、1、10、90、200のFD値がある場合、中央値は10及び90の平均である50となる。
【0110】
本発明において、前記任意の値は、核酸断片の位置を示し得るものであればいずれも利用可能であるが、好ましくは、0~5kbp、又は核酸断片長さの0~300%、0~3kbp、又は核酸断片長さの0~200%、0~1kbp、又は核酸断片長さの0~100%、より好ましくは0~500bp又は核酸断片長さの0~50%であってよいが、これに限定されるものではない。
【0111】
本発明において、前記FD値は、ペアードエンドシーケンシング(paired-end sequencing)では、正方向及び逆方向配列情報(reads)の位置値に基づいて導出することを特徴とし得る。
【0112】
例えば、50bp長のペアードエンドリード対において、正方向リードは、染色体1番の4183番目位置に整列され、逆方向リードは4349番目位置に整列されると、この核酸断片の両末端は4183、4349となり、核酸断片距離に使用可能な基準値は、4183~4349である。このとき、前記核酸断片と隣接した他のペアードエンドリード対において、正方向リードは染色体1番の4349番目位置に整列され、逆方向リードは4515番目に整列されると、この核酸断片の位置値は、4349~4515である。この両核酸断片の距離は0~333になり得、最も好ましくは、各核酸断片の中央値の距離である166になり得る。
【0113】
本発明において、前記ペアードエンドシーケンシングで配列情報を取得する場合に、配列情報(reads)の整列点数が基準値未満である核酸断片は、計算過程から除外する段階をさらに含むことを特徴とし得る。
【0114】
本発明において、前記FD値は、シングルエンドシーケンシング(single-end sequencing)では、正方向又は逆方向配列情報(read)の位置値の一つの種類に基づいて導出することを特徴とし得る。
【0115】
本発明において、前記シングルエンドシーケンシングでは、正方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を足し、逆方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を引くことを特徴とし、前記任意の値は、FD値が核酸断片の位置を明確に表示可能にする値であればいずれも利用可能であるが、好ましくは0~5kbp又は核酸断片長さの0~300%、0~3kbp又は核酸断片長さの0~200%、0~1kbp又は核酸断片長さの0~100%、より好ましくは0~500bp又は核酸断片長さの0~50%でよいが、これに限定されるものではない。
【0116】
本発明において、分析しようとする核酸は、シーケンシングされてリード(reads)という単位で表現されてよい。このリードは、シーケンシング方法によって、シングルエンドシーケンシング(single end sequencing read,SE)及びペアードエンドシーケンシング(paired end sequencing read,PE)に分類できる。SE方式のリードは、核酸分子の5’及び3’のいずれか1箇所をランダムな方向に一定の長さだけシーケンシングしたものを意味し、PE方式のリードは、5’及び3’の両方を一定の長さだけシーケンシングする。このような相違から、SEモードでシーケンシングする場合に、1個の核酸断片から1個のリードが生成され、PEモードでは1個の核酸断片から2個のリードが対として生成されることは、通常の技術者によく知られた事実である。
【0117】
核酸断片間の正確な距離を計算するための最も理想的な方式は、核酸分子を初めから終わりまでシーケンシングし、そのリードを整列し、整列された値の中央値(センター)を利用する。しかし、技術的に、上の方式は、シーケンシング技術の限界及び費用の側面において制約があるのが現状である。したがって、SE、PEのような方式でシーケンシングすることになるが、PE方式では、核酸分子の開始と終了の位置が分かるので、これらの値の組合せにより核酸断片の正確な位置(中央値)を把握できるが、SE方式では、核酸断片の片方の終了情報しか利用できず、正確な位置(中央値)計算に限界がある。
【0118】
また、正方向、逆方向の両方向にシーケンシングされた(整列された)、全てのリードの末端情報を用いて核酸分子の距離計算時に、シーケンシング方向という要素のため、正確でない値が計算されることがある。
【0119】
したがって、シーケンシング方式の技術的理由から、正方向リードの5’末端は、核酸分子の中心位置よりも小さい位置値を有し、逆方向リードの3’末端は大きい値を有する。このような特徴を用いて、正方向リードでは任意の値(Extended bp)を足し、逆方向リードでは引くと、核酸分子の中心位置に近い値が推定できる。
【0120】
すなわち、任意の値(Extended bp)は、使用する試料によって変わってよく、細胞遊離核酸は、その核酸の平均長さが166bp程度と知られているので、約80bp程度に設定できる。万一、断片化装備(例えは、sonication)を用いて実験が行われた場合は、断片化過程において設定したターゲット長さの半分程度を延長bp(extended bp)と設定できる。
【0121】
本発明において、前記代表値(RepFD)は、FD値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、FD値の中央値、平均値又はこれの逆数値であることを特徴とし得るが、これに限定されるものではない。
【0122】
本発明において、前記GCWプロットは、整列された核酸断片間の距離又は区間別量を染色体単位で計算し、正常染色体と異数性を判別しようとする染色体の距離値を交差配列してベクトル化されたデータとして生成することを特徴とし得る。
【0123】
本発明において、前記交差配列は、x軸に沿って([正常染色体の計算値],[異数性を判別する染色体の計算値])n値を配列することを意味する。例えば、Trisomy 21を判別する場合に、x軸に沿って1番染色体のRepFD値、21番染色体のRepFD、2番染色体のRepFD、21番染色体のRepFD、3番染色体のRepFD、21番染色体のRepFD…のように配列する方式を意味する。
【0124】
本発明において、前記GCWプロットは、核酸断片間の距離を計算値として使用する場合に、下記の段階を含む方法で行われることを特徴とし得る。
【0125】
i)各染色体別に整列された核酸断片間の距離(FD)を計算する段階;
ii)前記i)段階で計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iii)前記ii)段階で決定された染色体別RepFD値を標準化(standardization)する段階;
iv)異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階;及び
iv)比較染色体群に属する染色体と異数性を判別する染色体をX軸に沿って順次に交差配列し、各染色体の標準化された計算値をY値とするGCWプロットを生成する段階。
【0126】
本発明において、前記標準化段階は、
1)染色体異数性が非検出された正常サンプルからなる標準集団を設定する段階;
2)前記標準集団から観察される染色体別RepFD値の平均(Reference_Mean)と標準偏差(Reference_Standard_Deviation)を計算する段階;
3)前記2)段階で計算した平均と標準偏差を下記数式1に代入してZ標準化する段階;
数式1:
Zchr = ((RepFDchr - Reference_Meanchr) /Reference_Standard_Deviationchr) + 5
ここで、シーケンシング量(リード数)が多いサンプルではRepFD値が低くなりながらZchr値が負数を有する場合が発生し得るが、Zchr値が負数になると、下記段階の異数性を判別しようとする染色体のZchr値で割る過程で問題が発生するため(Up-DownパターンがDown-Upパターンとしてひっくり返されて出ることがある。)、全体的に+5をして全てを正数値に作るために+5を足す。
【0127】
4)前記3)段階で計算した染色体別Zchr値を、異数性を判別しようとする染色体のZchr値で割る段階。
【0128】
ここで、前記4)段階は、サンプルのシーケンシング量によってGCWプロットのyスケールが変わることを補正するために、異数性を判別しようとする染色体のZchr値で割ることであり、この過程により、サンプルのシーケンシング量に関係なくyスケールが一定のGCWプロットを生成することができる。
【0129】
本発明において、前記代表値(RepFD)は、FD値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、FD値の中央値、平均値又はその逆数値であることを特徴とし得るが、これに限定されるものではない。
【0130】
本発明において、前記GCWプロットを核酸断片の量で示した場合に、核酸断片の量でGCWプロットを描けば、比較染色体群の棒の相対的な高さにおいて差を示すが、これを人工知能モデルに学習させることができる(
図4)。
【0131】
本発明において、前記比較染色体群は、判別染色体群以外のいずれの染色体の組合せも利用可能であり、好ましくは、1、2、3、4、5、6、8、9、10、11、13、14、15、18、20番染色体であるが、これに限定されるものではない。
【0132】
本発明において、前記ベクトル化されたデータは、一つのイメージに複数の染色体別プロットを含むことを特徴とし得る。
【0133】
本発明において、前記(d)段階の人工知能モデルは、染色体状態が正常であるイメージと、染色体異常があるイメージとを区別できるように学習できるモデルであればいずれも利用可能であり、好ましくは、ディープラーニングモデルであることを特徴とし得る。
【0134】
本発明において、前記人工知能モデルは、人工神経網ベースでベクトル化されたデータを分析できる人工神経網アルゴリズムであればいずれも利用可能であるが、好ましくは、convolutional neural network(CNN)、Deep Neural Network(DNN)、Recurrent Neural Network(RNN)及びオートエンコーダ(autoencoder)からなる群から選ばれることを特徴とし得るが、これに限定されるものではない。
【0135】
本発明において、前記循環神経網は、LSTM(Long-short term memory)神経網、GRU(Gated Recurrent Unit)神経網、バニラ循環神経網(Vanilla recurrent neural network)及び集中的循環神経網(attentive recurrent neural network)からなる群から選ばれることを特徴とし得る。
【0136】
本発明において、前記人工知能モデルがCNNである場合に、二項分類(binary classification)を行う損失関数は、下記数式2で表示されることを特徴とし、多クラス分類(Multi-class classification)を行う損失関数は、下記数式3で表示されることを特徴とし得る。
【0137】
数式2:二項分類(Binary classification)
【0138】
数式3:多クラス分類(Multi-class classification)
【0139】
本発明において、前記二項分類は、人工知能モデルが1種類の染色体異常を判別するように学習することを意味し、多クラス分類は、人工知能モデルが2種類以上の染色体異常を判別するように学習することを意味する。
【0140】
本発明において、前記人工知能モデルがCNNである場合に、学習は下記段階を含んで行われることを特徴とし得る:
i)生産されたGC、GCWプロットをTraining(学習)、Validation(検証)、Test(性能評価)データに分類する段階;
この時、Trainingデータは、CNNモデルを学習する際に用いられ、Validationデータは、ハイパーパラメータチューニング(hyper-parameter tuning)検証に用いられ、Testデータは、最適のモデル生産後に性能評価に用いられることを特徴とする。
【0141】
ii)ハイパーパラメータチューニング及び学習過程によって最適のCNNモデルを構築する段階;
iii)ハイパーパラメータチューニングによって得られた様々なモデルの性能をValidationデータを用いて比較し、Validationデータ性能が最も良好なモデルを最適のモデルと決定する段階;
本発明において、前記ハイパーパラメータチューニング過程は、CNNモデルをなす様々なパラメータ(畳み込み層(convolution layer)の数、全結合層(dense layer)の数、畳み込みフィルタ(convolution filter)の数など)値を最適化する過程であり、ハイパーパラメータチューニング過程としてはベイズ最適化(Bayesian optimization)及びグリッド検索(grid search)手法を用いることを特徴とし得る。
【0142】
本発明において、前記学習過程は、定められたハイパーパラメータ(hyper-parameter)を用いてCNNモデルの内部パラメータ(加重値)を最適化させ、Training lossに比してValidation lossが増加し始まると、モデルが過適合(Overfitting)されたと判断し、その前にモデル学習を中断することを特徴とし得る。
【0143】
本発明において、前記d)段階で人工知能モデルが入力されたベクトル化されたデータから分析した結果値は、(特定の点数(score)又は実数)であればいずれも利用可能であり、好ましくは、DPI(Deep Probability Index)値であることを特徴とし得るが、これに限定されるものではない。
【0144】
本発明において、DPIは、人工知能モデルの最後のレイヤー(layer)に、二項分類の場合にシグモイド関数、多クラス分類の場合にソフトマックス関数を用いて人工知能のアウトプットを0~1スケールに調整して確率値として表現した値を意味する。
【0145】
本発明において、前記d)段階の基準値が0.5であり、人工知能モデルで分析して導出した値が0.5以上である場合に、染色体異常があると判定することを特徴とし得る。
【0146】
本発明において、前記人工知能モデルは、学習の際に、異数性があると、アウトプット結果が1に近いように学習し、異数性がないと、アウトプット結果が0に近いように学習することにより、0.5を基準にして0.5以上であれば異数性があると判断し、0.5以下であれば異数性がないと判断し、性能(performance)測定を行った(Training、Validation、Test精度)。
【0147】
ここで、0.5の基準値はいつでも変わり得る値であるということは、通常の技術者にとって明らかである。例えば、False positive(偽陽性)を減らすには、0.5よりも高い基準値を設定することにより、異数性があると判断される基準を厳格にすることができ、False Negative(偽陰性)を減らすには、基準値をより低く測定することにより、異数性があると判断される基準を少し緩和することができる。
【0148】
最も好ましくは、学習された人工知能モデルを用いてunseen data(学習にtrainingしていない解を知っているデータ)を適用させ、DPI値の隔離(probability)を確認して基準値を決めることができる。
【0149】
本発明は、他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成するデータ生成部;
生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値と比較して染色体異常の有無を判定する染色体異常判定部を含む人工知能ベースの染色体異常検出装置に関する。
【0150】
本発明は、さらに他の観点において、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含むが、
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)を比較して染色体異常の有無を判定する段階によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。
【0151】
実施例
【0152】
以下、実施例を用いて本発明をより詳細に説明する。これら実施例は単に本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって制限されるものと解釈されないことは、当業界における通常の知識を有する者にとって明らかであろう。
【0153】
実施例1.血液からDNAを抽出し、次世代塩基配列分析を行う
【0154】
正常人7,931人、Trisomy 21 170人、Trisomy 18 58人及びTrisomy 13 16人の血液を10mLずつ採取してEDTAチューブに保管し、採取2時間以内に1200g、4℃、15分の条件で血漿部分のみを1次遠心分離した後、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離し、沈殿物以外の血漿上清液を分離した。分離された血漿に対してTiangenmicro DNAキット(Tiangen)を用いてcfDNA(cell-free DNA)を抽出し、Truseq Nano DNA HTライブラリー調製キット(Illumina)を用いてライブラリー調製(Library preparation)過程を行った後、Nextseq500装備(Illumina)を75シングルエンド(Single-end)モードでシーケンシング(sequencing)を行った。その結果、サンプルにつき約13,000,000個のリード(reads)が生産されることを確認した。
【0155】
実施例2.核酸断片距離ベースGCプロットを用いたtrisomy 21ディープラーニングモデル構築及び性能確認
【0156】
正常サンプル(n=961)とT21サンプル(n=170)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
【0157】
【0158】
その結果、表2及び
図5に示すように、Accuracyは、Train、Valid、Testグループにおいてそれぞれ、100%、100%、100%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、1.0であることを確認した。
【0159】
【0160】
図5の(A)は、正確度を測定する方法のうちROC(Receiver Operating Characteristic)カーブ(curve)を用いた分析であり、カーブ下の面積であるAUC(Area Under the Curve)値が高いほど正確度が高いと解析する。AUC値は、0~1の間の値を有し、ランダムにラベル値を予測した時(baseline)に期待されるAUC値が0.5、完全に正確に予測した時に期待されるAUC値が1である。
【0161】
図5の(B)は、本発明の人工知能モデルで計算された、染色体異数性がある確率値(DPI値)を、正常サンプルとtrisomy 21サンプルグループにおいてボックスプロット(boxplot)で示したものであり、赤い線がDPIカットオフである0.5を示す。
【0162】
実施例3.核酸断片距離ベースGCプロットを用いたtrisomy 18ディープラーニングモデル構築及び性能確認
【0163】
正常サンプル(n=961)とT18サンプル(n=58)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
【0164】
【0165】
その結果、表4及び
図6に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ100%、100%、100%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、1.0であることを確認した。
【0166】
【0167】
実施例4.核酸断片距離ベースGCプロットを用いたtrisomy 13ディープラーニングモデル構築及び性能確認
【0168】
正常サンプル(n=961)とT13サンプル(n=16)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
【0169】
【0170】
その結果、表6及び
図7に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ100%、100%、100%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、1.0であることを確認した。
【0171】
【0172】
実施例5.核酸断片距離ベースGCWプロットを用いたtrisomy 21ディープラーニングモデル構築及び性能確認
【0173】
正常サンプル(n=716)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=7,215)とT21サンプル(n=168)を用いてDPI値の性能をテストした。全サンプルはTrain、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
【0174】
【0175】
その結果、表8及び
図8に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ99.8%、100%、99.8%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ0.9999、1.0、0.9998であることを確認した。
【0176】
【0177】
実施例6.核酸断片距離ベースGCWプロットを用いたtrisomy 18ディープラーニングモデル構築及び性能確認
【0178】
正常サンプル(n=716)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。実施例5で構築したディープラーニングモデルを用いて18番染色体の異数性を予測した。Z点数計算のための参照集団に含まれない正常サンプル(n=1743)とT18サンプル(n=58)を用いてDPI値の性能をテストした。
【0179】
【0180】
その結果、表10及び
図9に示すように、Testグループにおいて精度は99.8%であり、ROC分析結果であるAUC値は0.9994であることを確認した。
【0181】
【0182】
実施例7.核酸断片距離ベースGCWプロットを用いたtrisomy 13ディープラーニングモデル構築及び性能確認
【0183】
正常サンプル(n=716)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。実施例5で構築したディープラーニングモデルを用いて13番染色体の異数性を予測した。Z点数計算のための参照集団に含まれない正常サンプル(n=1,743)とT13サンプル(n=16)を用いてDPI値の性能をテストした。
【0184】
【0185】
その結果、表12及び
図10に示すように、Testグループにおいて精度は99.7%であり、ROC分析結果であるAUC値は0.9943であることを確認した。
【0186】
【0187】
実施例8.核酸断片距離ベースGCWプロットを用いたダウンサンプリング(Down sampling)性能確認
【0188】
リードカバレッジを半分レベルに下げ(約10,000,000リード以上→5,000,000リード)、GCWプロットを描いて染色体異数性検出を試みた結果、下げる前と類似のレベルの性能を維持することを確認した。カバレッジを下げる時のTrisomy 21判別性能は、下記表13の通りである。
【0189】
【0190】
分析の結果、Testグループにおいて精度は98.6%と確認され、ROC分析結果であるAUC値は0.998であることを確認した(表14、
図11)。
【0191】
【0192】
実施例9.核酸断片距離逆数値ベースGCWプロットを用いたtrisomy 21ディープラーニングモデル構築及び性能確認
【0193】
正常サンプル(n=700)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=991)とT21サンプル(n=163)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
【0194】
【0195】
その結果、表16及び
図12に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ99.1%、99.5%、99.1%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ0.9999、0.999、0.999であることを確認した。
【0196】
【0197】
実施例10.核酸断片距離逆数値ベースGCWプロットを用いたtrisomy 18ディープラーニングモデル構築及び性能確認
【0198】
正常サンプル(n=700)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=991)とT18サンプル(n=57)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
【0199】
【0200】
その結果、表17及び
図13に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ100%、100%、99.6%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、0.972であることを確認した。
【0201】
【0202】
実施例11.核酸断片距離逆数値ベースGCWプロットを用いたtrisomy 13ディープラーニングモデル構築及び性能確認
【0203】
正常サンプル(n=700)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=991)とT13サンプル(n=16)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
【0204】
【0205】
その結果、表20及び
図13に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ98.7%、98.5%、99.0%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ0.996、0.995、1.0であることを確認した。
【0206】
【0207】
以上、本発明内容の特定の部分を詳細に記述したところ、当業界における通常の知識を有する者にとって、このような具体的記述は単に好ましい実施の態様であるだけで、これによって本発明の範囲が制限されないという点は明らかであろう。したがって、本発明の実質的な範囲は、添付する請求項及びそれらの等価物によって定義されるといえよう。
【産業上の利用可能性】
【0208】
本発明に係る人工知能ベースの染色体異常検出方法は、既存のリード個数(read count)ベースで染色体量を決定する段階を利用する方式又は整列されたリード(reads)間の距離概念を利用する検出方法などにおいてリードに関連した値として個々の定形化された値を用いることに比べて、ベクトル化されたデータを生成してAIアルゴリズムを用いて分析するので、リードカバレッジが低くとも類似の効果を発揮するこができ、有用である。
【図 】