(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-05
(54)【発明の名称】コピー数変異の検出方法およびその応用
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240829BHJP
C12M 1/00 20060101ALI20240829BHJP
C12Q 1/6883 20180101ALI20240829BHJP
【FI】
C12Q1/6869 Z
C12M1/00 A
C12Q1/6883 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024514011
(86)(22)【出願日】2022-08-29
(85)【翻訳文提出日】2024-04-26
(86)【国際出願番号】 CN2022115447
(87)【国際公開番号】W WO2023030233
(87)【国際公開日】2023-03-09
(31)【優先権主張番号】202111002171.4
(32)【優先日】2021-08-30
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】202111095132.3
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】524077542
【氏名又は名称】広州燃石医学検験所有限公司
【氏名又は名称原語表記】GUANGZHOU BURNING ROCK DX CO., LTD.
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】劉 成林
(72)【発明者】
【氏名】趙 宇
(72)【発明者】
【氏名】曠 ▲ティン▼
(72)【発明者】
【氏名】張 之宏
(72)【発明者】
【氏名】張 振
(72)【発明者】
【氏名】張 光亮
(72)【発明者】
【氏名】張 周
(72)【発明者】
【氏名】揣 少坤
(72)【発明者】
【氏名】漢 雨生
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA08
4B029BB11
4B029FA03
4B063QA13
4B063QA17
4B063QQ02
4B063QQ03
4B063QQ43
4B063QR08
4B063QR42
4B063QR62
(57)【要約】
コピー数変異を検出する方法を提供する。コピー数変異を検出する方法およびその応用が提供される。また、被検試料の標的区間を幾つかのウィンドウ領域に分割し、被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得し、前記コントロールウィンドウ領域のシーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定するステップを含む、コピー数状態の分析方法が提供される。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
コピー数状態の分析方法であって、被検試料の標的区間を幾つかのウィンドウ領域に分割し、被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得し、前記コントロールウィンドウ領域の前記シーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定するステップを含み、任意選択で、前記コントロールウィンドウ領域は、カバレッジ変動レベルが低いウィンドウ領域を含む、方法。
【請求項2】
(S1)前記被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得するステップと、
(S2)前記参照試料を2つ以上の参照試料群に分けるステップと、
(S3)前記被検試料に最も近い参照試料群を決定するステップと、
(S4)被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、をさらに含む、請求項1に記載の方法。
【請求項3】
前記品質合格試料のウィンドウ領域をカバレッジ変動レベルの昇順に並べるステップを含み、
前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭2つ以上、または先頭4つ以上の前記ウィンドウを含むか、または前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比が、約0.15以下である、請求項1~2のいずれか1項に記載の方法。
【請求項4】
前記品質合格試料のウィンドウ領域のシーケンシングデータの統計値に基づいて前記カバレッジ変動レベルを決定するステップを含み、
任意選択で、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央絶対偏差と中央値との比に基づいて前記カバレッジ変動レベルを決定する、請求項3に記載の方法。
【請求項5】
前記コントロールウィンドウ領域のシーケンシングデータに基づいて正規化係数を決定するステップを含み、
任意選択で、前記コントロールウィンドウ領域のすべての前記品質合格試料のシーケンシングデータの平均値を計算することによって前記正規化係数を決定する、請求項3~4のいずれか1項に記載の方法。
【請求項6】
前記正規化係数に基づいて、被検試料の各ウィンドウ領域のコピー数を決定するステップを含み、
任意選択で、前記正規化は、前記ウィンドウ領域の被検試料のシーケンシングデータを、前記ウィンドウ領域の正規化係数で割り、プロイディを乗じることを含む、請求項5に記載の方法。
【請求項7】
被検試料の各ウィンドウ領域のシーケンシングデータおよび対応するウィンドウ領域の被検試料群の他の試料のシーケンシングデータに基づいて、被検試料のコピー数変異の有意性を決定するステップを含み、
任意選択で、t検定の有意性検定方法によって、前記コピー数変異の有意性を決定する、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記被検試料は、組織試料、血液試料、唾液、胸水、腹膜液および脳脊髄液からなる群から選択される、請求項1~7のいずれか1項に記載の方法。
【請求項9】
前記ステップ(S2)は、前記参照試料を群分けするステップ(S2-1)を含み、前記群分けは、標的区間の前記シーケンシングデータに基づいて、クラスター分析の方法によって前記参照試料を群分けすることを含み、好ましくは、前記クラスター分析の方法は、K平均クラスタリングおよび/または階層クラスタリングを含み、
前記ステップ(S2)は、前記参照試料群の前記シーケンシングデータの統計値を確認するステップ(S2-2)を含み、好ましくは、前記統計値を確認することは、前記標的区間における各群の前記参照試料の平均値および/または標準偏差を計算することを含む、請求項2~8のいずれか1項に記載の方法。
【請求項10】
前記ステップ(S3)は、標的区間における前記参照試料群および前記被検試料の前記シーケンシングデータに基づいて、統計距離を計算することにより前記参照試料群と前記被検試料との分布類似度を確認することを含み、好ましくは、前記分布類似度が高いことは、前記標的区間における前記参照試料群と前記被検試料との前記統計距離が短いことを含む、請求項2~9のいずれか1項に記載の方法。
【請求項11】
前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータの差の絶対値のp乗の統計値を含み、前記pは1以上であり、好ましくは、前記統計値は総和値を含み、好ましくは、前記統計距離はミンコフスキー距離を含む、請求項10に記載の方法。
【請求項12】
前記ステップ(S4)は、前記被検試料の前記標的遺伝子のエキソンの長さ、および標的区間iにおける前記被検試料のコピー数CN
iに基づいて、標的遺伝子における前記被検試料のコピー数CN
gを決定することを含み、好ましくは、前記ステップ(S4)は、次式に基づいて前記CN
gを決定することを含み、
【数1】
ここで、iは標的区間を示し、jは標的エキソンを示し、nは標的エキソンj上の標的区間の数を示し、mは標的エキソン数を示し、CN
iは標的区間iにおけるコピー数を示し、Len
jは標的エキソンjの長さを示す、請求項2~11のいずれか1項に記載の方法。
【請求項13】
前記ステップ(S4)は、標的区間における被検試料のコピー数変異の存在の確率を決定することを含み、前記コピー数変異の存在の確率は、標的区間における前記被検試料のコピー数の増幅の確率(p
a)および/または欠失の確率(p
d)を含み、好ましくは、前記ステップ(S4)は、標的区間iにおける前記被検試料のシーケンシングデータ、および対応する標的区間における前記被検試料に最も近い参照試料群のシーケンシングデータの平均値および標準偏差に基づいて、確率分布によって前記コピー数変異の存在の確率を確認することを含み、好ましくは、前記確率分布は正規確率分布を含む、請求項2~12のいずれか1項に記載の方法。
【請求項14】
前記ステップ(S4)は、前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合のsigRatioを決定することを含み、好ましくは、有意なコピー数変異が生じた前記標的遺伝子における標的区間の数を前記標的遺伝子における全ての標的区間の数で割って前記sigRatioを得、前記有意なコピー数変異が生じた標的区間は、前記コピー数変異の割合が約30%以上である標的区間を含み、
前記ステップ(S4)は、さらに、前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計的検定パラメータを決定することを含み、好ましくは、前記標的遺伝子における前記被検試料の前記標的区間の数、前記標的遺伝子における前記被検試料の各標的区間のシーケンシングデータ、前記標的遺伝子における前記被検試料の各標的区間のシーケンシングデータの標準偏差、および対応する標的遺伝子における前記被検試料に最も近い参照試料群の標的区間におけるシーケンシングデータの平均値および標準偏差に基づいて、t検定の方法によってp値p
ttestを確認する、請求項2~13のいずれか1項に記載の方法。
【請求項15】
前記ステップ(S4)は、以下のことにより、前記被検試料の前記標的遺伝子のコピー数状態を決定し、
CN
g≧CN
thA、sigRatio≧sigRatio
th、かつp
ttest≦p
thのとき、前記被検試料の前記標的遺伝子のコピー数の増幅が生じたことを確認し、
CN
g≦CN
thD、sigRatio≧sigRatio
th、かつp
ttest≦p
thのとき、前記被検試料の前記標的遺伝子のコピー数欠失が生じたことを確認し、
CN
thA<CN
g<CN
thD、またはsigRatio<sigRatio
th、またはp
ttest>p
thのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、CN
thA、CN
thD、sigRatio
th、およびp
thは、それぞれ独立して閾値であり、好ましくは、CN
thAは約2.25~約4であり、好ましくは、CN
thDは、約1.0~約1.75であり、好ましくは、sigRatio
thは、約0.3~約1であり、好ましくは、p
thは、約0.05~約0.00001である、請求項14に記載の方法。
【請求項16】
前記標的遺伝子は、
ABL1、ABL2、ABRAXAS1、ACVR1、ACVR1B、AKT1、AKT2、AKT3、ALK、ALOX12B、AMER1、APC、AR、ARAF、ARFRP1、ARID1A、ARID1B、ARID2、ARID5B、ASXL1、ASXL2、ASXL3、ATG5、ATM、ATR、ATRX、AURKA、AURKB、AXIN1、AXIN2、AXL、B2M、BAP1、BARD1、BBC3、BCL10、BCL2、BCL2L1、BCL2L11、BCL2L2、BCL6、BCOR、BCORL1、BIRC3、BLM、BMPR1A、BRAF、BRCA1、BRCA2、BRD4、BRD7、BRINP3、BRIP1、BTG1、BTG2、BTK、CALR、CARD11、CASP8、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD274、CD28、CD58、CD74、CD79A、CD79B、CDC73、CDH1、CDH18、CDK12、CDK4、CDK6、CDK8、CDKN1A、CDKN1B、CDKN1C、CDKN2A、CDKN2B、CDKN2C、CEBPA、CENPA、CHD1、CHD2、CHD4、CHD8、CHEK1、CHEK2、CIC、CIITA、CREBBP、CRKL、CRLF2、CRYBG1、CSF1R、CSF3R、CSMD1、CSMD3、CTCF、CTLA4、CTNNA1、CTNNB1、CUL3、CUL4A、CXCR4、CYLD、CYP17A1、CYP2D6、DAXX、DCUN1D1、DDR1、DDR2、DDX3X、DICER1、DIS3、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、DPYD、DTX1、DUSP22、EED、EGFR、EIF1AX、EIF4E、EMSY、EP300、EPCAM、EPHA2、EPHA3、EPHA5、EPHA7、EPHB1、EPHB4、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ERG、ERRFI1、ESR1、ETV4、ETV5、ETV6、EWSR1、EZH2、EZR、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FAS、FAT1、FAT3、FBXW7、FGF10、FGF12、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGF7、FGFR1、FGFR2、FGFR3、FGFR4、FH、FLCN、FLT1、FLT3、FLT4、FOXA1、FOXL2、FOXO1、FOXO3、FOXP1、FRS2、FUBP1、FYN、GABRA6、GALNT12、GATA1、GATA2、GATA3、GATA4、GATA6、GEN1、GID4、GLI1、GNA11、GNA13、GNAQ、GNAS、GPS2、GREM1、GRIN2A、GRM3、GSK3B、H3F3A、H3F3B、H3F3C、HDAC1、HDAC2、HGF、HIST1H1C、HIST1H2BD、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3G、HIST1H3H、HIST1H3I、HIST1H3J、HIST2H3D、HIST3H3、HLA-A、HLA-B、HLA-C、HNF1A、HOXB13、HRAS、HSD3B1、HSP90AA1、ICOSLG、ID3、IDH1、IDH2、IFNGR1、IGF1、IGF1R、IGF2、IGHD、IGHJ、IGHV、IKBKE、IKZF1、IL10、IL7R、INHA、INHBA、INPP4A、INPP4B、INSR、IRF2、IRF4、IRS1、IRS2、ITK、ITPKB、JAK1、JAK2、JAK3、JUN、KAT6A、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KEL、KIR2DL4、KIR3DL2、KIT、KLF4、KLHL6、KLRC1、KLRC2、KLRK1、KMT2A、KMT2C、KMT2D、KRAS、LATS1、LATS2、LMO1、LRP1B、LTK、LYN、MAF、MAGI2、MALT1、MAP2K1、MAP2K2、MAP2K4、MAP3K1、MAP3K13、MAP3K14、MAPK1、MAPK3、MAX、MCL1、MDC1、MDM2、MDM4、MED12、MEF2B、MEN1、MERTK、MET、MFHAS1、MGA、MIR21、MITF、MKNK1、MLH1、MLH3、MPL、MRE11、MSH2、MSH3、MSH6、MST1、MST1R、MTAP、MTOR、MUTYH、MYC、MYCL、MYCN、MYD88、MYOD1、NAV3、NBN、NCOA3、NCOR1、NCOR2、NEGR1、NF1、NF2、NFE2L2、NFKBIA、NKX2-1、NKX3-1、NOTCH1、NOTCH2、NOTCH3、NOTCH4、NPM1、NRAS、NRG1、NSD1、NSD2、NSD3、NT5C2、NTHL1、NTRK1、NTRK2、NTRK3、NUP93、NUTM1、P2RY8、PAK1、PAK3、PAK5、PALB2、PALLD、PARP1、PARP2、PARP3、PAX5、PBRM1、PCDH11X、PDCD1、PDCD1LG2、PDGFRA、PDGFRB、PDK1、PGR、PHOX2B、PIK3C2B、PIK3C2G、PIK3C3、PIK3CA、PIK3CB、PIK3CD、PIK3CG、PIK3R1、PIK3R2、PIK3R3、PIM1、PLCG2、PLK2、PMS1、PMS2、PNRC1、POLD1、POLE、POM121L12、PPARG、PPM1D、PPP2R1A、PPP2R2A、PPP6C、PRDM1、PREX2、PRKAR1A、PRKCI、PRKDC、PRKN、PTCH1、PTEN、PTPN11、PTPRD、PTPRO、PTPRS、PTPRT、QKI、RAB35、RAC1、RAD21、RAD50、RAD51、RAD51B、RAD51C、RAD51D、RAD52、RAD54L、RAF1、RARA、RASA1、RB1、RBM10、RECQL4、REL、RET、RHEB、RHOA、RICTOR、RIT1、RNF43、ROS1、RPA1、RPS6KA4、RPS6KB2、RPTOR、RSPO2、RUNX1、RUNX1T1、SDC4、SDHA、SDHAF2、SDHB、SDHC、SDHD、SETD2、SF3B1、SGK1、SH2B3、SH2D1A、SHQ1、SLC34A2、SLIT2、SLX4、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMARCD1、SMO、SNCAIP、SOCS1、SOX10、SOX17、SOX2、SOX9、SPEN、SPI1、SPOP、SPTA1、SRC、SRSF2、STAG2、STAT3、STAT4、STAT5A、STAT5B、STAT6、STK11、STK40、SUFU、SYK、TAF1、TBX21、TBX3、TCF3、TCF7L2、TEK、TENT5C、TERC、TERT、TET1、TET2、TGFBR1、TGFBR2、TIPARP、TMEM127、TMPRSS2、TNFAIP3、TNFRSF14、TOP1、TOP2A、TP53、TP63、TP73、TRAF2、TRAF3、TRAF7、TRIM58、TRPC5、TSC1、TSC2、TSHR、TYRO3、U2AF1、UGT1A1、VEGFA、VEGFB、VEGFC、VHL、WISP3、WRN、WT1、XIAP、XPO1、XRCC2、XRCC3、YAP1、YES1、ZAP70、ZBTB16、ZBTB2、ZNF217、ZNF703、およびZNRF3からなる群から選択される遺伝子を含む、請求項2~15のいずれか1項に記載の方法。
【請求項17】
コピー数状態の分析装置であって、
被検試料群のシーケンシングデータを取得する受信モジュールと、
前記被検試料中の標的遺伝子を決定する決定モジュールと、
前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定する判定モジュールと、を含む、コピー数状態の分析装置。
【請求項18】
(M1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する受信モジュールと、
(M2)前記参照試料を2つ以上の参照試料群に分ける処理モジュールと、
(M3)前記被検試料に最も近い参照試料群を決定する計算モジュールと、
(M4)被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含む、請求項17に記載のコピー数状態の分析装置。
【請求項19】
記憶媒体であって、請求項1~16のいずれか1項に記載の方法を実行することができるプログラムを記載した記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、バイオインフォマティクスの分野に関し、具体的には、コピー数変異の検出方法およびその応用に関する。
【背景技術】
【0002】
コピー数変異(CNV)は、ヒトゲノムにおける一般的な変異の一つである。コピー数変異は遺伝子コピー数の増幅と欠失の両方を含む。コピー数変異の検出は、被験者のゲノムの状態をモニターするのに用いることができ、また、特定の疾患と特定のゲノム変異との関連関係を同定するのにも用いることができる。例えば、遺伝子のコピー数変異は多くのよく見られる遺伝性疾患を引き起こす可能性があり、例えば、BRCA1/2遺伝子の欠失は遺伝性乳がんのリスクを引き起こす可能性がある。遺伝子のコピー数変異は腫瘍の発生や進行に影響する可能性があり、例えば、HER2遺伝子の増幅は腫瘍の発生や進行に関係するだけでなく、重要な臨床治療のモニタリングや予後の指標でもあり、腫瘍標的治療の重要なターゲットでもある。従って、コピー数変異の検出方法は、被験者のゲノム状態のモニタリング、ゲノムワイド関連研究、遺伝性疾患の予防、および腫瘍の精密治療において重要な役割を果たす。例えば、特定のコピー数変異を持つ被験者は、通常の人と比較して疾患(腫瘍など)を発症する生涯リスクが高い可能性がある。そのため、コピー数変異検出方法を用いてリスクの高い被験者をスクリーニングし、その被験者に対して個別に疾患のモニタリングを行うことで、早期の診断と治療を可能にすることができる。
【0003】
ドロップレットデジタルPCR(ddPCR:microdroplet digital PCR)、多重ライゲーションプローブ増幅技術(MLPA:multiplexed ligation probe amplification)、蛍光in situハイブリダイゼーション(FISH:fluorescence in situ hybridisation)などの従来のコピー数変異検出方法では、一度に1つまたは数個の遺伝子のコピー数状態しか検出できないか、特定の遺伝子のコピー数状態しか検出できず、ゲノム全体を分析することができないため、スループットが低く、コストが高いという特徴がある。現在、ハイスループット技術に基づくコピー数変異の検出方法は数多く存在するが、検出方法によって結果に大きな差があり、検出感度や特異性にも一定の限界がある。一方では、ハイスループットシーケンシング技術には、ライブラリーの構築やシーケンシングの際に一定のバッチ効果や技術的エラーがあり、他方では、腫瘍試料の複雑さがコピー数検出結果の安定性に大きな課題をもたらし、プレシジョンメディシンの分野においてハイスループットシーケンシング技術に基づくコピー数変異の検出を困難にしている。この分野では、バッチ効果やエラーを低減し、および/またはコピー数検出結果の安定性を向上させることができる分析方法が緊急に必要とされている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願の目的は、上記の既存技術の欠点に対応して、遺伝子コピー数異常を検出する方法を提供することである。本方法は、少なくともバッチ効果、エラーを低減し、および/またはコピー数検出結果の安定性を向上させることができ、これはコピー数異常に関連する駆動事象を検出し、腫瘍ゲノム進化情報を解釈するために重要である。本出願は、コピー数変異の検出方法およびその応用を提供する。
【課題を解決するための手段】
【0005】
一態様では、本出願は、コピー数状態の分析方法を提供し、前記方法は、被検試料の標的区間を幾つかのウィンドウ領域に分割するステップと、被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得するステップと、前記コントロールウィンドウ領域のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、を含み、任意選択で、前記コントロールウィンドウ領域は、カバレッジ変動レベルの低いウィンドウ領域を含む。
【0006】
一態様では、本出願は、被検試料群のシーケンシングデータを取得する受信モジュールと、被検試料中の標的遺伝子を決定する決定モジュールと、前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定する判定モジュールと、を含む、コピー数状態の分析装置を提供する。
【0007】
一態様では、本出願は、本出願に記述された方法を実行できるプログラムを記載した記憶媒体を提供する。
【0008】
当業者であれば、以下の詳細な説明から本出願の他の態様および利点を容易に洞察することができるであろう。以下の詳細な説明では、本出願の例示的な実施形態のみを示し、説明する。当業者に認識されるように、本出願の内容は、当業者が、本出願が関連する本発明の精神および範囲から逸脱することなく、開示された特定の実施形態に変更を加えることを可能にする。したがって、本出願の添付図面および明細書の記載は、単なる例示であり、限定することを意図するものではない。
【図面の簡単な説明】
【0009】
本出願に係る発明の具体的な特徴は、添付の特許請求の範囲に示されている。本出願が関連する本発明の特徴および利点は、以下に詳細に説明する例示的な実施形態および添付図面を参照することにより、よりよく理解することができる。添付図面の簡単な説明を以下に記載する。
【
図1】
図1A~1Bは、参照ベースラインの構築に基づく方法と本出願の方法による検出結果の図を示す。各ボックスプロットは、30個の試料のBRCA1遺伝子のエキソンコピー数値の分布を示す。A群およびB群は、それぞれ異なるプローブによって捕捉されるバッチを表す。
図1Aは、参照ベースラインの構築に基づく方法で算出されたBRCA1遺伝子の各エキソンのコピー数の分布を示す。
図1Bは、本出願の方法で算出されたBRCA1遺伝子の各エキソンのコピー数の分布を示す。
【
図2】
図2A~2Bは、参照ベースラインの構築に基づく方法と本出願の方法による、NGS(次世代シーケンシング)ライブラリー構築方法の違いの試料を検出する結果を示す図である。横軸は染色体の座標を、縦軸は評価されたコピー数(CN)値を表す。
図2Aは、参照ベースラインの構築に基づく方法でコピー数変異を検出した結果を示し、
図2Bは、本出願の方法によってコピー数変異を検出した結果を示す。枠内は検出されたコピー数変異を示す。
【
図3】
図3A~3Bは、スクリーニングにおける安定したウィンドウの異なる設定閾値に基づく試料の検出結果を示す。横軸は染色体の座標を、縦軸は評価されたコピー数(CN)値を示す。
図3Aは、閾値を0.05と設定した場合の試料のコピー数変異の検出結果を示し、
図3Bは、閾値を0.15と設定した場合の試料のコピー数変異の検出結果を示す。枠内は検出されたコピー数変異を示す。
【
図4】
図4A~4Jは、コピー数変異陽性模擬試料10試料についてバッチベースラインを構築した後の検出結果を示す。横軸は染色体の座標を、縦軸は評価されたコピー数(CN)値を示す。図内の枠は検出されたコピー数変異を示す。
【
図5】
図5A~5Fは、模擬試料についての本出願の方法の検出結果のデータの一部のコピー数の分布図の例を示す。
【
図6】
図6A~6Cは、標準試料についての本出願の方法の検出結果のデータの一部のコピー数の分布グラフの例を示す。
【
図7】
図7A~7Cは、実試料についての本出願の方法の検出結果のデータの一部のコピー数の分布グラフの例を示す。
【
図8】
図8A~8Fは、標準試料1について異なるベースラインを用いた本出願の方法の検出結果のコピー数の分布グラフの例を示す。
【発明を実施するための形態】
【0010】
本願発明の以下の実施形態は、特定の具体的な実施形態によって説明されており、本願発明の他の利点および効果は、本明細書に開示された内容から当業者に容易に理解されてもよい。
【0011】
<定義>
本出願において、「第2世代遺伝子シーケンシング」、「ハイスループットシーケンシング」または「次世代シーケンシング」という用語は、一般に、第2世代のハイスループットシーケンシング技術およびその後に開発されたより高スループットのシーケンシング方法を指す。次世代シーケンシングプラットフォームには、Illuminaなどの既存のシーケンシングプラットフォームが含まれるが、これらに限定されるものではない。シーケンシング技術が進化し続けるにつれて、他の方法のシーケンシング方法および装置もまた、本発明の方法において使用するために採用されてもよいことが、当業者には理解される。例えば、第2世代遺伝子シーケンシングは、高感度、高スループット、高シーケンシング深さ、または低コストという利点を有し得る。開発の歴史、影響力、シーケンシングの原理および技術に応じて、以下の主な種類のシーケンシング法がある。超並列シグネチャーシーケンス(MPSS:Massively Parallel Signature Sequencing)、ポロニーシーケンス(Polony Sequencing)、454パイロシーケンシング(454 pyrosequencing)、イルミナ(ソレクサ)シーケンシング(Illumina(Solexa) sequencing)、半導体シーケンシング(Ion semi conductor sequencing)、DNAナノボールシーケンシング(DNA nano-ball sequencing)、Complete Genomics社のDNAナノアレイとプローブ・アンカーライゲーション複合シーケンス法など。前記第2世代シーケンシングは、1つの種のトランスクリプトームおよびゲノムを詳細かつ包括的に分析することを可能にし、したがって、ディープシーケンシング(deep sequencing)とも呼ばれる。例えば、本出願の方法は、第1世代遺伝子シーケンシング、第2世代遺伝子シーケンシング、第3世代遺伝子シーケンシングまたは単一分子シーケンシング(SMS)にも適用することができる。
【0012】
本出願において、「データベース」という用語は、一般に、データまたは組織化された実体が表現される方法に関係なく、関連データの組織化された実体を指す。例えば、前記関連データの組織化された実体は、表、マップ、グリッド、グループ、データグラム、ファイル、文書、リスト、またはその他の形態をとることができる。本出願においては、前記データベースは、コンピュータがアクセス可能な方法で収集され保存されるあらゆるデータを含むことができる。
【0013】
本出願において、「計算モジュール」という用語は、一般に、計算のための機能モジュールを指す。当該計算モジュールは、入力値に基づいて出力値を計算し、結論や結果を得たりしてもよく、例えば、計算モジュールは主に出力値を計算するために使用されてもよい。計算モジュールは、電子計算機のプロセッサ、プロセッサを備えたコンピュータや電子機器、コンピュータネットワークなどの有形のものであってもよいし、電子媒体に保存されたプログラム、コマンドライン、ソフトウェアパッケージであってもよい。
【0014】
本出願において、「処理モジュール」という用語は、一般に、データ処理のための機能モジュールを指す。当該処理モジュールは、入力値を統計的に有意なデータに処理してもよく、例えば、入力値のデータの分類であってもよい。処理モジュールは、例えば、データを保存するための電子媒体や磁気媒体、電子計算機のプロセッサ、プロセッサを備えたコンピュータや電子機器、コンピュータネットワークなどの有形のものであってもよく、電子媒体に保存されたプログラム、コマンドライン、ソフトウェアパッケージであってもよい。
【0015】
本出願において、「判定モジュール」という用語は、一般に、関連する判定結果を得るための機能モジュールを指す。本出願において、前記判定モジュールは、入力値に基づいて出力値を計算し、結論や結果を得たりしてもよく、例えば、判定モジュールは、結論や結果を得るために主に使用されてもよい。判定モジュールは、電子計算機のプロセッサ、プロセッサを備えたコンピュータや電子機器、コンピュータネットワークなどの有形のものであってもよいし、電子媒体に保存されたプログラム、コマンドライン、ソフトウェアパッケージであってもよい。
【0016】
本出願において、「試料取得モジュール」という用語は、一般に、被験者から前記試料を取得するための機能モジュールを指す。例えば、前記試料取得モジュールは、前記試料(例えば、組織試料、血液試料、唾液、胸水、腹膜液、脳脊髄液など)を取得するために必要な試薬および/または機器を含んでよい。例えば、採血針、採血管および/または血液試料輸送ボックスが含まれ得る。例えば、本出願の装置は、前記試料取得モジュールを含まないか、または1つまたは複数含んでいてもよく、任意選択で、本出願に記載の試料の測定値を出力する機能を有していてもよい。
【0017】
本出願において、用語「受信モジュール」は、一般に、前記試料中の前記測定値を取得するための機能モジュールを指す。本出願において、前記受信モジュールは、本出願に記載の試料(例えば、組織試料、血液試料、唾液、胸水、腹膜液、脳脊髄液など)を入力してもよい。本出願において、前記受信モジュールは、本出願に記載の試料(例えば、組織試料、血液試料、唾液、胸水、腹水、脳脊髄液など)の測定値を入力してもよい。前記受信モジュールは、前記試料の状態を検出してもよい。例えば、前記データ受信モジュールは、任意選択で、前記試料に対して本出願に記載の遺伝子シーケンシング(例えば、第2世代遺伝子シーケンシング)を実行してもよい。例えば、前記データ受信モジュールは、任意選択で、前記遺伝子シーケンシングを実行するのに必要な試薬および/または機器を含んでもよい。前記データ受信モジュールは、任意選択で、シーケンシング深さ、シーケンシングリード長の計数、またはコピー数を検出することができる。
【0018】
本出願において、「コピー数変異」という用語は、一般に、標的区間、標的遺伝子、または標的遺伝子中の標的区間のコピー数の増幅または欠失を指す。例えば、本出願で提供されるコピー数変異の分析方法は、治療目的または診断目的であってもよい。例えば、本出願で提供されるコピー数変異の分析方法は、シーケンシング結果によってコピー数変異が存在するか否かを決定するような、非治療目的または診断目的のために使用されてもよい。
【0019】
本出願において、「スライディングウィンドウ法」という用語は、一般に、ウィンドウ領域を分割する方法を指し、例えば、同じまたは異なるウィンドウ領域の長さによって、全長領域を幾つかのウィンドウに分割することができる。例えば、同じまたは異なるステップ長によって全長領域を幾つかのウィンドウに分割することができる。例えば、同じウィンドウ領域長さ、且つ同じステップ長によって全長領域を幾つかのウィンドウに分割することができる。
【0020】
本出願において、「品質合格試料」という用語は、一般に、品質管理基準に合格する試料を指す。例えば、品質合格試料は、平均シーケンシング深さ、最小シーケンシング深さ、および/またはカバレッジ均一性が合格する試料を指すことができる。例えば、平均シーケンシング深さが合格するとは、平均シーケンシング深さが約100倍以上である試料を指すことができる。例えば、最小シーケンシング深さ合格試料は、シーケンシング深さが約30倍以上である試料を指すことができる。例えば、カバレッジ均一性合格試料は、試料の平均シーケンシング深さの20%以上の塩基数が、試料中の総塩基数に占める割合が約90%以上である試料を指すことがある。
【0021】
本出願において、「不合格標的区間」という用語は、一般に、シーケンシング品質が低い区間を指す。例えば、不合格区間は、コピー数変異の分析における使用に適さないことがある。例えば、不合格区間は参照またはベースライン構築において不適当であることがある。場合によっては、不合格区間を除外することで検出結果の精度を向上させることができる。他の場合では、不合格区間をスクリーニングしなくても、ある程度の精度の検出結果を得ることができる。例えば、不合格区間とは、シーケンシング深さが低い区間を指すことがあり、例えば、不合格区間とは、当該区間が試料ごとに大きく異なる区間を指すことがある。
【0022】
本出願において、「捕捉効率の低い区間」という用語は、一般に、使用されるプローブによって捕捉されにくい区間を指す。例えば、ある区間内の配列は、その区間内に特定の配列の組み合わせがある場合、核酸プローブによって捕捉されにくい可能性がある。例えば、捕捉効率の低い区間は、シーケンシング深さが低い区間を指すことができる。例えば、捕捉効率が低い区間は、シーケンシングリード長の計数が約5以下である区間を指すことができる。
【0023】
本出願において、「不安定区間」という用語は、一般に、シーケンシング結果が試料ごとに大きく異なる区間を指す。例えば、同一の試料の複数回のシーケンシング結果にわたって結果が大きく変動する区間であってもよい。例えば、異なる試料の同じバッチ内でシーケンシング結果が大きく異なる区間であってもよい。例えば、異なる試料の異なるバッチ間でシーケンシング結果が大きく異なる区間であってもよい。例えば、異なる参照試料においてシーケンシング結果が大きく異なる区間であってもよい。例えば、不安定区間を決定する方法は、異なる試料にわたるある区間のシーケンシング深さの標準偏差の平均に対する比を計算し、その比がある閾値より大きいかどうかを決定する方法で、例えば、閾値は0.8であってもよいか、または実際のシーケンシングに基づいて当業者によって調整されてもよい。
【0024】
本出願において、「被検試料」という用語は、一般に、試料上の1つまたは複数の遺伝子領域にコピー数変異が存在するか否かを決定するために検出される試料を指す。例えば、被検試料またはそのデータは、検出前に記憶装置に保存することができる。
【0025】
本出願において、「ヒト参照ゲノム」という用語は、一般に、遺伝子シーケンシングにおいて参照機能を果たすことができるヒトゲノムを指す。前記ヒト参照ゲノムに関する情報は、UCSC(University of California, Santa Cruz)を参照することができる。前記ヒト参照ゲノムは、異なるバージョン、例えば、hg19、GRCH37またはensembl 75として入手可能である。
【0026】
本出願において、「GC含有量」という用語は、一般に、遺伝子配列(塩基配列)中のグアニンGとシトシンCの、配列に含まれる全ヌクレオチドに対する比率を指す。
【0027】
本出願において、「標的シーケンシングパネル」または「パネル」という用語は、一般に、検出対象のグループ/セットを指す。例えば、シーケンシングの過程で、1つまたは複数の標的区間が1つまたは複数のプローブを設計することによって捕捉および検出され、このような1つまたは複数のプローブは、標的シーケンシングパネルを形成し得る。例えば、標的シーケンシングパネルは、標的遺伝子、標的区間、または関心領域、例えばいくつのエキソン領域についても任意選択で設計することができる。例えば、プローブは、研究において標的区間のオリゴヌクレオチドまたは標的核酸と相補的なオリゴヌクレオチドを指すことができる。例えば、標的区間はプローブのターゲットとして設計された区間である。
【0028】
本出願において、「シーケンシング深さ」という用語は、一般に、特定の領域(例えば、特定の遺伝子、特定の区間、特定の塩基)が検出された回数を指す。シーケンシング深さは、シーケンシングによって検出された塩基の配列を指すことができる。例えば、シーケンシング深さをヒト参照ゲノムと比較し、任意選択で重複除去することにより、特定の遺伝子、特定の区間、または特定の塩基位置におけるシーケンシングリード長の数を決定、計数することができ、これをシーケンシング深さとすることができる。場合によっては、シーケンシング深さは、シーケンシング深さに関連し得る。例えば、シーケンシング深さはコピー数状態に影響されてもよい。
【0029】
本出願において、「シーケンシングデータ」という用語は、一般に、シーケンシングにより得られる短い配列のデータをいう。例えば、シーケンシングデータには、シーケンシングされた短い配列の塩基配列(シーケンシングリード長)、シーケンシングリード長の数などが含まれる。
【0030】
本出願において、「シーケンシングバイアス」という用語は、一般に、異なる区間によって生成されたシーケンシングデータにおけるバイアスを指す。例えば、区間内の配列の特定の並べ方または塩基比は、その区間で計数されるリード長に影響を及ぼし得る。例えば、ある区間がGC含有量を高くまたは低く含む場合、その区間のシーケンシングリード長の計数は、GC含有量が50%に近い区間と比較してバイアスする可能性がある。
【0031】
本出願において、「分布類似度」という用語は、2組のデータ間の分布類似程度を指すことができる。例えば、本出願における分布類似度は、1つまたは複数の区間にわたる参照試料群および被検試料のシーケンシングリード長の計数の間の類似度を指すことができる。
【0032】
本出願において、「統計距離」という用語は、2つのデータグループのデータ値間の距離を指すことができる。例えば、本出願における統計距離は、1つまたは複数の区間にわたる、参照試料群と被検試料のシーケンシングリード長の計数の差の統計量であってもよい。例えば、統計距離は、ユークリッド距離、チェビシェフ距離、マハラノビス距離などによって計算されてもよい。
【0033】
本出願において、「統計値」という用語は、試料のデータ値から算出される分析値を指すことができる。例えば、本出願における統計値とは、平均値、分散値、標準偏差、中央値、複数値などを指すことができる。当業者は、データを分析するための1つまたは複数の統計値を適宜選択する。
【0034】
本出願において、「確率分布」という用語は、一般に確率変数の値の分布を指す。例えば、確率分布は、それが属する確率変数の種類に応じて異なる形式をとることができる。例えば、確率変数の確率分布として正規分布を使用することができる。
【0035】
本出願において、「平滑化」という用語は、一般に、本出願に記載の差分の間の偏差を減少させるデータ処理方法を指す。例えば、散乱したデータを平滑化された直線に当てはめる方法を指すことができる。例えば、局所加重回帰方法によって分析して平滑化処理することができる。例えば、平滑化処理後、試料シーケンシングデータに対する変数(例えば、GC含有量)により引き起こされるバイアスは、試料シーケンシングデータに対するその変数(例えば、GC含有量)の固有の影響を除去することにより、除去または減衰されてもよい。例えば、前記平滑化処理は、本出願の明細書に記載される差分の一定数の平均を得ることを含んでもよい。例えば、前記平滑化処理は、ある区間長に基づいて異なる長さに対応するデータ値を選択し、異なるデータ値間の差分を計算することを含んでもよい。例えば、前記平滑化処理は、ある長さ範囲内の前記差分値の累積値を再び区間長で割って比率値を得ることを含んでもよい。例えば、前記比率は、その長さ範囲における前記差分値の平均差分とみなすことができる。
【0036】
本出願において、「回帰」という用語は、一般に、変数間の関係を統計的に分析する方法を指す。例えば、本出願は、回帰分析によって、試料のシーケンシングデータとある変数(例えば、GC含有量)との間の線形または非線形の関係を導出することができる。例えば、試料のシーケンシングデータとある変数(例えば、GC含有量)との間の関係は、局所加重回帰によって得ることができ、その試料のシーケンシングデータは、この関係によって調整/補正することができる。例えば、本出願の補正は、試料のシーケンシングデータと特定の変数との関係に基づいて、その試料のシーケンシングデータにその変数によって引き起こされるバイアスを除去または減衰させるために、試料のシーケンシングデータを処理することを指すことができる。
【0037】
本出願において、「局所加重回帰」という用語は、一般に、入力変数とターゲット変数の回帰分析において、局所的に重みが導入される回帰分析の方法を意味する。例えば、局所加重回帰は、アルゴリズム(loess(X~Y))によって、Xの回帰分析をYに従って局所的に重み付けすることによって分析され、処理される。
【0038】
本出願において、「ノイズ除去」という用語は、一般に、データからノイズデータを除去または低減することを指す。例えば、ノイズデータは一般的に高周波信号として現れるという事実に基づいて、変換分析、主成分分析アルゴリズム、特異値分解および/またはガウシアンフィルタリングなどの方法によって有用な信号を抽出することにより、ノイズを含むデータをノイズ除去することができる。
【0039】
本出願において、「クラスター分析」という用語は、一般に、同じ群のメンバーが幾つかの類似した属性を共有するように、類似したオブジェクトを群に分類することを指す。
【0040】
本出願において、「K平均クラスタリング」という用語は、一般にクラスター分析の方法を指す。例えば、K平均クラスタリングは、K個のクラスタリング中心に基づいて、1組のデータを複数(K個)のカテゴリーに分類することができるクラスター分析の方法であり、個々のデータは、その最も近いクラスタリング中心からの距離の合計が最小である。
【0041】
本出願において、「変換分析」という用語は、一般に、データを分析する方法を指す。例えば、変換分析は、データの元の分布を、解を容易に求めるかまたは容易に処理することができる変換領域の分布に変換することによって、データを分析し、さらなる処理に使用することができる。例えば、変換分析は、離散ウェーブレット変換を含むことができる。
【0042】
本出願において、「離散ウェーブレット変換」という用語は、一般に、基本ウェーブレットのスケールと並進を離散させることを指す。例えば、離散ウェーブレット変換は、ノイズ除去の方法として使用することができる。
【0043】
本出願において、「標準化」または「正規化」という用語は、一般に、データを変換する方法を指す。例えば、標準化とは、異なる組のデータを一定の範囲に変換するプロセスを指すことができる。例えば、標準化とは、異なる組のデータを同一中央値に変換するプロセスを指すこともある。例えば、本出願の標準化は、異なる試料のシーケンシングデータを近いレベルの中央値を持つデータに変換するプロセスを指すことができる。
【0044】
本出願において、「有意性検定」という用語は、一般に、試料と仮想的な分布との間の差が有意であるかどうかを判定する方法を指す。例えば、有意性検定は、被検試料のコピー数変異が有意であるかどうかを判定するために用いることができる。
【0045】
本出願において、「正規確率分布」という用語は、一般に、確率変数の確率分布を指す。例えば、確率変数の発生確率は、正規確率分布および正規確率分布密度関数によって決定することができる。例えば、被検試料の標的区間のコピー数変異の存在の確率は、参照試料群のシーケンシングデータに基づいて、正規確率分布によって確認することができる。
【0046】
本出願において、「グラブス検定」という用語は、一般に、外れ値を判定および/または選別する方法を指す。例えば、ある値が外れ値であるかどうかは、その値が全体的な分布範囲に適合するかどうかを判定することによって決定することができる。
【0047】
本出願において、「t検定」という用語は、一般に、スチューデントのt分布を用いた統計的仮説検定の一形態を指す。例えば、t検定は、被検試料中の標的遺伝子のコピー数変異の有意性を確認する。
【0048】
本出願において、「含む」という用語は、一般に、明確に指定された特徴を含むことを意味するが、他の要素を排除することを意味しない。
【0049】
本出願において、「約」という用語は、一般的に、指定された値の±0.5~10%の範囲内で変動することを意味し、例えば、指定された値の±0.5%、±1%、±1.5%、±2%、±2.5%、±3%、±3.5%、±4%、±4.5%、±5%、±5.5%、±6%、±6.5%、±7%、±7.5%、±8%、±8.5%、±9%、±9.5%、または±10%である。
【0050】
発明を実施するための形態
一態様では、本出願は、コピー数状態の分析方法を提供する。
【0051】
一態様では、本出願は、被検試料群のシーケンシングデータを取得するステップと、前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定するステップとを含んでもよいコピー数状態の分析方法を提供する。
【0052】
一態様では、本出願は、(S1)前記標的遺伝子が存在する領域を幾つかのウィンドウ領域に分割し、前記被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得するステップと、
(S2)前記コントロールウィンドウ領域のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、を含む、コピー数状態の分析方法を提供する。
【0053】
一態様では、本出願は、
(S1)前記標的遺伝子が存在する領域を幾つかのウィンドウ領域に分割し、前記被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得するステップと、
(S2)前記コントロールウィンドウ領域のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定し、前記品質合格試料のウィンドウ領域を前記カバレッジ変動レベルの昇順に並べるステップであって、前記コントロールウィンドウ領域は、カバレッジ変動レベルの先頭4つ以上の前記ウィンドウを含んでもよく、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央絶対偏差と中央値との比に基づいて決められてもよく、または前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比が約0.15以下であってもよいステップと、を含む、コピー数状態の分析方法を提供する。
【0054】
一態様では、本出願は、以下のステップを含んでもよいコピー数状態の分析方法を提供する。
(S1)ステップ(S1-1):前記被検試料群の全試料のウィンドウ領域のシーケンシングデータを取得する。ステップ(S1-2):前記被検試料群における品質合格試料を取得し、前記品質合格試料は、平均シーケンシング深さ、最小シーケンシング深さおよび/またはカバレッジ均一性について合格である試料を含んでもよい。ステップ(S1-3):前記被検試料群の全試料のウィンドウ領域の前記シーケンシングデータを標準化する。
(S2)前記コントロールウィンドウ領域のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定し、前記品質合格試料のウィンドウ領域を前記カバレッジ変動レベルの昇順に並べ、前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭4つ以上の前記ウィンドウを含んでもよく、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央絶対偏差と中央値との比に基づいて決められてもよく、または前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比が約0.15以下であってもよい。ステップ(S2-1):前記コントロールウィンドウ領域のシーケンシングデータに基づいて、正規化係数を決定する。ステップ(S2-2):前記正規化係数に基づいて被検試料の各ウィンドウ領域のコピー数を決定する。ステップ(S2-3):被検試料の各ウィンドウ領域のシーケンシングデータと、対応するウィンドウ領域の被検試料群における他の試料のシーケンシングデータに基づいて、被検試料のコピー数変異の有意性を決定する。
【0055】
例えば、前記シーケンシングデータは、シーケンシング深さを含んでもよい。例えば、前記コピー数状態は、コピー数の増幅および/または欠失を含んでもよい。例えば、前記コピー数状態は、エキソンコピー数状態を含んでもよい。
【0056】
例えば、前記被検試料は、約10以上の試料を含んでもよい。例えば、前記被検試料は、約10以上、約12以上、約15以上、約20以上、約25以上、約50以上、または約100以上の試料を含んでもよい。例えば、本出願は、同じバッチにおいて、より多い数の試料を必要としなくてもよい。例えば、前記被検試料群は、約10以下、約12以下、約15以下、約20以下、約25以下、または約50以下の試料を含んでもよい。例えば、本出願のコピー数状態の分析方法は、被検試料のコピー数変異レベルに対して高い許容度を有することができる。例えば、約30%のコピー数変異を含む試料は、本出願の分析方法により評価することができる。例えば、10%以下、15%以下、20%以下、25%以下、あるいは30%以下のコピー数変異を含む試料は、本出願の分析方法により評価することができる。例えば、本出願の試料の供給源は、組織、血液、唾液、胸水、腹膜液、脳脊髄液など、核酸を有する任意の試料であってもよい。
【0057】
例えば、本出願の方法に記載のステップ(S1)は、さらに、前記被検試料群における全試料のウィンドウ領域のシーケンシングデータを取得するステップ(S1-1)を含んでもよい。例えば、本出願の遺伝子シーケンシングは、任意のハイスループットシーケンシング方法またはモジュールまたは装置を含んでもよい。例えば、シーケンシングは、Solexaシーケンシング技術、454シーケンシング技術、SOLiDシーケンシング技術、Complete Genomicsシーケンシング法、および半導体(Ion Torrent)シーケンシング技術、ならびにそれらの対応する装置から選択されてもよい。
【0058】
例えば、本出願の方法に記載のステップ(S1-1)は、前記標的遺伝子が存在する領域をスライディングウィンドウ法により前記ウィンドウ領域に分割するステップを含んでもよい。例えば、前記スライディングウィンドウ法のステップ長は、約24塩基であってもよい。例えば、前記ウィンドウ領域の長さは約120塩基であってもよい。
【0059】
例えば、本出願の方法に記載のステップ(S1-1)は、重複するシーケンシングされた断片を除去した後に、各前記ウィンドウ領域の平均シーケンシング深さを求めるステップを含んでもよい。
【0060】
例えば、本出願の方法に記載のステップ(S1)は、さらに、前記被検試料群の中から品質合格試料を取得するステップ(S1-2)を含んでもよく、前記品質合格試料は、平均シーケンシング深さ、最小シーケンシング深さ、および/またはカバレッジ均一性がすべて合格である試料を含んでもよい。例えば、前記平均シーケンシング深さ合格試料は、約100倍以上の平均シーケンシング深さを有する試料を含んでもよい。例えば、前記最小シーケンシング深さ合格試料は、約30倍以上の最小シーケンシング深さを有する試料を含んでもよい。例えば、品質合格の個々の閾値は、シーケンシングに基づいて調整されてもよい。
【0061】
例えば、前記カバレッジ均一性は、前記試料の各塩基のシーケンシング深さに関係することができる。例えば、前記カバレッジ均一性は、前記試料の塩基の総数に占める、前記試料の平均シーケンシング深さの20%以上の塩基の数の割合によって計算される。例えば、前記カバレッジ均一性合格試料は、約90%以上のカバレッジ均一性を有する試料を含んでもよい。例えば、前記カバレッジ均一性合格試料は、カバレッジ均一性が約90%以上、約92%以上、約95%以上、約97%以上、または約99%以上の試料を含んでもよい。
【0062】
例えば、前記被検試料群における品質合格試料の数は、10以上であってもよい。
【0063】
例えば、本出願の方法に記載のステップ(S1)は、さらに、前記被検試料群におけるすべての試料のウィンドウ領域の前記シーケンシングデータを標準化するステップ(S1-3)をさらに含んでもよい。
【0064】
例えば、前記標準化は、前記試料のすべてのウィンドウ領域の平均シーケンシング深さに基づいて、前記試料の各ウィンドウ領域の前記シーケンシングデータを標準化すること、および/または前記試料の各ウィンドウ領域のGC含有量に基づいて、前記試料の各ウィンドウ領域の前記シーケンシングデータを標準化することを含んでもよい。
【0065】
例えば、前記標準化は、前記試料の各ウィンドウ領域における前記シーケンシングデータを、前記試料の全ウィンドウ領域における前記シーケンシングデータの合計で割り、さらに因子を乗じたものを含んでもよい。例えば、前記因子は、すべての区間のサイズに基づいて設定されてもよい。例えば、前記因子は、任意選択で、1E+07であってもよい。例えば、前記因子は、任意選択で、1E+100、1E+20、1E+10、1E+09、1E+08、1E+07、1E+06、1E+05、1E+04、1E+03、または1E+02であってもよい。
【0066】
例えば、前記標準化は、GC含有量に基づいて、回帰によって、前記試料の各ウィンドウ領域の前記シーケンシングデータを標準化することを含んでもよい。例えば、前記回帰は、局所加重回帰を含んでもよい。
【0067】
例えば、前記コントロールウィンドウ領域は、カバレッジ変動レベルの低いウィンドウ領域を含んでもよい。
【0068】
例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの統計値に基づいて決定されてもよい。例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの偏差に基づいて決定されてもよい。例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央値絶対偏差および/または中央値に基づいて決定されてもよい。例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域についてのシーケンシングデータの絶対偏差中央値と中央値との比に基づいて決定されてもよい。
【0069】
例えば、前記品質合格試料のウィンドウ領域は、前記カバレッジ変動レベルの昇順に並べられ、前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭2つ以上の前記ウィンドウを含んでもよい。
【0070】
例えば、前記品質合格試料のウィンドウ領域は、前記カバレッジ変動レベルの昇順に並べられ、前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭4つ以上の前記ウィンドウを含んでもよい。
【0071】
例えば、前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比は、約0.15以下であってもよい。例えば、前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの絶対偏差中央値と中央値との比は、約0.15以下、約0.14以下、約0.13以下、約0.12以下、約0.11以下、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、または約0.05以下であってもよい。例えば、前記コントロールウィンドウ領域内のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比は、約0.05~約0.15、約0.07~約0.15、約0.10~約0.15、約0.12~約0.15、約0.05~約0.12、約0.07~約0.12、約0.10~約0.12、約0.05~約0.10、約0.07~約0.10、または約0.05~約0.07であってもよい。
【0072】
例えば、本出願に記載のステップ(S2)は、前記コントロールウィンドウ領域のシーケンシングデータに基づいて正規化係数を決定するステップ(S2-1)をさらに含んでもよい。
【0073】
例えば、前記正規化係数は、前記コントロールウィンドウ領域内のすべての前記品質合格試料のシーケンシングデータの平均値を計算することによって決定されてもよい。
【0074】
例えば、前記正規化係数を決定する前に、前記コントロールウィンドウ領域における異常試料のカバレッジレベル値を除外することができる。例えば、前記異常カバレッジレベル値は、各前記コントロールウィンドウ領域について、外れ値分析方法により異常試料と判定されたカバレッジレベル値であってもよい。例えば、前記外れ値分析方法は、グラブス検定(Grubbs test)を含んでもよい。例えば、各ウィンドウには、そのウィンドウにおけるバッチ内の品質合格試料のカバレッジレベル値が含まれていてもよく、その後、グラブス検定を使用して、それらのカバレッジレベル値に外れ値が含まれているか否かを判定し、含まれている場合には、その外れ値を除去してもよい。そして残りのカバレッジレベル値について、グラブス検定を、外れ値が出現しなくなるまで、異常があるかどうかを判定するために繰り返し続けることができる。例えば、残りのカバレッジレベル値の数が、品質合格試料数の60%以下、50%以下、あるいは40%以下であるときに、外れ値の除去を停止することも可能であり、残りの値は、前記正規化係数を決定するために使用することができる。
【0075】
例えば、前記異常試料を除外した後の残りの試料数は、除外前の試料数の40%以上、70%以上、80%以上、90%以上、95%以上、あるいは99%以上であってもよい。
【0076】
例えば、本出願に記載のステップ(S2)は、さらに、前記正規化係数に基づいて、被検試料の各ウィンドウ領域のコピー数を決定するステップ(S2-2)を含んでもよい。
【0077】
例えば、本出願に記載のステップ(S2-2)は、前記正規化係数に基づいて、前記被検試料の各ウィンドウ領域の前記シーケンシングデータを正規化することにより、前記被検試料の各ウィンドウ領域の前記コピー数を決定することを含んでもよい。
【0078】
例えば、前記正規化方法は、前記ウィンドウ領域の被検試料のシーケンシングデータを、前記ウィンドウ領域の正規化係数で割り、プロイディを乗じることを含んでもよい。例えば、男性のX染色体の場合、前記プロイディは1であってもよい。被験者が倍数体の場合、前記プロイディはケースバイケースで調整されてもよい。例えば、2倍体とする。
【0079】
例えば、本出願に記載のステップ(S2)は、さらに、被検試料の各ウィンドウ領域のシーケンシングデータと、対応するウィンドウ領域の被検試料群における他の試料のシーケンシングデータとに基づいて、被検試料のコピー数変異の有意性を決定するステップ(S2-3)を含んでもよい。
【0080】
例えば、本出願に記載のステップ(S2-3)は、被検試料の各ウィンドウ領域の前記コピー数に基づいてコピー数変異候補領域を決定することを含んでもよい。
【0081】
例えば、前記コピー数変異候補領域は、領域分割によって決定されてもよい。例えば、前記領域分割は、サイクリックバイナリセグメンテーションアルゴリズムによって前記コピー数変異候補領域の前端点および後端点を決定することを含んでもよい。
【0082】
例えば、本出願に記載のステップ(S2-3)は、被検試料の前記コピー数変異候補領域におけるウィンドウ領域のシーケンシングデータと、対応するウィンドウ領域の被検試料群における他の試料のシーケンシングデータとに基づいて、コピー数変異の有意性を決定することを含んでもよい。例えば、前記コピー数変異の有意性は、有意性検定によって決定されてもよい。例えば、前記有意性検定は、t検定を含んでもよい。
【0083】
一態様では、本出願は、コピー数状態の分析装置も提供し、このコピー数状態の分析装置は、被検試料群のシーケンシングデータを取得する受信モジュールと、被検試料中の標的遺伝子を決定する決定モジュールと、前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい。
【0084】
例えば、本出願のコピー数状態の分析装置では、前記モジュールは、前記記憶媒体に記載されたプログラムに基づいて、本出願に記載のコピー数状態の分析方法を実行するように構成されていてもよい。
【0085】
コピー数状態の分析方法
一態様では、本出願は、コピー数状態の分析方法を提供し、この方法は、(S1):被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得するステップと、(S2):前記参照試料を2つ以上の参照試料群に分けるステップと、(S3):前記被検試料に最も近い参照試料群を決定するステップと、(S4):前記被検試料に最も近い参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、を含んでもよい。
【0086】
一態様では、本出願は、コピー数状態の分析装置を提供し、この装置は、(M1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する受信モジュールと、(M2)前記参照試料を2つ以上の参照試料群に分ける処理モジュールと、(M3)前記被検試料に最も近い参照試料群を決定する計算モジュールと、(M4):前記被検試料に最も近い参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい。
【0087】
一態様では、本出願は、コピー数状態の分析方法を提供し、この方法は、以下のステップを含んでもよい。
(S1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する。ステップ(S1-1):遺伝子シーケンシングにより前記被検試料および/または前記参照試料の前記シーケンシングデータを取得する。ステップ(S1-2):前記被検試料および/または参照試料の前記シーケンシングデータを補正する。
(S2)前記参照試料を2つ以上の参照試料群に分ける。ステップ(S2-1):前記参照試料を群分けする。ステップ(S2-2):前記参照試料群の前記シーケンシングデータの統計値を決定する。
(S3)前記被検試料に最も近い参照試料群を決定する。
(S4)被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する。ステップ(S4-1):前記標的区間iにおける前記被検試料の標的遺伝子のコピー数CNiを決定する。ステップ(S4-3):標的遺伝子における前記被検試料のコピー数CNgを決定する。ステップ(S4-4):前記標的区間における被検試料のコピー数変異の存在の確率を決定する。ステップ(S4-5):前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合のsigRatioを決定する。ステップ(S4-6):前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計的検定パラメータpを決定する。以下のことにより、前記被検試料の標的遺伝子のコピー数状態を決定する。CNg≧CNthA、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数増幅が発生したことを確認し、CNg≦CNthD、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、CNthA<CNg<CNthD、または、sigRatio<sigRatioth、または、pttest>pthのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、CNthA、CNthD、sigRatioth、および、pthは、それぞれ、互いに独立して閾値として設定される。
【0088】
一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。
【0089】
一態様では、本出願は、コピー数状態の分析方法を提供し、この方法は、以下のステップを含んでもよい。
(S1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する。ステップ(S1-1):遺伝子シーケンシングにより前記被検試料および/または前記参照試料の前記シーケンシングデータを取得する。ステップ(S1-2):前記被検試料および/または前記参照試料の前記シーケンシングデータを補正する。
(S2)前記参照試料を2つ以上の参照試料群に分ける。ステップ(S2-1):前記参照試料を群分けする。ステップ(S2-2):前記参照試料群の前記シーケンシングデータの統計値を確認する。
(S3)前記被検試料に最も近い参照試料群を決定する。
(S4)被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を確認する。ステップ(S4-1):前記標的区間iにおける前記被検試料の標的遺伝子のコピー数CNiを決定する。ステップ(S4-2):前記標的区間における前記被検試料のコピー数をノイズ除去する。ステップ(S4-3):標的遺伝子における前記被検試料のコピー数CNgを決定する。ステップ(S4-4):前記標的区間における被検試料のコピー数変異の存在の確率を決定する。ステップ(S4-5):前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合sigRatioを決定する。ステップ(S4-6):前記標的遺伝子における前記被検試料のコピー数変異の存在の統計学的検定パラメータpttestを決定する。以下のことにより、前記被検試料の標的遺伝子のコピー数状態を確認する。CNg≧CNthA、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数の増幅が発生したことを確認し、CNg≦CNthD、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子にコピー数欠失が生じたことを確認し、CNthA<CNg<CNthD、または、sigRatio<sigRatioth、または、pttest>pthのとき、前記被検試料は、標的遺伝子のコピー数が正常であることを確認し、ここで、CNthA、CNthD、sigRatioth、および、pthは、それぞれ、互いに独立して、閾値として設定される。
【0090】
一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。
【0091】
例えば、本出願のシーケンシングデータは、シーケンシングリード長の計数を含んでもよい。例えば、本出願のシーケンシングデータは、標的遺伝子または標的区間におけるシーケンシングリード長(read)の計数を含んでもよい。
【0092】
例えば、本出願の前記ステップ(S1)またはモジュール(M1)は、遺伝子シーケンシングによって前記被検試料および/または前記参照試料の前記シーケンシングデータを取得するステップ(S1-1)またはモジュール(M1-1)を含んでもよい。例えば、前記遺伝子シーケンシングは、第2世代遺伝子シーケンシング(NGS)を含んでもよい。例えば、本出願の遺伝子シーケンシングは、任意のハイスループットシーケンシング方法またはモジュール、または装置を含んでもよい。例えば、前記シーケンシングは、Solexaシーケンシング技術、454シーケンシング技術、SOLiDシーケンシング技術、Complete Genomicsシーケンシング法、および半導体(Ion Torrent)シーケンシング技術、ならびにそれらの対応する装置から選択されてもよい。
【0093】
例えば、前記被検試料および/または前記参照試料は、核酸を含む試料を含んでもよい。例えば、本出願の試料の供給源は、組織、血液、唾液、胸水、腹膜液、脳脊髄液など、核酸を含む任意の試料であってよい。
【0094】
例えば、前記ステップ(S1-1)またはモジュール(M1-1)は、前記被検試料および/または参照試料の標的区間内の各塩基の前記シーケンシングデータを取得することを含んでもよい。
【0095】
例えば、前記標的区間は、標的シーケンシングパネルの配列に対応する区間を含んでもよい。例えば、前記標的区間の長さは、約20~約500塩基の量であってもよい。例えば、前記標的間隔の長さは、約20~約500塩基の量、約50~約500塩基の量、約100~約500塩基の量、約200~約500塩基の量、約20~約200塩基の量、約50~約200塩基の量、約100~約200塩基の量、約20~約100塩基の量、約50~約100塩基の量、または約20~約50塩基の量であってもよい。
【0096】
例えば、前記標的区間の数は少なくとも約100であってもよい。例えば、前記標的区間の数は、少なくとも約100、少なくとも約200、少なくとも約500、少なくとも約1,000、または少なくとも約10,000であってもよい。
【0097】
例えば、前記ステップ(S1)またはモジュール(M1)は、前記被検試料および/または参照試料の前記シーケンシングデータを補正するステップ(S1-2)またはモジュール(M1-2)を含んでもよい。例えば、本出願の方法はまた、ステップ(S1-2)を含まないか、またはステップ(S1-2)の一部のみを含んでもよい。例えば、本出願の装置は、モジュール(M1-2)を含まないか、またはモジュール(M1-2)の一部のみを含んでもよい。例えば、本出願の方法のステップ(S1-2)の以下のステップの順序は任意である。前記被検試料および/または参照試料の前記シーケンシングデータを標準化するステップ、前記被検試料および/または参照試料の前記シーケンシングデータを平滑化するステップ、およびGC含有量が異常な前記標的区間を除外するステップ。例えば、本出願の装置のモジュール(M1-2)の以下のモジュールの順序は任意である。前記被検試料および/または参照試料の前記シーケンシングデータを標準化するモジュール、前記被検試料および/または参照試料の前記シーケンシングデータを平滑化するモジュール、および前記GC含有量が異常な前記標的区間を除外するモジュール。
【0098】
例えば、前記ステップ(S1-2)またはモジュール(M1-2)は、前記被検試料および/または参照試料の前記シーケンシングデータを標準化または均一化することを含んでもよい。例えば、前記標準化または均一化は、前記標的区間における前記シーケンシングデータを、前記標的区間に対応する試料の全ての標的区間における前記シーケンシングデータの合計で割り、因子を乗じることを含んでもよい。例えば、前記因子は、すべての区間のサイズに基づいて設定されてもよい。例えば、前記因子は、任意選択で、1E+07であってもよい。例えば、前記因子は、任意選択で、1E+100、1E+20、1E+10、1E+09、1E+08、1E+07、1E+06、1E+05、1E+04、1E+03、または1E+02であってもよい。
【0099】
例えば、前記ステップ(S1-2)またはモジュール(M1-2)は、前記被検試料および/または参照試料の前記シーケンシングデータを平滑化することを含んでもよい。例えば、前記平滑化は、シーケンシングバイアスに基づいて、回帰の方法またはその手順を記載した装置により、前記被検試料および/または参照試料の前記シーケンシングデータを平滑化することを含んでもよい。例えば、前記回帰は、局所加重回帰を含んでもよい。
【0100】
例えば、前記シーケンシングバイアスは、前記標的区間においてカバレッジされるプローブの数を含んでもよい。
【0101】
例えば、前記シーケンシングバイアスは、前記標的区間のGC含有量を含んでもよい。
【0102】
例えば、前記ステップ(S1-2)またはモジュール(M1-2)は、任意選択で、GC含有量が異常な前記標的区間を除外することを含んでもよい。
【0103】
例えば、前記GC含有量が異常な前記標的区間は、GC含有量が約25%以下の前記標的区間、および/またはGC含有量が約75%以上の前記標的区間を含んでもよい。
【0104】
例えば、前記ステップ(S2)またはモジュール(M2)は、前記参照試料を群分けするステップ(S2-1)またはモジュール(M2-1)を含んでもよい。例えば、前記参照試料は、前記被検試料から由来してもよいし、前記被検試料以外の試料から由来してもよい。例えば、前記被検試料の一部を参照試料として分割してもよい。例えば、前記参照試料は更新されてもよく、例えば、新たな試料のシーケンシングデータが分析されるたびに、その新たな試料のデータが既存のデータベースに追加され、データベース再確立プロセスが実行されてもよい。
【0105】
例えば、前記群分けは、前記標的区間の前記シーケンシングデータに基づいて前記参照試料を群分けすることを含んでもよい。
【0106】
例えば、前記群分けは、クラスター分析の方法またはその手順を記載した装置により、前記参照試料を群分けすることを含んでもよい。
【0107】
例えば、前記クラスター分析の方法は、K平均クラスタリング、階層クラスタリング、密度クラスタリング、グリッドクラスタリング、確率モデルクラスタリング、またはニューラルネットワークモデルクラスタリングを含んでもよい。例えば、前記クラスター分析の方法またはその手順を記載した装置は、クラスタリング、分類および群分けの方法またはその手順を記載した装置のいずれかを含んでもよい。
【0108】
例えば、前記参照試料の数は約30以上であってもよい。例えば、前記参照試料の数は約50以上であってもよい。例えば、前記参照試料の数は、約30以上、約40以上、約50以上、約60以上、約70以上、約80以上、約90以上、約100以上、約200以上、約300以上、約400以上、約500以上、または約1000以上であってもよい。
【0109】
例えば、前記群分けは、約2群またはそれ以上への分け方を含んでもよい。例えば、すべての参照試料のシーケンシングデータがより類似している場合、それらは1つの群のみに分けられてもよい。例えば、前記群分けは、約2個以上、約3個以上、約4個以上、約5個以上、約6個以上、約7個以上、約8個以上、約9個以上、約10個以上、約20個以上、約30個以上、約40個以上、約50個以上、約60個以上、約70個以上、約80個以上、約90個以上、または約100個以上に分けることを含んでもよい。
【0110】
例えば、各群の前記参照試料の数は、約30以上であってもよい。例えば、各群の参照試料の数は、約30以上、約40以上、約50以上、約60以上、約70以上、約80以上、約90以上、約100以上、約200以上、約300以上、約400以上、約500以上、または約1000以上であってもよい。
【0111】
例えば、前記ステップ(S2)またはモジュール(M2)は、前記参照試料群の前記シーケンシングデータの統計値を確認するステップ(S2-2)またはモジュール(M2-2)を含んでもよい。例えば、前記参照試料群の前記シーケンシングデータの前記統計値は、それぞれの候補ベースラインとして提供されてもよい。例えば、前記統計値の確認は、前記標的区間における各群の前記参照試料の平均値および/または標準偏差を計算することを含んでもよい。
【0112】
例えば、前記ステップ(S2)またはモジュール(M2)は、前記参照試料における不合格標的区間を除外するステップ(S2-3)またはモジュール(M2-3)を含んでもよい。例えば、前記不合格標的区間は、捕捉非効率区間および/または不安定区間を含んでもよい。
【0113】
例えば、前記不合格標的区間は、シーケンシングリード長の計数が約5以下の標的区間を含んでもよい。例えば、前記不合格標的区間は、シーケンシングリード長の計数が約30以下、約20以下、約10以下、約5以下、約4以下、約3以下、約2以下、約1以下、または約0以下の標的区間を含んでもよい。
【0114】
例えば、前記不合格標的区間は、約0.8以上の変動係数を有する標的区間を含んでもよく、前記変動係数は、前記標的区間における各群の前記参照試料の前記シーケンシングデータの標準偏差と平均値との比である。例えば、前記不合格標的区間は、約0.8以上、約0.9以上、または約1.0以上の変動係数を含んでもよい。例えば、捕捉非効率区間および/または不安定区間のそれぞれの閾値は、シーケンシングの状況に応じて調整されてもよい。
【0115】
例えば、前記ステップ(S3)またはモジュール(M3)は、前記被検試料と前記参照試料群との類似度を確認することを含んでもよい。
【0116】
例えば、前記類似度を確認することは、前記標的区間における前記参照試料群および前記被検試料の前記シーケンシングデータに基づいて、前記参照試料群と前記被検試料の分布類似度を確認することを含んでもよい。
【0117】
例えば、前記類似度は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータとの近接度を含んでもよい。
【0118】
例えば、前記類似度の確認は、統計距離を計算する方法、類似度アルゴリズム、またはそのような手順を記載した装置により、前記参照試料群の分布と前記被検試料群の分布の類似度を確認することを含んでもよい。例えば、前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータ間の差の統計値を含んでもよい。例えば、前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータの差の絶対値の統計値を含んでもよい。例えば、前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータの差の絶対値のp乗の統計値を含んでもよく、前記pは1以上である。例えば、前記統計値は、総和値を含んでもよい。
【0119】
例えば、前記高い類似度は、前記標的区間における前記参照試料群と前記被検試料との間の短い統計距離を含んでもよい。
【0120】
例えば、前記統計距離は、ミンコフスキー距離を含んでもよい。例えば、前記統計距離は、ヨーロピアン距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離(p=1のとき、マンハッタン距離、p=2のとき、ヨーロピアン距離、pが無限大に近づくとき、チェビシェフ距離)などを含んでもよい。例えば、前記類似度アルゴリズムには、余弦類似度、ピアソンの相関係数、スピアマンの相関係数、対数尤度類似度、クロスエントロピーなどが含まれる。
【0121】
例えば、前記被検試料の標的遺伝子のコピー数状態は、前記被検試料の標的遺伝子のコピー数変異の存在および/または数を含んでもよい。
【0122】
例えば、前記コピー数変異は、コピー数の増幅および/または欠失を含んでもよい。
【0123】
例えば、前記ステップ(S4)またはモジュール(M4)は、前記標的区間iにおける前記被検試料の標的遺伝子のコピー数CNiを決定するステップ(S4-1)またはモジュール(M4-1)を含んでもよい。
【0124】
例えば、前記CNiを決定することは、前記被検試料の標的遺伝子の前記標的区間におけるシーケンシングデータの平均値を、前記被検試料に最も近い参照試料群の前記標的区間におけるシーケンシングデータの平均値で割り、プロイディを乗じて、前記CNiを得ることを含んでもよい。
【0125】
例えば、前記プロイディは2であってもよいし、例えば、男性のX染色体の場合、前記プロイディは1であってもよい。被験者が倍数体の場合、前記プロイディは特定の状況に応じて調整されてもよい。
【0126】
例えば、前記ステップ(S4)またはモジュール(M4)は、前記被検試料の前記標的区間におけるコピー数をノイズ除去するステップ(S4-2)またはモジュール(M4-2)を含んでもよい。
【0127】
例えば、前記ノイズ除去は、変換分析、主成分分析アルゴリズム、特異値分解および/またはガウシアンフィルタリングの方法、またはそのような手順を記載した装置により、前記の被検試料の前記標的区間におけるコピー数をノイズ除去することを含んでもよい。
【0128】
例えば、前記ノイズ除去は、離散ウェーブレット変換またはその手順を記載した装置により、前記被検試料の前記標的区間におけるコピー数をノイズ除去することを含んでもよい。例えば、前記ノイズ除去は、変換分析、主成分分析アルゴリズム、特異値分解および/またはガウシアンフィルタリングなどの方法、またはその手順を記載した装置により、前記被検試料の前記標的区間におけるコピー数をノイズ除去することを含んでもよい。
【0129】
例えば、前記ステップ(S4)またはモジュール(M4)は、前記被検試料の標的遺伝子のコピー数CNgを決定するステップ(S4-3)またはモジュール(M4-3)を含んでもよい。
【0130】
例えば、前記標的遺伝子は、コピー数変異が生じると決定されるべき遺伝子を含んでもよい。
【0131】
例えば、前記標的遺伝子は、ABL1、ABL2、ABRAXAS1、ACVR1、ACVR1B、AKT1、AKT2、AKT3、ALK、ALOX12B、AMER1、APC、AR、ARAF、ARFRP1、ARID1A、ARID1B、ARID2、ARID5B、ASXL1、ASXL2、ASXL3、ATG5、ATM、ATR、ATRX、AURKA、AURKB、AXIN1、AXIN2、AXL、B2M、BAP1、BARD1、BBC3、BCL10、BCL2、BCL2L1、BCL2L11、BCL2L2、BCL6、BCOR、BCORL1、BIRC3、BLM、BMPR1A、BRAF、BRCA1、BRCA2、BRD4、BRD7、BRINP3、BRIP1、BTG1、BTG2、BTK、CALR、CARD11、CASP8、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD274、CD28、CD58、CD74、CD79A、CD79B、CDC73、CDH1、CDH18、CDK12、CDK4、CDK6、CDK8、CDKN1A、CDKN1B、CDKN1C、CDKN2A、CDKN2B、CDKN2C、CEBPA、CENPA、CHD1、CHD2、CHD4、CHD8、CHEK1、CHEK2、CIC、CIITA、CREBBP、CRKL、CRLF2、CRYBG1、CSF1R、CSF3R、CSMD1、CSMD3、CTCF、CTLA4、CTNNA1、CTNNB1、CUL3、CUL4A、CXCR4、CYLD、CYP17A1、CYP2D6、DAXX、DCUN1D1、DDR1、DDR2、DDX3X、DICER1、DIS3、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、DPYD、DTX1、DUSP22、EED、EGFR、EIF1AX、EIF4E、EMSY、EP300、EPCAM、EPHA2、EPHA3、EPHA5、EPHA7、EPHB1、EPHB4、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ERG、ERRFI1、ESR1、ETV4、ETV5、ETV6、EWSR1、EZH2、EZR、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FAS、FAT1、FAT3、FBXW7、FGF10、FGF12、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGF7、FGFR1、FGFR2、FGFR3、FGFR4、FH、FLCN、FLT1、FLT3、FLT4、FOXA1、FOXL2、FOXO1、FOXO3、FOXP1、FRS2、FUBP1、FYN、GABRA6、GALNT12、GATA1、GATA2、GATA3、GATA4、GATA6、GEN1、GID4、GLI1、GNA11、GNA13、GNAQ、GNAS、GPS2、GREM1、GRIN2A、GRM3、GSK3B、H3F3A、H3F3B、H3F3C、HDAC1、HDAC2、HGF、HIST1H1C、HIST1H2BD、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3G、HIST1H3H、HIST1H3I、HIST1H3J、HIST2H3D、HIST3H3、HLA-A、HLA-B、HLA-C、HNF1A、HOXB13、HRAS、HSD3B1、HSP90AA1、ICOSLG、ID3、IDH1、IDH2、IFNGR1、IGF1、IGF1R、IGF2、IGHD、IGHJ、IGHV、IKBKE、IKZF1、IL10、IL7R、INHA、INHBA、INPP4A、INPP4B、INSR、IRF2、IRF4、IRS1、IRS2、ITK、ITPKB、JAK1、JAK2、JAK3、JUN、KAT6A、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KEL、KIR2DL4、KIR3DL2、KIT、KLF4、KLHL6、KLRC1、KLRC2、KLRK1、KMT2A、KMT2C、KMT2D、KRAS、LATS1、LATS2、LMO1、LRP1B、LTK、LYN、MAF、MAGI2、MALT1、MAP2K1、MAP2K2、MAP2K4、MAP3K1、MAP3K13、MAP3K14、MAPK1、MAPK3、MAX、MCL1、MDC1、MDM2、MDM4、MED12、MEF2B、MEN1、MERTK、MET、MFHAS1、MGA、MIR21、MITF、MKNK1、MLH1、MLH3、MPL、MRE11、MSH2、MSH3、MSH6、MST1、MST1R、MTAP、MTOR、MUTYH、MYC、MYCL、MYCN、MYD88、MYOD1、NAV3、NBN、NCOA3、NCOR1、NCOR2、NEGR1、NF1、NF2、NFE2L2、NFKBIA、NKX2-1、NKX3-1、NOTCH1、NOTCH2、NOTCH3、NOTCH4、NPM1、NRAS、NRG1、NSD1、NSD2、NSD3、NT5C2、NTHL1、NTRK1、NTRK2、NTRK3、NUP93、NUTM1、P2RY8、PAK1、PAK3、PAK5、PALB2、PALLD、PARP1、PARP2、PARP3、PAX5、PBRM1、PCDH11X、PDCD1、PDCD1LG2、PDGFRA、PDGFRB、PDK1、PGR、PHOX2B、PIK3C2B、PIK3C2G、PIK3C3、PIK3CA、PIK3CB、PIK3CD、PIK3CG、PIK3R1、PIK3R2、PIK3R3、PIM1、PLCG2、PLK2、PMS1、PMS2、PNRC1、POLD1、POLE、POM121L12、PPARG、PPM1D、PPP2R1A、PPP2R2A、PPP6C、PRDM1、PREX2、PRKAR1A、PRKCI、PRKDC、PRKN、PTCH1、PTEN、PTPN11、PTPRD、PTPRO、PTPRS、PTPRT、QKI、RAB35、RAC1、RAD21、RAD50、RAD51、RAD51B、RAD51C、RAD51D、RAD52、RAD54L、RAF1、RARA、RASA1、RB1、RBM10、RECQL4、REL、RET、RHEB、RHOA、RICTOR、RIT1、RNF43、ROS1、RPA1、RPS6KA4、RPS6KB2、RPTOR、RSPO2、RUNX1、RUNX1T1、SDC4、SDHA、SDHAF2、SDHB、SDHC、SDHD、SETD2、SF3B1、SGK1、SH2B3、SH2D1A、SHQ1、SLC34A2、SLIT2、SLX4、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMARCD1、SMO、SNCAIP、SOCS1、SOX10、SOX17、SOX2、SOX9、SPEN、SPI1、SPOP、SPTA1、SRC、SRSF2、STAG2、STAT3、STAT4、STAT5A、STAT5B、STAT6、STK11、STK40、SUFU、SYK、TAF1、TBX21、TBX3、TCF3、TCF7L2、TEK、TENT5C、TERC、TERT、TET1、TET2、TGFBR1、TGFBR2、TIPARP、TMEM127、TMPRSS2、TNFAIP3、TNFRSF14、TOP1、TOP2A、TP53、TP63、TP73、TRAF2、TRAF3、TRAF7、TRIM58、TRPC5、TSC1、TSC2、TSHR、TYRO3、U2AF1、UGT1A1、VEGFA、VEGFB、VEGFC、VHL、WISP3、WRN、WT1、XIAP、XPO1、XRCC2、XRCC3、YAP1、YES1、ZAP70、ZBTB16、ZBTB2、ZNF217、ZNF703、およびZNRF3からなる群から選択される遺伝子を含んでもよい。例えば、前記標的遺伝子は、ALK(転写産物番号はNM_004304.4であってもよい)、ERBB2(転写産物番号はNM_004448.3であってもよい)、EGFR(転写産物番号はNM_005228.3であってもよい)、FGFR1(転写産物番号はNM_023110.2であってもよい)、FGFR2(転写産物番号はNM_000141.4であってもよい)、CDK4(転写産物番号はNM_000075.3であってもよい)およびMET(転写産物番号はNM_000245.3であってもよい)からなる群から選択される遺伝子を含んでもよい。
【0132】
例えば、本出願における試料は、組織試料、血液試料、唾液、胸水、腹膜液、および脳脊髄液からなる群から選択される。
【0133】
例えば、前記ステップ(S4-3)またはモジュール(M4-3)は、前記被検試料の前記標的遺伝子のエキソンの長さ、および前記被検試料の前記標的区間iにおけるコピー数CNiに基づいて、前記CNgを決定することを含んでもよい。
【0134】
例えば、前記ステップ(S4-3)またはモジュール(M4-3)は、以下の式に基づいて前記CN
gを決定することを含んでもよい。
【数1】
ここで、iは標的区間を表し、jは標的エキソンを表し、nは標的エキソンj上の標的区間の数を表し、mは標的エキソンの数を表し、CN
iは標的区間iにおけるコピー数を表し、Len
jは標的エキソンjの長さを表す。
【0135】
例えば、前記ステップ(S4)またはモジュール(M4)は、前記標的区間における被検試料のコピー数変異の存在の確率を決定するステップ(S4-4)またはモジュール(M4-4)を含んでもよい。
【0136】
例えば、前記コピー数変異の存在の確率は、前記標的区間において前記被検試料において生じるコピー数の増幅の確率(pa)および/または欠失の確率(pd)を含んでもよい。
【0137】
例えば、前記ステップ(S4-4)またはモジュール(M4-4)は、前記標的区間iにおける前記被検試料のシーケンシングデータ、および対応する標的区間における前記被検試料に最も近い参照試料群のシーケンシングデータの平均値および標準偏差に基づいて、確率分布の方法またはその手順を記載した装置により、前記コピー数変異の存在の確率を確認することを含んでもよい。
【0138】
例えば、前記確率分布は、正規確率分布を含んでもよい。例えば、前記確率分布は、任意の一般的な確率分布を含んでもよい。例えば、前記確率分布は、任意の離散確率分布を含んでもよい。例えば、前記確率分布は、任意の連続確率分布を含んでもよい。
【0139】
例えば、前記ステップ(S4)またはモジュール(M4)は、前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の比率sigRatioを決定するステップ(S4-5)またはモジュール(M4-5)を含んでもよい。
【0140】
例えば、前記ステップ(S4-5)またはモジュール(M4-5)は、有意なコピー数変異が生じた前記標的遺伝子における標的区間の数を、前記標的遺伝子における全ての標的区間の数で割って、前記sigRatioを得ることを含んでもよい。
【0141】
例えば、有意なコピー数変異が生じた標的区間は、前記コピー数変異の割合が約30%以上である前記標的区間を含んでもよい。例えば、有意なコピー数変異が生じた前記標的区間は、前記コピー数変異の割合が約30%以上、約40%以上、約50%以上、約60%以上、約70%以上、約80%以上、約90%以上、約95%以上である前記標的区間を含んでもよい。
【0142】
例えば、前記ステップ(S4)またはモジュール(M4)は、前記標的遺伝子において前記被検試料のコピー数変異の存在に関する統計学的検定パラメータを決定するステップ(S4-6)またはモジュール(M4-6)を含んでもよい。
【0143】
例えば、前記統計学的検定パラメータは、有意性検定によって決定されるp値を含んでもよい。
【0144】
例えば、前記有意性検定は、t検定を含んでもよい。例えば、前記有意性検定は、任意の有意性検定であってもよいし、実際の状況に応じて変形された有意性検定であってもよい。
【0145】
例えば、前記ステップ(S4-6)またはモジュール(M4-6)は、前記標的遺伝子における前記被検試料の前記標的区間の数、前記標的遺伝子における前記被検試料の各前記標的区間におけるシーケンシングデータ、前記標的遺伝子における前記被検試料の各前記標的区間におけるシーケンシングデータの標準偏差、および対応する標的遺伝子が被検試料に最も近い前記参照試料群の標的区間におけるシーケンシングデータの平均値および標準偏差に基づいて、t検定またはその手順を記載した装置によりp値pttestを確認することを含んでもよい。
【0146】
例えば、前記ステップ(S4)またはモジュール(M4)は、以下のことにより、前記被検試料の標的遺伝子のコピー数状態を決定してもよい。
CNg≧CNthA、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の前記標的遺伝子のコピー数の増幅が生じたことを確認し、
CNg≦CNthD、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、
CNthA<CNg<CNthD、またはsigRatio<sigRatioth、またはpttest>pthのとき、前記被検試料の前記標的遺伝子のコピー数が正常であることを確認し、ここで、CNthA、CNthD、sigRatioth、およびpthは、それぞれ独立して、閾値である。
【0147】
例えば、CNthAは約2.25~約4であってもよい。例えば、CNthAは約2.25、約2.50、約2.75、約3.00、約3.25、約3.50、約3.75、または約4.00であってもよい。
【0148】
例えば、CNthDは約1.0~約1.75であってもよい。例えば、CNthDは約0.25、約0.50、約0.75、約1.00、約1.25、約1.50、約1.75であってもよい。
【0149】
例えば、sigRatiothは約0.3~約1であってもよい。例えば、sigRatiothは約0.3、約0.4、約0.5、約0.6、約0.7、約0.8、約0.9、または約1.0であってもよい。
【0150】
例えば、pthは、約0.05~約0.00001であってもよい。例えば、pthは、約0.05、約0.01、約0.001、約0.0001、約0.00001、約0.000001、または約0.0000001であってもよい。
【0151】
データベースの構築
一態様では、本出願は、複数の参照試料のシーケンシングデータを取得するステップと、前記参照試料を2つ以上の参照試料群に分けるステップとを含んでもよいデータベース構築方法を提供する。
【0152】
例えば、前記データベース構築方法は、(S1):被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得するステップと、(S2):前記参照試料を2つ以上の参照試料群に分けるステップと、を含んでもよい。
【0153】
一態様では、本出願は、被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する受信モジュールと、前記参照試料を2つ以上の参照試料群に分ける処理モジュールと、を含んでもよいデータベース構築装置を提供する。
【0154】
例えば、前記データベース構築装置は、(M1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する受信モジュールと、(M2)前記参照試料を2つ以上の参照試料の群に分ける処理モジュールとを含んでもよい。
【0155】
一態様では、本出願は、以下のステップを含んでもよいデータベース構築方法を提供する。
(S1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する。ステップ(S1-1):遺伝子シーケンシングにより前記被検試料および/または前記参照試料の前記シーケンシングデータを取得する。ステップ(S1-2):前記被検試料および/または前記参照試料の前記シーケンシングデータを補正する。
(S2)前記参照試料を2つ以上の参照試料群に分ける。ステップ(S2-1):前記参照試料を群分けする。ステップ(S2-2):前記参照試料群の前記シーケンシングデータの統計値を確認する。
一態様では、本出願は、本出願のデータベース構築方法を実施するモジュールを含んでもよいデータベース構築装置を提供する。
一態様では、本出願は、以下のステップを含んでもよいデータベース構築方法を提供する。
(S1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する。ステップ(S1-1):遺伝子シーケンシングにより前記被検試料および/または前記参照試料の前記シーケンシングデータを取得する。ステップ(S1-2):前記被検試料および/または前記参照試料の前記シーケンシングデータを補正する。
(S2)前記参照試料を2つ以上の参照試料群に分ける。ステップ(S2-1):前記参照試料を群分けする。ステップ(S2-2):前記参照試料群の前記シーケンシングデータの統計値を確認する。
【0156】
一態様では、本出願は、本出願のデータベース構築方法を実施するモジュールを含んでもよいデータベース構築装置を提供する。
【0157】
一態様では、本出願は、(M1)被検試料のシーケンシングデータおよび/または複数の参照試料のシーケンシングデータを取得する受信モジュールと、(M2)前記参照試料を2つ以上の参照試料群に分ける処理モジュールと、を含んでもよい、データベース構築装置を提供する。
【0158】
コピー数状態の分析方法
一態様では、本出願は、既存のデータベースからの情報に基づいてコピー数状態の分析方法を提供し、この方法は、2つ以上の参照試料群から被検試料に最も近い参照試料群を決定するステップと、被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップとを含んでもよい。
【0159】
例えば、前記コピー数状態の分析方法は、(S3)前記被検試料に最も近い参照試料群を決定するステップと、(S4)被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、を含んでもよい。
【0160】
一態様では、本出願は、2つ以上の参照試料群から前記被検試料に最も近い参照試料群を決定する計算モジュールと、被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい、コピー数状態の分析装置を提供する。
【0161】
例えば、前記コピー数状態の分析装置は、(M3)前記被検試料に最も近い参照試料群を決定する計算モジュールと、(M4)前記被検試料に最も近い参照試料群のシーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい。
【0162】
一態様では、本出願は、以下のステップを含んでもよい、コピー数状態の分析方法を提供する。
(S3)前記被検試料に最も近い参照試料群を決定する。
(S4)前記被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する。ステップ(S4-1):前記標的区間iにおける前記被検試料の標的遺伝子のコピー数CNiを決定する。ステップ(S4-3):標的遺伝子における前記被検試料のコピー数CNgを決定する。ステップ(S4-4):前記標的区間における被検試料のコピー数変異の存在の確率を決定する。ステップ(S4-5):前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の比率sigRatioを決定する。ステップ(S4-6):前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計学的検定パラメータを決定する。以下のことにより、前記被検試料の前記標的遺伝子のコピー数状態を決定する。CNg≧CNthA、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数の増幅が生じたことを確認し、CNg≦CNthD、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、CNthA<CNg<CNthD、またはsigRatio<sigRatioth、またはpttest>pthのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、CNthA、CNthD、sigRatioth、およびpthは、それぞれ独立して、閾値である。
【0163】
一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。
【0164】
一態様では、本出願は、以下のステップを含んでもよい、コピー数状態の分析方法を提供する。
(S3)前記被検試料に最も近い参照試料群を決定する。
(S4)前記被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する。ステップ(S4-1):前記標的区間iにおける前記被検試料の標的遺伝子のコピー数CNiを決定する。ステップ(S4-2):前記標的区間における前記被検試料のコピー数をノイズ除去する。ステップ(S4-3):前記標的遺伝子における前記被検試料のコピー数CNgを決定する。ステップ(S4-4):前記標的区間における前記被検試料のコピー数変異の存在の確率を決定する。ステップ(S4-5):前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合sigRatioを決定する。ステップ(S4-6):前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計的検定のパラメータを決定する。以下のことにより、前記被検試料の標的遺伝子のコピー数状態を決定する。CNg≧CNthA、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数の増幅が生じたことを確認し、CNg≦CNthD、sigRatio≧sigRatioth、かつpttest≦pthのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、CNthA<CNg<CNthD、またはsigRatio<sigRatioth、またはpttest>pthのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、CNthA、CNthD、sigRatioth、およびpthは、それぞれ独立に閾値である。
【0165】
一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。
【0166】
データベース、機器、および応用方法
一態様では、本出願は、本出願に記載のコピー数状態の分析方法またはデータベース構築方法によって構築されるデータベースを提供する。
【0167】
一態様では、本出願は、本出願に記載の方法を実行できるプログラムを記載した記憶媒体をさらに提供する。
【0168】
一態様では、本出願は、本出願に記載の記憶媒体を含んでもよい装置をさらに提供する。例えば、前記不揮発性コンピュータ読み取り可能記憶媒体は、フロッピーディスク、フレックスディスク、ハードディスク、ソリッドステートストレージ(SSS)(例えば、ソリッドステートドライブ(SSD))、ソリッドステートカード(SSC)、ソリッドステートモジュール(SSM))、エンタープライズフラッシュドライブ、磁気テープ、または任意の他の非一過性磁気媒体などを含んでもよい。不揮発性コンピュータ読み取り可能な記憶媒体には、パンチカード、紙テープ、フォトマーカーシート(または、穴パターンまたは他の光学的に識別可能なマーキングを有する他の物理的媒体)、コンパクトディスク読み出し専用メモリ(CD-ROM)、コンパクトディスク再書き込み可能(CD-RW)、デジタルユニバーサルディスク(DVD)、ブルーレイディスク(BD)、および/または他の非一時的な光媒体も含まれる。
【0169】
例えば、本出願の機器は、前記記憶媒体に結合されたプロセッサをさらに含み、前記プロセッサは、前記記憶媒体に記憶されたプログラムの実行に基づいて本出願に記載の方法を実現するように構成されてもよい。
【0170】
一態様では、本出願は、疾患の診断、予防および/または治療における本出願の方法の応用をさらに提供する。
【0171】
一態様では、本出願は、標的遺伝子のコピー数状態モニタリングにおける本出願の方法の応用をさらに提供する。
【0172】
一態様では、本出願は、ゲノムワイド関連研究における本出願の方法の応用をさらに提供する。
【0173】
本出願において、前記方法は、前記被験者がコピー数変異を有するか否かを判定するために使用されてもよい。例えば、本出願のいずれか1つまたは複数の方法は、非診断目的であってもよい。例えば、本出願のいずれか1つまたは複数の方法は、診断目的であってもよい。
【0174】
本出願において、前記方法は、前記コピー数変異を検出することにより、臨床での使用(例えば、ある特定の腫瘍治療方式が当該被験者に適するかどうかを推測するため)に用いられ得る。場合によっては、前記方法によって検出されたコピー数変異のレベルは、当該技術分野で公知のバイオマーカーと組み合わせて臨床で使用することができる。
【0175】
いかなる理論によっても限定されることを望むことなく、以下に記載される実施例は、単に本出願の方法および用途等を説明するためのものであり、本出願の発明の範囲を限定することを意図するものではない。
【0176】
<実施例>
実施例1
1.1 データの準備
30個の陰性末梢血試料を選択し、同じバッチの実験試薬を用いて末梢血からDNAを抽出し、断片化、リンカー付加、PCR増幅の実験ステップを経て全ゲノムプレライブラリーを作製した。次に、調製したプレライブラリーを2つに分け、バッチAとバッチBと記した異なるバッチのプローブを用いて、プレライブラリーとハイブリダイズさせ、ヒトゲノムのBRCA1遺伝子を特異的に捕捉し、最終ライブラリーAと最終ライブラリーBを得た。この2つの最終ライブラリーについて、シーケンサーを用いたハイスループットシーケンシングを行った。最後に、このシーケンシングデータをヒトゲノム標準配列hg19とアライメントし、アライメント済みBAMファイルを得た。
【0177】
1.2 参照ベースラインの構築に基づくコピー数変異の従来の検出方法
事前に、前期に採取したコピー数が正常な十分な陰性試料(例えば50例以上)を参照集合とし、参照ベースラインを構築した。その後、2群の実験試料を用いて、この参照集合から構築したベースラインを用いてBRCA1遺伝子の各エキソンのコピー数の値を算出し、コピー数変異を検出した。エキソンコピー数の計算結果(
図1Aに示す)から、バッチAプローブで捕捉した実験データは、均一性が良く、理論コピー数値の2に近かったが、バッチBプローブで捕捉した結果は、比較的悪く、特にBRCA1遺伝子のエキソン8については、すべての試料の選好度は大幅に低かった。一方、コピー数変異の検出結果から、バッチBプローブを用いた実験群では、30試料において、2つの試料のBRCA1由来の偽陽性のコピー数変異が検出された。このことは、従来のベースライン参照方法を用いると、プローブバッチの違いに起因するコピー数変異の検出精度の低下を招きやすいことを示唆している。
【0178】
1.3 本出願の方法によるコピー数変異の検出
そこで、次に、本出願の方法を用いてコピー数変異を検出した。
【0179】
(1) データの準備
本出願のコピー数変異の検出アルゴリズムは、十分な数の試料を選択することができ、例えば、同じ試料タイプ、同じ実験方法による試料データ15例とすることができ、実験に使用する試薬バッチ、実験機器などが可能な限り一致するようにする。参加する各試料データは、NGSシーケンシングデータのアライメント後のBAMファイルから取得する必要がある。
【0180】
(2) BAMファイルの重複除去およびDNA配列断片のカバレッジ深さに基づく統計
各試料のBAMファイルについて、まず、NGSライブラリー構築によりPCRで導入された重複DNA配列断片を除去し、一意なアライメントDNA断片を得た。次に、検出したい標的DNA領域に応じて、スライディングウィンドウ法を用いて、24bpずつスライドさせ、プローブの長さを120bpに固定したウィンドウ領域に分割し、各ウィンドウ内の一意なアライメントDNA断片の平均カバレッジレベルを計数した。
【0181】
(3) 試料シーケンシングのカバレッジ品質管理
任意選択で、各試料に対して品質管理を実施し、平均シーケンシング深さ、最小シーケンシング深さ、およびカバレッジ均一性が要件を満たしているかどうかを判定した。このうち、平均シーケンシング深さは≧100倍、最小シーケンシング深さは≧30倍、カバレッジ均一性は≧90%(塩基のシーケンシング深さが試料の平均シーケンシング深さの20%以上である塩基の割合を指し、式は、カバレッジ均一性=(試料の平均シーケンシング深さの20%以上である塩基の数/試料の総塩基数)×100%である。試料データの品質が要件を満たさない場合、それを修正ベースラインの構築に使用しない。本出願の検出方法は、品質の要件を満たす試料数を少なくとも10試料として検出することができる。
【0182】
(4) データの補正と正規化処理
ノイズや系統的バイアスがコピー数変異の検出結果に与える影響を最小限に抑えるため、各ウィンドウ領域のカバレッジレベルを補正することができる。カバレッジレベル初期補正(試料平均カバレッジレベルに基づく)、GC補正、バッチ補正などがある。
【0183】
(5) カバレッジレベル初期補正
カバレッジレベル初期補正は、シーケンシングされた異なる試料のカバレッジの深さの違いを補正するために、バッチ内のすべての試料のカバレッジレベルを同じ指定されたカバレッジレベルに補正することである。具体的には、バッチ内の各試料のウィンドウ領域について、シーケンシングによる平均カバレッジレベルを、その試料内のすべてのウィンドウ領域の平均カバレッジレベルの合計で割り、固定係数(係数は1E+07)を乗じる。
【0184】
(6) GC補正
GC preferenceによるシーケンシングカバレッジ深さの違いを補正するために、各ウィンドウのGC含有量を計算し、試料内の各ウィンドウ領域のカバレッジレベルをLoess回帰を用いてGC preferenceについて補正することにより、GC補正を行った。
【0185】
(7) バッチ補正
i. バッチ内のすべての品質制御合格試料のGC補正データを入手する。
ii. バッチベースライン構築に関与した試料について、各ウィンドウ内のカバレッジレベルの中央値 (median)と中央絶対偏差(MAD)を計算する。MAD/中央値>設定閾値(例えば、設定閾値は約0.05~約0.15とすることができる)の場合、これはそのウィンドウのカバレッジレベルが不安定であり、除外する必要があることを示す。
iii. MAD/中央値<設定閾値のウィンドウ、またはMAD/中央値が最小の先頭4つのウィンドウを、カバレッジレベルが安定したウィンドウ領域として保持する。
iv. 次に、保持されたカバレッジレベルが安定した各ウィンドウ領域について、グラブス(grubbs)検定を用いてそのウィンドウ内の異常なカバレッジレベル値を除去し、残りのカバレッジレベル値の平均値をバッチ補正参照係数として算出する。
v. 最後に、被検試料ごとに、上記で算出したバッチ補正参照係数に基づいて、各ウィンドウ領域のカバレッジレベルを正規化し、コピー数CN値を算出するが、各ウィンドウのコピー数CN値の算出式は以下の通りである。
【数2】
【0186】
(8) コピー数変異の同定
CBSアルゴリズムを用いて、試料の標的領域のブレークポイントの位置を同定し、コピー数変異領域候補を得る。次に、各コピー数変異候補領域について有意性検定を行い、具体的には、t検定により、コピー数変異候補領域での被検試料のウィンドウカバレッジレベルが、その領域におけるバッチ内の他の試料のカバレッジレベルと有意に異なるかどうかを判定し、コピー数変異候補の信頼性を判定する。
【0187】
その中で、BRCA1遺伝子エキソンのコピー数の分布を
図1Bに示すが、参照ベースラインの構築に基づく従来の方法と比較して、本出願の方法は、コピー数結果の均一性により優れており、特にバッチ差の大きいB群プローブにおいて顕著であり、2組の実験データいずれにおいても偽陽性のコピー数変異は検出されなかった。
【0188】
実施例2
20個の細胞株試料を選択し、そのうち19個は陰性で、1個は既知のエキソンコピー数変異(LGR)試料であった(BRCA1: Exon 12 amp)。実験では、機器による自動ライブラリー構築方法を用いて、ハイスループットシーケンスデータを得た。最後に、シーケンシングデータをヒトゲノム標準配列hg19とアライメントし、アライメント済みBAMファイルを得た。試料のBAMファイルについて、参照ベースラインの構築に基づく従来の方法と、本出願の方法とをそれぞれ用いて、コピー数変異を検出した。ここで、参照ベースラインの構築に基づく方法において採用されるベースラインは、以前の手動ライブラリー構築方法(例えば、実施例1において使用された参照ベースライン)からの試料データを用いて確立されてもよい。
【0189】
コピー数変異を含む陽性試料の結果を
図2A~2Bに示すが、参照ベースラインの構築に基づく従来の方法の結果(
図2Aに示す)は、バックグラウンドノイズが非常に高く、コピー数変異を検出できないのに対し、本出願の方法のデータは、バックグラウンドノイズが著しく低くなり、コピー数変異を検出できる(
図2Bに示す)ことから、異なる実験方法によって生成されたNGSデータは大きく異なる可能性があり、手動ライブラリー構築方法のデータから構築されたベースラインは、自動ライブラリー構築方法のデータには適用できなかった。このことは、実験方法を変更する場合、従来の参照ベースラインの方法を用いると、あらかじめ実験方法を用いて十分な試料データを収集し、手作業で新たなベースラインを構築する必要があり、実験のコストとマンパワーの無駄が大きくなることを示している。
【0190】
実施例3
BRCA1およびBRCA2のエキソンコピー数変異(LGR)を検出するために、669個の末梢血試料を選択し、BRCA1およびBRCA2遺伝子領域を特異的に捕捉するRNAプローブを用いて実験を行った後、ハイスループットシーケンシングを行い、そのシーケンシングデータをヒトゲノムの標準配列であるhg19とアラインメントし、アラインメント済みBAMファイルを得た。その後、参照ベースラインの構築に基づく方法と本出願の方法をそれぞれ用いてコピー数変異を検出した。一方、BRCA MASTR Plus Dxキット(multiplex PCR capture methodologyに基づく)により全試料のコピー数変異を確認したところ、合計17個のLGR陽性試料と679個の陰性試料が含まれていた。
【0191】
BRCA MASTR Plus Dxキットの検出結果を基準として、これら696個の末梢血試料について、参照ベースラインの構築に基づく従来の方法の検出結果および本出願の方法の検出結果の感度および特異度を求め、それぞれ表1および表2に示す。
【表1】
【表2】
【0192】
表1と表2を比較すると、ベースラインを構築する従来の方法と比較して、本出願の方法では、感度を損なうことなく試料の偽陽性を大幅に低減でき、検出精度を75.3%から98.9%に向上できることがわかった。
【0193】
実施例4
バッチベースラインを構築するために、シーケンシングアライメントの14個の細胞株試料のデータを選択し、バッチベースラインを構築する過程で、ウィンドウカバレッジのカバレッジ変動レベルを表す閾値をそれぞれ0.05と0.15に設定し、2つのバッチベースラインを構築した。そして、LGRのコピー数変異が既知の14個の試料(BRCA1:exon4-6del)について、それぞれ2つのバッチベースラインを用いてバッチ補正を行い、コピー数変異を検出した。
【0194】
図3A~3Bに、コピー数変異を含む陽性試料の結果を示すが、ウィンドウカバレッジ変動レベルが異なる閾値に基づいて構築されたバッチベースラインは、コピー数変異を明確に検出することができ、本出願のスクリーニング安定区間の閾値範囲がコピー数変異の検出を達成できることを示している。
【0195】
実施例5
模擬試料バックグラウンドとして10個の陰性細胞株試料を選択し、次に模擬する変異として文献で報告されているBRCA1およびBRCA2遺伝子の10個のLGRコピー数変異(表3に示す)を選択した(5種類のコピー数の増幅変異試料、5種類のコピー数欠失変異)。シミュレーション後、上記のコピー数の増幅変異とコピー数欠失変異を模擬試料バックグラウンドデータに人為的に追加し、最終的に10個の陽性LGR模擬試料データを得た。
【0196】
10個の模擬陽性試料についてバッチベースラインを構築し、構築したバッチベースラインを用いて、10個の模擬試料についてバッチ補正とコピー数変異の同定を行った。10個の模擬試料についての結果を
図4A~4Jに示すが、10個の模擬コピー数変異はすべて正確に検出されており、本出願がどの領域についてもコピー数変異の正確な検出を達成していることがわかった。
【表3】
【0197】
実施例6
本出願の方法は、クラスタリング法を用いて、大量の実試料データをシーケンシング深さの傾向クラスタリングに従って異なる試料集合に分割し、それぞれベースライン(平均深さおよび深さ変動範囲)を構築し、試料とベースラインとの間の類似度に応じてバックグラウンドベースラインを動的にスクリーニングし、バッチ効果を排除しつつ、検出の特異性および感度を向上させる。一方、任意選択で離散ウェーブレット変換法を用いてコピー数を平滑化し、ノイズを低減し、シーケンシングデータのS/N比を向上させることができる。
【0198】
本出願の方法は、ハイスループットシーケンスにおいて、高感度かつ高精度なコピー数変異検出を実現する方法および媒体を提供することを目的とし、試料カバレッジ特徴の特異性の差異に基づいてコピー数変異を検出するものである。具体的には、大規模試料のクラスター分析に基づいて複数の対照群ベースラインを構築し、シーケンシングにおける実験や試料の違いによるカバレッジ深さ特徴の不整合に起因するベースラインの不一致の問題を回避することができ、試料の特異性のデータバラつきを低減するための様々なカバレッジ深さ補正ストラテジーを統合することができ、最終的には、定量分析と統計的差異評価によって結果の正確性と安定性を確保することができる。本出願におけるコピー数変異検出方法は、特定の遺伝子パネル(panel)の標的化キャプチャーシーケンスデータだけでなく、エキソーム全体のキャプチャーシーケンスデータにも適用できる。以上のことから、本出願のデータベース構築方法は、以下のステップを含んでもよい。
【0199】
1.データ準備モジュールであって、以下のことを含む。
a) 配列アライメント:ハイスループットシーケンスによるfastqの生データをヒトリファレンスゲノムにポストバックし、被検試料や参照試料の標的区間がヒトリファレンスゲノムの参照配列に一致する配列を決定する。
b) リピート配列の除去:PCR増幅中に生成したリピート配列を除去する。
c) カバレッジ深さの計算:標的区間における各塩基のシーケンシング深さRDBaseを計算する。
【0200】
2.カバレッジ深さ補正モジュールであって、3つの独立した、順次任意の補正を含む。
a)前記シーケンシングデータの標準化:試料総シーケンシング深さ補正であって、具体的には、試料総シーケンシング深さに従って、各標的区間における個々の遺伝子座のカバレッジ深さを標準化し、異なる試料間のシーケンシングデータ量の差を排除してRD
normDを得る。
【数3】
ここで、iは標的区間における遺伝子座を示し、nは全ての標的区間における遺伝子座の総数を示し、RD
iは標的区間における遺伝子座iのシーケンシング深さを示し、Rは全ての区間のサイズに応じて設定可能な定数であり、被検試料の補正深さと参照試料群の補正深さが同じレベルになるようにする。
b)前記シーケンシングデータの平滑化1:プローブ敷設特徴補正であって、具体的には、プローブ設計における異なる区間のプローブ敷設乗数の差、例えば、区間にカバーされるプローブの数に基づいて、区間を分割し、各標的区間の長さを約24塩基対とし、各標的区間の平均カバレッジ深さRDを計算し、各標的区間にカバーされたプローブ数ProbeNに基づいて、局所加重回帰(loess(RD~ProbeN))により標的区間でのシーケンシング深さを補正し、プローブ補正シーケンシング深さRD
normPを得る。
c)前記シークエンシングデータの平滑化2:GC補正であって、具体的には、特に、カバレッジ深さ計算に使用される標的区間を、側鎖に従って200bp長より大きい全長に拡張し、平均GCパーセンテージを計算し、そして区間のGC含有量に従って、シーケンシング深さRDに対して局所加重回帰(loess(RD~GC))補正を実施し、GC補正されたシーケンシング深さRD
normGCを得る。
d) 任意選択で、GC含有量のバランスのとれた区間をスクリーニングして、極端にGC含有量が不均衡な領域(CG含有量が0.25未満の領域、またはGC含有量が0.75を超える領域)を除外し、補正されたカバレッジ深さをコピー数変異の検出に使用する。
【0201】
3.ベースライン構築モジュールであって、以下のステップを含む。
a)試料のクラスタリング:既存の方法では、一般的に、すべての参照試料を1つの分類として扱うことによってベースラインを構築する。本出願の方法は、参照試料を群分けし、具体的には、標的区間において変化する各参照試料のカバレッジ深さの一貫性、例えば、標的区間における参照試料の前記シーケンシングの類似度に基づいて、クラスター分析を実行し、参照試料を異なるカテゴリーの参照試料群に分割する。クラスタリング方法は、例えば、K平均クラスタリング、階層クラスタリング方法などであってもよい。
b) ベースラインの構築:各参照試料群について、ベースラインを構築する。具体的には、各標的区間における各参照試料群の全参照試料の平均シーケンシング深さ(MeanRD
i
Baseline)とシーケンシング深さの標準偏差(SdRD
i
Baseline)をベースライン(Baseline
i)として計算し、ここでi={1,2,3,4,...}である。例えば、統計的に有意であるためには、各参照試料群に十分な試料数が必要であり、各参照試料群の試料数は30個以下であってはならない。参照試料群の数の設定は、腫瘍試料の特徴およびシーケンシング品質を考慮する必要があり、参照試料群の数は、捕捉された特徴の数に応じて決定され、例えば、参照試料群の数は2以上、例えば2~10とすることができる。
c) 任意選択で、区間スクリーニングを実施することができる:各区間におけるシーケンシング深さの変異係数cvを計算し、試料中で大きく変動する不安定な区間を除去する。
【数4】
ここで、MeanRD
i
BaselineとSdRD
i
Baselineはそれぞれ、各標的区間における全参照試料の平均シーケンシング深さとシーケンシング深さの標準偏差を表す。cv>0.8の場合、その区間は不安定な領域とみなされ、フィルタリングされる。また、補正されたシーケンシング深さが5より低い場合、捕捉効率の低い領域とみなされ、フィルタリングされ、最終的に保持された区間は安定な区間とみなされる。
【0202】
最終的に、本出願のデータベースは、本実施例に従って得られ、標的区間における変化の一貫性を有する2つ以上の参照試料群を含む。従来技術と比較して、本出願のデータベースの利点は、大規模試料のクラスター分析を通じて、参照試料を異なるカテゴリーの参照試料群に分割し、試料特有のバックグラウンドベースラインを個別に構築することにより、ハイスループットシーケンスデータのコピー数変異検出においてバッチ効果によって生じる偽陽性を大幅に低減し、結果の安定性を高めることである。また、本出願におけるバッチ効果を排除する方法は、同一バッチ内の同一遺伝子パネルの十分な試料数を必要としないため、実用化の困難性を大幅に軽減する。
【0203】
実施例7
実験や試料の違いによるカバレッジ特徴の深さの不一致に起因するシーケンシングにおけるベースラインの不一致の問題を解決するために、本出願はまた、コピー数状態の分析方法を提供する。本出願のコピー数状態の分析方法は、以下のステップを含んでもよい。
a)前記被検試料と前記参照試料群との類似度に応じて、前記被検試料に最も近い参照試料群を決定し、すなわち、ベースラインを動的にスクリーニングし、すなわち、ミンコフスキー距離などの統計距離を計算する方法によって、各標的区間における被検試料のシーケンシング深さと、その標的区間における各参照試料群のシーケンシング深さとを比較し、統計的な距離を確認する。
【数5】
ここで、L
p値は統計距離を表し、iは標的区間を表し、nは標的区間の数を表し、RD
i
Sampleは被検試料の標的区間iのシーケンシング深さを表し、RD
i
Baselineは参照試料群の標的区間iのシーケンシング深さを表し、pは任意選択で1以上である。被検試料との統計距離が最も小さい(L
p値が最も小さく、最も高い類似度を示す)参照試料群が、被検試料のバックグラウンドベースライン(Baseline
x)として選択される。
b) 遺伝子コピー数検出:
i. 各被検試料の標的区間のコピー数の評価:以下の式により、被検試料の各標的区間のコピー数CN
iを算出する。
【数6】
ここで、RD
sampleは、被検試料の各標的区間のシーケンシング深さを示し、RD
x
Baselineは、被検試料に最も近い参照試料群の各標的区間のシーケンシング深さを示し、ここで、プロイディは2であってもよい。
ii. 任意選択で、各区間のコピー数を平滑化し、ノイズを低減し、すなわち、各区間のCN
iをノイズ低減アルゴリズムを用いて平滑化し、ノイズを低減して、データのS/N比を改善する。ノイズ除去方法は、離散ウェーブレット変換(DWT)、主成分分析アルゴリズム、特異値分解、および/またはガウスフィルタリングを使用して平滑化することができる。DWTは、データノイズ低減の目的を達成するために、信号を離散ウェーブレット変換、連続ウェーブレットとそのウェーブレット変換離散化、それぞれローパスフィルタとハイパスフィルタを介して、高周波信号と低周波信号に分割することである。このようにして、ノイズを除去したCN
iを得ることができる。
iii. 各標的遺伝子のコピー数評価:試料中の各標的遺伝子の加重平均コピー数CN
gを算出し、標的エキソンの長さを用いてCN
iを補正する。例えば、以下の通りである。
【数7】
ここで、iは標的区間を示し、jは標的エキソンを示し、nは標的エキソンjにおける標的区間の数を示し、mは標的エキソンの数を示し、CN
iは標的区間iにおけるコピー数を示し、Len
jは標的エキソンjの長さを示す。
iv. 前記標的区間における被検試料のコピー数変異の存在の確率を決定し、例えば、複数の区間シーケンシング深さ対スクリーニングされたバックグラウンドベースラインの分布の正規性検定であってもよく、その式は以下の通りである。
【数8】
ここで、RD
i
Sampleは被検試料の標的区間iのシーケンシング深さを表し、MeanRD
x
Baselineは被検試料に最も近い参照試料群の各標的区間のシーケンシング深さの平均値を表し、SdRD
x
Baselineは被検試料に最も近い参照試料群の各標的区間のシーケンシング深さの標準偏差を表し、lower.tail=Fは右尾確率を表し、p
aはその区間でコピー数の増幅が生じる確率値を表し、lower.tail=Tは左尾確率を表し、pdはその区間でコピー数欠失が生じる確率値を示す。
v. 各標的遺伝子の有意性の比の評価:各標的遺伝子の有意な増幅または欠失のsigRatioを以下の式でそれぞれ算出する:
【数9】
ここで、有意なコピー数変異が生じる前記標的区間は、コピー数変異の割合が約30%以上である前記標的区間を含む。
vi. 各標的遺伝子の総合的レベルの有意性検定:各標的遺伝子について、各標的区間の補正シーケンシング深さを被検試料に最も近い参照試料群の各区間の平均シーケンシング深さに基づいて、試料とベースラインとの差が有意であるか否かを決定するためにt検定を行い、p
ttestを求める。
c) 前記被検試料の標的遺伝子のコピー数状態を、以下の方法によって決定する。
【数10】
各閾値は、大規模試料を用いたトレーニングにより得ることができる。ここで、CN
thAはコピー数の増幅の閾値を示し、値は任意選択で2.25~4であってもよく、CN
thDはコピー数欠失の閾値を示し、値は任意選択で1.0~1.75であってもよく、sigRatio
thは有意増幅/欠失の比の閾値を示し、値は任意選択で0.3~1であってもよく、p
thは有意性のt検定の閾値を示し、値は任意選択で0.05~0.00001であってもよい。
【0204】
本出願のコピー数状態の分析方法は、被検試料と参照試料群との類似度に基づいて、被検試料に最も近い参照試料群をバックグラウンドベースラインとして動的にスクリーニングするため、バッチ効果を排除することができ、また、検出の特異性および感度を向上させることができる。
【0205】
実施例8
データベースの構築:655個の参照試料を用いてベースラインを構築し、k平均クラスタリングアルゴリズムを用いるなど、本出願のデータベース構築方法を用いて、参照試料を5つの参照試料群、5つの異なるベースライン候補をデータベースとして構築する。
【0206】
模擬データの構築:varBen腫瘍変異データシミュレーションソフトウェア(github.com/nccl-jmli/VarBen)を用いて、良性組織試料を基に、標的遺伝子のリードセグメントをシーケンシングデータに挿入することで、コピー数の異なる標的遺伝子の増幅を勾配で模擬し、模擬試料のリストを表4に示した。
【表4】
【0207】
模擬試料を本出願のコピー数状態の分析方法に従って測定し、その結果を表5に示した。
【表5】
【0208】
図5A~5Fは、本出願の検定結果のデータの一部のコピー数の分布図の例を示す。各点は遺伝子の区間を示し、灰色の点はコピー数が正常な遺伝子を、黒い点はコピー数が増幅または欠失した遺伝子を示し、対応する遺伝子名も記した。横軸は遺伝子が存在する染色体位置、縦軸は本出願の方法に基づいて算出されたコピー数(中央の横線は正常遺伝子のコピー数を示す)、灰色の背景はバックグラウンドベースライン(検出対象試料に最も近い参照試料群)における各標的区間の変動幅を示す。
図5A~5Cは、異なる程度のコピー数の増幅を受けたERBB2遺伝子のシミュレーションを示し、
図5D~5Fは、異なる段階のコピー数の増幅を受けたFGFR1遺伝子のシミュレーションを示し、それぞれ2.5、2.75、3.0のコピー数勾配を有する。この結果は、本出願のコピー数状態の分析方法を模擬試料に用いると、すべての模擬遺伝子と異なる勾配におけるコピー数の増幅を安定に検出でき、コピー数予測が正確であることを示した。
【0209】
実施例9
陽性標準試料:本出願における測定は、NCI-BL2009 細胞株由来の30個の陽性標準試料を含む。この試料は、CNV 陽性データを得るために、プラスミドトランスフェクションを用いて対応する割合の標的遺伝子を細胞株に導入し、マイクロタイターデジタル PCR(ddPCR)を用いて遺伝子のコピー数を定量したものであった。プラスミド番号は、Life RPCI11.C-433C10 BAC-EGFR、Life RPCI11.C-936I7 BAC-CDK4、Life RPCI11.C-163C9 BAC-MET、Life RPCI11.C-909L6 BAC-ERBB2、Life RPCI11. C-957P17 BAC-FGFR1。陽性標準試料のリストを表 6 に示した。
【表6】
【0210】
データベースの構築:655個の参照試料を用いてベースラインを構築し、k平均クラスタリングアルゴリズムを用いるなど、本出願のデータベース構築方法を用いて、参照試料を5つの参照試料群に分け、5つの異なるベースライン候補をデータベースとして構築した。
【0211】
本出願のコピー数状態の分析方法に従って、コピー数の増幅陽性標準試料のコピー数状態を検出し、その結果を表7に示す。
【表7】
【0212】
図6A~6Cは、本出願の検出結果のデータの一部についてのコピー数の分布図の例を示す。
図6A~6Cは、プラスミドトランスフェクトされたCNV陽性細胞株標準試料の検出結果を表し、それぞれddPCR校正コピー数は3、5、8である。この結果は、プラスミドトランスフェクトされた細胞株標準試料に対する本出願の方法が、すべての遺伝子について、また異なるコピー数状態についても、正確なコピー数予測で安定的に検出されることを示している。
【0213】
実施例10
実データ:本出願で測定した実試料には、第三者の免疫組織化学(IHC)検出で確認されたERBB2増幅陽性試料20検体が含まれ、実試料のリストを表8に示す。
【表8】
【0214】
データベース構築:443例の参照試料を用いてベースラインを構築し、k平均クラスタリングアルゴリズムを用いるなど、本出願のデータベース構築方法を用いて、参照試料を参照試料群に分け、異なるベースライン候補をデータベースとして構築した。
【0215】
本出願のコピー数状態の分析方法に従って、実試料のコピー数状態を検出し、その結果を表9に示す。
【表9】
【0216】
図7A~7Cは、本出願の検出結果のデータの一部のコピー数の分布図の例を示す。
図7A~7Cは、実試料のERBB2陽性試料の検出結果を表す。この結果は、本出願の方法を実試料に用いたところ、IHCの結果HER2陽性の20試料が安定して検出されたことを示している。
【0217】
実施例11
陽性標準試料:本出願の測定には、実施例9と同じ由来の3つの陽性標準試料が含まれ、異なるベースラインからの結果を測定する。陽性標準試料のリストを表10に示す。
【表10】
【0218】
データベースの構築:ベースラインを構築するために655個の参照試料を使用し、k平均クラスタリングアルゴリズムを使用するなど、本出願のデータベース構築方法を使用して、参照試料を5つの参照試料群に分け、データベースとして5つの異なるベースライン候補を構築した。また、クラスタリング法を用いずに、すべての参照試料を1つのベースラインとして構築した。
【0219】
クラスタリングアルゴリズムから得られた5つのベースラインとクラスタリングなしの1つのベースラインを参考対照として、それぞれコピー数の増幅標準試料のコピー数状態を検出した。ベースラインの選択と検体の変動を表11に、検出結果を表12に示す。
【表11】
【表12】
【0220】
図8A~8Fは、異なるベースラインを用いた標準試料1のコピー数の分布の例の図である。
【0221】
その結果、本出願の発明的方法を用いてマッチングされた最適なベースラインは、被検試料と最も類似しており(被検試料とベースラインとの距離値が最も小さい)、被検試料全体のコピー数変動(SD)が最も小さく、コピー数の分布図が最も安定でノイズが小さいことから、本出願の方法の検出結果がより安定していることがわかった。本出願では、すべての遺伝子で、異なるコピー数状態でも安定に検出できるが、コピー数が3の場合、他のベースラインでは安定に検出できない。
【0222】
前述の詳細な説明は、説明および例として提供されるものであり、添付の特許請求の範囲を限定することを意図するものではない。本出願に現在列挙されている実施形態の複数の変形例は、当業者には明らかであり、添付の特許請求の範囲およびその等価実施形態の範囲内に保持される。
【国際調査報告】