(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-16
(54)【発明の名称】メチル化された細胞遊離DNAを用いた癌種診断及び癌種予測方法
(51)【国際特許分類】
C12Q 1/6886 20180101AFI20241008BHJP
C12Q 1/6869 20180101ALI20241008BHJP
C12M 1/00 20060101ALI20241008BHJP
【FI】
C12Q1/6886 Z
C12Q1/6869 Z
C12M1/00 A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024524688
(86)(22)【出願日】2022-10-26
(85)【翻訳文提出日】2024-04-24
(86)【国際出願番号】 KR2022016448
(87)【国際公開番号】W WO2023075402
(87)【国際公開日】2023-05-04
(31)【優先権主張番号】10-2021-0143610
(32)【優先日】2021-10-26
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523165307
【氏名又は名称】ジーシー ゲノム コーポレーション
【氏名又は名称原語表記】GC GENOME CORPORATION
(74)【代理人】
【識別番号】100139594
【氏名又は名称】山口 健次郎
(74)【代理人】
【識別番号】100194973
【氏名又は名称】尾崎 祐朗
(72)【発明者】
【氏名】チョ ウンヘ
(72)【発明者】
【氏名】アン ジンモ
(72)【発明者】
【氏名】キ チャンソク
(72)【発明者】
【氏名】イ ジュンナム
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA23
4B029FA12
4B063QA13
4B063QA19
4B063QQ08
4B063QQ42
4B063QR08
4B063QR42
4B063QR62
4B063QS24
4B063QX01
(57)【要約】
本発明は、メチル化された無細胞核酸を用いた癌診断及び癌種予測方法に関し、より具体的には、生体試料からメチル化された核酸を抽出し、配列情報を取得して整列したリードに基づいて核酸断片のベクトル化されたデータを生成した後、これを学習された人工知能モデルに入力して計算された値を分析する方法を用いた癌診断及び癌種予測方法に関する。本発明によるメチル化された無細胞核酸を用いた癌診断及び癌種予測方法は、従来のリード数(read count)に基づいて染色体量を決定するステップを用いる方式又は整列されたリード(reads)間の距離概念を用いる検出方法などでリードに関連する値を1つ1つの定型化された値として活用するのに比べて、ベクトル化されたデータを生成してAIアルゴリズムを用いて分析するため、リードカバレッジが低くても同様の効果を発揮することができるので、有用である。
【特許請求の範囲】
【請求項1】
(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)基盤の核酸断片(fragments)を用いてベクトル化されたデータを生成するステップ;
(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(e)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測のための情報の提供方法。
【請求項2】
(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)基盤の核酸断片(fragments)を用いてベクトル化されたデータを生成するステップ;
(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(e)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測方法。
【請求項3】
前記ステップ(a)は、以下のステップを含む方法で行われることを特徴とする、請求項1又は2に記載の方法:
(a-i)生体試料からメチル化情報を含む核酸を得るステップ;
(a-ii)採取した核酸から、塩析法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いて、タンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得るステップ;
(a-iii)精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)またはペアエンドシーケンシング(pair-end sequencing)ライブラリ(library)を作製するステップ;
(a-iv)作製されたライブラリを次世代シークエンサー(next-generation sequencer)に反応させるステップ;および
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得するステップ。
【請求項4】
前記ステップ(a-1)のメチル化情報は、バイサルファイト転換法(bisulfite conversion)、酵素転換法(Enzymatic conversion)またはメチル化DNA免疫沈降法(Methylated DNA Immunoprecipitation, MeDIP)で得られたことを特徴とする、請求項3に記載の方法。
【請求項5】
前記ステップ(c)のベクトル化されたデータは、グランドキャニオンプロット(Grand Canyon plot, GC plot)であることを特徴とする、請求項1に記載の方法。
【請求項6】
前記GC plotは、整列された核酸断片の染色体区間別分布を核酸断片の数または核酸断片(fragment)間の距離を計算してベクトル化されたデータで生成することを特徴とする、請求項5に記載の方法。
【請求項7】
前記染色体区間別分布を核酸断片の数で計算することは、以下のステップを含めて行うことを特徴とする、請求項6に記載の方法:
i)染色体を一定区間(bin)に区分するステップ;
ii)各区間に配列された核酸断片の数を決定するステップ;
iii)各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化(normalization)するステップ;および
iv)各区間の順序をX軸の値とし、前記iii)のステップで計算した正規化値をY軸の値とし、GC plotを生成するステップ。
【請求項8】
前記染色体区間別分布を核酸断片間の距離で計算することは、以下のステップを含めて行うことを特徴とする、請求項6に記載の方法:
i)染色体を一定区間(bin)に区分するステップ;
ii)各区間に整列された核酸断片間の距離(Fragments Distance, FD)値を計算するステップ;
iii)各断片別に計算された距離値に基づいて、各断片の距離の代表値(RepFD)を決定するステップ;
iv)前記iii)ステップで計算された代表値を全核酸断片間の距離値の代表値で割って正規化(normalization)するステップ。
iv)各区間の順序をX軸の値とし、前記iv)のステップで計算した正規化値をY軸の値としてGC plotを生成するステップ。
【請求項9】
前記代表値は、核酸断片間の距離の合計、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、これらの逆数値、及びこれらの組み合わせからなる群から選択される1つ以上であることを特徴とする、請求項8に記載の方法。
【請求項10】
前記ステップ(d)の人工知能モデルは、正常のベクトル化されたデータと癌のあるベクトル化されたデータを区別できるように学習することを特徴とする、請求項1に記載の方法。
【請求項11】
前記人工知能モデルは、畳み込みニューラルネットワーク(convolutional neural network, CNN)、深層ニューラルネットワーク(Deep Neural Network, DNN)及び回帰型ニューラルネットワーク(Recurrent Neural Network, RNN)及びオートエンコーダ(autoencoder)からなる群から選択されることを特徴とする、請求項10に記載の方法。
【請求項12】
前記人工知能モデルがCNNであり、二項分類を学習する場合、損失関数は下記数式1で表され、前記人工知能モデルがCNNであり、マルチクラス分類を学習する場合、損失関数は下記式2で表されることを特徴とする、請求項10に記載の方法:
【請求項13】
前記ステップ(d)の人工知能モデルが入力されたベクトル化されたデータを分析して出力する結果値は、DPI(Deep Probability Index)値であることを特徴とする、請求項1に記載の方法。
【請求項14】
前記ステップ(d)の基準値は0.5であり、0.5以上の場合、癌であると判定することを特徴とする、請求項1に記載の方法。
【請求項15】
前記ステップ(e)の出力結果値の比較により癌種を予測するステップは、出力結果値のうち、最も高い値を示す癌種をサンプルの癌と判定するステップを含む方法で行うことを特徴とする、請求項1に記載の方法。
【請求項16】
生体試料から核酸を抽出してメチル化情報を含む配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された配列基盤の核酸断片を用いてベクトル化されたデータを生成するデータ生成部;
生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較して癌の有無を判定する癌診断部;および
出力された結果値を分析して癌種を予測する癌種予測部を含む癌診断及び癌種予測装置。
【請求項17】
コンピュータ読み取り可能な記憶媒体であって、癌診断および癌種を予測するプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)基盤の核酸断片を用いてベクトル化されたデータを生成するステップ;
(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(e)前記出力結果値の比較により癌種を予測するステップを通じて、癌の有無および癌種を予測するプロセッサによって実行されるように構成される命令を含む、コンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メチル化された無細胞核酸を用いた癌診断及び癌種予測方法に関し、より具体的には、生体試料から核酸を抽出し、メチル化情報を含む配列情報を取得して整列したリードに基づいて核酸断片のベクトル化されたデータを生成した後、これを学習された人工知能モデルに入力して計算された値を分析する方法を用いた癌診断及び癌種予測方法に関する。
【背景技術】
【0002】
臨床での癌診断は、通常、病歴調査、物理的検査および臨床的評価後、組織生検(tissue biopsy)を行って確認している。臨床実験による癌診断は、癌細胞の数が10億個以上であり、癌の直径が1cm以上である場合にのみ可能である。この場合、癌細胞はすでに転移能力を持っており、少なくともそれらの半分はすでに転移した状態である。また、組織生検は侵襲的であり、患者にかなりの不快感を与え、癌患者を治療していると組織生検ができない場合もかなりあるという問題がある。その他に、癌スクリーニングにおいて、癌から直接または間接的に生産される物質をモニタリングするための腫瘍マーカーが使用されているが、癌が存在する場合でも、腫瘍マーカースクリーニングの結果、半分以上が正常となり、癌がない場合でも頻繁に陽性となるため、その精度に限界がある。
【0003】
このような従来の癌診断方法の問題点を補完できる、比較的簡単で、非侵襲的かつ高い敏感度及び特異度を持つ癌診断方法の需要により、最近、癌の診断、追跡検査として患者の体液を活用する液体生検(liquid biopsy)が多く利用されている。液体生検は非侵襲的(non-invasive)な方法で、従来の侵襲的な診断及び検査方法の代替として注目されている診断技術である。
【0004】
最近では、液状生検で得られた細胞遊離DNA(cell-free DNA)を用いて癌診断及び癌種の鑑別を行う方法が開発されており(US 10975431, Zhou, Xionghui et al., bioRxiv, 2020.07.16.201350)、特に、細胞遊離核酸のメチル化パターンを利用して癌診断/種類を決定する方法が知られている(Li, Jiaqi et al., bioRxiv, 2021.01.12.426440, US 2020-0131582, KR 10-2148547).
【0005】
一方、人工ニューラルネットワークとは、連結線で連結された多数の人工ニューロンを用いて、生物学的なシステムの計算能力を模倣するソフトウェアやハードウェアで実現された演算モデルを示す。人工ニューラルネットワークでは、生物学的なニューロンの機能を単純化した人工ニューロンを使用する。そして、連結強度を持つ連結線を介して相互連結させ、人間の認知作用や学習過程を行うようになる。連結強度は連結線が持つ特定値であり、連結加重値とも呼ばれる。人工ニューラルネットワークの学習は指導学習と非指導学習に分けることができる。指導学習とは、入力データとそれに対応する出力データを一緒にニューラルネットワークに入れ、入力データに対応する出力データが出力されるように連結線の連結強度を更新させる方法をいう。代表的な学習アルゴリズムとしては、デルタルール(Delta Rule)と誤差逆伝播学習(Back propagation Learning)がある。非指導学習とは、目標値なしで入力データだけを使用して人工ニューラルネットワークが自ら連結強度を学習させる方法をいう。非指導学習とは、入力パターン間の相関関係によって連結加重値を更新させていく方法をいう。
【0006】
機械学習で適用される多くのデータは複雑になり、次元が増えるにつれて次元の呪い(curse of dimensionality)の問題が発生する。つまり、これは、必要なデータの次元が無限になればなるほど、任意の2つの点間の距離が無限に発散し、データの存在量、つまり密度が高次元の空間では多少低くなり、データの特性(Feature)を適切に反映できなくなることである(Richard Bellman, Dynamic Programming, 2003, chapter 1)。最近、深層ニューラルネットワーク(deep learning)の発達は、入力層(input layer)と出力層(output layer)の間に隠れ層(hidden layer)がある構造で、入力層から伝達される変数値の線形結合(linear combination)を非線形関数で処理しながら、画像、映像、信号データなどの高次元のデータでの分類器(classifier)の性能を大幅に向上させたと報告された(Hinton, Geoffrey, et al., IEEESignal Processing Magazine Vol. 29.6, pp. 82-97, 2012)。
【0007】
このような人工ニューラルネットワークを用いてバイオ分野に活用する様々な特許(KR 10-2018-0124550, KR 10-2019-7038076, KR 10-2019-0003676, KR 10-2019-0001741)があり、本発明者らは、血液中の無細胞DNA(cell-free DNA, cfDNA)の配列分析情報に基づく人工ニューラルネットワーク分析を通じて染色体異常を検出する方法について特許を出願した(KR 10-2021-0067931)。
しかし、メチル化された細胞遊離核酸の情報を画像化して分析した事例はなく、また、全長誘電体単位のメチル化されたパターンを表現した事例はなかった。
【0008】
そこで、本発明者らは前記問題点を解決し、高い敏感度と精度の人工知能基盤の癌診断方法を開発するために鋭意努力した結果、メチル化された無細胞核酸断片の距離または量に基づいてベクトル化されたデータを生成し、これを学習された人工知能モデルで分析する場合、高い敏感度と精度で癌診断及び癌種判別を行うことができることを見出し、本発明を完成した。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、メチル化された無細胞核酸を用いた癌診断及び癌種予測方法を提供することである。
本発明の他の目的は、メチル化された無細胞核酸を用いた癌診断及び癌種予測装置を提供することである。
【0010】
本発明の他の目的は、前記方法により癌診断および癌種を予測するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供することである。
【課題を解決するための手段】
【0011】
前記目的を達成するために、本発明は、(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)基盤の核酸断片(fragments)を用いてベクトル化されたデータを生成するステップ;(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;及び(e)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測のための情報の提供方法を提供する。
【0012】
本発明はまた、生体試料から核酸を抽出してメチル化情報を含む配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;整列された配列基盤の核酸断片を用いてベクトル化されたデータを生成するデータ生成部;生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較して癌の有無を判定する癌診断部;及び出力された結果値を分析して癌種を予測する癌種予測部を含む癌診断及び癌種予測装置を提供する。
【0013】
本発明はまた、コンピュータ読み取り可能な記憶媒体であって、癌診断及び癌種を予測するプロセッサによって実行されるように構成される命令を含み、(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)基盤の核酸断片を用いてベクトル化されたデータを生成するステップ;(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値(cut-off value)を比較して癌の有無を判定するステップ;及び(e)前記出力値の比較を通じて癌種を予測するステップを通じて、癌の有無及び癌種を予測するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供する。
【0014】
本発明はまた、(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)基盤の核酸断片(fragments)を用いてベクトル化されたデータを生成するステップ;(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;及び(e)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測方法を提供する。
【図面の簡単な説明】
【0015】
【
図1】本発明の人工知能基盤の染色体異常を判定するための全体フローチャートである。
【
図2】本発明の一実施例によりメチル化されたcfDNAに基づいて生成したGC plotの例であり、X軸は区間別染色体であり、Y軸は各区間に該当する核酸断片間の数を意味する。
【
図3】本発明の一実施例により、メチル化されたcfDNAを用いた核酸断片間の数に基づいて生成したGC plot画像データを学習したディープラーニングモデルに対して、神経芽細胞腫の判定の精度を確認した結果である。
【
図4】本発明の一実施例により、メチル化されたcfDNAを用いた核酸断片間の数に基づいて生成したGC plot画像データを学習したディープラーニングモデルに対して、神経芽細胞腫の判定の各データセット別の確率分布を示した結果であり、(A)はTraining set、(B)はValidation set、(C)はTest setを意味する。
【
図5】本発明の一実施例により、cfDNAに基づいて生成したGC plotの例であり、X軸は区間別染色体であり、Y軸は各区間に該当する核酸断片間の数を意味する。
【
図6】本発明の一実施例により、cfDNAを用いた核酸断片間の数に基づいて生成したGC plot画像データを学習したディープラーニングモデルに対して、神経芽細胞腫の判定の精度を確認した結果である。
【
図7】本発明の一実施例により、cfDNAを用いた核酸断片間の数に基づいて生成したGC plot画像データを学習したディープラーニングモデルに対して、神経芽細胞腫の判定の各データセット別の確率分布を示した結果であり、(A)はTraining set、(B)はValidation set、(C)はTest setを意味する。
【発明を実施するための形態】
【0016】
他に定義されない限り、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する技術分野における熟練した専門家によって通常理解されるものと同じ意味を有する。一般に、本明細書で使用される命名法及び下記に記載する実験方法は、当該技術分野においてよく知られており、通常使用されるものである。
【0017】
第1、第2、A、Bなどの用語は、様々な構成要件を説明するために使用されてもよいが、該構成要件は、前記用語によって限定されず、単に1つの構成要件を他の構成要件と区別する目的のみに使用される。例えば、以下に説明する技術の権利範囲を外れることなく、第1の構成要件は第2の構成要件と命名することができ、同様に、第2の構成要件も第1の構成要件と命名してもよい。及び/又はという用語は、複数の関連する記載項目の組み合わせ、または複数の関連する記載項目のいずれかを含む。
【0018】
本明細書で使用される用語において、単数の表現は、文脈上明らかに異に解釈されない限り、複数の表現を含むものと理解されるべきであり、「含む」などの用語は、説示された特徴、個数、ステップ、動作、構成要件、部分品、またはこれらを組み合わせたものが存在することを意味するものであり、1つまたはそれ以上の他の特徴、個数、ステップ、動作、構成要件、部分品、またはこれらを組み合わせたものの存在または付加の可能性を排除しないものと理解されるべきである。
【0019】
図面に対する詳細な説明をするに先立ち、本明細書における構成部に対する区分は、各構成部が担当する主機能別に区分したものに過ぎないことを明確にしたい。すなわち、以下に説明する2つ以上の構成部が1つの構成部に合わしたり、又は1つの構成部がより細分化された機能別に2つ以上に分化されて備えられてもよい。そして、以下に説明する構成部のそれぞれは、自分が担当する主機能以外にも、他の構成部が担当する機能の一部または全ての機能をさらに行ってもよく、構成部のそれぞれが担当する主機能の一部の機能が他の構成部によって専担されて行ってもよいことはもちろんである。
【0020】
また、方法あるいは動作方法を実行するにあたり、前記方法を構成する各過程は、文脈上明らかに特定の順序を記載しない限り、明記された順序と異なる順序で行われてもよい。つまり、各過程は、明記された順序と同じ順序で行われてもよく、実質的に同時に行われてもよく、逆の順序で行われてもよい。
【0021】
本発明では、サンプルから抽出したメチル化された無細胞核酸から取得した配列分析データを参照ゲノムに整列した後、整列された核酸断片に基づいてベクトル化されたデータを生成した後、学習された人工知能モデルでDPI値を計算して基準値と比較して癌を検出する場合、高い敏感度と精度で癌を検出できることを確認しようとした。
【0022】
すなわち、本発明の一実施例では、血液から抽出したDNAをメチル化情報を含むようにシーケンシングしてから参照染色体に整列した後、核酸断片間の距離または量を一定の染色体区間別に計算し、各遺伝領域をX軸とし、核酸断片間の距離または量をY軸とするベクトル化されたデータを生成した後、これをディープラーニングモデルに学習させてDPI値を計算し、DPI値が基準値以上の場合、癌があると判断し、多数のDPI値のうち、最も高い値を示す癌種を実際の癌種として決定する方法を開発した(
図1)。
【0023】
したがって、本発明は、一観点から、
(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)基盤の核酸断片(fragments)を用いてベクトル化されたデータを生成するステップ;
(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(e)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測のための情報の提供方法に関する。
【0024】
本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であれば制限なく用いてもよく、好ましくは、細胞遊離核酸または細胞内核酸の断片であってもよいが、これに限定されない。
【0025】
本発明において、前記核酸断片は、通常の技術者に知られているあらゆる方法で得ることができ、好ましくは、直接配列分析したり、次世代シーケンシング分析を介して配列分析したり、または非特異的全長ゲノム増幅(non-specific whole genome amplification)を介して配列分析して得たり、プローブ基盤の配列分析を介して得てもよいが、これらに限定されない。
本発明において前記核酸断片は、次世代シーケンシング分析を用いる場合にはリードを意味することもある。
【0026】
本発明において、前記癌は、固形癌または血液癌であってもよく、好ましくは、非ホジキンリンパ腫(non-Hodgkin lymphoma)、ホジキンリンパ腫(Hodgkin lymphoma)、急性骨髄性白血病(acute-myeloid leukemia)、急性リンパ性白血病(acute-lymphoid leukemia)、多発性骨髄腫(multiple myeloma)、頭頸部癌(head and neck cancer)、肺癌、膠芽腫(glioblastoma)、大腸/直腸癌、膵臓癌、乳癌、卵巣癌、黒色腫(melanoma)、前立腺癌、肝癌、甲状腺癌、胃癌、胆嚢癌、胆道癌、膀胱癌、小腸癌、子宮頸癌、原発部位不明癌、腎臓癌、食道癌、神経芽細胞腫及び中皮腫(mesothelioma)からなる群から選択されてもよく、より好ましくは神経芽細胞腫(neuroblastoma)であってもよいが、これらに限定されない。
【0027】
本発明において、
前記ステップ(a)は、
(a-i)生体試料からメチル化情報を含む核酸を得るステップ;
(a-ii)採取した核酸から、塩折法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いて、タンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得るステップ;
(a-iii)精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)またはペアエンドシーケンシング(pair-end sequencing)ライブラリ(library)を作製するステップ;
(a-iv)作製されたライブラリを次世代シークエンサー(next-generation sequencer)に反応させるステップ;および
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得するステップ;を含むことを特徴とすることができる。
【0028】
本発明において、前記ステップ(a)の配列情報を取得するステップは、分離された無細胞DNAを1百万~1億リードの深さで全長ゲノムシーケンシングにより取得することを特徴としてもよいが、これに限定されない。
【0029】
本発明において、前記生体試料とは、個体から得られるかまたは個体に由来する任意の物質、生物学的体液、組織または細胞を意味し、例えば、全血(whole blood)、白血球(leukocytes)、末梢血単核細胞(peripheral blood mononuclear cells)、白血球軟層(buffy coat)、血液(血漿(plasma)及び血清(serum)を含む)、喀痰(sputum)、涙(tears)、粘液(mucus)、鼻洗浄液(nasal washes)、鼻吸引物(nasal aspirate)、呼吸(breath)、尿(urine)、精液(semen)、唾液(saliva)、腹腔洗浄液(peritoneal washings)、骨盤内流体液(pelvic fluids)、嚢胞液(cystic fluid)、脳脊髄膜液(meningeal fluid)、羊水(amniotic fluid)、腺液(glandular fluid)、膵液(pancreatic fluid)、リンパ液(lymph fluid)、胸水(pleural fluid)、乳頭吸引物(nipple aspirate)、気管支吸引物(bronchial aspirate)、滑液(synovial fluid)、関節吸引物(joint aspirate)、臓器分泌物(organ secretions)、細胞(cell)、細胞抽出物(cell extract)、毛髪、口腔細胞、胎盤細胞、脳脊髄液(cerebrospinal fluid)及びこれらの混合物を含んでもよいが、これらに限定されない。
【0030】
本発明における用語、「参照集団」とは、標準塩基配列データベースのように比較できる基準(reference)集団であり、現在特定の疾患または病症のない人の集団を意味する。本発明において、前記参照集団の標準染色体配列データベースにおける標準塩基配列は、NCBIなどの公共保健機関に登録されている参照染色体であってもよい。
【0031】
本発明において、前記ステップ(a)の核酸は、無細胞DNAであってもよく、より好ましくは循環腫瘍細胞DNA(circulating tumor DNA、ctDNA)であってもよいが、これに限定されない。
【0032】
本発明において、前記メチル化情報を含む核酸は、公知の様々な方法で得ることができ、好ましくは、バイサルファイト転換法(bisulfite conversion)、酵素転換法(Enzymatic conversion)またはメチル化DNA免疫沈降法(Methylated DNA Immunoprecipitation, MeDIP)で得たことを特徴としてもよいが、これらに限定されない。
【0033】
本発明において、DNAメチル化を検出できる方法は、制限酵素基盤の検出方法がさらにあるが、これはメチル化制限酵素(methylation restriction enzyme, MRE)を利用してメチル化されていない核酸を切断したり、メチル化の有無にかかわらず、特定の配列(recognition site)を切断してハイブリダイゼーション(hybridization)法またはPCRと組み合わせて分析する方法である。
【0034】
本発明において、バイサルファイト置換に基づく方法は、全ゲノムバイサルファイトシーケンシング(Whole-Genome Bisulfite Sequencing, WGBS)、還元表現重亜硫酸塩シーケンシング(Reduced-Representation Bisulfite Sequencing, RRBS)、メチル化CpGタンデム増幅とシーケンシング(Methylated CpG Tandems Amplification and Sequencing, MCTA-seq)、標的化バイサルファイトシーケンシング(Targeted Bisulfite Sequencing)、メチル化特異的PCR法(Methylation Array and Methylation-specific PCR, MSP)などがある。
【0035】
本発明において、メチル化DNAを豊富化(enrichment)して分析する方法は、メチル化DNA免疫沈降シーケンシング(Methylated DNA Immunoprecipitation Sequencing, MeDIP-seq)、メチル結合ドメインシーケンシング(Methyl-CpG Binding Domain Protein Capture Sequencing, MBD-seq)などがある。
【0036】
本発明において、メチル化DNAを分析できる他の方法は、5-ヒドロキシメチル化プロファイリング法(5-hydroxymethylation profiling)があり、その例としては、5hmC-Seal(hMe-Seal)、hmC-CATCH、ヒドロキシメチル化DNA免疫沈降シーケンシング(Hydroxymethylated DNA Immunoprecipitation Sequencing, hMeDIP-seq)、酸化性バイサルファイト転換法(Oxidative Bisulfite Conversion)などがある。
【0037】
本発明において、前記次世代シークエンサー(next-generation sequencer)は、当業界に公知の任意のシーケンシング法で使用してもよい。選択方法により分離された核酸のシーケンシングは、通常次世代シーケンシング(NGS)を使用して行われる。次世代シーケンシングは、個々の核酸分子または非常に類似した方式で個々の核酸分子に対してクローンで拡張されたプロキシの1つのヌクレオチド配列を決定する任意のシーケンシング法を含む(例えば、105個以上の分子が同時にシーケンシングされる)。一実施態様において、ライブラリ内の核酸種の相対的な存在比は、シーケンシング実験によって作製されたデータにおいて、その同族配列の相対的な発生数を計測することにより推定することができる。次世代シーケンシング法は当業界に公知されており、例えば、本明細書に参照として含まれる文献(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)に記載されている。
【0038】
一実施態様において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる(例えば、Helicos BioSciencesのHeliScope Gene Sequencing systemおよびPacific BiosciencesのPacBio RS system)。他の実施態様において、シーケンシング、例えば、より少ないがより長いリードを生成する他のシーケンシング法よりも、シーケンシング単位当たりの配列のより多くの塩基を生成する大規模並列の短いリードシーケンシング(例えば、カリフォルニア州サンディエゴに所在するIllumina Inc.のSolexa sequencer)法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在するIllumina Inc.のSolexa sequencer;454 Life Sciences(コネチカット州ブランフォードに所在)及びIon Torrent)。次世代シーケンシングのための他の方法または機械は、以下に限定されないが、454 Life Sciences(コネチカット州ブランフォードに所在)、Applied Biosystems(カリフォルニア州フォスターシティに所在;SOLiDシークエンサー)、Helicos Biosciences Corporation(マサチューセッツ州ケンブリッジに所在)及びエマルジョンおよびマイクロフローシーケンシング法ナノ点滴(例えば、GnuBio点滴)によって提供される。
【0039】
次世代シーケンシングのためのプラットフォームは、以下に限定されないが、Roche/454のゲノムシークエンサー(Genome Sequencer: GS) FLXシステム、Illumina/Solexaのゲノムアナライザー(Genome Analyzer: GA)、Life/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection: SOLiD)システム、PolonatorのG.007システム、Helicos BioSciencesのHeliScope Gene Sequencing system、Oxford Nanopore TechnologiesのPromethION、 GriION、MinIONシステム及びPacific BiosciencesのPacBio RSシステムを含む。
【0040】
本発明において、前記ステップ(b)の配列整列は、コンピュータアルゴリズムとして、ゲノム内のリード配列(例えば、次世代シーケンシングからの、例えば短いリード配列)が、ほとんどリード配列と基準配列の間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的方法またはアプローチを含む。様々なアルゴリズムが配列整列問題に適用できる。一部のアルゴリズムは相対的に遅いものの、相対的に高い特異性を許容する。これらは、例えば、動的プログラミングに基づくアルゴリズムを含む。動的プログラミングは、複雑な問題をより単純なステップに分割して解決する方法である。他のアプローチは相対的により効率的であるが、一般的に徹底ではない。これは、例えば、大規模データベース検索用に設計されたヒューリスティック(heuristic)アルゴリズム及び確率的(probabilistic)方法を含む。
【0041】
通常、整列過程には2つのステップがあってもよい:候補者検査及び配列整列。候補者検査は、可能な整列位置のより短い列挙に対して、全体のゲノムから配列整列のための検索空間を減少させる。用語が示唆するように、配列整列は、候補者検査ステップで提供された配列を持つ配列を整列するステップを含む。これは、広域整列(例えば、Needleman-Wunsch整列)または局所整列(例えば、Smith-Waterman整列)を使用して行ってもよい。
【0042】
ほとんどの属性整列アルゴリズムは、索引方法に基づく3つのタイプのいずれかを特徴とすることができる:ハッシュテーブル(例えば、BLAST、ELAND、SOAP)、接尾辞木(例えば、Bowtie、BWA)および併合整列(例えば、スライダー(Slider))に基づくアルゴリズム。短いリード配列は、整列のために通常使用される。
【0043】
本発明において、前記ステップ(b)の整列ステップは、これに限定されないが、BWAアルゴリズム及びHg19配列を用いて行われるものであってもよい。
本発明において、前記BWAアルゴリズムは、BWA-ALN、BWA-SWまたはBowtie2などが含まれてもよいが、これらに限定されない。
【0044】
本発明において、前記ステップ(b)の配列情報(reads)の長さは、5~5000bpであり、使用する配列情報の数は5千~500万個になってもよいが、これに限定されない。
本発明において、前記ステップ(c)のベクトル化されたデータは、整列された核酸断片に基づいて生成できるベクトル化されたデータであれば制限なく用いてもよく、好ましくはグランドキャニオンプロット(Grand Canyon plot, GC plot)であることを特徴としてもよいが、これに限定されない。
【0045】
本発明において、ベクトル化されたデータはこれに限定されないが、好ましくは画像化されたことを特徴としてもよい。画像は基本的にピクセルで構成されるが、ピクセルで構成された画像をベクトル化させると、画像の種類によって1次元2Dベクトル(黒白)、3次元2Dベクトル(color(RGB))または4次元2Dベクトル(color(CMYK))で表現することができる。
【0046】
本発明のベクトル化されたデータは、画像に限定されず、例えば、n個の黒白画像の複数枚を重ねてn次元の2Dベクトル(Multi-dimensional Vector)を用いて、人工知能モデルの入力データとして使用することができる。
【0047】
本発明におけるGC plotは、特定の区間を(一定のbinまたは大きさが異なるbin)X軸とし、核酸断片間の距離または数などの核酸断片で表現できる数値をY軸として生成した plotである。
【0048】
本発明において、前記ステップ(c)を行う前に、整列された核酸断片の整列一致度スコア(mapping quality score)を満す核酸断片を別に分類するステップをさらに含むことを特徴とすることができる。
【0049】
本発明において、前記整列一致度スコア(mapping quality score)は、所望の基準によって異なり得るが、好ましくは15~70点、より好ましくは50~70点であってもよく、最も好ましくは60点であってもよい。
【0050】
本発明において、前記ステップ(c)のGC plotは、整列された核酸断片の染色体区間別分布を区間別核酸断片の数または核酸断片間の距離を計算してベクトル化されたデータとして生成することを特徴とすることができる。
本発明で核酸断片の数または核酸断片間の距離計算値をベクトル化する方法は、計算値をベクトル化する公知の技術であれば、制限なく用いてもよい。
【0051】
本発明において、前記整列された配列情報の染色体区間別分布を核酸断片の数で計算することは、以下のステップを含めて行うことを特徴とすることができる:
i)染色体を一定区間(bin)に区分するステップ;
ii)各区間に配列された核酸断片の数を決定するステップ;
iii)各区間に決定された核酸断片の数をサンプルの全核酸断片数で割って正規化(normalization)するステップ;および
iv)各区間の順序をX軸の値とし、前記iii)のステップで計算した正規化値をY軸の値としてGC plotを生成するステップ。
【0052】
本発明において、前記整列された配列情報の染色体区間別分布を核酸断片間の距離で計算することは、以下のステップを含めて行うことを特徴とすることができる:
i)染色体を一定区間(bin)に区分するステップ;
ii)各区間に整列された核酸断片間の距離(Fragments Distance, FD)値を計算するステップ;
iii)各区間別に計算された距離値に基づいて、各区間の距離の代表値(RepFD)を決定するステップ;
iv)前記iii)のステップで計算された代表値を全核酸断片距離値の代表値で割って正規化(normalization)するステップ;および
iv)各区間の順序をX軸の値とし、前記iv)のステップで計算した正規化値をY軸の値としてGC plotを生成するステップ。
【0053】
本発明において、前記GC plotは、染色体1番から22番までのGC plotをY軸で整列して1つの画像を生成したり、1番から22番まで生成した画像をz軸で合わせて使用することができる。
【0054】
本発明において、前記代表値(RepFD)は、核酸断片間の距離の合計、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、これらの逆数値及びこれらの組み合わせから構成される群から選択される1つ以上を特徴としてもよいが、これらに限定されない。
本発明において、前記一定区間(bin)は1Kb~3Gbであることを特徴としてもよいが、これに限定されない。
【0055】
本発明では、核酸断片をグループ化するステップをさらに使用してもよく、この時、グループ化基準は、整列された核酸断片のアダプター配列に基づいて行ってもよい。順方向に整列された核酸断片と逆方向に整列された核酸断片に別々に区分して、選別された配列情報に対して核酸断片間の距離を計算することができる。
【0056】
本発明において、前記FD値は、得られたn個の核酸断片に対して、i番目の核酸断片とi+1~n番目の核酸断片から選択されるいずれか1つ以上の核酸断片の基準値間の距離として定義されることを特徴とすることができる。
【0057】
本発明において、前記FD値は、得られたn個の核酸断片に対して、第1の核酸断片と第2~第n個の核酸断片からなる群から選択されるいずれか1つ以上の核酸断片の基準値との距離を計算して、それらの合計、差、積、平均、積の対数、合計の対数、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数で構成される群から選択された1つ以上の値及び/又は1つ以上のこれらの逆数値と、重みを含む計算結果及びこれに限定されない統計値をFD値として使用してもよいが、これらに限定されない。
【0058】
本発明において、「1つ以上の値及び/又は1つ以上のこれらの逆数値」という記載は、前述した数値のうち、1つ又は2つ以上を組み合わせて使用してもよいという意味で解釈される。
【0059】
本発明において、前記「核酸断片の基準値」は、核酸断片の中央値から任意の値を加算または減算した値であることを特徴とすることができる。
前記FD値は、得られたn個の核酸断片に対して、次のように定義することができる。
FD=Dist(Ri~Rj) (1<i<j<n)
【0060】
ここで、Dist関数は、選別されたRiとRjの2つの核酸断片間に含まれるすべての核酸断片の配列位置値の差の合計、差、積、平均、積の対数、合計の対数、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、および変動係数からなる群から選択された1つ以上の値、および/または1つ以上のこれらの逆数値、ならびに重みを含む計算結果、およびこれらに限定されない統計値を計算する。
【0061】
すなわち、本発明においてFD値(Fragment Distance Value)とは、配列された核酸断片間の距離を意味する。ここで、距離計算のための核酸断片の選別場合の数は次のように定義することができる。総N個の核酸断片が存在する場合、
個の核酸断片間の距離の組み合わせが可能である。すなわち、iが1の場合、i+1は2となり、2~n番目の核酸断片から選択されるいずれか1つ以上の核酸断片との距離を定義することができる。
【0062】
本発明において、前記FD値は、前記i番目の核酸断片内部の特定の位置と、i+1~n番目のいずれか1つ以上の核酸断片内部の特定の位置との間の距離を計算することを特徴とすることができる。
【0063】
例えば、ある核酸断片の長さが50bpであり、染色体1番の4,183番目の位置に整列されたとすると、この核酸断片の距離計算に使用できる遺伝的位置値は、染色体1番の4,183~4,232である。
【0064】
前記核酸断片と隣接する50bp長さの核酸断片が染色体1番の4,232番目の位置に整列されると、この核酸断片の距離計算に使用できる遺伝的位置値は染色体1番の4,232~4,281であり、2つの核酸断片間のFD値は1~99になってもよい。
【0065】
別の隣接する50bpの長さの核酸断片が染色体1番の4123番目の位置に整列されると、この核酸断片の距離計算に使用できる遺伝的位置値は、染色体1番の4,123~4,172であり、2つの核酸断片間のFD値は61~159であり、第1の例示核酸断片とのFD値は12~110であり、前記2つのFD値範囲のいずれかの値の合計、差、積、平均、積の対数、合計の対数、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数で構成される群から選択された1つ以上の値及び/又は1つ以上のこれらの逆数値、及び重みを含む計算結果及びこれらに限定されない統計値をFD値として使用してもよく、好ましくは2つのFD値範囲のいずれかの値の逆数値であることを特徴としてもよいが、これに限定されない。
【0066】
好ましくは、本発明において、前記FD値は、核酸断片の中央値から任意の値を加算または減算した値であることを特徴とすることができる。
【0067】
本発明において、FDの中央値とは、計算されたFD値を大きさの順に並べると、最も中央に位置する値を意味する。例えば、1、2、100のように3つの値がある場合、2が最も中央にあるため、2が中央値になる。もし偶数個の FD値がある場合、中央にある2つの値の平均で中央値を決定する。例えば、1, 10, 90, 200のFD値がある場合、中央値は10と90の平均である50になる。
【0068】
本発明において、前記任意の値は、核酸断片の位置を示すことができれば制限なく用いてもよいが、好ましくは、0~5kbpまたは核酸断片長さの0~300%、0~3kbpまたは核酸断片長さの0~200%、0~1kbpまたは核酸断片長さの0~100%、より好ましくは0~500bpまたは核酸断片長さの0~50%であってもよいが、これらに限定されない。
【0069】
本発明において、前記FD値は、ペアエンドシーケンシング(paired-end sequencing)の場合、順方向及び逆方向の配列情報(reads)の位置値に基づいて導出することを特徴とすることができる。
【0070】
例えば、50bp長さのペアエンドリード対で、順方向リードは染色体1番の4183番目の位置に整列され、逆方向リードは4349番目の位置に整列されると、この核酸断片の両末端は4183、4349になり、核酸断片距離に使用できる基準値は4183~4349である。この時、前記核酸断片と隣接する他のペアドエンドリード対で、順方向リードは染色体1番の4349番目の位置に整列され、逆方向リードは4515番目に整列されると、この核酸断片の位置値は4349~4515である。この2つの核酸断片の距離は、0~333になってもよく、最も好ましくは、各核酸断片の中央値の距離である166になってもよい。
【0071】
本発明において、前記ペアドエンドシーケンシングにより配列情報を得る場合、配列情報(reads)の整列スコアが基準値未満の核酸断片の場合、計算過程で除外するステップをさらに含むことを特徴とすることができる。
【0072】
本発明において、前記FD値は、シングルエンドシーケンシング(single-end sequencing)の場合、順方向または逆方向の配列情報(read)の位置値の一種に基づいて導出することを特徴とすることができる。
【0073】
本発明において、前記シングルエンドシーケンシングの場合、順方向に整列された配列情報に基づいて位置値を導出する場合には、任意の値を加算し、逆方向に整列された配列情報に基づいて位置値を導出する場合には、任意の値を減算することを特徴とすることができ、前記任意の値は、FD値が核酸断片の位置を明確に示すようにする値であれば制限なく用いても良いが、好ましくは0~5kbpまたは核酸断片長さの0~300%、0~3kbpまたは核酸断片長さの0~200%、0~1kbpまたは核酸断片長さの0~100%、より好ましくは0~500bpまたは核酸断片長さの0~50%であってもよいが、これらに限定されない。
【0074】
本発明において、分析しようとする核酸は、シーケンシングされてリード(reads)という単位で表現することができる。このリードは、シーケンシング法によってシングルエンドシーケンシング(single end sequencing read, SE)およびペアードエンドシーケンシング(paired end sequencing read, PE)に分けることができる。SE方式のリードは核酸分子の5`と3`のいずれかをランダムな方向に一定の長さだけシーケンシングしたことを意味し、PE方式のリードは5`と3`の両方を一定の長さだけシーケンシングすることになる。このような相違から、SEモードでシーケンシングする場合、1つの核酸断片から1つのリードが生じ、PEモードでは1つの核酸断片から2つのリードが対で生成されることは、通常の技術者によく知られている事実である。
【0075】
核酸断片間の正確な距離を計算するための最も理想的な方法は、核酸分子を最初から最後までシーケンシングし、そのリードを整列し、整列された値の中央値(センター)を利用することである。しかし、技術的に前記方式はシーケンシング技術の限界及びコスト的な側面から制約があることが現状である。したがって、SE、PEと同じ方式でシーケンシングをすることになるが、PE方式の場合、核酸分子の始まりと終わりの位置を把握できるので、これらの値の組み合わせを通じて核酸断片の正確な位置(中央値)を把握することができるが、SE方式の場合、核酸断片の一方の端の情報しか利用できないため、正確な位置(中央値)の計算に限界がある。
【0076】
また、順方向、逆方向の双方向にシーケンシングされた(整列された)、すべてのリードの末端情報を用いて核酸分子の距離計算時、シーケンシング方向という要素のために正確でない値が計算される可能性がある。
【0077】
したがって、シーケンシング方式の技術的な理由で、順方向リードの5`末端は、核酸分子の中心位置より小さい位置値を有し、逆方向リードの3`末端は大きい値を有するようになる。このような特徴を利用して、順方向リードの場合、任意の値(Extended bp)を加算し、逆方向リードは減算すると、核酸分子の中心位置に近い値を推定することができる。
【0078】
つまり、任意の値(Extended bp)は、使用する試料によって異なる場合があり、細胞遊離核酸の場合、その核酸の平均長さが166bp程度と言われているので、約80bp程度に設定することができる。もし断片化装備(ex; sonication)を通して実験が行われた場合、断片化の過程で設定したターゲット長さの半分程度をextended bpに設定することができる。
【0079】
本発明において、前記代表値(RepFD)は、FD値の合計、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数で構成される群から選択された1つ以上の値及び/又は1つ以上のこれらの逆数値であることを特徴としてもよく、好ましくはFD値の中央値、平均値又はその逆数値であることを特徴としてもよいが、これに限定されない。
【0080】
本発明において、前記ステップ(d)の人工知能モデルは、正常な画像と癌のある画像を区別できるように学習できるモデルであれば制限なく使用してもよく、好ましくはディープラーニングモデルであることを特徴とすることができる。
【0081】
本発明において、前記人工知能モデルは、人工ニューラルネットワークに基づいてベクトル化されたデータを分析できる人工ニューラルネットワークアルゴリズムであれば、制限なく用いてもよいが、好ましくは、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)、深層ニューラルネットワーク(Deep Neural Network, DNN)、回帰型ニューラルネットワーク(Recurrent Neural Network, RNN)およびオートエンコーダ(autoencoder)で構成される群から選択されることを特徴としてもよいが、これに限定されない。
【0082】
本発明において、前記回帰型ニューラルネットワークは、LSTM(Long-short term memory)ニューラルネットワーク、GRU(Gated Recurrent Unit)ニューラルネットワーク、バニラ回帰型ニューラルネットワーク(Vanilla recurrent neural network)及び集中的回帰型ニューラルネットワーク(attentive recurrent neural network)で構成される群から選択されることを特徴とすることができる。
【0083】
本発明において、前記人工知能モデルがCNNである場合、二項分類(binary classification)を行う損失関数は下記数式1で表されることを特徴としてもよく、マルチクラス分類(Multi-class classification)を行う損失関数は下記数式2で表されることを特徴とすることができる。
【数1】
【数2】
【0084】
本発明において、前記二項分類は、人工知能モデルが癌の有無を判別するように学習することを意味し、マルチクラス分類は、人工知能モデルが癌種を判別するように学習することを意味する。
【0085】
本発明において、前記人工知能モデルがCNNである場合、学習は下記ステップを含めて行われることを特徴とすることができる:
i)生産されたGC plotをtraining(学習)、validation(検証)、test(性能評価)データに分類するステップ;
この時、TrainingデータはCNNモデルを学習する際に使用され、Validationデータはハイパーパラメータチューニング(Hyper-parameter tuning)検証に使用され、Testデータは最適のモデルの生産後、性能評価に使用されることを特徴とする。
ii)ハイパーパラメータチューニング及び学習過程を通じて最適なCNNモデルを構築するステップ;および
iii)ハイパーパラメータチューニングを通じて得られた複数のモデルの性能をvalidation dataを用いて比較し、validation dataの性能が最も良いモデルを最適のモデルとして決定するステップ;
本発明において、前記ハイパーパラメータチューニング過程は、CNNモデルを構成する複数のパラメータ(畳み込みレイヤー数、緻密レイヤー数、畳み込みフィルタ数など)の値を最適化する過程であり、ハイパーパラメータチューニング過程としては、ベイズ最適化(Bayesian optimization)及びグリッドサーチ法(grid search)を使用することを特徴とすることができる。
【0086】
本発明において、前記学習過程は、定められたハイパーパラメータを利用してCNNモデルの内部パラメータ(weights)を最適化させ、Training lossに対してvalidation lossが増加し始めると、モデルが過適合(Overfitting)となったと判断し、その前にモデル学習を中断することを特徴とすることができる。
【0087】
本発明において、前記ステップ(d)で人工知能モデルが入力されたベクトル化されたデータから分析した結果値は、特定のスコアまたは実数であれば制限なく用いてもよく、好ましくはDPI(Deep Probability Index)値であることを特徴としてもよいが、これに限定されない。
【0088】
本発明において、Deep probability Indexは、人工知能モデルの最後の層に、二項分類の場合はシグモイド関数、マルチクラス分類の場合はソフトマックス関数を使用して人工知能のoutputを0~1スケールで調整して確率値で示した値を意味する。
【0089】
二項分類の場合は、シグモイド関数を用いて、癌の場合はDPI値が1になるように学習する。例えば、神経芽細胞腫サンプルと正常サンプルが入力されると、神経芽細胞腫サンプルのDPI値が1に近づくように学習することである。
【0090】
マルチクラス分類の場合には、ソフトマックス関数を用いて、クラス数分のDPI値を抽出する。クラス数分のDPI値の合計は1になり、実際に該当する癌種のDPI値が1になるように学習する。例えば、3つのクラス神経芽細胞腫、肝癌、正常があり、神経芽細胞腫サンプルが入ったら、乳癌クラスを1に近く学習することである。
【0091】
本発明において、前記ステップ(d)の出力結果値は、癌種別に導出されることを特徴とすることができる。
本発明において、前記人工知能モデルは、学習する際に癌があればoutput結果が1に近く学習し、癌がなければoutput結果が0に近く学習させて、0.5を基準として0.5以上であれば癌があると判断し、0.5以下であれば癌がないと判断してパフォーマンスの測定を行った(Training, validation, test accuracy)。
【0092】
ここで、0.5の基準値はいつでも変えられる値であることは、通常の技術者にとって自明である。例えば、False positive(偽陽性)を減らそうとすれば、0.5より高い基準値を設定して癌があると判断される基準を厳格に取ることができ、False Negative(偽陰性)を減らそうとすれば、基準値をより低く測定して、癌があると判断される基準を少し弱く取ることができる。
【0093】
最も好ましくは、学習された人工知能モデルを用いてunseen data(学習にtrainingしていない答えを知っているデータ)を適用させて、DPI値の確率(probability)を確認して基準値を決定することができる。
【0094】
本発明において、前記ステップ(e)の出力結果値の比較により癌種を予測するステップは、出力結果値のうち、最も高い値を示す癌種をサンプルの癌と判定するステップを含む方法で行うことを特徴とすることができる。
【0095】
本発明は他の観点から、生体試料から核酸を抽出してメチル化情報を含む配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された配列基盤の核酸断片を用いてベクトル化されたデータを生成するデータ生成部;
生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較して癌の有無を判定する癌診断部;および
出力された結果値を分析して癌種を予測する癌種予測部を含む癌診断及び癌種予測装置を含む癌診断及び癌種予測装置に関する。
【0096】
本発明において、前記解読部は、独立した装置で行われてもよい。例えば、本発明の解読部は、NGS装置でメチル化情報を含む配列情報、すなわちリードを生成することができる。
【0097】
本発明は、他の観点から、コンピュータ読み取り可能な記憶媒体であって、癌診断および癌種を予測するプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)基盤の核酸断片を用いてベクトル化されたデータを生成するステップ;
(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(e)前記出力結果値の比較を通じて癌種を予測するステップを通じて、癌の有無及び癌種を予測するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体に関する。
【0098】
本発明は、他の観点から、(a)生体試料から核酸を抽出してメチル化情報を含む配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)基盤の核酸断片(fragments)を用いてベクトル化されたデータを生成するステップ;
(d)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(e)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測方法に関する。
【0099】
他の態様において、本発明による方法は、コンピュータを用いて実現することができる。一実施態様において、コンピュータは、チップセットに連結された1つ以上のプロセッサを含む。また、チップセットには、メモリ、貯蔵装置、キーボード、グラフィックスアダプタ(Graphics Adapter)、ポインティングデバイス(Pointing Device)及びネットワークアダプタ(Network Adapter)などが連結されている。一実施態様において、前記チップセットの性能は、メモリコントローラハブ(Memory Controller Hub)及びI/Oコントローラハブによって可能になる。他の実施態様において、前記メモリは、チップセットの代わりにプロセッサに直接連結して使用してもよい。貯蔵装置は、ハードドライブ、CD-ROM(Compact Disk Read-Only Memory)、DVDまたはその他のメモリ装置を含むデータを維持できる任意の装置である。メモリは、プロセッサによって使用されたデータおよび命令に関与する。前記ポインティングデバイスは、マウス、トラックボール(Track Ball)または他のタイプのポインティングデバイスであってもよく、キーボードと組み合わせて入力データをコンピュータシステムに送信することに使用される。前記グラフィックアダプタは、ディスプレイ上で画像及びその他の情報を示す。前記ネットワークアダプタは、近距離または長距離通信網によりコンピュータシステムと連結される。しかしながら、本願に使用されるコンピュータは前記のような構成に限定されず、一部の構成がないか、または追加の構成を含んでもよく、また、貯蔵装置領域ネットワーク(SAN、Storage Area Network)の一部であってもよく、本願のコンピュータは、本願による方法の実行のためのプログラムにモジュールの実行に適するように構成されてもよい。
【0100】
本願におけるモジュールとは、本願による技術的思想を行うためのハードウェア及び前記ハードウェアを駆動するためのソフトウェアの機能的、構造的結合を意味する場合もある。例えば、前記モジュールは所定のコードと前記所定のコードが行われるためのハードウェアリソース(Resource)の論理的な単位を意味する場合もあり、必ずしも物理的に連結されたコードを意味するか、または一種のハードウェアを意味するものではないことは、本願の技術分野における当業者にとって自明である。
【0101】
本願による方法は、ハードウェア、ファームウェア、またはソフトウェア、またはこれらの組み合わせで実現することができる。ソフトウェアで実現される場合、記憶媒体は、コンピュータのような装置によって読み取り可能な形で記憶または伝達する任意の媒体を含む。例えば、コンピュータ読み取り可能な媒体は、ROM(Read Only Memory);RAM(Random Access Memory);磁気ディスク記憶媒体;光記憶媒体;フラッシュメモリ装置及びその他の電気的、光学的又は音響的信号伝達媒体などを含む。
【実施例】
【0102】
以下、実施例により本発明をさらに詳細に説明する。これらの実施例は、もっぱら本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって限定されるものと解釈されないことは当業界における通常の知識を有する者にとって自明であろう。
【0103】
実施例1.血液からメチル化されたcfDNAを抽出し、次世代シーケンシング分析を行う。
正常人185人及び神経芽細胞腫(neuroblastoma)患者57人の血液を採取した後、3000rpm、25℃、10分の条件で血漿部分だけを1次遠心分離した後、1次遠心分離された血漿を16000g、25℃、10分の条件で2次遠心分離して沈殿物を除いた血漿上層液を分離した。分離された血漿に対してchemagen DNA kitを使用してcell-free DNAを抽出し、Truseq Nano DNA HT library prep kit (Illumina)を使用して、まず、アダプターライゲーション(adaptor ligation)過程まで行い、その後、cfMediIP kit(diagnode)の抗体を使用して10 rpm、4℃、17時間反応させて5mC免疫沈降法(immunoprecipitation)を行った後、精製を行い、再びTruseq Nano DNA HT library prep kit(Illumina)を使用してPCR豊富化(enrichment)を行い、最終的なライブラリを作製した。作製したライブラリはNovaseq 6000(Illumina)を150paired-end モードでシーケンシングを行い、サンプル当たり約30百万個のリードを生産した。
【0104】
実施例2.核酸断片数基盤のGC plotの生成
実施例1で得られたリードをbwa(version 0.7.17-r1188)アライメントツール(alignment tool)を用いて核酸断片データを参照ゲノムに整列した後、biobambam2 bammarkduplicates(version 2.0.87)ツールを用いてPCR duplicate核酸断片を除去し、sambamba(version 0.6.6)を用いて整列一致度が60以下の核酸断片を除去した。
【0105】
GC plotは、染色体の始まりから末端までNGS readsが整列された状態を表現するが、性染色体を除くすべての染色体を重ならない100 kilobase binに分割した後、各binに割り当てられたリード数を数えた(read count value)。各binに割り当てられたリード数(reads count)値をサンプルの全体リード数で割って正規化(Normalization)過程を行った。正規化されたbin read count値をY値、各binの順序をX値として、染色体別にGC plotを生産し、生産したGC plotを1番染色体から22番染色体まで整列して1つの画像を生産した(
図2)。
【0106】
実施例3.GC plot基盤の神経芽細胞腫のディープラーニングモデルの構築及びDPIの計算
3-1.ディープラーニングモデルの構築
実施例2で生産したGC plotをtraining(学習)、validation(検証)、test(性能評価)データに分けて、TrainingデータはCNNモデルを学習する際に使用し、Validationデータはハイパーパラメータチューニング検証に使用し、Testデータは最適なモデルを生産した後、性能評価に使用した。
【0107】
Tensorflow(version 2.4.1)を用いてCNNモデル構築及び学習に使用したが、CNNモデルの構造は畳み込みレイヤー→プーリングレイヤー→全結合レイヤーの順に構成されており、畳み込みレイヤーの後には常にプーリングレイヤーが挿入されている。畳み込みレイヤー数及び全結合レイヤー数はハイパーパラメータチューニング過程を通じて決定した。モデルを学習する際、損失関数(loss function)を最小化する方向に学習を進め、損失関数は数式1及び数式2のとおりである。
【0108】
最適なモデルを求めるため、scikit-optimize(version 0.7.4) python packageを用いてハイパーパラメータチューニングを行った。ハイパーパラメータチューニング過程はCNNモデルを構成する様々なパラメータ(畳み込みレイヤー数、緻密レイヤー数、畳み込みフィルタ数など)の値を最適化する過程で、畳み込みレイヤー数、畳み込みフィルタ数、畳み込みパッチサイズ(convolution patch size)、全結合レイヤー(full connected layer)数、非表示ノード(hidden node)数、活性化関数(activation function)、ドロップアウト(dropout)の有無、学習率をハイパーパラメータとして指定した後、ベイズ最適化法法を用いて最適のモデルを構築し、定められたハイパーパラメータでモデルを学習する際、Training lossに比べてvalidation lossが増加し始めると、モデルが過適合(Overfitting)されたと判断され、その前にモデル学習を中断し、ハイパーパラメータチューニング過程で得られた複数のモデルの性能をvalidation dataを用いて比較した後、性能が最も良いモデルを最適なモデルと判断し、テストデータを用いて性能評価を行った。
【0109】
3-2.DPI(Deep Probability Index)の計算
ハイパーパラメータチューニングを通じて求められた最適なモデルにデータ(GC plot)を入れると、モデルのoutput layerを通じて確率値が出力される。
【0110】
まず、二項分類の場合は、モデルのoutput layerにシグモイド関数を使用した。シグモイド関数は下記数式3のとおりである。
【数3】
数式3から出力される確率値(DPI)は1つであり、癌の診断に使用した。
マルチクラス分類の場合は、モデルの output layerに softmax functionを使用し、数式4の通りである。
【数4】
数式4で出力される確率値(DPI)はclass数だけ出力されるので、癌の種類区分に使用した。
【0111】
実施例4.メチル化されたcfDNAを用いた核酸断片数基盤のGC plotの神経芽細胞腫ディープラーニングモデルの構築及び性能の確認
正常サンプル(n=186)と神経芽細胞腫サンプル(n=57)を用いてDPI値の性能をテストした。すべてのサンプルはTrain、Validation、Testグループに分けて進み、Trainサンプルを利用してモデルを構築した後、ValidationグループとTestグループのサンプルを用いて、Trainサンプルを用いて作製したモデルの性能を確認した。
【表1】
【0112】
その結果、表2、
図3及び
図4に記載したように、AccuracyはTrain、Valid、Testグループでそれぞれ100%、92%、94.1%であることを確認し、ROC分析結果であるAUC値はTrain、Valid、Testグループでそれぞれ1.0、0.95、0.99であることを確認した。
【0113】
図3は、精度を測定する方法のうちROC(Receiver Operating Characteristic)カーブを活用した分析であって、カーブ下の面積の広さであるAUC(Area Under the Curve)値が高いほど精度が高いと解釈する。AUC値は0~1の間の値を持ち、ランダムにラベル値を予測した時(baseline)に期待されるAUC値が0.5、完全に正確に予測した時に期待されるAUC値が1である。
【0114】
図4は、本発明の人工知能モデルで計算された癌がある確率値(DPI値)を正常サンプルと神経芽細胞腫サンプルグループにおいて箱ひげ図で示したものであり、赤い線がDPI cutoffである0.5を示す。
【表2】
【0115】
実施例5.cfDNAを用いた核酸断片数基盤のGC plotの神経芽細胞腫ディープラーニングモデルの構築及び性能の確認
5-1.血液からDNAを抽出し、次世代シーケンシング分析を行う。
正常人186人及び神経芽細胞腫患者57人の血液を10mLずつ採取してEDTA Tubeに保管し、採取後2時間以内に1200g、4℃、15分の条件で血漿部分だけを1次遠心分離した後、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離して沈殿物を除いた血漿上層液を分離した。分離された血漿に対してTiangenmicro DNA kit(Tiangen)を用いてcell-free DNAを抽出し、MGIEasy cell-free DNA library prep set kitを用いてライブラリ作製過程を行った後、DNBseq G400装備(MGI)を100 base Paired end モードでシーケンシングを行った。その結果、サンプル当たり約1億7000万リードが生成されることを確認した。
【0116】
5-2.ディープラーニングモデルの構築及び性能の確認
正常サンプル(n=186)と神経芽細胞腫サンプル(n=57)を用いてDPI値の性能をテストした。すべてのサンプルはTrain、Validation、Testグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、ValidationグループとTestグループのサンプルを用いて、Trainサンプルを用いて作製したモデルの性能を確認した。
【0117】
【表3】
その結果、表4、
図6及び
図7に記載したように、AccuracyはTrain、Valid、Testグループでそれぞれ92.9%、97.3%、94.6%であることを確認し、ROC分析結果であるAUC値はTrain、Valid、Testグループでそれぞれ0.98、0.98、0.95であることを確認した。
【0118】
【表4】
以上、本発明の内容の特定の部分を詳細に説明したが、当業界における通常の知識を有する者にとって、これらの具体的な技術は単なる好ましい実施態様に過ぎず、これによって本発明の範囲が限定されないことは明らかであろう。 したがって、本発明の実質的な範囲は、添付の請求項とそれらの等価物によって定義されるといえる。
【産業上の利用可能性】
【0119】
本発明によるメチル化された無細胞核酸を用いた癌診断及び癌種予測方法は、従来のリード数(read count)に基づいて染色体量を決定するステップを用いる方式又は整列されたリード(reads)間の距離概念を用いる検出方法などでリードに関連する値を1つ1つの定型化された値として活用するのに比べ、ベクトル化されたデータを生成してAIアルゴリズムを用いて分析するため、リードカバレッジが低くても同様の効果を発揮することができるので、有用である。
【国際調査報告】