IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ジーシー ゲノム コーポレーションの特許一覧

特表2024-522353細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法
<>
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図1
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図2
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図3
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図4
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図5
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図6
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図7
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図8
  • 特表-細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-18
(54)【発明の名称】細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法
(51)【国際特許分類】
   C12Q 1/6809 20180101AFI20240611BHJP
   G06N 20/00 20190101ALI20240611BHJP
   G06N 3/08 20230101ALI20240611BHJP
   G06N 3/0464 20230101ALI20240611BHJP
   G06N 3/044 20230101ALI20240611BHJP
   G01N 33/50 20060101ALI20240611BHJP
   G01N 33/574 20060101ALI20240611BHJP
   G01N 33/53 20060101ALI20240611BHJP
   C12Q 1/6869 20180101ALI20240611BHJP
   C12Q 1/6886 20180101ALI20240611BHJP
   G16B 40/20 20190101ALI20240611BHJP
【FI】
C12Q1/6809
G06N20/00 ZNA
G06N3/08
G06N3/0464
G06N3/044
G01N33/50 P
G01N33/574 Z
G01N33/53 M
C12Q1/6869 Z
C12Q1/6886
G16B40/20
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023573426
(86)(22)【出願日】2022-05-30
(85)【翻訳文提出日】2023-12-08
(86)【国際出願番号】 KR2022007651
(87)【国際公開番号】W WO2022250513
(87)【国際公開日】2022-12-01
(31)【優先権主張番号】10-2021-0068891
(32)【優先日】2021-05-28
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523165307
【氏名又は名称】ジーシー ゲノム コーポレーション
【氏名又は名称原語表記】GC GENOME CORPORATION
(74)【代理人】
【識別番号】100139594
【弁理士】
【氏名又は名称】山口 健次郎
(72)【発明者】
【氏名】チョ ウンヘ
(72)【発明者】
【氏名】イ テリム
(72)【発明者】
【氏名】パク スクリョン
【テーマコード(参考)】
2G045
4B063
【Fターム(参考)】
2G045AA26
2G045BA13
2G045BB16
2G045CA25
2G045CB02
2G045CB03
2G045CB07
2G045CB14
2G045CB15
2G045DA12
2G045FB02
2G045JA01
4B063QA01
4B063QA13
4B063QA19
4B063QQ02
4B063QQ03
4B063QQ42
4B063QR08
4B063QR32
4B063QR42
4B063QR62
4B063QS10
4B063QS13
4B063QS14
4B063QS17
4B063QS20
4B063QX01
(57)【要約】
本発明は、細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列したリードに基づいて核酸断片の末端配列モチーフの頻度と核酸断片のサイズを導出した上、これをベクトル化されたデータとして生成した後、学習された人工知能モデルに入力して計算された値を分析する方法を用いた癌診断及び癌種予測方法に関する。本発明による細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法は、ベクトル化されたデータを生成してAIアルゴリズムを用いて分析するため、リードカバレッジが低くても高い敏感度と精度を示し、有用である。
【特許請求の範囲】
【請求項1】
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;
(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;
(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ; および
(f)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測のための情報の提供方法。
【請求項2】
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;
(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;
(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ; および
(f)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測方法。
【請求項3】
前記ステップ(a)は、以下のステップを含む方法で行われることを特徴とする、請求項1又は2に記載の方法:
(a-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞または胎児細胞を含む羊水、組織細胞またはこれらの混合物から核酸を得るステップ;
(a-ii)採取した核酸から、塩析法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いて、タンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得るステップ;
(a-iii)精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)またはペアエンドシーケンシング(pair-end sequencing)ライブラリ(library)を作製するステップ;
(a-iv)作製されたライブラリを次世代シークエンサー(next-generation sequencer)に反応させるステップ; および
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得するステップ。
【請求項4】
前記(c)ステップの末端配列モチーフは、核酸断片の両末端の2~30個の塩基配列のパターンであることを特徴とする、請求項1に記載の方法。
【請求項5】
前記(c)ステップにおける末端配列モチーフの頻度は、全体の核酸断片から検出された各モチーフ数であることを特徴とする、請求項1又は2に記載の方法。
【請求項6】
前記(c)ステップの核酸断片のサイズは、核酸断片の5'末端から3'末端までの塩基数であることを特徴とする、請求項1又は2に記載の方法。
【請求項7】
前記(d)ステップのベクトル化されたデータは、核酸断片の末端配列モチーフの種類をX軸とし、核酸断片のサイズをY軸とすることを特徴とする、請求項1又は2に記載の方法。
【請求項8】
前記ベクトル化されたデータは、核酸断片の末端モチーフ別の頻度の合計および核酸断片のサイズ別の頻度の合計をさらに含むことを特徴とする、請求項7に記載の方法。
【請求項9】
前記(e)ステップの人工知能モデルは、健康人のベクトル化されたデータと癌があるベクトル化されたデータを区別できるように学習することを特徴とする、請求項1又は2に記載の方法。
【請求項10】
前記人工知能モデルは、畳み込みニューラルネットワーク(convolutional neural network, CNN)、深層ニューラルネットワーク(Deep Neural Network, DNN)及び再帰ニューラルネットワーク(Recurrent Neural Network, RNN)で構成される群から選択されることを特徴とする、請求項9に記載の方法。
【請求項11】
前記人工知能モデルがCNNであり、二項分類を学習する場合、損失関数は下記数式1で表され、前記人工知能モデルがCNNであり、マルチクラス分類を学習する場合、損失関数は下記数式2で表されることを特徴とする方法:
【数1】
【数2】
【請求項12】
前記(e)ステップの人工知能モデルが入力されたベクトル化されたデータを分析して出力する結果値は、DPI(Deep Probability Index)値であることを特徴とする、請求項1又は2に記載の方法。
【請求項13】
前記(e)ステップの基準値は0.5であり、0.5以上の場合、癌であると判定することを特徴とする、請求項1又は2に記載の方法。
【請求項14】
前記(f)ステップの出力結果値の比較により癌種を予測するステップは、出力結果値のうち、最も高い値を示す癌種をサンプルの癌と判定するステップを含む方法で行うことを特徴とする、請求項1又は2に記載の方法。
【請求項15】
生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された配列基盤の核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを導出する核酸断片分析部;
導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いたベクトル化されたデータを生成するデータ生成部;
生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較して癌の有無を判定する癌診断部;および
出力された結果値を分析して癌種を予測する癌種予測部を含む癌診断及び癌種予測装置。
【請求項16】
コンピュータ読み取り可能な記憶媒体であって、癌診断及び癌種を予測するプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;
(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;
(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(f)前記出力結果値の比較を通じて癌種を予測するステップを通じて、癌の有無および癌種を予測するプロセッサによって実行されるように構成される命令を含む、コンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列したリードに基づいて核酸断片の末端配列モチーフの頻度と核酸断片のサイズを導出した上、これをベクトル化されたデータとして生成した後、学習された人工知能モデルに入力して計算された値を分析する方法を用いた癌診断及び癌種予測方法に関する。
【背景技術】
【0002】
臨床での癌診断は、通常、病歴調査、物理的検査および臨床的評価後、組織生検(tissue biopsy)を行って確認している。臨床実験による癌診断は、癌細胞の数が10億個以上であり、癌の直径が1cm以上である場合にのみ可能である。この場合、癌細胞はすでに転移能力を持っており、少なくともそれらの半分はすでに転移した状態である。また、組織生検は侵襲的であり、患者にかなりの不快感を与え、癌患者を治療していると組織生検ができない場合もかなりあるという問題がある。その他に、癌スクリーニングにおいて、癌から直接または間接的に生産される物質をモニタリングするための腫瘍マーカーが使用されているが、癌が存在する場合でも、腫瘍マーカースクリーニングの結果、半分以上が正常となり、癌がない場合でも頻繁に陽性となるため、その精度に限界がある。
【0003】
このような従来の癌診断方法の問題点を補完できる、比較的簡単で、非侵襲的かつ高い敏感度及び特異度を持つ癌診断方法の需要により、最近、癌の診断、追跡検査として患者の体液を活用する液体生検(liquid biopsy)が多く利用されている。液体生検は非侵襲的(non-invasive)な方法で、従来の侵襲的な診断及び検査方法の代替として注目されている診断技術である。
【0004】
最近では、液状生検で得られた細胞遊離DNA(cell free DNA)を用いて癌診断及び癌種の鑑別を行う方法が開発されており(US 10975431, Zhou, Xionghui et al., bioRxiv, 2020.07.16.201350)、特に、細胞遊離核酸の末端配列のモチーフの頻度情報を分析して癌診断、出生前診断又は臓器移植モニタリングに用いる方法が知られている(WO 2020-125709, Peiyong Jiang et al., cancer discovery, Vol. 10, 2020, pp. 664-673)。
【0005】
一方、人工ニューラルネットワークとは、連結線で連結された多数の人工ニューロンを用いて、生物学的なシステムの計算能力を模倣するソフトウェアやハードウェアで実現された演算モデルを示す。人工ニューラルネットワークでは、生物学的なニューロンの機能を単純化した人工ニューロンを使用する。そして、連結強度を持つ連結線を介して相互連結させ、人間の認知作用や学習過程を行うようになる。連結強度は連結線が持つ特定値であり、連結加重値とも呼ばれる。人工ニューラルネットワークの学習は指導学習と非指導学習に分けることができる。指導学習とは、入力データとそれに対応する出力データを一緒にニューラルネットワークに入れ、入力データに対応する出力データが出力されるように連結線の連結強度を更新させる方法をいう。代表的な学習アルゴリズムとしては、デルタルール(Delta Rule)と誤差逆伝播学習(Back propagation Learning)がある。非指導学習とは、目標値なしで入力データだけを使用して人工ニューラルネットワークが自ら連結強度を学習させる方法をいう。非指導学習は、入力パターン間の相関関係によって連結加重値を更新させていく方法である。
【0006】
機械学習で適用される多くのデータは複雑になり、次元が増えるにつれて次元の呪い(curse of dimensionality)の問題が発生する。つまり、これは、必要なデータの次元が無限になればなるほど、任意の2つの点間の距離が無限に発散し、データの存在量、つまり密度が高次元の空間では多少低くなり、データの特性(Feature)を適切に反映できなくなることである(Richard Bellman, Dynamic Programming, 2003, chapter 1)。最近、深層ニューラルネットワーク(deep learning)の発達は、入力層(input layer)と出力層(output layer)の間に隠れ層(hidden layer)がある構造で、入力層から伝達される変数値の線形結合(linear combination)を非線形関数で処理しながら、画像、映像、信号データなどの高次元のデータでの分類器(classifier)の性能を大幅に向上させたと報告された(Hinton, Geoffrey, et al., IEEESignal Processing Magazine Vol. 29.6, pp. 82-97, 2012)。
【0007】
このような人工ニューラルネットワークを用いてバイオ分野に活用する様々な特許(KR 10-2018-0124550, KR 10-2019-7038076, KR 10-2019-0003676, KR 10-2019-0001741)があるが、血液中の無細胞DNA(cell-free DNA, cfDNA)の配列分析情報に基づく人工ニューラルネットワーク分析を通じて癌種を予測する方法については研究が足りない状況である。
【0008】
そこで、本発明者らは前記問題点を解決し、高い敏感度と精度の人工知能基盤の癌診断及び癌種予測方法を開発するために鋭意努力した結果、無細胞核酸断片の末端配列モチーフと核酸断片の長さの情報に基づいてベクトル化されたデータを生成し、これを学習された人工知能モデルで分析する場合、高い敏感度と精度で癌診断及び癌種を予測できることを見出し、本発明を完成した。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法を提供することである。
本発明の他の目的は、細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測装置を提供することである。
【0010】
本発明の他の目的は、前記方法で癌診断及び癌種を予測するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供することである。
【課題を解決するための手段】
【0011】
前記目的を達成するために、本発明は、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;及び (f)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測のための情報の提供方法を提供する。
【0012】
本発明はまた、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ; 及び (f)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測方法を提供する。
【0013】
本発明はまた、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;整列された配列基盤の核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを導出する核酸断片分析部;導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いたベクトル化されたデータを生成するデータ生成部;生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較して癌の有無を判定する癌診断部;及び出力された結果値を分析して癌種を予測する癌種予測部を含む癌診断及び癌種予測装置を提供する。
【0014】
本発明はまた、コンピュータ読み取り可能な記憶媒体であって、癌診断及び癌種を予測するプロセッサによって実行されるように構成される命令を含み、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して、癌の有無を判定するステップ; 及び (f)前記出力結果値の比較を通じて癌種を予測するステップを通じて、癌の有無及び癌種を予測するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供する。
【図面の簡単な説明】
【0015】
図1】本発明の細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法を実施するための全体フローチャートである。
図2】本発明の一実施例にける健康人と癌患者、または各癌種間で発現頻度に差があるモチーフを選別する過程の例である。
図3】本発明の一実施例で選別した核酸断片のサイズ分布を確認したグラフである。
図4】左側のパネルは、本発明の一実施例で製作したFEMS tableを1つの核酸断片で作成した例であり、右側のパネルは全体の核酸断片で作成した例である。
図5】左側のパネルは、本発明の一実施例でEdge summaryをさらに行って作成したFEMS tableの例であり、右側のパネルはこれを視覚化した結果である。
図6】本発明の一実施例で使用した健康人、肝癌患者及び食道癌患者のデータに基づいて作成したFEMS tableの視覚化例である。
図7】(A)は、本発明の一実施例で構築したCNNモデルの性能をAccuracyとmicro AUCで確認した結果であり、(B)は混同行列(confusion matrix)である。
図8】本発明の一実施例で構築したCNNモデルで予測した健康人、肝癌患者及び食道癌患者の確率値が実際の患者とどれだけ一致するかを、CNNモデルが出力したDPI値の分布を通じて確認した結果である。
図9】本発明の一実施例で構築したCNNモデルの構成を示す概略図である。
【発明の実施のための形態】
【0016】
他に定義されない限り、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する技術分野における熟練した専門家によって通常理解されるものと同じ意味を有する。一般に、本明細書で使用される命名法及び下記に記載する実験方法は、当該技術分野においてよく知られており、通常使用されるものである。
【0017】
第1、第2、A、Bなどの用語は、様々な構成要件を説明するために使用されてもよいが、該構成要件は、前記用語によって限定されず、単に1つの構成要件を他の構成要件と区別する目的のみに使用される。例えば、以下に説明する技術の権利範囲を外れることなく、第1の構成要件は第2の構成要件と命名することができ、同様に、第2の構成要件も第1の構成要件と命名してもよい。及び/又はという用語は、複数の関連する記載項目の組み合わせ、または複数の関連する記載項目のいずれかを含む。
【0018】
本明細書で使用される用語において、単数の表現は、文脈上明らかに異に解釈されない限り、複数の表現を含むものと理解されるべきであり、「含む」などの用語は、説示された特徴、個数、ステップ、動作、構成要件、部分品、またはこれらを組み合わせたものが存在することを意味するものであり、1つまたはそれ以上の他の特徴、個数、ステップ、動作、構成要件、部分品、またはこれらを組み合わせたものの存在または付加の可能性を排除しないものと理解されるべきである。
【0019】
図面に対する詳細な説明をするに先立ち、本明細書における構成部に対する区分は、各構成部が担当する主機能別に区分したものに過ぎないことを明確にしたい。すなわち、以下に説明する2つ以上の構成部が1つの構成部に合わしたり、又は1つの構成部がより細分化された機能別に2つ以上に分化されて備えられてもよい。そして、以下に説明する構成部のそれぞれは、自分が担当する主機能以外にも、他の構成部が担当する機能の一部または全ての機能をさらに行ってもよく、構成部のそれぞれが担当する主機能の一部の機能が他の構成部によって専担されて行ってもよいことはもちろんである。
【0020】
また、方法あるいは動作方法を実行するにあたり、前記方法を構成する各過程は、文脈上明らかに特定の順序を記載しない限り、明記された順序と異なる順序で行われてもよい。つまり、各過程は、明記された順序と同じ順序で行われてもよく、実質的に同時に行われてもよく、逆の順序で行われてもよい。
【0021】
本発明では、サンプルから取得した配列分析データを参照ゲノムに整列したた後、整列された配列情報に基づいて核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを導出し、前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成した後、学習された人工知能モデルでDPI値を計算して分析する場合、高い敏感度と精度で癌診断及び癌種類を予測できることを確認しようとした。
【0022】
すなわち、本発明の一実施例では、血液から抽出したDNAをシーケンシングした上、参照染色体に整列した後、これを用いて核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを導出し、核酸断片の末端配列モチーフの頻度をX軸とし、核酸断片のサイズをY軸とするベクトル化されたデータを生成した後、これをディープラーニングモデルに学習させてDPI値を計算し、これを基準値と比較して癌診断を行い、各癌種別に計算されたDPI値のうち、最も高いDPI値を示した癌種をサンプルの癌種として決定する方法を開発した(図1)。
【0023】
したがって、本発明は、一観点から、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;
(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;
(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(f)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測のための情報の提供方法に関する。
【0024】
本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であれば制限なく用いてもよく、好ましくは、細胞遊離核酸または細胞内核酸の断片であってもよいが、これに限定されない。
【0025】
本発明において、前記核酸断片は、通常の技術者に知られているあらゆる方法で得ることができ、好ましくは、直接配列分析したり、次世代シーケンシング分析を介して配列分析したり、または非特異的全長ゲノム増幅(non-specific whole genome amplification)を介して配列分析して得たり、プローブベースの配列分析を介して得てもよいが、これに限定されない。
【0026】
本発明において、前記癌は、固形癌または血液癌であってもよく、好ましくは、非ホジキンリンパ腫(non-Hodgkin lymphoma)、ホジキンリンパ腫(non-Hodgkin lymphoma)、急性骨髄性白血病(acute-myeloid leukemia)、急性リンパ性白血病(acute-lymphoid leukemia)、多発性骨髄腫(multiple myeloma)、頭頸部癌(head and neck cancer)、肺癌、膠芽腫(glioblastoma)、大腸/直腸癌、膵臓癌、乳癌、卵巣癌、黒色腫(melanoma)、前立腺癌、肝癌、甲状腺癌、胃癌、胆嚢癌、胆道癌、膀胱癌、小腸癌、子宮頸癌、原発部位不明癌、腎臓癌、食道癌及び中皮腫(mesothelioma)からなる群から選択されてもよく、より好ましくは肝癌または食道癌であってもよいが、これらに限定されない。
【0027】
本発明において、
前記ステップ(a)は、
(a-i)生体試料から核酸を得るステップ;
(a-ii)採取した核酸から、塩析法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いて、タンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得るステップ;
(a-iii)精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)またはペアエンドシーケンシング(pair-end sequencing)ライブラリ(library)を作製するステップ;
(a-iv)製作されたライブラリを次世代シークエンサー(next-generation sequencer)に反応させるステップ;および
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得するステップ;
を含むことを特徴とすることができる。
【0028】
本発明において、前記ステップ(a)の配列情報を取得するステップは、分離された無細胞DNAを1百万~1億リードの深さで全長ゲノムシーケンシングにより取得することを特徴とすることができる。
【0029】
本発明において、前記生体試料とは、個体から得られるかまたは個体に由来する任意の物質、生物学的体液、組織または細胞を意味し、例えば、全血(whole blood)、白血球(leukocytes)、末梢血単核細胞(peripheral blood mononuclear cells)、白血球軟層(buffy coat)、血液(血漿(plasma)及び血清(serum)を含む)、喀痰(sputum)、涙(tears)、粘液(mucus)、鼻洗浄液(nasal washes)、鼻吸引物(nasal aspirate)、呼吸(breath)、尿(urine)、精液(semen)、唾液(saliva)、腹腔洗浄液(peritoneal washings)、骨盤内流体液(pelvic fluids)、嚢胞液(cystic fluid)、脳脊髄膜液(meningeal fluid)、羊水(amniotic fluid)、腺液(glandular fluid)、膵液(pancreatic fluid)、リンパ液(lymph fluid)、胸水(pleural fluid)、乳頭吸引物(nipple aspirate)、気管支吸引物(bronchial aspirate)、滑液(synovial fluid)、関節吸引物(joint aspirate)、臓器分泌物(organ secretions)、細胞(cell)、細胞抽出物(cell extract)、精液、毛髪、唾液、尿、口腔細胞、胎盤細胞、脳脊髄液(cerebrospinal fluid)及びこれらの混合物を含んでもよいが、これらに限定されない。
【0030】
本発明において、前記次世代シークエンサー(next-generation sequencer)は、当業界に公知の任意のシーケンシング法で使用してもよい。選択方法により分離された核酸のシーケンシングは、通常次世代シーケンシング(NGS)を使用して行われる。次世代シーケンシングは、個々の核酸分子または非常に類似した方式で個々の核酸分子に対してクローンで拡張されたプロキシの1つのヌクレオチド配列を決定する任意のシーケンシング法を含む(例えば、105個以上の分子が同時にシーケンシングされる)。一実施態様において、ライブラリ内の核酸種の相対的な存在比は、シーケンシング実験によって作製されたデータにおいて、その同族配列の相対的な発生数を計測することにより推定することができる。次世代シーケンシング法は当業界に公知されており、例えば、本明細書に参照として含まれる文献(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)に記載されている。
【0031】
一実施態様において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる(例えば、Helicos BioSciencesのHeliScope Gene Sequencing systemおよびPacific BiosciencesのPacBio RS system)。他の実施態様において、シーケンシング、例えば、より少ないがより長いリードを生成する他のシーケンシング法よりも、シーケンシング単位当たりの配列のより多くの塩基を生成する大規模並列の短いリードシーケンシング(例えば、カリフォルニア州サンディエゴに所在するIllumina Inc.のSolexa sequencer)法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在するIllumina Inc.のSolexa sequencer;454 Life Sciences(コネチカット州ブランフォードに所在)及びIon Torrent。次世代シーケンシングのための他の方法または機械は、以下に限定されないが、454 Life Sciences(コネチカット州ブランフォードに所在)、Applied Biosystems(カリフォルニア州フォスターシティに所在;SOLiDシークエンサー)、Helicos Biosciences Corporation(マサチューセッツ州ケンブリッジに所在)及びエマルジョンおよびマイクロフローシーケンシング法ナノ点滴(例えば、GnuBio点滴)によって提供される。
【0032】
次世代シーケンシングのためのプラットフォームは、以下に限定されないが、Roche/454のゲノムシークエンサー(Genome Sequencer: GS) FLXシステム、Illumina/Solexaのゲノムアナライザー(Genome Analyzer: GA)、Life/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection: SOLiD)システム、PolonatorのG.007システム、Helicos BioSciencesのHeliScope Gene Sequencing system及びPacific BiosciencesのPacBio RSシステムを含む。
NGS技術は、例えば、鋳型製造、シーケンシングおよびイメージング、およびデータ分析のうち少なくとも1つのステップを含んでもよい。
【0033】
鋳型の製造。鋳型を製造する方法は、核酸(例えば、ゲノムDNAまたはcDNA)を小さなサイズにランダムに破壊するステップおよびシーケンシング鋳型(例えば、フラグメント鋳型またはメイトペア鋳型)を作製するステップなどのステップを含んでもよい。空間的に分離された鋳型は、固体表面または支持体に取り付けられるか、または固定されてもよいが、これは大規模のシーケンシング反応が同時に行われるようにする。NGS反応のために使用できる鋳型のタイプには、例えば、単一のDNA分子から由来するクローンが増幅された鋳型および単一のDNA分子鋳型を含む。
クローンが増幅された鋳型の製造方法は、例えば、エマルジョンPCR(emulsion PCR:emPCR)および固相増幅を含む。
【0034】
EmPCRは、NGSのための鋳型を製造するために使用してもよい。通常、核酸断片のライブラリが作製され、普遍的なプライミング部位を含むアダプターは断片の末端に結紮される。その後、断片は単鎖に変性され、ビーズより捕捉される。各ビーズは単一の核酸分子を捕捉する。増幅およびemPCRビーズの豊富化後、多量の鋳型が取り付けらてもよく、標準顕微鏡スライド(例えば、花粉媒介者(Polonator))上のポリアクリルアミドゲルに固定され、アミノコーティングされたガラス表面(例えば、Life/APG; 花粉媒介者(Polonator))に化学的に架橋されるか、または個々のピコタイタープレート(PicoTiterPlate:PTP)ウェル(例えば、Roche/454)上に堆積されるが、この時にNGS反応を行ってもよい。
【0035】
固相増幅もNGS用の鋳型を作成するために使用してもよい。通常、前方及び後方プライマーは固体支持体に共有結合される。増幅された断片の表面密度は、支持体上のプライマーと鋳型の比として定義される。固相増幅は、数百万個の空間的に分離された鋳型クラスター(例えば、Illumina/Solexa)を生成することができる。鋳型クラスターの末端は、NGS反応用の普遍的なプライマーに混成化することができる。
【0036】
クローンで増幅された鋳型の製造のための他の方法は、例えば、多重置換増幅(Multiple Displacement Amplification: MDA)(Lasken R. S. Curr Opin Microbiol:510-6)が挙げられる。MDAは非PCRベースのDNA増幅法である。反応は、鋳型に対してランダムなヘキサマープライマーをアニーリングするステップ及び一定の温度で高忠実度の酵素、通常Ф29によってDNAを合成するステップを伴う。MDAは、より低い誤差頻度で巨大なサイズの生成物を作ることができる。
【0037】
PCRのような鋳型増幅方法は、標的にNGSプラットフォームを結合させることができ、またはゲノムの特異的領域を豊富化することができる(例えば、エクソン)。代表的な鋳型豊富化方法は、例えばマイクロ点滴PCR法(Tewhey R. et al、Nature Biotech. 2009, 27:1025-1031)、カスタム設計されたオリゴヌクレオチドマイクロアレイ(例えば、Roche/NimbleGen)オリゴヌクレオチドマイクロアレイ)及び溶液ベース混成化方法 (例えば、分子反転プローブ(molecular inversion probe: MIP))(Porreca G. J. et al、Nature Methods, 2007, 4:931-936; Krishnakumar S. et al.USA, 2008, 105:9296-9310; Turner E. H. et al., Nature Methods, 2009, 6:315-316)およびビオチン化RNA捕捉配列(Gnirke A. et al:182-9)が挙げられる。
【0038】
単分子鋳型は、NGS反応のために使用できる別のタイプの鋳型である。空間的に分離された単分子鋳型は、様々な方法により固体支持体上に固定されてもよい。1つのアプローチでは、個々のプライマー分子は固体支持体に共有結合される。アダプターは鋳型に添加され、鋳型は次に固定されたプライマーに混成化される。別のアプローチでは、単分子鋳型は固定されたプライマーから単鎖の単分子鋳型をプライミングし、延長することによって固体支持体に共有結合される。それから普遍的なプライマーは鋳型に混成化される。別のアプローチでは、単一のポリメラーゼ分子は、プライミングされた鋳型が結合された固体支持体に取り付けられる。
【0039】
シーケンシング及びイメージング。NGSのための代表的なシーケンシングおよびイメージング方法は、以下に限定されないが、サイクリックリバーシブルターミネーション(cyclic reversible termination: CRT)、結紮によるシーケンシング(sequencing by ligation: SBL)、単分子付加(パイロシーケンシング(pyrosequencing))およびリアルタイムシーケンシングを含む。
【0040】
CRTは、ヌクレオチド包含、蛍光イメージング及び切断ステップを最小限に含むサイクリック法で可逆的なターミネーターを使用する。通常、DNAポリメラーゼはプライマーに、鋳型塩基の相補的なヌクレオチドに対して相補的な単一の蛍光に変形されたヌクレオチドを含ませる。DNA合成は単一のヌクレオチドの添加後に終了し、未含有ヌクレオチドは洗浄される。含まれる標識ヌクレオチドの同一性を決定するためにイメージングが行われる。その後、切断ステップで、終結/抑制剤及び蛍光染料を除去される。CRT法を使用する代表的なNGSプラットフォームは、以下に限定されないが、全体の内部反射蛍光(total internal reflection fluorescence:TIRF)によって検出された4色CRT法と結合されたクローンで増幅された鋳型法を使用するIllumina/Solexaゲノムアナライザー(GA)、およびTIRFによって検出された1色CRT法と結合された単分子鋳型法を使用するHelicos BioSciences/HeliScopeが含まれる。
SBLはシーケンシングのために、DNAリガーゼ及び1塩基暗号化されたプローブまたは2塩基暗号化されたプローブのいずれかを使用する。
【0041】
通常、蛍光標識されたプローブは、プライミングされた鋳型に隣接する相補的な配列に混成化する。DNAリガーゼは、プライマーに染料標識されたプローブを結紮させるために使用される。非結紮プローブを洗浄した後、結紮されたプローブの同一性を決定するために蛍光イメージングが行われる。蛍光染料は、後続の結紮サイクルのために5'-PO4基を再生する切断可能なプローブを使用して除去されてもよい。あるいは、古いプライマーを除去した後、新しいプライマーを鋳型に混成化させてもよい。代表的なSBLプラットフォームは、以下に限定されないが、Life/APG/SOLiD(支持体オリゴヌクレオチド結紮検出)を含むが、これは2塩基暗号化されたプローブを使用する。
【0042】
パイロシーケンシング法は、異なる化学発光酵素でDNAポリメラーゼの活性を検出するステップに基づく。通常、この方法は、一度に1つの塩基対に沿って相補的な鎖を合成し、各ステップで実際に添加された塩基を検出することにより、DNAの単鎖をシーケンシングする。鋳型DNAは固定的であり、A、C、G、およびTヌクレオチドの溶液は順次添加され、反応から除去される。光は、ヌクレオチド溶液が鋳型の対になっていない塩基を補充するときにのみ生成される。化学発光信号を生成する溶液の配列は、鋳型の配列を決定することになる。代表的なパイロシーケンシングプラットフォームは、以下に限定されないが、PTPウェルに蒸着された100万~2百万個のビーズによるemPCRによって製造されたDNA鋳型を使用するRoche/454を含む。
【0043】
リアルタイムシーケンシングは、DNA合成中に色素標識されたヌクレオチドが連続的に含まれることをイメージングするステップを伴う。代表的なリアルタイムシーケンシングプラットフォームは、以下に限定されないが、リン酸結合されたヌクレオチドが成長するプライマー鎖に含まれるときに配列情報を得るための個々の0モード導波ガイド(ZMW)検出器の表面に取り付けられたDNAポリメラーゼ分子を使用するパシフィックバイオサイエンス(Pacific Biosciences)プラットフォーム、蛍光共鳴エネルギー伝達(fluorescence resonance energy transfer、FRET)によるヌクレオチドを含んだ後、向上された信号を作製するために、取り付けられた蛍光染料と共に遺伝子組み換えDNAポリメラーゼを使用するLife/VisiGenプラットフォーム;及びシーケンシング反応で染料クエンチャーヌクレオチドを使用するLI-COR Biosciencesのプラットフォームを含む。
【0044】
NGSの他のシーケンシング法は、以下に限定されないが、ナノポアシーケンシング、混成化によるシーケンシング、ナノトランジスタアレイベースのシーケンシング、ポロニー(polony)シーケンシング、走査型電子トンネル顕微鏡(scanning tunneling microscopy, STM)ベースのシーケンシング、およびナノワイヤ分子センサーベースのシーケンシングが含まれる。
【0045】
ナノポアシーケンシングは、単一核酸ポリマーで分析できる高度に密閉された空間を提供するナノスケールのポアを通して溶液中の核酸分子の電気泳動を伴う。ナノポアシーケンシングの代表的な方法は、例えば文献[Branton D. et al., Nat Biotechnol. 2008; 26(10): 1146-53]に記載されている。
【0046】
混成化によるシーケンシングは、DNAマイクロアレイを使用する非酵素的な方法である。通常、DNAの単一のプールは蛍光で標識され、公知の配列を含むアレイに混成化される。混成化信号はアレイ上の所定の点滴からDNA配列を確認することができる。DNA二本鎖においてDNA中の単鎖のそれの相補的な鎖への結合は、混成体領域が短いか、あるいは具体化されたミスマッチ検出タンパク質が存在する場合、単一塩基のミスマッチに対しても敏感である。混成化によるシーケンシングの代表的な方法は、例えば、文献(Hanna G.J. et al. J. Clin.Microbiol. 2000; 38(7):2715-21; およびEdwards J.R. et al.2005; 573(1-2):3-12)に記載されている。
【0047】
ポロニーシーケンシングは、ポロニー増幅と多重単一塩基延長(FISSEQ)によるシーケンシングに基づく。ポロニー増幅はポリアクリルアミドフィルム上にてインサイチュ(in situ)でDNAを増幅させる方法である。代表的なポロニーシーケンシング法は、例えば、米国特許出願公開第2007/0087362号に記載されている。
【0048】
カーボンナノチューブ電界効果トランジスタ(Carbon NanoTube Field Effect Transistor:CNTFET)などのナノトランジスタアレイベースのデバイスもNGSに使用できる。例えば、DNA分子を伸ばし、マイクロ加工された電極によってナノチューブをかけて駆動する。DNA分子はカーボンナノチューブの表面と順次接触し、DNA分子とナノチューブの間の電荷伝達により、各塩基からの電流の流れの違いが生じる。DNAはこれらの違いを記録することでシーケンシングされる。代表的なナノトランジスタアレイベースのシーケンシング法は、例えば米国特許公開第2006/0246497号に記載されている。
【0049】
走査型電子トンネル顕微鏡(STM)は、NGSにも使用できる。STMは、試料のラスター走査(raster scan)を行うピエゾ電子制御プローブを使用して試料表面の画像を形成する。STMは、例えば、アクチュエータ駆動の可撓性ギャップと走査型電子トンネル顕微鏡を統合することにより、一貫した電子トンネルイメージング及び分光学を生ずる単一のDNA分子の物理的特性をイメージングするために使用されてもよい。STMを使用する代表的なシーケンシング法は、例えば米国特許出願公開第2007/0194225号に記載されている。
【0050】
ナノワイヤ分子センサーからなる分子分析装置もNGSに使用してもよい。このようなデバイスは、DNAなどのナノワイヤと核酸分子に配置された窒素性物質の相互作用を検出することができる。分子ガイドは、相互作用と後続の検出を許容するために、分子センサーの近くの分子をガイドするために配置される。ナノワイヤ分子センサーを使用する代表的なシーケンシング法は、例えば米国特許出願公開第2006/0275779号に記載されている。
【0051】
NGSのために、二重末端のシーケンシング法を使用してもよい。二重末端シーケンシングは、DNAのセンスおよびアンチセンス鎖の両方をシーケンシングするために、遮断および非遮断プライマーを使用する。通常、これらの方法は、核酸の第1の鎖に未遮断プライマーをアニーリングするステップ;核酸の第2の鎖に第2の遮断プライマーをアニーリングするステップ;ポリメラーゼで第1の鎖に沿って核酸を伸長させるステップ;第1のシーケンシングプライマーを終結させるステップ;第2のプライマーをデ遮断解除(deblocking)するステップ;および第2の鎖に沿って核酸を伸長させるステップを含む。代表的な二本鎖シーケンシング法は、例えば米国特許第7,244,567号に記載されている。
【0052】
NGSリードが作製された後、それらは公知の基準配列に対して整列またはデノボ(de novo)組立される。例えば、サンプル(例えば、腫瘍サンプル)における単一ヌクレオチド多型性及び構造的変異などの遺伝的変異を確認することは基準配列(例えば、野生型配列)に対してNGSリードを整列することによって行ってもよい。NGSの配列整列方法は、例えば文献(Trapnell C. and Salzberg S.L. Nature Biotech., 2009, 27:455-457])に記載されている。
【0053】
デノボ組立体の例は、例えば、文献(Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; and Zerbino D.R. and Birney E., Genome Res., 2008, 18:821-829)に記載されている。
【0054】
配列整列またはアセンブリは、1つ以上のNGSプラットフォームからのリードデータを使用して、例えばRoche/454およびIllumina/Solexaリードデータを混合して行ってもよい。本発明において、前記整列ステップは、これに限定されないが、BWAアルゴリズム及びhg19配列を用いて行われるものであってもよい。
【0055】
本発明において、前記ステップ(b)の配列整列は、コンピュータアルゴリズムとして、ゲノム内のリード配列(例えば、次世代シーケンシングからの、例えば短いリード配列)が、ほとんどリード配列と基準配列の間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的方法またはアプローチを含む。様々なアルゴリズムが配列整列問題に適用できる。一部のアルゴリズムは比較的遅いものの、比較的高い特異性を許容する。これらは、例えば、動的プログラミングに基づくアルゴリズムが含む。動的プログラミングは、複雑な問題をより単純なステップに分割して解決する方法である。他のアプローチは比較的効率的ですが、一般的に徹底的ではない。これは、例えば、大規模データベース検索用に設計されたヒューリスティック(heuristic)アルゴリズム及び確率的(probabilistic)方法が挙げられる。
【0056】
通常、整列過程には2つのステップがあってもよい:候補者検査及び配列整列。候補者検査は、可能な整列位置のより短い列挙に対して、全体のゲノムから配列整列のための検索空間を減少させる。用語が示唆するように、配列整列は、候補者検査ステップで提供された配列を持つ配列を整列するステップを含む。これは、広域整列(例えば、Needleman-Wunsch整列)または局所整列(例えば、Smith-Waterman整列)を使用して行ってもよい。
【0057】
ほとんどの属性整列アルゴリズムは、インデックス方式に基づく3つのタイプのいずれかを特徴とすることができる:ハッシュテーブル(例:BLAST、ELAND、SOAP)、接尾辞木(例:Bowtie、BWA)およびマージソート(例:スライダー(Slider))に基づくアルゴリズム。短いリード配列は、通常、整列に使用される。短いリード配列に対する配列整列アルゴリズム/プログラムの例としては、以下に限定されないが、BFAST (Homer N. et al., PLoS One.2009; 4(11): e7767)、BLASTN(World Wide Web上のblast.ncbi.nlm.nih.govより)、BLAT(Kent W.J. Genome Res.2002;12(4):656-64)、Bowtie (Langmead B. et al., Genome Biol. 2009;10(3):R25)、BWA (Li H. and Durbin R. Bioinformatics, 2009, 25:1754-60)、BWA-SW (Li H. and Durbin R. Bioinformatics, 2010;26(5):589-95)、CloudBurst(Schatz M.C. Bioinformatics.2009;25(11):1363-9)、Corona Lite(Applied Biosystems, Carlsbad, California, USA)、CASHX(Fahlgren N. et al., RNA, 2009; 15, 992-1002)、CUDA-EC (Shi H. et al、J Comput Biol. 2010;17(4):603-15)、ELAND(World Wide Web上のbioit.dbi.udel.edu/howto/elandより)、GNUMAP(Clement N.L. et al.2010;26(1):38-45)、GMAP(Wu T.D. and Watanabe C.K. Bioinformatics.2005;21(9):1859-75)、GSNAP(Wu T.D. and Nacu S., Bioinformatics.2010;26(7):873-81)、Geneious Assembler(ニュージーランドオークランドに所在するBiomatters Ltd.)、LAST, MAQ(Li H. et al., Genome Res.2008;18(11):1851-8)、Mega-BLAST(World Wide Web上のncbi.nlm.nih.gov/blast/megablast.shtmlより)、MOM(Eaves H.L. and Gao Y. Bioinformatics.2009;25(7):969-70)、MOSAIK(World Wide Web 上のbioinformatics.bc.edu/marthlab/Mosaik より)、Novoalign(World Wide Web 上の novocraft.com/main/index.php より)、PALMapper(World Wide Web 上の fml.tuebingen.mpg.de/raetsch/suppl/palmapperより)、PASS(Campagna D. et al, Bioinformatics.2009;25(7):967-8)、PatMaN(Prufer K. et al.2008; 24(13):1530-1)、PerM(Chen Y. et al., Bioinformatics, 2009, 25 (19):2514-2521)、ProbeMatch(Kim Y.J. et al.2009;25(11):1424-5)、QPalma(de Bona F. et al., Bioinformatics, 2008, 24(16):i174)、RazerS(Weese D. et al., Genome Research, 2009, 19:1646-1654)、RMAP(Smith A.D. et al., Bioinformatics.2009;25(21):2841-2)、SeqMap(Jiang H. et al. Bioinformatics. 2008;24:2395-2396.)、Shrec(Salmela L., Bioinformatics.2010;26(10):1284-90)、SHRiMP(Rumble S.M. et al., PLoS Comput. Biol., 2009, 5(5):e1000386)、SLIDER(Malhis N. et al., Bioinformatics, 2009, 25 (1):6-13)、SLIM Search(Muller T. et al., Bioinformatics. 2001;17 Suppl 1:S182-9)、SOAP(Li R. et al., Bioinformatics.2008;24(5):713-4)、SOAP2(Li R. et al., Bioinformatics.2009;25(15):1966-7)、SOCS(Ondov B.D.ら, Bioinformatics, 2008; 24(23):2776-7)、SSAHA(Ning Z.et al.2001;11(10):1725-9)、SSAHA2(Ning Z. et al.et al.2001;11(10):1725-9)、Stampy(Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print)、Taipan(World Wide Web上のtaipan.sourceforge.netより)、UGENE(World Wide Web上のugene.unipro.ru)、XpressAlign(World Wide Web上のbcgsc.ca/platform/bioinfo/software/XpressAlignより)、及びZOOM(カナダオンタリオ州ウォータールーに所在するBioinformatics Solutions Inc.)を含む。
【0058】
配列整列アルゴリズムは、例えば、シーケンシング法、リードの長さ、リードの数、入手可能な計算データ及び敏感性/スコアリング要件などの複数の要因に基づいて選択してもよい。異なる配列整列アルゴリズムは、異なる速度レベル、整列敏感性、および整列特異性を達成することができる。整列特異性とは、予測された整列と比較して、正確に整列された通常のサブミッションに見られるように整列された標的配列残基の割合を指す。整列敏感性とは、また、サブミッションで正確に整列された、通常予測された整列に見られるように整列された標的配列残基のの割合を指す。
【0059】
整列アルゴリズム、例えばELANDやSOAPは、速度が第一の要素である場合、基準ゲノムに対して短いリード(例えば、Illumina/Solexaシークエンサー製)を整列する目的で使用してもよい。BLASTやMega-BLASTのような整列アルゴリズムは、特異性が最も重要な要素である場合、これらの方法は比較的遅いものの、短いリード(例えば、RocheFLX製)を使用して類似性を調べる目的で使用してもよい。MAQやNovoalignなどの整列アルゴリズムは、品質スコアを考慮するため、精度が重要な場合、シングルエンドまたはペアエンドのデータに対して使用してもよい(例えば、高速かつ大規模SNP検索において)。BowtieやBWAなどの整列アルゴリズムは、ブロックソート(Burrows-Wheeler Transform:BWT)を使用するため、比較的小さなメモリフットプリントを必要とする。BFAST、Perm、SHRiMP、SOCS、ZOOMなどの整列アルゴリズムは、色空間リードをマッピングするため、ABIのSOLiDプラットフォームと共に使用してもよい。一部のアプリケーションでは、2つ以上の整列アルゴリズムの結果を組み合わせてもよい。
【0060】
本発明において、前記(b)ステップの配列情報(reads)の長さは、5~5000 bpであり、使用する配列情報の数は5千~500万個になってもよいが、これに限定されない。
【0061】
本発明において、前記(c)ステップの核酸断片の末端配列モチーフは、核酸断片の両末端の2~30個の塩基配列のパターンであることを特徴とすることができる。
すなわち、下記のようにペアエンドシーケンシングにより配列分析された核酸断片がある場合、
Forward strand:5`-TACAGACTTTGGAAT-3` (配列番号1)
Reverse strand:3`-ATGACTGAAACCTTA-5` (配列番号2)
Forward strand 5`末端から順に読んだTACAと、Reverse strand 5`末端から順に読んだATTCがこの核酸断片の末端配列モチーフ値となる。
【0062】
本発明において、前記(c)ステップの核酸断片の末端配列モチーフの頻度は、全体の核酸断片から検出されたそれぞれのモチーフ数であることを特徴とすることができる。
【0063】
すなわち、核酸断片の末端配列モチーフを両末端の4つの塩基に基づいて分析する場合(4-mer motif)、1、2、3、4番目の位置にそれぞれA、T、G、Cの4種類の塩基の組み合わせが可能であるため、合計256種(4*4*4*4)の組み合わせのモチーフ値が分析対象となる。
【0064】
シーケンシングで生成された全体の核酸断片で各モチーフが観察される数をカウントしたものがモチーフ頻度であり、この値を生成された全体の核酸断片数で割って起算した値が各モチーフの相対頻度(relative frequency)である。
【0065】
【表1】
【0066】
前記表1に記載されたように、全体の核酸断片の数が126,430,124個であり、AAAAが核酸断片の末端配列モチーフとして分析される核酸断片の数が125,071個なので、AAAA核酸断片の末端配列モチーフの頻度は125,071となり、これを全体の核酸断片数で割って計算した核酸断片の末端配列モチーフの相対頻度は0.00099となる。
本発明において、前記(c)ステップの核酸断片のサイズは、核酸断片の5'末端から3'末端までの塩基数であることを特徴とすることができる。
例えば、前記配列番号1および2で分析される核酸断片のサイズは15である。
【0067】
本発明において、前記核酸断片のサイズは、1~10000であってもよく、好ましくは10~1000であってもよく、さらに好ましくは50~500であってもよく、最も好ましくは90~250であってもよいが、これに限定されない。
【0068】
本発明において、前記(d)ステップのベクトル化されたデータは、核酸断片の末端配列モチーフの種類をX軸とし、核酸断片のサイズをY軸とすることを特徴とすることができる。
つまり、下記のような核酸断片が1つあると仮定した場合、
Forward strand:5`-TACAGACTAGT … TTGGAAT-3` (配列番号3)
Reverse strand:3`-ATGACTGATCA … AACCTTA-5` (配列番号4)
Fragment Size:176
【0069】
この核酸断片は図4の左側のパネルのような2次元ベクトルで示してもよく、このような過程を全体の核酸断片に拡張して累積すると、図4の右側のパネルのような2次元ベクトルを生成することになる。
【0070】
本発明において、前記ベクトル化されたデータは、核酸断片の末端モチーフ別の頻度の合計及び核酸断片のサイズ別の頻度の合計をさらに含むことを特徴とすることができる。
【0071】
つまり、Fragment Sizeに関係ないFragment End motif別frequency情報を追加するために、列和(column sum)値を図4の2次元ベクトルの一番下に4回追加し、Fragment End motifに関係ないFragment Size情報を追加するために、行和(row sum)値を図4の2次元ベクトルの一番右側に4回追加するEdge Summaryを追加的に実行して、図5の左側のパネルのような2次元ベクトルを生成することである。
【0072】
本発明では、前記2次元ベクトルをFragment End Motif frequency and Size (FEMS) tableと定義した。FEMS tableを視覚化すると、図5の右側のパネル及び図6のように示される。
【0073】
本発明において、ベクトル化されたデータはこれに限定されないが、好ましくは画像化されたことを特徴とすることができる。画像は基本的にピクセルで構成されるが、ピクセルで構成された画像をベクトル化させると、画像の種類によって1次元2Dベクトル(白黒)、3次元2Dベクトル(color(RGB))または4次元2Dベクトル(color(CMYK))で表してもよい。
【0074】
本発明のベクトル化されたデータは、画像に限定されず、例えば、n個の白黒画像複数枚を重ねてn次元の2Dベクトル(Multi-dimensional Vector)を用いて、人工知能モデルの入力データとして使用してもよい。
【0075】
本発明において、前記(c)ステップを行う前に、整列された核酸断片の整列一致度スコア(mapping quality score)を満す核酸断片を別に分類するステップをさらに含むことを特徴とすることができる。
【0076】
本発明において、前記整列一致度スコア(mapping quality score)は、所望の基準によって異なり得るが、好ましくは15~70点、より好ましくは50~70点であってもよく、最も好ましくは60点であってもよい。
【0077】
本発明において、前記(e)ステップの人工知能モデルは、癌種類別の画像を区別できるように学習できるモデルであれば制限なく使用してもよく、好ましくはディープラーニングモデルであることを特徴とすることができる。
【0078】
本発明において、前記人工知能モデルは、人工ニューラルネットワークに基づいてベクトル化されたデータを分析することができる人工ニューラルネットワークアルゴリズムであれば、制限なく用いてもよいが、好ましくは、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)、深層ニューラルネットワーク(Deep Neural Network, DNN)及び循環ニューラルネットワーク(Recurrent Neural Network, RNN)で構成される群から選択されることを特徴としてもよいが、これに限定されない。
【0079】
本発明において、前記循環ニューラルネットワークは、長・短期記憶(Long-short term memory;LSTM)ニューラルネットワーク、ゲート付き回帰型ユニット(Gated Recurrent Unit;GRU)ニューラルネットワーク、バニラ循環ニューラルネットワーク(Vanilla recurrent neural network)及び集中的循環ニューラルネットワーク(attentive recurrent neural network)で構成される群から選択されることを特徴とすることができる。
【0080】
本発明において、前記人工知能モデルがCNNである場合、二項分類を行う損失関数は下記数式1で表されることを特徴としてもよく、マルチクラス分類を行う損失関数は下記数式2で表されることを特徴とすることができる。
【0081】
【数1】
【0082】
【数2】
本発明において、前記二項分類は、人工知能モデルが癌の有無を判定するように学習することを意味し、マルチクラス分類は、人工知能モデルが2つ以上の癌種を判定するように学習することを意味する。
【0083】
本発明において、前記人工知能モデルがCNNである場合、学習は下記ステップを含めて行われることを特徴とすることができる:
i)生産されたベクトルデータをtraining(学習)、validation(検証)、test(性能評価)データに分類するステップ;
この時、TrainingデータはCNNモデルを学習する際に使用され、Validationデータはハイパーパラメータチューニング(hyper-parameter tuning)検証に使用され、Testデータは最適のモデルの生産後、性能評価に使用されることを特徴とする。
ii)ハイパーパラメータチューニング及び学習過程を通じて最適なCNNモデルを構築するステップ;
iii)ハイパーパラメータチューニングを通じて得られた複数のモデルの性能をvalidation dataを用いて比較し、validation dataの性能が最も良いモデルを最適なモデルとして決定するステップ;
本発明において、前記ハイパーパラメータチューニング過程は、CNNモデルを構成する複数のパラメータ(畳み込みレイヤー数、緻密レイヤー数、畳み込みフィルタ数など)の値を最適化する過程で、ハイパーパラメータチューニング過程としては、Bayesian optimization及びgrid search法を使用することを特徴とすることができる。
【0084】
本発明において、前記学習過程は、定められたハイパーパラメータを利用してCNNモデルの内部パラメータ(weights)を最適化させ、トレーニング損失に対してvalidation lossが増加し始めると、モデルが過適合(Overfitting)となったと判断し、その前にモデル学習を中断することを特徴とすることができる。
【0085】
本発明において、前記e)ステップで人工知能モデルが入力されたベクトル化されたデータから分析した結果値は、特定のスコアまたは実数であれば制限なく用いてもよく、好ましくはDPI(Deep Probability Index)値であることを特徴とすることができるが、これに限定されない。
【0086】
本発明において、Deep probability Indexは、人工知能モデルの最後の層に、二項分類の場合はシグモイド関数、マルチクラス分類の場合はソフトマックス関数を使用して人工知能のoutputを0~1スケールで調整して確率値で示した値を意味する。
【0087】
二項分類の場合は、シグモイド関数を用いて、癌の場合はDPI値が1になるように学習する。例えば、乳癌サンプルと正常サンプルが入力されると、乳癌サンプルのDPI値が1に近づくように学習することである。
【0088】
マルチクラス分類の場合には、ソフトマックス関数を用いて、クラス数分のDPI値を抽出する。クラス数分のDPI値の合計は1になり、実際に該当する癌種のDPI値が1になるように学習する。例えば、3つのクラス乳癌、肝癌、正常があり、乳癌サンプルが入ったら、乳癌クラスを1に近づけるように学習することになる。
【0089】
本発明において、前記(e)ステップの出力結果値は、癌種別に導出されることを特徴とすることができる。
【0090】
本発明において、前記人工知能モデルは、学習する際に癌があればoutput結果が1に近く学習し、癌がなければoutput結果が0に近く学習させて、0.5を基準として0.5以上であれば癌があると判断し、0.5以下であれば癌がないと判断してパフォーマンスの測定を行った(Training, validation, test accuracy)。
【0091】
ここで、0.5の基準値はいつでも変えられる値であることは、通常の技術者にとって自明である。例えば、False positive(偽陽性)を減らそうとすれば、0.5より高い基準値を設定し、癌があると判断される基準を厳格に取ることができ、False Negative(偽陰性)を減らそうとすれば、基準値をより低く測定して、癌があると判断される基準を少し弱く取ることができる。
【0092】
最も好ましくは、学習された人工知能モデルを用いてunseen data(学習にtrainingしていない答えを知っているデータ)を適用させて、DPI値の確率を確認して基準値を決定することができる。
【0093】
本発明において、前記(f)ステップの出力結果値の比較により癌種を予測するステップは、出力結果値のうち、最も高い値を示す癌種をサンプルの癌と判定するステップを含む方法で行うことを特徴とすることができる。
【0094】
本発明は他の観点から、生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;および
整列された配列基盤の核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを導出する核酸断片分析部;
導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いたベクトル化されたデータを生成するデータ生成部;
生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較して癌の有無を判定する癌診断部;および
出力された結果値を分析して癌種を予測する癌種予測部を含む癌診断及び癌種予測装置に関する。
【0095】
本発明において、前記解読部は、独立した装置から抽出された核酸を注入する核酸注入部;および注入された核酸の配列情報を分析する配列情報分析部を含んでもよく、好ましくはNGS分析装置であってもよいが、これに限定されない。
【0096】
本発明において、前記解読部は、独立した装置で生成された配列情報データを受信して解読することを特徴とすることができる。
【0097】
本発明は、他の観点から、コンピュータ読み取り可能な記憶媒体であって、癌診断及び癌種を予測するプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;
(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;
(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ;および
(f)前記出力結果値の比較を通じて癌種を予測するステップを通じて、癌の有無および癌種を予測するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体に関する。
【0098】
他の態様では、本発明による方法は、コンピュータを用いて実現することができる。一実施態様において、コンピュータは、チップセットに連結された1つ以上のプロセッサを含む。また、チップセットには、メモリ、貯蔵装置、キーボード、グラフィックスアダプタ(Graphics Adapter)、ポインティングデバイス(Pointing Device)及びネットワークアダプタ(Network Adapter)などが連結されている。一実施態様において、前記チップセットの性能は、メモリコントローラハブ(Memory Controller Hub)及びI/Oコントローラハブによって可能になる。他の実施態様において、前記メモリは、チップセットの代わりにプロセッサに直接連結して使用してもよい。貯蔵装置は、ハードドライブ、CD-ROM(Compact Disk Read-Only Memory)、DVDまたはその他のメモリ装置を含むデータを維持できる任意の装置である。メモリは、プロセッサによって使用されたデータおよび命令に関与する。前記ポインティングデバイスは、マウス、トラックボール(Track Ball)または他のタイプのポインティングデバイスであってもよく、キーボードと組み合わせて入力データをコンピュータシステムに送信することに使用される。前記グラフィックアダプタは、ディスプレイ上で画像及びその他の情報を示す。前記ネットワークアダプタは、近距離または長距離通信網によりコンピュータシステムと連結される。本願に使用されるコンピュータは、しかしながら、前記のような構成に限定されず、一部の構成がないか、または追加の構成を含んでもよく、また、貯蔵装置領域ネットワーク(SAN、Storage Area Network)の一部であってもよく、本願のコンピュータは、本願による方法の実行のためのプログラムにモジュールの実行に適するように構成されてもよい。
【0099】
本願におけるモジュールとは、本願による技術的思想を行うためのハードウェア及び前記ハードウェアを駆動するためのソフトウェアの機能的、構造的結合を意味する場合もある。例えば、前記モジュールは所定のコードと前記所定のコードが行われるためのハードウェアリソース(Resource)の論理的な単位を意味する場合もあり、必ずしも物理的に連結されたコードを意味するか、一種類のハードウェアを意味するものではないことは、本願の技術分野における当業者にとって自明である。
【0100】
本発明は他の観点から、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)を用いて核酸断片(fragments)の末端配列モチーフの頻度及び核酸断片のサイズを導出するステップ;
(d)前記導出された核酸断片の末端配列モチーフの頻度及び核酸断片のサイズを用いてベクトル化されたデータを生成するステップ;
(e)生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較して癌の有無を判定するステップ; および
(f)前記出力結果値の比較を通じて癌種を予測するステップを含む癌診断及び癌種予測方法に関する。
【実施例
【0101】
以下、実施例により本発明をさらに詳細に説明する。これらの実施例は、もっぱら本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって限定されるものと解釈されないことは当業界における通常の知識を有する者にとって自明であろう。
【0102】
実施例1.血液からDNAを抽出し、次世代シーケンシング分析実現。
健康人349人、肝癌患者51人及び食道癌患者108人の血液を10mLずつ採取してEDTA Tubeに保管し、採取後2時間以内に1200g、4℃、15分の条件で血漿部分だけを1次遠心分離した後、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離して沈殿物を除いた血漿上層液を分離した。分離された血漿に対してTiangenmicro DNA kit (Tiangen)を使用してcell-free DNAを抽出し、MGIEasy cell-free DNA library prep set kitを使用してライブラリ調製(library preparation)過程を行った後、DNBseq G400 装備(MGI)を100 base Paired endモードでシーケンシングした。その結果、サンプル当たり約1憶7千万個のリードが生成されることを確認した。
【0103】
実施例2.核酸断片の末端モチーフおよび核酸断片のサイズの選別
2-1.核酸断片の末端モチーフの選別
核酸断片の末端モチーフを4つの塩基(A, T, G, C)に設定し、全256種(4*4*4*4)のモチーフの中には、Normal / HCC / ECグループで相対頻度の差がないモチーフがある。このような差がないモチーフを含めてFEMS tableを生成する場合、分類のための意味のある情報は与えられず、モデルの演算量だけを増やすノイズになる。したがって、このような意味のないモチーフを除外するために、3つのグループで相対頻度の差が有意に存在した特定のモチーフだけを選別した。
【0104】
また、サイズ、モチーフの選別過程でモデルの過適合(Overfitting)問題が発生することを防ぐため、サイズ、モチーフの選別過程にはTraining setのみを使用する。
すなわち、実施例1で生成したNGSデータを用いて、核酸断片の末端モチーフを4つの塩基(A、T、G、C)に設定し、全256種(4*4*4*4)のモチーフのうち、健康人(Normal)、肝癌(HCC)、食道癌(EC)患者のグループ間で統計的に有意なレベルの(Kruskal-wallis Test, FDR-adjust p<0.05)相対頻度(relative frequency)差を示す一部のモチーフを選別した(図2)。
【0105】
また、前記過程で選別したモチーフのうち、オーバーフィッティングを防ぐために、健康人グループでの平均頻度(frequency)がランダムベースライン(random baseline)(1/256, 0.004)より高いモチーフをさらに選別した。
その結果、合計84個のモチーフを選定し、詳細なモチーフ情報は以下の通りである:
CTGG, ACTT, CCTA, TGGA, TGGG, CAGG, TATA, CCTT, CAGC, TAGA, AGAA, AGAG, CATA, CAGT, CAGA, ACCT, CTGT, ACAT, GCTT, GCTA, TCAG, CTTA, GGCC, ATTT, CCCA, TATC, CCTG, TCTA, GCCT, ACTG, TGAG, GGTA, CATT, TATT, CCAT, CCTC, CCAA, CTTT, TAAG, GCTG, CCCT, TGAA, ACCA, GTTT, TGTA, CTCA, GCCA, TATG, GCAT, AAAG, AAAA, GGCT, TGAC, AGCA, TCTT, CTGA, CATC, ACAA, GACA, AACA, CCCC, CACT, GGAG, GGCA, TCAA, CAAG, TAAA, AAAT, TGCC, GGTT, GGGA, CCAC, TGTG, CATG, TGCA, GAAT, TGTC, TGCT, CAAT, GGAA, AGTG, TACT, CACA, TCCC
【0106】
2-2.核酸断片のサイズ選別
核酸断片のサイズ選別の場合には、品質確認が終わった核酸断片は、ほとんど図3に記載されているように、90~250の範囲のサイズを有するので、このサイズ範囲を外れた領域を含めてFEMS tableを生成する場合、ほとんどの領域が0値で満たされ、意味のないノイズだけが増加することになるので、前記サイズを選別した。
【0107】
実施例3.Fragment End Motif frequency and Size(FEMS)tableの生成
実施例2で選別した核酸断片のFragment End Motif frequency値とサイズ情報を同時に表現できるように、X軸にはモチーフの種類を、Y軸にはFragment Sizeを配置して2次元のベクトルを生成した。より具体的には、図4の左側のパネルに記載されたように、1つの核酸断片に対して、両末端の核酸モチーフの種類とサイズを頻度数で表現し、これを全体の核酸断片に拡張させて累積し、図4に記載されたような2次元ベクトルを生成した。
【0108】
また、Fragment Sizeに関係ないFragment End Motif別frequency情報を追加するために、列和(column sum)値を前記2次元ベクトルの一番下に4回追加し、Fragment End Motifに関係ないFragment Size情報を追加するために、行和(row sum)値を前記2次元ベクトルの一番右側に4回追加するEdge Summaryステップを行い、最終的に図5に記載されたような2次元ベクトルを生成した。この2次元ベクトルをFragment End Motif frequency and Size (FEMS) tableと定義し、これを視覚化した例は図5に記載された通りである。
【0109】
実施例3.CNNモデル構築及び学習過程
FEMS table 2次元ベクトルを入力として、健康人、肝癌患者、食道癌患者を区別するCNN人工知能モデルを学習した。
全サンプルをTraining、Validation、Testデータセットに分け、Trainingデータセットはモデル学習に、Validationデータセットはハイパーパラメータチューニングに、Testデータセットは最終モデルの性能評価に使用した。各セット別のサンプル数は以下の通りである。
【0110】
【表2】
【0111】
CNN モデルの基本的な構成は図 9 の通りである。活性関数は ReLU (RectifiedLinearunit)を使用し、畳み込みレイヤー(convolution layer)は 1 つ使用し、5 つの 10*10パッチを使用した。プーリング方式は max を利用し、2x2 パッチを利用した。全結合レイヤー(Fully connected layer)は1つ使用し、512個の非表示ノード(hidden node)が含まれている。最後にソフトマックス関数値を用いて最終DPI値を計算した。
【0112】
ハイパーパラメータチューニング過程は、CNNモデルを構成する複数のパラメータ(畳み込みレイヤー数、緻密レイヤー数、畳み込みフィルタ数など)の値を最適化する過程で、ハイパーパラメータチューニング過程にはBayesian optimization及びgrid search法を使用し、Training lossに対してvalidation lossが増加し始めると、モデルが過適合(Overfitting)となったと判断され、モデル学習を中断した。
【0113】
ハイパーパラメータチューニングを通じて得られた複数のモデルの性能を、Validationデータセットを用いて比較した後、Validationデータセットの性能が最も良いモデルを最適なモデルと判断し、テストデータセットで最終性能評価を行った。
【0114】
前記の過程を経て作製されたモデルに任意のサンプルのFEMS table 2次元ベクトルを入れると、CNNモデルの最後の層であるソフトマックス関数を通じて、該サンプルの健康人である確率、肝癌患者である確率、食道癌患者である確率がそれぞれ計算され、この確率値をDeep Probability Index (DPI)と定義した。
【0115】
任意のサンプルは、3種類のDPI値のうち最も高い値を持つグループと判断する。例えば、任意のサンプルで計算された健康人、肝癌患者、食道癌患者のDPI値がそれぞれ0.6、0.3、0.1であった場合、このサンプルは健康人と判断する。
【0116】
実施例4.構築したディープラーニングモデルの性能確認
4-1.性能確認
実施例3で構築したディープラーニングモデルで出力したDPI値の性能をテストした。すべてのサンプルはTrain、Validation、Testグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作製したモデルの性能を確認した。
【0117】
【表3】
【0118】
その結果、表3及び図7に記載されているように、AccuracyはTrain、Valid、Testグループでそれぞれ91.3%、92.7%、89.5%であることを確認し、Multi-class ROC分析結果であるmicro AUC値はTrain、Valid、Testグループでそれぞれ0.991、0.990、0.955と確認した。図7の(A)はTrain、Validation、TestグループでCNNモデルの性能をAccuracyとmicroAUCで確認したものであり、図7の(B)はTrain、Validation、TestグループでCNNモデルの性能を混同行列(confusion matrix)で確認したものである。
【0119】
4-2. DPI分布の確認
実施例3で構築したディープラーニングモデルの出力値であるDPI値が実際の患者とどれだけ一致するかを確認した。図8のX軸は、実際のサンプルのグループ(True label)情報を示し、Y軸は、左から順にCNNモデルで計算された健康人(Normal)、肝癌患者(HCC)、食道癌患者(EC)のDPI値を示す。
【0120】
その結果、図8に記載されたように、DPI分布はTrain、Validation、Testデータセットの全てにおいて健康人サンプルは健康人である確率が最も高く分布することを確認し、肝癌患者サンプルは肝癌患者である確率が最も高いことを確認し、食道癌患者サンプルは食道癌患者である確率が最も高く分布することを確認した。
【0121】
以上、本発明の内容の特定の部分を詳細に説明したが、当業界における通常の知識を有する者にとって、これらの具体的な技術は単なる好ましい実施態様に過ぎず、これによって本発明の範囲が限定されないことは明らかであろう。したがって、本発明の実質的な範囲は、添付の特許請求の範囲とそれらの等価物によって定義されるといえる。
【産業上の利用可能性】
【0122】
本発明による細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法は、ベクトル化されたデータを生成してAIアルゴリズムを用いて分析するため、リードカバレッジが低くても高い敏感度と精度を示し、有用である。
図1
図2
図3
【図
図4
図5
図6
図7
図8
図9
【配列表】
2024522353000001.app
【国際調査報告】