IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ジーシー ゲノム コーポレーションの特許一覧

特表2024-544749細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method for detecting cancer using fragment end sequence frequency and size by position of cell-free nucleic acid}
<>
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図1
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図2
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図3
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図4
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図5
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図6
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図7
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図8
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図9
  • 特表-細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method  for  detecting  cancer  using  fragment  end  sequence  frequency  and  size  by  position  of  cell-free  nucleic  acid} 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-04
(54)【発明の名称】細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method for detecting cancer using fragment end sequence frequency and size by position of cell-free nucleic acid}
(51)【国際特許分類】
   G16B 40/20 20190101AFI20241127BHJP
   C12Q 1/6886 20180101ALI20241127BHJP
   C12Q 1/6806 20180101ALI20241127BHJP
【FI】
G16B40/20 ZNA
C12Q1/6886 Z
C12Q1/6806 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024526514
(86)(22)【出願日】2022-11-01
(85)【翻訳文提出日】2024-05-17
(86)【国際出願番号】 KR2022016868
(87)【国際公開番号】W WO2023080586
(87)【国際公開日】2023-05-11
(31)【優先権主張番号】10-2021-0149466
(32)【優先日】2021-11-03
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523165307
【氏名又は名称】ジーシー ゲノム コーポレーション
【氏名又は名称原語表記】GC GENOME CORPORATION
(74)【代理人】
【識別番号】100139594
【弁理士】
【氏名又は名称】山口 健次郎
(74)【代理人】
【識別番号】100194973
【弁理士】
【氏名又は名称】尾崎 祐朗
(72)【発明者】
【氏名】チョ ウンヘ
(72)【発明者】
【氏名】イ テリム
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ03
4B063QQ41
4B063QR62
4B063QS36
(57)【要約】
本発明は、細胞遊離核酸断片の末端配列頻度及びサイズを用いたがん診断及びがん種の予測方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を獲得してアラインメントしたリードに基づき、核酸断片の末端配列頻度と核酸断片のサイズを導出した後、これをベクター化されたデータとして生成した後、学習された人工知能モデルに入力して計算された値を分析する方法を用いたがん診断及びがん種の予測方法に関する。本発明による細胞遊離核酸断片の末端配列頻度及びサイズを用いたがん診断及びがん種の予測方法は、ベクター化されたデータを生成し、AIアルゴリズムを用いて分析するため、リードカバレッジが低くても高い敏感度と正確度を示すため、有用である。
【特許請求の範囲】
【請求項1】
以下の段階を含む無細胞核酸を用いたがん診断のための情報の提供方法:
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;
(c)前記アラインメントされた配列情報(reads)を用いて核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び
(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階であって、
前記人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする。
【請求項2】
以下の段階を含む無細胞核酸を用いたがん診断方法:
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;
(c)前記アラインメントされた配列情報(reads)を用いて核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び
(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階であって、
前記人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする。
【請求項3】
前記(a)段階は、以下の段階を含む方法で行われることを特徴とする、請求項1または請求項2に記載の方法:
(a-i)生体試料から核酸を取得する段階;
(a-ii)採取された核酸からソルティング-アウト法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を使用し、タンパク質、脂肪、及びその他の残余物を除去し、精製された核酸を取得する段階;
(a-iii)精製された核酸または酵素的切断、粉砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対し、シングルエンドシーケンス(single-end sequencing)またはペアエンドシーケンス(pair-end sequencing)ライブラリ(library)を作製する段階;
(a-iv)作製されたライブラリを次世代遺伝子配列検査機(next-generation sequencer)に反応させる段階;及び
(a-v)次世代遺伝子配列検査機で核酸の配列情報(reads)を獲得する段階。
【請求項4】
前記(c)段階の核酸断片のサイズは、127~129bp、137~139bp、148~150bp、156~158bp及び181~183bpからなる群から選択されることを特徴とする、請求項1に記載の方法。
【請求項5】
前記(c)段階の核酸断片の位置別配列相対頻度は、同じサイズの核酸断片において、それぞれの位置で検出されるA、T、G、C塩基を有する核酸断片の数を全体の核酸断片数で正規化した値であることを特徴とする、請求項1に記載の方法。
【請求項6】
前記(c)段階の核酸断片の位置は、核酸断片の5'末端において1~10個の塩基であることを特徴とする、請求項5に記載の方法。
【請求項7】
前記(c)段階の核酸断片の位置別配列相対頻度は、核酸断片の位置は、核酸断片の5'末端から1~5個の位置では、A、T、G及びC塩基の頻度であり、6~10個の位置では、A塩基の頻度であることを特徴とする、請求項5に記載の方法。
【請求項8】
前記(c)段階の核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズは、表3に記載されたものから選択されるいずれか一つ以上であることを特徴とする、請求項1に記載の方法。
【請求項9】
前記(d)段階の人工知能モデルは、AdaBoost、Random forest、Catboost、Light Gradient Boosting Model及びXGBoostからなる群から選択されることを特徴とする、請求項1に記載の方法。
【請求項10】
前記人工知能モデルがXGBoostであり、二項分類を学習する場合、損失関数は下記数式1で示されることを特徴とする、請求項9に記載の方法:
【数1】
【請求項11】
前記(d)段階の人工知能モデルが入力された配列相対頻度及びサイズ情報を分析して出力する結果値は、XPI(XGBoost確率指数)値であることを特徴とする、請求項1に記載の方法。
【請求項12】
前記(d)段階の基準値は0.5であり、0.5以上の場合、がんであると判定することを特徴とする、請求項1に記載の方法。
【請求項13】
生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースにアラインメントするアラインメント部;
アラインメントされた配列ベースの核酸断片の位置別配列相対頻度及び核酸断片のサイズを導出する核酸断片分析部;及び
導出された核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報を学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定するがん診断部;
を含むがん診断装置。
【請求項14】
コンピュータ読み取り可能な記憶媒体であり、がん診断のためのプロセッサによって実行されるように構成される命令を含み、前記命令は
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;
(c)前記アラインメントされた配列情報(reads)を用いて、核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び
(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階であって、
前記(d)段階の人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする段階を含む、がん診断のためのプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、細胞遊離核酸断片の位置別配列相対頻度及びサイズを用いたがん診断方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を獲得してアラインメントしたリードに基づき、核酸断片の位置別配列相対頻度と核酸断片のサイズを導出した後、これを学習された人工知能モデルに入力して計算された値を分析する方法を用いたがん診断方法に関する。
【背景技術】
【0002】
臨床でのがん診断は、通常、病歴調査、物理的検査及び臨床的評価後、組織生検(tissue biopsy)を行って確認している。臨床実験によるがん診断は、がん細胞の数が10億個以上で、がんの直径が1cm以上である場合にのみ可能である。この場合、がん細胞は、既に転移能力を有しており、少なくともこれらの半分は既に転移した状態である。また、組織生検は、侵襲的であるため、患者にかなりの不快感を与え、がん患者を治療していると組織生検を行えない場合もしばしばあるという問題点がある。その他に、がんスクリーニングにおいて、がんから直接または間接的に生産される物質をモニタリングするための腫瘍マーカーが使用されているが、がんが存在する場合にも、腫瘍マーカースクリーニングの結果、半分以上が正常と示され、がんがない場合にも、頻繁に陽性と示されるため、その正確性に限界がある。
【0003】
このような通常のがん診断方法の問題点を補完できる比較的簡単で、非侵襲的で、高い敏感度及び特異度を有するがん診断方法の要求により、最近、がんの診断、追跡検査として患者の体液を活用する液体生検(liquid biopsy)が多く用いられている。液体生検は、非侵襲的(non-invasive)な方法で、従来の侵襲的な診断及び検査方法の代案として注目されている診断技術である。
【0004】
最近では、液体生検で獲得した細胞遊離DNA(cell free DNA)を用いて、がん診断及びがん種の鑑別を行う方法が開発されており(US 10975431, Zhou, Xionghui et al., bioRxiv, 2020.07.16.201350)、特に、細胞遊離核酸の末端配列のモチーフ頻度情報を分析し、がん診断、出生前診断または臓器移植モニタリングに用いる方法が知られている(WO 2020-125709, Peiyong Jiang et al., cancer discovery, Vol. 10, 2020, pp. 664-673)。
【0005】
一方、勾配ブースティングアルゴリズム(GBM)は、回帰分析または分類分析を行うことができる予測モデルであり、予測モデルのアンサンブル方法論のうち、ブースティング系列に属するアルゴリズムである。勾配ブースティングアルゴリズムは、表形式データ(エクセルの形態のようにX-Yグリッドになっているデータ)に対する予測で驚異的な性能を示し、機械学習アルゴリズムの中でも最も予測性能が高いと知られているアルゴリズムである。
【0006】
このような勾配ブースティングアルゴリズムを用いて、バイオ分野に活用する様々な文献(Daping Yu et al., Thoracic Cancer Vol. 11, pp. 95-102. 2020, KR 10-2061800, KR 10-2108050, KR 10-2021-0081547)が存在しているが、血液中の無細胞DNA(cell-free DNA, cfDNA)の配列分析情報を基にGBMを通じてがんを診断する方法については、研究が不足しているのが現状である。
【0007】
そこで、本発明者らは、前記問題点を解決し、高い敏感度と正確度の人工知能基盤のがん診断方法を開発するために鋭意努力した結果、無細胞核酸断片の位置別配列相対頻度と核酸断片のサイズ情報を基に最適な配列相対頻度及びサイズの組み合わせを選別し、これを学習された人工知能モデルで分析する場合、高い敏感度と正確度でがん診断を行うことができることを確認し、本発明を完成した。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、細胞遊離核酸断片の位置別配列相対頻度及びサイズを用いたがん診断方法を提供することである。
本発明の他の目的は、細胞遊離核酸断片の位置別配列相対頻度及びサイズを用いたがん診断装置を提供することである。
【0009】
本発明のまた他の目的は、前記の方法でがん診断を行うプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供することである。
【0010】
前記目的を達成するために、本発明は、(a)生体試料から核酸を抽出して配列情報を獲得する段階;(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;(c)前記アラインメントされた配列情報(reads)を用いて核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階において、前記人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする無細胞核酸を用いたがん診断のための情報の提供方法を提供する。
【0011】
本発明はまた、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースにアラインメントするアラインメント部;アラインメントされた配列ベースの核酸断片の位置別配列相対頻度及び核酸断片のサイズを導出する核酸断片分析部;及び導出された核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報を学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定するがん診断部;を含むがん診断装置を提供する。
【0012】
本発明はまた、コンピュータ読み取り可能な記憶媒体として、がん診断のための情報を提供するプロセッサによって実行されるように構成される命令を含み、(a)生体試料から核酸を抽出して配列情報を獲得する段階;(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;(c)前記アラインメントされた配列情報(reads)を用いて核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階において、前記(d)段階の人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする段階を通じ、がん診断のための情報を提供するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供する。
【0013】
本発明はまた、(a)生体試料から核酸を抽出して配列情報を獲得する段階;(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;(c)前記アラインメントされた配列情報(reads)を用いて核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階において、前記人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする無細胞核酸を用いたがん診断方法を提供する。
【図面の簡単な説明】
【0014】
図1】本発明の細胞遊離核酸断片の位置別配列相対頻度及びサイズを用いたがん診断方法を行うための全体のフローチャートである。
図2】本発明の一実施例において、健常者とがん患者との間でサイズ別に相対頻度が統計的に有意に差がある核酸断片サイズを選別する過程の例示である。
図3】本発明の一実施例で確認した核酸断片のサイズ別相対頻度の統計値と選別した核酸断片のサイズ分布を確認したグラフである。
図4】本発明の一実施例で作製したFESSテーブルをヒートマップ形式で視覚化した図である。
図5】左のパネルは、図4の点線で示した部分を拡大したものであり、右の二つのパネルは、位置別塩基配列の相対頻度を統計的に分析した結果である。
図6】本発明の一実施例で選別した核酸断片の位置におけるA、T、G、Cの各塩基配列の相対頻度を計算し、それぞれの塩基配列の間の類似性を統計的に確認した結果である。
図7】(A)は、本発明の一実施例で構築した機械学習モデルの性能を正確度とAUCで確認した結果であり、(B)は、混同行列(confusion matrix)である。
図8】本発明の一実施例で構築した機械学習モデルで予測した健常者及び神経芽細胞腫患者の確率値が実際の患者とどれだけ一致するかを、機械学習モデルが出力したXPI値の分布を通じて確認した結果である。
図9】本発明の一実施例で確認した核酸断片のサイズ別相対頻度の統計値と選別した核酸断片のサイズ分布を互いに異なる位置と塩基で確認したグラフである。
図10】本発明の一実施例で選別したフィーチャーの重要度に応じて少数のフィーチャーで構築した機械学習モデルの性能を確認した結果であり、上のパネルは正確度(Accuracy)であり、下のパネルはAUC(Area Under Curve)である。
【発明を実施するための形態】
【0015】
他に定義されない限り、本明細書で使用された全ての技術的及び科学的用語は、本発明が属する技術分野における熟練した専門家により通常理解されるものと同じ意味を有する。一般的に、本明細書で使用された命名法及び以下に記述する実験方法は、当該技術分野において周知であり、通常使用されるものである。
【0016】
第1、第2、A、B等の用語は、様々な構成要素を説明するために使用することができるが、当該構成要素は、前記用語によって限定されず、単に一つの構成要素を他の構成要素から区別する目的でのみ使用される。例えば、以下に説明する技術の権利範囲を逸脱することなく、第1構成要素は第2構成要素と命名することができ、類似に第2構成要素も第1構成要素と命名することができる。及び/またはという用語は、複数の関連する記載された項目の組み合わせまたは複数の関連する記載された項目のいずれかの項目を含む。
【0017】
本明細書で使用される用語において、単数の表現は、文脈上明らかに異なって解釈されない限り、複数の表現を含むものと理解されるべきであり、「含む」等の用語は、説示された特徴、個数、段階、動作、構成要素、部分品またはこれらを組み合わせたものが存在することを意味するものであり、一つまたはそれ以上の他の特徴や個数、段階動作構成要素、部分品またはこれらを組み合わせたものの存在または付加可能性を排除しないものと理解されるべきである。
【0018】
図面に対する詳細な説明をする前に、本明細書における構成部に対する区分は、各構成部が担当する主機能別に区分したものに過ぎないことを明らかにしようとする。すなわち、以下で説明する二つ以上の構成部が一つの構成部に合わさるか、または一つの構成部がより細分化された機能別に二つ以上に分化されて具備されることもある。そして、以下で説明する構成部それぞれは、自分が担当する主機能以外にも、他の構成部が担当する機能の一部または全ての機能を追加的に行うこともあり、構成部それぞれが担当する主機能の一部機能が他の構成部によって専担されて行われ得ることはもちろんである。
【0019】
また、方法または動作方法を行うにあたり、前記方法を構成する各過程は、文脈上明らかに特定の順序を記載しない以上、明記された順序と異なって行われることがある。すなわち、各過程は、明記された順序と同じく行われることもあり、実質的に同時に行われることもあり、反対の順序で行われることもある。
【0020】
本発明においては、サンプルから獲得した配列分析データを参照遺伝体にアラインメントした後、アラインメントされた配列情報に基づき、核酸断片の位置別配列相対頻度及び核酸断片のサイズを導出し、前記導出された核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報を学習された人工知能モデルに入力した後、XPI値を計算して分析する場合、高い敏感度と正確度でがん診断を行うことができることを確認しようとした。
【0021】
すなわち、本発明の一実施例においては、血液から抽出したDNAをシーケンスした後、参照染色体にアラインメントした後、これを用いて核酸断片の位置別配列相対頻度及び核酸断片のサイズを導出し、最適な核酸断片の位置別配列相対頻度及び核酸断片のサイズの組み合わせを導出した後、これをディープラーニングモデルに学習させてXPI値を計算し、これを基準値と比較してがん診断を行う方法を開発した(図1)。
従って、本発明は、一観点において、
以下の段階を含む無細胞核酸を用いたがん診断のための情報の提供方法に関する:
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;
(c)前記アラインメントされた配列情報(reads)を用いて核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び
(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階において、
前記人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする。
【0022】
本発明において、前記核酸断片は、生体試料から抽出した核酸のかけらであれば、制限なく用いることができ、好ましくは、細胞遊離核酸または細胞内核酸のかけらであってもよいが、これらに限定されない。
【0023】
本発明において、前記核酸断片は、通常の技術者に知られているあらゆる方法で得ることができ、好ましくは、直接配列分析するか、次世代塩基配列分析を通じて配列分析するか、または非特異的全ゲノム増幅(non-specific whole genome amplification)を通じて配列分析して得るか、プローブベースの配列分析を通じて得ることができるが、これらに限定されない。
【0024】
本発明において、前記がんは、固形がんまたは血液がんであり得、好ましくは、非ホジキンリンパ腫(non-Hodgkin lymphoma)、ホジキンリンパ腫(Hodgkin lymphoma)、急性骨髄性白血病(acute-myeloid leukemia)、急性リンパ球性白血病(acute-lymphoid leukemia)、多発性骨髄腫(multiple myeloma)、頸部がん(head and neck cancer)、肺がん、膠芽腫(glioblastoma)、大腸/直腸がん、膵臓がん、乳がん、卵巣がん、黒色腫(melanoma)、前立腺がん、肝臓がん、甲状腺がん、胃がん、胆嚢がん、胆道がん、膀胱がん、小腸がん、子宮頸がん、原発不明がん、腎臓がん、食道がん、神経芽細胞腫及び中皮腫(mesothelioma)からなる群から選択され得、より好ましくは、神経芽細胞腫であり得るが、これらに限定されない。
【0025】
本発明において、
前記(a)段階は、
(a-i)生体試料から核酸を取得する段階;
(a-ii)採取された核酸からソルティング-アウト法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を使用し、タンパク質、脂肪、及びその他の残余物を除去し、精製された核酸を取得する段階;
(a-iii)精製された核酸または酵素的切断、粉砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対し、シングルエンドシーケンス(single-end sequencing)またはペアエンドシーケンス(pair-end sequencing)ライブラリ(library)を作製する段階;
(a-iv)作製されたライブラリを次世代遺伝子配列検査機(next-generation sequencer)に反応させる段階;及び
(a-v)次世代遺伝子配列検査機で核酸の配列情報(reads)を獲得する段階;
を含むことを特徴とすることができる。
【0026】
本発明において、前記(a)段階の配列情報を獲得する段階は、分離された無細胞DNAを1百万~1億リードの深さで全ゲノムシーケンスにより獲得することを特徴とすることができるが、これに限定されない。
【0027】
本発明において、前記生体試料は、個体から得られるか、個体から由来する任意の物質、生物学的体液、組織または細胞を意味するものであり、例えば、全血(whole blood)、白血球(leukocytes)、末梢血単核細胞(peripheral blood mononuclear cells)、白血球軟層(buffy coat)、(血漿(plasma)及び血清(serum)を含む)血液、痰(sputum)、涙(tears)、粘液(mucus)、鼻洗浄液(nasal washes)、 鼻腔吸引物(nasal aspirate)、呼吸(breath)、尿(urine)、精液(semen)、唾液(saliva)、腹腔洗浄液(peritoneal washings)、骨盤内流体液(pelvic fluids)、嚢腫液(cystic fluid)、脳脊髄膜液(meningeal fluid)、羊水(amniotic fluid)、腺液(glandular fluid)、膵液(pancreatic fluid)、リンパ液(lymph fluid)、胸水(pleural fluid)、乳頭吸引物(nipple aspirate)、気管支吸引物(bronchial aspirate)、滑液(synovial fluid)、関節吸引物(joint aspirate)、器官分泌物(organ secretions)、細胞(cell)、細胞抽出物(cell extract)、毛髪、口腔細胞、胎盤細胞、脳脊髄液(cerebrospinal fluid)及びこれらの混合物を含んでもよいが、これらに限定されない。
【0028】
本発明において、用語「参照集団」は、標準塩基配列データベースのように比較することができる基準(reference)集団であり、現在、特定の疾患または病症がない人の集団を意味する。本発明において、前記参照集団の標準染色体の配列データベースにおける標準塩基配列は、NCBI等の公共保健機関に登録されている参照染色体であり得る。
【0029】
本発明において、前記(a)段階の核酸は、無細胞DNAであってもよく、より好ましくは、循環腫瘍細胞DNA(circulating tumor DNA)であってもよいが、これらに限定されない。
【0030】
本発明において、前記次世代遺伝子配列検査機(next-generation sequencer)は、当業界に公知の任意のシーケンス法で使用することができる。選択方法により分離された核酸のシーケンスは、典型的には次世代シーケンス(NGS)を使用して行われる。次世代シーケンスは、個々の核酸分子または高度に類似した方式で、個々の核酸分子に対してクローンで拡張されたプロキシのうち一つのヌクレオチド配列を決定する任意のシーケンス法を含む(例えば、105個以上の分子が同時にシーケンスされる)。一実施態様において、ライブラリ内の核酸種の相対的な存在比は、シーケンス実験によって作製されたデータにおけるその同族配列の相対的な発生数を計測することにより推定することができる。次世代シーケンス法は、当業界に公知であり、例えば、本明細書に参照として含まれる文献(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)に記載される。
【0031】
一実施態様において、次世代シーケンスは、個々の核酸分子のヌクレオチド配列を決定するために行う(例えば、ヘリコスバイオサイエンス(Helicos BioSciences)のヘリスコープ遺伝子シーケンスシステム(HeliScope Gene Sequencing system)及びパシフィックバイオサイエンスのパックバイオアールエスシステム(PacBio RS system))。他の実施態様において、シーケンス、例えば、より少ないがより長いリードを作製する他のシーケンス法よりも、シーケンス単位あたりの配列のより多くの塩基を作製する大量並列のショート-リードシーケンス(例えば、カリフォルニア州サンディエゴに所在するイルミナインコーポレイテッド(Illumina Inc.)ソレクサシーケンサー(Solexa sequencer))方法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在するイルミナインコーポレイテッド(Illumina Inc.)ソレクサシーケンサー(Solexa sequencer);454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)及びアイアントレント(Ion Torrent))。次世代シーケンスのための他の方法または機械は、以下に制限されないが、454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)、アプライドバイオシステムズ(カリフォルニア州フォスターシティに所在;SOLiDシーケンサー)、ヘリコスバイオサイエンスコーポレーション(マサチューセッツ州ケンブリッジに所在)及びエマルジョン及びマイクロ流動シーケンス技法ナノ点滴(例えば、ジヌバイオ(GnuBio)点滴)により提供される。
【0032】
次世代シーケンスのためのプラットフォームは、以下に制限されないが、ロシュ(Roche)/454のゲノムシーケンサー(Genome Sequencer: GS)FLXシステム、イルミナ(Illumina)/ソレクサ(Solexa)のゲノム分析器(Genome Analyzer: GA)、ライフ(Life)/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection: SOLiD)システム、ポロネーター(Polonator)のG.007システム、ヘリコスバイオサイエンスのヘリスコープ遺伝子シーケンスシステム(Helicos BioSciences’ HeliScope Gene Sequencing system)、オックスフォードナノポアテクノロジーズ(Oxford Nanopore Technologies)のPromethION、GriION、MinIONシステム及びパシフィックバイオサイエンス(Pacific Biosciences)のパックバイオアールエス(PacBio RS)システムを含む。
【0033】
本発明において、前記(b)段階の配列アラインメントは、コンピュータアルゴリズムとして、ゲノムにおけるリード配列(例えば、次世代シーケンスからの、例えば、ショート-リード配列)が、ほとんどのリード配列と基準配列との間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的な方法または接近を含む。配列アラインメント問題に様々なアルゴリズムを適用することができる。一部のアルゴリズムは相対的に遅いが、相対的に高い特異性を許容する。これらは、例えば、力動的プログラミング-ベースのアルゴリズムを含む。力動的プログラミングは、それらがより簡単な段階に分けられることにより、複雑な問題を解決する方法である。他の接近は相対的により効率的であるが、典型的に徹底していない。これは、例えば、大量のデータベース検索のために設計されたヒューリスティック(heuristic)アルゴリズム及び確率的(probabilistic)方法を含む。
【0034】
典型的に、アラインメント過程には二つの段階があり得る:候補者検査及び配列アラインメント。候補者検査は、可能なアラインメント位置のより短い列挙に対し、全ゲノムから配列アラインメントのための検索空間を減少させる。用語が示唆するように、配列アラインメントは、候補者検査段階に提供された配列を有する配列をアラインメントさせる段階を含む。これは、広域アラインメント(例えば、ニードルマン-ウンシュ(Needleman-Wunsch)アラインメント)または局所アラインメント(例えば、スミス-ウォーターマンアラインメント)を使用して行うことができる。
【0035】
ほとんどの属性ソートアルゴリズムは、索引方法に基づく三つのタイプのうち一つを特徴とすることができる:ハッシュテーブル(例えば、BLAST、ELAND、SOAP)、接尾辞木(例えば、Bowtie、BWA)、及びマージソート(例えば、スライダー(Slider))に基づくアルゴリズム。ショートリード配列は、アラインメントのために典型的に使用される。
【0036】
本発明において、前記(b)段階のアラインメント段階は、これに制限されないが、BWAアルゴリズム及びHg19配列を用いて行われるものであり得る。
本発明において、前記BWAアルゴリズムは、BWA-ALN、BWA-SWまたはBowtie2等を含むことができるが、これらに限定されない。
【0037】
本発明において、前記(b)段階の配列情報(reads)の長さは、5~5000bpであり、使用する配列情報の数は、5千~500万個となり得るが、これに限定されない。
【0038】
本発明において、前記(c)段階を行う前に、アラインメントされた核酸断片のマッピングクオリティスコア(mapping quality score)が基準値以上のリードを選別する段階をさらに含むことを特徴とすることができ、前記基準値は、アラインメントされた核酸断片のクオリティを確認することができる値であれば、制限なく利用可能であり、好ましくは50~70点、より好ましくは60点であることを特徴とすることができるが、これらに限定されない。
本発明において、前記(c)段階の核酸断片のサイズは、核酸断片の5'末端から3'末端までの塩基個数である。
【0039】
本発明において、前記(c)段階の核酸断片のサイズは、健常者とがん患者を区分することができるサイズであれば、制限なく使用することができ、好ましくは90~250bpであってもよく、より好ましくは127~129bp、137~139bp、148~150bp、156~158bp及び181~183bpからなる群から選択することができるが、これらに限定されない。
【0040】
例えば、下記のようにペア-エンドシーケンスにより配列解析された核酸断片がある時、
順方向ストランド:5'-TACAGACTTTGGAAT-3' (配列番号1)
逆方向ストランド:3'-ATGACTGAAACCTTA-5' (配列番号2)
順方向ストランド5'末端から3'末端までの塩基個数である15が前記核酸断片のサイズ値となる。
【0041】
本発明において、前記(c)段階の核酸断片の位置別配列相対頻度は、同じサイズの核酸断片において、それぞれの位置で検出されるA、T、G、C塩基を有する核酸断片の数を全体の核酸断片数で正規化した値であることを特徴とすることができる。
本発明において、前記(c)段階の核酸断片の位置は、核酸断片の5'末端から1~10個の塩基であることを特徴とすることができる。
【0042】
本発明において、前記(c)段階の核酸断片の位置別配列相対頻度は、核酸断片の位置は、核酸断片の5'末端から1~5個の位置では、A、T、G及びC塩基の頻度であり、6~10個の位置では、A塩基の頻度であることを特徴とすることができる。
【0043】
本発明において、前記(c)段階の核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズは、表3に記載されたものから選択される一つ以上であることを特徴とすることができ、好ましくは、表7に記載されたものからTop1~Top5までの核酸断片の位置別配列相対頻度及び核酸断片のサイズであってもよく、より好ましくは、表7に記載されたものからTop50までの核酸断片の位置別配列相対頻度及び核酸断片のサイズであってもよく、最も好ましくは、Top375までの核酸断片の位置別配列相対頻度及び核酸断片のサイズであってもよい。
【表3】


【0044】
本発明において、核酸断片の位置は、核酸断片の5'末端を基準として定義される。
例えば、前記配列番号1の順方向ストランドの5'末端から核酸断片の位置は、For1、For2、…For 15の値を有することができ、逆方向ストランドも同様である。前記配列番号1のFor1値はTであり、逆方向ストランドのRev1値はAである。
本発明において、核酸断片の位置別塩基配列の頻度は、下記のような過程で計算することができる。
a)全体の核酸断片を同じサイズを有する核酸断片集団に区分する段階;
b)各グループ内で核酸断片の位置別のA、T、G、C塩基の個数を計数する段階;及び
c)数式2を用いて、核酸断片の位置別塩基個数を正規化する段階。
【数2】
【0045】
本発明において、前記数式2のsizeとposition及び塩基は、正規化しようとするサイズ、位置及び塩基によって異なることは当業者にとって自明である。
【0046】
本発明において、前記(d)段階の人工知能モデルは、健常者とがん患者を区別できるように学習することができるモデルであれば、制限なく使用可能であり、好ましくは、機械学習モデルであることを特徴とすることができる。
【0047】
本発明において、前記人工知能モデルは、AdaBoost、Random forest、Catboost、Light Gradient Boosting Model及びXGBoostからなる群から選択されることを特徴とすることができるが、これらに限定されない。
【0048】
本発明において、前記人工知能モデルがXGBoostであり、二項分類を学習する場合、損失関数は下記数式1で示されることを特徴とすることができる。
【数1】
【0049】
本発明において、前記二項分類は、人工知能モデルががんの有無を判別するように学習することを意味する。
本発明において、前記人工知能モデルがXGBoostである場合、学習は下記の段階を含んで行われることを特徴とすることができる:
【0050】
i)核酸断片の位置別配列相対頻度及びサイズ情報をtraining(学習)、validation(検証)、test(性能評価)データに分類する段階;
この時、学習データは、XGBoostモデルを学習する際に使用され、検証データは、ハイパー-パラメータチューニング検証に使用され、性能評価データは、最適なモデル生産後、性能評価に使用されることを特徴とする。
ii)ハイパー-パラメータチューニング及び学習過程を通じ、最適なXGBoostモデルを構築する段階;
iii)ハイパー-パラメータチューニングを通じて得られた複数のモデルの性能を検証データを用いて比較し、検証データの性能が最も良いモデルを最適なモデルとして決定する段階;
本発明において、前記ハイパー-パラメータチューニングの過程は、XGBoostモデルを構成する複数のパラメータ(学習者ツリーの最大深さ、学習者ツリーの個数、学習率等)の値を最適化する過程であり、ハイパー-パラメータチューニングの過程としては、ベイズ最適化及びグリッドサーチ技法を使用することを特徴とすることができる。
【0051】
本発明において、前記学習過程は、定められたハイパー-パラメータを用いてXGBoostモデルの内部パラメータ(weights)を最適化させ、学習ロスに対して検証ロスが増加し始めると、モデルが過適合(Overfitting)されたと判断し、その前にモデル学習を中断することを特徴とすることができる。
【0052】
本発明において、前記d)段階において、人工知能モデルが入力された核酸断片の位置別配列相対頻度及びサイズ情報から分析した結果値は、特定のスコアまたは実数であれば制限なく利用可能であり、好ましくは、XPI(XGBoost確率指数)値であることを特徴とすることができるが、これに限定されない。
【0053】
本発明において、XGBoost確率指数は、人工知能モデルのアウトプットを0~1スケールで調整して確率値で表した値を意味する。
二項分類の場合には、シグモイド関数を用いて、がんの場合XPI値が1になるように学習する。例えば、神経芽細胞腫サンプルと正常サンプルが入力されると、神経芽細胞腫サンプルのXPI値が1に近づくように、そして正常サンプルは0に近づくように学習することである。
【0054】
本発明において、前記人工知能モデルは、学習する際、がんがあるとアウトプット結果が1に近いように学習し、がんがないとアウトプット結果が0に近いように学習させ、0.5を基準に0.5以上であれば、がんがあると判断し、0.5以下であれば、がんがないと判断してパフォーマンス測定を行った(学習、検証、性能評価の正確度)。
【0055】
ここで、0.5の基準値はいつでも変わり得る値であることは、通常の技術者には自明なことである。例えば、False positive(偽陽性)を減らそうとすると、0.5より高い基準値を設定し、がんがあると判断される基準を厳格に取ることができ、False Negative(偽陰性)を減らそうとすると、基準値をより低く測定し、がんがあると判断される基準を少し弱く取ることができる。
【0056】
最も好ましくは、学習された人工知能モデルを用いて未知データ(学習にトレーニングしていない答えを知っているデータ)を適用させ、XPI値の確率を確認して基準値を決めることができる。
本発明は他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースにアラインメントするアラインメント部;
アラインメントされた配列ベースの核酸断片の位置別配列相対頻度及び核酸断片のサイズを導出する核酸断片分析部;及び
導出された核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報を学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定するがん診断部;
を含むがん診断装置に関する。
【0057】
本発明において、前記解読部は、独立した装置から抽出された核酸を注入する核酸注入部;及び注入された核酸の配列情報を分析する配列情報分析部を含むことができ、好ましくは、NGS分析装置であり得るが、これに限定されない。
本発明において、前記解読部は、独立した装置で生成された配列情報データを受信して解読することを特徴とすることができる。
【0058】
本発明は、また他の観点において、コンピュータ読み取り可能な記憶媒体であり、がん診断のための情報を提供するプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;
(c)前記アラインメントされた配列情報(reads)を用いて、核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び
(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階において、
前記(d)段階の人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする段階を通じ、がん診断のための情報を提供するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体に関する。
【0059】
本発明は、また他の観点において、以下の段階を含む無細胞核酸を用いたがん診断方法に関する:
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体配列データベース(reference genome database)にアラインメント(alignment)する段階;
(c)前記アラインメントされた配列情報(reads)を用いて核酸断片(fragments)の位置別配列相対頻度及び核酸断片のサイズを導出する段階;及び
(d)導出された配列相対頻度及びサイズ情報をがんを診断するように学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較し、がんの有無を判定する段階において、
前記人工知能モデルは、核酸断片の位置別配列相対頻度及び核酸断片のサイズ情報に基づき、正常サンプルとがんサンプルを区別するように学習されたことを特徴とする。
【0060】
他の態様において、本願による方法は、コンピュータを用いて具現することができる。一実施態様において、コンピュータは、チップセットに連結された一つ以上のプロセッサを含む。また、チップセットには、メモリ、記憶装置、キーボード、グラフィックアダプタ(Graphics Adapter)、ポインティングデバイス(Pointing Device)及びネットワークアダプタ(Network Adapter)等が連結されている。一実施態様において、前記チップセットの性能は、メモリコントローラーハブ(Memory Controller Hub)及びI/Oコントローラーハブによって可能である。他の実施態様において、前記メモリは、チップセットの代わりにプロセッサに直接連結されて使用することができる。記憶装置は、ハードドライブ、CD-ROM(Compact Disk Read-Only Memory)、DVDまたはその他のメモリ装置を含むデータを維持することができる任意の装置である。メモリは、プロセッサによって使用されるデータ及び命令に関与する。前記ポインティングデバイスは、マウス、トラックボール(Track Ball)または他のタイプのポインティングデバイスであり得、キーボードと組み合わせて入力データをコンピュータシステムに転送するために使用される。前記グラフィックアダプタは、ディスプレイ上でイメージ及びその他の情報を示す。前記ネットワークアダプタは、近距離または長距離通信網でコンピュータシステムと連結される。本願で使用されるコンピュータは、しかしながら、前記のような構成に制限されず、一部の構成がないか、追加の構成を含むことができ、また、記憶装置領域ネットワーク(Storage Area Network, SAN)の一部であり得、本願のコンピュータは、本願による方法の実施のためのプログラムにモジュールの実行に適合するように構成することができる。
【0061】
本願において、モジュールとは、本願による技術的思想を実施するためのハードウェア及び前記ハードウェアを駆動するためのソフトウェアの機能的、構造的結合を意味することができる。例えば、前記モジュールは、所定のコードと前記所定のコードが行われるためのハードウェアリソース(Resource)の論理的な単位を意味することができ、必ずしも物理的に連結されたコードを意味したり、1種類のハードウェアを意味するものではないことは、本願技術分野の当業者に自明なことである。
【0062】
本願による方法は、ハードウェア、ファームウェア、またはソフトウェア、またはこれらの組み合わせで具現することができる。ソフトウェアで具現される場合、記憶媒体は、コンピュータのような装置によって読み取り可能な形態の保存または伝達する任意の媒体を含む。例えば、コンピュータ読み取り可能な媒体は、ROM(Read Only Memory);RAM(Random Access Memory);磁気ディスク記憶媒体;光記憶媒体;フラッシュメモリ装置及びその他の電気的、光学的または音響的信号伝達媒体等を含む。
【実施例
【0063】
以下、実施例を通じて、本発明をさらに詳細に説明する。これらの実施例は、ひとえに本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって制限されるものと解釈されないことは、当業界における通常の知識を有する者にとって自明であろう。
【0064】
実施例1. 血液からDNAを抽出し、次世代塩基配列分析の実施
健常者202人及び神経芽細胞腫患者61人の血液を10mLずつ採取してEDTAチューブに保管し、採取後2時間以内に1200g、4℃、15分の条件で血漿部分のみを1次遠心分離した後、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離し、沈殿物を除いた血漿上層液を分離した。分離された血漿に対し、Chemagic ccfNA 2K Kit (chemagen)を使用してcell-free DNAを抽出し、MGIEasy cell-free DNA library prep set kitを使用してライブラリープレパレーション過程を行った後、DNBseq G400装備(MGI) を100ベースペアエンドモードでシーケンスした。その結果、サンプルあたり約170ミリオン個のリードが生産されることを確認した。
【0065】
実施例2. 最適な核酸断片の位置別配列相対頻度及び核酸断片サイズの選別
2-1. 核酸断片の位置と塩基配列の相対頻度の定義及び測定
核酸断片の位置は、核酸断片の5'末端を基準に定義した。
実施例1で取得したリードは、ペア-エンドシーケンスリードであり、100bpの長さであるため、順方向ストランドは5'末端からFor1、For2、…、For100までの位置を設定し、逆方向ストランドでも5'末端からRev1、Rev2、…、Rev100までの位置を設定した。核酸断片の組み立ては、bedtoolsプログラムのbamtobed-bedpeオプションを使用した。
【0066】
核酸断片の位置別塩基配列の相対頻度を求める過程を簡略に説明すると、まず、実施例1で生産した約170Mリード程度のシーケンスデータから、任意に17Mリードを選別してダウンサンプリングした後、QCフィルタリングを行い、Size, position, base (ex, Size120_For1_A)の組み合わせを満たす核酸断片数を計数した後、前記の3 QCフィルタリング後に残っている全体のシーケンスリード数で分けて正規化を行った。
【0067】
より具体的には、以下の方法で行った。
1. 全体の核酸断片を同じサイズを有する核酸断片集団に区分した。例えば、核酸断片サイズが101のグループ、150のグループ、…200のグループ等。
2. 各グループ内で核酸断片位置別のA、T、G、C塩基の個数を計数した。例えば、核酸断片のサイズが120の集団における核酸断片位置別の塩基の数を計数すると、以下の表1のように整理することができる。
【表1】
【0068】
前記の表を解釈すると、サイズが120であった核酸断片は合計23,135個あり、そのうちFor1位置にA、T、G、C塩基を有していた核酸断片がそれぞれ5,683個、4,680個、4,194個、8,566個あることを意味する。
3. 前記の過程で核酸断片位置別の塩基の個数を計数した後、シーケンスされた全体のリード数(核酸断片サイズの区分なく、生産された分析対象の全てのリード数。実施例1においては、15,063,130個)で分けて数式2で正規化(Normalization)し、以下の表2(FESS_Table_120)のように相対頻度を計算したFESS(Fragment End Seuqnece frequency and Size)テーブルを作製した。
【数2】

【表2】

4. N(シーケンスエラー、低いクオリティ等の理由で、塩基配列測定不可であった場合)値の相対頻度は計算しなかった。
【0069】
2-2. 最適な核酸断片サイズの選別
分析対象核酸断片の位置と塩基配列を(For1_A)に固定し、以下の分析を行った。
・ 核酸断片サイズを1ずつ変化させながら、健常者と神経芽細胞腫患者群との間で(For1_A)の相対頻度分布の差があるかをクラスカル-ウォリス検定を用いて統計的に確認した。すなわち、図2に記載されるように、サイズが118の核酸断片集団では、(For1_A)の相対頻度が健常者より神経芽細胞腫患者群で統計的に有意なレベルで高く分布することを確認することができる。同じ方法で、サイズが168の核酸断片集団では、(For1_A)の相対頻度が二つの集団で大きな差がなく分布することを確認することができ、サイズが185の核酸断片集団では、(For1_A)の相対頻度が健常者において、神経芽細胞腫患者群より統計的に有意なレベルで低く分布することを確認することができる。
・ このような方法で、核酸断片サイズを101から200まで変化させながら、健常者と神経芽細胞腫との間の(For1_A)相対頻度差を統計的に(p-value)確認した。
【0070】
その結果、図3のX軸は核酸断片のサイズを、Y軸は-log10(p)の値を示すが、Y軸の値が大きいほど、健常者と神経芽細胞腫患者との間で差が大きいことを意味する。図3に記載されるように、10程度の核酸断片サイズを周期として、健常者と神経芽細胞腫との間で(For1_A)頻度差が大きく広がる(-log10(p)値がピークを迎えて下がる)ことを確認した。
【0071】
また、これらのパターンが学習データセットだけでなく、独立した検証データセットでも同じように繰り返されることから、緑色で表示した核酸断片サイズが学習データセットに過適合された偶然のパターンではないことを確認することができる。
【0072】
二つのデータセットで共通して-log10(p)値がピークを示す核酸断片サイズを選択し(127~129、137~139、148~150、156~158、181~183)、合計15個の核酸断片サイズを選別した。
さらに、他の位置の他の塩基でも類似のパターンが示されることを確認した(図9)。
【0073】
2-3. 最適な核酸断片位置の選別
実施例1で取得したデータは100 PEデータであるため、分析に使用可能な核酸断片位置はFor1~100、そしてRev1~100まで合計200種類である。
【0074】
図4は、表2のFESS_Table_120をヒートマップ形式で視覚化したものであり、点線で示された両端側(For1~10、Rev1~10)の一部でのみの位置によるA、T、G、C塩基配列の相対頻度差が観察され、リードの後部分(~100)に行くにつれてほぼ類似のA、T、G、C塩基配列の相対頻度が繰り返されることを確認することができる。
【0075】
例えば、For1のA、T、G、C塩基配列相対頻度は、For2のA、T、G、C相対頻度とかなりの差を示すが、For11のA、T、G、C塩基配列相対頻度とFor99のA、T、G、C塩基配列相対頻度、そしてFor100のA、T、G、C塩基配列相対頻度は、大きな差がなくほぼ類似していることを確認することができる。
【0076】
従って、学習モデルの性能向上のため、リードの後部分の位置を除いたFor1~10、Rev1~10の位置のみをモデル学習対象フィーチャーとして選別した。
【0077】
さらに、図4の点線で示された領域を拡大すると、図5と同じであるが(Rev1~10は、Rev10~1の順に逆にアラインメントした)、最も左のパネルを見ると、順方向と逆方向の同じ位置にある同じ配列の相対頻度が互いにかなり類似していることを確認することができる。
【0078】
例えば、(For1_AとRev1_A)、(For1_TとRev1_T)、(For1_GとRev1_G)、そして(For1_CとRev1_C)が互いに類似の相対頻度値を有し、同じ方法で(For2_AとRev2_A)、(For2_TとRev2_T)、(For2_GとRev2_G)、そして(For2_CとRev2_C)が互いに類似の相対頻度値を有する。
【0079】
このような類似性を健常者集団におけるピアソンの相関係数で測定してみると、図5の右の二つのパネルと同じである。健常者集団で測定されたFor1_Aの相対頻度値とRev1_Aの相対頻度値との間の類似性、For1_Tの相対頻度値とRev1_Tの相対頻度値との間の類似性、For1_Gの相対頻度値とRev1_Gの相対頻度値との間の類似性、及びFor1_Cの相対頻度値とRev1_Cの相対頻度値との間の類似性は、全て1であることを確認した。
【0080】
このような分析を通じて、核酸断片の順方向ストランド側の5'末端塩基配列の相対頻度と逆方向ストランド側の5'末端塩基配列の相対頻度が類似していることを確認することができ、従って、Rev1~10位置を除いたFor1~10位置のみをモデル学習対象フィーチャーとして選別した。
【0081】
2-4. 最適な核酸断片の位置別塩基配列の選別
実施例2-3で選別した10箇所の位置では、それぞれA、T、G、Cの4種類の塩基配列の相対頻度を計算することができる。例えば、For1の位置では、For1_A、For1_T、For1_G、For1_Cの相対頻度を計算することができる。モデル学習対象変数を減らすために、同じ位置にある塩基配列の間の類似性を確認し、追加の選別を行った。位置別塩基配列の選別は、健常者集団で下記の方法で行った。
・ For1~10各位置でA、T、G、C塩基配列の相対頻度を計算し、
・ (For1_AとFor1_T)、(For1_AとFor1_G)、(For1_AとFor1_C)、(For1_TとFor1_G)、(For1_TとFor1_C)、そして(For1_GとFor1_C)の間の類似性をピアソンの相関係数で測定した。
【0082】
その結果、図6に記載するように、For1~5の位置では、A、T、G、Cの4種類の塩基配列の相対頻度の間の類似性が低いことを確認し、For6~10の位置では、A、T、G、Cの4種類の塩基配列の相対頻度の間の類似性がかなり高いことを確認した。
【0083】
従って、For1~5の位置では、A、T、G、Cの4種類の塩基配列を全て選別し、For6~10の位置では、A、T、C、Gのうち代表値としてA塩基配列のみを選別した。
【0084】
結論として、最適な核酸断片サイズ及び位置別配列相対頻度は、下記の通りである:
1)核酸断片のサイズ:127、128、129、137、138、139、148、149、150、156、157、158、181、182、183。合計15個。
2)核酸断片の位置:For1~10。合計10個。
3)核酸断片の位置別塩基配列の組み合わせ
For1~5:A、T、G、C For6~10:A
15個サイズ * 25個位置_塩基配=375個フィーチャー
375個のフィーチャーの組み合わせは、表3に記載した。
【0085】
実施例3. 機械学習モデル構築及び学習過程
実施例2で選別した375個のフィーチャーの相対頻度値をインプットとし、健常者、神経芽細胞腫患者を区分する機械学習モデルを学習した。機械学習アルゴリズムは、XGBoostを使用した。
【0086】
全体のサンプルを学習、検証、性能評価データセットに分け、学習データセットはモデル学習に、検証データセットはハイパー-パラメータチューニングに、性能評価データセットは最終モデルの性能評価に使用した。各セット別のサンプル数は、以下の通りである。
【表4】
【0087】
ハイパー-パラメータチューニング過程は、XGBoostモデルを構成する様々なパラメータ(学習者ツリーの最大深さ、学習者ツリーの個数、学習率等)の値を最適化する過程である。
【0088】
ハイパー-パラメータチューニング過程には、ベイズ最適化及びグリッドサーチ技法を使用し、学習ロスに対して検証ロスが増加し始めると、モデルが過適合(Overfitting)されたと判断し、モデル学習を中断した。
【0089】
ハイパー-パラメータチューニングを通じて取得した複数のモデルの性能を検証データセットを用いて比較し、このうち検証データセットの性能が最も良いモデルを最適モデルと判断し、性能評価データセットで最終性能評価を行った。
【0090】
前記の過程を経て作製されたXGBoostモデルに、任意のサンプルから計算された375個のフィーチャーの相対頻度値のベクターをインプットすると、当該サンプルの健常者である確率、神経芽細胞腫患者である確率が計算され、この確率値をXGBoost確率指数(XPI)と定義した。
任意のサンプルで計算されたXPI値が0.5を超過すると神経芽細胞腫患者と、0.5以下であると健常者と判断した。
【0091】
実施例4. 構築したモデルの性能確認
4-1. 性能確認
実施例3で構築した機械学習モデルで出力したXPI値の性能をテストした。全てのサンプルは学習、検証、性能評価グループに分けて行い、学習サンプルを用いてモデルを構築した後、検証グループ及び性能評価グループのサンプルを用いて、学習サンプルを用いて作製したモデルの性能を確認した。
【0092】
【表5】
【0093】
その結果、表5及び図7に記載されるように、正確度は、学習、検証、性能評価グループでそれぞれ1.000、0.945、0.937であることを確認し、ROC分析結果であるAUC値は、学習、検証、性能評価グループでそれぞれ1.000、0.952、0.987であることを確認した。
【0094】
4-2. XPI分布の確認
実施例3で構築した機械学習モデルの出力値であるXPI値が実際の患者とどれだけ一致するかを確認した。図8のX軸は、実際のサンプルのグループ(True label)情報を示し、Y軸は、左から順に機械学習モデルで計算した健常者(Normal)、神経芽細胞腫患者(NBT)であるXPI値を示す。
【0095】
その結果、図8に記載されるように、XPI分布は学習、検証、性能評価データセット全てで、健常者サンプルは健常者である確率が最も高く分布することを確認し、神経芽細胞腫患者サンプルは肝臓がん患者である確率が最も高く示されることを確認した。
【0096】
実施例5. フィーチャー別モデル性能の確認
5-1. フィーチャー別重要度の導出
実施例2で選別したフィーチャーを用いて実施例3で学習モデルを構築し、それぞれのフィーチャーを使用してXGBモデルを学習した際、各フィーチャーの重要度の値は、下記の表6の通りである。
【0097】
【表6】




【0098】
5-2. TopNフィーチャー性能の確認
実施例3の方法で上位1番フィーチャーのみを使用して構築したXGBモデル、2番まで使用したモデル、3番、4番、5番、6番、7番、8番、9番、15番、20番、25番、30番、35番、40番、45番及び50番までを使用して構築したXGBモデルの性能を実施例4の方法で確認した結果、表7及び図10に記載されるように五つの上位フィーチャーを使用しても、十分な性能が発揮されることを確認した。
【表7】
【0099】
すなわち、表7の上の3行は、正確度(ACC)方法で性能を測定した結果であり、下の3行は、AUC方法で性能を測定した結果である。ACCとAUCの性能を測定した学習、検証、性能評価セットの構成は同じである。正確度(ACC)は、モデルで予測された確率値が決められたカットオフ値(cutoff=0.5)より高いか低いかを判断して測定する性能指標であり、AUCはACCと異なって特定のカットオフを設定せず、予測された確率値の分布が正常な集団とがん患者集団でどれだけ明らかに差が出るかを測定する性能指標である。
【0100】
ACC の場合、カットオフ値をどのように設定するかによって結果が変わる可能性があるため、AUC 値を基準として解釈することが正しい。性能評価セットの AUC 値を基準として、表 7 の結果は、
i)375個の全てのフィーチャーを使用した場合、AUC=0.987で、フィーチャーの一部の部分集合を使用した時と比較した時、最も高い性能を示している。
ii)375個のフィーチャーを使用した時と類似の性能評価AUC性能を確保することができる最も少ないフィーチャーの個数を探してみると、TopN=5であることを確認することができる。
【0101】
以上、本発明の内容の特定の部分を詳細に記述したが、当業界における通常の知識を有する者にとって、このような具体的な記述は単に好ましい実施態様に過ぎず、これによって本発明の範囲が制限されない点は明らかであろう。従って、本発明の実質的な範囲は、添付の請求項とそれらの等価物によって定義されるといえる。
【産業上の利用可能性】
【0102】
本発明による細胞遊離核酸断片の位置別配列相対頻度及びサイズを用いたがん診断方法は、最適な核酸断片の位置別配列相対頻度及びサイズ情報を取得し、AIアルゴリズムを用いて分析するため、リードカバレッジが低くても高い敏感度と正確度を示すため、有用である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【国際調査報告】