IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ジーシー ゲノム コーポレーションの特許一覧

特表2024-527461組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法
<>
  • 特表-組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法 図1
  • 特表-組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法 図2
  • 特表-組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法 図3
  • 特表-組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法 図4
  • 特表-組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法 図5
  • 特表-組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法 図6
  • 特表-組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-25
(54)【発明の名称】組織特異的調節領域の無細胞DNA分布を用いた人工知能基盤の癌早期診断方法
(51)【国際特許分類】
   G16H 50/20 20180101AFI20240718BHJP
   G16B 40/20 20190101ALI20240718BHJP
【FI】
G16H50/20
G16B40/20
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023573425
(86)(22)【出願日】2022-05-30
(85)【翻訳文提出日】2023-11-28
(86)【国際出願番号】 KR2022007648
(87)【国際公開番号】W WO2022250512
(87)【国際公開日】2022-12-01
(31)【優先権主張番号】10-2021-0068890
(32)【優先日】2021-05-28
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523165307
【氏名又は名称】ジーシー ゲノム コーポレーション
【氏名又は名称原語表記】GC GENOME CORPORATION
(74)【代理人】
【識別番号】100139594
【弁理士】
【氏名又は名称】山口 健次郎
(72)【発明者】
【氏名】チェ ジョンギュン
(72)【発明者】
【氏名】ペ ミンギュン
(72)【発明者】
【氏名】チョ ウンヘ
(72)【発明者】
【氏名】キ チャンソク
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA04
(57)【要約】
本発明は、人工知能基盤の癌早期診断方法に関し、より具体的には、組織特異的調節領域の無細胞DNA分布に関する情報を癌を早期診断するように学習された人工知能モデルに入力して分析する方法を用いた人工知能基盤の癌早期診断方法に関する。本発明による癌早期診断方法は、次世代シーケンシング法(Next Generation Sequencing, NGS)で得られた組織特異的調節領域の無細胞核酸分布を用いて人工知能基盤で癌を早期診断し、精度と敏感度が高く、商業的活用度が高いので、本発明の方法は癌早期診断に有用である。
【特許請求の範囲】
【請求項1】
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;
(d)選択された核酸断片を画像データとして生成するステップ;及び
(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して癌の有無を判定するステップを含む人工知能基盤の癌早期診断のための情報の提供方法。
【請求項2】
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;
(d)選別された核酸断片を画像データとして生成するステップ;及び
(e)生成された前記画像データを、正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して基準値を超える場合、癌があると判定するステップを含む癌早期診断方法。
【請求項3】
前記(a)ステップの配列情報を取得するステップは、次のステップを含む方法で行われることを特徴とする、請求項1又は2に記載の方法:
(a-i)生体試料から核酸を得るステップ;
(a-ii)採取した核酸から、塩析法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いてタンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得るステップ;
(a-iii)精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)またはペアエンドシーケンシング(pair-end sequencing)ライブラリ(library)を作製するステップ;
(a-iv)作製されたライブラリを次世代シークエンサー(next-generation sequencer)に反応させるステップ;及び
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得するステップ。
【請求項4】
前記(a)ステップの核酸は、無細胞DNAであることを特徴とする、請求項1又は2に記載の方法。
【請求項5】
前記(c)ステップを行う前に、整列された核酸断片の整列一致度スコア(mapping quality score)が基準値以上のリードを選別するステップをさらに含むことを特徴とする、請求項1又は2に記載の方法。
【請求項6】
前記基準値が50~70点であることを特徴とする、請求項5に記載の方法。
【請求項7】
前記(c)ステップの調節領域は、組織特異的調節領域であることを特徴とする、請求項1又は2に記載の方法。
【請求項8】
前記組織特異的調節領域は、組織別に検出される無細胞DNAの長さ及び/又は量が異なることを特徴とする、請求項7に記載の方法。
【請求項9】
前記(d)ステップの画像は、x軸が選別された核酸断片の整列位置別のリード数で構成される1次元画像であることを特徴とする、請求項1又は2に記載の方法。
【請求項10】
前記(e)ステップの人工知能モデルは、人工ニューラルネットワークであることを特徴とする、請求項1又は2に記載の方法。
【請求項11】
前記人工ニューラルネットワークは、畳み込みニューラルネットワーク(convolutional neural network, CNN)または再帰ニューラルネットワーク(recurrent neural network, RNN)であることを特徴とする、請求項10に記載の方法。
【請求項12】
生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された配列基盤の核酸断片から調節領域の核酸断片(fragments)を選別する核酸断片選別部;
選別された核酸断片を画像データとして生成するデータ生成部;及び
生成された画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、癌早期診断のための情報を提供する情報提供部;
を含む人工知能基盤の癌早期診断のための情報の提供装置。
【請求項13】
コンピュータ読み取り可能な記憶媒体であって、癌早期診断のための情報を提供するプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;
(d)選択された核酸断片を画像データとして生成するステップ;及び
(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して癌の有無を判定するステップを通じて、癌早期診断のための情報を提供するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体。
【請求項14】
生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された配列基盤の核酸断片から調節領域の核酸断片(fragments)を選別する核酸断片選別部;
選別された核酸断片を画像データとして生成するデータ生成部;及び
生成された画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力し、基準値を超える場合、癌があると判定する癌診断部;
を含む人工知能基盤の癌早期診断装置。
【請求項15】
コンピュータ読み取り可能な記憶媒体であって、癌早期診断を行うプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;
(d)選別された核酸断片を画像データとして生成するステップ;及び
(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)を超える場合、癌があると判定するステップを通じて、癌早期診断を行うプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能基盤の癌早期診断方法に関し、より具体的には、組織特異的調節領域の無細胞DNA分布に関する情報を癌早期診断するように学習された人工知能モデルに入力して分析する方法を用いた人工知能基盤の癌早期診断方法に関する。
【背景技術】
【0002】
液体生検(Liquid biopsy)技術を用いて、細胞の壊死(necrosis)、アポトーシス(apoptosis)、分泌(secretion)によって血漿内に存在する無細胞DNA(cfDNA; cell-free DNA)を用いて染色体異常を検出しようとする研究が進められている。特に、腫瘍細胞に由来した血中無細胞DNAは、正常細胞では現れない腫瘍特異的な染色体異常及び突然変異を含んでおり、半減期が2時間程度と短く、腫瘍の現在状態を反映するという利点がある。また、非侵襲的で繰り返し採取が可能なため、血中無細胞DNAは癌の診断、モニタリング及び予後観察など、癌に関連する様々な分野で腫瘍特異的なバイオマーカーとして脚光を浴びている。
【0003】
単なる血液検査だけで癌を診断できるという利点を利用して、液体生検を早期診断に用いるために多くの研究者が努力している。癌はDNAに突然変異が徐々に蓄積しながら生じる疾患であるため、癌由来のcfDNAには正常人と異なる突然変異が存在し、このような特徴を用いて突然変異を含むDNAが発見されれば癌と診断することができる。しかし、30億個からなるヒトゲノムの中で、ヒトにより癌細胞で共通に発見される突然変異は非常に少なく、さらにその突然変異がなくても癌にかかる人が多いため、突然変異を用いた癌早期診断はまだ良い性能を示していない。
【0004】
最近では、cfDNAの全長ゲノムデータを取得した後、read depthに基づいてtranscription start site profileを導出し、各遺伝子の発現有無をSVMで学習する方法(Ulz, P., Thallinger, G., Auer, M. et al. Nat. Genet. Vol. 48, pp. 1273-1278, 2016)や、cfDNA fragmentation patternに基づいたtranscription factor binding patternを分析して癌を早期診断したり、癌種を分類する技術(Ulz, P. et al., Nat. Commun. Vol. 10, 4666, 2019)が開発されたが、その信頼度が比較的低いか、大量のデータを必要とするという欠点がある。
【0005】
このような技術背景下に、本発明者らは、人工知能基盤の癌早期診断方法を開発するために鋭意努力した結果、組織特異的調節領域の無細胞核酸の分布を画像化し、癌を早期診断するように学習された人工知能モデルに入力する場合、高い敏感度と精度で癌を早期診断できることを確認し、本発明を完成した。
【発明の概要】
【0006】
本発明の目的は、人工知能基盤の癌早期診断のための情報の提供方法を提供することである。
【0007】
本発明の他の目的は、人工知能基盤の癌早期診断のための情報の提供装置を提供することである。
【0008】
本発明の他の目的は、前記方法で癌早期診断のための情報を提供するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な媒体を提供することである。
【0009】
本発明の他の目的は、人工知能基盤の癌早期診断方法を提供することである。
【0010】
本発明の他の目的は、人工知能基盤の癌早期診断装置を提供することである。
【0011】
本発明の他の目的は、前記の方法で癌早期診断を実行するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な媒体を提供することである。
【0012】
前記目的を達成するために、本発明は、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;(d)選別された核酸断片を画像データとして生成するステップ;及び(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して癌の有無を判定するステップを含む人工知能基盤の癌早期診断のための情報の提供方法を提供する。
【0013】
本発明はまた、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;整列された配列基盤の核酸断片から調節領域の核酸断片(fragments)を選別する核酸断片選別部;選別された核酸断片を画像データとして生成するデータ生成部;及び生成された画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、癌早期診断のための情報を提供する情報提供部;を含む人工知能基盤の癌早期診断のための情報の提供装置を提供する。
【0014】
本発明はまた、コンピュータ読み取り可能な記憶媒体であって、癌早期診断のための情報を提供するプロセッサによって実行されるように構成される命令を含み、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;(d)選別された核酸断片を画像データとして生成するステップ; 及び(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して癌の有無を判定するステップを通じて、癌早期診断のための情報を提供するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供する。
【0015】
本発明はまた、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;(d)選別された核酸断片を画像データとして生成するステップ;及び(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して基準値を超える場合、癌があると判定するステップを含む癌早期診断方法を提供する。
【0016】
本発明はまた、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;整列された配列基盤の核酸断片から調節領域の核酸断片(fragments)を選別する核酸断片選別部;選別された核酸断片を画像データとして生成するデータ生成部;及び生成された画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して基準値を超える場合、癌があると判定する癌診断部;を含む人工知能基盤の癌早期診断装置を提供する。
【0017】
本発明はまた、コンピュータ読み取り可能な記憶媒体であって、癌早期診断を行うプロセッサによって実行されるように構成される命令を含み、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;(d)選別された核酸断片を画像データとして生成するステップ;及び(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)を超える場合、癌があると判定するステップを通じて、癌早期診断を行うプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体を提供する。
【図面の簡単な説明】
【0018】
図1】本発明の方法を実施するための全体フローチャートである。
図2】調節領域におけるヌクレオソーム位置の差異を組織別に示した模式図と実際の例である。
図3】様々な組織に対する調節因子データの模式図である。
図4】組織特異的調節因子の発掘方法を示す模式図である。
図5】本発明の一実施態様により得られた調節領域のcfDNA分布を人工知能モデルに入力するために画像として生成する原理を示す図である。
図6】本発明の一実施態様により構築した人工知能モデルのアルゴリズムを示す図である。
図7】本発明の一実施態様により構築した肝癌予測モデルの性能を確認した結果である。
【発明を実施するための形態】
【0019】
別途定義されない限り、本明細書で使用される全ての技術的及び科学的用語は、本発明が属する技術分野における熟練した専門家によって通常理解されるものと同じ意味を有する。一般に、本明細書で使用される命名法及び以下に記述する実験方法は、本技術分野でよく知られており、通常使用されるものである。
【0020】
第1、第2、A、Bなどの用語は、様々な構成要素を説明するために使用されてもよいが、該構成要素は、前記用語によって限定されず、単に1つの構成要素を他の構成要素と区別する目的のみに使用される。例えば、以下に説明する技術の権利範囲を外れないながら、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素も第1構成要素と命名することができる。及び/又はという用語は、複数の関連する記載項目の組み合わせ、または複数の関連する記載項目のいずれかを含む。
【0021】
本明細書で使用される用語において、単数の表現は、文脈上明らかに異に解釈されない限り、複数の表現を含むものと理解されるべきであり、「含む」などの用語は、説示された特徴、個数、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものが存在することを意味するものであり、1つまたはそれ以上の他の特徴、個数、ステップ動作構成要素、部分品、またはこれらを組み合わせたものの存在または付加の可能性を排除しないものと理解されるべきである。
【0022】
図面に対する詳細な説明をするに先立ち、本明細書における構成部に対する区分は、各構成部が担当する主機能別に区分したものに過ぎないことを明確にしたい。すなわち、以下に説明する2つ以上の構成部が1つの構成部に合わされたり、又は1つの構成部がより細分化された機能別に2つ以上に分化されて備えられてもよい。そして、以下に説明する構成部のそれぞれは、自分が担当する主機能以外にも、他の構成部が担当する機能の一部または全ての機能をさらに行ってもよく、構成部のそれぞれが担当する主機能の一部機能が他の構成部によって専担されて行ってもよいことはもちろんである。
【0023】
また、方法あるいは動作方法を実行するにあたり、前記方法を構成する各過程は、文脈上明らかに特定の順序を記載しない限り、明記された順序と異なる順序で行われてもよい。つまり、各過程は、明記された順序と同じ順序で行われてもよく、実質的に同時に行われてもよく、逆の順序で行われてもよい。
【0024】
本発明では、サンプルから取得した配列分析データを参照ゲノムに整列した後、整列された核酸断片から調節領域の核酸断片を選別して画像データを生成し、生成された画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力する場合、高い敏感度と精度で癌を早期診断できることを確認しようとした。
【0025】
すなわち、本発明の一実施態様では、正常人187人、初期肝癌患者12人及び後期肝癌患者150人から得た液体生検から核酸を抽出した後、cfDNAシーケンシングを取得し、肝特異的調節領域に該当する核酸断片を選別した後、これを画像データとして生成し、正常人187人及び後期肝癌患者150人のデータを用いて肝癌早期診断のための人工知能学習モデルを構築し、初期肝癌患者12人のデータを用いて学習モデルの性能を確認した結果、高い精度で構築した学習モデルが正常人と肝癌患者及び初期肝癌患者の画像を区別できることを確認した(図7及び図8)。
【0026】
本発明における用語「リード(reads)」は、当業界に知られている様々な方法を用いて配列情報を分析した1つの核酸断片を意味する。したがって、本明細書における用語「配列情報」及び「リード」は、シーケンシング過程を通じて配列情報を得た結果物であるという点で同じ意味を持つ。
【0027】
本発明における用語「調節領域(regulatory region)」とは、遺伝子の発現を調節することができる染色体上の全ての位置を意味し、RNA合成のためにRNA合成酵素及び電子調節タンパク質が結合する領域を意味する。好ましくは、プロモーター(promoter)、エンハンサー(enhancer)、サイレンサー(silencer)、インシュレーター(insulator)を含んでもよいが、これらに限定されない。
【0028】
本発明における用語「NFR(Nucleosome Free Region)」とは、調節領域と同じ領域を意味するが、調節領域内でヌクレオソームが存在しない領域を特に限定して指す。例えば、1~147bpは第1ヌクレオソーム、148~346bpはヌクレオソーム間の核酸、347~493bpは第2ヌクレオソーム、494~692はヌクレオソーム間の核酸、693~839bpは第3ヌクレオソーム、840~1039bpはヌクレオソーム間の核酸で構成されるエンハンサー領域がある場合、転写が開始されると、第2ヌクレオソームが離れて転写調節タンパク質が結合するようになる場合、NFRは148~692 bpの領域になる。
【0029】
また、正常サンプルでは前記のような方法で転写が進められるが、癌サンプルではNFRが存在しない可能性があり、あるいは他の領域のヌクレオソームが離れて別のNFRが発生する可能性があり、正常サンプルでは存在しないNFRが癌サンプルでは新たに生成される可能性がある。
【0030】
それだけでなく、血液細胞では前記のような方法で転写が進められるが、他の組織(例えば、肝臓)ではNFRが存在しない可能性があり、あるいは他の領域のヌクレオソームが離れて別のNFRが発生する可能性があり、血液細胞では存在しないNFRが癌サンプルでは新たに生成される可能性がある。
【0031】
したがって、本発明は一の観点から、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;
(d)選択された核酸断片を画像データとして生成するステップ;及び
(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して癌の有無を判定するステップを含む人工知能基盤の癌早期診断のための情報の提供方法に関する。
【0032】
本発明において、前記癌は、固形癌または血液癌であってもよく、好ましくは、非ホジキンリンパ腫(non-Hodgkin lymphoma)、ホジキンリンパ腫(non-Hodgkin lymphoma)、急性骨髄性白血病(acute-myeloid leukemia)、急性リンパ性白血病(acute-lymphoid leukemia)、多発性骨髄腫(multiple myeloma)、頭頸部癌(head and neck cancer)、肺癌、膠芽腫(glioblastoma)、大腸/直腸癌、膵臓癌、乳癌、卵巣癌、黒色腫(melanoma)、前立腺癌、肝癌、甲状腺癌、胃癌、胆嚢癌、胆道癌、膀胱癌、小腸癌、子宮頸癌、原発部位不明癌、腎臓癌、食道癌及び中皮腫(mesothelioma)からなる群から選択されてもよく、より好ましくは肝癌であってもよいが、これらに限定されない。
【0033】
本発明において、前記(a)ステップの配列情報を取得するステップは、次のステップを含む方法で行われることを特徴としてもよい:
(a-i)生体試料から核酸を得るステップ;
(a-ii)採取した核酸から、ソルトアウト法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いてタンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得るステップ;
(a-iii)精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)またはペアエンドシーケンシング(pair-end sequencing)ライブラリ(library)を作製するステップ;
(a-iv)作製されたライブラリを次世代シークエンサー(next-generation sequencer)に反応させるステップ;および
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得するステップ。
【0034】
本発明において、前記(a)ステップの配列情報を取得するステップは、分離された無細胞DNAを1百万~1億リードの深さで全長ゲノムシーケンシングにより取得することを特徴としてもよい。
【0035】
本発明において、前記生体試料とは、個体から得られるかまたは個体に由来する任意の物質、生物学的体液、組織または細胞を意味し、例えば、全血(whole blood)、白血球(leukocytes)、末梢血単核細胞(peripheral blood mononuclear cells)、白血球軟層(buffy coat)、血液(血漿(plasma)及び血清(serum)を含む)、喀痰(sputum)、涙(tears)、粘液(mucus)、鼻洗浄液(nasal washes)、鼻吸引物(nasal aspirate)、呼吸(breath)、尿(urine)、精液(semen)、唾液(saliva)、腹腔洗浄液(peritoneal washings)、骨盤内流体液(pelvic fluids)、嚢胞液(cystic fluid)、脳脊髄膜液(meningeal fluid)、羊水(amniotic fluid)、腺液(glandular fluid)、膵液(pancreatic fluid)、リンパ液(lymph fluid)、胸水(pleural fluid)、乳頭吸引物(nipple aspirate)、気管支吸引物(bronchial aspirate)、滑液(synovial fluid)、関節吸引物(joint aspirate)、臓器分泌物(organ secretions)、細胞(cell)、細胞抽出物(cell extract)、精液、毛髪、唾液、尿、口腔細胞、胎盤細胞、脳脊髄液(cerebrospinal fluid)及びこれらの混合物を含んでもよいが、これらに限定されない。
【0036】
本発明における用語、「参照集団」とは、標準塩基配列データベースのように比較可能な基準(reference)集団であって、現在特定の疾患または病症のない人の集団を意味する。本発明において、前記参照集団の標準染色体配列データベースにおける標準塩基配列は、NCBIなどの公共保健機関に登録されている参照染色体であってもよい。
【0037】
本発明において、前記(a)ステップの核酸は、無細胞DNAであってもよく、より好ましくは循環腫瘍細胞DNA(circulating tumor DNA)であってもよいが、これらに限定されない。
【0038】
本発明において、前記次世代シークエンサー(next-generation sequencer)は、当業界に公知の任意のシーケンシング法で使用してもよい。選択方法により分離された核酸のシーケンシングは、典型的には次世代シーケンシング(NGS)を使用して行われる。次世代シーケンシングは、個々の核酸分子または非常に類似した方式で個々の核酸分子に対してクローンで拡張されたプロキシの1つのヌクレオチド配列を決定する任意のシーケンシング法を含む(例えば、105個以上の分子が同時にシーケンシングされる)。一実施態様において、ライブラリ内の核酸種の相対的な存在比は、シーケンシング実験によって作成されたデータにおいて、その同族配列の相対的な発生数を計測することにより推定することができる。次世代シーケンシング法は当業界に公知されており、例えば、本明細書に参照として含まれる文献(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)に記載されている。
【0039】
一実施態様において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる(例えば、Helicos BioSciencesのHeliScope Gene Sequencing systemおよびPacific BiosciencesのPacBio RS system)。他の実施態様において、シーケンシング、例えば、より少ないがより長いリードを生成する他のシーケンシング法よりも、シーケンシング単位当たりの配列のより多くの塩基を生成する大規模並列の短い-リードシーケンシング(例えば、カリフォルニア州サンディエゴに所在するIllumina Inc.のSolexa sequencer)法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在するIllumina Inc.のSolexa sequencer;454 Life Sciences(コネチカット州ブランフォードに所在)及びIon Torrent)。次世代シーケンシングのための他の方法または機械は、以下に限定されないが、454 Life Sciences(コネチカット州ブランフォードに所在)、Applied Biosystems(カリフォルニア州フォスターシティに所在;SOLiDシーケンサー)、Helicos Biosciences Corporation(マサチューセッツ州ケンブリッジに所在)及びエマルジョンおよびマイクロフローシーケンシング法ナノ点滴(例えば、GnuBio点滴)によって提供される。
【0040】
次世代シーケンシングのためのプラットフォームは、以下に限定されないが、Roche/454のゲノムシーケンサー(Genome Sequencer: GS) FLXシステム、Illumina/Solexaのゲノムアナライザー(Genome Analyzer: GA)、Life/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection: SOLiD)システム、PolonatorのG.007システム、Helicos BioSciencesのHeliScope Gene Sequencing system及びPacific BiosciencesのPacBio RSシステムを含む。
【0041】
本発明において、前記(b)ステップの整列ステップは、これに限定されないが、BWAアルゴリズム及びHg19配列を用いて行われるものであってもよい。
【0042】
本発明において、前記BWAアルゴリズムは、BWA-ALN、BWA-SWまたはBowtie2などが含まれてもよいが、これらに限定されない。
【0043】
本発明において、前記(c)ステップを行うに先立ち、整列された核酸断片の整列一致度スコア(mapping quality score)が基準値以上のリードを選別するステップをさらに含むことを特徴としてもよく、前記基準値は、整列された核酸断片のクオリティを確認できる値であれば制限なく用いてもよく、好ましくは50~70点、さらに好ましくは60点であることを特徴としてもよいが、これに限定されない。
【0044】
本発明において、前記(c)ステップの調節領域は、組織特異的調節領域であることを特徴としてもよい。
【0045】
本発明において、前記組織特異的調節領域は、組織別に検出される無細胞DNAの長さ及び/又は量が異なることを特徴としてもよい。
【0046】
本発明において、前記組織特異的調節領域は、特定の組織、例えば、肝臓のみで検出される無細胞DNAの長さ及び/又は量が異なる組織、例えば、血液、脳、胃及び心臓などで検出される無細胞DNAの長さ及び/又は量が異なるか、または、固形組織(脳、肝臓、胃、肺及び心臓など)と血液組織(血液細胞、骨髄など)で互いに検出される無細胞DNAの長さ及び/又は量が異なってもよい。
【0047】
本発明において、前記組織特異的調節領域は、より具体的に、調節領域内でヌクレオソームが存在しない領域、すなわち、NFR(Nucleosome Free Region)を意味してもよいが、これに限定されない。
【0048】
本発明において、前記組織特異的調節領域は、人工知能モデルに入力する画像データを生成できる数であれば制限なく用いてもよく、好ましくは10個、100個、1,000個、10,000個、20,000個~50,000個であってもよいが、これらに限定されない。
【0049】
本発明において、前記(d)ステップの画像は、人工知能モデルが学習に使用できる画像であれば制限なく用いてもよく、好ましくは、x軸が選別された核酸断片の配列位置別のリード数で構成される1次元画像であることを特徴としてもよいが、これに限定されない。
【0050】
本発明において、前記(d)ステップの画像は、それぞれのbase pairごとにcfDNA readが積み重なった値を並べたものであり、例えば、[0.91、0.93、~~、0.73、0.86]のような形の構造を示してもよく、組織特異的調節領域として選別された位置を中心に±1000bp、合計2000bpを使用する場合には、[ ]内の数字が2000個となる。
【0051】
本発明において、前記(e)ステップの人工知能モデルは、正常画像と癌画像を区別できるように学習する学習モデルであれば制限なく用いてもよく、好ましくは人工ニューラルネットワークであってもよく、さらに好ましくは畳み込みニューラルネットワーク(convolutional neural network、CNN)または再帰ニューラルネットワーク(recurrent neural network、RNN)であってもよいが、これらに限定されない。
【0052】
本発明において、前記(e)ステップの基準値は、癌を早期診断できる値であれば制限なく用いてもよく、好ましくは0.5であってもよいが、これに限定されず、もし基準値が0.5の場合、0.5以上の場合に癌であると判定することを特徴としてもよい。
【0053】
本発明において、前記人工知能モデルは、学習する際に癌があればoutput結果が1に近く学習し、癌がなければoutput結果が0に近く学習させて、0.5を基準に0.5以上であれば癌があると判断し、0.5以下であれば癌がないと判断してperformance測定を行った(Training, validation, test accuracy)。
【0054】
ここで、0.5の基準値はいつでも変えられる値であることは、通常の技術者にとって自明である。例えば、False positive(偽陽性)を減らそうとすれば、0.5より高い基準値を設定し、癌があると判断される基準を厳格に取ることができ、False Negative(偽陰性)を減らそうとすれば、基準値をより低く測定して、癌があると判断される基準を少し弱く取ることができる。
【0055】
本発明において、前記人工知能モデルがCNNである場合、損失関数は下記数式1で表されることを特徴としてもよい。
【数1】
ここで、N=学習データ数、yは実際のlabel値、p(y)はモデルを通じて予測された確率値を意味する。
【0056】
本発明において、前記人工知能モデルがCNNである場合、学習は下記ステップを含めて行われることを特徴としてもよい:
i)生産された画像データをtraining(学習)、validation(検証)、test(性能評価)データに分類するステップ;
この時、TrainingデータはCNNモデルを学習する際に使用され、Validationデータはhyper-parameter tuning検証に使用され、Testデータは最適のモデルの生産後、性能評価に使用されることを特徴とする。
ii)Hyper-parameter tuning及び学習過程を通じて最適のCNNモデルを構築するステップ;
iii)Hyper-parameter tuningを通じて得られた複数のモデルの性能をvalidation dataを用いて比較し、validation data性能が最も良いモデルを最適のモデルとして決定するステップ;
【0057】
本発明において、前記Hyper-parameter tuning過程は、CNNモデルを構成する複数のparameter(convolution layer数、dense layer数、convolution filter数など)の値を最適化する過程であって、Hyper-parameter tuning過程としては、Hyperband optimization、Bayesian optimization及びgrid search法を使用することを特徴としてもよい。
【0058】
本発明において、前記学習過程は、定められたhyper-parametersを利用してCNNモデルの内部parameter(weights)を最適化させ、Training lossに対してvalidation lossが増加し始めると、モデルが過剰適合(Overfitting)したと判断し、その前にモデル学習を中断することを特徴としてもよい。
【0059】
本発明において、前記(e)ステップで人工知能モデルが入力された画像データから分析した結果値は、特定のscoreまたは実数であれば制限なく用いてもよく、好ましくは実数値であることを特徴としてもよいが、これに限定されない。
【0060】
本発明において、実数値は、人工知能モデルの最後のlayerにsigmoid functionまたはsoftmax functionを使用して人工知能モデルのoutputを0~1 scaleに調整して確率値で表現した値を意味する。
【0061】
本発明は他の観点から、
生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された配列基盤の核酸断片から調節領域の核酸断片(fragments)を選別する核酸断片選別部;
選別された核酸断片を画像データとして生成するデータ生成部;及び
生成された画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して、癌早期診断のための情報を提供する情報提供部;
を含む人工知能基盤の癌早期診断のための情報の提供装置に関する。
【0062】
本発明において、前記解読部は、独立した装置から抽出された核酸を注入する核酸注入部;および注入された核酸の配列情報を分析する配列情報分析部を含んでもよく、好ましくはNGS分析装置であってもよいが、これに限定されない。
【0063】
本発明において、前記解読部は、独立した装置で生成された配列情報データを受信して解読することを特徴としてもよい。
【0064】
本発明は他の観点から、
コンピュータ読み取り可能な記憶媒体であって、癌早期診断のための情報を提供するプロセッサによって実行されるように構成される命令を含み、
(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;
(d)選択された核酸断片を画像データとして生成するステップ;及び
(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して癌の有無を判定するステップを通じて、癌早期診断のための情報を提供するプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体に関する。
【0065】
他の態様では、本発明による方法は、コンピュータを用いて実施することができる。一実施態様において、コンピュータは、チップセットに連結された1つ以上のプロセッサを含む。また、チップセットには、メモリ、貯蔵装置、キーボード、グラフィックスアダプタ(Graphics Adapter)、ポインティングデバイス(Pointing Device)及びネットワークアダプタ(Network Adapter)などが連結されている。一実施態様では、前記チップセットの性能は、メモリコントローラハブ(Memory Controller Hub)及びI/Oコントローラハブによって可能になる。他の実施態様では、前記メモリは、チップセットの代わりにプロセッサに直接連結されて使用してもよい。貯蔵装置は、ハードドライブ、CD-ROM(Compact Disk Read-Only Memory)、DVDまたはその他のメモリ装置を含むデータを保持できる任意の装置である。メモリは、プロセッサによって使用されたデータおよび命令に関与する。前記ポインティングデバイスは、マウス、トラックボール(Track Ball)または他のタイプのポインティングデバイスであってもよく、キーボードと組み合わせて入力データをコンピュータシステムに送信することに使用される。前記グラフィックアダプタは、ディスプレイ上で画像及びその他の情報を示す。前記ネットワークアダプタは、近距離または長距離通信網によりコンピュータシステムと連結される。本願に使用されるコンピュータは、しかしながら、前記のような構成に限定されず、一部の構成がないか、または追加の構成を含んでもよく、また、貯蔵装置領域ネットワーク(SAN、Storage Area Network)の一部であってもよく、本願のコンピュータは、本願による方法の実行のためのプログラムにモジュールの実行に適するように構成されてもよい。
【0066】
本願におけるモジュールとは、本願による技術的思想を実行するためのハードウェア及び前記ハードウェアを駆動するためのソフトウェアの機能的、構造的結合を意味してもよい。例えば、前記モジュールは所定のコードと前記所定のコードが行われるためのハードウェアリソース(Resource)の論理的な単位を意味してもよく、必ずしも物理的に連結されたコードを意味するか、一種類のハードウェアを意味するものではないことは、本願の技術分野における当業者にとって自明である。
【0067】
本発明は他の観点から、(a)生体試料から核酸を抽出して配列情報を取得するステップ;
(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;
(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;
(d)選別された核酸断片を画像データとして生成するステップ;及び
(e)生成された前記画像データを、正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して基準値を超える場合、癌があると判定するステップを含む癌早期診断方法に関する。
【0068】
本発明は、他の観点から、(a)前記方法で調節領域の核酸断片の画像データを人工知能モデルに入力して分析するステップ;(b)人工知能モデルが出力した値が基準値を超える場合、癌があると判定するステップ;および(c)癌があると判定された患者を治療するステップを含む癌患者の治療方法に関する。
【0069】
本発明において、前記癌治療剤は、癌または微小残存癌を治療できる方法であれば制限なく使用してもよく、好ましくは、手術、補助化学療法(adjuvant chemotherapy)、ネオアジュバント化学療法(neoadjuvant chemotherapy)、放射線療法(radiation therapy)、ホルモン療法(hormone therapy)、細胞毒性療法(cytotoxic therapy)、免疫療法(immunotherapy)、移植T細胞療法(adoptive T cell therapy)、ターゲット療法(targeted therapy)及びこれらの組み合わせから構成される群から選択されるいずれか1つ以上の方法で行うことを特徴としてもよく、さらに好ましくは、癌治療剤を投与して治療することを特徴としてもよく、最も好ましくは、化学抗癌剤、標的抗癌剤及び免疫抗癌剤から構成される群から選択されるいずれか1つ以上の抗癌剤を投与して治療することを特徴としてもよいが、これらに限定されない。
【0070】
本発明は、他の観点から、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;整列された配列基盤の核酸断片から調節領域の核酸断片(fragments)を選別する核酸断片選別部;選別された核酸断片を画像データとして生成するデータ生成部;及び生成された画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して、基準値を超える場合、癌があると判定する癌診断部;を含む人工知能基盤の癌早期診断装置に関する。
【0071】
本発明は、他の観点から、コンピュータ読み取り可能な記憶媒体であって、癌早期診断を行うプロセッサによって実行されるように構成される命令を含み、(a)生体試料から核酸を抽出して配列情報を取得するステップ;(b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)するステップ;(c)前記整列された配列情報(reads)に基づいて調節領域の核酸断片(fragments)を選別するステップ;(d)選別された核酸断片を画像データとして生成するステップ;及び(e)生成された前記画像データを正常画像と癌画像を区別するように学習された人工知能モデルに入力して分析し、基準値(cut-off value)を超える場合、癌があると判定するステップを通じて、癌早期診断を行うプロセッサによって実行されるように構成される命令を含むコンピュータ読み取り可能な記憶媒体に関する。
【実施例
【0072】
以下、実施例により本発明をさらに詳細に説明する。これらの実施例は、もっぱら本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって限定されるものと解釈されないことは当業界における通常の知識を有する者にとって自明であろう。
【0073】
実施例1.調整領域の確保
調節領域はATAC-seq、DNase-seq、FAIRE-seqなどのnext generation sequencing(NGS)技術で確認することができるが、本発明者らは23種の癌に対する400人以上の患者に対して調節領域データを生産したTCGAデータと16個の血液細胞に対する調節領域についてプロファイルしたデータを使用した(DOI: 10.1126/science.aav1898, DOI:https://doi.org/10.1038/ng.3646)。
【0074】
当該調節因子データを用いてNucleosome Free Region(NFR)を探すためにHMMRATACというツールを使用し、調節領域を探すためにMACS2ツールを使用した。HMMRATACはdefaultオプションを用いてゲノム上のNFRを見付け、MACS2ツールは「--shift -75 --extsize 150 --nomodel --nolambda --call-summits -q 0.05 -B -SPMR」オプションを利用して調節領域を見付けた。
【0075】
まず、Blood関連の細胞タイプとしてHMMRATACを用いてBcellは39604個、CD4Tcellは40795個、CD8Tcellは44687個、Monocyteは36342個、NKcellは42458個のNFRを見付けた。このうち、NFR数が最も多かったCD8Tcellをblood細胞タイプの代表として使用し、CD8Tcellから見付けたNFR領域と17人の肝癌患者の調節領域が重なるかどうかをBedtoolsのintersectBedを利用して計算した。この時、intersectBedの基本オプションで進行したため、2つの領域の間に半分以上が重なる場合、重なると計算をした。
【0076】
同様に、総17人の肝癌患者のATAC-seqデータを利用してHMMRATACプログラムでNFR領域を探し、各サンプル当たり最小13712個から62344個のNFR領域を確保した。このうち、最も多くの62344個のNFRを確保したサンプルを肝癌代表として使用し、blood細胞タイプの合計5つと前記のような方式で重ねて値を計算した。そして、blood代表細胞タイプであるCD8TcellのNFRを肝癌調節領域とオーバーラップした時、何もオーバーラップしない領域を血液特異的NFRと命名し、肝癌調節領域と全てオーバーラップするNFRを血液共通的NFRと命名した。また、逆に肝癌大砲サンプルのNFRと血液細胞の調節領域とオーバーラップした時、何もオーバーラップしない領域を肝癌特異的NFRと命名し、血液特異的NFRと全てオーバーラップする領域を肝癌共通的NFRと命名した。
【0077】
かかる方式を用いて血液細胞特異的NFRsは8,806個、血液共通的NFRsは17508個、肝癌特異的NFRsは24,642個、肝癌共通的NFRsは19134個を選別し、これらの領域に蓄積されたcfDNA readsの分布でディープラーニング画像を構築した(図4)。
【0078】
実施例2.人工知能モデルの構築
調節領域位置にcfDNAの分布を用いてディープラーニングモデルのインプットとして使用するために、cfDNAの分布を図5のように作製した。
【0079】
つまり、NGSを通じて血液中に漂う数百万個のcfDNA断片に関する情報を得ることができ、調節領域に位置する各cfDNA断片を用いて画像のように作るために、x軸にcfDNA断片のゲノム内の位置に関する情報を積み重ねて1D画像を作った(図5)。
【0080】
組織特異的な調節領域についてディープラーニングのインプット画像として作製し、当該モデルでは正常人と肝癌を区別するモデルであるため、血液細胞特異的な調節領域と肝癌特異的な調節領域の2つのインプット画像を作製し、2つを合わせて最終的なインプット画像として作製した。
【0081】
x軸に対応するcfDNAの位置は、HMMRATACでコールしたNFRを主にして±1000bp、合計2000bpを使用した。つまり、それぞれのbp毎にcfDNAリードが積み重なった値を1D画像として構築したものである。
【0082】
したがって、最終インプット画像は2000(x軸、cfDNAの位置)x4(血液細胞特異的、共通的調節領域、肝癌特異的、共通的調節領域)で構成されている。
【0083】
Convolutional neural network (CNN)モデルは、kernelを通じて局所的な特徴をよく捉えるため、画像分類に良い性能を示すモデルなので、前記cfDNA分布を画像データとして生成し、CNNモデルでパターンを学習し、この学習されたパターンで癌であるか正常であるかを判定するモデルを製作した。
【0084】
実験例1.肝癌早期診断モデルの構築
本モデルが肝癌診断に使用できるかどうかを確認するために、健康な人(healthy)187人、肝癌患者64人の血液を採取し、streck tubeに保管した。遠心分離後、血液の上部にあるplasmaを分離した後、tiangen kitを用いてcfDNAを抽出し、MGI DNB-seqを用いてシーケンシングを行った。
【0085】
モデル学習には末期肝癌と健康な人たち合計251人を利用し、trainingには150人、validationには49人の学習を行い、testにより52人で性能を確認した。
【0086】
ディープラーニングは学習するデータ数が多ければ多いほど学習がうまくいくので、学習できるサンプル数を増やすために1サンプル当たりdown-samplingを行い、1.7×10^7 個のreadsをランダムに10回選んでサンプル数を増やして学習を行った。
【0087】
【表1】
【0088】
実験例2.肝癌早期診断モデルの性能の確認
2020個のtraining setと670個のvalidation set、680個のtest setにより、hyperbandを用いて様々なhyperparameterをtuningし、最終的にtrainingではaucが0.98、validationではaucが0.94、testではaucが0.86と高い性能を確認した(図7)。
【0089】
また、前記選別された組織特異的NFRではなく、ランダムに選択された領域を用いた場合には、trainingではaucが0.83、validationでは0.79、testでは0.70と出ることを確認し、選別された組織特異的NFRが正常人と肝癌を区別することに重要であり、選別された領域を通じて正確に肝癌患者を選別することを確認することができた。
【0090】
以上、本発明の内容の特定の部分を詳細に説明したが、当業界における通常の知識を有する者にとって、これらの具体的な記述は単なる好ましい実施態様に過ぎず、これによって本発明の範囲が限定されないことは明らかである。したがって、本発明の実質的な範囲は、添付の請求項とそれらの等価物によって定義されるといえる。
【産業上の利用可能性】
【0091】
本発明による癌早期診断方法は、次世代シーケンシング法(Next Generation Sequencing, NGS)で得られた組織特異的調節領域の無細胞核酸分布を用いて人工知能基盤で癌を早期診断し、精度と敏感度が高く、商業的活用度が高いので、本発明の方法は癌早期診断に有用である。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】