(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-19
(54)【発明の名称】人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法及びこれを用いたがんの早期診断方法{Method for detecting tumor derived mutation from cell-free DNA based on artificial intelligence and Method for early diagnosis of cancer using the same}
(51)【国際特許分類】
G16B 20/20 20190101AFI20240312BHJP
G16B 40/20 20190101ALI20240312BHJP
【FI】
G16B20/20
G16B40/20
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023558208
(86)(22)【出願日】2022-03-25
(85)【翻訳文提出日】2023-09-21
(86)【国際出願番号】 KR2022004189
(87)【国際公開番号】W WO2022203437
(87)【国際公開日】2022-09-29
(31)【優先権主張番号】10-2021-0038719
(32)【優先日】2021-03-25
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523165307
【氏名又は名称】ジーシー ゲノム コーポレーション
【氏名又は名称原語表記】GC GENOME CORPORATION
(74)【代理人】
【識別番号】100139594
【氏名又は名称】山口 健次郎
(72)【発明者】
【氏名】チョイ ジョンギュン
(72)【発明者】
【氏名】キム ギュヒ
(72)【発明者】
【氏名】チョ ウンヘ
(57)【要約】
本発明は、人工知能基盤の無細胞DNAの腫瘍由来変異検出によるがんの早期診断方法に関し、より具体的には、生体試料から配列情報を獲得した後、配列情報を参照遺伝体と比較して変異を検出し、検出された変異情報を、腫瘍由来の有無を判定することができるように学習された人工知能モデルに入力し分析する方法を用いた人工知能基盤の無細胞DNAの腫瘍由来変異検出によるがんの早期診断方法に関する。本発明による無細胞DNAの腫瘍由来変異の検出方法及びこれを用いたがんの早期診断方法は、次世代塩基配列分析技法(Next Generation Sequencing, NGS)を用いて人工知能基盤でがんの機能的特徴及び配列的特徴の両方を用いてがんを早期に診断し、正確度と敏感度が高く、商業的活用度が高いため、本発明の方法はがんの早期診断に有用である。
【特許請求の範囲】
【請求項1】
次の段階を含む人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法:
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;
(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;及び
(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、
前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とする。
【請求項2】
前記(a)段階は、次の段階を含む方法で行われることを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法:
(a-i)生体試料から核酸を収得する段階;
(a-ii)採取された核酸からソルティング-アウト法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を使用して、タンパク質、脂肪、及びその他の残余物を除去し、精製された核酸を収得する段階;
(a-iii)精製された核酸または酵素的切断、粉砕、水圧切断法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシークエンシング(single-end sequencing)またはペアエンドシークエンシング(pair-end sequencing)ライブラリ(library)を作製する段階;
(a-iv)作製されたライブラリを次世代遺伝子配列検査機(next-generation sequencer)に反応させる段階;及び
(a-v)次世代遺伝子配列検査機で核酸の配列情報(reads)を獲得する段階。
【請求項3】
前記(c)段階を行う前に、整列された核酸断片の整列一致度点数(mapping quality score)が基準値以上であるリードを選別する段階をさらに含むことを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項4】
前記基準値は50~70点であることを特徴とする、請求項3に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項5】
前記(c)段階の変異を検出する段階は、下記の段階を含んで行うことを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法:
(c-i)整列されたリードから参照遺伝体と塩基配列が異なる塩基配列を選別する段階;及び
(c-ii)選別された塩基配列情報を貯蔵する段階;
【請求項6】
前記(d)段階のがんの機能的特徴は、
(i)単一遺伝子変異の蓄積パターン(regional mutation density, RMD)及び
(ii)複製時間、H3K4Me1、H3K4Me3、H3K9Me3、H3K27Me3、H3K36Me3、Dnase I hypersensitive site(DHS)、DHSにおけるタンパク質結合サイト(footprint)遺伝子発現量、陽性選別点数(cancer positive selection score)及び陰性選別点数(cancer negative selection score)からなる群から選択される一つ以上の特徴を含むことを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項7】
前記(d)段階の変異パターンは、C->A、C->G、C->T、T->A、T->C及びT->Gからなる群から選択される一つ以上であることを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項8】
前記(d)段階の変異の技術的特徴は、当該変異地域の参照アレル(reference allele)の平均リード深さ(read depth)、平均マッピングクオリティ(mapping quality)、平均塩基クオリティ(base quality)、平均ミスマッチ(mismatch)数、参照アレル(reference allele)位置の平均、ミスマッチ(mismatch)の塩基クオリティ(base quality)合計の平均、3'末端にphread qualityが2である塩基(base)の個数または位置、クリップされたリード長さ(clipped read length)の平均、リード(read)の3' endからの位置の平均、プラス鎖リード(plus strand read)の比率、DNA断片の長さ(DNA fragment length);
当該変異地域の変異アレル(variant allele)の平均リード深さ(read depth)、平均マッピングクオリティ(mapping quality)、平均塩基クオリティ(base quality)、平均ミスマッチ(mismatch)数、参照アレル(reference allele)位置の平均、ミスマッチ(mismatch)の塩基クオリティ(base quality)合計の平均、3'末端にphread qualityが2である塩基(base)の個数または位置、クリップされたリード長さ(clipped read length)の平均、リード(read)の3' endからの位置の平均、プラス鎖リード(plus strand read)の比率、DNA断片の長さ(DNA fragment length);DNA断片(DNA fragment)比率;及び
MUT.notBoth(forward、reverse readで変異位置に重複(overlap)がないDNA断片(DNA fragment)の数+重複(overlap)があっても変異が一致しないfragmentの数)からなる群から選択される一つ以上の特徴を含むことを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項9】
前記(d)段階の特徴は、表1に記載の特徴(feature)を含むことを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項10】
前記(d)段階の人工知能モデルは、腫瘍由来突然変異であるか否かを区別することができるように学習することを特徴とする、請求項1に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項11】
前記人工知能モデルは、ランダムフォレスト(random forest)、XGブースト(XGboost)及び深層神経網(deep neural network)からなる群から選択される一つ以上であることを特徴とする、請求項10に記載の人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法。
【請求項12】
次の段階を含むがんの早期診断のための情報の提供方法:
(a)請求項1~11の中いずれか一項に記載の方法で、無細胞DNAの腫瘍由来変異を検出する段階;及び
(b)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階。
【請求項13】
生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体の配列データベースに整列する整列部;
整列された配列情報に基づいて変異を検出する変異検出部;
検出された変異を腫瘍由来変異を区別するように学習された人工知能モデルに入力し、腫瘍由来変異の有無を判定する腫瘍由来変異検出部;及び
腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定するがん診断部;
を含む人工知能基盤のがんの早期診断のための情報の提供装置。
【請求項14】
コンピュータ判読可能な貯蔵媒体であり、がんの早期診断のための情報を提供するプロセッサによって実行するように構成される命令を含むものの、
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;
(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;
(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、
前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とし;及び
(e)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を通じ、がんの早期診断のための情報を提供するプロセッサによって実行するように構成される命令を含むコンピュータ判読可能な貯蔵媒体。
【請求項15】
次の段階を含むがんの早期診断方法:
(a)請求項1~11の中いずれか一項に記載の方法で、無細胞DNAの腫瘍由来変異を検出する段階;及び
(b)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能基盤の無細胞DNAの腫瘍由来変異検出によるがんの早期診断方法に関し、より具体的には、生体試料から配列情報を獲得した後、配列情報を参照遺伝体と比較して変異を検出し、検出された変異情報を、腫瘍由来の有無を判定することができるように学習された人工知能モデルに入力して分析する方法を用いた人工知能基盤の無細胞DNAの腫瘍由来変異検出によるがんの早期診断方法に関する。
【背景技術】
【0002】
精密腫瘍学の主要な目標は、がんの診断及び治療を改善することである。このために、様々なゲノム及びその他の分子分析法を腫瘍物質に適用し、治療法を選択するために公知の予測マーカーを識別し、予後を推定することができる分子のサブタイプの分類を誘導する。そして、腫瘍の進行に関連する体細胞変化を特性化し、妨害される経路を感知し、転移性疾患の分子判別子を確認する。腫瘍ゲノムを詳細に特性化するために、様々な次世代シークエンシング(NGS)基盤の接近法が使用されたが、包括的な多重媒介変数分析により、より正確な腫瘍タイプを分類することができる。例えば、TCGA(The Cancer Genome Atlas)研究ネットワークは、数百種の腫瘍に関して、DNA、RNA、タンパク質及び後成遺伝的レベルで包括的な分子プロファイルを生成した。このような多重媒介変数分析の結果、腫瘍タイプ及び識別された新しい腫瘍サブタイプに対する機能的役割及び分子変異に関する理解が向上するように作製した。重要なことは、このような努力により、精密医薬品の可能性を実現するための前提条件である新しい薬物対象を識別するようになったことである。しかし、分子プロファイリングのための腫瘍物質に対する接近は、一般的に可能ではないが、腫瘍遺伝子型の連続モニタリングには適合しない侵襲的な方法に依存する。
【0003】
従って、精密腫瘍学の非侵襲的で何度も繰り返すことができ、疾患のモニタリングが容易な液体生検にますます焦点が当てられている。実際、がんの早期発見のために、このような液体生検を使用しようとする試みが行われている。「液体生検」という用語は、まず組織生検サンプルから由来する血液サンプルで同じ診断情報を導出することができる方法を説明するために使用された。腫瘍学においてこの用語は、血液だけでなく、尿、腹水または胸膜のような容易に接近することができる様々な生物学的流体の分析及びサンプリングを意味する広い意味で使用された。
【0004】
この時、体液末梢血液の分析物は、循環腫瘍細胞(CTC)、循環腫瘍DNA(ctDNA)を含有するがん患者の循環無細胞DNA(cfDNA)と小さなRNAだけでなく、mRNAを含有する循環無細胞RNA(cfRNA)、エクソソームのような循環細胞外小胞(EV)、腫瘍educated血小板(TEP)、タンパク質及び代謝物質を含む。そして、このような分析物質は、病理学者によって一般的に得られる一次腫瘍または転移の特徴に関する情報を提供する可能性がある。一般的に、CTCまたはctDNAから得られるゲノム突然変異及び複製数の変更に対する情報以外にも、液体生検は、転写体、原形質体、タンパク質体、代謝体に対する一般的な情報を生成するために使用されている(Jacob J. Chabon et al., Nature, Vol. 580, pp. 245-25, 2020)。
【0005】
液体生検の種類のうち一つがcell free DNA(cfDNA)で、血液を含む様々な体液内にさまよう小さなDNAの断片を分析する方法である。cfDNAを用いたがんの早期診断研究が活発に進行されているが、現在、単一遺伝子変異(Single Nucleotide Variants)を正確に分析する研究は改善すべき事項が多い。単一遺伝子変異を用いたcfDNAがん研究が難しい理由は、cfDNAを通じて発掘される単一遺伝子変異は、ほとんどがんから由来していないためである。腫瘍から由来した単一遺伝子変異の量が血液中に非常に少なく分布するため、正確な腫瘍由来変異の発掘は困難を抱えている。
【0006】
従って、すでによく知られているがんを引き起こす単一遺伝子変異に限定して多くの研究が進行されているが、繰り返し発見される変異は何種も存在せず、複数の患者から同じ変異が発見される場合も非常に少ないのが実情である。
【0007】
このような技術背景の下、本発明者らは、人工知能基盤の無細胞DNAの腫瘍由来変異の発掘方法及びこれを用いたがんの早期診断方法を開発するために鋭意努力した結果、獲得した配列情報から変異を検出した後、検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力する場合、高い敏感度と正確度で無細胞DNAの腫瘍由来変異を検出することができ、これを用いてがんを早期に診断することができることを確認し、本発明を完成した。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法を提供することである。
【0009】
本発明の他の目的は、前記方法を用いたがんの早期診断のための情報の提供方法を提供することである。
【0010】
本発明のもう一つの目的は、前記方法を用いたがんの早期診断方法を提供することである。
【0011】
本発明のもう一つの目的は、前記がんの早期診断のための情報の提供方法に用いられる装置及びコンピュータ判読可能な貯蔵媒体を提供することである。
【0012】
本発明のもう一つの目的は、前記がんの早期診断方法に用いられる装置及びコンピュータ判読可能な貯蔵媒体を提供することである。
【課題を解決するための手段】
【0013】
前記目的を達成するために、本(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;
(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;及び
(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、
前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とする人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法を提供する。
【0014】
本発明はまた、(a)前記方法で無細胞DNAの腫瘍由来変異を検出する段階;及び(b)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を含むがんの早期診断のための情報の提供方法を提供する。
【0015】
本発明はまた、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体の配列データベースに整列する整列部;整列された配列情報に基づいて変異を検出する変異検出部;検出された変異を腫瘍由来変異を区別するように学習された人工知能モデルに入力し、腫瘍由来変異の有無を判定する腫瘍由来変異検出部;及び腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定するがん診断部;を含む人工知能基盤のがんの早期診断のための情報の提供装置を提供する。
【0016】
本発明はまた、コンピュータ判読可能な貯蔵媒体であり、がんの早期診断のための情報を提供するプロセッサによって実行するように構成される命令を含むものの、(a)生体試料から核酸を抽出して配列情報を獲得する段階;(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とし;及び(e)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を通じ、がんの早期診断のための情報を提供するプロセッサによって実行するように構成される命令を含むコンピュータ判読可能な貯蔵媒体を提供する。
【0017】
本発明はまた、(a)前記方法で無細胞DNAの腫瘍由来変異を検出する段階;及び(b)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を含むがんの早期診断方法を提供する。
【0018】
本発明はまた、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体の配列データベースに整列する整列部;整列された配列情報に基づいて変異を検出する変異検出部;検出された変異を腫瘍由来変異を区別するように学習された人工知能モデルに入力して腫瘍由来変異の有無を判定する腫瘍由来変異検出部;及び腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定するがん診断部;を含む人工知能基盤のがんの早期診断装置を提供する。
【0019】
本発明はまた、コンピュータ判読可能な貯蔵媒体であり、がんの早期診断を行うプロセッサによって実行するように構成される命令を含むものの、(a)生体試料から核酸を抽出して配列情報を獲得する段階;(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とし;及び(e)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を通じ、がんの早期診断を行うプロセッサによって実行するように構成される命令を含むコンピュータ判読可能な貯蔵媒体を提供する。
【図面の簡単な説明】
【0020】
【
図1】本発明の人工知能基盤の無細胞DNAの腫瘍由来変異検出のための全体のフローチャートである。
【
図2】本発明の人工知能基盤のがんの早期診断方法に対する全体のフローチャートである。
【
図3】本発明の一実施例に従って発掘した無細胞DNAの単一遺伝子変異の由来別特徴を分析した結果であり、上のパネルは一実施例に従って分析した乳がん患者の無細胞DNAの単一遺伝子変異の由来別mutational signatureであり、下のパネルはPan-cancer Analysis of Whole Genomes (PCAWG)という大規模がん遺伝子プロジェクトで進行したがん種別がん患者のがん組織におけるmutational signatureである。mutational signatureとは、特定のがん種で発生する単一遺伝子変異の種類には特定のパターンが存在するという概念である。
【
図4】乳がん患者のcfDNA由来別乳がんbiological feature分布を確認した結果であり、(A)はreplication score、H3K9me3及び遺伝子発現量を確認した結果であり、(B)は単一遺伝子変異の蓄積パターン(Regional Mutation Density, RMD)を確認した結果である。
【
図5】本発明の一実施例に従って構築した乳がん由来の単一遺伝子変異の検出学習モデルの性能を確認した結果であり、(A)はROC curveで敏感度と特異度を用いて分類モデルの性能を示す方法であり、(B)はPR curveで精密度と再現率を用いて分類モデルの性能を示す方法である。
【
図6】本発明の一実施例に従って構築した学習モデルに使用した個別の特徴の重要度を評価した結果である。
【
図7】本発明の一実施例に従って構築した学習モデルを用いて予測したmutational signatureと実際の結果を比較した結果である。
【発明を実施するための形態】
【0021】
他に定義されない限り、本明細書で使用された全ての技術的及び科学的用語は、本発明が属する技術分野における熟練した専門家により通常理解されるものと同じ意味を有する。一般に、本明細書で使用された命名法及び以下に記述する実験方法は、当該技術分野において周知であり、通常使用されるものである。
【0022】
第1、第2、A、B等の用語は、様々な構成要素を説明するために使用することができるが、当該構成要素は、前記用語によって限定されず、単に一つの構成要素を他の構成要素から区別する目的でのみ使用される。例えば、以下に説明する技術の権利範囲を逸脱することなく、第1構成要素は第2構成要素と命名することができ、類似に第2構成要素も第1構成要素と命名することができる。及び/またはという用語は、複数の関連し記載された項目の組み合わせまたは複数の関連し記載された項目のうちいずれかの項目を含む。
【0023】
本明細書で使用される用語において、単数の表現は、文脈上明らかに異なって解釈されない限り、複数の表現を含むものと理解されなければならず、「含む」等の用語は、説示された特徴、個数、段階、動作、構成要素、部分品またはこれらを組み合わせたものが存在することを意味するものであり、一つまたはそれ以上の他の特徴や個数、段階、動作、構成要素、部分品またはこれらを組み合わせたものの存在または付加可能性を排除しないものと理解されなければならない。
【0024】
図面に対する詳細な説明をする前に、本明細書における構成部に対する区分は、各構成部が担当する主機能別に区分したものに過ぎないことを明確にしようとする。すなわち、以下で説明する二つ以上の構成部が一つの構成部に合わさるか、または一つの構成部がより細分化された機能別に二つ以上に分化されて具備されることもある。そして、以下で説明する構成部それぞれは、自身が担当する主機能以外にも、他の構成部が担当する機能のうち一部または全ての機能を追加的に行うこともでき、構成部それぞれが担当する主機能のうち一部機能が他の構成部により専担されて行うこともできることはもちろんである。
【0025】
また、方法または動作方法を行うにあたり、前記方法を構成する各過程は、文脈上明らかに特定の順序を記載しない限り、明記された順序と異なって行われることがある。すなわち、各過程は、明記された順序と同じく行われることもあり、実質的に同時に行われることもあり、反対の順序で行われることもある。
【0026】
本発明においては、サンプルから獲得した配列分析データを参照遺伝体に整列した後、整列された核酸断片から変異を検出し、検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力する場合、高い敏感度と正確度で無細胞DNAの腫瘍由来変異を検出することができることを確認しようとした。
【0027】
すなわち、本発明の一実施例においては、がんの機能的特徴及びsequencing quality特徴を含む48個の特徴で腫瘍由来変異を発掘することができる学習モデルを構築し、乳がん患者38人のcfDNA、tumor、WBC液体生検遺伝体データを用いて性能をテストした結果、その性能が優れていることを確認した(
図5)。
【0028】
本発明において、用語「リード(reads)」とは、当業界に知られている様々な方法を用いて配列情報を分析した一つの核酸断片を意味する。従って、本明細書において、用語「配列情報」及び「リード」は、シークエンシング過程を通じて配列情報を収得した結果物であるという点で同じ意味を有する。
【0029】
本発明において、用語「腫瘍由来変異」とは、がん細胞から発生した変異を意味する。
【0030】
従って、本発明は一観点から、
次の段階を含む人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法に関する:
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;
(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;及び
(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、
前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とする。
【0031】
本発明において、(a)段階の配列情報を獲得する段階は、次の段階を含む方法で行われることを特徴とすることができる:
(a-i)生体試料から核酸を収得する段階;
(a-ii)採取した核酸からソルティング-アウト法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を使用して、タンパク質、脂肪、及びその他の残余物を除去し、精製された核酸を収得する段階;
(a-iii)精製された核酸または酵素的切断、粉砕、水圧切断法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシークエンシング(single-end sequencing)またはペアエンドシークエンシング(pair-end sequencing)ライブラリ(library)を作製する段階;
(a-iv)作製されたライブラリを次世代遺伝子配列検査機(next-generation sequencer)に反応させる段階;及び
(a-v)次世代遺伝子配列検査機で核酸の配列情報(reads)を獲得する段階。
【0032】
本発明において、前記(a)段階の配列情報を獲得する段階は、分離された無細胞DNAを1百万~1億リードの深さで全ゲノムシークエンシングを通じて獲得することを特徴とすることができる。
【0033】
本発明において、前記生体試料とは、個体から得られるか、個体から由来した任意の物質、生物学的体液、組織または細胞を意味するものであり、例えば、全血(whole blood)、白血球(leukocytes)、末梢血単核細胞(peripheral blood mononuclear cells)、白血球軟層(buffy coat)、(血漿(plasma)及び血清(serum)を含む)血液、喀痰(sputum)、涙(tears)、粘液(mucus)、鼻洗浄液(nasal washes)、鼻腔吸引物(nasal aspirate)、呼吸(breath)、尿(urine)、精液(semen)、唾液(saliva)、腹腔洗浄液(peritoneal washings)、骨盤内流体液(pelvic fluids)、嚢腫液(cystic fluid)、脳脊髄膜液(meningeal fluid)、羊水(amniotic fluid)、腺液(glandular fluid)、膵液(pancreatic fluid)、リンパ液(lymph fluid)、胸水(pleural fluid)、乳頭吸引物(nipple aspirate)、気管支吸引物 (bronchial aspirate)、滑液(synovial fluid)、関節吸引物(joint aspirate)、器官分泌物(organ secretions)、細胞(cell)、細胞抽出物(cell extract)、毛髪、口腔細胞、胎盤細胞、脳脊髄液(cerebrospinal fluid)及びこれらの混合物を含むことができるが、これらに制限されない。
【0034】
本発明において、用語「参照集団」とは、標準塩基配列データベースのように比較することができる基準(reference)集団であり、現在、特定の疾患または病症がない人の集団を意味する。本発明において、前記参照集団の標準染色体の配列データベースにおける標準塩基配列は、NCBI等の公共保健機関に登録されている参照染色体であり得る。
【0035】
本発明において、前記(a)段階の核酸は、無細胞DNAであってもよく、より望ましくは、循環腫瘍細胞DNA(circulating tumor DNA)であってもよいが、これらに限定されない。
【0036】
本発明において、前記次世代遺伝子配列検査機(next-generation sequencer)は、当業界に公知の任意のシークエンシング方法で使用することができる。選択方法により分離された核酸のシークエンシングは、典型的には次世代シークエンシング(NGS)を使用して行われる。次世代シークエンシングは、個々の核酸分子または高度に類似した方式で、個々の核酸分子に対してクローンで拡張されたプロキシのうち一つのヌクレオチド配列を決定する任意のシークエンシング方法を含む(例えば、105個以上の分子が同時にシークエンシングされる)。一実施態様において、ライブラリ内の核酸種の相対的な存在比は、シークエンシング実験によって作製されたデータにおけるその同族配列の相対的な発生数を計測することによって推定することができる。次世代シークエンシング方法は当業界に公知であり、例えば、本明細書に参照として含まれる文献(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)に記載される。
【0037】
一実施態様において、次世代シークエンシングは、個々の核酸分子のヌクレオチド配列を決定するために行う(例えば、ヘリコスバイオサイエンス(Helicos BioSciences)のヘリスコープ遺伝子シークエンシングシステム(HeliScope Gene Sequencing system)及びパシフィックバイオサイエンスのパックバイオアールエスシステム(PacBio RS system))。他の実施態様において、シークエンシング、例えば、より少ないがより長いリードを作製する他のシークエンシング方法よりも、シークエンシング単位あたりの配列のより多くの塩基を作製する大量並列の短い-リードシークエンシング(例えば、カリフォルニア州サンディエゴに所在するイルミナインコーポレイテッド(Illumina Inc.)ソレクサシークエンサー(Solexa sequencer))方法は、個々の核酸分子に対するクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在するイルミナインコーポレイテッド(Illumina Inc.)ソレクサシークエンサー(Solexa sequencer);454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)及びアイアントレント(Ion Torrent))。次世代シークエンシングのための他の方法または機械は、以下に制限されないが、454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)、アプライドバイオシステムズ(カリフォルニア州フォスターシティに所在;SOLiDシークエンサー)、ヘリコスバイオサイエンスコーポレーション(マサチューセッツ州ケンブリッジに所在)及びエマルジョン及びマイクロ流動シークエンシング技法ナノ点滴(例えば、ジヌバイオ(GnuBio)点滴)によって提供される。
【0038】
次世代シークエンシングのためのプラットフォームは、以下に制限されないが、ロシュ(Roche)/454のゲノムシークエンサー(Genome Sequencer:GS)FLXシステム、イルミナ(Illumina)/ソレクサ(Solexa)のゲノム分析器(Genome Analyzer:GA)、ライフ(Life)/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection:SOLiD)システム、ポロネーター(Polonator)のG.007システム、ヘリコスバイオサイエンスのヘリスコープ遺伝子シークエンシングシステム(Helicos BioSciences’ HeliScope Gene Sequencing system)及びパシフィックバイオサイエンス(Pacific Biosciences)のパックバイオアールエス(PacBio RS)システムを含む。
【0039】
本発明において、前記(b)段階の整列段階は、これに制限されないが、BWAアルゴリズム及びHg19配列を用いて行われるものであり得る。
【0040】
本発明において、前記BWAアルゴリズムは、BWA-ALN、BWA-SWまたはBowtie2等を含むことができるが、これらに限定されない。
【0041】
本発明において、前記(c)段階を行う前に、整列された核酸断片の整列一致度点数(mapping quality score)が基準値以上であるリードを選別する段階をさらに含むことを特徴とすることができ、前記基準値は、整列された核酸断片のクオリティを確認することができる値であれば、制限なく用いることができ、望ましくは50~70点、さらに望ましくは60点であることを特徴とすることができるが、これに限定されない。
【0042】
本発明において、前記(c)段階の変異を検出する段階は、以下の段階を含んで行うことを特徴とすることができる:
(c-i)整列されたリードから、参照遺伝体と塩基配列が異なる塩基配列を選別する段階;及び
(c-ii)選別された塩基配列情報を貯蔵する段階;
【0043】
本発明において、前記(c-i)段階は、変異を検出することができる通常の技術者に公知の全ての方法を用いることができ、望ましくは、Mutect2、LoFreq、Delly2等であってもよいが、これらに限定されない。
【0044】
本発明において、前記(c-ii)段階は、特定のファイル形式で貯蔵されたり、(c-i)段階で検出された変異情報をそのまま用いることもできる。
【0045】
本発明において、がんの機能的特徴は、がん種別の単一遺伝子変異の発生に影響を与える遺伝体、後成遺伝体または転写体的特徴であれば、制限なく用いることができ、望ましくは単一遺伝子変異の蓄積パターン(regional mutation density, RMD)、複製時間、H3K4Me1、H3K4Me3、H3K9Me3、H3K27Me3、H3K36Me3、Dnase I hypersensitive site(DHS)、DHSにおけるタンパク質結合サイト(footprint)遺伝子発現量、陽性選別点数(cancer positive selection score)及び陰性選別点数(cancer negative selection score)からなる群から選択される一つ以上であることを特徴とすることができるが、これらに限定されない。
【0046】
本発明において、単一遺伝子変異の蓄積パターン(regional mutation density, RMD)は、背景変異率(background mutation rate)と類似の意味で使用され、全ゲノムを一定区間で分けてmutation frequencyを計算したことを意味する。
【0047】
本発明において、がん種別の単一遺伝子変異の蓄積パターンは、当該がんで変異が多い地域であるか、少ない地域であるかに対する定量値である。がんの単一遺伝子変異は、ヒトゲノムに均一に分布しない。全ゲノム地域によって蓄積される単一遺伝子変異の量が異なり、がん種別に蓄積される様相もまた大きく異なる。また、後成遺伝体的特徴(Histone modification、複製時間)が、がん種別の単一遺伝子変異の蓄積パターンの主な原因であり、単一遺伝子変異の蓄積パターンは当該がん種の後成遺伝体的特徴を内包する。
【0048】
単一遺伝子変異の蓄積パターンは、全ゲノム地域別に異なり、がん種別に異なるため、腫瘍由来変異の発掘に有用な指標となり得る。発掘された変異が当該がんで発生確率が高い地域に位置する変異かを単一遺伝子変異の蓄積パターンを用いて知ることができる。当該がんで変異発生確率が高い地域で発掘された変異は、cfDNA artifactではなく、実際の腫瘍由来変異である可能性が高い。また、単一遺伝子変異の蓄積パターンは、後成遺伝体的特徴も含むため、腫瘍由来変異の発掘に後成遺伝体的特徴もまた考慮することができる。
【0049】
また、Haematopoiesis変異の蓄積パターンを通じて、血液細胞で変異がよく生じる地域を知ることができ、正常なヒトの無細胞変異の蓄積パターンを用いて、cfDNA artifactがよく発掘される地域を知ることができ、正常なヒトのgermline変異の蓄積パターンを通じて、germline変異がよく生じる地域を知ることができる。
【0050】
単一遺伝子変異の蓄積パターンの計算のために、大規模コホートの十分なサンプル数のWGSが必要である。当該サンプルから発掘された全ての変異を合わせて、単一遺伝子変異の蓄積パターンを計算する。
【0051】
全ゲノムを一定区間、例えば、10kbまたは1Mbに分けてmutation frequencyを計算したもので、区間別の変異発生量を全ゲノムの全体で発掘された変異個数で分けて正規化を進行する。
【0052】
全ゲノムの区間を短く分けると(例えば、1kb単位)、地域が小さすぎてパターンを確認することが難しいことがあり、長く分けると(例えば、10Mb)、局所的なパターンが凝集することがあるため、適切な区間を設定することが重要である。
【0053】
本発明において、変異パターンは、正常塩基が他の塩基に変異して遺伝子の機能的異常が発生する変異であれば、制限なく用いることができ、望ましくは、C->A、C->G、C->T、T->A、T->C及びT->Gからなる群から選択される一つ以上であることを特徴とすることができるが、これらに限定されない。
【0054】
本発明において、C->Aは検出された変異が、正常塩基Cが変異塩基Aに変異したものであるかを確認することを意味し、C->Gは検出された変異が、正常塩基Cが変異塩基Gに変異したものであるかを確認することを意味し、その他も同じ意味である。
【0055】
本発明において、変異の技術的特徴は、単一遺伝子変異の位置に整列された配列情報(reads)から抽出した配列情報の特徴であれば、制限なく用いることができ、望ましくは、当該変異地域の参照アレル(reference allele)の平均リード深さ(read depth)、平均マッピングクオリティ(mapping quality)、平均塩基クオリティ(base quality)、平均ミスマッチ(mismatch)数、参照アレル(reference allele)位置の平均、ミスマッチ(mismatch)の塩基クオリティ(base quality)合計の平均、3'末端にphread qualityが2である塩基(base)の個数または位置、クリップされたリード長さ(clipped read length) の平均、リード(read)の 3' endからの位置の平均、プラス鎖リード(plus strand read)の比率、DNA断片の長さ(DNA fragment length);
当該変異地域の変異アレル(variant allele)の平均リード深さ(read depth)、平均マッピングクオリティ(mapping quality)、平均塩基クオリティ(base quality)、平均ミスマッチ(mismatch)数、参照アレル(reference allele)位置の平均、ミスマッチ(mismatch)の塩基クオリティ(base quality)合計の平均、3'末端にphread qualityが2である塩基(base)の個数または位置クリップされたリード長さ(clipped read length)の平均、プラス鎖リード(plus strand read)の比率、DNA断片の長さ(DNA fragment length);DNA断片(DNA fragment);及び
MUT.notBoth(forward、reverse readで変異位置に重複(overlap)がないDNA断片(DNA fragment)の数+重複(overlap)があっても変異が一致しないfragmentの数)からなる群から選択される一つ以上の特徴を含むことを特徴とすることができるが、これらに限定されない。
【0056】
本発明において、前記(d)段階の特徴は、下記表1に記載の特徴(feature)を含むことを特徴とすることができる。
【0057】
【0058】
本発明において、前記(d)段階の人工知能モデルは、腫瘍由来突然変異であるか否かを区別することができるように学習する学習モデルであれば、制限なく用いることができ、望ましくは、ランダムフォレスト(random forest)、XGブースト(XGboost)及び深層神経網(deep neural network)からなる群から選択される一つ以上であることを特徴とすることができるが、これらに限定されない。
【0059】
本発明において、前記(d)段階の基準値は、検出された変異が腫瘍由来であるか否かを区別することができる値であれば、制限なく用いることができ、望ましくは、0.5であってもよいが、これに限定されず、もし基準値が0.5である場合、0.5以上である場合に腫瘍由来であることと判定することを特徴とすることができる。
【0060】
本発明において、前記人工知能モデルは、学習する時、腫瘍由来変異があるとoutput結果が1に近いように学習し、腫瘍由来変異がないとoutput結果が0に近いように学習させ、0.5を基準に0.5以上であるとがんがあると判断し、0.5以下であるとがんがないと判断するように学習させた。
【0061】
ここで、0.5の基準値はいつでも変わり得る値であることは、通常の技術者には自明なことである。例えば、False positive(偽陽性)を減らそうとすると、0.5より高い基準値を設定して、がんがあると判断される基準を厳格に取ることができ、False Negative(偽陰性)を減らそうとすると、基準値をより低く測定して、がんがあると判断される基準を少し緩く取ることができる。
【0062】
本発明においては、前記人工知能モデルの学習及び性能評価のために、38人の乳がん患者を8:2の比率で分けてtrain set(30人)、test set(8人)として使用した。30人の乳がん患者の無細胞腫瘍由来変異2418個とartifact 8749個を学習に使用し、8人の乳がん患者の無細胞腫瘍由来変異1159個とartifact 2441個をtest setとして使用した。また、DNNモデルの学習及び性能評価のためにtrain set(30人)を3:1の比率で分けてtrain set、valid setとして使用した。
【0063】
本発明において、前記人工知能モデルがランダムフォレストである場合、損失関数は、下記数式1または2で表されることを特徴とすることができる。
【0064】
【0065】
ノード分割関数の媒介変数θの可能な全ての場合を含む集合をτとすると、j番目のノードの訓練段階でτi ⊂ τである部分集合τiを作製する。媒介変数の最適値θj*はτiの中で、情報獲得量(information gain)で定義される目的関数(損失関数)を最大に作製する値で計算される。
【0066】
【0067】
Iは情報獲得量であり、Sはあるノードに到達するデータ集合を、Siはこのノードのi ∈{L,R}、左側あるいはs右側方向の子ノードに入るデータ集合を示す。また、|・|とH(S)は、それぞれデータ集合に属するデータ個数とシャノンエントロピーを示す。
【0068】
本発明において、前記人工知能モデルがXGBoostである場合、損失関数は下記数式3で表されることを特徴とすることができる。
【0069】
【0070】
lは微分可能なconvex損失関数で予測された
と実際のyとの間の差を計算する。Ωはモデルの複雑度にpenaltyを与える。f
kは独立的なtree構造を意味する。
【0071】
本発明において、前記人工知能モデルが深層神経網である場合、損失関数は下記数式4で表されることを特徴とすることができる。
【0072】
【0073】
損失関数はbinary cross entropyで、Nは全体のサンプル数であり、
はモデルがi番目の入力値がclass 1に近いと予測した確率値であり、y
iはi番目の入力値の実際のclassである。
【0074】
本発明において、前記人工知能モデルがDNNである場合、学習は下記の段階を含んで行われることを特徴とすることができる:
i)検出された変異データをtraining(学習)、validation(検証)、test(性能評価)データに分類する段階;
この時、Trainingデータはモデルを学習する時に使用され、Validationデータはhyper-parameter tuning検証に使用され、Testデータは最適なモデル生産後、性能評価に使用されることを特徴とする。
ii)Hyper-parameter tuning及び学習過程を通じて最適なモデルを構築する段階;
iii)Hyper-parameter tuningを通じて得られた様々なモデルの性能をvalidation dataを用いて比較し、validation dataの性能が最も良いモデルを最適なモデルとして決定する段階;
【0075】
本発明において、前記Hyper-parameter tuning過程は、DNNモデルを構成する様々なparameter(convolution layer数、dense layer数、convolution filter数等)の値を最適化する過程で、Hyper-parameter tuning過程としては、Bayesian optimization及びgrid search技法を使用することを特徴とすることができる。
【0076】
本発明において、前記学習過程は、定められたhyper-parameterを用いてDNNモデルの内部parameter(weights)を最適化させ、Training lossに比べてvalidation lossが増加し始めると、モデルが過適合(Overfitting)したと判断し、その前にmodel学習を中断することを特徴とすることができる。
【0077】
本発明において、前記d)段階で人工知能モデルが入力された変異データから分析した結果値は、特定のscoreまたは実数であれば、制限なく用いることができ、望ましくは、実数値であることを特徴とすることができるが、これに限定されない。
【0078】
本発明において、実数値は、人工知能モデルがDNNである場合、最後のlayerにsigmoid functionまたはsoftmax functionを使用して人工知能モデルのoutputを0~1 scaleで調整して確率値で表現した値を意味する。
【0079】
本発明は、他の観点から、
次の段階を含むがんの早期診断のための情報の提供方法に関する:
(a)前記の方法で無細胞DNAの腫瘍由来変異を検出する段階;及び
(b)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階。
【0080】
本発明は、他の観点から、
生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体の配列データベースに整列する整列部;
整列された配列情報に基づいて変異を検出する変異検出部;
検出された変異を、腫瘍由来変異を区別するように学習された人工知能モデルに入力して、腫瘍由来変異の有無を判定する腫瘍由来変異検出部;及び
腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定するがん診断部;
を含む人工知能基盤のがんの早期診断のための情報の提供装置に関する。
【0081】
本発明において、前記解読部は、独立した装置から抽出された核酸を注入する核酸注入部;及び注入された核酸の配列情報を分析する配列情報分析部を含むことができ、望ましくはNGS分析装置であってもよいが、これに限定されない。
【0082】
本発明において、前記解読部は、独立した装置で生成された配列情報データを受信して解読することを特徴とすることができる。
【0083】
本発明は、もう一つの観点から、
コンピュータ判読可能な貯蔵媒体であり、がんの早期診断のための情報を提供するプロセッサによって実行するように構成される命令を含むものの、
(a)生体試料から核酸を抽出して配列情報を獲得する段階;
(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;
(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;
(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、
前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とし;及び
(e)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を通じ、がんの早期診断のための情報を提供するプロセッサによって実行するように構成される命令を含むコンピュータ判読可能な貯蔵媒体に関する。
【0084】
他の態様において、本願による方法は、コンピュータを用いて具現することができる。一実施態様において、コンピュータは、チップセットに連結された一つ以上のプロセッサを含む。また、チップセットには、メモリー、貯蔵装置、キーボード、グラフィックアダプタ(Graphics Adapter)、ポインティングデバイス(Pointing Device)及びネットワークアダプタ(Network Adapter)等が連結されている。一実施態様において、前記チップセットの性能は、メモリーコントローラーハブ(Memory Controller Hub)及びI/Oコントローラーハブによって可能である。他の実施態様において、前記メモリーは、チップセットの代わりにプロセッサに直接連結して使用することができる。貯蔵装置は、ハードドライブ、CD-ROM(Compact Disk Read-Only Memory)、DVDまたはその他のメモリー装置を含むデータを維持することができる任意の装置である。メモリーは、プロセッサによって使用されるデータ及び命令に関与する。前記ポインティングデバイスは、マウス、トラックボール(Track Ball)または他のタイプのポインティングデバイスであってもよく、キーボードと組み合わせて入力データをコンピュータシステムに転送するために使用される。前記グラフィックアダプタは、ディスプレイ上にイメージ及び他の情報を示す。前記ネットワークアダプタは、近距離または長距離通信網でコンピュータシステムと連結される。本願に使用されるコンピュータは、しかしながら、前記のような構成に制限されず、一部の構成がないか、追加の構成を含むことができ、また、貯蔵装置領域ネットワーク(Storage Area Network、SAN)の一部であってもよく、本願のコンピュータは、本願による方法の遂行のためのプログラムにモジュールの実行に適合するように構成することができる。
【0085】
本願でモジュールとは、本願による技術的思想を遂行するためのハードウェア及び前記ハードウェアを駆動するためのソフトウェアの機能的、構造的結合を意味することができる。例えば、前記モジュールは、所定のコードと、前記所定のコードが遂行されるためのハードウェアリソース(Resource)の論理的な単位を意味することができ、必ずしも物理的に連結されたコードを意味したり、一種類のハードウェアを意味するものではないことは本願技術分野の当業者に自明なことである。
【0086】
本発明は、もう一つの観点から、(a)前記方法で無細胞DNAの腫瘍由来変異を検出する段階;及び(b)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を含むがんの早期診断方法に関する。
【0087】
本発明は、もう一つの観点から、(a)前記方法で無細胞DNAの腫瘍由来変異を検出する段階;(b)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階;及び(c)がんまたは微細残存がんがあることと判定された患者を治療する段階を含むがん患者の治療方法に関する。
【0088】
本発明において、前記がん治療剤は、がんまたは微細残存がんを治療することができる方法であれば、制限なく使用可能であり、望ましくは手術、補助化学療法(adjuvant chemotherapy)、先行化学療法(neoadjuvant chemotherapy)、放射線療法(radiation therapy)、ホルモン療法(hormone therapy)、細胞毒性療法(cytotoxic therapy)、免疫療法(immunotherapy)、移植T細胞療法(adoptive T cell therapy)、ターゲット療法(targeted therapy)及びこれらの組み合わせからなる群から選択されるいずれか一つ以上の方法で行うことを特徴とすることができ、より望ましくは、がん治療剤を投与して治療することを特徴とすることができ、最も望ましくは、化学抗がん剤、標的抗がん剤及び免疫抗がん剤からなる群から選択されるいずれか一つ以上の抗がん剤を投与して治療することを特徴とすることができるが、これらに限定されない。
【0089】
本発明は、もう一つの観点から、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体の配列データベースに整列する整列部;整列された配列情報に基づいて変異を検出する変異検出部;検出された変異を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、腫瘍由来変異の有無を判定する腫瘍由来変異検出部;及び腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定するがん診断部;を含む人工知能基盤のがんの早期診断装置に関する。
【0090】
本発明は、もう一つの観点から、コンピュータ判読可能な貯蔵媒体であり、がんの早期診断を行うプロセッサによって実行するように構成される命令を含むものの、(a)生体試料から核酸を抽出して配列情報を獲得する段階;(b)獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階;(c)前記整列された配列情報(reads)に基づいて変異を検出する段階;(d)検出された変異情報を、腫瘍由来変異を区別するように学習された人工知能モデルに入力し、出力値を基準値(cut-off value)と比較して腫瘍由来変異の有無を判定する段階において、前記(d)段階の人工知能モデルは、がんの機能的特徴(functional feature)、変異パターン(mutation pattern)及び技術的特徴(technical feature)からなる群から選択される一つ以上の特徴(feature)に基づいて腫瘍由来変異を区別するように学習されたことを特徴とし;及び(e)腫瘍由来変異が検出される場合、がんまたは微細残存がんがあることと判定する段階を通じ、がんの早期診断を行うプロセッサによって実行するように構成される命令を含むコンピュータ判読可能な貯蔵媒体に関する。
【実施例】
【0091】
以下、実施例を通じて、本発明をさらに詳細に説明する。これらの実施例は、ひとえに本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって制限されるものと解釈されないことは、当業界における通常の知識を有する者にとって自明であろう。
【0092】
実施例1. Tumor、WBC、cfDNA WGSデータ確保及びcfDNAから発掘された変異の由来確認
【0093】
cfDNAから発掘した単一遺伝子変異が腫瘍から由来した変異、haematopoiesis変異またはartifactであるかを確認するために、患者別のtumor tissue、plasma-depleted whole blood cell(WBC)、cfDNAのWhole Genome Sequencing遺伝体データが必要である。がん患者のTumor tissue、WBC、cfDNAのWGSサンプルを確保後、GATKパイプラインを用いてプロセッシングを進行した。患者別の腫瘍から由来した単一遺伝子変異profileを確保するためにMutect2を用いて腫瘍、haematopoiesis、cfDNA変異を発掘した。
【0094】
発掘に使用したデータは、転移性乳がん患者38人に対するTumor tissue、WBC、cfDNAに対するWhole Exome Sequencingデータであり、Adalsteinsson、V. A. et al. Nat. Commun. 8、1324 (2017)でdbGaP databaseに登録したphs001417.v1.p1データである。
【0095】
具体的には、獲得した配列情報(reads)を変異発掘をすることができる形式のファイルであるbamに作製する過程を行ったが、Bamファイルとは、配列情報(reads)を標準染色体の配列データベースに整列した情報を含むbinary形式のファイルである。Genome Analysis Tool Kit(GATK)は、NGSデータ分析のためのtoolと標準分析パイプラインを提供し、GATKで提供する変異発掘のためのデータ前処理パイプラインを使用した(参照:https://gatk.broadinstitute.org/hc/en-us/articles/360035535912-Data-pre-processing-for-variant-discovery)。前処理過程は大きく3段階に分かれる。第一に、獲得した配列情報(reads)を標準染色体の配列データベース(reference genome database)に整列(alignment)する段階である。第二に、配列情報(reads)の生産過程でPCRによって生じた重複した配列情報(reads)を表示する段階である。第三に、配列情報(reads)のbase qualityを再び計算して調整する作業(Base Quality Score Recalibration)である。
【0096】
先に構築した患者別腫瘍及びhaematopoiesis単一遺伝子変異profileを用いて、cfDNAから発掘された変異のうち、どの変異が腫瘍から由来した単一遺伝子変異であるか確認作業を進行した。乳がん患者サンプルで確認した結果、cfDNAから発掘された単一遺伝子変異のうち平均15.6%(97個)が腫瘍から由来した変異であり、artifactの比率が84%と非常に高いことを確認した。
【0097】
実施例2. 腫瘍由来変異を発掘することができるがんの機能的featureの抽出
2-1. 転写体データ、遺伝子発現量及びselection scoreの抽出
ENCODEでRepli-seq、Dnase-seq、ChIP-seq(H3K4me1、H3K4me3、H3K9me3、H3K27me3、H3K36me3)を確保して前処理を進行し、転写体データはTCGAでがん種別患者のRNA-seqデータを使用した。また、がん種別positive selection及びnegative selection scoreデータも一緒に使用して開発するモデルのfeatureとして使用した。
【0098】
まず、乳がんの細胞株であるMCF7の遺伝体、後成遺伝体データをENCODEで収集した。ENCODEからMCF7細胞株のRepli-seq、Dnase-seq、ChIP-seq(H3K4me1、H3K4me3、H3K9me3、H3K27me3、H3K36me3)を確保した。転写体データは、ToilデータベースからTCGA乳がん患者1099人の転写体データを使用した。Toilデータベースは、大規模転写体コホートのデータを同一の前処理過程を通じて統一するように生産した大規模転写体データベースである。乳がん患者1099人の遺伝子別の発現量の平均を出し、乳がん患者の遺伝子別の平均発現量を計算し、これを人工知能モデルのfeatureとして使用した。
【0099】
乳がんが進行するにつれてpositiveまたはnegative selectionを受け、変異が生じやすい、あるいは生じにくい遺伝子に対する定量値を人工知能モデルのfeatureとして使用した。Positive Selection定量値は、二つの論文の乳がんpositive selection定量値の平均を使用した。Negative Section定量値は、一つの論文から収集した。
(出典:ENCODE: https://www.encodeproject.org/)
(出典:Toil: https://doi.org/10.1038/nbt.3772)
(出典:Positive selection: 10.1016/j.cell.2017.09.042, 10.1038/ng.3987)
(出典:Negative selection: 10.1016/j.cell.2017.09.042)
【0100】
2-2. mutation signatureの抽出
腫瘍から由来した変異とhaematopoiesis変異が異なる分子的特徴を有するということはすでに明らかになっている。最近、腫瘍から由来した単一遺伝子変異とhaematopoiesis単一遺伝子変異が互いに異なるmutational signatureを有するということも報告されている(Jacom J. chabon et al., Nature, Vol. 580, pp. 245-251, 2020)。これにより、実施例1のデータを用いてmutational signature計算する時に使用する単一遺伝子変異のタイプを大きく六つのタイプ(T>G、T>C、T>A、C>T、C>G、C>A)に分けて、液体生検で確認された変異の由来別に(tumor、haematopoiesis、artifact)分布の特徴を分析した。分析の結果、腫瘍由来変異、haematopoiesis変異、そしてartifactsが互いに異なるmutational signatureパターンを示すことを確認した。液体生検で確認された変異が由来別に互いに異なるmutational signatureパターンを示すため、mutational signatureをアルゴリズムのfeatureとして使用した。
【0101】
Mutational signatureは、bedtoolsというプログラムとpython scriptを用いて計算した。bedtoolsとは、BED、GFF3、VCF等の1次元座標系を含む遺伝体資料を迅速に相互計算することができるように支援する命令行プログラムである。発掘された変異位置の標準染色体配列(reference genome)の塩基(nucleobase)と発掘された変異の塩基を確認し、どの塩基からどの塩基に突然変異が発生したかを確認した。
【0102】
2-3. 単一遺伝子変異の蓄積パターン(Regional Mutation Density, RMD)の抽出
がん種別に単一遺伝子変異が発生する機序が異なり、変異が蓄積される様相も異なる。特に、passenger mutationが蓄積されるパターンは、がん種別に大きく異なるパターンを示し、このような特性を用いてpassenger mutationでがん種を区分する先行研究も存在する。従って、このようながん種別の単一遺伝子変異の蓄積パターン(Regional Mutation Density)を腫瘍由来変異の発掘アルゴリズムのfeatureとして使用した。Haematopoiesis変異の蓄積パターン、正常のヒトの無細胞の変異蓄積パターン、正常のヒトのgermline変異の蓄積パターンも人工知能モデルのfeatureとして使用した。実施例においては、乳がん単一遺伝子変異の蓄積パターン、haematopoiesis変異の蓄積パターン、正常のヒトの無細胞の変異蓄積パターン、正常のヒトのgermline変異の蓄積パターンを人工知能モデルのfeatureとして使用した。
【0103】
それぞれの変異蓄積パターンは、下記の方法で計算した。
【0104】
全体の遺伝体を一定の長さで区間を分け、区間別(1Mbまたは10kb)に当該区間で発生した変異個数を合計して区間別の変異発生量を計算し、区間別の変異発生量を全体の変異個数で分けて正規化を進行した。
【0105】
がん種別の単一遺伝子変異の蓄積パターンは、PCAWG(Pan-cancer analysis of whole genomes, Campbell, P.J., Getz, G. et al., Nature 578, 82-93, 2020)という国際的ながん遺伝体プロジェクトで生産したWGSを使用して構築した。
【0106】
Haematopoiesis変異蓄積パターンは、PCAWG卵巣がん患者の血液WGSを使用して構築した。
【0107】
正常のヒトの無細胞の変異蓄積パターンは、緑十字ゲノムの正常のヒト100人の無細胞WGSを使用して構築した。
【0108】
正常のヒトのgermline変異蓄積パターンは、The Genome Aggregation Database(gnomAD, Karczewski, K.J. et al., Nature 581, 434-443, 2020)の大規模WGSを用いて構築した。
【0109】
実施例3. 腫瘍由来の単一遺伝子変異を発掘する人工知能アルゴリズムの学習
cfDNAで腫瘍から由来した単一遺伝子変異を発掘するアルゴリズムの開発のために、先の分析を通じて確保したがん種別の機能的feature22個と当該患者の遺伝体データから抽出したsequencing quality feature26個を一緒に使用した。この時、患者の遺伝体データは、実施例1の遺伝体データを使用した。Sequencing quality featureは、各患者の液体生検の遺伝体データをgatkパイプラインを通じて前処理した後、bamcountというtoolを用いて当該単一遺伝子変異の位置のsequencing quality feature26個を抽出した。このように抽出した総48個のfeatureを用いて、腫瘍から由来した単一遺伝子変異の発掘アルゴリズムを開発した。
【0110】
抽出した48個のfeatureは、前記表1の通りである。
【0111】
人工知能アルゴリズムは、cfDNAから発掘された単一遺伝子変異のうち、腫瘍由来変異と残りを区分するbinary classificationモデルを構築した。モデル学習にはRandom Forest、XGBoost、Deep Neural Networkの3種の人工知能モデルを使用した。
【0112】
Random Forest及びXGBoostモデルの最適化のために、5-fold cross validation(交差検証)でtrainingデータをtraining及びvalidationデータに繰り返し分類し、hyper-parameter tuningの過程を進行した。Deep Neural Networkの最適化のために、検出された変異データをtraining、validation、testデータに分類した後、hyper-parameter tuningを進行した。
【0113】
実験例1. cfDNAから発掘された単一遺伝子変異の由来別特徴分析
実施例1の乳がん患者38人のcfDNA、tumor、WBC液体生検の遺伝子データを用いて、cfDNAから発掘された腫瘍由来変異の特徴を分析し、腫瘍由来変異の発掘アルゴリズムの学習及び性能評価を進行した。
【0114】
乳がん患者のcfDNAから発掘された単一遺伝子変異を由来別に分け、mutational signature比較結果、腫瘍から由来した変異はC>TとC>G変異が多く発生し、artifactではC>A変異が多く発生することを確認することができた。このようなcfDNAから発掘された変異が由来別に異なる特性を有することを確認した(
図3)。
【0115】
また、乳がん患者のcfDNA由来別の乳がんbiological feature分布を確認した。early replication timing地域であるとSNVが相対的に少なく、反対にlate replication timing地域であるとrepairメカニズムがうまく作動せず、多くの変異が発生すると知られている。
【0116】
その結果、
図4のAに記載されたようにreplication scoreは低いほどlate replication地域であり、従来の知られているメカニズムと一致するようにcfDNAの腫瘍変異でreplication scoreが低いことを確認し、H3K9me3値が高い乳がんのheterochromatinで腫瘍変異が多く発生したこともやはり従来の知られている生物学的メカニズムと一致することを確認し、発現が高い遺伝子の場合、変異が生じにくいという特徴と一致するように腫瘍変異で遺伝子発現量が低いことを確認し、biological featureが腫瘍由来変異とartifact及びbloodを区分するために重要な要素であることを確認した。
【0117】
また、乳がん患者のcfDNA由来別RMD値を比較した結果、
図4のBに記載されたように、biological featureのうち由来別に最も大きな差が現れることを確認した。すなわち、cfDNA artifactより腫瘍由来変異でPCAWG breast cancer RMDが高い傾向性を示し、cfDNA hematopoiesis変異でPCAWG blood、gnomAD、正常のヒトのcfDNA RMDが高いことを確認した。
【0118】
実験例2. 腫瘍由来の単一遺伝子変異を発掘する人工知能アルゴリズムの学習及び性能評価
腫瘍由来の単一遺伝子変異の発掘アルゴリズムの学習及び性能評価のために38人の患者を30人の学習データと8人の性能評価用データに分離し進行した。腫瘍由来の単一遺伝子変異の発掘アルゴリズム構築後の性能評価の結果、Random Forest及びDNNが、ROC AUCが0.922、0.864で優れた性能を示すことを確認した。また、Average Precisionも0.585で優れた性能を示すことを確認した(
図5)。
【0119】
実験例3. 乳がんの腫瘍由来の単一遺伝子変異の発掘アルゴリズムの重要なfeature分析
アルゴリズムの学習に使用された48個のfeatureのうち、どのfeatureが腫瘍由来変異を発掘するために重要に使用されたか分析を進行した。
【0120】
アルゴリズムの学習に使用されたがんの機能的feature 22個のうち、どのfeatureが腫瘍由来変異を発掘するために重要に使用されたか分析を進行した。この時、がんの機能的featureを細分化してmutational signatureに関連するfeature6個とbiological feature16個に分けて分析を進行した。Feature importanceは、featureの値を無作為に混ぜた時(random shuffling)、学習モデルの性能(F1 score)が落ちる程度を用いて測定した。無作為に混ぜてモデルの性能を測定する過程を総100回施行した後、平均的なモデルの性能低下の程度を測定した。
【0121】
その結果、
図6に記載されるように、腫瘍由来変異を発掘するために変異の蓄積パターン(Regional Mutation Density)が最も重要に作用することを知ることができる。変異の蓄積パターンfeature3個がbiological feature importance 1、2、3位に位置し、その中でも乳がん変異の蓄積パターン(pcawg_tumor_rmd)が最も重要に作用することを知ることができる。また、histone modification markerであるH3K27me3とDNA replication timingが重要に作用することを確認することができた。
【0122】
実験例4. 開発したアルゴリズムを用いたmutational signatureの予測
本研究で開発したアルゴリズムが実際にがんのmutational signatureパターンを予測することができるか検証を進行した。乳がん患者8人の腫瘍でのmutational signatureと本研究で開発したアルゴリズムを通じて予測された腫瘍由来変異を用いて分析したmutational signatureの結果を比較した。分析結果、本研究で開発したアルゴリズムを用いた場合、腫瘍でのmutational signatureを予測することができることを確認した(
図7)。
【0123】
以上、本発明の内容の特定の部分を詳細に記述したが、当業界における通常の知識を有する者にとって、このような具体的な技術は単に望ましい実施態様に過ぎず、これによって本発明の範囲が制限されない点は明らかであろう。従って、本発明の実質的な範囲は、添付の請求項とそれらの等価物によって定義されるといえる。
【産業上の利用可能性】
【0124】
本発明による無細胞DNAの腫瘍由来変異の検出方法及びこれを用いたがんの早期診断方法は、次世代塩基配列分析技法(Next Generation Sequencing, NGS)を用いて、人工知能基盤でがんの機能的特徴及び配列的特徴の両方を用いてがんを早期に診断し、正確度と敏感度が高く、商業的活用度が高いため、本発明の方法はがんの早期診断に有用である。
【国際調査報告】