(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-14
(45)【発行日】2023-09-25
(54)【発明の名称】リキッドバイオプシーデータを用いた癌診断装置及び癌診断方法
(51)【国際特許分類】
G16H 10/40 20180101AFI20230915BHJP
G16H 50/20 20180101ALI20230915BHJP
G16B 40/00 20190101ALI20230915BHJP
【FI】
G16H10/40
G16H50/20
G16B40/00
(21)【出願番号】P 2022018267
(22)【出願日】2022-02-08
【審査請求日】2022-02-08
(31)【優先権主張番号】10-2021-0162245
(32)【優先日】2021-11-23
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】522052808
【氏名又は名称】イーワン リファレンス ラボラトリー
【氏名又は名称原語表記】EONE REFERENCE LABORATORY
【住所又は居所原語表記】291, Harmony-ro, Yeonsu-gu, Incheon 22014, Republic of Korea
(73)【特許権者】
【識別番号】522052819
【氏名又は名称】ジェネシスイージーオー カンパニー リミテッド
【氏名又は名称原語表記】GenesisEGO Co., Ltd.
【住所又は居所原語表記】291, Harmony-ro, Yeonsu-gu, Incheon 22014, Republic of Korea
(74)【代理人】
【識別番号】100121382
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】クウォン,チャンヒョク
【審査官】梅岡 信幸
(56)【参考文献】
【文献】国際公開第2021/148393(WO,A1)
【文献】特開2020-072736(JP,A)
【文献】特表2021-521536(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
装置により行われるリキッドバイオプシーデータを用いた癌診断方法において、
a)血液より抽出された血漿からctDNAの配列情報(sequence information)を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ(fragment size)及びコピー数多型(Copy Number Variations)を抽出する段階と、
b)前記獲得された配列情報を用いてP-arm及びQ-armの断片のサイズを抽出する段階と、
c)前記獲得された配列情報を用いてミトコンドリアのコピー数多型を抽出する段階と、
d)前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する段階と、
e)前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力する段階と、
を含
み、
前記染色体の断片のサイズ及び前記P-armと前記Q-armの割合データを統合する段階と、
常染色体のコピー数多型及び前記ミトコンドリアの割合データを統合する段階を更に含み、
前記d)段階及びe)段階は、前記統合された割合データを入力値として入力することを特徴とする癌診断方法。
【請求項2】
前記a)段階は、
前記血漿からctDNAの配列情報を獲得し、ヒトの参照データ(reference data)を用いて配列を整理する段階と、
前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理する段階と、
前記整理された配列情報を用いて常染色体(autosome)及び性染色体(sex chromosome)の断片のサイズを第1長さから第2長さまで抽出する段階と、
を含むことを特徴とする請求項1に記載の癌診断方法。
【請求項3】
前記b)段階は、
前記染色体の中心体(centromere)を基準にP-arm及びQ-armの断片のサイズを抽出することを特徴とする請求項2に記載の癌診断方法。
【請求項4】
前記a)段階は、
前記整理された配列情報を用いて、GC含量(GC-content)とマッピング率が基準値(cut-off)以上の配列情報を抽出する段階と、
各領域(chromosomal region)を特定の大きさ以上のビン(bin)領域に分けて各区間の量を正規化(normalization)する段階と、
各ビン領域に対する平均と標準偏差を用いてZ-scoreを計算する段階と、
前記Z-scoreを数値化してコピー数多型を抽出する段階と、
を含むことを特徴とする請求項2に記載の癌診断方法。
【請求項5】
前記c)段階は、
ミトコンドリアのコピー数多型を計算する段階と、
常染色体の平均コピー数多型を計算する段階と、
前記ミトコンドリアのコピー数多型を前記常染色体の平均コピー数多型に割って前記ミトコンドリアのコピー数多型を抽出する段階と、
を含むことを特徴とする請求項2に記載の癌診断方法。
【請求項6】
前記d)段階において、前記既に学習されたアルゴリズムは、
Random Forest(RF)、Support Vector Machine(SVM)、eXtra Gradient Boost(XGB)、 Decision Tree Classifier(DTC)、K-nearest Neighbors(KNN)、Gaussian Naive Bayes(GNB)、Stochastic Gradient Descent(SGD)、Linear Discriminant Analysis(LDA)、Ridge Regression、Lasso及びElastic netのうちの少なくとも1つのアルゴリズムを含むことを特徴とする請求項1に記載の癌診断方法。
【請求項7】
リキッドバイオプシーデータを用いた癌診断装置において、
血液より抽出された血漿からctDNAの配列情報を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出し、前記獲得された配列情報を用いてP-arm及びQ-armの断片のサイズを抽出し、前記獲得された配列情報を用いてミトコンドリアのコピー数多型を抽出するDNA分析部と、
前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する制御部とを含み、
前記制御部は、
前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力する
のであり、
前記制御部は、
前記染色体の断片のサイズ及びP-armとQ-armの割合データを統合し、
常染色体のコピー数多型及びミトコンドリアの割合データを統合し、
前記統合された割合データを入力値として入力することを特徴とする癌診断装置。
【請求項8】
前記DNA分析部は、
前記血漿からctDNAの配列情報を獲得し、ヒトの参照データを用いて配列を整理し、
前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理し、
前記整理された配列情報を用いて、常染色体及び性染色体の断片のサイズが第1長さから第2長さまで抽出することを特徴とする請求項
7に記載の癌診断装置。
【請求項9】
前記DNA分析部は、
前記染色体の中心体を基準にP-arm及びQ-armの断片のサイズを抽出することを特徴とする請求項
8に記載の癌診断装置。
【請求項10】
前記DNA分析部は、
前記整理された配列情報を用いてGC含量とマッピング率が基準値以上の配列情報を抽出し、
各領域を特定の大きさ以上のビン(bin)領域に分けて各区間の量を正規化し、
各ビン領域に対する平均と標準偏差を用いてZ-scoreを計算し、
前記Z-scoreを数値化してコピー数多型を抽出することを特徴とする請求項
8に記載の癌診断装置。
【請求項11】
前記DNA分析部は、
ミトコンドリアのコピー数多型を計算し、常染色体の平均コピー数多型を計算し、
ミトコンドリアのコピー数多型を常染色体の平均コピー数多型で割ってミトコンドリアのコピー数多型を抽出することを特徴とする請求項
8に記載の癌診断装置。
【請求項12】
前記既に学習されたアルゴリズムは、
Random Forest(RF)、Support Vector Machine(SVM)、eXtra Gradient Boost(XGB)、 Decision Tree Classifier(DTC)、K-nearest Neighbors(KNN)、Gaussian Naive Bayes(GNB)、Stochastic Gradient Descent(SGD)、Linear Discriminant Analysis(LDA)、Ridge Regression、Lasso及び Elastic netのうちの少なくとも1つのアルゴリズムを含むことを特徴とする請求項
7に記載の癌診断装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リキッドバイオプシー(liquid biopsy)データを用いた癌診断(cancer diagnosis)装置及び癌診断方法に関する。
【背景技術】
【0002】
科学技術の飛躍的発展に伴い、人々は安楽な領域にいるが(in comfort zone)、彼ら個々人の特性に基づいた、癌に対する個人に合わせた治療戦略を持っていない。マイクロアレイと次世代シークエンシングは、遺伝子発現、DNAのコピー数多型(Copy Number Variations)、そしてマイクロRNAの活性を定量化する癌研究における主要ツール(carter)である。
【0003】
癌は、遺伝疾患(inherited disease)であるため、遺伝子の変異データと発現データの統合検査を開始することが、発癌のメカニズムを理解し、癌の発生を予測及び予防し、可能な治療法を見つける上で最も良い手段の1つである。90年代初頭には、科学者らが遺伝子発現データ(gene expression data)の情報処理、データの分析、知識の表現、そして管理のために人工知能(artificial intelligence)を適用することについて研究し始めた。人工知能を用いた分類(Classification)は、医師が遺伝子発現データから知識を抽出して臨床的意思決定を行うようにするために、癌に対する理解をより促進することを目的とするデータ分析の一種である。
【0004】
一方、専門家は知識を追跡できるが、高次元遺伝子発現データについてはそれが難しく、かなりの時間がかかる。他方、アルゴリズムは専門家なしで知識を抽出するのに利用可能であるが、良いシステムの成果のためには適していない。ある規則(Rule)を定めること、即ち人工知能においてルールは知識を表現するのに良い方法であるため、規則基盤アプローチ(rule-based approach)は、癌の診断においてモメンタムを有する(gains momentum)。
【0005】
意思決定ツリー(decision tree; 決定木)は、トレーニングサンプル(training samples)内の若干の偏り(low bias)がツリー構造内の大きな違い(serious error)に繋がるほど敏感であるにもかかわらず、生物学的に意味のある単語(term)を含む規則を生産するのに広く用いられる。分類ツリー(Classification Tree)のアンサンブルモデルも意思決定ツリーほど敏感である。データ基盤アルゴリズムによって生成された規則は、よりシンプルであるが、これらの規則は、不確実な状況において遺伝子発現の重複した動きを考慮するのに失敗した。
【0006】
小森(Komori)らにより提案された規則基盤(rule-based; ルールベース)システムが遺伝子発現データからの直観的な知識の生成により癌を予測するのに適用できるが、このアプローチは、自らの学習に非常に脆弱である。ハイブリッドファジー方法(hybrid fuzzy method)は、メンバシップ(membership)関数のポイントを固定することで、遺伝子の個体群内の規則集合のみを表現するため、ファジーシステムを完璧にモデリングするのには失敗する。
【0007】
遺伝的スワームアルゴリズム(Swarm algorithm)は、より優れた分類正確性を有するが、これより生産されたイフゼン(if-then)規則(rule)は、より多くの入力(input)遺伝子と言語学的変数を有しており、医師が理解し難い。アントビー(AntBee)アルゴリズムは、より可読性の高い規則集合を生産することによって、解析可能性-正確性の相反関係(tradeoff)を扱うことができるが、より多くの調整可能な制御パラメータを用いる、より多くの複合演算の使用により、このアプローチは多くのCPU時間を消費することになる。
【0008】
ファジィオントロジー(fuzzy ontology)は、知識を迅速に抽出できるが、超高次元の遺伝子発現データから発見された不足したデータの分配により劣化する。ファジー専門システム構築内のフレームワークは、確率的な全域最適化過程(global optimization procedure)を用いて、クリスプ(crisp)規則をファジー規則に変換するが、様々な癌の専門家を利用したクリスプ規則の生成はやはり難しい。遺伝子発現データの分析に対する説得力のある(convincing)焦点を維持するためには、多重カテゴリ診断を処理した方がよい。
【0009】
このような点で、これまでの研究は、多数決やファジーの集成を用いて、最終的な意思決定が導き出される分類器を結合しようとする試みをしてきた。大部分のアンサンブル分類方法(ensemble classification method)は、その焦点が、分類の成果にのみ当てられたブラックボックスアプローチに基づき、医学の根本的な疑問の理解に関する如何なる措置も提供していない。
【0010】
近年、ファジーシステムによって提供される解析可能性の重大な利点を活用するために、結合方法を用いるファジー規則基盤の多重分類システム(FRBMS)が提示されている。しかし、相対的に少数の患者に対する、多数のゲノム変数の存在はデータを理解し難くさせる。分類器のフュージョンと選択を共に行うように、遺伝アルゴリズム(genetic algorithm)をFRBMSに用いるための試みがあったが、遺伝子発現データの歪度(skewness)を満たしてはいなかった。
【0011】
更に、不十分な実験により最適化されていないロバストシステム(robust system)がもたらされる多重分類時には、過小適合が回避されなければならない。不正確で非線形的な多重カテゴリ値といった多数のエンカウンタ(encounter)をプリテンディング(pretense)する効果的な(fruitful)癌診断システムを構築するためには、精密な(rigorous)データ分析原則を用いる、理想的かつ適した手法について考えることが必須である。このような多様なアルゴリズムは、適当なデータセットに適用する時にのみ、最も最適化された結果が得られる。
【0012】
ctDNAの全ゲノムシーケンスデータ(whole genome sequencing data)は、多くの分子の情報を含んでいる。
【0013】
多くの分析では、DNA変異情報又はコピー数多型(Copy Number Variations)の違いのみを解析し、残りの情報は捨てられるケースが殆どであるため、ミトコンドリア(mitochondria)やP/Q-armのコピー数多型の変化、全体のコピー数多型の比較、断片のサイズ情報などに注目しない場合が殆どである。
【発明の開示】
【発明が解決しようとする課題】
【0014】
本発明は上記事情に鑑みてなされたものであって、その目的は、最適化された方法でリキッドバイオプシーデータから癌の有無を判断し、癌の起源及び病期を判断することが可能な癌診断装置及び癌診断方法を提供することにある。
【0015】
本発明が解決しようとする課題は、以上で言及した課題に限らず、言及されていない更に他の課題は、以下の記載から通常の技術者が明確に理解できるはずである。
【課題を解決するための手段】
【0016】
上述した課題を解決するための本発明の一実施例に係る装置により行われるリキッドバイオプシーデータを用いた癌診断方法は、a)血液より抽出された血漿からctDNA(Circulating tumor DNA)の配列情報(sequence information)を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ(fragment size)及びコピー数多型(Copy Number Variations)を抽出する段階と、b)前記獲得された配列情報を用いてP-arm及びQ-armの断片のサイズを抽出する段階と、c)前記獲得された配列情報を用いてミトコンドリア(mitochondria)のコピー数多型を抽出する段階と、d)前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する段階と、e)前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力する段階とを含む。
【0017】
実施例において、前記a)段階は、前記血漿からctDNAの配列情報を獲得し、ヒトの参照データ(reference data)を用いて配列を整理する段階と、前記配列情報から、配列のクオリティ情報、マッピング情報及び重複(duplication)情報を除去して整理する段階と、前記整理された配列情報(sequence alignment information)を用いて、常染色体(autosome)及び性染色体(sex chromosome)の、断片のサイズが第1長さから第2長さまでを抽出する段階とを含む。
【0018】
実施例において、前記b)段階は、前記染色体のcentromere(セントロメア)を基準にP-arm(Pアーム)及びQ-arm(Qアーム)のfragment size(断片サイズ)を抽出することを特徴とする。
【0019】
実施例において、前記a)段階は、前記整理された配列情報を用いてGC含量(GC-Content)とマッピング率が基準値(cut-off)以上の配列情報を抽出する段階と、各領域(chromosomal region)を特定の大きさ以上のビン(bin)領域に分けて各区間の量を正規化(normalization)する段階と、各ビン領域に対する平均と標準偏差を用いてZ-score(Zスコア)を計算する段階と、前記Z-scoreを数値化してコピー数多型を抽出する段階とを含む。
【0020】
実施例において、前記c)段階は、ミトコンドリアのコピー数多型を計算する段階と、常染色体の平均コピー数多型を計算する段階と、ミトコンドリアのコピー数多型を常染色体の平均コピー数多型に割ってミトコンドリアのコピー数多型を抽出する段階とを含む。
【0021】
実施例において、前記d)段階において、前記既に学習されたアルゴリズムは、Random Forest(RF)、Support Vector Machine(SVM)、eXtra Gradient Boost(XGB)、Decision Tree Classifier(DTC)、K-nearest Neighbors(KNN)、Gaussian Naive Bayes(GNB)、Stochastic Gradient Descent(SGD)、Linear Discriminant Analysis(LDA)、Ridge Regression、Lasso及びElastic netのうちの少なくとも1つのアルゴリズムを含むことを特徴とする。
【0022】
実施例において、前記染色体の断片のサイズ及びP-armとQ-armの割合データを統合する段階と、常染色体のコピー数多型及びミトコンドリアの割合データを統合する段階を更に含み、前記d)段階及びe)段階は、前記統合された割合データを入力値として入力することを特徴とする。
【0023】
また、本発明の一実施例に係るリキッドバイオプシーデータを用いた癌診断装置は、血液より抽出された血漿からctDNAの配列情報を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出し、前記獲得された配列情報を用いてP-arm及びQ-armの断片のサイズを抽出し、前記獲得された配列情報を用いてミトコンドリアのコピー数多型を抽出するDNA分析部と、前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する制御部とを含み、前記制御部は、前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを人工知能アルゴリズムの入力値として入力し、癌の病期や起源を出力値として出力することを特徴とする。
【0024】
実施例において、前記DNA分析部は、前記血漿からctDNAの配列情報を獲得し、ヒトの参照データを用いて配列を整理し、前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理し、前記整理された配列情報を用いて、常染色体及び性染色体の、断片のサイズが第1長さから第2長さまでを抽出することを特徴とする。
【0025】
実施例において、前記DNA分析部は、前記染色体の中心体を基準にP-arm及びQ-armの断片のサイズを抽出することを特徴とする。
【0026】
実施例において、前記DNA分析部は、前記整理された配列情報を用いてGC含量とマッピング率が基準値以上の配列情報を抽出し、各領域を特定の大きさ以上のビン(bin)領域に分けて各区間の量を正規化し、各ビン領域に対する平均と標準偏差を用いてZ-scoreを計算し、前記Z-scoreを数値化してコピー数多型を抽出することを特徴とする。
【0027】
実施例において、前記DNA分析部は、ミトコンドリアのコピー数多型を計算し、常染色体の平均コピー数多型を計算し、ミトコンドリアのコピー数多型を常染色体の平均コピー数多型で割ってミトコンドリアのコピー数多型を抽出することを特徴とする。
【0028】
実施例において、前記既に学習されたアルゴリズムは、Random Forest(RF)、Support Vector Machine(SVM)、eXtra Gradient Boost(XGB)、Decision Tree Classifier(DTC)、K-nearest Neighbors(KNN)、Gaussian Naive Bayes(GNB)、Stochastic Gradient Descent(SGD)、Linear Discriminant Analysis(LDA)、Ridge Regression、Lasso及びElastic netのうちの少なくとも1つのアルゴリズムを含むことを特徴とする。
【0029】
実施例において、前記制御部は、前記染色体の断片のサイズ及びP-armとQ-armの割合データを統合し、常染色体のコピー数多型及びミトコンドリアの割合データを統合し、前記統合された割合データを入力値として入力することを特徴とする。
【0030】
上述した課題を解決するための本発明の他の実施例に係る癌診断プログラムは、ハードウェアであるコンピュータと結合され、上述した方法のうちの何れかの方法を行うために媒体に格納される。
【0031】
この他にも、本発明を具現するための他の方法、他のシステム及び前記方法を実行するためのコンピュータプログラムを記録する、コンピュータ読み取り可能な記録媒体が更に提供されうる。
【図面の簡単な説明】
【0032】
【
図1】本発明の一実施例に係る癌診断装置を説明する概念図である。
【
図2】本発明の一実施例に係る癌診断方法を説明するフローチャートである。
【
図3】
図2で詳察した癌診断方法を説明する概念図(1)である。
【
図4】
図2で詳察した癌診断方法を説明する概念図(2)である。
【
図5】
図2で詳察した癌診断方法を説明する概念図(3)である。
【
図6】
図2で詳察した癌診断方法を説明する概念図(4)である。
【
図7】
図2で詳察した癌診断方法を説明する概念図(5)である。
【
図8】
図2で詳察した癌診断方法を説明する概念図(6)である。
【
図9】
図2で詳察した癌診断方法を説明する概念図(7)である。
【
図10】
図2で詳察した癌診断方法を説明する概念図(8)である。
【
図11】
図2で詳察した癌診断方法を説明する概念図(9)である。
【
図12】
図2で詳察した癌診断方法を説明する概念図(10)である。
【
図13】
図2で詳察した癌診断方法を説明する概念図(11)である。
【発明を実施するための形態】
【0033】
本発明の利点及び特徴、そしてそれらを達成する方法は、添付の図面と共に詳細に後述されている実施例を参照すれば明確になる。しかし、本発明は、以下で開示される実施例に制限されるものではなく、互いに異なる多様な形態に具現することができる。但し、本実施例は、本発明の開示を完全なものにし、本発明が属する技術分野における通常の技術者に本発明の範疇を完全に理解させるために提供されるものであり、本発明は専ら請求項の範疇により定義される。
【0034】
本明細書で用いられた用語は、実施例を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数型は特に言及しない限り複数型も含む。明細書で用いられる「含む(comprises)」及び/又は「含んでいる(comprising)」は、言及された構成要素以外に1つ以上の他の構成要素の存在又は追加を排除しない。明細書全体に亘って同一の図面符号は同一の構成要素を示し、「及び/又は」は言及された構成要素のそれぞれ及び1つ以上の全ての組み合わせを含む。たとえ、「第1」、「第2」などが多様な構成要素を叙述するために用いられていても、これらの構成要素がこれらの用語により制限されないのはもちろんである。これらの用語は、単に1つの構成要素を他の構成要素と区別するために用いる。従って、以下で言及される第1構成要素は、本発明の技術的思想内で第2構成要素でもあり得るのは言うまでもない。
【0035】
他の定義がなければ、本明細書で用いられる全ての用語(技術及び科学的用語を含む)は、本発明が属する技術分野における通常の技術者が共通して理解できる意味として用いられる。また、一般に用いられる辞典に定義されている用語は、明白に特に定義されていない限り、理想的に又は過度に解釈されない。
【0036】
以下、添付の図面を参照し、本発明の実施例を詳細に説明する。
【0037】
説明に先立ち、本明細書で用いる用語の意味を簡単に説明する。しかし、用語の説明は、本明細書の理解を促進するためのものであるので、明示的に本発明を限定する事項として記載していない場合、本発明の技術的思想を限定する意味として用いるものではないことに注意すべきである。
【0038】
本明細書において、「癌診断装置」は演算処理を行ってユーザに結果を提供できる多様な装置が全て含まれる。
【0039】
例えば、癌診断装置は、コンピュータ、端末、デスクトップPC、ノートパソコン(Note Book)だけでなく、スマートフォン(Smart phone)、タブレットPC、セルラーフォン(Cellular phone)、ピーシーエスフォン(PCS Phone;Personal Communication Service phone)、同期式/非同期式IMT-2000(International Mobile Telecommunication-2000)の移動端末、パームPC(Palm Personal Computer)、携帯個人端末(PDA;Personal Digital Assistant)なども該当し得る。
【0040】
また、癌診断装置は、クライアントから要請を受信し、情報処理を行うサーバと通信を行える。
【0041】
本発明の一実施例に係る癌診断装置は、
図1で説明する構成要素のうちの少なくとも1つを含むように具現できる。
【0042】
図1は、本発明の一実施例に係る癌診断装置を説明する概念図である。
【0043】
本発明の一実施例に係る癌診断装置100は、DNA分析部110及び制御部130を含むことができる。
【0044】
DNA分析部110は、血液より抽出された血漿からctDNAの配列情報を獲得できる。
【0045】
DNA分析部110は、前記獲得した配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出できる。
【0046】
DNA分析部110は、前記獲得した配列情報を用いてP-arm及びQ-armの断片のサイズを抽出できる。
【0047】
DNA分析部110は、前記獲得した配列情報を用いてミトコンドリアのコピー数多型を抽出できる。
【0048】
制御部130は、DNA分析部110から抽出されたデータを用いて癌診断を行える。
【0049】
具体的に、制御部130は、前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、既に学習されたアルゴリズムの入力値として入力し、癌の発生の有無を出力値として出力できる。
【0050】
また、制御部130は、前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、人工知能アルゴリズムの入力値として入力し、癌の病期(stage; ステージ)及び起源(origin)を出力値として出力できる。
【0051】
また、制御部130は、前記出力値として出力された癌の発生の有無、癌の病期及び起源を用いて、患者の再発と転移について判断するようにモニタリングを行える。
【0052】
図2は、本発明の一実施例に係る癌診断方法を説明するフローチャートであり、
図3ないし
図13は、
図2で詳察した癌診断方法を説明する概念図である。
【0053】
本発明は、無細胞循環腫瘍核酸(ctDNA)の断片データを人工知能アルゴリズムに入力し、癌又は正常の区分(癌発生の有無)だけでなく、起源及び病期まで判別することが可能な、癌診断方法及び癌診断装置を提供できる。
【0054】
本発明は、次世代塩基配列解析手法(Next Generation Sequencing、NGS; 次世代シーケンシング)で生成されたデータを3X(3倍)から0.5X(0.5倍)までの低い深さ(Low-depth; 低深度)でも判別可能である。
【0055】
本発明は、染色体のコピー数多型(Copy Number Variations)の違い、染色体の断片の長さ(断片のサイズ)、ミトコンドリア、P-arm、Q-armの割合などの多様なデータを同時に、既に学習されたアルゴリズムに入力することにより、精度を著しく高めることができる。
【0056】
従って、本発明の癌診断装置及び方法は、癌を早期発見して医療費を格段に低減するだけでなく、癌による死亡率を下げ、癌の治療及び予後の予測にも有用に用いられるうる。
【0057】
図2を参照すると、本発明の癌診断装置は、DNA分析部110が、血液より抽出された血漿から、ctDNAの配列情報を獲得し、獲得した配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出する段階が行われる(S210)。
【0058】
制御部130は、遠心分離器を制御できる。
【0059】
制御部130は、ctDNA(又はcfDNA; Cell Free DNA)の量を最大限に増加させるために、前記遠心分離器のrpm速度制御を行うことができる。
【0060】
具体的に、制御部130は、a)1段階のみ用いる分離方法では400g(重力加速度)~1000gで10分間血漿を抽出するのであり、b)2段階で分離する方法では、a)方法を適用した後、6000g以上の回転速度で血漿を抽出するように、遠心分離器を制御することができる。
【0061】
遠心分離器で分離された血漿は、DNA分析部110に移動され、分析に利用され得る。
【0062】
DNA分析部110は、全ゲノムシーケンス(Whole Genome Sequencing、WGS)の配列が整理されたファイルから、ctDNA断片のサイズのパターンを分析できる。
【0063】
また、DNA分析部110は、全ゲノムシーケンス(Whole Genome Sequencing、WGS)の配列が整理されたファイルから、ctDNAのコピー数多型(Copy Number Variations)を計算できる。
【0064】
制御部130は、大量の塩基配列分析方法によって生産されたデータのDNA断片のサイズのパターンとコピー数多型を用いて癌を診断できる。
【0065】
DNA分析部110は、血漿からctDNAの配列情報(FASTQ形式のファイル又はreads)を取得し、ヒトの参照データ(Human reference genome data)を用いて配列を整理できる。
【0066】
DNA分析部110は、前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理することができる。
【0067】
また、DNA分析部110は、前記整理された配列情報を用いて、常染色体、性染色体及びミトコンドリアの断片のサイズを第1長さ(例えば、75)から第2長さ(例えば、440)まで抽出できる。
【0068】
図3に示されるように、制御部130は、染色体の断片のサイズに対するパターンが確保でき、特定の断片のサイズ(例えば、155又は166)における個数が、正常である場合と癌である場合に異なって現れることが分かる。
【0069】
また、DNA分析部110は、前記獲得した配列情報を用いて、P-armの断片のサイズ(fragment size)及びQ-armの断片のサイズを抽出できる(S220)。
【0070】
DNA分析部110は、染色体(全ての染色体)の中心体(Centromere)を基準にP-arm及びQ-armの断片のサイズを抽出できる。
【0071】
また、DNA分析部110は、前記整理された配列情報を用いて、GC含量(GC-Content)とマッピング率が基準値(cut-off)以上の配列情報を抽出できる。
【0072】
DNA分析部110は、各領域(chromosomal region)を特定の大きさ以上のビン(bin)領域に分けて各区間の量を正規化できる。
【0073】
DNA分析部110は、各ビン領域に対する平均と標準偏差を用いてZ-scoreを計算し、前記Z-scoreを数値化してコピー数多型を抽出できる。
【0074】
具体的に、本発明のDNA分析部110は、前記整理された配列情報(データ)を用いてGC含量とマッピング率(Mappability)が基準値以上のリード(配列情報)を抽出できる。
【0075】
また、DNA分析部110は、各領域(chromosomal region)を5kb以上(5KB~10MB)のbinに分けて各区間の量を確認して正規化できる。
【0076】
DNA分析部110は、binを基準に求めた平均と標準偏差を用いてZ-scoreを計算できる。
【0077】
DNA分析部110は、Z-scoreの値を数値化してコピー数多型の差をデータ化できる。
【0078】
具体的に、DNA分析部110は、配列が整理されたデータ(sequence alignment data)を用いて、常染色体、性染色体、ミトコンドリアのコピー数多型(Copy Number Variations、CNV)の差を計算できる。
【0079】
DNA分析部110は、配列が整理されたデータから曖昧なリード(sequence information)を取り除き、完璧に整列(Perfect match)されたリードのみを整理し、整理された配列から、GC含量とマッピング率(Mappability)が基準値以上のリードを抽出できる。
【0080】
DNA分析部110は、各領域(chromosomal region)を5kb以上(5KB~10MB)のbinに分けてZ-scoreを計算することを含むことができる。
【0081】
図4は、0.1Xから5Xまでの多様なリード深さでの結果を示している。
【0082】
図4は、リード深さによるコピー数多型(Copy Number Variations)の結果のグラフであり、上側から5X、3X、1X、0.5X、0.1Xのグラフを示す。
【0083】
図4を参照すると、最終結果グラフとして0.5Xまでは適当であるが、0.1Xからはscoreが急激に変化しながら低下することから、コピー数多型に変化がない健常者の結果が、深さが低いことによってコピー数多型に変化があるものと判定される。
【0084】
図5のRandom forestの結果のように、5Xから0.5Xまでの結果はほぼ一定であるが、0.1の値は全体の結果に大きな影響を及ぼす。
【0085】
一方、DNA分析部110は、前記獲得された配列情報を用いて、ミトコンドリアのコピー数多型を抽出できる(S230)。
【0086】
具体的に、DNA分析部110は、ミトコンドリアのコピー数多型を計算し、常染色体の平均コピー数多型を計算できる。
【0087】
DNA分析部110は、ミトコンドリアのコピー数多型を常染色体の平均コピー数多型の深さで割ってミトコンドリアのコピー数多型を抽出できる。
【0088】
DNA分析部110は、ミトコンドリアのコピー数多型を以下のように計算できる。
【0089】
ミトコンドリアコピー数多型計算=ミトコンドリアリードの深さ/常染色体の平均リードの深さ
【0090】
その後、制御部130は、前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを、既に学習されたアルゴリズムの入力値として入力し、癌の発生の有無を出力値として出力できる(S240)。
【0091】
前記既に学習されたアルゴリズムは、Random Forest(RF; ランダムフォレスト)、Support Vector Machine(SVM; サポートベクターマシン )、eXtra Gradient Boost(XGB; XGBoost)、 Decision Tree Classifier(DTC)、K-nearest Neighbors(KNN; k近傍法)、Gaussian Naive Bayes(GNB; ガウシアンナイーブベイズ)、Stochastic Gradient Descent(SGD; 確率的勾配降下法)、Linear Discriminant Analysis(LDA; 線形判別分析)、Ridge Regression(リッジ回帰)、Lasso及びElastic netのうちの少なくとも1つのアルゴリズムを含むことができる。
【0092】
また、制御部130は、癌の発生の有無のみならず、前記染色体の断片のサイズ、コピー数多型、P-armの断片のサイズ、Q-armの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも1つを人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力できる(S250)。
【0093】
制御部130は、染色体の断片のサイズ及びP-armとQ-armの割合データを統合し、常染色体のコピー数多型及びミトコンドリアの割合データを統合できる。
【0094】
その後、制御部130は、前記統合された割合データを入力値として入力できる。
【0095】
前記人工知能アルゴリズムは、Random Forest(RF)、Support Vector Machine(SVM)、eXtra Gradient Boost(XGB)、 Decision Tree Classifier(DTC)、K-nearest Neighbors(KNN)、Gaussian Naive Bayes(GNB)、Stochastic Gradient Descent(SGD)、Linear Discriminant Analysis(LDA)、Ridge Regression、Lasso及びElastic net分流器などのアルゴリズムを含むことができる。
【0096】
人工知能アルゴリズムは、癌の発生の有無のみならず、癌の病期や起源を抽出するように設計及び学習されたアルゴリズムを意味し、制御部130によって予め格納され、周期的にアップデートされるのでありうる。
【0097】
また、制御部130は、統合されたデータを用いて敵対的生成ネットワーク(Generative Adversarial Network、GAN)、SMOTE(Synthetic Minority Over-sampling Technique)、Denoising Autoencoder(デノイジングオートエンコーダ)などの多様なサンプル拡張方法を用いてサンプルを数十から数百倍まで膨らませ、人工知能及びディープラーニングの分類器で癌の有無を判別できる。
【0098】
また、制御部130は、生成された統合されたデータを用い、敵対的生成ネットワーク(Generative Adversarial Network、GAN)、SMOTE、Denoising Autoencoderなどの多様なサンプル拡張方法を用いてサンプルを数十から数百倍まで膨らませ、人工知能及びディープラーニングの分類器でもって癌の病期及び起源を判別することもできる。
【0099】
このような構成により、本発明は、癌に影響を及ぼし得る生物学的分析物に、人工知能学習接近法を導入して、癌の解析と癌の起源、病期まで予測し、癌を早期発見して死亡率を下げるだけでなく、癌の治療及び予後予測も行って医療費を格段に低減させるのに有用な方法を提供できる。
【0100】
また、本発明は、0.5Xの低い深さでも癌を予測する方法と装置により低コストで国民全体を対象に可能なサービスを提供することで、人類の幸せと福祉に貢献できる。
【0101】
以下、添付の図面を参照し、本発明に係る実験結果を説明する。
【0102】
癌判定の精度を詳察すると、以下の通りである。
【0103】
1)断片のサイズ
断片のサイズは、従来に報告されているものとは異なり、155bp以下と全体の比較において、断片のサイズから類推できる全長を用いる結果が、中心値で、より良い結果を示した。
【0104】
図6を参照すると、
図6は、全領域を用いるBasicと、155bpまでを用いるグラフとの比較図である。
【0105】
図3のパターンの差において、155bpのみをキャプチャした結果や、155bp以下(74bp~155bp)+180bp以上(180bp~220bp)の結果が、75bp~440bpの全体を用いた結果よりも高くなかった。
【0106】
本実験は、全領域(75bp~440bp)を有する結果が、より有益であることを確認した。
【0107】
それぞれのアルゴリズムを比較したのであり、SGD(Stochastic Gradient Descent)、RF(Random Forest)、SVM(Support Vector Machines)、DTC(Decision Tree Classifier)、KNN(K-nearest Neighbors)、GNB(Gaussian Naive Bayes)、XGB(eXtra Gradient Boost)の順である。すなわち、
図6~9及び11~13中の各グラフにて、左から順に、これら7種のアルゴリズムによる結果をそれぞれ示す。なお、
図5及び
図10では、2つの方式を比較するために、8対の結果を示す。
【0108】
左側はBasicであり、右側は155bpまでの結果である。Basicの全ての結果は、コピー数多型(CNV、Copy Number Variation)を追加した結果であり、accuracyの数値である。
【0109】
2)CNV、Fragmentation、P/Q-arm領域及び分析
コピー数多型(CNV)のデータは、5kb領域に分節化してZ-scoreの結果データを用い、発明者の以前のNIPT(Non-Invasive Prenatal Test; 非侵襲的出産前テスト)の韓国特許KR10-1817785BとKR10-1817180Bの基本分析法を用いた。
【0110】
図7に示されるように、1kbから5kb、1mbなどの結果はほぼ類似しており、Random Forestの結果が0.61の中央値を有する。
【0111】
Fragmentation領域(断片の領域)は、前述した1)の結果と、
図3の75bp~440bpの全領域を用いる数値を用いた。
【0112】
Fragmentationデータの正規化過程は、1275個のサンプルのpaired-endの長さを用いて正確な断片のサイズを決定し、大きさ別に分布の数を決定した。
【0113】
全てのデータは、断片全体に対する各長さでの割合で表すか、Z-scoreを用いて求めることができる。
【0114】
P/Q-armのそれぞれの領域は、下記表1のように、中心体を中心に上側はP-arm領域、下側はQ-armに分類する一般的な基準に従っており、UCSC Genome Browser(genome browser hosted by the University of California, Santa Cruz)で一般的に分類して配布する基準に従った。
【0115】
<表1>中心体(centromore)を中心に選択したP-arm及びQ-armの領域
【0116】
P-armのpaired-endの長さの分布を求め、100bp~400bpの領域のみ用い、それぞれの領域とP/Q-armの割合を用いて分析に用いた。
【0117】
図9においてP/Q-armの割合を用いたデータ(CNV+Fragmentation+P/Q-arm)の結果から、従来のBasic(CNV+Fragmentation)の結果(
図8)よりも良い結果が得られ、XGBの結果から、従来よりは0.2程度向上した0.78の中心値が得られた。また、全般的に中心値が向上する結果が確認できた。
【0118】
3)Basicにミトコンドリアを追加した分析及び結果
Basic(CNV+Fragmentation)のデータに加え、癌において有意な結果を示すミトコンドリアのコピー数多型(Copy Number Variations)を反映するために、全体に比べてミトコンドリアの数がどのようになるかを反映するために、(ミトコンドリアの平均read depth)/(常染色体の平均read depth)を用いて計算した。
【0119】
図10の結果において従来のデータとは異なり、3~5%の精度(accuracy)の向上があった。RFの結果は中心値が80%であり、最高83%精度の結果もあった。XGBも類似する結果であるが、全般的に中心値と変化量の分布が少ないRFが良い結果を示した。
【0120】
図10は、SGD(Stochastic Gradient Descent; 確率的勾配降下法)、RF(Random Forest; ランダムフォレスト)、SVM(Support Vector Machines; サポートベクターマシン)、DTC(Decision Tree Classifier)、KNN(K-nearest Neighbors; k近傍法)、GNB(Gaussian Naive Bayes; ガウシアンナイーブベイズ)、XGB(eXtra Gradient Boost; XGBoost)の順であり、BasicとBasicPlusMito(Basicにミトコンドリアを追加)の結果が対で順に示されており、10foldの結果を10回行った結果である。
【0121】
<表2>
98%の特異性(specificities)でDELFIは値をそのまま引用し、SmartCfDNAはRF(Random Forest; ランダムフォレスト)の結果である。
【0122】
4)それぞれ癌の起源(Origin)を判断する能力
本発明は、正常と癌とを区分した後に最も重要なのは、どのような癌であるかを判断することであり、
図11及び
図12を参照すれば、それぞれのデータセットで学習されたモジュールを用いて、乳癌、大腸癌、膵臓癌、胃癌、肺癌、卵巣癌、胆道癌について判断できる。
【0123】
RFを用いる場合、肺癌の精度は85%であるが、86%、90%、89%、92%、86%、89%、または93%の区分力があり得るのであり、大半の癌について90%以上の精度で癌の起源(Origin)を判断しうる。
【0124】
図13を参照すると、本発明の7つの癌を区分する能力は、RFで60%(95%CIで55~65%)、XGB(95%CIで57~66%)で63%であり、上位2つの癌を予測する能力は、RFとXGBが何れも78%である。
【0125】
前述した癌診断装置の動作及び機能は、癌診断方法と同一または同様に類推適用されうる。
【0126】
前記のような本発明によれば、本発明は、最適化された方法により癌の有無の診断及び癌の起源並びに病期を判別できる癌診断方法を提供できる。
【0127】
また、本発明は、従来に比べて精度が高くなった癌診断方法を提供できる。
【0128】
以上にて前述した本発明の一実施例に係る方法は、ハードウェアであるサーバと結合されて実行されるために、プログラム(又はアプリケーション)により具現されて媒体に格納されうる。
【0129】
前述したプログラムは、前記コンピュータがプログラムを読み込んでプログラムに具現した前記方法を実行させるために、前記コンピュータのプロセッサ(CPU)が前記コンピュータの装置インターフェースを介して読み取られるC、C++、JAVA(登録商標)、機械語などのコンピュータ言語でコード化されたコード(Code)を含むことができる。このようなコードは、前記方法を実行するのに必要な機能を定義した関数などと関連する機能的なコード(Functional Code)を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順通りに実行させるのに必要な実行手順関連の制御コードを含むことができる。また、このようなコードは、前記機能を前記コンピュータのプロセッサが実行させるのに必要な追加の情報やメディアが、前記コンピュータの内部又は外部メモリのどの位置(アドレス)で参照されるべきかに対する、メモリ参照関連のコードを更に含むことができる。更に、前記コンピュータのプロセッサが前記機能を実行させるために、遠隔(Remote)にある任意の他のコンピュータやサーバなどとの通信が必要な場合、コードは、前記コンピュータの通信モジュールを用いて、遠隔にある任意の他のコンピュータやサーバなどと、どのように通信すべきか、通信時に如何なる情報やメディアを送受信すべきかなどに対する通信関連のコードを更に含むことができる。
【0130】
前記格納される媒体は、レジスタ、キャッシュ、メモリなどといった、短い時間の間だけデータを格納する媒体ではなく、半永久的にデータを格納し、機器により読み取り(reading)可能な媒体を意味する。具体的には、前記格納される媒体の例としては、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ格納装置などがあるが、これに限らない。即ち、前記プログラムは、前記コンピュータが接続可能な多様なサーバ上の多様な記録媒体、又はユーザの前記コンピュータ上の多様な記録媒体に格納されうる。また、前記媒体は、ネットワークで接続されたコンピュータシステムに分散し、分散方式で、コンピュータが読み取れるコードが格納されることができる。
【0131】
本発明の実施例と関連して説明された方法やアルゴリズムの段階は、ハードウェアに直接具現されるか、ハードウェアによって実行されるソフトウェアモジュールに具現されるか、それらの結合によって具現されうる。ソフトウェアモジュールは、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、着脱型ディスク、又は本発明の属する技術分野において周知となっている任意の形態のコンピュータ読み取り可能な記録媒体に常に存在することもできる。
【0132】
以上、添付の図面を参照して本発明の実施例を説明したが、本発明が属する技術分野における通常の技術者は、本発明が、その技術的思想や必須の特徴を変更することなく、他の具体的な形態に実施され得るということにつき理解できるはずである。従って、以上で述べた実施例はあらゆる面で例示的なものであり、制限的ではないものとして理解すべきである。