(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-16
(54)【発明の名称】シーケンシングプラットフォームの特異的エラーを減らした体細胞突然変異検出装置及び方法
(51)【国際特許分類】
G16B 20/20 20190101AFI20221209BHJP
G06N 3/02 20060101ALI20221209BHJP
C12Q 1/6869 20180101ALI20221209BHJP
G16B 30/00 20190101ALI20221209BHJP
G16B 40/20 20190101ALI20221209BHJP
C12N 15/12 20060101ALN20221209BHJP
【FI】
G16B20/20
G06N3/02
C12Q1/6869 Z
G16B30/00
G16B40/20
C12N15/12
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022522755
(86)(22)【出願日】2019-10-25
(85)【翻訳文提出日】2022-04-14
(86)【国際出願番号】 KR2019014109
(87)【国際公開番号】W WO2021080043
(87)【国際公開日】2021-04-29
(81)【指定国・地域】
(71)【出願人】
【識別番号】519001383
【氏名又は名称】ソウル ナショナル ユニバーシティ アールアンドディービー ファウンデーション
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】ベク,デ ヒョン
(72)【発明者】
【氏名】アン,ジュン ハク
(72)【発明者】
【氏名】ジョン,ヒョン スン
(72)【発明者】
【氏名】キム,ド ヨン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA17
4B063QQ02
4B063QQ03
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QR62
4B063QR72
4B063QR77
(57)【要約】
【課題】検出性能が改善された突然変異を検出する装置を提供する。
【解決手段】突然変異を検出する装置は、ニューラルネットワークを具現するためのソフトウェアを保存するメモリ、及びソフトウェアを実行することにより、突然変異を検出するプロセッサを含み、プロセッサは、検出対象組織から抽出される第1ゲノムデータ及び正常組織から抽出される第2ゲノムデータを生成し、第1ゲノムデータ及び第2ゲノムデータに対する前処理を実行してイメージデータを抽出し、シーケンシングプラットフォーム(sequencing platform)に特異的に発生する偽陽性(false positive)を訂正するように学習されるニューラルネットワークを通じて、イメージデータに基づいて検出対象組織の突然変異を検出する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
突然変異を検出する装置において、
ニューラルネットワークを具現するためのソフトウェアを保存するメモリと、
前記ソフトウェアを実行することにより、突然変異を検出するプロセッサと、を含み、
前記プロセッサは、
検出対象組織から抽出される第1ゲノムデータ及び正常組織から抽出される第2ゲノムデータを生成し、
前記第1ゲノムデータ及び前記第2ゲノムデータに対する前処理を実行してイメージデータを抽出し、
シーケンシングプラットフォーム(sequencing platform)に特異的に発生する偽陽性(false positive)を訂正するように学習された前記ニューラルネットワークを通じて、前記イメージデータに基づいて前記検出対象組織の突然変異を検出することを特徴とする装置。
【請求項2】
前記ニューラルネットワークは、
正常に検出される正常突然変異に関する学習データを示す第1学習イメージデータ及び前記偽陽性による誤検出突然変異に関する学習データを示す第2学習イメージデータに基づいて、前記正常突然変異及び前記誤検出突然変異を区別するように学習されることを特徴とする請求項1に記載の装置。
【請求項3】
前記第1学習イメージデータ及び前記第2学習イメージデータは、
同じ学習用組織に対するロングリードシーケンシング(long read sequencing)及びショートリードシーケンシング(short read sequencing)の結果に基づいて生成されることを特徴とする請求項2に記載の装置。
【請求項4】
前記第1学習イメージデータ及び前記第2学習イメージデータは、
遺伝子配列(gene sequence)、挿入/欠失(indel、insertion/deletion)、及びマッピングクオリティ(mapping quality)のうちの少なくとも一つを含むことを特徴とする請求項2に記載の装置。
【請求項5】
前記ニューラルネットワークは、
前記イメージデータから特徴(feature)を抽出し、前記特徴に基づいて前記検出対象組織の遺伝子が突然変異に対応する確率を計算する畳み込みニューラルネットワーク(CNN、convolutional neural network)であることを特徴とする請求項1に記載の装置。
【請求項6】
前記プロセッサは、
マッピングクオリティ及び深度(depth)に基づいて前記第1ゲノムデータ及び前記第2ゲノムデータを補正することにより、前記前処理を実行することを特徴とする請求項1に記載の装置。
【請求項7】
前記検出対象組織から検出される突然変異は、体細胞一塩基変異(sSNV、somatic single nucleotide variant)であることを特徴とする請求項1に記載の装置。
【請求項8】
ニューラルネットワークを具現するためのソフトウェアを実行することにより突然変異を検出する方法において、
検出対象組織から抽出される第1ゲノムデータ及び正常組織から抽出される第2ゲノムデータを生成するステップと、
前記第1ゲノムデータ及び前記第2ゲノムデータに対する前処理を実行してイメージデータを抽出するステップと、
シーケンシングプラットフォーム(sequencing platform)に特異的に発生する偽陽性(false positive)を訂正するように学習された前記ニューラルネットワークを通じて、前記イメージデータに基づいて前記検出対象組織の突然変異を検出するステップと、を含むことを特徴とする方法。
【請求項9】
前記ニューラルネットワークは、
正常に検出される正常突然変異に関する学習データを示す第1学習イメージデータ、及び前記偽陽性による誤検出突然変異に関する学習データを示す第2学習イメージデータに基づいて、前記正常突然変異及び前記誤検出突然変異を区別するように学習されることを特徴とする請求項8に記載の方法。
【請求項10】
前記第1学習イメージデータ及び前記第2学習イメージデータは、
同じ学習用組織に対するロングリードシーケンシング(long read sequencing)及びショートリードシーケンシング(short read sequencing)の結果に基づいて生成されることを特徴とする請求項9に記載の方法。
【請求項11】
前記第1学習イメージデータ及び前記第2学習イメージデータは、
遺伝子配列(gene sequence)、挿入/欠失(indel、insertion/deletion)、及びマッピングクオリティ(mapping quality)のうちの少なくとも一つを含むことを特徴とする請求項9に記載の方法。
【請求項12】
前記ニューラルネットワークは、
前記イメージデータから特徴(feature)を抽出し、前記特徴に基づいて前記検出対象組織の遺伝子が突然変異に対応する確率を計算する畳み込みニューラルネットワーク(CNN、convolutional neural network)であることを特徴とする請求項8に記載の方法。
【請求項13】
前記イメージデータを抽出するステップは、
マッピングクオリティ及び深度(depth)に基づいて前記第1ゲノムデータ及び前記第2ゲノムデータを補正することにより、前記前処理を実行するステップを含むことを特徴とする請求項8に記載の方法。
【請求項14】
前記検出対象組織から検出される突然変異は、体細胞一塩基突然変異(sSNV、somatic single nucleotide variant)であることを特徴とする請求項8に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、突然変異を検出する方法及びその方法を実行する装置に関する。より詳しくは、本発明は、シーケンシングプラットフォームの特異的エラーを減少させるように学習されたニューラルネットワークを活用して突然変異を検出する装置及び方法に関する。
【背景技術】
【0002】
次世代塩基配列分析(NGS、next generation sequencing)は、DNAを多数の断片に分解して塩基配列分析を並列に処理する方式を意味する。次世代塩基配列分析は、既存のサンガー塩基配列分析(Sanger sequencing)とは違って、多数のDNA断片を同時に分析することができるので、分析時間、分析費用、及び分析正確度の側面で有利である。
【0003】
図1を参照すると、次世代塩基配列分析110及びサンガー塩基配列分析120を比較するグラフ100が図示されている。グラフ100に示すように、次世代塩基配列分析110はサンガー塩基配列分析120に比べて高い性能を有する。一方、グラフ100の横軸で確認されるように、次世代塩基配列分析110は、多様なリード長(read length)を有する。
【0004】
癌患者のDNA塩基配列を分析して突然変異を検出するために、次世代塩基配列分析が活用される。次世代塩基配列分析の方式でDNA塩基配列を分析する多様なソフトウェアを通じて癌組織の突然変異が検出される。
【0005】
従来のソフトウェアによって突然変異が検出される場合、特に、ショートリードシーケンシング(short read sequencing)のような特定のシーケンシングプラットフォームでDNAの塩基配列が分析される場合、実際には突然変異ではないが、当該シーケンシングプラットフォームの特性上、突然変異であると間違って検出される偽陽性(false positive)が発生し、このようなシーケンシングプラットフォームに特異的に発生する偽陽性によって、突然変異検出の正確度が低下する。
【0006】
したがって、シーケンシングプラットフォームに特異的に発生する偽陽性によって突然変異の検出の正確度が低下することを防止するためには、突然変異を検出する方式が改善されることが要求される。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明が解決しようとする技術的課題は、既存のソフトウェアによって発生する問題点として、シーケンシングプラットフォームに特異的に発生する偽陽性によって突然変異の検出の正確度が低下する問題を解決して、突然変異の検出性能を改善することである。
【課題を解決するための手段】
【0008】
上述の技術的課題を解決するための手段として、本発明の一態様による突然変異を検出する装置は、ニューラルネットワークを具現するためのソフトウェアを保存するメモリと、前記ソフトウェアを実行することにより、突然変異を検出するプロセッサとを含み、前記プロセッサは、検出対象組織から抽出される第1ゲノムデータ及び正常組織から抽出される第2ゲノムデータを生成し、前記第1ゲノムデータ及び前記第2ゲノムデータに対する前処理を実行してイメージデータを抽出し、シーケンシングプラットフォーム(sequencing platform)に特異的に発生する偽陽性(false positive)を訂正するように学習された前記ニューラルネットワークを通じて、前記イメージデータに基づいて前記検出対象組織の突然変異を検出することを特徴とする。
【0009】
本発明の一態様によるニューラルネットワークを具現するためのソフトウェアを実行することにより突然変異を検出する方法は、検出対象組織から抽出される第1ゲノムデータ及び正常組織から抽出される第2ゲノムデータを生成するステップと、前記第1ゲノムデータ及び前記第2ゲノムデータに対する前処理を実行してイメージデータを抽出するステッと、シーケンシングプラットフォーム(sequencing platform)に特異的に発生する偽陽性(false positive)を訂正するように学習された前記ニューラルネットワークを通じて、前記イメージデータに基づいて前記検出対象組織の突然変異を検出するステップと、を含むことを特徴とする。
【発明の効果】
【0010】
本発明による装置及び方法によれば、突然変異を検出する過程でニューラルネットワークが活用され、ニューラルネットワークは、シーケンシングプラットフォームに特異的に発生する偽陽性を訂正するように予め学習されるので、シーケンシングプラットフォームに特異的に発生する偽陽性によって突然変異の検出の正確度が低下することが防止される。特に、既存の統計的方式とは違って、突然変異検出にニューラルネットワークが活用されるので、既存の方式に比べて高い性能で突然変異を検出することができる。
【図面の簡単な説明】
【0011】
【
図1】次世代塩基配列分析方式及び既存の塩基配列分析方式を比較するためのグラフを示す図である。
【
図2】本発明の一実施形態によるニューラルネットワークを説明するための図である。
【
図3】本発明の一実施形態による突然変異を検出する過程を説明するための図である。
【
図4】本発明の一実施形態による突然変異を検出する装置を構成する要素を示すブロック図である。
【
図5】本発明の一実施形態によるニューラルネットワークの構造及び学習方式を説明するための図である。
【
図6】本発明の一実施形態によるニューラルネットワークを学習させるためのデータを生成する過程を説明するための図である。
【
図7】本発明の一実施形態による突然変異を検出する方法を構成するステップを示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施形態について詳しく説明する。以下の説明は、実施形態を具体化するためのものであって、本発明の技術範囲を制限したり限定するためのものではない。本発明に関する技術分野において通常の知識を有する者が発明の詳細な説明及び実施形態から容易に類推することができるものは本発明の技術範囲に属すると解釈されるべきである。
【0013】
本明細書で用いられる用語は、本発明に関する技術分野において広く用いられる一般的な用語で記載したが、本明細書で用いられる用語の意味は、当該分野に従事する技術者の意図、新しい記述の出現、審査基準または判例などによって異なり得る。一部用語は出願人によって任意に選定され、この場合、任意に選定された用語の意味が詳細に説明される。本明細書で用いられる用語はただ辞書的意味ではなく、明細書の全般的な文脈を反映する意味に解釈されるべきである。
【0014】
本明細書で用いられる「構成される」または「含む」のような用語は、明細書に記載される構成要素またはステップを必ず含むと解釈されてはならず、一部構成要素またはステップが含まれない場合、及び追加的な構成要素またはステップがさらに含まれる場合も当該用語から意図されるものと解釈されるべきである。
【0015】
本明細書で用いられる「第1」または「第2」のような序数を含む用語は、多様な構成要素またはステップを説明するために用いられるが、当該構成要素またはステップは、序数によって限定されない。序数を含む用語は、一つの構成要素またはステップを他の構成要素またはステップから区別するための用途のみに解釈すべきである。
【0016】
以下、図面を参照して本発明の実施形態について詳しく説明する。本発明に関する技術分野において通常の知識を有する者に広く知られている事項に対しては詳しい説明は省略する。
【0017】
図2は、本発明の一実施形態によるニューラルネットワークを説明するための図である。
【0018】
図2を参照すると、ニューラルネットワーク200を構成する要素が図示されている。ニューラルネットワーク200は、神経網が人工的に具現されたもので、入/出力層のほかに隠れ層を備えて、多様な非線形的機能を効率的に実行することができる。ニューラルネットワーク200は、複数の隠れ層を含むもので、ディープニューラルネットワーク(deep neural network)に対応する。
図2を通じて例示された構造のほかにも、ニューラルネットワーク200は、リカレントニューラルネットワーク(RNN)または畳み込みニューラルネットワーク(CNN)などのような多様なアーキテクチャで具現され得る。
【0019】
ニューラルネットワーク200は、ニューラルネットワーク200を構成する各種パラメータの数値を調整する方式で学習される。多様な機械学習及びディープランニングの方式によってニューラルネットワーク200が適切に学習される場合、ニューラルネットワーク200は、高い性能で学習目的による機能を実行することができる。このため、音声認識、自然語処理、及びイメージ分析などの分野のほかにも多様な分野でニューラルネットワーク200が幅広く活用される。特に、本発明のように、突然変異検出などのバイオ分野で従来の問題点を解決するために、ニューラルネットワーク200が活用される。
【0020】
図3は、本発明の一実施形態による突然変異を検出する過程を説明するための図である。
【0021】
図3を参照すると、突然変異を検出する装置300の内部で、第1ゲノムデータ310及び第2ゲノムデータ320に対する一連の処理過程が実行されて、突然変異検出結果350が生成される。後述するように、突然変異を検出する装置300は、
図4の装置400のように具現され得る。
【0022】
装置300内部の一連の処理過程は、ソフトウェアまたはプログラムの形態で具現される。装置300内部の一連の処理過程の各ステップは、イメージ生成モジュール330または突然変異検出モジュール340などのように、特定の機能を実行するためのモジュールで具現される。例えば、一連の処理過程を具現するソフトウェアは、パイソン(Python)スクリプトで具現され、LINUX(登録商標) CentOS release 7.6等のような環境で実行される。
【0023】
第1ゲノムデータ310は、検出対象組織から抽出されるゲノムデータを意味する。検出対象組織は、突然変異検出の対象となる組織として、癌組織を意味する。第2ゲノムデータ320は、正常組織から抽出されるゲノムデータを意味する。
【0024】
検出対象組織の遺伝子のうちのどのような遺伝子に突然変異が発生したのかを正確に把握するために、第1ゲノムデータ310に加えて第2ゲノムデータ320が一緒に考慮される。一方、
図3に示されていないが、検出対象組織から第1ゲノムデータ310を抽出する過程、及び正常組織から第2ゲノムデータ320を抽出する過程も、装置300内部のソフトウェアを構成する別途のモジュールで具現され得る。
【0025】
装置300では、ただ癌患者のゲノムデータのみに基づいて、統計的方式で突然変異が検出されるのではなく、実際に癌が発病した組織及びそれと対比するための正常組織から第1ゲノムデータ310及び第2ゲノムデータ320が抽出されて突然変異が検出されるので、癌患者及び癌組織ごとに相異する個別的な特性が突然変異検出過程に反映される。したがって、癌組織の遺伝子のうちのどのような遺伝子に突然変異が発生したのかがより正確に検出される。
【0026】
イメージ生成モジュール330は、第1ゲノムデータ310及び第2ゲノムデータ320からイメージデータを抽出する。イメージデータは、突然変異を検出するように学習/トレーニングされるニューラルネットワーク200に提供されるように、第1ゲノムデータ310及び第2ゲノムデータ320を視覚化したデータを意味する。
【0027】
突然変異検出モジュール340は、イメージデータに基づいて検出対象組織の突然変異を検出する。このために、突然変異検出モジュール340には、ニューラルネットワーク200が具現され、ニューラルネットワーク200は、検出対象組織の遺伝子のうちのどのような遺伝子に突然変異が発生したのかを検出するように学習される。例えば、
図5及び
図6で後述するように、ニューラルネットワーク200は、イメージから特徴(feature)を抽出し、特徴に基づいて特定機能を実行するように学習される畳み込みニューラルネットワーク(CNN)で具現される。
【0028】
突然変異検出モジュール340は、ニューラルネットワーク200の出力に追加的な加工及び処理を行って突然変異検出結果350を生成する。突然変異検出結果350は、参照ゲノム(reference gene)と比較して突然変異が発生したと判断される遺伝子に関する情報を表示する標準形式のフォーマット(VCF)で生成される。
【0029】
装置300によれば、特定の目的で学習されるニューラルネットワーク200が突然変異の検出に活用されるので、突然変異検出の正確度がより改善される。後述するように、ニューラルネットワーク200は、シーケンシングプラットフォームに特異的に発生する偽陽性を訂正するように学習されるので、既存の突然変異検出用ソフトウェアで問題点として指摘された偽陽性による正確度の減少が防止される。
【0030】
一方、装置300によって検出対象組織から検出される突然変異は、体細胞一塩基変異(sSNV、somatic single nucleotide variant)であり得る。体細胞一塩基変異は、体細胞突然変異として、塩基配列を構成する塩基のうち一塩基のみに対して突然変異が発生したことを意味する。体細胞一塩基変異は、次世代塩基配列分析によって検出されるのに適合し、特に、シーケンシングプラットフォームに特異的に発生する偽陽性を訂正するように学習されるニューラルネットワーク200によって検出されるのに適合する。ただし、これに限定されるものではなく、体細胞一塩基変異のほかに他の種類の突然変異も装置300によって検出され得る。
【0031】
図4は、本発明の一実施形態による突然変異を検出する装置を構成する要素を示すブロック図である。
【0032】
図4を参照すると、突然変異を検出する装置400は、メモリ410及びプロセッサ420を含む。ただし、これに限定されるものではなく、
図4に示された構成要素のほかに、他の汎用的な構成要素が装置400にさらに含まれ得る。一方、
図4の装置400は、
図3の装置300を具現する一つの例である。
【0033】
装置400は、突然変異を検出するように構成された多様なデバイスに対応することができる。例えば、装置400は、PC、サーバデバイス、スマートフォン、タブレットPC、及びその他モバイルデバイスなどのような多様な種類のコンピュータデバイスであり得る。
【0034】
メモリ410は、ニューラルネットワーク200を具現するためのソフトウェアを保存する。例えば、ニューラルネットワーク200を構成する層及びノードに関するデータ、ノードで実行される演算及び演算過程に適用されるパラメータが少なくとも一つの命令語、プログラム、またはソフトウェアの形態でメモリ410に保存される。
【0035】
メモリ410は、ROM(read only memory)、PROM(programmable ROM)、EPROM(electrically programmable ROM)、EEPROM(electrically erasable and programmable ROM)、フラッシュメモリ(flash memory)、PRAM(phase-change RAM)、MRAM(magnetic RAM)、RRAM(登録商標)(resistive RAM)、FRAM(登録商標)(ferroelectric RAM)などのような不揮発性メモリで具現されるか、またはDRAM(dynamic RAM)、SRAM(static RAM)、SDRAM(synchronous DRAM)、PRAM(phase-change RAM)、RRAM(resistive RAM)、FeRAM(ferroelectric RAM)などの揮発性メモリで具現される。また、メモリ410は、HDD(hard disk drive)、SSD(solid state drive)、SD(secure digital)、Micro-SD(micro secure digital)などで具現され得る。
【0036】
プロセッサ420は、メモリ410に保存されたソフトウェアを実行することにより、突然変異を検出する。プロセッサ420は、突然変異検出のための一連の処理過程を実行して検出対象組織の突然変異を検出する。プロセッサ420は、装置400を制御するための全般的な機能を実行し、装置400内部の各種演算を処理する。
【0037】
プロセッサ420は、多数の論理ゲートのアレイまたは汎用的なマイクロプロセッサで具現される。プロセッサ420は、単一のプロセッサまたは複数のプロセッサで構成され得る。プロセッサ420は、ソフトウェアを保存するメモリ410と別途の構成ではなく、メモリ410とともに一体に構成されてもよい。プロセッサ420は、装置400内に備えられるCPU(central processing unit)、GPU(graphics processing unit)、及びAP(application processor)のうちの少なくとも一つであり得るが、これは一例に過ぎず、プロセッサ420は、他の多様な形態でも具現され得る。
【0038】
プロセッサ420は、検出対象組織から抽出される第1ゲノムデータ及び正常組織から抽出される第2ゲノムデータを生成する。プロセッサ420は、検出対象組織をシーケンシングした結果データセットをゲノムデータに内蔵させて、第1ゲノムデータを抽出し、正常組織をシーケンシングした結果データセットをゲノムデータに内蔵させて第2ゲノムデータを抽出する。
【0039】
例えば、プロセッサ420は、HCC1143 cell lineなどを通じて第1ゲノムデータ及び第2ゲノムデータを生成する。一方、第1ゲノムデータ及び第2ゲノムデータは、ゲノムワイドデータ(whole genone data)であり得る。
【0040】
プロセッサ420は、第1ゲノムデータ及び第2ゲノムデータに対する前処理を実行してイメージデータを抽出する。プロセッサ420は、第1ゲノムデータ及び第2ゲノムデータがニューラルネットワーク200によって処理されるのに適した形態を有するように前処理を実行する。
【0041】
その例として、第1ゲノムデータ及び第2ゲノムデータは、イメージデータのようにイメージの形態に変換される。ただし、イメージ形態への変換は一例に過ぎず、ニューラルネットワーク200がどのような方式で具現されるのかによって第1ゲノムデータ及び第2ゲノムデータは、イメージ以外にも多様な形態に変換され得る。
【0042】
プロセッサ420は、マッピングクオリティ(mapping quality)及び深度(depth)に基づいて、第1ゲノムデータ及び第2ゲノムデータを補正することにより、前処理を実行する。プロセッサ420は、マッピングクオリティを基準として低い質を有するリード(read)を除去し、第1ゲノムデータ及び第2ゲノムデータの深度を調整する。上記のような前処理過程を通じて、プロセッサ420は、ニューラルネットワーク200で処理されるのに適した形式を有するイメージデータを生成する。
【0043】
プロセッサ420は、シーケンシングプラットフォーム(sequencing)に特異的に発生する偽陽性(false positive)を訂正するように学習されたニューラルネットワーク200を通じて、イメージデータに基づいて検出対象組織の突然変異を検出する。学習されたニューラルネットワーク200を活用して、プロセッサ420は、イメージデータから検出対象組織のどのような遺伝子に突然変異が発生したのかを検出する。
【0044】
シーケンシングプラットフォームは、検出対象組織の塩基配列を分析するための具体的な方式を意味する。どのようなシーケンシングプラットフォームが適用されるかによって、塩基配列を分析する方式も異なり得る。次世代塩基配列分析(NGS)の場合、DNA断片が分解される大きさによって、すなわち並列的に処理されるDNA断片のリード長(read length)によってシーケンシングプラットフォームの種類が決められる。例えば、シーケンシングプラットフォームには、ロングリードシーケンシング及びショートリードシーケンシングなどが含まれる。ただし、このようなリード長による分類に限定されるものではなく、シーケンシングプラットフォームは塩基配列を分析するための多様な分析方式を意味する。
【0045】
ニューラルネットワーク200は、イメージデータが入力されて検出対象組織の突然変異を出力するように予め学習される。予め学習が完了したニューラルネットワーク200がソフトウェアの形態でメモリ410に保存され、プロセッサ420は学習されたニューラルネットワーク200を具現するソフトウェアを実行することにより、イメージデータから検出対象組織の突然変異を検出する。
【0046】
ニューラルネットワーク200の学習ないしトレーニングは、装置400によって実行される。装置400ないしプロセッサ420は、ニューラルネットワーク200を学習させるために、ニューラルネットワーク200を構成するパラメータの数値を繰り返しアップデートする方式でニューラルネットワーク200を学習させる。または、ニューラルネットワーク200は、装置400の外部で学習された後にソフトウェアで具現される。
【0047】
ニューラルネットワーク200は、シーケンシングプラットフォームに特異的に発生する偽陽性を訂正するように学習される。例えば、ニューラルネットワーク200は、ショートリードシーケンシングに特異的に発生する偽陽性を訂正するように学習され、ショートリードシーケンシングのリード長(read length)は、100以下であり得る。ただし、このような特定数値に限定されるものではなく、ショートリードシーケンシングは、ロングリードシーケンシングに比べて短いリード長を有するシーケンシング方式を指称する。
【0048】
シーケンシングプラットフォームに特異的に発生する偽陽性は、特定シーケンシングプラットフォームによれば、特定遺伝子に突然変異が発生したことが検出されるが、実際には当該遺伝子に突然変異が発生していない場合を意味する。すなわち、偽陽性は、特定シーケンシングプラットフォームによれば、突然変異が発生したと判定されるが、他のシーケンシングプラットフォームによれば、突然変異が発生していないと判定される場合を意味する。
【0049】
例えば、特定シーケンシングプラットフォームに特異的な偽陽性は、ショートリードシーケンシングに特異的な偽陽性である。ショートリードシーケンシングに特異的に発生する偽陽性は、ロングリードシーケンシングによれば、正常と検出されるが、ショートリードシーケンシングによれば、突然変異が発生したことが検出されるエラーを意味する。ショートリードシーケンシングに特異的に発生する偽陽性が存在する場合、実際には突然変異が発生していない遺伝子に突然変異が発生したと誤って判定されることがあり、突然変異検出の正確度が低下する。
【0050】
ニューラルネットワーク200は、シーケンシングプラットフォームに特異的に発生する偽陽性を訂正するように学習されるので、ニューラルネットワーク200を活用して検出対象組織の突然変異を検出する場合、突然変異の検出の正確度が向上する。ニューラルネットワーク200の学習に対する具体的な内容は、
図5及び
図6を通じて後述する。
【0051】
図5は、本発明の一実施形態によるニューラルネットワークの構造及び学習方式を説明するための図である。
【0052】
図5を参照すると、ニューラルネットワーク530の構造及び第1学習イメージデータ510及び第2学習イメージデータ520に基づいてニューラルネットワーク530が学習される過程が図示されている。
図5のニューラルネットワーク530は、
図2~
図4を通じて説明したニューラルネットワーク200が具現される一つの例である。
【0053】
上述のように、ニューラルネットワーク530は、イメージデータから特徴(feature)を抽出し、特徴に基づいて検出対象組織の遺伝子が突然変異に対応する確率を計算する畳み込みニューラルネットワークである。
【0054】
ニューラルネットワーク530は、第1ネットワーク531及び第2ネットワーク532を含む畳み込みニューラルネットワークCNNで具現される。第1ネットワーク531は、畳み込み層及びプーリング層を含み、第2ネットワーク532は、完全接続網(fully connected network)を含む。ニューラルネットワーク530の学習が完了すると、第1ネットワーク531は、入力データから入力データの特徴を示す特徴を抽出し、第2ネットワーク532は、特徴に基づいてニューラルネットワーク530の目的による機能を実行する。
【0055】
上述のように、ニューラルネットワーク530の学習は、装置400によって実行される。または、装置400の外部でニューラルネットワーク530の学習が完了した後、装置400では、ニューラルネットワーク530の推論のみが実行される。
【0056】
ニューラルネットワーク530は、第1学習イメージデータ510及び第2学習イメージデータ520を学習データとして学習される。具体的には、ニューラルネットワーク530は、実際突然変異に関する学習データを示す第1学習イメージデータ510及び偽陽性による誤検出突然変異に関する学習データを示す第2学習イメージデータ520に基づいて、実際突然変異及び誤検出突然変異を区別するように学習される。
【0057】
第1学習イメージデータ510は、実際突然変異に関する学習データを示す。実際突然変異は、何れか一つのシーケンシングプラットフォームによれば、突然変異に判定されるもので、他のシーケンシングプラットフォームによっても突然変異に判定されることを意味する。例えば、実際突然変異は、ショートリードシーケンシング及びロングリードシーケンシングの何れによっても突然変異に判定されることを意味する。
【0058】
第2学習イメージデータ520は、偽陽性による誤検出突然変異に関する学習データを示す。上述のように、特定シーケンシングプラットフォームによっては、実際には突然変異ではないものが突然変異に誤検出されることがあるため、偽陽性による誤検出突然変異を活用してニューラルネットワーク530が偽陽性を訂正するように学習させる。例えば、誤検出突然変異は、ロングリードシーケンシングによれば突然変異がないと判定されるが、ショートリードシーケンシングによっては突然変異があると判定される場合を意味する。
【0059】
ニューラルネットワーク530を学習させるために、第1学習イメージデータ510及び第2学習イメージデータ520が一緒に学習データとして活用されるので、学習の結果、ニューラルネットワーク530は、シーケンシングプラットフォームに特異的に発生する偽陽性を訂正するように構成される。第1学習イメージデータ510及び第2学習イメージデータ520が全部学習データに設定されることによって、ニューラルネットワーク530が突然変異を検出する正確度を向上させることができる。
【0060】
図6は、本発明の一実施形態によるニューラルネットワークを学習させるためのデータを生成する過程を説明するための図である。
【0061】
図6を参照すると、第1学習イメージデータ510及び第2学習イメージデータ520を生成するための互いに異なるシーケンシングプラットフォームの例として、ロングリードシーケンシング610及びショートリードシーケンシング620が図示されている。
【0062】
第1学習イメージデータ510及び第2学習イメージデータ520は、同じ学習用組織に対するロングリードシーケンシング610及びショートリードシーケンシング620の結果に基づいて生成される。ニューラルネットワーク530を学習させるための学習データを確保するために、突然変異が発生した遺伝子を一部含む同じ癌組織に対して、ロングリードシーケンシング610及びショートリードシーケンシング620が実行されて、両者の結果が比較される。
【0063】
例えば、ロングリードシーケンシング610として、Pacbio配列が実行され、ショートリードシーケンシング620として、イルミナ配列が実行される。ただし、これに限定されるものではなく、ショートリード及びロングリードに対して適切なリード長を有する他のシーケンシング方式が実行されてもよい。
【0064】
ロングリードシーケンシング610及びショートリードシーケンシング620の実行結果が
図6に例示されている。同じリファレンスに対して、ロングリードシーケンシング610によるマッピング結果及びショートリードシーケンシング620によるマッピング結果に一部差がある。例えば、比較結果630では、ロングリードシーケンシング610及びショートリードシーケンシング620の全ての場合において突然変異が発生したと判定されたので、比較結果630に対応する塩基は、実際突然変異であると設定される。
【0065】
一方、比較結果640では、ロングリードシーケンシング610では突然変異が発生しないと判定されたが、ショートリードシーケンシング620では突然変異が発生したと判定されて、比較結果640に対応する塩基は、ショートリードシーケンシングに特異的に発生する偽陽性による誤検出突然変異であると設定される。
【0066】
比較結果630に対応する実際突然変異に関するデータは、第1学習イメージデータ510にラベリングされ、比較結果640に対応する誤検出突然変異に関するデータは、第2学習イメージデータ520にラベリングされる。ニューラルネットワーク530は、上述のような方式で生成される第1学習イメージデータ510及び第2学習イメージデータ520から学習されるので、比較結果640の場合のような偽陽性を訂正するように学習される。
【0067】
一方、比較結果630に対応する実際突然変異に関するデータ及び比較結果640に対応する誤検出突然変異に関するデータは、HCC1143 cell lineなどを通じて仮想の癌組織ゲノムデータで具現され、仮想の癌組織ゲノムデータから遺伝子配列(gene sequence)、挿入/欠失(indel、insertion/deletion)、及びマッピングクオリティ(mapping quality)のような情報を得る過程を通じて、実際突然変異及び誤検出突然変異に対してそれぞれ第1学習イメージデータ510及び第2学習イメージデータ520が生成される。すなわち、第1学習イメージデータ510及び第2学習イメージデータ520は、遺伝子配列、挿入/欠失、及びマッピングクオリティのうちの少なくとも一つを含む。
【0068】
図7は、本発明の一実施形態による突然変異を検出する方法を構成するステップを示すフローチャートである。
【0069】
図7を参照すると、突然変異を検出する方法は、ステップ710~ステップ730を含む。ただし、これに限定されるものではなく、
図7に図示されたステップのほかに他の汎用的なステップが突然変異を検出する方法にさらに含まれ得る。
【0070】
図7の突然変異を検出する方法は、
図3~
図6を通じて説明した装置300または装置400で時系列的に処理されるステップで構成される。したがって、
図7の突然変異を検出する方法に対して、以下で省略された内容であっても、
図3~
図6の装置300または装置400に対して、以上で説明された内容は、
図7の突然変異を検出する方法に対しても同様に適用される。
【0071】
ステップ710で、装置400は、検出対象組織から抽出される第1ゲノムデータ及び正常組織から抽出される第2ゲノムデータを生成する。
【0072】
装置400は、マッピングクオリティ及び深度(depth)に基づいて第1ゲノムデータ及び第2ゲノムデータを補正することにより、前処理を実行する。
【0073】
ステップ720で、装置400は、第1ゲノムデータ及び第2ゲノムデータに対する前処理を実行して、イメージデータを抽出する。
【0074】
ステップ730で、装置400は、シーケンシングプラットフォーム(sequencing platform)に特異的に発生する偽陽性(false positive)を訂正するように学習されるニューラルネットワークを通じて、イメージデータに基づいて検出対象組織の突然変異を検出する。
【0075】
ニューラルネットワークは、実際突然変異に関する学習データを示す第1学習イメージデータ及び偽陽性による誤検出突然変異に関する学習データを示す第2学習イメージデータに基づいて、実際突然変異及び誤検出突然変異を区別するように学習される。
【0076】
第1学習イメージデータ及び第2学習イメージデータは、同じ学習用組織に対するロングリードシーケンシング(long read sequencing)及びショートリードシーケンシング(short read sequencing)の結果に基づいて生成される。
【0077】
第1学習イメージデータ及び第2学習イメージデータは、遺伝子配列(gene sequence)、挿入/欠失(indel、insertion/deletion)、及びマッピングクオリティ(mapping quality)のうちの少なくとも一つを含む。
【0078】
ニューラルネットワークは、イメージデータから特徴(feature)を抽出し、特徴に基づいて検出対象組織の遺伝子が突然変異に対応する確率を計算する畳み込みニューラルネットワーク(CNN、convolutional neural network)であり得る。
【0079】
検出対象組織から検出される突然変異は、体細胞一塩基変異(sSNV、somatic single nucleotide variant)であり得る。
【0080】
図7の突然変異を検出する方法は、その方法を実行する命令語を含む少なくとも一つのプログラムまたはソフトウェアが記録されたコンピューター読取り可能な記録媒体に記録される。
【0081】
コンピューター読取り可能な記録媒体の例としては、ハードディスク、フロッピーディスク(登録商標)及び磁気テープのような磁気媒体(magnetic media)、CD-ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical media)、及びロム(ROM)、ラム(RAM)、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例としては、コンパイラによって作られるのと同じ機械語コードだけでなく、インタプリタなどを用いてコンピューターによって実行される高級言語コードが含まれる。
【0082】
以上、本発明の実施形態を詳細に説明したが、本発明の技術範囲はこれに限定されるものではなく、本発明の基本概念を利用した当業者の多様な変形及び改良形態も本発明の技術範囲に含まれる。
【符号の説明】
【0083】
100 グラフ
110 次世代塩基配列分析
120 サンガー塩基配列分析
200、530 ニューラルネットワーク
300、400 装置
310 第1ゲノムデータ(癌ゲノムワイドデータ)
320 第2ゲノムデータ(正常ゲノムワイドデータ)
330 イメージ生成モジュール
340 (体細胞)突然変異検出モジュール
350 突然変異検出結果(最終結果)
410 メモリ
420 プロセッサ
510 第1学習イメージデータ(真陽性からのイメージ)
520 第2学習イメージデータ(真陰性からのイメージ)
531 第1ネットワーク
532 第2ネットワーク
610 ロングリードシーケンシング
620 ショートリードシーケンシング
630、640 比較結果
【国際調査報告】