IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヘセグ インコーポレイテッドの特許一覧

特許7275301DNAのコード化方法及びそのコード化方法の生命工学的応用
<>
  • 特許-DNAのコード化方法及びそのコード化方法の生命工学的応用 図1
  • 特許-DNAのコード化方法及びそのコード化方法の生命工学的応用 図2
  • 特許-DNAのコード化方法及びそのコード化方法の生命工学的応用 図3
  • 特許-DNAのコード化方法及びそのコード化方法の生命工学的応用 図4
  • 特許-DNAのコード化方法及びそのコード化方法の生命工学的応用 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-09
(45)【発行日】2023-05-17
(54)【発明の名称】DNAのコード化方法及びそのコード化方法の生命工学的応用
(51)【国際特許分類】
   G16B 20/20 20190101AFI20230510BHJP
【FI】
G16B20/20
【請求項の数】 2
(21)【出願番号】P 2021553075
(86)(22)【出願日】2019-03-27
(65)【公表番号】
(43)【公表日】2022-05-11
(86)【国際出願番号】 KR2019003570
(87)【国際公開番号】W WO2020179962
(87)【国際公開日】2020-09-10
【審査請求日】2021-09-06
(31)【優先権主張番号】10-2019-0025377
(32)【優先日】2019-03-05
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】521400280
【氏名又は名称】ヘセグ インコーポレイテッド
【氏名又は名称原語表記】HESSEGG, INC.
【住所又は居所原語表記】(Munjeong-dong) 301ho 3F, 9, Beobwon-ro 8-gil, Songpa-gu, Seoul 05855 Korea
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】キム ヒョンジュ
(72)【発明者】
【氏名】ソン インシク
【審査官】藤澤 美穂
(56)【参考文献】
【文献】米国特許出願公開第2016/0259886(US,A1)
【文献】米国特許出願公開第2005/0187916(US,A1)
【文献】特開2004-240975(JP,A)
【文献】SANCHEZ, R.,A genetic code Boolean structure. I. The meaning of Boolean deductions,Bulletin of Mathematical Biology,2005年,p.1-14,DOI : 10.1016/j.bulm.2004.05.005
【文献】SUNTHORNWAT, R.,Detecting and classifying mutations in genetic code with an application to β-thalassaemia,ScienceAsia [online],2011年,p.51-61,[retrieved on 2022.10.27] URL : http://www.scienceasia.org/2011.37.n1/scias37_51.pdf,DOI : 10.2306/scienceasia1513-1874.2011.37.051
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータによって行われる下記のステップを含むDNAコード標準化する方法であって、
前記ステップは、
(a)特定DNA断片の塩基配列のC、T、A、Gである4つの塩基をそれぞれ00、01、10、11と命名するステップと
(b)各塩基がGとCの塩基対を形成したときは、5’から3’方向にGとCの場合を1100と命名し、5’から3’方向にCとGの場合を0011と命名し、及び各塩基がAとTの塩基対を形成したときは、5’から3’方向AとTの場合1001と命名し、5’から3’方向にTとAの場合0110とそれぞれ命名するステップと、
(c)前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後でその和を求め、正常配列の和と比較したときに1~3の差がある場合に変異が存在すると判断するステップを含む、DNAをコードに標準化する方法。
【請求項2】
コンピュータ可読媒体に格納され、コンピュータによって請求項1に記載の方法を行えるようにするためコンピュータ可読媒体に格納されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、DNAのコード標準化方法及びその方法の最適化された生命工学的応用に関する。
【背景技術】
【0002】
生命体に遺伝物質として存在するDNA(DeoxyriboNucleic Acid)は、タンパク質として発現する遺伝子部位と非遺伝子部位で構成されている。DNAの化学構造は、デオキシリボース(Deoxyribose)である五炭糖の5’炭素にリン酸基が、1’炭素に塩基(base)が連結されることによってヌクレオチド(Nucleotide)という単位体を形成するが、このとき、ヌクレオチドに連結された塩基の種類によってDNAの配列が決定される。
【0003】
塩基の種類は2つの系列に区分されており、環状構造が2個であるプリン系列の塩基と、環状構造が1個であるピリミジン系列の塩基とがある。また、プリン系列としてはグアニン(G)とアデニン(A)、ピリミジン系列としてはシトシン(C)とチミン(T)などがあり、五炭糖の2’炭素に-OH基が連結されており、塩基の構成がチミンの代わりにウラシル(U)に置換されているRNAの場合と相違している。プリン系列のGは、ピリミジンであるCと水素結合で相補的な対を形成し、AはTと対を形成する。このとき、GとCの相補的な対は、3個の水素結合で連結されているので、2個の水素結合で連結されるAとTよりも強く結合されている。
【0004】
DNAのヌクレオチド単位体は、5’炭素に連結されたリン酸基が他の単位体の3’炭素-OH基とリン酸ジエステル結合(Phosphodiester bond)で連結されることによって一つの鎖を形成する。リン酸ジエステル結合で連結された2個の相補的な単一鎖は、相補塩基の水素結合で二重らせん構造を形成している。このような二重らせん構造は、1953年にワトソンとクリックによって導入された。[Watson,J.D.,& Crick,F.H.(1953).Molecular structure of nucleic acids.Nature,171(4356),737-738.]
【0005】
DNAのうち遺伝子部位の塩基配列は、3個の塩基コードがタンパク質を構成する一つのアミノ酸(Amino acid)に翻訳されて連結されながら、タンパク質が合成されるのに重要な役割をする。DNAは、mRNAに転写された後、塩基配列の順序によって20種のアミノ酸に翻訳されるが、翻訳されるアミノ酸がtRNAによって連結されながらタンパク質が形成される。また、このタンパク質は、細胞内の構成物質として存在し、生体内の多くの反応を媒介する酵素として作用することもある。
【0006】
ヒトのDNAの場合、30億個の塩基対(bp)を有し、一人当たりGB単位のデータ容量を有する。この容量を人口数に換算すると、PB単位でも不足する実情にある。そのため、ヒトの全てのDNAシーケンスを分析するよりは、疾病特異的なSNP(Single Nucleotide polymorphism、塩基多型性)部位などを分析することによって短いDNA切片のシーケンスで疾病の予測分析がなされているが、これも全ての遺伝子のSNP部位を分析できない実情にあり、これを分析するための多様なプログラムの開発が必要である。
【先行技術文献】
【特許文献】
【0007】
【文献】大韓民国公開特許10-2016-0001455
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、前記問題を解決し、前記必要性によってなされたものであって、本発明の目的は、DNA塩基を各塩基の分子量が考慮された2進数コード(1塩基当たり2ビット)に標準化し、塩基配列内に存在する特定パターンを把握するために最適化された方法を提供することにある。
【0009】
本発明の他の目的は、塩基配列のコードの和を用いた相補結合の有無及びパターンの把握が容易な方法を提供し、DNA断片やDNAアプタマーのパターン及び機能を予測するのが容易な方法を提供することにある。
【0010】
本発明の更に他の目的は、塩基配列のコードのみで配列間の分子量の比率及び各塩基の比率などを把握するのが容易な方法を提供することにある。
【0011】
本発明の更に他の目的は、塩基配列内の変異の把握が容易な方法を提供し、SNPなどの疾病特異的な配列の変異を用いることによって疾病の予測が容易な方法を提供することにある。
【課題を解決するための手段】
【0012】
前記目的を達成するために、本発明は、次のステップを含むDNAのコード標準化方法を提供する:(a)C、T、A、Gである4つの塩基をそれぞれ00、01、10、11と命名し、(b)各塩基がGとC、及びAとTの塩基対を形成したときは、5’から3’方向に、GとCの場合は1100、CとGの場合は0011、AとTの場合は1001、TとAの場合は0110とそれぞれ命名する。
【0013】
また、本発明は、次のステップを含むDNAのコード標準化を用いた特定DNA断片やアプタマーの特定パターンや2次構造を確認するために最適化された情報提供方法を提供する:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記数値で命名されたコードの配列と各コードの和の配列を比較するステップ。
【0014】
本発明の一具現例において、前記コードの配列と各コードの和の配列を比較するステップは、前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後、各配列の和が3になるコードの配列が2対以上両端に配列されている場合にステム構造を形成できると判断し、互いに向かい合っている配列のコードの和が3より大きいか小さいため相補結合を形成し得ない配列が3個以上中心に連結されているときにループ構造を形成すると判断することを特徴とするDNAのコード標準化を用いた特定DNA断片やアプタマーの特定パターンや2次構造を確認するために最適化された情報提供方法が好ましいが、これに限定されない。
【0015】
また、本発明は、次のステップを含むDNAのコード標準化を用いた特定DNA断片の塩基配列への変異の存在有無に関する情報提供方法を提供する:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記数値で命名されたコードの和を比較するステップ。
【0016】
本発明の一具現例において、前記コードの和を比較するステップは、前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後でその和を求め、正常配列と比較したときに1~3の差がある場合に変異が存在すると判断することを特徴とすることが好ましいが、これに限定されない。
【0017】
本発明の他の具現例において、前記方法は、特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名して得られたコードのそれぞれの数値を比較することによって変異配列の位置を確認できることが好ましいが、これに限定されない。
【0018】
また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定DNA断片やアプタマーの特定パターンや2次構造を確認するために最適化された情報提供用コンピュータプログラムであって、前記各ステップは:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後、各配列の和が3になるコードの配列が2対以上両端に配列されている場合にステム構造を形成できると判断し、互いに向かい合っている配列のコードの和が3より大きいか小さいため相補結合を形成し得ない配列が3個以上中心に連結されているときにループ構造を形成すると判断するステップ;を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。
【0019】
また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定DNA断片の塩基配列への変異の存在有無に関する情報提供用コンピュータプログラムであって、前記各ステップは:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記(a)ステップの2進数の数配列を10進数に変形した後でその和を求め、正常配列と比較したときに1~3の差がある場合に変異が存在すると判断するステップ;を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。
【0020】
また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定DNA断片の塩基配列の変異配列に対する位置に関する情報提供用コンピュータプログラムであって、前記各ステップは:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記(a)ステップの特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名して得られたコードのそれぞれの数値を比較することによって変異配列の位置を確認するステップ;を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。
【0021】
以下、本発明を説明する。
本発明は、DNAのそれぞれの分子量が小さい順に、C、T、A、Gの4つの塩基にそれぞれ00、01、10、11のコードを命名し、各塩基がGとC、及びAとTの塩基対を形成したとき、それぞれの分子量の和がコードの和の比率と一致するようにコードを命名する方法を提供する。
【0022】
また、本発明は、SELEXを用いて確認された各化合物に特異的なアプタマーをコードに標準化することによって各化合物に存在する反応基と結合する特定パターンを把握し、これをビッグデータとして活用して予測できるシステムを構築する。
【0023】
また、本発明は、DNAの配列をコードに標準化した後、各配列の値を10進数に変換し、その和を導出することによって各配列への変異の有無を確認し、特定疾病へのSNPの存在有無を迅速に把握できる方法を提供する。
【0024】
本発明は、DNAをコードに標準化することによって塩基配列内に存在する特定パターンの把握が容易な方法を提供する。
【0025】
本発明は、特定ターゲット及び化学構造と結合するDNAシーケンスパターンを把握し、これをビッグデータとして活用することによってその化学構造単位に結合するアプタマーを予測し、SELEX(Systematic evolution of ligands by exponential enrichment)シミュレーションプログラム化に必要な情報を提供する。
【0026】
また、本発明は、DNAを塩基の分子量が反映されたコードに標準化することによって、塩基配列のコードのみで配列間の分子量の比率及び各塩基の比率などを把握するために最適化された方法を提供する。
【0027】
また、本発明は、DNAを塩基の分子量が反映されたコードに標準化することによって塩基配列内の変異の把握が容易な方法を提供し、コードの和と配列順序を比較するために最適化された方法を提供することによってSNPなどの疾病特異的な変異の把握が可能であり、疾病の予測が容易な方法を提供する。
【発明の効果】
【0028】
本発明を通じて分かるように、本発明のDNAコード標準化方法は、塩基配列内の変異の把握が容易な方法を提供し、SNPなどの疾病特異的な配列の変異を用いることによって疾病の予測を容易にするなど、塩基配列内に存在する特定パターンの把握が容易な方法を提供する。
【図面の簡単な説明】
【0029】
図1】DNAの分子構造及び結合質量比の原理を反映して指定したコード値を、分子量が小さい塩基から大きい順にC、T、A、Gを00、01、10、11値の2進数に指定したことを示した図である。
図2】指定された2進数のコードにおいてそれぞれGとC、AとTの塩基が対を形成するとき、各コードの和の比率が1:1となって実際の質量比と同一の比率を有するように設計したことを示した図である。
図3】6つの配列のコード変換値を示したものであって、各配列のコードの和と各配列の分子量を比較して示した図である。
図4】DNA配列のコードを用いて例示配列のパターンを確認したものであって、各配列のコードの和によって相補結合の可否を確認し、その結合の数及び連結された塩基の数によってステム-ループ構造形成及びパターンを確認した図である。
図5】乳癌患者から確認されるSNP配列にコードを適用し、本発明のコード標準化の効率性を確認したものであって、Exton 2から14番目にあるA塩基がGに変異されているSNP配列をコードに変換し、2進数の数配列で配置した後でコードの和を求め、正常配列と変異配列のコードの和を比較した図である。
【発明を実施するための形態】
【0030】
以下、本発明を非制限的な実施例を通じて詳細に説明する。但し、下記の実施例は、本発明を例示するために記載したものであって、本発明の範囲が下記の実施例によって制限されると解釈してはならない。
【0031】
実施例1:各塩基の分子量によるコード標準化
DNAの配列を決定する4つの塩基をコンピュータ言語である2進法の二桁の数で示し、コードに標準化するために各塩基の分子量を分析した後、これを図1に表記した。それぞれの塩基G、A、T、Cと1個のリン酸基とが連結されたデオキシリボヌクレオチド(deoxyribonucleotide)をそれぞれdGMP、dAMP、dTMP、dCMPと表記した。
【0032】
各塩基は、G、A、T、Cの順に大きい値を有し、Gと水素結合で対を形成するC、及びAと相補結合するTの分子量をそれぞれ合わせて比較した結果、654.4(=347.2+307.2)と653.4(=331.2+322.2)になり、約1:1の同等な分子質量を有した状態で互いに対を形成していることを確認した。GとCの分子量の和よりもAとTの分子量の和が1だけ少ない理由は、G≡には窒素(N)が、A=Tには炭素(C)、水素(H)が他の結合対に比べて1個ずつさらにあり、Nの分子量とC+Hの分子量の和との差だけ(14>12+1)各対の分子量の和の差(=1)が存在するためである。したがって、AとTは、水素結合が可能なOやNの不在で2個の水素結合を形成し、3個の水素結合を形成するG≡結合よりは弱く結合するという特性を有する。
【0033】
したがって、各塩基のコードは、前記DNAの分子構造及び結合質量比の原理を反映して指定した。付与された各塩基のコードは、分子量が小さい塩基から大きい順にC、T、A、Gを00、01、10、11値の2進数に指定した(図1)。
【0034】
指定されたコードの値は、それぞれGとC、AとTの塩基が対を形成するとき、それぞれのコードの和の比率が1:1になって実際の質量比と同一の比率を有するように設計した(図2)。
【0035】
コードの和は、各塩基のコードを10進数に変換した後の各コード値の和を示したものであって、GとC、AとTのそれぞれのコードの和はいずれも「3」である。
【0036】
実施例2:DNA断片とアプタマーの分子量比率反映の最適化
DNAの各塩基の分子量によって質量が小さいものから大きいものの順にコードを指定したので、DNA断片のコードの総和は、各配列の分子量の比率を反映して計算した(図3)。コードの分子量反映の比率を確認し、6個の例示配列でコードの和と分子量を比較した。
【0037】
前記例示配列は、コードの分子量反映の比率を確認するために例示された配列であって、その範囲が配列番号1~6の配列に制限されると解釈してはならない。
【0038】
前記配列番号1~6の配列は、下記の通りである。
5’ AGAGCTCGCGCCGGAGTTCTCAATGCAAGAGC 3’(配列番号1)
5’ GCGGCGGTGGCCTGAAGTCTGGCGGTGGCCCC 3’(配列番号2)
5’ GCGGCGGTGGCCAGAAGTCTCGCGGTGGCGGC 3’(配列番号3)
5’ GTGGAGGCGGTGGCCAGTCTCGCGGTGGCGGC 3’(配列番号4)
5’ GTGGCGGTGGCCAGCATAGTGGCGGTGGCCAG 3’(配列番号5)
5’ GTGGAGGCGGTGGCCGTGGAGGCGGAGGCCGC 3’(配列番号6)
【0039】
前記6個の例示配列は32merの塩基配列であって、塩基の長さは同一であるが、塩基の種類及び順序は多様に構成されており、各塩基のコード変換値を図3に表記した。コードの和は、各塩基のコードを10進数に変換した後で総和を求めたものであって、各配列の塩基構成によって、コードの和も各配列の分子量を反映して計算した。
【0040】
各配列の分子量(Mw)と比較したとき、分子量が小さいほどコードの和の値が小さい値になることが確認され、分子量が大きい配列である場合、コードの和は大きい値に計算された(図3)。
【0041】
このように分子量の比率を反映し、コードを指定して変換した結果、コードの和を用いることによって各配列の分子量の比率を比較するために最適化した。
【0042】
実施例3:DNA断片とアプタマーのパターン確認の最適化
DNA断片とアプタマーの配列を2進数の塩基コードに変換し、各配列を比較することによって、配列内に含まれている特定パターン及び2次構造(secondary structure)などを把握するために最適化した。これを把握するために、9個の塩基配列で構成されたDNA配列を例示配列として活用した(図4)。
【0043】
前記例示配列は、コードのパターンを例示するために記載したものであって、その範囲が配列番号7の例示配列に制限されると解釈してはならない。
【0044】
前記配列番号7の例示配列は、下記の通りである。
5’ GCGGTGGCG 3’(配列番号7)
【0045】
前記例示配列を塩基コードに変換して並べた数は、下記の通りである。
11 00 11 11 01 11 11 00 11(例示配列コード1)
【0046】
各塩基は、水素結合を形成し得る相補塩基とのコードの和が「3」になるようにコードが設計されており、このような配列の配列は、DNAアプタマー配列でステム構造を形成することができる(図4;Stem)。
【0047】
DNAのステム-ループ(Stem-loop)構造のパターンのほとんどは、両端にステム構造を形成し得る塩基が2個以上連結されており、互いに向かい合っている配列のコードの和が3より大きいか小さいため相補結合を形成し得ない配列が3個以上中心に連結されているときにループ構造が形成され得るという特性を有する。
【0048】
前記例示配列は、二つのステム-ループ構造を形成することができ、これは、塩基コード配列で簡単に確認することができる。1番目の11塩基コードと相補結合を形成し得る配列は、直ぐ横の00コードを除いた8番目の00コードの塩基(図4;(1)赤色矢印)で、2番目の00コードとの相補結合が可能な塩基としては、6番目の11(図4;(3)緑色矢印)、7番目の11、9番目の11コードがある。これと同様に、3番目の11コードの塩基は、8番目の00(図4;(2)青色矢印)コードとの相補結合が可能である。このとき、ステム-ループ構造のステム部位は、2個以上の塩基が連結されたときに構造を形成するので、図3の赤色矢印に連結された塩基の相補結合や青色矢印に連結された塩基の相補結合がステム構造(図4;点線の丸い円)を形成することができ、緑色矢印の相補結合は、単一の相補結合であるのでステム構造を形成することができない。ステム構造を形成し得る二つのケースのいずれにおいても、ループ構造を形成できる4個の塩基が中央に存在するので、ステム-ループ構造の形成が可能であると予測される。
【0049】
このように各塩基をコードに標準化することによって、塩基コードの和によって各塩基との相補結合の可否を予測することができ、各配列の相補結合の数及びそれに連結された塩基の数によってDNA配列の2次構造及びパターンなどを予測するのが容易になることを確認した。
【0050】
実施例4:コード標準化によるSNP把握の最適化
DNA配列をコードに変換し、各配列のコードの和を比較することによって特定DNA断片の塩基配列への変異の有無を把握するために最適化した。SNP配列は、塩基1個が変異したDNA断片の配列であるので、コードをSNP配列に適用し、正常配列と比較することによって変異の存在有無及び位置を把握するのが容易になることを確認した。多様なSNP配列のうち一つであり、84%の乳癌患者から確認されるCD44遺伝子のSNP配列に適用し、コード標準化の効率性を確認した。[Zhou,J.,Nagarkatti,P.S.,Zhong,Y.,Creek,K.,Zhang,J.,& Nagarkatti,M.(2010)。Unique SNP in CD44 intron 1 and its role in breast cancer development.Anticancer research,30(4),1263-1272。]
【0051】
前記乳癌患者のSNP配列は、遺伝子の1番目のイントロン(intron 1)の位置に存在する配列のうちエクソン(Exon 2)から14番目にあるA塩基がGに変異しているものであって、この配列をコードに変換し、2進数の配列で配置した後でコードの和を求め、正常配列と変異配列のコードの和を比較した(図5)。
【0052】
正常配列と変異配列のコードをそれぞれ10進数に変形した後で和を求めたとき、正常配列は39、変異配列は40であって、変異配列が正常配列より1だけ大きい値であることが確認された。このようにコードの和のみでDNA切片内への変異の存在有無を確認することができ、このとき、変異した塩基の種類によってコードの和に1~3程度の差が生じ得る。また、変異したコードのそれぞれの数値を比較することによって、配列の位置まで確認することができる。
【0053】
このように正常対照群で確認されるDNA断片の各配列と疾病実験群で確認される特定変異配列をコードに変換し、コードの和を比較することによって配列間の差を迅速に確認し、SNPの存在有無を簡便に探索することができ、確認されたSNP配列にコードの和を適用し、これを疾病の診断に活用することができる。
図1
図2
図3
図4
図5
【配列表】
0007275301000001.app