IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人産業技術総合研究所の特許一覧

特開2024-100144ゲノムまたはメタゲノム解析のための内部標準核酸
<>
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図1
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図2A
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図2B
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図2C
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図2D
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図3A
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図3B
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図4
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図5A
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図5B
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図6
  • 特開-ゲノムまたはメタゲノム解析のための内部標準核酸 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024100144
(43)【公開日】2024-07-26
(54)【発明の名称】ゲノムまたはメタゲノム解析のための内部標準核酸
(51)【国際特許分類】
   C12N 15/11 20060101AFI20240719BHJP
   C12Q 1/6869 20180101ALN20240719BHJP
【FI】
C12N15/11 Z ZNA
C12Q1/6869 Z
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023003917
(22)【出願日】2023-01-13
(71)【出願人】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(74)【代理人】
【識別番号】100099623
【弁理士】
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【弁理士】
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【弁理士】
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【弁理士】
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100180231
【弁理士】
【氏名又は名称】水島 亜希子
(72)【発明者】
【氏名】関口 勇地
(72)【発明者】
【氏名】トゥールース, ディーター
(72)【発明者】
【氏名】大橋 明子
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ42
4B063QR32
(57)【要約】
【課題】 ゲノム/メタゲノム解析のための内部標準核酸を提供する。
【解決手段】 (1)天然に存在しない配列(a)~(p)をコードする人工遺伝子の各1コピー;(2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに(3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる先端スペーサー配列および終端スペーサー配列からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子。
【選択図】 なし
【特許請求の範囲】
【請求項1】
(1)天然に存在しない以下の配列(a)~(p)をコードする人工遺伝子の各1コピー:
(a)配列番号1のアミノ酸配列および終止コドン、
(b)配列番号2のアミノ酸配列および終止コドン、
(c)配列番号3のアミノ酸配列および終止コドン、
(d)配列番号4のアミノ酸配列および終止コドン、
(e)配列番号5のアミノ酸配列および終止コドン、
(f)配列番号6のアミノ酸配列および終止コドン、
(g)配列番号7のアミノ酸配列および終止コドン、
(h)配列番号8のアミノ酸配列および終止コドン、
(i)配列番号9のアミノ酸配列および終止コドン、
(j)配列番号10のアミノ酸配列および終止コドン、
(k)配列番号11のアミノ酸配列および終止コドン、
(l)配列番号12のアミノ酸配列および終止コドン、
(m)配列番号13のアミノ酸配列および終止コドン、
(n)配列番号14のアミノ酸配列および終止コドン、
(o)配列番号15のアミノ酸配列および終止コドン、ならびに
(p)配列番号16のアミノ酸配列および終止コドン;
(2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに
(3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる、先端スペーサー配列および終端スペーサー配列
からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子。
【請求項2】
前記人工核酸配列のGC含量が30~60%である、請求項1に記載の核酸分子。
【請求項3】
前記人工核酸配列が、配列番号17~22からなる群から選択される、請求項1に記載の核酸分子。
【請求項4】
前記部分断片配列が少なくとも300ヌクレオチド長である、請求項1~3のいずれか1項に記載の核酸分子。
【請求項5】
配列番号23の人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子。
【請求項6】
前記部分断片配列が少なくとも300ヌクレオチド長である、請求項5に記載の核酸分子。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ゲノムまたはメタゲノム解析のための内部標準核酸に関する。
【背景技術】
【0002】
土壌や海洋などの自然環境、動物の腸内、住宅などの人間の生活空間といったあらゆる環境中に、多様な微生物が生息している。多くの場合、それらはそれぞれの環境において固有の構成を保って定着しており、このような微生物の集合は微生物叢と呼ばれる。微生物叢の解析には、次世代シーケンシング(NGS)による16S rRNA遺伝子解析または全ゲノムショットガンメタゲノム解析が用いられている。16S rRNA遺伝子解析は、微生物叢中の16S rRNA遺伝子を増幅したPCR産物を網羅的に配列決定するのに対し、全ゲノムショットガンメタゲノム解析は、微生物叢中の全ゲノムDNAを網羅的に配列決定し、その結果、微生物叢中に存在する機能遺伝子を包括的に解析することができ、微生物叢全体の持つ機能を明らかにすることができる。
【0003】
全ゲノムショットガンメタゲノム解析は、微生物叢から全ゲノムDNA抽出し、全ゲノムDNAをランダムに断片化し、断片を配列決定し、得られた断片配列(配列リード)を一つながりの連続配列(コンティグ)へとアセンブルし、アセンブリにより推定されたゲノム配列に対してリードをマッピングする工程を含み、それにより微生物叢中の遺伝子の相対量を定量化する。しかし、この定量結果は相対的なものに過ぎず、検出された微生物群や機能遺伝子の絶対量を推定することはできない。さらに、上記工程には技術的バイアスを伴うため、正しい結果を得るためには、そのようなバイアスを正確に把握し、補正する必要がある。
【0004】
絶対定量および精度管理のために、試料中に存在しない配列を有する外因性核酸(スパイクインコントロール)を内部標準として測定値を補正する手法が知られており、天然に存在しない人工核酸配列からなる標準核酸が開発されている(特許文献1、非特許文献1)。しかし、CheckM(Parks et al.,Genome Research,2015,25(7):1043-55)に代表されるアセンブリの品質を評価するためのバイオインフォマティクスツールは、通常、アセンブルされたコンティグ内の特定のシングルコピーマーカー遺伝子の有無に基づいてゲノムの完全性(コンプリートネス)と汚染度(コンタミネーション)の正確な推定値を提供するため、上記のような遺伝子配列を含まない標準核酸のアセンブリの品質を評価することができない。また、GC含量はシーケンシングのカバレッジを変動させ、アセンブリの精度を低下させることが知られており(GCバイアス)、GCバイアスを厳密に評価するための標準核酸も望まれている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】国際公開第2017/165864
【非特許文献】
【0006】
【非特許文献1】Hardwick et al.,2018,Nature Communications,Vol.9,Article No:3096
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、ゲノムまたはメタゲノム解析におけるアセンブリの品質を評価するための内部標準核酸を提供することを目的としてなされたものである。
【課題を解決するための手段】
【0008】
本発明者らは、鋭意研究の結果、アセンブリの品質を精密に評価することができる人工核酸を作出することに成功した。
【0009】
すなわち、本発明は、一実施形態によれば、(1)天然に存在しない以下の配列(a)~(p)をコードする人工遺伝子の各1コピー:(a)配列番号1のアミノ酸配列および終止コドン、(b)配列番号2のアミノ酸配列および終止コドン、(c)配列番号3のアミノ酸配列および終止コドン、(d)配列番号4のアミノ酸配列および終止コドン、(e)配列番号5のアミノ酸配列および終止コドン、(f)配列番号6のアミノ酸配列および終止コドン、(g)配列番号7のアミノ酸配列および終止コドン、(h)配列番号8のアミノ酸配列および終止コドン、(i)配列番号9のアミノ酸配列および終止コドン、(j)配列番号10のアミノ酸配列および終止コドン、(k)配列番号11のアミノ酸配列および終止コドン、(l)配列番号12のアミノ酸配列および終止コドン、(m)配列番号13のアミノ酸配列および終止コドン、(n)配列番号14のアミノ酸配列および終止コドン、(o)配列番号15のアミノ酸配列および終止コドン、ならびに(p)配列番号16のアミノ酸配列および終止コドン;(2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに(3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる、先端スペーサー配列および終端スペーサー配列からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子を提供するものである。
【0010】
前記人工核酸配列のGC含量は、30~60%であることが好ましい。
【0011】
前記人工核酸配列は、配列番号17~22からなる群から選択されるものであることが好ましい。
【0012】
前記部分断片配列は、少なくとも300ヌクレオチド長であることが好ましい。
【0013】
また、本発明は、一実施形態によれば、配列番号23の人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子を提供するものである。
【0014】
前記部分断片配列は、少なくとも300ヌクレオチド長であることが好ましい。
【発明の効果】
【0015】
本発明に係る核酸分子は、一実施形態によれば、天然に存在しない人工核酸配列から構成されながら、CheckMなどのツールによって認識可能な人工遺伝子配列を有する。そのため、本発明に係る核酸分子によれば、現在一般的に採用されているシングルコピーマーカー遺伝子の有無に基づくアセンブリの品質評価が可能となる。
【0016】
また、本発明に係る核酸分子は、一実施形態によれば、GC含量が厳密に制御された人工核酸配列を有する。そのため、本発明に係る核酸分子によれば、アセンブリに対するGCバイアスの影響を厳密に評価することが可能となる。
【0017】
また、本発明に係る核酸分子を用いることにより、微生物叢中に存在する遺伝子の絶対定量が可能となる。
【図面の簡単な説明】
【0018】
図1図1は、seqHMM3501を例として、人工CDSを含む人工核酸配列の生成手順を示す概略図である。
図2A図2Aは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001およびseqHMM04における16個の人工CDSのレイアウトを示す図である。
図2B図2Bは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001およびseqHMM04におけるGC含量を示す図である。
図2C図2Cは、seqRANDOM01におけるGC含量を示す図である。
図2D図2Dは、seqHMM5002およびseqHMM5003のペアワイズ配列同一性を示す図である。
図3A図3Aは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01を個別に解析した場合における、アセンブリにより回収された人工核酸配列の割合とカバレッジ深度の関係を示す図である。
図3B図3Bは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01を個別に解析した場合における、アセンブリにより回収された人工核酸配列から検出されたマーカー遺伝子の数とカバレッジ深度の関係を示す図である。
図4図4は、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01の等モル混合物を解析した場合における、アセンブリの完全性を示す図である。
図5A図5Aは、seqHMM04およびseqRANDOM01中の位置に沿った相対カバレッジおよびGC含量を示すプロットである。
図5B図5Bは、seqHMM04およびseqRANDOM01中の位置に沿った相対カバレッジとGC含量との関係を示す散布図である。
図6図6は、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01を異なる比率で含む2種類の混合物における、各人工核酸の存在量(実測値と推定値)を示すプロットである。
図7図7は、ヒト糞便微生物叢DNA試料中に添加された人工核酸の、ヒト糞便微生物叢DNAに対する相対比率(実測値と推定値)を示すプロットである。
【発明を実施するための形態】
【0019】
以下、本発明を詳細に説明するが、本発明は本明細書中に説明した実施形態に限定されるものではない。
【0020】
本発明は、第一の実施形態によれば、(1)天然に存在しない以下の配列(a)~(p)をコードする人工遺伝子の各1コピー:(a)配列番号1のアミノ酸配列および終止コドン、(b)配列番号2のアミノ酸配列および終止コドン、(c)配列番号3のアミノ酸配列および終止コドン、(d)配列番号4のアミノ酸配列および終止コドン、(e)配列番号5のアミノ酸配列および終止コドン、(f)配列番号6のアミノ酸配列および終止コドン、(g)配列番号7のアミノ酸配列および終止コドン、(h)配列番号8のアミノ酸配列および終止コドン、(i)配列番号9のアミノ酸配列および終止コドン、(j)配列番号10のアミノ酸配列および終止コドン、(k)配列番号11のアミノ酸配列および終止コドン、(l)配列番号12のアミノ酸配列および終止コドン、(m)配列番号13のアミノ酸配列および終止コドン、(n)配列番号14のアミノ酸配列および終止コドン、(o)配列番号15のアミノ酸配列および終止コドン、ならびに(p)配列番号16のアミノ酸配列および終止コドン;(2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに(3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる、先端スペーサー配列および終端スペーサー配列からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子である。
【0021】
本実施形態の核酸分子における人工核酸配列は、構成要素(1)として、以下の配列(a)~(p)をコードする人工遺伝子を各1コピー含む。式中、Xは任意のアミノ酸残基を表す。
(a)MXXKIKXGDXVXVIXGKXKGXXGXVXXVXXXXXXVIVEGVXXXKKXXKXXXXXXXXGXXXXXEXPIXXSNVXXXXXXXXXXXXVXXRXXXXXXKXRXXXXXGXXI(配列番号1)および終止コドン
(b)MXXXIXXLXXXXXXXXXXXXFXXGXXVXVXXXIXEGXXXRXQXFXGXVIXXXXXGXXXXXXVXKXXXGXGVERXFXXXXXXIXXIXVXXXGXVXRAXLXYLRXXXGKXXKIKXXX(配列番号2)および終止コドン
(c)MMAXXXRXXRVXXXIXXXIXXXLXXXIXDXXXXXXXVXXVEXSXDLXXXXVFVXXLXDXXXXXXXVXXLXXAXGFIXXXLXXXXXLXXXPXLXFXXDXSLXXXXRIXXLIXXLXXX(配列番号3)および終止コドン
(d)MXXXFXXXPLXXGXGXTLGXXLRRVLLXXIXGXAIXXXXIXXXXXEFXXXXGVXEDVXXIIXNLKXLXXXXXXXXXXXXXXXXXXXXXXXXAXXXXXXXXXVEVXXXXXXIXXLXXXXXLXIXLXVXXGXGYXXXXXXXXXXXXXXXIXVDAXFXPVXXVXYXVXXXXXXXXXXXDXLXLXIXTXXXXXXXXALXXAXXXLXXXLXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXIXXLDLSXRXXNCLXXXXIXXLXELVXXXXXXLXXXXNLGXKSXXEIXXXLXXXXLXLXXX(配列番号4)および終止コドン
(e)MFXDXXXXXVXXGXGGXGXXXXXXEXYXXXGGPXGGXGGXGGXVXXXXXXXXXXLXXXXXXXXXXAXXGXXGXXXXXXGXXXXXXXIXVPXGXXVXXXXXXXXXXXXXXXXXXXXXXXGGXXGXGNXXFXXXXXXXPXXXXXGXXXXXXXLXLXLXXLADVGLVGXXXXGKSXLLXXXXXXXXXIXXYXFXTXXPXLGXXXXXXXXXXXXADIPGLIXXXXXGXGLGXXFLXHIXXXXXLXXLIXXXXXXXXXXXXXXXXXXXXLXXYXXXLXXXXXXXXXXKXDXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX(配列番号5)および終止コドン
(f)MXXVAILGXXNXGKSTLLNXLXXXXXXIXSXXXXTTXXXIXGXXXXXXXQXIFIDTPGLXXXKXXXXXLLXKXIXXALXXVDLILFVVXXXXXXXXDXXLXXXLXXXXXXXXLXXXXXXXXXXXXXXXXXXXXXXXXXXXXIVXIXXXXXXXXXXXXXXXXXXLXXXXXXXPXDXVXDXXXXFXIXEXIREKILXXXXXEIPYXVXVXIXXXXXXXXXXXXIXXXIXVXRXSQKXIIIGXXGXXIKXIGXXXRXXLXXXXXXXVXLXLXVK(配列番号6)および終止コドン
(g)MXXPKXXXXXKXXXXXXXGXXXXXXXVXFGXYXLXXXXXXXIXXXXIXXXXXALXRXVXXXXXLWXRIXXXXXXXXKPXXXRMGXGKGXXEXWXXXVXXGXVLFELXGVXXXXXXXALXXAXXKLPX(配列番号7)および終止コドン
(h)MXLLVAVSGGXDSXXLLXXLXXXXXXXXXXXXAAXVDHXXRXXSXXXXXXVXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXARXXRYXXLXXXXXXXXXXXILTAHHXDDXIETILXXLXRGXXXXGLXGLXXXXXXXXXXXIXRPLLXXXKXEIXXXXXXXXLXXXXDXTNXXXXYXRNXIRXXLLP(配列番号8)および終止コドン
(i)MINXXIXXXEVXXIXXXGXXXXIXXXXEALXXAXXXXLDLVXISXXXXXPVXKILDYGKYXYXXXKXXKXXKKXQXXIXVKEVXLXXXIXXXDXXXKXXXXXXFLXXGXXVKXXVXXXGRXXXXXXLXXXVLXXVXXXXXXXXXXXXXXXXXXXXXXXXLLXPXXX(配列番号9)および終止コドン
(j)MXVXLXXLXXXXXXXGXXXXXXXPXXXXFIXXXRXXXXXIXLXXXXXXLXXXXXXVXXXXXXXXXILFVGTKXXXXXXVXXXAXXXXXXYVXXRWLGGXLXNXXTIXXXIXXLXXLXXXXXXXXXXXXXKKEXXXXXXXXXXLXXXLXGIXXLXXXPXXLXVXDXXXEXXAVXEAXXLXIPVVAXXDXNXXPXXVDXXIPXNXXXXXXXXLXXXXXXXXVXXXXXX(配列番号10)および終止コドン
(k)MXXLXLXXXDXXXXXXXNXXYRXXDXXTDVLSFXXXXXXXXXXXXXXXXXGDLXISXXXVXXXAXXXXXXXXXXXXXLXXHGXLHLXGYDHXXXXXXXXMXXXEXXILXXXX(配列番号11)および終止コドン
(l)MXXXXXXXXXXXRXWXXVDAXXXXLGRLAXXVAXXLXGKXKXXYXPXXDXGDXVIVINAXXVXLXGXKXXXKXYXXXSXXXGXXXXXXXXXLXXXXXXXXLXXAVXGXLPXXXLXXXXXXXLXVYXGXXXXXXAXXPXXXXX(配列番号12)および終止コドン
(m)MXXXKXXRXXXXRXXLLRXXXXXLLXXXXIXTTXXKXXXXXXXVEXLITXAKXXXXXXXRXVXXXLXXXXXXXXLFXXIXXXYXXRXGGYTRILKXXXRXGDXAXXAXLELVD(配列番号13)および終止コドン
(n)MXXXXXXXXVKXLRXXTXAXXXDCKXALXXXXXDLXXAXXXLRXXGXXXAXKKXXXXAXEGXVXXXXXXXXXXLVXIXXXTDFVAXXXXFXXLXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXLXXXXAXXXEXIXVRRIXXXXXXXXXXIXXYXHXXXRIGVLVXXXXXXXXXXXXXLAMHVAAXXPXXLXXXXVXXXXVXXXXXIXXXXXXXXXXPXXIXXXXVXGRLXKXXXXIXLXXQXFVXXXXXXVXXXLXXXXXXVXXFXXXXVGEGIXKXXXXFXXEVXXXXXX(配列番号14)および終止コドン
(o)MMKVILXEXVXXLGXXGDXXEVKXGYAXNFLIXKXXAXXXTXXXIXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXLXIXXKXXDXGXLFGXIXXXXIXDXVXXXXXXLXKXXIXLXXXXXXXXGXXXVXLXLXXEVXAXLXVXVXXX(配列番号15)および終止コドン
(p)MXLXXLXXXXXXXXXXXXVGRGXGSGXGXTXGXGXKGXXARXXXXXXXXFEGGXXPLXXRLPXXGXXXXXXXXXXXVXVXXXXXXXXXXXXVXXXXLXXXXXIXXXXXXVKVLXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX(配列番号16)および終止コドン
【0022】
以下、配列(a)~(p)をコードする人工遺伝子を「人工遺伝子(a)~(p)」と記載する。
【0023】
本実施形態における人工遺伝子(a)~(p)は、保存アミノ酸が維持されている限り任意のコーディング配列からなってよいが、原核生物におけるコドン偏位、ホモポリマー長およびGC含量が考慮されることが好ましい。また、保存アミノ酸に対応するコドンが複数ある場合には、いずれのコドンが選択されてもよく、原核生物におけるコドン偏位、ホモポリマー長およびGC含量を考慮して適切なコドンが選択され得る。同様に、終止コドンは、オーカーコドン(TAA)、アンバーコドン(TAG)またはオパールコドン(TGA)のいずれであってもよいが、原核生物におけるコドン偏位を考慮すると、オーカーコドンであることが好ましい。
【0024】
本実施形態の核酸分子において、人工遺伝子(a)~(p)は任意の順番で配置されてよく、例えば、5’→3’方向に、人工遺伝子(a)、人工遺伝子(b)、人工遺伝子(c)のようにアルファベット順に配置されてもよいし、人工遺伝子(f)、人工遺伝子(a)、人工遺伝子(k)のように順不同で配置されてもよい。
【0025】
本実施形態の核酸分子における人工核酸配列は、構成要素(2)として、人工遺伝子(a)~(p)を連結するための人工遺伝子間配列を含む。人工遺伝子間配列は、天然に存在しない10~60ヌクレオチド長、好ましくは30~50ヌクレオチド長のランダムな配列からなる。人工遺伝子間配列は、遺伝子間領域ごとにそれぞれ独立してランダムな配列からなり、長さもそれぞれ異なってよい。人工遺伝子間配列は、ランダムであるが、ホモポリマー長およびGC含量が考慮されることが好ましい。
【0026】
本実施形態の核酸分子における人工核酸配列は、構成要素(3)として、先端スペーサー配列および終端スペーサー配列を含む。具体的には、人工遺伝子間配列により連結された人工遺伝子(a)~(p)の上流に先端スペーサー配列、下流に終端スペーサー配列が付加される。先端スペーサー配列および終端スペーサー配列は、天然に存在しない200~400ヌクレオチド長、好ましくは250~300ヌクレオチド長のランダムな配列からなる。先端スペーサー配列および終端スペーサー配列は、それぞれ独立してランダムな配列からなり、長さもそれぞれ異なってよい。先端スペーサー配列および終端スペーサー配列は、ランダムであるが、ホモポリマー長およびGC含量が考慮されることが好ましい。
【0027】
上記構成要素(1)~(3)からなる人工核酸配列のGC含量は、30~60%であることが好ましい。この際、GC含量は、人工核酸配列の全長にわたって一貫していてもよいし、変化してもよい。例えば、人工核酸配列は、全長にわたって約30%のGC含量であってもよいし、GC含量が約30%の領域と約60%領域とを有してもよい。
【0028】
上記人工核酸配列の好ましい具体例としては、配列番号17~22の核酸配列を挙げることができる。配列番号17~22の核酸配列は、人工遺伝子(a)~(p)を5’→3’方向にアルファベット順に含み、各遺伝子間にそれぞれ独立してランダムな配列からなる42ヌクレオチド長の人工遺伝子間配列を含み、それぞれ独立してランダムな配列からなる271ヌクレオチド長の先端スペーサー配列および終端スペーサー配列を含む。
【0029】
本実施形態の核酸分子は、上記人工核酸配列および/またはその相補配列を含んでなる。すなわち、本実施形態の核酸分子は、1本鎖または2本鎖のいずれであってもよい。また、本実施形態の核酸分子は、DNAにより構成されることが好ましいが、例えば末端などに1~3塩基対程度の修飾核酸を含んでもよい。
【0030】
本実施形態の核酸分子は、上記人工核酸配列および/またはその相補配列の全長を含むものであってもよいし、部分断片配列を含んでなるものであってもよい。部分断片配列は、例えば、少なくとも300ヌクレオチド長、好ましくは1,000ヌクレオチド長以上、より好ましくは3,000ヌクレオチド長以上であってよい。言い換えれば、部分断片配列は、例えば、少なくとも1個、好ましくは5個以上、より好ましくは8個以上の人工遺伝子を含むことが好ましい。
【0031】
本実施形態の核酸分子は、人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列のみからなる核酸であってもよいし、人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列のみからなる核酸がベクターにクローニングされたものであってもよい。本実施形態において使用できるベクターは、特に限定されないが、例えば、pUC19、pT7BlueおよびpGEMなどのプラスミドベクター、フォスミドベクター、BACベクターなどであってよい。
【0032】
本実施形態の核酸分子は、従来公知の任意の核酸合成法により容易に調製され得る。
【0033】
本実施形態の核酸分子は、解析対象の試料に適切なタイミングで添加して用いればよい。例えば、本実施形態の核酸分子は、核酸を抽出する前の試料に添加されてよく、この場合には、ゲノムDNAの抽出からアセンブリまでの解析全体の精度管理が可能となる。あるいは、本実施形態の核酸分子は、微生物叢試料から抽出された核酸溶液に添加することができ、この場合には、アセンブリのみの品質評価が可能となる。本実施形態の核酸分子の特定の1種類または配列の異なる多種類を組み合わせて試料に添加することができる。
【0034】
解析対象の試料は、任意の細胞、組織、微生物叢などを含むものであってよいが、好ましくは微生物叢を含む。微生物叢とは、ある特定の環境中に存在する複数の微生物の集まりであり、例えば、少なくとも100種類、300種類、500種類、700種類、1,000種類、またはそれ以上の種類の微生物から構成され得る。微生物叢を構成する微生物の種類は特に限定されず、細菌、真菌、原生生物、ウイルスなどの任意の分類の微生物であってよく、既知の微生物のみならず、未知の微生物も含まれてよい。
【0035】
本実施形態の核酸分子は、CheckMに代表される、シングルコピーマーカー遺伝子情報に基づく一般的なアセンブリ性能評価ツールに対応した標準核酸であり、(メタ)ゲノム解析における精密なアセンブリ性能評価のために有用である。
【0036】
本発明は、第二の実施形態によれば、配列番号23の人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子である。
【0037】
本実施形態の核酸分子も、第一の実施形態の核酸分子と同様に、1本鎖または2本鎖のいずれであってもよい。また、本実施形態の核酸分子も、第一の実施形態の核酸分子と同様、DNAにより構成されることが好ましいが、例えば末端などに1~3塩基対程度の修飾核酸を含んでもよい。
【0038】
本実施形態の核酸分子も、第一の実施形態の核酸分子と同様に、上記人工核酸配列および/もしくはその相補配列の全長または部分断片配列のみからなる核酸であってもよいし、それらがベクターにクローニングされたものであってもよい。部分断片配列は、例えば、少なくとも300ヌクレオチド長、好ましくは1,000ヌクレオチド長以上、より好ましくは3,000ヌクレオチド長以上であってよい。
【0039】
本実施形態の核酸分子は、第一の実施形態の核酸分子と同様にして調製されてよく、かつ、使用されてよい。
【0040】
本実施形態の核酸分子は、GC含量が厳密に制御された人工核酸配列を有する標準核酸であり、(メタ)ゲノム解析における精密なアセンブリ性能評価、特に、アセンブリ性能に対するGCバイアスの影響の評価のために有用である。
【実施例0041】
以下に実施例を挙げ、本発明についてさらに説明する。なお、これらは本発明を何ら限定するものではない。
【0042】
<1.人工核酸配列の設計および合成>
(1-1)人工CDSを含む人工核酸配列(配列番号17~22)の設計
CheckMなどのバイオインフォマティクスツールは、原核生物に普遍的な、1ゲノムに1コピーのみ存在する遺伝子(シングルコピー遺伝子)のセットをマーカーとして用い、推定されたゲノム配列におけるマーカーの有無に基づいてアセンブルの品質を評価する。そのため、本実施例では、以下の表1に示す16種類のマーカー遺伝子から、Prodigal(Hyatt et al.,BMC Bioinformatics,2010,11:119)のような一般的な遺伝子推定アルゴリズムで認識可能な人工コーディング配列(CDS)を生成した。
【0043】
表1.人工CDSの生成に用いたマーカー遺伝子
【表1】
【0044】
各マーカー遺伝子から、隠れマルコフモデル(HMM)に基づいて抽出されたコンセンサス配列における保存アミノ酸残基を検索し、対応するDNA配列(3ヌクレオチドコドン)に逆翻訳した。各マーカー遺伝子におけるそれ以外の部分をランダムなアミノ酸残基をコードするDNA配列により置換し、保存アミノ酸残基をコードするDNA配列と組み合わせ、開始コドン(ATG)および停止コドン(TAA)を付加し、人工CDSを得た。人工CDSをランダムなDNA配列(遺伝子間領域)により連結することにより、10kヌクレオチド長の人工核酸配列を生成した。人工核酸配列の生成手順の概略を図1に示す。
【0045】
人工CDSの並び順および人工CDSがコードする保存アミノ酸残基(配列番号1~16参照)が共通し、それ以外の部分(ランダム配列)が異なる6種類の人工核酸配列seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001およびseqHMM04を生成した。
【0046】
seqHMM3501(配列番号17)
【化1A】
【化1B】
【化1C】
【化1D】
【0047】
seqHMM5001(配列番号18)
【化2A】
【化2B】
【化2C】
【化2D】
【0048】
seqHMM5002(配列番号19)
【化3A】
【化3B】
【化3C】
【化3D】
【0049】
seqHMM5003(配列番号20)
【化4A】
【化4B】
【化4C】
【化4D】
【0050】
seqHMM6001(配列番号21)
【化5A】
【化5B】
【化5C】
【化5D】
【0051】
seqHMM04(配列番号22)
【化6A】
【化6B】
【化6C】
【化6D】
【0052】
上記人工核酸配列における16個の人工CDSのレイアウトを図2Aに、各配列におけるGC含量を図2Bに示す。seqHMM04は、領域ごとにGC含量が異なるように設計された。seqHMM5002とseqHMM5003は、近縁種間の配列異質性を模倣するために、互いの配列類似度が変化する領域を含むように設計された。seqHMM5002およびseqHMM5003のペアワイズ配列同一性を図2Dに示す。
【0053】
(1-2)GC含量が厳密に制御された人工核酸配列(配列番号23)の設計
アセンブリにおけるGCバイアスの影響を正確に評価するために、人工CDSを含まない完全ランダム配列からなり、GC含量が厳密に制御された人工核酸配列seqRANDOM01を生成した。人工核酸配列seqRANDOM01におけるGC含量を図2Cに示す。
【0054】
seqRANDOM01(配列番号23)
【化7A】
【化7B】
【化7C】
【化7D】
【0055】
配列番号17~23のすべての人工核酸配列は、NCBIなどの公開データベース中に登録の塩基配列と無視できるほどの類似性しか有しないことを確認した(BLASTによる期待値(E-value)が0.1以上の類似度を示す配列は検出されなかった)。
【0056】
配列番号17~23の配列からなる人工核酸をジェンスクリプトジャパン株式会社に委託して化学的に合成した。人工核酸をプラスミドベクター(pUC57)に挿入し、プラスミドを通常の手順により増幅し、精製した。人工核酸配列の末端に導入された制限酵素部位を切断し、アガロースゲル電気泳動により人工核酸を分離し、精製した。
【0057】
<2.人工核酸のアセンブリ性能(1)>
TruSeq DNA Nano kit(イルミナ)を用いて、配列番号17~23の配列からなる人工核酸のそれぞれについて個別にシーケンスライブラリを作製し、MiSeqシステム(イルミナ)でシーケンシングを行った(2×251bpシーケンシングリード)。fastp(Chen et al.,Bioinformatics,2018,34:i884-i890)を用いたクオリティコントロールの後、カバレッジに変化を持たせるようにシークエンシングリードをランダムにサンプリングし、2つのアセンブラ:MEGAHIT(Li et al.,Bioinformatics,2015,31:1674-1676)およびSPAdes(Bankevich et al.,J.Comput.Biol.,2012,19:455-477)のデフォルト設定によりアセンブルした。
【0058】
アセンブリにより回収された人工核酸配列の割合を図3Aに示す。MEGAHIT(左)およびSPAdes(右)のいずれの結果も、カバレッジ深度とアセンブリの完全性との間にシグモイド関係があることを示し、また、最小限のカバレッジ(10×)でも完全なアセンブルが達成されたことを示した。
【0059】
QUAST(Gurevich et al.,Bioinformatics,2013,29:1072-1075)およびCheckMにより検出された、アセンブリにより回収された人工核酸配列中のマーカー遺伝子の数を図3Bに示す。なお、seqRANDOM01はCheckM解析から省略された。最小限のカバレッジ(10×)でも16遺伝子すべてが検出されており、この結果からも、完全なアセンブルが達成されたことが示された。
【0060】
これらの結果から、配列番号17~23の配列からなる人工核酸がアセンブリの完全性の評価に有用であることが確認された。
【0061】
<3.人工核酸のアセンブリ性能(2)>
DNA Prep kit(イルミナ)を用いて、配列番号17~23の配列からなる人工核酸の等モル混合物についてシーケンスライブラリを作製し、NextSeqシステム(イルミナ)でシーケンシングを行った(2×151bpシーケンシングリード)。fastpを用いたクオリティコントロールおよびシークエンシングリードのサンプリングに続いて、SPAdesのデフォルト設定によりリードをアセンブルした。
【0062】
結果を図4に示す。図中、グレーの濃淡はアセンブルされた人工配列と予想される人工配列との配列同一性を表し、99.9%以上の同一性を有する領域が黒の実線により強調されている。配列が相互に類似しないseqHMM3501、seqHMM5001、seqHMM6001、seqHMM04およびseqRANDOM01はいずれも、単一コンティグとしてアセンブルされた。この結果から、これらの配列がアセンブリ性能の評価に適していることが示された。一方、seqHMM5002およびseqHMM5003は、高い配列類似性のために共アセンブルし、断片化されたアセンブリとなった。この結果から、seqHMM5002およびseqHMM5003は、アセンブリ性能に対する配列類似性を評価するために有用であることが示された。
【0063】
<4.人工核酸によるGCバイアスの評価>
領域ごとにGC含量が異なるように設計された人工核酸seqHMM04(配列番号22)およびseqRANDOM01(配列番号23)のそれぞれについて、上記3と同様の手順によりシーケンスライブラリを作製し、シーケンシングを行った。シークエンシングリードをもとに、BBMap(https://www.osti.gov/biblio/1241166)によりカバレッジを算出した。
【0064】
seqHMM04およびseqRANDOM01中の位置に沿った相対カバレッジ(黒線)とGC含量(灰色線)のプロットを図5Aに示す。また、図5Bは、図5Aにおける相対カバレッジおよびGC含量を散布図で提示する。シーケンシングのカバレッジとGC含量との間には強い相関があり、GC含量の高い領域のカバレッジは少なく見積もられることが明らかになった。この結果から、seqHMM04およびseqRANDOM01はGCバイアスを評価するために有用であることが示された。
【0065】
<5.人工核酸の定量性能>
配列番号17~23の配列からなる人工核酸を異なる比率で含む2種類の混合物を調製し、上記3と同様の手順により、シーケンスライブラリを作製し、シーケンシングを実施し、シークエンシングリードをサンプリングした。
【0066】
結果を図6に示す。X軸は、推定された各人工核酸の存在量(相対値)、Y軸は、測定された各人工核酸の存在量(相対値)を示す。人工核酸からのリード数を定量したところ、いずれの混合物においても、推定存在量と実測存在量との間に優れた一致が見られた。
【0067】
次いで、ヒト糞便微生物叢DNA試料に、配列番号17~23の配列からなる人工核酸の等モル混合物を異なる質量比(0.3%、1%、3%、31%)において添加し、上記3と同様の手順により、シーケンスライブラリを作製し、シーケンシングを実施し、シークエンシングリードをサンプリングした。ヒト糞便微生物叢DNAは、既報論文(Tourlousse et al.,Microbiome,2021,9:95)を参考に、ヒト糞便からISOSPIN Fecal DNA kit(株式会社ニッポンジーン)を用いて調製した。
【0068】
結果を図7に示す。X軸は、濃度計算に基づくヒト糞便微生物叢DNAに対する人工核酸の推定された相対比率、Y軸は、実測値に基づくヒト糞便微生物叢DNAに対する人工核酸の相対比率を示す。実測値に基づく相対比率は、計算に基づく推定値と一致した。これらの結果から、配列番号17~23の配列からなる人工核酸が、微生物量の精密な絶対定量のための信頼できる内部標準として利用できるものであることが示された。
図1
図2A
図2B
図2C
図2D
図3A
図3B
図4
図5A
図5B
図6
図7
【配列表】
2024100144000001.xml