IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ bitBiome株式会社の特許一覧

<>
  • 特許-単一生物単位の配列情報の新規処理法 図1
  • 特許-単一生物単位の配列情報の新規処理法 図2
  • 特許-単一生物単位の配列情報の新規処理法 図3
  • 特許-単一生物単位の配列情報の新規処理法 図4
  • 特許-単一生物単位の配列情報の新規処理法 図5
  • 特許-単一生物単位の配列情報の新規処理法 図6
  • 特許-単一生物単位の配列情報の新規処理法 図7
  • 特許-単一生物単位の配列情報の新規処理法 図8
  • 特許-単一生物単位の配列情報の新規処理法 図9
  • 特許-単一生物単位の配列情報の新規処理法 図10
  • 特許-単一生物単位の配列情報の新規処理法 図11
  • 特許-単一生物単位の配列情報の新規処理法 図12
  • 特許-単一生物単位の配列情報の新規処理法 図13
  • 特許-単一生物単位の配列情報の新規処理法 図14
  • 特許-単一生物単位の配列情報の新規処理法 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-12
(45)【発行日】2024-09-25
(54)【発明の名称】単一生物単位の配列情報の新規処理法
(51)【国際特許分類】
   G16B 30/20 20190101AFI20240913BHJP
【FI】
G16B30/20
【請求項の数】 8
(21)【出願番号】P 2021516287
(86)(22)【出願日】2020-04-24
(86)【国際出願番号】 JP2020017795
(87)【国際公開番号】W WO2020218555
(87)【国際公開日】2020-10-29
【審査請求日】2023-03-30
(31)【優先権主張番号】P 2019085839
(32)【優先日】2019-04-26
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成24年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業 チーム型研究(CREST)海洋生物多様性および生態系の保全・再生に資する基盤技術の創出「シングルセルゲノム情報に基づいた海洋難培養微生物メタオミックス解析による環境リスク数理モデルの構築」委託研究、及び、平成27年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業 個人型研究(さきがけ)統合1細胞解析の革新的技術基盤「組織内の細胞多様性を明らかにする超並列ゲノム解析技術の創成」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】519035229
【氏名又は名称】bitBiome株式会社
(74)【代理人】
【識別番号】100136629
【弁理士】
【氏名又は名称】鎌田 光宜
(74)【代理人】
【識別番号】100080791
【弁理士】
【氏名又は名称】高島 一
(74)【代理人】
【識別番号】100118371
【弁理士】
【氏名又は名称】▲駒▼谷 剛志
(72)【発明者】
【氏名】有川 浩司
(72)【発明者】
【氏名】細川 正人
(72)【発明者】
【氏名】竹山 春子
(72)【発明者】
【氏名】小川 雅人
(72)【発明者】
【氏名】井手 圭吾
【審査官】鈴木 和樹
(56)【参考文献】
【文献】特開2005-176730(JP,A)
【文献】特開2003-157267(JP,A)
【文献】Brian P. Hedlund et al.,Impact of single-cell genomics and metagenomics on the emerging view of extremophile ‘‘microbial dark matter’’,Extremophiles[online],Volume18,日本,2014年08月12日,pages 865-875,[令和5年1月24日検索],<URL:https://link.springer.com/article/10.1007/s00792-014-0664-7>,DOI:10.1007/s00792-014-0664-7
【文献】Masato Kogawa et al.,Obtaining high-quality draft genomes from uncultured microbes by cleaning and co-assembly of single-cell amplified genomes,SCIENTIFIC REPORTS[online],vol8,2018年02月01日,article number:2059,pages 1-11,[令和5年1月24日検索],<URL:https://www.nature.com/articles/s41598-018-20384-3>,DOI:10.1038/s41598-018-20384-3
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
単一(single)生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップであって、該生物系統同定用配列は、系統分類を行うための配列である、ステップと、
(B)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップであって、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含むステップと
を実行する、方法。
【請求項2】
前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項1に記載の方法。
【請求項3】
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップであって、該生物系統同定用配列は、系統分類を行うための配列である、ステップと、
(B)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップであって、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含むステップと
を含むプログラム。
【請求項4】
前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項3に記載のプログラム。
【請求項5】
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納したコンピュータ読み取り可能な媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップであって、該生物系統同定用配列は、系統分類を行うための配列である、ステップと、
(B)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップであって、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含むステップと
を含む記媒体。
【請求項6】
前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項5に記載の記媒体。
【請求項7】
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部であって、該生物系統同定用配列は、系統分類を行うための配列である、クラスタリング部と、
(B)該単一生物単位の配列情報の部分配列情報および該(A)のクラスタリング部によるクラスター化とは独立して生成されたデータベース中の該クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加する追加情報追加部と、
(C)該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部であって、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行う均質化処理部を含む、ドラフト作成部と
を含むシステム。
【請求項8】
前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項7に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、単一生物単位の配列情報の新規処理法、システムおよび関連技術を提供する。より特定すると、微生物ゲノムデータ自動的構築・提供システムを提供する。
【背景技術】
【0002】
微生物ゲノムデータの構築が進んでいるが、現在のデータは、メタゲノム情報を基にするものが多く、複雑な細菌叢を解析対象にした場合に情報として質、量とも不足する。
【0003】
単一の生物単位ごとの遺伝情報(ゲノム情報など)の取得が一部されてきているが、その情報処理については十分な質のものが提供されていない。
【発明の概要】
【課題を解決するための手段】
【0004】
本発明者らは、鋭意研究した結果、単一生物単位レベルでの単一生物単位の配列情報を蓄積し、そこから高精度の微生物ゲノムデータを自動的に構築・提供するシステムを完成するに至った。
本開示の実施形態の例として、以下のものが挙げられる。
(項目1)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む方法。
(項目2)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目1に記載の方法。
(項目3)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む方法。
(項目3A)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む方法。
(項目4)
単一生物単位の配列情報を処理する方法であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む方法。
(項目5)
項目4に記載の単一生物単位の配列情報を処理する方法であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目4に記載のステップを繰り返すステップと
を含む、方法。
(項目6)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、方法。
(項目7)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目6に記載の方法。
(項目8)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、方法。
(項目9)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。
(項目10)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目9に記載のプログラム。
(項目11)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。
(項目11A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含むプログラム。
(項目12)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップとを含むプログラム。
(項目13)
項目12に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目12に記載のステップを繰り返すステップと
を含む、プログラム。
(項目14)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。
(項目15)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目14に記載のプログラム。
(項目16)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、プログラム。
(項目17)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。
(項目18)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目17に記載の記録媒体。
(項目19)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。
(項目19A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む記録媒体。
(項目20)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。
(項目21)
項目20に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目20に記載のステップを繰り返すステップと
を含む、記録媒体。
(項目22)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。
(項目23)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目22に記載の記録媒体。
(項目24)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、記録媒体。
(項目25)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部と、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
(項目26)
前記(B)追加情報追加部を含む場合、データベースを利用するデータベース利用部をさらに含む、項目25に記載のシステム。
(項目27)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、
C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。
(項目27A)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部と
を含むシステム。
(項目28)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。
(項目29)
項目28に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目28に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。
(項目30)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。
(項目31)
前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、項目30に記載のシステム。
(項目32)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すための手段と
を含む、システム。
(項目A1)
単一(single)生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を実行する、方法。
(項目A2)
(B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、前記項目に記載の方法。
(項目A3)
前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、前記項目のいずれか一項に記載の方法。
(項目A4)
生物系統同定用配列候補のスクリーニングをコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を実行する、方法。
(項目A5)
単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を実行する、方法。
(項目A6)
前記項目のいずれか一項に記載の単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目5に記載のステップを繰り返すステップと
を実行する、方法。
(項目A7)
単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を実行する、方法。
(項目A8)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、前記項目のいずれか一項に記載の方法。
(項目A9)
単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと、
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を実行する、方法。
(項目A10)
前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項に記載の方法。
(項目A11)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。
(項目A12)
(B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、前記項目に記載のプログラム。
(項目A13)
前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、前記項目のいずれか一項に記載のプログラム。
(項目A14)
生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。
(項目A15)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含むプログラム。
(項目A16)
前記項目のいずれか一項に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目15に記載のステップを繰り返すステップと
を含む、プログラム。
(項目A17)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。
(項目A18)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、前記項目のいずれか一項に記載のプログラム。
(項目A19)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、プログラム。
(項目A20)
前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項に記載のプログラム。
(項目A21)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。
(項目A22)
(B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、前記項目に記載の記録媒体。
(項目A23)
前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、前記項目のいずれか一項に記載の記録媒体。
(項目A24)
生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。
(項目A25)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。
(項目A26)
前記項目のいずれか一項に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目25に記載のステップを繰り返すステップと
を含む、記録媒体。
(項目A27)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。
(項目A28)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、前記項目のいずれか一項に記載の記録媒体。
(項目A29)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、記録媒体。
(項目A30)
前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項のいずれか一項に記載の記録媒体。
(項目A31)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(C)該単一生物単位の配列情報の部分配列情報および該(A)のクラスタリング部によるクラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
(項目A32)
(B)前記データベース中の該クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加する追加情報追加部をさらに含む、前記項目に記載のシステム。
(項目A33)
前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行う均質化処理部を含む、前記項目のいずれか一項に記載のシステム。
(項目A34)
生物系統同定用配列候補をスクリーニングするためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとにシングルコピー遺伝子の個数または割合を計算する計算部と、
C)前記シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。
(項目A35)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。
(項目A36)
前記項目のいずれか一項に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目35に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。
(項目A37)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。
(項目A38)
前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、前記項目のいずれか一項に記載のシステム。
(項目A39)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すための手段と
を含む、システム。
(項目A40)
前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項に記載のシステム。
(項目B1)
複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造。
(項目B2)
前記データ構造に含まれる部分配列情報は、2以上の独立してクラスター化されて生成されたデータベースに由来するものである、前記項目のいずれか一項に記載のデータ構造。
(項目B3)
前記独立してなされたクラスター化に関連する情報が、前記部分配列情報に紐づけて格納される、前記項目のいずれか一項に記載のデータ構造。
(項目B4)
前記部分配列情報を総合すると、ゲノム情報を構成する、前記項目のいずれか一項に記載のデータ構造。
(項目B5)
前記部分配列情報は、単一生物単位ごとに収集されたものである、前記項目のいずれか一項に記載のデータ構造。
(項目B6)
前記部分配列情報は、それが由来する単一生物単位の識別情報(ID情報)と紐づけて格納される、前記項目のいずれか一項に記載のデータ構造。
(項目B7)
複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造を複数統合した、単一生物単位のデータ構造。
(項目B8)
前記項目のいずれか一項または複数の項に記載される1つ以上の特徴をさらに備える、項目B7に記載のデータ構造。
【0005】
本開示において、上記1又は複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供されうることが意図される。本開示のなおさらなる実施形態及び利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。
【発明の効果】
【0006】
本開示により、単一生物単位レベルでの単一生物単位配列情報をより高精度に提供することができるようになった。本開示を用いることにより、培養不可能な微生物のほぼ完全なゲノム配列の解明や、同一株の微生物間における遺伝的異質性を解析可能となった。
【図面の簡単な説明】
【0007】
図1図1は本開示の全体概要図である。本開示は、新しく得られた単一生物単位の部分配列情報を本システムに登録されている生物系統同定用配列を用いて同一系統にクラスター化し、クラスター化された複数の単一生物単位の部分配列情報を統合して最適なドラフトゲノム配列を構築するものである。微生物ゲノムデータベースに登録されているドラフトゲノム配列は、新規の単一生物単位が測定・登録されるたびに更新され、徐々に品質が向上していくものである。
図2図2は本システムで使用する微生物データベース構造である。微生物ゲノムデータベースは、単一生物単位ゲノム情報とそれを統合して作成するドラフトゲノム情報で構築される。ドラフトゲノム情報には、暫定系統分類、コンプリート率、コンタミ率、品質カテゴリー、コンティグ数、N50統計値、GC含量などのゲノム配列に付随するデータを記録する。1つのドラフトゲノム情報には複数のアセンブル塩基配列と遺伝子情報が対応付けられる。遺伝子情報には遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、マーカータイプ、シングルコピーなどの遺伝子に付随するデータを記録する。1つの遺伝子情報には1つの遺伝子塩基配列が対応付けられる。単一生物単位ゲノム情報も、ドラフトゲノム情報と同等のデータが付随される。ドラフトゲノム情報と同様に、1つの単一生物単位ゲノム情報には複数のアセンブル塩基配列、遺伝子情報が対応付けられ、1つの遺伝子情報には1つの遺伝子塩基配列が対応付けられる。また、1つの単一生物単位ゲノム情報には複数の部分塩基配列が対応付けられる。
図3図3は微生物データベースにより新規測定された単一生物単位を同一系統にクラスター化する手法である。単一生物単位のゲノムDNAをDNAシーケンサーで測定し、部分塩基配列を取得する。部分塩基配列に対してアセンブルを行い、アセンブル塩基配列を取得する。アセンブル塩基配列に対し遺伝子同定を行い、遺伝子塩基配列を取得する。各遺伝子塩基配列に対してタンパク質データベース等を用いて機能推定を行い、遺伝子情報を取得する。同時にアセンブル塩基配列に対して系統分類を行い、暫定系統分類情報を取得する。また、アセンブル塩基配列の品質を評価し、ゲノム情報を取得する。単一生物単位を解析して得られた部分塩基配列、ゲノム情報、アセンブル塩基配列、系統分類情報、遺伝子情報、遺伝子塩基配列を単一生物単位ゲノムデータとする。微生物ゲノムデータベースから、系統分類情報を用いて同一系統のドラフトゲノム情報を検索する。さらにドラフトゲノム情報に対応する遺伝子情報をもとに、生物系統同定用配列とそのタンパク質ファミリーを取得する。取得したタンパク質ファミリーと同じタンパク質ファミリーをもつ遺伝子情報と遺伝子塩基配列を単一生物単位ゲノムデータから抽出し、ドラフトゲノムの生物系統同定用配列と単一生物単位ゲノムの対応遺伝子塩基配列の組み合わせで相同性を計算する。ある一定の相同性以下の組み合わせは後述の処理から除外する。生物系統同定用配列で最も相同性の高い遺伝子を単一生物単位の生物系統同定用配列として同定する。相同性とマッチした塩基配列長の加重平均などにより、ドラフトゲノムと単一生物単位の類似度を評価する。評価の最も高かったドラフトゲノムを単一生物単位が属するクラスターとする。万が一、複数の同一評価値のドラフトゲノムが場合は、生物系統同定用配列でなく全アセンブル塩基配列を用いて同様の評価を行い判定する。
図4図4は微生物データベースを使用せずに新規測定された単一生物単位を同一系統にクラスター化する手法である。微生物ゲノムデータベースに対応するドラフトゲノムがなかった単一生物単位ゲノムデータに関して、暫定系統分類により暫定的なクラスターを構築する。各暫定クラスターに所属する単一生物単位ゲノムデータは、微生物ゲノムデータベースの生物系統同定用配列を用いることで、さらに分割すべきかどうかの判断を行う。分割の方法は図6で示される。
図5図5は微生物データベースに登録されている遺伝子情報を用いて、新たに生物系統同定用配列を同定する手法である。微生物ゲノムデータベースは、データが蓄積されるに従い、徐々にドラフトゲノム情報や対応する遺伝子情報の品質が向上していく。そこで、本システムにおいては、高品質ドラフトゲノム情報と遺伝子情報から新たな生物系統同定用配列の再同定方法を実装する。微生物ゲノムデータベースから登録されているドラフトゲノムごとに対応するタンパク質ファミリーを抽出しその出現頻度を計算し、出現頻度行列を作成する。このとき、品質の悪いドラフトゲノムは除外してもよい。出現頻度行列において、1つのドラフトゲノムに対し複数の頻度で表れているタンパク質ファミリーは、コンタミの可能性があるため除外する。ただ1つのタンパク質ファミリーが対応している場合、そのタンパク質ファミリーはシングルコピー遺伝子として同定する。タンパク質ファミリーのシングルコピー遺伝子が全ドラフトゲノム内に一定以上の割合で存在する場合、そのタンパク質ファミリーが対応する遺伝子は生物系統同定用配列候補である。割合の多い順でソートして、ある基準値以上(例えば90%以上)または上位数件を新たな生物系統同定用配列として採用する。
図6図6は同一系統とされたクラスター内の新規測定単一生物単位を細分化する手法である。新規測定された単一生物単位で同一クラスターと判定されたものにおいて、微生物ゲノムデータベースから抽出した生物系統同定用配列により、総当たりで各単一生物単位の類似度(距離)評価を行う。類似度(距離)行列を用いてネットワーク解析やクラスタリング解析を行い、単一生物単位を細分化する。
図7図7は同一系統とされたクラスター内の単一生物単位により最適ドラフトゲノムを構築する手法である。同一系統とされる新規単一生物単位ゲノムデータと、存在するならば微生物ゲノムデータベースから同一系統の単位ゲノムデータを抽出し、クラスターとする。クラスター内の単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単位ゲノムデータは以降の処理から除外される。並び替えられた単一生物単位ゲノムデータをランクの高い順に2つ選択し、暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットとする。同様にランクの高いほうから順次単一生物単位ゲノムデータを追加した暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットを複数構築する。これらの暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットに対し、ccSAG法を用いて暫定ドラフトゲノムを構築する。所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて最も基準の高い暫定ドラフトゲノムを最適ドラフトゲノムとして選択する。微生物ゲノムデータベースに存在する既存のドラフトゲノムよりも基準が高い場合は、新たに作成されたドラフトゲノムを微生物ゲノムデータベースに登録、更新する。また、暫定ドラフトゲノムを構築した単一生物単位ゲノムデータ数を説明変数、基準値(例えば、コンプリート率、コンタミ率)を目的変数として暫定ドラフトゲノムの評価データを作成する。これはドラフトゲノムの品質が収束していて、単一生物単位ゲノムデータを追加してもこれ以上の改善が見込めないなどの判断を行うときに役に立つ。
図8図8は微生物データベースに登録されているドラフトゲノムに関して、より高品質なドラフトゲノムを構築する手法である。微生物ゲノムデータベース内のドラフトゲノムにおいて、品質が収束していると推定されるドラフトゲノムをフィニッシング対象として抽出する。抽出された単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単一生物単位ゲノムデータは以降の処理から除外される。これら抽出された単一生物単位に対し、通常行うドラフトゲノム構築よりも許容度の高いパラメータを設定してドラフトゲノムを構築する。一方で、ドラフトゲノム再構築用の単一生物単位ゲノムデータのアセンブル塩基配列とドラフトゲノムのアセンブル塩基配列を相同性検索し、ドラフトゲノムのアセンブル塩基配列を結合するためのブリッジアセンブル塩基配列を検出する。ブリッジアセンブル塩基配列が検出できた場合、それを用いてドラフトゲノムのアセンブル塩基配列を結合する。このようにして構築された2つのドラフトゲノムデータと微生物ゲノムデータベースに登録済みのドラフトゲノムデータを比較評価し、基準値の高い方を選択する。新たなドラフトゲノムデータが選択された場合、微生物ゲノムデータベースに登録し更新する。
図9図9は微生物データベースに登録されているドラフトゲノムに関して、より細分化するための手法である。微生物ゲノムデータベース内のドラフトゲノムにおいて、品質が収束していると推定されるドラフトゲノムを細分化対象として抽出する。抽出された単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単一生物単位ゲノムデータは以降の処理から除外される。これら抽出された単一生物単位に対し、図6の細分化処理を実施する。細分化された各クラスターの単一生物単位ゲノムデータに対してそれぞれドラフトゲノムを構築する。細分化で構築されたドラフトゲノムデータと、微生物ゲノムデータベースに登録済みのドラフトゲノムデータを比較し、基準値の高い方を選択する。新たなドラフトゲノムデータが選択された場合、微生物ゲノムデータベースに登録し更新する。
図10図10は、スタンドアローンで解析を行う場合のシステム構成を示す図である。DNA塩基配列から出力された単一生物単位の部分塩基配列データは、ポータブルHDDなどの外部記憶装置を介して、解析用コンピュータの補助記憶装置に記録される。また、補助記憶装置には配列処理を行うためのプログラム群、微生物ゲノムデータベースが記録されている。プログラム及び部分塩基配列データは、補助記憶装置から主記憶装置にロードされ中央演算処理装置により処理が実行される。一連の処理はキーボード、マウスなどの入力装置によって行われ、処理の結果はモニターなどの出力装置および補助記憶装置に出力される。
図11図11は、クラウド解析などの、インターネットを介して処理を行うときのシステム構成を示す図である。DNA塩基配列から出力された単一生物単位の部分塩基配列データは、FTPサーバなどに記録されインターネットを介してダウンロードできるようになっている。部分塩基配列データをHPC(High-Performance Computing)システムにアップロードし、HPCシステム上で処理を行う。微生物ゲノムデータベースへはデータベースサーバを介してアクセスしてもよいし、データベース自体をHPCシステム上にダウンロードして使用してもよい。これら一連の処理は、インターネットに接続された解析用端末により行われる。
図12図12は、クラスターに外部データベース中の配列を追加することで高品質なゲノム配列を構築することができることを示す図である。
図13図13は、バイアス均質化処理の模式図である。
図14図14は、バイアス均質化処理前の大腸菌SAGシーケンスデータのバイアス評価および取得ゲノム配列を示す図である。
図15図15は、バイアス均質化処理後の大腸菌SAGシーケンスデータのバイアス評価および取得ゲノム配列を示す図である。
【発明を実施するための形態】
【0008】
以下、本開示を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語及び科学技術用語は、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
【0009】
(定義等)
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
【0010】
本明細書において、「単一生物単位」とは、遺伝情報またはその他の生体分子の情報を有する単位を指す。単一生物単位には、細胞、細胞様構造物などを含み得るが、これらに限定されず、人工的に生産したもの(いわゆる人工細胞)やデジタル上の細胞(情報として提供される)なども含み得る。
【0011】
本明細書において、「細胞」とは、遺伝情報を有する分子を内包する粒子であって、(単独で可能かどうかにかかわらず)複製されることが可能である任意の粒子を指す。本明細書における「細胞」としては、単細胞生物の細胞、細菌、多細胞生物由来の細胞、真菌などが包含される。
【0012】
本明細書において、「細胞様構造物」とは、遺伝情報を有する分子を内包する任意の粒子を指す。本明細書における「細胞様構造物」としては、細胞内小器官、例えば、ミトコンドリア、細胞核、および葉緑体、ならびにウイルスなどが包含される。
【0013】
本明細書において、「遺伝情報またはその他の生体分子の情報」とは、生体分子またはその類似体を規定する情報を指す。遺伝情報またはその他の生体分子の情報には、核酸、アミノ酸、脂質もしくは糖鎖またはそれらの類似体の構造情報などを含み得るが、これらに限定されず、代謝物質などの生体内分子またはその類似体の相互作用の多様性情報なども含み得る。「遺伝情報」は、「核酸情報」とも称され、両者は同義である。
【0014】
本明細書において、「生体分子」とは、任意の生物またはウイルスが有する分子を指す。生体内分子には、核酸、タンパク質、糖鎖または脂質などを含み得る。本明細書において、「生体分子の類似体」とは、生体分子の天然または非天然の変種を指す。生体内分子の類似体には、修飾核酸、修飾アミノ酸、修飾脂質または修飾糖鎖などを含み得る。
【0015】
本明細書において、「集合」とは、2つ以上の単一生物単位、細胞または細胞用構造物を含む集まりをいう。
【0016】
本明細書において、「サブ集合」とは、「集合」と一緒に使用される場合、集合よりも少ない数の単一生物単位、細胞または細胞用構造を有する集合の一部分を指す。
【0017】
本明細書において、「ゲル」とは、コロイド溶液(ゾル)において、高分子物質またはコロイド粒子がその相互作用により全体として網目構造をつくり、溶媒あるいは分散媒である液相を多量に含んだまま流動性を失った状態のことをいう。本明細書において、「ゲル化」とは、溶液を「ゲル」の状態に変化させることをいう。
【0018】
本明細書において、「カプセル」とは、その中に細胞または細胞様構造物を保持することが可能な形状のものを指す。本明細書において、「ゲルカプセル」とは、その中に細胞または細胞様構造物を保持することが可能なゲル状の微粒子状構造体を指す。
【0019】
本明細書において、「遺伝子分析」とは生体サンプル中の核酸(DNA、RNA等)の状態を調べることをいう。1つの実施形態では、遺伝子分析は、核酸増幅反応を利用するものを挙げることができる。これらを含め、遺伝子分析の例としては、配列決定、遺伝子型判定・多型分析(SNP分析、コピー数多型、制限酵素断片長多型、リピート数多型)、発現解析、蛍光消光プローブ(Quenching Probe:Q-Probe)、SYBR green法、融解曲線分析、リアルタイムPCR、定量RT-PCR、デジタルPCRなどを挙げることができる。
【0020】
本明細書において「単一生物単位レベル」とは、1つの単一生物単位に含まれる遺伝情報またはその他の生体分子の情報に対して、他の単一生物単位に含まれる遺伝情報またはその他の生体分子の情報と区別し得る状態で処理を行うことをいう。
【0021】
本明細書において、「シングルセルレベル」とは、1つの細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報に対して、他の細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で処理を行うことをいう。例えば、「単一生物単位レベル」または「シングルセルレベル」でのポリヌクレオチドを増幅する場合、それぞれある単一生物単位、またはある細胞もしくは細胞様構造物中のポリヌクレオチドと、他の単一生物単位、または他の細胞もしくは細胞様構造物中のポリヌクレオチドが区別可能な状態でそれぞれの増幅が行われる。本開示の一実施形態において、当該ポリヌクレオチドを増幅用試薬に接触させて当該ポリヌクレオチドをゲルカプセル内で増幅する工程は、当該ポリヌクレオチドをゲルカプセル内でゲル状態を保ちながら増幅することもできる。
【0022】
本明細書において、「単一生物単位解析」とは、1つの単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報を、他の単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で解析することを指す。
【0023】
本明細書において、「シングルセル解析」とは、1つの細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報を、他の細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で解析することを指す。
【0024】
本明細書において、「遺伝情報」とは、1つの細胞または細胞様構造物に含まれる遺伝子その他情報をコードする核酸の情報を指し、特定の遺伝子配列の有無、特定の遺伝子の収量または全核酸収量を含む。
【0025】
本明細書において、「生体分子の情報」とは、1つの細胞または細胞様構造物に含まれる生体分子(核酸の他、核酸以外には、タンパク質、糖、脂質なども含まれる。)またはその類似体の情報を指し、特定の生体分子の構造または配列の有無、構造または配列の同一性、特定の生体分子の収量および全生体分子の収量を含む。
【0026】
本明細書において、「核酸情報」とは、1つの細胞または細胞様構造物に含まれる核酸の情報を指し、特定の遺伝子配列の有無、特定の遺伝子の収量または全核酸収量を含む。
【0027】
本明細書において、「同一性」とは、2つの生体分子間の構造または配列の類似性を指す。対象が配列の場合、同一性は、比較のためにアライメントしうる各配列中の位置を比較することによって決定することもできる。
【0028】
本明細書において、「ロングリードシーケンス」とは、長いリード(解析するために断片化したヌクレオチド鎖)を用いて全体配列のシーケンスを行う手法である。一般的に、ロングリードシーケンスは、400塩基以上の長さのリードで解読を行う。
【0029】
(好ましい実施形態)
以下に好ましい実施形態の説明を記載するが、この実施形態は本開示の例示であり、本開示の範囲はそのような好ましい実施形態に限定されないことが理解されるべきである。当業者はまた、以下のような好ましい実施例を参考にして、本発明の範囲内にある改変、変更などを容易に行うことができることが理解されるべきである。これらの実施形態について、当業者は適宜、1または複数の任意の実施形態を組み合わせ得る。
【0030】
(配列情報処理)
1つの局面において、本開示は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法を提供する。この方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本開示の単位生物単位ゲノムとの対応は図2に例示されている。
【0031】
ステップ(B)は、任意工程であり、データベースを利用してもよく、しなくてもよい。このように、クラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
【0032】
分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本開示は、単一(single)生物単位(例えば、細胞)の配列情報を処理する方法を提供し、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップとを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するタンパク質ファミリーをマーカー遺伝子として採用することができる。本開示は、単一(single)生物単位の配列情報を処理する方法であって、該方法は:A)データベースから、ドラフト内で重複のない遺伝子(シングルコピー遺伝子)候補を抽出するステップと、B)前記遺伝子ごとに対応しているドラフトの個数(または割合)を計算するステップと、C)前記対応ドラフトの個数(または割合)の多い順にソートし、所定値以上の遺伝子(または上位から任意数の遺伝子)をマーカー遺伝子候補として選択するステップとを含む方法を提供する。
【0033】
1つの局面では、本開示は、単一生物単位の配列情報を処理する方法であって、該方法は:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築するステップと、(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するステップとを含む。(E’)を繰り返すことが好ましい。SAGの数を変更しながらドラフト作成を繰り返すことが好ましいからである。一部の実施形態において、単一生物単位の配列情報ドラフトを作成するステップとして、上記(D)~(E’)を行ってもよい。この局面の模式図は、図7に示されている。
【0034】
1つの好ましい実施形態では、本開示の単一生物単位の配列情報を処理する方法は、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、ステップ(D)、(E)および(E’)を繰り返すステップとを含む。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
【0035】
1つの局面において、部分配列情報はSAGである。特定の局面において、本開示は、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法を提供する。この局面において、本開示は、単一生物単位の配列情報を処理する方法であって、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップとを含む。
【0036】
ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。
【0037】
好ましい実施形態では、本開示において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
【0038】
本開示はまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本開示は、単一生物単位の配列情報を処理する方法であって、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価し、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップとを含む。
【0039】
本開示において、これらの方法の各ステップは、適宜組み合わせられることが理解される。一部の実施形態において、単一(single)生物単位の配列情報の処理および生物系統同定用配列候補のスクリーニングを行う際、これらをコンピュータに実行させる指令を発する場所と、指令を受けて実際にこれらの処理等が実施される場所がことなってもよい。他の実施形態において、本開示の方法の各処理はコンピュータにより実行され得る。別の実施形態において、本開示のデータベースは、本開示のクラスタリング又は配列解析手法により生成されたデータベースでも、本開示のクラスタリング又は配列解析手法とは独立して生成されたデータベースであってもよい。好ましい実施形態において、本開示のクラスタリング又は配列解析手法とは独立して生成されたデータベースは、シングルセル増幅に基づき増幅された配列をシーケンシングした得られたデータのデータベースであり得る。従来技術では、他のデータベース中の配列を追加が配列の品質低下につながると考えられていたが、実際には他のデータベースの配列をクラスターに追加することで、配列の品質が改善することを見出した。
【0040】
一部の実施形態において、シーケンスデータからドラフトゲノムを構築する際に、多数の重複読み取りが認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正(均質化)を行ってもよい。均質化処理を行ったシーケンスデータのクラスタリング応じて、均質化シーケンスデータから作成したゲノム配列を参照配列に用いて繰り返し均質化処理を行うことで、ゲノムクオリティのさらなる改善が見込まれる。均質化処理に供する部分配列情報がロングリードシーケンスにより読まれている場合、ゲノムクオリティのより一層の改善が見込まれる。
単一生物単位に由来する配列のドラフトゲノムを構築する場合、データ自体がクリーン且つ一定度のゲノム完全性をもつものであること、複数のシングルセルデータがまとまってえられていることが前提となるが従来の技術では実現できず、本開示により初めて実現された。また、単一生物単位に由来する配列のドラフトゲノムを、ロングリードシーケンスにより解読されたことはなかった。また、単一生物単位に由来する配列では、キメラ(本来つながっていない離れたゲノム配列が、増幅時のエラーなどで生じ、あやまって解読された配列データが生まれること)を生んでしまうという課題があることが認識されていたため、キメラおよび高い増幅バイアスを有するシングルセルデータに適したロングリードアセンブリシステムは開発されていなかった。本開示を活用することにより、複数のシングルセルゲノムを参照し、マッピングとアセンブリを繰り返すことで、このバイアスを大幅に低減することができ、これにより、極めて正確なゲノム配列が得られるようになった。
シングルセル由来のゲノム配列などの増幅DNAのシーケンスではバイアスが発生することがよく知られている。この点、従来の方法では均質化処理(バイアスを低減する)は、酵素反応や反応条件を工夫して、増幅時にバイアス自体を生じにくくする (Nishikawa et al. PLoS ONE)または、増幅後に生じたバイアスを減退させるためにDNAを積極的に分解するなどの方法が取られていた。しかしながら、これらの方法では、バイアスを完全に取り除くことはできないという課題があった。本開示では、バイアスが生じたデータであっても in silicoで処理を実行するため、上記のような特別な反応系の工夫がなくデータを均質化できる。なお、このときもデータ自体がクリーンであり、複数個に由来することが前提であるため本開示で利用される方法でしか実行できなかった。従来の方法では、ゲノム配列の正しさは近縁種のリファレンスゲノムに対しマッピングなどを行い、バイアスやギャップ部などが評価され、配列補正を実施するが、本開示で利用される方法は、均質化処理時に近縁種リファレンスゲノムが存在しなくても、同一種の複数データを統合的に解析することで、自己データを参照し、均質化処理を実行できるため、リファレンス配列のない未知微生物サンプルのデータも均質化できる点で従来技術と比して顕著に優れた効果を奏する。また、未知微生物の完全ゲノム解読において非常に有効である。さらに、ゲノム中の遺伝子クラスター位置が特定できていない細胞においても、培養することなく、遺伝子クラスターを、ギャップなく、まるごと配列を解読でき、その機能を詳しく知ることができるようになる。また、この遺伝子クラスターを扱いやすい別の生物に導入して、狙った物質を作らせるような研究開発も可能である。以下のような応用例・仮想実施例が期待される。
・抗生物質耐性遺伝子・耐性株のサーベイランス
・微生物ゲノムシーケンスのfinishing (環状ゲノムとしてクロージングすること)(基本的に培養株以外では、クロージングできることは稀だった)
・生合成遺伝子クラスター の獲得
・合成生物学による微生物ホストの遺伝子改変評価
・ゲノム構造変異と各種代謝機能/ホスト生物への影響評価。
【0041】
(プログラムおよび記録媒体)
1つの局面において、本開示は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本開示の単位生物単位ゲノムとの対応は図2に例示されている。
【0042】
ステップ(B)は、任意工程であり、データベースを利用してもよく、しなくてもよい。このように、クラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
【0043】
分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本開示は、単一(single)生物単位(例えば、細胞)の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップとを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するようないタンパク質ファミリーをマーカー遺伝子として採用することができる。本開示は、単一(single)生物単位の配列情報を処理する方法をコンピュータに実装することを指示するプログラムまたはプログラムを格納する記録媒体であって、該方法は:A)データベースから、ドラフト内で重複のない遺伝子(シングルコピー遺伝子)候補を抽出するステップと、B)前記遺伝子ごとに対応しているドラフトの個数(または割合)を計算するステップと、C)前記対応ドラフトの個数(または割合)の多い順にソートし、所定値以上の遺伝子(または上位から任意数の遺伝子)をマーカー遺伝子候補として選択するステップとを含むプログラムまたは記録媒体を提供する。
【0044】
1つの局面では、本開示は、単一生物単位の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築するステップと、(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するステップとを含む。(E’)を繰り返すことが好ましい。SAGの数を変更しながらドラフト作成を繰り返すことが好ましいからである。この局面の模式図は、図7に示されている。
【0045】
1つの好ましい実施形態では、本開示のプログラムが実装する単一生物単位の配列情報を処理する方法は、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、ステップ(D)、(E)および(E’)を繰り返すステップとを含む。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
【0046】
別の局面において、本開示のプログラムは、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法をコードする。この局面において、本開示は、単一生物単位の配列情報を処理する方法をコンピュータの実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップとを含む。
【0047】
ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。好ましい実施形態では、本開示において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
【0048】
本開示のプログラムはまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本開示は、単一生物単位の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価し、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップとを含む。
【0049】
別の局面において、本開示は、複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造を提供する。一つの実施形態では、前記データ構造に含まれる部分配列情報は、2以上の独立してクラスター化されて生成されたデータベースに由来するものである。一つの実施形態では、
独立してなされたクラスター化に関連する情報が、前記部分配列情報に紐づけて格納される。一つの実施形態では、部分配列情報を総合すると、ゲノム情報を構成する。一つの実施形態では、部分配列情報は、単一生物単位ごとに収集されたものである。一つの実施形態では、部分配列情報は、それが由来する単一生物単位の識別情報(ID情報)と紐づけて格納される。
【0050】
別の実施形態では、本開示は複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造を複数統合した、単一生物単位のデータ構造を提供する。シングルセル等の単一生物単位を統合した高品質なデータベースは従来存在せず本開示が初めて提供するものである。
【0051】
(システム)
1つの局面において、本開示は、単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部(これは、クラスタリング部と同じであっても別々であってもよい)と、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本開示の単位生物単位ゲノムとの対応は図2に例示されている。
【0052】
B)に該当する追加情報追加部は、任意であり、データベースを利用してもよく、しなくてもよい。
【0053】
このように、クラスタリング部が実現するクラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
【0054】
本開示のシステムについては、分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本開示は、単一(single)生物単位(例えば、細胞)の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部(マーカー同定部ともいう)とを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するようないタンパク質ファミリーをマーカー遺伝子として採用することができる。本開示は、単一(single)生物単位の配列情報を処理するためのシステムであって、A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子をマーカー遺伝子候補として選択する選択部とを含むシステムを提供する。
【0055】
1つの局面では、本開示は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けする順位付け部と、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築し、該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するドラフト構築部とを含む。ドラフト作製は複数回繰り返すことが好ましい。部分配列情報(例えば、SAGs)の数を変更しながらドラフト作成を繰り返すことが好ましいからである。この局面の模式図は、図7に示されている。
【0056】
1つの好ましい実施形態では、本開示のシステムは、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部(これは、ドラフト構築部の一部として構成されてもよい)と、((G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部(これもまた、ドラフト構築部として構成されてもよい。)と、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返させるドラフト構築部と、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段とを含む。この繰り返しはドラフト構築部などにおいて実現されることができる。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
【0057】
別の局面において、本開示のシステムは、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法をコードする。この局面において、本開示は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部(これは、クラスタリング部で実現されてもよい。)と(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部(これもまた、クラスタリング部で実現されてもよい。)と、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部とを含む。
【0058】
ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。
【0059】
好ましい実施形態では、本開示において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
【0060】
本開示のシステムはまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本開示は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けする順位付け部と、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価するステップとを行うドラフト構築部と、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部(これはクラスタリング部で実現されてもよい。)と(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部(これもまた、クラスタリング部で達成されてもよい。)とを含み、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断する判断部を含み、判断部では、その判断が妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)で実現されるステップが繰り返される。
【0061】
以上、本開示の1つまたは複数の態様に係るシステム、プログラム、記録媒体、方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
【0062】
また、上記各実施の形態における快不快判定装置が備える構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。例えば、本開示の配列情報を処理するシステムは、必要に応じてデータベースと組みわせられてもよいし、バイオマーカー等の機能を有する配列を特定するシステムを内包または組み合わされてもよい(図10)。
【0063】
システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
【0064】
また、本開示の一局面は、このような配列情報処理装置やシステムだけではなく、機能特化したシステム(例えば、バイオマーカースクリーニング装置、薬効判定装置、診断装置など)であってもよい。また、本開示の実施形態は、配列情報処理に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
【0065】
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の痛み推定装置などを実現するソフトウェアは、本明細書において上述したプログラムであり得る。
【0066】
(クラウド、IoTおよびAIを用いた実施形態)
本開示の配列情報処理技術は、1つのシステムまたは装置として、すべてを含む形で提供され得る。あるいは、配列情報処理装置として分析および結果の表示を主に行い、計算や判別モデルの計算は、サーバやクラウドで行う形態も想定され得る。これらの一部または全部は、IoT(Internet of Things)および/または人工知能(AI)を用いて実施され得る(図11)。
【0067】
あるいは、配列情報処理装置が種々の計算に必要な手段も格納し、その場で分析を行うが、分析に必要な計算は、サーバやクラウドで行う形態である半スタンドアローン型の形態も想定され得る。病院等の一部の実施場所では、送受信が常にできると限らないことから、遮蔽した場合でも使えるモデルを想定したものである。
【0068】
保存部は、例えば、CD-R、DVD、Blueray、USB、SSD、ハードディスクなどの記録媒体であってもよく、サーバに格納されてもよく、クラウド上に適宜記録される形式でもよい。
【0069】
このようなクラウドサービスとしては、おおむね、「Software as service (SaaS)」が該当する。配列情報処理装置は、実験室環境でのデータから作られた判別アルゴリズムを搭載していると考えられることから、これらの実施形態の2つまたは3つの特徴を備えるシステムとして提供されてもよい。
【0070】
データ保存も必要に応じてなされ得る。データ保存は通常サーバ側に備えられるが、全装備型の場合はもとより、クラウド型の場合でも端末側にあってもよい(任意である)。クラウドでサービスを提供する場合、データ保存は、標準(例えば、クラウドに10Gバイトまで)、オプション1(例えば、クラウドに10Tバイト増量)、オプション2(クラウドにパラメータ設定して分割保存)、オプション3(クラウドに分析オプション保存)のオプションを提供し得る。データを保存して、販売されたすべての装置からデータを吸い上げてビッグデータ(例えば、配列データベース)を作り、分析モデルを継時的に更新したり、新たなモデルを構築して、例えば、「疾患判定モデル」とかのように新たな判別モデルソフトウェアを提供することができる。
【0071】
また、データ解析オプションを有していてもよい。ここでは、サービス提供受領者の要求などを提供することができる。すなわち、計算方法のオプションとして想定され得る。
本明細書において「または」は、文章中に列挙されている事項の「少なくとも1つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「2つの値の範囲内」と明記した場合、その範囲には2つの値自体も含む。
【0072】
本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
【0073】
以上、本開示を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本開示を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本開示を限定する目的で提供したのではない。従って、本開示の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
【実施例
【0074】
以下に実施例を記載する。
試薬類は具体的には実施例中に記載した製品を使用したが、他メーカーの同等品でも代用可能である。
【0075】
(実施例1)
(ドラフトゲノム作成法)
(方法)
(細胞株サンプル調製)
Hosokawaらから、E. coli K12(ATCC 10798)およびB. subtilis(ATCC 6633)のそれぞれについてそれぞれ12個のSAGデータを得た。Hosokawaらの論文では、これらの細胞はATCCから入手した。E. coli K12をルリア-ベルターニ(LB)培地(1.0%バクトトリプトン、0.5%酵母エキス、1.0%NaCl、pH7.0)中で培養した。B. subtilisをブレインハートインフュージョンブロス(ATCC培地44、Thermo
Fisher Scientific, San Jose, CA, USA)中で培養した。回収した細胞をUV処理したリン酸緩衝生理食塩水(-)(PBS、Thermo Fisher Scientific)で3回洗浄し、単一液滴MDAおよびシーケンシングに供した。
【0076】
(マウス腸内微生物叢の調製)
7週齢のオスのICRマウス(Tokyo Laboratory Animals Science Co., Ltd., Tokyo, Japan)から糞便を回収し、PBS中でホモジナイズした。上清を2000×gで2秒間の遠心分離によって回収し、15000×gで3分間遠心分離した。得られた細胞ペレットをPBSで2回洗浄し、最後にPBSに再懸濁した。
【0077】
(単一液滴MDA)
マイクロ流体液滴発生器およびMDA反応装置を製造し、Hosokawaらの報告に従って単一小滴MDAに使用した。分析前に、細胞懸濁液を0.1細胞/液滴となる濃度に調整して、単一の液滴中に複数の細胞が封入されるのを防いだ。液滴発生器を使用して、単一の微生物細胞を溶解緩衝液D2(QIAGEN、Hilden、Germany)中に封入し、そして65℃で10分間溶解した。次に細胞溶解物を液滴融合装置に注入し、Tween-20およびEvaGreenを加えたMDA反応混合液(REPLI-g
Single Cell Kit、QIAGEN)の液滴と混合した。 PCRチューブに回収した後、液滴を30℃で2時間、65℃で3分間インキュベートした。シングルセルシーケンシングについて、蛍光標識された液滴を個々にピックし、オープンクリーンベンチ(KOACH 500-F、KOKEN LTD、東京、日本)の下でマイクロピペットによって新鮮なMDA反応混合物に移した。30℃で2時間のインキュベーション後、酵素を65℃で3分間失活させた。
【0078】
(16S rDNA配列決定)
単一細胞からの増幅を確認するために、16S rRNA遺伝子フラグメントV3-V4を増幅し、単一液滴MDAによって得られたSAGからのサンガーシーケンシングによってシーケンシングした。系統学的分布を比較するために、腸内細菌叢のメタゲノムサンプルから16S rRNAフラグメント(V3-V4)を増幅し、MiSeq(Illumina、San Diego、CA、USA)によってシーケンシングした。ペアエンドリードを連結させ、トリミングし、そしてUPARSEにより97%の同一性で分類単位にクラスター化した。分類はRDP分類子で決定された。
【0079】
(ライブラリー調製と全ゲノムシーケンシング)
Nextera XT DNAサンプル調製キット(Illumina)とNextera XT Index Kitを使用して、単一細胞シーケンシング用のIlluminaライブラリーを単一液滴MDAの生成物から調製した。次いで、ライブラリーを2×300のペアエンドリードでIllumina MiSeqシステム上でシーケンシングした。
【0080】
(SAG読み取りの品質管理および相互参照コンティグの構築(ccSAGのステップ1))
SAGを、99%以上の16S rRNA類似性および95%以上のANIに基づいて最初に分類した。ヌクレオチド同一性を、全長の生SAGコンティグ間のペアワイズBLASTによって推定し、500bp以上にわたって計算した。次に、グループ化したSAGリードを、FASTXツールキット(http://hannonlab.cshl.edu/fastx _toolkit /)およびPRINSEQを使用して事前にフィルター処理し、低品質のリード(50%以上の塩基が品質スコア<25のもの)を取り除き、低品質(品質スコア<20のもの)のリードの3末端をトリミングし、短い読み取り(<20bp)および1%の塩基が識別されていないリードを取り除き、事前フィルター処理後にペアを形成していないリードを破棄した。その後、options-care
ful-disable-rr-scでSPAdes-3.9.0を使用して、生のSAGリードからコンティグを新たに個別にアセンブルした。最後に、相互参照マッピングのために500 bp以上の生SAGコンティグを収集した。
【0081】
(相互参照マッピングによるキメラリードの除去(ccSAGの工程2))
1つのSAGからの品質管理されたリードを、同じグループ内の他のSAGから構築された複数の生コンティグにBWAによってマッピングした。参照コンティグに対する完全アラインメントが部分アラインメント(ソフトクリッピング)と同等またはそれ以上の頻度である場合、リードはクリーンであると見なしたが、部分アラインメントが完全アラインメントより頻繁である場合は潜在的にキメラであると見なした。次いで、潜在的なキメラをアラインメントするフラグメントおよびアラインメントしないフラグメントに分割し、次いでそれらを複数の生のコンティグに再マッピングし、そして記載のように再分類した。最後に、完全にアラインメントしていないリードおよび20bpより短い断片化されたキメラを、マッピングされないものとして廃棄した。相互参照マッピングおよびキメラ分割のサイクルを、部分的にアラインメントした、潜在的にキメラなリードが検出されなくなるまで繰り返した。
【0082】
(クリーンなSAGとコンティグエクステンションの共組み立て(ccSAGのステップ3))
各SAGからのクリーンなリードを、SPAdeを使用してクリーンな複合SAGコンティグに新規にコアセンブリした。同様に、生のSAGリードを生の複合SAGコンティグに新規にコアセンブリした。クリーンな複合体コンティグ間のギャップを、生の複合体コンティグに対するBLASTマッピングによって埋めた。簡潔に言うと、複合体コンティグをクリーンにするために、潜在的に使用可能な生の複合体コンティグとして、99%以上の同一性のものを識別した。このような生の複合体コンティグを次いで、データベースに回収し、BLASTによりクリーンな複合体コンティグをマッピングし、得られたアラインメントに基づいてギャップを埋めることにより、複合体の単一細胞ゲノムを本質的に含む、ギャップを埋められた複合体SAGコンティグを生成した。
【0083】
SAGアセンブリの分析:アセンブリ品質をQUASTで評価した(Gurevich
A et al., Bioinformatics. 2013 Apr 15;29(8):1072-5.)。細胞株の分析について、fプラスミドおよびλファージ配列を伴うNC_00913 (E. coli substrain MG1655)のゲノム、または、NC_014479 (Bacillus subtilis subsp. spizizenii str. W23)ののゲノムのすべての配列データをNCBI参照ゲノムにマッピングした。この実施例によって得られた培養していない細胞ゲノムの分析のために、架橋した複合SAGコンティグを参照として用いて、潜在的なミスアセンブリを同定し、各々のSAGのゲノム部分を決定した。完全性(コンプリート)と汚染(コンタミ)をCheckMで評価した(Parks DH et al., Genome Res. 2015 Jul;25(7):1043-55.)。分類は、AMPHORA2またはRNAmmerにおける16S rDNA配列のBLAST検索によって行った(Lagesen K et al., Nucleic Acids Res. 2007;35(9):3100-8.)。遺伝子経路分析を、KAAS(Moriya Y et al., Nucleic Acids Res. 2007 Jul;35(Web Server issue):W182-5.)およびMAPLE(Takami H et al., DNA Res. 2016 Jul 3. pii: dsw030.)で行った。他方、アセンブリグラフは、Bandage(Wick RR et al., Bioinformatics. 2015 Oct 15;31(20):3350-2.)で生成した。SNPの分析について、各々のシングルセル増幅したゲノムを架橋複合SAGコンティグのコード配列に対してマッピングした。次いで、ヌクレオチドを少なくとも5つのリードのカバレッジ深さについてスクリーニングした。ここで、99.9%のリードは、参照とマッチせず、均質な塩基(核酸配列)を示した。その後、同じ系統において複数のマッチングしたSAGsおよびマッチングしないSAGsの両方を含んだヌクレオチド部位は、SNPsとして同定した。
【0084】
(実施例2)微生物ゲノムデータベース構築
図2は本開示で使用するための微生物ゲノムデータベース構成である。ここでは、微生物ゲノムデータベースをリレーショナルデータベースシステムにて構築する場合の実施例を示す。主に、中央処理装置(CPU)、主記憶装置、補助記憶装置、入出力装置、その他周辺機器からなるコンピュータシステム上にオペレーティングシステムおよびリレーショナルデータベース管理システムをインストールする。図2に示すように、リレーショナルデータベース上に、ドラフトゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、単一生物単位ゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、および部分塩基配列情報を保存するためのテーブルを作成する。アセンブル塩基配列、遺伝子塩基配列、部分塩基配列に関しては、実データはリレーショナルデータベース外に保存し、実データへの参照をテーブルに保存する形態を取ることも可能である。ドラフトゲノム情報テーブルには、ドラフトゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、品質カテゴリー、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。暫定系統分類は、アセンブル塩基配列を専用解析ツール(例えばcheckmなど)で解析して得られる生物系統分類の情報である。これによりドラフトゲノムの大まかな系統を同定することができる。品質カテゴリーはドラフトゲノムの状態を示すためのものである。これは国際規格などに準じたカテゴリーにするのが望ましい。ドラフトゲノムの遺伝子情報テーブルには、ドラフトゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、マーカータイプ、シングルコピーなどが挙げられる。タンパク質ファミリーは、タンパク質データベースとの相同性解析などにより得られる情報である。マーカータイプは、系統分類などで使用するためのマーカーかどうかを記すためのものである。シングルコピーは遺伝子がシングルコピー遺伝子であるかどうかを表すものである。図5の手法でシングルコピー遺伝子は同定できる。単一生物単位ゲノム情報テーブルには、単一生物単位ゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。単一生物単位ゲノムの遺伝子情報テーブルには、単一生物単位ゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、シングルコピーなどが挙げられる。それ以外の各塩基配列テーブルは、塩基配列(外部ファイルとする場合はその参照)を保存するための列を作成する。それぞれのテーブルには、データを唯一に識別するためのID列を用意しておくことが好ましい。ドラフトゲノム情報と単一生物単位ゲノム情報は1対多の関係をもつ。ゲノム情報とアセンブル塩基配列は1対多の対応をもつ。ゲノム情報と遺伝子情報は1対多の関係をもつ。遺伝子情報と遺伝子塩基配列は1対1の対応をもつ。単一生物単位ゲノム情報と部分塩基配列は1対多の対応をもつ。
【0085】
(実施例3)微生物ゲノムデータベースによる単一生物単位ゲノムのクラスター化
図3は複数の単一生物単位の部分塩基配列が得られたときに、それらを同一系統のクラスターとしてまとめる方法を示したものである。例えば、単一生物単位のゲノムDNAをIlluminaなどのDNAシーケンサーで解析し、fastqなどの塩基配列ファイルを取得できたとする。Fastqファイルには部分塩基配列が記述されている。取得したfastqファイルを解析用のコンピュータへ保存する。Fastqファイル内の部分塩基配列には、アダプター配列が混在したものや品質の低い部分塩基配列が存在する。これら低品質の部分塩基配列は、fastqcなどの品質管理ツールを用いて削除しておく。このfastqファイルをSpadesなどのアセンブルツールでアセンブルしアセンブル塩基配列を取得する。アセンブル塩基配列は、quastやcheckmなどの評価ツールを用いてコンティグ数やゲノムサイズ、コンプリート率、コンタミ率などの評価値を計算しておく。次にアセンブル塩基配列から遺伝子を同定する。遺伝子の同定にはProkkaやDFASTなどの遺伝子アノテーションツールを用いる。同定された遺伝子塩基配列は、Pfamなどのタンパク質データベースを検索することで、タンパク質ファミリーなどの機能情報を取得することができる。最後にcheckmなどの系統分類が可能なツールを使い、暫定的な系統分類情報を計算しておく。ここまでが単一生物単位の部分塩基配列に関して行う前処理となる。
【0086】
単一生物単位ゲノム解析が完了したら、微生物ゲノムデータベースのドラフトゲノム情報テーブルの暫定系統分類を参照し、対応するドラフトゲノム情報と遺伝子情報を抽出する。遺伝子情報のマーカータイプを参照し、生物系統同定用配列を取得する。生物系統同定用配列のタンパク質ファミリーと同じタンパク質ファミリーをもつ遺伝子を単一生物単位ゲノムデータの遺伝子情報から抽出する。もし対応する遺伝子情報がなければこの処理は終了し次の処理へ移行する。対応する遺伝子情報があれば、単位ゲノムデータの遺伝子塩基配列と生物系統同定用配列を総当たりでBLASTなどの相同性解析ツールにより相同性検索を行う。ある一定の閾値以上の相同性をもつペアだけを対象とするため、一定の閾値以下(例えば相同性70%以下)のペアは除外する。各生物系統同定用配列において最も相同性の高い単位ゲノムデータの遺伝子塩基配列を検出し、マッチした塩基配列長と相同性の加重平均を求め2つのゲノム間の類似度(距離)とする。万が一、複数の同一類似度をもつドラフトゲノムが検出された場合、生物系統同定用配列ではなく、アセンブル塩基配列同士を総当たりで相同性検索し、生物系統同定用配列と同様の処理を行い、類似度を計算する。最も類似度の高いドラフトゲノムをクラスター化の基準とする。
【0087】
(実施例4)単一生物単位ゲノムのクラスター化
図4は新規で測定した単一生物単位ゲノムデータにおいて、微生物ゲノムデータベースに対応するドラフトゲノムがなかった時に同一系統のクラスターを作成するための方法を示したものである。ここでは、実施例2で示した前処理により各単一生物単位ゲノムデータ(部分塩基配列、ゲノム情報、アセンブル塩基配列、暫定系統分類、遺伝子情報、遺伝子塩基破裂)がすでに得られているものとして実施例を進める。暫定系統分類により、同一系統の単一生物単位ゲノムデータをクラスター化する。暫定系統分類はcheckmなどのツールを使用してアセンブル塩基配列を処理することで決定されるが、単一生物単位のアセンブル塩基配列はゲノム全体をカバーしていないことも多いため、系統分類が大雑把であることも多く、いろいろな系統の生物が混在したクラスターを作り上げている可能性が高い。そこで、微生物ゲノムデータベースに登録されている生物系統同定用配列を用いてクラスター内の単一生物単位ゲノムデータが細分できないかどうかを評価する。図6は、同一系統のクラスターとされた単一生物単位ゲノムデータを細分化する方法を示したものである。微生物ゲノムデータベースに登録されている遺伝子情報テーブルのマーカータイプを参照し、生物系統同定用配列とそれに対応するタンパク質ファミリーを取得する。実施例2で示したゲノム間の類似度を求める方法と同様の方法で、生物系統同定用配列を使用してクラスター内の単一生物単位ゲノムデータに対し総当たりで類似度を計算する。ここで求められた類似度行列を統計処理ソフトウェアであるRなどにより読み込みネットワーク解析を行う。Rの場合はigraph関数がネットワーク解析関数として利用できる。次にネットワーク解析の出力からコミュニティを検出する。Rにおいてコミュニティ検出は、エッジ媒介中心性に基づく方法、ランダムウォークに基づく方法、貪欲アルゴリズムに基づく方法、固有ベクトルに基づく方法、多段階最適化に基づく方法、スピングラス法に基づく方法、ラベル伝搬法に基づく方法、Infomap法に基づく方法などが実装されている。検出されたコミュニティに基づき、単一生物単位ゲノムデータを細分化する。ここでは細分化にネットワーク解析とコミュニティ検出を用いた例を示したが、階層(非階層)クラスタリングを用いて細分化を行う方法も考えられる。ただしこの場合、類似度を計算するための共通した生物系統同定用配列が2つの単一生物単位ゲノムデータ間になかった場合、類似度が欠損値となってしまいクラスタリング解析を行うことができなくなってしまう。そのためどちらかと言えば、欠損値があった場合でも対応できるネットワーク解析とコミュニティ検出を用いることが好ましいと考えられる。
【0088】
(実施例5)新規生物系統同定用配列の同定
図5は微生物ゲノムデータベースに登録されているドラフトゲノムの遺伝子情報から、系統分類を行うための新規生物系統同定用配列を同定する方法を示している。微生物ゲノムデータベースに登録されているドラフトゲノム情報とドラフトゲノム遺伝子情報を用いて、図5に示すようなドラフトゲノムに対応する遺伝子ファミリーの頻度表を作成する。頻度表の1を示すセルは、そのドラフトゲノム内においてシングルコピー遺伝子であることを示している。生物系統同定用配列はシングルコピー遺伝子であるべきなので、シングルコピー遺伝子以外のセルは無視する。各タンパク質ファミリーにおいて、ドラフトゲノム全体に存在するシングルコピー遺伝子の割合を計算する。シングルコピー遺伝子が多くのドラフトゲノムをカバーしているほど生物系統同定用配列として優秀であるため、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、ある基準値以上(例えば90%以上のドラフトゲノムにシングルコピー遺伝子が存在する)を満たしたタンパク質ファミリーを生物系統同定用配列として再同定する。または、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、上位から任意数のタンパク質ファミリーを生物系統同定用配列としてもよい。また、これまでの研究においてバクテリアなどで既知とされている生物系統同定用配列などは、上述で同定した生物系統同定用配列と併用してもよい。
【0089】
また、上述とは別の生物系統同定用配列の作成方法として、D.H.Parks, et. al., 2015で提唱されている手法も適用することが可能と考えられる。これはドラフトゲノムの系統樹を作成し、各ノードに生物系統同定用配列を定義する手法で、checkmの入力データとして使用される。
【0090】
(実施例6)最適ドラフトゲノム構築
図7は最適ドラフトゲノムを構築する方法を示したものである。実施例2および実施例3により、単一生物単位ゲノムデータは同一系統としてクラスター化されている。実施例2におけるクラスター化では、微生物ゲノムデータベースのドラフトゲノムに基づきクラスター化されているので、ドラフトゲノムに対応する単一生物単位ゲノムの部分塩基配列を微生物ゲノムデータベースから取得しクラスターに追加する。クラスター内の単一生物単位ゲノムデータはある基準値によりソートされる。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。次にランクの高い方ら2つの単一生物単位ゲノムデータを抽出し、ドラフトゲノム構築用の暫定セットを作成する。次にランクの高い方ら3つの単一生物単位ゲノムデータを抽出し、同様にドラフトゲノム構築用の暫定セットを作成する。このようにしてランクの高い順に次々に単一生物単位ゲノムデータを追加していき、クラスター内の単一生物単位ゲノムデータ数より1少ない数だけ暫定ドラフトゲノム構築用セットを作成する。これらの暫定ドラフトゲノム構築用セットに対し、M. Kogawa, et. al.,
2018で提示されているCleaning and Co-assembly of
a Single-Cell Amplified Genome (ccSAG)法を適用し、暫定ドラフトゲノムを構築する。暫定ドラフトゲノムは構築するために用いた単一生物単位ゲノムデータ数を説明変数、コンプリート率やコンタミ率などのドラフトゲノム評価値を目的変数とした関数として表現できる。これにより、ドラフトゲノムが収束状態にありこれ以上単一生物単位ゲノムデータを追加しても品質の向上が見込めないかなどが判断できる。品質古城が見込めないドラフトゲノムは、最適ドラフトゲノムの構築を行わないなどすることにより、処理の高速化が期待できる。暫定ドラフトゲノムおよび既存ドラフトゲノムの中で最も高品質なものを選択し、それが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。クラスターとして新規に同定された単一生物単位ゲノムデータは、微生物ゲノムデータベースの単一生物単位ゲノムデータに登録する。
【0091】
(実施例7)ドラフトゲノムのフィニッシング
図8は微生物ゲノムデータベースに登録されているドラフトゲノムのフィニッシング方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムをフィニッシング対象とする。フィニッシング方法は2通りのパターンがある。1つ目は、抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータを用いる方法である。抽出された単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータを用いて、パラメータを変更したccSAGを実施する。パラメータは長めのアセンブル塩基配列が検出できるようなパラメータを設定する。ここで作成されたドラフトゲノムを1つ目のフィニッシングドラフトゲノムとする。2つ目は、基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列の中からドラフトゲノムのアセンブル塩基配列を結合するブリッジアセンブル塩基配列を検出することである。BLASTなどの相同性解析ツールにより、ドラフトゲノムのアセンブル塩基配列と基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列を総当たりで相同性解析する。ドラフトゲノムの2つのアセンブル塩基配列の片端と単一生物単位ゲノムデータの1つのアセンブル塩基配の両端がマッチするような結果が得られた場合、単一生物単位ゲノムデータのアセンブル塩基配列がドラフトゲノムアセンブル塩基配列を結合する役目を果たす。このようにブリッジとなるアセンブル塩基配列によってつながったドラフトゲノムを2つ目のフィニッシングドラフトゲノムとする。フィニッシングドラフトゲノム1つ目および2つ目と、登録済みのドラフトゲノムをある基準値によって比較し、最も品質の高いドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。
【0092】
(実施例8)ドラフトゲノムの細分化
図9は微生物ゲノムデータベースに登録されているドラフトゲノムを系統的に細分化する方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムを細分化対象とする。抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータに対して、実施例3で行った図6の細分化を行う。細分化された各クラスターに対して図7の最適ドラフトゲノム構築を行い、各クラスターの最適ドラフトゲノムを取得する。この複数の最適ドラフトゲノムと登録済みのドラフトゲノムをある基準値によって比較し、両者のうちで品質の高い方のドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースから既存ドラフトゲノムを削除し、細分化されたドラフトゲノムを新規に登録する。
【0093】
(実施例9)外部データベースの配列追加
外部の独立データベースを利用することにより、図12に示すように、より高品質なゲノムを構築できる。例えば、1~4のSAGが該プロジェクトのデータだとすると、株2のゲノムはたった1つのSAGから構築される。ここで5および6のような外部プロジェクトデータを追加できれば、株2は3つのSAGからドラフトゲノムを構築できるので、より高品質なゲノムを構築できる。
【0094】
(実施例10)バイアス均質化処理
目的と方法
(増幅)バイアスを内包するシーケンスデータのアセンブリによって得られるゲノム配列の質を改善するために、バイアス均質化処理を行う。具体的には、参照ゲノム配列に対するシーケンスリードのマッピング結果に基づき、多数の重複が認められた配列部位のシーケンスリードを一定量除去し、シーケンスリードの偏りの補正を行い均質化する(図13)。
参照ゲノム配列には、既知の近縁生物種ゲノムやバイアス均質化処理を行うシーケンスデータ自身のアセンブリで作成したDNA配列が利用可能である。均質化処理を行ったシーケンスデータのアセンブリによって、取得されるドラフトゲノム補完率や配列断片数が改善される。状況に応じて、均質化シーケンスデータから作成したゲノム配列を参照配列に用いて繰り返し均質化処理を行うことで、ゲノムクオリティのさらなる改善が見込まれる。
具体的には以下の通り行った。
【0095】
大腸菌K12株シングルセル増幅ゲノム(SAG)のNanoporeシーケンスデータ(GridION)を用いて、ゲノムアセンブリを行った。ゲノム領域ごとに読み取り深度が大きく異なるシーケンスデータ(図14上部ラインチャート)をそのまま用いてアセンブリを行った結果、相対的に小さい読み取り深度を示した領域のゲノム配列が獲得されなかった(図14下部帯のギャップ部分)。続いて、アセンブリされたゲノム配列を参照配列としてシーケンスデータをマップし、各領域ごとに最大読み取り深度が100×になるように選択的リード除去を行うことで、シーケンスデータの均質化を行った(図15上部ラインチャート)。均質化したシーケンスデータの再アセンブリを行ったところ、初めのアセンブリでは取得されなかったゲノム領域の配列構築が確認された(図15下部帯)。さらに、新たにアセンブリされたゲノム配列を参照配列に、均質化―アセンブリを繰り返していくことで、ゲノム補完率の向上とともにゲノム配列断片数の減少も確認された(表1)。
【表1】
【0096】
(注記)
以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願及び他の文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。本願は、日本国特許庁に2019年4月26日に出願された、特願2019-85839に対して優先権を主張するものであり、同出願の内容自体は具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
【産業上の利用可能性】
【0097】
微生物等のシングルセルデータの処理の自動化が可能になった。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15