【課題を解決するための手段】
【0004】
本発明者らは、鋭意研究した結果、単一生物単位レベルでの単一生物単位の配列情報を蓄積し、そこから高精度の微生物ゲノムデータを自動的に構築・提供するシステムを完成するに至った。
本発明の実施形態の例として、以下のものが挙げられる。
(項目1)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む方法。
(項目2)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目1に記載の方法。
(項目3)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む方法。
(項目3A)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む方法。
(項目4)
単一生物単位の配列情報を処理する方法であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む方法。
(項目5)
項目4に記載の単一生物単位の配列情報を処理する方法であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目4に記載のステップを繰り返すステップと
を含む、方法。
(項目6)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、方法。
(項目7)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目6に記載の方法。
(項目8)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、方法。
(項目9)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。
(項目10)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目9に記載のプログラム。
(項目11)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。
(項目11A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含むプログラム。
(項目12)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含むプログラム。
(項目13)
項目12に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目12に記載のステップを繰り返すステップと
を含む、プログラム。
(項目14)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。
(項目15)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目14に記載のプログラム。
(項目16)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、プログラム。
(項目17)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。
(項目18)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目17に記載の記録媒体。
(項目19)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。
(項目19A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む記録媒体。
(項目20)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。
(項目21)
項目20に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目20に記載のステップを繰り返すステップと
を含む、記録媒体。
(項目22)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。
(項目23)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目22に記載の記録媒体。
(項目24)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、記録媒体。
(項目25)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部と、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
(項目26)
前記(B)追加情報追加部を含む場合、データベースを利用するデータベース利用部をさらに含む、項目25に記載のシステム。
(項目27)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、
C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。
(項目27A)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部と
を含むシステム。
(項目28)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。
(項目29)
項目28に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目28に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。
(項目30)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。
(項目31)
前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、項目30に記載のシステム。
(項目32)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すための手段と
を含む、システム。
【0005】
本発明において、上記1又は複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供されうることが意図される。本発明のなおさらなる実施形態及び利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。