特表2023-515249 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 上海之江生物科技股▲ふん▼有限公司の特許一覧

特表2023-515249微生物の種特異的共通配列の取得方法、装置及び応用

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
1-1
1-2
1-3
1-4
1-5
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-04-12

(54)【発明の名称】微生物の種特異的共通配列の取得方法、装置及び応用

(51)【国際特許分類】

G16B 30/00 20190101AFI20230405BHJP

【ＦＩ】

G16B30/00

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022560033

(86)(22)【出願日】2020-05-14

(85)【翻訳文提出日】2022-09-29

(86)【国際出願番号】 CN2020090177

(87)【国際公開番号】W WO2021196357

(87)【国際公開日】2021-10-07

(31)【優先権主張番号】202010254696.6

(32)【優先日】2020-04-02

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】522385315

【氏名又は名称】上海之江生物科技股▲ふん▼有限公司

【氏名又は名称原語表記】ＳＨＡＮＧＨＡＩＺＪＢＩＯ－ＴＥＣＨＣＯ．，ＬＴＤ．

(74)【代理人】

【識別番号】110001999

【氏名又は名称】弁理士法人はなぶさ特許商標事務所

(72)【発明者】

【氏名】▲ジ▼匆

(72)【発明者】

【氏名】邵俊斌

(72)【発明者】

【氏名】劉燕

(72)【発明者】

【氏名】斉霞

(72)【発明者】

【氏名】金宇丹

(72)【発明者】

【氏名】李啓騰

(57)【要約】

本発明は、微生物の種特異的共通配列の取得方法を提供する。当該方法は、クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する共通配列候補の探索ステップＳ１００と、種特異的共通配列候補が、１）株種カバー率が所定値を満たしている、２）有効コピー数が所定値を満たしている、との条件を満たしているか否かを判断し、種特異的共通配列候補が上記全ての条件を満たしている場合には、当該種特異的共通配列候補を種特異的共通配列とする初回スクリーニング種特異的共通配列の検証及び取得ステップＳ２００とを少なくとも含む。本発明の方法は感度に優れており、アセンブリングが不完全なモチーフから反復配列を探索可能である。また、取得される種特異的共通配列は正確であり、亜種レベルの識別が可能である。且つ、識別される共通配列は保守性が強く、最少の共通配列で可能な限り株種カバー率の最大値に達し得る。また、全ての論理モジュールは多重検証性を備えており、高精度である。
【選択図】図１

【特許請求の範囲】

【請求項1】

クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する共通配列候補の探索ステップＳ１００と、
種特異的共通配列候補が、
１）株種カバー率が所定値を満たしている、及び
２）有効コピー数が所定値を満たしている、
との条件を満たしているか否かを判断し、
種特異的共通配列候補が上記全ての条件を満たしている場合には、当該種特異的共通配列候補を種特異的共通配列とする初回スクリーニング種特異的共通配列の検証及び取得ステップＳ２００と、
を少なくとも含み、
株種カバー率＝（当該種特異的共通配列候補が出現したターゲット菌株数／ターゲット菌株の総数）＊１００％であり、
前記有効コピー数は式（Ｉ）により算出し、

【数1】

ｎは、種特異的共通配列候補のコピー数の勾配の合計であり、
Ｃｉは、ｉ番目の種特異的共通配列候補に対応するコピー数であり、
Ｓｉは、ｉ番目の種特異的共通配列候補が出現した菌株の数であり、
Ｓａｌｌはターゲット菌株の総数である
ことを特徴とする微生物の種特異的共通配列の取得方法。

【請求項2】

前記特異的配列とは、同一ターゲット菌株に属する標的断片のことであり、前記標的断片が存在する領域が前記ターゲット菌株の特異的領域であることを特徴とする請求項１に記載の微生物の種特異的共通配列の取得方法。

【請求項3】

前記特異的領域は特異的多コピー領域であることを特徴とする請求項２に記載の微生物の種特異的共通配列の取得方法。

【請求項4】

前記特異的領域の取得方法は、
微生物の標的断片を１又は複数の比較菌株における全ゲノム配列とそれぞれ２つずつアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を１回目の切断片Ｔ_１～Ｔ_ｎとして取得し、ｎは≧１の整数であるステップＳ１１０と、
前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得するステップＳ１２０と、
特異的領域候補が以下の条件を満たしているか否かを判断し、
１）共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探し、
２）特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探し、
特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を
微生物の標的断片における特異的領域とする特異的領域の検証及び取得ステップＳ１３０と、
を含むことを特徴とする請求項２に記載の微生物の種特異的共通配列の取得方法。

【請求項5】

ａ．上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別可能であり、
ｂ．前記類似度とは、微生物の標的断片のカバー率と一致率の積であり、前記カバー率＝（類似配列断片の長さ／（微生物の標的断片の終端値－微生物の標的断片の始端値＋１））％であり、
ｃ．ステップＳ１２０において、前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントし、
ｄ．前記類似度の所定値は８０％よりも大きく、
ｅ．アライメントする２つの配列はそれぞれの塩基の位置が交差しておらず、
ｆ．上記の方法は、更に、選定した隣り合う微生物の標的断片を２つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示するステップＳ１１１を含む、との特徴のうちの１又は複数を更に含むことを特徴とする請求項４に記載の微生物の種特異的共通配列の取得方法。

【請求項6】

１回目の切断片Ｔ_ｎを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする際には、
残りの比較菌株をＰ個のグループに分割し、各グループに複数の比較菌株が含まれているステップＳ１２１と、
１回目の切断片Ｔ_ｎを第１グループにおける各比較菌株の全ゲノム配列と１対１で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける１回目の配列候補ライブラリとして取得するステップＳ１２２と、
１回目の切断片Ｔ_ｎにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と１対１で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける次の配列候補ライブラリとして取得し、Ｐ回目の配列候補ライブラリを１回目の切断片Ｔ_ｎの特異的配列候補ライブラリとして取得するまで、ステップＳ１２２を１回目の配列候補ライブラリから繰り返し実行し、１回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とするステップＳ１２３と、
を含むことを特徴とする請求項５に記載の微生物の種特異的共通配列の取得方法。

【請求項7】

多コピー領域の取得方法は、
微生物の標的断片につき内部アライメントを行って、検出対象配列のカバー率と一致率の積である類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索する多コピー領域候補の探索ステップＳ１４０と、
多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が１よりも大きい場合には多コピー領域とする多コピー領域の検証及び取得ステップＳ１５０と、
を含むことを特徴とする請求項３に記載の微生物の種特異的共通配列の取得方法。

【請求項8】

ａ．カバー率＝（類似配列の長さ／（検出対象配列の終端値－検出対象配列の始端値＋１））％であり、
ｂ．微生物の標的断片が不完全な複数本のモチーフである場合には、各モチーフを接続してから多コピー領域候補を探索し、
ｃ．多コピー領域候補のコピー数の中央値を取得する方法として、微生物の標的断片にお
ける各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出し、
ｄ．ステップＳ１５０では、更に、多コピー領域候補のコピー数の９５％信頼区間を算出してもよく、好ましくは、多コピー領域候補のコピー数の９５％信頼区間を算出する際には、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算する、
との特徴のうちの１又は複数を更に含むことを特徴とする請求項７に記載の微生物の種特異的共通配列の取得方法。

【請求項9】

初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づき、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得し、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプローブ・プライマー候補をスクリーニングし、スクリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とするステップＳ３００と、
ステップＳ２００において、共通配列候補の株種カバー率がいずれも所定値に達していない場合には、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、ステップＳ２００で初回スクリーニング種特異的共通配列を検証及び取得するステップＳ４００、
のうちの１又は複数を更に含むことを特徴とする請求項１に記載の微生物の種特異的共通配列の取得方法。

【請求項10】

ステップＳ３００において前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合には、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、ステップＳ２００で初回スクリーニング種特異的共通配列を検証及び取得するステップＳ５００を更に含むことを特徴とする請求項９に記載の微生物の種特異的共通配列の取得方法。

【請求項11】

ステップＳ４００及びＳ５００では、共通配列の数を低い順に組み合わせて選択することを特徴とする請求項９又は１０に記載の微生物の種特異的共通配列の取得方法。

【請求項12】

前記ターゲット菌株の数を更新する場合には、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証することを特徴とする請求項９又は１０に記載の微生物の種特異的共通配列の取得方法。

【請求項13】

クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する共通配列候補探索モジュールと、
種特異的共通配列候補が、
１）株種カバー率が所定値を満たしている、及び
２）有効コピー数が所定値を満たしている、
との条件を満たしているか否かを判断し、
種特異的共通配列候補が上記全ての条件を満たしている場合には、当該種特異的共通配列候補を種特異的共通配列とする初回スクリーニング種特異的共通配列検証・取得モジュールと、を少なくとも含み、
株種カバー率＝（当該種特異的共通配列候補が出現したターゲット菌株数／ターゲット菌株の総数）＊１００％であり、
前記有効コピー数は式（Ｉ）により算出し、

【数2】

ｎは、種特異的共通配列候補のコピー数の勾配の合計であり、
Ｃｉは、ｉ番目の種特異的共通配列候補に対応するコピー数であり、
Ｓｉは、ｉ番目の種特異的共通配列候補が出現した菌株の数であり、
Ｓａｌｌはターゲット菌株の総数である
ことを特徴とする微生物の種特異的共通配列の取得装置。

【請求項14】

前記特異的配列とは、同一ターゲット菌株に属する標的断片のことであり、前記標的断片が存在する領域が前記ターゲット菌株の特異的領域であることを特徴とする請求項１３に記載の微生物の種特異的共通配列の取得装置。

【請求項15】

前記特異的領域は特異的多コピー領域であることを特徴とする請求項１４に記載の微生物の種特異的共通配列の取得装置。

【請求項16】

前記装置は、更に、特異的領域を取得するためのモジュールとして、
微生物の標的断片を１又は複数の比較菌株における全ゲノム配列とそれぞれ２つずつアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を１回目の切断片Ｔ_１～Ｔ_ｎとして取得し、ｎは≧１の整数である１回目切断片取得モジュールと、
前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する特異的領域候補取得モジュールと、
特異的領域候補が以下の条件を満たしているか否かを判断し、
１）共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探し、
２）特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探し、
特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする特異的領域検証・取得モジュール、
を含むことを特徴とする請求項１３に記載の微生物の種特異的共通配列の取得装置。

【請求項17】

ａ．上記の装置によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別可能であり、
ｂ．前記類似度とは、微生物の標的断片のカバー率と一致率の積であり、前記カバー率＝（類似配列断片の長さ／（微生物の標的断片の終端値－微生物の標的断片の始端値＋１））％であり、
ｃ．前記特異的領域候補取得モジュールは、前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントし、
ｄ．前記類似度の所定値は８０％よりも大きく、
ｅ．アライメントする２つの配列はそれぞれの塩基の位置が交差しておらず、
ｆ．１回目切断片取得モジュールは、更に、選定した隣り合う微生物の標的断片を２つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する元データ類似度比較サブモジュールを含む、
との特徴のうちの１又は複数を更に含むことを特徴とする請求項１６に記載の微生物の種特異的共通配列の取得装置。

【請求項18】

１回目の切断片Ｔ_ｎを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする場合、前記特異的領域候補取得モジュールは、
残りの比較菌株をＰ個のグループに分割し、各グループに複数の比較菌株が含まれている比較菌株グループ分けサブモジュールと、
１回目の切断片Ｔ_ｎを第１グループにおける各比較菌株の全ゲノム配列と１対１で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける１回目の配列候補ライブラリとして取得する１回目配列候補ライブラリ取得サブモジュールと、
１回目の切断片Ｔ_ｎにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と１対１で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける次の配列候補ライブラリとして取得し、Ｐ回目の配列候補ライブラリを１回目の切断片Ｔ_ｎの特異的配列候補ライブラリとして取得するまで、特異的領域候補取得サブモジュールに１回目の配列候補ライブラリから繰り返し実行させ、１回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする特異的領域候補取得サブモジュール、
を含むことを特徴とする請求項１７に記載の微生物の種特異的共通配列の取得装置。

【請求項19】

前記装置は、更に、多コピー領域を取得するためのモジュールとして、
微生物の標的断片につき内部アライメントを行って、類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索し、前記類似度とは、検出対象配列のカバー率と一致率の積である多コピー領域候補探索モジュールと、
多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が１よりも大きい場合に多コピー領域とする多コピー領域検証・取得モジュール、
を含むことを特徴とする請求項１５に記載の微生物の種特異的共通配列の取得装置。

【請求項20】

ａ．カバー率＝（類似配列の長さ／（検出対象配列の終端値－検出対象配列の始端値＋１））％であり、
ｂ．微生物の標的断片が不完全な複数本のモチーフである場合には、各モチーフを接続してから多コピー領域候補を探索し、
ｃ．前記多コピー領域検証・取得モジュールには、更に、多コピー領域候補のコピー数の中央値を取得するサブモジュールが含まれ、当該サブモジュールは、微生物の標的断片における各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出し、
ｄ．多コピー領域検証・取得モジュールは、更に、多コピー領域候補のコピー数の９５％信頼区間を算出し、好ましくは、多コピー領域候補のコピー数の９５％信頼区間を算出する際に、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算する、
との特徴のうちの１又は複数を更に含むことを特徴とする請求項１９に記載の微生物の種特異的共通配列の取得装置。

【請求項21】

前記装置は、更に、
初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づ
き、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得し、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプローブ・プライマー候補をスクリーニングし、スクリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とする最終種特異的共通配列スクリーニングモジュールと、
初回スクリーニング種特異的共通配列検証・取得モジュールにおいて、共通配列候補の株種カバー率がいずれも所定値に達していない場合に、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する第１共通配列組み合わせスクリーニングモジュール、
のうちの１又は複数を含むことを特徴とする請求項１３に記載の微生物の種特異的共通配列の取得装置。

【請求項22】

前記装置は、更に、
最終種特異的共通配列スクリーニングモジュールにおいて、前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合に、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する第２共通配列組み合わせスクリーニングモジュール、を含むことを特徴とする請求項２１に記載の微生物の種特異的共通配列の取得装置。

【請求項23】

第１共通配列組み合わせスクリーニングモジュールと第２共通配列組み合わせスクリーニングモジュールは、共通配列の数を低い順に組み合わせて選択することを特徴とする請求項２１又は２２に記載の微生物の種特異的共通配列の取得装置。

【請求項24】

前記装置は、更に、
前記ターゲット菌株の数を更新する場合に、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証する配列更新カバー率モジュール、を含むことを特徴とする請求項２１又は２２に記載の微生物の種特異的共通配列の取得装置。

【請求項25】

コンピュータプログラムが記憶されている記憶媒体であって、
当該プログラムは、プロセッサで実行される際に、請求項１～１２のいずれかに記載の微生物の種特異的共通配列の取得方法を実現することを特徴とするコンピュータで読取可能な記憶媒体。

【請求項26】

プロセッサ及び請求項２５に記載のコンピュータで読取可能な記憶媒体を含むデバイスであって、
前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、請求項１～１２のいずれかに記載の微生物の種特異的共通配列の取得方法のステップを実現することを特徴とするコンピュータ処理デバイス。

【請求項27】

プロセッサ、メモリ及び通信機を含む電子端末であって、前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられ、前記プロセッサは、前記端末に請求項１～１２のいずれかに記載の微生物の種特異的共通配列
の取得方法を実行させるよう、前記メモリに記憶されているコンピュータプログラムを実行するために用いられることを特徴とする電子端末。

【請求項28】

請求項１～１２に記載の微生物の種特異的共通配列の取得方法、請求項１３～２４に記載の微生物の種特異的共通配列の取得装置、請求項２５に記載のコンピュータで読取可能な記憶媒体、請求項２６に記載のコンピュータ処理デバイス又は請求項２７に記載の電子端末の、ヌクレオチド増幅における鋳型配列をスクリーニングするための使用。

【請求項29】

種特異的共通配列がターゲット菌株に含まれているか否かを増幅法によって鑑定し、前記種特異的共通配列は、請求項１～１２に記載の微生物の種特異的共通配列の取得方法、請求項１３～２４に記載の微生物の種特異的共通配列の取得装置、請求項２５に記載のコンピュータで読取可能な記憶媒体、請求項２６に記載のコンピュータ処理デバイス又は請求項２７に記載の電子端末で取得される微生物の菌種鑑定方法。

【請求項30】

ａ．上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別可能であり、
ｂ．微生物は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫又はキネトプラスト類の１又は複数から選択される、
との特徴のうちの１又は複数を更に含むことを特徴とする請求項２９に記載の微生物の菌種鑑定方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、バイオ情報学の分野に関し、特に、微生物の種特異的共通配列の取得方法、装置及び応用に関する。

【背景技術】

【0002】

生体試料における病原微生物のＤＮＡ濃度は非常に低く、検出限界に近いことが大半である。そのため、従来のＰＣＲ又はリアルタイムＰＣＲ検出を使用する場合には、往々にして検出感度が不足する。ツーステップネステッドＰＣＲ（ｔｗｏ－ｓｔｅｐｎｅｓｔｅｄＰＣＲ）といった別の方法を感度の向上に用いることもできるが、こうした方法は時間を要し、コストが嵩むほか、精度に劣る。そのため、検出感度を向上させることが極めて重要となっている。方式の１つでは、プライマー設計の際に適切な鋳型領域を探すが、通常はプラスミド及び１６ＳｒＲＮＡが選択される。

【0003】

しかし、プラスミドを用いてプライマーを設計する場合には、いくつかの問題が発生する。なぜなら、全ての微生物が種特異的プラスミドを有しているわけではなく、プラスミドを持たない微生物も存在するからである。まず、プラスミドＤＮＡの種特異性は確実ではない。ある種のプラスミドの配列が別の種のプラスミドの配列と非常に似ている場合には、プラスミドに基づくＰＣＲ検出の結果に偽陽性又は偽陰性が発生するリスクが高まる。よって、多くの臨床実験室では、依然として別のＰＣＲプライマー対を用いて検証実験を行わねばならない。次に、プラスミドには普遍性がない。種によってはそもそもプラスミドを有さないため、プラスミドを用いてその種を検出することはできず、プラスミドにプライマーを設計して検出感度を向上させることはなおさら不可能である。例えば、およそ５％の淋菌（Ｎｅｉｓｓｅｒｉａｇｏｎｏｒｒｈｏｅａｅ）の菌株がプラスミドを有さなかったために検出不可能であったとの研究報告がある。

【0004】

同様に、ｒＲＮＡ遺伝子領域をＰＣＲ検出の鋳型として選択する場合にも、いくつかの問題が存在する。ｒＲＮＡ遺伝子は全ての微生物種のゲノム中に存在し、複数のコピーを有するために検出感度を向上させられる場合が多い。しかし、実際には全てのｒＲＮＡ遺伝子が特異性を有しているわけではなく、例えば、結核菌Ｈ３７Ｒｖ中のｒＲＮＡ遺伝子はコピーを１つしか有さない。また、一部のｒＲＮＡ遺伝子は、配列の変化が検出に適していない。例えば、近親度が大変近い種同士、ないしは同種の異なるサブタイプの菌株同士では、ｒＲＮＡ遺伝子の配列があまりにも保守的なことから、種特異性、ひいては亜種特異性の要求を満たすことができない。

【0005】

このほか、未知の配列の微生物が感染症の爆発的拡大をもたらした場合には、病原微生物データベースのデータが絶えず更新されることが考えられる。そのため、従来のプローブ・プライマー設計では感染症の病原微生物をカバーできず、核酸検出試薬の品質に支障をきたす恐れがある。

【発明の概要】

【発明が解決しようとする課題】

【0006】

以上で述べた従来技術の欠点に鑑みて、本発明の目的は、微生物の種特異的共通配列の取得方法、装置及び応用を提供することである。

【課題を解決するための手段】

【0007】

本発明は、第１の局面において、微生物の種特異的共通配列の取得方法を提供する。上記の方法は、少なくとも以下のステップを含む。

【0008】

共通配列候補の探索ステップＳ１００：クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する。

【0009】

初回スクリーニング種特異的共通配列の検証及び取得ステップＳ２００：
種特異的共通配列候補が以下の条件を満たしているか否かを判断する。

【0010】

３）株種カバー率が所定値を満たしている。

【0011】

４）有効コピー数が所定値を満たしている。

【0012】

種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。

【0013】

また、株種カバー率＝（当該種特異的共通配列候補が出現したターゲット菌株数／ターゲット菌株の総数）＊１００％である。

【0014】

前記有効コピー数は式（Ｉ）により算出する。

【数1】

ｎは、種特異的共通配列候補のコピー数の勾配の合計である。

【0015】

Ｃｉは、ｉ番目の種特異的共通配列候補に対応するコピー数である。

【0016】

Ｓｉは、ｉ番目の種特異的共通配列候補が出現した菌株の数である。

【0017】

Ｓａｌｌはターゲット菌株の総数である。

【0018】

本発明は、第２の局面において、微生物の種特異的共通配列の取得装置を提供する。上記の装置は、少なくとも以下のモジュールを含む。

【0019】

共通配列候補探索モジュール：クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する。

【0020】

初回スクリーニング種特異的共通配列検証・取得モジュール：種特異的共通配列候補が以下の条件を満たしているか否かを判断する。

【0021】

１）株種カバー率が所定値を満たしている。

【0022】

２）有効コピー数が所定値を満たしている。

【0023】

種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。

【0024】

また、株種カバー率＝（当該種特異的共通配列候補が出現したターゲット菌株数／ターゲット菌株の総数）＊１００％である。

【0025】

前記有効コピー数は式（Ｉ）により算出する。

【数2】

【0026】

ｎは、種特異的共通配列候補のコピー数の勾配の合計である。

【0027】

Ｃｉは、ｉ番目の種特異的共通配列候補に対応するコピー数である。

【0028】

Ｓｉは、ｉ番目の種特異的共通配列候補が出現した菌株の数である。

【0029】

Ｓａｌｌはターゲット菌株の総数である。

【0030】

本発明は、第３の局面において、コンピュータプログラムが記憶されているコンピュータで読取可能な記憶媒体を提供する。当該プログラムは、プロセッサで実行される際に、前記微生物の種特異的共通配列の取得方法を実現する。

【0031】

本発明は、第４の局面において、プロセッサ及び前記コンピュータで読取可能な記憶媒体を含むコンピュータ処理デバイスを提供する。前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、前記微生物の種特異的共通配列の取得方法のステップを実現する。

【0032】

本発明は、第５の局面において、プロセッサ、メモリ及び通信機を含む電子端末を提供する。前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられる。前記プロセッサは、前記端末に前記微生物の種特異的共通配列の取得方法を実行させるよう、前記メモリに記憶されているコンピュータプログラムを実行するために用いられる。

【0033】

本発明は、第６の局面において、ヌクレオチド増幅における鋳型配列のスクリーニングに用いられる前記微生物の種特異的共通配列の取得方法、前記微生物の種特異的共通配列の取得装置、前記コンピュータで読取可能な記憶媒体、前記コンピュータ処理デバイス又は前記電子端末を提供する。

【0034】

本発明は、第７の局面において、微生物の菌種鑑定方法を提供する。当該方法は、種特異的共通配列がターゲット菌株に含まれているか否かを増幅法によって鑑定する。前記種特異的共通配列は、前記微生物の種特異的共通配列の取得方法、前記微生物の種特異的共通配列の取得装置、前記コンピュータで読取可能な記憶媒体、前記コンピュータ処理デバイス又は前記電子端末で取得される。

【発明の効果】

【0035】

上述したように、本発明に係る微生物の種特異的共通配列の取得方法、装置及び応用は、以下の有益な効果を有する。

【0036】

本発明の方法は感度に優れており、未発見の多コピー領域を識別して、アセンブリングが不完全なモチーフから反復配列を探索可能である。また、取得される種特異的共通配列は正確であり、亜種レベルの識別が可能である。且つ、識別される共通配列は保守性が強く、最少の共通配列で可能な限り株種カバー率の最大値に達し得る。また、全ての論理モジュールは多重検証性を備えており、高精度である。また、多コピーの優先的選択及び特異性の優先的選択について、ユーザは、検出対象の違いに応じて適切な算出手法を選択すればよい。また、生体試料中の病原性微生物を検出する定量ＰＣＲにおけるプライマー・プローブ設計をシステム化及び自動化した検出装置は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫、キネトプラスト類等を含む全ての病原性微生物に適用可能である。ユーザは、プロジェクトの目的に応じて、ワークフローの名称、ターゲット菌種、アライメント菌種、アップロードするローカルのｆａｓｔａファイル、標的断片の長さ、菌種特異性（ほかの種との類似度）、反復領域の類似度、標的断片の菌株分布、フィルタリングする宿主の配列、優先する手段（多コピー領域の選択を優先するか特異的領域の選択を優先するか）、ターゲット菌株の類似度及び類似度の警告閾値の算出、及びプライマー・プローブ設計のパラメータを主に含む異なる構成パラメータを選択可能である。

【図面の簡単な説明】

【0037】

【図1】図１は、本発明の実施例における方法のフローチャートである。

【図1-1】図１－１は、種特異的共通配列候補の領域を示す図である。

【図1-2】図１－２は、本発明の実施例に係る特異的領域の取得方法の配列を示す図である。

【図1-3】図１－３は、アライメント配列のカバー率と配列一致率の計算結果を示す図である。

【図1-4】図１－４は、本発明に係る特異的領域の取得方法において、１回目の切断片Ｔ_ｎを残りの比較菌株の全ゲノム配列とグループ別に繰り返しアライメントする方法を示す図である。

【図1-5】図１－５は、本発明の実施例に係る多コピー領域の取得方法の配列を示す図である。

【図2】図２は、本発明の実施例における装置を示す図である。

【図3】図３は、本発明の実施例における電子端末を示す図である。

【発明を実施するための形態】

【0038】

以下に、特定の具体的実施例によって本発明の実施形態につき説明する。なお、当業者であれば、本明細書に開示の内容から本発明のその他の利点及び効果を容易に理解可能である。更に、本発明は、その他の異なる具体的実施形態によっても実施又は応用が可能である。また、本明細書の各詳細事項については、視点及び応用の違いに応じて、本発明の精神を逸脱しないことを前提に各種の補足又は変更を加えてもよい。

【0039】

そのほか、理解すべき点として、本発明で言及する１又は複数の方法ステップは、別途説明する場合を除き、これらの組み合わされるステップの前後に更にその他の方法ステップが存在してもよいこと、或いは、これらの明確に言及するステップの間に更にその他の方法ステップを挿入してもよいことを排除するものではない。更に、理解すべき点として、本発明で提供する１又は複数のステップ間の組み合わせ及び接続関係は、別途説明する場合を除き、これらの組み合わされるステップの前後に更にその他のステップが存在してもよいこと、或いは、これらの明確に言及する２つのステップの間に更にその他のステップを挿入してもよいことを排除するものではない。且つ、別途説明する場合を除き、各方法ステップの番号は各方法ステップを区別するための便宜的な手段にすぎず、各方法ステップの配列順を規制するものでも、本発明で実施可能な範囲を限定するものでもない。よっ
て、これらの相対関係の変更又は調整は、技術内容を実質的に変更しない限り、本発明で実施可能な範囲であるとみなされる。

【0040】

図１～図３を参照する。説明すべき点として、本実施例で提供する図面は本発明の基本思想を概略的に説明するものにすぎない。図中には本発明に関係するアセンブリのみを示しているが、実際に実施する際のアセンブリの数、形状及びサイズに基づいて記載しているわけではない。実際に実施する際には、各アセンブリの形態、数及び比率を任意に変更してもよく、且つ、アセンブリのレイアウトや形態がより複雑になる場合もある。

【0041】

図１に示すように、本実施例における微生物の種特異的共通配列の取得方法は、以下のステップを含む。

【0042】

【0043】

初回スクリーニング種特異的共通配列の検証及び取得ステップＳ２００：
種特異的共通配列候補が以下の条件を満たしているか否かを判断する。

【0044】

１）株種カバー率が所定値を満たしている。

【0045】

２）有効コピー数が所定値を満たしている。

【0046】

種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。

【0047】

また、株種カバー率＝（当該種特異的共通配列候補が出現したターゲット菌株数／ターゲット菌株の総数）＊１００％である。

【0048】

前記有効コピー数は式（Ｉ）により算出する。

【数3】

【0049】

ｎは、種特異的共通配列候補のコピー数の勾配の合計である。ｎは、各菌株における種特異的共通配列候補のコピー数を取得したあと、コピー数の勾配を統計することで取得可能である。

【0050】

Ｃｉは、ｉ番目の種特異的共通配列候補に対応するコピー数である。

【0051】

Ｓｉは、ｉ番目の種特異的共通配列候補が出現した菌株の数である。

【0052】

Ｓａｌｌはターゲット菌株の総数である。

【0053】

株種カバー率の所定値は必要に応じて決定すればよい。所定値が高いほどスクリーニングされる種特異的共通配列がカバーするターゲット菌株の数は多くなり、より代表性を有す
るようになる。最適には、株種カバー率の所定値は１００％とする。ただし、実状において１００％に達し得ない場合には、例えば、１００％、９９％、９８％、９７％、９６％というように、順次逓減させてもよい。

【0054】

有効コピー数の所定値は必要に応じて決定すればよい。有効コピー数の所定値は、例えば、２、３、４、１０、２０等というように、１よりも大きいことを推奨する。

【0055】

式（Ｉ）は、Ｃｉ（Ｓｉ／Ｓａｌｌ）の合計を求めることを意味する。式中のｉの範囲はＣｍｉｎからＣｍａｘであり、ｉの数はｎである。Ｃｍｉｎは全ての種特異的共通配列候補のコピー数の最小値であり、Ｃｍａｘは全ての種特異的共通配列候補のコピー数の最大値である。

【0056】

各種特異的共通配列候補を全てのターゲット菌株における全ゲノムとそれぞれアライメントすることで、種特異的共通配列候補の株種カバー率及び有効コピー数を統計することが可能である。

【0057】

更に、種特異的共通配列候補を各ターゲット菌株の全ゲノム配列と再びアライメントすることで、１つの種特異的共通配列候補が１つのターゲット菌株の全ゲノム中にコピーをいくつ有するかを計算する。このようにして、全てのターゲット菌株の全ゲノムにおける当該種特異的共通配列候補のコピー数を統計し、Ｓａｌｌ個のコピー数の値を取得する。次に、コピー数の値を小さい順に並べ、各コピー数にいくつのカバー菌株が対応しているかを計算する。

【0058】

具体的に、図１－１の場合を例示すると、５つのターゲット菌株の全てに含まれていた種特異的共通配列候補の領域であるｃｌｕｓｔｅｒ４３領域は、株種カバー率が１００％（５／５）となる。また、コピー数の分布９（５）とは、コピー数が９個の菌株が５つあり、コピー数の勾配が１であることを意味している。つまり、ｎ＝１、Ｃｍｉｎ及びＣｍａｘはいずれも９、Ｓｉ及びＳａｌｌはいずれも５である。これらを式（Ｉ）に代入すると、有効コピー数＝９＊（１／１）＝９となる。よって、当該ｃｌｕｓｔｅｒ４３領域の有効コピー数は９となる。

【0059】

また、例えば、図１－１において、５つのターゲット菌株の全てに含まれていた種特異的共通配列候補の領域であるｃｌｕｓｔｅｒ２２６領域は、株種カバー率が１００％（５／５）となる。且つ、コピー数の分布７（１）｜８（２）｜９（２）とは、コピー数が７個の菌株が１つ、コピー数が８個の菌株が２つ、コピー数が９個の菌株が２つあり、コピー数が３つの勾配を有していることを意味する。つまり、ｎ＝３、Ｃｍｉｎ及びＣｍａｘはそれぞれ７及び９、Ｃ１＝７、Ｃ２＝８、Ｃ３＝９、Ｓ１＝１、Ｓ２＝２、Ｓ３＝２、Ｓａｌｌ＝５となる。そして、これらを式（Ｉ）に代入すると、有効コピー数＝７＊（１／５）＋８＊（２／５）＋９＊（２／５）＝８．２となることがわかる。従って、当該ｃｌｕｓｔｅｒ２２６領域の有効コピー数は８．２となる。

【0060】

ステップＳ１００では、クラスタリング後に、類似する特異的多コピー配列から１つの集合を形成する。各集合は１つの共通配列に対応する。

【0061】

クラスタリングに採用するクラスタリングアルゴリズムによれば、全ての特異的配列をクラスタリング可能であり、配列類似性の原理に基づいて、異なるグループからそのグループを最も代表可能な配列を共通配列として選別する。なお、当該共通配列とは、当該グループ中の全配列との距離が最も近い配列である。

【0062】

前記特異的配列とは、同一ターゲット菌株に属する標的断片のことである。また、前記標
的断片が存在する領域が前記ターゲット菌株の特異的領域である。前記特異的領域は、特異的単一コピー領域としてもよいし、特異的多コピー領域としてもよいが、多コピー領域に基づく増幅のほうが操作性に優れている。よって、好ましくは特異的多コピー領域とする。また、１つのターゲット菌株は複数の特異的多コピー配列を有し得る。

【0063】

前記特異的領域の取得方法は、以下のステップを含む。

【0064】

ステップＳ１１０：微生物の標的断片を１又は複数の比較菌株における全ゲノム配列とそれぞれ１対１でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を１回目の切断片Ｔ_１～Ｔ_ｎとして取得する。ここで、ｎは≧１の整数とする。

【0065】

ステップＳ１２０：前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。

【0066】

ステップＳ１３０：特異的領域の検証及び取得：特異的領域候補が以下の条件を満たしているか否かを判断する。

【0067】

１）共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。

【0068】

２）特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探す。

【0069】

特異的領域候補が上記の条件をいずれも満たしていない場合には、これを微生物の標的断片における特異的領域とする。

【0070】

上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別することができる。

【0071】

上記のステップにおいて、前記類似度とは、微生物の標的断片のカバー率と一致率の積である。

カバー率＝（類似配列断片の長さ／（微生物の標的断片の終端値－微生物の標的断片の始端値＋１））％

【0072】

一致率とは、微生物の標的断片と比較菌株をアライメントしたときのｉｄｅｎｔｉｔｙ値である。２つの配列をアライメントしたときのｉｄｅｎｔｉｔｙ値は、ｎｅｅｄｌｅ、ｗａｔｅｒ又はｂｌａｔ等のソフトウェアを用いて取得すればよい。

【0073】

類似配列の長さとは、２つの配列をアライメントしたときに、一致した断片が標的断片に占める塩基数のことをいう。即ち、一致する断片の長さである。

【0074】

類似度の所定値は必要に応じて決定すればよく、類似度の所定値が高いほど除去される断片は少なくなる。類似度の所定値は、例えば、９６％、９７％、９８％、９９％、１００％というように、９５％よりも大きいことを推奨する。

【0075】

具体的な配列を図１－２に示す。図中の淡色の塩基は、類似度が所定値を超えている配列断片を表す。

【0076】

微生物の標的断片のカバー率及び一致率は、ｎｅｅｄｌｅ、ｗａｔｅｒ或いはｂｌａｔといったソフトウェアを利用して計算可能である。

【0077】

例えば、計算結果は図１－３に示すようになる。配列Ａは微生物の標的断片、配列Ｂは比較菌株１であり、配列ＡとＢをアライメントしたところ、下記のようになった。

配列Ａのカバー率＝（１８７／（１８７－１＋１））＊１００％＝１００％

【0078】

また、配列Ａと配列Ｂの一致率＝９８．４％となっている。

【0079】

よって、ＡとＢの類似度＝１００％＊９８．４％＝９８．４％となる。

【0080】

ステップＳ１１０における微生物の標的断片と比較菌株は共有データベースから取得する。なお、前記共有データベースとしては主にｎｃｂｉを選択する（ｈｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ）。

【0081】

上記の方法は、更に以下のステップを含む。

【0082】

ステップＳ１１１：選定した隣り合う微生物の標的断片を２つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する。これにより、異常データや人為的エラーによる冗長データを除去可能である。

【0083】

ステップＳ１１０における微生物の標的断片は、微生物の全ゲノムとしてもよいし、微生物の遺伝子断片としてもよい。

【0084】

ステップＳ１２０において、アライメントの速度を加速するために、好ましい実施形態では、前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントする。

【0085】

具体的には、図１－４に示すように、１回目の切断片Ｔ_ｎを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする際には、以下のステップを含む。

【0086】

ステップＳ１２１：残りの比較菌株をＰ個のグループに分割する。各グループには複数の比較菌株が含まれている。

【0087】

ステップＳ１２２：１回目の切断片Ｔ_ｎを第１グループにおける各比較菌株の全ゲノム配列と１対１で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける１回目の配列候補ライブラリとして取得する。

【0088】

ステップＳ１２３：１回目の切断片Ｔ_ｎにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と１対１で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける次の配列候補ライブラリとして取得する。こうして、Ｐ回目の配列候補ライブラリを１回目の切断片Ｔ_ｎの特異的配列候補ライブラリとして取得するまで、ステップＳ１２
２を１回目の配列候補ライブラリから繰り返し実行する。

【0089】

そして、１回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする。

【0090】

マルチスレッドがブロックされないよう、比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づいて設定すべきである。当該数量は、動作環境の全体構成に基づいて設定したスレッド数とすればよく、一般的には１～５０スレッドとすればよい。具体的には、１～４スレッド、４～８スレッド、８～１０スレッド、１０～２０スレッド、２０～５０スレッドとすればよく、好ましくは４スレッドとする。なお、図１－２に示す実施形態では８スレッドとしている。

【0091】

例えば、図１－４に示すように、標的配列が２５４１個の微生物標的断片を含んでおり、且つ、比較菌株が５８８個、ｍ＝８であるとする。まず、微生物の標的断片１を５８８個の比較菌株における配列１～８と同時に比較して１回目の切断を行い、一致配列を除去して、全体を取りまとめることで１回目の特異的配列ライブラリを取得する。次に、当該ライブラリを５８８個の比較菌株における配列９～１６と同時に比較して２回目の切断を行い、一致配列を除去して、全体を取りまとめることで２回目の特異的配列ライブラリを取得する。続いて、当該ライブラリを５８８個の比較菌株における配列１７～２４と同時に比較して３回目の切断を行い、一致配列を除去して、全体を取りまとめることで３回目の特異的配列ライブラリを取得する。・・・、このようにして、７３回目の特異的配列ライブラリを５８８個の比較菌株における配列５８５～５８８と同時に比較して７４回目の切断を行い、一致配列を除去して、全体を取りまとめることで７４回目の特異的配列ライブラリ（即ち、標的断片１の特異的配列ライブラリ）を取得するまで順に実行する。

【0092】

続いて、標的配列における微生物の標的断片２を５８８個の比較菌株における配列１～８と同時に比較して１回目の切断を行い、一致配列を除去して、全体を取りまとめることで１回目の特異的配列ライブラリを取得する。次に、当該ライブラリを５８８個の比較菌株における配列９～１６と同時に比較して２回目の切断を行い、一致配列を除去して、全体を取りまとめることで２回目の特異的配列ライブラリを取得する。続いて、当該ライブラリを５８８個の比較菌株における配列１７～２４と同時に比較して３回目の切断を行い、一致配列を除去して、全体を取りまとめることで３回目の特異的配列ライブラリを取得する。・・・、このようにして、７３回目の特異的配列ライブラリを５８８個の比較菌株における配列５８５～５８８と同時に比較して７４回目の切断を行い、一致配列を除去して、全体を取りまとめることで７４回目の特異的配列ライブラリ（即ち、標的断片２の特異的配列ライブラリ）を取得するまで順に実行する。

【0093】

こうして、標的配列における２５４１個の微生物標的断片と５８８個の比較菌株とのアライメントが全て完了するまで順に実行することで得られる切断片が、微生物の標的断片における特異的領域候補となる。

【0094】

好ましい実施形態では、ステップＳ１２０のあとに、更に、ステップＳ１１０及びＳ１２０を実行して標的配列における各微生物の標的断片の特異的領域候補を取得し、各微生物の標的断片における特異的領域候補の集合を標的配列の特異的領域候補とする。

【0095】

標的配列は複数の標的断片を含み得る。複数の標的断片は、その他のスクリーニングステップによって微生物のゲノムから選別し、取得した断片としてもよい。例えば、特定の微生物の多コピー断片としてもよい。

【0096】

ステップＳ１３０において、前記共有データベースとしては主にｎｃｂｉを選択する（ｈ
ｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ）。また、共有データベースを検索するアルゴリズムはｂｌａｓｔアルゴリズムとすればよい。

【0097】

更に、ステップＳ１１０、Ｓ１２０及びＳ１３０を実行する前に、演算環境のハードウェア構成に基づいて切断サイズを設定し、演算対象のデータをユニット切断する。具体的には、ステップＳ１１０において、演算対象のデータは標的断片である。また、ステップＳ１２０において、演算対象のデータは、一致配列を繰り返し除去するごとの該当特異的配列ライブラリである。また、ステップＳ１３０において、演算対象のデータは特異的領域候補である。

【0098】

ユニット切断後のユニット数量＊ユニットファイルの動作に必要な構成は、動作環境の全体構成を超えてはならない。

【0099】

ユニット切断では、切断を要する配列の総数をスレッド数ｍで割ったものがユニット切断後のユニット数となる。マルチスレッド動作環境では、各スレッドが同一数の演算タスクを実行することで、最適な性能条件下における効率的な演算の実現を保証する。

【0100】

多コピー領域の取得方法は、以下のステップを含む。

【0101】

多コピー領域候補の探索ステップＳ１４０：微生物の標的断片につき内部アライメントを行って、類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索する。前記類似度とは、検出対象配列のカバー率と一致率の積である。

【0102】

多コピー領域の検証及び取得ステップＳ１５０：多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が１よりも大きい場合には多コピー領域とする。

【0103】

前記類似度の所定値は必要に応じて調整すればよい。類似度の所定値は、例えば、８５％、９０％、９５％、９６％、９７％、９８％、９９％又は１００％など、８０％よりも大きいことを推奨する。

カバー率＝（類似配列の長さ／（検出対象配列の終端値－検出対象配列の始端値＋１））％

【0104】

一致率とは、検出対象配列と別の配列をアライメントした際のｉｄｅｎｔｉｔｙ値である。２つの配列のアライメント時のｉｄｅｎｔｉｔｙ値は、ｎｅｅｄｌｅ、ｗａｔｅｒ又はｂｌａｔ等のソフトウェアを用いて取得すればよい。

【0105】

類似配列の長さとは、検出対象配列と別の配列をアライメントした際に、一致した断片が検出対象配列に占める塩基数のことをいう。即ち、一致する断片の長さである。

【0106】

例えば、多コピー領域候補に対応する検出対象配列のデータ状況を図１－１に示す。

【0107】

配列Ａは検出対象配列である。配列ＡとＢをアライメントした場合、一致する断片の長さは１８７となっている。また、配列Ａの始端値（即ち、開始位置）は１、終端値（即ち、終了位置）は１８７となっている。この場合、次のようになる。

配列Ａのカバー率＝（１８７／（１８７－１＋１））＊１００％＝１００％

【0108】

また、配列Ａと配列Ｂの一致率に対応するｉｄｅｎｔｉｔｙは９８．４％となっている。

【0109】

即ち、ＡとＢの類似度＝１００％＊９８．４％＝９８．４％となる。類似度の所定値を８０％とすると、ＡとＢの類似度は所定値を満たしているため、多コピー領域候補となる。

【0110】

アライメントする２つの配列は、それぞれの塩基の位置が交差していない（即ち、２つのアライメント配列は、微生物の標的断片において完全に分離しており、重畳部分が存在しない）。なお、アライメント前に重畳領域を有するアライメント配列対を除去してもよいし、アライメント後に、重畳領域を有するアライメント配列対から取得した類似度の値を除去してもよい。例えば、図１－３に示すように、前記配列Ａの位置が１～１８７の場合、配列Ｂの各塩基の位置が１～１８７の間に出現することはない。また、カバー率と一致率を算出したあとに、ｕｎｉｑ関数を用いて重複を除去してもよい。

【0111】

ステップＳ１５０において、多コピー領域候補のコピー数の中央値を取得する方法としては、微生物の標的断片における各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出する。前記その他の多コピー領域候補とは、検証対象の多コピー領域候補以外の多コピー領域候補のことをいう。

【0112】

具体的に、例えば、図１－５では、１行目が微生物の標的断片の配列を表しており、微生物の標的断片の配列のうち、枠内の断片が検証対象の多コピー領域候補である。２行目の数字は、検証対象の多コピー領域候補の各塩基に対応する多コピー数である。また、図中のグレー部分は、検証対象の多コピー領域候補以外の多コピー領域候補を表している（以下、反復断片と略称）。左側より、枠内における１行目の１つ目の塩基Ａは５つの反復断片に対応して出現している（即ち、５つの反復断片に覆われている）。よって、当該位置に対応する反復断片の数は５とみなされるため、当該位置の多コピー数は５となる。また、図中の枠内における最後の塩基Ｇは、当該位置に対応する反復断片の数が４のため、当該位置の多コピー数は４となる。以下同様に、検証対象の多コピー領域候補の各塩基位置を覆っている反復断片の数を統計する。統計結果について、図中の２行目の多コピー数を参照し、各位置のコピー数の数値を組み合わせることで、多コピー領域候補のコピー数の中央値を算出可能である。中央値とは、統計した全数値のうちの各変数値を大きい方から順に並べて１つの数列とした場合に、変数列の中央に位置する変数値のことをいう。

【0113】

前記反復断片とは、検証対象の多コピー領域候補以外の多コピー領域候補のことをいう。各反復断片の位置は、全ゲノムにおける当該反復断片の元の位置に対応している。

【0114】

更に、ステップＳ１４０において、微生物の標的断片は１本の鎖としてもよいし、不完全な複数本のモチーフとしてもよい。

【0115】

微生物の標的断片を不完全な複数本のモチーフとする場合には、各モチーフを接続してから多コピー領域候補を探索する。モチーフの接続順は特に限定せず、任意の順序で接続すればよい。例えば、各モチーフをランダムな順序で１本の鎖となるよう接続する。類似度が所定値を満たす領域に異なるモチーフが含まれている場合には、当該領域を元のモチーフの接続点に従って切断し、２つの領域に分けてから、２つの領域が多コピー領域候補か否かをそれぞれ判断する。

【0116】

各モチーフの接続方式はランダムとする。

【0117】

微生物の標的断片が不完全な複数本のモチーフからなるとは、微生物の標的断片の一部配
列が連続した１本の配列からなるのではなく、複数の異なる大きさのモチーフからなることをいう。モチーフは、従来の次世代シーケンシング条件において、読み取り長が短く、連結が不完全なために生じる。

【0118】

本発明における上記の方法は、全ゲノム配列が存在するか否かに制限されず、ターゲット菌株とアライメント菌株の名称を提供するか、ローカルから配列ファイルをアップロードすることで演算タスクを提出することができる。また、検出範囲について比較すると、本方法は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫、キネトプラスト類等を含む（ただし、これらに限らない）全ての病原性微生物に適用可能である。

【0119】

好ましい実施形態において、ステップＳ１５０では、更に、多コピー領域候補のコピー数の９５％信頼区間を算出してもよい。信頼区間とは、サンプル統計量で構成される全パラメータの推定区間である。即ち、そのターゲット領域の全コピー数についての区間推定である。信頼区間は、当該ターゲット領域におけるコピー数の真の値が一定の確率で測定結果の周辺に位置する度合を表すものであり、測定されるパラメータの測定値の信頼度を示す。

【0120】

多コピー領域候補のコピー数の９５％信頼区間を算出する際には、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算する。

【0121】

図１－５に示すように、長さ５００ｂｐの当該多コピーターゲット領域において、各塩基にコピーの数値が１つずつ対応している場合、コピーの数値は合計５００個となる。

【0122】

上記で言及したコピー数の中央値以外に、本発明では、この５００個のコピーの数値の９５％信頼区間を用いて、有意水準を０．０５、信頼度を９５％とした場合の当該多コピーターゲット領域全体のコピー数の区間推定を評価する。信頼水準が同じ場合、サンプル量が多いほど信頼区間は狭くなり、平均値に近くなる。

【0123】

前記微生物の標的断片は、微生物の全ゲノムとしてもよいし、微生物の遺伝子断片としてもよい。

【0124】

多コピー領域の取得メカニズムとしては、通常の状況であれば、これら５００個のコピーの数値を表す中央値と９５％信頼区間によって、当該多コピー領域候補の真の状況を反映することができる。本モジュール設計によれば、多コピーを更に検証できるだけでなく、一部の特殊な状況を排除することも可能である。例えば、当該５００ｂｐの多コピー領域候補において、５つの塩基のコピー数のみが１０００であり、残り４９５個の塩基のコピー数は１であったとする。この場合、コピー数の中央値は１、平均値は１０．９９、９５％信頼区間は（２．２５～１９．７３）となる。つまり、平均値は多コピーであることを示しているが、中央値はこの９５％信頼区間の範囲内にはないため、多コピー領域候補を多コピーであると判定することはできない。

【0125】

より好ましい技術方案では、更に次のステップを含む。

【0126】

ステップＳ３００：初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づき、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得する。次に、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプローブ・プライマー候補をスクリーニングする。そして、ス
クリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とする。

【0127】

一実施形態では、更に次のステップを含む。

【0128】

ステップＳ４００：ステップＳ２００において、共通配列候補の株種カバー率がいずれも所定値に達していない場合には、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、ステップＳ２００で初回スクリーニング種特異的共通配列を検証及び取得する。

【0129】

他の実施形態では、更に次のステップを含む。

【0130】

ステップＳ５００：ステップＳ３００において、前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合には、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、ステップＳ２００で初回スクリーニング種特異的共通配列を検証及び取得する。

【0131】

ステップＳ４００及びＳ５００では、共通配列の数を低い順に組み合わせて選択すればよい。

【0132】

具体的に、まずは２つずつの共通配列の組み合わせに進む。全ての菌株を１つでカバー可能な共通配列が存在しなくても、各々がカバーする株種カバー率の合計が株種カバー率の所定値以上となるような２つの共通配列を探せばよい。そして、このような２つの共通配列が存在する場合にはそれらを結果に組み込む。一方、存在しない場合には、３つずつの共通配列の組み合わせに進む。即ち、１つ又は２つで株種カバー率の所定値を満たし得る共通配列が存在しなくても、各々がカバーする株種カバー率の合計が株種カバー率の所定値以上となるような３つの共通配列を探せばよい。そして、このような３つの共通配列が存在する場合にはそれらを結果に組み込む。一方、存在しない場合には、４つずつの共通配列の組み合わせに進む。このようにして、全体の株種カバー率の所定値を満たし得る共通配列の組み合わせを発見し、結果に組み込むまで、組み合わせを無限に繰り返す設計を進める。

【0133】

バイオマーカーデータベースの持続的な更新を保証するために、演算タスクを新たに提出することで最新データの再計算を実現する。また、配列更新カバー率モジュールを用い、更新された配列データセットにおける既存のバイオマーカーのカバー率を検証してもよい。前記ターゲット菌株の数を更新する場合には、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証する。

【0134】

本発明における上記の方法でスクリーニングされる種特異的共通配列は、特異性、感度及び保守性等の複数の条件を同時に満たし得る。

【0135】

図２に示すように、本発明の一実施例における微生物の種特異的共通配列の取得装置は、少なくとも以下のモジュールを含む。

【0136】

【0137】

初回スクリーニング種特異的共通配列検証・取得モジュール：種特異的共通配列候補が以下の条件を満たしているか否かを判断する。

【0138】

１）株種カバー率が所定値を満たしている。

【0139】

２）有効コピー数が所定値を満たしている。

【0140】

種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。

【0141】

また、株種カバー率＝（当該種特異的共通配列候補が出現したターゲット菌株数／ターゲット菌株の総数）＊１００％である。

【0142】

前記有効コピー数は式（Ｉ）により算出する。

【数4】

【0143】

ｎは、種特異的共通配列候補のコピー数の勾配の合計である。

【0144】

Ｃｉは、ｉ番目の種特異的共通配列候補に対応するコピー数である。

【0145】

Ｓｉは、ｉ番目の種特異的共通配列候補が出現した菌株の数である。

【0146】

Ｓａｌｌはターゲット菌株の総数である。

【0147】

前記特異的配列とは、同一ターゲット菌株に属する標的断片のことである。また、前記標的断片が存在する領域が前記ターゲット菌株の特異的領域である。

【0148】

前記特異的領域は特異的多コピー領域である。

【0149】

前記装置は、更に、特異的領域を取得するための以下のモジュールを含む。

【0150】

１回目切断片取得モジュール：微生物の標的断片を１又は複数の比較菌株における全ゲノム配列とそれぞれ１対１でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を１回目の切断片Ｔ_１～Ｔ_ｎとして取得する。ここで、ｎは≧１の整数とする。

【0151】

特異的領域候補取得モジュール：前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。

【0152】

特異的領域検証・取得モジュール：特異的領域候補が以下の条件を満たしているか否かを判断する。

【0153】

１）共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。

【0154】

【0155】

特異的領域候補が上記の条件をいずれも満たしていない場合には、これを微生物の標的断片における特異的領域とする。

【0156】

上記の装置によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別することができる。

【0157】

前記類似度とは、微生物の標的断片のカバー率と一致率の積である。また、前記カバー率＝（類似配列断片の長さ／（微生物の標的断片の終端値－微生物の標的断片の始端値＋１））％である。

【0158】

前記類似度の所定値は８０％よりも大きい。

【0159】

アライメントする２つの配列は、それぞれの塩基の位置が交差していない。

【0160】

選択的に、１回目切断片取得モジュールは、更に以下のサブモジュールを含む。

【0161】

元データ類似度比較サブモジュール：選定した隣り合う微生物の標的断片を２つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する。

【0162】

前記特異的領域候補取得モジュールは、前記１回目の切断片Ｔ_１～Ｔ_ｎを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントする。

【0163】

選択的に、１回目の切断片Ｔ_ｎを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする場合、前記特異的領域候補取得モジュールは以下のサブモジュールを含む。

【0164】

比較菌株グループ分けサブモジュール：残りの比較菌株をＰ個のグループに分割する。各グループには複数の比較菌株が含まれている。

【0165】

１回目配列候補ライブラリ取得サブモジュール：１回目の切断片Ｔ_ｎを第１グループにおける各比較菌株の全ゲノム配列と２つずつ同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける１回目の配列候補ライブラリとして取得する。

【0166】

特異的領域候補取得サブモジュール：１回目の切断片Ｔ_ｎにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と１対１で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を１回目の切断片Ｔ_ｎにおける次の配列候補ライブラリとして取得する。こうして、Ｐ回目の配列候補ライブラリを１回目の切断片Ｔ_ｎの特異的配列候補ライブラリとして取得するまで、特異的領域候補取得サブモジュールに１回目の配列候補ライブラリから繰り返し実行させる。

【0167】

そして、１回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする。

【0168】

更に、前記装置は、多コピー領域を取得するための以下のモジュールを含む。

【0169】

多コピー領域候補探索モジュール：微生物の標的断片につき内部アライメントを行って、類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索する。前記類似度とは、検出対象配列のカバー率と一致率の積である。

【0170】

多コピー領域検証・取得モジュール：多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が１よりも大きい場合に多コピー領域とする。

カバー率＝（類似配列の長さ／（検出対象配列の終端値－検出対象配列の始端値＋１））％

【0171】

微生物の標的断片が不完全な複数本のモチーフである場合には、各モチーフを接続してから多コピー領域候補を探索する。

【0172】

前記多コピー領域検証・取得モジュールには、更に、多コピー領域候補のコピー数の中央値を取得するサブモジュールが含まれる。当該サブモジュールは、微生物の標的断片における各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出する。

【0173】

一実施形態において、前記装置は、最終種特異的共通配列スクリーニングモジュールを更に含む。当該モジュールは、初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づき、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得する。次に、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプローブ・プライマー候補をスクリーニングする。そして、スクリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とする。

【0174】

一実施形態において、前記装置は、第１共通配列組み合わせスクリーニングモジュールを更に含む。当該モジュールは、初回スクリーニング種特異的共通配列検証・取得モジュールにおいて、共通配列候補の株種カバー率がいずれも所定値に達していない場合に、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する。

【0175】

一実施形態において、前記装置は、第２共通配列組み合わせスクリーニングモジュールを更に含む。当該モジュールは、最終種特異的共通配列スクリーニングモジュールにおいて、前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合に、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する。

【0176】

第１共通配列組み合わせスクリーニングモジュールと第２共通配列組み合わせスクリーニングモジュールは、共通配列の数を低い順に組み合わせて選択する。

【0177】

一実施形態において、前記装置は、配列更新カバー率モジュールを更に含む。当該モジュールは、前記ターゲット菌株の数を更新する場合に、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証する。

【0178】

ユーザは、インターフェースを通じて最新の配列データセットを提供する。前記配列更新カバー率モジュールは、当該データセットをデータベースに新たに統合し、元のプローブ・プライマー配列を更新された配列とアライメントし直してカバー率を算出する。算出結果は、更新された菌株を元のプローブ・プライマー配列がカバー可能か否かを反映し得る。

【0179】

選択的に、多コピー領域検証・取得モジュールは、更に、多コピー領域候補のコピー数の９５％信頼区間を算出する。好ましくは、多コピー領域候補のコピー数の９５％信頼区間を算出する際には、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算する。

【0180】

本実施例の装置と上記方法の実施例の原理は基本的に同様のため、上記の方法及び装置の実施例では、同様の特徴についての定義、算出方法、実施形態の提示、及び好ましい実施形態の提示に関する詳細な記載は互いに共通とできる。よって、繰り返し詳述することはしない。

【0181】

説明すべき点として、上記の装置における各モジュールの区分は論理機能の区分にすぎず、実際に実現する際には全部或いは一部を１つの物理的実体に集積してもよいし、物理的に切り離してもよいと解釈すべきである。且つ、これらのモジュールは、全てを処理素子でソフトウェアを呼び出す形式で実現してもよいし、全てをハードウェア形式で実現してもよいし、また、一部のモジュールを処理素子でソフトウェアを呼び出す形式で実現して一部のモジュールをハードウェア形式で実現してもよい。例えば、取得モジュールは、単独で設置される処理素子としてもよいし、いずれかのチップに集積して実現してもよい。また、プログラムコードの形式でメモリに記憶してもよいし、いずれかの処理素子により上記取得モジュールの機能を呼び出して実行してもよい。その他のモジュールの実現についてもこれと同様である。また、これらのモジュールの全部又は一部は一体的に集積してもよいし、個別に実現してもよい。ここでいう処理素子は、信号処理能力を有する集積回路とすればよい。実現過程において、上記方法の各ステップ又は上記の各モジュールは、処理素子におけるハードウェアの集積論理回路又はソフトウェア形式の命令により完了してもよい。

【0182】

例えば、上記のモジュールは上記方法を実施する１又は複数の集積回路として配置すればよい。例えば、１又は複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣと略称）、或いは、１又は複数のマイクロプロセッサ（ｄｉｇｉｔａｌｓｉｎｇｎａｌｐｒｏｃｅｓｓｏｒ，ＤＳＰと略称）、或いは、１又は複数のフィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡと略称）、グラフィックスプロセッシングユニット（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＧＰＵと略称）等とすればよい。また、上記いずれかのモジュールを処理素子によりプログラムコードを呼び出す形式で実現する場合、当該処理素子は、例えば中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵと略称）やプログラムコードを呼び出し可能
なその他のプロセッサといった汎用のプロセッサとすればよい。また、これらのモジュールは一体的に集積し、システムオンチップ（Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ，ＳＯＣと略称）形式で実現してもよい。

【0183】

本発明のいくつかの実施例では、更に、コンピュータで読取可能な記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されている。当該プログラムは、プロセッサで実行される際に上記の微生物の標的断片における特異的領域の識別方法を実現する。

【0184】

本発明のいくつかの実施例では、更に、プロセッサ及び前記コンピュータで読取可能な記憶媒体を含むコンピュータ処理デバイスを提供する。前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、上記の微生物の標的断片における特異的領域の識別方法のステップを実現する。

【0185】

本発明のいくつかの実施例では、更に、プロセッサ、メモリ及び通信機を含む電子端末を提供する。前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられる。前記プロセッサは、前記端末に上記の微生物の標的断片における特異的領域の識別方法を実行及び実現させるよう、前記メモリに記憶されているコンピュータプログラムを実行するために用いられる。

【0186】

図３は、本発明で提供する電子端末を示す図である。前記電子端末は、プロセッサ３１、メモリ３２、通信機３３、通信インターフェース３４及びシステムバス３５を含む。メモリ３２及び通信インターフェース３４は、システムバス３５を介してプロセッサ３１及び通信機３３に接続され、相互の通信を完了する。メモリ３２はコンピュータプログラムを記憶するために用いられ、通信機３３、通信インターフェース３４はその他のデバイスとの通信に用いられる。プロセッサ３１及び通信機３３は、電子端末に上記の画像分析方法の各ステップを実行させるよう、コンピュータプログラムを動作させるために用いられる。

【0187】

上記で言及したシステムバスは、ペリフェラルコンポーネントインターコネクト基準（ＰｅｒｉｐｈｅｒａｌＰｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ，ＰＣＩと略称）のバスや、イーアイサ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ，ＥＩＳＡと略称）バス等とすればよい。当該システムバスは、アドレスバス、データバス、制御バス等に分けられる。なお、表示の便宜上、図中では１本の太い線のみで示しているが、これは１本のバス又は１種類のバスのみを有することを意味しない。通信インターフェースは、データベースアクセス装置とその他のデバイス（例えば、クライアント、リーダ／ライタライブラリ、リードオンリーライブラリ）との通信の実現に用いられる。メモリは、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭと略称）を含んでもよいし、更に不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよく、例えば少なくとも１つの磁気ディスクメモリを含む。

【0188】

上記のプロセッサは、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵと略称）、ネットワークプロセッサ（ＮｅｔｗｏｒｋＰｒｏｃｅｓｓｏｒ，ＮＰと略称）等を含む汎用のプロセッサとしてもよいし、デジタルシグナルプロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＤＳＰと略称）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣと略称）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡと略称）、グラフィックスプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＧＰＵと略称）、又は、その他のプ
ログラマブルロジックデバイス、ディスクリートゲート、又はトランジスタの論理デバイス、ディスクリートハードウェアユニットとしてもよい。

【0189】

当業者であれば理解可能なように、上記各方法の実施例を実現する全部又は一部のステップは、コンピュータプログラムに関連するハードウェアで完了可能である。前記コンピュータプログラムは、コンピュータで読取可能な記憶媒体に記憶可能である。当該プログラムは、実行時に上記各方法の実施例に含まれるステップを実行する。前記コンピュータで読取可能な記憶媒体には、フロッピーディスク、光ディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＭＯディスク、ＲＯＭ（Ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＥＰＲＯＭ（消去可能プログラマブルＲＯＭ）、ＥＥＰＲＯＭ（電気的消去可能プログラマブルＲＯＭ）、磁気カード又は光カード、フラッシュメモリ、或いは、機器で実行可能な命令の記憶に適したその他のタイプの媒体／機械可読媒体が含まれる（ただし、これらに限らない）。前記コンピュータで読取可能な記憶媒体は、コンピュータデバイスに未接続の製品としてもよいし、コンピュータデバイスに接続されて使用される部材としてもよい。

【0190】

具体的に実現する場合、前記コンピュータプログラムは、特定のタスクの実行又は特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、アセンブリ、データ構造等とする。

【0191】

上記の微生物の種特異的共通配列の取得方法、上記の微生物の種特異的共通配列の取得装置、コンピュータで読取可能な記憶媒体、コンピュータ処理デバイス又は電子端末は、ヌクレオチド増幅における鋳型配列のスクリーニングに使用可能である。

【0192】

スクリーニングにおいては、種特異的共通配列を鋳型配列とする。前記種特異的共通配列は、ステップＳ２００又は初回スクリーニング種特異的共通配列検証・取得モジュールにより取得される初回スクリーニング種特異的共通配列としてもよいし、ステップＳ３００又は最終種特異的共通配列スクリーニングモジュールにより取得される最終的な種特異的共通配列としてもよい。

【0193】

本発明の一実施例は、微生物の菌種鑑定方法を提供する。当該方法では、上記方法で取得した種特異的共通配列がターゲット菌株に含まれているか否かを増幅法によって鑑定する。

【0194】

上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別することができる。

【0195】

微生物は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫又はキネトプラスト類の１又は複数から選択される。

【0196】

上記の実施例は本発明の原理と効果を例示的に説明するものにすぎず、本発明を制限するものではない。本技術を熟知する者であれば、本発明の精神及び範囲を逸脱しないことを前提に、上記の実施例を補足又は変更することが可能である。従って、当業者が本発明で開示した精神及び技術的思想から逸脱することなく遂行するあらゆる等価の補足又は変更もまた本発明の特許請求の範囲に含まれる。

【図1】