(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-12
(54)【発明の名称】微生物の標的断片における特異的領域の識別方法、装置及び応用
(51)【国際特許分類】
G16B 30/10 20190101AFI20230405BHJP
【FI】
G16B30/10
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022560020
(86)(22)【出願日】2020-05-14
(85)【翻訳文提出日】2022-09-29
(86)【国際出願番号】 CN2020090180
(87)【国際公開番号】W WO2021196358
(87)【国際公開日】2021-10-07
(31)【優先権主張番号】202010254403.4
(32)【優先日】2020-04-02
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】522385315
【氏名又は名称】上海之江生物科技股▲ふん▼有限公司
【氏名又は名称原語表記】SHANGHAI ZJ BIO-TECH CO., LTD.
(74)【代理人】
【識別番号】110001999
【氏名又は名称】弁理士法人はなぶさ特許商標事務所
(72)【発明者】
【氏名】▲ジ▼匆
(72)【発明者】
【氏名】邵俊斌
(72)【発明者】
【氏名】劉燕
(72)【発明者】
【氏名】斉霞
(72)【発明者】
【氏名】金宇丹
(72)【発明者】
【氏名】李啓騰
(57)【要約】
本発明に係る微生物の標的断片における特異的領域の識別方法は、微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T
1~T
nとして取得するステップS100と、前記1回目の切断片T
1~T
nを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得するステップS200と、特異的領域を検証及び取得するステップS300とを含む。本発明は精度が高い。また、感度に優れ、亜種レベルを識別可能である。且つ、二重の検証モジュールを有するため、結果が正確である。一部のrRNA遺伝子は同種の区別が不可能である。また、プラスミドは全てが種特異性を有しているわけではなく、普遍性も有さない。これに対し、本発明はあらゆる病原体の全ゲノムにおける特異的領域の識別に適用可能である。
【選択図】
図1
【特許請求の範囲】
【請求項1】
微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T
1~T
nとして取得し、nは≧1の整数であるステップS100と、
前記1回目の切断片T
1~T
nを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得するステップS200と、
特異的領域候補が以下の条件を満たしているか否かを判断し、
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探し、
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探し、
特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする特異的領域の検証及び取得ステップS300と、を少なくとも含むことを特徴とする微生物の標的断片における特異的領域の方法。
【請求項2】
a.上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一種又は同一亜種であるか否かを区別可能であり、
b.前記類似度とは、微生物の標的断片のカバー率と一致率の積であり、前記カバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%であり、
c.ステップS200において、前記1回目の切断片T
1~T
nを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントし、
d.上記の方法は、更に、選定した隣り合う微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示するステップS110を含む、との特徴のうちの1又は複数を更に含むことを特徴とする請求項1に記載の微生物の標的断片における特異的領域の識別方法。
【請求項3】
1回目の切断片T
nを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする際には、
残りの比較菌株をP個のグループに分割し、各グループには複数の比較菌株が含まれているステップS210と、
1回目の切断片T
nを第1グループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片T
nにおける1回目の配列候補ライブラリとして取得するステップS211と、
1回目の切断片T
nにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片T
nにおける次の配列候補ライブラリとして取得し、P回目の配列候補ライブラリを1回目の切断片T
nの特異的配列候補ライブラリとして取得するまで、ステップS212を1回目の配列候補ライブラリから繰り返し実行し、1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とするステップ212と、を含むことを特徴とする請求項2に記載の微生物の標的断片における特異的領域の識別方法。
【請求項4】
比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づき設定することを特徴とする請求項3に記載の微生物の標的断片における特異的領域の識別
方法。
【請求項5】
ステップS200のあとに、
ステップS100及びS200を実行して標的配列における各微生物の標的断片の特異的領域候補を取得し、各微生物の標的断片における特異的領域候補の集合を標的配列の特異的領域候補とすることを更に含むことを特徴とする請求項1に記載の微生物の標的断片における特異的領域の識別方法。
【請求項6】
微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T
1~T
nとして取得し、nは≧1の整数である1回目切断片取得モジュールと、
前記1回目の切断片T
1~T
nを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する特異的領域候補取得モジュールと、
特異的領域候補が以下の条件を満たしているか否かを判断し、
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探し、
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探し、
特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする特異的領域検証・取得モジュールとを少なくとも含むことを特徴とする微生物の標的断片における特異的領域の識別装置。
【請求項7】
a.上記の装置は、前記微生物標的断片の由来菌株と比較菌株が同一種又は同一亜種であるか否かを区別可能であり、
b.前記類似度とは、微生物の標的断片のカバー率と一致率の積であり、前記カバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%であり、
c.前記特異的領域候補取得モジュールは、前記1回目の切断片T
1~T
nを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントし、
d.1回目切断片取得モジュールは、更に、選定した隣り合う微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する元データ類似度比較サブモジュールを含む、
との特徴のうちの1又は複数を更に含むことを特徴とする請求項6に記載の微生物の標的断片における特異的領域の識別装置。
【請求項8】
1回目の切断片T
nを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする場合、前記特異的領域候補取得モジュールは、
残りの比較菌株をP個のグループに分割し、各グループに複数の比較菌株が含まれている比較菌株グループ分けサブモジュールと、
1回目の切断片T
nを第1グループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片T
nにおける1回目の配列候補ライブラリとして取得する1回目配列候補ライブラリ取得サブモジュールと、
1回目の切断片T
nにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片T
nにおける次の配列候補ライブラ
リとして取得し、P回目の配列候補ライブラリを1回目の切断片T
nの特異的配列候補ライブラリとして取得するまで、特異的領域候補取得サブモジュールを1回目の配列候補ライブラリから繰り返し実行させ、1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする特異的領域候補取得サブモジュールと、を含むことを特徴とする請求項7に記載の微生物の標的断片における特異的領域の識別装置。
【請求項9】
比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づき設定することを特徴とする請求項8に記載の微生物の標的断片における特異的領域の識別装置。
【請求項10】
更に、標的配列の特異的領域候補取得モジュールを含み、当該モジュールは、標的断片の1回目切断片取得モジュールと微生物の標的断片の特異的領域候補取得モジュールを実行し、標的配列における各微生物の標的断片の特異的領域候補を取得して、各微生物の標的断片における特異的領域候補の集合を標的配列の特異的領域候補とすることを特徴とする請求項6に記載の微生物の標的断片における特異的領域の識別装置。
【請求項11】
コンピュータプログラムが記憶されている記憶媒体であって、
当該プログラムは、プロセッサで実行される際に、請求項1~5のいずれかに記載の微生物の標的断片における特異的領域の識別方法を実現することを特徴とするコンピュータで読取可能な記憶媒体。
【請求項12】
プロセッサ及び請求項11に記載のコンピュータで読取可能な記憶媒体を含むデバイスであって、
前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、請求項1~5のいずれかに記載の微生物の標的断片における特異的領域の識別方法のステップを実現することを特徴とするコンピュータ処理デバイス。
【請求項13】
プロセッサ、メモリ及び通信機を含む電子端末であって、前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられ、前記プロセッサは、前記端末に請求項1~5のいずれかに記載の微生物の標的断片における特異的領域の識別方法を実行させるよう、前記メモリに記憶されているコンピュータプログラムを実行するために用いられることを特徴とする電子端末。
【請求項14】
請求項1~5に記載の微生物の標的断片における特異的領域の識別方法、請求項6~10に記載の微生物の標的断片における特異的領域の識別装置、請求項11に記載のコンピュータで読取可能な記憶媒体、請求項12に記載のコンピュータ処理デバイス又は請求項13に記載の電子端末の、微生物の標的断片における特異的領域を識別するための使用。
【請求項15】
a.上記の使用によって、前記微生物標的断片の由来菌株と比較菌株が同一種又は同一亜種であるか否かを区別し、
b.微生物は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫又はキネトプラスト類の1又は複数から選択される、
との特徴のうちの1又は複数を更に含むことを特徴とする請求項14に記載の使用。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はバイオ情報学の分野に関し、特に、微生物の標的断片における特異的領域の識別方法、装置及び応用に関する。
【背景技術】
【0002】
生体試料における病原微生物のDNA濃度は非常に低く、検出限界に近いことが大半である。そのため、従来のPCR又はリアルタイムPCR検出を使用する場合には、往々にして検出感度が不足する。ツーステップネステッドPCR(two-step nested PCR)といった別の方法を感度の向上に用いることもできるが、こうした方法は時間を要し、コストが嵩むほか、精度に劣る。そのため、検出感度を向上させることが極めて重要となっている。方式の1つでは、プライマー設計の際に適切な鋳型領域を探すが、通常はプラスミド及び16SrRNAが選択される。
【0003】
しかし、プラスミドを用いてプライマーを設計する場合には、いくつかの問題が発生する。なぜなら、全ての微生物が種特異的プラスミドを有しているわけではなく、プラスミドを持たない微生物も存在するからである。まず、プラスミドDNAの種特異性は確実ではない。ある種のプラスミドの配列が別の種のプラスミドの配列と非常に似ている場合には、プラスミドに基づくPCR検出の結果に偽陽性又は偽陰性が発生するリスクが高まる。よって、多くの臨床実験室では、依然として別のPCRプライマー対を用いて検証実験を行わねばならない。次に、プラスミドには普遍性がない。種によってはそもそもプラスミドを有さないため、プラスミドを用いてその種を検出することはできず、プラスミドにプライマーを設計して検出感度を向上させることはなおさら不可能である。例えば、およそ5%の淋菌(Neisseria gonorrhoeae)の菌株がプラスミドを有さなかったために検出不可能であったとの研究報告がある。
【0004】
同様に、rRNA遺伝子領域をPCR検出の鋳型として選択する場合にも、いくつかの問題が存在する。rRNA遺伝子は全ての微生物種のゲノム中に存在し、複数のコピーを有するために検出感度を向上させられる場合が多い。しかし、実際には全てのrRNA遺伝子が特異性を有しているわけではなく、例えば、結核菌H37Rv中のrRNA遺伝子はコピーを1つしか有さない。また、一部のrRNA遺伝子は、配列の変化が検出に適していない。例えば、近親度が大変近い種同士、ないしは同種の異なるサブタイプの菌株同士では、rRNA遺伝子の配列があまりにも保守的なことから、種特異性、ひいては亜種特異性の要求を満たすことができない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
以上で述べた従来技術の欠点に鑑みて、本発明の目的は、微生物の標的断片における特異的領域の識別方法、装置及び応用を提供することである。
【課題を解決するための手段】
【0006】
本発明は、第1の局面において、微生物の標的断片における特異的領域の識別方法を提供する。上記の方法は、少なくとも以下のステップを含む。
【0007】
ステップS100:微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T1~Tnとして取得する。ここで、nは≧1の整数とする。
【0008】
ステップS200:前記1回目の切断片T1~Tnを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。
【0009】
ステップS300特異的領域の検証及び取得:特異的領域候補が以下の条件を満たしているか否かを判断する。
【0010】
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。
【0011】
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探す。
【0012】
特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする。
【0013】
本発明は、第2の局面において、微生物の標的断片における特異的領域の識別装置を提供する。前記装置は、少なくとも以下のモジュールを含む。
【0014】
1回目切断片取得モジュール:微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T1~Tnとして取得する。ここで、nは≧1の整数とする。
【0015】
特異的領域候補取得モジュール:前記1回目の切断片T1~Tnを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。
【0016】
特異的領域検証・取得モジュール:特異的領域候補が以下の条件を満たしているか否かを判断する。
【0017】
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。
【0018】
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探す。
【0019】
特異的領域候補が上記の条件をいずれも満たしていない場合には当該特異的領域候補を微生物の標的断片における特異的領域とする。
【0020】
本発明は、第3の局面において、コンピュータで読取可能な記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されている。当該プログラムは、プロセッサで実行される際に上記微生物の標的断片における特異的領域の識別方法を実現する。
【0021】
本発明は、第4の局面において、プロセッサ及び前記コンピュータで読取可能な記憶媒体を含むコンピュータ処理デバイスを提供する。前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、前記微生物の標的断片
における特異的領域の識別方法のステップを実現する。
【0022】
本発明は、第5の局面において、プロセッサ、メモリ及び通信機を含む電子端末を提供する。前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられる。前記プロセッサは、前記端末に前記微生物の標的断片における特異的領域の識別方法を実行させるよう、前記メモリに記憶されているコンピュータプログラムを実行するために用いられる。
【0023】
前記微生物の標的断片における特異的領域の識別方法、前記微生物の標的断片における特異的領域の識別装置、前記コンピュータで読取可能な記憶媒体、前記コンピュータ処理デバイス又は前記電子端末は、微生物の標的断片における特異的領域を識別する使用に用いられる。
【発明の効果】
【0024】
上述したように、本発明に係る微生物の標的断片における特異的領域の識別方法、装置及び応用は、以下の有益な効果を有する。
【0025】
本発明のテスト事例は、文献データベースと比較して、精度が高く、感度に優れ、亜種レベルを識別可能である。また、二重の検証モジュールを有するため、結果が正確である。プラスミドを利用して特異性を検出する場合には、全てのプラスミドが種特異性を有しているわけではなく、普遍性も有さないとの課題が存在する。また、rRNAを利用して特異性を検出する場合には、一部のrRNA遺伝子が同種を区別できないとの課題が存在する。これに対し、本発明は種特異性を検出可能であり、ひいては亜種特異性標的断片を検出可能である。また、ゲノムアノテーションの存在有無による制限を受けず、ターゲット菌株の名称を提供するか、ローカルから配列ファイルをアップロードするだけでよい。本発明は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫、キネトプラスト類等を含む全ての病原性微生物に適用可能である。
【図面の簡単な説明】
【0026】
【
図1】
図1は、本発明の実施例における方法のフローチャートである。
【
図1-1】
図1-1は、アライメント配列のカバー率及び配列一致率の計算結果を示す図である。
【
図1-2】
図1-2は、本発明における1回目の切断片T
nを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする方法を示す図である。
【
図1-3】
図1-3は、本発明の実施例の方法における配列を示す図である。
【
図2】
図2は、本発明の実施例における装置を示す図である。
【
図3】
図3は、本発明の実施例における電子端末を示す図である。
【発明を実施するための形態】
【0027】
以下に、特定の具体的実施例によって本発明の実施形態につき説明する。なお、当業者であれば、本明細書に開示の内容から本発明のその他の利点及び効果を容易に理解可能である。更に、本発明は、その他の異なる具体的実施形態によっても実施又は応用が可能である。また、本明細書の各詳細事項については、視点及び応用の違いに応じて、本発明の精神を逸脱しないことを前提に各種の補足又は変更を加えてもよい。
【0028】
そのほか、理解すべき点として、本発明で言及する1又は複数の方法ステップは、別途説明する場合を除き、これらの組み合わされるステップの前後に更にその他の方法ステップが存在してもよいこと、或いは、これらの明確に言及するステップの間に更にその他の方法ステップを挿入してもよいことを排除するものではない。更に、理解すべき点として、
本発明で提供する1又は複数のステップ間の組み合わせ及び接続関係は、別途説明する場合を除き、これらの組み合わされるステップの前後に更にその他のステップが存在してもよいこと、或いは、これらの明確に言及する2つのステップの間に更にその他のステップを挿入してもよいことを排除するものではない。且つ、別途説明する場合を除き、各方法ステップの番号は各方法ステップを区別するための便宜的な手段にすぎず、各方法ステップの配列順を規制するものでも、本発明で実施可能な範囲を限定するものでもない。よって、これらの相対関係の変更又は調整は、技術内容を実質的に変更しない限り、本発明で実施可能な範囲であるとみなされる。
【0029】
図1~
図3を参照する。説明すべき点として、本実施例で提供する図面は本発明の基本思想を概略的に説明するものにすぎない。図中には本発明に関係するアセンブリのみを示しているが、実際に実施する際のアセンブリの数、形状及びサイズに基づいて記載しているわけではない。実際に実施する際には、各アセンブリの形態、数及び比率を任意に変更してもよく、且つ、アセンブリのレイアウトや形態がより複雑になる場合もある。
【0030】
図1に示すように、本実施例の標的断片における特異的領域の識別方法は、少なくとも以下のステップを含む。
【0031】
ステップS100:微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T1~Tnとして取得する。ここで、nは≧1の整数とする。
【0032】
ステップS200:前記1回目の切断片T1~Tnを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。
【0033】
ステップS300:特異的領域の検証及び取得:特異的領域候補が以下の条件を満たしているか否かを判断する。
【0034】
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。
【0035】
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探す。
【0036】
特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする。
【0037】
上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一種又は同一亜種であるか否かを区別することができる。
【0038】
上記のステップにおいて、前記類似度とは、微生物の標的断片のカバー率と一致率の積である。
カバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%
【0039】
一致率とは、微生物の標的断片と比較菌株をアライメントしたときのidentity値である。2つの配列をアライメントした際のidentity値は、needle、water又はblat等のソフトウェアを用いて取得すればよい。
【0040】
類似配列の長さとは、2つの配列をアライメントしたときに、一致した断片が標的断片に占める塩基数のことをいう。即ち、一致する断片の長さである。
【0041】
類似度の所定値は必要に応じて決定すればよく、類似度の所定値が高いほど除去される断片は少なくなる。類似度の所定値は、例えば、96%、97%、98%、99%、100%というように、95%超とすることを推奨する。
【0042】
具体的な配列を
図1-3のステップS100に示す。図中の淡色の塩基は、類似度が所定値を超えている配列断片を表す。
【0043】
微生物の標的断片のカバー率及び一致率は、needle、water或いはblatlatといったソフトウェアを利用して計算可能である。
【0044】
例えば、計算結果は
図1-1に示すようになる。配列Aは微生物の標的断片、配列Bは比較菌株1であり、配列AとBをアライメントしたところ、下記のようになった。
配列Aのカバー率=(187/(187-1+1))*100%=100%
【0045】
また、配列Aと配列Bの一致率=98.4%となっている。
【0046】
よって、AとBの類似度=100%*98.4%=98.4%となる。
【0047】
ステップS100における微生物の標的断片と比較菌株は共有データベースから取得する。なお、前記共有データベースとしては主にncbiを選択する(https://www.ncbi.nlm.nih.gov)。
【0048】
更に、上記の方法は以下のステップを含む。
【0049】
ステップS110:選定した隣り合う微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する。
【0050】
これにより、人為的なエラーやその他の原因による異常データを除去可能である。ステップS100における微生物の標的断片は、微生物の全ゲノムとしてもよいし、微生物の遺伝子断片としてもよい。
【0051】
ステップS200において、アライメントの速度を加速するために、好ましい実施形態では、前記1回目の切断片T1~Tnを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントする。
【0052】
具体的には、
図1-2に示すように、1回目の切断片T
nを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする際には、以下のステップを含む。
【0053】
ステップS210:残りの比較菌株をP個のグループに分割する。各グループには複数の比較菌株が含まれている。
【0054】
ステップS211:1回目の切断片Tnを第1グループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tnにおける1回目の配列候補ライブラリとして取得する。
【0055】
ステップS212:1回目の切断片Tnにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tnにおける次の配列候補ライブラリとして取得する。こうして、P回目の配列候補ライブラリを1回目の切断片Tnの特異的配列候補ライブラリとして取得するまで、ステップS212を1回目の配列候補ライブラリから繰り返し実行する。
【0056】
1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする。
【0057】
マルチスレッドがブロックされないよう、比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づいて設定すべきである。当該数量は、動作環境の全体構成に基づいて設定したスレッド数とすればよく、一般的には1~50スレッドとすればよい。具体的には、1~4スレッド、4~8スレッド、8~10スレッド、10~20スレッド、20~50スレッドとすればよく、好ましくは4スレッドとする。なお、
図1-2に示す実施形態では8スレッドとしている。
【0058】
例えば、
図1-2に示すように、標的配列が2541個の微生物標的断片を含んでおり、且つ、比較菌株が588個、m=8であるとする。まず、微生物の標的断片1を588個の比較菌株における配列1~8と同時に比較して1回目の切断を行い、一致配列を除去して、全体を取りまとめることで1回目の特異的配列ライブラリを取得する。次に、当該ライブラリを588個の比較菌株における配列9~16と同時に比較して2回目の切断を行い、一致配列を除去して、全体を取りまとめることで2回目の特異的配列ライブラリを取得する。続いて、当該ライブラリを588個の比較菌株における配列17~24と同時に比較して3回目の切断を行い、一致配列を除去して、全体を取りまとめることで3回目の特異的配列ライブラリを取得する。・・・、このようにして、73回目の特異的配列ライブラリを588個の比較菌株における配列585~588と同時に比較して74回目の切断を行い、一致配列を除去して、全体を取りまとめることで74回目の特異的配列ライブラリ(即ち、標的断片1の特異的配列ライブラリ)を取得するまで順に実行する。
【0059】
続いて、標的配列における微生物の標的断片2を588個の比較菌株における配列1~8と同時に比較して1回目の切断を行い、一致配列を除去して、全体を取りまとめることで1回目の特異的配列ライブラリを取得する。次に、当該ライブラリを588個の比較菌株における配列9~16と同時に比較して2回目の切断を行い、一致配列を除去して、全体を取りまとめることで2回目の特異的配列ライブラリを取得する。続いて、当該ライブラリを588個の比較菌株における配列17~24と同時に比較して3回目の切断を行い、一致配列を除去して、全体を取りまとめることで3回目の特異的配列ライブラリを取得する。・・・、このようにして、73回目の特異的配列ライブラリを588個の比較菌株における配列585~588と同時に比較して74回目の切断を行い、一致配列を除去して、全体を取りまとめることで74回目の特異的配列ライブラリ(即ち、標的断片2の特異的配列ライブラリ)を取得するまで順に実行する。
【0060】
こうして、標的配列における2541個の微生物標的断片と588個の比較菌株とのアライメントが全て完了するまで順に実行することで得られる切断片が、微生物の標的断片に
おける特異的領域候補となる。
【0061】
好ましい実施形態では、ステップS200のあとに、更に、ステップS100及びS200を実行して標的配列における各微生物の標的断片の特異的領域候補を取得し、各微生物の標的断片における特異的領域候補の集合を標的配列の特異的領域候補とする。
【0062】
標的配列は複数の標的断片を含み得る。複数の標的断片は、その他のスクリーニングステップによって微生物のゲノムから選別し、取得した断片としてもよい。例えば、特定の微生物の多コピー断片としてもよい。
【0063】
ステップS300において、前記共有データベースとしては主にncbiを選択する(https://www.ncbi.nlm.nih.gov)。また、共有データベースを検索するアルゴリズムはblastアルゴリズムとすればよい。
【0064】
更に、ステップS100、S200及びS300を実行する前に、演算環境のハードウェア構成に基づいて切断サイズを設定し、演算対象のデータをユニット切断する。具体的には、ステップS100において、演算対象のデータは標的断片である。また、ステップS200において、演算対象のデータは、一致配列を繰り返し除去するごとの該当特異的配列ライブラリである。また、ステップS300において、演算対象のデータは特異的領域候補である。
【0065】
ユニット切断後のユニット数量*ユニットファイルの動作に必要な構成は、動作環境の全体構成を超えてはならない。
【0066】
ユニット切断では、切断を要する配列の総数をスレッド数mで割ったものがユニット切断後のユニット数となる。マルチスレッド動作環境では、各スレッドが同一数の演算タスクを実行することで、最適な性能条件下における効率的な演算の実現を保証する。
【0067】
図2に示すように、本実施例に係る微生物の標的断片における特異的領域の識別装置は、少なくとも以下のモジュール含む。
【0068】
1回目切断片取得モジュール:微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T1~Tnとして取得する。ここで、nは≧1の整数とする。
【0069】
特異的領域候補取得モジュール:前記1回目の切断片T1~Tnを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。
【0070】
特異的領域検証・取得モジュール:特異的領域候補が以下の条件を満たしているか否かを判断する。
【0071】
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。
【0072】
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探す。
【0073】
特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする。
【0074】
上記の装置によって、前記微生物標的断片の由来菌株と比較菌株が同一種又は同一亜種であるか否かを区別することができる。
【0075】
前記類似度とは、標的断片のカバー率と一致率の積である。また、前記カバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%である。
【0076】
前記特異的領域候補取得モジュールは、前記1回目の切断片T1~Tnを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントする。
【0077】
1回目の切断片Tnを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする場合、前記特異的領域候補取得モジュールは以下のサブモジュールを含む。
【0078】
比較菌株グループ分けサブモジュール:残りの比較菌株をP個のグループに分割する。各グループには複数の比較菌株が含まれている。
【0079】
1回目配列候補ライブラリ取得サブモジュール:1回目の切断片Tnを第1グループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tnにおける1回目の配列候補ライブラリとして取得する。
【0080】
特異的領域候補取得サブモジュール:1回目の切断片Tnにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tnにおける次の配列候補ライブラリとして取得する。こうして、P回目の配列候補ライブラリを1回目の切断片Tnの特異的配列候補ライブラリとして取得するまで、特異的領域候補取得サブモジュールを1回目の配列候補ライブラリから繰り返し実行させる。
【0081】
1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする。
【0082】
比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づいて設定する。
【0083】
一実施形態において、前記装置は、標的配列の特異的領域候補取得モジュールを更に含む。当該モジュールは、標的断片の1回目切断片取得モジュールと標的断片の特異的領域候補取得モジュールを実行し、標的配列における各標的断片の特異的領域候補を取得して、各標的断片の特異的領域候補の集合を標的配列の特異的領域候補とする。
【0084】
選択的に、1回目切断片取得モジュールは、更に以下のサブモジュールを含む。
【0085】
元データ類似度比較サブモジュール:選定した隣り合う微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する。
【0086】
本実施例の装置と上記方法の実施例の原理は基本的に同様のため、上記の方法及び装置の
実施例では、同様の特徴についての定義、計算方法、実施形態の提示、及び好ましい実施形態の提示に関する詳細な記載は互いに共通とできる。よって、繰り返し詳述することはしない。
【0087】
説明すべき点として、上記の装置における各モジュールの区分は論理機能の区分にすぎず、実際に実現する際には全部或いは一部を1つの物理的実体に集積してもよいし、物理的に切り離してもよいと解釈すべきである。且つ、これらのモジュールは、全てを処理素子でソフトウェアを呼び出す形式で実現してもよいし、全てをハードウェア形式で実現してもよいし、また、一部のモジュールを処理素子でソフトウェアを呼び出す形式で実現して一部のモジュールをハードウェア形式で実現してもよい。例えば、取得モジュールは、単独で設置される処理素子としてもよいし、いずれかのチップに集積して実現してもよい。また、プログラムコードの形式でメモリに記憶してもよいし、いずれかの処理素子により上記取得モジュールの機能を呼び出して実行してもよい。その他のモジュールの実現についてもこれと同様である。また、これらのモジュールの全部又は一部は一体的に集積してもよいし、個別に実現してもよい。ここでいう処理素子は、信号処理能力を有する集積回路とすればよい。実現過程において、上記方法の各ステップ又は上記の各モジュールは、処理素子におけるハードウェアの集積論理回路又はソフトウェア形式の命令により完了してもよい。
【0088】
例えば、上記のモジュールは上記方法を実施する1又は複数の集積回路として配置すればよい。例えば、1又は複数の特定用途向け集積回路(Application Specific Integrated Circuit,ASICと略称)、或いは、1又は複数のマイクロプロセッサ(digital singnal processor,DSPと略称)、或いは、1又は複数のフィールドプログラマブルゲートアレイ(Field Programmable Gate Array,FPGAと略称)、或いは、GPU(Graphics Processing Unit,GPUと略称)等とすればよい。また、上記いずれかのモジュールを処理素子によりプログラムコードを呼び出す形式で実現する場合、当該処理素子は、例えば中央処理装置(Central Processing Unit,CPUと略称)やプログラムコードを呼び出し可能なその他のプロセッサといった汎用のプロセッサとすればよい。また、これらのモジュールは一体的に集積し、システムオンチップ(System-on-a-chip,SOCと略称)形式で実現してもよい。
【0089】
本発明のいくつかの実施例では、更に、コンピュータで読取可能な記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されている。当該プログラムは、プロセッサで実行される際に上記微生物の標的断片における特異的領域の識別方法を実現する。
【0090】
本発明のいくつかの実施例では、更に、プロセッサ及び前記コンピュータで読取可能な記憶媒体を含むコンピュータ処理デバイスを提供する。前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、前記微生物の標的断片における特異的領域の識別方法のステップを実現する。
【0091】
本発明のいくつかの実施例では、更に、プロセッサ、メモリ及び通信機を含む電子端末を提供する。前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられる。前記プロセッサは、前記端末に前記微生物の標的断片における特異的領域の識別方法を実行及び実現させるよう、前記メモリに記憶されたコンピュータプログラムを実行するために用いられる。
【0092】
図3は、本発明で提供する電子端末を示す図である。前記電子端末は、プロセッサ31、メモリ32、通信機33、通信インターフェース34及びシステムバス35を含む。メモ
リ32及び通信インターフェース34は、システムバス35を介してプロセッサ31及び通信機33に接続され、相互の通信を完了する。メモリ32はコンピュータプログラムを記憶するために用いられ、通信機33、通信インターフェース34はその他のデバイスとの通信に用いられる。プロセッサ31及び通信機33は、電子端末に上記の画像分析方法の各ステップを実行させるよう、コンピュータプログラムを動作させるために用いられる。
【0093】
上記で言及したシステムバスは、ペリフェラルコンポーネントインターコネクト基準(Peripheral Pomponent Interconnect,PCIと略称)のバスや、イーアイサ(Extended Industry Standard Architecture,EISAと略称)バス等とすればよい。当該システムバスは、アドレスバス、データバス、制御バス等に分けられる。なお、表示の便宜上、図中では1本の太い線のみで示しているが、これは1本のバス又は1種類のバスのみを有することを意味しない。通信インターフェースは、データベースアクセス装置とその他のデバイス(例えば、クライアント、リーダ/ライタライブラリ、リードオンリーライブラリ)との通信の実現に用いられる。メモリは、ランダムアクセスメモリ(Random Access Memory,RAMと略称)を含んでもよいし、更に不揮発性メモリ(non-volatile memory)を含んでもよく、例えば少なくとも1つの磁気ディスクメモリを含む。
【0094】
上記のプロセッサは、中央処理装置(Central Processing Unit,CPUと略称)、ネットワークプロセッサ(Network Processor,NPと略称)等を含む汎用のプロセッサとしてもよいし、デジタルシグナルプロセッサ(Digital Signal Processing,DSPと略称)、特定用途向け集積回路(Application Specific Integrated Circuit,ASICと略称)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array,FPGAと略称)、グラフィックスプロセッサ(Graphics Processing Unit,GPUと略称)、又は、その他のプログラマブルロジックデバイス、ディスクリートゲート、又はトランジスタの論理デバイス、ディスクリートハードウェアユニットとしてもよい。
【0095】
当業者であれば理解可能なように、上記各方法の実施例を実現する全部又は一部のステップは、コンピュータプログラムに関連するハードウェアで完了可能である。前記コンピュータプログラムは、コンピュータで読取可能な記憶媒体に記憶可能である。当該プログラムは、実行時に上記各方法の実施例に含まれるステップを実行する。前記コンピュータで読取可能な記憶媒体には、フロッピーディスク、光ディスク、CD-ROM(Compact Disc Read-Only Memory)、MOディスク、ROM(Read only memory)、RAM(Random access memory)、EPROM(消去可能プログラマブルROM)、EEPROM(電気的消去可能プログラマブルROM)、磁気カード又は光カード、フラッシュメモリ、或いは、機器で実行可能な命令の記憶に適したその他のタイプの媒体/機械可読媒体が含まれる(ただし、これらに限らない)。前記コンピュータで読取可能な記憶媒体は、コンピュータデバイスに未接続の製品としてもよいし、コンピュータデバイスに接続されて使用される部材としてもよい。
【0096】
具体的に実現する場合、前記コンピュータプログラムは、特定のタスクの実行又は特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、アセンブリ、データ構造等とする。
【0097】
前記微生物の標的断片における特異的領域の識別方法、微生物標的断片における特異的領域の識別装置、コンピュータで読取可能な記憶媒体、コンピュータ処理デバイス又は電子
端末は、微生物のPCR検出に応用可能である。
【0098】
具体的には、鋳型配列のスクリーニングに用いられる。
【0099】
前記微生物の標的断片における特異的領域の識別方法、前記微生物の標的断片における特異的領域の識別装置、前記コンピュータで読取可能な記憶媒体、前記コンピュータ処理デバイス又は前記電子端末は、微生物の標的断片における特異的領域を識別する使用に用いられる。
【0100】
上記の使用によって、前記微生物標的断片の由来菌株と比較菌株が同一種又は同一亜種であるか否かを区別する。
【0101】
微生物は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫又はキネトプラスト類の1又は複数から選択される。
【0102】
上記の実施例は本発明の原理と効果を例示的に説明するものにすぎず、本発明を制限するものではない。本技術を熟知する者であれば、本発明の精神及び範囲を逸脱しないことを前提に、上記の実施例を補足又は変更することが可能である。従って、当業者が本発明で開示した精神及び技術的思想から逸脱することなく遂行するあらゆる等価の補足又は変更もまた本発明の請求の範囲に含まれる。
【国際調査報告】