(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-06
(45)【発行日】2022-05-16
(54)【発明の名称】メタゲノム試料中の病原体の同定と抗生物質の特徴づけ
(51)【国際特許分類】
G16B 30/20 20190101AFI20220509BHJP
C12Q 1/6869 20180101ALI20220509BHJP
【FI】
G16B30/20
C12Q1/6869 Z
(21)【出願番号】P 2019519228
(86)(22)【出願日】2017-10-12
(86)【国際出願番号】 EP2017076029
(87)【国際公開番号】W WO2018069430
(87)【国際公開日】2018-04-19
【審査請求日】2020-10-06
(32)【優先日】2016-10-13
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】304043936
【氏名又は名称】ビオメリュー
【氏名又は名称原語表記】BIOMERIEUX
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林特許業務法人
(72)【発明者】
【氏名】マエー, ピエール
(72)【発明者】
【氏名】トゥールノー, マウト
(72)【発明者】
【氏名】シークリン, ステファーヌ
(72)【発明者】
【氏名】ギゴン, ジスレーヌ
(72)【発明者】
【氏名】ルッペ, エティエンヌ
【審査官】岡 裕之
(56)【参考文献】
【文献】米国特許出願公開第2013/0268206(US,A1)
【文献】特表2005-525788(JP,A)
【文献】藤 博幸,はじめてのバイオインフォマティクス 第4版,株式会社 講談社,2013年03月10日,pp.79-87
【文献】バクテリアの抗生物質耐性を予測する新手法を開発 -少数遺伝子の発現量変化から高精度に抗生物質への耐性を予測-[online],理化学研究所, URL<https://www.riken.jp/press/2014/20141217_3/>,[検索日:2021年12月1日]
【文献】Heekuk Park et. al,Fecal Microbial Transplants Reduce Antibiotic-resistant Genes in Patients With Recurrent Clostridium difficile Infection,2016年03月
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
C12Q 1/6869
(57)【特許請求の範囲】
【請求項1】
メタゲノム試料に含まれる病原体を同定し、かつ前記病原体のゲノム中の病原性マーカーを同定するための方法であって、以下の工程:
- メタゲノム試料を処理して、少なくとも前記試料中に存在する病原体からDNAを抽出すること(12)、
- 抽出されたDNAを配列決定し、それによって一組のデジタル核酸配列
、すなわち「読み取り」を生成すること(14)、
- 一組の読み取りを既知の病原体に割り当てるために、前記一組の読み取りを、既知の病原体のゲノムを含む第1のデータベースと比較すること(22);
- 少なくとも
、既知の細菌性病原体の中の病原体に割り当てられた読み取りを含む、読み取りのプールを生成し(26)、少なくとも1つのアセンブルされたデジタル核酸配列
、すなわち「コンティグ」を生成するために、プール内で読み取りをアセンブルすること(28)、
- 生成されたコンティグが既知の
病原性マーカーを含むかどうかを調べるために、生成されたコンティグを既知の病原
性マーカーの第2のデータベースと比較すること(30)
を含み、
- 該方法が、一組の読み取りを既知の病原性マーカーに割り当てるために、前記一組の読み取りを第2のデータベースと比較し、読み取りが完全に前記
病原性マーカー内に入る場合、又は読み取りが前記
病原性マーカーにまたがっている場合、読み取りが既知の病原性マーカーに割り当てられる工程(24)を含むこと、及び
- プールはまた、既知の病原性マーカーに割り当てられた読み取りを含み、これにより、コンティグが、既知の病原体に割り当てられた読み取り及び既知の病原性マーカーに割り当てられた読み取りからアセンブルされること
を特徴と
し、
割り当てられた病原体は、メタゲノム試料に含まれると同定され、
割り当てられた病原性マーカーは、病原体のゲノムにあると同定される、方法。
【請求項2】
前記
病原性マーカーにまたがっている読み取りが、20bpと等しいかそれより長い長さの、前記
病原性マーカーの内側に入る部分を有する、請求項1に記載の方法。
【請求項3】
読み取りが、L>100であるLbpの平均長を有し、かつ、前記
病原性マーカーにまたがっている読み取りが、[1;L-50]bpの範囲において、前記
病原性マーカーの範囲外にある部分を有する、請求項1又は2に記載の方法。
【請求項4】
前記
病原性マーカーにまたがっている読み取りが、前記
病原性マーカー内に入る第1の部分と前記
病原性マーカーの範囲外にある第2の部分とを有し、かつ、第2の部分の長さが、ARDデータベース性能に対するマッピングに基づいて選択される、請求項1、2又は3に記載の方法。
【請求項5】
第2の部分の長さが、ARDデータベースに対する正しい割り当ての確率が70%と等しいかそれより大きく、好ましくは80%と等しいかそれより大きくなるように選択される、請求項4に記載の方法。
【請求項6】
一組の読み取りと第2のデータベースとの比較が、前記一組の他の読み取りとは独立して、第2のデータベースの病原性マーカーについての各読み取りのマッピングを含む、請求項1から5のいずれか1項に記載の方法。
【請求項7】
配列決定がペアエンド配列決定であり、かつ、読み取りが
病原性マーカーに割り当てられる場合、前記読み取りを補完するものである読み取りもプールに含まれる、請求項1から6のいずれか1項に記載の方法。
【請求項8】
生成されたコンティグが既知の
病原性マーカーに割り当てられた読み取りのみを含む場合、前記既知の病原性マーカーが以下:
[式中、D
ARDは既知の
病原性マーカーに割り当てられた読み取りの配列決定深度中央値であり、D
pathは既知の病原体に割り当てられた読み取りの配列決定深度中央値であり、好ましくは>1である]の場合に、既知の病原体のゲノムの一部であると決定される、請求項1から7のいずれか1項に記載の方法。
【請求項9】
コンティグをデータベースの16SrDNA配列及び/又はmetaphlan2マーカーと比較する工程をさらに含み、ここで、既知の病原体が前記比較に基づいて確認される、請求項1から8のいずれか1項に記載の方法。
【請求項10】
試料が、ヒト又は動物から採取され、第1のデータベースが細菌叢及び宿主ゲノムも含み、かつ、細菌叢及び宿主ゲノムに割り当てられた読み取りが除外される、請求項1から9のいずれか1項に記載の方法。
【請求項11】
メタゲノム試料が、気管支肺胞洗浄試料、尿試料又は血液試料である、請求項1から10のいずれか1項に記載の方法。
【請求項12】
病原性マーカーが、抗生物質耐性マーカー又はビルレンスマーカーである、請求項1から11のいずれか1項に記載の方法。
【請求項13】
コンピューターによって実行される方法を実行するための命令を格納するコンピューター可読媒体であって、該方法が、
- メタゲノム試料から抽出されたDNAの配列決定によって生成された一組の読み取りを既知の細菌性病原体に割り当てるために、前記読み取りを、既知の病原体のゲノムを含む第1のデータベースと比較すること;
- 少なくとも、前記既知の病原体の中の病原体に割り当てられた読み取りを含む、読み取りのプールを生成し、少なくとも1つのアセンブルされたデジタル核酸配列、
すなわち「コンティグ」を生成するために、プール内で読み取りをアセンブルすること、
- 生成されたコンティグが既知の
病原性マーカーを含むかどうかを調べるために、生成されたコンティグを、既知の病原
性マーカーの第2のデータベースと比較すること
を含み、
- 該方法が、一組の読み取りを既知の病原性マーカーに割り当てるために、前記一組の読み取りを第2のデータベースと比較する工程を含むこと、及び
- プールはまた、既知の
病原性マーカーに割り当てられた読み取りを含み、これにより、コンティグが、既知の病原体に割り当てられた読み取り及び既知の病原性マーカーに割り当てられた読み取りからアセンブルされること
を特徴と
し、
割り当てられた病原体は、メタゲノム試料に含まれると同定され、
割り当てられた病原性マーカーは、病原体のゲノムにあると同定される、
コンピューター可読媒体。
【請求項14】
請求項2から12のいずれか1項に記載の方法を実行するための命令を格納する、請求項13に記載のコンピューター可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メタゲノミクスの分野に関し、特に、ゲノム中の抗生物質耐性マーカーの存在を断定することによる、メタゲノム試料中の病原体の抗生物質感受性の特徴づけに関する。
【背景技術】
【0002】
現在、古典的微生物学技術による臨床試料中の病原体の同定及び抗生物質感受性試験(AST)プロファイルは、病原体に関する多くの試験及び/又は多くの先験的な知識を必要とする。例えば、微生物学のワークフローは、病原体を単離し、その後の試験に必要な重要なバイオマスを得るために(例えばペトリ皿上での)病原体の増殖を含む。しかしながら、異なる細菌は異なる培養条件を必要とする場合があり(例えば、好気性対嫌気性細菌)、培養中において競合するか、又は培養条件が適切な方法で選択されないならば全く増殖しない可能性がある。従って、培地の選択は通常、試料中の病原体についての仮定に基づいている。さらに、試験は、ASTの試薬を選択するために病原体(例えばグラム陽性又は陰性)の事前同定を必要とする。微生物学的技術の頑強性は、このように時には疑わしいかもしれない。
【0003】
さらに、古典的な微生物学では、病原体の同定及び抗生物質感受性試験(AST)プロファイルを得るために24時間から48時間かかり、マイコバクテリア(mycobacteria)などの増殖が遅い細菌では実に数週間かかる。この期間中、臨床医は、どの病原体が患者に感染しているのか分からず、従って特定の治療法を提供することができない。患者の命が危険にさらされ得るのみならず、臨床医に、ASTプロファイルを得て彼の治療法を適応させる前に、広域スペクトルの抗生物質を患者に投与することを強制し、このことが、細菌が抗生物質耐性メカニズムを長期にわたって発達させる主な理由の1つである。
【0004】
微生物学において、メタゲノミクスは、核酸(NA)配列決定に基づいた技術であり、試料の微生物含有物に関する少ない先験的な情報を用いた線形ワークフローを使用して、試料の微生物含有物を特徴づけることを目的としている。特に、メタゲノミクスは、細菌を単離するための細菌の増殖を含まず、メタゲノムワークフローにおける工程の選択は、前の工程の結果には依存しない。さらに、ワークフローの期間は、試料に含まれる微生物とは実質的に無関係であり、異なる微生物(例えば異なる細菌種)の混合物を含む試料を処理し、同時に試料の微生物学的含有物の全体像を得ることが可能である。
【0005】
最近、迅速かつ頑強な配列決定技術、特に、大きなゲノムを正確かつ迅速に配列決定し得るハイスループット配列決定(HTS)(例えば、全ゲノム配列決定(WGS)、次世代配列決定(NGS))が設計された。これらの技術に基づいて、HTSメタゲノムワークフローは以下:
a.試料、例えば患者又は動物からの組織又は体液試料(例えば気管支肺胞洗浄、血液、尿、唾液、糞便など)、食品試料又は環境試料(例えば空気、水)を収集すること;
b.試料中の細胞から核酸(例えばゲノムDNA)を抽出すること;
c.核酸分子をより小さな断片に無作為に剪断し、増幅及び配列決定目的のためにその断片にタグを付けること;
d.少なくとも第2のHTS世代のために、各断片の複数のコピーを有するように断片を増幅し(例えば、PCRに基づく技術によって)、次いで、配列決定工程から読み取り可能なシグナルを得ることを可能にすること;
e.断片を配列決定し、それによって一組のデジタル核酸配列(しばしば「生の読み取り」又は「読み取り」と呼ばれる)を生成すること;
f.コンピューター処理ワークフロー(しばしば「バイオインフォマティクスパイプライン」又は「パイプライン」と呼ばれる)を使用して、読み取りを分析して試料の含有物を特徴づけること(例えば、試料中の微生物を同定する)
から構成される。
【0006】
基本的に、試料含有物を特徴づけるための2つのタイプのパイプライン、分類学的ビニングを使用する第1のタイプのパイプライン、及びプロファイリングを使用する第2のタイプのパイプラインがある。
【0007】
メタゲノム試料の分類学的及び/又は機能的(遺伝子含有物)組成を効率的に記述するために、過去数年間に多くのプロファイリングパイプラインが開発されてきた。例えば、「MetaPhlAn2」(Truong et al., “MetaPhlAn2 for enhanced metagenomic taxonomic profiling”, Nature Methods, 2015)は、効率的な分類学的プロファイリング方法であり、既定の分類学的クレードに固有かつ特異的なマーカー遺伝子に依存する。簡潔には、読み取りは、マーカー遺伝子参照データベースに対してマッピングされ、次いで試料中に存在する全ての分類学的クレードを定量化することを可能にする。より最近の「MOCAT2」(Kultima et al. “MOCAT2: a metagenomic assembly, annotation and profiling framework”, Bioinformatics, 2016)と呼ばれる分類学的及び機能的プロファイリングパイプラインにおいて、読み取りは「SOAPdenovo」アセンブラを使用してアセンブルされ(Ruibana Luo et al. “SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler”, GigaSicence, 2012)、予測され、そして複数のデータベース(eggNOG、KEGG、SEED、ARDB、CARDなど)からの機能情報の組み合わせカタログに対して非常に効率的に注釈が付けられる。分類学的及び機能的プロファイリングは、病原体の相対的割合を最初に同定及び取得するために使用され得、また試料中に存在するARDを取得し得る。
【0008】
分類学的ビニングに基づいたパイプラインに関して、それらは以下:
f1.1つ又は複数の代表的なゲノム又はゲノムの一部(例えばゲノムの16S部分)が配列決定されて参照データベース(「分類学的データベース」)に格納されている既知の分類群(例えば細菌種)に、各読み取りを割り当てること;
f2.分類群に割り当てられた読み取りをプールすること;及び
f3.分類群のゲノムを再構成するために、プールされた読み取りをアセンブルすること(通常はそれらの長い配列で、しばしば「コンティグ」と呼ばれる)
からなる割り当て工程(「分類学的ビニング」とも呼ばれる)を含む。
【0009】
次いで、コンティグは、さらなる特徴づけ、特に病原体の同定及び再構成されたゲノムにおける抗生物質耐性決定因子(ARD)の探索のために使用される。従って、HTS技術は、試料中に存在する一組の病原体だけでなく、それらのゲノムに含まれる一組の(ARD)を同時に入手できることを可能にする。しかしながら、それらの技術は、どの病原体が試料中に存在するのか、かつこの特定の病原体がどのARD(もしあれば)を保有しているのかを知りたい臨床医にとっての情報の主要な要素である、ARDと病原体とを関連づけることができない。さらに、臨床医においては、試料中に存在するARDの配列を得ることは興味深いことである。実際、抗生物質耐性は、耐性遺伝子の存在又は欠如だけでなく、特定の耐性遺伝子バリアントの存在にも起因し得、そしてこの場合、耐性決定因子の最も正確な配列を入手できることは極めて重要である。
【0010】
この問題を回避するための最初の工程は、Guigonら(“Pathogen Characterization within the Microbial Flora of Bronchoalveolar Lavages by Direct Sample Sequencing”, ECCMID, 2015)に記載されているパイプラインを適用することであり、この文書の続編において「パイプライン1」と呼ばれる。簡潔には、主な工程は、読み取りの品質管理(低品質の読み取りのフィルタリング及びトリミング)、宿主DNAの除去(ヒトの読み取りのフィルタリング)、分類学的ビニング、試料中に存在する各病原体に対応する読み取りの「コンティグ」へのアセンブリ、そして最後に、ARD参照データベースに関するコンティグの注釈付けである。
【0011】
残念なことに、上記のパイプラインは、関連が参照データベースにおいて明示的にコード化されている場合にのみ、病原体とARDとの間の前記関連を効率的に導き出す。
図1は、典型的な失敗例を示している。メタゲノム試料は、耐性遺伝子を保有する細菌種(「種1」)由来のDNAを含む。細菌における多くの耐性遺伝子と同様に、考慮される遺伝子は可動遺伝要素(MGE)上に位置している。MGEは、細菌ゲノム間を移動する一種のDNAであり、遺伝的多様性の重要な原因であり、従って細菌の抗生物質適応能力である。残念なことに、分類学的ビニングに使用される参照データベースにおいては、種1の代表的なゲノムは、他の種(「種k」)の代表的なゲノムとは異なり、どれもこのARDを保有していない。このことは、このARDがMGE上にあるからこそ、起こり得る。例えば、研究対象の試料中に存在する種1由来の微生物は、種kの菌株から最近それを獲得した可能性があり、ただし、この移動は、分類学的ビニング用の参照データベースを構築するために使用される参照配列においてはまだ確認されていない。従って、分類学的ビニング工程の間、種1のARD領域に位置する読み取りは、それらが種kの代表として区別されるであろうゆえに、種1の他の読み取りと一緒に検索されないであろう。従って、種1のアセンブリは、最良の場合、2つのコンティグにつながり、ARDはアセンブリから失われるであろう。
【0012】
言い換えれば、参照データベースは、病原体に関して現在利用可能な知識の静的なスナップショットである。先行技術のパイプラインに関して、ARDに関連した、病原体のゲノム改変を考慮に入れる唯一の方法は、データベースを更新することである。臨床医が、少なくとも初めて、新しい病原体に直面すると、先行技術のメタゲノム解析は、病原体の抗生物質感受性を特徴づけることには役に立たず、さらに悪いことに、例えば上記の例では、種1ではなく耐性病原体としての種kであり、誤った結果を与えることによって誤解を招く可能性がある。
【0013】
さらに、ARDがいくつかの病原体によって共有されるとき、多くの先行技術の分類学的ビニングアプローチは、その対応する読み取りを、ARDを保有する病原体の最小共通祖先(Lowest Common Ancestor)に割り当てる。従って、ARDに対応する読み取りは、それらが「種レベル」よりも高いレベルで割り当てられるであろうゆえに、分類学的ビニング工程の間では検索されないであろう。それらを検索するためには、より高いレベルでの分類に基づいて、種で読み取りを検索するための特定のルールを定義する必要がある(たとえば、読み取りが属レベルGで割り当てられる場合は、その読み取りを属Gに含まれる全ての種の読み取りの全てのプールに追加する)。
【0014】
問題は、抗生物質耐性決定因子ARDに関連して説明されているが、それはビルレンス遺伝的決定因子に対しても同様に当てはまる。この問題は、例えば真菌のような他の種類の微生物、及び抗真菌剤耐性決定因子についても当てはまる。
【0015】
より一般的には、この問題はあらゆる種類のゲノムに当てはまり、参照データベースにおいて、目的の遺伝子マーカーが由来する種のゲノムには存在しない、目的の遺伝子マーカーを探すためのあらゆる種類の源を形成する。
【発明の概要】
【0016】
本発明は、遺伝子の改変を参照しない参照データベースを使用して、目的のマーカーにおける遺伝子改変を考慮に入れることを可能にする新規なメタゲノム分析を提案する。
【0017】
この目的のために、本発明の目的は、メタゲノム試料に含まれる病原体(例えば、細菌)を同定し、かつ前記病原体のゲノム中の病原性マーカー(例えば、抗菌薬感受性、ビルレンスなど)を同定する方法であり、該方法は、以下の工程:
- メタゲノム試料を処理して、少なくとも前記試料中に存在する病原体からDNAを抽出すること、
- 抽出されたDNAを配列決定し、それによって一組のデジタル核酸配列、又は「読み取り」を生成すること、
- 一組の読み取りを既知の病原体に割り当てるために、前記一組の読み取りを、既知の病原体のゲノムを含む第1のデータベースと比較すること;
- 前記既知の病原体の中の病原体に割り当てられた少なくとも読み取りを含む読み取りのプールを生成し、かつ、少なくとも1つのアセンブルされたデジタル核酸配列、又は「コンティグ」を生成するために、プール内で読み取りをアセンブルすること、
- 生成されたコンティグが既知のマーカーを含むかどうかを調べるために、生成されたコンティグを既知の病原性遺伝子マーカーの第2のデータベースと比較すること
を含む。
【0018】
本発明によれば、
- 本方法は、一組の読み取りを既知の病原性マーカーに割り当てるために、前記一組の読み取りを第2のデータベースと比較し、読み取りが完全に前記マーカー内に入る場合、又は読み取りが前記マーカーにまたがっている場合、読み取りが既知の病原性マーカーに割り当てられる工程を含み、
- プールはまた、既知の病原性マーカーに割り当てられた読み取りを含み、これにより、コンティグは、既知の病原体に割り当てられた読み取り及び既知の病原性マーカーに割り当てられた読み取りからアセンブルされる。
【0019】
言い換えれば、本発明は、上記の剪断工程を利用する。一方では、試料は各病原体のいくつかの個体を含む。例えば、所与の病原体について、抽出プロセスから生じるDNA分子のいくつかのコピーがある。一方、HTS技術においてよく知られているように、これらのコピーは意図的に完全に同一に断片化されず、それによって重複断片を生成し、その重複特徴はその後アセンブリ工程のために使用される。病原体に割り当てられた読み取りを、遺伝子マーカーに割り当てられた読み取りと一緒にプールすることによって、前記読み取りの一部はマーカー上に部分的にしかマッピングされないが、病原体のゲノム上にもマッピングされ、アセンブリプロセスは、前記病原体に対して、マーカーを含むコンティグを構築する機会を有する。この特徴は、分類学的データベース中の代表的なゲノムとは異なる、マーカーを有するゲノムの再構築を可能にする。
【0020】
図2は、
図1に記載の試料、すなわちGME上に位置するARDを保有する種1の菌株由来の大多数のDNAを含有する試料に適用される本発明を例示するが、分類学的データベースは、種1のそのような特徴を有する任意の代表的なゲノムを格納していない。ARD領域に入る読み取りは、網羅的ARDデータベースに対して読み取りをマッピングすることによって検索され、ARDの範囲外にある読み取りは、分類学的データベースに対する、読み取りの分類学的ビニングによって検索される。次いで、試料中に見いだされた各病原体について(ここでは種1のみ)、種1として同定された読み取り及びARDに対してマッピングされた読み取りが一緒にプールされアセンブルされる。読み取りの「クリッピング」の特徴、すなわち、ARDデータベースに対してマッピングするとき、いくつかの読み取りがそれらの全長に整列しないという事実のため、種1の染色体とARDとの間の接合部に入る読み取り(
図3aにおいて点線セグメントとして表される読み取り)もまた検索されるであろう。そのような読み取りは、アセンブリが完成すること、すなわちARDが種1の染色体に組み込まれることを可能にする(
図2のアセンブリを参照)。
【0021】
一実施態様によれば、マーカーの内側に入る読み取りの少なくとも一部は、20bp以上、好ましくは25bp以上、より好ましくは50bp以上の長さを有する。言い換えれば、標準的なアセンブラは、前記読み取りのごく一部のみがARDデータベースと整列している場合でも、既知の病原体ゲノム又はマーカーに、読み取りを良い確率で割り当てることに成功する。
【0022】
一実施態様によれば、読み取りは、L>75であるLbpの平均長を有し、前記マーカーにまたがっている読み取りは、[1;L-55]bpの範囲において、前記マーカーの範囲外にある部分を有する。一実施態様によれば、読み取りは、L>100であるLbpの平均長を有し、前記マーカーにまたがっている読み取りは、[1;L-80]bpの範囲において、前記マーカーの範囲外にある部分を有する。一実施態様によれば、読み取りは、L>100であるLbpの平均長を有し、前記マーカーにまたがっている読み取りは、[1;L-50]bpの範囲において、前記マーカーの範囲外にある部分を有する。
【0023】
一実施態様によれば、前記マーカーにまたがっている読み取りは、前記マーカー内に入る第1の部分と前記マーカーの範囲外にある第2の部分とを有し、ここで、第2の部分の長さは、ARDデータベース性能に対するマッピングに基づいて選択され、特に、正しいマッピング性能(正しいARDに対する読み取りの許容可能な割合)を維持しつつ、最大化される。一実施態様において、第2の部分の長さは、ARDデータベースとの良好なアラインメントの確率、又は「真の的中」を得る確率が70%以上、好ましくは80%以上となるように選択される。
【0024】
一実施態様によれば、一組の読み取りと第2のデータベースとの比較は、前記一組の他の読み取りとは独立して、第2のデータベースの病原性マーカーについての各読み取りのマッピングを含む。
【0025】
一実施態様によれば、配列決定はペアエンド配列決定であり、かつ、読み取りがマーカーに割り当てられる場合、前記読み取りを補完するものである読み取りもプールに含まれる。
【0026】
一実施態様によれば、生成されたコンティグが既知のマーカーに割り当てられた読み取りのみを含む場合、前記既知の病原性マーカーは以下:
[式中、D
ARDは既知のマーカーに割り当てられた読み取りの配列決定深度中央値であり、D
pathは既知の病原体に割り当てられた読み取りの配列決定深度中央値であり、好ましくは>1である]の場合に既知の病原体のゲノムの一部であると決定される。
【0027】
一実施態様によれば、本方法は、コンティグを16SrDNA配列及び/又はmetaphlan2マーカーと比較する工程をさらに含み、ここで、既知の病原体は前記比較に基づいて確認される。
【0028】
一実施態様によれば、試料はヒト又は動物から採取され、ここで、第1のデータベースは細菌叢及び宿主ゲノムも含み、かつ、細菌叢及び宿主ゲノムに割り当てられた読み取りは除外される。
【0029】
一実施態様によれば、メタゲノム試料は、気管支肺胞洗浄試料、尿試料又は血液試料である。
【0030】
一実施態様によれば、病原性マーカーは、抗生物質耐性マーカー又はビルレンスマーカーである。
【0031】
本発明の別の目的は、コンピューターによって実行される方法を実行するための命令を格納するコンピューター可読媒体であり、該方法は、
- 一組の読み取りを既知の細菌性病原体に割り当てるために、メタゲノム試料から抽出されたDNAの配列決定によって生成された一組の読み取りを、既知の病原体のゲノムを含む第1のデータベースと比較すること;
- 前記既知の病原体の中の病原体に割り当てられた少なくとも読み取りを含む読み取りのプールを生成し、かつ、少なくとも1つのアセンブルされたデジタル核酸配列、又は「コンティグ」を生成するために、プール内で読み取りをアセンブルすること、
- 生成されたコンティグが既知のマーカーを含むかどうかを調べるために、生成されたコンティグを既知の病原性遺伝子マーカーの第2のデータベースと比較すること
を含む。
【0032】
本発明によれば、
- 本方法は、一組の読み取りを既知の病原性マーカーに割り当てるために、前記一組の読み取りを第2のデータベースと比較する工程を含み、
- プールはまた、既知のマーカーに割り当てられた読み取りを含み、これにより、コンティグは、既知の病原体に割り当てられた読み取り及び既知の病原性マーカーに割り当てられた読み取りからアセンブルされる。
【0033】
前記コンピューター可読媒体は、前述の方法を実行するための命令を格納する。
【図面の簡単な説明】
【0034】
本発明は、添付の図面と関連して、以下の非限定的な説明からよりよく理解されるであろう。
【
図1】
図1は、可動遺伝要素(MGE)上に位置するARDを検索するための従来技術の分類学に基づいたパイプラインの限界を示す。
【
図2】
図2は、ARDを検索するための本発明によるパイプラインの能力を示すが、特にMGE上に位置するARDの場合は、参照データベースはこの機能をコード化していない。
【
図3】
図3は、本発明によるメタゲノム方法のフローチャートである。
【
図4】
図4は、ARDデータベースに対してマッピングされたARD読み取りについてのBWA-MEMの性能、特に、ARDの塩基数の増加に伴って、読み取りに対して正しいバリアントを検索する確率を示す。
【
図5】
図5は、ARDデータベースに対してマッピングされた読み取りを示す。
【
図6】
図6は、ARDを病原体に関連づけるためのARDの後処理を示す。
【
図7】
図7は、本発明を埋め込むためのコンピューターシステムを示す概略図である。
【発明を実施するための形態】
【0035】
本発明の実施態様は、集中治療室(ICU)の患者からの(ミニ)気管支肺胞洗浄(BAL)に含まれる病原体、特に人工呼吸器関連肺炎(VAP)の特徴づけに関連して説明される。目的は、試料中に存在する全ての病原体、並びに抗生物質耐性決定因子を列挙し、可能であればARDを病原体に関連づけることである。
【0036】
図3を参照すると、10において、BAL試料が患者から採取され、その後、試料に含まれる病原体からの核酸抽出のために12において処理される。この調製は、一例として、連続的に以下:
- 例えば文書の米国特許出願公開第2015/0337362号に記載されているような、サポニン製剤を用いた宿主細胞除去工程;
- 溶解工程、例えば、試料中の細胞の膜を破壊し、それによってそれらの核酸含有物を放出し、プロテアーゼを添加することによってタンパク質を破壊し、RNaseを添加することによってRNAを破壊する、機械的、酵素的又は浸透圧溶解;
- 濃縮塩を添加してタンパク質、脂質及びRNAを凝集させること、及び凝集した破片を除去するために遠心分離することからなる濾過工程;及び
- 例えば、文書の米国特許第5234809号に記載されているような磁性ケイ酸ビーズに基づくBoom(登録商標)技術、エタノール沈殿、フェノール-クロロホルム抽出又はミニカラム精製を使用して、DNA含有物を収集するための精製工程
を含む。
【0037】
抽出されたDNAはその後、全ゲノム配列決定HTS技術、例えば、ショットガン技術を用いて14において配列決定され、該技術は、
- NA分子を150-300対の塩基(bp)、例えば250bpの断片に無作為に剪断することからなるライブラリー調製工程;
- 断片の増幅工程、例えばポリメラーゼ連鎖反応(PCR)(固相ブリッジ増幅、ビーズエマルジョン増幅など);
- 断片中の塩基の配列を決定するための配列決定工程
を含む。
【0038】
それによって、一組の読み取りが生成され、16においてコンピューターシステムのメモリに格納される。
【0039】
DNA配列決定は、好ましくは、断片の両端を読み取るHTS技術を使用して、例えば、Illumina(登録商標)染料配列決定を使用して、例えば、Miseq WGSペアエンド配列決定技術を使用して、例えば、“Metagenomics: Tools and Insights for Analyzing Next-Generation Sequencing Data Derived from Biodiversity Studies”, Bioinform Biol Insights, 2015に記載されているように実施される。読み取りの両端を配列決定することは、読み取りのアセンブリをより容易にし、分類学的データベースがARDを有する代表的なゲノムを含まない場合、特定の病原体のゲノムへのARDの組み込みを特に容易にする。
【0040】
次に、本発明によるバイオインフォマティクスパイプライン18を読み取りに対して実行して、試料中の病原体を列挙し、それらのゲノムが抗生物質耐性決定因子を保有するかどうかを調べる。
【0041】
パイプライン18の第1の工程20は、読み取りの前処理(通常、「品質管理」(QC)と呼ばれる)、すなわち、
- 配列決定の目的のためにDNA断片に連結されたアダプター及び増幅のために使用されたプライマーに対応する読み取りを除去するための処理。例えば、Illumina(登録商標)技術に関しては、「Trimmomatic」ツールが使用される(Bolger et al., “Trimmomatic: A flexible trimmer for Illumina Sequence Data”, Bioinformatics. 2014);
- 例えば、「String Graph Assembler」(SGA)ツールのエラー修正モジュールを使用して、読み取りの呼び出しエラーを修正する、又は過度に破損している読み取りを除去する処理(Simpson and Durbin, “Efficient de novo assembly of large genomes using compressed data structures”, Genome Research, 2012)
からなる。
【0042】
パイプライン18は22に続き、
- a)人工呼吸器関連肺炎の一般的な原因となる病原体の参照ゲノム配列(例、黄色ブドウ球菌(S aureus)、肺炎球菌(S pneumoniae)、大腸菌(E coli)、肺炎桿菌(K pneumoniae)など);b)中咽頭細菌叢に一般的に見られる細菌の参照ゲノム配列;及びc)ヒトの参照ゲノム配列を含む分類学的データベースに対する残りの読み取りの分類学的ビニング、
- 病原体に割り当てられる読み取りの選択、それによって細菌叢又はヒトにのみ割り当てられる読み取りを除去すること
を含む。
【0043】
分類学的ビニングのために、2つのアプローチ、例えば、「Kraken」ツール(Wood and Salzberg, “Kraken: ultrafast metagenomic sequence classification using exact alignments”, Genome Biology, 2014)、「Wowpal Wabbit」ツール(Vervier et al., “Large-scale machine learning for metagenomics sequence classification”, Bioinformatics, 2015)などの組成アプローチ、又は「BWA-MEM」ツール(Li,“Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM”, Genomics, 2013)などの比較アプローチが具体化され得る。好ましくは、読み取りが、分類学的データベースに格納されたこの病原体の代表的ゲノムに完全にマッピングされる場合、読み取りは病原体に割り当てられる。
【0044】
パイプライン18はまた、目的のARDを含むARD参照データベースに対する各読み取りのマッピング24を含む。特に、次の場合に読み取りがARDに割り当てられる。
- 読み取りが完全にARDにマッピングする場合;又は
- 読み取りがARDにまたがっており、ARD上にマッピングするARDの部分が読み取りをARDに割り当てるのに十分である場合
にARDに割り当てられ;又は
- ペアエンド配列決定の場合、ペアの一方の読み取りが完全にARDに入るか、又はARDにまたがっていると、2番目の読み取りが自動的にARDに割り当てられる。
【0045】
図4は、ARD内の読み取りの塩基数に従って、ARD内に入る読み取りについて、ARDを検索する確率を示す。1つの注記として、ARD上にマッピングする50bpの長さは、このARDに読み取りを正確に割り当てるのに十分である(又は、言い換えれば、50bpの長さは、読み取りがARDを有するゲノム部分から由来することを決定するのに十分である)。ARD内の読み取りを検索する確率は、ARDの外側の250bpを有する読み取り及びARD内の50bpを有する読み取りについて80%、ARDの外側の読み取りについて83%であることが示された。この特定の例では、[0、L-50]bpの範囲の長さを有するARDの外側の部分を有する読み取りがARDに割り当てられ、ここでLはARDの長さである。例えば、100bpを超える平均読み取り長では、50を超えるARDの外側の長さを持つ読み取りがARDに割り当てられる。
【0046】
通常、「Kraken」及び「Vowpal Wabbit」などの計算ツールは、それらがクリッピングを許可しないため(つまり、読み取りがまたがっているときに割り当てられることを許可するため)、参照配列にまたがる読み取りを見つけることができない。従って、「BWA-MEM」などの比較ツールが、クリッピングを許可する非デフォルトのモードを有しているため、使用される。しかしながら、前記ツールは、ARDの外側の長さ(「クリップ長(clipped length)」)又はARDの内側の長さ(「マッピング長」)を設定するためのパラメータを有していない。しかしながら、これらの長さは、BWA-MEMの設定パラメータに依存する。それらの長さの設定は、以下:
- BWA-MEMの設定パラメータを、例えば、Jaillard et al., “Optimization of alignment-based methods for taxonomic binning of metagenomics reads”, Bioinformatics2016に記載されている実験的アプローチを用いて変更すること;
- パラメータ設定から導出されたクリップ長及びマッピング長、並びにARDに成功裏に割り当てられた読み取りの割合を調べること;
- 70%を超える、好ましくは80%を超える、連続して(successively)検索されるARDの割合を有する最大のクリップ長を可能にするBWA-MEMのパラメータ値を選択すること
によって行われる。
【0047】
たとえば、BWA-MEMは、非デフォルトパラメータ「-a -T 0 -k 16 -L 5 -d 100」を用いて実行され、[0、L-50]bpの範囲のクリップ長を有するARDに割り当てられた読み取りにつながる。
【0048】
好ましい実施態様において、たとえ読み取りがDNA断片の配列決定のために使用された技術(例えば、WGSペアエンド配列決定技術)のために対になっているとしても、その読み取りはARDデータベースに対して独立してマッピングされる。よく知られているように、先行技術の割り当て工程において、読み取りは、それがデータベースに対してマッピングする場合だけでなく、その対応物の読み取りがマッピングするときにも通常ARDに割り当てられる。しかしながら、「適切なペア」でマッピングする読み取りを保持するだけの場合、つまりペアの両方の読み取りがARDデータベースにマッピングされる場合、典型的なARDの長さ(~1000bp)よりも小さい挿入サイズのペアエンド読み取りのみを取得する。例えば、
図5では、「読み取り2.1」と「読み取り2.2」のみが適切なペアでマッピングされて検索されるが、これらは両方ともARDに入るためである。独立してマッピングされている場合は、「読み取り1.1」、「読み取り2.1」、及び「読み取り2.2」も検索される。
【0049】
有利には、読み取りがARD上にマッピングされると、その対応物の読み取りがこのARD上に自動的に割り当てられる。
図5の例では、「読み取り2.2」が割り当てられるため、ARD上にマッピングされていない「読み取り1.2」がARDに自動的に割り当てられる。「読み取り1.2」は病原体の染色体領域に入るので特に有用であり、分類学的ビニングによって検索された読み取りと共に、それは後述するように全領域、染色体及びARDを再構築するために使用することができる。
【0050】
パイプライン18はプールする工程26に続く。特に、読み取りに関連する各病原体について、読み取りのプールが作成され、前記プールは、前記病原体に割り当てられた読み取り及びARDに割り当てられた全ての読み取りを含む。前述のように、ペアの一方の読み取りがARDデータベースに対してマッピングされている場合、もう一方の読み取りはARDデータベースにも割り当てられるため、自動的にプールに含まれる。現在のアセンブラが低すぎる又は高すぎる配列決定深度ではうまく機能しないと仮定すると、平均配列決定深度が3以上の病原体のみがアセンブリのために考慮される。配列決定深度が150より大きい場合、無作為な一組の病原体読み取りが、150に等しい最終的な平均配列深度を有するように、前記病原体に割り当てられた読み取りの全組の中から選択される。
【0051】
次いで、コンティグを生成するために、作成された各読み出しプールに対してアセンブリ工程28が実施される。例えば、アセンブリ工程は、「IDBA-UD」(Peng et al., “IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth”, Bioinformatics, 2012), 「MegaHit」(Li et al., “MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph.”, Bioinformatics, 2015), 「Omega” (Haider et al., “Omega: an Overlap-graph de novo Assembler for Metagenomics”, Bioinformatics, 2014), 「Ray Meta」 (Boisvert et al., “Ray Meta: scalable de novo metagenome assembly and profinling”, Genome Biology, 2012), 「Spades」 (Bankevich et al., “SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing.”, Journal of Computational Biology, 2012)、又は 「Meta-Velvet-SL」 (Afiahayati et al., “MetaVelvet-SL: an extension of the Velvet assembler to a de novo metagenomic assembler utilizing supervised learning”, DNA Reasearch, Oxford journal, 2012)などの「de novo」アセンブリを実行する。アセンブリは、それぞれが固有の病原体に対応する読み取りのプールについて行われ、いくつかの微生物を含む全メタゲノムについて直接行われるのではないことに留意されたい。それを考えれば、IDBA-UD及びSpadesは最高性能を提供し、従って好まれる。IDBA-UD及びSpadesのパラメータは、例えばデフォルトパラメータであり、つまり、それぞれ「idba_ud500 --mink 40 --maxk maxReadLength --min_pairs 2」及び「spades.py --careful --cov-cutoff 3」である。
【0052】
従って、アセンブリ工程28は、分類学的データベースの特定の病原体に予備的に割り当てられた一組のコンティグ(通常は「アセンブリ」と呼ばれる)(これらのコンティグは1つ又は複数のARDを含み得る)に各読み取りのプールを変換する。
【0053】
好ましい実施態様において、アセンブリ工程は以下の工程:a)読み取りが最初にSGAにより前処理されること(それがQC工程20で行われなかった場合)、b)その後、de novoアセンブラを使用してアセンブルされること、c)元の読み取りは、アセンブリを完成させるためにコンティグに対してマッピングされること(すなわち、最終的なアセンブリエラーを取り除く)を含む。特に、読み取りのペアがどれもコンティグに対してマッピングしない場合、コンティグは破棄される。
【0054】
パイプライン18の次の工程30は、コンティグの組に基づいて病原体の同一性を確認し、同定された病原体のゲノム内のARDを同定することからなる。具体的には、コンティグの各組について、次の工程:
- 種の確認。そのために、16S rDNA遺伝子(病原体のゲノムに含まれるので分類学的データベースの一部である)の存在が、例えば「BLAST」アラインメントアルゴリズムを用いて各アセンブリにおいて検索される(Altschul et al., “Basic local alignment search tool”, Journal of molecular biology, 1990)。16S rDNA遺伝子のコピーがコンティグにおいて見いだされた場合、最高の的中が分類学的ビニング工程22で同定された病原体に対応するかどうかを調べる。アセンブリ中の16S rDNA遺伝子の複数のコピーの場合、最高の的中の少なくとも1つが工程22において同定された病原体に対応するかどうかを調べる。a)16SrDNAのコピーがアセンブリ中に見いだされない場合、又はb)16SrDNAのコピーがアセンブリに関連する病原体に対応しない場合、前記アセンブリは主要なパイプライン分析から破棄される。aの場合には、しかしながら、アセンブリはさらなる調査のためにメモリに保存される。この保守的な判断により、少量で存在し、おそらくアセンブリが完了していない病原体を見逃すことが避けられる。
- ARDの同定。そのために、例えばBLASTアラインメントアルゴリズムを使用してコンティグ中に存在するARDを同定することにより、各アセンブリをARDデータベースに列挙されたARD(1つ又は複数)の存在について分析する。各ARDについて、少なくとも最高の的中が報告される
が実施される。
【0055】
16SrDNA配列ではなく、「Metaphlan2」マーカーが同一性確認に使用され、それらのマーカーは、例えば、Segata et al., “Metagenomic microbial community profiling using unique clade-specific marker genes”, Nature Methods, 2012に記載されている。
【0056】
次いで、ARDを病原体に関連づけるために、同定されたARDを処理するため、最終処理工程30が実行される。各アセンブリにおいて、ARDにより注釈が付けられたコンティグに対してマッピングされた読み取りの起点が分析される。ARDを含むコンティグ上にマッピングする読み取りのいくつかが、病原体RDBに対する分類学的ビニングから得られた場合には(工程20)、結果として、ARDは病原体に決定的に関連づけられる。実際には、ARDを含むコンティグに対してマッピングされた読み取りの総数の少なくとも5%は、工程20から来ることが必要とされる。
【0057】
しかしながら、アセンブリは、工程20から得られないARDコンティグを含み得る。例えば、
図6を参照すると、「コンティグ2」及び「コンティグ3」の場合、コンティグ上にマッピングされた全ての読み取りは、ARDデータベースに対する読み取りのマッピングから得られる(工程24)。従って、ARDと病原体とを正式に関連づけることは不可能である。第一の理由は、ARDが病原体のゲノムの一部ではないという事実にある。しかしながら、それらのコンティグは事実上病原体ゲノムに対応し得る。確かに、ARDが特定のMGE、すなわちプラスミドに位置することが起こり得る。そのような場合、定義により、ARDは病原体の染色体に対応するコンティグに組み込まれないが、独立したコンティグを構成する。好ましい実施態様において、処理工程30は、ARDの配列決定深度中央値(D
ARD)と病原体の配列決定深度中央値(D
path)とを比較することによって、ARDを病原体に対してより小さい証拠により関連づけ、ここで配列決定深度中央値とは、アセンブリの各位置にマッピングされている読み取りの数の分布の中央値である(アセンブリ工程28の工程cで得られる)。D
ARDは、ARDの各位置にてマッピングする読み取りの数の分布の中央値であり、D
pathは、病原体のアセンブリの各位置にてマッピングする読み取りの数の分布の中央値である。具体的には、ARDは、最も近い平均配列決定深度を有する病原体(1つ又は複数)に関連している。
図6の例では、「コンティグ2」に位置する「ARD2」は「種1」に割り当てるべきであり(「コンティグ2」の配列決定深度中央値は4であり、「種1」の配列決定深度中央値は4であるため)、一方、「コンティグ3」に位置する「ARD3」は、「種2」に割り当てるべきである(「コンティグ3」の配列決定深度中央値は75であり、「種2」の配列決定深度中央値は8であるため)。実際には、ARDは病原体のゲノム中にいくつかのコピーで存在する可能性があるので、ARDは、ARD配列決定深度中央値の1/3から3の間、好ましくは1より大きい配列決定深度中央値を有する全ての種に割り当てられる。
【0058】
最後に、メタゲノミクス分析は、パイプライン18の結果の格納、特に、同定された病原体の一覧及びそれらに関連づけられたARD、及び/又はそれらの結果のコンピューター画面上への表示を含む情報/格納工程34で終了する。
【実施例】
【0059】
検証試験
本発明によるメタゲノム分析の3つの検証試験が行われた。最初の検証試験は、in silico模擬メタゲノムに依存し(検証試験1)、2番目の検証試験は、培養同定のみが利用可能である、3つの陽性miniBALメタゲノム試料の一組である(検証試験2)、3番目の検証試験は、利用可能な同定及びASTプロファイルを有する2つの陽性BALメタゲノム試料の一組である(検証試験3)。全ての評価について、分類学的ビニング及びARDビニングのためにKrakenが使用され(工程22、24)、アセンブリのためにIDBA-UDが使用される(工程28)。
【0060】
検証試験1
21個のメタゲノムがシミュレートされており、それぞれが21個の選択された病原体のうちの1個を含む(表1参照)。各メタゲノムは、主な病原体からの300000の読み取りペア、及び細菌叢ゲノムからの15000の読み取りペアを含む。シミュレーションのために使用したゲノムは、実在する公開ゲノムである。読み取りは、Illumina MiSeqエラーモデルに従って、2*300bpのペアエンド読み取りとV2ケミストリーを用いてシミュレートされる。表1は、21個の模擬メタゲノムについて使用した菌株、各菌株に存在するARDの数、従来技術のパイプライン(「P1」)によって検索されるARDの数、及び本発明によるパイプライン(「P1+2」)によって検索されるARDの数を示す。結果は明らかに元のゲノムに存在していた全てのARDを検索することを可能にする新しいパイプラインを支持している。
【0061】
検証試験2
表2において、両方のパイプラインが、試料中に存在する病原体を検索することができる、すなわち古典的な微生物学的培養によって確認され得ることに留意されたい。しかしながら、パイプライン1は任意のARDを同定しないが、一方、新しいパイプラインは試料ごとに1個から3個のARDを同定する。ARDはアスタリスクによりマークされており、病原体に関連づけられることが確認される(ARDを含むコンティグに対してマッピングされた読み取りのいくつかはKrakenから来ている)。パイプライン1は、試料2において肺炎桿菌(K.pneumoniae)も同定することに留意されたい。しかしながら、16S rDNAのコピーはアセンブリ中に見いだされず、ゲノムのサイズは1.2Mbであり、これは肺炎桿菌ゲノム(通常約5Mb)に対して比較的小さく、従って、それは偽陽性であるかもしれない。
【0062】
検証試験3
表3において、両方のパイプラインが非常に類似した結果をもたらし、少なくとも同定した結果に関しては、古典的微生物学と整合性のある結果をもたらしていることに留意されたい。どちらのパイプラインでも同様の結果が得られ、おそらく、検索されたARDが2つの病原体の参照配列に存在するからであり、すなわち、AmpCはエンテロバクター・エロゲネス(E.aerogenes)の参照配列中に、かつANT(9)-1Aは黄色ブドウ球菌(S.aureus)の参照配列中に存在しなければならない。
【0063】
図7は、本発明によるパイプラインを実行するコンピューターシステムを示す。前記システムは、上記のデータベース(分類学的データベース、ARDデータベース)並びに読み取りを記憶するデータベースを含む。これらのデータベースは、計算ユニット、例えば、パーソナルコンピューター、タブレット、スマートフォン、サーバ、コンピューターのネットワーク、及びより一般的には、1つ若しくは複数のマイクロプロセッサ及び/又は1つ若しくは複数のマイクロコントローラを含む任意のシステム、例えばデジタル信号プロセッサ、並びに/又は、上記のように読み出しのデジタル処理を実行するように構成された1つ若しくは複数のプログラム可能なロジックデバイスに接続されている。コンピューターユニットは、取得した分布を格納するためのコンピューターメモリ(RAM、ROM、キャッシュメモリ、大容量メモリ)、本発明による方法を実行するための命令、及び中間及び最終計算、特に病原体の一覧とそれらに関連するARDを含む。コンピューターユニットは、一覧及びARDを表示するための画面をさらに含む。