(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-13
(54)【発明の名称】細菌発生の疫学的識別および監視のための方法
(51)【国際特許分類】
G16H 50/80 20180101AFI20220906BHJP
C12Q 1/689 20180101ALN20220906BHJP
C12Q 1/6851 20180101ALN20220906BHJP
【FI】
G16H50/80
C12Q1/689 Z
C12Q1/6851 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022500704
(86)(22)【出願日】2020-07-02
(85)【翻訳文提出日】2022-03-01
(86)【国際出願番号】 EP2020068611
(87)【国際公開番号】W WO2021008878
(87)【国際公開日】2021-01-21
(32)【優先日】2019-07-12
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】304043936
【氏名又は名称】ビオメリュー
【氏名又は名称原語表記】BIOMERIEUX
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】カネコ, ギャエル
(72)【発明者】
【氏名】ギゴン, ジスレーヌ
【テーマコード(参考)】
4B063
5L099
【Fターム(参考)】
4B063QA01
4B063QA18
4B063QQ06
4B063QQ42
4B063QR08
4B063QR55
4B063QR62
4B063QS25
4B063QS34
4B063QX02
5L099AA03
(57)【要約】
本発明は、細菌発生を検出し監視するための方法に関し、収集された菌株およびデータベースからの菌株は、それらのゲノム距離が第1の所定の閾値を下回る場合、細菌発生に属し、それらのゲノム距離が第1の閾値を厳密に上回る第2の所定の閾値を上回る場合、細菌発生に属さず、またはそれらの遺伝子距離が中間にある場合、細菌発生に属する可能性がある、と予測することを含む。第1の閾値は、第3の閾値以上であり、したがって、第3の閾値を下回るゲノム距離を有する2つの菌株が細菌発生に属するという予測は、最大の特異性を有する。第2の閾値は、第4の閾値以下であり、したがって、第4の閾値を上回るゲノム距離を有する2つの菌株が細菌発生に属さないという予測は、最大の感度を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
地理的区域内の細菌種と関連する、細菌発生を検出し監視するための方法であって、
前記地理的区域内でサンプリングされ、前記細菌種に属する菌株のデジタルゲノムを取得することと、
前記細菌種に属する菌株の少なくとも1つのデジタルゲノムを含む「疫学的」と呼ばれるデータベースのデジタルゲノムから取得された前記デジタルゲノムのゲノム距離を計算することと、
以下、すなわち、
サンプリングされた前記菌株および前記データベースの前記菌株は、それらのゲノム距離が第1の所定の閾値を下回る場合、前記細菌発生に属すること、
サンプリングされた前記菌株および前記データベースの前記菌株は、それらのゲノム距離が第1の閾値よりも厳密に高い第2の所定の閾値を上回る場合、前記細菌発生に属さないこと、または
サンプリングされた前記菌株および前記データベースの前記菌株は、それらのゲノム距離が前記第1の閾値と前記第2の閾値との間にある場合、前記細菌発生におそらく属すること、
を予測することと、
を含み、前記方法によれば、
前記第1の閾値が第3の閾値以上であり、したがって、前記第3の閾値を下回るゲノム距離を有する2つの菌株が前記細菌発生に属するという予測が、最大の特異性を有し、
前記第2の閾値が第4の閾値以下であり、したがって、前記第4の閾値を上回るゲノム距離を有する2つの菌株が前記細菌発生に属さないという予測が、最大の感度を有する、方法。
【請求項2】
前記第1および前記第2の閾値が、
前記細菌種に属する菌株のデジタルゲノムの学習データベースを構成することであって、前記ベースが、
全く同一の細菌発生に属すると事前に決定され、「関連株対」としてタグ付けされた菌株対と、
全く同一の細菌発生に属さないと事前に決定され、「非関連株対」としてタグ付けされた菌株対とを含む、学習データベースを構成することと、
2つの菌株が、それらのゲノム距離を第5の閾値に対して比較することにより、関連付けられるまたは関連付けられないと予測するために構成されたバイナリ予測因子を選択することと、
第5の閾値の値の所定の集合に属する第5の閾値の値ごとに、
学習データベースの関数としての前記予測因子の混同行列と、
前記混同行列の関数としての前記予測因子の第1の品質指標であって、前記予測因子の感度および特異性と異なる、第1の品質指標と、
前記混同行列の関数としての、前記第1の指標とは異なる第2の品質指標であって、前記予測因子の前記感度および特異性の前記第1の指標と異なる、第2の品質指標とを計算することと、
前記第1の指標を最適化する第5の閾値の第1の値、および前記第2の指標を最適化する第5の閾値の第2の値を見つけることと、
前記第1の閾値を、第5の閾値の前記第1および第2の値の最小値に等しく設定し、前記第2の閾値を、第5の閾値の前記第1および第2の値の最大値に等しく設定することと、
によって計算された2つのゲノム距離に等しい、請求項1に記載の方法。
【請求項3】
前記第1の指標が、前記学習データベースにおける、関連株対の数と関連株対の数との間の不均衡を考慮して選択される、請求項2に記載の方法。
【請求項4】
前記第1の指標が、マシューズ相関係数またはF1スコアである、請求項3に記載の方法。
【請求項5】
前記第2の指標が、ユーデン指標である、請求項2から4のいずれか一項に記載の方法。
【請求項6】
前記予測因子は、
真陽性が、前記第5の閾値を下回るゲノム距離を有する前記関連株対に対応し、
偽陰性が、前記第5の閾値を上回るゲノム距離を有する前記関連株対に対応し、
偽陽性が、前記第5の閾値を下回るゲノム距離を有する前記非関連株対に対応し、
真陰性が、前記第5の閾値を上回るゲノム距離を有する前記非関連株対に対応する、
ように選択される、請求項2から5のいずれか一項に記載の方法。
【請求項7】
前記疫学的データベースが、前記学習データベースを含む、請求項2から6のいずれか一項に記載の方法。
【請求項8】
前記ゲノム距離が、正規化された距離である、請求項1から7のいずれか一項に記載の方法。
【請求項9】
2つの菌株間の前記ゲノム距離が、
主に、前記株の前記デジタルゲノムに共通である遺伝子座の集合において選択することと、
前記共通の遺伝子座における、前記株の2つの前記デジタルゲノム間の、対立遺伝子の差異の数を数えることと、
前記差異の数を共通の前記遺伝子座の数で割ることと、
によって計算される、請求項8に記載の方法。
【請求項10】
第5の閾値の前記第1および第2の値が、0.1を上回る場合、
前記第2の閾値が、0.1に等しく設定され、
前記第1の閾値が、max(D
g\D
g<0.2)に等しく設定され、ここで、max(D
g\D
g<0.2)が、関連株対の中で最大ゲノム距離であり、厳密に0.2を下回る、請求項9、および請求項4または5に記載の方法。
【請求項11】
前記デジタルゲノム間の距離が、マーカのデータベース、具体的には、遺伝子のまたはSNPのデータベースwgMLST、cgMLST、MLSTの関数として計算される、請求項1から10のいずれか一項に記載の方法。
【請求項12】
サンプリングされた株が前記細菌発生に属すると予測された場合、前記疫学的データベースにおいて、前記細菌発生の前記菌株に対して「関連」している、および他の菌株に対して「非関連」である、としてタグ付けされる、請求項1から11のいずれか一項に記載の方法。
【請求項13】
サンプリングされた株がおそらく前記細菌発生に属すると予測された場合、前記サンプリングされた株が実際に前記発生に属するかを決定するために、前記株の追加の特性決定が実行され、属する場合、前記サンプリングされた菌株が、前記疫学的データベースにおいて、前記細菌発生の前記菌株に対して「関連」している、および他の菌株に対して「非関連」である、としてタグ付けされる、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記第1および前記第2の閾値が、定期的におよび/またはN個の新たな株が前記疫学的データベースに追加された直後に再計算され、ここで、Nが1以上の整数である、請求項1から13のいずれか一項に記載の方法。
【請求項15】
株が前記細菌発生に属すると予測される場合、前記発生を阻止するために予防策が講じられる、請求項1から14のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、細菌疫学分野に関し、詳細には、菌株のゲノム、具体的には菌株のDNAおよび/またはRNAの部分的または全体配列決定に応じた、細菌発生の検出および監視に関する。
【背景技術】
【0002】
感染性の細菌発生の検出は従来、対象(たとえば、患者および拡張動物による)から採取されたいくつかの菌株が、対象間の同一株の最近の伝播、たとえば「ソース」対象からいくつかの対象への株の伝播、または対象から対象への株の伝播に由来するかを決定することから構成される。古典的微生物学的器具に基づいて、検出は、通常2ステップで実行される。
a.第一に細菌発生を疑う。この疑念は、サンプリングされた株が同一の細菌種に属し、共通の表現型特性、たとえば病原性細菌の同一または類似の耐性記録を共有している場合に、生じる。
b.疑われる場合、これらの株が実に対象間の伝播に由来することを論証または無効にすることを目的として疫学的調査を実施する。この種類の調査は、具体的には、サンプリング対象が最近接触したか、全く同一の場所(たとえば、全く同一の手術室または全く同一の病室)を共有したか、全く同一の介護者に介護されたか、を調べることから構成される。この種類の調査は通常、長時間で手間が掛かり、人手もかかる。そのうえ、調査は、通常たとえば、部屋または部門を隔離状態に置く、または手術室を閉鎖するなどの予防策が調査終了前に導入されるので、伝染病の対象であることが疑われる機関または会社の運営に大きな混乱をもたらし得る。
【0003】
この状況で、完全な細菌ゲノムは、古典的微生物学的技術によってもたらされるものよりも遥かに高いレベルの情報を含むので、配列決定の出現、特にWGS(完全ゲノム配列決定)型の配列決定は、細菌疫学において注目すべき発展に相当する。疫学的研究に着手することを決定するための基準がより正確であるのみならず、加えて、ゲノミクスの使用がやはり、後工程を大幅に単純化し正規化し得る。たとえば、数日おいて同じ病院の部門内のサンプルで見つかった色ブドウ球菌の2つの株が、ゲノムの立場から厳密に同一である場合、2つの株が全く同一の細菌発生の一部を実に形成することが、追加情報なしに決定され得る。
【0004】
配列決定が注目すべき発展であることを示したが、そのまま、それが種類に関わらず、2つの菌株の系統を決定することを可能にすることはできない。実際、一定の細菌種は、数日の間に非常に速く進化する成形的なゲノムを有し、抗生物質治療が使用された場合はなおさらそうであり、その結果、ゲノム間での厳密な識別情報は、唯一の基準として使用されることができない。この成形力を考慮するために、細菌発生を検出するための方法は、2018年12月のJ.Simsonらの「Beyond the SNP threshold: identifying outbreak clusters using inferred transmission」という論文で説明されているように、たとえば単一ヌクレオチドの多形数の関数として計算された、それらのゲノムの差異が、所定の閾値より低い場合、菌株が全く同一の発生に属するかを評価することから構成されるが、この手法は、たとえば、細菌が進化する状況、または種類に応じた突然変異率の可変性などの、多くの不確実性源のためにむしろ不正確である。この論文の著者は、したがって、菌株および菌株の突然変異および伝播のメカニズムについての演繹的な知識情報を含む、サンプルの収集の時間配列を考慮することも提案している。
【0005】
疫学的予測モデルをより複雑にすることに加えて、単一の閾値の使用は、必然的に感度と予測の特異性との間の困難な妥協に導く。一方では、細菌発生に帰すること(assignment to)の予測が、感度が高すぎるが、あまりにも非特異的である場合、事象の伝染病特性の反証に導く疫学的調査をトリガすることは、あまりにも頻繁であり、そのことは、資源、作業、予算の点から大きなコストを伴う。他方で、発生に帰することの予測が、低感度である場合、細菌発生は、検出されず、健康、たとえば患者または消費者の健康の点で、深刻な結果を伴う。
【発明の概要】
【0006】
本発明の目的は、細菌のゲノムの比較に基づいて、細菌発生を識別し、監視するための方法を提案することであり、それは、感度および特異性に関して自由を提供する一方で、菌株の細菌発生に帰することの予測における、不確実性源を明示的に考慮する。
【0007】
この目的に関して、本発明は、地理的区域内の細菌種と関連する、細菌発生を検出し監視するための方法に関し、
- 地理的区域内でサンプリングされ、細菌種に属する菌株のデジタルゲノムを取得することと、
- 細菌種に属する菌株の少なくとも1つのデジタルゲノムを含む「疫学的」と呼ばれるデータベースのデジタルゲノムを使用して取得されたデジタルゲノムのゲノム距離を計算することと、
-○ サンプリングされた菌株およびデータベースの菌株は、それらのゲノム距離が第1の所定の閾値を下回る場合、細菌発生に属すること、
○ サンプリングされた菌株およびデータベースの菌株は、それらのゲノム距離が第1の閾値よりも厳密に高い第2の所定の閾値を上回る場合、細菌発生に属さないこと、または
○ サンプリングされた菌株およびデータベースの菌株は、それらのゲノム距離が第1の閾値と第2の閾値との間にある場合、細菌発生におそらく属すること、
を予測することと、
を含み、前記方法によれば、
- 第1の閾値は、第3の閾値以上であり、したがって、第3の閾値を下回るゲノム距離を有する2つの菌株が細菌発生に属するという予測は、最大の特異性を有し、
- 第2の閾値は、第4の閾値以下であり、したがって、第4の閾値を上回るゲノム距離を有する2つの菌株が細菌発生に属さないという予測は、最大の感度を有する。
【0008】
いいかえれば、2つの異なる閾値は、方法の感度および特異性を制御するために使用され、下方の閾値は、株が細菌発生に属するという予測の特異性(以下「属性の特異性」)を制御するために使用され、上方の閾値は、この予測の感度(以下「属性の感度」)を制御するために使用される。これらの2つの閾値間の区域は、したがって、ゲノム距離に基づいた予測に内在する不確実性を考慮するために特異的に提供されている。具体的には、属性の特異性および感度を最大化するために前もって適用される、第3および第4の閾値は、これらの閾値を学習するために不完全または不十分に分散しているデータ、突然変異のメカニズムが細菌種内でどれが異種であるかを知らないこと、ゲノム比較方法の選択のための方法の不正確さ、または疫学的調査からもたらされた感染中心の特性決定のそれ以外の誤差のために、株が全く同一の発生に属するか否かを知ることが難しい区域を画定する。この不確実性区域は、ユーザに伝染病管理における柔軟性を提供する。具体的には、株が中間区域にある場合、疫学的調査および細菌発生を抑制するための予防策をトリガする、細菌発生への属性の予測とは対照的に、ユーザは、完全な疫学的調査が着手されるべきか否かを決定するために、たとえばサンプルが取得された患者のファイルを使用してクロスチェックして、またはそれらの抗生物質耐性源、それらの毒性寄与遺伝子、もしくは種の生物多様性におけるそれらの系統学的位置、を分析することによって、予備的調査を設定し得る。また、第3および第4の閾値間の区域は、一定の事例では、広すぎる可能性があるため、これらの閾値に基づく予測は、最適でない。第3および第4の閾値間に厳密に含まれる区域を画定する、第1および第2の閾値は、細菌発生への属性または非属性の予測の分析的最適化を可能にする。
【0009】
一実施形態によれば、第1および第2の閾値は、
- 細菌種に属する菌株のデジタルゲノムの学習データベースを構成することであって、前記データベースが、
○ 全く同一の細菌発生に属すると事前に決定され、「関連株対」としてタグ付けされた菌株対と、
○ 全く同一の細菌発生に属さないと事前に決定され、「非関連株対」としてタグ付けされた菌株対と、を含む、構成することと、
- 2つの菌株が、それらのゲノム距離を第5の閾値に対して比較することにより、関連付けられるまたは関連付けられないと予測するために構成されたバイナリ予測因子を選択することと、
- 第5の閾値の値の所定の集合に属する第5の閾値の値ごとに、
○ 学習データベースの関数としての前記予測因子の混同行列と、
○ 混同行列の関数としての予測因子の第1の品質指標であって、予測因子の感度および特異性と異なる、第1の品質指標と、
○ 混同行列の関数としての、第1の指標とは異なる第2の品質指標であって、第1の指標、予測因子の感度および特異性と異なる、第2の品質指標と、を計算することと、
- 第1の指標を最適化する第5の閾値の第1の値、および第2の指標を最適化する第5の閾値の第2の値を見つけることと、
- 第1の閾値を、第5の閾値の第1および第2の値の最小値に等しく設定し、第2の閾値を、第5の閾値の第1および第2の値の最大値に等しく設定することと、
によって計算された2つのゲノム距離に等しい。
【0010】
いいかえれば、属性の最大特異性および特異性に基づく予測は、学習データベースに記憶された利用可能な疫学的データに関する最適な予測を必ずしも構成しない。バイナリ予測品質を最適化する第1および第2の閾値を計算することによって、実際には、伝染病事象の管理の最適化が取得される一方で、可能性のある細菌発生のユーザへの警告を続けるための十分に広い中間区域を保持する。
【0011】
一実施形態によれば、第1の指標は、学習データベースにおける、関連株対の数と関連株対の数との間の不均衡を考慮して選択される。具体的には、第1の指標は、マシューズ相関係数またはF1スコアである。通常、細菌発生に関するデータ、すなわち関連すると見なされる株の数は、関連しないと見なされる株よりも大幅に少ない。この不均衡を明示的に考慮する品質指標を使用することによって、予測のより良好な最適化が、獲得される。さらに、マシューズ係数またはF1スコアに対応する閾値は、特異性を支持するが、特異性のみを考慮するわけではない。
【0012】
一実施形態によれば、第2の指標は、ユーデン指標である。特異性および感度を明示的に考慮する、この指標は、重要データに対してその学習が通常実行される非属性の予測が、自然に最適化されることを可能にする。データベースの不均衡は、ユーデン指標が感度によってより影響される効果を有し、特異性は、第3および第4の閾値の間の完全な間隔において1に近い。
【0013】
一実施形態では、予測因子は、
- 真陽性は、第5の閾値を下回るゲノム距離を有する関連株対に対応し、
- 偽陰性は、第5の閾値を上回るゲノム距離を有する関連株対に対応し、
- 偽陽性は、第5の閾値を下回るゲノム距離を有する非関連株対に対応し、
- 真陰性は、第5の閾値を上回るゲノム距離を有する非関連株対に対応する、
ように選択される。
【0014】
一実施形態によれば、疫学的データベースは、学習データベースを含む。いいかえれば、学習データベースは、方法が適用されたとき補足され、データベースがサイズを増大させるにつれて、多様な閾値を改善することを可能にする。
【0015】
一実施形態によれば、ゲノム距離は、正規化された距離である。より具体的には、2つの菌株間のゲノム距離は、
- 主に遺伝子座の集合において選択することであって、遺伝子座が前記株のデジタルゲノムに共通である、選択することと、
- 共通の遺伝子座における、前記株の2つのデジタルゲノム間の、対立遺伝子の差異の数を数えることと、
- 前記差異の数を共通の遺伝子座の数で割ることと、
によって計算される。
【0016】
共通の遺伝子座の数によって正規化することにより、配列決定誤差の効果が、具体的には、菌株における遺伝子座を識別しないことの事実が、減じられる。
【0017】
好ましい実施形態によれば、第5の閾値の第1および第2の値は、0.1を上回る場合、
- 第2の閾値は、0.1に等しく設定され、
- 第1の閾値は、max(Dg\Dg<0.2)に等しく設定され、ここでmax(Dg\Dg<0.2)は、関連株対の中で最大ゲノム距離であり、厳密に0.2を下回る。
【0018】
具体的には、発明者らは、学習データベースが不完全または不十分な多様性であるために通常取得される0.1を上回る値は、学習の失敗をもたらすことを見いだした。本発明者らはさらに、好適な学習データベースという状況で、第1および第2の閾値は、0.1以下であることを示した。2つの閾値のうちの1つは、したがって、この上限で固定される。さらに、発明者らは、同一のサブタイプの2つの株は、非常に大多数において、0.2未満のゲノム距離を有することを見いだした。したがって、max(dr\dr<0.2)に等しい他の閾値を、後者よりも大きいゲノム距離を有する2つの株に設定することで、これらの株は、同一の細菌のサブタイプに属さず、したがって伝染病を疑うための重要な指標を構成する、同一の発生に属さないことが予測される。したがって、データは、第1および第2の閾値を正確に計算するために、やはり不十分であるにもかかわらず、ユーザは、初期設定で所望の処理ができる方法を有する。
【0019】
一実施形態によれば、デジタルゲノム間の距離は、マーカのデータベース、具体的には遺伝子のまたはSNPのデータベースwgMLST、cgMLST、MLSTの関数として計算される。
【0020】
一実施形態によれば、サンプリングされた株が、細菌発生に属すると予測された場合、疫学的データベースにおいて、細菌発生の菌株に対して「関連」している、および他の菌株に対して「非関連」である、としてタグ付けされる。
【0021】
一実施形態によれば、サンプリングされた株が、おそらく細菌発生に属すると予測された場合、サンプリングされた株が実際に前記発生に属するかを決定するために、前記株の追加の特性決定が実行され、属する場合、サンプリングされた菌株は、疫学的データベースにおいて、細菌発生の菌株に対して「関連」している、および他の菌株に対して「非関連」である、としてタグ付けされる。
【0022】
一実施形態によれば、第1および第2の閾値は、定期的におよび/またはN個の新たな株が疫学的データベースに追加された直後に再計算され、ここでNは、1以上の整数である。
【0023】
一実施形態によれば、株が細菌発生に属すると予測される場合、発生を阻止するために予防策が講じられる。
【0024】
本発明は、以下に示されており、純粋に例示として与えられている説明を読むことおよび同一の参照が同一の構成要素を示す添付の図面を参照することにより、より良好に理解されるであろう。
【図面の簡単な説明】
【0025】
【
図1】本発明による方法の実施形態のフローチャートである。
【
図2】学習データベースに記憶されている菌株間の相応関係の表である。
【
図3】2つの菌株の関連または非関連状態を予測するバイナリ予測因子の混同行列である。
【
図4】関連株対の数の分布および非関連株対の数の分布の、それらのゲノム距離および
図3の混同行列を計算するために使用された閾値Tiに応じた図である。
【
図5】本発明による方法によって使用されたゲノム距離にわたる種々の閾値を示す図である。
【
図6】本発明による方法を実行するためのコンピューティングおよび配列決定システムの図である。
【
図7】AおよびBは、細菌種クロストリジウムディフィシレに関する、非関連株対の数(上の分布)および関連株対の数(下の分布)の分布図であり、Bは、Aの0~0.1の拡大図である。
【
図8】AおよびBは、クロストリジウムディフィシレ種に関する、感度、特異性、精度、正確度(すなわち、(TP+TN)/(N+P))、F1スコア、ユーデン指標、およびマシューズ相関係数を含む品質指標の種々の最適値に対してのゲノム距離を示す図であり、Bは、
図7Bの0~0.1の拡大図である。
【
図9】AおよびBは、細菌種黄色ブドウ球菌に関する、非関連株対の数(上の分布)および関連株対の数(下の分布)の分布図であり、Bは、Aの0~0.1の拡大図である。
【
図10】AおよびBは、黄色ブドウ球菌種に関する、感度、特異性、精度、正確度、F1スコア、ユーデン指標、およびマシューズ相関係数を含む品質指標の種々の最適値に対してのゲノム距離を示す図であり、Bは、Bの0~0.1の拡大図である。
【発明を実施するための形態】
【0026】
以下において、厳密に規定されない限り、「下回る(below)」または「未満(less than)」は、「以下」を意味し、「上回る(above)」または「より大きい(greater than)」は、「以上」を意味する。
【0027】
本発明の実施形態が、ここで、病院における特定の細菌種の感染の微生物学的中心の検出および監視と関連して説明されることになる。
【0028】
図1を参照すると、この方法は、どのゲノム比較が、菌株が細菌発生に属するか否かの判定のために実行されたかに基づいて、S1およびS2で示されている少なくとも2つの閾値を学習する第1のステップ10と、ステップ10で学習された閾値でパラメータ化された、本発明による方法を実行する第2のステップ20と、を含む。より具体的には、方法は、BSiおよびBSjで示されている2つの株の間の、D
g(BSi,BSj)で示されているゲノム距離の比較に基づく。
【0029】
ステップ10は、12において、
- 種に属する種々の株BS1、BS2、BS3,...,BSNのデジタルゲノムと、
-
図2で示されている、データベースの各株を他の株の全てにリンクする対応表であって、データベース内の2つの株間の各リンクは、2つの株が全く同一の細菌発生に属していると事前に判定されている場合は「関連」状態(黒四角)を、および2つの株が全く同一の細菌発生に属していないと事前に判定されている場合は「非関連」状態(白四角)を推定し得、2つの株間のリンク状態は、たとえば、事前の疫学的調査中に判定される。さらに、自体に対する株のリンクは、「関連」状態で一定である。
図2で分かるように、問題となっている種のいくつかの感染の中心は、学習データベース内の株の「関連」および「非関連」状態を判定するために考慮され得る。以下で説明されることになるが、学習データベースはさらに、「関連」していると判定されているが、どの細菌発生にも属すると診断されていない株を含み得る。前記表はさらに、学習データベースの株BSiおよびBSjの各対間のゲノム距離D
g(BSi,BSj)を収容することが好ましい、対応表と、
- それらの関連付けられた株と識別された感染の中心の全てを列挙する表と、
- 株BS1、BS2、BS3,...,BSNの、抗生物質耐性源(細菌の感度または抗生物質耐性に寄与する遺伝子マーカの集合)および毒性寄与遺伝子(細菌の毒性に寄与する遺伝子マーカの集合)と、
を含む、問題となっている種の学習データベースを生成することから開始する。
【0030】
菌株のゲノムは、
- 株を有する患者からサンプルを採取することと、
- たとえば、菌株のコロニーを成長させるために、サンプルを寒天培養基上に散布し培養することによって、株の分離株を準備することと、
- コロニーの一部を採取し、配列決定用に調べられる量を準備すること(たとえば、細菌のDNAを解放する溶解、必要に応じて解放されたDNAの増幅、およびそれを必要とする配列決定技術用ライブラリの準備)と、
- たとえば、カリフォルニア州サンディエゴの企業Illumina Inc.から入手可能な「MiSeq」配列決定プラットフォームを用いるなど、「次世代配列決定」型の技術を使用して、一般に「リード」と呼ばれるデジタル配列を生成するように、好ましくは完全なDNAの配列決定(またはWGS配列決定)を行うことと、
- 任意選択で、「コンティグ」という用語によって知られている、アセンブリされた配列を生成するようにリードをアセンブリすることと、
- wgMLST(「完全ゲノム多遺伝子座配列決定形式」)技術によって、一般に「wgMLSTプロファイル」と呼ばれる、コンティグのまたはリードの形態にあるゲノムの特性決定することと、
によって取得されることが好ましい。それ自体が知られているように、この特性決定は、所定の遺伝子座の集合からゲノムにおける遺伝子座を位置決めすること、および識別された遺伝子座ごとに、この遺伝子座に相当する対立遺伝子を決定することから構成される。wgMLST技術は、たとえば、2013年にNature Reviews Microbiologyに掲載されたMartin C.J. Maidenによる「MLST revisited: the gene-by-gene approach to bacterial genomics」という文献で説明されている。
【0031】
学習は、学習データベースに応じた閾値S1およびS2の計算によって継続される。より具体的には、この計算は、
- ゲノム距離D
g(BSi,BSj)にわたってゲノム距離の空間をわずか2つの間隔に分割する単一の閾値Tに基づいて、2つの株の細菌発生への属性または非属性の第1の予測因子f
T
を
- ゲノム距離D
g(BSi,BSj)にわたってゲノム距離の空間を、3つの間隔に分割する2つの閾値S1およびS2に基づいて、2つの株の細菌発生への属性または非属性の第2の予測因子g
S1,S2
に変換することから構成される。
【0032】
好ましい変形形態では、第1の予測因子f
Tは、
のように規定され、
第2の予測因子は、
のように規定される。
【0033】
好ましくは、ゲノム距離D
g(BSi,BSj)は、正規化された距離であり、そのため0~1であり、
a.2つの株BSiおよびBSjのwgMLSTプロファイルにおいて、それらが共通して有する遺伝子座を識別することと、
b.少なくとも1つの対立遺伝子の差異が見いだされた場合、共通の遺伝子座ごとに、2つの株間に対立遺伝子の差異が存在するかを判定し、この場合、対立遺伝子の差異のカウンタComptを1ずつ増加させることと、
c.以下の式からD
g(BSi,BSj)を計算することと、
によって計算され、ここでN
lcは、共通の遺伝子座の数である。
【0034】
閾値S1およびS2の計算は、14において、たとえば、10
-4の増分を有する0~1の閾値Tの値の集合{T1,T2,...,TM}の値Tiの各々ごとに、バイナリ予測因子f
Tの混同行列MC(Ti)を計算することによって開始する。
図3で示されている混同行列(Ti)の計算は、閾値Tiに対しては、
図4で示されており、
- D
g(BSi,BSj)≦Tiであるようなデータベース内の関連株対の総数に等しい、「TPis」で示されている真陽性と、
- D
g(BSi,BSj)>Tiであるようなデータベース内の関連株対の総数に等しい、「FNi」で示されている偽陰性と、
- D
g(BSi,BSj)≦Tiであるようなデータベース内の非関連株対の総数に等しい、「FPi」で示されている偽陽性と、
- D
g(BSi,BSj)≦Tiであるようなデータベース内の非関連株対の総数に等しい、「TNi」で示されている真陰性と、
をカウントすることから構成される。
【0035】
混同行列{MC(T1),MC(T2,...,MC(TM))}の集合が計算されると、方法は、16において、
図5で示されている異なる閾値の計算、
- 予測因子f
Tの特異性が最大であるような、したがって2つの株が関連するという予測の特異性が最大であるような、すなわち
であり、ここでNは、非関連株対の数である、閾値S3と、
- 予測因子f
Tの感度が最大であるような、したがって2つの株が非関連であるという予測の感度が最大であるような、すなわち
であり、ここでPは、関連株対の数である、閾値S4と、
- 予測因子f
Tの第1の品質指標を最適化し、感度および特異性と異なり、数PおよびN間の不均衡を明示的に考慮し、マシューズ相関係数(MCC)であることが好ましい、すなわち
である、閾値S1と、
- 予測因子f
Tの第2の品質指標を最適化し、感度および特異性と異なり、ユーデン指標であることが好ましい、すなわち
である、閾値S2と、
を用いて継続する。
【0036】
閾値S1およびS2の品質を検査するステップ18が、次に実行される。より具体的には(記号「\」は、「であるような」を意味する)、
- 閾値S1およびS2が、0.1以下である場合、それらは保存され、学習データベースは、それらの計算およびそれらの後続の使用に適していることを意味し、
- 閾値S1およびS2が、0.1を上回り、または1%未満で異なる場合、それらの値は、0.1およびM=max(Dg(BSi,BSj)\(Dg(BSi,BSj)<0.2)に固定され、ここでmax(Dg(BSi,BSj)\(Dg(BSi,BSj)<0.2)は、この場合において、学習データベース内の関連株対間で0.2に最も近い最大ゲノム距離であり、
- 閾値S1またはS2のうちの1つが0.1より大きい場合、この閾値は、このとき最小値0.1に、およびこの最小値が他の閾値と異なる(たとえば、1%よりも大きく異なる)場合、max(Dg(BSi,BSj)\(Dg(BSi,BSj)<0.2)に固定され、そうでなければ、この閾値は、これらの2つの値の最大値に固定される。
【0037】
簡略化するために、以下に、閾値S1は、閾値S2を下回り、その結果
図4で説明されているように、これらの閾値が、ゲノム距離の空間を3つの間隔に分割することを仮定することになる。
- 下方の間隔]0,S1]。2つの株間のゲノム距離がこの間隔に含まれる場合、これらの株は、「関連」していると予測される。(g
S1,S2=1)
- 上方の間隔]S2,1]。2つの株間のゲノム距離がこの間隔に含まれる場合、これらの株は、「非関連」であると予測される。(g
S1,S2=-1)
- 中間の間隔]S1,S2]。2つの株間のゲノム距離がこの間隔に含まれる場合、これらの株は、「潜在的に関連」していると予測される。(g
S1,S2=0)
【0038】
閾値S1およびS2は次に、ここで説明されているステップ20を実行するために使用されるコンピュータシステムのコンピュータメモリ内に記憶され、前記システムは、学習データベースをさらに含む。細菌の伝染病の性質を検出し監視するために病院内で実行されるステップ20は、たとえば、患者が細菌感染によって影響を及ぼされた直後に組織的に実行され、環境サンプルは、病原性細菌または病院内の別の患者と同一または類似している症状を呈する患者を含む。他の基準が、当然、このステップを開始するために使用され得る。
【0039】
ステップ20は、22において、病原性株を含むサンプルを採取することから開始し、このサンプリングがまだ実行されていない場合は継続し、24において、株の配列を決定し、そのwgMLSTプロファイルをステップ12に関連して説明されたように確立することから開始する。26において、サンプリングされた株と学習データベース内の株の各々との間のゲノム距離D
g(BSi,BSj)が、次に計算される。次に28において、第1の疫学的診断が出される。より具体的には、
- サンプリングされた株が、データベース内のどの株にも関連しない場合、すなわち、データベース内のどんな株であっても、サンプリングされた株からのゲノム距離D
g(BSi,BSj)が、閾値S2を上回る場合、サンプリングされた株は、いずれの細菌発生にも属さないことが決定される。
- サンプリングされた株が、データベース内の株と関連する場合、すなわちこれらの2つの株が、閾値S1以下のゲノム距離D
g(BSi,BSj)を有する場合、ユーザの注意のために警報がトリガされ、より深い疫学的調査30が開始され、同様に適用可能な場合、病院内でサンプリングされた株の伝播と闘うための予防策が開始される。
- サンプリングされた株が、データベース内の株に潜在的に関連する(
図1で「関連?」で示されている)場合、すなわち、これらの2つの株が、閾値S1とS2との間のゲノム距離D
g(BSi,BSj)を有する場合、補助的分析が、34において、これらの2つの株間のリンクに関する不確実性を除去するために実行される。サンプリングされた株の抗生物質耐性源および毒性寄与遺伝子が決定され、次に、潜在的に関連する株の抗生物質耐性源および毒性寄与遺伝子と比較されることが好ましい。抗生物質耐性源および毒性寄与遺伝子が同調している場合、株は関連していると判断され、警報がトリガされ、より深い調査30が実行される。そうでない場合、株は、非関連であると判定される。最後に、この比較が問題を解決しない場合は、より深い調査30が実行される。たとえば、サンプルの採取とデータベース内の株の取得との間で経過する時間、成形的な遺伝子内の異なるSNPの数などのような他のデータが、この補助調査で使用され得る。
【0040】
それ自体が知られているように、病院の疫学チームによって実施される調査30の目的の1つは、病院内でサンプリングされた種々の株が、伝染病を構成するかを判定することである。この調査の完了において、種々の株間のリンク、すなわち「関連」または「非関連」が、決定的に確立される。さらに、伝染病が検出された場合、伝染病の株は、この伝染病に応じてやはりタグ付けされる。サンプリングされた株のゲノム、wgMLSTプロファイル、抗生物質耐性源および毒性寄与遺伝子、データベース内の他の株とのそのリンク、ならびに細菌発生に関するデータは、次に、後に使用され得るように学習データベース内に記憶される。閾値S1およびS2は、したがって、それらの値を改善するために、定期的にまたはデータベースへの新たな登録ごとに、更新され得る。
【0041】
図6は、本発明による方法を実行するためのコンピューティングおよび配列決定システム40を示している。システム40は、サンプル44の細菌DNAを配列決定するための配列決定プラットフォーム42を含み、したがって、デジタルシーケンスの集合または「リード」を生成する。プラットフォーム42は、データ処理ユニット46、たとえばシーケンスを受信し任意選択でコンティグを生成するためにリードをアセンブリするためのプログラムを適用するパーソナルコンピュータに、接続されている。また、ユニット46は、たとえば、クラウドソリューションの形態で、サービスとしてのソフトウェア(または「Saas」)を使用して、リモートサーバ48に接続される。「フロントエンド」ソフトウェアが動作するユニット46は、サーバ48に、プラットフォーム42によって配列決定されたゲノムを、リードまたはコンティグの形態で、送信する。情報サービスが「バックエンド」の形態で動作し、学習データベース50に接続されているサーバ48は、ゲノムを受信し、本発明による方法の処理ステップを実行し(たとえば、
図1のステップ14~18および24~32)、サーバは、コンピュータメモリに、これを実行するために必要な命令セットを、記憶する。サーバは、処理結果をユニット46に、報告52の形態で、返送する。システム40は、ユニット42に接続されている1つまたは複数のサーバ54をさらに備え、これらのサーバは、具体的には、患者および疫学的データを記憶するコンピュータシステムのサーバであり、これらのデータは、疫学的細菌発生を特徴づけるための、より深い調査で使用される。
【0042】
図7および9は、それぞれクロストリジウムディフィシレ(
図7Aおよび7B)ならびに黄色ブドウ球菌(
図9Aおよび9B)種の関連株対および非関連株対の数の分布を示している。これらの図から分かるように、ゲノム距離が大きい(たとえば、0.6を上回るクロストリジウムディフィシレの)関連株対およびゲノム距離が小さい(たとえば、0.2を下回る黄色ブドウ球菌の)非関連株対が存在している。したがって、単一の閾値が使用される場合、ゲノム距離が、「関連」状態または「非関連」状態の両方に関してコードし得る区域が存在する。この中間区域は、自然に存在し、たとえば、全く同一のサブタイプに属するが、全く同一の細菌発生に属すると判定されていない、株に対応する。また、
図8A~Bおよび10A~Bから、ゲノム距離の空間を3つに分割するための閾値S3(「特異性」で示されている最大特異性)およびS4(「感度」で示されている最大感度)を選択することに関して、中間区域は、大きく良好な数の株が、潜在的に関連していると判定されることが観測される。予測の品質を最適化する、閾値S1(たとえば、マシューズ係数MMCを最大化する)およびS2(たとえば、ユーデン指標を最適化する)を使用して、中間区域は大幅に低減され、一方、全体的に感度を非常に良好に維持することに留意されたい。
【0043】
病院内での病原性細菌の疫学に対する出願が説明された。当然、本発明は、本出願に限定されず、産業(たとえば、飲食物産業における制御)、環境、および獣医学の微生物学的制御の分野で使用され得る。
【0044】
ゲノム距離を計算するためのwgMLSTプロファイルの使用が説明された。cgMLST(「コアゲノム多遺伝子座配列決定形式」)プロファイル、MLST、SNPのまたは遺伝子の集合などの、他のプロファイルが使用され得る。
【0045】
ユーデン指標およびマシューズ相関係数の使用が説明された。たとえば、F1スコア(すなわち、2TP/(2TP+FP+FN))、係数χ1、正確度(すなわち、(TP+TN)/(N+P))、精度(すなわち、TP/(TP+FP))などの他の品質指標が、使用され得る。これらの指標のうちの少なくとも1つが、データベースの不均衡を考慮することが好ましい。
【0046】
サンプリングされた株と比較するためにも使用される、学習データベースが説明された。変形形態として、個別のデータベース、または「疫学的データベース」が、サンプリングされた株を処理するために使用され得る。そのようなデータベースは、たとえば、病院、機関、企業などに適しており、学習データベースは、このとき、閾値の値を確立するためだけに使用される。
【国際調査報告】