IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ライフマイン セラピューティクス, インコーポレイテッドの特許一覧

特表2024-545738非組み込み標的遺伝子の発見のための方法及びシステム
<>
  • 特表-非組み込み標的遺伝子の発見のための方法及びシステム 図1
  • 特表-非組み込み標的遺伝子の発見のための方法及びシステム 図2
  • 特表-非組み込み標的遺伝子の発見のための方法及びシステム 図3
  • 特表-非組み込み標的遺伝子の発見のための方法及びシステム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-10
(54)【発明の名称】非組み込み標的遺伝子の発見のための方法及びシステム
(51)【国際特許分類】
   G16B 20/00 20190101AFI20241203BHJP
【FI】
G16B20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024556331
(86)(22)【出願日】2022-11-15
(85)【翻訳文提出日】2024-07-11
(86)【国際出願番号】 US2022079965
(87)【国際公開番号】W WO2023091950
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】63/264,150
(32)【優先日】2021-11-16
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.PYTHON
(71)【出願人】
【識別番号】520087055
【氏名又は名称】ライフマイン セラピューティクス, インコーポレイテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】ハッジトマス、ミハリス
(72)【発明者】
【氏名】キム、ジヌ
(72)【発明者】
【氏名】テオバルト、セバスチャン
(72)【発明者】
【氏名】ワイカ、スティーブン アンドリュー
(72)【発明者】
【氏名】マクフェイデン、イアン ジェイムス
(72)【発明者】
【氏名】ヴァーダイン、グレッグ
(57)【要約】
本開示は、比較ゲノミクス技術を用いて潜在的な治療標的のホモログである非組み込み標的遺伝子(nETaG)を含む、生合成遺伝子クラスタ(BGC)に関連する非組み込み遺伝子を同定するためのコンピュータベースの方法及びシステムに関する。生合成遺伝子クラスタ又はそれらのコア酵素による二次代謝産物をコードする遺伝子の共起及び/又は共進化に基づいて二次代謝産物の機能を予測すること、ならびに目的の活性を有する二次代謝産物を産生する生合成遺伝子クラスタの予測を含む、生合成遺伝子クラスタに関連する(ただし生合成遺伝子クラスタに組み込まれていない)遺伝子を同定すること及びその用途。
【特許請求の範囲】
【請求項1】
耐性遺伝子を同定するためのコンピュータ実装方法であって、
少なくとも1つの目的の標的配列の選択を受信することと、
ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られているか又は産生する可能性が高い生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、
複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、
少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、
系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、
陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:
i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;
ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;
iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびに
iv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、
から選択される少なくとも1つのゲノムパラメータを判定することと、
少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が耐性遺伝子である尤度を判定することと、
を含む、方法。
【請求項2】
推定耐性遺伝子が耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
少なくとも1つの目的の標的配列の選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、請求項1又は請求項2に記載のコンピュータ実装方法。
【請求項4】
少なくとも1つの目的の標的配列が、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
【請求項5】
少なくとも1つの目的の標的配列が、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
少なくとも1つの目的の標的配列が、哺乳動物配列、ヒト配列、植物配列、真菌配列、細菌配列、古細菌配列、ウイルス配列、又はそれらの任意の組み合わせを含む、請求項1~5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
少なくとも1つの目的の標的配列が、一次標的配列及び1つ以上の関連配列を含む、請求項1~6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
1つ以上の関連配列が、一次標的配列に機能的に関連する配列を含む、請求項7に記載のコンピュータ実装方法。
【請求項9】
1つ以上の関連配列が、一次標的配列に経路関連する配列を含む、請求項8に記載のコンピュータ実装方法。
【請求項10】
標的ゲノムの選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、請求項1~9のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
複数の標的ゲノムが、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む、請求項1~10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
ゲノミクスデータベースが、公開ゲノミクスデータベースを含む、請求項1~11のいずれか一項に記載のコンピュータ実装方法。
【請求項13】
ゲノミクスデータベースが、独自のゲノミクスデータベースを含む、請求項1~12のいずれか一項に記載のコンピュータ実装方法。
【請求項14】
少なくとも1つの標的配列のホモログを同定するための検索が、確率的配列アラインメントモデルに基づくホモログの同定を含む、請求項1~13のいずれか一項に記載のコンピュータ実装方法。
【請求項15】
確率的配列アラインメントモデルが、プロファイル隠れマルコフモデル(pHMM)である、請求項14に記載のコンピュータ実装方法。
【請求項16】
ホモログが、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される、請求項14又は請求項15に記載のコンピュータ実装方法。
【請求項17】
少なくとも1つの標的配列のホモログを同定するための検索が、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む、請求項1~16のいずれか一項に記載のコンピュータ実装方法。
【請求項18】
局所配列アラインメント検索ツールが、BLAST、DIAMOND、HMMER、Exonerate、又はggsearchを含む、請求項17に記載のコンピュータ実装方法。
【請求項19】
所定の閾値が、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む、請求項17又は請求項18に記載のコンピュータ実装方法。
【請求項20】
少なくとも1つの標的配列のホモログを同定するための検索が、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む、請求項1~19のいずれか一項に記載のコンピュータ実装方法。
【請求項21】
遺伝子及び/又はタンパク質ドメインアノテーションツールが、InterProScan又はEggNOGを含む、請求項20に記載のコンピュータ実装方法。
【請求項22】
少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成が、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされた(整列された)ホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む、請求項1~21のいずれか一項に記載のコンピュータ実装方法。
【請求項23】
アラインメントソフトウェアツールが、MAFFT、MUSCLE、又はClustalWを含む、請求項22に記載のコンピュータ実装方法。
【請求項24】
配列トリミングソフトウェアツールが、trimAI、GBlocks、又はClipKITを含む、請求項22又は請求項23に記載のコンピュータ実装方法。
【請求項25】
系統樹構築ソフトウェアツールが、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、又はPAUPを含む、請求項22~24のいずれか一項に記載のコンピュータ実装方法。
【請求項26】
系統樹の構築が、最尤アルゴリズム、節約アルゴリズム、隣接結合アルゴリズム、距離行列アルゴリズム、又はベイズ推定アルゴリズムに基づく、請求項22~25のいずれか一項に記載のコンピュータ実装方法。
【請求項27】
共起を示す1つ以上のスコアが、陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関の同定に基づいて決定される、請求項1~26のいずれか一項に記載のコンピュータ実装方法。
【請求項28】
陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することが、複数の標的ゲノム内のBGCコミュニティを同定するために、BGCの群についてアラインされたタンパク質配列、アラインされたヌクレオチド配列、アラインされたタンパク質ドメイン配列、又はアラインされたpHMMをクラスタ化するためのクラスタリングアルゴリズムの使用を含む、請求項27に記載のコンピュータ実装方法。
【請求項29】
陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することが、複数の標的ゲノム内のBGCコミュニティを同定するためのBGCの群についてのタンパク質配列又はタンパク質ドメインの系統解析の使用を含む、請求項27に記載のコンピュータ実装方法。
【請求項30】
陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することが、複数の標的ゲノム内のBGCコミュニティを同定するために特定の分類法でゲノムを選択することを含む、請求項27に記載のコンピュータ実装方法。
【請求項31】
推定耐性遺伝子及びBGCに関連する1つ以上遺伝子の共進化を示す1つ以上のスコアが、共進化相関スコア、共進化ランクスコア、共進化スロープスコア、又はそれらの任意の組み合わせに基づいて決定される、請求項1~30のいずれか一項に記載のコンピュータ実装方法。
【請求項32】
共進化相関スコアが、推定耐性遺伝子についてのオーソロガス群(COG)のクラスタのペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子についてのオーソロガス群(COG)のクラスタのペアワイズ配列同一性パーセントとの間の相関に基づく、請求項31に記載のコンピュータ実装方法。
【請求項33】
共進化ランクスコアが、推定耐性遺伝子を含むCOGについての昇順での、BGCに関連する1つ以上の遺伝子のうちの一遺伝子を含むCOGの相関係数のランキングに基づく、請求項31に記載のコンピュータ実装方法。
【請求項34】
距離スコアが同順位の場合、同順位内の全てのCOGに対するランクが、群内の最低ランクに等しく設定される、請求項33に記載のコンピュータ実装方法。
【請求項35】
共進化スロープスコアが、推定耐性遺伝子についてのCOGのペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子についてのCOGのペアワイズ配列同一性パーセントとの直交回帰に基づく、請求項31に記載のコンピュータ実装方法。
【請求項36】
陰性ゲノムから対応する遺伝子を除去した後に残る3つ以上の遺伝子を有する固有の陽性ゲノムから生じるCOGのみが、共進化相関スコア、共進化ランクスコア、又は共進化スロープスコアを評価するために使用される、請求項32~35のいずれか一項に記載のコンピュータ実装方法。
【請求項37】
同時制御を示す1つ以上のスコアが、BGCに関連する1つ以上の遺伝子の遺伝子間配列及び推定耐性遺伝子からのDNAモチーフ検出に基づく、請求項1~36のいずれか一項に記載のコンピュータ実装方法。
【請求項38】
共発現を示す1つ以上のスコアが、全体的トランスクリプトミクスデータの差次的発現分析及び/又はクラスタリング分析に基づく、請求項1~37のいずれか一項に記載のコンピュータ実装方法。
【請求項39】
生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子が、アンカー遺伝子、コアシンターゼ遺伝子、生合成遺伝子、BGCによって産生される二次代謝産物の生合成に関与しない遺伝子、又はそれらの任意の組み合わせを含む、請求項1~38のいずれか一項に記載のコンピュータ実装方法。
【請求項40】
推定耐性遺伝子が、推定組み込み標的遺伝子(pETaG)又は推定非組み込み標的遺伝子(pNETaG)である、請求項1~39のいずれか一項に記載のコンピュータ実装方法。
【請求項41】
耐性遺伝子が、組み込み標的遺伝子(ETaG)又は非組み込み標的遺伝子(NETaG)である、請求項1~40のいずれか一項に記載のコンピュータ実装方法。
【請求項42】
二次代謝産物の機能を予測するためのコンピュータ実装方法であって、
少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、二次代謝産物を産生することが知られている生合成遺伝子クラスタ(BGC)に関連する遺伝子配列に対応する、少なくとも1つの目的の標的配列の選択を受信することと、
ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、
複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、
少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、
系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、
陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:
i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;
ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;
iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびに
iv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、
から選択される少なくとも1つのゲノムパラメータを判定することと、
少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することと、
を含む、方法。
【請求項43】
推定耐性遺伝子が、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む、請求項42に記載のコンピュータ実装方法。
【請求項44】
少なくとも1つの目的の標的配列の選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、請求項42又は請求項43に記載のコンピュータ実装方法。
【請求項45】
少なくとも1つの目的の標的配列が、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む、請求項42~44のいずれか一項に記載のコンピュータ実装方法。
【請求項46】
少なくとも1つの目的の標的配列が、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む、請求項42~45のいずれか一項に記載のコンピュータ実装方法。
【請求項47】
標的ゲノムの選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、請求項42~46のいずれか一項に記載のコンピュータ実装方法。
【請求項48】
複数の標的ゲノムが、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む、請求項42~47のいずれか一項に記載のコンピュータ実装方法。
【請求項49】
ゲノミクスデータベースが、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含む、請求項42~48のいずれか一項に記載のコンピュータ実装方法。
【請求項50】
少なくとも1つの標的配列のホモログを同定するための検索が、確率的配列アラインメントモデルに基づくホモログの同定を含む、請求項42~49のいずれか一項に記載のコンピュータ実装方法。
【請求項51】
確率的配列アラインメントモデルが、プロファイル隠れマルコフモデル(pHMM)である、請求項50に記載のコンピュータ実装方法。
【請求項52】
ホモログが、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される、請求項50又は請求項51に記載のコンピュータ実装方法。
【請求項53】
少なくとも1つの標的配列のホモログを同定するための検索が、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む、請求項42~52のいずれか一項に記載のコンピュータ実装方法。
【請求項54】
所定の閾値が、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む、請求項53に記載のコンピュータ実装方法。
【請求項55】
少なくとも1つの標的配列のホモログを同定するための検索が、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む、請求項42~54のいずれか一項に記載のコンピュータ実装方法。
【請求項56】
少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成が、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む、請求項42~55のいずれか一項に記載のコンピュータ実装方法。
【請求項57】
少なくとも1つの目的の標的配列が、既知のNETaG配列又はコアシンターゼ遺伝子配列を含む、請求項42~56のいずれか一項に記載のコンピュータ実装方法。
【請求項58】
目的の活性を有する二次代謝産物を産生するための生合成酵素をコードする生合成遺伝子クラスタ(BGC)を同定するためのコンピュータ実装方法であって、
少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、目的の治療標的をコードする配列を含む、少なくとも1つの目的の標的配列の選択を受信することと、
ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、
複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、
少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、
系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、
陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:
i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;
ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;
iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびに
iv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、
から選択される少なくとも1つのゲノムパラメータを判定することと、
少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、耐性遺伝子によってコードされるタンパク質産物に作用する二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することと、
を含む、方法。
【請求項59】
推定耐性遺伝子が二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む、請求項58に記載のコンピュータ実装方法。
【請求項60】
少なくとも1つの目的の標的配列の選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、請求項58又は請求項59に記載のコンピュータ実装方法。
【請求項61】
少なくとも1つの目的の標的配列が、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む、請求項58~60のいずれか一項に記載のコンピュータ実装方法。
【請求項62】
少なくとも1つの目的の標的配列が、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む、請求項58~61のいずれか一項に記載のコンピュータ実装方法。
【請求項63】
標的ゲノムの選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、請求項58~62のいずれか一項に記載のコンピュータ実装方法。
【請求項64】
複数の標的ゲノムが、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む、請求項58~63のいずれか一項に記載のコンピュータ実装方法。
【請求項65】
ゲノミクスデータベースが、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含む、請求項58~64のいずれか一項に記載のコンピュータ実装方法。
【請求項66】
少なくとも1つの標的配列のホモログを同定するための検索が、確率的配列アラインメントモデルに基づくホモログの同定を含む、請求項58~65のいずれか一項に記載のコンピュータ実装方法。
【請求項67】
確率的配列アラインメントモデルが、プロファイル隠れマルコフモデル(pHMM)である、請求項66に記載のコンピュータ実装方法。
【請求項68】
ホモログが、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される、請求項66又は請求項67に記載のコンピュータ実装方法。
【請求項69】
少なくとも1つの標的配列のホモログを同定するための検索が、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む、請求項58~68のいずれか一項に記載のコンピュータ実装方法。
【請求項70】
所定の閾値が、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む、請求項69に記載のコンピュータ実装方法。
【請求項71】
少なくとも1つの標的配列のホモログを同定するための検索が、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む、請求項58~70のいずれか一項に記載のコンピュータ実装方法。
【請求項72】
少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成が、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む、請求項58~71のいずれか一項に記載のコンピュータ実装方法。
【請求項73】
目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験するためにインビトロアッセイを実施することを更に含む、請求項58~72のいずれか一項に記載のコンピュータ実装方法。
【請求項74】
目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験するためにインビボアッセイを実施することを更に含む、請求項58~73のいずれか一項に記載のコンピュータ実装方法。
【請求項75】
システムであって、
1つ以上のプロセッサと、
1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに請求項1~74のいずれか一項に記載の方法を実施させる命令を格納するように構成されたメモリと、
を含む、システム。
【請求項76】
1つ以上のプログラムを格納する非一時的コンピュータ可読記憶媒体であって、1つ以上のプログラムが、システムの1つ以上のプロセッサによって実行されると、システムに請求項1~74のいずれか一項に記載の方法を実施させる命令を含む、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月16日に出願された米国仮特許出願第63/264,150号の優先権の利益を主張し、その内容は参照によりその全体が本明細書に組み込まれる。
【0002】
分野
本開示は、一般に、生合成遺伝子クラスタ又はそれらのコア酵素による二次代謝産物をコードする遺伝子の共起及び/又は共進化に基づいて二次代謝産物の機能を予測すること、ならびに目的の活性を有する二次代謝産物を産生する生合成遺伝子クラスタの予測を含む、生合成遺伝子クラスタに関連する(ただし生合成遺伝子クラスタに組み込まれていない)遺伝子を同定するための方法及びシステム、ならびにその用途に関する。
【背景技術】
【0003】
微生物は、多様な化学構造及び機能を有する二次代謝産物又は天然産物として知られる多種多様な小分子化合物を産生する。いくつかの二次代謝産物は、微生物が有害な環境に耐えることを可能にするが、他のものは種間及び種内競合の武器として働く。例えば、Piel,J.Nat.Prod.Rep.,26:338-362,2009.を参照されたい。多くのヒト医薬品(例えば、抗菌剤、抗腫瘍剤、及び殺虫剤を含む)は、二次代謝産物に由来している。例えば、Newman D.J.and Cragg G.M.,J.Nat.Prod.,79:629-661,2016.を参照されたい。
【0004】
微生物は、生合成遺伝子クラスタ(BGC:biosynthetic gene clusters)と呼ばれる同じ場所に位置する遺伝子のクラスタによってコードされる酵素タンパク質を使用して二次代謝産物を合成する。いくつかの微生物生合成遺伝子クラスタは、クラスタによってコードされる酵素によって産生される関連生合成産物の合成に関与していないように見える遺伝子を含むという証拠が浮上している。場合によっては、そのような非生合成遺伝子は、宿主生物を関連する生合成産物に対して明らかに耐性にすることができるタンパク質をコードするため、「自己保護」として記載されている。例えば、場合によっては、生合成産物のトランスポーターをコードする遺伝子、生合成産物に作用する解毒酵素、又は生合成産物が活性を標的とするタンパク質の耐性変異体が報告されている。例えば、Cimermancic,et al.,Cell 158:412,2014;Keller,Nat.Chem.Biol.11:671,2015.を参照されたい。研究者らは、そのような遺伝子の同定及びそれらの機能の判定が、クラスタの酵素によって合成される生合成産物の役割を判定するのに有用であり得ることを提案している。例えば、Yeh,et al.,ACS Chem.Biol.11:2275,2016;Tang,et al.,ACS Chem.Biol.10:2841,2015;Regueira,et al.,Appl,Environ.Microbiol.77:3035,2011;Kennedy,et al.,Science 284:1368,1999;Lowther,et al.,Proc.Natl.Acad.Sci.USA 95:12153,1998;Abe,et al.,Mol.Genet.Genomics 268:130,2002を参照されたい。米国特許出願公開第2020/0211673号A1は、生合成遺伝子クラスタに存在するか、又はクラスタの生合成遺伝子に近接して位置する特定の遺伝子(特に真核生物、例えば真菌の生合成遺伝子クラスタでは、細菌の生合成遺伝子クラスタとは対照的である)が、治療目的の標的であるヒト遺伝子のホモログを表し得るという洞察を提供する。生合成遺伝子クラスタによって産生される二次代謝産物の合成に関与しないこのような遺伝子は、生合成遺伝子のクラスタ内に位置するか否かに応じて、「組み込み標的遺伝子」(「ETaG」)又は「非組み込み標的遺伝子」(NETaG)と呼ばれる。
【0005】
従来、二次代謝産物は、微生物培養物から同定され、目的のヒト標的に対する治療活性についてスクリーニングされてきた。しかしながら、大部分の微生物は培養可能ではなく、培養可能な微生物中のBGCでさえも、実験室条件下で転写的にサイレントのままであり得る。核酸及びタンパク質配列決定技術ならびにバイオインフォマティクスパイプラインにおける最近の発展により、微生物を培養し、BGCの生物活性を試験する必要なく、環境微生物から多数のBGCを迅速に同定することが可能になった。例えば、Palazzotto E.and Weber T.Curr.Opin.Microbiol.,45:109-116,2018.を参照されたい。しかしながら、純粋な計算方法を使用してBGCのゲノム境界を正確に定義することは依然として課題である。生合成遺伝子クラスタに関連する(ただし、生合成遺伝子クラスタ内に組み込まれていない)遺伝子を同定するため、又は二次代謝産物の機能を予測し、目的の活性を有する二次代謝産物を産生する生合成遺伝子クラスタを予測するために利用可能な計算パイプラインも存在しない。
【発明の概要】
【0006】
本明細書では、二次代謝産物の生合成経路をコードする生合成遺伝子クラスタ(BGC)からコアシンターゼ又は他の遺伝子に関連する耐性遺伝子(例えば、組み込み標的遺伝子(ETaG)及び/又は非組み込み標的遺伝子(NETaG))を同定するための例示的な方法及びシステムが開示される。記載された方法及びシステムはまた、例えば、耐性遺伝子(例えば、ETaG又はNETaG)と生合成遺伝子クラスタの遺伝子との共起及び/又は共進化に基づいて二次代謝産物の機能を予測すること、ならびに目的の活性を有する二次代謝産物を産生する生合成遺伝子クラスタを予測することにも使用され得る。
【0007】
耐性遺伝子を同定するためのコンピュータ実装方法であって、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られているか又は産生する可能性が高い生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が耐性遺伝子である尤度を判定することと、を含む、方法が本明細書で開示される。
【0008】
いくつかの実施形態では、推定NETaGが非組み込み標的遺伝子(NETaG)である尤度を判定することは、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む。
【0009】
いくつかの実施形態では、少なくとも1つの目的の標的配列の選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される。いくつかの実施形態では、少なくとも1つの目的の標的配列は、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、少なくとも1つの目的の標的配列は、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、少なくとも1つの目的の標的配列は、哺乳動物配列、ヒト配列、植物配列、真菌配列、細菌配列、古細菌配列、ウイルス配列、又はそれらの任意の組み合わせを含む。
【0010】
いくつかの実施形態では、少なくとも1つの目的の標的配列は、一次標的配列及び1つ以上の関連配列を含む。いくつかの実施形態では、1つ以上の関連配列は、一次標的配列に機能的に関連する配列を含む。いくつかの実施形態では、1つ以上の関連配列は、一次標的配列に経路関連する配列を含む。
【0011】
いくつかの実施形態では、標的ゲノムの選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される。いくつかの実施形態では、複数の標的ゲノムは、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、ゲノミクスデータベースは、公開ゲノミクスデータベースを含む。いくつかの実施形態では、ゲノミクスデータベースは、独自のゲノミクスデータベースを含む。
【0012】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、確率的配列アラインメントモデルに基づくホモログの同定を含む。いくつかの実施形態では、確率的配列アラインメントモデルは、プロファイル隠れマルコフモデル(pHMM)である。いくつかの実施形態では、ホモログは、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される。
【0013】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む。いくつかの実施形態では、局所配列アラインメント検索ツールは、BLAST、DIAMOND、HMMER、Exonerate、又はggsearchを含む。いくつかの実施形態では、所定の閾値は、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む。
【0014】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む。いくつかの実施形態では、遺伝子及び/又はタンパク質ドメインアノテーションツールは、InterProScan又はEggNOGを含む。
【0015】
いくつかの実施形態では、少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成は、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされた(整列された)ホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む。いくつかの実施形態では、アラインメントソフトウェアツールは、MAFFT、MUSCLE又はClustalWを含む。いくつかの実施形態では、配列トリミングソフトウェアツールは、trimAI、GBlocks、又はClipKITを含む。いくつかの実施形態では、系統樹構築ソフトウェアツールは、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、又はPAUPを含む。いくつかの実施形態では、系統樹の構築は、最尤アルゴリズム、節約アルゴリズム、隣接結合アルゴリズム、距離行列アルゴリズム、又はベイズ推定アルゴリズムに基づく。
【0016】
いくつかの実施形態では、共起を示す1つ以上のスコアは、陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関の同定に基づいて決定される。いくつかの実施形態では、陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することは、複数の標的ゲノム内のBGCコミュニティを同定するために、BGCの群についてアラインされたタンパク質配列、アラインされたヌクレオチド配列、アラインされたタンパク質ドメイン配列、又はアラインされたpHMMをクラスタ化するためのクラスタリングアルゴリズムの使用を含む。いくつかの実施形態では、陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することは、複数の標的ゲノム内のBGCコミュニティを同定するためのBGCの群についてのタンパク質配列又はタンパク質ドメインの系統解析の使用を含む。いくつかの実施形態では、陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することは、複数の標的ゲノム内のBGCコミュニティを同定するために特定の分類法でゲノムを選択することを含む。
【0017】
いくつかの実施形態では、推定耐性遺伝子及びBGCに関連する1つ以上遺伝子の共進化を示す1つ以上のスコアは、共進化相関スコア、共進化ランクスコア、共進化スロープスコア、又はそれらの任意の組み合わせに基づいて決定される。いくつかの実施形態では、共進化相関スコアは、推定耐性遺伝子についてのオーソロガス群(COG)のクラスタのペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子についてのオーソロガス群(COG)のクラスタのペアワイズ配列同一性パーセントとの間の相関に基づく。いくつかの実施形態では、共進化ランクスコアは、推定耐性遺伝子を含むCOGについて昇順でBGCに関連する1つ以上の遺伝子のうちの一遺伝子を含むCOGの相関係数のランキングに基づく。いくつかの実施形態では、距離スコアが同順位の場合、同順位内の全てのCOGに対するランクは、群内の最低ランクに等しく設定される。いくつかの実施形態では、共進化スロープスコアは、推定耐性遺伝子についてのCOGのペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子についてのCOGのペアワイズ配列同一性パーセントとの直交回帰に基づく。いくつかの実施形態では、陰性ゲノムから対応する遺伝子を除去した後に残る3つ以上の遺伝子を有する固有の陽性ゲノムから生じるCOGのみが、共進化相関スコア、共進化ランクスコア、又は共進化スロープスコアを評価するために使用される。
【0018】
いくつかの実施形態では、同時制御を示す1つ以上のスコアは、BGCに関連する1つ以上の遺伝子の遺伝子間配列及び推定耐性遺伝子からのDNAモチーフ検出に基づく。
【0019】
いくつかの実施形態では、共発現を示す1つ以上のスコアは、全体的トランスクリプトミクスデータの差次的発現分析及び/又はクラスタリング分析に基づく。
【0020】
いくつかの実施形態では、生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子は、アンカー遺伝子、コアシンターゼ遺伝子、生合成遺伝子、BGCによって産生される二次代謝産物の生合成に関与しない遺伝子、又はそれらの任意の組み合わせを含む。
【0021】
いくつかの実施形態では、推定耐性遺伝子は、推定組み込み標的遺伝子(pETaG)又は推定非組み込み標的遺伝子(pNETaG)である。
【0022】
いくつかの実施形態では、耐性遺伝子は、組み込み標的遺伝子(ETaG)又は非組み込み標的遺伝子(NETaG)である。
【0023】
また、二次代謝産物の機能を予測するためのコンピュータ実装方法であって、少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、二次代謝産物を産生することが知られている生合成遺伝子クラスタ(BGC)に関連する遺伝子配列に対応する、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することと、を含む、方法が本明細書に開示される。
【0024】
いくつかの実施形態では、推定耐性遺伝子は、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む。
【0025】
いくつかの実施形態では、少なくとも1つの目的の標的配列の選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される。いくつかの実施形態では、少なくとも1つの目的の標的配列は、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、少なくとも1つの目的の標的配列は、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む。
【0026】
いくつかの実施形態では、標的ゲノムの選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される。いくつかの実施形態では、複数の標的ゲノムは、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、ゲノミクスデータベースは、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含む。
【0027】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、確率的配列アラインメントモデルに基づくホモログの同定を含む。いくつかの実施形態では、確率的配列アラインメントモデルは、プロファイル隠れマルコフモデル(pHMM)である。いくつかの実施形態では、ホモログは、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される。
【0028】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む。いくつかの実施形態では、所定の閾値は、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む。
【0029】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む。
【0030】
いくつかの実施形態では、少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成は、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む。
【0031】
いくつかの実施形態では、少なくとも1つの目的の標的配列が、既知のNETaG配列又はコアシンターゼ遺伝子配列を含む。
【0032】
目的の活性を有する二次代謝産物を産生するための生合成酵素をコードする生合成遺伝子クラスタ(BGC)を同定するためのコンピュータ実装方法が本明細書に開示され、該方法は、少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、目的の治療標的をコードする配列を含む、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、耐性遺伝子によってコードされるタンパク質産物に作用する二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することと、を含む。
【0033】
いくつかの実施形態では、推定耐性遺伝子が二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む。
【0034】
いくつかの実施形態では、少なくとも1つの目的の標的配列の選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される。いくつかの実施形態では、少なくとも1つの目的の標的配列は、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、少なくとも1つの目的の標的配列は、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む。
【0035】
いくつかの実施形態では、標的ゲノムの選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される。いくつかの実施形態では、複数の標的ゲノムは、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、ゲノミクスデータベースは、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含む。
【0036】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、確率的配列アラインメントモデルに基づくホモログの同定を含む。いくつかの実施形態では、確率的配列アラインメントモデルは、プロファイル隠れマルコフモデル(pHMM)である。いくつかの実施形態では、ホモログは、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される。
【0037】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む。いくつかの実施形態では、所定の閾値は、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む。
【0038】
いくつかの実施形態では、少なくとも1つの標的配列のホモログを同定するための検索は、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む。
【0039】
いくつかの実施形態では、少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成は、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む。
【0040】
いくつかの実施形態では、コンピュータ実装方法は、インビトロアッセイを実施して、目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験することを更に含む。
【0041】
いくつかの実施形態では、コンピュータ実装方法は、インビボアッセイを実施して、目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験することを更に含む。
【0042】
また、1つ以上のプロセッサと、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに本明細書に記載の方法のいずれかを実施させる命令を格納するように構成されたメモリと、を含むシステムが本明細書に開示される。
【0043】
1つ以上のプログラムを格納する非一時的コンピュータ可読記憶媒体であって、1つ以上のプログラムが、システムの1つ以上のプロセッサによって実行されると、システムに本明細書に記載の方法のいずれかを実施させる命令を含む、非一時的コンピュータ可読記憶媒体が本明細書に開示される。
【0044】
以下でより詳細に説明される前述の概念及び追加の概念の全ての組み合わせ(そのような概念は相互に矛盾しない限り)は、本明細書に開示される発明の主題の一部であると考えられることを理解されたい。特に、本開示の最後に現れる特許請求される主題の全ての組み合わせは、本明細書に開示される本発明の主題の一部であると考えられる。
【0045】
参照による組み込み
本明細書で言及される全ての刊行物、特許、及び特許出願は、あたかも各個々の刊行物、特許、又は特許出願がその全体が参照により組み込まれるように具体的かつ個別に示されているのと同程度に、その全体が参照により本明細書に組み込まれる。本明細書の用語と組み込まれた参考文献の用語との間に矛盾がある場合、本明細書の用語が支配する。
【0046】
開示された方法、デバイス、及びシステムの様々な態様は、添付の特許請求の範囲に詳細に記載されている。開示された方法、デバイス、及びシステムの特徴及び利点のより良い理解は、例示的な実施形態の以下の詳細な説明及び添付の図面を参照することによって得られるであろう。
【図面の簡単な説明】
【0047】
図1図1は、推定耐性遺伝子(例えば、推定組み込み標的遺伝子(pETaG)及び/又は推定非組み込み標的遺伝子(pNETaG))を同定し、それらが実際の耐性遺伝子(例えば、EtaG及び/又はNETaG)である尤度を評価するためのプロセスフローチャートの非限定的な例を提供する。
【0048】
図2図2は、本開示の1つ以上の例によるコンピューティングデバイスの非限定的な概略図である。
【0049】
図3図3は、コハク酸デヒドロゲナーゼ複合体サブユニットC(SDHC)ホモログの最尤系統樹の非限定的な例を提供する。
【0050】
図4図4は、遺伝子クラスタ比較プロットの例示的な図を提供する。
【発明を実施するための形態】
【0051】
本明細書では、二次代謝産物の生合成経路をコードする生合成遺伝子クラスタ(BGC)からコアシンターゼ又は他の遺伝子に関連する耐性遺伝子(例えば、組み込み標的遺伝子(ETaG)及び/又は非組み込み標的遺伝子(NETaG))を同定するための例示的な方法及びシステムが開示される。記載された方法及びシステムはまた、例えば、耐性遺伝子(例えば、ETaG又はNETaG)と生合成遺伝子クラスタの遺伝子との共起及び/又は共進化に基づいて二次代謝産物の機能を予測すること、ならびに目的の活性を有する二次代謝産物を産生する生合成遺伝子クラスタを予測することにも使用され得る。
【0052】
場合によっては、例えば、開示される方法は、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られているか又は産生する可能性が高い生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定NETaGである、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定NETaG)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定NETaG)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定NETaG)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定NETaG)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定NETaGが非組み込み標的遺伝子(NETaG)である尤度を判定することと、を含み得る。
【0053】
定義
特に定義されない限り、本明細書で使用される技術用語の全ては、本開示が属する分野の当業者によって一般的に理解されるのと同じ意味を有する。
【0054】
本明細書及び添付の特許請求の範囲で使用される場合、単数形「1つの(a)」、「1つの(an)」及び「その(the)」は、文脈が明らかにそうでないことを示さない限り、複数の言及を含む。本明細書における「又は」への任意の言及は、特に明記しない限り「及び/又は」を包含することを意図し、関連する列挙された項目のうちの1つ以上のありとあらゆる可能な組み合わせを包含する。
【0055】
本明細書で使用される場合、「含む(includes)」、「含む(including)」、「含む(comprises)」、及び/又は「含む(comprising)」という用語は、記載された特徴、整数、工程、動作、要素、構成要素、及び/又はユニットの存在を指定するが、1つ以上の他の特徴、整数、工程、動作、要素、構成要素、ユニット、及び/又はそれらの群の存在又は追加を排除するものではない。
【0056】
本明細書で使用される場合、或る数の「約」という用語は、その数の±10%を指す。「約」という用語は、ある範囲の文脈で使用される場合、その範囲からその最低値の10%を引いて、その最大値の10%を加えたものを指す。
【0057】
本明細書で使用される場合、「二次代謝産物」は、古細菌、細菌、真菌又は植物によって産生される有機小分子化合物であって、宿主生物の正常な成長、発達又は生殖に直接関与しないが、宿主生物とその環境との相互作用に必要とされる有機小分子化合物を指す。二次代謝産物は、天然産物又は遺伝的にコードされた小分子としても知られている。「二次代謝産物」という用語は、生合成遺伝子クラスタの産物を指す場合、本明細書では「生合成産物」と互換的に使用される。
【0058】
「生合成遺伝子クラスタ(biosynthetic gene cluster)」又は「BGC」という用語は、本明細書では互換的に使用され、二次代謝産物の産生のための生合成経路を共にコードする1つ以上の遺伝子の局所的にクラスタ化した群を指す。例示的なBGCとしては、非リボソームペプチドシンテターゼ(NRPS)、ポリケチドシンターゼ(PKS)、テルペン、及びバクテリオシンの合成のための生合成遺伝子クラスタが挙げられるが、これらに限定されない。例えば、Keller N,“Fungal secondary metabolism:regulation,function and drug discovery.” Nature Reviews Microbiology 17.3(2019):167-180、及びFischbach M.and Voigt C.A.,PROKARYOTIC GENE CLUSTERS:A RICH TOOLBOX FOR SYNTHETIC BIOLOGY.In:Institute of Medicine(US)Forum on Microbial Threats.The Science and Applications of Synthetic and Systems Biology:Workshop Summary.Washington(DC):National Academies Press(US);2011.A21を参照されたい。BGCは、各タイプのBGCに特徴的なシグネチャ生合成タンパク質をコードする遺伝子を含む。BGCにおける最も長い生合成遺伝子は、本明細書ではBGCの「コアシンターゼ遺伝子」と呼ばれる。二次代謝産物の生合成に関与する遺伝子に加えて、BGCは、他の遺伝子、例えば、生合成遺伝子の間に散在する二次代謝産物の生合成に関与しない産物をコードする遺伝子も含み得る。これらの遺伝子は、それらの産物がBGCの二次代謝産物に機能的に関連している場合、本明細書ではBGCに「関連している」と呼ばれる。いくつかの遺伝子、例えば、BGCによって産生される二次代謝産物の生合成に関与しない遺伝子は、それらの産物がBGCの二次代謝産物に機能的に関連し、クラスタの生合成遺伝子に物理的に近接して位置する場合、本明細書ではBGCに「組み込み」と呼ばれる。いくつかの遺伝子、例えば、BGCによって産生される二次代謝産物の生合成に関与しない遺伝子は、それらの産物がBGCの二次代謝産物に機能的に関連しているが、BGCの生合成遺伝子に物理的に近接して位置していない場合、本明細書では「非組み込み」と呼ばれる。「アンカー遺伝子」は、生合成遺伝子又はBGCと共局在し、BGCと機能的に関連する(すなわち、関連付けられている)ことが知られているBGCによって産生される二次代謝産物の生合成に関与しない遺伝子を指す。
【0059】
「共局在化する」という用語は、ゲノム内の約200kb以下、約100kb以下、約50kb以下、約40kb以下、約30kb以下、約20kb以下、約10kb以下、約5kb以下、又はそれ未満などの近接した空間位置にある2つ以上の遺伝子の存在を指す。
【0060】
「ホモログ」という用語は、共通の祖先からの子孫によって関連する遺伝子群の一部である遺伝子を指す(すなわち、遺伝子群の遺伝子配列(すなわち、核酸配列)及び/又はそれらのタンパク質産物の配列は、共通の起源を介して継承される。ホモログは、種分化事象(「オルソログ」を生じさせる)、遺伝子重複事象、又は遺伝子水平伝播事象を介して生じ得る。ホモログは、アラインされた核酸又はタンパク質配列中の共通の機能的ドメインの同定を通じて、又は配列比較を通じて、系統学的方法によって同定され得る。
【0061】
「オルソログ」という用語は、種分化によって共通の祖先遺伝子から進化したと予測される遺伝子群の一部である遺伝子を指す。
【0062】
「双方向のベストヒット(bidirectional best hit)」及び「BBH」という用語は、本明細書では互換的に使用され、2つのゲノム(すなわち、第1のゲノム中の第1の遺伝子及び第2のゲノム中の第2の遺伝子)中の遺伝子対の間の関係を指し、第1の遺伝子又はそのタンパク質産物は、第2のゲノム中の第2の遺伝子又はそのタンパク質産物と比較して、第1のゲノム中に最も類似した配列を有すると同定されており、第2の遺伝子又はそのタンパク質産物は、第1のゲノム中の第1の遺伝子又はそのタンパク質産物と比較して、第2のゲノム中に最も類似した配列を有すると同定されている。第1の遺伝子は第2の遺伝子の双方向ベストヒット(BBH)であり、第2の遺伝子は第1の遺伝子の双方向ベストヒット(BBH)である。BBHは、オルソロジーを推論するために一般的に使用される方法である。
【0063】
本明細書で使用される場合、2つの遺伝子間の「配列類似性」は、遺伝子によってコードされる核酸(例えば、mRNA)配列又は遺伝子産物のアミノ酸配列のいずれかの類似性を意味する。
【0064】
本明細書に記載される核酸配列(又はタンパク質配列)に関する「パーセント(%)配列同一性」又は「パーセント(%)配列相同性」は、配列を整列させ、任意の保存的置換を配列同一性の一部として考慮した後、候補配列が比較されているオリゴヌクレオチド(又はポリペプチド)中のヌクレオチド残基(又はアミノ酸残基)と同一又は相同である候補配列中のヌクレオチド残基(又はアミノ酸残基)のパーセンテージとして定義される。ポリペプチド中の異なるアミノ酸残基間の相同性は、BLOSUM(BLOcks SUbstitution Matrix)などの置換マトリックスに基づいて決定される。配列を整列させ、核酸又はタンパク質配列の配列同一性パーセント又は配列相同性パーセントを決定するための方法は、当業者に周知である。使用され得る公的に入手可能なコンピュータソフトウェアの例には、BLAST(Basic Local Alignment Search Tool;タンパク質のアミノ酸配列又はDNA及び/もしくはRNA分子のヌクレオチド配列を比較するためのソフトウェア)、BLAST-2、ALIGN又はMegalign(DNASTAR)ソフトウェアが含まれるが、これらに限定されない。配列アラインメントを測定し、配列同一性パーセント又は配列相同性パーセントを決定するための様々な適切なパラメータのいずれかは、比較される配列の全長にわたって最大アラインメントを達成するために必要なアルゴリズムの使用を含む、当業者によって決定され得る。
【0065】
本開示の特定の態様は、アルゴリズムの形態で本明細書に記載されるプロセス工程及び命令を含む。本開示のプロセスステップ及び命令は、ソフトウェア、ファームウェア、又はハードウェアで実施することができ、ソフトウェアで実施される場合、様々なオペレーティングシステムによって使用される異なるプラットフォームに存在し、そこから動作するようにダウンロードすることができることに留意されたい。以下の説明から明らかなように特に明記しない限り、明細書全体を通して、「処理する」、「計算する」、「判定する/決定する」、「表示する」、「作成する」などの用語を利用する説明は、コンピュータシステムのメモリもしくはレジスタ、又は他のそのような情報記ストレージ、伝送デバイス、もしくは表示デバイス内の物理(電子)量として表されるデータを操作し変換するコンピュータシステム又は同様の電子コンピューティングデバイスの動作及びプロセスを指すことが理解される。
【0066】
本明細書で使用されるセクションの見出しは、構成上の目的のためだけであり、記載された主題を限定するものと解釈されるべきではない。説明は、当業者が本発明を製造及び使用することを可能にするために提示され、特許出願及びその要件の文脈で提供される。
【0067】
耐性遺伝子を同定するための方法(例えば、組み込み標的遺伝子及び/又は非組み込み標的遺伝子)
微生物は、生合成遺伝子クラスタ(BGC)と呼ばれる同じ場所に位置する遺伝子のクラスタによってコードされる酵素を使用して二次代謝産物(SM:secondary metabolites)を合成する。多くのSMは一次代謝酵素を標的とするため、BGCは、宿主生物をBGCによって産生されるSMに耐性にする可能性があるタンパク質をコードすることから、「自己保護」と記載されている一次代謝遺伝子のいわゆる「耐性コピー」を含み得る。この「耐性コピー」(又は「耐性遺伝子」)は、BGCの生合成遺伝子の1つに近接して位置する場合、「組み込み標的遺伝子」又は「ETaG」と呼ぶことができ、BGCの生合成遺伝子の1つに近接して位置しない場合、「非組み込み標的遺伝子」又は「NETaG」と呼ぶことができる。ETaG及びNETaGの同定は、クラスタの酵素によって合成されたSMの役割を決定するのに有用であり得る。ETaGを同定するための方法は、同時係属中の国際特許出願第PCT/US2022/049016号及び国際特許出願第PCT/US2022/049040号に記載されており、その各々の内容は、その全体が参照により本明細書に組み込まれる。
【0068】
現在のBGC予測ツールは、BGCを構成するゲノム内の領域を予測する(詳細については以下の「BGCアノテーション」と題するセクションを参照)。次いで、生合成クラスタのゲノム境界内のETaGを同定することによって、BGCによって合成されたSMの潜在的な標的を予測することができる。一例は、ロバスタチン遺伝子クラスタ内に位置し、ロバスタチンに対する耐性を付与する3-ヒドロキシ-3-メチルグルタリル-CoA(HMG-CoA)遺伝子ETaGである。別の例は、ミコフェノール酸に対する耐性を付与するミコフェノール酸遺伝子クラスタ内に位置するイノシン-5’-一リン酸デヒドロゲナーゼ(IMPDH)ETaG(遺伝子名:mpaF)である。この手法は、BGCの機能を予測するためにBGC内に組み込まれるか又はBGCに近接して配置されるETaGに依存するので、ETaGを含まないBGCの機能を予測することができない。
【0069】
本開示は、(i)非組み込み標的遺伝子(NETaG)を同定するための位置非依存的方法、(ii)BGC及び/又はコア酵素とNETaGとの相関及び/又は共進化によってSMの機能を予測するための方法、ならびに(iii)目的の活性を有するSMの産生を担うBGCを予測するための方法を記載する。本明細書に記載の方法は、目的のBGCの検出及び標的遺伝子の位置とは無関係のそれらの機能の予測を可能にするため、以前のアプローチよりも優れている。
【0070】
目的の標的:本明細書に記載の方法は、哺乳動物ゲノム、ヒトゲノム、鳥類ゲノム、爬虫類ゲノム、植物ゲノム、真菌ゲノム、細菌ゲノム、古細菌ゲノム、ウイルスゲノムなどを含むがこれらに限定されない任意の種類の生物のゲノムからの任意のアミノ酸配列又はヌクレオチド配列であり得る目的の標的(又は目的の標的配列)を使用して実施することができる。目的の標的は、遺伝子配列又はその一部、タンパク質配列又はその一部、タンパク質ドメイン配列又はその一部、ペプチド配列又はその一部などの任意の種類の生物学的配列を含み得る。
【0071】
標的ゲノム選択:本明細書に記載の方法は、二次代謝産物を産生することが知られている生物のためのBGC又はゲノムを含有する任意のタイプの標的ゲノム中のETaG、NETaG、及び/又はBGCを同定するのに適している。細菌、植物、及び真菌のゲノムは、生合成遺伝子クラスタをコードすることが知られている。いかなる理論又は仮説にも束縛されることを望むものではないが、真菌ゲノムは、細菌ゲノム又は植物ゲノムよりも哺乳動物ゲノムに系統発生的に関連する真核生物ゲノムである。したがって、真菌ゲノムは、ヒト標的遺伝子に相同であり、BGCによって産生される二次代謝産物の標的をコードするETaG又はNETaGの同定に好ましい場合がある。
【0072】
標的ホモログ検索:所与のゲノム内の標的配列についてのタンパク質又はDNAホモログは、例えば、以下を使用して検出することができる。
1)確率的モデルスコアを1つ以上の所定の閾値(例えば、信頼できるカットオフ閾値)と比較することによる、例えばプロファイル隠れマルコフモデル(pHMM)を含む確率的配列アラインメントモデル。場合によっては、そのような所定の閾値は、例えば、既知のホモログの最低ビットスコアに基づいて決定されてもよい。
2)例えば、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコアなどの配列アラインメント又は配列相同性メトリックを1つ以上の所定の閾値と比較することによる、BLAST(基本的な局所アラインメント検索ツール)、DIAMOND、HMMER、Exonerate、又はggsearchを含む配列アラインメントツール。
3)遺伝子配列/タンパク質ドメインアノテーションツール、例えば、InterProScan又はEggNOG。
【0073】
同定された標的ホモログに基づく系統樹の作製:標的相同性検索を実施した結果として同定された標的配列(複数可)のホモログを使用して、選択された標的ゲノムの系統樹を作成することができる。系統発生的距離を決定するために、標的(複数可)のタンパク質又はDNAホモログは、任意のアラインメントソフトウェア(例えば、MAFFT、MUSCLE、又はClustalWなど)を使用して個々にアラインメントすることができ、ギャップを除去するために任意の配列トリミングソフトウェア(例えば、trimAI、GBlocks、又はClipKIT)を使用してトリミングすることができ、その後、当業者に公知の任意の系統樹構築ソフトウェア(例えば、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、又はPAUP)を使用して複数の配列アラインメントを実施して、相同配列(例えば、相同遺伝子配列又はタンパク質配列)の系統樹を提供することができる。系統樹は、限定されないが、最尤アルゴリズム、節約アルゴリズム、隣接結合アルゴリズム、距離行列アルゴリズム、又はベイズ推定アルゴリズムを含む、当業者に知られている様々な異なるアルゴリズムのいずれかを使用して構築することができる。
【0074】
候補NETaGのハウスコピー及び追加のコピーの区別:系統樹から、標的配列(複数可)(例えば、標的遺伝子)のホモログを含むゲノムの2つの群(クレード)を同定することができる。1つのクレードは、標的遺伝子ホモログ(複数可)の単一コピーを含むゲノムを含み、ホモログが遺伝子の「ハウスコピー」であることを示している(すなわち、第1のクレードの生物中に存在する標的遺伝子ホモログ(複数可)の単一コピーは、ハウスキーピング機能のみを有すると仮定される。他のクレードは、BGC産物(すなわち、第2のクレードの生物における標的遺伝子ホモログの複数のコピーは、それらのコピー数の増加に起因して潜在的耐性関連遺伝子であると想定される)の存在下での一次代謝の正常な機能に必要な標的遺伝子ホモログの追加のコピーを含むゲノムを含む。したがって、複数のコピーで存在する標的遺伝子ホモログは、候補(又は推定)NETaGであり得る。
【0075】
場合によっては、目的の一次標的に関連又は相関し得る他の標的を検査することができる。これらの関係は、機能的関係(例えば、類似の機能を共有する遺伝子)又は経路関係(例えば、同じ経路のメンバーである遺伝子)であり得る。例えば、KRASが一次標的である場合、HRAS、NRAS、MRAS、ERAS、RRAS2、RRASなどの追加のRASホモログのコピー数変異も調べることができる。さらに、RAS-GEF、RAS-GAP、RAF、MEK、ERK、PI3K、PDK1、AKTなどのRAS経路内の遺伝子のコピー数変異も調べることができる。したがって、一次標的に機能的に関連する又は経路に関連する遺伝子のコピー数が多いゲノムは、機能的に関連する又は経路関連遺伝子の形態の追加の候補NETaGを保有し得る。
【0076】
陽性及び陰性ゲノム分類:ゲノムは、その中にコードされている標的ホモログ又は標的ホモログに関連する遺伝子の数に基づいて分類される。標的ホモログの複数のコピーをコードするゲノムでは、コピーの1つは、特定のBGC産物に対する耐性を有すると仮定され、したがって、BGC産物が存在する場合に一次代謝が機能するために必要とされる。複数コピーの標的ホモログを含むゲノムは陽性ゲノムとして分類され、一方、単一コピーの標的ホモログを含むゲノムは陰性ゲノムとして分類される。複数のコピーで存在する標的ホモログは、推定組み込み又は非組み込み標的遺伝子を含み得る。陽性ゲノム及び陰性ゲノムを使用して、系統樹において同定された推定標的遺伝子が実際のETaG又はNETaGであるかどうかを判定するために使用され得るいくつかの異なるゲノムメトリック(以下のセクションに記載)を計算することができる。
【0077】
BGCアノテーション:生合成遺伝子クラスタの同定及びアノテーションは、二次代謝遺伝子の同定、及びBGCを構成する二次代謝遺伝子群の予測を含む。二次代謝遺伝子(又はそれらの対応するタンパク質もしくはタンパク質ドメイン)は、一次代謝に関与しない遺伝子又は遺伝子産物である。二次代謝遺伝子の例には、コア酵素、例えば、ポリケチドシンターゼ(PKS)、非リボソームペプチドシンテターゼ(NRPS)、NRPS又はPKSドメインを含有する酵素(例えば、PKS様酵素、NRPS様酵素、NRPS-PKS又はPKS-NRPSハイブリッド)、テルペンシンターゼ(TP)、イソプレノイドを合成する酵素、ベータラクトンを合成する酵素、リボソーム合成及び翻訳後修飾されたタンパク質(RIPPS)、又はそれらの任意の組み合わせをコードする遺伝子が含まれるが、これらに限定されず、これらは、時には個別化酵素と共局在化される。調整酵素の例としては、シトクロムP450(CYP)、メチルトランスフェラーゼ、グリコシルトランスフェラーゼなどが挙げられるが、これらに限定されない。
【0078】
BGCは、当業者に知られている様々なソフトウェアツールのいずれかを使用して予測することができる。例としては、BLAST、pHMM、抗生物質二次代謝産物分析シェル(antiSMASH)、二次代謝産物未知領域ファインダー(SMURF)、DeepBGC、又はカスタムBGC予測ツールが挙げられるが、これらに限定されない。
【0079】
相関分析:オーソロガス群(COG)のクラスタは、進化的関係の研究に有用な相同遺伝子のコレクションである。COGは、オルソログ(共通の祖先遺伝子から異なる種で分岐した相同遺伝子)及びパラログ(重複及び分岐によって生じた単一の種の遺伝子)からなる。例えば、Tatusov,et al.(1997),“A Genomic Perspective on Protein Families”,Science 278:631-637を参照されたい。それによってコードされる遺伝子又はタンパク質のCOGは、例えばBLAST、DIAMOND、又はggsearch等の配列アラインメントソフトウェアを使用して、全ての陽性ゲノム及び陰性ゲノムのall-versus-allのタンパク質(アミノ酸)配列検索(又は全て対全てのヌクレオチド配列検索)を実施することによって同定され得る。
【0080】
場合によっては、MCL、mmseq、usearch、CD-hitなどのクラスタリングアルゴリズムを使用して、相互のベストヒット(すなわち、ゲノムAからゲノムBへのタンパク質/遺伝子の最良一致が、ゲノムBからゲノムAへのタンパク質/遺伝子の最良一致と同じである場合)が同定され、COGにクラスタリングされる。あるいは、場合によっては、クラスタ化の前に相同タンパク質/遺伝子を同定するために、(相互検索結果ではなく)一方向性検索結果が使用され得る。
【0081】
COGはまた、OrthoMCLもしくはOrthoFinderなどのソフトウェアツール(又は他の直交群/パンゲノーム同定ツール)を使用して、又はUSEARCH、CD-HIT及びMMseqなどのタンパク質もしくはヌクレオチドクラスタリングツールを使用して同定することができる。
【0082】
共進化分析:共進化分析のために、陰性ゲノムからの全ての遺伝子を全てのCOGの考慮から除外する。次いで、それぞれが固有のゲノムから生じる3つを超える残りの遺伝子を有するCOGのみが共進化分析に渡される。
【0083】
複数のタンパク質(アミノ酸)配列アラインメント又はDNA(ヌクレオチド)配列アラインメントは、例えば、MAFFT又は任意の他の配列アラインメントソフトウェアを使用して、残りの全てのCOGに対して実施される。各COGについて、指定されたパラメータのセット(例えば、全てのギャップの除去、指定された閾値(例えば、アラインされた配列中の配列の30%、20%又は10%を超えるギャップ)よりも大きいギャップの除去、全てのギャップの保持等)に基づいて全てのペアワイズアラインメントをトリミングし、続いて配列同一性パーセント(例えば、アラインメント中の同一の残基の数)を計算することができる。あるいは、配列類似性スコアは、BLOSUM又はPAM(例えば、タンパク質配列が使用される場合)のような置換行列の使用に基づいて計算することができる。2つのタンパク質配列間の配列同一性パーセントが高いほど、それらはホモログである可能性が高く、それらは同じCOGに割り当てられる可能性が高い。共進化は、1つのCOG内のタンパク質の配列同一性パーセントの変化が別のCOGのタンパク質の配列同一性パーセントの変化と相関する場合に同定することができる。
【0084】
あるいは、場合によっては、系統樹は、各COG(例えば、アラインメント、トリミング、及び系統再構築を実施することによって)内の配列(ヌクレオチド又はアミノ酸配列)から計算することができる。系統樹は、両方のCOGに存在する遺伝子が比較されるゲノムの種樹のトポロジに拘束されなければならない(例えば、陰性ゲノムの遺伝子を検討対象から除外し、残りの3つ以上の遺伝子を有するCOGのみを分析する工程を実施した後)。2つのCOGツリーは種ツリートポロジに制約されるため、それらは全く同じトポロジを共有する。この意味で、全てのノード及びブランチは全く同じ位置にあるが、枝長(分岐の程度を示し、RAxML、FastTree、IQTREE、PAULP、BEASTなどの系統発生ソフトウェアツールによって出力として提供される)はCOGツリー間で異なり得る。例えば、Node_AとCOG_1_genome_xとの間の枝長は0.05であってもよく、Node_AとCOG_2_genome_xとの間の分岐長は0.075であってもよい。次いで、これらのペアワイズ関連付けは、相関分析(後述)の実施に使用するために記録される。あるいは、場合によっては、分長は、系統発生ソフトウェアツールからの生の出力であってもよく、又は拘束種ツリーの枝長によって正規化されてもよく、又はZスコア変換又は同様の変換メトリックを使用して正規化されてもよい。この分析は、カスタムスクリプトを使用して、又はPhyKIT(https://github.com/JLSteenwyk/PhyKIT)のCo-Varianceアルゴリズムなどのツールを使用して実施することができる。
【0085】
次いで、各COGのペアワイズ配列同一性パーセント、配列類似性パーセント又は枝長(ゲノムのペア間)を使用して、例えばピアソンR又は任意の他の相関メトリックを使用して、全てのペアワイズCOG組み合わせの相関度を計算する。相関は、少なくとも3つのゲノムを共有するCOGの対の間でのみ計算される。
【0086】
ETaG又はNETaGを推定標的遺伝子から区別し、ETaG又はNETaGの候補BGCを識別するために、3つの異なる共進化相関メトリックを使用することができる。
(i)共進化相関:COGのペアワイズ配列同一性パーセントとCOGのペアワイズ配列同一性パーセントとの相関。
(ii)共進化ランク:pETaG又はpNETaGを含むCOGに対して昇順でコアシンターゼを含むCOGの相関係数のランク。距離スコアの同順位の場合、同順位の全てのCOGのランクは群内の最下位である。
(iii)共進化勾配:COGのペアワイズ配列同一性パーセントとCOGのペアワイズ配列同一性パーセントとの直交回帰。
【0087】
共起分析:候補BGCの存在を、より強い統計力を有する所与のゲノムにおける標的遺伝子ホモログの追加のコピーと相関させるために、選択されたゲノム群においてBGC「コミュニティ」を作製することによって候補BGCの数を制限する必要がある。これを行うための1つのアプローチは、所与のBGC内の全てのタンパク質配列又はヌクレオチド配列のアラインメントに基づいてBGCをグループ化するための(すなわち、オーソロガスBGCを含有する遺伝子クラスタファミリーへのBGCのクラスタ化)の使用を含む。BGC群の全てのタンパク質配列又はヌクレオチド配列間のアラインメントは、BLAST+suite又はDIAMONDに含まれるプログラムの1つ等のアラインメント検索ツールを使用して実施される。その後、アラインメントは、BGCの類似性を記述するクラスタスコアによって集約される。クラスタスコアを作製するために、例えば、BGCタンパク質間のタンパク質配列アラインメントの配列同一性パーセントを合計し、BGC内の生合成タンパク質の総数で割ることにより、BGCとBGCとの比較の平均配列同一性パーセントスコアを作製することができる。BGCのコミュニティは、コミュニティ検出アルゴリズムを使用してヒットのクラスタスコアのサブセット(すなわち、少なくとも20%、30%、40%、又は40%超の平均配列同一性パーセントの閾値を満たすBGC)を処理することによって生成される。BGCコミュニティ検出アルゴリズムの例には、Cluster Walktrap(https://igraph.org/から)又はマルコフクラスタリング(MCL)が含まれるが、これらに限定されない。
【0088】
あるいは、場合によっては、完全なタンパク質(又はアミノ酸)配列を使用する代わりに、タンパク質ドメイン(又はpHMM)のセットに対してクラステロミクスを実施することができ、又はBGCのタンパク質ドメイン又はタンパク質配列の系統解析を使用して、BGCのコミュニティを作製することができる。
【0089】
分類法:場合によっては、任意のレベル、例えば、種、属、科、順序、クラス、ドメインなどの特定の分類を有するゲノムを選択することによって候補BGCの数を制限することができる。ゲノム分類は、例えば、リボソームRNA配列、内部転写スペーサー(ITS)配列、単一コピーマーカー遺伝子配列などに基づいて、それらを既知の参照配列と比較することによって注釈付けすることができる。
【0090】
系統樹:場合によっては、単一コピータンパク質もしくは遺伝子、又はITS領域のものなどの特定の配列を使用して、ゲノムのセットから系統樹を作製することができる。系統樹の特定のクレードからのゲノムを選択して、共起分析で使用されるゲノムの数を制限することができる。
【0091】
共起に基づく候補BGC検出:標的遺伝子の産物に対して活性を有する二次代謝産物を産生する関連候補BGCを同定するために、予測されたBGCの存在を、選択された生物のゲノムにおける単一及びマルチコピー標的遺伝子ホモログの存在と比較する。標的遺伝子産物に対して仮定された機能を有する候補BGCは、標的遺伝子ホモログ(系統樹のETaG又はNETaGクレード)の追加のコピーの存在と正の相関を示すはずであり、候補BGCは、標的遺伝子ホモログの単一コピーの存在と負の相関を示すはずである。
【0092】
場合によっては、正規化距離を使用して、例えば薬物開発で使用するための上位候補BGCヒットを同定することができる。全陽性ゲノム(TPG)は、系統樹のETaGクレード又はNETaGクレードのゲノムの数を表し、陽性ゲノム(PG)は、BGCコミュニティの陽性ゲノムの数を表す。全陰性ゲノム(TNG)は、単一の「ハウスコピー」の標的遺伝子ホモログのみを有するゲノムの数を表し、陰性ゲノム(NG)は、BGCコミュニティ内の陰性ゲノムの数を表す。正規化距離は、次式によって与えられる。
【数1】
【0093】
同時制御:機能的に関連する遺伝子は共調節されることが多いため、共調節の決定は、ETaG又はNETaGをそれらの関連するBGCに接続する際の追加の情報層として役立つことができる。これは、共通の調節のシグネチャ、例えば、ETaG又はNETaG及び候補BGCのプロモータ領域における共通の推定シス調節エレメント又は転写因子結合部位(TFBS)の存在を同定することによって達成することができる。同時調節されたETaG又はNETaG及びBGCを識別するための方法は以下の通りである。
1.共調節遺伝子を同定するために、まず、候補BGCの全ての遺伝子の遺伝子間領域(100bp~5,000bpの範囲)、又は候補コアシンターゼ遺伝子のCOGを抽出する。
2.次に、MEME(Bailey,et al.(2015)“The MEME Suite”,Nucleic Acids Res.43(W1):W39-49)又はHOMER(Heinz,et al.(2010),“Simple Combinations of Lineage-Determining Transcription Factors Prime cis-Regulatory Elements Required for Macrophage and B Cell Identities”,Mol Cell 38(4):576-89)などのモチーフ検出ソフトウェアを使用して、これらの遺伝子間領域に対して新たなDNAモチーフ検出を行う。
3.次いで、この分析によって各BGC又はCOGについて同定された位置重み行列として表される推定TFBSを使用して、標的ETaG又はNETaGのプロモータ領域を検索し、これらのモチーフがこれらの領域に保存されているかどうかを評価することができる。
4.あるいは、ETaG又はNETaG COGから新たに検出されたモチーフを、候補BGC又はコアシンターゼCOGから検出されたモチーフと直接比較して、これらのモチーフの類似性を評価することができる。
5.ETaG又はNETaGのプロモータ領域中のBGC又はコアシンターゼモチーフの検出、又はBGC/コアシンターゼモチーフとETaG又はNETaGモチーフとの間の良好な一致は、2つの間に関連する証拠を提供する。
【0094】
共発現:機能的に関連する遺伝子は、条件の全て又はサブセットの下でも共発現されることが多いため、BGCに対する耐性遺伝子として機能するETaG又はNETaGは、BGC遺伝子と共発現されると予想される。したがって、トランスクリプトミクス分析を使用して、ETaG又はNETaGをその同族BGCと関連付けることができる。複数の増殖条件下(例えば、BGC及び耐性遺伝子の発現を誘導するための発酵中の異なる培地の使用)又は経時的に行われたqPCR、マイクロアレイ、RNA-seq、NanoStringなどの転写分析から得られたデータを使用して、ETaG又はNETaGと候補BGC遺伝子との間の発現の相関を評価することができる。ETaG又はNETaGと共発現される候補BGCは、以下のように識別することができる。
1.複数の条件又は時点から得られた全トランスクリプトミクスデータ(例えば、RNA-seqデータ)を参照ゲノムにマッピングし、次いで、リードカウントを計算し、正規化し、十分に確立されたパイプライン(Bowtie、TopHat、Cufflinks、Cuffdiff、EdgeR、又はDESeq等)又は社内で開発されたパイプラインを使用して差次的発現分析を行う。
2.次いで、K平均クラスタリング、セントロイドベースのクラスタリング、密度ベースのクラスタリング、又は階層的クラスタリング等のクラスタリングアルゴリズムを使用して、各遺伝子の正規化されたリードカウントをクラスタリング分析の入力として使用して、分析される全ての条件下で互いに共発現される遺伝子を同定する。
3.あるいは、遺伝子と条件の両方に基づいてクラスタリングするバイクラスタリング手法を使用して、分析された条件の全て又はサブセットの下で互いに共発現される遺伝子をグループ化することができる。
4.ETaG又はNETaGと同時発現していると識別されたBGCは、有力な候補と見なすことができる。
【0095】
図1は、推定耐性遺伝子(例えば、推定組み込み標的遺伝子(pETaG)及び/又は推定非組み込み標的遺伝子(pNETaG))を同定し、それらが実際の耐性遺伝子(例えば、EtaG及び/又はNETaG)である尤度を評価するためのプロセス100のフローチャートの非限定的な例を提供する。プロセス100は、例えば、1つ以上の電子デバイス、コンピュータ、又はコンピューティングプラットフォームの1つ以上のプロセッサ上で実施されるソフトウェアを使用するコンピュータ実装方法として実施することができる。いくつかの例では、プロセス100は、クライアント-サーバシステムを使用して実施され、プロセス100のブロックは、サーバとクライアントデバイスとの間で任意の方法で分割される。他の例では、プロセス100のブロックは、サーバと複数のクライアントデバイスとの間で分割される。したがって、プロセス100の一部は、本明細書ではクライアント-サーバシステムの特定のデバイスによって実施されるものとして説明されているが、プロセス100はそのように限定されないことが理解されよう。他の例では、プロセス100は、クライアントデバイスのみ又は複数のクライアントデバイスのみを使用して実施される。プロセス100において、いくつかのブロックは、任意選択的に組み合わされ、いくつかのブロックの順序は、任意に変更され、いくつかのブロックは、任意に省略される。いくつかの例では、プロセス100と組み合わせて追加の工程を実施することができる。したがって、図示されている(及び以下により詳細に説明されている)動作は、本質的に例示的なものであり、したがって、限定的であると見なされるべきではない。
【0096】
図1の工程102において、少なくとも1つの目的の標的配列、例えば、潜在的な治療標的に対するアミノ酸配列又は対応するヌクレオチド配列が、入力として選択及び/又は受信される。場合によっては、少なくとも1つの目的の標的配列の選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供され得る。場合によっては、少なくとも1つの標的配列は、1、2、3、4、5、6、7、8、9、10、100、1000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000個又は100,000個超の標的配列(又はこの範囲内の任意の数の標的配列)を含み得る。
【0097】
場合によっては、少なくとも1つの目的の標的配列は、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含み得る。場合によっては、少なくとも1つの目的の標的配列は、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含み得る。
【0098】
場合によっては、少なくとも1つの目的の標的配列は、哺乳動物配列、ヒト配列、鳥類配列、爬虫類配列、両生類配列、植物配列、真菌配列、細菌配列、古細菌配列、ウイルス配列、又はそれらの任意の組み合わせを含み得る。例えば、場合によっては、少なくとも1つの目的の標的配列は、哺乳動物標的配列、ヒト標的配列、鳥類標的配列、爬虫類標的配列、両生類標的配列、植物標的配列、真菌標的配列、細菌標的配列、古細菌標的配列、ウイルス標的配列、又はそれらの任意の組み合わせを含み得る。場合によっては、標的配列(例えば、ヒト標的配列)は、治療標的配列(例えば、ヒト治療標的配列)又はそれによってコードされるタンパク質であり得る。
【0099】
場合によっては、少なくとも1つの目的の標的配列は、一次標的配列及び1つ以上の関連配列を含む。場合によっては、上記のように、1つ以上の関連配列は、一次標的配列に機能的に関連する配列を含み得る。場合によっては、1つ以上の関連配列は、一次標的配列に経路関連する配列を含み得る。
【0100】
図1の工程104において、標的ゲノム(複数可)が選択され、及び/又は入力として受信され、ここで、選択は、二次代謝産物を産生することが知られているか、又は産生する可能性が高い生物からの複数の標的ゲノムを含む。場合によっては、例えば、複数の標的ゲノムは、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む。
【0101】
場合によっては、標的ゲノムの選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される。標的ゲノムは、例えば、ゲノミクスデータベース、例えば公開ゲノミクスデータベース又は独自のゲノミクスデータベースから選択され得る。場合によっては、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、又は100,000超の標的ゲノム(又はこの範囲内の任意の数の標的ゲノム)が選択され得る。
【0102】
図1の工程106において、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するために検索が実施される。
【0103】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、確率的配列アラインメントモデル、例えばプロファイル隠れマルコフモデル(pHMM)に基づくホモログの同定を含み得る。場合によっては、少なくとも1つの標的配列のホモログは、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定され得る。場合によっては、そのような所定の閾値は、例えば、既知のホモログの最低ビットスコアに基づいて決定されてもよい。
【0104】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含み得る。場合によっては、例えば、局所配列アラインメント検索ツールは、BLAST、DIAMOND、HMMER、Exonerate又はggsearchを含み得る。場合によっては、所定の閾値は、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む。
【0105】
場合によっては、配列同一性パーセントの所定の閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、又はそれ以上であり得る。
【0106】
場合によっては、配列カバレッジパーセントについての所定の閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、又はそれ以上であり得る。
【0107】
場合によっては、E値の所定の閾値は、最大で10、1、0.1、0.001、0.0001、1e-10、1e-20、1e-100、又はそれより低くてもよい。
【0108】
場合によっては、ビットスコアの所定の閾値は、少なくとも5、10、25、50、100、250、500、1000、5000、又はそれ以上であってもよい。
【0109】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含み得る。例えば、場合によっては、遺伝子及び/又はタンパク質ドメインアノテーションツールは、InterProScan又はEggNOGを含み得る。
【0110】
図1の工程108において、系統樹が、本明細書の他の箇所で説明するように、少なくとも1つの標的配列の同定されたホモログに基づいて作成される。
【0111】
場合によっては、少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成は、(i)アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、(ii)配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び(iii)系統樹構築ソフトウェアツールを使用した系統樹の構築のうちの1つ以上を含み得る。場合によっては、アラインメントソフトウェアツールは、例えば、MAFFT、MUSCLE、又はClustalWを含み得る。場合によっては、配列トリミングソフトウェアツールは、例えば、trimAI、GBlocks、又はClipKITを含み得る。
【0112】
場合によっては、系統樹構築ソフトウェアツールは、例えば、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、又はPAUPを含み得る。系統樹の構築は、当業者に知られている様々なアルゴリズムのいずれか、例えば、最尤アルゴリズム、節約アルゴリズム、隣接結合アルゴリズム、距離行列アルゴリズム、又はベイズ推定アルゴリズムに基づいてもよい。
【0113】
図1の工程110において、複数の標的ゲノムのゲノムは、(本明細書の他の箇所で説明するように)系統樹に基づいて陽性ゲノム又は陰性ゲノムとして分類され、ここで、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子(例えば、ETaG又はNETaG)である。
【0114】
図1の工程112において、少なくとも1つのゲノムパラメータが、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて決定され、ここで、少なくとも1つのゲノムパラメータは、以下から選択される:i)本明細書の他の箇所で説明するように、少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)本明細書の他の箇所で説明するように、少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア。
【0115】
場合によっては、共起を示す1つ以上のスコアは、推定ETaG又はNETaGの複数のコピーの存在と、陽性ゲノムにおいて同定されたBGCの1つ以上の遺伝子の存在との間の正の相関の同定に基づいて決定される。
【0116】
場合によっては、推定ETaG又はNETaGの複数のコピーの存在と陽性ゲノムにおいて同定されたBGCの1つ以上の遺伝子の存在との間の正の相関を同定することは、複数の標的ゲノム内のBGCコミュニティを同定するために、BGCの群についてアラインされたタンパク質配列、アラインされたヌクレオチド配列、アラインされたタンパク質ドメイン配列、又はアラインされたpHMMをクラスタリングするためのクラスタリングアルゴリズムの使用を含み得る。
【0117】
場合によっては、推定ETaG又はNETaGの複数のコピーの存在と陽性ゲノムで同定されたBGCの1つ以上の遺伝子の存在との間の正の相関を同定することは、複数の標的ゲノム内のBGCコミュニティを同定するためのBGCの群のタンパク質配列又はタンパク質ドメインの系統解析の使用を含み得る。
【0118】
場合によっては、推定ETaG又はNETaGの複数のコピーの存在と陽性ゲノムにおいて同定されたBGCの1つ以上の遺伝子の存在との間の正の相関を同定することは、複数の標的ゲノム内のBGCコミュニティを同定するために特定の分類法によりゲノムを選択することを含み得る。
【0119】
場合によっては、推定ETaG又はNETaG及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコアは、共進化相関スコア、共進化ランクスコア、共進化スロープスコア、又はそれらの任意の組み合わせに基づいて決定され得る。
【0120】
場合によっては、共進化相関スコア(又は共進化相関係数)は、(本明細書の他の箇所で説明するように)推定ETaG又はNETaGについてのオルソロガス群のクラスタ(COG)のペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子についてのオーソロガス群のクラスタ(COG)のペアワイズ配列同一性パーセントとの間の相関に基づいてもよい。場合によっては、共進化相関スコア(又は共進化相関係数)は、-1.0~1.0の値の範囲であり得る。場合によっては、共進化相関スコア(又は共進化相関係数)は、-1.0、-0.8、-0.6、-0.4、-0.2、0、0.2、0.4、0.6、0.8、1.0、又はこの範囲内の任意の値を有し得る。
【0121】
場合によっては、共進化ランクスコア(又は共進化ランク)は、推定ETaG又はNETaG(本明細書の他の箇所で説明するように)を含むCOGに対して昇順でBGCに関連する1つ以上の遺伝子のうちの一遺伝子を含むCOGの相関係数のランキングに基づいてもよい。場合によっては、共進化ランクは、1~10,000の値の範囲であり得る。場合によっては、共進化ランクは、1、10、20、40、60、80、100、200、400、600、800、1000、2000、4000、6000、8000、もしくは10,000の値、又はこの範囲内の任意の値を有することができる。距離スコアの同順位の場合、同順位内の全てのCOGのランクは、群内の最低ランクに等しく設定され得る。
【0122】
場合によっては、共進化スロープスコアは、(本明細書の他の箇所で説明するように)推定ETaG又はNETaGに対するCOGのペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子に対するCOGのペアワイズ配列同一性パーセントとの直交回帰に基づいてもよい。場合によっては、共進化スロープスコアは、約0.75~約1.25の値の範囲であり得る。場合によっては、共進化スロープスコアは、少なくとも0.75、少なくとも0.8、少なくとも0.85、少なくとも0.9、少なくとも0.95、少なくとも1.0、少なくとも1.05、少なくとも1.1、少なくとも1.15、少なくとも1.20、又は少なくとも1.25の値を有し得る。場合によっては、共進化スロープスコアは、最大で1.25、最大で1.20、最大で1.15、最大で1.10、最大で1.10、最大で1.05、最大で1.0、最大で0.95、最大で0.90、最大で0.85、最大で0.80、又は最大で0.75の値を有し得る。この段落に記載された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するために組み合わされてもよく、例えば、場合によっては、共進化スロープスコアの所定は、約0.80~約1.1の範囲であってもよい。当業者は、共進化スロープスコアがこの範囲内の任意の値、例えば約0.98を有し得ることを認識するであろう。
【0123】
場合によっては、陰性ゲノムから対応する遺伝子を除去した後に残る3つ以上の遺伝子を有する固有の陽性ゲノムから生じるCOGのみが、共進化相関スコア、共進化ランクスコア、又は共進化スロープスコアを評価するために使用される。
【0124】
場合によっては、同時制御を示す1つ以上のスコアは、例えば、本明細書の他の箇所で説明するように、BGCに関連する1つ以上の遺伝子の遺伝子間配列及び推定耐性遺伝子からのDNAモチーフの検出に基づいてもよい。
【0125】
場合によっては、共発現を示す1つ以上のスコアは、例えば、本明細書の他の箇所で説明するように、全体的なトランスクリプトミクスデータの差次的発現分析及び/又はクラスタリング分析に基づいてもよい。
【0126】
場合によっては、生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子は、例えば、アンカー遺伝子、コアシンターゼ遺伝子、生合成遺伝子、BGCによって産生される二次代謝産物の生合成に関与しない遺伝子、又はそれらの任意の組み合わせを含み得る。
【0127】
図1の工程114において、推定耐性遺伝子(例えば、pETaG又はpNETaG)が実際の耐性遺伝子(例えば、ETaG又はNETaG)である尤度が、工程112で決定された少なくとも1つのゲノムパラメータに基づいて判定される。場合によっては、推定耐性遺伝子が実際の耐性遺伝子である尤度は、確率、例えば、推定耐性遺伝子が実際の耐性遺伝子である10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、98%、又は99%の確率として出力及び/又は報告され得る。場合によっては、推定耐性遺伝子が実際の耐性遺伝子である尤度は、この範囲内の任意の値を有する確率として出力及び/又は報告され得る。
【0128】
場合によっては、推定耐性遺伝子(例えば、pETaG又はpNETaG)が実際の耐性遺伝子(例えば、ETaG又はNETaG)である尤度を判定することは、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することに基づいて、尤度のバイナリ分類(例えば、yes/no回答)を出力又は報告することを含み得る。場合によっては、例えば、少なくとも1つの所定の閾値は、共起スコア、共進化相関スコア、同時制御スコア、及び/又は共発現スコアの所定の閾値を含み得る。
【0129】
場合によっては、例えば、共起スコアの所定の閾値は、正規化距離によってランク付けされた上位20、上位15、上位10、又は上位5の共起BGCを含むことを含み得る。共起ランクは、BGCとそれらの推定耐性遺伝子(例えば、pETaG又はpNETaG)との間の関連を確認するために使用され得る。正規化距離は、陽性ゲノム及び陰性ゲノム全体にわたるBGC遺伝子及び耐性遺伝子(例えば、ETaG又はNETaG)の発生から計算され得る。BGC遺伝子は、それらの正規化距離(陽性及び陰性ゲノムカウントから計算される)によってランク付けされ得る。
【0130】
場合によっては、共進化相関スコアの所定の閾値は、0.6、0.7、0.8、0.9、0.95以上の共進化相関係数を含み得る。場合によっては、共進化相関スコアの所定の閾値は、この範囲内の任意の値を有し得る。
【0131】
場合によっては、共進化ランクスコア(又は共進化ランク)の所定の閾値は、5未満、10未満、20未満、40未満、60未満、80未満、100未満、200未満、400未満、600未満、800未満、1000未満、2000未満、4000未満、6000未満、8000未満、又は10,000未満のランクを含み得る。場合によっては、共進化ランクスコア(又は共進化ランク)の所定の閾値は、この値の範囲内の任意の値のランクを含み得る。
【0132】
場合によっては、共進化勾配の所定の閾値は、約0.75~約1.25の共進化勾配値を含み得る。場合によっては、共進化スロープスコアの所定の閾値は、少なくとも0.75、少なくとも0.8、少なくとも0.85、少なくとも0.9、少なくとも0.95、少なくとも1.0、少なくとも1.05、少なくとも1.1、少なくとも1.15、少なくとも1.20、又は少なくとも1.25の値を有し得る。場合によっては、共進化スロープスコアの所定の閾値は、最大で1.25、最大で1.20、最大で1.15、最大で1.10、最大で1.10、最大で1.05、最大で1.0、最大で0.95、最大で0.90、最大で0.85、最大で0.80、又は最大で0.75の値を有し得る。この段落に記載された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するために組み合わされてもよく、例えば、場合によっては、共進化スロープスコアの所定の閾値は、約0.80~約1.1の範囲であってもよい。場合によっては、共進化スロープスコアの所定の閾値は、この範囲内の任意の値、例えば約1.07を有し得る。
【0133】
場合によっては、同時制御スコアの所定の閾値は、0.1、0.09、0.08、0.07、0.06又は0.05以下のp値を有するBGCメンバー及び推定耐性遺伝子の1つ以上のメンバーの上流遺伝子間配列中のDNAモチーフを検出することを含み得る。
【0134】
場合によっては、共発現スコアの所定の閾値は、スピアマン相関係数、コルモゴロフ-スミルノフ距離、ユークリッド距離、カルバック-ライブラー情報量、又は隣接差(例えば、Gonzalez-Valbuena,et al.(2017),“Metrics to Estimate Differential Co-Expression Networks”,BioData Mining 10:32を参照)などの差次的発現分析メトリックに対して決定された値に基づいてもよい。これらの例では、共発現の所定の閾値は、0.6、0.7、0.8、0.9、0.95又はそれ以上の共発現スコアを含み得る。場合によっては、共発現スコアの所定の閾値は、この範囲内の任意の値を有し得る。
【0135】
場合によっては、例えば、共発現スコアが全体的トランスクリプトミクスデータのクラスタリング分析に基づく場合、共発現スコアの所定の閾値は使用されなくてもよい。
【0136】
二次代謝産物の機能を予測する方法及び/又は目的の活性を有する二次代謝産物を同定する方法
二次代謝産物の機能を予測するための、及び/又は目的の活性を有する二次代謝産物を産生するための生合成酵素をコードする生合成遺伝子クラスタ(BGC)を同定するためのコンピュータ実装方法も本明細書に開示される。
【0137】
例えば、場合によっては、二次代謝産物の機能を予測するためのコンピュータ実装方法は、少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、二次代謝産物を産生することが知られている生合成遺伝子クラスタ(BGC)に関連する遺伝子配列に対応する、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することと、を含み得る。
【0138】
場合によっては、少なくとも1つの目的の標的配列の選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供され得る。
【0139】
場合によっては、本明細書の他の箇所で説明するように、少なくとも1つの目的の標的配列は、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含み得る。場合によっては、少なくとも1つの目的の標的配列は、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む。
【0140】
場合によっては、標的ゲノムの選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供され得る。
【0141】
場合によっては、複数の標的ゲノムは、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含み得る。場合によっては、ゲノミクスデータベースは、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含む。
【0142】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、確率的配列アラインメントモデルに基づくホモログの同定を含み得る。場合によっては、確率的配列アラインメントモデルは、プロファイル隠れマルコフモデル(pHMM)である。場合によっては、ホモログは、本明細書の他の箇所で説明するように、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される。場合によっては、例えば、そのような所定の閾値は、既知のホモログの最低ビットスコアに基づいて決定されてもよい。
【0143】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含み得る。場合によっては、所定の閾値は、本明細書の他の箇所で説明するように、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む。
【0144】
場合によっては、配列同一性パーセントの所定の閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、又はそれ以上であり得る。
【0145】
場合によっては、配列カバレッジパーセントについての所定の閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、又はそれ以上であり得る。
【0146】
場合によっては、E値の所定の閾値は、最大で10、1、0.1、0.001、0.0001、1e-10、1e-20、1e-100、又はそれより低くてもよい。
【0147】
場合によっては、ビットスコアの所定の閾値は、少なくとも5、10、25、50、100、250、500、1000、5000、又はそれ以上であってもよい。
【0148】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む。
【0149】
場合によっては、少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成は、本明細書の他の箇所で説明するように、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含み得る。
【0150】
場合によっては、少なくとも1つの目的の標的配列は、例えば、既知のETaG配列、既知のNETaG配列、又は既知のコアシンターゼ遺伝子配列を含み得る。
【0151】
場合によっては、推定耐性遺伝子は、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含み得る。場合によっては、例えば、少なくとも1つの所定の閾値は、共起スコア、共進化スコア、同時制御スコア、及び/又は共発現スコアの所定の閾値を含み得る。そのような所定の閾値の例は、本明細書の他の箇所に記載されている。
【0152】
別の非限定的な例として、目的の活性を有する二次代謝産物を産生するための生合成酵素をコードする生合成遺伝子クラスタ(BGC)を同定するためのコンピュータ実装方法も開示され、該方法は、少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、目的の治療標的をコードする配列を含む、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、耐性遺伝子によってコードされるタンパク質産物に作用する二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することと、を含む。
【0153】
場合によっては、少なくとも1つの目的の標的配列の選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供され得る。場合によっては、本明細書の他の箇所で説明するように、少なくとも1つの目的の標的配列は、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む。場合によっては、少なくとも1つの目的の標的配列は、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む。
【0154】
場合によっては、標的ゲノムの選択は、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供され得る。場合によっては、本明細書の他の箇所で説明するように、複数の標的ゲノムは、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含み得る。場合によっては、ゲノミクスデータベースは、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含み得る。
【0155】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、確率的配列アラインメントモデルに基づくホモログの同定を含み得る。場合によっては、確率的配列アラインメントモデルは、プロファイル隠れマルコフモデル(pHMM)である。場合によっては、ホモログは、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される。場合によっては、そのような所定の閾値は、例えば、既知のホモログの最低ビットスコアに基づいて決定されてもよい。
【0156】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含み得る。場合によっては、所定の閾値は、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む。
【0157】
場合によっては、配列同一性パーセントの所定の閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、又はそれ以上であり得る。
【0158】
場合によっては、配列カバレッジパーセントについての所定の閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、又はそれ以上であり得る。
【0159】
場合によっては、E値の所定の閾値は、最大で10、1、0.1、0.001、0.0001、1e-10、1e-20、1e-100、又はそれより低くてもよい。
【0160】
場合によっては、ビットスコアの所定の閾値は、少なくとも5、10、25、50、100、250、500、1000、5000、又はそれ以上であってもよい。
【0161】
場合によっては、少なくとも1つの標的配列のホモログを同定するための検索は、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含み得る。
【0162】
場合によっては、少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成は、本明細書の他の箇所で説明するように、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含み得る。
【0163】
場合によっては、推定耐性遺伝子が二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含み得る。場合によっては、例えば、少なくとも1つの所定の閾値は、共起スコア、共進化スコア、同時制御スコア、及び/又は共発現スコアの所定の閾値を含み得る。そのような所定の閾値の例は、本明細書の他の箇所に記載されている。
【0164】
場合によっては、本明細書の他の箇所で説明するように、本明細書に記載されるコンピュータ実装方法は、コンピュータ実装インビトロアッセイを実施して、目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験することを更に含む。
【0165】
場合によっては、本明細書に記載されるコンピュータ実装方法は、本明細書の他の箇所で説明するように、インビボアッセイを実施して、目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験することを更に含む。
【0166】
用途
本明細書に記載のコンピュータベースの方法は、例えば、1つ以上の標的ゲノム中の目的の1つ以上の標的配列(例えば、遺伝子配列)のホモログ又はオルソログの同定、標的ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子の同定、BGCによって産生される二次代謝産物の機能の予測、及び/又は目的の活性(例えば、目的の治療活性)を有する二次代謝産物を産生するための生合成酵素をコードするBGCの同定などを含む様々な用途を有する。
【0167】
場合によっては、本開示は、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られているか又は産生する可能性が高い生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的ホモログが、推定ETaG又はNETaGである、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定ETaG又はNETaG)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを決定することと、少なくとも1つのゲノムパラメータに基づいて、前記推定ETaG又はNETaGが組み込み標的遺伝子(ETaG)又は非組み込み標的遺伝子(NETaG)である尤度を決定することと、を含み得る、組み込み標的遺伝子(ETaG)及び/又は非組み込み標的遺伝子(NETaG)を同定するための方法(例えば、コンピュータ実装方法)を提供する。
【0168】
場合によっては、本開示は、少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、二次代謝産物を産生することが知られている生合成遺伝子クラスタ(BGC)に関連する遺伝子配列に対応する、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することと、を含み得る二次代謝産物の機能を予測するための方法(例えば、コンピュータ実装方法)を提供する。
【0169】
場合によっては、本開示は、少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、目的の治療標的をコードする配列を含む、少なくとも1つの目的の標的配列の選択を受信することと、ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを判定することと、少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、耐性遺伝子によってコードされるタンパク質産物に作用する二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することと、を含み得る、目的の活性を有する二次代謝産物を産生するための生合成酵素をコードする生合成遺伝子クラスタ(BGC)を同定するための方法(例えば、コンピュータ実装方法)を提供する。
【0170】
場合によっては、本開示の方法(例えば、コンピュータ実装方法)は、インビトロアッセイ、例えば、二次代謝産物を産生する生合成遺伝子クラスタ(BGC)を含む生物において同定されたETaG又はNETagと相同である哺乳動物(例えば、ヒト)遺伝子によってコードされる哺乳動物(例えば、ヒト)タンパク質に対する二次代謝産物(又はその類縁体(アナログ))の活性(例えば、受容体結合活性、酵素活性化活性、酵素阻害活性など)を検出又は測定するアッセイを実施することを更に含み得る。場合によっては、本方法は、二次代謝産物を産生する生合成遺伝子クラスタ(BGC)を含む生物において同定されたETaG又はNETagと相同である爬虫類、鳥類、両生類、植物、真菌、細菌又はウイルスの遺伝子によってコードされるタンパク質(例えば、爬虫類、鳥類、両生類、植物、真菌、細菌又はウイルスタンパク質)に対する二次代謝産物(又はその類縁体)の活性(例えば、受容体結合活性、酵素活性化活性、酵素阻害活性など)を検出又は測定するためにインビトロアッセイを実施する工程を更に含み得る。
【0171】
場合によっては、本開示の方法(例えば、コンピュータ実装方法)は、インビボアッセイ、例えば、二次代謝産物を産生する生合成遺伝子クラスタ(BGC)を含む生物において同定されたETaG又はNETagと相同である哺乳動物(例えば、ヒト)遺伝子によってコードされる哺乳動物(例えば、ヒト)タンパク質に対する二次代謝産物(又はその類縁体)の活性(例えば、受容体結合活性、酵素活性化活性、酵素阻害活性、細胞内シグナル伝達経路活性、疾患応答など)を検出又は測定するアッセイを実施することを更に含み得る。場合によっては、本方法は、二次代謝産物を産生する生合成遺伝子クラスタ(BGC)を含む生物において同定されたETaG又はNETagと相同である爬虫類、鳥類、両生類、植物、真菌、細菌又はウイルスの遺伝子によってコードされるタンパク質(例えば、爬虫類、鳥類、両生類、植物、真菌、細菌又はウイルスタンパク質)に対する二次代謝産物(又はその類縁体)の活性(例えば、受容体結合活性、酵素活性化活性、酵素阻害活性、細胞内シグナル伝達経路活性、疾患応答など)を検出又は測定するためにインビボアッセイを実施する工程を更に含み得る。
【0172】
場合によっては、本開示の方法は、例えば、BGCによって産生される二次代謝産物(又はその類縁体)の哺乳動物(例えば、ヒト)標的を同定及び/又は特徴付けるために使用され得る。場合によっては、本開示の方法は、爬虫類、鳥類、両生類、植物、真菌、細菌、BGCによって産生される二次代謝産物(又はその類縁体)のウイルス標的、又は任意の他の生物からの標的を同定及び/又は特性評価するために使用され得る。
【0173】
場合によっては、本開示の方法は、例えば、哺乳動物(例えば、ヒト)標的遺伝子の小分子モジュレーターを同定するための創薬活動に使用され得る。場合によっては、本開示の方法を使用して、任意の他の生物由来の爬虫類標的遺伝子、鳥類標的遺伝子、両生類標的遺伝子、植物標的遺伝子、真菌標的遺伝子、細菌標的遺伝子、ウイルス標的遺伝子、又は標的遺伝子の小分子モジュレーターを同定し得る。
【0174】
場合によっては、二次代謝産物は、非天然塩を含む、BGC又はその塩によってコードされる酵素の産物である。場合によっては、二次代謝産物又はその類縁体は、BGCによってコードされる酵素の産物の類縁体、例えば二次代謝産物と同じコア構造を有する小分子化合物又はその塩である。
【0175】
場合によっては、本開示は、ヒト標的(又は別の生物由来の標的)を調節するための方法であって、BGCによってコードされる酵素によって産生される二次代謝産物又はその類縁体を提供することを含み、ヒト標的(又はヒト標的をコードする核酸配列)が、本明細書に記載の方法のいずれか1つを使用して判定されるBGCに関連するETaG又はNETaGと相同である方法を提供する。
【0176】
場合によっては、本開示は、ヒト標的(又は別の生物由来の標的)に関連する状態、傷害、又は疾患を治療するための方法であって、BGCによってコードされる酵素によって産生される二次代謝産物又はその類縁体を提供することを含み、ヒト標的(又はヒト標的をコードする核酸配列)が、本明細書に記載の方法のいずれか1つを使用して判定されるBGCに関連するETaG又はNETaGと相同である方法を提供する。
【0177】
場合によっては、二次代謝産物は、真菌によって産生される。場合によっては、二次代謝産物は、非環状である。場合によっては、二次代謝産物は、ポリケチドである。場合によっては、二次代謝産物は、テルペン化合物である。場合によっては、二次代謝産物は、非リボソーム合成ペプチドである。
【0178】
場合によっては、物質(例えば、二次代謝産物)の類縁体は1つ以上の特定の構造的特徴、要素、構成要素又は部分を参照物質と共有する。典型的には、類縁体は、例えばコア又はコンセンサス構造を共有する参照物質との有意な構造類似性を示すが、特定の離散的な方法でも異なる。場合によっては、類縁体は、例えば、参照物質の化学的操作によって、参照物質から生成され得る物質である。場合によっては、類縁体は、参照物質を生成するものと実質的に同様の(例えば、複数の工程を共有する)合成プロセスの実施によって生成され得る物質である。場合によっては、類縁体は、参照物質を生成するために使用されるものとは異なる合成プロセスの実施によって生成されるか、又は生成され得る。場合によっては、物質の類縁体は、その置換可能な位置の1つ以上で置換されている物質である。
【0179】
場合によっては、生成物の類縁体は、生成物の構造コアを含む。場合によっては、生合成産物は、環状、例えば、単環式、二環式、又は多環式であり、生成物の構造コアは、単環式、二環式、又は多環式環系であるか、それを含む。場合によっては、生成物の構造コアは、生成物の二環式又は多環式環系の1つの環を含む。場合によっては、産物はポリペプチドであるか又はポリペプチドを含み、構造コアはポリペプチドの骨格である。場合によっては、生成物はポリケチドであるか又はそれを含み、構造コアはポリケチドの主鎖である。場合によっては、類縁体は、1つ以上の適切な置換基を含む置換生合成産物である。
【0180】
システム
耐性遺伝子(例えば、ETaG又はNETaG)を同定するための開示された方法のいずれかを実施するように設計されたシステムも本明細書に開示される。システムは、例えば、1つ以上のプロセッサと、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに、少なくとも1つの目的の標的配列の選択を受信すること;ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られているか又は産生する可能性が高い生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信すること;複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施すること;少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成すること;系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子(例えば、ETaG又はNETaG)である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類すること;陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびにiv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、から選択される少なくとも1つのゲノムパラメータを決定すること;ならびに少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子(例えば、pETaG又はpNETaG)が実際の耐性遺伝子(例えば、組み込み標的遺伝子(ETaG)又は非組み込み標的遺伝子(NETaG))である尤度を判定することを行わせる命令を格納するように構成されたメモリユニットとを含む。場合によっては、推定耐性遺伝子(例えば、pETaG又はpNETaG)が耐性遺伝子(例えば、ETaG又はNETaG)である尤度を判定することは、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む。そのような所定の閾値の例は、本明細書の他の箇所に記載されている。
【0181】
コンピューティングデバイス及びシステム
図2は、本開示の1つ以上の例によるコンピューティングデバイスの一例を示す図である。デバイス200は、ネットワークに接続されたホストコンピュータであり得る。デバイス200は、クライアントコンピュータ又はサーバであり得る。図2に示すように、デバイス200は、パーソナルコンピュータ、ワークステーション、サーバ、又は電話もしくはタブレットなどのハンドヘルドコンピューティングデバイス(ポータブル電子デバイス)などの任意の適切なタイプのマイクロプロセッサベースのデバイスであり得る。デバイスは、例えば、プロセッサ210、入力デバイス220、出力デバイス230、ストレージ240、及び通信デバイス260のうちの1つ以上を含むことができる。入力デバイス220及び出力デバイス230は、一般に上述のものに対応することができ、それらはコンピュータと接続可能又は一体化され得る。
【0182】
入力デバイス220は、タッチスクリーン、キーボードもしくはキーパッド、マウス、又は音声認識デバイスなど、入力を提供する任意の適切なデバイスであり得る。出力デバイス230は、タッチスクリーン、触覚デバイス、又はスピーカなど、出力を提供する任意の適切なデバイスであり得る。
【0183】
ストレージ240は、RAM、キャッシュ、ハードドライブ、又は取り外し可能な記憶ディスクを含む電気的、磁気的、又は光学的メモリなどのストレージを提供する任意の適切なデバイスであり得る。通信デバイス260は、ネットワークインターフェースチップ又はデバイスなど、ネットワークを介して信号を送受信することができる任意の適切なデバイスを含むことができる。コンピュータの構成要素は、物理バス270を介して、又は無線でなど、任意の適切な方法で接続することができる。
【0184】
メモリ/ストレージ240に格納され、プロセッサ210によって実行され得るソフトウェア250は、例えば、本開示の機能(例えば、上述のデバイスで実施されるように)を具現化するプログラミングを含むことができる。
【0185】
ソフトウェア250はまた、命令実行システム、装置、又はデバイスからソフトウェアに関連する命令をフェッチし、命令を実行することができる、上述したものなどの命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するための任意の非一時的コンピュータ可読記憶媒体内に格納及び/又は搬送することができる。本開示との関連で、コンピュータ可読記憶媒体は、命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するためのプログラミングを含むか又は格納することができる、ストレージ240などの任意の媒体であり得る。
【0186】
ソフトウェア250はまた、命令実行システム、装置、又はデバイスからソフトウェアに関連する命令を取り出し、命令を実行することができる、上述したものなどの命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するために任意のトランスポート媒体内で伝播することができる。本開示との関連で、トランスポート媒体は、命令実行システム、装置、又はデバイスによって、又はそれらと関連して使用するためのプログラミングを通信、伝播、又はトランスポートすることができる任意の媒体であり得る。輸送用可読媒体は、電子、磁気、光学、電磁、又は赤外線の有線又は無線の伝播媒体を含むことができるが、これらに限定されない。
【0187】
デバイス200は、任意の適切なタイプの相互接続された通信システムであり得るネットワークに接続され得る。ネットワークは、任意の適切な通信プロトコルを実装することができ、任意の適切なセキュリティプロトコルによって保護することができる。ネットワークは、無線ネットワーク接続、TlもしくはT3回線、ケーブルネットワーク、DSL、又は電話回線など、ネットワーク信号の送受信を実施することができる任意の適切な構成のネットワークリンクを含むことができる。
【0188】
デバイス200は、ネットワーク上で動作するのに適した任意のオペレーティングシステムを実装することができる。ソフトウェア250は、C、C++、Java、又はPythonなどの任意の適切なプログラミング言語で記述することができる。様々な実施形態において、本開示の機能を具現化するアプリケーションソフトウェアは、例えば、ウェブベースのアプリケーション又はウェブサービスとして、クライアント/サーバ構成又はウェブブラウザを介してなど、異なる構成で展開することができる。
【実施例
【0189】

例1-治療用途を有し得る特異的な標的を有するBGCを同定するためのNETaGの使用
コハク酸デヒドロゲナーゼ複合体サブユニットC(SDHC)阻害剤:異なる分類群由来の真菌ゲノムの多様なセットからのタンパク質配列の集合を、InterProScanを用いてアノテーションし、Interpro ID IPR000701(コハク酸デヒドロゲナーゼ/フマル酸レダクターゼB型、膜貫通サブユニット)でアノテーションされたタンパク質を検索して、ゲノムのセット中のコハク酸デヒドロゲナーゼ複合体サブユニットC(SDHC)ホモログを同定した。単一コピーのInterpro ID IPR000701ホモログを有するゲノムを陰性ゲノムと称し、複数コピーのID IPR000701ホモログを有するゲノムを陽性ゲノムと称した。NETaGは、遺伝子クラスタの産物に対する耐性を付与するコハク酸デヒドロゲナーゼ複合体サブユニットC(SDHC)のコピーである。全てのSDHCタンパク質配列を、MAFFTを使用してアラインメントさせ、ギャップを除去するためにtrimAIを使用してトリミングした。得られたトリミング多重配列アラインメントをIQ-TREEで処理して、SDHCホモログの最尤系統発生を作製した。NETaGは、系統樹内のそれらの位置によって同定することができる。いくつかの真菌属からのNETaGは、系統樹の1つの枝又はいくつかの近い枝に一緒にクラスタを形成するが、ハウスキーピングのコピーは、より大きな系統学的距離を示し、それらの枝において単一の真菌属からのタンパク質のみを示す。さらに、NETaGクレードは、マルチコピーゲノム由来のタンパク質のみを含むが、ハウスキーピングコピーは、単一及びマルチコピーゲノム由来のクレードにおいて一緒にタンパク質を示す。
【0190】
図3は、真菌種の多様なセットからのSDHCホモログの最尤系統樹の非限定的な例を提供する。NETaGは、異なる真菌種由来のホモログの共局在化、ならびに木の他の枝における単一コピー及びマルチコピーホモログの共局在化によって同定することができる。
【0191】
系統樹から、本発明者らは、14個の陽性ゲノム(NETaGを含むゲノム)及び39個の陰性ゲノム(シングルコピー;NETaGなし)を推測することができる。全てのゲノムは、antiSMASHを使用してアノテーションが付され、得られた遺伝子クラスタは、上記のクラステロミクスアプローチを使用して遺伝子クラスタファミリーに分類される。得られたファミリーを、正規化距離:
【数2】

を用いて特性評価した。
式中、上記のように、TPG=陽性ゲノムの総数、PG=BGCコミュニティ内の陽性ゲノムの数、TNG=陰性ゲノムの総数、及びNG=BGCコミュニティ内の陰性ゲノムの数である。
【0192】
クラステロミクスを実施するために図3の系統樹によって決定された陽性ゲノム及び陰性ゲノムの数を使用して、本発明者らは以下を仮定する:陽性ゲノム(NETaGを含有する)は、標的遺伝子ホモログ(又はその産物)に対する活性を有する二次代謝産物を産生するBGCを含有するが、陰性ゲノム(標的遺伝子ホモログのハウスキーピングコピーのみを含有する)はそのようなBGCを含有しない。クラステロミクス分析は、選択された全ての生物から全てのBGCを採取し、遺伝子クラスタファミリーを返し、次いで、陽性ゲノム及び陰性ゲノムにおけるそれらの存在について試験する。本発明者らは、正規化距離(上記を参照)をメトリックとして使用して、最良のスコアリング遺伝子クラスタファミリーを決定する。クラスタ数は、この場合、SDHC阻害剤の潜在的な標的である遺伝子クラスタファミリー内のクラスタの数を示す。
【0193】
正規化距離をメトリックとして使用すると、遺伝子クラスタファミリー87は、全ての遺伝子クラスタファミリーの中でSDHC阻害剤の最良のスコアリング候補である。遺伝子クラスタファミリーは、ファミリーあたり主に2つの遺伝子クラスタを含み、これにより、ハウスコピーに対する活性を有するSMを産生するBGCを見つけるために調査する必要があるBGCが大幅に減少する。例えば、リゾデルメア(Rhizodermea)属の一種は90個のBGCを含有する。クラスタ解析と組み合わせたNETaG法を使用して、トップスコアの遺伝子クラスタファミリーのBGC候補から、90個の遺伝子クラスタからたった2個の遺伝子クラスタに候補数を減らすことができる。したがって、SDHCに対する活性について調査する必要があるのは2つのBGCのみであり、本発明の予測力の強さを示している。
【0194】
さらに、本発明者らは、遺伝子クラスタファミリー87(表1を参照)が、SDHCの強力な阻害剤として知られているアトペニン及びハルジアノピリドン遺伝子クラスタ(図4に示す)と同様の遺伝子クラスタを含むことを判定した。これは、開示された方法がNETaGを使用して標的遺伝子の阻害剤を首尾よく予測することができるという堅固な証拠を提供する。NETaGの使用は、SDHC阻害剤の同定に限定されない。開示された方法は、任意のNETaGに対する機能を有する二次代謝産物を産生するBGCを同定するために使用することができ、したがって、目的の新しい生物活性化合物を見つけるために使用することができる。
【0195】
図4は、遺伝子クラスタファミリー87からの遺伝子クラスタとのアトペニンBGC(Bat-Erdene,et al.(2020),“Iterative Catalysis in the Biosynthesis of Mitochondrial Complex II Inhibitors Harzianopyridone and Atpenin B”,J.Am.Chem.Soc.142(19):8550-8554からゲノム座標を用いて抽出された遺伝子群)のBGC比較の非限定的な例を提供する。各行は、各属について、トップスコアの遺伝子クラスタファミリー(表1を参照)からの候補BGCを含む。矢印はBGCの遺伝子を示し、それらの間の網掛け領域はクリンカーツール(Gilchrist,et al.“Clinker&Clustermap.js:Automatic Generation of Gene Cluster Comparison Figures”,Bioinformatics 37(16):2473-2475)によって生成されるそれらの間の配列アラインメントを示す。プロットは、種全体にわたって生合成遺伝子が大きく保存されていることを示しており、BGCがSDHC阻害剤であるアトペニンを産生するという本発明者らの予測を裏付けている。
【表1】
【0196】
例示的な実施形態
本明細書に記載の実施形態の中には、以下のものがある。
1.耐性遺伝子を同定するためのコンピュータ実装方法であって、
少なくとも1つの目的の標的配列の選択を受信することと、
ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られているか又は産生する可能性が高い生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、
複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、
少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、
系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、
陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:
i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;
ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;
iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびに
iv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、
から選択される少なくとも1つのゲノムパラメータを判定することと、
少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が耐性遺伝子である尤度を判定することと、
を含む、方法。
2.推定耐性遺伝子が耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む、実施形態1に記載のコンピュータ実装方法。
3.少なくとも1つの目的の標的配列の選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、実施形態1又は実施形態2に記載のコンピュータ実装方法。
4.少なくとも1つの目的の標的配列が、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む、実施形態1~3のいずれか1つに記載のコンピュータ実装方法。
5.少なくとも1つの目的の標的配列が、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む、実施形態1~4のいずれか1つに記載のコンピュータ実装方法。
6.少なくとも1つの目的の標的配列が、哺乳動物配列、ヒト配列、植物配列、真菌配列、細菌配列、古細菌配列、ウイルス配列、又はそれらの任意の組み合わせを含む、実施形態1~5のいずれか1つに記載のコンピュータ実装方法。
7.少なくとも1つの目的の標的配列が、一次標的配列及び1つ以上の関連配列を含む、実施形態1~6のいずれか1つに記載のコンピュータ実装方法。
8.1つ以上の関連配列が、一次標的配列に機能的に関連する配列を含む、実施形態7に記載のコンピュータ実装方法。
9.1つ以上の関連配列が、一次標的配列に経路関連する配列を含む、実施形態8に記載のコンピュータ実装方法。
10.標的ゲノムの選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、実施形態1~9のいずれか1つに記載のコンピュータ実装方法。
11.複数の標的ゲノムが、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む、実施形態1~10のいずれか1つに記載のコンピュータ実装方法。
12.ゲノミクスデータベースが、公開ゲノミクスデータベースを含む、実施形態1~11のいずれか1つに記載のコンピュータ実装方法。
13.ゲノミクスデータベースが、独自のゲノミクスデータベースを含む、実施形態1~12のいずれか1つに記載のコンピュータ実装方法。
14.少なくとも1つの標的配列のホモログを同定するための検索が、確率的配列アラインメントモデルに基づくホモログの同定を含む、実施形態1~13のいずれか1つに記載のコンピュータ実装方法。
15.確率的配列アラインメントモデルが、プロファイル隠れマルコフモデル(pHMM)である、実施形態14に記載のコンピュータ実装方法。
16.ホモログが、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される、実施形態14又は実施形態16に記載のコンピュータ実装方法。
17.少なくとも1つの標的配列のホモログを同定するための検索が、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む、実施形態1~16のいずれか1つに記載のコンピュータ実装方法。
18.局所配列アラインメント検索ツールが、BLAST、DIAMOND、HMMER、Exonerate、又はggsearchを含む、実施形態17に記載のコンピュータ実装方法。
19.所定の閾値が、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む、実施形態17又は実施形態18に記載のコンピュータ実装方法。
20.少なくとも1つの標的配列のホモログを同定するための検索が、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む、実施形態1~19のいずれか1つに記載のコンピュータ実装方法。
21.遺伝子及び/又はタンパク質ドメインアノテーションツールが、InterProScan又はEggNOGを含む、実施形態20に記載のコンピュータ実装方法。
22.少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成が、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む、実施形態1~21のいずれか1つに記載のコンピュータ実装方法。
23.アラインメントソフトウェアツールが、MAFFT、MUSCLE、又はClustalWを含む、実施形態22に記載のコンピュータ実装方法。
24.配列トリミングソフトウェアツールが、trimAI、GBlocks、又はClipKITを含む、実施形態22又は実施形態23に記載のコンピュータ実装方法。
25.系統樹構築ソフトウェアツールが、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、又はPAUPを含む、実施形態22~24のいずれか1つに記載のコンピュータ実装方法。
26.系統樹の構築が、最尤アルゴリズム、節約アルゴリズム、隣接結合アルゴリズム、距離行列アルゴリズム、又はベイズ推定アルゴリズムに基づく、実施形態22~25のいずれか1つに記載のコンピュータ実装方法。
27.共起を示す1つ以上のスコアが、陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関の同定に基づいて決定される、実施形態1~26のいずれか1つに記載のコンピュータ実装方法。
28.陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することが、複数の標的ゲノム内のBGCコミュニティを同定するために、BGCの群についてアラインされたタンパク質配列、アラインされたヌクレオチド配列、アラインされたタンパク質ドメイン配列、又はアラインされたpHMMをクラスタ化するためのクラスタリングアルゴリズムの使用を含む、実施形態27に記載のコンピュータ実装方法。
29.陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することが、複数の標的ゲノム内のBGCコミュニティを同定するためのBGCの群についてのタンパク質配列又はタンパク質ドメインの系統解析の使用を含む、実施形態27に記載のコンピュータ実装方法。
30.陽性ゲノム中の推定耐性遺伝子の複数のコピーの存在とBGCの1つ以上の遺伝子の存在との間の正の相関を同定することが、複数の標的ゲノム内のBGCコミュニティを同定するために特定の分類法でゲノムを選択することを含む、実施形態27に記載のコンピュータ実装方法。
31.推定耐性遺伝子及びBGCに関連する1つ以上遺伝子の共進化を示す1つ以上のスコアが、共進化相関スコア、共進化ランクスコア、共進化スロープスコア、又はそれらの任意の組み合わせに基づいて決定される、実施形態1~30のいずれか1つに記載のコンピュータ実装方法。
32.共進化相関スコアが、推定耐性遺伝子についてのオーソロガス群(COG)のクラスタのペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子についてのオーソロガス群(COG)のクラスタのペアワイズ配列同一性パーセントとの間の相関に基づく、実施形態31に記載のコンピュータ実装方法。
33.共進化ランクスコアが、推定耐性遺伝子を含むCOGについて昇順でBGCに関連する1つ以上の遺伝子のうちの一遺伝子を含むCOGの相関係数のランキングに基づく、実施形態31に記載のコンピュータ実装方法。
34.距離スコアが同順位の場合、同順位内の全てのCOGに対するランクが、群内の最低ランクに等しく設定される、実施形態33に記載のコンピュータ実装方法。
35.共進化スロープスコアが、推定耐性遺伝子についてのCOGのペアワイズ配列同一性パーセントと、BGCに関連する1つ以上の遺伝子のうちの一遺伝子についてのCOGのペアワイズ配列同一性パーセントとの直交回帰に基づく、実施形態31に記載のコンピュータ実装方法。
36.陰性ゲノムから対応する遺伝子を除去した後に残る3つ以上の遺伝子を有する固有の陽性ゲノムから生じるCOGのみが、共進化相関スコア、共進化ランクスコア、又は共進化スロープスコアを評価するために使用される、実施形態32~35のいずれか1つに記載のコンピュータ実装方法。
37.同時制御を示す1つ以上のスコアが、BGCに関連する1つ以上の遺伝子の遺伝子間配列及び推定耐性遺伝子からのDNAモチーフ検出に基づく、実施形態1~36のいずれか1つに記載のコンピュータ実装方法。
38.共発現を示す1つ以上のスコアが、全体的トランスクリプトミクスデータの差次的発現分析及び/又はクラスタリング分析に基づく、実施形態1~37のいずれか1つに記載のコンピュータ実装方法。
39.生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子が、アンカー遺伝子、コアシンターゼ遺伝子、生合成遺伝子、BGCによって産生される二次代謝産物の生合成に関与しない遺伝子、又はそれらの任意の組み合わせを含む、実施形態1~38のいずれか1つに記載のコンピュータ実装方法。
40.推定耐性遺伝子が、推定組み込み標的遺伝子(pETaG)又は推定非組み込み標的遺伝子(pNETaG)である、実施形態1~39のいずれか1つに記載のコンピュータ実装方法。
41.耐性遺伝子が、組み込み標的遺伝子(ETaG)又は非組み込み標的遺伝子(NETaG)である、実施形態1~40のいずれか1つに記載のコンピュータ実装方法。
42.二次代謝産物の機能を予測するためのコンピュータ実装方法であって、
少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、二次代謝産物を産生することが知られている生合成遺伝子クラスタ(BGC)に関連する遺伝子配列に対応する、少なくとも1つの目的の標的配列の選択を受信することと、
ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、
複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、
少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、
系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、
陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:
i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;
ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;
iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびに
iv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、
から選択される少なくとも1つのゲノムパラメータを判定することと、
少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することと、
を含む、方法。
43.推定耐性遺伝子が、二次代謝産物によって作用されるタンパク質標的をコードする耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む、実施形態42に記載のコンピュータ実装方法。
44.少なくとも1つの目的の標的配列の選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、実施形態42又は実施形態43に記載のコンピュータ実装方法。
45.少なくとも1つの目的の標的配列が、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む、実施形態42~44のいずれか1つに記載のコンピュータ実装方法。
46.少なくとも1つの目的の標的配列が、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む、実施形態42~45のいずれか1つに記載のコンピュータ実装方法。
47.標的ゲノムの選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、実施形態42~46のいずれか1つに記載のコンピュータ実装方法。
48.複数の標的ゲノムが、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む、実施形態42~47のいずれか1つに記載のコンピュータ実装方法。
49.ゲノミクスデータベースが、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含む、実施形態42~48のいずれか1つに記載のコンピュータ実装方法。
50.少なくとも1つの標的配列のホモログを同定するための検索が、確率的配列アラインメントモデルに基づくホモログの同定を含む、実施形態42~49のいずれか1つに記載のコンピュータ実装方法。
51.確率的配列アラインメントモデルが、プロファイル隠れマルコフモデル(pHMM)である、実施形態50に記載のコンピュータ実装方法。
52.ホモログが、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される、実施形態50又は実施形態51に記載のコンピュータ実装方法。
53.少なくとも1つの標的配列のホモログを同定するための検索が、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む、実施形態42~52のいずれか1つに記載のコンピュータ実装方法。
54.所定の閾値が、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む、実施形態53に記載のコンピュータ実装方法。
55.少なくとも1つの標的配列のホモログを同定するための検索が、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む、実施形態42~54のいずれか1つに記載のコンピュータ実装方法。
56.少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成が、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む、実施形態42~55のいずれか1つに記載のコンピュータ実装方法。
57.少なくとも1つの目的の標的配列が、既知のNETaG配列又はコアシンターゼ遺伝子配列を含む、実施形態42~56のいずれか1つに記載のコンピュータ実装方法。
58.目的の活性を有する二次代謝産物を産生するための生合成酵素をコードする生合成遺伝子クラスタ(BGC)を同定するためのコンピュータ実装方法であって、
少なくとも1つの目的の標的配列の選択を受信することであって、少なくとも1つの目的の標的配列が、目的の治療標的をコードする配列を含む、少なくとも1つの目的の標的配列の選択を受信することと、
ゲノミクスデータベースからの標的ゲノムの選択を受信することであって、標的ゲノムの選択が、二次代謝産物を産生することが知られている生物からの複数の標的ゲノムを含む、ゲノミクスデータベースからの標的ゲノムの選択を受信することと、
複数の標的ゲノム中の少なくとも1つの標的配列のホモログを同定するための検索を実施することと、
少なくとも1つの標的配列の同定されたホモログに基づいて系統樹を作成することと、
系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することであって、陽性ゲノムは、少なくとも1つの標的配列ホモログの複数のコピーが存在するクレードに属するゲノムであり、陰性ゲノムは、少なくとも1つの標的配列ホモログの単一コピーが存在するクレードに属するゲノムであり、陽性ゲノム中に複数コピーで存在する標的配列ホモログが、推定耐性遺伝子である、系統樹に基づいて、複数の標的ゲノムのゲノムを陽性ゲノム又は陰性ゲノムとして分類することと、
陽性ゲノム及び陰性ゲノムの分類に少なくとも部分的に基づいて、以下:
i)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及び生合成遺伝子クラスタ(BGC)に関連する1つ以上の遺伝子の共起を示す1つ以上のスコア;
ii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)及びBGCに関連する1つ以上の遺伝子の共進化を示す1つ以上のスコア;
iii)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との同時制御を示す1つ以上のスコア;ならびに
iv)少なくとも1つの標的配列ホモログ(推定耐性遺伝子)と、BGCに関連する1つ以上の遺伝子との共発現を示す1つ以上のスコア、
から選択される少なくとも1つのゲノムパラメータを判定することと、
少なくとも1つのゲノムパラメータに基づいて、推定耐性遺伝子が、耐性遺伝子によってコードされるタンパク質産物に作用する二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することと、
を含む、方法。
59.推定耐性遺伝子が二次代謝産物を産生するBGCに関連する実際の耐性遺伝子である尤度を判定することが、少なくとも1つの判定されたゲノムパラメータを少なくとも1つの所定の閾値と比較することを含む、実施形態58に記載のコンピュータ実装方法。
60.少なくとも1つの目的の標的配列の選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、実施形態58又は実施形態59に記載のコンピュータ実装方法。
61.少なくとも1つの目的の標的配列が、アミノ酸配列、ヌクレオチド配列、又はそれらの任意の組み合わせを含む、実施形態58~60のいずれか1つに記載のコンピュータ実装方法。
62.少なくとも1つの目的の標的配列が、ペプチド配列もしくはその一部、タンパク質配列もしくはその一部、タンパク質ドメイン配列もしくはその一部、遺伝子配列もしくはその一部、又はそれらの任意の組み合わせを含む、実施形態58~61のいずれか1つに記載のコンピュータ実装方法。
63.標的ゲノムの選択が、コンピュータ実装方法を実施するように構成されたシステムのユーザによる入力として提供される、実施形態58~62のいずれか1つに記載のコンピュータ実装方法。
64.複数の標的ゲノムが、植物ゲノム、真菌ゲノム、細菌ゲノム、又はそれらの任意の組み合わせを含む、実施形態58~63のいずれか1つに記載のコンピュータ実装方法。
65.ゲノミクスデータベースが、公開ゲノミクスデータベース又は独自のゲノミクスデータベースを含む、実施形態58~64のいずれか1つに記載のコンピュータ実装方法。
66.少なくとも1つの標的配列のホモログを同定するための検索が、確率的配列アラインメントモデルに基づくホモログの同定を含む、実施形態58~65のいずれか1つに記載のコンピュータ実装方法。
67.確率的配列アラインメントモデルが、プロファイル隠れマルコフモデル(pHMM)である、実施形態66に記載のコンピュータ実装方法。
68.ホモログが、確率的配列アラインメントモデルスコアと所定の閾値との比較に基づいて同定される、実施形態66又は実施形態67に記載のコンピュータ実装方法。
69.少なくとも1つの標的配列のホモログを同定するための検索が、局所配列アラインメント検索ツールを使用した配列のアラインメントに基づくホモログの同定、アラインメントに基づく配列相同性メトリックの計算、及び計算された配列相同性メトリックと所定の閾値との比較を含む、実施形態58~68のいずれか1つに記載のコンピュータ実装方法。
70.所定の閾値が、配列同一性パーセント、配列カバレッジパーセント、E値、又はビットスコア値に対する閾値を含む、実施形態69に記載のコンピュータ実装方法。
71.少なくとも1つの標的配列のホモログを同定するための検索が、遺伝子及び/又はタンパク質ドメインアノテーションツールの使用に基づくホモログの同定を含む、実施形態58~70のいずれか1つに記載のコンピュータ実装方法。
72.少なくとも1つの標的配列の同定されたホモログに基づく系統樹の作成が、アラインメントソフトウェアツールを使用したホモログ配列のアラインメント、配列トリミングソフトウェアツールを使用したアラインされたホモログ配列のトリミング、及び系統樹構築ソフトウェアツールを使用した系統樹の構築を含む、実施形態58~71のいずれか1つに記載のコンピュータ実装方法。
73.目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験するためにインビトロアッセイを実施することを更に含む、実施形態58~72のいずれか1つに記載のコンピュータ実装方法。
74.目的の治療標的に対する活性について同定されたBGCによって産生される二次代謝産物を試験するためにインビボアッセイを実施することを更に含む、実施形態58~73のいずれか1つに記載のコンピュータ実装方法。
75.システムであって、
1つ以上のプロセッサと、
1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに実施形態1~74のいずれか1つに記載の方法を実施させる命令を格納するように構成されたメモリと、
を含む、システム。
76.1つ以上のプログラムを格納する非一時的コンピュータ可読記憶媒体であって、1つ以上のプログラムが、システムの1つ以上のプロセッサによって実行されると、システムに実施形態1~74のいずれか1つに記載の方法を実施させる命令を含む、非一時的コンピュータ可読記憶媒体。
【0197】
上記から、開示された方法、デバイス、及びシステムの特定の実装形態が例示及び説明されているが、様々な修正を行うことができ、本明細書で企図されることを理解されたい。また、本発明が本明細書内で提供される具体的な例によって限定されることも意図されていない。本発明を前述の明細書を参照して説明してきたが、本明細書における好ましい実施形態の説明及び例示は、限定的な意味で解釈されることを意味しない。さらに、本発明の全ての態様は、様々な条件及び変数に依存する本明細書に記載の特定の描写、構成又は相対的な割合に限定されないことを理解されたい。本発明の実施形態の形態及び詳細における様々な修正は、当業者には明らかであろう。したがって、本発明は、そのような修正、変形及び均等物も包含することが企図される。
図1
図2
図3
図4
【国際調査報告】