IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ライフマイン セラピューティクス, インコーポレイテッドの特許一覧

特表2024-542153生合成遺伝子クラスターにおける埋め込まれた標的遺伝子の発見のための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】生合成遺伝子クラスターにおける埋め込まれた標的遺伝子の発見のための方法およびシステム
(51)【国際特許分類】
   G16B 20/00 20190101AFI20241106BHJP
【FI】
G16B20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024527062
(86)(22)【出願日】2022-11-04
(85)【翻訳文提出日】2024-06-25
(86)【国際出願番号】 US2022049040
(87)【国際公開番号】W WO2023081413
(87)【国際公開日】2023-05-11
(31)【優先権主張番号】63/263,638
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/278,065
(32)【優先日】2021-11-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520087055
【氏名又は名称】ライフマイン セラピューティクス, インコーポレイテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】ハッジトマス、ミハリス
(72)【発明者】
【氏名】ワイカ、スティーブン アンドリュー
(72)【発明者】
【氏名】キム、ジヌ
(72)【発明者】
【氏名】リン、ユー - チェン
(72)【発明者】
【氏名】マクフェイデン、イアン ジェイムス
(72)【発明者】
【氏名】ヴァーダイン、グレッグ
(57)【要約】
本開示は、比較ゲノミクス技術および機械学習モデルを使用して、潜在的な治療標的のホモログである埋め込まれた標的遺伝子(ETaG)を含む、生合成遺伝子クラスター(BGC)に関連する遺伝子を同定するためのコンピュータベースの方法およびシステムに関する。
【特許請求の範囲】
【請求項1】
埋め込まれた標的遺伝子(ETaG)を同定するためのコンピュータ実装方法であって、
1つ以上のクエリ配列またはそのプロキシを指定することと、
1つ以上の標的ゲノムを選択することと、
前記1つ以上のクエリ配列のホモログである推定上の埋め込まれた標的遺伝子(pETaG)配列を、候補pETaGについての1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、同定するために、前記1つ以上のクエリ配列またはそのプロキシを使用して前記1つ以上の標的ゲノムの検索を実行することと、
複数のゲノムの比較ゲノミクス分析に基づいて、所与のpETaGがETaGであるかどうかを決定することと
を含む、コンピュータ実装方法。
【請求項2】
前記比較ゲノミクス分析が、前記複数のゲノムに基づいて比較ゲノミクスヒートマップを生成することを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記複数のゲノムが、複数の陽性ゲノムおよび複数の陰性ゲノムを含む、請求項1または請求項2に記載のコンピュータ実装方法。
【請求項4】
前記比較ゲノミクス分析が、前記複数のゲノムに基づいて、前記所与のpETaGについての系統発生的特徴、共起特徴、共進化特徴、またはそれらの任意の組み合わせを決定することを含む、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
【請求項5】
前記比較ゲノミクス分析が、前記pETaGがETaGである確率を予測するための機械学習モデルまたは経験的アルゴリズムを使用した、pETaGについての系統発生的特徴、共起特徴、共進化特徴、比較ゲノミクスヒートマップ、比較ゲノミクスヒートマップから導出されたデータ、またはそれらの任意の組み合わせを含む入力データセットの分析を含む、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
同定されたpETaGのコピー数の決定に基づいて、前記同定されたpETaGが耐性機構に関係すると決定することをさらに含む、請求項1~5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
前記pETaGを含む陽性ゲノムと前記pETaGを含まない陰性ゲノムとの間のコピー数差の決定に基づいて、pETaGが耐性機構に関係すると決定することをさらに含む、請求項1~6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
前記1つ以上のクエリ配列、またはそのプロキシが、1つ以上のタンパク質配列、1つ以上の核酸配列、1つ以上のUniversal Protein Resource(Uniprot)識別番号、1つ以上のプロファイル隠れマルコフモデル(pHMM)、タンパク質配列ドメインの指定されたセット、またはそれらの任意の組み合わせを含む、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
前記1つ以上のクエリ配列またはそのプロキシが、細菌ゲノム、古細菌ゲノム、真菌ゲノム、植物ゲノム、動物ゲノム、ヒトゲノム、またはそれらの任意の組み合わせから選択される、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
【請求項10】
前記1つ以上の標的ゲノムが、細菌ゲノム、古細菌ゲノム、真菌ゲノム、植物ゲノム、動物ゲノム、ヒトゲノム、またはそれらの任意の組み合わせから選択される、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
2つ以上の標的ゲノムが、ペアワイズ類似性スコア、ペアワイズ系統発生的距離またはそれらの任意の組み合わせに基づいて選択される、請求項1~10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
前記2つ以上の選択された標的ゲノムをフィルタリングして、(i)前記ペアワイズ類似性スコアが指定されたペアワイズ類似性閾値よりも大きい標的ゲノム、または(ii)前記ペアワイズ系統発生的距離が指定された系統発生的距離閾値未満である標的ゲノムのみを保持することをさらに含む、請求項11に記載のコンピュータ実装方法。
【請求項13】
前記保持された標的ゲノムを、クラスタリングアルゴリズムを使用してセットにクラスタリングすることと、前記クラスタリングされた標的ゲノムのセットの1つ以上を使用して前記検索を実行することとをさらに含む、請求項12に記載のコンピュータ実装方法。
【請求項14】
前記クラスタリングアルゴリズムがマルコフクラスターアルゴリズムを含む、請求項13に記載のコンピュータ実装方法。
【請求項15】
前記検索が、BLAST、DIAMOND、HMMER、Exonerate、またはggsearchを使用して実行される、請求項1~14のいずれか一項に記載のコンピュータ実装方法。
【請求項16】
前記検索が、前記1つ以上の標的ゲノムの1つ以上の特定の領域に限定される、請求項1~15のいずれか一項に記載のコンピュータ実装方法。
【請求項17】
前記1つ以上の特定の領域が、1つ以上の生合成遺伝子クラスター(BGC)を含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記1つ以上の標的ゲノム中の前記1つ以上のBGCが、BGC検索アルゴリズムを使用して予測される、請求項17に記載のコンピュータ実装方法。
【請求項19】
前記BGC検索アルゴリズムが、antiSMASH、SMURF、TOUCAN、またはdeepBGCを含む、請求項18に記載のコンピュータ実装方法。
【請求項20】
前記1つ以上のBGCが、配列検索ツールを使用して決定された既知の生合成コアシンターゼと一致する遺伝子配列に近位の指定された長さの配列領域を抽出することによって、前記1つ以上の標的ゲノムについて予測される、請求項17に記載のコンピュータ実装方法。
【請求項21】
前記配列検索ツールが、BLAST、DIAMOND、HMMER、Exonerateまたはggsearchを含む、請求項20に記載のコンピュータ実装方法。
【請求項22】
前記1つ以上のBGCが、既知のコアシンターゼの隠れマルコフモデル(HMM)を使用して前記1つ以上のクエリゲノムについて予測される、請求項17に記載のコンピュータ実装方法。
【請求項23】
前記1つ以上のBGCが、既知のコアシンターゼに関連するタンパク質配列ドメインの共局在に基づいて、前記1つ以上の標的ゲノムについて予測される、請求項17に記載のコンピュータ実装方法。
【請求項24】
前記1つ以上の相同配列ベースのメトリックが、配列同一性パーセント、配列カバレッジパーセント、E値、ビットスコア、HMMスコア、またはそれらの任意の組み合わせを含む、請求項1~23のいずれか一項に記載のコンピュータ実装方法。
【請求項25】
前記1つ以上の所定の相同配列ベースのメトリック閾値が、配列同一性パーセント閾値、配列カバレッジパーセント閾値、E値閾値、ビットスコア閾値、HMMスコア閾値、またはそれらの任意の組み合わせを含む、請求項1~24のいずれか一項に記載のコンピュータ実装方法。
【請求項26】
前記1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも98%の値を有する配列同一性パーセント閾値を含む、請求項25に記載のコンピュータ実装方法。
【請求項27】
前記1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも98%の値を有する配列カバレッジパーセント閾値を含む、請求項25に記載のコンピュータ実装方法。
【請求項28】
前記1つ以上の所定の相同配列ベースのメトリック閾値が、10未満、9未満、8未満、7未満、6未満、5未満、4未満、3未満、2未満、1未満、0.01未満、0.001未満、1e-10未満、1e-20未満、1e-30未満、1e-40未満、1e-50未満、1e-60未満、1e-70未満、1e-80未満、1e-90未満または1e-100未満の値を有するE値閾値を含む、請求項25に記載のコンピュータ実装方法。
【請求項29】
前記1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも250、少なくとも500、または少なくとも1000、または少なくとも5000の値を有するビットスコア閾値を含む、請求項25に記載のコンピュータ実装方法。
【請求項30】
前記1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも10、少なくとも25、少なくとも50、少なくとも100、少なくとも250、少なくとも500、少なくとも1000、または少なくとも5000の値を有するHMMスコア閾値を含む、請求項25に記載のコンピュータ実装方法。
【請求項31】
前記検索を実行することが、
タンパク質配列を含む1つ以上のクエリ配列を核酸配列に変換することと、
候補pETaGの前記1つ以上の相同配列ベースのメトリックと前記1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、相同核酸配列を同定するために核酸配列に変換された前記1つ以上のクエリ配列を使用して、前記1つ以上の標的ゲノムの検索を実行することと、
前記相同核酸配列のゲノム座標を、前記1つ以上の標的ゲノム中の予測されるタンパク質配列に対応するゲノム座標と比較することと
を含む、請求項1~30のいずれか一項に記載のコンピュータ実装方法。
【請求項32】
相同核酸配列が単一の予測されるタンパク質配列に対応する核酸配列と重複し、前記重複が指定された核酸配列重複閾値より大きい場合、前記予測されるタンパク質配列がpETaGとして報告される、請求項31に記載のコンピュータ実装方法。
【請求項33】
相同核酸配列が複数の予測されるタンパク質配列に対応する核酸配列と重複し、それぞれの前記重複が指定された核酸配列重複閾値より大きい場合、前記予測されるタンパク質配列の1つのみがpETaGとして報告される、請求項31に記載のコンピュータ実装方法。
【請求項34】
pETaGとして報告される前記予測されるタンパク質配列が、前記相同核酸配列および前記予測されるタンパク質配列に対応する前記核酸配列が最大の配列同一性パーセント、配列カバレッジパーセント、E値またはビットスコア値を示す前記予測されるタンパク質配列である、請求項33に記載のコンピュータ実装方法。
【請求項35】
pETaGとして報告される前記予測されるタンパク質配列が、前記相同核酸配列および前記予測されるタンパク質配列に対応する前記核酸配列が最も長い重複配列を示す前記予測されるタンパク質配列である、請求項33に記載のコンピュータ実装方法。
【請求項36】
相同核酸配列が1つ以上の予測されるタンパク質配列に対応する1つ以上の核酸配列と重複するが、それぞれの前記重複が指定された核酸配列重複閾値未満である場合、最も長い予測されるタンパク質配列がpETaGとして報告される、請求項31に記載のコンピュータ実装方法。
【請求項37】
相同核酸配列が予測されるタンパク質配列に対応する核酸配列と重複しない場合、前記相同核酸配列の前記ゲノム座標がpETaGとして報告される、請求項31に記載のコンピュータ実装方法。
【請求項38】
前記指定された核酸配列重複閾値が、少なくとも20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、または98%の値を有する、請求項32~37のいずれか一項に記載のコンピュータ実装方法。
【請求項39】
所与のpETaGについて生成された前記比較ゲノミクスヒートマップが、第1軸および第2軸に従ってグリッド状に配置された複数のセルを含み、前記第1軸が複数の異なる標的ゲノムに対応し、前記複数の異なる標的ゲノムが、それぞれが前記標的ゲノムの1つにおける既知のBGCのアンカー遺伝子配列のオルソログを有する複数の陽性ゲノムと、前記アンカー遺伝子配列のオルソログを有しない複数の陰性ゲノムとを含み、前記第2軸が、前記既知のBGCの前記アンカー遺伝子配列と共局在する複数の標的遺伝子配列に対応し、前記推定上の埋め込まれた標的遺伝子(pETaG)が、前記複数の共局在する標的遺伝子配列のうちの1つであり、各セルの数値が、
(i)前記それぞれの標的ゲノム中の前記それぞれの共局在するクエリ遺伝子配列のオルソログの存在または非存在と、
(ii)前記それぞれの共局在するクエリ遺伝子配列に対する前記オルソログの配列類似性と、
(iii)前記それぞれのクエリ遺伝子配列の前記オルソログが前記それぞれのゲノム中の前記アンカー遺伝子配列の前記オルソログと共局在するかどうかと
に基づく、請求項2~38のいずれか一項に記載のコンピュータ実装方法。
【請求項40】
訓練された機械学習モデルを使用して、前記比較ゲノミクスヒートマップまたはその基礎となるデータを分析することをさらに含み、前記機械学習モデルが、前記グリッド表現中の前記複数のセル内の数値に基づいて、推定上の埋め込まれた遺伝子が遺伝子クラスターに埋め込まれる尤度を決定するように訓練される、請求項39に記載のコンピュータ実装方法。
【請求項41】
前記訓練された機械学習モデルが、長・短期記憶(LSTM)モデルまたは畳み込みニューラルネットワーク(CNN)を含む、請求項40に記載のコンピュータ実装方法。
【請求項42】
前記pETaGがETaGである確率を予測するために使用される前記機械学習モデルが教師あり学習モデルを含む、請求項5~41のいずれか一項に記載のコンピュータ実装方法。
【請求項43】
前記教師あり学習モデルが、深層学習モデルを含む、請求項42に記載のコンピュータ実装方法。
【請求項44】
前記教師あり学習モデルが、決定木モデルを含む、請求項42に記載のコンピュータ実装方法。
【請求項45】
推定上の埋め込まれた標的遺伝子(pETaG)が、クエリゲノム中の生合成遺伝子クラスター(BGC)によって産生される二次代謝産物に対する耐性遺伝子である尤度を決定するコンピュータ実装方法であって、
a)以下:
i)複数の異なるゲノム中の前記BGCと共局在する複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づく、前記pETaGが前記BGCに関連する尤度であって、前記複数のゲノムが、前記BGCのアンカー遺伝子のオルソログを含む複数の陽性ゲノムと、前記BGCの前記アンカー遺伝子のオルソログを含まない複数の陰性ゲノムとを含み、前記アンカー遺伝子がBGCに関連することが知られている、尤度、
ii)前記複数のゲノムの系統樹における前記pETaGのホモログの前記最終共通祖先(LCA)の1つ以上の系統発生的特徴、
iii)前記複数の陽性ゲノム間の前記pETaGの前記オルソログおよび前記アンカー遺伝子の前記オルソログの共起を示す1つ以上のスコア、
iv)前記pETaGのオルソログと前記アンカー遺伝子のオルソログの両方を含む陽性ゲノムにおける前記アンカー遺伝子のオルソログ間の配列多様性に関する前記pETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコア、ならびに
v)前記複数の陽性ゲノム中の前記pETaGのホモログのコピー数および前記複数の陰性ゲノム中の前記pETaGのホモログのコピー数を示す1つ以上のスコア
から選択される1つ以上のパラメータを決定することと、
b)前記1つ以上のパラメータに基づいて、前記pETaGがBGCによって産生される前記二次代謝産物に対する耐性遺伝子である前記尤度を決定することと
を含む、コンピュータ実装方法。
【請求項46】
前記pETaGが、前記クエリゲノム中の前記BGCと共局在する、請求項45に記載のコンピュータ実装方法。
【請求項47】
前記pETaGが、前記BGCによる前記二次代謝産物の産生に関与しない、請求項46に記載のコンピュータ実装方法。
【請求項48】
前記アンカー遺伝子が前記BGCのコアシンターゼ遺伝子である、請求項45~47のいずれか一項に記載のコンピュータ実装方法。
【請求項49】
複数のpETaGのそれぞれについて、前記pETaGが標的ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することを含む、請求項45~48のいずれか一項に記載のコンピュータ実装方法。
【請求項50】
a)閾値を超えるペアワイズ配列類似性を有する複数のゲノム中の推定上のBGCを同定することと、
b)前記推定上のBGC中の前記アンカー遺伝子のオルソログと共局在する非生合成遺伝子を同定することであって、前記非生合成遺伝子が、目的の生物中の複数のクエリ遺伝子のいずれか1つと相同であり、前記非生合成遺伝子が、前記BGCによる二次代謝産物の産生に関与していない、同定することと、
c)前記複数のクエリ遺伝子のそれぞれについて、前記それぞれの標的遺伝子の前記タンパク質に対して最も高い配列類似性を有するタンパク質をコードする前記非生合成遺伝子を前記pETaGとして同定し、前記非生合成遺伝子をコードする前記ゲノムを前記標的ゲノムとして同定することと、
d)前記複数のクエリ遺伝子のそれぞれについて、前記それぞれのpETaGが、前記それぞれの標的ゲノム中の前記それぞれのBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することと
を含む、請求項49に記載のコンピュータ実装方法。
【請求項51】
a)データベース内のゲノムを、それぞれが閾値を超えるペアワイズ配列類似性を有するゲノムを含む複数のクラスターにクラスタリングすることと、
b)前記複数のクラスターのそれぞれについて、
i)前記推定上のBGC中の前記アンカー遺伝子のオルソログと共局在する非生合成遺伝子を同定することであって、前記非生合成遺伝子が、目的の生物中の複数のクエリ遺伝子のいずれか1つと相同であり、前記非生合成遺伝子が、前記BGCによる二次代謝産物の産生に関与していない、同定することと、
ii)複数のクエリ遺伝子のそれぞれについて、前記それぞれのクエリ遺伝子の前記タンパク質と最も高い配列類似性を有するタンパク質をコードする前記非生合成遺伝子を候補pETaGとして同定することと、
c)前記pETaG間の配列類似性に基づいて前記候補pETaGを複数のクラスターにクラスタリングし、各クラスター中の前記それぞれのクエリ遺伝子の前記タンパク質に対して最も高い配列類似性を有するタンパク質をコードする前記候補pETaGを前記pETaGとして、および前記pETaGをコードする前記それぞれのゲノムを前記標的ゲノムとして同定することと、
d)前記複数のクエリ遺伝子のそれぞれについて、前記それぞれのpETaGが、前記それぞれの標的ゲノム中の前記それぞれのBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することと
を含む、請求項49に記載のコンピュータ実装方法。
【請求項52】
前記閾値が、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも少なくとも98%のペアワイズ配列類似性である、請求項50または請求項51に記載のコンピュータ実装方法。
【請求項53】
前記同定された非生合成遺伝子のそれぞれが、前記それぞれのクエリ遺伝子によってコードされるタンパク質に対して少なくとも約30%の配列同一性を有するタンパク質をコードする、請求項50~52のいずれか一項に記載のコンピュータ実装方法。
【請求項54】
前記複数のクエリ遺伝子が、前記目的の生物におけるすべてのタンパク質コード遺伝子である、請求項50~53のいずれか一項に記載のコンピュータ実装方法。
【請求項55】
前記目的の生物が哺乳動物である、請求項50~54のいずれか一項に記載のコンピュータ実装方法。
【請求項56】
前記目的の生物がヒトである、請求項55に記載のコンピュータ実装方法。
【請求項57】
前記目的の生物が、爬虫類、鳥類、両生類、植物、真菌または細菌である、請求項50~54のいずれか一項に記載のコンピュータ実装方法。
【請求項58】
前記複数のゲノムが真菌ゲノムである、請求項55または請求項56に記載のコンピュータ実装方法。
【請求項59】
前記複数のゲノムが細菌ゲノムである、請求項55または請求項56に記載のコンピュータ実装方法。
【請求項60】
前記複数のゲノムが植物ゲノムである、請求項55または請求項56に記載のコンピュータ実装方法。
【請求項61】
前記複数のクラスターのそれぞれが、約10~約100のゲノムを含む、請求項54~60のいずれか一項に記載のコンピュータ実装方法。
【請求項62】
目的の生物における創薬可能な標的を同定するコンピュータ実装方法であって、請求項45~61のいずれか一項に記載の方法を行うことと、前記クエリ遺伝子の前記それぞれのpETaGが前記標的ゲノム中の前記BGCによって産生される二次代謝産物に対する耐性遺伝子である前記尤度に基づいて、創薬可能な標的としてクエリ遺伝子を同定することとを含む、コンピュータ実装方法。
【請求項63】
前記二次代謝産物またはそのアナログを、前記クエリ遺伝子の小分子モジュレーターまたは前記クエリ遺伝子によってコードされるタンパク質として同定することをさらに含む、請求項62に記載のコンピュータ実装方法。
【請求項64】
前記二次代謝産物またはそのアナログを前記クエリ遺伝子によってコードされるタンパク質と接触させることと、前記クエリ遺伝子によってコードされる前記タンパク質の活性を検出することとをさらに含む、請求項63に記載のコンピュータ実装方法。
【請求項65】
前記陽性ゲノムの数が前記陰性ゲノムの数に等しい、請求項45~64のいずれか一項に記載のコンピュータ実装方法。
【請求項66】
ゲノムのデータベースから複数の陽性ゲノムおよび複数の陰性ゲノムを選択することを含む、請求項65に記載のコンピュータ実装方法。
【請求項67】
配列類似性に基づいてゲノムの前記データベースを複数のクラスターにクラスタリングすることと、前記複数の陽性ゲノムを提供するためにクラスターごとに1つの陽性ゲノムを選択することとを含む、請求項66に記載のコンピュータ実装方法。
【請求項68】
前記クラスター中の各陽性ゲノムに対して最も高い配列類似性を有する陰性ゲノムを選択することを含む、請求項67に記載のコンピュータ実装方法。
【請求項69】
前記陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下であり、および/または前記陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下である、請求項66~68のいずれか一項に記載のコンピュータ実装方法。
【請求項70】
前記陽性ゲノムの数が少なくとも5である、請求項45~69のいずれか一項に記載のコンピュータ実装方法。
【請求項71】
前記1つ以上のパラメータが、複数の異なるゲノム中の前記BGC中の複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づいて、前記pETaGが前記BGCに関連する尤度を含む、請求項45~70のいずれか一項に記載のコンピュータ実装方法。
【請求項72】
前記pETaGが前記BGCに関連する尤度を決定することが、
a)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を受信することであって、前記第1軸が前記複数のゲノムに対応し、前記第2軸が前記クエリゲノム中の前記BGC中の前記複数のクエリ遺伝子に対応し、各セルが、
i)前記それぞれのゲノム中の前記それぞれのクエリ遺伝子のオルソログの存在または非存在と、
ii)前記それぞれのクエリ遺伝子に対する前記オルソログの配列類似性と、
iii)前記それぞれのクエリ遺伝子の前記オルソログが前記それぞれのゲノム中の前記アンカー遺伝子の前記オルソログと共局在するかどうかと
に基づく、受信することと、
b)前記グリッド表現を機械学習モデルに入力することであって、前記機械学習モデルが、前記グリッド表現中の前記複数のセルの値に基づいて前記pETaGが前記BGCに関連する尤度を決定するように訓練され、それによって前記pETaGが前記BGCに関連する前記尤度を提供する、入力することと
を含む、請求項71に記載のコンピュータ実装方法。
【請求項73】
a)複数のゲノム由来の推定上のBGCのライブラリからpETaGを含む推定上のBGCを同定し、前記推定上のBGC中の最も長い生合成遺伝子を前記コアシンターゼ遺伝子として同定することと、
b)前記コアシンターゼ遺伝子のオルソログを含む複数の陽性ゲノムおよび前記コアシンターゼ遺伝子のオルソログを含まない複数の陰性ゲノムを得ることであって、前記複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、前記複数の陰性ゲノムが前記複数の陽性ゲノムとの配列類似性に基づいて選択される、得ることと、
c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、前記第1軸が、前記クエリゲノム中の前記推定上のBGC中の前記コアシンターゼ遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、前記第2軸が、前記複数の陽性ゲノムおよび前記複数の陰性ゲノムに対応し、各セルが、
i)前記それぞれのゲノム中の前記それぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、
ii)前記それぞれのタンパク質コード遺伝子に対する前記オルソログの配列類似性と、
iii)前記それぞれのタンパク質コード遺伝子の前記オルソログが前記それぞれのゲノム中の前記コアシンターゼ遺伝子の前記オルソログと共局在するかどうかと
に基づいて計算される、グリッド表現を作成することと
をさらに含む、請求項72に記載のコンピュータ実装方法。
【請求項74】
前記機械学習モデルが、複数の事前定義された尤度カテゴリのそれぞれに対する確率を出力するように構成された分類モデルである、請求項72または請求項73に記載のコンピュータ実装方法。
【請求項75】
前記分類モデルが、長・短期記憶(LSTM)モデルである、請求項74に記載のコンピュータ実装方法。
【請求項76】
前記分類モデルが、畳み込みニューラルネットワーク(CNN)である、請求項74に記載のコンピュータ実装方法。
【請求項77】
前記分類モデルが、人工ニューラルネットワーク(ANN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、ビジョントランスフォーマーモデル、敵対的生成ネットワーク(GAN)モデル、変分オートエンコーダモデル、または潜在拡散モデルである、請求項74に記載のコンピュータ実装方法。
【請求項78】
前記複数の事前定義された尤度カテゴリが、(1)尤度が高い、(2)尤度がどちらかといえば高い、(3)尤度がどちらかといえば低い、(4)尤度が低い、を含む、請求項74~77のいずれか一項に記載のコンピュータ実装方法。
【請求項79】
前記1つ以上のパラメータが、前記複数の陽性ゲノムおよび陰性ゲノムの系統樹における前記pETaGのホモログの前記最終共通祖先(LCA)の1つ以上の系統発生的特徴を含む、請求項45~78のいずれか一項に記載のコンピュータ実装方法。
【請求項80】
前記1つ以上の系統発生的特徴が、前記複数の陽性ゲノム中の遺伝子と前記複数の陰性ゲノム中の遺伝子と複数の陽性ゲノムから決定された値との間の平均コピー数差(CND)、LCAに対する平均の比、LCAに対する標準偏差の比、隣接距離の平均の比、隣接距離の比の標準偏差、およびクレード比の和からなる群から選択される、請求項79に記載のコンピュータ実装方法。
【請求項81】
前記1つ以上のパラメータが、前記複数の陽性ゲノム中の前記pETaGの前記オルソログおよび前記アンカー遺伝子の前記オルソログの共起を示す1つ以上のスコアを含む、請求項45~80のいずれか一項に記載のコンピュータ実装方法。
【請求項82】
前記共起を示す1つ以上のスコアが、共起pETaG距離、共起pETaGランク、共起コア距離、および共起コアランクからなる群から選択される、請求項81に記載のコンピュータ実装方法。
【請求項83】
前記1つ以上のパラメータが、前記pETaGのオルソログと前記アンカー遺伝子のオルソログの両方を含む陽性ゲノム中、前記アンカー遺伝子のオルソログ間の配列多様性に関して、前記pETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコアを含む、請求項45~82のいずれか一項に記載のコンピュータ実装方法。
【請求項84】
前記共進化を示す1つ以上のスコアが、共進化相関、共進化ランク、および共進化勾配からなる群から選択される、請求項82に記載のコンピュータ実装方法。
【請求項85】
前記1つ以上のパラメータが、前記複数の陽性ゲノムおよび前記複数の陰性ゲノムの1つ以上の特徴をさらに含む、請求項79~84のいずれか一項に記載の方法。
【請求項86】
前記1つ以上の特徴が、前記陽性ゲノムの数、前記陽性ゲノム間のペアワイズゲノム同一性(PGI)の平均、前記陽性ゲノム間のPGIの標準偏差、前記陰性ゲノムの数、前記陰性ゲノム間の平均PGI、および前記陰性ゲノム間のPGIの標準偏差からなる群から選択される、請求項85に記載のコンピュータ実装方法。
【請求項87】
前記1つ以上のパラメータに基づいて尤度を決定することが、前記1つ以上の特徴を機械学習モデルに入力することを含み、前記機械学習モデルが、前記pETaGが耐性遺伝子である尤度を決定するように訓練されている、請求項45~86のいずれか一項に記載のコンピュータ実装方法。
【請求項88】
前記機械学習モデルが深層学習モデルである、請求項87に記載のコンピュータ実装方法。
【請求項89】
前記機械学習モデルが決定木モデルである、請求項87に記載のコンピュータ実装方法。
【請求項90】
前記機械学習モデルがベイズ推定モデルである、請求項87に記載のコンピュータ実装方法。
【請求項91】
前記機械学習モデルがロジスティック回帰モデルである、請求項87に記載のコンピュータ実装方法。
【請求項92】
遺伝子がBGCのアンカー遺伝子と共局在するかどうかが、antiSMASHを使用して決定される、請求項45~91のいずれか一項に記載のコンピュータ実装方法。
【請求項93】
遺伝子がBGCのアンカー遺伝子と共局在するかどうかが、前記遺伝子が前記アンカー遺伝子から近接距離内に位置するかどうかに基づいて決定される、請求項45~92のいずれか一項に記載のコンピュータ実装方法。
【請求項94】
前記近接ゾーンが約50kb以下である、請求項93に記載のコンピュータ実装方法。
【請求項95】
前記近接ゾーンが約20kbである、請求項93に記載のコンピュータ実装方法。
【請求項96】
システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
前記メモリが、前記1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、前記システムに以下:
i)入力として、1つ以上のクエリ配列、またはそのプロキシを受信させ、
ii)1つ以上の標的ゲノムの選択を入力として受信させ、
iii)前記1つ以上のクエリ配列のホモログである推定上の埋め込まれた標的遺伝子(pETaG)配列を、候補pETaGについての1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、同定するために、前記1つ以上のクエリ配列またはそのプロキシを使用して前記1つ以上の標的ゲノムの検索を実行させ、
iv)前記1つ以上の標的ゲノムに関係する複数のゲノムの比較ゲノミクス分析に基づいて、所与のpETaGが実際のETaGであるかどうかを決定する
ことを実行させる命令を格納するように構成されている、システム。
【請求項97】
システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
前記メモリが、前記1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、前記システムに、推定上の埋め込まれた標的遺伝子(pETaG)が、クエリゲノム中の生合成遺伝子クラスター(BGC)によって産生される二次代謝産物に対する耐性遺伝子である尤度を決定する方法を実行させる命令を格納するように構成されており、前記方法が、
a)以下:
i)複数の異なるゲノム中の前記BGCと共局在する複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づく、前記pETaGが前記BGCに関連する尤度であって、前記複数のゲノムが、前記BGCのアンカー遺伝子のオルソログを含む複数の陽性ゲノムと、前記BGCの前記アンカー遺伝子のオルソログを含まない複数の陰性ゲノムとを含み、前記アンカー遺伝子がBGCに関連することが知られている、尤度、
ii)前記複数のゲノムの系統樹における前記pETaGのホモログの前記最終共通祖先(LCA)の1つ以上の系統発生的特徴、
iii)前記複数の陽性ゲノム間の前記pETaGの前記オルソログおよび前記アンカー遺伝子の前記オルソログの共起を示す1つ以上のスコア、
iv)前記pETaGのオルソログと前記アンカー遺伝子のオルソログの両方を含む陽性ゲノムにおける前記アンカー遺伝子のオルソログ間の配列多様性に関する前記pETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコア、ならびに
v)前記複数の陽性ゲノム中の前記pETaGのホモログのコピー数および前記複数の陰性ゲノム中の前記pETaGのホモログのコピー数を示す1つ以上のスコア
から選択される1つ以上のパラメータを決定することと、
b)前記1つ以上のパラメータに基づいて、前記pETaGが前記BGCによって産生される前記二次代謝産物に対する耐性遺伝子である前記尤度を決定することと
を含む、システム。
【請求項98】
システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
前記メモリが、前記1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、前記システムに請求項1~95のいずれか一項に記載の方法を実行させる命令を格納するように構成されている、システム。
【請求項99】
1つ以上のプログラムを格納し、前記1つ以上のプログラムが、電子デバイスの1つ以上のプロセッサによって実行されると、前記電子デバイスに請求項1~95のいずれか一項に記載の方法を実行させる命令を含む、非一時的コンピュータ可読記憶媒体。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月5日に出願された米国仮特許出願第63/263,638号の優先権の利益、および2021年11月10日に出願された米国仮特許出願第63/278,065号の優先権の利益を主張し、これらのそれぞれの内容は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、一般に、遺伝子クラスター(例えば、生合成遺伝子クラスター)に関連する遺伝子を同定するための方法およびシステム、ならびに遺伝子クラスター(例えば、生合成遺伝子クラスターの境界)の境界を決定する方法、治療標的を同定する方法、および創薬のための方法を含むその適用に関する。
【背景技術】
【0003】
微生物は、多様な化学構造および機能を有する二次代謝産物または天然産物として知られる多種多様な小分子化合物を産生する。いくつかの二次代謝産物は、微生物が有害な環境に耐えることを可能にするが、他の二次代謝産物は種間および種内競合の武器として働く。例えば、Piel、J.Nat.Prod.Rep.、26巻:338~362頁、2009年を参照されたい。多くのヒト医薬品(例えば、抗菌剤、抗腫瘍剤、および殺虫剤を含む)は、二次代謝産物に由来している。例えば、Newman D.J.およびCragg G.M.、J.Nat.Prod.、79巻:629~661頁、2016年を参照されたい。
【0004】
微生物は、生合成遺伝子クラスター(BGC)と呼ばれる共局在する遺伝子のクラスターによってコードされる酵素タンパク質を使用して二次代謝産物を合成する。いくつかの微生物生合成遺伝子クラスターは、クラスターによってコードされる酵素によって産生される関連生合成産物の合成に関与していないように見える遺伝子を含有するという証拠が現れつつある。いくつかの場合では、そのような非生合成遺伝子は、宿主生物を関連生合成産物に対して明らかに耐性にすることができるタンパク質をコードするので、「自己保護」として記載されている。例えば、いくつかの場合では、生合成産物のトランスポーターをコードする非生合成遺伝子、生合成産物に作用する解毒酵素、または生合成産物によりその活性が標的とされるタンパク質の耐性変異体が報告されている。例えば、Cimermancicら、Cell 158巻:412頁、2014年;Keller、Nat.Chem.Biol.11巻:671頁、2015年を参照されたい。研究者らは、そのような遺伝子の同定およびそれらの機能の決定が、クラスターの酵素によって合成される生合成産物の役割を決定するのに有用であり得ることを提案している。例えば、Yehら、ACS Chem.Biol.11巻:2275頁、2016年;Tangら、ACS Chem.Biol.10巻:2841頁、2015年;Regueiraら、Appl,Environ.Microbiol.77巻:3035頁、2011年;Kennedyら、Science 284巻:1368頁、1999年;Lowtherら、Proc.Natl.Acad.Sci.USA 95巻:12153頁、1998年;Abeら、Mol.Genet.Genomics 268巻:130頁、2002年を参照されたい。米国特許出願公開第2020/0211673号は、生合成遺伝子クラスターに存在するか、またはクラスター(特に、細菌の生合成遺伝子クラスターとは対照的な、真核生物、例えば真菌の生合成遺伝子クラスター)の生合成遺伝子に近接して存在する特定の非生合成遺伝子が、治療目的の標的であるヒト遺伝子のホモログを表し得るという洞察を提供する。そのような非生合成遺伝子は、「埋め込まれた標的遺伝子」または「ETaG」と呼ばれる。
【0005】
従来、二次代謝産物は、微生物培養物から同定され、目的のヒト標的に対する治療活性についてスクリーニングされてきた。しかしながら、大部分の微生物は培養可能ではなく、培養可能な微生物中のBGCでさえも、実験室条件下で転写的にサイレントのままであり得る。核酸およびタンパク質の配列決定技術ならびにバイオインフォマティクスパイプラインにおける最近の発展により、微生物を培養しBGCの生物活性を試験する必要なく、環境微生物から多数のBGCを迅速に同定することが可能になった。例えば、Palazzotto E.およびWeber T、Curr.Opin.Microbiol.、45巻:109~116頁、2018年を参照されたい。しかしながら、純粋に計算的な方法を用いてBGCのゲノム境界を正確に定義することは依然として課題である。BGCによって産生される二次代謝産物に対する自己保護を付与する、BGCに埋め込まれた遺伝子を同定するために利用可能な計算パイプラインもない。
【発明の概要】
【0006】
標的ゲノム中の生合成遺伝子クラスター(BGC)に関連する遺伝子を同定するための例示的な方法およびシステムが、本明細書に開示される。開示された方法およびシステムは、第1のゲノム中の既知のETaG配列のホモログである1つ以上の標的ゲノム中の推定上の埋め込まれた標的遺伝子配列(pETaG)を同定するために使用され得る、ゲノムデータベース検索および分析ツールを提供する。所与のpETaGが実際のETaG(例えば、BGCによって産生される二次代謝産物に対する耐性遺伝子)である尤度を評価するための方法およびシステムも開示される。開示される方法およびシステムはまた、1つ以上の標的ゲノムにおけるBGCの境界を決定するために、または目的の標的遺伝子の小分子モジュレーターの同定を補助するために使用され得る。
【0007】
埋め込まれた標的遺伝子(ETaG)を同定するためのコンピュータ実装方法であって、1つ以上のクエリ配列またはそのプロキシを指定することと、1つ以上の標的ゲノムを選択することと、候補pETaGについての1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、1つ以上のクエリ配列のホモログである推定上の埋め込まれた標的遺伝子(pETaG)配列を同定するために、1つ以上のクエリ配列またはそのプロキシを使用して1つ以上の標的ゲノムの検索を実行することと、複数のゲノムの比較ゲノミクス分析に基づいて、所与のpETaGがETaGであるかどうかを決定することとを含む、方法が本明細書に開示される。
【0008】
いくつかの実施形態では、比較ゲノミクス分析は、複数のゲノムに基づいて比較ゲノミクスヒートマップを生成することを含む。いくつかの実施形態では、複数のゲノムは、複数の陽性ゲノムおよび複数の陰性ゲノムを含む。いくつかの実施形態では、比較ゲノミクス分析は、複数のゲノムに基づいて、所与のpETaGについての系統発生的特徴、共起特徴、共進化特徴、またはそれらの任意の組み合わせを決定することを含む。
【0009】
いくつかの実施形態では、比較ゲノミクス分析は、pETaGがETaGである確率を予測するための機械学習モデルまたは経験的アルゴリズムを使用した、pETaGについての系統発生的特徴、共起特徴、共進化特徴、比較ゲノミクスヒートマップ、比較ゲノミクスヒートマップから導出されたデータ、またはそれらの任意の組み合わせを含む入力データセットの分析を含む。
【0010】
いくつかの実施形態では、コンピュータ実装方法は、同定されたpETaGのコピー数の決定に基づいて、同定されたpETaGが耐性機構に関係すると決定することをさらに含む。いくつかの実施形態では、コンピュータ実装方法は、pETaGを含む陽性ゲノムとpETaGを含まない陰性ゲノムとの間のコピー数差の決定に基づいて、pETaGが耐性機構に関係すると決定することをさらに含む。
【0011】
いくつかの実施形態では、1つ以上のクエリ配列、またはそのプロキシは、1つ以上のタンパク質配列、1つ以上の核酸配列、1つ以上のUniversal Protein Resource(Uniprot)識別番号、1つ以上のプロファイル隠れマルコフモデル(pHMM)、タンパク質配列ドメインの指定されたセット、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、1つ以上のクエリ配列またはそのプロキシは、細菌ゲノム、古細菌ゲノム、真菌ゲノム、植物ゲノム、動物ゲノム、ヒトゲノム、またはそれらの任意の組み合わせから選択される。
【0012】
いくつかの実施形態では、1つ以上の標的ゲノムは、細菌ゲノム、真菌ゲノム、植物ゲノム、またはそれらの任意の組み合わせから選択される。いくつかの実施形態では、2つ以上の標的ゲノムは、ペアワイズ類似性スコア、ペアワイズ系統発生的距離またはそれらの任意の組み合わせに基づいて選択される。
【0013】
いくつかの実施形態では、コンピュータ実装方法は、2つ以上の選択された標的ゲノムをフィルタリングして、(i)ペアワイズ類似性スコアが指定されたペアワイズ類似性閾値よりも大きい標的ゲノム、または(ii)ペアワイズ系統発生的距離が指定された系統発生的距離閾値未満である標的ゲノムのみを保持することをさらに含む。
【0014】
いくつかの実施形態では、コンピュータ実装方法は、保持された標的ゲノムを、クラスタリングアルゴリズムを使用してセットにクラスタリングすることと、クラスタリングされた標的ゲノムのセットの1つ以上を使用して検索を実行することとをさらに含む。いくつかの実施形態では、クラスタリングアルゴリズムは、マルコフクラスターアルゴリズムを含む。
【0015】
いくつかの実施形態では、検索は、BLAST、DIAMOND、HMMER、Exonerate、またはggsearchを使用して実行される。いくつかの実施形態では、検索は、1つ以上の標的ゲノムの1つ以上の特定の領域に限定される。いくつかの実施形態では、1つ以上の特定領域は、1つ以上の生合成遺伝子クラスター(BGC)を含む。いくつかの実施形態では、1つ以上の標的ゲノム中の1つ以上のBGCは、BGC検索アルゴリズムを使用して予測される。いくつかの実施形態では、BGC検索アルゴリズムは、antiSMASH、SMURF、TOUCAN、またはdeepBGCを含む。
【0016】
いくつかの実施形態では、1つ以上のBGCは、配列検索ツールを使用して決定された既知の生合成コアシンターゼと一致する遺伝子配列に近位の指定された長さの配列領域を抽出することによって、1つ以上の標的ゲノムについて予測される。いくつかの実施形態では、配列検索ツールは、BLAST、DIAMOND、HMMER、Exonerateまたはggsearchを含む。いくつかの実施形態では、1つ以上のBGCは、既知のコアシンターゼの隠れマルコフモデル(HMM)を使用して1つ以上のクエリゲノムについて予測される。いくつかの実施形態では、1つ以上のBGCは、既知のコアシンターゼに関連するタンパク質配列ドメインの共局在に基づいて、1つ以上の標的ゲノムについて予測される。
【0017】
いくつかの実施形態では、1つ以上の相同配列ベースのメトリックは、配列同一性パーセント、配列カバレッジパーセント、E値、ビットスコア、HMMスコア、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、1つ以上の所定の相同配列ベースのメトリック閾値は、配列同一性パーセント閾値、配列カバレッジパーセント閾値、E値閾値、ビットスコア閾値、HMMスコア閾値、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、1つ以上の所定の相同配列ベースのメトリック閾値は、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも98%の値を有する配列同一性パーセント閾値を含む。いくつかの実施形態では、1つ以上の所定の相同配列ベースのメトリック閾値は、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも98%の値を有する配列カバレッジパーセント閾値を含む。いくつかの実施形態では、1つ以上の所定の相同配列ベースのメトリック閾値は、10未満、9未満、8未満、7未満、6未満、5未満、4未満、3未満、2未満、1未満、0.01未満、0.001未満、1e-10未満、1e-20未満、1e-30未満、1e-40未満、1e-50未満、1e-60未満、1e-70未満、1e-80未満、1e-90未満または1e-100未満の値を有するE値閾値を含む。いくつかの実施形態では、1つ以上の所定の相同配列ベースのメトリック閾値は、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも250、少なくとも500、少なくとも1000、または少なくとも5000の値を有するビットスコア閾値を含む。いくつかの実施形態では、1つ以上の所定の相同配列ベースのメトリック閾値は、少なくとも10、少なくとも25、少なくとも50、少なくとも100、少なくとも250、少なくとも500、少なくとも1000、または少なくとも5000の値を有するHMMスコア閾値を含む。
【0018】
いくつかの実施形態では、検索を実行することは、タンパク質配列を含む1つ以上のクエリ配列を核酸配列に変換することと、候補pETaGの1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、相同核酸配列を同定するために核酸配列に変換された1つ以上のクエリ配列を使用して、1つ以上の標的ゲノムの検索を実行することと、相同核酸配列のゲノム座標を、1つ以上の標的ゲノム中の予測されるタンパク質配列に対応するゲノム座標と比較することとを含む。いくつかの実施形態では、相同核酸配列が単一の予測されるタンパク質配列に対応する核酸配列と重複し、その重複が指定された核酸配列重複閾値より大きい場合、予測されるタンパク質配列はpETaGとして報告される。いくつかの実施形態では、相同核酸配列が複数の予測されるタンパク質配列に対応する核酸配列と重複し、それぞれの重複が指定された核酸配列重複閾値より大きい場合、予測されるタンパク質配列の1つのみがpETaGとして報告される。
【0019】
いくつかの実施形態では、pETaGとして報告される予測されるタンパク質配列は、相同核酸配列および予測されるタンパク質配列に対応する核酸配列が最大の配列同一性パーセント、配列カバレッジパーセント、E値またはビットスコア値を示す予測されるタンパク質配列である。いくつかの実施形態では、pETaGとして報告される予測されるタンパク質配列は、相同核酸配列および予測されるタンパク質配列に対応する核酸配列が最も長い重複配列を示す予測されるタンパク質配列である。いくつかの実施形態では、相同核酸配列が1つ以上の予測されるタンパク質配列に対応する1つ以上の核酸配列と重複するが、それぞれの重複が指定された核酸配列重複閾値未満である場合、最も長い予測されるタンパク質配列はpETaGとして報告される。いくつかの実施形態では、相同核酸配列が予測されるタンパク質配列に対応する核酸配列と重複しない場合、相同核酸配列のゲノム座標はpETaGとして報告される。いくつかの実施形態では、指定された核酸配列重複閾値は、少なくとも20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、または98%の値を有する。
【0020】
いくつかの実施形態では、所与のpETaGについて生成された比較ゲノミクスヒートマップは、第1軸および第2軸に従ってグリッド状に配置された複数のセルを含み、第1軸は複数の異なる標的ゲノムに対応し、複数の異なる標的ゲノムは、それぞれが標的ゲノムの1つの既知のBGCのアンカー遺伝子配列のオルソログを有する複数の陽性ゲノムと、アンカー遺伝子配列のオルソログを有しない複数の陰性ゲノムとを含み、第2軸は、既知のBGCのアンカー遺伝子配列と共局在する複数のクエリ遺伝子配列またはそのオルソログに対応し、推定上の埋め込まれた標的遺伝子(pETaG)は、複数の共局在するクエリ遺伝子配列のうちの1つであり、各セルの数値は、(i)それぞれの標的ゲノム中のそれぞれの共局在するクエリ遺伝子配列のオルソログの存在または非存在と、(ii)それぞれの共局在するクエリ遺伝子配列に対するオルソログの配列類似性と、(iii)それぞれのクエリ遺伝子配列のオルソログがそれぞれのゲノム中のアンカー遺伝子配列のオルソログと共局在するかどうかとに基づく。
【0021】
いくつかの実施形態では、コンピュータ実装方法は、訓練された機械学習モデルを使用して、比較ゲノミクスヒートマップまたはその基礎となるデータを分析することをさらに含み、機械学習モデルは、複数の事前定義された尤度カテゴリ(例えば、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に埋め込まれる尤度のカテゴリ)のそれぞれに対する確率を出力するように構成された分類モデルである。いくつかの実施形態では、分類モデルは、長・短期記憶(LSTM)モデルである。いくつかの実施形態では、分類モデルは畳み込みニューラルネットワーク(CNN)モデルである。いくつかの実施形態では、分類モデルは、ビジョントランスフォーマーモデル(vision transformer model)、敵対的生成ネットワークモデル、変分オートエンコーダモデル、または潜在拡散モデルである。いくつかの実施形態では、例えば、複数の事前定義された尤度カテゴリは、(1)尤度が高い、(2)尤度がどちらかといえば高い、(3)尤度がどちらかといえば低い、(4)尤度が低い、を含む。
【0022】
推定上の埋め込まれた標的遺伝子(pETaG)が、クエリゲノム中の生合成遺伝子クラスター(BGC)によって産生される二次代謝産物に対する耐性遺伝子である尤度を決定するコンピュータ実装方法であって、a)以下:i)複数の異なるゲノム中のBGCと共局在する複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づく、pETaGがBGCに関連する尤度であって、複数のゲノムが、BGCのアンカー遺伝子のオルソログを含む複数の陽性ゲノムと、BGCのアンカー遺伝子のオルソログを含まない複数の陰性ゲノムとを含み、アンカー遺伝子がBGCに関連することが知られている、尤度、ii)複数のゲノムの系統樹におけるpETaGのホモログの最終共通祖先(LCA)の1つ以上の系統発生的特徴、iii)複数の陽性ゲノム間のpETaGのオルソログおよびアンカー遺伝子のオルソログの共起を示す1つ以上のスコア、iv)pETaGのオルソログとアンカー遺伝子のオルソログの両方を含む陽性ゲノムにおけるアンカー遺伝子のオルソログ間の配列多様性に関するpETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコア、ならびにv)複数の陽性ゲノム中のpETaGのホモログのコピー数および複数の陰性ゲノム中のpETaGのホモログのコピー数を示す1つ以上のスコアから選択される1つ以上のパラメータを決定することと、b)1つ以上のパラメータに基づいて、pETaGがBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することとを含む、コンピュータ実装方法も本明細書に開示される。いくつかの実施形態では、コンピュータ実装は、訓練された機械学習モデルの入力として上記のパラメータの1つ以上を使用して、pETaGが実際のETaGである確率を予測することをさらに含む。いくつかの実施形態では、訓練された機械学習モデルは、訓練されたニューラルネットワーク(例えば、人工ニューラルネットワーク(ANN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)など)である。いくつかの実施形態では、データは、他のタイプの機械学習モデル(例えば、ベイズ推定、XGBoostまたはランダムフォレストなどの決定木ベースの方法など)を訓練するために利用することができる。いくつかの実施形態では、データは、ロジスティック回帰モデルまたは他のタイプの教師付きモデルを訓練するために利用することができる。
【0023】
いくつかの実施形態では、pETaGは、クエリゲノム中のBGCと共局在する。いくつかの実施形態では、pETaGは、BGCによる二次代謝産物の産生に関与しない。いくつかの実施形態では、アンカー遺伝子は、BGCのコアシンターゼ遺伝子である。
【0024】
いくつかの実施形態では、コンピュータ実装方法は、複数のpETaGのそれぞれについて、pETaGが標的ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することを含む。いくつかの実施形態では、コンピュータ実装は、a)閾値を超えるペアワイズ配列類似性を有する複数のゲノム中の推定上のBGCを同定することと、b)推定上のBGC中のアンカー遺伝子のオルソログと共局在する非生合成遺伝子を同定することであって、非生合成遺伝子が、目的の生物中の複数のクエリ遺伝子のいずれか1つと相同であり、非生合成遺伝子が、BGCによる二次代謝産物の産生に関与していない、同定することと、c)複数のクエリ遺伝子のそれぞれについて、それぞれの標的遺伝子のタンパク質に対して最も高い配列類似性を有するタンパク質をコードする非生合成遺伝子をpETaGとして同定し、非生合成遺伝子をコードするゲノムを標的ゲノムとして同定することと、d)複数のクエリ遺伝子のそれぞれについて、それぞれのpETaGが、それぞれの標的ゲノム中のそれぞれのBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することとを含む。いくつかの実施形態では、コンピュータ実装方法は、a)データベース内のゲノムを、それぞれが閾値を超えるペアワイズ配列類似性を有するゲノムを含む複数のクラスターにクラスタリングすることと、b)複数のクラスターのそれぞれについて、i)推定上のBGC中のアンカー遺伝子のオルソログと共局在する非生合成遺伝子を同定することであって、非生合成遺伝子が、目的の生物中の複数のクエリ遺伝子のいずれか1つと相同であり、非生合成遺伝子が、BGCによる二次代謝産物の産生に関与していない、同定することと、ii)複数のクエリ遺伝子のそれぞれについて、それぞれのクエリ遺伝子のタンパク質と最も高い配列類似性を有するタンパク質をコードする非生合成遺伝子を候補pETaGとして同定することと、c)pETaG間の配列類似性に基づいて候補pETaGを複数のクラスターにクラスタリングし、各クラスター中のそれぞれのクエリ遺伝子のタンパク質に対して最も高い配列類似性を有するタンパク質をコードする候補pETaGをpETaGとして、およびpETaGをコードするそれぞれのゲノムを標的ゲノムとして同定することと、d)複数のクエリ遺伝子のそれぞれについて、それぞれのpETaGが、それぞれの標的ゲノム中のそれぞれのBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することとを含む。
【0025】
いくつかの実施形態では、閾値は、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも少なくとも98%のペアワイズ配列類似性である。いくつかの実施形態では、同定された非生合成遺伝子のそれぞれは、それぞれのクエリ遺伝子によってコードされるタンパク質に対して少なくとも約30%の配列同一性を有するタンパク質をコードする。
【0026】
いくつかの実施形態では、複数のクエリ遺伝子は、目的の生物中のすべてのタンパク質コード遺伝子である。いくつかの実施形態では、目的の生物は哺乳動物である。いくつかの実施形態では、目的の生物はヒトである。いくつかの実施形態では、目的の生物は、爬虫類、鳥類、両生類、動物、植物、真菌または細菌である。
【0027】
いくつかの実施形態では、複数のゲノムは真菌ゲノムである。いくつかの実施形態では、複数のゲノムは細菌ゲノムである。いくつかの実施形態では、複数のゲノムは植物ゲノムである。
【0028】
いくつかの実施形態では、複数のクラスターのそれぞれは、約10~約100のゲノムを含む。
【0029】
目的の生物における創薬可能な標的を同定するコンピュータ実装方法であって、本明細書中に記載されるいずれか1つの方法を行うことと、クエリ遺伝子のそれぞれのpETaGが標的ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度に基づいて、創薬可能な標的としてクエリ遺伝子を同定することとを含む、方法が本明細書に開示される。いくつかの実施形態では、コンピュータ実装方法は、二次代謝産物またはそのアナログを、クエリ遺伝子の小分子モジュレーターまたはクエリ遺伝子によってコードされるタンパク質として同定することをさらに含む。いくつかの実施形態では、二次代謝産物またはそのアナログをクエリ遺伝子によってコードされるタンパク質と接触させることと、クエリ遺伝子によってコードされるタンパク質の活性を検出することとをさらに含む、請求項62に記載のコンピュータ実装方法。いくつかの実施形態では、陽性ゲノムの数は、陰性ゲノムの数に等しい。いくつかの実施形態では、コンピュータ実装方法は、ゲノムのデータベースから複数の陽性ゲノムおよび複数の陰性ゲノムを選択することを含む。いくつかの実施形態では、コンピュータ実装方法は、配列類似性に基づいてゲノムのデータベースを複数のクラスターにクラスタリングすることと、複数の陽性ゲノムを提供するためにクラスターごとに1つの陽性ゲノムを選択することとを含む。いくつかの実施形態では、コンピュータ実装方法は、クラスター中の各陽性ゲノムに対して最も高い配列類似性を有する陰性ゲノムを選択することを含む。いくつかの実施形態では、陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージは約95%以下であり、および/または陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージは約95%以下である。いくつかの実施形態では、陽性ゲノムの数は、少なくとも5である。
【0030】
いくつかの実施形態では、1つ以上のパラメータは、複数の異なるゲノム中のBGC中の複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づいて、pETaGがBGCに関連する尤度を含む。いくつかの実施形態では、pETaGがBGCに関連する尤度を決定することは、a)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を受信することであって、第1軸が複数のゲノムに対応し、第2軸がクエリゲノム中のBGC中の複数のクエリ遺伝子に対応し、各セルが、i)それぞれのゲノム中のそれぞれのクエリ遺伝子のオルソログの存在または非存在と、ii)それぞれのクエリ遺伝子に対するオルソログの配列類似性と、iii)それぞれのクエリ遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうかに基づく、受信することと、b)グリッド表現を機械学習モデルに入力することであって、機械学習モデルが、グリッド表現中の複数のセルの値に基づいてpETaGがBGCに関連する尤度を決定するように訓練され、それによってpETaGがBGCに関連する尤度を提供する、入力することとを含む。
【0031】
いくつかの実施形態では、コンピュータ実装方法は、a)複数のゲノム由来の推定上のBGCのライブラリからpETaGを含む推定上のBGCを同定し、推定上のBGC中の最も長い生合成遺伝子をコアシンターゼ遺伝子として同定することと、b)コアシンターゼ遺伝子のオルソログを含む複数の陽性ゲノムおよびコアシンターゼ遺伝子のオルソログを含まない複数の陰性ゲノムを得ることであって、複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、複数の陰性ゲノムが複数の陽性ゲノムとの配列類似性に基づいて選択される、得ることと、c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、第1軸が、クエリゲノム中の推定上のBGC中のコアシンターゼ遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、第2軸が、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルが、i)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、ii)それぞれのタンパク質コード遺伝子に対するオルソログの配列類似性と、iii)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のコアシンターゼ遺伝子のオルソログと共局在するかどうかとに基づいて計算される、グリッド表現を作成することとをさらに含む。
【0032】
いくつかの実施形態では、機械学習モデルは、複数の事前定義された尤度カテゴリのそれぞれに対する確率を出力するように構成された分類モデルである。いくつかの実施形態では、分類モデルは、長・短期記憶(LSTM)モデルである。いくつかの実施形態では、分類モデルは畳み込みニューラルネットワーク(CNN)である。いくつかの実施形態では、分類モデルは、ビジョントランスフォーマーモデル(vision transformer model)、敵対的生成ネットワークモデル、変分オートエンコーダモデル、または潜在拡散モデルである。いくつかの実施形態では、複数の事前定義された尤度カテゴリは、(1)尤度が高い、(2)尤度がどちらかといえば高い、(3)尤度がどちらかといえば低い、(4)尤度が低い、を含む。
【0033】
いくつかの実施形態では、1つ以上のパラメータは、複数の陽性ゲノムおよび陰性ゲノムの系統樹におけるpETaGのホモログの最終共通祖先(LCA)の1つ以上の系統発生的特徴を含む。いくつかの実施形態では、1つ以上の系統発生的特徴は、複数の陽性ゲノム中の遺伝子と複数の陰性ゲノム中の遺伝子と複数の陽性ゲノムから決定された値との間の平均コピー数差(CND)、LCAに対する平均の比、LCAに対する標準偏差の比、隣接距離の平均の比、隣接距離の比の標準偏差、およびクレード比の和からなる群から選択される。いくつかの実施形態では、1つ以上のパラメータは、複数の陽性ゲノム中のpETaGのオルソログおよびアンカー遺伝子のオルソログの共起を示す1つ以上のスコアを含む。いくつかの実施形態では、共起を示す1つ以上のスコアは、共起pETaG距離、共起pETaGランク、共起コア距離、および共起コアランクからなる群から選択される。いくつかの実施形態では、1つ以上のパラメータは、pETaGのオルソログとアンカー遺伝子のオルソログの両方を含む陽性ゲノム中、アンカー遺伝子のオルソログ間の配列多様性に関して、pETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコアを含む。いくつかの実施形態では、共進化を示す1つ以上のスコアは、共進化相関、共進化ランク、および共進化勾配(co-evolution slope)からなる群から選択される。いくつかの実施形態では、1つ以上のパラメータは、複数の陽性ゲノムおよび複数の陰性ゲノムの1つ以上の特徴をさらに含む。いくつかの実施形態では、1つ以上の特徴は、陽性ゲノムの数、陽性ゲノム間のペアワイズゲノム同一性(PGI)の平均、陽性ゲノム間のPGIの標準偏差、陰性ゲノムの数、陰性ゲノム間の平均PGI、および陰性ゲノム間のPGIの標準偏差からなる群から選択される。
【0034】
いくつかの実施形態では、1つ以上のパラメータに基づいて尤度を決定することは、1つ以上の特徴を機械学習モデルに入力することを含み、機械学習モデルは、pETaGが耐性遺伝子である尤度を決定するように訓練されている。いくつかの実施形態では、機械学習モデルは深層学習モデルである。いくつかの実施形態では、機械学習モデルは決定木モデルである。いくつかの実施形態では、機械学習モデルはベイズ推定モデルである。いくつかの実施形態では、1つ以上の特徴を利用して、ロジスティック回帰モデルまたは他のタイプの教師付きモデルを訓練することができる。いくつかの実施形態では、遺伝子がBGCのアンカー遺伝子と共局在するかどうかは、antiSMASHを使用して決定される。いくつかの実施形態では、遺伝子がBGCのアンカー遺伝子と共局在するかどうかは、遺伝子がアンカー遺伝子から近接距離内に位置するかどうかに基づいて決定される。いくつかの実施形態では、近接ゾーンは、約50kb以下である。いくつかの実施形態では、近接ゾーンは、約20kbである。
【0035】
システムであって、1つ以上のプロセッサと、メモリとを備え、メモリが、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに、i)入力として、1つ以上のクエリ配列、またはそのプロキシを受信させ、ii)1つ以上の標的ゲノムの選択を入力として受信させ、iii)候補pETaGについての1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、1つ以上のクエリ配列のホモログである推定上の埋め込まれた標的遺伝子(pETaG)配列を同定するために、1つ以上のクエリ配列またはそのプロキシを使用して1つ以上の標的ゲノムの検索を実行させ、iv)1つ以上の標的ゲノムに関係する複数のゲノムの比較ゲノミクス分析に基づいて、所与のpETaGが実際のETaGであるかどうかを決定する命令を格納するように構成されている、システムが、本明細書に開示される。
【0036】
システムであって、1つ以上のプロセッサと、メモリとを備え、メモリが、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに、推定上の埋め込まれた標的遺伝子(pETaG)が、クエリゲノム中の生合成遺伝子クラスター(BGC)によって産生される二次代謝産物に対する耐性遺伝子である尤度を決定する方法を実行させる命令を格納するように構成されており、方法が、a)以下:i)複数の異なるゲノム中のBGCと共局在する複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づく、pETaGがBGCに関連する尤度であって、複数のゲノムが、BGCのアンカー遺伝子のオルソログを含む複数の陽性ゲノムと、BGCのアンカー遺伝子のオルソログを含まない複数の陰性ゲノムとを含み、アンカー遺伝子がBGCに関連することが知られている、尤度、ii)複数のゲノムの系統樹におけるpETaGのホモログの最終共通祖先(LCA)の1つ以上の系統発生的特徴、iii)複数の陽性ゲノム間のpETaGのオルソログおよびアンカー遺伝子のオルソログの共起を示す1つ以上のスコア、iv)pETaGのオルソログとアンカー遺伝子のオルソログの両方を含む陽性ゲノムにおけるアンカー遺伝子のオルソログ間の配列多様性に関するpETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコア、ならびにv)複数の陽性ゲノム中のpETaGのホモログのコピー数および複数の陰性ゲノム中のpETaGのホモログのコピー数を示す1つ以上のスコアから選択される1つ以上のパラメータを決定することと、b)1つ以上のパラメータに基づいて、pETaGがBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することとを含む、システムも、本明細書に開示される。いくつかの実施形態では、システムによって実行される方法は、訓練された機械学習モデルの入力として上記のパラメータの1つ以上を使用して、pETaGが実際のETaGである確率を予測することをさらに含む。いくつかの実施形態では、訓練された機械学習モデルは、訓練されたニューラルネットワーク(例えば、人工ニューラルネットワーク(ANN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)など)である。いくつかの実施形態では、データは、他のタイプの機械学習モデル(例えば、ベイズ推定、XGBoostまたはランダムフォレストなどの決定木ベースの方法など)を訓練するために利用することができる。いくつかの実施形態では、データは、ロジスティック回帰モデルまたは他のタイプの教師付きモデルを訓練するために利用することができる。
【0037】
システムであって、1つ以上のプロセッサと、メモリとを備え、メモリが、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに本明細書に記載のいずれかの方法を実行させる命令を格納するように構成されている、システムが、本明細書に開示される。
【0038】
1つ以上のプログラムを格納し、1つ以上のプログラムが、電子デバイスの1つ以上のプロセッサによって実行されると、電子デバイスに本明細書に記載のいずれかの方法を実行させる命令を含む、非一時的コンピュータ可読記憶媒体が、本明細書に開示される。
【0039】
前述の概念および以下でより詳細に説明される追加の概念のすべての組み合わせは、(そのような概念が相互に矛盾しない限り)本明細書に開示される発明の主題の一部であると考えられることを理解されたい。特に、本開示の最後に現れる特許請求される主題のすべての組み合わせは、本明細書に開示される本発明の主題の一部であると考えられる。
【0040】
参照による組み込み
本明細書において言及されるすべての刊行物、特許、および特許出願は、あたかも各個々の刊行物、特許、または特許出願が参照によりその全体が組み込まれることが具体的かつ個別に示されているのと同程度に、参照によりその全体が本明細書に組み込まれる。本明細書の用語と組み込まれた参考文献の用語との間に矛盾がある場合、本明細書の用語が支配する。
【0041】
開示された方法、デバイス、およびシステムの様々な態様は、添付の特許請求の範囲に詳細に記載されている。開示された方法、デバイス、およびシステムの特徴および利点のより良い理解は、例示的な実施形態の以下の詳細な説明および添付の図面を参照することによって得られるであろう。
【図面の簡単な説明】
【0042】
図1】antiSMASHによって予測される例示的な推定上の生合成遺伝子クラスター(BGC)を示す図である。
【0043】
図2】推定上の埋め込まれた標的遺伝子(pETaG)を同定および評価するためのプロセスフローチャートの非限定的な例を提供する図である。
【0044】
図3】陽性ゲノム(すなわち、コアシンターゼ遺伝子配列を含有するゲノム)および陰性ゲノム(すなわち、コアシンターゼ遺伝子配列を含有しないゲノム)の例示的な図である。
【0045】
図4】推定上の埋め込まれた標的遺伝子(pETaG)を同定および評価するためのプロセスフローチャートの非限定的な例を提供する図である。
【0046】
図5】標的pETaG検索結果の評価についての異なる結果の例示的な図である。
【0047】
図6】比較ゲノミクスデータのグリッド表現(例えば、ヒートマップ)を生成するための例示的な方法を示す図である。
【0048】
図7】いくつかの例による、クエリゲノム中のBGCのコアシンターゼ遺伝子と共局在する推定上の埋め込まれた遺伝子がBGCに関連する尤度を決定するための例示的な方法を示す図である。
【0049】
図8A-1】例示的な比較ゲノミクスヒートマップを示す図である。
図8A-2】例示的な比較ゲノミクスヒートマップを示す図である。
図8A-3】例示的な比較ゲノミクスヒートマップを示す図である。
【0050】
図8B-1】入力比較ゲノミクスヒートマップを4つの尤度カテゴリ(すなわち、階層)のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す図である。
図8B-2】入力比較ゲノミクスヒートマップを4つの尤度カテゴリ(すなわち、階層)のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す図である。
【0051】
図8C-1】図8B-1、図8B-2に示すLSTMモデルの出力例を示す図である。
図8C-2】図8B-1、図8B-2に示すLSTMモデルの出力例を示す図である。
【0052】
図9A】それぞれ「階層A+」、「階層1」、「階層2」、および「階層3」カテゴリについての比較ゲノミクスヒートマップの手動分類と機械学習ベースの分類とを比較するテーブルである。
【0053】
図9B】陽性予測値、陰性予測値、感度値、および特異度値を含む、「階層A+」、「階層1」、「階層2」、および「階層3」についての比較ゲノミクスヒートマップの手動分類と機械学習ベースの分類とを比較するテーブルを示す図である。
【0054】
図10A】antiSMASHによって予測されるロバスタチンBGCと比較してロバスタチンBGCの真の境界を同定する、ロバスタチンのBGCの例示的な比較ゲノミクスヒートマップを示す図である。
図10B】antiSMASHによって予測されるロバスタチンBGCと比較してロバスタチンBGCの真の境界を同定する、ロバスタチンのBGCの例示的な比較ゲノミクスヒートマップを示す図である。
【0055】
図11A-1】手動でレビューされ、「階層A+」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
図11A-2】手動でレビューされ、「階層A+」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
【0056】
図11B-1】手動でレビューされ、「階層1」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
図11B-2】手動でレビューされ、「階層1」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
【0057】
図11C-1】手動でレビューされ、「階層2」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
図11C-2】手動でレビューされ、「階層2」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
【0058】
図11D-1】手動でレビューされ、「階層3」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
図11D-2】手動でレビューされ、「階層3」として分類された例示的な比較ゲノミクスヒートマップを示す図である。
【0059】
図12A】データテーブルに編成され、機械学習モデルを訓練するために利用され得る特徴のセット(例えば、最大27個以上の特徴)のデータテーブルを示す図である。
【0060】
図12B】推定上の埋め込まれた遺伝子(例えば、pETaG)がBGCに関連する確率値(すなわち、「埋め込まれた遺伝子確率値」(例えば、「ETaG確率値」))を出力するように訓練されたニューラルネットワークの初期訓練段階を示す図である。
【0061】
図12C】埋め込まれた遺伝子の確率値(例えば、「ETaG確率値」)を出力するように訓練されたニューラルネットワークのさらなる訓練段階を示す図である。
【0062】
図12D】ETaG確率値を出力するように訓練されたニューラルネットワークの推論段階を示す図である。
【0063】
図12E】特徴の未知の入力データセットおよび特徴のそれぞれに対するETaG確率値の対応する出力を含む例示的なデータテーブルを示す図である。
【0064】
図13】カスタムソフトウェアアルゴリズム(PhyloCCC)を使用して系統発生的特徴を算出するためのワークフローの例示的な図である。
【0065】
図14】ロバスタチンETaGならびに陽性ゲノムおよび陰性ゲノムの選択されたセットから算出された系統発生的特徴の非限定的な例を提供する図である。
【0066】
図15】同一性パーセントを使用してCOGのペア間の共進化を比較する場合の、共進化を評価するためのワークフローの非限定的な例を提供する図である。
【0067】
図16】推定上のETaGがETaGである尤度を評価するように訓練された深層学習モデルの隠れ層ごとに使用されるユニットの数の非限定的な例を提供する図である。
【0068】
図17】推定上のETaGがETaGである尤度を評価するように訓練された深層学習モデルの性能データ(試験損失(test loss))の非限定的な例を提供する図である。
【0069】
図18】推定上のETaGがETaGである尤度を評価するように訓練された深層学習モデルの性能データ(試験特異性)の非限定的な例を提供する図である。
【0070】
図19】推定上のETaGがETaGである尤度を評価するように訓練された深層学習モデルの性能データ(試験感度)の非限定的な例を提供する図である。
【0071】
図20】推定上のETaGがETaGである尤度を評価するように訓練された深層学習モデルの性能データ(試験精度)の非限定的な例を提供する図である。
【発明を実施するための形態】
【0072】
本開示は、1つ以上の標的ゲノムに存在する第1のゲノム中の生合成遺伝子クラスター(BGC)に関連する遺伝子のオルソログを同定するための比較ゲノミクス方法およびシステムを提供する。特に、開示された方法およびシステムを使用して、配列相同性検索基準の指定されたセットに基づいて、1つ以上の標的ゲノム中、例えば耐性機構に関連する推定上の埋め込まれた標的遺伝子(pETaG)を同定することができる。次いで、このように同定されたpETaGをフィルタリングし、1つ以上の標的ゲノムが由来する宿主生物において、これらが例えば耐性機構に関連する実際のETaGである尤度について評価することができる。
【0073】
いくつかの例では、所与のpETaGに関連するゲノムデータのグリッド表現(例えば、ヒートマップ)を使用して、各pETaGの比較ゲノミクス分析に基づいてpETaGをフィルタリングおよび評価することができる。グリッド表現は、以下により詳細に記載されるように、生合成遺伝子、生合成遺伝子クラスター(BGC)、または他の目的の遺伝子に近接して見られる遺伝子間の共起および共局在の視覚的および/または機械学習ベースの評価を可能にする。
【0074】
いくつかの例では、pETaGは、様々な比較ゲノミクス分析に基づく進化的メトリックに基づいてフィルタリングおよび評価され得る。そのような進化的メトリックの例には、系統発生的特徴、共起特徴、共進化特徴、およびゲノムデータセット特徴が含まれるがこれらに限定されず、これらは、以下により詳細に記載されるように、陽性ゲノム(すなわち、コアシンターゼ遺伝子配列を含有するゲノム)および陰性ゲノム(すなわち、コアシンターゼ遺伝子配列を含有しないゲノム)の両方を含む複数のゲノムについて決定され得る。
【0075】
いくつかの例では、以下により詳細に記載されるように、所与のpETaGが実際のETaGである尤度スコアまたは確率を決定するために、pETAGについての比較ゲノミクスベースのヒートマップおよび/または進化的メトリックから導出されたデータを、例えば経験的アルゴリズムおよび/または機械学習ベースのモデルを使用してさらに処理することができる。次いで、そのような分析からの出力を使用して、標的ルックアップテーブル(例えば、各pETaGの進化的メトリックの配列特徴および値または範囲、ならびに実際のETaGである確率を収集するデータのアレイ)をコンパイルすることができる。
【0076】
定義
特に定義されない限り、本明細書で使用される技術用語のすべては、本開示が属する分野の当業者によって一般的に理解されるのと同じ意味を有する。
【0077】
本明細書および添付の特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈が明らかにそうでないことを示さない限り、複数の指示対象を含む。本明細書における「または」への任意の言及は、特に明記しない限り「および/または」を包含することを意図し、関連する列挙された項目のうちの1つ以上のありとあらゆる可能な組み合わせを包含する。
【0078】
本明細書で使用される場合、「含む(includes)」、「含む(including)」、「含む(comprises)」および/または「含む(comprising)」という用語は、記載された特徴、整数、工程、動作、要素、構成要素および/またはユニットの存在を指定するが、1つ以上の他の特徴、整数、工程、動作、要素、構成要素、ユニットおよび/またはそれらの群の存在または追加を排除するものではない。
【0079】
本明細書で使用される場合、「約」数という用語は、その数の±10%を指す。「約」という用語は、ある範囲の文脈で使用される場合、その範囲からその最低値の10%を引いて、その最大値の10%を加えたものを指す。
【0080】
本明細書で使用される場合、「二次代謝産物」は、古細菌、細菌、真菌または植物によって産生される有機小分子化合物であって、宿主生物の正常な成長、発達または生殖に直接関与しないが、宿主生物とその環境との相互作用に必要とされる有機小分子化合物を指す。二次代謝産物は、天然産物または遺伝的にコードされた小分子としても知られている。「二次代謝産物」という用語は、生合成遺伝子クラスターの産物を指す場合、本明細書では「生合成産物」と互換的に使用される。
【0081】
「生合成遺伝子クラスター」または「BGC」という用語は、本明細書では互換的に使用され、二次代謝産物の産生のための生合成経路を共にコードする1つ以上の遺伝子の局所的にクラスタリングされた群を指す。BGCは、各タイプのBGCに特徴的なシグネチャー生合成タンパク質をコードする遺伝子を含有する。BGCにおける最も長い生合成遺伝子は、本明細書ではBGCの「コアシンターゼ遺伝子」と呼ばれる。二次代謝産物の生合成に関与する遺伝子に加えて、BGCには、非生合成遺伝子、すなわち、生合成遺伝子の間に散在する、二次代謝産物の生合成に関与しない産物をコードする遺伝子も含まれ得る。非生合成遺伝子は、それらの産物がBGCの二次代謝産物に機能的に関係する場合、本明細書ではBGCに「関連する」または「埋め込まれた」と呼ばれる。本明細書で使用される「アンカー遺伝子」という用語は、BGCと共局在し、BGCと機能的に関係する(すなわち、関連する)ことが知られている生合成遺伝子または非生合成遺伝子を指す。
【0082】
「共局在する」という用語は、ゲノム中に、約200kb以下離れた、約100kb以下離れた、約50kb以下離れた、約40kb以下離れた、約30kb以下離れた、約20kb以下離れた、約10kb以下離れた、約5kb以下離れた、またはそれ未満離れた近接した空間に2つ以上の遺伝子が存在することを指す。
【0083】
用語「ホモログ」は、共通の祖先からの系統によって関係する遺伝子群の一部である遺伝子を指す(すなわち、遺伝子群の遺伝子配列(すなわち、核酸配列)および/またはそれらのタンパク質産物の配列は、共通の起源から継承される)。ホモログは、種分化事象(「オルソログ」を生じさせる)を通じて、または遺伝子重複事象を通じて、または水平方向の遺伝子伝播事象を通じて生じ得る。ホモログは、整列した核酸もしくはタンパク質配列中の共通の機能的ドメインの同定を通じて、または配列比較を通じて、系統発生的方法によって同定され得る。
【0084】
「オルソログ」という用語は、種分化によって共通の祖先の遺伝子から進化したと予測される遺伝子群の一部である遺伝子を指す。
【0085】
「双方向ベストヒット」および「BBH」という用語は、本明細書では互換的に使用され、2つのゲノム中の遺伝子対(すなわち、第1のゲノム中の第1の遺伝子および第2のゲノム中の第2の遺伝子)の間の関係を指し、第1の遺伝子またはそのタンパク質産物は、第2のゲノム中の第2の遺伝子またはそのタンパク質産物と比較して、第1のゲノム中に最も類似した配列を有すると同定されており、第2の遺伝子またはそのタンパク質産物は、第1のゲノム中の第1の遺伝子またはそのタンパク質産物と比較して、第2のゲノム中に最も類似した配列を有すると同定されている。第1の遺伝子は第2の遺伝子の双方向ベストヒット(BBH)であり、第2の遺伝子は第1の遺伝子の双方向ベストヒット(BBH)である。BBHは、オルソロジーを推論するために一般的に使用される方法である。
【0086】
本明細書で使用される場合、2つの遺伝子間の「配列類似性」は、遺伝子によってコードされる核酸(例えば、mRNA)配列または遺伝子産物のアミノ酸配列のいずれかの類似性を意味する。
【0087】
本明細書に記載される核酸配列(またはタンパク質配列)に関する「配列同一性パーセント(%)」または「配列相同性パーセント(%)」は、配列を整列させ、任意の保存的置換を配列同一性の一部として考慮した後の、候補配列が比較されているオリゴヌクレオチド(またはポリペプチド)中のヌクレオチド残基(またはアミノ酸残基)と同一または相同である候補配列中のヌクレオチド残基(またはアミノ酸残基)のパーセンテージとして定義される。ポリペプチド中の異なるアミノ酸残基間の相同性は、BLOSUM(BLOcks Substitution MAtrixAlignment)などの代替行列に基づいて決定される。配列を整列させ、核酸またはタンパク質配列の配列同一性パーセントまたは配列相同性パーセントを決定するための方法は、当業者に周知である。使用され得る公的に入手可能なコンピュータソフトウェアの例には、BLAST(Basic Local Alignment Search Tool;タンパク質のアミノ酸配列またはDNAおよび/もしくはRNA分子のヌクレオチド配列を比較するためのソフトウェア)、BLAST-2、ALIGNまたはMegalign(DNASTAR)ソフトウェアが含まれるが、これらに限定されない。配列アラインメントを測定し、配列同一性パーセントまたは相同性パーセントを決定するための様々な適切なパラメータのいずれかは、比較される配列の全長にわたって最大アラインメントを達成するために必要なアルゴリズムの使用を含め、当業者によって決定され得る。
【0088】
本開示の特定の態様は、アルゴリズムの形態で本明細書に記載されるプロセス工程および命令を含む。本開示のプロセス工程および命令は、ソフトウェア、ファームウェア、および/またはハードウェアで具現化されてもよく、ソフトウェアで具現化される場合、様々なオペレーティングシステムによって使用される異なるプラットフォームに存在し、そこから動作するようにダウンロードされてもよいことに留意されたい。以下の開示において特に明記しない限り、「処理する」、「計算する」、「算出する」、「決定する」、「表示する」、「生成する」などの用語を利用する説明は、コンピュータシステムのメモリもしくはレジスタまたは他のそのような情報記憶デバイス、伝送デバイス、もしくはディスプレイデバイス内の物理(電子)量として表されるデータを操作し変換するコンピュータシステムまたは同様の電子計算デバイスの動作およびプロセスを指すことが理解されよう。
【0089】
生合成遺伝子クラスターに埋め込まれた標的遺伝子を発見するための方法
本明細書に記載のシステムおよび方法は、生合成遺伝子クラスター(BGC)に関連する遺伝子の同定に関する。図1は、例えば、細菌、植物および真菌ゲノムにおける二次代謝産物生合成遺伝子クラスターの迅速なゲノム規模の同定、注釈付けおよび分析を可能にするゲノミクスデータベース検索ツールである、antiSMASHによって予測される例示的な推定上の生合成遺伝子クラスター(BGC)を示す。
【0090】
図1に示すように、推定上のBGCは、二次代謝産物の産生のための生合成経路内の生合成酵素(そのうちの最も長いものを本明細書では「コア生合成タンパク質」または「コアシンターゼ」と呼ぶ)をコードする一連の遺伝子、ならびに一連の散在する非生合成遺伝子を含み得る。例示的なBGCには、非リボソームペプチドシンテターゼ(NRPS)、ポリケチドシンターゼ(PKS)、テルペンおよびバクテリオシンを合成するための生合成遺伝子クラスターが含まれるが、これらに限定されない。例えば、Keller N、「Fungal secondary metabolism:regulation,function and drug discovery」、Nature Reviews Microbiology 17巻3号(2019年):167~180頁、ならびにFischbach M.およびVoigt C.A.、PROKARYOTIC GENE CLUSTERS:A RICH TOOLBOX FOR SYNTHETIC BIOLOGY.:Institute of Medicine(US)Forum on Microbial Threats.The Science and Applications of Synthetic and Systems Biology:Workshop Summary.Washington(DC):National Academies Press(US);2011年、A21を参照されたい。
【0091】
いくつかの場合では、BGC中、生合成遺伝子と共局在する非生合成遺伝子は、目的の治療標的を含むヒトタンパク質のホモログであり得る。いくつかの例では、BGCと共局在する非生合成遺伝子は、哺乳動物遺伝子、爬虫類遺伝子、鳥類遺伝子、両生類遺伝子などのホモログ、または目的の獣医学的治療標的をコードする遺伝子を含む任意の他の生物由来の目的の遺伝子を含み得る。いくつかの実施形態では、BGCと共局在する非生合成遺伝子は、目的の殺真菌標的を含む真菌タンパク質のホモログであり得る。いくつかの実施形態では、BGCと共局在する非生合成遺伝子は、目的の除草剤標的を含む植物タンパク質のホモログであり得る。いくつかの実施形態では、BGCと共局在する非生合成遺伝子は、目的の微生物標的を含む細菌タンパク質のホモログであり得る。いくつかの例では、非生合成遺伝子は、BGCによって産生される二次代謝産物に機能的に関係し得る。いくつかの例では、BGCによって産生される二次代謝産物に機能的に関係する非生合成遺伝子は、二次代謝産物の影響から宿主生物を保護する耐性機構に機能的に関係し得る。いくつかの例では、非生合成遺伝子は、機能的に無関係なタンパク質産物をコードし得る。目的のヒトタンパク質のホモログであるBGC中の非生合成遺伝子は、推定上の埋め込まれた標的遺伝子(pETaG)である。本明細書に記載の方法は、第1の(または参照)ゲノム(例えば、ヒトゲノム、哺乳動物ゲノム、爬虫類ゲノム、鳥類ゲノム、両生類ゲノム、植物ゲノム、細菌ゲノム、真菌ゲノム、または目的の任意の他のゲノム)中の既知の(またはクエリ)ETaG配列に基づいて1つ以上の標的ゲノム中のpETaGの同定を可能にし、比較ゲノミクスを活用して、所与のpETaGが実際にBGCに関連する真のETaGである尤度を決定する。
【0092】
図2は、クエリを定式化し、1つ以上のゲノムデータベースにおいて1つ以上のクエリゲノム(または標的ゲノム)の検索を実行してpETaGを同定し、次いで所与のpETaGが真のpETaGである尤度について評価され得るプロセス200の非限定的な例を提供する。プロセス200は、例えば、1つ以上の電子デバイス、コンピュータ、またはコンピュータプラットフォームの1つ以上のプロセッサ上で実行されるソフトウェアを使用するコンピュータ実装方法として実行することができる。いくつかの例では、プロセス100は、クライアント-サーバシステムを使用して実行され、プロセス100のブロックは、サーバとクライアントデバイスとの間で任意の方法で分割される。他の例では、プロセス100のブロックは、サーバと複数のクライアントデバイスとの間で分割される。したがって、プロセス100の一部は、本明細書ではクライアント-サーバシステムの特定のデバイスによって実行されるものとして説明されているが、プロセス100はそのように限定されないことが理解されよう。他の例では、プロセス100は、1つのクライアントデバイスのみまたは複数のクライアントデバイスのみを使用して実行される。プロセス100において、いくつかのブロックは、任意選択的に組み合わされ、いくつかのブロックの順序は、任意選択的に変更され、いくつかのブロックは、任意選択的に省略される。いくつかの例では、プロセス100と組み合わせて追加の工程を実行することができる。したがって、示されている(および以下により詳細に説明されている)動作は、本質的に例示的なものであり、したがって、限定的であると見なされるべきではない。
【0093】
図2の工程202において、1つ以上の既知のクエリ配列(例えば、目的の1つ以上の遺伝子配列)を含む検索クエリが定式化される。検索クエリは、1つ以上のクエリ配列(または標的配列、例えば1つ以上の既知のETaG配列)またはそのプロキシを含み得る。例えば、検索クエリは、1つ以上のタンパク質(アミノ酸)配列、1つ以上の核酸(ヌクレオチド)配列、1つ以上のUniversal Protein Resource(Uniprot)識別番号、1つ以上のプロファイル隠れマルコフモデル(pHMM;すなわち、対応するタンパク質または核酸配列についての多重配列アラインメントの位置依存性スコアリングに基づいてタンパク質ドメインの生物学的多様性を捕捉する確率モデル)、タンパク質または核酸配列ドメインの指定されたセット、またはそれらの任意の組み合わせを含み得る。検索クエリは、例えば、古細菌ゲノム、細菌ゲノム、真菌ゲノム、植物ゲノム、動物ゲノム、ヒトゲノム、またはそれらの任意の組み合わせから選択される1つ以上のクエリ配列(例えば、目的の1つ以上の遺伝子配列)またはそのプロキシを含み得る。検索クエリは、例えば、細胞生合成経路、細胞シグナル伝達経路、疾患状態(例えば、がん、免疫学的疾患および感染性疾患、または稀な疾患)、またはそれらの任意の組み合わせにおける対応するタンパク質産物の関与に従って選択された1つ以上のクエリ配列(例えば、目的の1つ以上の遺伝子配列)を含み得る。
【0094】
いくつかの例では、例えば、標的不問(target agnostic)検索では、(例えば1つ以上の生物からの)1つ以上のゲノムからのすべてのタンパク質配列(一例として)を、クエリのためのクエリ配列として選択することができる。いくつかの例では、例えば、標的化検索では、1つ以上のゲノムからの1つ以上の特定のタンパク質配列(一例として)が、クエリのためのクエリ配列として選択され得る。いくつかの例では、検索クエリは、1、2、3、4、5、6、7、8、9、10、100、1000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、または100,000を超えるクエリ配列(またはこの範囲内の任意の数のクエリ配列)を含み得る。検索クエリの定式化については、以下でより詳細に説明する。
【0095】
図2の工程204において、相同配列について検索される1つ以上の標的ゲノムが選択される。いくつかの例では、標的ゲノムは、例えば二次代謝産物分子が産生されることが知られている任意の生物界の生物(例えば、古細菌、細菌、真菌、植物など)から選択することができる。いくつかの例では、標的ゲノムは、任意の生物界の生物、例えば古細菌、細菌、真菌、植物、動物、ヒト、またはそれらの任意の組み合わせから選択され得る。いくつかの例では、個々のゲノムを標的ゲノムとして使用することができる。いくつかの例では、同じまたは異なる生物界から得られた複数のゲノムを標的ゲノムとして使用することができる。いくつかの例では、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、または100,000を超えるゲノム(またはこの範囲内の任意の数のゲノム)を検索のために選択することができる。いくつかの例では、ゲノムは、検索を実行する前に、例えば、ペアワイズの配列同一性パーセントまたは系統発生的距離に従ってグループ化され得る。検索される標的ゲノムの選択およびグループ化については、以下でより詳細に論じる。
【0096】
図2の工程206において、検索は、1つ以上の標的ゲノム中の1つ以上のクエリ配列(例えば、推定上の埋め込まれた標的遺伝子(pETaG))と相同な配列を同定するために、1つ以上のゲノムおよび/またはプロテオミクスデータベースを使用して実行される。相同配列の同定は、1つ以上の標的ゲノム中の配列に対するクエリ配列のアラインメント、および1つ以上の相同配列ベースのメトリックの決定を含み得る。いくつかの例では、1、2、3、4、5、6、7、8、9、10、100、500、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、または100,000を超えるゲノム(またはこの範囲内の任意の数のゲノム)を標的ゲノムとして選択することができる。適切な相同配列ベースのメトリックの例には、配列同一性パーセント、配列カバレッジパーセント、E値(偶然に見つけられ得る同等の配列類似性スコアの予想されるヒット数を示すパラメータ)、ビットスコア(クエリ配列長およびデータベースサイズとは無関係であり、生のペアワイズアラインメントスコアに基づいて正規化される配列類似性の尺度)、HMMスコア(対応するタンパク質または核酸配列の多重配列アラインメントの位置依存性スコアリングに基づいてタンパク質ドメインの生物学的多様性を捕捉する隠れマルコフモデルからの尺度)、またはそれらの任意の組み合わせが含まれるが、これらに限定されない。以下、適切な検索方法についてより詳細に説明する。
【0097】
図2の工程208において、検索によって同定されたpETaGを評価して、所与のpETaGが真のETaGである尤度を決定する。pETaGの評価は、例えば、候補pETaGが候補コアシンターゼ(または候補BGC)に関連するかどうかを決定するための比較ゲノミクスヒートマップの使用および/またはゲノム由来メトリックの算出に基づいてもよい。いくつかの例では、pETaGを評価するために使用される比較ゲノミクス分析は、陽性ゲノムおよび陰性ゲノムのセットを同定することに基づいてもよい。真のETaGを同定するためにpETaGを評価する方法を以下により詳細に説明する。
【0098】
図3は、陽性ゲノム(すなわち、コアシンターゼ遺伝子配列のゲノム)および陰性ゲノム(すなわち、コアシンターゼ遺伝子配列を含有しないゲノム)の概略図を提供する。この実施例では、ゲノム1、2、3、4、......、Nを整列させ、検索して、pETaGならびに推定上のBGC中の他の遺伝子を同定した。pETaG配列の埋め込まれたコピーならびにBGC中の他の遺伝子を含むゲノムは、「陽性」ゲノムであると考えられる。BGC領域中に埋め込まれたpETaG配列のコピーに加えて、いくつかの陽性ゲノムは、pETaG配列の追加のコピー(例えば、ハウスキーピングコピー)を含み得る。いくつかの場合では、pETaG配列の1つ以上の追加のコピー(例えば、ハウスキーピングコピー)の存在は、耐性機構に関与するpETaGを示し得る。BGCを欠くゲノムは、「陰性」ゲノムであると考えられる。示されるように、いくつかの陰性ゲノムは、埋め込まれていないpETaG配列(例えば、ハウスキーピングコピーのみ)を含み得る。
【0099】
図4は、推定上の埋め込まれた標的遺伝子(pETaG)を同定および評価するためのプロセス400のフローチャートの別の非限定的な例を提供する。
【0100】
検索クエリの定式化:図4の工程402において、推定上のETaGを同定するための検索クエリが定式化される。いくつかの例では、検索は、例えば、1つ以上の生物中のタンパク質のすべてがクエリ配列として選択される標的不問検索を含み得る。いくつかの例では、検索は、例えば、1つ以上の生物由来の1つ以上の特定のタンパク質がクエリ配列として選択される標的化検索を含み得る。いくつかの例では、検索クエリは、1、2、3、4、5、6、7、8、9、10、100、1000、または1000を超える既知のクエリ配列を含み得る。いくつかの例では、クエリ標的(標的不問検索または標的化検索のいずれか)は、1、2、3、4、5、6、7、8、9、10、または10を超える生物から選択され得る。クエリ標的の供給源として選択される1つ以上の生物は、任意の生物界、例えば動物、植物、真菌、細菌、古細菌などから得ることができる。
【0101】
標的不問検索または標的化検索のいずれかのためのクエリ標的は、タンパク質配列(アミノ酸)、遺伝子配列(ヌクレオチド)、Uniprot ID、プロファイル隠れマルコフモデル(pHMM)、指定されたタンパク質もしくは核酸配列ドメインのセット、またはそれらの任意の組み合わせとして指定され得る。いくつかの例では、クエリは、特定の経路における目的のタンパク質の関与、目的のタンパク質間の配列類似性、特定の疾患への関与などによってグループ化され得る。
【0102】
標的ゲノムの選択:図4の工程404において、目的のタンパク質のホモログについて検索される標的ゲノムがゲノムデータベースから選択される。標的ゲノムは、二次代謝産物分子が産生されることが知られている任意の生物界(例えば、動物、植物、真菌、細菌、古細菌など)から得られた生物について選択することができる。いくつかの例では、個々のゲノムが標的ゲノムとして使用され得る。いくつかの例では、所与のデータベース内のすべてのゲノムを標的ゲノムとして使用することができる。いくつかの例では、1、2、3、4、5、6、7、8、9、10、100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、または100,000を超えるゲノム(またはこの範囲内の任意の数のゲノム)を標的ゲノムとして選択することができる。適切なゲノムデータベースの例には、UniProt知識ベース(タンパク質配列および機能データベース)、Swiss-Prot(キュレートされたタンパク質配列データベース)、GenBank(公的に利用可能なすべてのDNA配列の注釈付きコレクション)、MycoCosm(Joint Genome Institute)、PhycoCosm(Joint Genome Institute)、Phytozome(Joint Genome Institue)およびRefSeq(ゲノムDNA、転写物、およびタンパク質を含む配列の注釈付きセット)が含まれるが、これらに限定されない。いくつかの例では、ゲノムデータベースは、公的に入手可能なデータベースを含み得る。いくつかの例では、ゲノムデータベースは、専有または私的データベースを含み得る。
【0103】
いくつかの例では、検索候補クエリ(または標的)を実行する前に、標的不問検索または標的化検索のために選択されたゲノムは、例えば、ゲノム多様性を最大化する、所与の属に検索を集中させる、または密接に関係するゲノムに検索を集中させる2つ以上の標的ゲノムのセットにグループ化され得る。2つ以上のゲノムをグループ化するために使用され得る基準の非限定的な例としては、ペアワイズ配列同一性、ペアワイズ配列類似性、および系統発生的距離が挙げられる。いくつかの例では、クエリゲノムの群は、2、4、6、8、10、20、30、40、50、60、70、80、90、100または100を超えるゲノムを含み得る。
【0104】
ペアワイズ配列アラインメント法を使用して、2つのクエリ配列の最良のペアワイズ(ローカルまたはグローバル)アラインメントを見出す。いくつかの例では、ペアワイズ配列同一性または配列類似性は、例えば、2つのゲノム間で共有される単一コピータンパク質(アミノ酸)配列または遺伝子(ヌクレオチド)配列を比較することによって算出され得る。単一コピータンパク質または遺伝子は、普遍的な単一コピーオルソログに基づいて処理されたゲノムデータの完全性および冗長性を推定するBUSCO(Manniら(2021年)、BUSCO Update:Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic,Prokaryotic,and Viral Genomes、Mol.Biol.Evol.38巻(10号):4647~4654頁)などのツールを使用して注釈付けすることができる。いくつかの例では、タンパク質または遺伝子の予め定義されたサブセットも使用され得る。選択されたタンパク質または遺伝子は、個々に整列され、トリミングされ、連結されて、ペアワイズ配列同一性、すなわちアラインメント中の同一のアミノ酸残基またはヌクレオチドの数を算出する。いくつかの例では、ペアワイズ配列同一性は、全ゲノムのアラインメントを実行し、ゲノムの対の間の配列同一性パーセントを算出することによって算出され得る。
【0105】
あるいは、配列類似性スコアは、BLOSUM(進化的に多様なタンパク質配列間のローカルアラインメントをスコア化するために使用される)およびPAM(密接に関係するタンパク質配列間のグローバルアラインメントをスコア化するために使用される)のような代替行列に基づいて算出することができる。例えば、Trivediら(2020年)、「Substitution Scoring Matrices for Proteins-An Overview」、Protein Science 29巻:2150~2163頁を参照されたい。
【0106】
ゲノムのグループ化:いくつかの例では、2つ以上の標的ゲノムを系統発生的距離に従ってグループ化することができる。単一コピータンパク質もしくは遺伝子、または内部転写スペーサー(ITS)領域(すなわち、染色体中の小サブユニットリボソームRNA(rRNA)遺伝子と大サブユニットrRNA遺伝子との間に位置するDNAスペーサー(またはポリシストロニックrRNA前駆体転写物中の対応する転写領域)などの特異的配列を使用して、ゲノムのセットから系統樹を作成することができる。得られた系統樹を解析して、ゲノムのすべての対の間の系統発生的距離(または枝長によって示されるようなゲノム分岐の程度)を同定する。
【0107】
いくつかの例では、ペアワイズ配列同一性パーセントスコア、ペアワイズ配列類似性スコアまたは系統発生的距離スコアなどのゲノムグループ化値が算出される場合、標的ゲノムは、最初に所与のグループ化値に対して指定された閾値を適用して、閾値を満たさない候補標的ゲノム(または候補標的ゲノムの対)を除去し、次いで、マルコフクラスター(MCL)アルゴリズムまたは別のクラスタリングアルゴリズムを使用して残りの標的ゲノムをセットにクラスタリングすることによってグループ化され得る。いくつかの例では、候補標的ゲノムの対は、それらのペアワイズ同一性パーセントまたはペアワイズ配列類似性が50%超、60%超、70%超、75%超、80%超、85%超、90%超または95%超である場合、保持およびグループ化され得る。標的ゲノムをグループ化するために使用され得る他のクラスタリングアルゴリズムの例には、k平均クラスタリング方法、階層クラスタリング方法、混合モデル方法、またはそれらの任意の組み合わせが含まれるが、これらに限定されない。
【0108】
いくつかの例では、公知のデータベースまたはキュレートされたデータベースからの分類学的関係を使用して、例えば、門、綱、目、科、属または種に基づいてゲノムをグループ化することができる。
【0109】
標的不問検索:図4の工程406において、標的不問検索を行って、1つ以上の選択された標的ゲノム中の複数のクエリ標的のホモログの非存在または存在を決定する。次いで、標的不問検索の結果は、同じ種の複数の標的ゲノムが陽性ゲノムとして同定された場合、工程410において、1つの代表的なゲノムを選択することによって任意選択的に脱複製される。
【0110】
標的化検索:図4の工程408において、標的化検索を行って、選択された1つ以上の標的ゲノム中の1つ以上のクエリ標的のホモログの非存在または存在を決定する。次いで、標的不問検索の結果は、同じ種の複数の標的ゲノムが陽性ゲノムとして同定された場合、工程412において、1つの代表的なゲノムを選択することによって任意選択的に脱複製される。
【0111】
標的不問検索または標的化検索のいずれかについて、検索は、様々なゲノミクス検索ツールのいずれかを使用して実行され得る。例としては、BLAST、Diamond、HMMER(プロファイル隠れマルコフモデル(pHMM)と呼ばれる確率モデルを使用して配列アラインメントおよびホモログについて配列データベースを検索するためのソフトウェア)、またはggsearchが挙げられるが、これらに限定されない。
【0112】
標的不問検索または標的化検索のいずれかの場合、検索は、1つ以上の選択された標的ゲノムのゲノム全体にわたって実行され得るか、または1つ以上の選択された標的ゲノムの特定の位置または領域(例えば、プロモーター領域、コード領域、イントロン、エクソン、終止配列など)に限定され得る。いくつかの例では、検索は、生合成遺伝子クラスター(BGC)であることが知られているか、または生合成遺伝子クラスター(BGC)であると予測される1つ以上の選択された標的ゲノムの領域に限定され得る。いくつかの例では、BGCは、antiSMASH(細菌および真菌ゲノムにおける二次代謝産物の生合成をコードする遺伝子クラスターを同定、注釈付け、および比較するためのソフトウェア;例えば、Medemaら(2011年)、「antiSMASH:Rapid Identification,Annotation and Analysis of Secondary Metabolite Biosynthesis Gene Clusters in Bacterial and Fungal Genome Sequences」、Nucleic Acids Research 39巻、web server issue W339~W346を参照されたい)、SMURF(それらのゲノム状況およびドメイン含有量に基づいてクラスタリングされた二次代謝産物遺伝子を予測するためのウェブベースのソフトウェア;例えば、Khaldiら(2010年)、「SMURF:Genomic Mapping of Fungal Secondary Metabolite Clusters」、Fungal Genet Biol.47巻(9号):736~741頁を参照されたい)、TOUCAN(タンパク質またはヌクレオチド配列に基づいて真菌生合成遺伝子クラスターを同定するための教師あり学習フレームワーク)、例えば、Almeidaら(2020年)、「TOUCAN:a framework for fungal biosynthetic gene cluster discovery」、NAR Genomics and Bioinformatics 2巻(4号):lqaa098、Deep-BGC(生合成遺伝子クラスター予測のための深層学習ベースのソフトウェア;例えば、Hanniganら(2019年)、「A Deep Learning Genome-Mining Strategy for Biosynthetic Gene Cluster Prediction」、Nucleic Acids Research 47巻(18号):e110を参照されたい)、またはカスタム検索アルゴリズムなどの配列分析ツールによって予測することができる。
【0113】
BGC予測:配列検索(BLAST、Diamond、またはggsearchなどのツールを使用する)、既知のコアシンターゼのHMM(HMMERなどのツールを使用する)、またはコアシンターゼに関連するタンパク質ドメインの共局在に基づいて、既知の生合成コアシンターゼ遺伝子のホモログであると思われる遺伝子配列に隣接する(指定された長さの)領域を標的ゲノムから抽出することによって、BGCを予測することができる。予測されるBGC中または標的ゲノムの指定された配列領域中に標的遺伝子配列との一致が見出される場合、候補の推定上の埋め込まれた標的遺伝子(pETaG)が同定される。当業者に公知の様々なメトリックのいずれかに従って、検索結果が配列類似性についての指定された閾値を超える場合、検索結果はクエリ標的との一致と見なされる。例には、配列同一性パーセント(例えば、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれより高い)、配列カバレッジパーセント(例えば、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれより高い))、E値(例えば、10、1、0.1、0.001、0.0001、1e-10、1e-20、1e-100、またはそれ以下)、ビットスコア(例えば、5、10、25、50、100、250、500、1000、5000またはそれを超える)、またはHMMスコア(例えば、5、10、25、50、100、250、500、1000、5000またはそれを超える)が挙げられるが、これらに限定されない。
【0114】
高感度標的化検索技術:標的化検索のいくつかの例では、追加の検索方法を利用して検索の感度を高め、pETaGの存在の発見困難なシグナルを捕捉することができる。タンパク質配列もしくはヌクレオチド配列、またはクエリ標的のpHMMを含むクエリ標的の検索は、BLAST、Exonerate、HMMERなどの配列アラインメントツールを使用して行われることが多い。クエリ標的がタンパク質配列である場合、TBLASTNまたはExonerateなどのタンパク質-DNA検索ツールを使用して、タンパク質配列標的をヌクレオチド配列に変換し、次いで1つ以上のクエリゲノム(または標的ゲノム)に対してヌクレオチド配列の検索を実行することができる。あるいは、PFAMまたはTIGRFAMなどの確率モデルもまた、HMMERなどのHMM検索ツールと共に使用することができる。得られた検索ヒットは、ゲノム位置によって、および/またはE値、配列同一性パーセント、クエリカバレッジ(例えば、同定された相同配列によるクエリ配列のカバレッジの程度)、対象カバレッジ(例えば、目的のクエリ配列による同定された相同配列のカバレッジの程度)、もしくはビットスコアなどの配列メトリックと対応するカットオフ閾値との比較によって、フィルタリングすることができる。配列同一性パーセントのカットオフ閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれより高いものであり得る。対象カバレッジおよび/またはクエリカバレッジのカットオフ閾値は、少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれより高いものであり得る。E値のカットオフ閾値は、10、1、0.1、0.001、0.0001、1e-10、1e-20、1e-100、またはそれより低くてもよい。ビットスコアのカットオフ閾値は、5、10、25、50、100、250、500、1000、5000以上であってもよい。
【0115】
検索結果からのDNAアラインメント領域は、アラインメント領域のゲノム座標をクエリゲノム中の所与のタンパク質配列予測と比較することによって評価され得る。DNAアラインメント領域が単一の予測されるタンパク質配列と重複し、DNAアラインメント領域および予測されるタンパク質配列の対応する配列類似性メトリック(例えば、E値、配列同一性パーセント、クエリカバレッジ、対象カバレッジ、またはビットスコア)が(上記のような)配列類似性メトリックの指定された閾値を超える場合、対応する核酸配列はpETaGとして報告される(領域ケース1)。
【0116】
DNAアラインメント領域が複数の予測されるタンパク質配列と重複し、DNAアラインメント領域および複数の予測されるタンパク質配列のそれぞれに対する対応する配列類似性メトリック(例えば、E値、配列同一性パーセント、クエリカバレッジ、対象カバレッジ、またはビットスコア)が指定された閾値を超える場合、予測されるタンパク質配列(またはその対応する核酸配列)の1つのみがpETaGとして報告される(領域ケース2)。いくつかの例では、どの重複タンパク質配列をpETaGとして報告するかの決定は、どれが最も高い対応する配列メトリックを有するかに基づき得る(すなわち、E値、配列同一性パーセント、クエリカバレッジ、対象カバレッジ、またはビットスコアが最も高い値を有するタンパク質配列(またはその対応する核酸配列)が、pETaGとして報告される)。いくつかの例では、どの重複タンパク質配列をpETaGとして報告するかの決定は、タンパク質配列長に基づき得る(すなわち、最も長い重複タンパク質配列(またはその対応する核酸配列)が、pETaGとして報告される)。
【0117】
DNAアラインメント領域が単一の予測されるタンパク質配列または複数の予測されるタンパク質配列と重複しているが、対応する配列類似性メトリックがいずれも指定された閾値を超えない場合、最も長いタンパク質配列または最も高い対応する配列類似性メトリック値を有するタンパク質配列がpETaGとして報告される(領域ケース2)。
【0118】
DNAアラインメント領域が予測されるタンパク質配列と重複しない場合、DNAアラインメント領域の座標はpETaGとして報告される(領域ケース3)。
【0119】
標的化検索の結果のレビューおよびpETaGの報告:図5は、標的化検索の結果について説明された異なるケースを示す。図の上部に示されるタンパク質のケースは、標的化検索方法(例えば、タンパク質検索、HMM検索など)が、検索クエリ(例えば、ヒト遺伝子)の直接ヒットとして目的の標的ゲノム中の完全なタンパク質を同定し、タンパク質IDがpETaGに対応すると報告されるシナリオを図示する。領域ケース1は、DNA配列検索が、高い配列類似性(例えば、この例では>70%の配列同一性)で予測されるタンパク質配列の一部と重複するDNAアラインメント領域を同定し、タンパク質IDがpETaGに対応すると報告されるシナリオを示す。領域ケース2は、DNA配列検索が、予測される遺伝子配列、予測される遺伝子配列の伸長、または複数の予測される遺伝子配列の一部と重複するDNAアラインメント領域を同定し、重複する配列のいずれも指定された閾値(例えば、>70%の配列同一性)を超える配列類似性メトリックを示さず、最大の重複度を示すタンパク質配列のタンパク質IDおよびDNAアラインメント領域の座標がpETaGとして報告されるシナリオを示す。領域ケース3は、DNA配列検索が、目的の標的ゲノム中の予測されるタンパク質配列と重複しないDNAアラインメント領域を同定し、DNAアラインメント領域の座標がpETaGとして報告されるシナリオを示す。
【0120】
比較ゲノミクスヒートマップの生成:図4に戻ると、工程414において、比較ゲノミクスヒートマップは、標的不問検索または標的化検索によって同定された各pETaGに対して生成され、次いで、pETaGを評価するために使用される。ヒートマップ、またはヒートマップからの基礎となるデータを使用して、例えば、所与のpETaGの「埋め込み性」(すなわち、BGCとの関連度)の程度を評価することができる。いくつかの例では、ヒートマップに含まれるデータのベクトル表現を1つ以上の訓練されたニューラルネットワーク(例えば、訓練された長・短期記憶(LSTM)モデル)に提供し、対応するpETaGの埋め込み性分類を実行することができる。比較ゲノミクスヒートマップを生成し、それらを使用してpETaGを評価する方法を、以下により詳細に説明する。
【0121】
グループ化されたゲノム由来メトリックの算出:図4の工程416において、2つ以上の標的ゲノムが任意選択的にセットにグループ化される場合、グループ化されたゲノム由来メトリックが算出される。次いで、グループ化されたゲノム由来メトリックを使用して、pETaGを評価することができる。いくつかの例では、標的ゲノムは、上記のように、クエリ検索を実行する前にグループ化され得る。いくつかの例では、目的のクエリ標的についてすべての標的ゲノムのクエリ検索を実行した後に、標的ゲノムをグループ化することができる。標的ゲノムの各セットおよびゲノムのセット内の各pETaGについて、いくつかの検索特徴を計算することができる。グループ化されたゲノム由来メトリック(または検索特徴)の例としては、(i)ゲノムセット中の「陽性」ゲノムの数(すなわち、コアシンターゼを含有し、BGCが、例えば、antiSMASH、SMURF、TOUCAN、deepBGC、またはカスタムBGC同定方法を使用することによって予測されるゲノムの数)、(ii)ゲノムセット中の「陰性」ゲノムの数(すなわち、コアシンターゼを含有しないゲノムの数)、および(iii)陽性ゲノムと陰性ゲノムとの間の所与の遺伝子のコピー数差(CND)(耐性機構への遺伝子の関与の指標は重複であるため、pETaGは、例えばハウスキーピング遺伝子の余分なコピーであると評価される)が挙げられるが、これらに限定されない。いくつかの例では、陽性ゲノムは、コアシンターゼ遺伝子とは独立した候補BGCを含有するゲノムとして定義され得る。いくつかの例では、陰性ゲノムは、コアシンターゼ遺伝子とは独立して、候補BGCを含有しないゲノムとして定義され得る。
【0122】
オルソロガス群のクラスター(COG):いくつかの例では、タンパク質または遺伝子のオルソロガス群のクラスター(COG)を使用して、コピー数差(「COG CND」)を決定することができる。COGは、ツリーベースの手法よりも、コピー数差を算出するための幾分直交する/代替的な方法を迅速に生成および提供することができる。COGは、BLASTp、ggsearchまたはDiamond-BLASTpなどのツールを使用して、所与のゲノムセット中の標的ゲノムのすべてを使用して全タンパク質(アミノ酸)同士の配列検索(all-versus-all protein(amino acid)sequence search)を行うことによって同定され得る。同じCOGのメンバーは、オルソロガス機能を有すると推定される。COGは、遺伝子またはタンパク質ファミリー(またはオルソグループ(orthogroups)、すなわち、検討中の標的種/ゲノムのセットの最終共通祖先における単一の遺伝子に由来する遺伝子またはタンパク質のセット)として定義することもできる。COGはまた、OrthoMCL、OrthoFinder、PanX、または他のオルソグループ/汎ゲノム生成ツールなどのツールを使用して、またはUSEARCH、CD-HIT、およびMMseqsなどのタンパク質クラスタリングツールを使用して同定され得る。ペアワイズ関連は、例えば、配列同一性パーセントまたはE値のいずれかに基づいて、各クエリ標的と検索で同定された対応する標的タンパク質配列との間で確立され、次いで、MCL、SiLiX、または他のクラスタリングアルゴリズムを使用してクラスタリングされる。目的のCOGについて、コピー数差は、COG内に存在する陽性ゲノム中の標的遺伝子ホモログの平均数から陰性ゲノム中の標的遺伝子ホモログの平均数を減算することによって算出される。
【0123】
非依存木CND(Agnostic tree CND):いくつかの例では、グループ化された標的ゲノムのセットに対して作成された系統樹からコピー数差を算出することができる(すなわち、「非依存木CND」)。COGは上記のように同定されるか、またはいくつかの例では、COG CNDを決定するために使用されるのと同じCOGを使用して、非依存木CNDを決定することもできる。pETaGを含有するCOGの場合、任意の多重配列アラインメントソフトウェアツール(例えば、MAFFT、MUSCLE、ClustalWなど)を使用して多重配列アラインメントを作成し、次いで任意の配列トリミングソフトウェアツール(例えば、trimAI、GBlocks、ClipKITなど)を使用してトリミングする。次いで、得られたトリミングされた配列アラインメントを使用して、任意の系統樹再構築ソフトウェア(例えば、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、PAUPなど)を使用して系統樹を作成する。さらに、系統樹は、最尤アルゴリズム、最節約アルゴリズム、近隣結合アルゴリズム、距離行列アルゴリズム、ベイズ推定アルゴリズム、またはそれらの任意の組み合わせなどの様々なアルゴリズムを使用して構築することもできる。次いで、得られた系統樹を計算的に解析して、pETaGの最終共通祖先クレードおよびpETaGのハウスキーピングバージョンを同定する。最終共通祖先は、最初に、陽性ゲノムからのpETaGのすべてのまたは定義されたサブセットを含有するクレード(すなわち、pETaGクレード)を同定することによって決定することができる。次いで、pETaGクレードから、根に向かって戻り、各新しいクレードがすべてのまたは定義された陰性ゲノムのサブセット由来の遺伝子を含有するかどうかを確認することによって、系統樹をトラバースすることができる。正しいクレードが同定されると(すなわち、pETaGのすべてのまたは定義されたサブセットと、陰性ゲノムのすべてのまたは定義されたサブセット由来の遺伝子とを含有するクレード)、それは最終共通祖先クレードとして同定される。次いで、最終共通祖先クレード内に存在する陽性ゲノム中の遺伝子ホモログの平均数から陰性ゲノム中の遺伝子ホモログの平均数を減算することによって、所与のpETaGについて非依存木CNDを算出する。
【0124】
進化的メトリック:いくつかの例では、候補pETaGはまた、候補pETaGが候補コアシンターゼまたはBGCに関連するかどうかを評価するために陽性ゲノムおよび陰性ゲノムのセットを利用するカスタムソフトウェアアルゴリズムを使用して、図4の工程416で決定された1つ以上の進化的メトリック(例えば、系統発生的特徴、共起特徴、または共進化特徴)に基づいて評価され得る。陽性ゲノムは、候補BGC中に候補コアシンターゼを含有するゲノムとして定義され、陽性ゲノムの少なくとも1つは候補pETaGを含有する。いくつかの実施形態では、陽性ゲノムは、コアシンターゼ遺伝子とは独立した候補BGCを含有するゲノムとして定義され得る。陰性ゲノムは、候補BGC中に候補コアシンターゼを含有しないゲノムとして定義される。いくつかの実施形態では、陰性ゲノムは、コアシンターゼ遺伝子とは独立した候補BGCを含有しないゲノムとして定義され得る。進化的メトリックを算出するために使用される陽性ゲノムおよび陰性ゲノムは、当業者に公知の様々な方法のいずれかを使用して同定することができる。例えば、本明細書の他の箇所に記載される比較ゲノミクスヒートマップまたはその基礎となるデータを、カスタムソフトウェアアルゴリズムに供給することができる。あるいは、タンパク質またはDNA配列検索を利用して、目的のクエリ配列がコアシンターゼと共局在するか、および/または予測されるBGC中に位置するかを決定する任意の方法を使用してもよい。
【0125】
候補pETaGの進化的メトリックを評価するには、特定の分析を実行するための最小数の陽性および/または陰性ゲノムが必要である。例えば、系統発生的特徴は、分析のために少なくとも1つの陽性ゲノムおよび少なくとも1つの陰性ゲノムを必要とする。共起特徴は、少なくとも1つの陽性ゲノムおよび少なくとも1つの陰性ゲノムを必要とする。共進化特徴は、少なくとも3つの陽性ゲノムを必要とするが、陰性ゲノムを同定する必要はない。使用される陽性ゲノムおよび陰性ゲノムの実際の数は、所与の分析に必要な最小数よりも大きい任意の数であり得る。いくつかの例では、進化的メトリックの評価に使用される陽性ゲノムおよび/または陰性ゲノムの数は、少なくとも1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、または60を超えるゲノムであり得る。いくつかの例では、使用される組み合わされた陽性ゲノムおよび/または陰性ゲノムの数は、計算効率を維持するために20ゲノムを超えない。
【0126】
いくつかの例では、陽性ゲノムは、任意選択的に種によって脱複製され得る(すなわち、同じ種の複数のゲノムが陽性ゲノムとして同定された場合、1つの代表的なゲノムのみが維持されるようにフィルタリングされる)。ゲノムの脱複製は、いくつかの方法で、例えば、種名が知られている場合は分類法に基づいて、検索方法論について上述したようにペアワイズ配列同一性もしくは類似性に基づいて(種レベルの区別は、ペアワイズ配列同一性についての指定された閾値(例えば、99.9%、99.8%、99.7%、99.6%、99.5%、99.4%、99.3%、99.2%、99.1%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%またはそれ以下)または類似性についての指定された閾値(閾値は、配列長、使用される配列の数、および使用される類似度行列に応じて変化する)に基づいて決定することができる)、または検索方法論について上述したように系統発生的距離に基づいて(種レベルの区別は、ペアワイズ系統発生的距離についての指定された閾値(例えば、0.0001、0.001、0.002、0.003、0.004、0.005、0.006、0.007、0.008、0.009、0.01、0.02、0.03、0.04、0.05、0.1、またはそれより高い)に基づいて決定することができる)、行うことができる。いくつかの実施形態では、陽性ゲノムは、任意選択的に、属、科、目、綱または門などであるがこれらに限定されない他の分類学的ランク付けによって脱複製され得る。
【0127】
いくつかの例では、陰性ゲノムとして使用するために選択されるゲノムは、陽性ゲノムに最も近いが陰性として分類されるゲノムであり得る。陽性ゲノムに対する陰性ゲノムの近さは、いくつかの方法のいずれかで、例えば、種名が既知である場合は分類法に基づいて、検索方法論について上述したようにペアワイズ配列同一性もしくは類似性に基づいて(例えば、陽性ゲノムに対して最も高い同一性または類似性のパーセントを有する陰性ゲノムが選択される)、または検索方法論について上述したように系統発生的距離に基づいて(例えば、陽性ゲノムとの系統発生的距離が最も低い陰性ゲノムが選択される)、決定することができる。
【0128】
系統発生的特徴:系統発生的特徴は、候補pETaGの最終共通祖先クレードおよびそのハウスキーピングコピーの系統樹から算出することができる。系統樹を作成し、最終共通祖先を特定するプロセスを以下に説明する。プロセスの第1の工程では、pETaGをクエリ配列として使用して、任意の配列検索およびアラインメントツール(例えば、BLASTp、ggsearch、またはDiamond-BLASTpなど)を使用して、選択された陽性ゲノムおよび陰性ゲノムのセット中のすべてのホモログを同定する。次いで、任意のアラインメントソフトウェアツール(例えば、MAFFT、MUSCLE、ClustalWなど)を使用してホモログ配列を整列させ、任意の配列トリミングソフトウェア(例えば、trimAI、GBlocks、ClipKITなど)を使用してトリミングする。次いで、得られたトリミングされた配列アラインメントを使用して、任意の系統発生的再構築ソフトウェアツール(例えば、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、PAUPなど)を使用して系統樹を作成する。あるいは、系統樹は、最尤アルゴリズム、最節約アルゴリズム、近隣結合アルゴリズム、距離行列アルゴリズム、ベイズ推定アルゴリズム、またはそれらの任意の組み合わせなどの様々なアルゴリズムを使用して構築することができる。次いで、得られた系統樹を計算的に解析して、pETaGの最終共通祖先クレードおよびpETaGのハウスキーピングバージョンを同定する。最終共通祖先は、最初に、陽性ゲノムからのpETaGのすべてまたはサブセットを含有するクレード(すなわち、pETaGクレード)を同定することによって決定される。次いで、pETaGクレードから、根に向かって戻り、各新しいクレードが陰性ゲノムのすべてまたはサブセット由来の遺伝子を含有するかどうかを確認することによって、系統樹をトラバースすることができる。正しいクレードが見出されると(すなわち、pETaGのすべてまたはサブセットと、陰性ゲノムのすべてまたは定義されたサブセット由来の遺伝子とを含有するクレード)、それは最終共通祖先クレード(LCA)として同定される。
【0129】
最終共通祖先(LCA)クレードを使用して、系統樹から様々なメトリックを算出することができる。これらには、以下が含まれるが、これらに限定されない。
【0130】
系統樹CND-最終共通祖先クレード内に存在する陽性ゲノム中の遺伝子コピーの平均数から陰性ゲノム中の遺伝子コピーの平均数を減算することによって、所与の遺伝子(例えば、pETaG)について算出される。
【0131】
LCAに対する平均の比-LCAノードに対するすべてのpETaG遺伝子の平均枝長を、LCAノードに対するすべてのハウスコピー遺伝子の平均枝長で割ったものとして算出される。
【0132】
LCAに対する標準偏差(stdev)の比-LCAノードに対するすべてのpETaG遺伝子の枝長の標準偏差を、LCAノードに対するすべてのハウスコピー遺伝子の枝長の標準偏差で割ったものとして算出される。
【0133】
平均隣接距離比-他のすべてのpETaGに対する各pETaG遺伝子の平均枝長を、他のすべてのハウスコピー遺伝子に対する各ハウスコピー遺伝子の平均枝長で割ったものとして算出される。
【0134】
隣接距離に対する標準偏差(stdev)の比-他のすべてのpETaGに対する各pETaG遺伝子の枝長の標準偏差を、他のすべてのハウスコピー遺伝子に対する各ハウスコピー遺伝子の枝長の標準偏差で割ったものとして算出される。
【0135】
クレード和比-pETaGクレード(すなわち、pETaGのすべてまたはサブセットを含有する系統樹におけるクレード)におけるすべての枝長の和を、ハウスコピークレード(すなわち、ハウスコピー遺伝子のすべてまたはサブセットを含有する系統樹におけるクレード)におけるすべての枝長の和で割ったものとして算出される。
【0136】
代替的な系統発生的メトリック:いくつかの場合では、代替的なメトリックを系統樹から算出し、pETaGが実際のETaGである確率が高いことについての追加の証拠として使用することができる。例としては、2つの系統樹間の距離(この場合、pETaGクレードとHouseコピークレードとの間の距離)を計算するために使用されるRobinson-Foulds(RF)距離メトリックが挙げられるが、これらに限定されない。類似のRF距離メトリックまたは調整ベースの距離メトリックを、treeKOなどのツールを使用して計算して、pETaGとハウスコピークレードとのトポロジーおよび距離を比較することができる。
【0137】
共起特徴:共起特徴は、タンパク質または遺伝子配列のオルソロガス群のクラスター(COG)から算出することができる。COGは、BLAST、ggsearch、またはDiamondなどのソフトウェアツールを使用して、すべての陽性ゲノムおよび陰性ゲノムを使用して、全タンパク質(アミノ酸)同士の配列検索または全ヌクレオチド同士の配列検索を実行することによって同定され得る。相互のベストヒット(すなわち、ゲノムAとゲノムBとの間の最良のタンパク質マッチが、ゲノムBとゲノムAとの間の最良のタンパク質マッチでもなければならない場合)を使用して、タンパク質配列(またはそれらのヌクレオチド配列対応物)間の関連を確立し、次いで、例えばMCL、SiLiX、または他のクラスタリングアルゴリズムを使用してクラスタリングする。あるいは、いくつかの例では、一方向性検索結果を(相互検索の代わりに)使用して、クラスタリングの前に関連付けを作成することができる。COGはまた、OrthoMCL、OrthoFinder、PanX、または他のオルソグループ/汎ゲノム生成ツールなどのツールを使用して、またはUSEARCH、CD-HIT、およびMMseqsなどのタンパク質クラスタリングツールを使用して同定され得る。
【0138】
同定されたCOGから様々な共起メトリックを算出することができる。これらには、以下が含まれるが、これらに限定されない。
【0139】
正規化された共起距離メトリック:正規化された共起距離メトリックは、以下の式:
【数1】

(式中、TPGは陽性ゲノムの総数であり、TNGは陰性ゲノムの総数であり、PGは所与のCOG中の遺伝子を含有する陽性ゲノムの数であり、NGは所与のCOG中の遺伝子を含有する陰性ゲノムの数である)
に基づいて、すべてのCOGに対して算出される。
【0140】
共起pETaG距離-pETaGを含有するCOGの距離スコアとして算出される。
【0141】
共起pETaGランク-他のCOGの距離スコアに対する、pETaGを含有するCOGの距離スコアの昇順のランクである。距離スコアが同順位の場合、同順位内のすべてのCOGに割り当てられるランクは、グループ内の最低ランクである。
【0142】
共起コア距離-コアシンターゼを含有するCOGの距離スコア。
【0143】
共起コアランク-他のCOGの距離スコアに対するコアシンターゼを含有するCOGの距離スコアの昇順のランク。距離スコアが同順位の場合、同順位内のすべてのCOGに割り当てられるランクは、グループ内の最低ランクである。
【0144】
共進化特徴:共進化特徴は、タンパク質または遺伝子配列のオルソロガス群のクラスター(COG)から算出することもできる。COGは、上記と同様の方法で、例えばBLASTp、ggsearchまたはDiamond-BLASTpなどのツールを使用して、所与のゲノムセット中の標的ゲノムのすべてを使用して全タンパク質(アミノ酸)同士の配列検索を行い、その後ペアワイズ配列類似性結果をクラスタリングすることによって同定され得る。単一コピー遺伝子である少なくとも3つの遺伝子を含むCOGのみが共進化分析に渡される。単一コピーとは、COGが、COG中に存在するゲノムのゲノムあたり1つの遺伝子/タンパク質のみからなることを意味する。
【0145】
共進化分析は、いくつかの異なる手法、例えば多重配列アラインメント(MSA)または遺伝子系統樹比較(gene-tree comparison)を使用して行うことができるCOG-COG比較値の決定を含む。
【0146】
MAFFT、MUSCLEおよびClustalWを含むがこれらに限定されない様々なアラインメントソフトウェアツールのいずれかを使用して、一対のCOGのそれぞれについて多重配列アラインメント(MSA)を作成することができる。次いで、指定されたパラメータ(例えば、すべてのギャップの除去、連続するギャップの数が指定された閾値よりも大きくなるようなギャップの除去、すべてのギャップの保持など)に基づいてMSAをトリミングすることができ、配列同一性パーセント(アラインメント中の同一の残基の数)が算出される。あるいは、配列類似性スコアは、BLOSUMおよびPAMのような代替行列に基づいて算出することができる。
【0147】
遺伝子系統樹比較は、配列アラインメント、トリミング、および系統発生的再構築によってCOGの各対内のアミノ酸またはヌクレオチド配列から生成された系統樹に基づいて、算出することができる。系統樹は、標的ゲノムの種系統樹のトポロジーに拘束されなければならず、両方のCOGに存在する遺伝子が比較される。次に、得られた2つのCOG系統樹間のペアワイズ枝長が算出される。この分析は、カスタムスクリプトを使用して、またはPhyKIT(https://github.com/JLSteenwyk/PhyKIT)のCo-Varianceアルゴリズムなどのソフトウェアツールを使用して実行することができる。
【0148】
次いで、配列同一性パーセント、配列類似性、または枝長比較のいずれかを使用して、ピアソンR、または当業者に公知の任意の他の相関メトリックを使用して、すべてのペアワイズCOG組み合わせの相関を算出する。相関は、少なくとも3つのゲノムを共有するCOGの対の間でのみ計算することができる。
【0149】
算出され得る共進化メトリックの例には、以下が含まれるが、これらに限定されない。
【0150】
共進化相関-COGのペアワイズ配列同一性パーセントとCOGのペアワイズ配列同一性パーセントとの相関。
【0151】
共進化ランク-他のすべてのペアワイズCOG相関に対するCOGxとCOGyとの相関の昇順のランク。同順位の場合、同順位内のすべてのペアワイズCOG相関に割り当てられたランクは、グループ内の最低ランクである。
【0152】
共進化勾配-COGのペアワイズ同一性パーセントとCOGのペアワイズ同一性パーセントとの直交回帰。
【0153】
いくつかの例では、COGxは、コアシンターゼを含有するCOGであり、COGyは、pETaGを含有するCOGである。
【0154】
ゲノムデータセットの特徴:上記のようにクラスタリングされた標的ゲノムの群について、様々なゲノムデータセットの特徴を算出することができる。これらには、以下が含まれるが、これらに限定されない。
【0155】
陽性ゲノムの数-上記のありとあらゆるメトリックで使用された最終陽性ゲノム数。いくつかの例では、10、15、20、25、30、またはそれ以上の陽性ゲノムが入力として使用され得る。
【0156】
PGI陽性平均-最終陽性ゲノム数の間のペアワイズゲノム同一性(PGI)の平均。ペアワイズゲノム同一性は、例えば、2つのゲノム間で共有される単一コピータンパク質(アミノ酸)配列または遺伝子(ヌクレオチド)配列を比較することによって算出され得る。
【0157】
PGI陽性標準偏差(stdev)-最終陽性ゲノム数の間のペアワイズゲノム同一性の標準偏差。
【0158】
陰性ゲノムの数-上記のありとあらゆるメトリックで使用された陰性ゲノムの最終的な数。いくつかの例では、10、15、20、25、30、またはそれ以上の陰性ゲノムが入力として使用され得る。
【0159】
PGI陰性平均-最終陰性ゲノム数間のペアワイズゲノム同一性の平均。
【0160】
PGI陰性標準偏差(stdev)-最終陰性ゲノム数間のペアワイズゲノム同一性の標準偏差。
【0161】
図4に戻ると、工程418において、上記のように、検索において同定された各pETaGについて生成された比較ゲノミクスヒートマップまたはその基礎となるデータを使用して、所与のpETaGの「埋め込み性」の程度を評価することができる。いくつかの例では、ヒートマップに含まれるデータのベクトル表現は、対応するpETaGの埋め込み性分類を実行するために、1つ以上の訓練されたニューラルネットワーク(例えば、訓練された長・短期記憶(LSTM)モデル、畳み込みニューラルネットワーク(CNN))に提供されてもよい。例えば、比較ゲノミクスヒートマップ、またはそこからの基礎となるデータは、訓練されたLSTMモデルを使用して分析され、pETaGがBGCに関連する確率を予測することができる。比較ゲノミクスヒートマップを生成し、それらを使用してpETaGを評価する方法を、以下により詳細に説明する。
【0162】
図4の工程420において、検索で同定されたpETAGについてのグループ化されたゲノム由来メトリックおよび/または埋め込み性分類データを要約する「特徴テーブル」がコンパイルされる。いくつかの例では、特徴テーブル、またはそれに含まれるデータは、pETaGを評価するための機械学習ベースの分析(例えば、深層学習ベースの分析)のための入力として使用することができる。
【0163】
pETaGの機械学習ベース(例えば、深層学習ベース)評価:図4の工程422において、機械学習ベースの分析(例えば、深層学習ベースの分析)を実行して、所与のpETaGが実際のETaGである尤度(または確率)を評価することができる。機械学習ベースの分析のための入力は、図4の工程420においてコンパイルされた特徴テーブルまたはその中に含まれるデータである。いくつかの例では、工程424で示されるようにBGC検索ツールを使用して同定された標的ゲノムの予測されるBGC領域も、機械学習ベースの評価のための入力として使用することができる。示されるように、いくつかの例では、標的ゲノムの予測されるBGC領域はまた、検索に使用される標的ゲノムの選択の一部として使用され得る(例えば、図4の工程404において)。上記のように、配列検索(BLAST、Diamond、またはggsearchなどのツールを使用する)、既知のコアシンターゼのHMM(HMMERなどのツールを使用する)、またはコアシンターゼに関連するタンパク質ドメインの共局在に基づいて、既知の生合成コアシンターゼ遺伝子のホモログであると思われる遺伝子配列に隣接する(指定された長さの)領域を標的ゲノムから抽出することによって、BGCを予測することができる。
【0164】
開示されたpETaG評価方法を実装する際に、様々な機械学習アルゴリズムのいずれかを使用することができる。例えば、採用される機械学習アルゴリズムは、教師あり学習アルゴリズム(例えば、1つ以上のpETaG特徴のセットと所与のpETaGが実際のETaGである確率の予測との間の関係を推論するためにラベル付き訓練データのセットの使用に依存するアルゴリズム)、教師なし学習アルゴリズム(例えば、ラベル付きETaG分類または確率データと対になっていないpETaG特徴からなる訓練データセットから推論を引き出すために使用されるアルゴリズム)、半教師付き学習アルゴリズム(例えば、訓練にラベルありとラベルなしの両方のpETaG特徴データを利用するアルゴリズム(典型的には、大量のラベルなしデータと共に比較的少量のラベルありデータを使用する)、決定木モデル(例えば、学習タスクを一連の個々の決定としてモデル化するアルゴリズム、具体的には、特徴データに基づいてpETaGを分割または分類するために使用され得る既存の木を補完および強化するためにエラーまたは残差をモデル化するために新しい木が作成される勾配ブースト木)、深層学習アルゴリズム(例えば、人工ニューラルネットワーク(ANN)などの人間の脳の構造および機能に着想を得たアルゴリズム、具体的には、pETaG特徴データを確率予測または分類決定にマッピングするために使用することができる結合「ノード」の多くの隠れ層を含む大きなニューラルネットワーク)、またはそれらの任意の組み合わせを含むことができる。
【0165】
深層学習モデル(すなわち、訓練された深層学習アルゴリズム)は、任意の総数の層、および任意の数の隠れ層を含むことができ、隠れ層は、入力データのセットを好ましい出力値または出力値のセットにマッピングすることを可能にする訓練可能な特徴抽出器として機能する。ニューラルネットワークの各層は、いくつかのノード(またはユニット)を含む。ノードは、入力データ(例えば、上記の方法を使用して導出されたpETaG特徴データ)から直接、または前の層のノードの出力から到来する入力を受信し、特定の演算、例えば加算演算を実行する。いくつかの場合では、入力からノードへの接続は、重み(または重み係数)に関連付けられる。いくつかの場合では、ノードは、例えば、入力Xとそれらに関連付けられる重みWとのすべての対の積を合計することができる。いくつかの場合では、加重和はバイアスbでオフセットされる。いくつかの場合では、ノードの出力は、例えば、閾値、または線形もしくは非線形関数であり得る活性化関数fを使用してゲート制御することができる。活性化関数は、例えば、正規化線形ユニット(ReLU)活性化関数、または飽和双曲線正接(saturating hyperbolic tangent)、恒等式、バイナリステップ、ロジスティック、arcTan、ソフトサイン、パラメトリック正規化線形ユニット、指数線形ユニット、softPlus、ベント恒等式(bent identity)、softExponential、正弦曲線(Sinusoid)、正弦、ガウシアン、もしくはシグモイド関数、またはそれらの任意の組み合わせなどの他の関数であってもよい。
【0166】
重み係数、バイアス値、および閾値、またはニューラルネットワークの他の計算パラメータは、訓練データの1つ以上のセットを使用する訓練段階において「教示」または「学習済み」にすることができる。例えば、パラメータは、深層学習モデルが計算する出力値(例えば、所与のpETaGが実際のETaGである確率の予測)が訓練データセットに含まれる例と一致するように、訓練データセットからの入力データおよび勾配降下法または逆伝播法を使用して訓練することができる。
【0167】
例えば、いくつかの例では、所与のpETaGが実際のETaGである確率を予測するように訓練された深層学習モデルは、指定された数の隠れ層(例えば、2、4、6、8、10、12、14、16、18、20、100、1000、または1000を超える隠れ層)および隠れ層ごとの指定された数のユニット(例えば、隠れ層あたり1、2、4、8、16、32、64、126、256、または256を超えるユニット)を有する完全結合ニューラルネットワークを含むことができる。出力層は、モデルを訓練する(例えば、モデルを、所与のpETaGが実際のETaGである確率を予測するように訓練する)ために使用される既知のETaGに対する所与のpETaGの類似性を予測するように構成された単一のユニットを備えることができる。教師あり学習の場合、例えば、訓練データセットは、真陽性のセットを作成するための既知の(または陽性の)ETaGのセットの特徴データを含むことができる。訓練データセットはまた、真の陰性(すなわち、陰性ETaGは、ETaGではない遺伝子またはタンパク質配列である)のセットを作成するための陰性ETaGのセットの特徴データを含むことができる。陽性ETaGおよび陰性ETaGの既知の例は、例えば、科学文献から、および/または社内研究を通じて特定することができる。モデルを訓練するために(または、以下に記載されるように、pETaGの経験的評価を行うために)使用することができるpETaG特徴データの例を表1に要約する。
【表1】
【0168】
いくつかの例では、真陽性および真陰性を含む訓練データは、訓練試験データセットに分割され(例えば、90/10、80/20、70/30などの分割を使用する)、最初に深層学習モデルを訓練するために使用し、次いで深層学習モデルを試験することができる。いくつかの例では、初期データセットが不均衡である場合、正または負の重みを使用して、真陽性および真陰性の訓練データセットを均衡させることができる。
【0169】
1つの非限定的な例では、所与のpETaGが実際のETaGである確率を予測するための深層学習モデルは、以下の訓練パラメータを使用して、確率的勾配降下法アルゴリズムおよび80/20で訓練-試験分割された初期データセットからのデータを使用して訓練された。
勾配クリップ最大ノルム=1.0(すなわち、正規化された値が1.0の最大値を超えた場合、勾配は「クリッピング」された)
ミニバッチサイズ=512(すなわち、訓練反復ごとに512個の訓練データ対が使用された)
学習率=1e-5(すなわち、重みは、各訓練反復において1e-5の増分値によって更新された)
最大エポック=3,000(すなわち、訓練中に訓練データセットを通す完全なパスの数)
隠れ層の数:様々な数の隠れ層を含むモデルを使用し、後に性能を評価した
隠れ層あたりのユニット数:隠れ層あたりの様々な数のユニットを含むモデルを使用し、後に性能を評価した
【0170】
深層学習モデルが訓練されていていると、例えば、初期訓練-試験データセット分割からの試験データセットを使用して試験することができる。2つの隠れ層および隠れ層あたりの様々な数のユニットを有するモデルからの試験結果の例を以下に示す。
【0171】
pETaGを評価するための経験的スコアの使用:いくつかの例では、pETaGを評価するための深層学習ベースの方法の代わりに、またはそれに加えて、経験的スコアリング方法を使用することができる。深層学習ベースの手法と同様に、分析は、陽性(既知)ETaGおよび陰性(存在しないことが既知)ETaGのデータの例を含むpETaGデータセットを使用して実行される。陽性ETaGのセットを同定して、真陽性のセットを作成することができる。陰性ETaGのセット(すなわち、ETaGではないことが知られている遺伝子またはタンパク質配列)を同定して、真の陰性のセットを作成することができる。陽性ETaGおよび陰性ETaGは、例えば、科学文献から、および/または社内研究を通じて特定することができる。陽性ETaGデータセットおよび陰性ETaGデータセットから選択された候補pETaGは、上記の検索方法(例えば、標的不問検索方法)を使用して分析され、上記のメトリックの指定された組み合わせを使用して評価され得る。
【0172】
陽性ETaGおよび陰性ETaGの分析からの結果を使用して、表1に要約された異なるメトリックの値に基づいて規則、重み、スコア、および/または閾値のセットを決定することができる。次いで、得られた規則、重み、スコア、および/または閾値のセットを使用して、pETaG結果をフィルタリングし、候補pETaGを陽性ETaGまたは陰性ETaGとして分類するためのアルゴリズムを展開することができる。
【0173】
異なるメトリックに割り当てられた規則、重み、スコア、および/または閾値のセットは、候補pETaGの対応する値が陽性ETaGの値または陰性ETaGの値により類似しているかどうかを識別するための分析に基づいて決定することができる。決定点(Decision points)およびメトリック値閾値は、例えば、平均、中央値、標準偏差、標準誤差、四分位、信頼区間、ブートストラップ(またはその任意の変形)、ジャックナイフ(またはその任意の変形)、またはそれらの任意の組み合わせを含むがこれらに限定されない、一般的に使用される統計的測定および分析に基づくことができる。
【0174】
アルゴリズム試験は、陽性ETaGまたは陰性ETaGデータセットのメトリック値と、pETaGが実際のETaGである尤度を予測する際のそれらの性能についての対応する規則、重み、スコア、および/または閾値とのすべての組み合わせを試験することを含み得る。いくつかの例では、最大化される所与の標的統計量に基づいて最良のアルゴリズムを選択することができる。例えば、精度を最大化しようとする場合、第1の経験的モデルを選択することができ、感度を最大化しようとする場合、第2の経験的モデルを選択することができ、例えばF1スコア(試験の精度の統計的尺度)を最大化しようとする場合、第3の経験的モデルを選択することができる。次いで、選択されたモデルを使用して、例えば所与の候補pETaGに対する標的評価からの結果を分析し、所与のpETaGが真のETaGである尤度または確率(および/または信頼水準)を評価するために使用することができる経験的スコアを提供することができる。
【0175】
図4に戻ると、工程426において、標的ルックアップテーブルは、pETaGの進化的メトリックの入力値または範囲を、pETaGが実際のETaGである確率の出力値にマッピングするデータのアレイを含む深層学習ベースおよび/または経験的pETaG評価方法に基づいてコンパイルされる。
【0176】
グリッド表現(ヒートマップ)分析方法
いくつかの例では、本明細書に記載の方法およびシステムは、機械学習アルゴリズムを使用して、多様なゲノムにわたって、遺伝子クラスター、例えばBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する遺伝子のオルソログのグリッド表現(例えば、ヒートマップ、またはデータ行列)を評価する、遺伝子クラスター、例えば生合成遺伝子クラスター(BGC)に関連する遺伝子の同定に関する。
【0177】
生合成遺伝子クラスターを同定するために最も一般的に使用されるバイオインフォマティクスツールはantiSMASHであり、これは特定の重要なタンパク質ドメインの存在に基づいて40種類を超えるBGCに注釈を付ける。現在、遺伝子クラスター、例えばBGCのゲノム境界を正確に予測するために利用可能な良好な方法はない。antiSMASHは、以下のアルゴリズムを使用してBGC領域を定義する。第1の工程では、分析された配列のすべての遺伝子産物を、特定のBGCタイプを示す高度に保存された酵素(例えば、コア酵素)についての隠れマルコフモデル(HMM)プロファイルのデータベースに対して検索する。第2の工程では、予め定義されたクラスター規則を採用して、分析された配列領域にコードされた個々の「クラスター」を定義する。同定された各クラスターは、クラスター規則をトリガーするコア遺伝子産物またはコアシンターゼ遺伝子を含む。antiSMASHは、コアシンターゼ遺伝子の上流および下流に所定の長さ、例えば20kbだけ伸長することによってBGC領域を定義する。異なるクラスター型の所定の長さは経験的に決定され、一般にBGCの一部として隣接遺伝子を過剰に含む傾向がある。例えば、Blink K.ら(2017年)、Nucleic Acids Res.、45巻、W36~W41頁、およびWeber T.ら、antiSMASH5,antiSMASH Database Manual(2019年)を参照されたい。したがって、antiSMASHを使用して、またはBGCのコアシンターゼ遺伝子に近接していることに基づいてBGCの一部として同定された遺伝子は、BGCによって産生される二次代謝産物と機能的に関係しない可能性がある。
【0178】
この問題を解決するために、本明細書に記載の方法およびシステムは、比較ゲノミクスおよび機械学習アルゴリズムを活用して、多数の多様なゲノムにわたってBGCに関連することが知られているアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する遺伝子のオルソログ、例えば双方向ベストヒット(BBH)の分布を表すヒートマップを評価して、クエリ(または標的)ゲノム中の遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在するクエリ遺伝子(例えば、参照ゲノム中の遺伝子)のオルソログがクエリゲノム中のBGCに関連する尤度を決定する。機械学習モデルは、手動でキュレートされたヒートマップを使用して訓練することができ、それには、遺伝子クラスター(BGCなど)に関連することが知られているかまたは実験的に検証された共局在非生合成遺伝子、遺伝子クラスター(BGCなど)と機能的関連がないことが知られているかまたは実験的に検証された共局在非生合成遺伝子、および境界例を含む遺伝子を表す手動でキュレートされたヒートマップが含まれる。訓練された機械学習アルゴリズムは、多数のゲノムからの配列情報を使用して、BGCなどの遺伝子クラスター中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する多数の推定上の埋め込まれた遺伝子の迅速な評価を可能にし、遺伝子クラスターの境界を描写する精度を大幅に改善する。さらに、本方法は、時間と費用がかかる実験検証プロセスによる評価を含む、下流評価のためのBGCなどの遺伝子クラスター中の推定上の埋め込まれた遺伝子の優先順位付けを可能にする。
【0179】
本明細書に記載の方法およびシステムは、遺伝子クラスター境界を定義するために、すなわち染色体上に共局在する機能的に関係する遺伝子を同定するために使用することができる。遺伝子クラスターまたはそのタンパク質産物は、生合成(例えば、二次代謝および一次代謝)、免疫、細胞構造、スカベンジング、エネルギーおよびセンシングなどの様々な細胞機能に関与し得る。特に、本明細書に記載の方法は、遺伝子クラスターに関連する遺伝子を同定することによって、異なるゲノムにおける遺伝子クラスター(例えば、BGC)の境界を定義するために使用することができる。
【0180】
さらに、方法およびシステムを使用して、二次代謝産物の産生に必要なBGCに埋め込まれた耐性遺伝子(例えば、BGCによって産生される二次代謝産物の作用に対する耐性を宿主生物に付与する遺伝子)を同定することができる。BGCに埋め込まれた耐性遺伝子の同定は、哺乳動物ゲノムにホモログを有し得るBGCコード小分子のタンパク質標的(ETaG産物)の脱オーファン化を可能にする。ETaGの哺乳動物ホモログは、候補治療標的として役立ち得、二次代謝産物は、そのような哺乳動物ホモログに対するモジュレーターを開発するための小分子足場を提供し得る。
【0181】
図6は、機械学習アルゴリズム(人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、LSTM、ビジョントランスフォーマーモデル、敵対的生成ネットワーク(GAN)モデル、変分オートエンコーダモデル、潜在拡散モデルなど)に入力することができるゲノムデータのグリッド表現(例えば、ヒートマップ)を生成して、推定上の埋め込まれた遺伝子(例えば、pETaG)がゲノム中の遺伝子クラスター(例えば、BGC)に関連する尤度を決定するための、例示的な方法600を示す。
【0182】
図7は、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を決定するための例示的な方法700を示す。プロセス600およびプロセス700は、例えば、ソフトウェアプラットフォームを実装する1つ以上の電子デバイスを使用して実行される。いくつかの例では、プロセス600および/またはプロセス700は、クライアント-サーバシステムを使用して実行され、プロセス600および/またはプロセス700のブロックは、サーバと1つ以上のクライアントデバイスとの間で任意の方法で分割される。いくつかの例では、プロセス600および/またはプロセス700は、1つのクライアントデバイスのみまたは複数のクライアントデバイスのみを使用して実行される。プロセス600および/または700において、いくつかのブロックは、任意選択的に組み合わされ、いくつかのブロックの順序は、任意選択的に変更され、いくつかのブロックは、任意選択的に省略される。いくつかの例では、プロセス600および/またはプロセス700と組み合わせて追加の工程を実行することができる。したがって、示されている(および以下により詳細に説明されている)動作は、本質的に例示的なものであり、したがって、限定的であると見なされるべきではない。
【0183】
グリッド表現
図7のブロック702において、例示的なシステム(例えば、1つ以上の電子デバイスを備える)は、第1軸および第2軸に従って配置された複数のセルを含むゲノムデータのグリッド表現(ヒートマップ表現など)を受信し、第1軸は複数の異なるゲノム(例えば、非哺乳動物ゲノム)に対応し、第2軸はクエリ(または参照)ゲノム中の遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する複数のクエリ遺伝子に対応し、推定上の埋め込まれた遺伝子は複数のクエリ遺伝子のうちの1つである。グリッド表現中の各セルは、以下に基づく値を有する:(i)それぞれのクエリ遺伝子のオルソログ(すなわち、セルに対応するクエリ遺伝子)がそれぞれのゲノム(すなわち、セルに対応するゲノム)に存在するか、または存在しないか、(ii)それぞれのクエリ遺伝子に対するオルソログの配列類似性、および(iii)それぞれのクエリ遺伝子のオルソログが、それぞれのゲノム中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログと共局在するかどうか。
【0184】
本明細書に記載のグリッド表現は、当業者に公知の様々な形態のいずれかをとることができる。例えば、グリッド表現は、第1軸および第2軸に従って配置され、データ行列内のセルのそれぞれについて本明細書に記載の値を有する2次元データ行列(例えば、テーブルまたはアレイ)などのデータ行列であってもよい。いくつかの例では、グリッド表現は、データの1つ以上の行列(例えば、テーブル)を含む。例えば、グリッド表現中のセルの値(すなわち、(i)それぞれのクエリ遺伝子のオルソログ(すなわち、セルに対応するクエリ遺伝子)がそれぞれのゲノム(すなわち、セルに対応するゲノム)に存在するか、または存在しないか、(ii)それぞれのクエリ遺伝子に対するオルソログの配列類似性、および(iii)それぞれのクエリ遺伝子のオルソログが、それぞれのゲノム中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログと共局在するかどうか)の各セット、またはそれらの組み合わせは、別個のテーブルに格納され、本明細書に記載の機械学習ベースの方法の入力として使用され得る。いくつかの例では、グリッド表現は、データの視覚化を容易にする、基礎となるデータ行列の物理的表現、例えばヒートマップであってもよい。
【0185】
クエリ(または参照)ゲノム中の各クエリ遺伝子に関して、任意の所与のゲノム(例えば、標的ゲノム)中のオルソログは、クエリ遺伝子のコード配列もしくはクエリ遺伝子によってコードされるタンパク質配列に基づいて、または当技術分野で公知の方法を使用して系統関係に基づいて同定され得る。例えば、所与のゲノム中のクエリ遺伝子のオルソログは、クエリ遺伝子に対して最も高い配列類似性を有するか、または配列類似性が所定の閾値を超えるタンパク質をコードする所与のゲノム中の遺伝子であり得る。配列類似性は、配列同一性パーセント、配列相同性パーセント、ビットスコア、およびe値を含む、当業者に公知の様々なパラメータのいずれかによって定量することができる。所定の閾値は、例えば、少なくとも約20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%またはそれより高いいずれか1つの配列同一性パーセントまたは配列相同性パーセントであり得る。
【0186】
いくつかの例では、所与のゲノム中のクエリ遺伝子のオルソログは、所与のゲノム中のクエリ遺伝子の双方向ベストヒット(BBH)であり得る。BBHを同定する方法は、例えばMoreno-Hagelsieb G、Latimer,K.、Bioinformatics.2008年2月1日;24巻(3号):319~24頁に記載されている。例えば、所与のゲノム中のクエリ遺伝子のBBHを同定するために、所与のゲノムは、クエリ遺伝子によってコードされるタンパク質と最も高い配列類似性を有するタンパク質をコードする遺伝子(「推定上のBBH」)について最初に検索される。この検索に続いて、クエリゲノム中で同定された推定上のBBHと最も高い配列類似性を有するタンパク質をコードする遺伝子についてクエリゲノムが検索される、相互検索が行われる。相互検索で同定された遺伝子が元のクエリ遺伝子である場合、推定上のBBHは真のBBHである。あるいは、所与のゲノム中のクエリ遺伝子のオルソログは、例えば、Wall DP、Deluca T、Methods Mol Biol.2007年、396巻:95~110頁に説明されているような相互の最小距離法を使用して同定され得る。
【0187】
クエリ(または参照)ゲノム中の推定上の埋め込まれた遺伝子を含むクエリ遺伝子は、遺伝子クラスター、例えばBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する。一方の遺伝子が他方の指定された距離または近接ゾーン内にある場合、2つの遺伝子は共局在すると見なされ得る。いくつかの例では、2つの遺伝子間の距離は、例えば、2つの遺伝子のゲノム座標間の最短距離と考えることができる。例えば、遺伝子Aが+鎖上に存在し、位置1~100の範囲の配列を含み、遺伝子Bが-鎖上に存在し、位置300~200の範囲の配列(すなわち、位置300は、-鎖上のその位置に起因する遺伝子配列Bの開始点である)を含む場合、2つの遺伝子間の距離は200-100=100bpである。いくつかの例では、2つの遺伝子間の距離は、2つの遺伝子のゲノム座標間の最も長い距離と考えることができる。いくつかの例では、2つの遺伝子間の距離は、2つの遺伝子の中点のゲノム座標間の距離と考えることができる。推定上の埋め込まれた遺伝子が標的ゲノムのBGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)に対して指定された近接ゾーン内にある場合、標的ゲノム中の推定上の埋め込まれた遺伝子は、標的ゲノム中のBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する。いくつかの例では、近接ゾーンは、BGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)の約1~100kb、例えば、約1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、または100kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子クラスター(例えば、BGC)中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)の約1~10kb、例えば1、2、3、4、5、6、7、8、9または10kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の5kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の10kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の15kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の20kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の25kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の30kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の35kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の40kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の45kb以下の上流または下流である。いくつかの例では、近接ゾーンは、遺伝子の50kb以下の上流または下流である。
【0188】
推定上のBGCは、例えば、生合成遺伝子と非生合成遺伝子の両方を含み、偽遺伝子(例えば、機能的遺伝子に類似するDNAの非機能的セグメント)をさらに含み得る。BGCの生合成ドメインのプロファイル隠れマルコフモデル(pHMM)(すなわち、対応するタンパク質または核酸配列についての多重配列アラインメントの位置依存性スコアリングに基づいて生合成ドメインの生物学的多様性を捕捉する確率モデル)のキュレートされたライブラリは当技術分野で公知であり、ゲノム中でクラスタリングされた生合成遺伝子を同定するために使用することができる。アンカー遺伝子は、BGCに関連するシグネチャー遺伝子のいずれか1つであり得る。例えば、アンカー遺伝子は、BGC中の最大生合成遺伝子であるBGC中のコアシンターゼ遺伝子であり得るか、またはアンカー遺伝子は、クエリ遺伝子に最も近いコアシンターゼ遺伝子であり得る。あるいは、アンカー遺伝子は、BGCに関連することが知られている非生合成遺伝子、例えば、BGCによって産生される二次代謝産物のトランスポーターをコードする遺伝子であり得る。いくつかの実施形態では、推定上のBGC中の複数の遺伝子は、アンカー遺伝子(例えば、コアシンターゼ遺伝子)の上流および下流に所定の長さの窓を延長することによって同定され得る。いくつかの実施形態では、所与のゲノムの推定上のBGC中の複数の遺伝子は、antiSMASHなどのバイオインフォマティクス法を使用して同定することができる。
【0189】
例えば、グリッド表現は、ゲノムQ~Qに対応する第1軸(例えば、Y軸)と、遺伝子G~Gに対応する第2軸(例えば、X軸)とを有することができる。ゲノムQ(1≦i≦n)および遺伝子Gj(1≦i≦n)に対応するセルは、以下に従って第1の色、第2の色および第3の色から選択される値および色を有する。
(i)QがGにBBHを有さない場合、色は第1の色であり、値は0である、または
(ii)QがG中にBBHを有する場合、値は、Q中のGのBBHに対するGの配列同一性パーセンテージに基づき、
(ii-1)G中のBBHがQ中のコアシンターゼ遺伝子のBBHと共局在する場合、色は第2の色であり、または
(ii-2)G中のBBHがQ中のコアシンターゼ遺伝子のBBHと共局在していない場合、色は第3の色である。
【0190】
グリッド表現は、視覚化および手動注釈付けを支援するために階層的にクラスタリングされてもよい。例えば、グリッド表現は、ゲノム間のペアワイズ配列同一性もしくは相同性、ゲノムの系統発生、またはグリッド表現中のすべてのクエリ遺伝子に対応するオルソログの存在もしくは非存在に基づいてクラスタリングされ得る。いくつかの例では、グリッド表現(例えば、ヒートマップ)の第1軸は、グリッド表現に表された複数のゲノムの系統樹に従って編成される。
【0191】
いくつかの例では、推定上の埋め込まれた遺伝子は、目的の哺乳動物タンパク質のホモログ、例えば目的のヒトタンパク質のホモログをコードする推定上の埋め込まれた標的遺伝子(pETaG)である。いくつかの例では、pETaGは発現される哺乳動物核酸配列と相同である。いくつかの例では、哺乳動物核酸配列は、発現される哺乳動物核酸配列である。いくつかの例では、哺乳動物核酸配列は哺乳動物遺伝子である。いくつかの例では、哺乳動物核酸配列は発現される哺乳動物遺伝子である。いくつかの例では、哺乳動物核酸はヒト核酸配列である。いくつかの例では、ヒト核酸配列は、発現されるヒト核酸配列である。いくつかの例では、ヒト核酸配列はヒト遺伝子である。いくつかの例では、ヒト核酸配列は発現されるヒト遺伝子である。
【0192】
ゲノムヒートマップの一例を図8A-1~図8A-3に示す。この実施例は、アスタリスク(*)でマークされたゲノム中の、antiSMASHによって同定されたBGC中のpETaGのヒートマップを示す。X軸に沿った各列は、アスタリスク(*)でマークされたクエリ(または参照)ゲノム中で同定されたBGC中の、クエリ遺伝子によってコードされるタンパク質(「タンパク質X」)を表す。いくつかの例では、BGCはantiSMASHによって同定される。いくつかの例では、BGC中の遺伝子は、BGCのコアシンターゼ遺伝子から20kbの近接ゾーン内(すなわち、コアシンターゼ遺伝子の±20kb以内)にある。pETaGおよびコアシンターゼ遺伝子に対応する列を矢印で示す。Y軸に沿った各行は、ゲノムデータベースから選択された独自のゲノム(「ゲノムY」)を表す。ゲノムの半分は、コアシンターゼ遺伝子のBBHを含有し、推定上のBGC中の遺伝子を同定する目的で陽性ゲノムと呼ばれる。ゲノムの半分は、コアシンターゼ遺伝子のBBHを含有せず、推定上のBGC中の遺伝子を同定する目的で陰性ゲノムと命名される。各セルは、それぞれのクエリ遺伝子のBBHの存在または非存在、およびそれぞれのクエリ遺伝子に対するBBHの配列同一性パーセンテージ(セル内の数)に従って着色または陰影が付けられている。例えば、ゲノムY中にタンパク質XのBBHが存在しない場合、セル(X、Y)はブランクであり、ゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスターにある場合、セル(X、Y)は例えば青色もしくは陽性であり、またはゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスター中にない場合、セル(X、Y)は例えば赤色もしくは陰性である。セル(X、Y)の赤色または青色(またはグレースケールシェーディング)の強度は、タンパク質Xに対するゲノムY中のタンパク質XのBBHの配列同一性パーセンテージに基づく。ヒートマップは、ゲノム間のペアワイズ配列同一性に基づいて階層的にクラスタリングされる。
【0193】
グリッド表現に示されるゲノムはそれぞれ、アセンブルされたゲノム、またはゲノム配列決定から得られた複数のゲノム断片に対応し得る。いくつかの例では、ゲノムは、本明細書中に記載される方法のいずれか1つを使用する分析の前に、antiSMASHなどのバイオインフォマティクスツールを使用して注釈付けされる。例えば、すべての推定上の生合成遺伝子クラスターが同定され、注釈付けされるように、ゲノムのデータベースを構築することができる。例えば、全ゲノムの代わりに推定上のBGCを含有するゲノム断片が、本明細書中に記載される方法の1つ以上の工程において問い合わせされ得る。例えば、遺伝子(例えば、クエリ遺伝子のオルソログ)とアンカー遺伝子(例えば、コアシンターゼ遺伝子)との共局在は、ゲノム中の推定上のBGC注釈付けに基づいて決定することができる。
【0194】
本明細書に記載の方法は、遺伝子クラスター、例えばBGCを含有する任意のゲノムに適している。細菌ゲノム、植物ゲノム、および真菌ゲノムは、生合成遺伝子クラスターをコードすることが知られている。いくつかの実施形態では、クエリゲノムおよびグリッド表現を生成するために使用される複数の問い合わせされたゲノムは、同じ界に属する。いくつかの実施形態では、クエリ(または参照)ゲノムおよびグリッド表現を生成するために使用される複数の問い合わせされた(または標的)ゲノムは、異なる界に属する。適切なゲノムには、古細菌、原生動物、クロミスタ(例えば、褐藻類、珪藻類、クリプト藻類など)、植物界(例えば、緑藻類および植物)、真菌、および動物界のゲノムが含まれるが、これらに限定されない。いくつかの実施形態では、クエリゲノムおよび複数の問い合わせされたゲノムは、異なる真菌株のゲノムなどの真菌ゲノムである。いくつかの実施形態では、クエリゲノムおよび複数の問い合わせされたゲノムは、異なる細菌株のゲノムなどの細菌ゲノムである。いくつかの実施形態では、クエリゲノムおよび複数の問い合わせされたゲノムは、異なる植物株のゲノムなどの植物ゲノムである。いかなる理論または仮説にも束縛されることを望むものではないが、真菌ゲノムは、細菌ゲノムまたは植物ゲノムよりも哺乳動物ゲノムに系統発生的に関係する真核生物ゲノムである。したがって、真菌ゲノムは、ETaGを保持するBGCによって産生される二次代謝産物についてのヒト標的遺伝子に対応するETaGの同定に好ましい場合がある。
【0195】
グリッド表現を構築するためには少なくとも2つのゲノムが必要である。いくつかの例では、グリッド表現の第1軸は、少なくとも約10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250またはそれ以上のゲノムのいずれか1つに対応する。いくつかの例では、グリッド表現の第1軸は少なくとも20のゲノムに対応する。いくつかの例では、グリッド表現の第1軸は約50のゲノムに対応する。多数のゲノムがより多くの比較ゲノミクス情報を提供し得るが、それはまた、大量の計算能力および時間を必要とする。したがって、それらの配列類似性および/または系統関係に関して互いに多様なゲノムの代表的なセットをサンプリングして、方法の性能(例えば、予測の精度)と計算リソースとの間のバランスをとるようにグリッド表現を生成することが望ましい場合がある。
【0196】
グリッド表現に示されるゲノムは、「陽性ゲノム」および「陰性ゲノム」を含み得る。陽性ゲノムは、クエリ(または参照)ゲノム中にコアシンターゼ遺伝子などのアンカー遺伝子のオルソログを有するゲノムである。陰性ゲノムは、クエリ(または参照)ゲノム中にコアシンターゼ遺伝子などのアンカー遺伝子のオルソログを有しないゲノムである。いくつかの例では、陽性ゲノムおよび陰性ゲノムは、ゲノムのデータベースから選択される。いくつかの例では、グリッド表現を構築するために使用される複数のゲノムは、それぞれアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有する複数の陽性ゲノムと、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有しない複数の陰性ゲノムとを含む。いくつかの例では、陽性ゲノムは、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有するゲノムを同定することによってゲノムデータベースから選択され、陰性ゲノムは、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)のないゲノムを同定することによってゲノムデータベースから選択される。陰性ゲノムは、選択された陽性ゲノムに系統発生的に隣接していてもよい。いくつかの実施形態では、陽性ゲノムの数および陰性ゲノムの数は互いに等しい。
【0197】
陽性ゲノムおよび陰性ゲノムは、多数のゲノムを有するデータベースから選択され得る。例えば、データベースは、少なくとも2、10、100、500、1000、5000、10000、15000、20000、25000、30000、35000、40000、45000、50000、100000、200000、500000、1000000、または1000000を超えるゲノムを含有し得る。大きなゲノムデータベースからの陽性ゲノムおよび陰性ゲノムの選択は、データベースからの陽性ゲノムおよび陰性ゲノムを含む多様なゲノムのサンプリングを可能にするために、ゲノムのクラスタリングを必要とし得る。例えば、いくつかの例では、データベースゲノムは、ゲノム中の1つ以上の単一コピー遺伝子の配列類似性、またはアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログの配列類似性、またはゲノム中の推定上の埋め込まれた遺伝子(例えば、pETaG)に従ってクラスタリングされ得る。クラスタリングは、教師なしクラスタリング方法を用いて行われてもよい。教師なしクラスタリング方法は、例えば、マルコフクラスターアルゴリズム(MCL)、制限された近隣検索クラスター(Restricted Neighborhood Search Cluster)(RNSC)アルゴリズム、アフィニティー伝搬クラスタリングアルゴリズム、スペクトルクラスタリングアルゴリズム、k平均クラスタリングアルゴリズム、または当該技術分野で公知の任意の他の方法の使用を含み得る。あるいは、クラスタリングは、教師ありk平均クラスタリングまたは半教師ありスペクトルクラスタリングなどの、当技術分野で公知の教師ありクラスタリング方法の使用を含んでもよい。クラスタリングの閾値は、クラスターの数に対する所定の目標によって決定されてもよい。例えば、クラスタリングのための閾値は、ゲノム群間の所定の配列類似性レベルであり得、例えば、異なるゲノム群間の配列類似性が、約99.5%、99%、98%、95%、90%、85%、80%、75%、70%、65%、60%、50%、40%、30%、またはそれ未満のいずれか1つ以下であることを必要とする。いくつかの実施形態では、陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログのペアワイズ配列類似性(例えば、配列同一性)パーセントが、約99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、70%、60%、50%、40%、30%、またはそれ未満のいずれか1つを超える陽性ゲノムを選択することが望ましい場合がある。いくつかの実施形態では、陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログのペアワイズ配列類似性(例えば、配列同一性)パーセントが、約99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、70%、60%、50%、40%、30%、またはそれ未満のいずれか1つを超える陰性ゲノムを選択することが望ましい場合がある。各クラスターからの代表的なゲノムは、本明細書に記載の分析工程で使用するためにさらに選択され得る。いくつかの実施形態では、陰性ゲノムは、陽性ゲノムに対して最も高い配列類似性を有するが、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログを欠くゲノムを同定することによって、データベースから選択される。
【0198】
例えば、グリッド表現は、m個のゲノムのデータベースから選択された陽性ゲノムの数nに基づいて構築され得る。第1の工程として、データベース中のm個のゲノムから、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有する陽性ゲノムの数mと、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有しない陰性ゲノムの数(m-m)とを特定する。mがnより大きい状況では、m個の陽性ゲノムは、陽性ゲノム間の1つ以上の単一コピー遺伝子の平均配列類似性に基づくMCLを使用して(例えば、BUSCOツールを使用して同定される。busco.ezlab.orgを参照されたい)、n個のクラスターにクラスタリングされる。次いで、n個のクラスターのそれぞれから1つの陽性ゲノムを選択して、グリッド表現を構築するためのn個の陽性ゲノムを提供する。n個の陰性ゲノムのそれぞれは、(m-m)個の陰性ゲノムの中で選択された陽性ゲノムに最も類似するゲノム(例えば、最も高い配列類似性を有するゲノム、または最も短い系統発生的距離を有するゲノム)を同定することによって選択される。このゲノム選択方法は、n個の陽性ゲノムおよびn個の陰性ゲノムから構築されたグリッド表現をもたらす。
【0199】
がnよりも小さい状況では、合計2n個のゲノムを有するグリッド表現を構築するために、陽性ゲノムよりも多くの陰性ゲノムが選択され得る。この場合、(m-m)個の陰性ゲノムは(2n-m)個のクラスターにクラスタリングされ得、各クラスターから1つの陰性ゲノムが選択される。あるいは、m個の陽性ゲノムのそれぞれについて、陽性ゲノムと密接に関係する2つ以上の陰性ゲノムが、陽性ゲノムに対するそれらの配列類似性または系統発生的距離に基づいて選択され、その結果、合計2n-m個の陰性ゲノムが選択される。
【0200】
グリッド表現は、例えば、図6に示す方法を使用して生成することができる。
【0201】
第1の任意選択の工程として、下流の計算プロセスのためにリソースファイルを準備することができる。例示的なリソースファイルには、ペアワイズゲノム比較ファイル、標的ゲノム(すなわち、分析のために選択されたゲノム)からの関連タンパク質または遺伝子を含有するファイル(例えば、FASTAファイル)、および任意選択的に、タンパク質または遺伝子のオルソロガス群のクラスター(COG)を含有するリソースファイルが含まれる。
【0202】
ペアワイズゲノム比較ファイルは、データベース内のゲノムのすべての対の間の相同性関係を示すために作成されたファイルである。ゲノム類似性は、ゲノム間のペアワイズゲノム配列類似性またはペアワイズ系統発生的距離のいずれかに基づいて決定することができる。
【0203】
いくつかの例では、ゲノム間のペアワイズ同一性または類似性は、全ゲノム配列を比較することによって、またはタンパク質もしくは遺伝子のサブセットの配列を比較することによって決定することができる。例えば、全ゲノム配列同一性を決定するために、全ゲノムを整列させることができ、アラインメント間のペアワイズ同一性が計算される。あるいは、ペアワイズゲノム同一性は、ゲノムの対の間で共有される単一コピータンパク質(すなわち、アミノ酸配列)または遺伝子(すなわち、ヌクレオチド配列)を比較することによって算出することができる。いくつかの好ましい実施形態では、単一コピータンパク質または遺伝子は、重複または断片化されたタンパク質として使用され、ゲノム相同性の誤った推定値を提供し得る。ゲノム中の単一コピータンパク質または遺伝子は、BUSCO(doi.org/10.1093/molbev/msab199)を使用して注釈付けすることができ、または特定の既知の単一コピータンパク質または遺伝子を使用してゲノム配列類似性を決定することができる。いくつかの例では、単一コピータンパク質は、OrthoMCL、OrthoFinder、またはPanXなどの既知のバイオインフォマティクスツールを使用して同定することができる。ゲノム間で共有されるサブセットまたはすべての単一コピータンパク質または遺伝子は、個別に整列され、トリミングされ、連結されてスーパーアラインメント(super-alignment)を形成する。ペアワイズ同一性は、スーパーアラインメント中の同一の残基の数である。あるいは、類似性スコアは、タンパク質配列が配列類似性を決定するために使用される場合、BLOSUMおよびPAMなどの代替行列に基づいて算出することができる。
【0204】
他の例では、ゲノム類似性は、ゲノム間の系統発生的距離に基づいて決定される。系統発生的距離を決定するために、単一コピータンパク質(すなわち、アミノ酸配列)または遺伝子(すなわち、ヌクレオチド配列)のセットを、MAFFT、MUSCLEまたはClustalWなどの任意のアラインメントソフトウェアを使用して個々に整列させ、trimAI、GBlocksまたはClipKITなどの任意の配列トリミングソフトウェアを使用してトリミングし、連結してスーパーアラインメントを作成することができる。スーパーアラインメントは、ゲノムの系統樹を提供するために、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、またはPAUPなどの任意の系統樹構築ソフトウェアによって使用することができる。木は、最尤アルゴリズム、最節約アルゴリズム、近隣結合アルゴリズム、距離行列アルゴリズム、またはベイズ推定アルゴリズムなどの異なるアルゴリズムを使用して構築することができる。あるいは、スーパーアラインメント手法の代わりに、遺伝子合祖系統発生モデル(gene-coalescent phylogenetic model)手法を使用して系統発生を再構築することができる。
【0205】
いくつかの例では、標的ゲノムからのすべてのタンパク質または遺伝子配列を含有するFASTAファイルが入力リソースファイルとして作成される。あるいは、バイオインフォマティクス予測に基づく推定上の遺伝子クラスター(例えば、推定上のBGC)中のタンパク質などのより小さなサブセットのタンパク質を、すべてのゲノムからのすべてのタンパク質の代わりに入力として供給することができる。推定上のBGCは、例えば、antiSMASH、SMURF、TOUCAN、deepBGCなどの公的に利用可能なBGC予測ツールを使用して、またはカスタムBGC予測ツールを使用して予測することができる。FASTAファイルは、配列類似性(例えば、相同性)がタンパク質配列または核酸配列のいずれかを使用して決定され得るので、タンパク質配列または核酸配列のいずれかを含有し得る。
【0206】
遺伝子クラスター(例えば、BGC)タンパク質または遺伝子のオルソロガス群のクラスター(COG)は、任意選択のリソースファイルとして提供され得る。同じCOGのメンバーは、オルソロガス機能を有すると推定される。COGは、USEARCH、CD-HITおよびMMseqsなどのタンパク質クラスタリングツールを使用して作成することができる。あるいは、BLAST、ggsearch、またはDiamondを用いて配列(例えば、アミノ酸またはヌクレオチド)アラインメント検索を行った後、MCLまたはSiLiXなどのクラスタリングアルゴリズムを使用してCOGを生成することができる。COGは、カスタム開発スクリプトを使用して、またはOrthoMCL、OrthoFinder、またはPanXなどの既知のバイオインフォマティクスツールを使用して同定することもできる。COGは、遺伝子ファミリーまたはタンパク質ファミリーとして定義することもできる。COGファイルは、例えば、テーブルの各行中、同じCOGからのタンパク質または遺伝子IDを含有し得る。
【0207】
図6のブロック602において、グリッド表現を生成するための方法は、複数のゲノムからのクエリ(または参照)ゲノム中の推定上の埋め込まれた遺伝子を含む推定上の遺伝子クラスター(例えば、推定上の生合成遺伝子クラスター(BGC))を同定することを含み、推定上の遺伝子クラスターは、遺伝子クラスター(例えば、BGC)に関連することが知られているアンカー遺伝子(例えば、コアシンターゼ遺伝子)を含み、アンカー遺伝子は、推定上の埋め込まれた遺伝子と共局在する。いくつかの例では、本方法は、推定上の遺伝子クラスター中の最も長い生合成遺伝子または構造遺伝子をアンカー遺伝子として同定することを含む。リソースファイルは、ブロック602の工程を実行するために使用することができる。この工程は、クエリゲノム中の推定上の遺伝子クラスター(例えば、BGC)と共局在し、推定上の埋め込まれた遺伝子を含む複数のクエリ遺伝子に対応するグリッド表現の第1軸、例えばヒートマップのX軸を確立する。共局在は、推定上のBGC注釈付けに基づいて、または2つの遺伝子、例えば約50kb以下、または約20kb以下の指定された近接ゾーン内の2つの遺伝子の間の距離に基づいて決定され得る。
【0208】
例えば、ヒートマップのX軸は、目的の単一のタンパク質もしくは遺伝子ID(例えば、pETaGに対応する遺伝子ID)に基づいて、または入力としての目的の複数のタンパク質もしくは遺伝子IDに基づいて確立することができる。複数のタンパク質または遺伝子IDが入力された場合、複数のゲノムにわたるこれらの遺伝子(隣接遺伝子と共に)の互いに対する相関および共局在が決定される。例えば、目的の複数のタンパク質または遺伝子IDは、クエリ(または参照)ゲノム中のETaGおよびコアシンターゼ遺伝子に対応し得る。単一のタンパク質または遺伝子IDが入力として使用される場合、それを取り囲む隣接遺伝子が複数のゲノムにわたって共局在するかどうかを決定することができる。X軸は、目的のタンパク質または遺伝子(例えば、pETaG)の隣接遺伝子を含有する検索領域に対応する。検索領域は、予測されるBGCによって、またはゲノム上の座標位置に基づいて定義することができる。推定上のBGCは、antiSMASH、SMURF(dx.doi.org/10.1016/j.fgb.2010.06.003)、TOUCAN(doi.org/10.1093/nargab/lqaa098)、deepBGC(doi.org/10.1093/nar/gkz654)、または他のカスタム検索アルゴリズムのようなツールを使用して予測することができる。
【0209】
事前定義された領域が入力として使用される場合、指定された入力タンパク質または対応する遺伝子IDがその領域中に存在すると仮定される。あるいは、例えば塩基対(bp)の単位で指定されたカスタム隣接距離(すなわち、近接ゾーン距離)を使用して、指定されたタンパク質または遺伝子IDのいずれかの側に隣接する上流および下流の一定数のbpを含むゲノムウィンドウ領域を同定することができる。定義された領域中に位置するすべてのタンパク質(または遺伝子)は、X軸タンパク質(または遺伝子)として割り当てられる。領域中のタンパク質(または遺伝子)はラベル付けされる。入力タンパク質IDが単一タンパク質である場合、入力ラベルはタンパク質IDのラベルとして使用される。例えば、コアシンターゼ遺伝子を入力し、コアシンターゼと共局在する遺伝子を決定することができる。入力タンパク質IDが単一タンパク質であり、(IDが入力されなかった)別の遺伝子とのその相関を決定することが望ましい場合、別の指定された入力を使用して、そのようにラベル付けする領域中の遺伝子を同定することができる。例えば、ETaGに対応する目的の遺伝子が入力として使用され、それがコアシンターゼと相関するかどうかを決定することが所望される場合、コアシンターゼの検索を同定し、同定されたタンパク質をそのようにラベル付けすることができる。タンパク質は、遺伝子注釈付けに基づいて検索することができる。要求された検索基準に一致する領域中に複数の標的タンパク質がある場合、いくつかの選択肢を利用することができる。例えば、標的タンパク質ごとのヒートマップを作成することができる。標的タンパク質は、入力タンパク質IDに対する標的タンパク質の長さまたは近接度に基づいて選択することができる。複数のタンパク質または遺伝子IDが入力として使用される場合、タンパク質IDはそれらの入力ラベルに基づいてラベル付けされる。例えば、一方の入力タンパク質をETaGとしてラベル付けし、他方の入力タンパク質をコアシンターゼとしてラベル付けすることができる。
【0210】
図6のブロック604において、本方法は、コアシンターゼ遺伝子のオルソログを含む複数の陽性ゲノムおよびコアシンターゼ遺伝子のオルソログを含まない複数の陰性ゲノムを得ることを含み、複数の陰性ゲノムは、複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される。リソースファイルは、ブロック404の工程を実行するために使用することができる。この工程は、複数の陽性ゲノムおよび複数の陰性ゲノムを含む標的ゲノムに対応するグリッド表現の第2軸、例えばヒートマップのY軸を確立する。
【0211】
例えば、ヒートマップのY軸を確立するために、以下のように陽性および陰性のゲノムIDを得ることができる。陽性ゲノムIDを確立するために、コアシンターゼIDのタンパク質ホモログは、ゲノムのセットに対してggsearch、BLASTpまたはDiamond-blastpなどのタンパク質配列アラインメントツールを実行することによって検索される。あるいは、遺伝子(すなわち、ヌクレオチド配列)を使用して、ggsearchまたはBLASTnなどのツールを使用して、ゲノムのセット中のコアシンターゼの遺伝子のホモログを見出すことができる。最小配列同一性および最大配列同一性の指定された範囲内に入るタンパク質IDが同定される。クエリコアシンターゼに対して最も高い配列同一性を有するものから指定された数のタンパク質ホモログを選択することができる。コアシンターゼホモログは、指定されたカットオフを有するタンパク質クラスタリングツールを使用することによって作成されたタンパク質クラスターから代表を選択することによって、脱複製することができる。あるいは、BUSCOペアワイズカットオフ、系統発生的距離カットオフ、または分類学的分類を使用して、脱複製を行うこともできる。系統樹がゲノム相同性リソースファイルとして使用される場合、タンパク質ホモログの存在基準を満たす多様な陽性ゲノムセットを選択するためにトラバースすることができる。あるいは、陽性ゲノムは、ペアワイズBUSCO同一性カットオフ、系統発生的距離もしくはクレード、または分類学的分類(例えば、タンパク質ホモログを有するゲノムからの種あたり1つの単離物または属もしくはファミリーあたり1つの種)に基づいて選択することができる。これらの方法は、多様なゲノムセットの選択を確実にするのを助けるために利用することができ、これは、共局在遺伝子を同定する際により高い精度を提供し、同じ種の複数のゲノムとの結果の混同を回避し、結果を共局在に向けてバイアスし、偽陽性率を増加させる可能性がある。選択されたコアシンターゼホモログからの各ゲノムIDを得て、陽性ゲノムとして割り当てる。
【0212】
陰性ゲノムIDを得るために、ペアワイズゲノム相同性ファイルを入力として使用して、各陽性ゲノムに対して最も高い配列同一性または最も近い系統発生的距離を有するゲノムIDを選択することができる。ゲノムが指定された配列同一性の範囲内のコアシンターゼホモログを含有する場合、そのゲノムは候補のリストから削除され、検索は次の候補ゲノムにスキップする。相同性リソースファイルとして系統樹が使用される場合、各陽性ゲノムに最も近い陰性ゲノムを見出すために木をトラバースすることができる。陽性および陰性のゲノムIDを組み合わせてY軸ゲノムIDとして割り当てる。
【0213】
任意選択的に、Y軸ゲノムに関係するすべてのタンパク質(またはヌクレオチド)配列および遺伝子注釈付けファイル(GFF、GTF、GenBank、または同様のもの)を含有するファイルが得られる。検索領域を定義するために遺伝子クラスター(例えば、BGC)予測を使用する場合、遺伝子クラスター(例えば、BGC)ID、クラスター数、および遺伝子クラスター(例えば、BGC)中に位置するタンパク質(または遺伝子)IDを含むY軸ゲノムの遺伝子クラスター(例えば、BGC)情報がリソースファイルとして格納される。
【0214】
いくつかの例では、Y軸のすべてのゲノム間の距離を視覚的に示すために、連結行列(クラドグラムとしても知られる)が構築される。連結行列は、ゲノム相同性リソースファイル(例えば、ペアワイズ同一性、類似性、または系統発生的距離)からのY軸ゲノムのペアワイズ相同性行列を使用して作成することができる。階層クラスタリング方法をペアワイズ相同性行列と共に使用して、連結行列を作成することができる。あるいは、BBHの存在/非存在またはX軸タンパク質ホモログの順方向アラインメント結果を階層クラスタリング法と共に使用して、連結行列を作成することができる。あるいは、系統樹を使用することができる。系統樹は、タンパク質のセット(すなわち、アミノ酸配列)または転写物(すなわち、ヌクレオチド配列)のいずれかから作成することができる。
【0215】
図6のブロック606において、本方法は、第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することを含み、第1軸は、クエリ(または参照)ゲノム中の推定上の遺伝子クラスター(例えば、推定上のBGC)中のアンカー遺伝子と共局在する全てのタンパク質コード遺伝子(例えば、クエリ遺伝子)に対応し、第2軸は、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルは、(1)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在、(2)それぞれのタンパク質コード遺伝子に対するオルソログの配列類似性、(3)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうかに基づく。
【0216】
例えば、以下の工程を使用してヒートマップ行列を作成することができる。最初に、すべてのY軸ゲノムにおけるX軸タンパク質(または遺伝子)についての双方向ベストヒット(BBH)結果を得て、BBHテーブルを提供する。BBHは、どちらか一方が他のゲノム中のどの遺伝子に対してよりも互いに類似している、2つの異なるゲノムからのタンパク質(または遺伝子)の対として同定される。BBHは、所与のタンパク質(または遺伝子)の真のオルソログを同定するのに有用であり得、これは、重複事象を有した遺伝子(ETaGなど)の現在のオルソログを同定するのに特に有用である。BBHの同定は、順方向アラインメント工程および逆方向アラインメント工程を含む。順方向アラインメント工程では、指定されたカットオフを有する各Y軸ゲノムのタンパク質FASTAファイルに対するクエリとして各X軸タンパク質を使用して、配列アラインメントツールが実行される。ggsearch、BLASTpまたはDiamond-blastpなどの配列アラインメントツールを使用することができる。あるいは、遺伝子または転写物(すなわち、ヌクレオチド配列)を、ggsearchまたはBLASTnなどのツールを使用する順方向アラインメント工程のためのタンパク質配列の代わりに使用することができる。各アラインメントから最良のマッチのタンパク質(または遺伝子)IDは、X軸タンパク質(または遺伝子)を列とし、Y軸ゲノムをインデックスとしてテーブルに格納される。各アラインメントからの最良のマッチの配列同一性は、X軸タンパク質を列とし、Y軸ゲノムをインデックスとしてテーブルに格納される。逆方向アラインメント工程では、ggsearch、BLASTpまたはDiamond-blastpなどのタンパク質配列アラインメントツールを使用して逆方向アラインメントが実行される。順方向アラインメント工程からのベストヒットとして格納された各タンパク質は、クエリタンパク質(またはクエリ遺伝子)として使用される。タンパク質アラインメントを、Y軸ゲノムのタンパク質FASTAファイルに対して行う。あるいは、遺伝子または転写物(すなわち、ヌクレオチド配列)を、ggsearchまたはBLASTnなどのツールを使用する逆方向アラインメントのためのタンパク質配列の代わりに使用することができる。逆方向アラインメントからのベストヒットが順方向アラインメントで使用されるクエリタンパク質と同じである場合、X軸タンパク質(または遺伝子)およびその順方向アラインメントヒットはBBHであり、テーブル中のBBH値は真として定義される。逆方向アラインメントからのベストヒットが順方向アラインメントで使用されるクエリタンパク質と異なる場合、X軸タンパク質(または遺伝子)およびその順方向アラインメントヒットはBBHではなく、テーブル中のBBH値は偽として定義される。このバイナリデータは、X軸タンパク質を列として、Y軸ゲノムをインデックスとし、BBHテーブルに格納される。あるいは、完全なBBH結果の代わりに順方向アラインメント結果のみが使用される。
【0217】
また、共局在テーブルが作成される。例えば、BGC予測を使用して検索領域を定義する場合、クラスター数が取得され、各ゲノムのBGC情報を含有するテーブルからの各順方向アラインメントヒットのクラスター数が取得される。値は、X軸タンパク質を列とし、Y軸ゲノムをインデックスとしてテーブルに格納される。各順方向アラインメントヒットのクラスター数がゲノムのコアシンターゼホモログと同じである場合、順方向アラインメントヒットはコアシンターゼホモログと共局在し、共局在値は真として定義される。そうでなければ、順方向アラインメントヒットはコアシンターゼホモログと共局在せず、共局在値は偽として定義される。この共局在のバイナリ情報は、共局在テーブルに格納される。
【0218】
あるいは、カスタム隣接距離(すなわち、近接ゾーン距離)を使用して検索領域を定義する場合、ゲノム位置が取得され、各順方向アラインメントヒットのゲノム位置を含有するテーブルが作成される。足場IDと、各タンパク質の開始位置および終了位置の座標とが格納される。各順方向アラインメントヒットと対応するゲノムのコアシンターゼホモログとの間の共局在のバイナリ情報を含有する共局在テーブルが作成される。共局在値は、クエリタンパク質およびコアシンターゼホモログが同じ足場内の指定された距離(すなわち、近接ゾーン)内に位置する場合、真として定義される。
【0219】
ヒートマップのセルの値を保存する最終テーブルは、上記のようにBBHおよび共局在テーブルに基づいて作成される。以下の変換が適用される:BBH情報を含有するテーブルのバイナリデータから真を1に変換し、偽を0に変換する。そして、共局在情報を含有するテーブルのバイナリデータから真を1に、偽を-1に変換する。ヒートマップの各セルの値を計算するために、X軸タンパク質とY軸ゲノムとのすべての組み合わせの多重配列同一性、BBH情報、および共局在情報値を計算する。例えば、セルは、配列同一性(96.28)*BBH(1または0)*共局在(1または-1)の値を有し得る。BBHがない場合、セルの値は0になる。セルがコアシンターゼ遺伝子と共局在していない遺伝子に対応する場合、セル値はマイナスの配列同一性になる。順方向アラインメントヒットに基づくヒートマップの場合、各セルの値は、X軸タンパク質およびY軸ゲノムのすべての組み合わせの配列同一性と共局在情報値との積として計算される。ヒートマップは、最終テーブルおよび連結行列を使用してプロットされる。発散的色マップを使用して、-100から100までの値を視覚化することができる。Y軸は、連結行列の階層クラスタリングに基づいて並べ替えることができる。
【0220】
生成されたグリッド表現(例えば、ヒートマップ、またはデータ行列)および/または生成されたグリッド表現のサブセットを、LSTMまたはCNNなどの機械学習モデルに入力して、推定上の埋め込まれた遺伝子(例えば、pETaG)がBGCに関連する尤度を提供することができる。
【0221】
埋め込み性分類を実行するための機械学習モデル
図7のブロック704において、システムは、グリッド表現を機械学習モデルに入力し、機械学習モデルは、グリッド表現中の複数のセルの値に基づいて、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を決定するように訓練される。使用され得る機械学習モデルの非限定的な例には、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)または他のリカレントニューラルネットワーク(RNN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、LSTM、ビジョントランスフォーマーモデル、敵対的生成ネットワーク(GAN)、変分オートエンコーダ、潜在拡散モデルなどが含まれるが、これらに限定されない。
【0222】
尤度は、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する確率、または推定上の埋め込まれた遺伝子が複数の事前定義された尤度カテゴリの1つに入る確率であり得る。いくつかの例では、尤度は以下の4つのカテゴリのうちの1つに入り得る:(1)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度が高い(本明細書では「階層A+」とも呼ばれる)、(2)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば高い(本明細書では「階層1」とも呼ばれる)、(3)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば低い(本明細書では「階層2」とも呼ばれる)、および(4)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度が低い(本明細書では「階層3」とも呼ばれる)。階層A+ヒートマップは、明確に定義された遺伝子クラスター(例えば、BGC)境界を有し、推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)は、それらの境界内にある。例えば、図11A-1および図11A-2を参照されたい。階層1ヒートマップは、明確に定義されていない遺伝子クラスター(例えば、BGC)境界を有するが、推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)はアンカー遺伝子(例えば、コアシンターゼ遺伝子)と相関している。例えば、図11B-1および図11B-2を参照されたい。階層2ヒートマップは、遺伝子クラスター(例えば、BGC)境界を同定するのに不十分な情報を提供するか、または推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)とアンカー遺伝子(例えば、コアシンターゼ遺伝子)との間の相関の受け入れまたは拒絶を可能にする傾向がある。例えば、図11C-1および図11C-2を参照されたい。階層3ヒートマップは、(1)遺伝子クラスター(例えば、BGC)の境界が明確に定義されており、推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)が境界内にないため、または(2)推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)とアンカー遺伝子(例えば、コアシンターゼ遺伝子)との間に相関または共局在がないため、推定上の埋め込まれた遺伝子が偽陽性であることを示す。例えば、図11D-1および図11D-2を参照されたい。本方法は、これらの尤度カテゴリのそれぞれに関連付けられた確率を出力することができる。例えば、本方法は、4つのカテゴリのそれぞれに関連付けられた確率を提供することができ、4つの確率の和は100%に等しい。
【0223】
図7のブロック706において、システムは、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を機械学習モデルから取得する。
【0224】
図7のブロック708において、システムは、ディスプレイ上に、グリッド表現(例えば、ヒートマップ)および推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を表示する。
【0225】
図8A-1~図8A-3は、本開示の例による、計算されたヒートマップ内のpETaGの「埋め込み性」(すなわち、BGCとの関連)の度合いを表すヒートマップを示す。ヒートマップにおいて、推定上のBGCは、アスタリスク(*)でマークされたゲノム中、antiSMASHによって同定される。X軸に沿った各列は、アスタリスク(*)でマークされたクエリゲノム中で同定されたBGC中の、クエリ遺伝子によってコードされるタンパク質(「タンパク質X」)を表す。BGC中の遺伝子は、antiSMASHによって、またはBGCのコアシンターゼ遺伝子への近接度(例えば、20kb以内)に基づいて同定され得る。pETaGおよびコアシンターゼ遺伝子に対応する列を矢印で示す。Y軸に沿った各行は、ゲノムデータベースから選択された独自のゲノム(「ゲノムY」)を表す。ゲノムの半分はアンカー遺伝子のBBHを含有し、本明細書では「陽性ゲノム」と呼ばれる。ゲノムの半分はアンカー遺伝子のBBHを含有せず、本明細書では「陰性ゲノム」と呼ばれる。各セルは、それぞれのクエリ遺伝子のBBHの存在または非存在、およびそれぞれのクエリ遺伝子に対するBBHの配列同一性パーセンテージ(セル内の数)に従って着色または陰影が付けられている。例えば、ゲノムY中にタンパク質XのBBHが存在しない場合、セル(X、Y)はブランクであり、ゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスターにある場合、セル(X、Y)は例えば青色もしくは陽性であり、またはゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスター中にない場合、もしくはゲノムY中にコアシンターゼ遺伝子のBBHが存在しない場合、セル(X、Y)は例えば赤色もしくは陰性である。セル(X、Y)の赤色または青色(またはグレースケールシェーディング)の強度は、タンパク質Xに対するゲノムY中のタンパク質XのBBHの配列同一性パーセンテージに基づく。ヒートマップは、ゲノム間のペアワイズ配列同一性に基づいて階層的にクラスタリングされる。
【0226】
図8B-1および図8B-2ならびに図8C-1および図8C-2は、入力ヒートマップを4つの階層のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す:(1)推定上の埋め込まれた標的遺伝子(pETaG)が遺伝子クラスター(例えば、BGC)に関連する尤度が高い(「階層A+」)、(2)pETaGが遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば高い(「階層1」)、(3)pETaGが遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば低い(「階層2」)、および(4)pETaGが遺伝子クラスター(例えば、BGC)に関連する尤度が低い(「階層3」)。いくつかの実施形態では、ヒートマップおよび/またはその1つ以上のサブセクションは、LSTMの入力として使用されてもよい。
【0227】
図8B-1および図8B-2に示すように、ヒートマップの各列のセルの値は、それぞれが多数のゲノムにわたってクエリ遺伝子に対応する複数の入力アレイに順次化(sequentialize)され、複数の入力アレイのそれぞれはLSTMセルに入力される。各入力アレイはまた、2つのスカラーで表されるpETaGおよびコアシンターゼの位置情報を保持し、1および0は特定の遺伝子(pETaGまたはコアシンターゼ)の存在および非存在に対応する。複数のLSTMセルは出力階層を提供する。いくつかの例では、ヒートマップを計算した後、ヒートマップに含まれるデータのベクトル表現(例えば、1つ以上のパターン、1つ以上の色、pETaG位置などを示す値のテーブル)を1つ以上のニューラルネットワークに提供して、ヒートマップ内のpETaGの埋め込み性分類を実行することができる。例えば、いくつかの例では、1つ以上のニューラルネットワークは、例えば、長・短期記憶(LSTM)モデル、畳み込みニューラルネットワーク、または要素の配列として表されるゲノムデータまたは他のテキストベースのデータを処理するのに適し得る他のリカレントニューラルネットワーク(RNN)を含むことができる。例えば、一実施形態では、LSTMモデルは、ヒートマップデータ(例えば、1つ以上のパターン、1つ以上の色、pETaG位置などを示す値)の線形ベクトル表現を入力として受信し、埋め込み性分類(例えば、pETaGが遺伝子のクラスター中にどのように埋め込まれるかの確率値)を出力することができる。いくつかの例では、LSTMモデルは、pETaGを4つのクラスのうちの1つに分類することによって埋め込み性分類を実行する:(1)「真陽性」(例えば、pETaGがBGCに関連する尤度が高い(「階層A+」));(2)「有望」(例えば、pETaGがBGCに関連する尤度がどちらかといえば高い(「階層1」));(3)「不確定」(例えば、pETaGがBGCに関連する尤度がどちらかといえば低い(「階層2」));(4)「真陰性」(例えば、pETaGがBGCに関連する尤度が低い(「階層3」))。
【0228】
図8B-1および図8B-2ならびに図8C-1および図8C-2は、本開示の例による、ヒートマップデータ(例えば、1つ以上のパターン、1つ以上の色、pETaG位置などを示す値)の入力線形ベクトル表現に基づいて埋め込み性分類(例えば、pETaGが遺伝子のクラスター中にどのように埋め込まれるかの確率値)を出力するLSTMモデルの1つ以上の実行例を示す。例えば、いくつかの例では、図8B-1および図8B-2によって示されるように、LSTMモデルは、それぞれが例えばそれぞれのメモリセルを含む一連のメモリ階層を含むことができる。いくつかの例では、それぞれのメモリセルは、例えば、そのセル状態(例えば、Ct-1~C)に従って動作することができる。LSTMモデルは、ゲートと呼ばれる構造によって慎重に調節された、セル状態に情報を除去または追加する能力を含み得る。いくつかの例では、それぞれのメモリセルのゲートを、任意選択的に情報を通すために設けることができる。例えば、いくつかの例では、それぞれのメモリセルは、シグモイドニューラルネット層および点別の乗算演算を含むことができる。シグモイド層は、各構成要素のデータをどれだけ通過させるべきかを記述する「0」~「1」の間の数を出力する。例えば、一実施形態では、値「0」は「データを通過させない」を意味し、値「1」は「データを通過させる」を意味する。いくつかの例では、各それぞれのメモリセルは、例えば、セル状態を保護および制御するためにこれらのゲートを含むことができる。
【0229】
いくつかの例では、動作中に、LSTMモデルの各階層およびメモリセルは、ヒートマップデータのうちのどれがセル状態から破棄されるかを決定することによって開始することができる。例えば、いくつかの例では、決定は、忘却ゲート層と呼ばれるシグモイド層によって実行されてもよく、忘却ゲート層は、入力データを見て、セル状態の各数(例えば、Ct-1~C)について「0」~「1」の間の数を出力し、「1」はこのデータを完全に保持することを表し、「0」はこのデータを完全に破棄することを表す。次いで、LSTMモデルのそれぞれの階層およびメモリセルは、セル状態にどの新しい情報を格納するかを決定することができる。例えば、いくつかの例では、入力ゲート層と呼ばれるシグモイド層は、どの値を更新するかを決定し、tan h層は、状態に追加することができる新しい候補値のベクトルを作成する。
【0230】
次いで、LSTMモデルのそれぞれの階層およびメモリセルは、古いセル状態Ct-1を新しいセル状態Cに更新することができる。次いで、LSTMモデルは、LSTMモデルのそれぞれの階層およびメモリセルのそれぞれのセル状態に基づいて何を出力するかを決定することができる。例えば、いくつかの例では、シグモイド層は、セル状態のどの部分を出力するかを決定し、次にそのセル状態はtan h層を通過して、値を「-1」と「+1」との間に設定し、値にシグモイドゲートの出力を乗算する。
【0231】
本開示の例による、図9Aおよび図9Bの予測テーブルによってさらに示されるように、図8C-1および図8C-2は、上述したように4つのクラスのうちの1つへのpETaGの埋め込み性分類を表すことができるLSTMモデルの出力の例を示す:(1)「真陽性」(例えば、pETaGがBGCに関連する尤度が高い(「階層A+」))(2)「有望」(例えば、pETaGがBGCに関連する尤度がどちらかといえば高い(「階層1」))、(3)「不確定」(例えば、pETaGがBGCに関連する尤度がどちらかといえば低い(「階層2」));(4)「真陰性」(例えば、pETaGがBGCに関連する尤度が低い(「階層3」))。
【0232】
具体的には、図9Aは、「階層A+」、「階層1」、「階層2」、「階層3」の予測埋め込み性ベンチマーク値のテーブルを示す。同様に、図9Bは、陽性予測値(すなわち、精度)48.91%、陰性予測値99.49%、感度値91.82%、特異度値(すなわち、リコール)94.28%を含む、「階層A+」、「階層1」、「階層2」、および「階層3」の最終予測埋め込み性ベンチマーク値のテーブルを示す。図9Aのテーブルの値は、手動で注釈付けされた階層とLSTMモデルからの予測結果とを比較することから算出される。図9Bのテーブルでは、階層A+と階層1の結果が組み合わされ、階層2と階層3の結果が組み合わされている。感度は、真の予測される陽性を実際の陽性の合計で割ったものとして算出される。特異度は、真の予測される陰性を実際の陰性の合計で割ったものとして算出される。陽性予測値は、真の予測される陽性を予測される陽性の合計で割ったものとして算出される。陰性予測値は、真の予測される陰性を予測される陰性の合計で割ったものとして算出される。
【0233】
図10Aおよび10Bは、アスペルギルス・テレウス(Aspergillus terreus)におけるantiSMASHによって予測されるロバスタチン産生のためのBGCを表すヒートマップの一例を示す。本明細書に記載の方法を使用して、より小さな遺伝子セットがBGCに関連すると同定される。図11A-1~図11D-2は、それぞれ階層A+、階層1、階層2、階層3に分類されたヒートマップを示す。
【0234】
いくつかの例では、埋め込み性分類(例えば、pETaGが遺伝子のクラスター中にどのように埋め込まれるかの確率値)を出力するLSTMモデルに基づいて、LSTMモデルの出力は、4つの特徴「階層A+」、「階層1」、「階層2」、および「階層3」を表す1つ以上のテーブル(図12Aに示すような)に編成され、所定の追加の特徴セット(例えば、4つの特徴「階層A+」、「階層1」、「階層2」、および「階層3」を含む最大27個以上の特徴)と組み合わされてもよい。
【0235】
ETaG尤度を予測するための機械学習モデル
図12Aは、特徴の組み合わせセットを含むデータテーブルを示す。いくつかの例では、特徴の組み合わせセット(例えば、最大27個以上の特徴)は、図12Aに示すようにデータテーブルに編成することができ、図12Aに示す特徴の組み合わせセットの入力に基づいてETaGまたはpETaG確率値を出力するように機械学習モデル(例えば、人工ニューラルネットワーク(ANN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワークなど)を訓練するために利用することができる。いくつかの例では、データは、他のタイプの機械学習モデル(例えば、ベイズ推定、XGBoostまたはランダムフォレストなどの決定木ベースの方法など)を訓練するために利用することができる。いくつかの例では、データは、ロジスティック回帰モデルまたは他のタイプの教師付きモデルを訓練するために利用することができる。図12Aにさらに示すように、特徴の組み合わせセットのデータテーブルはまた、例えば、グラウンドトゥルースまたは機械学習モデルを訓練するための他の参照として利用することができる既知のETaGまたはpETaGラベル値の注釈付きデータセットを含むことができる。
【0236】
図12Bは、本開示の例による、ETaGまたはpETaG確率値を出力するように訓練されたニューラルネットワークの初期訓練段階を示す。示されるように、図12Aのデータテーブルに含まれる特徴に対応する訓練データセットが、ニューラルネットワークの入力層に入力され得る。構造化または半構造化入力データのために、一実施形態では、ニューラルネットワークは、多層パーセプトロン(MLP)または少なくとも1つの隠れ層を含む他の層状ニューラルネットワークを含むことができる。例えば、訓練中に、特徴のテーブルをそれぞれのニューロンまたはノードに入力することができる。具体的には、いくつかの例では、それぞれのニューロンまたはノードは、特徴のテーブルを入力として取り、それに基づいて出力を生成するために1つ以上の指定された活性化関数(例えば、計算関数)を実行することができる。例えば、いくつかの例では、指定された活性化関数(例えば、計算関数)は、入力ニューロンまたはノードの出力の値を具体的に決定することができる。
【0237】
いくつかの例では、それぞれの入力ニューロンまたはノードは、入力ニューロンまたはノードの出力を受信することができる隠れニューロンまたはノードのセットに接続することができる。いくつかの例では、隠れニューロンまたはノードは、ニューラルネットワークの隠れ層を構成することができ、例えば、入力ニューロンまたはノードへの各接続の入力の相対強度(例えば、陽性または陰性)を決定する重みをそれぞれ含むことができる。例えば、いくつかの例では、隠れ層の重みは、例えば、各入力が隠れニューロンまたはノードに与える効果に影響を与える可能性があり、ニューラルネットワークが経時的に学習するために反復的に調整され得る。いくつかの例では、図12Bによってさらに示されるように、ニューラルネットワークは、例えば順伝播技術に基づいて訓練されてもよい。いくつかの例では、順伝播、および伸長による隠れニューロンまたはノードの組み合わせ出力は、隠れニューロンまたはノードの出力と(例えば、グラウンドトゥルースETaGまたはpETaGラベル値と比較した)予測されるETaGまたはpETaGラベル値との加重和を含むことができる。
【0238】
図12Cは、本開示の例による、ETaGまたはpETaG確率値を出力するように訓練されたニューラルネットワークの訓練段階をさらに示す。例えば、図12Cに示すように、損失関数またはコスト関数を利用して(例えば、教師あり学習)、予測されるETaGまたはpETaGラベル値をグラウンドトゥルースETaGまたはpETaGラベル値と比較して損失(例えば、誤差)を計算することによって、ニューラルネットワークを評価することができる。いくつかの例では、隠れニューロンまたはノードの重みは、ニューラルネットワークが適切かつ正確に訓練される程度まで損失(例えば、予測されるETaGまたはpETaGラベル値とグラウンドトゥルースETaGまたはpETaGラベルとの比較に基づいて計算される)を最小化することができるように、反復的に調整することができる。
【0239】
図12Dは、本開示の例による、ETaGまたはpETaG確率値を出力するように訓練されたニューラルネットワークの推論段階を示す。示されるように、例えば、図12Aのデータテーブルに含まれる1つ以上の特徴に対応する特徴の未知のデータセットが、ニューラルネットワークの入力層に入力され得る。例えば、推論中、特徴のテーブルは、それぞれのニューロンまたはノードに入力され得る。具体的には、図12Bに関して前述したように、それぞれのニューロンまたはノードは、特徴のテーブルを入力として取り、それに基づいて出力を生成するために1つ以上の指定された活性化関数(例えば、計算関数)を実行することができる。例えば、いくつかの例では、指定された活性化関数(例えば、計算関数)は、入力ニューロンまたはノードの出力の値を具体的に決定することができる。いくつかの例では、それぞれの入力ニューロンまたはノードは、入力ニューロンまたはノードの出力を受信することができる隠れニューロンまたはノードのセットに接続することができる。いくつかの例では、隠れニューロンまたはノードは、例えば、入力ニューロンまたはノードへの各接続の入力の相対強度(例えば、陽性または陰性)を決定する重みをそれぞれ含むことができる。いくつかの例では、図12Dにさらに示すように、隠れニューロンまたはノードの組み合わせ出力は、隠れニューロンまたはノードの出力と(例えば、グラウンドトゥルースETaGまたはpETaGラベル値と比較した)予測されるETaGまたはpETaGラベル値との加重和を含むことができる。具体的には、本開示の例によれば、ニューラルネットワークは、特徴の未知の入力データセットに基づいてETaGまたはpETaG確率値を出力することができる。図12Eは、本開示の例による、特徴の未知の入力データセットと、特徴のそれぞれに対するETaGまたはpETaG確率値の対応する出力とを含む例示的なデータテーブルを示す。このようにして、本例は、ETaGまたはpETaGがBGCを表す1つ以上の特徴に関連する尤度を同定および決定することができる。
【0240】
用途
本明細書に記載のコンピュータベースの方法は、1つ以上のクエリ(または標的)ゲノム中の1つ以上のクエリ配列(例えば、目的の遺伝子配列)のオルソログの同定、BGCの同定、クエリゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子の同定、治療標的の同定および/または特性評価、二次代謝産物の標的の同定および/または特性評価、ならびに創薬などを含む様々な用途を有する。
【0241】
いくつかの例では、本開示は、遺伝子クラスター(例えば、BGC)に関連する複数の遺伝子を同定することによって、遺伝子クラスター(例えば、BGC)の境界を決定するための方法およびシステムを提供する。いくつかの例では、本方法は、(1)クエリ(または参照)ゲノム中のBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する複数のクエリ遺伝子を同定することと、(2)複数のクエリ遺伝子のそれぞれについて、「グリッド表現分析方法」の項に記載されているいずれか1つのコンピュータ実装方法を実行して、クエリ遺伝子がBGCに関連する尤度を決定することと、(c)BGCに関連する、閾値を超える尤度である指定された高い尤度を有するクエリ遺伝子を、BGCに関連する複数の遺伝子として同定することとを含む。例えば、クエリ遺伝子またはそのオルソログが、(1)尤度が高いカテゴリに対して30%、40%、50%、60%、70%、80%、90%以上のいずれか1つを超える確率を有する場合、クエリ遺伝子はBGCに関連する。いくつかの例では、クエリ遺伝子またはそのオルソログが、(1)尤度が高い、および(2)尤度がどちらかといえば高いカテゴリについて約50%、60%、70%、80%、90%またはそれより高いいずれか1つを超える組み合わせ確率を有する場合、クエリ遺伝子はBGCに関連する。いくつかの例では、クエリ遺伝子またはそのオルソログが、(4)尤度が低いカテゴリについて約30%、40%、50%、60%、70%、80%、90%またはそれより高いいずれか1つを超える確率を有する場合、クエリ遺伝子はBGCに関連していないとして拒絶される。BGCの境界(すなわち、上流および下流の限界)は、この方法を使用して決定されたBGCに関連するすべての遺伝子の位置に基づいて決定することができる。
【0242】
いくつかの例では、本開示は、クエリ(または参照)ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子を同定するための方法およびシステムであって、(a)クエリゲノム中のBGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する(例えば、約100kb、50kb、20kb、またはユーザ指定の距離以下の近接ゾーン内)、BGCによる二次代謝産物の産生に関与していない推定上の埋め込まれた遺伝子を同定することと、(b)推定上の埋め込まれた遺伝子がBGCに関連する尤度を決定するために、「グリッド表現分析方法」の項に記載されているいずれか1つのコンピュータ実装方法を実行することと、(c)推定上の埋め込まれた遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、推定上の埋め込まれた遺伝子を耐性遺伝子として同定することとを含む、方法およびシステムを提供する。いくつかの例では、BGCに関連する尤度が指定された閾値を超える場合、推定上の埋め込まれた遺伝子は耐性遺伝子として同定される。いくつかの例では、推定上の埋め込まれた遺伝子がBGCに関連する尤度は、推定上の埋め込まれた遺伝子をBGCに関連する耐性遺伝子として同定するために使用される複数の因子のうちの1つである。いくつかの例では、本方法は、推定上の埋め込まれた遺伝子がクエリゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子であることを実験的に検証することをさらに含む。例えば、推定上の埋め込まれた遺伝子を発現させ、二次代謝産物と接触させて、推定上の埋め込まれた遺伝子の産物と二次代謝産物との間で結合が起こるかどうかを決定することができる。
【0243】
いくつかの例では、本開示は、哺乳動物(例えば、ヒト)標的の同定および/または特性評価のための方法およびシステムを提供する。例えば、本明細書に記載の方法を使用して同定された、ヒトゲノム中にホモログを有する耐性遺伝子(例えば、真菌耐性遺伝子)は、耐性遺伝子と、ヒトホモログと、BGCによって産生される二次代謝産物との間の関連を提供する。この関連は、ヒトホモログが二次代謝産物のヒト標的であり得、二次代謝産物がヒトホモログと相互作用および/または調節し得ることを示唆している。
【0244】
いくつかの例では、本開示は、BGCの二次代謝産物またはBGC産物のアナログの哺乳動物(例えば、ヒト)標的を同定および/または特性評価するための方法であって、(1)クエリゲノム中のBGCと共局在(例えば、約200kb、100kb、50kb、40kb、30kb、20kb以下またはそれ未満の近接ゾーン内)しており、哺乳動物(例えば、ヒト)遺伝子と相同であり、BGCの二次代謝産物を産生する酵素をコードしない、推定上の埋め込まれた標的遺伝子(pETaG)を同定することと、(2)pETaGがBGCに関連する尤度を決定するために、「グリッド表現分析方法」の項で説明したいずれか1つのコンピュータベースの方法を実行することと、(3)pETaGがBGCに関連する尤度に少なくとも部分的に基づいて、哺乳動物(例えば、ヒト)遺伝子をBGCの二次代謝産物の標的として同定することとを含む、方法を提供する。いくつかの例では、哺乳動物(例えば、ヒト)遺伝子は、それがBGCに関連する尤度が閾値を超える場合に標的として同定される。いくつかの例では、pETaGがBGCに関連する尤度は、哺乳動物(例えば、ヒト)遺伝子をBGCの二次代謝産物の標的として同定するための複数の因子のうちの1つである。いくつかの例では、本方法は、哺乳動物(例えば、ヒト)ゲノム中のpETaGの哺乳動物(例えば、ヒト)ホモログを同定することをさらに含む。いくつかの例では、本方法は、哺乳動物(例えば、ヒト)標的に対する、BGCによって産生される二次代謝産物またはBGC産物のアナログの効果をアッセイすることをさらに含む。
【0245】
いくつかの例では、本開示は、例えば哺乳動物標的遺伝子(または爬虫類標的遺伝子、鳥類標的遺伝子、両生類標的遺伝子、もしくは任意の他の生物由来の標的遺伝子)の小分子モジュレーターを同定する、創薬のための方法およびシステムを提供する。いくつかの例では、本開示は、哺乳動物(例えば、ヒト)標的遺伝子またはその産物の小分子モジュレーターを同定する方法であって、(a)真菌ゲノムのBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在(例えば、約100kb、50kb、40kb、30kb、20kb以下またはそれ未満の近接ゾーン内)しており、BGCによる二次代謝産物の産生に関与していない、真菌ゲノム中(または古細菌ゲノム、細菌ゲノム、植物ゲノム、もしくはBGCを含む他のゲノム中)の哺乳動物標的遺伝子の相同遺伝子を同定することと、(b)相同遺伝子がBGCに関連する尤度を決定するために、「グリッド表現分析方法」の項に記載されているいずれか1つのコンピュータベースの方法を実行することと、(c)相同遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、二次代謝産物またはそのアナログを、哺乳動物標的遺伝子またはその産物の小分子モジュレーターとして同定することとを含む、方法を提供する。いくつかの例では、相同遺伝子がBGCに関連する尤度が閾値を超える場合、二次代謝産物またはそのアナログは、哺乳動物(例えば、ヒト)遺伝子またはその産物の小分子モジュレーターとして同定される。いくつかの例では、相同遺伝子がBGCに関連する尤度は、哺乳動物(例えば、ヒト)遺伝子またはその産物の小分子モジュレーターとして二次代謝産物またはそのアナログを同定するために使用される複数の因子のうちの1つである。いくつかの例では、本方法は、哺乳動物標的遺伝子産物と、BGCによって産生される二次代謝産物に由来する化合物との相互作用を評価することをさらに含む。いくつかの実施形態では、本方法は、二次代謝産物またはそのアナログを哺乳動物標的遺伝子によってコードされるタンパク質と接触させることと、哺乳動物標的遺伝子によってコードされるタンパク質の活性を検出することを含む。いくつかの例では、活性は、哺乳動物標的遺伝子によってコードされるタンパク質と二次代謝産物またはそのアナログとの結合である。
【0246】
いくつかの例では、二次代謝産物は、BGCまたは非天然塩を含むその塩によってコードされる酵素の産物である。いくつかの例では、二次代謝産物またはそのアナログは、BGCによってコードされる酵素の産物のアナログ、例えば二次代謝産物と同じコア構造を有する小分子化合物またはその塩である。
【0247】
いくつかの例では、本開示は、ヒト標的を調節する方法であって、BGCによってコードされる酵素によって産生される二次代謝産物またはそのアナログを提供することを含み、ヒト標的(またはヒト標的をコードする核酸配列)が、本明細書に記載のいずれか1つの方法を使用して決定されるBGCに関連するETaGと相同である、方法を提供する。
【0248】
いくつかの例では、本開示は、ヒト標的に関連する状態、障害、または疾患を治療する方法であって、これらに感受性または罹患している対象に、BGCによってコードされる酵素によって産生される二次代謝産物、またはそのアナログを投与することを含み、ヒト標的(またはヒト標的をコードする核酸配列)が、本明細書に記載のいずれか1つの方法を使用して決定されるBGCに関連するETaGと相同である、方法を提供する。
【0249】
いくつかの例では、二次代謝産物は真菌によって産生される。いくつかの例では、二次代謝産物は非環状である。いくつかの例では、二次代謝産物はポリケチドである。いくつかの例では、二次代謝産物はテルペン化合物である。いくつかの例では、二次代謝産物は、非リボソーム合成ペプチドである。
【0250】
いくつかの例では、1つ以上の特定の構造的特徴、要素、構成要素または部分を参照物質と共有する物質(例えば、二次代謝産物)のアナログ。典型的には、アナログは参照物質との有意な構造類似性を示し、例えばコアまたはコンセンサス構造を共有するが、特定の個別の様式において異なる。いくつかの例では、アナログは、例えば、参照物質の化学的操作によって、参照物質から生成され得る物質である。いくつかの例では、アナログは、参照物質を生成するものと実質的に同様の(例えば、複数の工程を共有する)合成プロセスの実施によって生成され得る物質である。いくつかの例では、アナログは、参照物質を生成するために使用されるものとは異なる合成プロセスの実行によって生成されるか、または生成され得る。いくつかの例では、物質のアナログは、その置換可能な位置の1つ以上で置換されている物質である。
【0251】
いくつかの例では、産物のアナログは、産物の構造コアを含む。いくつかの例では、生合成産物は、環状、例えば単環式、二環式、または多環式であり、産物の構造コアは、単環式、二環式、または多環式環系であるか、それを含む。いくつかの例では、産物の構造コアは、産物の二環式または多環式環系の1つの環を含む。いくつかの例では、産物はポリペプチドであるかまたはポリペプチドを含み、構造コアはポリペプチドの骨格である。いくつかの例では、産物はポリケチドであるかまたはポリケチドを含み、構造コアはポリケチドの骨格である。いくつかの例では、アナログは、1つ以上の適切な置換基を含む置換生合成産物である。
【0252】
ETaGの同定
上記のように、いくつかの例では、本開示は、埋め込まれた標的遺伝子(「ETaG」)またはETaGに対応する哺乳動物(例えば、ヒト)標的遺伝子を同定する方法を提供する。本開示は、ETaGを同定および/または特性評価するための方法、生合成遺伝子クラスターおよび/またはETaG遺伝子配列(および任意選択的に関連する注釈)を含むデータベース、ETaGに対応するヒト標的遺伝子を同定および/または特性評価するためのシステム、ならびにそれらを含有および/または発現するそのようなヒト標的遺伝子および/またはシステムを作製および/または使用する方法などを提供する。ETaGは、例えば、国際公開第201955816号パンフレットに記載されており、その内容は参照により本明細書に組み込まれる。本明細書に記載の方法は、BGCと真に関連するETaGを同定し、特定のゲノム中のBGC中の1つ以上の生合成遺伝子との共局在および/または共調節に基づいて同定された偽陽性ETaGの呼び出しを低減する改善された方法を提供する。
【0253】
いくつかの例では、本明細書に記載の方法を適用して、真菌ゲノムからETaGを同定する。いくつかの例では、真核真菌由来のETaGは、例えば、ある種の細菌などの原核生物におけるそれらの対応物(存在する場合)よりも、哺乳動物遺伝子に対する多くの類似性を有することができる。いくつかの例では、真菌は、進化的にヒトからより遠い生物よりも治療的に関連するETaGを含有する、および/またはより治療的に関連するETaGを含有する。
【0254】
いくつかの例では、本方法は、(a)真菌ゲノム中の推定上のETaG(pETaG)配列を同定することであって、(1)pETaGは、BGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在(すなわち、相対的な近接ゾーン内)し、(2)pETaGはBGCによる二次代謝産物の産生に関与せず、(3)pETaGは発現される哺乳動物核酸配列と相同である、同定することと、(b)「グリッド表現分析方法」の項に記載されたいずれか1つのコンピュータベースの方法を使用して、pETaGがBGCに関連する尤度を決定することと、(c)pETaGがBGCに関連する尤度に基づいて、pETaGをETaGとして同定することとを含む。例えば、尤度が閾値を上回る場合、または尤度が、pETaGをETaGとして同定するために使用される複数の要因のうちの1つである場合、pETaGはETaGとして同定され得る。いくつかの例では、pETaGは、BGC中の少なくとも1つの生合成遺伝子と共調節される。いくつかの例では、pETaGは、BGC中の少なくとも1つの生合成遺伝子と共調節されない。いくつかの例では、本方法は、複数のpETaGについて繰り返され、pETaGがBGCに関連する尤度に基づいて実験的検証のためにpETaGに優先順位を付けるために使用される。いくつかの例では、ETaGを哺乳動物、例えばヒトの核酸配列と比較して、相同な哺乳動物核酸配列を同定する。いくつかの例では、そのような方法を使用して、例えば多くの(例えば、数百、数千、またはそれ以上の)ゲノムの配列から、ゲノム規模でETaGを同定することができる。同定されたETaGは、それらの哺乳動物ホモログ、特にヒトホモログの治療上の重要性に基づいて優先順位付けすることができる。いくつかの例では、関係する生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物(すなわち、二次代謝産物)またはそのアナログは、ヒト標的のモジュレーター(例えば、活性化剤、阻害剤など)である。いくつかの実施形態では、関係する生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物(すなわち、二次代謝産物)またはそのアナログは、動物、細菌、真菌または植物の標的のモジュレーター(例えば、活性化剤、阻害剤など)である。
【0255】
当業者によって容易に理解されるように、生合成遺伝子クラスター、ETaGからの生合成産物とヒト標的との間の関連は、一旦確立されると、様々な方法で利用することができる。例えば、生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物から出発して、生合成遺伝子クラスターの生合成遺伝子の指定された近接ゾーン内に位置するETaGを同定し、次いでETaGと相同なヒト標的を同定することができる。ヒト標的が同定されると、それに優先順位を付け(以前は薬になり得ないと考えられていたとしても)、医学的使用のために、例えば、当業者に公知の様々な方法のいずれかを使用して産物のアナログを調製およびアッセイすることによって、生合成産物の任意のさらなる最適化を含め、生合成産物を使用してヒト標的のモジュレーターを開発することができる。治療目的のヒト標的から出発して、ヒト標的と相同なETaGを同定し、次いでETaGの指定された近接ゾーン内に生合成遺伝子を含有する生合成遺伝子クラスターを同定することもできる。生合成遺伝子クラスターが同定されると、生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物を特性評価し、ヒト標的またはその産物の調節についてアッセイすることができる。生合成産物は、多くの医療目的、例えば治療目的に有用な薬剤を提供するために、当業者に公知の様々な方法のいずれかを使用して、薬物候補の最適化のためのリード化合物として使用することができる。いくつかの実施形態では、標的は、動物、植物、真菌、細菌、古細菌などの他の生物界に由来し得る。
【0256】
いくつかの例では、本開示は、真菌におけるそれらの相同ETaGを同定し、関連する生合成遺伝子クラスターを解明するための方法を提供することによって、本開示以前には薬になり得ないと考えられていた標的に特に洞察を提供する。いくつかの例では、本開示は、例えば、真菌におけるそれらの相同ETaGを同定し、関連する生合成遺伝子クラスターを解明し、関係する生合成遺伝子クラスターの生合成産物を試験することによって、本開示以前には薬になり得ないと考えられていた標的の創薬可能性を大幅に改善し、いくつかの場合では、それらを創薬可能な標的に本質的に変換する(それらをヒト標的のモジュレーターとして直接使用することができ、および/またはそのアナログをモジュレーターとして使用することができる)。
【0257】
ETaGは、BGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)に対して近接ゾーン内にあり、発現される哺乳動物核酸配列と相同であり、BGC中の少なくとも1つの生合成遺伝子と任意選択的に共調節される。いくつかの例では、ETaGは、BGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)から、約100kb、50kb、40kb、30kb、20kb、10kb、またはそれ未満のいずれか1つ以下に位置する。
【0258】
いくつかの例では、ETaGは、治療目的の既存の標的である産物であるかまたはそれをコードするヒト核酸配列と相同である。いくつかの例では、ETaGは、治療目的の新規の標的である産物であるかまたはそれをコードするヒト核酸配列と相同である。いくつかの例では、ETaGは、本開示以前には薬になり得ないと考えられていた標的である産物であるか、またはそれをコードするヒト核酸配列と相同である。いくつかの例では、ETaGは、本開示の前に小分子によって薬になり得ないと考えられる標的である産物であるかまたはそれをコードするヒト核酸配列と相同である。
【0259】
いくつかの例では、ETaG配列は、その配列またはその一部が発現される哺乳動物核酸配列のものと少なくとも20%、30%、40%、50%、60%、70%、80%、または90%同一であるという点で、発現される哺乳動物核酸配列と相同である。いくつかの例では、ETaG配列は、ETaGまたはその一部から産生されるmRNAが哺乳動物核酸配列のものと相同であるという点で、哺乳動物核酸配列と相同である。いくつかの例では、相同部分は、少なくとも50、100、150、200、500、1000、2000、3000または5000塩基対の長さである。いくつかの例では、相同部分は、真菌から哺乳動物までの、保存されたタンパク質または保存されたタンパク質の部分、例えばタンパク質ドメイン、機能(例えば、別の分子(例えば、タンパク質、小分子など)との相互作用、酵素活性など)に関係する残基のセットなどをコードする。いくつかの例では、哺乳動物核酸、例えばヒト核酸配列は、ヒトの疾患、障害、または状態に関係する。いくつかの例では、そのようなヒト核酸配列は、治療目的の既存の標的である。いくつかの例では、そのようなヒト核酸配列は、治療目的の新規の標的である。いくつかの例では、そのようなヒト核酸配列は、例えば小分子による標的化に対して感受性でないと以前に考えられていた標的である。
【0260】
いくつかの例では、ETaG配列は、ETaGによってコードされる産物またはその一部が哺乳動物核酸配列によってコードされる産物と相同であるという点で哺乳動物核酸配列と相同である。いくつかの例では、ETaG配列は、ETaGによってコードされるタンパク質またはその一部が哺乳動物核酸配列によってコードされるタンパク質と相同であるという点で哺乳動物核酸配列と相同である。いくつかの例では、ETaG配列は、ETaGによってコードされるタンパク質の一部が哺乳動物核酸配列によってコードされるタンパク質と相同であるという点で哺乳動物核酸配列と相同である。
【0261】
いくつかの例では、タンパク質の一部はタンパク質ドメインである。いくつかの例では、タンパク質ドメインは酵素ドメインである。いくつかの例では、タンパク質ドメインは、1つ以上の因子、例えば小分子、脂質、炭水化物、核酸、タンパク質などと相互作用する。
【0262】
いくつかの例では、タンパク質の一部は、そのタンパク質が属するタンパク質ファミリーを定義する機能的および/または構造的ドメインである。パテントファミリーを定義する特定の触媒ドメインまたは構造ドメイン内にあるアミノ酸は、予測サブファミリードメインアーキテクチャに基づいて選択することができ、相同性のアラインメント分析に使用するために、任意選択的に様々なアッセイによって検証することができる。
【0263】
いくつかの例では、タンパク質の一部は、タンパク質の機能にとって重要な連続的または非連続的な一組の重要な残基である。いくつかの例では、機能は酵素活性であり、タンパク質の一部は活性に必要な残基のセットである。いくつかの例では、機能は酵素活性であり、タンパク質の一部は、基質、中間体または産物と相互作用する残基のセットである。いくつかの例では、残基のセットは、基質と相互作用する。いくつかの例では、残基のセットは中間体と相互作用する。いくつかの例では、残基のセットは、産物と相互作用する。
【0264】
いくつかの例では、タンパク質の機能は、1つ以上の因子、例えば小分子、脂質、炭水化物、核酸、タンパク質などとの相互作用であり、タンパク質の一部は、相互作用に必要な残基のセットである。いくつかの例では、残基のセットはそれぞれ独立して相互作用剤(interacting agent)と接触する。例えば、いくつかの例では、セットの残基のそれぞれは、相互作用する小分子と独立して接触する。いくつかの例では、タンパク質はキナーゼであり、相互作用する小分子は核酸塩基であるかまたは核酸塩基を含み、残基のセットはそれぞれ独立して、例えば水素結合、静電気力、ファンデルワールス力、芳香族スタッキング(aromatic stacking)などを介して核酸塩基と接触する。いくつかの例では、相互作用剤は別の巨大分子である。いくつかの例では、相互作用剤は核酸である。いくつかの例では、残基のセットは、相互作用する核酸と接触する残基、例えば転写因子中の残基である。いくつかの例では、残基のセットは、相互作用タンパク質と接触する残基である。
【0265】
いくつかの例では、タンパク質の一部は、例えばヒト標的の三次タンパク質構造に基づく、タンパク質エフェクターリクルートメントおよび/または結合の必須構造要素であるか、または必須構造要素を含む。
【0266】
タンパク質ドメイン、生物学的機能を担う残基のセットなどのタンパク質の部分は、種ごとに、例えば、いくつかの例では、本開示に示されるように真菌からヒトまで保存することができる。
【0267】
いくつかの例では、タンパク質相同性は、正確な同一性、例えば所与の位置の同じアミノ酸残基に基づいて測定される。いくつかの例では、相同性は、1つ以上の特性、例えば1つ以上の同一または類似の特性(例えば、極性、非極性、疎水性、親水性、サイズ、酸性、塩基性、芳香族など)を有するアミノ酸残基に基づいて測定される。相同性を評価するための例示的な方法は、当技術分野で広く知られており、本開示に従って、例えば、MAFFT、MUSCLE、TCoffee、ClustalWなどで利用することができる。
【0268】
いくつかの例では、ETaGによってコードされるタンパク質またはその一部(例えば、本開示に記載されているもの)は、哺乳動物核酸配列によってコードされるものと少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、もしくは99%、または100%(100%の場合、これは同一である)相同である。いくつかの例では、ETaGによってコードされるタンパク質またはその一部は、発現される哺乳動物核酸配列によってコードされるものと少なくとも50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%、または100%相同である。
【0269】
いくつかの例では、ETaGは、生合成遺伝子クラスター中の少なくとも1つの生合成遺伝子と共調節される。いくつかの例では、ETaGは、生合成遺伝子クラスター中の2つ以上の遺伝子と共調節される。いくつかの例では、ETaGは、生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物(生合成遺伝子クラスターの生合成産物)が産生されると、ETaGの発現が増加するかまたはオンになるという点で、生合成遺伝子クラスターと共調節される。いくつかの例では、生合成遺伝子クラスターの生合成産物のレベルが増加すると、ETaGの発現が増加するか、またはオンになるという点で、ETaGは生合成遺伝子クラスターと共調節される。
【0270】
いくつかの例では、ETaGを含む生物は、ETaGの1つ以上の相同遺伝子を含む。いくつかの例では、ETaG遺伝子配列は、任意選択的に、同じゲノム中の1つ以上の遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%を超えて相同であってもよい。いくつかの例では、ETaG遺伝子配列は、任意選択的に、同じゲノム中の2、3、4、5、6、7、8、9またはそれ以上の遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%または99を超えて相同である。いくつかの例では、相同性は10%を超える。いくつかの例では、相同性は20%を超える。いくつかの例では、相同性は30%を超える。いくつかの例では、相同性は40%を超える。いくつかの例では、相同性は50%を超える。いくつかの例では、相同性は60%を超える。いくつかの例では、相同性は70%を超える。いくつかの例では、相同性は80%を超える。いくつかの例では、相同性は90%を超える。
【0271】
いくつかの例では、ETaG遺伝子配列は、任意選択的に、異なる真菌株に由来し、相同な生合成遺伝子クラスターを含むセット中の、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の真菌核酸配列中の任意の発現される遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの例では、ETaG遺伝子配列は、任意選択的に、異なる真菌株由来の相同な生合成遺伝子クラスターの生合成遺伝子に対して近接ゾーン内にある、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の真菌遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの例では、ETaG遺伝子配列は、任意選択的に、異なる真菌株由来の相同な生合成遺伝子クラスターの生合成遺伝子に対して近接ゾーン内にある、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の真菌遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの例では、ETaG遺伝子配列は、任意選択的に、異なる真菌株に由来し、相同な生合成遺伝子クラスターを含むセット中の任意の真菌核酸配列中の任意の発現される遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%)、95%)、または99%以下同一である。いくつかの例では、ETaG遺伝子配列は、任意選択的に、異なる真菌株由来の相同な生合成遺伝子クラスターの生合成遺伝子に対して近接ゾーン内にある、任意の発現される遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの例では、それは約10%以下)同一である。いくつかの例では、それは約20%以下同一である。いくつかの例では、それは約30%以下同一である。いくつかの例では、それは約40%)以下同一である。いくつかの例では、それは約50%以下同一である。いくつかの例では、それは約60%以下同一である。いくつかの例では、それは約70%)以下同一である。いくつかの例では、それは約80%以下同一である。いくつかの例では、それは約90%以下同一である。
【0272】
いくつかの例では、ヒト標的遺伝子および/またはその産物は、生合成遺伝子クラスターの生合成産物またはそのアナログによる調節に対して感受性であり、ヒト標的遺伝子は、生合成遺伝子クラスター中に埋め込まれた、またはクラスターの生合成遺伝子に対して指定された近接ゾーンに位置するその相同ETaGを有する。いくつかの例では、ヒト標的遺伝子によってコードされるタンパク質は、生合成遺伝子クラスターの生合成産物またはそのアナログによる調節に対して感受性であり、ヒト標的遺伝子は、生合成遺伝子クラスター中に埋め込まれた、またはクラスターの生合成遺伝子に対して指定された近接ゾーンに位置するその相同ETaGを有する。したがって、いくつかの例では、本開示は、新規のヒト標的を提供するだけでなく、そのようなヒト標的を調節するための方法および薬剤も提供する。いくつかの例では、生合成遺伝子クラスターの酵素によって産生される化合物は、生合成遺伝子クラスターに関係するETaGと相同な哺乳動物、例えばヒトの核酸配列によってコードされる標的と相互作用し、および/または調節する。
【0273】
いくつかの例では、本開示は、同定されたETaGおよびそれによってコードされる産物を使用して化合物を評価する方法を提供する。いくつかの例では、本開示は、少なくとも1つの試験化合物を真菌核酸配列の埋め込まれた標的遺伝子によってコードされる遺伝子産物と接触させることと、試験化合物が存在する場合、存在しない場合と比較して、遺伝子産物のレベルもしくは活性が変化していると決定する、または遺伝子産物のレベルもしくは活性が、レベルもしくは活性に対する既知の効果を有する参照薬剤が存在する場合に観察されるものと同等であると決定することとを含む、方法を提供する。
【0274】
いくつかの例では、本開示は、生合成遺伝子クラスターによってコードされる酵素によって産生される産物または産物のアナログの哺乳動物、例えばヒト標的を同定および/または特性評価するための方法であって、本明細書に記載のいずれか1つの方法を使用して、BGCに関連すると決定されるETaGのヒトホモログを同定することと、任意選択的に、標的に対する、生合成遺伝子クラスターによってコードされる酵素によって産生される産物または産物のアナログの効果をアッセイすることとを含む、方法を提供する。
【0275】
さらなる分析は、例えばヒト標的の三次タンパク質構造の検査に基づいて、タンパク質エフェクターリクルートメント/結合の必須構造要素の保存/類似性を評価することを含み得る。例えば、いくつかの例では、整列した配列をPDB結晶構造と比較した。いくつかの例では、(例えば、予測サブファミリードメインアーキテクチャに基づいて)ETaG/標的のPFAM境界を定義する特定の触媒または構造ドメイン内のアミノ酸のみをアラインメント分析に使用した。ETaG配列は、すべてのETaGおよびヒト標的タンパク質を整列させることによってそれらのヒト対応物と直接比較され、それらの系統関係により、対応する係合タンパク質の4オングストローム以内の標的タンパク質残基に対応する定量的相関データ(例えば、ペプチド配列類似性および/または進化樹の視覚化)が得られた。
【0276】
いかなる理論によっても限定されることを意図するものではないが、これらの構造モチーフが真菌ETaG中で保存されている場合、ETaG関係生合成遺伝子クラスターによって産生された代謝産物が真菌およびヒト標的タンパク質の両方のエフェクターであり、産生された代謝産物がヒト標的に対する薬物候補または薬物開発のリードであり得る確率の増加を示し得る。いくつかの例では、上記の分析を使用して、ヒト標的の標的化に関して、ETaGおよびそれらの関係する生合成遺伝子クラスター、ならびに生合成遺伝子クラスターから生成された代謝産物を優先順位付けする。
【0277】
コンピュータシステム
いくつかの例では、提供されるコンピュータベースの方法、配列、ゲノムおよび/またはデータベースは、コンピュータ可読媒体で具現化される。いくつかの例では、本開示は、提供されるコンピュータベースの方法、配列、ゲノムおよび/またはデータベースを表すデータを記憶する1つ以上の非一時的機械可読記憶媒体を含むシステムを提供する。提供されるデータを具現化するのに適した非一時的機械可読記憶媒体としては、例として、半導体記憶領域デバイス、例えばEPROM、EEPROM、およびフラッシュ記憶領域デバイス、磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性記憶領域が挙げられる。とりわけ、提供されるシステムは、本明細書に記載の特定の構造を有する提供されるセットおよびデータベースのために特に効率的であり得る。
【0278】
いくつかの例では、本開示は、本明細書に記載の方法を実行することができるコンピュータシステムを提供する。いくつかの例では、本開示は、提供される方法を実行するように適合されたコンピュータシステムを提供する。いくつかの例では、本開示は、ゲノムおよび/またはゲノムデータベースを問い合わせるように、例えば、1つ以上のクエリ配列のホモログを同定するように適合されたコンピュータシステムを提供する。いくつかの例では、本開示は、1つ以上のゲノムデータベースにアクセスするように適合されたコンピュータシステムを提供する。
【0279】
提供される方法の全部または一部を実装するために使用され得るコンピュータシステムは、様々な形態のデジタルコンピュータを含み得る。デジタルコンピュータの例には、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、スマートテレビ、および他の適切なコンピュータが挙げられるが、これらに限定されない。モバイルデバイスを使用して、提供される技術の全部または一部を実装することができる。モバイルデバイスには、タブレットコンピューティングデバイス、携帯情報端末、携帯電話、スマートフォン、デジタルカメラ、デジタル眼鏡、および他のポータブルコンピューティングデバイスが挙げられるが、これらに限定されない。本明細書に記載のコンピューティングデバイス、それらの接続および関係、ならびにそれらの機能は、単なる例を意味し、本技術の実装の限定を意味するものではない。
【0280】
本明細書に記載の技術のすべてまたは一部およびそれらの様々な変更は、少なくとも部分的に、コンピュータプログラム製品、例えば、1つ以上の情報キャリア、例えば、1つ以上の有形の機械可読記憶媒体に有形に具現化されたコンピュータプログラムを介して、データ処理装置、例えば、プログラマブルプロセッサ、コンピュータ、または複数のコンピュータによって実行するために、またはその動作を制御するために実装することができる。
【0281】
提供される技術のためのコンピュータプログラムは、コンパイル型言語またはインタプリタ型言語を含む任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラム、またはモジュール、部品、サブルーチン、もしくはコンピュータ環境での使用に適した他のユニットを含む任意の形式で展開することができる。コンピュータプログラムは、1つのコンピュータ上で、もしくは1つのサイトの複数のコンピュータ上で実行されるように、または複数のサイトにわたって分散されネットワークによって相互接続されるように、展開することができる。
【0282】
例えば、プログラムおよび技術の実装に関連する動作を、1つ以上のコンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって実行して、提供される技術を実行することができる。プロセスの全部または一部は、特殊目的の論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)および/またはASIC(特定用途向け集積回路)として実装することができる。
【0283】
コンピュータプログラムの実行に適したプロセッサとしては、例として、汎用および特殊目的の両方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサが挙げられる。一般に、プロセッサは、読み出し専用記憶領域もしくはランダムアクセス記憶領域またはその両方から命令およびデータを受信する。コンピュータ(サーバを含む)の要素は、命令を実行するための1つ以上のプロセッサと、命令およびデータを記憶するための1つ以上の記憶領域デバイスとを含む。一般に、コンピュータはまた、データを記憶するための大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクなどの1つ以上の機械可読記憶媒体を含むか、またはそれらからデータを受信するか、もしくはデータを転送するか、もしくはその両方を行うように動作可能に結合される。コンピュータプログラム命令およびデータを具現化するのに適した非一時的機械可読記憶媒体としては、例として、半導体記憶領域デバイス、例えばEPROM、EEPROM、およびフラッシュ記憶領域デバイス、磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性記憶領域が挙げられる。
【0284】
タブレットコンピュータなどの各コンピューティングデバイスは、データおよびコンピュータプログラムを格納するためのハードドライブと、コンピュータプログラムを実行するための処理デバイス(例えば、マイクロプロセッサ)およびメモリ(例えば、RAM)とを含むことができる。各コンピューティングデバイスは、スチルカメラまたはビデオカメラなどの画像取込デバイスを含むことができる。画像取込デバイスは、内蔵されていてもよく、または単にコンピューティングデバイスにアクセス可能であってもよい。
【0285】
各コンピューティングデバイスは、ディスプレイスクリーンを含むグラフィックシステムを含むことができる。LCDまたはCRT(陰極線管)などのディスプレイスクリーンは、コンピューティングデバイスのグラフィックシステムによって生成された画像をユーザに表示する。周知のように、コンピュータディスプレイ(例えば、モニタ)上の表示は、コンピュータディスプレイを物理的に変換する。例えば、コンピュータディスプレイがLCDベースである場合、ユーザに対して視覚的に明らかな物理的変形におけるバイアス電圧の印加によって液晶の配向を変更することができる。別の例として、コンピュータディスプレイがCRTである場合、視覚的にも明らかな物理的変換における電子の影響によって蛍光スクリーンの状態を変更することができる。各ディスプレイスクリーンはタッチセンサー式であってもよく、これはユーザが仮想キーボードを介してディスプレイスクリーンに情報を入力することを可能にする。デスクトップまたはスマートフォンなどのいくつかのコンピューティングデバイスでは、ディスプレイスクリーンに情報を入力するために、物理的QWERTYキーボードおよびスクロールホイールを設けることができる。各コンピューティングデバイス、およびその上で実行されるコンピュータプログラムはまた、音声コマンドを受信し、そのようなコマンドに応答して機能を実行するように構成されてもよい。
【0286】

例1-カスタムアルゴリズムに基づく、系統発生的比較メトリックの算出のための例示的なワークフロー
図13は、カスタムアルゴリズムを使用した「系統発生的特徴」の算出のための例示的なワークフローの概略図を提供する。1)pETaGを使用して、陽性ゲノムおよび陰性ゲノムのセットにおけるホモログを検索する。2)最終共通祖先(LCA)を同定し、クレードをpETaGまたはハウスコピークレード(例えば、pETaGのハウスキーピング版)と指定する。3)陽性ゲノム対陰性ゲノムにおける遺伝子間のコピー数差をLCAから算出する。4)LCAに対する各遺伝子の距離を算出し、クレードあたりの距離を平均し、pETaG/ハウスコピークレードの比を算出する。5)各pETaGまたはハウスコピークレード内の遺伝子のペアワイズな組み合わせ間の距離を算出し、平均し、pETaG/ハウスコピークレードの比を算出する。6)pETaGおよびハウスコピークレードの枝長をそれぞれ合計し、pETaG/ハウスコピークレードの枝長の比を算出する。
【0287】
例2-ロバスタチンETaGについて算出された系統発生的特徴
図14は、ロバスタチンETaGに対する上記のカスタム系統発生的アルゴリズムの使用の非限定的な例を提供する。1)系統樹を、陽性ゲノムおよび陰性ゲノムのセットからの相同ETaG遺伝子のセットから作成する。2)LCAクレードを、ETaGおよびすべての陰性ゲノム由来の少なくとも1つの遺伝子を含有するクレードが存在するまで、ETaGから後方に戻ることによって木クレードをトラバースすることによって同定する。3)クレードをETaGクレードとハウスコピークレードに分離し、陽性ゲノムの遺伝子と陰性ゲノムの遺伝子との間のコピー数差CNDを算出する。結果は、陽性ロバスタチンゲノムが平均して0.86増加したHMG-CoAレダクターゼホモログのコピー数を有することを示す。4)上記の追加の系統発生的特徴を算出する。得られた比が>1であることは、ETaGクレードがハウスコピークレードよりも速く進化していることを示す。
【0288】
例3-共進化評価を実行するための例示的なワークフロー
図15は、配列同一性パーセントを使用してCOGの対間の共進化を比較する場合の、共進化を評価するためのワークフローの非限定的な例を提供する。1)COGを上記のように同定した。2)配列アラインメントおよびトリミングを行った後、COGの各対についてペアワイズ配列同一性パーセントを計算した。3)ペアワイズ配列同一性パーセントをテーブルに要約した。ピアソンRおよび直交回帰分析を使用して、COGのすべてのペアワイズ組み合わせ間のペアワイズ関係を調べた。4)パネル4のプロットは、3つのCOG-COG 1、COG 2、およびCOG 3の共進化結果のシミュレートされた例を提供する。結果は、COG 1がCOG 2と共進化しているが、COG 3と共進化していないことを示す。5)プロットは、ロバスタチンBGCのコアシンターゼに対するロバスタチンETaG(パネル5、左)およびハウスコピー(パネル5、右)の共進化結果の真の例を提供した。結果は、ロバスタチンETaGがコアシンターゼと共進化しているが、ハウスコピーは共進化していないことを示す。
【0289】
例4-pETaGが真のETaGである尤度についてpETaGを評価するように訓練された深層学習モデルの性能データ
図16は、推定上のETaGが実際のETaGである尤度を評価するために上記のように訓練された2つの隠れ層を含む深層学習モデルの5つの異なるバージョン(すなわち、バージョン1、2、3、4、および5)における、隠れ層あたりのユニット数の非限定的な例を提供する。
【0290】
図17は、図16に記載された深層学習モデルの5つのバージョン(すなわち、バージョン1、2、3、4、および5)の性能データ(試験損失)の非限定的な例を提供する。最適化の各反復後の、誤差の和として示されるモデルの性能。各反復後の試験損失の減少を示すモデルは、より良いモデルであると決定される。
【0291】
図18は、図16に記載された深層学習モデルの5つの異なるバージョン(すなわち、バージョン1、2、3、4、および5)の性能データ(試験特異性)の非限定的な例、すなわち、異なる訓練エポックについての真の予測される陰性/実際の陰性の合計の値を提供する。
【0292】
図19は、図16に記載された深層学習モデルの5つの異なるバージョン(すなわち、バージョン1、2、3、4および5)の性能データ(試験感度)の非限定的な例、すなわち、異なる訓練エポックに対する真の予測される陽性/実際の陽性の合計の値を提供する。
【0293】
図20は、図16に記載の深層学習モデルの5つの異なるバージョン(すなわち、バージョン1、2、3、4、および5)の性能データ(試験精度)の非限定的な例、すなわち、異なる訓練エポックエポックに対する真の予測される陽性/予測される陽性の合計の値を提供する。
【0294】
例5-BGC(ロバスタチン、紅麹菌(Monascus ruber))および陰性ETaG(ヒストンH3.2、デンドライフィオン種(Dendryphion sp.))を含有する既知のETaGの例示的な標的評価値の概要。
表2は、BGCを含有する既知のETaG(ロバスタチン、紅麹菌(Monascus ruber))および陰性ETaG(ヒストンH3.2、デンドライフィオン種(Dendryphion sp.))の標的評価値の例を示す。2つの既知のロバスタチン候補が示されており、これらは比較ヒートマップの観点から様々な結果を有していた。このシナリオでは、経験的スコアおよび深層学習確率は、標的評価メトリックと共に、ETaGが真のETaGであるという信頼性を提供する。
【表2】
【0295】
例示的な実施形態
提供される実施形態の中には、以下のものがある。
1.埋め込まれた標的遺伝子(ETaG)を同定するためのコンピュータ実装方法であって、
1つ以上のクエリ配列またはそのプロキシを指定することと、
1つ以上の標的ゲノムを選択することと、
1つ以上のクエリ配列のホモログである推定上の埋め込まれた標的遺伝子(pETaG)配列を、候補pETaGについての1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、同定するために、1つ以上のクエリ配列またはそのプロキシを使用して1つ以上の標的ゲノムの検索を実行することと、
複数のゲノムの比較ゲノミクス分析に基づいて、所与のpETaGがETaGであるかどうかを決定することと
を含む、コンピュータ実装方法。
2.比較ゲノミクス分析が、複数のゲノムに基づいて比較ゲノミクスヒートマップを生成することを含む、実施形態1のコンピュータ実装方法。
3.複数のゲノムが、複数の陽性ゲノムおよび複数の陰性ゲノムを含む、実施形態1または実施形態2のコンピュータ実装方法。
4.比較ゲノミクス分析が、複数のゲノムに基づいて、所与のpETaGについての系統発生的特徴、共起特徴、共進化特徴、またはそれらの任意の組み合わせを決定することを含む、実施形態1~3のいずれか1つのコンピュータ実装方法。
5.比較ゲノミクス分析が、pETaGがETaGである確率を予測するための機械学習モデルまたは経験的アルゴリズムを使用した、pETaGについての系統発生的特徴、共起特徴、共進化特徴、比較ゲノミクスヒートマップ、比較ゲノミクスヒートマップから導出されたデータ、またはそれらの任意の組み合わせを含む入力データセットの分析を含む、実施形態1~4のいずれか1つのコンピュータ実装方法。
6.同定されたpETaGのコピー数の決定に基づいて、同定されたpETaGが耐性機構に関係すると決定することをさらに含む、実施形態1~5のいずれか1つのコンピュータ実装方法。
7.pETaGを含む陽性ゲノムとpETaGを含まない陰性ゲノムとの間のコピー数差の決定に基づいて、pETaGが耐性機構に関係すると決定することをさらに含む、実施形態1~6のいずれか1つのコンピュータ実装方法。
8.1つ以上のクエリ配列、またはそのプロキシが、1つ以上のタンパク質配列、1つ以上の核酸配列、1つ以上のUniversal Protein Resource(Uniprot)識別番号、1つ以上のプロファイル隠れマルコフモデル(pHMM)、タンパク質配列ドメインの指定されたセット、またはそれらの任意の組み合わせを含む、実施形態1~7のいずれか1つのコンピュータ実装方法。
9.1つ以上のクエリ配列またはそのプロキシが、細菌ゲノム、古細菌ゲノム、真菌ゲノム、植物ゲノム、動物ゲノム、ヒトゲノム、またはそれらの任意の組み合わせから選択される、実施形態1~8のいずれか1つのコンピュータ実装方法。
10.1つ以上の標的ゲノムが、細菌ゲノム、古細菌ゲノム、真菌ゲノム、植物ゲノム、動物ゲノム、ヒトゲノム、またはそれらの任意の組み合わせから選択される、実施形態1~8のいずれか1つのコンピュータ実装方法。
11.2つ以上の標的ゲノムが、ペアワイズ類似性スコア、ペアワイズ系統発生的距離またはそれらの任意の組み合わせに基づいて選択される、実施形態1~10のいずれか1つのコンピュータ実装方法。
12.2つ以上の選択された標的ゲノムをフィルタリングして、(i)ペアワイズ類似性スコアが指定されたペアワイズ類似性閾値よりも大きい標的ゲノム、または(ii)ペアワイズ系統発生的距離が指定された系統発生的距離閾値未満である標的ゲノムのみを保持することをさらに含む、実施形態11のコンピュータ実装方法。
13.保持された標的ゲノムを、クラスタリングアルゴリズムを使用してセットにクラスタリングすることと、クラスタリングされた標的ゲノムのセットの1つ以上を使用して検索を実行することとをさらに含む、実施形態12のコンピュータ実装方法。
14.クラスタリングアルゴリズムがマルコフクラスターアルゴリズムを含む、実施形態13のコンピュータ実装方法。
15.検索が、BLAST、DIAMOND、HMMER、Exonerate、またはggsearchを使用して実行される、実施形態1~14のいずれか1つのコンピュータ実装方法。
16.検索が、1つ以上の標的ゲノムの1つ以上の特定の領域に限定される、実施形態1~15のいずれか1つのコンピュータ実装方法。
17.1つ以上の特定の領域が、1つ以上の生合成遺伝子クラスター(BGC)を含む、実施形態16のコンピュータ実装方法。
18.1つ以上の標的ゲノム中の1つ以上のBGCが、BGC検索アルゴリズムを使用して予測される、実施形態17のコンピュータ実装方法。
19.BGC検索アルゴリズムが、antiSMASH、SMURF、TOUCAN、またはdeepBGCを含む、実施形態18のコンピュータ実装方法。
20.1つ以上のBGCが、配列検索ツールを使用して決定された既知の生合成コアシンターゼと一致する遺伝子配列に近位の指定された長さの配列領域を抽出することによって、1つ以上の標的ゲノムについて予測される、実施形態17のコンピュータ実装方法。
21.配列検索ツールが、BLAST、DIAMOND、HMMER、Exonerateまたはggsearchを含む、実施形態20のコンピュータ実装方法。
22.1つ以上のBGCが、既知のコアシンターゼの隠れマルコフモデル(HMM)を使用して1つ以上のクエリゲノムについて予測される、実施形態17のコンピュータ実装方法。
23.1つ以上のBGCが、既知のコアシンターゼに関連するタンパク質配列ドメインの共局在に基づいて、1つ以上の標的ゲノムについて予測される、実施形態17のコンピュータ実装方法。
24.1つ以上の相同配列ベースのメトリックが、配列同一性パーセント、配列カバレッジパーセント、E値、ビットスコア、HMMスコア、またはそれらの任意の組み合わせを含む、実施形態1~23のいずれか1つのコンピュータ実装方法。
25.1つ以上の所定の相同配列ベースのメトリック閾値が、配列同一性パーセント閾値、配列カバレッジパーセント閾値、E値閾値、ビットスコア閾値、HMMスコア閾値、またはそれらの任意の組み合わせを含む、実施形態1~24のいずれか1つのコンピュータ実装方法。
26.1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも98%の値を有する配列同一性パーセント閾値を含む、実施形態25のコンピュータ実装方法。
27.1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも98%の値を有する配列カバレッジパーセント閾値を含む、実施形態25のコンピュータ実装方法。
28.1つ以上の所定の相同配列ベースのメトリック閾値が、10未満、9未満、8未満、7未満、6未満、5未満、4未満、3未満、2未満、1未満、0.01未満、0.001未満、1e-10未満、1e-20未満、1e-30未満、1e-40未満、1e-50未満、1e-60未満、1e-70未満、1e-80未満、1e-90未満または1e-100未満の値を有するE値閾値を含む、実施形態25のコンピュータ実装方法。
29.1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも250、少なくとも500、または少なくとも1000、または少なくとも5000の値を有するビットスコア閾値を含む、実施形態25のコンピュータ実装方法。
30.1つ以上の所定の相同配列ベースのメトリック閾値が、少なくとも10、少なくとも25、少なくとも50、少なくとも100、少なくとも250、少なくとも500、少なくとも1000、または少なくとも5000の値を有するHMMスコア閾値を含む、実施形態25のコンピュータ実装方法。
31.検索を実行することが、
タンパク質配列を含む1つ以上のクエリ配列を核酸配列に変換することと、
候補pETaGの1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、相同核酸配列を同定するために核酸配列に変換された1つ以上のクエリ配列を使用して、1つ以上の標的ゲノムの検索を実行することと、
相同核酸配列のゲノム座標を、1つ以上の標的ゲノム中の予測されるタンパク質配列に対応するゲノム座標と比較することと
を含む、実施形態1~30のいずれか1つのコンピュータ実装方法。
32.相同核酸配列が単一の予測されるタンパク質配列に対応する核酸配列と重複し、その重複が指定された核酸配列重複閾値より大きい場合、予測されるタンパク質配列がpETaGとして報告される、実施形態31のコンピュータ実装方法。
33.相同核酸配列が複数の予測されるタンパク質配列に対応する核酸配列と重複し、それぞれの重複が指定された核酸配列重複閾値より大きい場合、予測されるタンパク質配列の1つのみがpETaGとして報告される、実施形態31のコンピュータ実装方法。
34.pETaGとして報告される予測されるタンパク質配列が、相同核酸配列および予測されるタンパク質配列に対応する核酸配列が最大の配列同一性パーセント、配列カバレッジパーセント、E値またはビットスコア値を示す予測されるタンパク質配列である、実施形態33のコンピュータ実装方法。
35.pETaGとして報告される予測されるタンパク質配列が、相同核酸配列および予測されるタンパク質配列に対応する核酸配列が最も長い重複配列を示す予測されるタンパク質配列である、実施形態33のコンピュータ実装方法。
36.相同核酸配列が1つ以上の予測されるタンパク質配列に対応する1つ以上の核酸配列と重複するが、それぞれの重複が指定された核酸配列重複閾値未満である場合、最も長い予測されるタンパク質配列がpETaGとして報告される、実施形態31のコンピュータ実装方法。
37.相同核酸配列が予測されるタンパク質配列に対応する核酸配列と重複しない場合、相同核酸配列のゲノム座標がpETaGとして報告される、実施形態31のコンピュータ実装方法。
38.指定された核酸配列重複閾値が、少なくとも20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、または98%の値を有する、実施形態32~37のいずれか1つのコンピュータ実装方法。
39.所与のpETaGについて生成された比較ゲノミクスヒートマップが、第1軸および第2軸に従ってグリッド状に配置された複数のセルを含み、第1軸が複数の異なる標的ゲノムに対応し、複数の異なる標的ゲノムが、それぞれが標的ゲノムの1つの既知のBGCのアンカー遺伝子配列のオルソログを有する複数の陽性ゲノムと、アンカー遺伝子配列のオルソログを有しない複数の陰性ゲノムとを含み、第2軸が、既知のBGCのアンカー遺伝子配列と共局在する複数の標的遺伝子配列に対応し、推定上の埋め込まれた標的遺伝子(pETaG)が、複数の共局在する標的遺伝子配列のうちの1つであり、各セルの数値が、
(i)それぞれの標的ゲノム中のそれぞれの共局在するクエリ遺伝子配列のオルソログの存在または非存在と、
(ii)それぞれの共局在するクエリ遺伝子配列に対するオルソログの配列類似性と、
(iii)それぞれのクエリ遺伝子配列のオルソログがそれぞれのゲノム中のアンカー遺伝子配列のオルソログと共局在するかどうかと
に基づく、実施形態2~38のいずれか1つのコンピュータ実装方法。
40.訓練された機械学習モデルを使用して、比較ゲノミクスヒートマップまたはその基礎となるデータを分析することをさらに含み、機械学習モデルが、グリッド表現中の複数のセル内の数値に基づいて、推定上の埋め込まれた遺伝子が遺伝子クラスターに埋め込まれる尤度を決定するように訓練される、実施形態39のコンピュータ実装方法。
41.訓練された機械学習モデルが、長・短期記憶(LSTM)モデルまたは畳み込みニューラルネットワーク(CNN)を含む、実施形態40のコンピュータ実装方法。
42.pETaGがETaGである確率を予測するために使用される機械学習モデルが教師あり学習モデルを含む、実施形態5~41のいずれか1つのコンピュータ実装方法。
43.教師あり学習モデルが、深層学習モデルを含む、実施形態42のコンピュータ実装方法。
44.教師あり学習モデルが、決定木モデルを含む、実施形態42のコンピュータ実装方法。
45.推定上の埋め込まれた標的遺伝子(pETaG)が、クエリゲノム中の生合成遺伝子クラスター(BGC)によって産生される二次代謝産物に対する耐性遺伝子である尤度を決定するコンピュータ実装方法であって、
a)以下:
i)複数の異なるゲノム中のBGCと共局在する複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づく、pETaGがBGCに関連する尤度であって、複数のゲノムが、BGCのアンカー遺伝子のオルソログを含む複数の陽性ゲノムと、BGCのアンカー遺伝子のオルソログを含まない複数の陰性ゲノムとを含み、アンカー遺伝子がBGCに関連することが知られている、尤度、
ii)複数のゲノムの系統樹におけるpETaGのホモログの最終共通祖先(LCA)の1つ以上の系統発生的特徴、
iii)複数の陽性ゲノム間のpETaGのオルソログおよびアンカー遺伝子のオルソログの共起を示す1つ以上のスコア、
iv)pETaGのオルソログとアンカー遺伝子のオルソログの両方を含む陽性ゲノムにおけるアンカー遺伝子のオルソログ間の配列多様性に関するpETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコア、ならびに
v)複数の陽性ゲノム中のpETaGのホモログのコピー数および複数の陰性ゲノム中のpETaGのホモログのコピー数を示す1つ以上のスコア
から選択される1つ以上のパラメータを決定することと、
b)1つ以上のパラメータに基づいて、pETaGがBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することと
を含む、コンピュータ実装方法。
46.pETaGがクエリゲノム中のBGCと共局在する、実施形態45のコンピュータ実装方法。
47.pETaGが、BGCによる二次代謝産物の産生に関与しない、実施形態46のコンピュータ実装方法。
48.アンカー遺伝子がBGCのコアシンターゼ遺伝子である、実施形態45~47のいずれか1つのコンピュータ実装方法。
49.複数のpETaGのそれぞれについて、pETaGが標的ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することを含む、実施形態45~48のいずれか1つのコンピュータ実装方法。
50.a)閾値を超えるペアワイズ配列類似性を有する複数のゲノム中の推定上のBGCを同定することと、
b)推定上のBGC中のアンカー遺伝子のオルソログと共局在する非生合成遺伝子を同定することであって、非生合成遺伝子が、目的の生物中の複数のクエリ遺伝子のいずれか1つと相同であり、非生合成遺伝子が、BGCによる二次代謝産物の産生に関与していない、同定することと、
c)複数のクエリ遺伝子のそれぞれについて、それぞれの標的遺伝子のタンパク質に対して最も高い配列類似性を有するタンパク質をコードする非生合成遺伝子をpETaGとして同定し、非生合成遺伝子をコードするゲノムを標的ゲノムとして同定することと、
d)複数のクエリ遺伝子のそれぞれについて、それぞれのpETaGが、それぞれの標的ゲノム中のそれぞれのBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することと
を含む、実施形態49のコンピュータ実装方法。
51.a)データベース内のゲノムを、それぞれが閾値を超えるペアワイズ配列類似性を有するゲノムを含む複数のクラスターにクラスタリングすることと、
b)複数のクラスターのそれぞれについて、
i)推定上のBGC中のアンカー遺伝子のオルソログと共局在する非生合成遺伝子を同定することであって、非生合成遺伝子が、目的の生物中の複数のクエリ遺伝子のいずれか1つと相同であり、非生合成遺伝子が、BGCによる二次代謝産物の産生に関与していない、同定することと、
ii)複数のクエリ遺伝子のそれぞれについて、それぞれのクエリ遺伝子のタンパク質と最も高い配列類似性を有するタンパク質をコードする非生合成遺伝子を候補pETaGとして同定することと、
c)pETaG間の配列類似性に基づいて候補pETaGを複数のクラスターにクラスタリングし、各クラスター中のそれぞれのクエリ遺伝子のタンパク質に対して最も高い配列類似性を有するタンパク質をコードする候補pETaGをpETaGとして、およびpETaGをコードするそれぞれのゲノムを標的ゲノムとして同定することと、
d)複数のクエリ遺伝子のそれぞれについて、それぞれのpETaGが、それぞれの標的ゲノム中のそれぞれのBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することと
を含む、実施形態49のコンピュータ実装方法。
52.閾値が、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも少なくとも98%のペアワイズ配列類似性である、実施形態50または実施形態51のコンピュータ実装方法。
53.同定された非生合成遺伝子のそれぞれが、それぞれのクエリ遺伝子によってコードされるタンパク質に対して少なくとも約30%の配列同一性を有するタンパク質をコードする、実施形態50~52のいずれか1つのコンピュータ実装方法。
54.複数のクエリ遺伝子が、目的の生物におけるすべてのタンパク質コード遺伝子である、実施形態50~53のいずれか1つのコンピュータ実装方法。
55.目的の生物が哺乳動物である、実施形態50~54のいずれか1つのコンピュータ実装方法。
56.目的の生物がヒトである、実施形態55のコンピュータ実装方法。
57.目的の生物が、爬虫類、鳥類、両生類、動物、植物、真菌または細菌である、実施形態50~54のいずれか1つのコンピュータ実装方法。
58.複数のゲノムが真菌ゲノムである、実施形態55または実施形態56のコンピュータ実装方法。
59.複数のゲノムが細菌ゲノムである、実施形態55または実施形態56のコンピュータ実装方法。
60.複数のゲノムが植物ゲノムである、実施形態55または実施形態56のコンピュータ実装方法。
61.複数のクラスターのそれぞれが、約10~約100のゲノムを含む、実施形態54~60のいずれか1つのコンピュータ実装方法。
62.目的の生物における創薬可能な標的を同定するコンピュータ実装方法であって、実施形態45~61のいずれか1つの方法を行うことと、クエリ遺伝子のそれぞれのpETaGが標的ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度に基づいて、創薬可能な標的としてクエリ遺伝子を同定することとを含む、コンピュータ実装方法。
63.二次代謝産物またはそのアナログを、クエリ遺伝子の小分子モジュレーターまたはクエリ遺伝子によってコードされるタンパク質として同定することをさらに含む、実施形態62のコンピュータ実装方法。
64.二次代謝産物またはそのアナログをクエリ遺伝子によってコードされるタンパク質と接触させることと、クエリ遺伝子によってコードされるタンパク質の活性を検出することとをさらに含む、実施形態63のコンピュータ実装方法。
65.陽性ゲノムの数が陰性ゲノムの数に等しい、実施形態45~64のいずれか1つのコンピュータ実装方法。
66.ゲノムのデータベースから複数の陽性ゲノムおよび複数の陰性ゲノムを選択することを含む、実施形態65のコンピュータ実装方法。
67.配列類似性に基づいてゲノムのデータベースを複数のクラスターにクラスタリングすることと、複数の陽性ゲノムを提供するためにクラスターごとに1つの陽性ゲノムを選択することとを含む、実施形態66のコンピュータ実装方法。
68.クラスター中の各陽性ゲノムに対して最も高い配列類似性を有する陰性ゲノムを選択することを含む、実施形態67のコンピュータ実装方法。
69.陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下であり、および/または陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下である、実施形態66~68のいずれか1つのコンピュータ実装方法。
70.陽性ゲノムの数が少なくとも5である、実施形態45~69のいずれか1つのコンピュータ実装方法。
71.1つ以上のパラメータが、複数の異なるゲノム中のBGC中の複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づいて、pETaGがBGCに関連する尤度を含む、実施形態45~70のいずれか1つのコンピュータ実装方法。
72.pETaGがBGCに関連する尤度を決定することが、
a)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を受信することであって、第1軸が複数のゲノムに対応し、第2軸がクエリゲノム中のBGC中の複数のクエリ遺伝子に対応し、各セルが、
i)それぞれのゲノム中のそれぞれのクエリ遺伝子のオルソログの存在または非存在と、
ii)それぞれのクエリ遺伝子に対するオルソログの配列類似性と、
iii)それぞれのクエリ遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうか
に基づく、受信することと、
b)グリッド表現を機械学習モデルに入力することであって、機械学習モデルが、グリッド表現中の複数のセルの値に基づいてpETaGがBGCに関連する尤度を決定するように訓練され、それによってpETaGがBGCに関連する尤度を提供する、入力することと
を含む、実施形態71のコンピュータ実装方法。
73.a)複数のゲノム由来の推定上のBGCのライブラリからpETaGを含む推定上のBGCを同定し、推定上のBGC中の最も長い生合成遺伝子をコアシンターゼ遺伝子として同定することと、
b)コアシンターゼ遺伝子のオルソログを含む複数の陽性ゲノムおよびコアシンターゼ遺伝子のオルソログを含まない複数の陰性ゲノムを得ることであって、複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、複数の陰性ゲノムが複数の陽性ゲノムとの配列類似性に基づいて選択される、得ることと、
c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、第1軸が、クエリゲノム中の推定上のBGC中のコアシンターゼ遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、第2軸が、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルが、
i)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、
ii)それぞれのタンパク質コード遺伝子に対するオルソログの配列類似性と、
iii)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のコアシンターゼ遺伝子のオルソログと共局在するかどうかと
に基づいて計算される、グリッド表現を作成することと
をさらに含む、実施形態72のコンピュータ実装方法。
74.機械学習モデルが、複数の事前定義された尤度カテゴリのそれぞれに対する確率を出力するように構成された分類モデルである、実施形態72または実施形態73のコンピュータ実装方法。
75.分類モデルが、長・短期記憶(LSTM)モデルである、実施形態74のコンピュータ実装方法。
76.分類モデルが、畳み込みニューラルネットワーク(CNN)である、実施形態74のコンピュータ実装方法。
77.分類モデルが、人工ニューラルネットワーク(ANN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、ビジョントランスフォーマーモデル、敵対的生成ネットワーク(GAN)モデル、変分オートエンコーダモデル、または潜在拡散モデルである、実施形態74のコンピュータ実装方法。
78.複数の事前定義された尤度カテゴリが、(1)尤度が高い、(2)尤度がどちらかといえば高い、(3)尤度がどちらかといえば低い、(4)尤度が低い、を含む、実施形態74~77のいずれか1つのコンピュータ実装方法。
79.1つ以上のパラメータが、複数の陽性ゲノムおよび陰性ゲノムの系統樹におけるpETaGのホモログの最終共通祖先(LCA)の1つ以上の系統発生的特徴を含む、実施形態45~78のいずれか1つのコンピュータ実装方法。
80.1つ以上の系統発生的特徴が、複数の陽性ゲノム中の遺伝子と複数の陰性ゲノム中の遺伝子と複数の陽性ゲノムから決定された値との間の平均コピー数差(CND)、LCAに対する平均の比、LCAに対する標準偏差の比、隣接距離の平均の比、隣接距離の比の標準偏差、およびクレード比の和からなる群から選択される、実施形態79のコンピュータ実装方法。
81.1つ以上のパラメータが、複数の陽性ゲノム中のpETaGのオルソログおよびアンカー遺伝子のオルソログの共起を示す1つ以上のスコアを含む、実施形態45~80のいずれか1つのコンピュータ実装方法。
82.共起を示す1つ以上のスコアが、共起pETaG距離、共起pETaGランク、共起コア距離、および共起コアランクからなる群から選択される、実施形態81のコンピュータ実装方法。
83.1つ以上のパラメータが、pETaGのオルソログとアンカー遺伝子のオルソログの両方を含む陽性ゲノム中、アンカー遺伝子のオルソログ間の配列多様性に関して、pETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコアを含む、実施形態45~82のいずれか1つのコンピュータ実装方法。
84.共進化を示す1つ以上のスコアが、共進化相関、共進化ランク、および共進化勾配からなる群から選択される、実施形態83のコンピュータ実装方法。
85.1つ以上のパラメータが、複数の陽性ゲノムおよび複数の陰性ゲノムの1つ以上の特徴をさらに含む、実施形態79~84のいずれか1つの方法。
86.1つ以上の特徴が、陽性ゲノムの数、陽性ゲノム間のペアワイズゲノム同一性(PGI)の平均、陽性ゲノム間のPGIの標準偏差、陰性ゲノムの数、陰性ゲノム間の平均PGI、および陰性ゲノム間のPGIの標準偏差からなる群から選択される、実施形態85のコンピュータ実装方法。
87.1つ以上のパラメータに基づいて尤度を決定することが、1つ以上の特徴を機械学習モデルに入力することを含み、機械学習モデルが、pETaGが耐性遺伝子である尤度を決定するように訓練されている、実施形態45~86のいずれか1つのコンピュータ実装方法。
88.機械学習モデルが深層学習モデルである、実施形態87のコンピュータ実装方法。
89.機械学習モデルが決定木モデルである、実施形態87のコンピュータ実装方法。
90.機械学習モデルがベイズ推定モデルである、実施形態87のコンピュータ実装方法。
91.機械学習モデルがロジスティック回帰モデルである、実施形態87のコンピュータ実装方法。
92.遺伝子がBGCのアンカー遺伝子と共局在するかどうかが、antiSMASHを使用して決定される、実施形態45~91のいずれか1つのコンピュータ実装方法。
93.遺伝子がBGCのアンカー遺伝子と共局在するかどうかが、遺伝子がアンカー遺伝子から近接距離内に位置するかどうかに基づいて決定される、実施形態45~92のいずれか1つのコンピュータ実装方法。
94.近接ゾーンが約50kb以下である、実施形態93のコンピュータ実装方法。
95.近接ゾーンが約20kbである、実施形態93のコンピュータ実装方法。
96.システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
メモリが、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに以下:
i)入力として、1つ以上のクエリ配列、またはそのプロキシを受信させ、
ii)1つ以上の標的ゲノムの選択を入力として受信させ、
iii)1つ以上のクエリ配列のホモログである推定上の埋め込まれた標的遺伝子(pETaG)配列を、候補pETaGについての1つ以上の相同配列ベースのメトリックと1つ以上の所定の相同配列ベースのメトリック閾値との比較に基づいて、同定するために、1つ以上のクエリ配列またはそのプロキシを使用して1つ以上の標的ゲノムの検索を実行させ、
iv)1つ以上の標的ゲノムに関係する複数のゲノムの比較ゲノミクス分析に基づいて、所与のpETaGが実際のETaGであるかどうかを決定する
ことを実行させる命令を格納するように構成されている、システム。
97.システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
メモリが、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに、推定上の埋め込まれた標的遺伝子(pETaG)が、クエリゲノム中の生合成遺伝子クラスター(BGC)によって産生される二次代謝産物に対する耐性遺伝子である尤度を決定する方法を実行させる命令を格納するように構成されており、方法が、
a)以下:
i)複数の異なるゲノム中のBGCと共局在する複数のクエリ遺伝子のそれぞれのオルソログの存在または非存在に基づく、pETaGがBGCに関連する尤度であって、複数のゲノムが、BGCのアンカー遺伝子のオルソログを含む複数の陽性ゲノムと、BGCのアンカー遺伝子のオルソログを含まない複数の陰性ゲノムとを含み、アンカー遺伝子がBGCに関連することが知られている、尤度、
ii)複数のゲノムの系統樹におけるpETaGのホモログの最終共通祖先(LCA)の1つ以上の系統発生的特徴、
iii)複数の陽性ゲノム間のpETaGのオルソログおよびアンカー遺伝子のオルソログの共起を示す1つ以上のスコア、
iv)pETaGのオルソログとアンカー遺伝子のオルソログの両方を含む陽性ゲノムにおけるアンカー遺伝子のオルソログ間の配列多様性に関するpETaGのオルソログ間の配列多様性の共進化を示す1つ以上のスコア、ならびに
v)複数の陽性ゲノム中のpETaGのホモログのコピー数および複数の陰性ゲノム中のpETaGのホモログのコピー数を示す1つ以上のスコア
から選択される1つ以上のパラメータを決定することと、
b)1つ以上のパラメータに基づいて、pETaGがBGCによって産生される二次代謝産物に対する耐性遺伝子である尤度を決定することと
を含む、システム。
98.システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
メモリが、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに実施形態1~95のいずれか1つの方法を実行させる命令を格納するように構成されている、システム。
99.1つ以上のプログラムを格納し、1つ以上のプログラムが、電子デバイスの1つ以上のプロセッサによって実行されると、電子デバイスに実施形態1~95のいずれか1つの方法を実行させる命令を含む、非一時的コンピュータ可読記憶媒体。
【0296】
上記の説明は、説明を目的として、特定の例または態様を参照して説明されている。しかしながら、上記の例示的な説明は、網羅的であること、または本発明を開示された正確な形態に限定することを意図するものではない。明瞭さおよび簡潔な説明のために、特徴は、本明細書では同じまたは別個の変形の一部として説明される。しかしながら、本開示の範囲は、記載された特徴の全部または一部の組み合わせを有する変形例を含むことが理解されよう。上記の教示を考慮して、多くの修正および変形が可能である。変形例は、技術の原理およびそれらの実際の適用を最もよく説明するために選択され、説明された。それにより、他の当業者は、企図される特定の使用に適した様々な修正を伴う技術および様々な変形を最良に利用することが可能になる。
【0297】
本開示および実施例は、添付の図面を参照して十分に説明されているが、様々な変更および修正が当業者には明らかになることに留意されたい。そのような変更および修正は、特許請求の範囲によって定義される本開示および例の範囲内に含まれると理解されるべきである。最後に、本出願で参照される特許および刊行物の全開示は、参照により本明細書に組み込まれる。
図1
図2
図3
図4
図5
図6
図7
図8A-1】
図8A-2】
図8A-3】
図8B-1】
図8B-2】
図8C-1】
図8C-2】
図9A
図9B
図10A
図10B
図11A-1】
図11A-2】
図11B-1】
図11B-2】
図11C-1】
図11C-2】
図11D-1】
図11D-2】
図12A
図12B
図12C
図12D
図12E
図13
図14
図15
図16
図17
図18
図19
図20
【国際調査報告】