IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ライフマイン セラピューティクス, インコーポレイテッドの特許一覧

特表2024-542154生合成遺伝子クラスターに関連する遺伝子を同定するための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】生合成遺伝子クラスターに関連する遺伝子を同定するための方法およびシステム
(51)【国際特許分類】
   G16B 40/00 20190101AFI20241106BHJP
【FI】
G16B40/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024527067
(86)(22)【出願日】2022-11-04
(85)【翻訳文提出日】2024-07-02
(86)【国際出願番号】 US2022049016
(87)【国際公開番号】W WO2023081396
(87)【国際公開日】2023-05-11
(31)【優先権主張番号】63/263,638
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/278,065
(32)【優先日】2021-11-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520087055
【氏名又は名称】ライフマイン セラピューティクス, インコーポレイテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】ハッジトマス、ミハリス
(72)【発明者】
【氏名】ワイカ、スティーブン アンドリュー
(72)【発明者】
【氏名】キム、ジヌ
(72)【発明者】
【氏名】リン、ユー - チェン
(72)【発明者】
【氏名】マクフェイデン、イアン ジェイムス
(72)【発明者】
【氏名】ヴァーダイン、グレッグ
(57)【要約】
本開示は、潜在的な治療標的のホモログである埋め込まれた標的遺伝子(ETaG)を含む、生合成遺伝子クラスター(BGC)に関連する遺伝子を同定するための方法およびシステムに関する。本明細書に記載の方法およびシステムは、比較ゲノミクスおよび手動レビューまたは機械学習モデルを適用してヒートマップなどのグリッド表現を分析し、これはクエリゲノム中のBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する複数のクエリ遺伝子のオルソログ(例えば、双方向ベストヒット)の複数の多様なゲノム分布を評価する。
【特許請求の範囲】
【請求項1】
a)複数のゲノムからのクエリゲノム中の推定上の埋め込まれた遺伝子を含む推定上の遺伝子クラスターを同定することであって、前記推定上の遺伝子クラスターが、前記遺伝子クラスターに関連することが知られているアンカー遺伝子を含み、前記アンカー遺伝子が、前記推定上の埋め込まれた遺伝子と共局在する、同定することと、
b)前記アンカー遺伝子のオルソログを含む複数の陽性ゲノムおよび前記アンカー遺伝子のオルソログを含まない複数の陰性ゲノムを同定することであって、前記複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、前記複数の陰性ゲノムが、前記複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される、同定することと、
c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、前記第1軸が、前記クエリゲノム中の推定上のBGC中の前記アンカー遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、前記第2軸が、前記複数の陽性ゲノムおよび前記複数の陰性ゲノムに対応し、各セルが、
(1)前記それぞれのゲノム中の前記それぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、
(2)前記それぞれのタンパク質コード遺伝子に対する前記オルソログの配列類似性と、
(3)前記それぞれのタンパク質コード遺伝子の前記オルソログが前記それぞれのゲノム中の前記アンカー遺伝子の前記オルソログと共局在するかどうかと
に基づく、グリッド表現を作成することと
を含む、コンピュータ実装方法。
【請求項2】
推定上の埋め込まれた遺伝子が遺伝子クラスターに関連する尤度を決定するためのコンピュータ実装方法であって、推定上の埋め込まれた遺伝子が、クエリゲノム中の遺伝子クラスターに関連することが知られているアンカー遺伝子と共局在し、
a)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を受信することであって、第1軸が複数の異なるゲノムに対応し、複数のゲノムが、各々がアンカー遺伝子のオルソログを有する複数の陽性ゲノムと、前記アンカー遺伝子のオルソログを有しない複数の陰性ゲノムとを含み、前記第2軸が、前記クエリゲノム中のBGCの前記アンカー遺伝子と共局在する複数のクエリ遺伝子オルソログに対応し、前記推定上の埋め込まれた遺伝子が前記複数のクエリ遺伝子のうちの1つであり、各セルが、
(i)前記それぞれのゲノム中の前記それぞれのクエリ遺伝子のオルソログの存在または非存在と、
(ii)前記それぞれのクエリ遺伝子に対する前記オルソログの配列類似性と、
(iii)前記それぞれのクエリ遺伝子の前記オルソログが、前記それぞれのゲノム中の前記アンカー遺伝子の前記オルソログと共局在化しているかどうかと
に基づく、受信することと、
b)前記グリッド表現またはそのサブセクションを機械学習モデルに入力することであって、前記機械学習モデルが、前記グリッド表現内の前記複数のセルの値に基づいて、前記推定上の埋め込まれた遺伝子が前記遺伝子クラスターに埋め込まれる尤度を決定するように訓練され、それにより、前記推定上の埋め込まれた遺伝子が前記遺伝子クラスターに関連する前記尤度を提供する、入力することと
を含む、方法。
【請求項3】
前記グリッド表現を生成することをさらに含む、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記グリッド表現を生成することが、
a)複数のゲノムからのクエリゲノム中の推定上の埋め込まれた遺伝子を含む推定上の遺伝子クラスターを同定することであって、前記推定上の遺伝子クラスターが、前記遺伝子クラスターに関連することが知られているアンカー遺伝子を含み、前記アンカー遺伝子が、前記推定上の埋め込まれた遺伝子と共局在する、同定することと、
b)前記アンカー遺伝子のオルソログを含む複数の陽性ゲノムおよび前記アンカー遺伝子のオルソログを含まない複数の陰性ゲノムを同定することであって、前記複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、前記複数の陰性ゲノムが、前記複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される、同定することと、
c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、前記第1軸が、前記クエリゲノム中の前記推定上の遺伝子クラスター中の前記アンカー遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、前記第2軸が、前記複数の陽性ゲノムおよび前記複数の陰性ゲノムに対応し、各セルが、
(1)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、
(2)前記それぞれのタンパク質コード遺伝子に対する前記オルソログの配列類似性と、
(3)前記それぞれのタンパク質コード遺伝子の前記オルソログが前記それぞれのゲノム中の前記アンカー遺伝子の前記オルソログと共局在するかどうかと
に基づく、グリッド表現を作成することと
を含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記機械学習モデルが、複数の事前定義された尤度カテゴリのそれぞれに対する確率を出力するように構成された分類モデルである、請求項2~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記分類モデルが、長・短期記憶(LSTM)モデルまたは畳み込みニューラルネットワーク(CNN)モデルである、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記複数の事前定義された尤度カテゴリが、(1)尤度が高い、(2)尤度がどちらかといえば高い、(3)尤度がどちらかといえば低い、(4)尤度が低い、を含む、請求項5または6に記載のコンピュータ実装方法。
【請求項8】
前記グリッド表現がヒートマップ表現である、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
前記グリッド表現および前記尤度を表示することをさらに含む、請求項2~8のいずれか一項に記載のコンピュータ実装方法。
【請求項10】
前記グリッド表現が階層的にクラスタリングされる、請求項1~9のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
前記陽性ゲノムの数が前記陰性ゲノムの数に等しい、請求項1~10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
前記複数の陽性ゲノムが、データベース内のゲノムの配列類似性に基づいて複数のゲノムクラスターから選択され、前記グリッド表現内の2つの陽性ゲノムが同じゲノムクラスターに属さない、請求項10または11に記載のコンピュータ実装方法。
【請求項13】
各陰性ゲノムが、陽性ゲノムに対して最も高い配列類似性または最も短い系統発生的距離を有するが、前記アンカー遺伝子のオルソログを有しない前記データベース内のゲノムを同定することによって選択される、請求項12に記載のコンピュータ実装方法。
【請求項14】
前記陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下である、および/または前記陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下である、請求項1~13のいずれか一項に記載のコンピュータ実装方法。
【請求項15】
前記第1軸が少なくとも20のゲノムに対応する、請求項1~14のいずれか一項に記載のコンピュータ実装方法。
【請求項16】
前記第1軸が約50のゲノムに対応する、請求項15に記載のコンピュータ実装方法。
【請求項17】
前記複数のゲノムが真菌ゲノムである、請求項1~16のいずれか一項に記載のコンピュータ実装方法。
【請求項18】
前記複数のゲノムが植物ゲノムである、請求項1~16のいずれか一項に記載のコンピュータ実装方法。
【請求項19】
前記複数のゲノムが細菌ゲノムである、請求項1~16のいずれか一項に記載のコンピュータ実装方法。
【請求項20】
遺伝子が遺伝子クラスターのアンカー遺伝子と共局在するかどうかが、antiSMASHを使用して決定される、請求項1~19のいずれか一項に記載のコンピュータ実装方法。
【請求項21】
遺伝子が遺伝子クラスターのアンカー遺伝子と共局在するかどうかが、前記遺伝子が前記アンカー遺伝子の上流または下流の近接ゾーン内に位置するかどうかに基づいて決定される、請求項1~20のいずれか一項に記載のコンピュータ実装方法。
【請求項22】
前記近接ゾーンが50kb以下である、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記近接ゾーンが約20kbである、請求項22に記載のコンピュータ実装方法。
【請求項24】
前記遺伝子クラスターが生合成遺伝子クラスター(BGC)である、請求項1~24のいずれか一項に記載のコンピュータ実装方法。
【請求項25】
クエリゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子を同定するためのコンピュータ実装方法であって、
(a)前記クエリゲノム中の前記BGC中のアンカー遺伝子と共局在する、前記BGCによる前記二次代謝産物の産生に関与していない推定上の埋め込まれた遺伝子を同定することと、
(b)前記推定上の埋め込まれた遺伝子が前記BGCに関連する尤度を決定するために、請求項2~24のいずれか一項に記載の方法を実行することと、
(c)前記推定上の埋め込まれた遺伝子が前記BGCに関連する前記尤度に少なくとも部分的に基づいて、前記推定上の埋め込まれた遺伝子を耐性遺伝子として同定することと
を含む、コンピュータ実装方法。
【請求項26】
標的遺伝子の小分子モジュレーターを同定するためのコンピュータ実装方法であって、
(a)真菌ゲノムのBGCのアンカー遺伝子と共局在しており、前記BGCによる二次代謝産物の産生に関与していない、前記真菌ゲノム中の前記標的遺伝子の相同遺伝子を同定することと、
(b)前記相同遺伝子が前記BGCに関連する尤度を決定するために請求項2~24のいずれか一項に記載の方法を実行することと、
(c)前記相同遺伝子が前記BGCに関連する前記尤度に少なくとも部分的に基づいて、前記二次代謝産物またはそのアナログを、前記標的遺伝子の小分子モジュレーターとして同定することと
を含む、コンピュータ実装方法。
【請求項27】
前記相同遺伝子が、前記標的遺伝子によってコードされるタンパク質に対して少なくとも約30%の配列同一性を有するタンパク質をコードする、請求項26に記載のコンピュータ実装方法。
【請求項28】
前記二次代謝産物またはそのアナログを前記標的遺伝子によってコードされるタンパク質と接触させることと、前記標的遺伝子によってコードされる前記タンパク質の活性を検出することとをさらに含む、請求項26または27に記載のコンピュータ実装方法。
【請求項29】
前記標的遺伝子が哺乳動物遺伝子である、請求項26~28のいずれか一項に記載のコンピュータ実装方法。
【請求項30】
前記哺乳動物遺伝子がヒト遺伝子である、請求項29のコンピュータ実装方法。
【請求項31】
前記標的遺伝子が、爬虫類遺伝子、鳥類遺伝子、または両生類遺伝子である、請求項26~28のいずれか一項に記載のコンピュータ実装方法。
【請求項32】
前記標的遺伝子が細菌遺伝子である、請求項26~28のいずれか一項に記載のコンピュータ実装方法。
【請求項33】
前記標的遺伝子が真菌遺伝子である、請求項26~28のいずれか一項に記載のコンピュータ実装方法。
【請求項34】
前記標的遺伝子が植物遺伝子である、請求項26~28のいずれか一項に記載のコンピュータ実装方法。
【請求項35】
BGCに関連する複数の遺伝子を同定するコンピュータ実装方法であって、
(a)クエリゲノム中のBGCのアンカー遺伝子と共局在する複数のクエリ遺伝子を同定することと、
(b)前記複数のクエリ遺伝子のそれぞれについて、請求項2~24のいずれか一項に記載の方法を使用して、前記それぞれのクエリ遺伝子が前記BGCに関連する尤度を決定することと、
(c)前記BGCに関連する、閾値よりも高い尤度である高い尤度を有するクエリ遺伝子を、前記BGCに関連する前記複数の遺伝子として同定することと
を含む、コンピュータ実装方法。
【請求項36】
クエリ遺伝子が哺乳動物タンパク質に相同な遺伝子である、請求項2~35のいずれか一項に記載のコンピュータ実装方法。
【請求項37】
前記哺乳動物タンパク質がヒトタンパク質である、請求項36に記載のコンピュータ実装方法。
【請求項38】
クエリ遺伝子が、爬虫類タンパク質、鳥類タンパク質、または両生類タンパク質に相同な遺伝子である、請求項2~35のいずれか一項に記載のコンピュータ実装方法。
【請求項39】
クエリ遺伝子が、細菌タンパク質に対応する遺伝子である、請求項2~35のいずれか一項に記載のコンピュータ実装方法。
【請求項40】
クエリ遺伝子が真菌タンパク質に対応する遺伝子である、請求項2~35のいずれか一項に記載のコンピュータ実装方法。
【請求項41】
クエリ遺伝子が植物タンパク質に対応する遺伝子である、請求項2~35のいずれか一項に記載のコンピュータ実装方法。
【請求項42】
前記アンカー遺伝子が前記BGCのコアシンターゼ遺伝子である、請求項1~41のいずれか一項に記載のコンピュータ実装方法。
【請求項43】
システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
前記メモリが、前記1つ以上のプロセッサに通信可能に結合され、前記1つ以上のプロセッサによって実行されると、前記システムに請求項1~42のいずれか一項に記載の方法を実行させる命令を格納するように構成されている、システム。
【請求項44】
1つ以上のプログラムを格納し、前記1つ以上のプログラムが、電子デバイスの1つ以上のプロセッサによって実行されると、前記電子デバイスに請求項1~42のいずれか一項に記載の方法を実行させる命令を含む、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月5日に出願された米国仮特許出願第63/263,638号の優先権の利益、および2021年11月10日に出願された米国仮特許出願第63/278,065号の優先権の利益を主張し、これらのそれぞれの内容は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、一般に、遺伝子クラスター(例えば、生合成遺伝子クラスター)に関連する遺伝子を同定するための方法およびシステム、ならびに遺伝子クラスター(例えば、生合成遺伝子クラスターの境界)の境界を決定する方法、治療標的を同定する方法、および創薬のための方法を含むその適用に関する。
【背景技術】
【0003】
微生物は、多様な化学構造および機能を有する二次代謝産物または天然産物として知られる多種多様な小分子化合物を産生する。いくつかの二次代謝産物は、微生物が有害な環境に耐えることを可能にするが、他の二次代謝産物は種間および種内競合の武器として働く。例えば、Piel、J.Nat.Prod.Rep.、26巻:338~362頁、2009年を参照されたい。多くのヒト医薬品(例えば、抗菌剤、抗腫瘍剤、および殺虫剤を含む)は、二次代謝産物に由来している。例えば、Newman D.J.およびCragg G.M.、J.Nat.Prod.、79巻:629~661頁、2016年を参照されたい。
【0004】
微生物は、生合成遺伝子クラスター(BGC)と呼ばれる共局在する遺伝子のクラスターによってコードされる酵素タンパク質を使用して二次代謝産物を合成する。いくつかの微生物生合成遺伝子クラスターは、クラスターによってコードされる酵素によって産生される関連生合成産物の合成に関与していないように見える遺伝子を含有するという証拠が現れつつある。いくつかの場合では、そのような非生合成遺伝子は、宿主生物を関連生合成産物に対して明らかに耐性にすることができるタンパク質をコードするので、「自己保護」として記載されている。例えば、いくつかの場合では、生合成産物のトランスポーターをコードする非生合成遺伝子、生合成産物に作用する解毒酵素、または生合成産物によりその活性が標的とされるタンパク質の耐性変異体が報告されている。例えば、Cimermancicら、Cell 158巻:412頁、2014年;Keller、Nat.Chem.Biol.11巻:671頁、2015年を参照されたい。研究者らは、そのような遺伝子の同定およびそれらの機能の決定が、クラスターの酵素によって合成される生合成産物の役割を決定するのに有用であり得ることを提案している。例えば、Yehら、ACS Chem.Biol.11巻:2275頁、2016年;Tangら、ACS Chem.Biol.10巻:2841頁、2015年;Regueiraら、Appl,Environ.Microbiol.77巻:3035頁、2011年;Kennedyら、Science 284巻:1368頁、1999年;Lowtherら、Proc.Natl.Acad.Sci.USA 95巻:12153頁、1998年;Abeら、Mol.Genet.Genomics 268巻:130頁、2002年を参照されたい。米国特許出願公開第2020/0211673号は、生合成遺伝子クラスターに存在するか、またはクラスター(特に、細菌の生合成遺伝子クラスターとは対照的な、真核生物、例えば真菌の生合成遺伝子クラスター)の生合成遺伝子に近接して存在する特定の非生合成遺伝子が、治療目的の標的であるヒト遺伝子のホモログを表し得るという洞察を提供する。そのような非生合成遺伝子は、「埋め込まれた標的遺伝子」または「ETaG」と呼ばれる。
【0005】
従来、二次代謝産物は、微生物培養物から同定され、目的のヒト標的に対する治療活性についてスクリーニングされてきた。しかしながら、大部分の微生物は培養可能ではなく、培養可能な微生物中のBGCでさえも、実験室条件下で転写的にサイレントのままであり得る。核酸およびタンパク質の配列決定技術ならびにバイオインフォマティクスパイプラインにおける最近の発展により、微生物を培養しBGCの生物活性を試験する必要なく、環境微生物から多数のBGCを迅速に同定することが可能になった。例えば、Palazzotto E.およびWeber T、Curr.Opin.Microbiol.、45巻:109~116頁、2018年を参照されたい。しかしながら、純粋に計算的な方法を用いてBGCのゲノム境界を正確に定義することは依然として課題である。BGCによって産生される二次代謝産物に対する自己保護を付与する、BGCに埋め込まれた遺伝子を同定するために利用可能な計算パイプラインもない。
【発明の概要】
【0006】
遺伝子クラスター(例えば、一次または二次代謝産物の合成に関与する生合成遺伝子クラスター(BGC))に関連する(または遺伝子クラスター中に埋め込まれた)遺伝子を同定するための例示的な方法、システム、および非一時的記憶媒体が、本明細書に開示される。開示された方法およびシステムは、ゲノム中の遺伝子クラスターの境界(例えば、BGCの境界)を決定するため、クラスターの埋め込まれた遺伝子を同定するため、BGCによって産生される二次代謝産物に対する耐性遺伝子を同定するため、または標的遺伝子(すなわち、目的の遺伝子)もしくは標的遺伝子によってコードされるタンパク質の小分子モジュレーターの同定を補助するために使用され得る。
【0007】
本出願の一態様は、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を決定するためのコンピュータ実装方法であって、推定上の埋め込まれた遺伝子が、クエリゲノム中の遺伝子クラスター(例えば、BGC)に関連することが知られているアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在し、a)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現(例えば、ヒートマップ)を受信することであって、第1軸が複数の異なるゲノムに対応し、第2軸が、クエリゲノム中の遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する複数のクエリ遺伝子に対応し、推定上の埋め込まれた遺伝子が複数のクエリ遺伝子オルソログのうちの1つであり、各セルが、(i)それぞれのゲノム中のそれぞれのクエリ遺伝子のオルソログ(例えば、双方向ベストヒットまたは「BBH」)の存在または非存在と、(ii)それぞれのクエリ遺伝子に対するオルソログ(例えば、BBH)の配列類似性と、(iii)それぞれのクエリ遺伝子のオルソログ(例えば、BBH)が、それぞれのゲノム中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)と共局在化しているかどうかとに基づく、受信することと、b)グリッド表現を機械学習モデルに入力することであって、機械学習モデルが、グリッド表現内の複数のセルの値に基づいて、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に埋め込まれる尤度を決定するように訓練され、それにより、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を提供する、入力することとを含む、方法を提供する。いくつかの実施形態では、アンカー遺伝子は、遺伝子クラスターのコアシンターゼ遺伝子(すなわち、最も長い生合成遺伝子)である。いくつかの実施形態では、遺伝子のオルソログは、遺伝子のBBHである。いくつかの実施形態では、グリッド表現はデータ行列(例えば、テーブル)である。いくつかの実施形態では、グリッド表現はヒートマップである。いくつかの実施形態では、グリッド表現は、より大きなグリッド表現のサブセット(例えば、より大きなデータ行列またはヒートマップのサブセクション)である。いくつかの実施形態では、グリッド表現および/またはその1つ以上のサブセクションは、機械学習モデルの入力として使用することができる。
【0008】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、方法は、グリッド表現を作成することをさらに含む。いくつかの実施形態では、本方法は、a)複数のゲノムからのクエリゲノム中の推定上の埋め込まれた遺伝子を含む推定上の遺伝子クラスター(例えば、推定上のBGC)を同定することであって、推定上の遺伝子クラスターが、遺伝子クラスターに関連することが知られているアンカー遺伝子(例えば、コアシンターゼ遺伝子)を含み、アンカー遺伝子が、推定上の埋め込まれた遺伝子と共局在する、同定することと、b)アンカー遺伝子のオルソログ(例えば、BBH)を含む複数の陽性ゲノムおよびアンカー遺伝子のオルソログ(例えば、BBH)を含まない複数の陰性ゲノムを同定することであって、複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、複数の陰性ゲノムが、複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される、同定することと、c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、第1軸が、クエリゲノム中の推定上の遺伝子クラスター中のアンカー遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、第2軸が、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルが、(1)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログ(例えば、BBH)の存在または非存在と、(2)それぞれのタンパク質コード遺伝子に対するオルソログ(例えば、BBH)の配列類似性と、(3)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうかとに基づく、グリッド表現を作成することとをさらに含む。
【0009】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、機械学習モデルは、複数の事前定義された尤度カテゴリ(例えば、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に埋め込まれる尤度のカテゴリ)のそれぞれに対する確率を出力するように構成された分類モデルである。いくつかの実施形態では、分類モデルは、長・短期記憶(LSTM)モデルである。いくつかの実施形態では、分類モデルは畳み込みニューラルネットワーク(CNN)モデルである。いくつかの実施形態では、分類モデルは、ビジョントランスフォーマーモデル(vision transformer model)、敵対的生成ネットワークモデル、変分オートエンコーダモデル、または潜在拡散モデルである。いくつかの実施形態では、例えば、複数の事前定義された尤度カテゴリは、(1)尤度が高い、(2)尤度がどちらかといえば高い、(3)尤度がどちらかといえば低い、(4)尤度が低い、を含む。
【0010】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、機械学習モデルは、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する確率を出力するように構成された回帰モデルである。いくつかの実施形態では、回帰モデルは、ロジスティック回帰モデルである。
【0011】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、方法は、グリッド表現および尤度を表示することをさらに含む。
【0012】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、グリッド表現は、第1軸および/または第2軸に沿って順序付けられる。いくつかの実施形態では、グリッド表現は、例えば第1軸または第2軸に沿って、階層的にクラスタリングされる。いくつかの実施形態では、グリッド表現は、複数のゲノム間の系統関係に基づいて(例えば、複数のゲノムの系統樹に基づいて)第1軸に沿って順序付けられる。いくつかの実施形態では、グリッド表現は、複数のゲノム間のペアワイズ配列類似性に基づいて第1軸に沿って順序付けられる。いくつかの実施形態では、グリッド表現は、クエリゲノム中の複数のクエリ遺伝子の位置に基づいて、第2軸に沿って順序付けられる。いくつかの実施形態では、グリッド表現は、クエリゲノム中の複数のクエリ遺伝子の機能的注釈付けに基づいて、第2軸に沿って順序付けられる。
【0013】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、複数のゲノムは、それぞれアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログを有する複数の陽性ゲノムと、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログを有しない複数の陰性ゲノムとを含む。いくつかの実施形態では、陽性ゲノムの数は、陰性ゲノムの数に等しい。いくつかの実施形態では、複数の陽性ゲノムは、データベース内のゲノムの配列類似性に基づいて複数のゲノムクラスターから選択され、グリッド表現内の2つの陽性ゲノムは同じゲノムクラスターに属さない。いくつかの実施形態では、各陰性ゲノムは、陽性ゲノムに対して最も高い配列類似性または最も短い系統発生的距離を有するが、アンカー遺伝子のオルソログを有しないデータベース内のゲノムを同定することによって選択される。いくつかの実施形態では、陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージは、約99.5%以下(例えば、約99%、98%、95%、90%、85%、80%、75%、70%、65%、60%、55%、または50%以下のいずれか1つ)であり、および/または陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージは、約99.5%以下(例えば、約99%、98%、95%、90%、85%、80%、75%、70%、65%、60%、55%、または50%以下のいずれか1つ)である。
【0014】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、第1軸は、少なくとも2、4、8、16、20、30、40、50、75、100、150、200、250またはそれを超えるゲノムに対応する。いくつかの実施形態では、第1軸は約50のゲノムに対応する。
【0015】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、複数のゲノムは真菌ゲノムである。いくつかの実施形態では、複数のゲノムは植物界(緑藻および/または植物)ゲノムである。いくつかの実施形態では、複数のゲノムは細菌ゲノムである。いくつかの実施形態では、複数のゲノムは古細菌ゲノムである。いくつかの実施形態では、複数のゲノムは原生動物ゲノムである。いくつかの実施形態では、複数のゲノムは、クロミスタ(例えば、褐藻類、珪藻類、クリプト藻類など)ゲノムである。いくつかの実施形態では、複数のゲノムは動物ゲノムである。
【0016】
上記のコンピュータベースの方法のいずれか1つによるいくつかの実施形態では、遺伝子が遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在するかどうかは、antiSMASH、SMURF、TOUCAN、またはdeepBGCを使用して決定される。いくつかの実施形態では、遺伝子が遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在するかどうかは、antiSMASHを使用して決定される。いくつかの実施形態では、遺伝子が遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在するかどうかは、遺伝子がアンカー遺伝子(例えば、コアシンターゼ遺伝子)の上流または下流の近接ゾーン内に位置するかどうかに基づいて決定される。いくつかの実施形態では、近接ゾーンは、約200kb、100kb、90kb、80kb、70kb、60kb、50kb、45kb、40kb、35kb、30kb、25kb、20kb、15kb、10kbまたは5kbのいずれか1つ以下である。いくつかの実施形態では、近接ゾーンは、少なくとも約5kb、10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kbまたはそれを超えるもののいずれか1つである。いくつかの実施形態では、近接ゾーンは、約5kb~20kb、5kb~50kb、5kb~100kb、5kb~200kb、20kb~50kb、20kb~100kb、20kb~200kb、50kb~100kb、50kb~200kb、10kb~50kbまたは10kb~100kbのいずれか1つである。いくつかの実施形態では、近接ゾーンは、約50kbである。いくつかの実施形態では、近接ゾーンは、約20kbである。
【0017】
本出願の別の態様は、クエリゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子を同定するための方法であって、(a)クエリゲノム中のBGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する(例えば、50kb、20kb、または任意のユーザに指定された距離以下の近接ゾーン内)、BGCによる二次代謝産物の産生に関与していない推定上の埋め込まれた遺伝子を同定することと、(b)推定上の埋め込まれた遺伝子がBGCに関連する尤度を決定するために、本明細書中に記載されるコンピュータベースの方法のいずれか1つによる方法を実行することと、(c)埋め込まれた遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、推定上の埋め込まれた遺伝子を耐性遺伝子として同定することとを含む、方法を提供する。
【0018】
本出願の別の態様は、哺乳動物標的遺伝子(すなわち、目的の哺乳動物遺伝子)の小分子モジュレーターを同定する方法であって、(a)真菌ゲノムのBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在しており、BGCによる二次代謝産物の産生に関与していない、真菌ゲノム中の哺乳動物標的遺伝子の相同遺伝子を同定することと、(b)相同遺伝子がBGCに関連する尤度を決定するために本明細書に記載されているコンピュータベースの方法のいずれか1つによる方法を実行することと、(c)相同遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、二次代謝産物またはそのアナログを、哺乳動物標的遺伝子の小分子モジュレーターとして同定することとを含む、方法を提供する。いくつかの実施形態では、相同遺伝子は、哺乳動物標的遺伝子によってコードされるタンパク質と少なくとも約20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、85%、90%、95%またはそれを超える配列同一性または相同性を有するタンパク質をコードする。いくつかの実施形態では、相同遺伝子は、哺乳動物標的遺伝子によってコードされるタンパク質と少なくとも約30%の配列同一性または相同性を有するタンパク質をコードする。いくつかの実施形態では、本方法は、二次代謝産物またはそのアナログを哺乳動物標的遺伝子によってコードされるタンパク質と接触させることと、哺乳動物標的遺伝子によってコードされるタンパク質の活性(例えば、二次代謝産物またはそのアナログへの結合)を検出することをさらに含む。
【0019】
本出願の別の態様は、BGCに関連する複数の遺伝子を同定する方法であって、(a)クエリゲノム中のBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する複数のクエリ遺伝子を同定することと、(b)複数のクエリ遺伝子のそれぞれについて、上記のコンピュータベースの方法のいずれか1つによる方法を使用して、それぞれのクエリ遺伝子がBGCに関連する尤度を決定することと、(c)BGCに関連する、閾値を超える高い尤度を有するクエリ遺伝子を、BGCに関連する複数の遺伝子として同定することとを含む、方法を提供する。
【0020】
本出願の一態様は、a)複数のゲノムからのクエリゲノム中の推定上の埋め込まれた遺伝子を含む推定上の生合成遺伝子クラスター(BGC)を同定することであって、推定上のBGCが、BGCに関連することが知られているアンカー遺伝子を含み、アンカー遺伝子が、推定上の埋め込まれた遺伝子と共局在する、同定することと、b)アンカー遺伝子のオルソログを含む複数の陽性ゲノムおよびアンカー遺伝子のオルソログを含まない複数の陰性ゲノムを同定することであって、複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、複数の陰性ゲノムが、複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される、同定することと、c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、第1軸が、クエリゲノム中の推定上のBGC中のアンカー遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、第2軸が、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルが、(1)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、(2)それぞれのタンパク質コード遺伝子に対するオルソログの配列類似性と、(3)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうかとに基づく、グリッド表現を作成することとを含む、コンピュータ実装方法を提供する。いくつかの実施形態では、アンカー遺伝子は、BGCのコアシンターゼ遺伝子(例えば、最も長い生合成遺伝子)である。いくつかの実施形態では、遺伝子のオルソログは、遺伝子の双方向ベストヒット(BBH)である。いくつかの実施形態では、本方法は、グリッド表現を階層的にクラスタリングすることをさらに含む。いくつかの実施形態では、本方法は、例えば、複数のゲノム間の系統関係(例えば、系統樹)に基づいて、または複数のゲノム間のペアワイズ配列類似性(例えば、ペアワイズゲノム比較に由来するクラドグラム)に基づいて、第1軸に沿ってグリッド表現を順序付けることをさらに含む。いくつかの実施形態では、グリッド表現はデータ行列(例えば、テーブル)である。いくつかの実施形態では、グリッド表現はヒートマップである。いくつかの実施形態では、本方法は、グリッド表現を表示することをさらに含む。いくつかの実施形態では、グリッド表現は、より大きなグリッド表現のサブセット(例えば、より大きなデータ行列またはヒートマップのサブセクション)である。いくつかの実施形態では、グリッド表現および/またはその1つ以上のサブセクションは、機械学習モデルの入力として使用することができる。
【0021】
1つ以上のプログラムを格納し、1つ以上のプログラムが、電子デバイスの1つ以上のプロセッサによって実行されると、電子デバイスに本明細書に記載の技術もしくは方法、または方法の1つ以上のコンピュータベースの工程のいずれかを実行させる命令を含む、非一時的コンピュータ可読記憶媒体も、本明細書に開示される。
【0022】
前述の概念および以下でより詳細に説明される追加の概念のすべての組み合わせは、(そのような概念が相互に矛盾しない限り)本明細書に開示される発明の主題の一部であると考えられることを理解されたい。特に、本開示の最後に現れる特許請求される主題のすべての組み合わせは、本明細書に開示される本発明の主題の一部であると考えられる。
【0023】
参照による組み込み
本明細書において言及されるすべての刊行物、特許、および特許出願は、あたかも各個々の刊行物、特許、または特許出願が参照によりその全体が組み込まれることが具体的かつ個別に示されているのと同程度に、参照によりその全体が本明細書に組み込まれる。本明細書の用語と組み込まれた参考文献の用語との間に矛盾がある場合、本明細書の用語が支配する。
【0024】
開示された方法、デバイス、およびシステムの様々な態様は、添付の特許請求の範囲に詳細に記載されている。開示された方法、デバイス、およびシステムの特徴および利点のより良い理解は、例示的な実施形態の以下の詳細な説明および添付の図面を参照することによって得られるであろう。
【図面の簡単な説明】
【0025】
図1】antiSMASHによって予測される例示的な推定上の生合成遺伝子クラスター(BGC)を示す図である。
【0026】
図2】ゲノムデータのグリッド表現(例えば、ヒートマップ)を生成するための例示的な方法を示す図である。
【0027】
図3】いくつかの例による、クエリゲノム中の遺伝子クラスター(例えば、BGC)のコアシンターゼ遺伝子と共局在する推定上の埋め込まれた遺伝子がBGCに関連する尤度を決定するための例示的な方法を示す図である。
【0028】
図4A-1】例示的なヒートマップを示す図である。
図4A-2】例示的なヒートマップを示す図である。
図4A-3】例示的なヒートマップを示す図である。
【0029】
図4B-1】入力ヒートマップを複数の尤度カテゴリ(例えば、4つの尤度カテゴリまたは階層)のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す図である。一連のメモリ階層を備えるLSTMモデルの例示的な図である。
図4B-2】入力ヒートマップを複数の尤度カテゴリ(例えば、4つの尤度カテゴリまたは階層)のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す図である。一連のメモリ階層を備えるLSTMモデルの例示的な図である。
図4C-1】入力ヒートマップを複数の尤度カテゴリ(例えば、4つの尤度カテゴリまたは階層)のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す図である。LSTMモデルの出力の例示的な図である。
図4C-2】入力ヒートマップを複数の尤度カテゴリ(例えば、4つの尤度カテゴリまたは階層)のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す図である。LSTMモデルの出力の例示的な図である。
【0030】
図5A】それぞれ「階層A+」、「階層1」、「階層2」、および「階層3」カテゴリについてのヒートマップの手動分類と機械学習ベースの分類とを比較するテーブルである。
【0031】
図5B】陽性予測値、陰性予測値、感度値、および特異度値を含む、「階層A+」、「階層1」、「階層2」、および「階層3」についてのヒートマップの手動分類と機械学習ベースの分類とを比較するテーブルを示す図である。
【0032】
図6A】antiSMASHによる予測されるロバスタチンBGCと比較してロバスタチンBGCの真の境界を同定する、ロバスタチンのBGCの例示的なヒートマップを示す図である。
図6B】antiSMASHによる予測されるロバスタチンBGCと比較してロバスタチンBGCの真の境界を同定する、ロバスタチンのBGCの例示的なヒートマップを示す図である。
【0033】
図7A-1】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層A+」に分類される例示的なヒートマップの図である。
図7A-2】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層A+」に分類される例示的なヒートマップの図である。
図7B-1】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層1」に分類される例示的なヒートマップの図である。
図7B-2】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層1」に分類される例示的なヒートマップの図である。
図7C-1】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層2」に分類される例示的なヒートマップの図である。
図7C-2】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層2」に分類される例示的なヒートマップの図である。
図7D-1】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層3」に分類される例示的なヒートマップの図である。
図7D-2】手動でレビューされ、異なる尤度カテゴリとして分類された例示的なヒートマップを示す図である。「階層3」に分類される例示的なヒートマップの図である。
【0034】
図8A】データテーブルに編成され、ニューラルネットワークを訓練するために利用され得る特徴のセット(例えば、最大27個以上の特徴)のデータテーブルを示す図である。
【0035】
図8B】推定上の埋め込まれた遺伝子(例えば、pETaG)がBGCに関連する確率値(すなわち、「埋め込まれた遺伝子確率値」(例えば、ETaG)確率値」))を出力するように訓練されたニューラルネットワークの初期訓練段階を示す図である。
【0036】
図8C】埋め込まれた遺伝子の確率値(例えば、ETaG確率値)を出力するように訓練されたニューラルネットワークのさらなる訓練段階を示す図である。
【0037】
図8D】ETaG確率値を出力するように訓練されたニューラルネットワークの推論段階を示す図である。
【0038】
図8E】特徴の未知の入力データセットおよび特徴のそれぞれに対するETaG確率値の対応する出力を含む例示的なデータテーブルを示す図である。
【発明を実施するための形態】
【0039】
本開示は、グリッド表現(例えば、ヒートマップ)を使用する比較ゲノミクス分析によって、遺伝子クラスター(例えば、生合成遺伝子クラスター(BGC))に関連する遺伝子を同定する方法を提供する。グリッド表現は、遺伝子クラスター(BGC)、その生合成もしくは非生合成遺伝子、または他の目的の遺伝子に近接して見られる遺伝子間の共起および共局在の視覚的および機械学習ベースの評価を可能にする。
【0040】
生合成遺伝子クラスターを同定するために最も一般的に使用されるバイオインフォマティクスツールはantiSMASHであり、これは特定の重要なタンパク質ドメインの存在に基づいて40種類を超えるBGCに注釈を付ける。現在、遺伝子クラスター、例えばBGCのゲノム境界を正確に予測するために利用可能な良好な方法はない。antiSMASHは、以下のアルゴリズムを使用してBGC領域を定義する。第1の工程では、分析された配列のすべての遺伝子産物を、特定のBGCタイプを示す高度に保存された酵素(例えば、コア酵素)についての隠れマルコフモデル(HMM)プロファイルのデータベースに対して検索する。第2の工程では、予め定義されたクラスター規則を採用して、分析された配列領域にコードされた個々の「クラスター」を定義する。同定された各クラスターは、クラスター規則をトリガーするコア遺伝子産物またはコアシンターゼ遺伝子を含む。antiSMASHは、コアシンターゼ遺伝子の上流および下流に所定の長さ、例えば20kbだけ伸長することによってBGC領域を定義する。異なるクラスター型の所定の長さは経験的に決定され、一般にBGCの一部として隣接遺伝子を過剰に含む傾向がある。例えば、Blink K.ら(2017年)、Nucleic Acids Res.、45巻、W36~W41頁、およびWeber T.ら、antiSMASH5,antiSMASH Database Manual(2019年)を参照されたい。したがって、antiSMASHを使用して、またはBGCのコアシンターゼ遺伝子に近接していることに基づいてBGCの一部として同定された遺伝子は、BGCによって産生される二次代謝産物と機能的に関係しない可能性がある。
【0041】
この問題を解決するために、本明細書に記載の方法およびシステムは、比較ゲノミクスおよび機械学習アルゴリズムを活用して、多数の多様なゲノムにわたって遺伝子クラスター(例えば、BGC)に関連することが知られているアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する遺伝子のオルソログ、例えば双方向ベストヒット(BBH)の分布を表すヒートマップを評価して、クエリゲノム中の遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在するクエリ遺伝子(例えば、参照またはクエリゲノム中の遺伝子)のオルソログが標的または問い合わせされたゲノム中の遺伝子クラスター(BGC)に関連する尤度を決定する。機械学習モデルは、手動でキュレートされたヒートマップを使用して訓練することができ、それには、遺伝子クラスター(BGCなど)に関連することが知られているかまたは実験的に検証された共局在非生合成遺伝子、遺伝子クラスター(BGCなど)と機能的関連がないことが知られているかまたは実験的に検証された共局在非生合成遺伝子、および境界例を含む遺伝子を表す手動でキュレートされたヒートマップが含まれる。訓練された機械学習アルゴリズムは、多数のゲノムからの配列情報を使用して、BGCなどの遺伝子クラスター中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する多数の推定上の埋め込まれた遺伝子の迅速な評価を可能にし、遺伝子クラスターの境界を描写する精度を大幅に改善する。さらに、本方法は、時間と費用がかかる実験検証プロセスによる評価を含む、下流評価のためのBGCなどの遺伝子クラスター中の推定上の埋め込まれた遺伝子の優先順位付けを可能にする。
【0042】
本明細書に記載の方法は、遺伝子クラスター境界を定義するために、すなわち染色体上に共局在する機能的に関係する遺伝子を同定するために使用することができる。遺伝子クラスターまたはそのタンパク質産物は、生合成(例えば、二次代謝および一次代謝)、免疫、細胞構造、スカベンジング、エネルギーおよびセンシングなどの様々な細胞機能に関与し得る。特に、本明細書に記載の方法は、BGCに関連する遺伝子を同定することによって、異なるゲノムにおけるBGCの境界を定義するために使用することができる。
【0043】
さらに、方法を使用して、二次代謝産物の産生に必要なBGCに埋め込まれた耐性遺伝子(例えば、BGCによって産生される二次代謝産物の作用に対する耐性を宿主生物に付与する遺伝子)を同定することができる。BGCに埋め込まれた耐性遺伝子の同定は、哺乳動物ゲノムにホモログを有し得るBGCコード小分子のタンパク質標的(ETaG産物)の脱オーファン化を可能にする。ETaGの哺乳動物ホモログは、候補治療標的として役立ち得、二次代謝産物は、そのような哺乳動物ホモログに対するモジュレーターを開発するための小分子足場を提供し得る。
【0044】
定義
本明細書で使用される場合、「二次代謝産物」は、古細菌、細菌、真菌または植物によって産生される有機小分子化合物であって、宿主生物の正常な成長、発達または生殖に直接関与しないが、宿主生物とその環境との相互作用に必要とされる有機小分子化合物を指す。二次代謝産物は、天然産物または遺伝的にコードされた小分子としても知られている。「二次代謝産物」という用語は、生合成遺伝子クラスターの産物を指す場合、本明細書では「生合成産物」と互換的に使用される。
【0045】
「生合成遺伝子クラスター」または「BGC」という用語は、本明細書では互換的に使用され、二次代謝産物の産生のための生合成経路を共にコードする1つ以上の遺伝子の局所的にクラスタリングされた群を指す。例示的なBGCには、非リボソームペプチドシンテターゼ(NRPS)、ポリケチドシンターゼ(PKS)、テルペンおよびバクテリオシンを合成するための生合成遺伝子クラスターが含まれるが、これらに限定されない。例えば、Keller N、「Fungal secondary metabolism:regulation,function and drug discovery」、Nature Reviews Microbiology 17巻3号(2019年):167~180頁、ならびにFischbach M.およびVoigt C.A.、PROKARYOTIC GENE CLUSTERS:A RICH TOOLBOX FOR SYNTHETIC BIOLOGY.:Institute of Medicine(US)Forum on Microbial Threats.The Science and Applications of Synthetic and Systems Biology:Workshop Summary.Washington(DC):National Academies Press(US);2011年、A21を参照されたい。BGCは、各タイプのBGCに特徴的なシグネチャー生合成タンパク質をコードする遺伝子を含有する。BGCにおける最も長い生合成遺伝子は、本明細書ではBGCの「コアシンターゼ遺伝子」と呼ばれる。二次代謝産物の生合成に関与する遺伝子に加えて、BGCには、非生合成遺伝子、すなわち、生合成遺伝子の間に散在する、二次代謝産物の生合成に関与しない産物をコードする遺伝子も含まれ得る。非生合成遺伝子は、それらの産物がBGCの二次代謝産物に機能的に関係する場合、本明細書ではBGCに「関連する」または「埋め込まれた」と呼ばれる。「アンカー遺伝子」は、BGCと共局在し、BGCと機能的に関係する(すなわち、関連する)ことが知られている生合成遺伝子または非生合成遺伝子を指す。
【0046】
「共局在する」という用語は、近接した空間に2つ以上の遺伝子が存在すること、例えばゲノム中、約200kb以下、約100kb以下、約50kb以下、約40kb以下、約30kb以下、約20kb以下、約10kb以下、約5kb以下、またはそれ未満離れている遺伝子を指す。
【0047】
「ホモログ」という用語は、遺伝子配列(すなわち、核酸配列)および/またはそれらのタンパク質産物の配列が共通の起源から継承されている遺伝子のセットの一部である遺伝子を指す。ホモログは、種分化事象を通じて、または遺伝子重複事象を通じて、または水平方向の遺伝子伝播事象を通じて生じ得る。ホモログは、系統発生的方法によって、または整列した核酸もしくはタンパク質配列中の共通の機能的ドメインの同定を通じて、または配列比較を通じて、同定され得る。
【0048】
「オルソログ」という用語は、種分化によって共通の祖先の遺伝子から進化したと予測される2つ以上の遺伝子を指す。「双方向ベストヒット」および「BBH」という用語は、本明細書では互換的に使用され、2つのゲノム中の遺伝子対、すなわち、第1のゲノム中の第1の遺伝子および第2のゲノム中の第2の遺伝子、の間の関係を指し、第1の遺伝子またはそのタンパク質産物は、第2のゲノム中の第2の遺伝子またはそのタンパク質産物と比較して、第1のゲノム中に最も類似した配列を有すると同定されており、第2の遺伝子またはそのタンパク質産物は、第1のゲノム中の第1の遺伝子またはそのタンパク質産物と比較して、第2のゲノム中に最も類似した配列を有すると同定されている。第1の遺伝子は第2の遺伝子の双方向ベストヒット(またはBBH)であり、第2の遺伝子は第1の遺伝子の双方向ベストヒット(またはBBH)である。BBHの同定は、オルソロジーを推論するために一般的に使用される方法である。
【0049】
本明細書に記載されるタンパク質配列に関する「配列同一性パーセント(%)」または「配列相同性パーセント(%)」は、配列を整列させ、任意の保存的置換を配列同一性の一部として考慮した後の、それが比較されているポリペプチド中のアミノ酸残基と同一または相同である候補ポリペプチド配列中のアミノ酸残基のパーセンテージとして定義される。異なるアミノ酸残基間の相同性は、BLOSUM(BLOcks SUbstitution Matrix)などの代替行列に基づいて決定される。アミノ酸配列同一性パーセントを決定するためのアラインメントは、例えば、BLAST、BLAST-2、ALIGNまたはMegalign(DNASTAR)ソフトウェアなどの公的に入手可能なコンピュータソフトウェアを使用して、当業者に公知の様々な方法で達成することができる。当業者であれば、比較される配列の全長にわたって最大のアラインメントを達成するために必要な任意のアルゴリズムを含め、アラインメントを測定するための適切なパラメータを決定することができる。
【0050】
本明細書で使用される場合、2つの遺伝子間の「配列類似性」は、遺伝子によってコードされる核酸(例えば、DNAまたはmRNA)配列または遺伝子産物のアミノ酸配列のいずれかの類似性を意味する。
【0051】
以下の説明において、以下の説明で使用される単数形「a」、「an」、および「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図されることを理解されたい。本明細書で使用される「および/または」という用語は、関連する列挙された項目のうちの1つ以上のありとあらゆる可能な組み合わせを指し、包含することも理解されたい。さらに、「含む(includes)」、「含む(including)」、「備える(comprises)」、および/または「備える(comprising)」という用語は、本明細書で使用される場合、記載された特徴、整数、工程、動作、要素、構成要素、および/またはユニットの存在を指定するが、1つ以上の他の特徴、整数、工程、動作、要素、構成要素、ユニット、および/またはそれらの群の存在または追加を排除するものではないことを理解されたい。
【0052】
本開示の特定の態様は、アルゴリズムの形態で本明細書に記載されるプロセス工程および命令を含む。本開示のプロセス工程および命令は、ソフトウェア、ファームウェア、またはハードウェアで具現化され得、ソフトウェアで具現化される場合、様々なオペレーティングシステムによって使用される異なるプラットフォームに存在し、そこから動作するようにダウンロードされ得ることに留意されたい。以下の説明から明らかなように、特に明記しない限り、説明全体を通して、「処理する」、「計算する」、「算出する」、「決定する」、「表示する」、「生成する」などの用語を利用する説明は、コンピュータシステムのメモリもしくはレジスタまたは他のそのような情報記憶デバイス、伝送デバイス、もしくはディスプレイデバイス内の物理(電子)量として表されるデータを操作し変換するコンピュータシステムまたは同様の電子計算デバイスの動作およびプロセスを指すことが理解される。
【0053】
本明細書で使用される項の見出しは、構成上の目的のためだけであり、記載された主題を限定するものと解釈されるべきではない。説明は、当業者が本発明を製造および使用することを可能にするために提示され、特許出願およびその要件の文脈で提供される。
【0054】
グリッド表現分析方法
本明細書に記載のシステムおよび方法は、機械学習アルゴリズムを使用して、多様なゲノムにわたって、例えばBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する遺伝子のオルソログのグリッド表現(例えば、ヒートマップ、またはデータ行列)を評価する、遺伝子クラスター、例えば生合成遺伝子クラスター(BGC)に関連する遺伝子の同定に関する。
【0055】
図1は、antiSMASHによって予測される例示的な推定上のBGC領域を示す。BGCは、二次代謝産物の産生のための生合成経路において、シグネチャー生合成酵素を含む酵素をコードする一連の遺伝子を含み、そのうち本明細書で最も長いものを「コア生合成タンパク質」と呼ぶ。BGC中、生合成遺伝子と共局在する非生合成遺伝子は、目的の治療標的を含むヒトタンパク質のホモログであり得る。そのような非生合成遺伝子は、BGCによって産生される二次代謝産物に機能的に関係し得るか、または機能的に無関係な産物をコードし得る。目的のヒトタンパク質のホモログであるBGC中の非生合成遺伝子は、推定上の埋め込まれた標的遺伝子(pETaG)である。本明細書に記載の方法は、比較ゲノミクスを活用して、目的の遺伝子がBGCに関連する尤度を決定する。
【0056】
図2は、機械学習アルゴリズム(人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、LSTM、ビジョントランスフォーマーモデル、敵対的生成ネットワーク(GAN)モデル、変分オートエンコーダモデル、潜在拡散モデルなど)に入力することができるゲノムデータのグリッド表現(例えば、ヒートマップ)を生成して、pETaGがゲノム中の遺伝子クラスター(例えば、BGC)に関連する尤度を決定するための、例示的な方法200を示す。
【0057】
図3は、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を決定するための例示的な方法300を示す。プロセス200およびプロセス300は、例えば、ソフトウェアプラットフォームを実装する1つ以上の電子デバイスを使用して実行される。いくつかの例では、プロセス200および/またはプロセス300は、クライアント-サーバシステムを使用して実行され、プロセス200および/またはプロセス300のブロックは、サーバと1つ以上のクライアントデバイスとの間で任意の方法で分割される。いくつかの例では、プロセス200および/またはプロセス300は、1つのクライアントデバイスのみまたは複数のクライアントデバイスのみを使用して実行される。プロセス200および/または300において、いくつかのブロックは、任意選択的に組み合わされ、いくつかのブロックの順序は、任意選択的に変更され、いくつかのブロックは、任意選択的に省略される。いくつかの例では、プロセス200および/またはプロセス300と組み合わせて追加の工程を実行することができる。したがって、示されている(および以下により詳細に説明されている)動作は、本質的に例示的なものであり、したがって、限定的であると見なされるべきではない。
【0058】
グリッド表現
図3のブロック302において、例示的なシステム(例えば、1つ以上の電子デバイス)は、第1軸および第2軸に従って配置された複数のセルを含むゲノムデータのグリッド表現(ヒートマップ表現など)を受信し、第1軸は複数の異なるゲノム(例えば、非哺乳動物ゲノム)に対応し、第2軸はクエリ(または参照)ゲノム中の遺伝子クラスター(例えば、BGC)のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する複数のクエリ遺伝子に対応し、推定上の埋め込まれた遺伝子は複数のクエリ遺伝子のうちの1つである。グリッド表現中の各セルは、以下に基づく値を有する:(i)それぞれのクエリ遺伝子のオルソログ(すなわち、セルに対応するクエリ遺伝子)がそれぞれのゲノム(すなわち、セルに対応するゲノム)に存在するか、または存在しないか、(ii)それぞれのクエリ遺伝子に対するオルソログの配列類似性、および(iii)それぞれのクエリ遺伝子のオルソログが、それぞれのゲノム中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログと共局在するかどうか。
【0059】
本明細書に記載のグリッド表現は、当業者に公知の様々な形態のいずれかをとることができる。例えば、グリッド表現は、第1軸および第2軸に従って配置され、データ行列内のセルのそれぞれについて本明細書に記載の値を有する2次元データ行列(例えば、テーブルまたはアレイ)などのデータ行列であってもよい。いくつかの実施形態では、グリッド表現は、データの1つ以上の行列(例えば、テーブル)を含む。例えば、グリッド表現中のセルの値(すなわち、(i)それぞれのクエリ遺伝子のオルソログ(すなわち、セルに対応するクエリ遺伝子)がそれぞれのゲノム(すなわち、セルに対応するゲノム)に存在するか、または存在しないか、(ii)それぞれのクエリ遺伝子に対するオルソログの配列類似性、および(iii)それぞれのクエリ遺伝子のオルソログが、それぞれのゲノム中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログと共局在するかどうか)の各セット、またはそれらの組み合わせは、別個のテーブルに格納され、本明細書に記載の機械学習ベースの方法の入力として使用され得る。いくつかの実施形態では、グリッド表現は、データの視覚化を容易にする、基礎となるデータ行列の物理的表現、例えばヒートマップであってもよい。
【0060】
クエリ(または参照)ゲノム中の各クエリ遺伝子に関して、任意の所与のゲノム(例えば、標的ゲノム)中のオルソログは、クエリ遺伝子のコード配列もしくはクエリ遺伝子によってコードされるタンパク質配列に基づいて、または当技術分野で公知の方法を使用して系統関係に基づいて同定され得る。例えば、所与のゲノム中のクエリ遺伝子のオルソログは、クエリ遺伝子に対して最も高い配列類似性を有するか、または配列類似性が所定の閾値を超えるタンパク質をコードする所与のゲノム中の遺伝子であり得る。配列類似性は、配列同一性パーセント、配列相同性パーセント、ビットスコア、およびe値を含む、当業者に公知の様々なパラメータのいずれかによって定量することができる。所定の閾値は、例えば、少なくとも約20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、96%、97%、98%、99%またはそれより高いいずれか1つの配列同一性パーセントまたは配列相同性パーセントであり得る。
【0061】
いくつかの実施形態では、所与のゲノム中のクエリ遺伝子のオルソログは、所与のゲノム中のクエリ遺伝子の双方向ベストヒット(BBH)であり得る。BBHを同定する方法は、例えばMoreno-Hagelsieb G、Latimer,K.、Bioinformatics.2008年2月1日;24巻(3号):319~24頁に記載されている。例えば、所与のゲノム中のクエリ遺伝子のBBHを同定するために、所与のゲノムは、クエリ遺伝子によってコードされるタンパク質と最も高い配列類似性を有するタンパク質をコードする遺伝子(「推定上のBBH」)について最初に検索される。この検索に続いて、クエリゲノム中で同定された推定上のBBHと最も高い配列類似性を有するタンパク質をコードする遺伝子についてクエリゲノムが検索される、相互検索が行われる。相互検索で同定された遺伝子が元のクエリ遺伝子である場合、推定上のBBHは真のBBHである。あるいは、所与のゲノム中のクエリ遺伝子のオルソログは、例えば、Wall DP、Deluca T、Methods Mol Biol.2007年、396巻:95~110頁に説明されているような相互の最小距離法を使用して同定され得る。
【0062】
クエリ(または参照)ゲノム中の推定上の埋め込まれた遺伝子を含むクエリ遺伝子は、遺伝子クラスター、例えばBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する。一方の遺伝子が他方の指定された距離または近接ゾーン内にある場合、2つの遺伝子は共局在すると見なされ得る。いくつかの例では、2つの遺伝子間の距離は、例えば、2つの遺伝子のゲノム座標間の最短距離と考えることができる。例えば、遺伝子Aが+鎖上に存在し、位置1~100の範囲の配列を含み、遺伝子Bが-鎖上に存在し、位置300~200の範囲の配列(すなわち、位置300は、-鎖上のその位置に起因する遺伝子配列Bの開始点である)を含む場合、2つの遺伝子間の距離は200-100=100bpである。いくつかの例では、2つの遺伝子間の距離は、2つの遺伝子のゲノム座標間の最も長い距離と考えることができる。いくつかの例では、2つの遺伝子間の距離は、2つの遺伝子の中点のゲノム座標間の距離と考えることができる。推定上の埋め込まれた遺伝子が標的ゲノムのBGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)に対して指定された近接ゾーン内にある場合、標的ゲノム中の推定上の埋め込まれた遺伝子は、標的ゲノム中のBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する。いくつかの実施形態では、近接ゾーンは、BGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)の約1~100kb、例えば、約1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、または100kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子クラスター(例えば、BGC)内のアンカー遺伝子(例えば、コアシンターゼ遺伝子)の約1~10kb、例えば1、2、3、4、5、6、7、8、9または10kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の5kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の10kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の15kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の20kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の25kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の30kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の35kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の40kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の45kb以下の上流または下流である。いくつかの実施形態では、近接ゾーンは、遺伝子の50kb以下の上流または下流である。
【0063】
推定上のBGCは、例えば、生合成遺伝子と非生合成遺伝子の両方を含み、偽遺伝子(例えば、機能的遺伝子に類似するDNAの非機能的セグメント)をさらに含み得る。BGCの生合成ドメインのプロファイル隠れマルコフモデル(pHMM)(すなわち、対応するタンパク質または核酸配列についての多重配列アラインメントの位置依存性スコアリングに基づいて生合成ドメインの生物学的多様性を捕捉する確率モデル)のキュレートされたライブラリは当技術分野で公知であり、ゲノム中でクラスタリングされた生合成遺伝子を同定するために使用することができる。アンカー遺伝子は、BGCに関連するシグネチャー遺伝子のいずれか1つであり得る。例えば、アンカー遺伝子は、BGC中の最大生合成遺伝子であるBGC中のコアシンターゼ遺伝子であり得るか、またはアンカー遺伝子は、クエリ遺伝子に最も近いコアシンターゼ遺伝子であり得る。あるいは、アンカー遺伝子は、BGCに関連することが知られている非生合成遺伝子、例えば、BGCによって産生される二次代謝産物のトランスポーターをコードする遺伝子であり得る。いくつかの実施形態では、推定上のBGC中の複数の遺伝子は、アンカー遺伝子(例えば、コアシンターゼ遺伝子)の上流および下流に所定の長さの窓を延長することによって同定され得る。いくつかの実施形態では、所与のゲノムの推定上のBGC中の複数の遺伝子は、antiSMASHなどのバイオインフォマティクス法を使用して同定することができる。
【0064】
例えば、グリッド表現は、ゲノムQ~Qに対応する第1軸(例えば、Y軸)と、遺伝子G~Gに対応する第2軸(例えば、X軸)とを有することができる。ゲノムQ(1≦i≦n)および遺伝子Gj(1≦i≦n)に対応するセルは、以下に従って第1の色、第2の色および第3の色から選択される値および色を有する。
(i)QがGにBBHを有さない場合、色は第1の色であり、値は0である、または
(ii)QがG中にBBHを有する場合、値は、Q中のGのBBHに対するGの配列同一性パーセンテージに基づき、
(ii-1)G中のBBHがQ中のコアシンターゼ遺伝子のBBHと共局在する場合、色は第2の色であり、または
(ii-2)G中のBBHがQ中のコアシンターゼ遺伝子のBBHと共局在していない場合、色は第3の色である。
【0065】
グリッド表現は、視覚化および手動注釈付けを支援するために階層的にクラスタリングされてもよい。例えば、グリッド表現は、ゲノム間のペアワイズ配列同一性もしくは相同性、ゲノムの系統発生、またはグリッド表現中のすべてのクエリ遺伝子に対応するオルソログの存在もしくは非存在に基づいてクラスタリングされ得る。いくつかの実施形態では、グリッド表現(例えば、ヒートマップ)の第1軸は、グリッド表現に表された複数のゲノムの系統樹に従って編成される。
【0066】
いくつかの実施形態では、推定上の埋め込まれた遺伝子は、目的の哺乳動物タンパク質のホモログ、例えば目的のヒトタンパク質のホモログをコードする推定上の埋め込まれた標的遺伝子(pETaG)である。いくつかの実施形態では、pETaGは発現される哺乳動物核酸配列と相同である。いくつかの実施形態では、哺乳動物核酸配列は、発現される哺乳動物核酸配列である。いくつかの実施形態では、哺乳動物核酸配列は哺乳動物遺伝子である。いくつかの実施形態では、哺乳動物核酸配列は、発現される哺乳動物遺伝子である。いくつかの実施形態では、哺乳動物核酸はヒト核酸配列である。いくつかの実施形態では、ヒト核酸配列は、発現されるヒト核酸配列である。いくつかの実施形態では、ヒト核酸配列はヒト遺伝子である。いくつかの実施形態では、ヒト核酸配列は、発現されるヒト遺伝子である。
【0067】
ゲノムヒートマップの一例を図4A-1~図4A-3に示す。この実施例は、アスタリスク(*)でマークされたゲノム中の、antiSMASHによって同定されたBGC中のpETaGのヒートマップを示す。X軸に沿った各列は、アスタリスク(*)でマークされたクエリ(または参照)ゲノム中で同定されたBGC中の、クエリ遺伝子によってコードされるタンパク質(「タンパク質X」)を表す。いくつかの実施形態では、BGCはantiSMASHによって同定される。いくつかの実施形態では、BGC中の遺伝子は、BGCのコアシンターゼ遺伝子から20kbの近接ゾーン内(すなわち、コアシンターゼ遺伝子の±20kb以内)にある。pETaGおよびコアシンターゼ遺伝子に対応する列を矢印で示す。Y軸に沿った各行は、ゲノムデータベースから選択された独自のゲノム(「ゲノムY」)を表す。ゲノムの半分はコアシンターゼ遺伝子のBBHを含有し、陽性ゲノムと命名される。ゲノムの半分はコアシンターゼ遺伝子のBBHを含有せず、陰性ゲノムと命名される。各セルは、それぞれのクエリ遺伝子のBBHの存在または非存在、およびそれぞれのクエリ遺伝子に対するBBHの配列同一性パーセンテージ(セル内の数)に従って着色または陰影が付けられている。例えば、ゲノムY中にタンパク質XのBBHが存在しない場合、セル(X、Y)はブランクであり、ゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスターにある場合、セル(X、Y)は例えば青色もしくは陽性であり、またはゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスター中にない場合、セル(X、Y)は例えば赤色もしくは陰性である。セル(X、Y)の赤色または青色(またはグレースケールシェーディング)の強度は、タンパク質Xに対するゲノムY中のタンパク質XのBBHの配列同一性パーセンテージに基づく。ヒートマップは、ゲノム間のペアワイズ配列同一性に基づいて階層的にクラスタリングされる。
【0068】
グリッド表現に示されるゲノムはそれぞれ、アセンブルされたゲノム、またはゲノム配列決定から得られた複数のゲノム断片に対応し得る。いくつかの実施形態では、ゲノムは、本明細書中に記載される方法のいずれか1つを使用する分析の前に、antiSMASHなどのバイオインフォマティクスツールを使用して注釈付けされる。例えば、すべての推定上の生合成遺伝子クラスターが同定され、注釈付けされるように、ゲノムのデータベースを構築することができる。例えば、全ゲノムの代わりに推定上のBGCを含有するゲノム断片が、本明細書中に記載される方法の1つ以上の工程において問い合わせされ得る。例えば、遺伝子(例えば、クエリ遺伝子のオルソログ)とアンカー遺伝子(例えば、コアシンターゼ遺伝子)との共局在は、ゲノム中の推定上のBGC注釈付けに基づいて決定することができる。
【0069】
本明細書に記載の方法は、BGCを含有する任意のゲノムに適している。細菌ゲノム、植物ゲノム、および真菌ゲノムは、生合成遺伝子クラスターをコードすることが知られている。いくつかの実施形態では、クエリ(または参照)ゲノムおよびグリッド表現を生成するために使用される複数の問い合わせされた(または標的)ゲノムは、同じ界に属する。いくつかの実施形態では、クエリゲノムおよびグリッド表現を生成するために使用される複数の問い合わせされたゲノムは、異なる界に属する。適切なゲノムには、古細菌、原生動物、クロミスタ(例えば、褐藻類、珪藻類、クリプト藻類など)、植物界(例えば、緑藻類および植物)、真菌、および動物界のゲノムが含まれるが、これらに限定されない。いくつかの実施形態では、クエリゲノムおよび複数の問い合わせされたゲノムは、異なる真菌株のゲノムなどの真菌ゲノムである。いくつかの実施形態では、クエリゲノムおよび複数の問い合わせされたゲノムは、異なる細菌株のゲノムなどの細菌ゲノムである。いくつかの実施形態では、クエリゲノムおよび複数の問い合わせされたゲノムは、異なる植物株のゲノムなどの植物ゲノムである。いかなる理論または仮説にも束縛されることを望むものではないが、真菌ゲノムは、細菌ゲノムまたは植物ゲノムよりも哺乳動物ゲノムに系統発生的に関係する真核生物ゲノムである。したがって、真菌ゲノムは、ETaGを保持するBGCによって産生される二次代謝産物についてのヒト標的遺伝子(すなわち、目的のヒト遺伝子)に対応するETaGの同定に好ましい場合がある。
【0070】
グリッド表現を構築するためには少なくとも2つのゲノムが必要である。いくつかの実施形態では、グリッド表現の第1軸は、少なくとも約10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250またはそれを超えるのゲノムのいずれか1つに対応する。いくつかの実施形態では、グリッド表現の第1軸は少なくとも20のゲノムに対応する。いくつかの実施形態では、グリッド表現の第1軸は約50のゲノムに対応する。多数のゲノムがより多くの比較ゲノミクス情報を提供し得るが、それはまた、大量の計算能力および時間を必要とする。したがって、それらの配列類似性および/または系統関係に関して互いに多様なゲノムの代表的なセットをサンプリングして、方法の性能(例えば、予測の精度)と計算リソースとの間のバランスをとるようにグリッド表現を生成することが望ましい場合がある。
【0071】
グリッド表現に示されるゲノムは、「陽性ゲノム」および「陰性ゲノム」を含み得る。陽性ゲノムは、クエリ(または参照)ゲノム中にコアシンターゼ遺伝子などのアンカー遺伝子のオルソログを有するゲノムである。陰性ゲノムは、クエリ(または参照)ゲノム中にコアシンターゼ遺伝子などのアンカー遺伝子のオルソログを有しないゲノムである。いくつかの実施形態では、陽性ゲノムおよび陰性ゲノムは、ゲノムのデータベースから選択される。いくつかの実施形態では、グリッド表現を構築するために使用される複数のゲノムは、それぞれアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有する複数の陽性ゲノムと、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有しない複数の陰性ゲノムとを含む。いくつかの実施形態では、陽性ゲノムは、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有するゲノムを同定することによってゲノムデータベースから選択され、陰性ゲノムは、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)のないゲノムを同定することによってゲノムデータベースから選択される。陰性ゲノムは、選択された陽性ゲノムに系統発生的に隣接していてもよい。いくつかの実施形態では、陽性ゲノムの数および陰性ゲノムの数は互いに等しい。
【0072】
陽性ゲノムおよび陰性ゲノムは、多数のゲノムを有するデータベースから選択され得る。例えば、データベースは、少なくとも2、10、100、500、1000、5000、10000、15000、20000、25000、30000、35000、40000、45000、50000、100000、200000、500000、1000000、または1000000を超えるゲノムを含有し得る。大きなゲノムデータベースからの陽性ゲノムおよび陰性ゲノムの選択は、データベースからの陽性ゲノムおよび陰性ゲノムを含む多様なゲノムのサンプリングを可能にするために、ゲノムのクラスタリングを必要とし得る。例えば、いくつかの例では、データベースゲノムは、ゲノム中の1つ以上の単一コピー遺伝子の配列類似性、またはアンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログの配列類似性、またはゲノム中の推定上の埋め込まれた遺伝子(例えば、pETaG)に従ってクラスタリングされ得る。クラスタリングは、教師なしクラスタリング方法を用いて行われてもよい。教師なしクラスタリング方法は、例えば、マルコフクラスターアルゴリズム(MCL)、制限された近隣検索クラスター(Restricted Neighborhood Search Cluster)(RNSC)アルゴリズム、アフィニティー伝搬クラスタリングアルゴリズム、スペクトルクラスタリングアルゴリズム、k平均クラスタリングアルゴリズム、または当該技術分野で公知の任意の他の方法の使用を含み得る。あるいは、クラスタリングは、教師ありk平均クラスタリングまたは半教師ありスペクトルクラスタリングなどの、当技術分野で公知の教師ありクラスタリング方法の使用を含んでもよい。クラスタリングの閾値は、クラスターの数に対する所定の目標によって決定されてもよい。例えば、クラスタリングのための閾値は、ゲノム群間の所定の配列類似性レベルであり得、例えば、異なるゲノム群間の配列類似性が、約99.5%、99%、98%、95%、90%、85%、80%、75%、70%、65%、60%、50%、40%、30%、またはそれ未満のいずれか1つ以下であることを必要とする。いくつかの実施形態では、陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログのペアワイズ配列類似性(例えば、配列同一性)パーセントが、約99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、70%、60%、50%、40%、30%、またはそれ未満のいずれか1つを超える陽性ゲノムを選択することが望ましい場合がある。いくつかの実施形態では、陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログのペアワイズ配列類似性(例えば、配列同一性)パーセントが、約99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、70%、60%、50%、40%、30%、またはそれ未満のいずれか1つを超える陰性ゲノムを選択することが望ましい場合がある。各クラスターからの代表的なゲノムは、本明細書に記載の分析工程で使用するためにさらに選択され得る。いくつかの実施形態では、陰性ゲノムは、陽性ゲノムに対して最も高い配列類似性を有するが、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログを欠くゲノムを同定することによって、データベースから選択される。
【0073】
例えば、グリッド表現は、m個のゲノムのデータベースから選択された陽性ゲノムの数nに基づいて構築され得る。第1の工程として、データベース中のm個のゲノムから、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有する陽性ゲノムの数mと、アンカー遺伝子(例えば、コアシンターゼ遺伝子)のオルソログ(例えば、BBH)を有しない陰性ゲノムの数(m-m)とを特定する。mがnより大きい状況では、m個の陽性ゲノムは、陽性ゲノム間の1つ以上の単一コピー遺伝子の平均配列類似性に基づくMCLを使用して(例えば、BUSCOツールを使用して同定される。busco.ezlab.orgを参照されたい)、n個のクラスターにクラスタリングされる。次いで、n個のクラスターのそれぞれから1つの陽性ゲノムを選択して、グリッド表現を構築するためのn個の陽性ゲノムを提供する。n個の陰性ゲノムのそれぞれは、(m-m)個の陰性ゲノムの中で選択された陽性ゲノムに最も類似するゲノム(例えば、最も高い配列類似性を有するゲノム、または最も短い系統発生的距離を有するゲノム)を同定することによって選択される。このゲノム選択方法は、n個の陽性ゲノムおよびn個の陰性ゲノムから構築されたグリッド表現をもたらす。
【0074】
がnよりも小さい状況では、合計2n個のゲノムを有するグリッド表現を構築するために、陽性ゲノムよりも多くの陰性ゲノムが選択され得る。この場合、(m-m)個の陰性ゲノムは(2n-m)個のクラスターにクラスタリングされ得、各クラスターから1つの陰性ゲノムが選択される。あるいは、m個の陽性ゲノムのそれぞれについて、陽性ゲノムと密接に関係する2つ以上の陰性ゲノムが、陽性ゲノムに対するそれらの配列類似性または系統発生的距離に基づいて選択され、その結果、合計2n-m個の陰性ゲノムが選択される。
【0075】
グリッド表現は、例えば、図2に示す方法を使用して生成することができる。
【0076】
第1の任意選択の工程として、下流の計算プロセスのためにリソースファイルを準備することができる。例示的なリソースファイルには、ペアワイズゲノム比較ファイル、標的ゲノム(すなわち、分析のために選択されたゲノム)からの関連タンパク質または遺伝子を含有するファイル(例えば、FASTAファイル)、および任意選択的に、タンパク質または遺伝子のオルソロガス群のクラスター(COG)を含有するリソースファイルが含まれる。
【0077】
ペアワイズゲノム比較ファイルは、データベース内のゲノムのすべての対の間の相同性関係を示すために作成されたファイルである。ゲノム類似性は、ゲノム間のペアワイズゲノム配列類似性またはペアワイズ系統発生的距離のいずれかに基づいて決定することができる。
【0078】
いくつかの例では、ゲノム間のペアワイズ同一性または類似性は、全ゲノム配列を比較することによって、またはタンパク質もしくは遺伝子のサブセットの配列を比較することによって決定することができる。例えば、全ゲノム配列同一性を決定するために、全ゲノムを整列させることができ、アラインメント間のペアワイズ同一性が計算される。あるいは、ペアワイズゲノム同一性は、ゲノムの対の間で共有される単一コピータンパク質(すなわち、アミノ酸配列)または遺伝子(すなわち、ヌクレオチド配列)を比較することによって算出することができる。いくつかの好ましい実施形態では、単一コピータンパク質または遺伝子は、重複または断片化されたタンパク質として使用され、ゲノム相同性の誤った推定値を提供し得る。ゲノム中の単一コピータンパク質または遺伝子は、BUSCO(doi.org/10.1093/molbev/msab199)を使用して注釈付けすることができ、または特定の既知の単一コピータンパク質または遺伝子を使用してゲノム配列類似性を決定することができる。いくつかの実施形態では、単一コピータンパク質は、OrthoMCL、OrthoFinder、またはPanXなどの既知のバイオインフォマティクスツールを使用して同定することができる。ゲノム間で共有されるサブセットまたはすべての単一コピータンパク質または遺伝子は、個別に整列され、トリミングされ、連結されてスーパーアラインメント(super-alignment)を形成する。ペアワイズ同一性は、スーパーアラインメント中の同一の残基の数である。あるいは、類似性スコアは、タンパク質配列が配列類似性を決定するために使用される場合、BLOSUMおよびPAMなどの代替行列に基づいて算出することができる。
【0079】
他の例では、ゲノム類似性は、ゲノム間の系統発生的距離に基づいて決定される。系統発生的距離を決定するために、単一コピータンパク質(すなわち、アミノ酸配列)または遺伝子(すなわち、ヌクレオチド配列)のセットを、MAFFT、MUSCLEまたはClustalWなどの任意のアラインメントソフトウェアを使用して個々に整列させ、trimAI、GBlocksまたはClipKITなどの任意の配列トリミングソフトウェアを使用してトリミングし、連結してスーパーアラインメントを作成することができる。スーパーアラインメントは、ゲノムの系統樹を提供するために、FastTree、IQ-TREE、RAxML、MEGA、MrBayes、BEAST、またはPAUPなどの任意の系統樹構築ソフトウェアによって使用することができる。木は、最尤アルゴリズム、最節約アルゴリズム、近隣結合アルゴリズム、距離行列アルゴリズム、またはベイズ推定アルゴリズムなどの異なるアルゴリズムを使用して構築することができる。あるいは、スーパーアラインメント手法の代わりに、遺伝子合祖系統発生モデル(gene-coalescent phylogenetic model)手法を使用して系統発生を再構築することができる。
【0080】
いくつかの例では、標的ゲノムからのすべてのタンパク質または遺伝子配列を含有するFASTAファイルが入力リソースファイルとして作成される。あるいは、バイオインフォマティクス予測に基づく推定上の遺伝子クラスター(例えば、推定上のBGC)中のタンパク質などのより小さなサブセットのタンパク質を、すべてのゲノムからのすべてのタンパク質の代わりに入力として供給することができる。推定上のBGCは、例えば、antiSMASH、SMURF、TOUCAN、deepBGCなどの公的に利用可能なBGC予測ツールを使用して、またはカスタムBGC予測ツールを使用して予測することができる。FASTAファイルは、配列類似性(例えば、相同性)がタンパク質配列または核酸配列のいずれかを使用して決定され得るので、タンパク質配列または核酸配列のいずれかを含有し得る。
【0081】
遺伝子クラスター(例えば、BGC)タンパク質または遺伝子のオルソロガス群のクラスター(COG)は、任意選択のリソースファイルとして提供され得る。同じCOGのメンバーは、オルソロガス機能を有すると推定される。COGは、USEARCH、CD-HITおよびMMseqsなどのタンパク質クラスタリングツールを使用して作成することができる。あるいは、BLAST、ggsearch、またはDiamondを用いて配列(例えば、アミノ酸またはヌクレオチド)アラインメント検索を行った後、MCLなどのクラスタリングアルゴリズムを使用してCOGを生成することができる。COGは、カスタム開発スクリプトを使用して、またはOrthoMCL、OrthoFinder、またはPanXなどの既知のバイオインフォマティクスツールを使用して同定することもできる。COGは、遺伝子ファミリーまたはタンパク質ファミリーとして定義することもできる。COGファイルは、例えば、テーブルの各行中、同じCOGからのタンパク質または遺伝子IDを含有し得る。
【0082】
図2のブロック202において、グリッド表現を生成するための方法は、複数のゲノムからのクエリ(または参照)ゲノム中の推定上の埋め込まれた遺伝子を含む推定上の遺伝子クラスター(例えば、推定上の生合成遺伝子クラスター(BGC))を同定することを含み、推定上の遺伝子クラスターは、遺伝子クラスター(例えば、BGC)に関連することが知られているアンカー遺伝子(例えば、コアシンターゼ遺伝子)を含み、アンカー遺伝子は、推定上の埋め込まれた遺伝子と共局在する。いくつかの例では、本方法は、推定上の遺伝子クラスター中の最も長い生合成遺伝子または構造遺伝子をアンカー遺伝子として同定することを含む。リソースファイルは、ブロック202の工程を実行するために使用することができる。この工程は、クエリゲノム中の推定上の遺伝子クラスター(例えば、BGC)と共局在し、推定上の埋め込まれた遺伝子を含む複数のクエリ遺伝子に対応するグリッド表現の第1軸、例えばヒートマップのX軸を確立する。共局在は、推定上のBGC注釈付けに基づいて、または2つの遺伝子、例えば約50kb以下、または約20kb以下の指定された近接ゾーン内の2つの遺伝子の間の距離に基づいて決定され得る。
【0083】
例えば、ヒートマップのX軸は、目的の単一のタンパク質もしくは遺伝子ID(例えば、pETaGに対応する遺伝子ID)に基づいて、または入力としての目的の複数のタンパク質もしくは遺伝子IDに基づいて確立することができる。複数のタンパク質または遺伝子IDが入力された場合、複数のゲノムにわたるこれらの遺伝子(隣接遺伝子と共に)の互いに対する相関および共局在が決定される。例えば、目的の複数のタンパク質または遺伝子IDは、クエリ(または参照)ゲノム中のETaGおよびコアシンターゼ遺伝子に対応し得る。単一のタンパク質または遺伝子IDが入力として使用される場合、それを取り囲む隣接遺伝子が複数のゲノムにわたって共局在するかどうかを決定することができる。X軸は、目的のタンパク質または遺伝子(例えば、pETaG)の隣接遺伝子を含有する検索領域に対応する。検索領域は、予測されるBGCによって、またはゲノム上の座標位置に基づいて定義することができる。推定上のBGCは、antiSMASH、SMURF(dx.doi.org/10.1016/j.fgb.2010.06.003)、TOUCAN(doi.org/10.1093/nargab/lqaa098)、deepBGC(doi.org/10.1093/nar/gkz654)、または他のカスタム検索アルゴリズムのようなツールを使用して予測することができる。
【0084】
事前定義された領域が入力として使用される場合、指定された入力タンパク質または対応する遺伝子IDがその領域中に存在すると仮定される。あるいは、例えば塩基対(bp)の単位で指定されたカスタム隣接距離(すなわち、近接ゾーン距離)を使用して、指定されたタンパク質または遺伝子IDのいずれかの側に隣接する上流および下流の一定数のbpを含むゲノムウィンドウ領域を同定することができる。定義された領域中に位置するすべてのタンパク質(または遺伝子)は、X軸タンパク質(または遺伝子)として割り当てられる。領域中のタンパク質(または遺伝子)はラベル付けされる。入力タンパク質IDが単一タンパク質である場合、入力ラベルはタンパク質IDのラベルとして使用される。例えば、コアシンターゼ遺伝子を入力し、コアシンターゼと共局在する遺伝子を決定することができる。入力タンパク質IDが単一タンパク質であり、(IDが入力されなかった)別の遺伝子とのその相関を決定することが望ましい場合、別の指定された入力を使用して、そのようにラベル付けする領域中の遺伝子を同定することができる。例えば、ETaGに対応する目的の遺伝子が入力として使用され、それがコアシンターゼと相関するかどうかを決定することが所望される場合、コアシンターゼの検索を同定し、同定されたタンパク質をそのようにラベル付けすることができる。タンパク質は、遺伝子注釈付けに基づいて検索することができる。要求された検索基準に一致する領域中に複数の標的タンパク質がある場合、いくつかの選択肢を利用することができる。例えば、標的タンパク質ごとのヒートマップを作成することができる。標的タンパク質は、入力タンパク質IDに対する標的タンパク質の長さまたは近接度に基づいて選択することができる。複数のタンパク質または遺伝子IDが入力として使用される場合、タンパク質IDはそれらの入力ラベルに基づいてラベル付けされる。例えば、一方の入力タンパク質をETaGとしてラベル付けし、他方の入力タンパク質をコアシンターゼとしてラベル付けすることができる。
【0085】
図2のブロック204において、本方法は、コアシンターゼ遺伝子のオルソログを含む複数の陽性ゲノムおよびコアシンターゼ遺伝子のオルソログを含まない複数の陰性ゲノムを得ることを含み、複数の陰性ゲノムは、複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される。リソースファイルは、ブロック204の工程を実行するために使用することができる。この工程は、複数の陽性ゲノムおよび複数の陰性ゲノムを含む標的ゲノムに対応するグリッド表現の第2軸、例えばヒートマップのY軸を確立する。
【0086】
例えば、ヒートマップのY軸を確立するために、以下のように陽性および陰性のゲノムIDを得ることができる。陽性ゲノムIDを確立するために、コアシンターゼIDのタンパク質ホモログは、ゲノムのセットに対してggsearch、BLASTpまたはDiamond-blastpなどのタンパク質配列アラインメントツールを実行することによって検索される。あるいは、遺伝子(すなわち、ヌクレオチド配列)を使用して、ggsearchまたはBLASTnなどのツールを使用して、ゲノムのセット中のコアシンターゼの遺伝子のホモログを見出すことができる。最小配列同一性および最大配列同一性の指定された範囲内に入るタンパク質IDが同定される。クエリコアシンターゼに対して最も高い配列同一性を有するものから指定された数のタンパク質ホモログを選択することができる。コアシンターゼホモログは、指定されたカットオフを有するタンパク質クラスタリングツールを使用することによって作成されたタンパク質クラスターから代表を選択することによって、脱複製することができる。あるいは、BUSCOペアワイズカットオフ、系統発生的距離カットオフ、または分類学的分類を使用して、脱複製を行うこともできる。系統樹がゲノム相同性リソースファイルとして使用される場合、タンパク質ホモログの存在基準を満たす多様な陽性ゲノムセットを選択するためにトラバースすることができる。あるいは、陽性ゲノムは、ペアワイズBUSCO同一性カットオフ、系統発生的距離もしくはクレード、または分類学的分類(例えば、タンパク質ホモログを有するゲノムからの種あたり1つの単離物または属もしくはファミリーあたり1つの種)に基づいて選択することができる。これらの方法は、多様なゲノムセットの選択を確実にするのを助けるために利用することができ、これは、共局在遺伝子を同定する際により高い精度を提供し、同じ種の複数のゲノムとの結果の混同を回避し、結果を共局在に向けてバイアスし、偽陽性率を増加させる可能性がある。選択されたコアシンターゼホモログからの各ゲノムIDを得て、陽性ゲノムとして割り当てる。
【0087】
陰性ゲノムIDを得るために、ペアワイズゲノム相同性ファイルを入力として使用して、各陽性ゲノムに対して最も高い配列同一性または最も近い系統発生的距離を有するゲノムIDを選択することができる。ゲノムが指定された配列同一性の範囲内のコアシンターゼホモログを含有する場合、そのゲノムは候補のリストから削除され、検索は次の候補ゲノムにスキップする。相同性リソースファイルとして系統樹が使用される場合、各陽性ゲノムに最も近い陰性ゲノムを見出すために木をトラバースすることができる。陽性および陰性のゲノムIDを組み合わせてY軸ゲノムIDとして割り当てる。
【0088】
任意選択的に、Y軸ゲノムに関係するすべてのタンパク質(またはヌクレオチド)配列および遺伝子注釈付けファイル(GFF、GTF、GenBank、または同様のもの)を含有するファイルが得られる。検索領域を定義するために遺伝子クラスター(例えば、BGC)予測を使用する場合、遺伝子クラスター(例えば、BGC)ID、クラスター数、および遺伝子クラスター(例えば、BGC)中に位置するタンパク質(または遺伝子)IDを含むY軸ゲノムの遺伝子クラスター(例えば、BGC)情報がリソースファイルとして格納される。
【0089】
いくつかの例では、Y軸のすべてのゲノム間の距離を視覚的に示すために、連結行列(クラドグラムとしても知られる)が構築される。連結行列は、ゲノム相同性リソースファイル(例えば、ペアワイズ同一性、類似性、または系統発生的距離)からのY軸ゲノムのペアワイズ相同性行列を使用して作成することができる。階層クラスタリング方法をペアワイズ相同性行列と共に使用して、連結行列を作成することができる。あるいは、BBHの存在/非存在またはX軸タンパク質ホモログの順方向アラインメント結果を階層クラスタリング法と共に使用して、連結行列を作成することができる。あるいは、系統樹を使用することができる。系統樹は、タンパク質のセット(すなわち、アミノ酸配列)または転写物(すなわち、ヌクレオチド配列)のいずれかから作成することができる。
【0090】
図2のブロック206において、本方法は、第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することを含み、第1軸は、クエリ(または参照)ゲノム中の推定上の遺伝子クラスター(例えば、推定上のBGC)中のアンカー遺伝子と共局在するすべてのタンパク質コード遺伝子(例えば、クエリ遺伝子)に対応し、第2軸は、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルは、(1)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、(2)それぞれのタンパク質コード遺伝子に対するオルソログの配列類似性と、(3)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうかとに基づく。
【0091】
例えば、以下の工程を使用してヒートマップ行列を作成することができる。最初に、すべてのY軸ゲノムにおけるX軸タンパク質(または遺伝子)についての双方向ベストヒット(BBH)結果を得て、BBHテーブルを提供する。BBHは、どちらか一方が他のゲノム中のどの遺伝子に対してよりも互いに類似している、2つの異なるゲノムからのタンパク質(または遺伝子)の対として同定される。BBHは、所与のタンパク質(または遺伝子)の真のオルソログを同定するのに有用であり得、これは、重複事象を有した遺伝子(ETaGなど)の現在のオルソログを同定するのに特に有用である。BBHの同定は、順方向アラインメント工程および逆方向アラインメント工程を含む。順方向アラインメント工程では、指定されたカットオフを有する各Y軸ゲノムのタンパク質FASTAファイルに対するクエリとして各X軸タンパク質を使用して、配列アラインメントツールが実行される。ggsearch、BLASTpまたはDiamond-blastpなどの配列アラインメントツールを使用することができる。あるいは、遺伝子(すなわち、ヌクレオチド配列)を、ggsearchまたはBLASTnなどのツールを使用する順方向アラインメント工程のためのタンパク質配列の代わりに使用することができる。各アラインメントから最良のマッチのタンパク質(または遺伝子)IDは、X軸タンパク質(または遺伝子)を列とし、Y軸ゲノムをインデックスとしてテーブルに格納される。各アラインメントからの最良のマッチの配列同一性は、X軸タンパク質を列とし、Y軸ゲノムをインデックスとしてテーブルに格納される。逆方向アラインメント工程では、ggsearch、BLASTpまたはDiamond-blastpなどのタンパク質配列アラインメントツールを使用して逆方向アラインメントが実行される。順方向アラインメント工程からのベストヒットとして格納された各タンパク質は、クエリタンパク質(またはクエリ遺伝子)として使用される。タンパク質アラインメントを、Y軸ゲノムのタンパク質FASTAファイルに対して行う。あるいは、遺伝子(すなわち、ヌクレオチド配列)を、ggsearchまたはBLASTnなどのツールを使用する逆方向アラインメントのためのタンパク質配列の代わりに使用することができる。逆方向アラインメントからのベストヒットが順方向アラインメントで使用されるクエリタンパク質と同じである場合、X軸タンパク質(または遺伝子)およびその順方向アラインメントヒットはBBHであり、テーブル中のBBH値は真として定義される。逆方向アラインメントからのベストヒットが順方向アラインメントで使用されるクエリタンパク質と異なる場合、X軸タンパク質(または遺伝子)およびその順方向アラインメントヒットはBBHではなく、テーブル中のBBH値は偽として定義される。このバイナリデータは、X軸タンパク質を列として、Y軸ゲノムをインデックスとし、BBHテーブルに格納される。あるいは、完全なBBH結果の代わりに順方向アラインメント結果のみが使用される。
【0092】
また、共局在テーブルが作成される。例えば、BGC予測を使用して検索領域を定義する場合、クラスター数が取得され、各ゲノムのBGC情報を含有するテーブルからの各順方向アラインメントヒットのクラスター数が取得される。値は、X軸タンパク質を列とし、Y軸ゲノムをインデックスとしてテーブルに格納される。各順方向アラインメントヒットのクラスター数がゲノムのコアシンターゼホモログと同じである場合、順方向アラインメントヒットはコアシンターゼホモログと共局在し、共局在値は真として定義される。そうでなければ、順方向アラインメントヒットはコアシンターゼホモログと共局在せず、共局在値は偽として定義される。この共局在のバイナリ情報は、共局在テーブルに格納される。
【0093】
あるいは、カスタム隣接距離(すなわち、近接ゾーン距離)を使用して検索領域を定義する場合、ゲノム位置が取得され、各順方向アラインメントヒットのゲノム位置を含有するテーブルが作成される。足場IDと、各タンパク質の開始位置および終了位置の座標とが格納される。各順方向アラインメントヒットと対応するゲノムのコアシンターゼホモログとの間の共局在のバイナリ情報を含有する共局在テーブルが作成される。共局在値は、クエリタンパク質およびコアシンターゼホモログが同じ足場内の指定された距離(すなわち、近接ゾーン)内に位置する場合、真として定義される。
【0094】
ヒートマップのセルの値を保存する最終テーブルは、上記のようにBBHおよび共局在テーブルに基づいて作成される。以下の変換が適用される:BBH情報を含有するテーブルのバイナリデータから真を1に変換し、偽を0に変換する。そして、共局在情報を含有するテーブルのバイナリデータから真を1に、偽を-1に変換する。ヒートマップの各セルの値を計算するために、X軸タンパク質とY軸ゲノムとのすべての組み合わせの多重配列同一性、BBH情報、および共局在情報値を計算する。例えば、セルは、配列同一性(96.28)*BBH(1または0)*共局在(1または-1)の値を有し得る。BBHがない場合、セルの値は0になる。セルがコアシンターゼ遺伝子と共局在していない遺伝子に対応する場合、セル値はマイナスの配列同一性になる。順方向アラインメントヒットに基づくヒートマップの場合、各セルの値は、X軸タンパク質およびY軸ゲノムのすべての組み合わせの配列同一性と共局在情報値との積として計算される。ヒートマップは、最終テーブルおよび連結行列を使用してプロットされる。発散的色マップを使用して、-100から100までの値を視覚化することができる。Y軸は、連結行列の階層クラスタリングに基づいて並べ替えることができる。
【0095】
生成されたグリッド表現および/または生成されたグリッド表現のサブセット(例えば、ヒートマップ、またはデータ行列)を、LSTMなどの機械学習モデルに入力して、推定上の埋め込まれた遺伝子(例えば、pETaG)がBGCに関連する尤度を提供することができる。
【0096】
「埋め込み性」を予測するための機械学習モデル
図3のブロック304において、システムは、グリッド表現を機械学習モデルに入力し、機械学習モデルは、グリッド表現内の複数のセルの値に基づいて、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を決定するように訓練される。
【0097】
尤度は、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する確率、または推定上の埋め込まれた遺伝子が複数の事前定義された尤度カテゴリの1つに入る確率であり得る。いくつかの実施形態では、尤度は以下の4つのカテゴリのうちの1つに入り得る:(1)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度が高い(本明細書では「階層A+」とも呼ばれる)、(2)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば高い(本明細書では「階層1」とも呼ばれる)、(3)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば低い(本明細書では「階層2」とも呼ばれる)、および(4)推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度が低い(本明細書では「階層3」とも呼ばれる)。階層A+ヒートマップは、明確に定義された遺伝子クラスター(例えば、BGC)境界を有し、推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)は、それらの境界内にある。例えば、図7A-1および図7A-2を参照されたい。階層1ヒートマップは、明確に定義されていない遺伝子クラスター(例えば、BGC)境界を有するが、推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)はアンカー遺伝子(例えば、コアシンターゼ遺伝子)と相関している。例えば、図7B-1および図7B-2を参照されたい。階層2ヒートマップは、遺伝子クラスター(例えば、BGC)境界を同定するのに不十分な情報を提供するか、または推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)とアンカー遺伝子(例えば、コアシンターゼ遺伝子)との間の相関の受け入れまたは拒絶を可能にする傾向がある。例えば、図7C-1および図7C-2を参照されたい。階層3ヒートマップは、(1)遺伝子クラスター(例えば、BGC)の境界が明確に定義されており、推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)が境界内にないため、または(2)推定上の埋め込まれた遺伝子(例えば、推定上の耐性遺伝子またはpETaG)とアンカー遺伝子(例えば、コアシンターゼ遺伝子)との間に相関または共局在がないため、推定上の埋め込まれた遺伝子が偽陽性であることを示す。例えば、図7D-1および図7D-2を参照されたい。本方法は、これらの尤度カテゴリのそれぞれに関連付けられた確率を出力することができる。例えば、本方法は、4つのカテゴリのそれぞれに関連付けられた確率を提供することができ、4つの確率の和は100%に等しい。
【0098】
図3のブロック306において、システムは、推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を機械学習モデルから取得する。
【0099】
図3のブロック308において、システムは、ディスプレイ上に、グリッド表現(例えば、ヒートマップ)および推定上の埋め込まれた遺伝子が遺伝子クラスター(例えば、BGC)に関連する尤度を表示する。
【0100】
図4A-1~図4A-3は、本開示の実施形態による、計算されたヒートマップ内のpETaGの「埋め込み性」(すなわち、BGCとの関連)の度合いを表すヒートマップを示す。ヒートマップにおいて、推定上のBGCは、アスタリスク(*)でマークされたゲノム中、antiSMASHによって同定される。X軸に沿った各列は、アスタリスク(*)でマークされたクエリゲノム中で同定されたBGC中の、クエリ遺伝子によってコードされるタンパク質(「タンパク質X」)を表す。BGC中の遺伝子は、antiSMASHによって、またはBGCのコアシンターゼ遺伝子への近接度(例えば、20kb以内)に基づいて同定され得る。pETaGおよびコアシンターゼ遺伝子に対応する列を矢印で示す。Y軸に沿った各行は、ゲノムデータベースから選択された独自のゲノム(「ゲノムY」)を表す。ゲノムの半分はpETaGのBBHを含有し、本明細書では「陽性ゲノム」と呼ばれる。ゲノムの半分はpETaGのBBHを含有せず、本明細書では「陰性ゲノム」と呼ばれる。各セルは、それぞれのクエリ遺伝子のBBHの存在または非存在、およびそれぞれのクエリ遺伝子に対するBBHの配列同一性パーセンテージ(セル内の数)に従って着色または陰影が付けられている。例えば、ゲノムY中にタンパク質XのBBHが存在しない場合、セル(X、Y)はブランクであり、ゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスターにある場合、セル(X、Y)は例えば青色もしくは陽性であり、またはゲノムY中にタンパク質XのBBHが存在し、BBHがゲノムY中のコアシンターゼ遺伝子のBBHと同じantiSMASH BGCクラスター中にない場合、もしくはゲノムY中にコアシンターゼ遺伝子のBBHが存在しない場合、セル(X、Y)は例えば赤色もしくは陰性である。セル(X、Y)の赤色または青色(またはグレースケールシェーディング)の強度は、タンパク質Xに対するゲノムY中のタンパク質XのBBHの配列同一性パーセンテージに基づく。ヒートマップは、ゲノム間のペアワイズ配列同一性に基づいて階層的にクラスタリングされる。
【0101】
図4B-1~図4C-2は、入力ヒートマップを4つの階層のうちの1つに分類するために使用される例示的な長・短期記憶(LSTM)モデルを示す:(1)推定上の埋め込まれた標的遺伝子(pETaG)が遺伝子クラスター(例えば、BGC)に関連する尤度が高い(「階層A+」)、(2)pETaGが遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば高い(「階層1」)、(3)pETaGが遺伝子クラスター(例えば、BGC)に関連する尤度がどちらかといえば低い(「階層2」)、および(4)pETaGが遺伝子クラスター(例えば、BGC)に関連する尤度が低い(「階層3」)。いくつかの実施形態では、ヒートマップおよび/またはその1つ以上のサブセクションは、LSTMの入力として使用されてもよい。
【0102】
図4B-1および図4B-2に示すように、ヒートマップの各列のセルの値は、それぞれが多数のゲノムにわたってクエリ遺伝子に対応する複数の入力アレイに順次化(sequentialize)され、複数の入力アレイのそれぞれはLSTMセルに入力される。各入力アレイはまた、2つのスカラーで表されるpETaGおよびコアシンターゼの位置情報を保持し、1および0は特定の遺伝子(pETaGまたはコアシンターゼ)の存在および非存在に対応する。複数のLSTMセルは出力階層を提供する。いくつかの実施形態では、ヒートマップを計算した後、ヒートマップに含まれるデータのベクトル表現(例えば、1つ以上のパターン、1つ以上の色、pETaG位置などを示す値のテーブル)を1つ以上のニューラルネットワークに提供して、ヒートマップ内のpETaGの埋め込み性分類を実行することができる。例えば、いくつかの実施形態では、1つ以上のニューラルネットワークは、例えば、長・短期記憶(LSTM)モデル、畳み込みニューラルネットワーク(CNN)、または要素の配列として表されるゲノムデータまたは他のテキストベースのデータを処理するのに適し得る他のリカレントニューラルネットワーク(RNN)を含むことができる。例えば、一実施形態では、LSTMモデルは、ヒートマップデータ(例えば、1つ以上のパターン、1つ以上の色、pETaG位置などを示す値)の線形ベクトル表現を入力として受信し、埋め込み性分類(例えば、pETaGが遺伝子のクラスター中にどのように埋め込まれるかの確率値)を出力することができる。いくつかの実施形態では、LSTMモデルは、pETaGを4つのクラスのうちの1つに分類することによって埋め込み性分類を実行する:(1)「真陽性」(例えば、pETaGがBGCに関連する尤度が高い(「階層A+」));(2)「有望」(例えば、pETaGがBGCに関連する尤度がどちらかといえば高い(「階層1」));(3)「不確定」(例えば、pETaGがBGCに関連する尤度がどちらかといえば低い(「階層2」));(4)「真陰性」(例えば、pETaGがBGCに関連する尤度が低い(「階層3」))。
【0103】
図4B-1~図4B-2および図4C-1~図4C-2は、本開示の実施形態による、ヒートマップデータ(例えば、1つ以上のパターン、1つ以上の色、pETaG位置などを示す値)の入力線形ベクトル表現に基づいて埋め込み性分類(例えば、pETaGが遺伝子のクラスター中にどのように埋め込まれるかの確率値)を出力するLSTMモデルの1つ以上の実行例を示す。例えば、いくつかの実施形態では、図4B-1~図4B-2によって示されるように、LSTMモデルは、それぞれが例えばそれぞれのメモリセルを含む一連のメモリ階層を含むことができる。いくつかの実施形態では、それぞれのメモリセルは、例えば、そのセル状態(例えば、Ct-1~C)に従って動作することができる。LSTMモデルは、ゲートと呼ばれる構造によって慎重に調節された、セル状態に情報を除去または追加する能力を含み得る。いくつかの実施形態では、それぞれのメモリセルのゲートを、任意選択的に情報を通すために設けることができる。例えば、いくつかの実施形態では、それぞれのメモリセルは、シグモイドニューラルネット層および点別の乗算演算を含むことができる。シグモイド層は、各構成要素のデータをどれだけ通過させるべきかを記述する「0」~「1」の間の数を出力する。例えば、一実施形態では、値「0」は「データを通過させない」を意味し、値「1」は「データを通過させる」を意味する。いくつかの実施形態では、各それぞれのメモリセルは、例えば、セル状態を保護および制御するためにこれらのゲートを含むことができる。
【0104】
いくつかの実施形態では、動作中に、LSTMモデルの各階層およびメモリセルは、ヒートマップデータのうちのどれがセル状態から破棄されるかを決定することによって開始することができる。例えば、いくつかの実施形態では、決定は、忘却ゲート層と呼ばれるシグモイド層によって実行されてもよく、忘却ゲート層は、入力データを見て、セル状態の各数(例えば、Ct-1~C)について「0」~「1」の間の数を出力し、「1」はこのデータを完全に保持することを表し、「0」はこのデータを完全に破棄することを表す。次いで、LSTMモデルのそれぞれの階層およびメモリセルは、セル状態にどの新しい情報を格納するかを決定することができる。例えば、いくつかの実施形態では、入力ゲート層と呼ばれるシグモイド層は、どの値を更新するかを決定し、tan h層は、状態に追加することができる新しい候補値のベクトルを作成する。
【0105】
次いで、LSTMモデルのそれぞれの階層およびメモリセルは、古いセル状態Ct-1を新しいセル状態Cに更新することができる。次いで、LSTMモデルは、LSTMモデルのそれぞれの階層およびメモリセルのそれぞれのセル状態に基づいて何を出力するかを決定することができる。例えば、いくつかの実施形態では、シグモイド層は、セル状態のどの部分を出力するかを決定し、次にそのセル状態はTan h層を通過して、値を「-1」と「+1」との間に設定し、値にシグモイドゲートの出力を乗算する。
【0106】
本開示の実施形態による、図5Aおよび図5Bの予測テーブルによってさらに示されるように、図4C-1~図4C-2は、上述したように4つのクラスのうちの1つへのpETaGの埋め込み性分類を表すことができるLSTMモデルの出力の例を示す:(1)「真陽性」(例えば、pETaGがBGCに関連する尤度が高い(「階層A+」))(2)「有望」(例えば、pETaGがBGCに関連する尤度がどちらかといえば高い(「階層1」))、(3)「不確定」(例えば、pETaGがBGCに関連する尤度がどちらかといえば低い(「階層2」));(4)「真陰性」(例えば、pETaGがBGCに関連する尤度が低い(「階層3」))。
【0107】
具体的には、図5Aは、「階層A+」、「階層1」、「階層2」、「階層3」の予測埋め込み性ベンチマーク値のテーブルを示す。同様に、図5Bは、陽性予測値(すなわち、精度)48.91%、陰性予測値99.49%、感度値91.82%、特異度値(すなわち、リコール)94.28%を含む、「階層A+」、「階層1」、「階層2」、および「階層3」の最終予測埋め込み性ベンチマーク値のテーブルを示す。図5Aのテーブルの値は、手動で注釈付けされた階層とLSTMモデルからの予測結果とを比較することから算出される。図5Bのテーブルでは、階層A+と階層1の結果が組み合わされ、階層2と階層3の結果が組み合わされている。感度は、真の予測される陽性を実際の陽性の合計で割ったものとして算出される。特異度は、真の予測される陰性を実際の陰性の合計で割ったものとして算出される。陽性予測値は、真の予測される陽性を予測される陽性の合計で割ったものとして算出される。陰性予測値は、真の予測される陰性を予測される陰性の合計で割ったものとして算出される。
【0108】
図6Aおよび6Bは、アスペルギルス・テレウス(Aspergillus Terreus)におけるantiSMASHによって予測されるロバスタチン産生のためのBGCの一例を示す。本明細書に記載の方法を使用して、より小さな遺伝子セットがBGCに関連すると同定される。図7A-1~図7D-2は、それぞれ階層A+、階層1、階層2、階層3に分類されたヒートマップを示す。
【0109】
いくつかの実施形態では、埋め込み性分類(例えば、pETaGが遺伝子のクラスター中にどのように埋め込まれるかの確率値)を出力するLSTMモデルに基づいて、LSTMモデルの出力は、4つの特徴「階層A+」、「階層1」、「階層2」、および「階層3」を表す1つ以上のテーブル(図8Aに示すような)に編成され、所定の追加の特徴セット(例えば、4つの特徴「階層A+」、「階層1」、「階層2」、および「階層3」を含む最大27個以上の特徴)と組み合わされてもよい。
【0110】
ETaG尤度を予測するための機械学習モデル
具体的には、図8Aは、特徴の組み合わせセットを含むデータテーブルを示す。いくつかの実施形態では、特徴の組み合わせセット(例えば、最大27個以上の特徴)は、図8Aに示すようにデータテーブルに編成することができ、図8Aに示す特徴の組み合わせセットの入力に基づいてETaGまたはpETaG確率値を出力するようにニューラルネットワーク(例えば、人工ニューラルネットワーク(ANN)、多層パーセプトロン(MLP)、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)など)を訓練するために利用することができる。いくつかの実施形態では、データは、他のタイプの機械学習モデル(例えば、ベイズ推定、XGBoostまたはランダムフォレストなどの決定木ベースの方法など)を訓練するために利用することができる。いくつかの実施形態では、データは、ロジスティック回帰モデルまたは他のタイプの教師付きモデルを訓練するために利用することができる。図8Aにさらに示すように、特徴の組み合わせセットのデータテーブルはまた、例えば、グラウンドトゥルースまたはニューラルネットワークを訓練するための他の参照として利用することができる既知のETaGまたはpETaGラベル値の注釈付きデータセットを含むことができる。
【0111】
図8Bは、本開示の実施形態による、ETaGまたはpETaG確率値を出力するように訓練されたニューラルネットワークの初期訓練段階を示す。示されるように、図8Aのデータテーブルに含まれる特徴に対応する訓練データセットが、ニューラルネットワークの入力層に入力され得る。構造化または半構造化入力データのために、一実施形態では、ニューラルネットワークは、多層パーセプトロン(MLP)または少なくとも1つの隠れ層を含む他の層状ニューラルネットワークを含むことができる。例えば、訓練中に、特徴のテーブルをそれぞれのニューロンまたはノードに入力することができる。具体的には、いくつかの実施形態では、それぞれのニューロンまたはノードは、特徴のテーブルを入力として取り、それに基づいて出力を生成するために1つ以上の指定された活性化関数(例えば、計算関数)を実行することができる。例えば、いくつかの実施形態では、指定された活性化関数(例えば、計算関数)は、入力ニューロンまたはノードの出力の値を具体的に決定することができる。
【0112】
いくつかの実施形態では、それぞれの入力ニューロンまたはノードは、入力ニューロンまたはノードの出力を受信することができる隠れニューロンまたはノードのセットに接続することができる。いくつかの実施形態では、隠れニューロンまたはノードは、ニューラルネットワークの隠れ層を構成することができ、例えば、入力ニューロンまたはノードへの各接続の入力の相対強度(例えば、陽性または陰性)を決定する重みをそれぞれ含むことができる。例えば、いくつかの実施形態では、隠れ層の重みは、例えば、各入力が隠れニューロンまたはノードに与える効果に影響を与える可能性があり、ニューラルネットワークが経時的に学習するために反復的に調整され得る。いくつかの実施形態では、図8Bによってさらに示されるように、ニューラルネットワークは、例えば順伝播技術に基づいて訓練されてもよい。いくつかの実施形態では、順伝播、および伸長による隠れニューロンまたはノードの組み合わせ出力は、隠れニューロンまたはノードの出力と(例えば、グラウンドトゥルースETaGまたはpETaGラベル値と比較した)予測されるETaGまたはpETaGラベル値との加重和を含むことができる。
【0113】
図8Cは、本開示の実施形態による、ETaGまたはpETaG確率値を出力するように訓練されたニューラルネットワークの訓練段階をさらに示す。例えば、図8Cに示すように、損失関数またはコスト関数を利用して(例えば、教師あり学習)、予測されるETaGまたはpETaGラベル値をグラウンドトゥルースETaGまたはpETaGラベル値と比較して損失(例えば、誤差)を計算することによって、ニューラルネットワークを評価することができる。いくつかの実施形態では、隠れニューロンまたはノードの重みは、ニューラルネットワークが適切かつ正確に訓練される程度まで損失(例えば、予測されるETaGまたはpETaGラベル値とグラウンドトゥルースETaGまたはpETaGラベルとの比較に基づいて計算される)を最小化することができるように、反復的に調整することができる。
【0114】
図8Dは、本開示の実施形態による、ETaGまたはpETaG確率値を出力するように訓練されたニューラルネットワークの推論段階を示す。示されるように、例えば、図8Aのデータテーブルに含まれる1つ以上の特徴に対応する特徴の未知のデータセットが、ニューラルネットワークの入力層に入力され得る。例えば、推論中、特徴のテーブルは、それぞれのニューロンまたはノードに入力され得る。具体的には、図8Bに関して前述したように、それぞれのニューロンまたはノードは、特徴のテーブルを入力として取り、それに基づいて出力を生成するために1つ以上の指定された活性化関数(例えば、計算関数)を実行することができる。例えば、いくつかの実施形態では、指定された活性化関数(例えば、計算関数)は、入力ニューロンまたはノードの出力の値を具体的に決定することができる。いくつかの実施形態では、それぞれの入力ニューロンまたはノードは、入力ニューロンまたはノードの出力を受信することができる隠れニューロンまたはノードのセットに接続することができる。いくつかの実施形態では、隠れニューロンまたはノードは、例えば、入力ニューロンまたはノードへの各接続の入力の相対強度(例えば、陽性または陰性)を決定する重みをそれぞれ含むことができる。いくつかの実施形態では、図8Dにさらに示すように、隠れニューロンまたはノードの組み合わせ出力は、隠れニューロンまたはノードの出力と(例えば、グラウンドトゥルースETaGまたはpETaGラベル値と比較した)予測されるETaGまたはpETaGラベル値との加重和を含むことができる。具体的には、本開示の実施形態によれば、ニューラルネットワークは、特徴の未知の入力データセットに基づいてETaGまたはpETaG確率値を出力することができる。図8Eは、本開示の実施形態による、特徴の未知の入力データセットと、特徴のそれぞれに対するETaGまたはpETaG確率値の対応する出力とを含む例示的なデータテーブルを示す。このようにして、本実施形態は、ETaGまたはpETaGがBGCを表す1つ以上の特徴に関連する尤度を同定および決定することができる。
【0115】
用途
本明細書に記載の「グリッド表現分析方法」の項に記載のコンピュータベースの方法は、様々な用途を有する。
【0116】
いくつかの実施形態では、本開示は、遺伝子クラスター(例えば、BGC)に関連する複数の遺伝子を同定することによって、遺伝子クラスター(例えば、BGC)の境界を決定するための方法およびシステムを提供する。いくつかの実施形態では、本方法は、(1)クエリ(または参照)ゲノム中のBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する複数のクエリ遺伝子を同定することと、(2)複数のクエリ遺伝子のそれぞれについて、「グリッド表現分析方法」の項に記載されているいずれか1つのコンピュータ実装方法を実行して、クエリ遺伝子またはそのオルソログが複数のゲノム中の対応するBGCに関連する尤度を決定することと、(c)BGCに関連する、閾値を超える尤度である指定された高い尤度を有するクエリ遺伝子またはそのオルソログを、BGCに関連する複数の遺伝子として同定することとを含む。例えば、クエリ遺伝子またはそのオルソログが、(1)尤度が高いカテゴリに対して30%、40%、50%、60%、70%、80%、90%以上のいずれか1つを超える確率を有する場合、クエリ遺伝子はBGCに関連する。いくつかの実施形態では、クエリ遺伝子またはそのオルソログが、(1)尤度が高い、および(2)尤度がどちらかといえば高いカテゴリについて約50%、60%、70%、80%、90%またはそれより高いいずれか1つを超える組み合わせ確率を有する場合、クエリ遺伝子はBGCに関連する。いくつかの実施形態では、クエリ遺伝子またはそのオルソログが、(4)尤度が低いカテゴリについて約30%、40%、50%、60%、70%、80%、90%またはそれより高いいずれか1つを超える確率を有する場合、クエリ遺伝子はBGCに関連していないとして拒絶される。BGCの境界(すなわち、上流および下流の限界)は、この方法を使用して決定されたBGCに関連するすべての遺伝子の位置に基づいて決定することができる。
【0117】
いくつかの実施形態では、本開示は、クエリ(または参照)ゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子を同定するための方法およびシステムであって、(a)クエリゲノム中のBGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在する(例えば、約100kb、50kb、20kb、またはユーザに指定された距離以下の近接ゾーン内)、BGCによる二次代謝産物の産生に関与していない推定上の埋め込まれた遺伝子を同定することと、(b)推定上の埋め込まれた遺伝子がBGCに関連する尤度を決定するために、「グリッド表現分析方法」の項に記載されているいずれか1つのコンピュータ実装方法を実行することと、(c)推定上の埋め込まれた遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、推定上の埋め込まれた遺伝子を耐性遺伝子として同定することとを含む、方法およびシステムを提供する。いくつかの実施形態では、BGCに関連する尤度が指定された閾値を超える場合、推定上の埋め込まれた遺伝子は耐性遺伝子として同定される。いくつかの実施形態では、推定上の埋め込まれた遺伝子がBGCに関連する尤度は、推定上の埋め込まれた遺伝子をBGCに関連する耐性遺伝子として同定するために使用される複数の因子のうちの1つである。いくつかの実施形態では、本方法は、推定上の埋め込まれた遺伝子がクエリゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子であることを実験的に検証することをさらに含む。例えば、推定上の埋め込まれた遺伝子を発現させ、二次代謝産物と接触させて、推定上の埋め込まれた遺伝子の産物と二次代謝産物との間で結合が起こるかどうかを決定することができる。
【0118】
いくつかの実施形態では、本開示は、哺乳動物(例えば、ヒト)標的の同定および/または特性評価のための方法およびシステムを提供する。例えば、本明細書に記載の方法を使用して同定された、ヒトゲノム中にホモログを有する耐性遺伝子(例えば、真菌耐性遺伝子)は、耐性遺伝子と、ヒトホモログと、BGCによって産生される二次代謝産物との間の関連を提供する。この関連は、ヒトホモログが二次代謝産物のヒト標的であり得、二次代謝産物がヒトホモログと相互作用および/または調節し得ることを示唆している。
【0119】
いくつかの実施形態では、本開示は、BGCの二次代謝産物またはBGC産物のアナログの哺乳動物(例えば、ヒト)標的を同定および/または特性評価するための方法であって、(1)クエリゲノム中のBGCと共局在(例えば、約200kb、100kb、50kb、40kb、30kb、20kbまたはそれ未満の近接ゾーン内)しており、哺乳動物(例えば、ヒト)遺伝子と相同であり、BGCの二次代謝産物を産生する酵素をコードしない、推定上の埋め込まれた標的遺伝子(pETaG)を同定することと、(2)pETaGがBGCに関連する尤度を決定するために、「グリッド表現分析方法」の項で説明したいずれか1つのコンピュータベースの方法を実行することと、(3)pETaGがBGCに関連する尤度に少なくとも部分的に基づいて、哺乳動物(例えば、ヒト)遺伝子をBGCの二次代謝産物の標的として同定することとを含む、方法を提供する。いくつかの実施形態では、哺乳動物(例えば、ヒト)遺伝子は、それがBGCに関連する尤度が閾値を超える場合に標的として同定される。いくつかの実施形態では、pETaGがBGCに関連する尤度は、哺乳動物(例えば、ヒト)遺伝子をBGCの二次代謝産物の標的として同定するために使用される複数の因子のうちの1つである。いくつかの実施形態では、本方法は、哺乳動物(例えば、ヒト)ゲノム中のpETaGの哺乳動物(例えば、ヒト)ホモログを同定することをさらに含む。いくつかの実施形態では、本方法は、哺乳動物(例えば、ヒト)標的に対する、BGCによって産生される二次代謝産物またはBGC産物のアナログの効果をアッセイすることをさらに含む。
【0120】
いくつかの実施形態では、本開示は、例えば哺乳動物標的遺伝子(または爬虫類標的遺伝子、鳥類標的遺伝子、両生類標的遺伝子、もしくは任意の他の生物由来の標的遺伝子)の小分子モジュレーターを同定する、創薬のための方法およびシステムを提供する。いくつかの実施形態では、本開示は、哺乳動物(例えば、ヒト)標的遺伝子またはその産物の小分子モジュレーターを同定する方法であって、(a)真菌ゲノムのBGCのアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在(例えば、約100kb、50kb、40kb、30kb、20kb以下の近接ゾーン内)しており、BGCによる二次代謝産物の産生に関与していない、真菌ゲノム中(または古細菌ゲノム、細菌ゲノム、植物ゲノム、もしくはBGCを含む他のゲノム中)の哺乳動物標的遺伝子の相同遺伝子を同定することと、(b)相同遺伝子がBGCに関連する尤度を決定するために、「グリッド表現分析方法」の項に記載されているいずれか1つのコンピュータベースの方法を実行することと、(c)相同遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、二次代謝産物またはそのアナログを、哺乳動物標的遺伝子またはその産物の小分子モジュレーターとして同定することとを含む、方法を提供する。いくつかの実施形態では、相同遺伝子がBGCに関連する尤度が閾値を超える場合、二次代謝産物またはそのアナログは、哺乳動物(例えば、ヒト)遺伝子またはその産物の小分子モジュレーターとして同定される。いくつかの実施形態では、相同遺伝子がBGCに関連する尤度は、哺乳動物(例えば、ヒト)遺伝子またはその産物の小分子モジュレーターとして二次代謝産物またはそのアナログを同定するために使用される複数の因子のうちの1つである。いくつかの実施形態では、本方法は、哺乳動物標的遺伝子産物と、BGCによって産生される二次代謝産物に由来する化合物との相互作用を評価することをさらに含む。いくつかの実施形態では、本方法は、二次代謝産物またはそのアナログを哺乳動物標的遺伝子によってコードされるタンパク質と接触させることと、哺乳動物標的遺伝子によってコードされるタンパク質の活性を検出することを含む。いくつかの実施形態では、活性は、哺乳動物標的遺伝子によってコードされるタンパク質と二次代謝産物またはそのアナログとの結合である。
【0121】
いくつかの実施形態では、二次代謝産物は、BGCまたは非天然塩を含むその塩によってコードされる酵素の産物である。いくつかの実施形態では、二次代謝産物またはそのアナログは、BGCによってコードされる酵素の産物のアナログ、例えば二次代謝産物と同じコア構造を有する小分子化合物またはその塩である。
【0122】
いくつかの実施形態では、本開示は、ヒト標的を調節する方法であって、BGCによってコードされる酵素によって産生される二次代謝産物またはそのアナログを提供することを含み、ヒト標的(またはヒト標的をコードする核酸配列)が、本明細書に記載のいずれか1つの方法を使用して決定されるBGCに関連するETaGと相同である、方法を提供する。
【0123】
いくつかの実施形態では、本開示は、ヒト標的に関連する状態、障害、または疾患を治療する方法であって、これらに感受性または罹患している対象に、BGCによってコードされる酵素によって産生される二次代謝産物、またはそのアナログを投与することを含み、ヒト標的(またはヒト標的をコードする核酸配列)が、本明細書に記載のいずれか1つの方法を使用して決定されるBGCに関連するETaGと相同である、方法を提供する。
【0124】
いくつかの実施形態では、二次代謝産物は真菌によって産生される。いくつかの実施形態では、二次代謝産物は非環状である。いくつかの実施形態では、二次代謝産物はポリケチドである。いくつかの実施形態では、二次代謝産物はテルペン化合物である。いくつかの実施形態では、二次代謝産物は、非リボソーム合成ペプチドである。
【0125】
いくつかの実施形態では、物質(例えば、二次代謝産物)のアナログは、1つ以上の特定の構造的特徴、要素、構成要素または部分を参照物質と共有する。典型的には、アナログは参照物質との有意な構造類似性を示し、例えばコアまたはコンセンサス構造を共有するが、特定の個別の様式において異なる。いくつかの実施形態では、アナログは、例えば、参照物質の化学的操作によって、参照物質から生成され得る物質である。いくつかの実施形態では、アナログは、参照物質を生成するものと実質的に同様の(例えば、複数の工程を共有する)合成プロセスの実行によって生成され得る物質である。いくつかの実施形態では、アナログは、参照物質を生成するために使用されるものとは異なる合成プロセスの実行によって生成されるか、または生成され得る。いくつかの実施形態では、物質のアナログは、その置換可能な位置の1つ以上で置換されている物質である。
【0126】
いくつかの実施形態では、産物のアナログは、産物の構造コアを含む。いくつかの実施形態では、生合成産物は、環状、例えば単環式、二環式、または多環式であり、産物の構造コアは、単環式、二環式、または多環式環系であるか、それを含む。いくつかの実施形態では、産物の構造コアは、産物の二環式または多環式環系の1つの環を含む。いくつかの実施形態では、産物はポリペプチドであるかまたはポリペプチドを含み、構造コアはポリペプチドの骨格である。いくつかの実施形態では、産物はポリケチドであるかまたはポリケチドを含み、構造コアはポリケチドの骨格である。いくつかの実施形態では、アナログは、1つ以上の適切な置換基を含む置換生合成産物である。
【0127】
ETaGの同定
いくつかの実施形態では、本開示は、埋め込まれた標的遺伝子(「ETaG」)またはETaGに対応する哺乳動物(例えば、ヒト)標的遺伝子(すなわち、目的の(ヒト)遺伝子)を同定する方法を提供する。ETaGは、例えば、国際公開第201955816号パンフレットに記載されており、その内容は参照により本明細書に組み込まれる。本明細書に記載の方法は、BGCと真に関連するETaGを同定し、特定のゲノム中のBGC中の1つ以上の生合成遺伝子との共局在および/または共調節に基づいて同定された偽陽性ETaGの呼び出しを低減する改善された方法を提供する。
【0128】
いくつかの実施形態では、本明細書に記載の方法を適用して、真菌ゲノムからETaGを同定する。いくつかの実施形態では、真核真菌由来のETaGは、例えば、ある種の細菌などの原核生物におけるそれらの対応物(存在する場合)よりも、哺乳動物遺伝子に対する多くの類似性を有することができる。いくつかの実施形態では、真菌は、進化的にヒトからより遠い生物よりも治療的に関連するETaGを含有する、および/またはより治療的に関連するETaGを含有する。
【0129】
いくつかの実施形態では、本方法は、(a)真菌ゲノム中の推定上のETaG(pETaG)配列を同定することであって、(1)pETaGは、BGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)と共局在(すなわち、相対的な近接ゾーン内)し、(2)pETaGはBGCによる二次代謝産物の産生に関与せず、(3)pETaGは発現される哺乳動物核酸配列と相同である、同定することと、(b)「グリッド表現分析方法」の項に記載されたいずれか1つのコンピュータベースの方法を使用して、pETaGがBGCに関連する尤度を決定することと、(c)pETaGがBGCに関連する尤度に基づいて、pETaGをETaGとして同定することとを含む。例えば、尤度が閾値を上回る場合、または尤度が、pETaGをETaGとして同定するために使用される複数の要因のうちの1つである場合、pETaGはETaGとして同定され得る。いくつかの実施形態では、pETaGは、BGC中の少なくとも1つの生合成遺伝子と共調節される。いくつかの実施形態では、pETaGは、BGC中の少なくとも1つの生合成遺伝子と共調節されない。いくつかの実施形態では、本方法は、複数のpETaGについて繰り返され、pETaGがBGCに関連する尤度に基づいて実験的検証のためにpETaGに優先順位を付けるために使用される。いくつかの実施形態では、ETaGを哺乳動物、例えばヒトの核酸配列と比較して、相同な哺乳動物核酸配列を同定する。いくつかの実施形態では、そのような方法を使用して、例えば多くの(例えば、数百、数千、またはそれを超える)ゲノムの配列から、ゲノム規模でETaGを同定することができる。同定されたETaGは、それらの哺乳動物ホモログ、特にヒトホモログの治療上の重要性に基づいて優先順位付けすることができる。いくつかの実施形態では、関係する生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物(すなわち、二次代謝産物)またはそのアナログは、ヒト標的のモジュレーター(例えば、活性化剤、阻害剤など)である。いくつかの実施形態では、関係する生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物(すなわち、二次代謝産物)またはそのアナログは、動物、細菌、古細菌、真菌または植物の標的のモジュレーター(例えば、活性化剤、阻害剤など)である。
【0130】
当業者によって容易に理解されるように、生合成遺伝子クラスター、ETaGからの生合成産物とヒト標的との間の関連は、一旦確立されると、様々な方法で利用することができる。例えば、生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物から出発して、生合成遺伝子クラスターの生合成遺伝子の指定された近接ゾーン内に位置するETaGを同定し、次いでETaGと相同なヒト標的を同定することができる。ヒト標的が同定されると、それに優先順位を付け(以前は薬になり得ないと考えられていたとしても)、医学的使用のために、例えば、当業者に公知の様々な方法のいずれかを使用して産物のアナログを調製およびアッセイすることによって、生合成産物の任意のさらなる最適化を含め、生合成産物を使用してヒト標的のモジュレーターを開発することができる。治療目的のヒト標的から出発して、ヒト標的と相同なETaGを同定し、次いでETaGの指定された近接ゾーン内に生合成遺伝子を含有する生合成遺伝子クラスターを同定することもできる。生合成遺伝子クラスターが同定されると、生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物を特性評価し、ヒト標的またはその産物の調節についてアッセイすることができる。生合成産物は、多くの医療目的、例えば治療目的に有用な薬剤を提供するために、当業者に公知の様々な方法のいずれかを使用して、薬物候補の最適化のためのリード化合物として使用することができる。いくつかの実施形態では、標的は、動物、植物、真菌、細菌、古細菌などの他の生物界に由来し得る。
【0131】
いくつかの実施形態では、本開示は、真菌におけるそれらの相同ETaGを同定し、関連する生合成遺伝子クラスターを解明するための方法を提供することによって、本開示以前には薬になり得ないと考えられていた標的に特に洞察を提供する。いくつかの実施形態では、本開示は、例えば、真菌におけるそれらの相同ETaGを同定し、関連する生合成遺伝子クラスターを解明し、関係する生合成遺伝子クラスターの生合成産物を試験することによって、本開示以前には薬になり得ないと考えられていた標的の創薬可能性を大幅に改善し、いくつかの場合では、それらを薬となり得る標的に本質的に変換する(それらをヒト標的のモジュレーターとして直接使用することができ、および/またはそのアナログをモジュレーターとして使用することができる)。
【0132】
ETaGは、BGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)に対して近接ゾーン内にあり、発現される哺乳動物核酸配列と相同であり、BGC中の少なくとも1つの生合成遺伝子と任意選択的に共調節される。いくつかの実施形態では、ETaGは、BGC中のアンカー遺伝子(例えば、コアシンターゼ遺伝子)から、約100kb、50kb、40kb、30kb、20kb、10kb、またはそれ未満のいずれか1つ以下に位置する。
【0133】
いくつかの実施形態では、ETaGは、治療目的の既存の標的である産物であるかまたはそれをコードするヒト核酸配列と相同である。いくつかの実施形態では、ETaGは、治療目的の新規の標的である産物であるかまたはそれをコードするヒト核酸配列と相同である。いくつかの実施形態では、ETaGは、本開示以前には薬になり得ないと考えられていた標的である産物であるか、またはそれをコードするヒト核酸配列と相同である。いくつかの実施形態では、ETaGは、本開示の前に小分子によって薬になり得ないと考えられる標的である産物であるかまたはそれをコードするヒト核酸配列と相同である。
【0134】
いくつかの実施形態では、ETaG配列は、その配列またはその一部が発現される哺乳動物核酸配列のものと少なくとも20%、30%、40%、50%、60%、70%、80%、または90%同一であるという点で、発現される哺乳動物核酸配列と相同である。いくつかの実施形態では、ETaG配列は、ETaGまたはその一部から産生されるmRNAが哺乳動物核酸配列のものと相同であるという点で、哺乳動物核酸配列と相同である。いくつかの実施形態では、相同部分は、少なくとも50、100、150、200、500、1000、2000、3000または5000塩基対の長さである。いくつかの実施形態では、相同部分は、真菌から哺乳動物までの、保存されたタンパク質または保存されたタンパク質の部分、例えばタンパク質ドメイン、機能(例えば、別の分子(例えば、タンパク質、小分子など)との相互作用、酵素活性など)に関係する残基のセットなどをコードする。いくつかの実施形態では、哺乳動物核酸、例えばヒト核酸配列は、ヒトの疾患、障害、または状態に関係する。いくつかの実施形態では、そのようなヒト核酸配列は、治療目的の既存の標的である。いくつかの実施形態では、そのようなヒト核酸配列は、治療目的の新規の標的である。いくつかの実施形態では、そのようなヒト核酸配列は、例えば小分子による標的化に対して感受性でないと以前に考えられていた標的である。
【0135】
いくつかの実施形態では、ETaG配列は、ETaGによってコードされる産物またはその一部が哺乳動物核酸配列によってコードされる産物と相同であるという点で哺乳動物核酸配列と相同である。いくつかの実施形態では、ETaG配列は、ETaGによってコードされるタンパク質またはその一部が哺乳動物核酸配列によってコードされる産物と相同であるという点で哺乳動物核酸配列と相同である。いくつかの実施形態では、ETaG配列は、ETaGによってコードされるタンパク質の一部が哺乳動物核酸配列によってコードされるタンパク質と相同であるという点で哺乳動物核酸配列と相同である。
【0136】
いくつかの実施形態では、タンパク質の一部はタンパク質ドメインである。いくつかの実施形態では、タンパク質ドメインは酵素ドメインである。いくつかの実施形態では、タンパク質ドメインは、1つ以上の因子、例えば小分子、脂質、炭水化物、核酸、タンパク質などと相互作用する。
【0137】
いくつかの実施形態では、タンパク質の一部は、そのタンパク質が属するタンパク質ファミリーを定義する機能的および/または構造的ドメインである。パテントファミリーを定義する特定の触媒ドメインまたは構造ドメイン内にあるアミノ酸は、予測サブファミリードメインアーキテクチャに基づいて選択することができ、相同性のアラインメント分析に使用するために、任意選択的に様々なアッセイによって検証することができる。
【0138】
いくつかの実施形態では、タンパク質の一部は、タンパク質の機能にとって重要な連続的または非連続的な一組の重要な残基である。いくつかの実施形態では、機能は酵素活性であり、タンパク質の一部は活性に必要な残基のセットである。いくつかの実施形態では、機能は酵素活性であり、タンパク質の一部は、基質、中間体または産物と相互作用する残基のセットである。いくつかの実施形態では、残基のセットは、基質と相互作用する。いくつかの実施形態では、残基のセットは、中間体と相互作用する。いくつかの実施形態では、残基のセットは、産物と相互作用する。
【0139】
いくつかの実施形態では、タンパク質の機能は、1つ以上の因子、例えば小分子、脂質、炭水化物、核酸、タンパク質などとの相互作用であり、タンパク質の一部は、相互作用に必要な残基のセットである。いくつかの実施形態では、残基のセットはそれぞれ独立して相互作用剤(interacting agent)と接触する。例えば、いくつかの実施形態では、セットの残基のそれぞれは、相互作用する小分子と独立して接触する。いくつかの実施形態では、タンパク質はキナーゼであり、相互作用する小分子は核酸塩基であるかまたは核酸塩基を含み、残基のセットはそれぞれ独立して、例えば水素結合、静電気力、ファンデルワールス力、芳香族スタッキング(aromatic stacking)などを介して核酸塩基と接触する。いくつかの実施形態では、相互作用剤は別の巨大分子である。いくつかの実施形態では、相互作用剤は核酸である。いくつかの実施形態では、残基のセットは、相互作用する核酸と接触する残基、例えば転写因子中の残基である。いくつかの実施形態では、残基のセットは、相互作用タンパク質と接触する残基である。
【0140】
いくつかの実施形態では、タンパク質の一部は、例えばヒト標的の三次タンパク質構造に基づく、タンパク質エフェクターリクルートメントおよび/または結合の必須構造要素であるか、または必須構造要素を含む。
【0141】
タンパク質ドメイン、生物学的機能を担う残基のセットなどのタンパク質の部分は、種ごとに、例えば、いくつかの実施形態では、本開示に示されるように真菌からヒトまで保存することができる。
【0142】
いくつかの実施形態では、タンパク質相同性は、正確な同一性、例えば所与の位置の同じアミノ酸残基に基づいて測定される。いくつかの実施形態では、相同性は、1つ以上の特性、例えば1つ以上の同一または類似の特性(例えば、極性、非極性、疎水性、親水性、サイズ、酸性、塩基性、芳香族など)を有するアミノ酸残基に基づいて測定される。
【0143】
いくつかの実施形態では、ETaGによってコードされるタンパク質またはその一部(例えば、本開示に記載されているもの)は、哺乳動物核酸配列によってコードされるものと少なくとも20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、もしくは99%、または100%(100%の場合、これは同一である)相同である。いくつかの実施形態では、ETaGによってコードされるタンパク質またはその一部は、発現される哺乳動物核酸配列によってコードされるものと少なくとも50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%、または100%相同である。
【0144】
いくつかの実施形態では、ETaGは、生合成遺伝子クラスター中の少なくとも1つの生合成遺伝子と共調節される。いくつかの実施形態では、ETaGは、生合成遺伝子クラスター中の2つ以上の遺伝子と共調節される。いくつかの実施形態では、ETaGは、生合成遺伝子クラスターによってコードされる酵素によって産生される生合成産物(生合成遺伝子クラスターの生合成産物)が産生されると、ETaGの発現が増加するかまたはオンになるという点で、生合成遺伝子クラスターと共調節される。いくつかの実施形態では、生合成遺伝子クラスターの生合成産物のレベルが増加すると、ETaGの発現が増加するか、またはオンになるという点で、ETaGは生合成遺伝子クラスターと共調節される。
【0145】
いくつかの実施形態では、ETaGを含む生物は、ETaGの1つ以上の相同遺伝子を含む。いくつかの実施形態では、ETaG遺伝子配列は、任意選択的に、同じゲノム中の1つ以上の遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%を超えて相同であってもよい。いくつかの実施形態では、ETaG遺伝子配列は、任意選択的に、同じゲノム中の2、3、4、5、6、7、8、9またはそれを超える遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%または99を超えて相同である。いくつかの実施形態では、相同性は10%を超える。いくつかの実施形態では、相同性は20%を超える。いくつかの実施形態では、相同性は30%を超える。いくつかの実施形態では、相同性は40%を超える。いくつかの実施形態では、相同性は50%を超える。いくつかの実施形態では、相同性は60%を超える。いくつかの実施形態では、相同性は70%を超える。いくつかの実施形態では、相同性は80%を超える。いくつかの実施形態では、相同性は90%を超える。
【0146】
いくつかの実施形態では、ETaG遺伝子配列は、任意選択的に、異なる真菌株に由来し、相同な生合成遺伝子クラスターを含むセット中の、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の真菌核酸配列中の任意の発現される遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの実施形態では、ETaG遺伝子配列は、任意選択的に、異なる真菌株由来の相同な生合成遺伝子クラスターの生合成遺伝子に対して近接ゾーン内にある、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の真菌遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの実施形態では、ETaG遺伝子配列は、任意選択的に、異なる真菌株由来の相同な生合成遺伝子クラスターの生合成遺伝子に対して近接ゾーン内にある、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の真菌遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの実施形態では、ETaG遺伝子配列は、任意選択的に、異なる真菌株に由来し、相同な生合成遺伝子クラスターを含むセット中の任意の真菌核酸配列中の任意の発現される遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%)、95%)、または99%以下同一である。いくつかの実施形態では、ETaG遺伝子配列は、任意選択的に、異なる真菌株由来の相同な生合成遺伝子クラスターの生合成遺伝子に対して近接ゾーン内にある、任意の発現される遺伝子配列と約10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、または99%以下同一である。いくつかの実施形態では、それは約10%)以下同一である。いくつかの実施形態では、それは約20%以下同一である。いくつかの実施形態では、それは約30%以下同一である。いくつかの実施形態では、それは約40%)以下同一である。いくつかの実施形態では、それは約50%以下同一である。いくつかの実施形態では、それは約60%以下同一である。いくつかの実施形態では、それは約70%)以下同一である。いくつかの実施形態では、それは約80%以下同一である。いくつかの実施形態では、それは約90%以下同一である。
【0147】
いくつかの実施形態では、ヒト標的遺伝子および/またはその産物は、生合成遺伝子クラスターの生合成産物またはそのアナログによる調節に対して感受性であり、ヒト標的遺伝子は、生合成遺伝子クラスター中に埋め込まれた、またはクラスターの生合成遺伝子に対して指定された近接ゾーンに位置するその相同ETaGを有する。いくつかの実施形態では、ヒト標的遺伝子によってコードされるタンパク質は、生合成遺伝子クラスターの生合成産物またはそのアナログによる調節に対して感受性であり、ヒト標的遺伝子は、生合成遺伝子クラスター中に埋め込まれた、またはクラスターの生合成遺伝子に対して指定された近接ゾーンに位置するその相同ETaGを有する。したがって、いくつかの実施形態では、本開示は、新規のヒト標的を提供するだけでなく、そのようなヒト標的を調節するための方法および薬剤も提供する。いくつかの実施形態では、生合成遺伝子クラスターの酵素によって産生される化合物は、生合成遺伝子クラスターに関係するETaGと相同な哺乳動物、例えばヒトの核酸配列によってコードされる標的と相互作用し、および/または調節する。
【0148】
いくつかの実施形態では、本開示は、同定されたETaGおよびそれによってコードされる産物を使用して化合物を評価する方法を提供する。いくつかの実施形態では、本開示は、少なくとも1つの試験化合物を真菌核酸配列の埋め込まれた標的遺伝子によってコードされる遺伝子産物と接触させることと、試験化合物が存在する場合、存在しない場合と比較して、遺伝子産物のレベルもしくは活性が変化していると決定する、または遺伝子産物のレベルもしくは活性が、レベルもしくは活性に対する既知の効果を有する参照薬剤が存在する場合に観察されるものと同等であると決定することとを含む、方法を提供する。
【0149】
いくつかの実施形態では、本開示は、生合成遺伝子クラスターによってコードされる酵素によって産生される産物または産物のアナログの哺乳動物、例えばヒト標的を同定および/または特性評価するための方法であって、本明細書に記載のいずれか1つの方法を使用して、BGCに関連すると決定されるETaGのヒトホモログを同定することと、任意選択的に、標的に対する、生合成遺伝子クラスターによってコードされる酵素によって産生される産物または産物のアナログの効果をアッセイすることとを含む、方法を提供する。
【0150】
さらなる分析は、例えばヒト標的の三次タンパク質構造の検査に基づいて、タンパク質エフェクターリクルートメント/結合の必須構造要素の保存/類似性を評価することを含み得る。例えば、いくつかの実施形態では、整列した配列をPDB結晶構造と比較した。いくつかの実施形態では、(例えば、予測サブファミリードメインアーキテクチャに基づいて)ETaG/標的のPFAM境界を定義する特定の触媒または構造ドメイン内のアミノ酸のみをアラインメント分析に使用した。ETaG配列は、すべてのETaGおよびヒト標的タンパク質を整列させることによってそれらのヒト対応物と直接比較され、それらの系統関係により、対応する係合タンパク質の4オングストローム以内の標的タンパク質残基に対応する定量的相関データ(例えば、ペプチド配列類似性および/または進化樹の視覚化)が得られた。
【0151】
いかなる理論によっても限定されることを意図するものではないが、これらの構造モチーフが真菌ETaG中で保存されている場合、ETaG関係生合成遺伝子クラスターによって産生された代謝産物が真菌およびヒト標的タンパク質の両方のエフェクターであり、産生された代謝産物がヒト標的に対する薬物候補または薬物開発のリードであり得る確率の増加を示し得る。いくつかの実施形態では、上記の分析を使用して、ヒト標的の標的化に関して、ETaGおよびそれらの関係する生合成遺伝子クラスター、ならびに生合成遺伝子クラスターから生成された代謝産物を優先順位付けする。
【0152】
コンピュータシステム
いくつかの実施形態では、提供されるコンピュータベースの方法、配列、ゲノムおよび/またはデータベースは、コンピュータ可読媒体で具現化される。いくつかの実施形態では、本開示は、提供されるコンピュータベースの方法、配列、ゲノムおよび/またはデータベースを表すデータを記憶する1つ以上の非一時的機械可読記憶媒体を含むシステムを提供する。提供されるデータを具現化するのに適した非一時的機械可読記憶媒体としては、例として、半導体記憶領域デバイス、例えばEPROM、EEPROM、およびフラッシュ記憶領域デバイス、磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性記憶領域が挙げられる。とりわけ、提供されるシステムは、本明細書に記載の特定の構造を有する提供されるセットおよびデータベースのために特に効率的であり得る。
【0153】
いくつかの実施形態では、本開示は、本明細書に記載の提供される方法を実行することができるコンピュータシステムを提供する。いくつかの実施形態では、本開示は、提供される方法を実行するように適合されたコンピュータシステムを提供する。いくつかの実施形態では、本開示は、提供されるゲノムおよび/またはデータベースを問い合わせするように適合されたコンピュータシステムを提供する。いくつかの実施形態では、本開示は、提供されるデータベースにアクセスするように適合されたコンピュータシステムを提供する。
【0154】
提供される技術の全部または一部を実装するために使用され得るコンピュータシステムは、様々な形態のデジタルコンピュータを含み得る。デジタルコンピュータの例には、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、スマートテレビ、および他の適切なコンピュータが挙げられるが、これらに限定されない。モバイルデバイスを使用して、提供される技術の全部または一部を実装することができる。モバイルデバイスには、タブレットコンピューティングデバイス、携帯情報端末、携帯電話、スマートフォン、デジタルカメラ、デジタル眼鏡、および他のポータブルコンピューティングデバイスが挙げられるが、これらに限定されない。本明細書に記載のコンピューティングデバイス、それらの接続および関係、ならびにそれらの機能は、単なる例を意味し、本技術の実装の限定を意味するものではない。
【0155】
本明細書に記載の技術のすべてまたは一部およびそれらの様々な変更は、少なくとも部分的に、コンピュータプログラム製品、例えば、1つ以上の情報キャリア、例えば、1つ以上の有形の機械可読記憶媒体に有形に具現化されたコンピュータプログラムを介して、データ処理装置、例えば、プログラマブルプロセッサ、コンピュータ、または複数のコンピュータによって実行するために、またはその動作を制御するために実装することができる。
【0156】
提供される技術のためのコンピュータプログラムは、コンパイル型言語またはインタプリタ型言語を含む任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラム、またはモジュール、部品、サブルーチン、もしくはコンピュータ環境での使用に適した他のユニットを含む任意の形式で展開することができる。コンピュータプログラムは、1つのコンピュータ上で、もしくは1つのサイトの複数のコンピュータ上で実行されるように、または複数のサイトにわたって分散されネットワークによって相互接続されるように、展開することができる。
【0157】
例えば、プログラムおよび技術の実装に関連する動作を、1つ以上のコンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって実行して、提供される技術を実行することができる。プロセスの全部または一部は、特殊目的の論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)および/またはASIC(特定用途向け集積回路)として実装することができる。
【0158】
コンピュータプログラムの実行に適したプロセッサとしては、例として、汎用および特殊目的の両方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサが挙げられる。一般に、プロセッサは、読み出し専用記憶領域もしくはランダムアクセス記憶領域またはその両方から命令およびデータを受信する。コンピュータ(サーバを含む)の要素は、命令を実行するための1つ以上のプロセッサと、命令およびデータを記憶するための1つ以上の記憶領域デバイスとを含む。一般に、コンピュータはまた、データを記憶するための大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクなどの1つ以上の機械可読記憶媒体を含むか、またはそれらからデータを受信するか、もしくはデータを転送するか、もしくはその両方を行うように動作可能に結合される。コンピュータプログラム命令およびデータを具現化するのに適した非一時的機械可読記憶媒体としては、例として、半導体記憶領域デバイス、例えばEPROM、EEPROM、およびフラッシュ記憶領域デバイス、磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性記憶領域が挙げられる。
【0159】
タブレットコンピュータなどの各コンピューティングデバイスは、データおよびコンピュータプログラムを格納するためのハードドライブと、コンピュータプログラムを実行するための処理デバイス(例えば、マイクロプロセッサ)およびメモリ(例えば、RAM)とを含むことができる。各コンピューティングデバイスは、スチルカメラまたはビデオカメラなどの画像取込デバイスを含むことができる。画像取込デバイスは、内蔵されていてもよく、または単にコンピューティングデバイスにアクセス可能であってもよい。
【0160】
各コンピューティングデバイスは、ディスプレイスクリーンを含むグラフィックシステムを含むことができる。LCDまたはCRT(陰極線管)などのディスプレイスクリーンは、コンピューティングデバイスのグラフィックシステムによって生成された画像をユーザに表示する。周知のように、コンピュータディスプレイ(例えば、モニタ)上の表示は、コンピュータディスプレイを物理的に変換する。例えば、コンピュータディスプレイがLCDベースである場合、ユーザに対して視覚的に明らかな物理的変形におけるバイアス電圧の印加によって液晶の配向を変更することができる。別の例として、コンピュータディスプレイがCRTである場合、視覚的にも明らかな物理的変換における電子の影響によって蛍光スクリーンの状態を変更することができる。各ディスプレイスクリーンはタッチセンサー式であってもよく、これはユーザが仮想キーボードを介してディスプレイスクリーンに情報を入力することを可能にする。デスクトップまたはスマートフォンなどのいくつかのコンピューティングデバイスでは、ディスプレイスクリーンに情報を入力するために、物理的QWERTYキーボードおよびスクロールホイールを設けることができる。各コンピューティングデバイス、およびその上で実行されるコンピュータプログラムはまた、音声コマンドを受信し、そのようなコマンドに応答して機能を実行するように構成されてもよい。
【0161】
例示的な実施形態
提供される実施形態の中には、以下のものがある。
1.a)複数のゲノムからのクエリゲノム中の推定上の埋め込まれた遺伝子を含む推定上の遺伝子クラスターを同定することであって、推定上の遺伝子クラスターが、遺伝子クラスターに関連することが知られているアンカー遺伝子を含み、アンカー遺伝子が、推定上の埋め込まれた遺伝子と共局在する、同定することと、
b)アンカー遺伝子のオルソログを含む複数の陽性ゲノムおよびアンカー遺伝子のオルソログを含まない複数の陰性ゲノムを同定することであって、複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、複数の陰性ゲノムが、複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される、同定することと、
c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、第1軸が、クエリゲノム中の推定上のBGC中のアンカー遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、第2軸が、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルが、
(1)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、
(2)それぞれのタンパク質コード遺伝子に対するオルソログの配列類似性と、
(3)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうかと
に基づく、グリッド表現を作成することと
を含む、コンピュータ実装方法。
2.推定上の埋め込まれた遺伝子が遺伝子クラスターに関連する尤度を決定するためのコンピュータ実装方法であって、推定上の埋め込まれた遺伝子が、クエリゲノム中の遺伝子クラスターに関連することが知られているアンカー遺伝子と共局在し、
a)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を受信することであって、第1軸が複数の異なるゲノムに対応し、複数のゲノムが、各々がアンカー遺伝子のオルソログを有する複数の陽性ゲノムと、アンカー遺伝子のオルソログを有しない複数の陰性ゲノムとを含み、第2軸が、クエリゲノム中のBGCのアンカー遺伝子と共局在する複数のクエリ遺伝子オルソログに対応し、推定上の埋め込まれた遺伝子が複数のクエリ遺伝子のうちの1つであり、各セルが、
(i)それぞれのゲノム中のそれぞれのクエリ遺伝子のオルソログの存在または非存在と、
(ii)それぞれのクエリ遺伝子に対するオルソログの配列類似性と、
(iii)それぞれのクエリ遺伝子のオルソログが、それぞれのゲノム中のアンカー遺伝子のオルソログと共局在化しているかどうかと
に基づく、受信することと、
b)グリッド表現またはそのサブセクションを機械学習モデルに入力することであって、機械学習モデルが、グリッド表現内の複数のセルの値に基づいて、推定上の埋め込まれた遺伝子が遺伝子クラスターに埋め込まれる尤度を決定するように訓練され、それにより、推定上の埋め込まれた遺伝子が遺伝子クラスターに関連する尤度を提供する、入力することと
を含む、方法。
3.グリッド表現を生成することをさらに含む、実施形態2のコンピュータ実装方法。
4.グリッド表現を生成することが、
a)複数のゲノムからのクエリゲノム中の推定上の埋め込まれた遺伝子を含む推定上の遺伝子クラスターを同定することであって、推定上の遺伝子クラスターが、遺伝子クラスターに関連することが知られているアンカー遺伝子を含み、アンカー遺伝子が、推定上の埋め込まれた遺伝子と共局在する、同定することと、
b)アンカー遺伝子のオルソログを含む複数の陽性ゲノムおよびアンカー遺伝子のオルソログを含まない複数の陰性ゲノムを同定することであって、複数の陽性ゲノムが閾値以下のペアワイズ配列類似性を有し、複数の陰性ゲノムが、複数の陽性ゲノムに対する配列類似性または系統発生的距離に基づいて選択される、同定することと、
c)第1軸および第2軸に従って配置された複数のセルを含むグリッド表現を作成することであって、第1軸が、クエリゲノム中の推定上の遺伝子クラスター中のアンカー遺伝子と共局在するすべてのタンパク質コード遺伝子に対応し、第2軸が、複数の陽性ゲノムおよび複数の陰性ゲノムに対応し、各セルが、
(1)それぞれのゲノム中のそれぞれのタンパク質コード遺伝子のオルソログの存在または非存在と、
(2)それぞれのタンパク質コード遺伝子に対するオルソログの配列類似性と、
(3)それぞれのタンパク質コード遺伝子のオルソログがそれぞれのゲノム中のアンカー遺伝子のオルソログと共局在するかどうかと
に基づく、グリッド表現を作成することと
を含む、実施形態3のコンピュータ実装方法。
5.機械学習モデルが、複数の事前定義された尤度カテゴリのそれぞれに対する確率を出力するように構成された分類モデルである、実施形態2~4のいずれか1つのコンピュータ実装方法。
6.分類モデルが、長・短期記憶(LSTM)モデルまたは畳み込みニューラルネットワーク(CNN)モデルである、実施形態5のコンピュータ実装方法。
7.複数の事前定義された尤度カテゴリが、(1)尤度が高い、(2)尤度がどちらかといえば高い、(3)尤度がどちらかといえば低い、(4)尤度が低い、を含む、実施形態5または6のいずれか1つのコンピュータ実装方法。
8.グリッド表現がヒートマップ表現である、実施形態1~7のいずれか1つのコンピュータ実装方法。
9.グリッド表現および尤度を表示することをさらに含む、実施形態2~8のいずれか1つのコンピュータ実装方法。
10.グリッド表現が階層的にクラスタリングされる、実施形態1~9のいずれか1つのコンピュータ実装方法。
11.陽性ゲノムの数が陰性ゲノムの数に等しい、実施形態1~10のいずれか1つのコンピュータ実装方法。
12.複数の陽性ゲノムが、データベース内のゲノムの配列類似性に基づいて複数のゲノムクラスターから選択され、グリッド表現内の2つの陽性ゲノムが同じゲノムクラスターに属さない、実施形態10または11のコンピュータ実装方法。
13.各陰性ゲノムが、陽性ゲノムに対して最も高い配列類似性または最も短い系統発生的距離を有するが、アンカー遺伝子のオルソログを有しないデータベース内のゲノムを同定することによって選択される、実施形態12のコンピュータ実装方法。
14.陽性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下であり、および/または陰性ゲノム中の1つ以上の単一コピー遺伝子のオルソログの平均ペアワイズ配列同一性パーセンテージが約95%以下である、実施形態1~13のいずれか1つのコンピュータ実装方法。
15.第1軸が少なくとも20のゲノムに対応する、実施形態1~14のいずれか1つのコンピュータ実装方法。
16.第1軸が約50のゲノムに対応する、実施形態15のコンピュータ実装方法。
17.複数のゲノムが真菌ゲノムである、実施形態1~16のいずれか1つのコンピュータ実装方法。
18.複数のゲノムが植物ゲノムである、実施形態1~16のいずれか1つのコンピュータ実装方法。
19.複数のゲノムが細菌ゲノムである、実施形態1~16のいずれか1つのコンピュータ実装方法。
20.遺伝子が遺伝子クラスターのアンカー遺伝子と共局在するかどうかが、antiSMASHを使用して決定される、実施形態1~19のいずれか1つのコンピュータ実装方法。
21.遺伝子が遺伝子クラスターのアンカー遺伝子と共局在するかどうかが、遺伝子がアンカー遺伝子の上流または下流の近接ゾーン内に位置するかどうかに基づいて決定される、実施形態1~20のいずれか1つのコンピュータ実装方法。
22.近接ゾーンが50kb以下である、実施形態21のコンピュータ実装方法。
23.近接ゾーンが約20kbである、実施形態22のコンピュータ実装方法。
24.遺伝子クラスターが生合成遺伝子クラスター(BGC)である、実施形態1~23のいずれか1つのコンピュータ実装方法。
25.クエリゲノム中のBGCによって産生される二次代謝産物に対する耐性遺伝子を同定するための方法であって、
(a)クエリゲノム中のBGC中のアンカー遺伝子と共局在する、BGCによる二次代謝産物の産生に関与していない推定上の埋め込まれた遺伝子を同定することと、
(b)推定上の埋め込まれた遺伝子がBGCに関連する尤度を決定するために、実施形態2~24のいずれか1つの方法を実行することと、
(c)推定上の埋め込まれた遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、推定上の埋め込まれた遺伝子を耐性遺伝子として同定することと
を含む、コンピュータ実装方法。
26.標的遺伝子の小分子モジュレーターを同定するコンピュータ実装方法であって、
(a)真菌ゲノムのBGCのアンカー遺伝子と共局在しており、BGCによる二次代謝産物の産生に関与していない、真菌ゲノム中の標的遺伝子の相同遺伝子を同定することと、
(b)相同遺伝子がBGCに関連する尤度を決定するために実施形態2~24のいずれか1つの方法を実行することと、
(c)相同遺伝子がBGCに関連する尤度に少なくとも部分的に基づいて、二次代謝産物またはそのアナログを、標的遺伝子の小分子モジュレーターとして同定することと
を含む、コンピュータ実装方法。
27.相同遺伝子が、標的遺伝子によってコードされるタンパク質に対して少なくとも約30%の配列同一性を有するタンパク質をコードする、実施形態26のコンピュータ実装方法。
28.二次代謝産物またはそのアナログを標的遺伝子によってコードされるタンパク質と接触させることと、標的遺伝子によってコードされるタンパク質の活性を検出することとをさらに含む、実施形態26または27のコンピュータ実装方法。
29.標的遺伝子が哺乳動物遺伝子である、実施形態26~28のいずれか1つのコンピュータ実装方法。
30.哺乳動物遺伝子がヒト遺伝子である、実施形態29のコンピュータ実装方法。
31.標的遺伝子が、爬虫類遺伝子、鳥類遺伝子、または両生類遺伝子である、実施形態26~28のいずれか1つのコンピュータ実装方法。
32.標的遺伝子が細菌遺伝子である、実施形態26~28のいずれか1つのコンピュータ実装方法。
33.標的遺伝子が真菌遺伝子である、実施形態26~28のいずれか1つのコンピュータ実装方法。
34.標的遺伝子が植物遺伝子である、実施形態26~28のいずれか1つのコンピュータ実装方法。
35.BGCに関連する複数の遺伝子を同定するコンピュータ実装方法であって、
(a)クエリゲノム中のBGCのアンカー遺伝子と共局在する複数のクエリ遺伝子を同定することと、
(b)複数のクエリ遺伝子のそれぞれについて、実施形態2~24のいずれか1つによる方法を使用して、それぞれのクエリ遺伝子がBGCに関連する尤度を決定することと、
(c)BGCに関連する、閾値よりも高い尤度である高い尤度を有するクエリ遺伝子を、BGCに関連する複数の遺伝子として同定することと
を含む、コンピュータ実装方法。
36.クエリ遺伝子が哺乳動物タンパク質に相同な遺伝子である、実施形態2~35のいずれか1つのコンピュータ実装方法。
37.哺乳動物タンパク質がヒトタンパク質である、実施形態36のコンピュータ実装方法。
38.クエリ遺伝子が、爬虫類タンパク質、鳥類タンパク質、または両生類タンパク質に相同な遺伝子である、実施形態2~35のいずれか1つのコンピュータ実装方法。
39.クエリ遺伝子が、細菌タンパク質に対応する遺伝子である、実施形態2~35のいずれか1つのコンピュータ実装方法。
40.クエリ遺伝子が真菌タンパク質に対応する遺伝子である、実施形態2~35のいずれか1つのコンピュータ実装方法。
41.クエリ遺伝子が植物タンパク質に対応する遺伝子である、実施形態2~35のいずれか1つのコンピュータ実装方法。
42.アンカー遺伝子がBGCのコアシンターゼ遺伝子である、実施形態1~41のいずれか1つのコンピュータ実装方法。
43.システムであって、
1つ以上のプロセッサと、
メモリと
を備え、
メモリが、1つ以上のプロセッサに通信可能に結合され、1つ以上のプロセッサによって実行されると、システムに実施形態1~42のいずれか1つの方法を実行させる命令を格納するように構成されている、システム。
44.1つ以上のプログラムを格納し、1つ以上のプログラムが、電子デバイスの1つ以上のプロセッサによって実行されると、電子デバイスに実施形態1~42のいずれか1つの方法を実行させる命令を含む、非一時的コンピュータ可読記憶媒体。
【0162】
上記の説明は、説明を目的として、特定の例または態様を参照して説明されている。しかしながら、上記の例示的な説明は、網羅的であること、または本発明を開示された正確な形態に限定することを意図するものではない。明瞭さおよび簡潔な説明のために、特徴は、本明細書では同じまたは別個の変形の一部として説明される。しかしながら、本開示の範囲は、記載された特徴の全部または一部の組み合わせを有する変形例を含むことが理解されよう。上記の教示を考慮して、多くの修正および変形が可能である。変形例は、技術の原理およびそれらの実際の適用を最もよく説明するために選択され、説明された。それにより、他の当業者は、企図される特定の使用に適した様々な修正を伴う技術および様々な変形を最良に利用することが可能になる。
【0163】
本開示および実施例は、添付の図面を参照して十分に説明されているが、様々な変更および修正が当業者には明らかになることに留意されたい。そのような変更および修正は、特許請求の範囲によって定義される本開示および例の範囲内に含まれると理解されるべきである。最後に、本出願で参照される特許および刊行物の全開示は、参照により本明細書に組み込まれる。
図1
図2
図3
図4A-1】
図4A-2】
図4A-3】
図4B-1】
図4B-2】
図4C-1】
図4C-2】
図5A
図5B
図6A
図6B
図7A-1】
図7A-2】
図7B-1】
図7B-2】
図7C-1】
図7C-2】
図7D-1】
図7D-2】
図8A
図8B
図8C
図8D
図8E
【国際調査報告】