(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0039】
本説明は、種々の例示的実施形態が示される、付随の図面を参照して行われる。しかしながら、多くの異なる例示的実施形態が、使用されてもよく、したがって、本説明は、本明細書に記載される例示的実施形態に限定されるように解釈されるべきではない。むしろ、これらの例示的実施形態は、本開示が徹底的かつ完全であろうように提供される。例示的実施形態の種々の修正が、当業者に容易に明白となり、本明細書に定義される一般的原理は、本開示の精神および範囲から逸脱することなく、他の実施形態および用途に適用されてもよい。したがって、本開示は、示される実施形態に限定されることを意図せず、本明細書に開示される原理および特徴と一貫する最も広い範囲を与えられるものである。
【0040】
本発明者らは、生存標的分子を予測するための従来の方法が以下の障害に悩まされていることを認識した。
【0041】
1)生物学的部分の欠如。これは、生物学的に生成され得る化学物質についての偽陽性予測の単一の最大の原因である。いくつかの従来の方法は、既存の反応データベースを採用し、グルコースのような供給原料から全ての既知の代謝反応をステップスルーし、全ての経路が操作され得ると仮定する。しかしながら、多くの反応は、宿主生物の中に組み込まれ得る遺伝子部分に対応しない。典型的には、反応は、酵素によって触媒される。既存のデータベースにおける反応は、それらの触媒酵素に従って明確に特性評価され得るが、それらの酵素の多くは、それらのアミノ酸が配列決定されておらず、酵素と関連付けられる遺伝子配列との間にいかなる相関関係も確立されていないことを意味する。遺伝子配列がないと、宿主ゲノムは、要求される酵素を産生するために改変されることができない。実際、明確に特性評価された酵素反応の約25〜50%は、いかなる既知の関連付けられる遺伝子配列も有しておらず、したがって、それらの酵素は、操作目的のための生物学的部分として有用ではない。全体的生物学的データベースにおける遺伝子不在反応の割合は、これらのデータベースが明確に特性評価されていない多くの反応を含むため、さらに高い可能性が高い。本発明者らは、ある場合には、酵素−ナノ粒子共役等の酵素以外の触媒が採用され得ることに注目している。例えば、Vertgel AA, et al., Enzyme−nanoparticle conjugates for biomedical applications, Methods Mol. Bio. 2011; 679: 165−82; Johnson PA, et al., Enzyme nanoparticle fabrication: magnetic nanoparticle synthesis and enzyme immobilization, Methods Mol. Biol. 2011; 679: 183−91(その全てが、参照することによってその全体として本明細書に組み込まれる)を参照されたい。それらの場合では、それらの触媒を宿主生物の中に組み込むために要求される部分は、既知である場合とそうではない場合がある。
【0042】
2)不正確な経路追跡。多くの試行される解決策は、分子間の経路を恣意的に追跡しようと試みる。これは、標的分子の炭素骨格の生成を適切に追跡することができないことにつながり得る。一般的な実施例を引用すると、経路が、グルタミンから標的分子を生成する反応まで追跡され得、次いで、グルタミンは、その標的分子を生成するまでの経路の一部として引用されるであろう。しかしながら、殆どの場合では、グルタミンは、窒素族を提供し、いかなる炭素も提供せず、したがって、本追跡は、誤解を招き、標的分子が作製され得ることを示さない(他のエラーは、ATP等の他の遍在分子または水等の無機分子を通した追跡接続を含む)。これらのタイプの経路追跡エラーはまた、(マッピングアプリケーションが、2〜3つの最も直接的かつ有用な経路の代わりに、San Franciscoを通した全ての可能性として考えられる道路ルートを可能にするかのように)使用不可能な多数の予測される経路につながる。
【0043】
3)双方向性反応の仮定。別の有意なエラー源は、熱力学/反応の方向を考慮できないことである。熱力学は、いくつかの反応が一方向にのみ進行し得ることを指示する。しかしながら、分子Aを分子Bに分解するだけの反応は、多くの場合、従来の手段によって両方向に進行するように予測され、したがって、分子AがBから合成され得ることが、誤って予測されるであろう。特定の実施例として、一部の細菌は、有機塩化物等のハロゲン化化合物を分解するが、ハロゲン化化合物を生成するように逆に進行することはできない。多くの生物学的反応は、一方向にのみ進行することが著しく好まれるため、反応の方向性を考慮できないこともまた、偽陽性予測をもたらすであろう。
【0044】
4)他のエラー。全ての宿主が、同一の代謝経路のセットを維持するわけではないため、全ての宿主が、全ての標的分子を産生するように操作される、または同一の改変のセットまたは成功の可能性を伴って全ての標的分子を産生するように操作され得るわけではない。
【0045】
本開示の実施形態の生体到達可能予測ツール(BPT)は、従来の方法の限界を克服する。本開示の実施形態のBPTは、標的にとらわれない方式で、出発制約(例えば、特定の宿主生物、反応ステップの数、遺伝子配列決定された酵素との反応のみが可能にされるかどうか)のセットを前提として、生物学的に生成され得る可能性が高い全ての化学物質を記述し得る。これは、生存標的化学物質のリストである「生体到達可能リスト」を作成する。これらの標的化学物質およびそれらの関連付けられる構造は、それらを生成するために要求される生物学を考慮する必要性なく、分子の化学的有用性を精査し得る専門の化学者に提供されることができる。特定の生体到達可能標的化学物質が選択された後、それらの化学式および反応経路が、宿主生物の遺伝子配列を改変し、選択された標的分子を産生するために、遺伝子製造システムに提供されてもよい。
【0047】
図1は、本開示の実施形態の分散システム100を図示する。ユーザインターフェース102は、テキストエディタまたはグラフィカルユーザインターフェース(GUI)等のクライアント側インターフェースを含む。ユーザインターフェース102は、ラップトップまたはデスクトップコンピュータ等のクライアント側コンピューティングデバイス103に常駐してもよい。クライアント側コンピューティングデバイス103は、インターネット等のネットワーク106を通して1つ以上のサーバ108に結合される。
【0048】
サーバ108は、1つ以上のデータベース110にローカルまたは遠隔に結合され、これは、分子、反応、および配列データの1つ以上の集成を含んでもよい。反応データは、全ての既知の代謝反応のセットを表してもよい。実施形態では、反応データは、普遍的であり、すなわち、宿主特異的ではない。
【0049】
分子データは、基質または生産物のいずれかとして反応データ内に含有される反応に関与する代謝物反応物質に関するデータを含む。実施形態では、代謝物に関するデータは、特定の宿主微生物内で産生されることが当技術分野で公知である、コア代謝物等の宿主特異的代謝物に関するデータを含む。いくつかの実施形態では、いくつかのコア代謝物は、本発明者らによって集約された経験的証拠を通して、特定の宿主によって産生されると決定された。これらの宿主特異的代謝物セットは、宿主生物のメタボロミクス分析等の種々の方法を通して、またはある成長条件下で不可欠である酸素をコードする遺伝子を同定し、それらの遺伝子によってコードされる酵素によって産生される代謝物の存在を推測することによって同定された。分子データは、宿主生物、成長培地特性、および分子がコア代謝物であるか、前駆体であるか、遍在するか、または無機であるか等の多くの特徴を表す注釈でタグ付けられてもよい。
【0050】
データベース110、例えば、UniProtはまた、触媒が、宿主が生育される成長培地からの触媒の摂取を介して宿主生物の中に導入され得るかどうかに関するデータを含んでもよい。
【0051】
配列データは、反応を宿主生物の中に組み込むために、反応が、配列、例えば、酵素または遺伝子配列に対応することが既知である可能性が高いかどうかに関して反応データセット内の反応に注釈を付けるために、反応注釈エンジン107のためのデータを含んでもよい。例えば、配列データは、反応が対応するアミノ酸配列が既知である可能性が高い酵素によって触媒されるかどうかに関して反応データ内の反応に注釈をつけるためのデータを含んでもよい。該当する場合、当技術分野で公知の方法を通して、酵素をコードするための遺伝子配列が、決定されることができる。実施形態では、生体到達可能標的分子を決定する目的のために、反応注釈エンジン107は、配列データ自体を把握する必要はなく、むしろ、配列が触媒のために存在することが既知である可能性が高いかどうかのみを把握する必要がある。下記に説明される反応注釈エンジン107は、関連付けられるコード配列を有するものとして示される反応を触媒する酵素に関する配列データを含む、UniProt等のデータベースからの配列データをコンパイルしてもよい。
【0052】
実施形態では、サーバ108は、反応注釈エンジン107と、生体到達可能予測エンジン109とを含み、これらはともに、本開示の実施形態の生体到達可能予測ツールを形成する。代替として、注釈エンジン107、予測エンジン109、または両方のためのソフトウェアおよび関連付けられるハードウェアは、サーバ108の代わりにクライアント103にローカルに常駐する、またはクライアント103およびサーバ108の両方の間に分散されてもよい。データベース110は、UniProt、PDB、Brenda、BKMR、およびMNXref等の公的データベース、およびユーザまたはその他によって生成されるカスタムデータベース、例えば、ユーザまたはサードパーティの貢献者によって実施された合成生物学実験を介して生成された分子および反応を含むデータベースを含んでもよい。データベース110は、クライアント103に対してローカルまたは遠隔である、またはローカルまたは遠隔の両方で分散されてもよい。いくつかの実施形態では、注釈エンジン107は、クラウドベースのサービスとして起動してもよく、予測エンジン109は、クライアントデバイス103上でローカルに起動してもよい。実施形態では、任意のローカルに常駐するエンジンによる使用のためのデータは、クライアントデバイス103上のメモリ内に記憶されてもよい。
【0054】
出発代謝物リストおよび出発反応データセットの取得
【0055】
生体到達可能予測プロセスへの入力は、出発代謝物リスト、出発反応リスト、宿主生物、および宿主のための燃料レベル(例えば、最小または豊富な成長培地)等のベースライン条件、および温度等の環境条件等の情報を含む。注釈エンジン107は、データベース110からの関連付けられる注釈とともに、代謝物および反応データを組み立ててもよい。
【0056】
ユーザインターフェース102を通して、ユーザは、出発代謝物および反応リストに関する情報を取得するためのデータベース110を規定してもよい。例えば、反応および宿主特異的代謝物は、KEGG、Uniprot、BKMR、およびMNXref等の公的データベースから取得されてもよい。(当業者は、本議論の文脈から、本明細書および請求項における「代謝物」、「反応」、および同等物の言及が、多くの事例では、実際には、物理的物体またはプロセス自体ではなく、それらの物理的物体またはプロセスを表すデータを指し得ることを認識するであろう。)
【0058】
図2を参照すると、実施形態では、反応注釈エンジン107は、データベース110から、特定の時点における宿主生物の成長の間に、または所与の成長条件下の特定の時間間隔の間に存在することが予期される化学化合物(出発、中間、および最終生産物)のリストを備える宿主特異的出発代謝物ファイルを取得する、またはそれ自体が集約する(202)。これは、出発代謝物を選択するための最も消極的なアプローチであるため、デフォルト成長条件は、最小成長培地であり得る。実施形態では、反応注釈エンジン107は、出発代謝物リストとしての代謝物ファイルを予測エンジン109に提供してもよい。
【0059】
実施形態では、反応注釈エンジン107は、宿主生物に関する、または類似する生物に関する成長データに基づいて、出発代謝物を決定またはテンプレート化(類似する微生物から)してもよい。本アプローチは、RASTシステム等のシステムにおいて微生物のゲノムに注釈を付けるために、またはBioCycデータベース収集における代謝経路を予測するために使用されるアプローチと類似する。本アプローチは、存在する代謝経路を最良に推測するために、所与の宿主生物に関するゲノム注釈を使用し、次いで、それらの経路における全ての構成反応の存在およびそれらの代謝物を仮定する。BioCycデータベースの場合では、既存のゲノム注釈は、個々の酵素(したがって、それらの反応)の推定上の存在を同定するために使用される。ルールベースのシステムが、次いで、それらの置換基反応(そのうちのいくつか)の存在に基づいて、代謝経路全体の存在を推測するために使用される。
【0060】
宿主生物に特異的な出発代謝物リストを有することは、本開示の実施形態の際立った出発点である。他の従来のアプローチは、作製され得る標的についての一般的予測を行う一方、本開示の実施形態の本カスタマイズ可能なステップは、宿主生物の生物学における差異に起因して、どの標的分子が作製され得るか(またはそれらが作製され得る方法)について不正確な予測を行う問題を回避する。
【0061】
実施形態では、ユーザは、宿主生物および成長培地等のパラメータを伴うデータベースまたはデータセットにクエリを行うことに基づいて、および、いくつかの実施形態では、それらのデータベースを関連モデル生物データベースまたは具体的代謝物の存在の他のインジケーションと相互参照付けることを介して、MNXref、KEGG、またはBKMR等の既存のデータベースまたはデータセットから出発代謝物を読み出すように反応注釈エンジン107に命令してもよい。これまで、特定の産業用宿主に関して、譲受人は、約200〜300種の代謝物の典型的な出発代謝物ファイルを作成している。上記のように、公的データベース内の代謝物を表すデータオブジェクトおよび注釈エンジン107によって形成されるリストは、宿主生物、成長培地タイプ、および代謝物がコア代謝物であるか、前駆体であるか、無機であるか、または遍在するか等のメタデータを含む注釈を含んでもよい。
【0062】
コア代謝物は、成長培地の豊富度等の所与のベースライン条件に対して遺伝子改変されていない微生物に元々見出される出発(例えば、基質)、中間、および最終代謝物である。大腸菌のような微生物のバイオマスにおける各コア代謝物(例えば、アミノ酸)は、11個の前駆体代謝物のうちの1つから細胞のコア代謝において生成され得、根本的に、遺伝子改変されていない生物に提供されるどの炭素入力からも生成され得る。実施形態では、ユーザは、MNXref、KEGG、ChEBI、Reactome、またはその他等のデータベースから、それらの前駆体依存性とタグ付けられる選択的コア化合物の出発代謝物セットを選択してもよい。
【0063】
その名が示すように、アンモニウム等の無機代謝物は、炭素を含んでおらず、したがって、炭素原子を代謝の新しい生産物に与えることができない。故に、反応注釈エンジン107は、出発代謝物セットから無機代謝物を除外してもよい。
【0064】
いくつかの代謝物は、遍在し、すなわち、それらは、多くの反応において見出される。それらは、ATPおよびNADPのような分子を含む。典型的には、遍在分子は、炭素を標的生産物に与えず、したがって、いかなる標的への代謝経路の一部でもないであろう。故に、反応注釈エンジン107は、出発代謝物セットから遍在代謝物を除外してもよい。遍在分子は、専門家評価に基づいて、注釈において手動で指定される、または特定の閾値数を超えて反応に関与する分子を決定することによって同定されることができる。1つのヒューリスティックは、典型的なコア代謝物入力のサイズ(例えば、300)を上回る数において反応セットに現れる全ての分子にフラグを立てる。例えば、1つのデータセットでは、ATPは、約31,000個の反応のうちの2,415個に現れ、NADHは、2,000個の反応に現れ、NADPHは、3,107個の反応に現れ、これは、それらをコア代謝物アウントよりも上回らせ、それらすべてが「遍在」タグを獲得する。
【0066】
反応注釈エンジン107は、生存標的分子の予測のための基礎として出発反応データセットを取得する(204)。ユーザは、出発反応データセットを構築する方法を規定してもよい、またはユーザは、公的データベース110またはユーザまたはその他によって以前に作成されたカスタムデータベース等の専用データベース110から直接データを取得するように注釈エンジン107に命令してもよい。一実施形態では、注釈エンジン107は、MNXrefのMetaNetx反応ネームスペース(MNX)から全反応セット(約30,000個の反応)をインポートしてもよい。他の実施形態では、注釈エンジン107は、MetaCycおよびKEGGまたは他の公的または私的データベースから反応セット(約22,000個の合計反応)をインポートし、併合してもよい。
【0067】
実施形態では、反応注釈エンジン107は、データベース110から取得された情報を選択的に集約することによって出発反応データセットを構築してもよい。例えば、BKMRは、反応が自発的であるかどうかの情報を提供する。注釈エンジン107は、対応する反応のためにBKMR反応IDをMNXrefにおけるIDにマッピングするために既知のマッピングを使用してもよい。他の実施例では、KEGGまたはMetaCycおよびそれらのIDが、BKMRおよびそのIDの代わりに採用されてもよい。本関連付けを使用して、反応注釈エンジン107は、次いで、BKMRからの対応する自発的反応タグとともに、MNXrefからの既存の注釈(例えば、コア、遍在)を使用して、データベース110内にカスタム反応リストを作成してもよい。同様に、対応するIDをマッピングすることを通して、注釈エンジン107は、MNXrefにおける反応をUniProtにおける注釈と関連付け、反応が輸送反応であるかどうか、または反応基質または生産物がハロゲンを含有するかどうかに関するタグを取得し、データベース110内のカスタム反応リスト内の反応に関する注釈の中にそれらのタグを組み込んでもよい。(ハロゲン化化合物を同定することは、殆どのハロゲン関連反応が化学物質を分解することに関するため、誤った方向に進行する反応を同定するためのヒューリスティックである)。
【0068】
これらの方針に沿って、反応注釈エンジン107は、データベースを横断して関連付けられたIDを使用し、データベースからデータを集約し、他のタグの中でもとりわけ、反応が自発的であるか、熱力学に起因して一方向にのみ進行するか、(方向性を決定することに関連する)ハロゲンを含有するか、遍在代謝物を含有するか、輸送反応であるか、不平衡であるか(すなわち、化学反応の2つの側面が元素平衡を維持せず、反応がソースデータべース内に不適切に書き込まれ、無視されるべきであることを示唆する)、利用可能なデータベース内で不完全に特性評価されているか、酵素が既知のアミノ酸配列または酵素をコードする遺伝子配列と関連付けられるインジケータをタグ付けられる酵素と関連付けられるか、または膜貫通領域を有する可能性が高いソース酵素によって触媒されるかどうか等、カスタム注釈とともに出発反応セットを記憶するデータベース110を構築してもよい。注釈エンジン107を通して、ユーザは、したがって、例えば、MNXrefデータベース内の約30,000個の反応の全てに注釈を割り当ててもよい。下記に説明されるように、ユーザは、次いで、各注釈特徴またはそれらの任意の組み合わせに関して本マスタファイルを個々のリストにフィルタ処理するための基準を構成してもよい。
【0070】
図2のフロー図を参照すると、以下は、本開示の実施形態の予測エンジン109の動作の実施例を説明する。予測エンジン109は、例えば、遺伝子操作を介して、恣意的に選択された宿主生物内に生成され得る化学物質を予測する。予測エンジン109は、入力として、出発代謝物ファイル、出発反応データセット、および配列データベースを取り込んでもよい。配列データベースは、触媒化合物(酵素等)に関するアミノ酸配列または触媒化合物をエンコードする遺伝子配列を記憶してもよい。実施形態では、本開示の実施形態のBPTは、配列データベースを使用し、反応毎のアミノ酸配列または遺伝子配列の存在または不在を決定する。そのような実施形態では、配列データベースは、触媒が利用可能またはそうではない酵素または遺伝子部分を有するものとしてタグ付けられる限り、配列自体を含む必要はない。生体到達可能分子のリストとともに、予測エンジン109は、規定された宿主生物に関して、出発代謝物、例えば、いくつかの実施形態では、宿主のコア代謝物からの各到達可能標的分子の産生につながる反応の「系統」(反応経路)を生産する。
【0071】
特に、予測は、反応を触媒するための触媒の可用性見込み(例えば、宿主生物の中に組み込まれる遺伝子部分の可用性見込みまたは宿主生物が生育される成長培地からの摂取を介して宿主生物の中に導入される触媒の可用性見込み)、(出発代謝物から開始される)可能にされる反応ステップの最大数、可能にされる部分または化学反応のタイプ、および他の選択可能な特徴等のいくつかのパラメータに基づいて調整されることができる。予測エンジン109はまた、コア代謝物から各標的分子までの潜在的経路を予測することによって、標的分子へのアプローチ、およびそれを設計することの困難度を予測することに役立つ。
【0073】
実施形態では、予測エンジン109は、フィルタ処理および検証された反応データセット(RDS)を作成する。反応注釈エンジン107によって特性評価された反応を使用して、予測エンジン109は、反応を所望の検証のレベル、例えば、反応酵素に関するコード配列が存在する信頼のレベルにフィルタ処理してもよい(206)。これは、予測の正確度を微調整し、偽陽性予測の主原因を制御するためのステップである。上記に言及される実施例では、本発明者らは、MNXrefのMetaNetx反応ネームスペース(MINX)から全反応セット(約30,000個の反応)をインポートし、注釈を付けることによって、1つの生体到達可能リストに関するRDSを生成した。類似するアプローチが、KEGG、Reactome、およびMetaCyc等の他の公的に利用可能な反応データベースに適用され得る。
【0074】
本発明者らの経験に基づいて、最も一般的な公的データベースにおける反応の25〜50%は、いかなる既知の関連付けられる生物学的部分も有し得ない。例えば、反応を触媒するための酵素のアミノ酸配列またはそれらの付随の遺伝子配列は、未知であり得る。酵素配列情報がないと、バイオリアクタは、それらの酵素を採用する反応を実施することが可能ではなく、したがって、反応情報を操作目的のために無用にするであろう。経路内の1つの酵素のみが既知の遺伝子配列を欠如する場合であっても、経路全体が、宿主の中に組み込まれることができない。
【0075】
本欠陥に対処するために、予測エンジン109は、公的に利用可能な、またはカスタム酵素データを使用して、一連の検証試験を通して反応をフィルタ処理してもよい。1つの公的データベースは、大規模であり、オープンアクセスであり、確実にキュレーションされるUniProtである。その他は、RCSBタンパク質データバンク(PDB)およびGenBankを含む。MNXref、UniProt、Brenda、またはPDB等のいくつかの公的データベースでは、反応は、それらが触媒する反応に基づく酵素に関する数値分類である、酵素委員会(EC)番号をタグ付けられてもよい。UniProtまたはPDB等のいくつかのデータベースは、触媒酵素をコードする遺伝子配列が既知である反応に関するEC番号タグのみを記憶する。KEGGおよびMetaCyc等の他のデータベースは、遺伝子配列が既知ではない酵素に関するEC番号を含む。
【0076】
したがって、データベースに応じて、EC番号は、既知の酵素遺伝子配列の存在を示す場合とそうではない場合がある。概算で、EC番号を伴う反応の20〜25%が、いかなる関連付けられる酵素コード配列も有していない。ある場合には、EC番号は、EC番号と関連付けられる酵素配列の存在が、そのECと関連付けられる全ての反応が有効な関連付けられる配列を有することを意味しないように、複数の具体的化学転換に注釈を付けるために使用される(EC番号と化学反応との間に1対多関係が存在する)。したがって、酵素活性上のECタグの存在は、その酵素に関する遺伝子配列の存在の信頼性のある一般的インジケータではなく、これは、配列がその酵素に関して合理的に存在する可能性が高いかどうかを決定するために、あるデータベースに適用されることができる。いくつかのデータベースはまた、所与のアミノ酸配列によって決定的に触媒される(したがって、酵素触媒をコードするための既知の遺伝子配列を有する)ことが既知であるような特定の化学反応を明示的に記述する別個のフィールド(例えば、UniProtにおける「触媒活性」フィールド)を有する。そのような反応は、本明細書では、「決定的に配列決定されている」と注釈を付けられるものとして参照される。
【0077】
予測エンジン109は、触媒が宿主生物内の反応を触媒するために利用可能(例えば、反応を触媒するために宿主の中に組み込まれるように利用可能)であるかどうかに関する信頼度を決定してもよい。例えば、酵素コード配列が既知である確実性における差異に基づいて、予測エンジン109は、いくつかの実施形態では、反応データセット内の注釈に対して酵素コード配列に関して「厳密」検索または「緩和」検索を実行してもよい。厳密検索に関して、予測エンジン109は、例えば、決定的に配列決定されていると注釈を付けられる反応のみを選択してもよい。
【0078】
緩和検索に関して、予測エンジン109は、例えば、MetaCyc等のデータベースから導出される注釈から、既知の酵素コード配列と関連付けられるEC番号を有すると注釈を付けられる反応、または配列データベース内で「決定的に配列決定されている」と注釈を付けられる(ブール非排他的OR)反応を選択してもよい。予測エンジン109は、いずれかの信頼のレベルに関して、任意の遺伝子またはアミノ酸配列が反応に関して見出されるかどうかを記録する。例えば、予測エンジン109は、これが緩和検索を満たすが、厳密検索を満たさないことを示すタグで反応に注釈を付けてもよい。
【0079】
図3は、本開示の実施形態による、MNXrefおよびUniProt等のデータベースに対して厳密および緩和酵素配列検索を実装するための例示的擬似コードを図示する。擬似コードは、配列が酵素に関して存在するかどうかを決定するためのヒューリスティックによって使用される論理を記述する。本実施形態は、4つの信頼のレベルを提供する。コードは、最初に、反応データセット注釈が少なくとも1つのEC番号を含むかどうかを決定するステップを示す。該当する場合、コードは、EC番号に関して配列データベースを検索することを求める。厳密検索が実行されている場合、コードは、決定的に配列決定されている反応に関して配列データベースを検索することを求める。緩和検索が実行されている場合、コードは、関連付けられるEC番号を有する反応に関するRelaxed注釈タグを真に設定する。
【0080】
初期ステップが、反応データセット注釈が(a)EC番号を含んでいない、または(b)(上記に言及されるように)EC配列検索が配列データベース内にEC番号を見出し、厳密検索が実行されていると決定する場合、コードは、決定的に配列決定されている反応に関して配列データを検索することを求める。その検索が反応を決定的に配列決定されていると見出す場合、コードは、その反応に関する厳密および緩和注釈の両方を真として設定する。該当しない場合、コードは、その反応に関する両方のそれらの注釈を偽として設定する。
【0081】
要するに、本ヒューリスティックの出力は、反応毎の2つの注釈タグ、すなわち、StrictおよびRelaxedである。本ヒューリスティックは、下記に説明されるように、4つの信頼のレベルを提供する。
Strict=真→非常に高い信頼性 配列が存在する
Strict=偽→中程度の信頼性 配列が存在しない(いくつかの偽陰性を除く)
Relaxed=真→中程度の信頼性 配列が存在する(いくつかの偽陽性を除く)
Relaxed=偽→非常に高い信頼性 配列が存在しない
【0082】
本発明者らは、緩和検索を実行することが20%未満の偽陰性率をもたらす一方、UniProtにおける触媒活性フィールドに対する厳密検索が有意な偽陽性率をもたらすことを見出した。したがって、緩和検索の側でわずかにエラーを起こした方が良い場合がある。「緩和」および「厳密」タグは、配列ベースのフィルタ処理を取り扱う2つの潜在的方法にすぎない。BPTは、標的活性に関する適切なモチーフを伴う配列の存在を同定すること等のより寛容な方法またはMetaCyc等のより大量にキュレーションされるデータベース内の直接文献支援活性配列リンクの存在を要求すること等のより厳重な方法を含む、任意の配列ベースのタグ付け(したがって、フィルタ処理)アプローチに適している。
【0083】
配列ベースのフィルタ処理の代替として、またはそれに加えて、予測エンジン109は、反応方向性、または反応が自発的反応であるか、輸送反応であるか、またはハロゲンを含有するか等、注釈エンジン107に関して上記に議論される注釈の任意の組み合わせに基づいて、反応をフィルタ処理してもよい(すなわち、選択する、または選択しない)。予測エンジン109は、ユーザインターフェース102を通したユーザ構成またはデフォルト設定に基づいて、フィルタ処理を実施してもよい。実施形態では、予測エンジン109は、シミュレートされた代謝経路に沿った異なる反応ステップにおいて異なるフィルタを適用してもよい。デフォルト設定の実施例として、それらは、反応が、緩和基準に基づく配列を有すること、全ての輸送反応を除外すること、反応が配列を有する場合、ハロゲンを含有する反応のみを含むこと、上記の属性にかかわらず、全ての自発的反応を含むことであってもよい。
【0084】
反応が自発的である場合、反応は、自発的反応を触媒するための酵素を産生するように宿主ゲノムを操作する必要性なく、自動的に起こるであろう。反応は、所与の宿主に関して所与の条件下で起こることが既知であるため、予測エンジン109は、自発的反応生産物が産生されるであろうことを予測することができる。
【0085】
上記のように、無機分子は、炭素を与えず、遍在分子は、炭素を標的代謝物に与える可能性が低い。したがって、出発代謝物として使用されるものから遍在および無機分子を排除することは、ヒューリスティックに、予測エンジン109が生存標的分子を予測する際に有効な代謝経路を辿るであろうという高い信頼レベルを提供する。故に、予測エンジン109は、反応に限定されるように遍在または無機分子を処理しない。すなわち、それらは、それらが関与する反応に常に利用可能であると仮定される。
【0087】
図2を参照すると、予測エンジン109は、フィルタ処理されたRDSにおける反応に従って処理される入力代謝物の基質を前提として、形成されるであろう代謝物を予測するための段階的シミュレーションを実施してもよい(208)。(化学反応が、化学生産物を産生するように入力「基質」(例えば、分子のセット)に作用する。)本開示の実施形態の予測エンジン109の動作は、以下のように説明され得る。
【0088】
ステップ0:最初に、コア代謝物のみが、シミュレートされた宿主生物内に存在する。それらは、次のステップにおける反応のために現在の基質を形成する。
【0089】
ステップ1:予測エンジン109は、ステップ0からのコア代謝物がフィルタ処理された反応セット(RDS)内の化学方程式のうちのいずれかの一方の側と合致するかどうか、および反応が(方向/熱力学的注釈に基づいて)所与の方向に起こり得るかどうかを決定し、それによって、反応方程式の他方の側上で化学物質を産生し始めるであろう反応を決定する(208)。予測エンジン109は、任意の新しい代謝物が開始された反応によって産生されるかどうかを決定する(210)。
【0090】
予測エンジン109がいかなる新しい代謝物も予測されていないと決定する(210)場合、予測エンジン109は、予測プロセスを終了し、結果を報告する(212)。
【0091】
逆に、予測エンジン109が新しい代謝物が形成されるであろうと決定する(210)場合、予測エンジン109は、新しい代謝物を基質プールに追加する(214)。更新された基質プールは、ここで、コア代謝物およびステップ1からの新しく予測された代謝物を含む。
【0092】
予測エンジン109は、各ステップにおける代謝物および開始された反応を記録し、また、フィルタ処理されたRDSから開始された反応を除去する(ステップ216)。本除去は、同一の反応が後続ステップにおいて開始されることを防止し、それによって、反応およびその結果として生じる代謝物が後続ステップにおいて存在するものとして同定されないように回避する。各反応は、プロセスの全てのステップ全体を通して一度だけシミュレートされる。これは、概して、代謝物に到達する最短経路(最小数のステップ)に焦点を当てる操作のベストプラクティスに適合し、同一の代謝物へのより長い経路は、典型的には、準最適である。各ステップ内の代謝物および反応とともに、予測エンジン109は、代謝物が作製される(すなわち、作製されることが予測される)ステップを記録する。そのステップは、代謝物を生成するまでの代謝経路長を表す。代謝物は、これが明確に異なる反応を介して生成される場合、複数のステップにおける生産物のように見え得ることに留意されたい。本事実は、予測エンジンが、同一の代謝物に明確に異なる反応によって到達する、有用に明確に異なる経路を同定することを可能にする。
【0093】
ステップ2:予測エンジン109は、次いで、入力として現在更新されている代謝物の基質プールを使用して、ステップ208に戻り、(開始された反応がここでは除去された)フィルタ処理されたRDSに対して実行し、任意の反応が新しい代謝物を産生し始めるであろうかどうかを予測する。
【0094】
複数の反復後、代謝物のプールは、拡大する一方、利用可能な反応のプールは、縮小する。最終的に、フィルタ処理されたRDSに残っている反応を開始し得る代謝物がそれ以上残っていないため、プロセスは、飽和状態になり得る。本発明者らによる実験では、約10,000個のフィルタ処理された反応は、全ての反復後に数千個の代謝物をもたらし得る。代替として、予測エンジン109は、予測を停止し、結果を報告する前に、可能にされた反応ステップの数を規定するように構成されてもよい(212)。反応ステップの数の限定は、実世界の操作を反映し、これは、典型的には、サイクル数を限定するであろう。
【0095】
図4および5は、本開示の実施形態の生体到達可能予測ツールによって生成され得る報告の実施例を図示する。
図4は、処理ステップ毎に、生成された代謝物(生体到達可能物名)、それらの化学式、代謝物のタイプ(例えば、コア、前駆体、反応によって産生された候補生体到達可能物)、周知のデータベースにおいて使用されるID等の一意の反応IDによって表されるような代謝物の反応系統(これはまた、開始される反応の左(「L」)側かまたは右(「R」)側かを示す)、候補生体到達可能分子を産生するために最近傍コア代謝物から必要とされる反応ステップの数、および候補生体到達可能分子毎の最近傍コア代謝物の名称を示す。ステップ0における分子のみは、出発代謝物リストからのものであることに留意されたい(例えば、コア、前駆体)。
【0096】
図5は、反応系統追跡の仮説的実施例を図示する。段階的に、反応は、以下の通りである。
【0100】
本実施例における属性は、ステップにおいて生成された代謝物がコアであるかどうか、代謝物が見出されるステップ、ステップの数における距離によって測定されるような生成された代謝物に対する最近傍コア代謝物、および代謝物を産生し始めた化学反応を表す反応系統を含む。代謝物Aは、コア代謝物であり、Bは、ステップ0において宿主のバイオマスに存在する前駆体代謝物である。したがって、それらは、いかなる反応系統も有していない。
【0101】
CおよびDは、反応系統における反応A+B(ソース反応)によってステップ1において産生されるものとして示される。CおよびDの両方への最近傍コアは、Aである。CおよびDは、コアAおよびBとともに基質に追加される。
【0102】
EおよびFは、反応C+Bによってステップ2において産生されるものとして示される。EおよびFの両方への最近傍コアは、Aである。EおよびFは、コアAおよびBおよび生体到達可能生産物CおよびDとともに基質に追加される。
【0103】
GおよびHは、反応D+Eによってステップ3において産生されるものとして示される。GおよびHの両方への最近傍コアは、Aである。
【0104】
ツールはまた、以下のように代謝物毎に経路(反応の「系統」シーケンスとしても公知である)を出力してもよい。
【0111】
経路フィルタ処理。実施形態では、宿主生物、標的分子、および所与の標的分子につながる経路の反応系統を前提として、予測エンジン109は、経路長(例えば、出発代謝物から標的分子までの反応処理ステップの数)等の所与のパラメータに基づいて経路を同定するために、経路を選択的にフィルタ処理してもよい。予測エンジン109は、出力として、同定された反応経路を表すデータを提供してもよい。
【0112】
宿主生物選択。単一の宿主生物を所与とする生存標的分子を決定する代わりに、所与の生存標的分子を産生する1つ以上の宿主生物を同定することが、所望され得る。実施形態では、予測エンジン109は、1つのみの宿主生物ではなく、複数の宿主生物に関して、上記に説明される方法のうちのいずれかに従って、生存標的分子を表すデータを生成する。そのような実施形態では、所与の生存標的分子に関して、予測エンジン109は、少なくとも1つの基準を満たす複数の宿主生物のうちの少なくとも1つを決定する。例えば、反応系統データを使用して、予測エンジン109は、その宿主生物内で所与の生存標的分子を産生するために必要と予測される処理ステップの数に基づいて、宿主生物を選択してもよい。別の実施例として、予測エンジン109は、その宿主生物によって産生される生存標的分子の予測される収率に基づいて、宿主生物を選択してもよい。予測される収率は、潜在的宿主毎の別個のモデルに基づくフラックスバランス分析(FBA)、単純な元素収率モデル化、および前駆体ベースのパーセント収率推定を含む、いくつかの方法で導出されてもよい。予測エンジン109は、出力として、少なくとも1つの基準を満たすと決定された宿主生物を表すデータを提供する。
【0113】
上記の実施形態に関して説明されるように、予測エンジン109は、各宿主生物によって産生される各標的分子につながる1つ以上の経路(すなわち、系統)の記録を生成してもよい。複数の宿主生物のためにツールを起動する上記の実施形態に基づいて、反応注釈エンジン107は、収率、処理ステップの数、反応経路における反応を触媒するための触媒の可用性等のパラメータを規定する注釈を含み得る、ライブラリとしてデータベース内に宿主生物、標的分子、および系統の間の関連付けを記憶してもよい。代替として、ライブラリは、サードパーティから取得されてもよい。
【0114】
実施形態では、予測エンジン109がそのようなライブラリへのアクセスを有する場合、ツールは、所与の生存標的分子を産生する複数の宿主生物を同定するために起動される必要はない。代わりに、そのような実施形態では、予測エンジン109は、宿主、標的分子、および反応の間の関連付けに関する注釈データを含み得る、ライブラリからの系統を使用してもよい。予測エンジン109は、少なくとも部分的に、例えば、ライブラリまたは公的または専用データベースからの、少なくとも1つの標的宿主生物内の標的分子の産生につながる少なくとも1つの反応経路における反応を触媒するように予測される全ての触媒が、少なくとも1つの反応経路における全てのそのような反応を触媒するために利用可能な可能性が高いという証拠に基づいて、1つ以上の宿主生物の間から少なくとも1つの標的宿主生物を同定してもよい。実施形態では、予測エンジン109は、標的宿主が、標的分子を産生するために必要と予測される反応経路内の反応ステップの閾値数未満を要求することに基づいて、標的宿主を決定してもよい。
【0115】
生物資源探査。いくつかの反応酵素は、EC番号を有し、明確に特性評価される(それらの反応物質および生産物が既知である)が、既知の関連付けられるアミノ酸配列または遺伝子配列を有していない場合がある(「オーファン酵素」)。そのような場合では、予測エンジン109は、新しく配列された酵素が1つ以上の反応を触媒するために宿主生物の中に組み込まれ得るように、オーファン酵素を生物資源探査し、それらのアミノ酸配列を予測し、最終的に、それらの遺伝子配列を予測してもよい。予測エンジン109は、次いで、フィルタ処理された反応データのメンバとして新しく配列された酵素に対応する反応を指定してもよい。実施形態では、予測エンジン109は、当技術分野で公知の技法を使用してオーファン酵素を生物資源探査する。例えば、1つのチームが、配列を同定するために、質量分析法ベースの分析および算出方法(配列類似性ネットワークおよびオペロンコンテキスト分析を含む)を適用することによって、少数のオーファン酵素に関するアミノ酸配列を決定した。チームは、次いで、多くのより以前に特性評価されていなかった、または誤って注釈されたタンパク質の触媒機能をより正確に予測するために、新しく決定された配列を使用した。Ramkissoon KR, et al. (2013) Rapid Identification of Sequences for Orphan Enzymes to Power Accurate Protein Annotation, PLoS ONE 8(12): e84508. doi: 10. 1371/journal.pone.0084508(Shearer AG, et al. (2014) Finding Sequences for over 270 Orphan Enzymes. PLoS ONE 9(5): e97250. doi: 10. 1371/journal.pone.0097250; Yamada T, et al., Prediction and identification of sequences coding for orphan enzymes using genomic and metagenomic neighbours genomic and metagenomic neighbours, Molecular Systems Biology 8:581もまた参照)(その3つ全てが、参照することによってその全体として本明細書に組み込まれる)。
【0116】
ゲノム操作。生体到達可能予測ツールは、生体到達可能候補分子(生存標的分子)のリストを顧客等のサードパーティであり得る化学者、材料科学者、または同等物に提供してもよい。標的分子のその選定に基づいて、ユーザは、遺伝子製造システムに、各選択された標的分子につながる反応経路における反応を触媒するために使用される酵素または他の触媒に関する遺伝子配列のインジケーションを提供するようにツールに命令してもよい。遺伝子製造システムは、次いで、示された遺伝子配列を宿主のゲノムの中に(例えば、挿入、置換、欠失を通して)具現化し、それによって、生存標的分子の製造のために操作されたゲノムを産生してもよい。実施形態では、遺伝子製造システムは、2016年4月27日に出願され、「Microbial Strain Design System and Methods for Improved Large Scale Production of Engineered Nucleotide Sequences」と題された、係属中の米国特許出願第15/140,296号(参照することによってその全体として本明細書に組み込まれる)に説明される、当技術分野で公知のシステムおよび技法を使用することによって、または工場210を使用することによって実装されてもよい。実施形態では、予測エンジン109は、工場に、工場が標的分子の産生のための宿主生物の成長培地の中に1つ以上の触媒を導入するための1つ以上の触媒のインジケーションを提供する。
【0118】
予測エンジン109は、本開示の実施形態に従って、標的分子に到達するように触媒または操作されるように利用可能な可能性が高い触媒を採用する反応の全ての経路を予測してもよい。予測エンジン109はまた、予測エンジン109によって生成され得るスコア等の定性的情報または定量的情報に基づいて、分子の製造を試行するために予測された経路の中から選択するために使用されてもよい。
【0120】
反応セットが、本特許の別の場所に説明されるように、フィルタ処理および標識化されることができる。例えば、反応は、それらが利用可能な遺伝子配列を有する可能性が高いことを示すために「緩和された配列」と標識化されることができる、またはそれらは、遺伝子が本質的に存在するが、実験的に特性評価される必要があることを示すために「特性評価されるオーファン」と標識化され得る。反応は、それらの質量およびエネルギー平衡、または他の特色を反映するために同様に標識化されることができる。
【0121】
加えて、BPTは、熱力学的データに基づいて、反応が作用する可能性が高い方向を計算してもよい。
【0122】
標的分子を生成するための反応の処理の間、反応注釈エンジン107は、反応による標的分子の産生が熱力学的に好ましい方向において、または熱力学的に好ましくない方向において起こるかどうかフラグを立てることができる。
【0123】
これらの熱力学的結果および他の反応標識の全ては、次いで、BPTの所与の起動によって産生される分子および系統にタグ付けするように反応注釈エンジン107によって使用されることができる。例えば、1つの熱力学的に好ましくない反応および反応を触媒するための酵素を産生するための既知の遺伝子が欠如する2つの反応を含有する5ステップ系統は、以下のように標識化され得る。
【0127】
これらの標識は、次いで、各反応をスコアリングするために予測エンジン109によって使用されてもよい。それらはまた、出力の小区分をソートし、それに作用するために使用されることができ、それらは、所与の宿主に関する所与の分子の操作可能性への直接的な洞察を提供する。
【0128】
下記に詳述される実施例では、BPTは、生体到達可能標的分子を同定し、それらの標的分子に到達するために使用され得る予測された経路を示すために使用された。
【0129】
経路生産および評価に組み込まれた熱力学的データは、グループ寄与法を使用して生成されたが、また、任意の数の代謝データベースから導出されている場合もある。
【0130】
予測エンジン108は、各潜在的経路に、本明細書に説明されるスコアリング方法を使用して作成された関連付けられるスコアを割り当ててもよい。これらのスコアは、標的分子を作製するように操作することを試みる経路変形例についての決定を知らせるために使用されることができる。
【0131】
実施形態では、予測エンジン109は、100ポイントの最適スコアから開始され、困難度または設計失敗のリスクを追加する経路特徴に関するポイントを減算してもよい。例えば、経路長は、設計リスクと相関し、合計スコアは、経路長が増加するにつれて低減され得、例えば、予測エンジン109は、スコアから、経路長における各付加的ステップに関する1つ以上のポイントを減算し得る。
【0133】
図8は、本開示の実施形態による、チラミンを産生するために予測エンジン109によって同定される経路を図示する。チラミンの場合では、1つの反応ステップ(R
1)から成る単一の経路が、予測された。示される経路は、可逆的であるように熱力学的データに基づいて計算される反応に依存し、これがチラミンを生成するために要求される方向に作用し得ることを意味する。
【0134】
経路図では、黒色矢印は、所望の分子(ここではチラミン)を産生するための経路におけるその反応のために要求される反応方向を表す。白色矢印は、反応に関する計算された熱力学的方向を表す。要求および計算された反応方向が合致するとき、経路は、妥当である。
【0135】
本単一の経路は、別の場所に説明されるメトリックによって100ポイントのスコアとなる。
【0136】
(S)−2,3,4,5−テトラヒドロジピコリネート(THDP)
【0137】
図9に示されるように、BPTは、本開示の実施形態に従って、THDPを生成するための2つの可能性として考えられる2ステップ経路を予測した。両方の経路が、これらの実施形態では、97ポイントの同一のスコアを達成する。
【0138】
経路は、同一の第1の反応(R
1)を共有し、第2の反応(R
2またはR
3)において異なる。この場合、これらの反応は、それらが使用する還元コファクタの形態、例えば、NADH対NADPHにおいて異なる。経路スコアは同一であるが、本コファクタ差異は、操作目的に関連し、したがって、設計決定をガイドすることに役立てるためにBPTの本実施形態において示される。典型的には、1つのコファクタ(NADHまたはNADPHのいずれか)は、各所与の宿主生物にはるかに豊富に存在する。したがって、実施形態では、当業者は、THDPを産生するためのより豊富なコファクタを採用する経路を選択してもよい。他の実施形態では、予測エンジン109は、標的分子スコアを算出するために操作可能性へのコファクタの影響に関する情報をデータベースから読み出し、考慮し、それによって、経路コファクタの人間精査の必要性を不要にしてもよい。
【0139】
仮説的分子「F」に関する例示的予測経路
【0140】
別の実施例では、生体到達可能分子「F」に関して、BPTは、
図10に図示されるように、3つの潜在的経路を予測した。
【0141】
第1の経路は、2ステップ長であり、低信頼性オーファン反応(R
2)を含み、58ポイントのスコアをもたらす。低信頼性オーファン反応は、対応するDNA配列が広範な具体的研究作業を伴わずに容易に利用可能である可能性が低いオーファン酵素によって触媒される反応である。したがって、多くのポイントが、オーファン酵素に関して減点される。
【0142】
第2の経路は、3ステップ長であり、利用可能な真核生物遺伝子のみとの1つの反応(R
4)を含み、92ポイントのスコアをもたらす。ポイントが、全体的経路長のため、およびR
4に関するソース遺伝子の限定のため、減点される。
【0143】
第3の経路もまた、3ステップ長であり、他の3ステップ反応と共通する2つの反応(R
3およびR
4)を有する。これはまた、利用可能な真核生物遺伝子のみとの1つの反応(R
4)と、操作された酵素を要求する別の反応(R
5)とを有し、82ポイントのスコアをもたらす。加えて、本経路は、経路スコアにいかなる影響も及ぼさないが、具体的宿主および用途のために最良適合である経路を決定するときに考慮事項である、出発コア代謝物の代替セット(A+Bの代わりにK+L)を有する。
【0144】
本実施例では、BPTの予測エンジン109からのスコアリング出力は、単純な経路長を超える重要な操作情報を提供する。最短経路(#1)が最良であり得るという直感にもかかわらず、各反応について注釈エンジン107によって、そしてフィルタ処理または処理の間にBPTによって収集された情報は、より長い経路が(#2および#3)が操作するためにより適している場合があることを示す。例えば、反応注釈エンジン107は、いくつかの反応のための触媒が高リスクカテゴリ(例えば、低信頼性オーファン、操作された酵素)においてのみ利用可能であると決定し得、予測エンジン109は、短い経路がこれらの高リスクカテゴリに依存する一方、長い経路はそうではないと決定し得、これは、より長い経路が操作するためにより適している場合があることを示し得る。
【0145】
テトラヒドロジピコリネートスコアリング表
【0146】
本開示の実施形態によると、予測エンジン109は、標的分子を産生する困難度をスコアリングするために、これが生成する情報を使用する。(逆に、スコアは、分子を産生する容易度を示すものと見なされてもよい。)本スコアは、同義的に、本明細書では、「分子スコア」、「標的分子スコア」、または「全体的経路スコア」として参照される。
【0147】
実施例として、
図11Aおよび11Bはともに、予測エンジン109がテトラヒドロジピコリネート(THDP)の産生をスコアリングし得る様子を図示する表を提供する。実施形態では、全体的経路スコアリングプロセスは、表に示されるように、例えば、30%、60%、10%として加重される、経路スコア、部分スコア、および生産物スコア等の成分によって分類されてもよい。示される評価データは、分子(S)−2,3,4,5−テトラヒドロジピコリネート(THDP)への経路を予測するプロセスの間に生成された。
【0148】
経路成分スコアは、経路の相対的操作実行可能性を表す。実施形態では、これは、2つの要素を備える。
【0149】
経路長−経路における反応ステップの数。これは、本開示の実施形態に従って、予測エンジン109による生体到達可能予測の本質的部分として集計される。
【0150】
遺伝子カウント−経路のために要求されることが予測される遺伝子の数。これは、反応注釈エンジン107による反応フィルタ処理の一部としてデータベースにクエリを行うことによって同定される。
【0151】
反応および酵素は、必ずしも1:1の関係にあるわけではない(例えば、単一の反応が、時として、2つの部分の酵素によって触媒され、2つの遺伝子を要求する)ため、予測エンジン109は、両方の要素を経路を操作する予測される困難度の因子としてもよい。
【0152】
BPTによって予測される両方の系統では、
図9に示されるように、THDPは、所望の宿主生物において2ステップ経路を要求する。これは、2対1ステップ経路の困難度における適度な増加に基づいて、適切なスコア減点をもたらす。
【0153】
この場合、経路反応ステップあたりの遺伝子の数(反応が少しでも遺伝子を有する可能性が高いかどうかを決定する同一の評価プロセスを介して同定可能)もまた、ある程度の罰点をもたらす。
【0155】
部分スコアは、個々の経路部分の相対的操作実行可能性を表す。実施形態では、これは、評価されている経路における反応のために宿主の中に触媒を組み込むために要求される部分(例えば、遺伝子)を見出すことの予測される困難度に基づく。
【0156】
実施形態では、部分を見出す能力に影響を及ぼし得る可能性として考えられる特徴は、以下を含む。
【0157】
>100個の既知の酵素配列−反応フィルタ処理ステップの間に反応に関して見出された100個以上の配列(例えば、反応を触媒するための酵素に対応する少なくとも1つのデータベース内に示される100個以上のアミノ酸配列)。
【0158】
<100個の既知の酵素配列−酵素配列が見出されたが、100個よりも少ないものが、反応フィルタ処理ステップの間に同定された。
【0159】
高信頼性オーファン/低信頼性オーファン−いかなる酵素配列も、反応フィルタ処理ステップの間に公的データベース内に見出されなかったが、それらの配列が比較的に同定することが容易(高信頼性)または困難(低信頼性)であろうことを示唆する関連付けられる証拠が、見出された。
【0160】
操作された酵素−反応フィルタ処理ステップの間に本反応にリンクされた酵素のみが、反応を実行するために操作された(本データは、データベース検索において見出されることができる)。これは、典型的には、それらが自然に触媒する反応とは異なる反応を触媒するように変異した天然酵素を指す。これらの操作された酵素は、それらが限定された範囲のドナー生物からの1つまたはいくつかの配列に限定され得るため、新規の経路において使用することが困難であり得る。そのような操作された酵素は、BRENDA等の公的データベース内で見出されることができる。
【0161】
遺伝子分類ソーシング−(酵素配列が見出されたと仮定して)同様に、反応フィルタ処理ステップの間に識別される。本成分は、生体到達可能分子に関する予測された経路における反応の中で「最悪の場合」(最大の罰点)によって生体到達可能分子を分類し、罰点は、産業用プラットフォーム生物において示された源から酵素を発現させることの困難度に関する現在までの経験的データに基づく。
【0162】
個々の反応が未知であるときの経路に関する遺伝子可用性−ある場合には、経路は、データセット内の代用反応を使用して定義され、これらの反応は、個々の遺伝子クラスタまたは生物にプログラム的にリンクされることができ、個々の反応が未知である経路は、操作リスクおよび困難度の有意な増加を表し、したがって、大きい罰点が、割り当てられる。
【0163】
これらの特徴要素は全て、各反応を触媒する酵素に関する配列データの存在、不在、および豊富さについての情報が蓄積されるにつれて、反応注釈エンジン107によって識別される。
【0164】
THDPの場合では、遺伝子は、両方の経路反応に関して豊富に存在し、いかなる罰点ももたらさない。代わりに、例えば、反応のうちの1つが低信頼性オーファンによって触媒された場合、THDPは、有意な罰点を生じていたであろう。
【0166】
生産物スコアは、本開示の実施形態では、標的分子スコアへの最小の全体的寄与分である。生産物スコアは、細胞内で生産物を持続し、細胞からこれを排出し、培地中でこれを維持することの困難度に影響を及ぼす因子を表す。実施形態では、これは、分子の予期される毒性、排出可能性、および安定性の評価を表す。本実施形態に説明される具体的特徴は、以下を含む。
【0167】
毒性−分子が1つ以上の宿主生物に毒性であることが予期され得る程度。本情報は、抗菌データベース(または宿主生物の一般的カテゴリに関する毒性情報を収集する他のデータベース)にクエリを行うことから導出されることができる。
【0168】
排出−分配係数データに関する化学データベースにクエリを行うことによって、または内部実験データにクエリを行うことによって予測される。
【0169】
安定性−安定性問題が、化学データベースにクエリを行うことによって識別される。
【0171】
表の下側は、全体的スコアおよびカテゴリスコアを要約する。これはまた、任意のフラグ、すなわち、経路操作のために特定のディリスキングを要求するエリアを強調する。THDPは、いかなるフラグも有していない場合がある。例示的フラグは、経路にその反応ステップのための1つ以上の遺伝子(例えば、高または低信頼性オーファン)が欠落しているかどうかであろう。
【0173】
図6は、本開示の実施形態による、クラウドコンピューティング環境604を図示する。本開示の実施形態では、
図1の反応注釈エンジン107および予測エンジン109のためのソフトウェア610は、クラウドコンピューティングシステム602内で実装され、複数のユーザが、本開示の実施形態に従って、反応に注釈を付け、生体到達可能分子を予測することを可能にしてもよい。
図7に図示されるもの等のクライアントコンピュータ606が、インターネット等のネットワーク608を介して本システムにアクセスする。本システムは、
図7に図示されるタイプの1つ以上のプロセッサを使用して1つ以上のコンピューティングシステムを採用してもよい。クラウドコンピューティングシステム自体は、ネットワーク608を介して生体到達可能予測ツールソフトウェア610をクライアントコンピュータ606にインターフェースさせるためのネットワークインターフェース612を含む。ネットワークインターフェース612は、クライアントコンピュータ606におけるクライアントアプリケーションがシステムソフトウェア610にアクセスすることを可能にするために、アプリケーションプログラミングインターフェース(API)を含んでもよい。特に、APIを通して、クライアントコンピュータ606は、注釈エンジン107および予測エンジン109にアクセスしてもよい。
【0174】
サービスとしてのソフトウェア(SaaS)ソフトウェアモジュール614が、クライアントコンピュータ606へのサービスとしてBPTシステムソフトウェア610を提供する。クラウド管理モジュール616が、クライアントコンピュータ606によるシステム610へのアクセスを管理する。クラウド管理モジュール616は、マルチテナントアプリケーション、仮想化、または当技術分野で公知の他のアーキテクチャを採用するクラウドアーキテクチャが複数のユーザにサービス提供することを可能にしてもよい。
【0175】
図7は、本開示の実施形態による、非一過性コンピュータ可読媒体(例えば、メモリ)内に記憶されるプログラムコードを実行するために使用され得る、コンピュータシステム800の実施例を図示する。コンピュータシステムは、用途に応じて、人間ユーザおよび/または他のコンピュータシステムとインターフェースをとるために使用され得る、入力/出力サブシステム802を含む。I/Oサブシステム802は、アプリケーションプログラムインターフェース(API)を含む、例えば、キーボード、マウス、グラフィカルユーザインターフェース、タッチスクリーン、または入力のための他のインターフェースと、例えば、LEDまたは他のフラットスクリーンディスプレイ、または出力のための他のインターフェースとを含んでもよい。注釈エンジン107および予測エンジン109等の本開示の実施形態の他の要素は、コンピュータシステム800のもののようなコンピュータシステムとともに実装されてもよい。
【0176】
プログラムコードは、二次メモリ810または主要メモリ808または両方における永続記憶装置等の非一過性媒体内に記憶されてもよい。主要メモリ808は、ランダムアクセスメモリ(RAM)等の揮発性メモリまたは読取専用メモリ(ROM)等の不揮発性メモリ、および命令およびデータへのより高速のアクセスのための異なるレベルのキャッシュメモリを含んでもよい。二次メモリは、ソリッドステートドライブ、ハードディスクドライブ、または光学ディスク等の永続記憶装置を含んでもよい。1つ以上のプロセッサ804は、1つ以上の非一過性媒体からプログラムコードを読み取り、コンピュータシステムが本明細書の実施形態によって実施される方法を遂行することを可能にするようにコードを実行する。当業者は、プロセッサが、ソースコードを取り入れ、ソースコードをプロセッサ804のハードウェアゲートレベルにおいて理解可能である機械コードに解釈またはコンパイルし得ることを理解するであろう。プロセッサ804は、コンピュータ的に集約的であるタスクを処理するためのグラフィックス処理ユニット(GPU)を含んでもよい。
【0177】
プロセッサ804は、ネットワークインターフェースカード、WiFi送受信機等の1つ以上の通信インターフェース807を介して外部ネットワークと通信してもよい。バス805が、I/Oサブシステム802、プロセッサ804、周辺デバイス806、通信インターフェース807、メモリ808、および永続記憶装置810を通信可能に結合する。本開示の実施形態は、本代表的アーキテクチャに限定されない。代替実施形態は、異なる配列およびタイプのコンポーネント、例えば、入力/出力コンポーネントおよびメモリサブシステムのための別個のバスを採用してもよい。
【0178】
当業者は、本開示の実施形態の要素のうちのいくつかまたは全ておよびそれらの付随の動作が、コンピュータシステム800のもののような1つ以上のプロセッサおよび1つ以上のメモリシステムを含む、1つ以上のコンピュータシステムによって全体的または部分的に実装され得ることを理解するであろう。特に、生体到達可能予測ツールおよび本明細書に説明される任意の他の自動化システムまたはデバイスの要素は、コンピュータ実装されてもよい。いくつかの要素および機能性は、ローカルに実装されてもよく、その他は、例えば、異なるサーバを通してネットワークを経由する分散方式で、例えば、クライアント−サーバ方式で実装されてもよい。特に、サーバ側動作は、
図6に示されるように、サービスとしてのソフトウェア(SaaS)方式で複数のクライアントに利用可能にされてもよい。
【0179】
本開示は、本明細書に説明されるいくつかの実施形態または特徴が本明細書に説明される他の実施形態または特徴と組み合わせられ得ることを明確に開示していない場合があるが、本開示は、当業者によって実践可能であろう任意のそのような組み合わせを説明するように読み取られるべきである。
【0180】
当業者は、いくつかの実施形態では、本明細書に説明される動作のうちのいくつかが、人間実装によって、または自動化および手動手段の組み合わせを通して実施され得ることを認識するであろう。動作が完全に自動化されていないとき、生体到達可能予測ツールの適切なコンポーネントが、例えば、その独自の動作能力を通して結果を生成するのではなく、動作の人間実施の結果を受信してもよい。