【文献】
Javier F.Chaparro-Riggers. 他,Better library design: data-driven protein engineering,Biotechnology Journal,2007年 2月 1日,vol.2, no.2,p.180-191
(58)【調査した分野】(Int.Cl.,DB名)
前記遺伝的アルゴリズムは、前記バリアント生体分子のうちの1つ以上についての前記幾何学的パラメータに関連付けられた情報を除去するための閾値を変更する、請求項3に記載の方法。
生体分子バリアントの構造モデルを受け取ることと、前記構造モデルを使用して前記1つ以上の幾何学的パラメータを決定することとをさらに含む、請求項1〜9のいずれかに記載の方法。
【発明を実施するための形態】
【0026】
構造データを参照して配列活性モデルを開発する方法が本明細書に開示されている。配列活性モデルを使用して、有益な性質を有するタンパク質の指向進化をガイドすることができる。一部の実施形態は、大きい配列空間を探索し、有益な性質の分子に迅速に絞り込むのに役立つことができる。材料および/またはリソースが、所望の性質のタンパク質を見つけ、または開発するプロセスにおいて節約される場合もある。一部の実施形態は、特定の基質を伴う触媒反応について所望の活性および/または選択性を有する酵素を設計および開発するために特に有用である。
【0027】
(I.定義)
本明細書で別段に定義されていない限り、本明細書で使用するすべての技術用語および科学用語は、当業者が一般に理解するのと同じ意味を有する。本明細書に含まれる用語を含む様々な科学辞書が、当業者に周知であり、利用可能である。本明細書に記載のものと同様のまたは等価な任意の方法および材料は、本明細書に開示の実施形態の実行において使用を見出す。
【0028】
すぐ下に定義した用語は、全体として本明細書を参照することによってより完全に理解される。定義は、特定の実施形態のみを記載し、本明細書に記載の複雑な概念の理解を助ける目的で提供されている。これらは、本開示の全射程を限定するように意図されていない。具体的には、本開示は、本明細書に記載の特定の配列、組成、アルゴリズム、システム、方法論、プロトコル、および/または試薬に限定されないことが理解されるべきであり、これらは、これらが当業者によって使用される場面に応じて変動し得るからである。
【0029】
本明細書および添付の特許請求の範囲で使用する場合、単数形の「1つの(a)」、「1つの(an)」、および「その(the)」は、内容および文脈により別段に明確に要求されない限り、複数形の指示対象を含む。したがって例えば、「デバイス」への言及は、このようなデバイスの2つ以上の組合せを含む、などである。別段に示されていない限り、「または」の接続詞は、ブール論理演算子としてその正確な意味で使用されることが意図されており、選択状況における特徴の選択(Aの選択がBから互に排他的であるAまたはB)ならびに結合状況における特徴の選択(AおよびBの両方が選択されるAまたはB)を包含する。
【0030】
サポートベクターマシン(SVM)は、分類および回帰分析のための関連する学習アルゴリズムを伴ったマシン学習ツールである。基本のSVMは、一組の入力データを採用し、各所与の入力について、2つの可能なクラスのどちらが出力を形成するかを予測する。それぞれが2つのカテゴリーのうちの1つに属するとマークされた一組の訓練例を与えられると、SVM訓練アルゴリズムは、新しい例を一方のカテゴリーまたは他方のカテゴリーに割り当てるモデルを構築する。SVMは、別個のカテゴリーの例が可能な限り広い明らかなギャップによって分配されるようにマッピングされた空間内のポイントとしての例の表示であり、それは、データ点と2つのカテゴリーを分離する超平面との間の距離を最大にすることによって実施される。線形分類を実施することに加えて、SVMは、カーネルトリックを使用して非線形分類を効率的に実施して、高次元特徴空間中に入力を暗黙的にマッピングすることができる。
【0031】
配列活性モデルを最適化するために使用されるとき、SVMは、活性に基づいて2つ以上の群に分類された配列の訓練セットを入力として採用する。サポートベクターマシンは、訓練セットの異なるメンバーを、訓練セットの「活性」および「不活性」メンバーを分離する超平面インターフェースにこれらがどのくらい近いかに応じて異なって重み付けることによって動作する。この技法は、科学者が、どの訓練セットメンバーを活性群に配置し、どの訓練セットメンバーを不活性群に配置するかを最初に決定することを要求する。これは、訓練セットの活性メンバーと不活性メンバーとの間の境界として機能を果たすように活性の適切な数値を選択することによって達成され得る。この分類から、サポートベクターマシンは、訓練セット中の活性群メンバーおよび不活性群メンバーの配列を定義する独立変数の個々のものについての係数値を提供することができるベクター、Wを生成する。これらの係数は、本明細書に他の箇所で記載するように個々の残基を「ランク付けする」ために使用することができる。この技法は、超平面であって、その面の反対側の最も近い訓練セットメンバー間の距離を最大にする、超平面を識別するように試みる。別のバリエーションでは、サポートベクトル回帰モデリングが実施される。この場合、従属変数は、連続的な活性値のベクトルである。サポートベクトル回帰モデルは、個々の残基をランク付けするために使用することができる係数ベクトル、Wを生成する。
【0032】
SVMは、多くの研究において大きいデータセットを見るために使用されており、DNAマイクロアレイ分野においてかなり普及している。これらの潜在的な強みには、どの因子が試料を互いに分離するかを細かく区別する(重み付けることによって)能力が含まれる。SVMがどの残基が機能に寄与するかを正確に引き出すことができる程度に、これは、本発明によって残基をランク付けするための特に有用なツールであることができる。SVMは、S.Gunn(1998年)、「Support Vector Machines for Classification and Regressions」、技術報告書、工学応用科学部、電子工学コンピューター科学科、サザンプトン大学に記載されており、これは、すべての目的に関して参照により本明細書に組み込まれている。
【0033】
ドッカー(ドッキングソフトウェアまたはドッキングプログラム)−「ドッカー」は、リガンドがタンパク質または他の生物学的分子中の目的の結合部位と結合またはドッキングすることになるか否かを計算的に予測するコンピュータープログラムである。リガンドが結合部位に接近し、最終的に結合するプロセスは、時に「ドッキング」と呼ばれる。ドッキングの概念は、リガンドが容易に取り外されない様式でリガンドを生体分子と結合させる相互作用として理解され得る。順調なドッキングでは、リガンドおよび生体分子は、安定な複合体を形成する。ドッキングされたリガンドは、アゴニストまたはアンタゴニストとして作用し得る。ドッカーは、ドッキングをシミュレートし、かつ/または特徴付け得る。
【0034】
ドッカーは、典型的には、1つ以上のプロセッサーなどのハードウェアと共同して一時的または永久に記憶される場合のあるソフトウェアとして実装される。市販のドッキングプログラムとしては、CDocker(Accelrys)、DOCK(カリフォルニア大学、San Francisco)、AutoDock(Scripps Research Institute)、FlexX(tripos.com)、GOLD(ccdc.cam.ac.uk)、およびGLIDE(schrodinger.com)がある。
【0035】
様々なドッカーは、リガンドと生体分子との間の結合のドッキングスコアまたは他の尺度を出力する。いくつかのリガンド−生体分子の組合せについて、ドッキングプログラムは、結合が起こりにくいことを決定する。このような場合では、ドッキングプログラムは、リガンドは生体分子と結合しないという結論を出力する。
【0036】
ドッカーは、結合部位に関してリガンドの「ポーズ」を生成し得る。これらのポーズのうちのいくつかは、ドッキングスコアを生成し、または他の方法でドッキングを評価するために使用され得る。一部の実施形態では、ドッカーは、ドッキングを評価するために使用すべきポーズの数(n)をユーザーが指定することを可能にする。最良のドッキングスコアを有する上位「n」個のポーズのみが、ドッキングを評価するために考慮される。
【0037】
ドッカーは、リガンドが生体分子の結合部位とドッキングすることになる見込みの評価、またはこのようなドッキングの、それが起こった場合の品質を出力するようにプログラムされ得る。一レベルにおいて、ドッカーは、リガンドが生体分子の結合部位に結合する見込みがあるか否かを決定する。ドッカーのロジックが、結合の見込みがない、または結合が高度に不都合であると結論付ける場合、これは、「洗練されたポーズが見つからなかった」という結果を出力し得る。これは、ドッキングプログラムが生成したコンホメーションのすべてが結合部位との不都合なファンデルワールス衝突および/または静電反発力を有するとき起こり得る。ドッキング手順の上記例では、第2のオペレーションにより、閾値未満のソフトエネルギーを有するポーズを見つけることができない場合、ドッカーは、「洗練されたポーズが見つからなかった」などの結果を返し得る。ソフトエネルギーは、ファンデルワールス力および静電気力を含めた非結合相互作用を主に考慮するので、洗練されたポーズが見つからなかったという結果は、リガンドが、所与の数のポーズについて、生体分子の受容体との厳しい立体的衝突および/または静電反発力を有することを意味する。
【0038】
ある特定の実施形態では、ドッカーは、リガンドと生体分子の結合部位との間の相互作用を表すドッキングスコアを出力する。ドッカーは、リガンド−生体分子相互作用の様々な特徴を算出し得る。一例では、出力は単に、リガンドと生体分子との間の相互作用エネルギーである。別の実施形態では、全エネルギーが出力される。全エネルギーは、リガンド−生体分子相互作用エネルギーとリガンドの歪みとの組合せであると理解され得る。ある特定の実施では、このようなエネルギーは、CHARMmなどの力場を使用して算出され得る。
【0039】
様々な実施形態では、ドッキングプログラムは、生体分子の結合部位におけるリガンドの複数のポーズを考慮することによってこのような出力を生成する。各ポーズは、独自の関連したエネルギー値を有することになる。一部の実施形態では、ドッキングプログラムは、ポーズをランク付けし、高ランクのポーズの1つ以上と関連したエネルギーを考慮する。一部の場合では、これは、ある特定の高ランクのポーズのエネルギーを平均し、または他の方法で上位ランクのポーズの統計分析を実施し得る。他の実施形態では、これは単に、上位ランクのポーズと関連した値を選択し、これをドッキングについて得られたエネルギーとして出力する。
【0040】
「ポーズ」は、生物学的分子の結合部位に対するリガンドの位置または向きである。ポーズでは、リガンドのいくつかまたはすべての原子の3次元位置が、結合部位中の原子の位置のいくつかまたはすべてに対して指定される。コンホメーションは結合部位を考慮しないので、リガンドのコンホメーションはそのポーズではないが、コンホメーションを、ポーズを決定するために使用することができる。一部の実施形態では、リガンドの向きおよびコンホメーションが一緒にポーズを定義する。一部の実施形態では、ポーズは、リガンドの向き/コンホメーションの組合せが、参照結合部位における定義された閾値エネルギーレベルを満たす場合のみ存在する。
【0041】
様々な計算の仕組みをドッキングについてのポーズを生成するために使用することができる。例としては、回転可能な結合についての系統的または確率論的ねじりサーチ(torsional search)、分子動力学シミュレーション、および新しい低エネルギーコンホメーションを「進化させる」ための遺伝的アルゴリズムがある。これらの技法は、リガンドおよび/または結合部位の計算上の表示を修正し、「ポーズ空間」を探索するために使用される。
【0042】
ドッカーは、ポーズを評価してどのようにリガンドが結合部位と相互作用するかを決定する。一部の実施形態では、これらは、上述した相互作用タイプの1つ以上(例えば、ファンデルワールス力)に基づいて相互作用のエネルギーを算出することによってこれを行う。この情報は、ドッキングを特徴付け、一部の場合では、ドッキングスコアを生成するために使用される。一部の実施では、ドッカーは、ドッキングスコアに基づいてポーズをランク付けする。一部の実施では、ドッカーは、考慮事項から不都合なドッキングスコアを有するポーズを除去する。
【0043】
ある特定の実施形態では、仮想タンパク質スクリーニングシステムがポーズを評価して、ポーズが活性であるか否かを決定する。ポーズは、それが検討中の所望の活性にとって重要であることが分かっている定義された制約を満たす場合、活性であると見なされる。一例として、仮想タンパク質スクリーニングシステムは、ポーズが結合部位におけるリガンドの触媒的変換をサポートするか否かを決定し得る。
【0044】
「リガンド」は、生体分子の結合部位と相互作用して、少なくともこのリガンドおよび生体分子を含む安定な複合体を形成する分子または複合体である。リガンドおよび生体分子に加えて、安定な複合体は、他の化学実体、例えば、有機コファクターおよび無機コファクター(例えば、補酵素および補欠分子族)、金属イオンなどを含み得る(時に必要とする)。リガンドは、アゴニストであってもアンタゴニストであり得る。
【0045】
生体分子が酵素であるとき、結合部位は、触媒部位であり、リガンドは、基質、基質の反応中間体、または基質の遷移状態である。「反応中間体」は、基質からの反応生成物への変換において基質から生成される化学実体である。基質の「遷移状態」は、反応経路に沿った最高ポテンシャルエネルギーに相当する状態にある基質である。一過性の存在を有する傾向がある遷移状態において、反応物分子の衝突が進行して生成物を形成する。本開示では、基質があるプロセスにおいて記載されている場合に時には、中間体および遷移状態も、そのプロセスにとって適当であり得る。このような局面では、基質、中間体、および遷移状態は、「リガンド」と総称して呼ばれる場合がある。一部の場合には、複数の中間体が、基質の触媒的変換において生成される。ある特定の実施形態では、分析のために選択されるリガンド種(基質または中間体または遷移状態)は、触媒的変換の律速段階に関連していると公知であるものである。一例として、酵素コファクターに共有結合的に結合した基質は、律速の段階において化学修飾され得る。このような場合には、基質−コファクター種が相互作用をモデル化するために使用される。
【0046】
明らかであるはずであるように、リガンドの概念は、「基質」の概念より全般的である。あるリガンドは、結合部位と結合するが、触媒的変換を起こさない。例としては、薬物設計分野において評価されるリガンドがある。このようなリガンドは、薬理学的目的の標的生体分子と非共有結合的に結合する能力について選択される低分子であり得る。一部の場合では、リガンドは、生体分子の天然の挙動を増強、活性化、または阻害するその能力について評価される。
【0047】
本明細書において使用される場合、「生体分子」および「生物学的分子」は、生物有機体中に一般に見つかる分子を指す。一部の実施形態では、生物学的分子は、複数のサブユニットを有するポリマー生物学的巨大分子(すなわち、「バイオポリマー」)を含む。典型的な生体分子としては、それだけに限らないが、例えば、RNA、RNA類似体、DNA、DNA類似体、ポリペプチド、ポリペプチド類似体、ペプチド核酸(PNA)、RNAとDNAの組合せ(例えば、キメラプラスト)などを含めた天然に存在するポリマー、例えば、RNA(ヌクレオチドサブユニットから形成される)、DNA(ヌクレオチドサブユニットから形成される)、およびペプチドまたはポリペプチド(アミノ酸サブユニットから形成される)などといくつかの構造的特徴を共有する分子がある。生体分子がいずれかの特定の分子に限定されることは意図されていない。なぜなら、それだけに限らないが、例えば、脂質、炭水化物、または1つもしくは複数の遺伝的にコード可能な分子(例えば、1つもしくは複数の酵素もしくは酵素経路)などによって作製される他の有機分子などを含めて、任意の適当な生物学的分子が本開示において有用であるためである。本開示の一部の態様にとって特に目的のものは、リガンドと相互作用して化学的または生物学的変換、例えば、基質の触媒反応、生体分子の活性化、または生体分子の不活化をもたらす結合部位を有する生体分子である。
【0048】
一部の実施形態では、「有益な性質」または「活性」は、触媒反応速度(k
cat)、基質結合親和性(K
M)、触媒効率(k
cat/K
M)、基質特異性、化学選択性、位置選択性、立体選択性、立体特異性、リガンド特異性、受容体アゴニズム、受容体アンタゴニズム、コファクターの転換、酸素安定性、タンパク質発現レベル、溶解度、熱活性、熱安定性、pH活性、pH安定性(例えば、アルカリ性もしくは酸性pHにおける)、グルコース阻害、ならびに/または阻害剤(例えば、酢酸、レクチン、タンニン酸、およびフェノール化合物)およびプロテアーゼに対する耐性、の1つ以上の増大または低下である。他の所望の活性として、特定の刺激に対する応答におけるプロファイルの変化;例えば、温度および/またはpHプロファイルの変化を挙げることができる。合理的なリガンド設計において、標的化共有結合的阻害(TCI)の最適化は、活性の一タイプである。一部の実施形態では、本明細書に記載するようにスクリーニングされる2種以上のバリアントは、同じ基質に対して作用するが、以下の活性:生成物形成の速度、基質から生成物へのパーセント転換、選択性、および/またはコファクターのパーセント転換の1つ以上に関して異なる。本開示がいずれかの特定の有益な性質および/または所望の活性に限定されることは意図されていない。
【0049】
一部の実施形態では、「活性」は、基質から生成物への転換を触媒する酵素の能力というより限定された概念を記述するために使用される。関連した酵素特性は、特定の生成物、例えば、鏡像異性体または位置選択的生成物などに対するその「選択性」である。本明細書に提示される「活性」の広い定義には選択性が含まれるが、慣例的に、選択性は、時に酵素活性と異なるとみなされる。
【0050】
用語「タンパク質」、「ポリペプチド」、および「ペプチド」は、長さまたは翻訳後修飾(例えば、グリコシル化、リン酸化、脂質修飾、ミリスチル化(myristilation)、ユビキチン化など)にかかわらず、アミド結合によって共有結合的に連結された少なくとも2つのアミノ酸のポリマーを表すのに互換的に使用される。一部の場合では、ポリマーは、少なくとも約30のアミノ酸残基、通常少なくとも約50のアミノ酸残基を有する。より典型的には、これらは、少なくとも約100のアミノ酸残基を含む。本発明がいずれかの具体的な長さのアミノ酸配列に限定されることは意図されていない。この用語は、全長タンパク質またはペプチドの断片であると慣例的に見なされる組成物を含む。この定義内に含まれるのは、D−アミノ酸およびL−アミノ酸、ならびにD−アミノ酸とL−アミノ酸との混合物である。本明細書に記載のポリペプチドは、遺伝的にコードされるアミノ酸に制限されない。実際に、遺伝的にコードされるアミノ酸に加えて、本明細書に記載のポリペプチドは、全体的にまたは部分的に、天然に存在するおよび/または合成の非コードアミノ酸で構成され得る。一部の実施形態では、ポリペプチドは、全長親ポリペプチドのアミノ酸配列と比較した場合のアミノ酸の付加もしくは欠失(例えば、ギャップ)、および/または置換を含むが、依然として機能活性(例えば、触媒活性)を保持する全長祖先または親ポリペプチドの一部である。
【0051】
本明細書において使用される場合、用語「野生型(wild−type)」または「野生型(wildtype)」(WT)は、天然に存在する生物、酵素、および/または他のタンパク質(例えば、非組換え酵素)を指す。野生型生体分子と反応する基質またはリガンドは、時に「本来の(native)」基質またはリガンドと見なされる。
【0052】
本明細書において使用される場合、用語「バリアント」、「変異体」、「変異体配列」、および「バリアント配列」は、標準または参照配列(例えば、一部の実施形態では、親配列)といくつかの点で異なる生物学的配列を指す。この差異は、「変異」と呼ばれる場合がある。一部の実施形態では、変異体は、少なくとも1つの置換、挿入、クロスオーバー、欠失、および/または他の遺伝子操作によって変更されたポリペプチドまたはポリヌクレオチド配列である。本開示の目的に関して、変異体およびバリアントは、これらが生成される特定の方法に限定されない。一部の実施形態では、変異体またはバリアント配列は、親配列と比較して、増大した、低下した、または実質的に同様の活性または性質を有する。一部の実施形態では、バリアントポリペプチドは、野生型ポリペプチド(例えば、親ポリペプチド)のアミノ酸配列と比較した場合に変異させられた1つ以上のアミノ酸残基を含む。一部の実施形態では、ポリペプチドの1つ以上のアミノ酸残基は、複数のポリペプチドを構成するバリアントポリペプチドにおいて、親ポリペプチドと比較した場合に一定に保たれ、不変であり、または変異させられていない。一部の実施形態では、親ポリペプチドは、改善された安定性、活性、または任意の他の所望の性質を有するバリアントを生成するための基盤として使用される。
【0053】
本明細書において使用される場合、用語「酵素バリアント」および「バリアント酵素」は、特にこれらの機能において参照酵素と同様であるが、これらを野生型または別の参照酵素と配列が異なったものにするこれらのアミノ酸配列中の変異を有する酵素に言及して使用される。酵素バリアントは、当業者に周知の多種多様な異なる変異誘発技法によって作製することができる。さらに、変異誘発キットも、多くの商業的な分子生物学の供給業者から入手可能である。規定のアミノ酸における特異的置換(部位指向性)、遺伝子の局所領域内の特異的もしくはランダム変異(位置特異的)、または遺伝子全体にわたるランダム変異誘発(例えば、飽和変異誘発)を行う方法が利用可能である。酵素バリアントを生成するための多数の適当な方法が当業者に公知であり、これらとしては、それだけに限らないが、PCRを使用する一本鎖DNAもしくは二本鎖DNAの部位指向性変異誘発、カセット変異誘発、遺伝子合成、エラープローンPCR、シャッフリング、および化学的飽和変異誘発、または当技術分野で公知の任意の他の適当な方法がある。バリアントが生成された後、これらを所望の性質(例えば、高いもしくは増大した;または低いもしくは低減された活性、増大した熱安定性および/またはアルカリ安定性など)についてスクリーニングすることができる。
【0054】
「酵素のパネル」は、パネルの各メンバーが同じ化学反応を触媒するように選択された酵素の群である。一部の実施形態では、パネルのメンバーは、それぞれが同じ反応を起こして複数の基質を一括して転換することができる。多くの場合、パネルメンバーは、複数の基質を効率的に転換するように選択される。一部の場合には、パネルは、市販されている。他の場合には、これらは、ある企業体が独占している。例えば、パネルは、スクリーニング手順でヒットとして識別された様々な酵素を含み得る。ある特定の実施形態では、パネルの1つ以上のメンバーは、計算上の表示としてのみ存在する。言い換えれば、その酵素は、仮想の酵素である。
【0055】
「モデル」は、生体分子またはリガンドの構造の表示である。それは、時に原子の3次元位置のコレクション、または表示されている実体の部分として提供される。モデルは、結合部位の計算的に生成された表示、または酵素バリアントの他の側面を含むことが多い。本明細書の実施形態に関連したモデルの例は、ホモロジーモデリング、タンパク質スレッディング、またはRosetta(rosettacommons.org/software/)などのルーチンを使用するab initioタンパク質モデリング、または分子動力学シミュレーションから生成される。
【0056】
「ホモロジーモデル」は、検討中のリガンドの結合部位を少なくとも含むタンパク質またはタンパク質の一部の3次元モデルである。ホモロジーモデリングは、タンパク質構造が相同タンパク質間で保存される傾向があるという観察結果を利用する。ホモロジーモデルは、骨格および側鎖を含めた残基の3次元位置をもたらす。モデルは、モデル化された配列の構造に類似する可能性が高い相同タンパク質の構造鋳型から生成される。一部の実施形態では、構造鋳型は、「配列を鋳型にアライメントする」および「ホモロジーモデルを構築する」という2つのステップで使用される。
【0057】
「配列を鋳型にアライメントする」ステップは、モデル配列を1つ以上の構造鋳型配列にアライメントし、ホモロジーモデルを構築するための入力配列アライメントを準備する。アラインメントにより、モデル配列と構造鋳型配列(複数可)との間のギャップおよび相違する他の領域が識別される。
【0058】
「ホモロジーモデルを構築する」ステップは、構造鋳型の構造的特徴を使用して空間的拘束を導出する。空間的拘束はひいては、例えば、共役勾配およびシミュレーテッドアニーリング最適化手順を使用してモデルタンパク質構造を生成するために使用される。鋳型の構造的特徴は、NMRまたはX線結晶構造解析法などの技法から得られ得る。このような技法の例は、Qu X、Swanson R、Day R、Tsai、J.、Curr Protein Pept Sci.、2009年6月;10巻(3号):270〜85頁による総説「A Guide to Template Based Structure Prediction」において見つけることができる。
【0059】
用語「活性コンホメーション」は、タンパク質が基質を化学変換(例えば、触媒反応)させることを可能にするタンパク質(例えば、酵素)のコンホメーションについての言及において使用される。
【0060】
「活性ポーズ」は、リガンドが触媒的変換を起こす可能性が高い、または結合部位との共有結合的結合などのいくつかの所望の役割を果たすポーズである。
【0061】
用語「配列」は、それだけに限らないが、全ゲノム、全染色体、染色体セグメント、相互作用する遺伝子についての遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、ペプチド、ポリペプチド、多糖などを含めた任意の生物学的配列の順序およびアイデンティティーを指すのに本明細書で使用される。一部の文脈では、「配列」は、タンパク質中のアミノ酸残基の順序およびアイデンティティー(すなわち、タンパク質配列もしくはタンパク質文字列)、または核酸中のヌクレオチドの順序およびアイデンティティー(すなわち、核酸配列もしくは核酸文字列)を指す。配列は、文字列によって表示され得る。「核酸配列」は、核酸を構成するヌクレオチドの順序およびアイデンティティーを指す。「タンパク質配列」は、タンパク質またはペプチドを構成するアミノ酸の順序およびアイデンティティーを指す。
【0062】
「コドン」は、遺伝子コードの一部であり、かつタンパク質中の特定のアミノ酸を指定する、またはタンパク質合成を開始もしくは停止する3つの連続したヌクレオチドの特異的配列を指す。
【0063】
用語「遺伝子」は、DNAまたは生物学的機能に関連した他の核酸の任意のセグメントを指すのに広く使用される。したがって、遺伝子は、コード配列および任意選択で、これらの発現に要求される制御配列を含む。遺伝子は、例えば、他のタンパク質の認識配列を形成する非発現核酸セグメントも任意選択で含む。遺伝子は、目的の源からのクローニング、または公知のもしくは予測された配列情報からの合成を含めて、様々な源から得ることができ、所望のパラメータを有するように設計された配列を含み得る。
【0064】
「部分(moiety)」は、官能基全体または下部構造としての官能基の一部を含み得る分子の一部であり、一方、官能基は、これらの分子の特徴的な化学反応を担う分子内の原子または結合の群である。
【0065】
「スクリーニング」は、1つ以上の生体分子の1つ以上の性質が決定されるプロセスを指す。例えば、典型的なスクリーニングプロセスには、1つ以上のライブラリーの1つ以上のメンバーの1つ以上の性質が決定されるものが含まれる。スクリーニングは、生体分子の計算モデルおよび生体分子の仮想環境を使用して計算的に実施することができる。一部の実施形態では、仮想タンパク質スクリーニングシステムが、所望の活性および選択性の選択された酵素について提供される。
【0066】
「発現系」は、遺伝子または他の核酸によってコードされるタンパク質またはペプチドを発現させるための系である。
【0067】
「指向進化」、「誘導進化(guided evolution)」、または「人工進化」は、人為的な淘汰、変異、組換え、または他の操作によって1つ以上の生体分子配列(またはその配列を表示する文字列)を人工的に変化させるin silico、in vitro、またはin vivoプロセスを指す。一部の実施形態では、指向進化は、(1)個体の品種、(2)遺伝性遺伝情報を有するいくつかの品種、(3)適合度の異なるいくつかの品種が存在する再現集団(reproductive population)内で生じる。再現の成功は、有益な特性などの所定の特性についての選択の転帰によって決定される。再現集団は、例えば、in vitroプロセスにおける物理的集団、またはin silicoプロセスにおけるコンピューターシステム内の仮想集団とすることができる。
【0068】
指向進化方法は、発現させ、スクリーニングし、アッセイすることができるバリアントライブラリーを生成するために、ポリヌクレオチドに容易に適用されることができる。変異誘発法および指向進化方法は、当技術分野で周知である(例えば、米国特許第5,605,793号、同第5,830,721号、同第6,132,970号、同第6,420,175号、同第6,277,638号、同第6,365,408号、同第6,602,986号、同第7,288,375号、同第6,287,861号、同第6,297,053号、同第6,576,467号、同第6,444,468号、同第5,811238号、同第6,117,679号、同第6,165,793号、同第6,180,406号、同第6,291,242号、同第6,995,017号、同第6,395,547号、同第6,506,602号、同第6,519,065号、同第6,506,603号、同第6,413,774号、同第6,573,098号、同第6,323,030号、同第6,344,356号、同第6,372,497号、同第7,868,138号、同第5,834,252号、同第5,928,905号、同第6,489,146号、同第6,096,548号、同第6,387,702号、同第6,391,552号、同第6,358,742号、同第6,482,647号、同第6,335,160号、同第6,653,072号、同第6,355,484号、同第6,03,344号、同第6,319,713号、同第6,613,514号、同第6,455,253号、同第6,579,678号、同第6,586,182号、同第6,406,855号、同第6,946,296号、同第7,534,564号、同第7,776,598号、同第5,837,458号、同第6,391,640号、同第6,309,883号、同第7,105,297号、同第7,795,030号、同第6,326,204号、同第6,251,674号、同第6,716,631号、同第6,528,311号、同第6,287,862号、同第6,335,198号、同第6,352,859号、同第6,379,964号、同第7,148,054号、同第7,629,170号、同第7,620,500号、同第6,365,377号、同第6,358,740号、同第6,406,910号、同第6,413,745号、同第6,436,675号、同第6,961,664号、同第7,430,477号、同第7,873,499号、同第7,702,464号、同第7,783,428号、同第7,747,391号、同第7,747,393号、同第7,751,986号、同第6,376,246号、同第6,426,224号、同第6,423,542号、同第6,479,652号、同第6,319,714号、同第6,521,453号、同第6,368,861号、同第7,421,347号、同第7,058,515号、同第7,024,312号、同第7,620,502号、同第7,853,410号、同第7,957,912号、同第7,904,249号、およびすべての関連した非米国対応物;Lingら、Anal.Biochem、254巻(2号):157〜78頁[1997年];Daleら、Meth.Mol.Biol.、57巻:369〜74頁[1996年];Smith、Ann.Rev.Genet.、19巻:423〜462頁[1985年];Botsteinら、Science、229巻:1193〜1201頁[1985年];Carter、Biochem.J.、237巻:1〜7頁[1986年];Kramerら、Cell、38巻:879〜887頁[1984年];Wellsら、Gene、34巻:315〜323頁[1985年];Minshullら、Curr.Op.Chem.Biol.、3巻:284〜290頁[1999年];Christiansら、Nat.Biotechnol.、17巻:259〜264頁[1999年];Crameriら、Nature、391巻:288〜291頁[1998年];Crameriら、Nat.Biotechnol.、15巻:436〜438頁[1997年];Zhangら、Proc.Nat.Acad.Sci.U.S.A.、94巻:4504〜4509頁[1997年];Crameriら、Nat.Biotechnol.、14巻:315〜319頁[1996年];Stemmer、Nature、370巻:389〜391頁[1994年];Stemmer、Proc.Nat.Acad.Sci.USA、91巻:10747〜10751頁[1994年];WO95/22625;WO97/0078;WO97/35966;WO98/27230;WO00/42651;WO01/75767;およびWO2009/152336を参照。これらのすべては、参照により本明細書に組み込まれている)。
【0069】
ある特定の実施形態では、指向進化方法は、親タンパク質から発生したバリアントをコードする遺伝子を組み換えることによって、および親タンパク質バリアントライブラリー内のバリアントをコードする遺伝子を組み換えることによってタンパク質バリアントライブラリーを生成する。この方法は、親バリアントライブラリーの少なくとも1種のタンパク質をコードする配列または部分配列を含むオリゴヌクレオチドを使用し得る。親バリアントライブラリーのオリゴヌクレオチドのいくつかは、他のバリアントと、組換えによって変更されるように選択された代替アミノ酸のコドンの選択においてのみ異なって密接に関連している場合がある。この方法は、所望の結果が実現されるまで1回または複数回のサイクルについて実施され得る。複数のサイクルが使用される場合、各々は、典型的には、許容される、または改善された性能を有し、少なくとも1つの後続の組換えサイクルで使用するための候補であるバリアントを識別するためのスクリーニングステップを伴う。一部の実施形態では、スクリーニングステップは、所望の基質についての酵素の触媒活性および選択性を決定するための仮想タンパク質スクリーニングシステムを伴う。
【0070】
一部の実施形態では、指向進化方法は、定義された残基における部位指向性変異誘発によってタンパク質バリアントを生成する。これらの定義された残基は、典型的には、結合部位の構造解析、量子化学分析、配列相同性分析、配列活性モデルなどによって識別される。一部の実施形態は、特異的部位または遺伝子の狭い領域におけるすべての可能な(または可能な限り近い)変異を生成するように試みる飽和変異誘発を使用する。
【0071】
「シャッフリング」および「遺伝子シャフリング」は、一連の鎖伸長サイクルによって親ポリヌクレオチドの断片のコレクションを組み換える指向進化方法のタイプである。ある特定の実施形態では、鎖伸長サイクルの1つ以上は、セルフプライミングであり、すなわち、断片自体以外のプライマーの付加を伴うことなく実施される。各サイクルは、ハイブリダイゼーションによる一本鎖断片のアニーリング、鎖伸長によるアニールされた断片の後続の伸長、および変性を伴う。シャッフリングの過程にわたって、成長中の核酸鎖は、典型的には、「鋳型切り替え」と時に呼ばれるプロセスにおいて複数の異なるアニーリングパートナーにさらされる。このプロセスは、1つの核酸に由来する1つの核酸ドメインを第2の核酸に由来する第2のドメインと切り替えることを伴う(すなわち、第1および第2の核酸がシャッフリング手順における鋳型として機能を果たす)。
【0072】
鋳型切り替えではしばしば、異なる起源の断片間のクロスオーバーの導入から生じるキメラ配列が生成される。クロスオーバーは、アニーリング、伸長、および変性の複数のサイクルの間の鋳型が切り替えられた組換えによって生成される。したがって、シャッフリングにより、典型的には、バリアントポリヌクレオチド配列が生成される。一部の実施形態では、バリアント配列は、バリアントの「ライブラリー」(すなわち、複数のバリアントを含む群)を含む。これらのライブラリーの一部の実施形態では、バリアントは、親ポリヌクレオチドのうちの2つ以上に由来する配列セグメントを含む。
【0073】
2つ以上の親ポリヌクレオチドが使用されるとき、個々の親ポリヌクレオチドは、異なる親に由来する断片が、シャッフリングサイクルで使用されるアニーリング条件下でハイブリダイズするほど十分に相同である。一部の実施形態では、シャッフリングは、相対的に制限された/低い相同性レベルを有する親ポリヌクレオチドの組換えを可能にする。多くの場合、個々の親ポリヌクレオチドは、目的の別個のおよび/もしくは固有のドメイン、ならびに/または他の配列特性を有する。別個の配列特性を有する親ポリヌクレオチドを使用するとき、シャッフリングは、高度に多様なバリアントポリヌクレオチドを生成することができる。
【0074】
様々なシャッフリング技法が当技術分野で公知である。例えば、米国特許第6,917,882号、同第7,776,598号、同第8,029,988号、同第7,024,312号、および同第7,795,030号を参照。これらのすべては、その全体が参照により本明細書に組み込まれている。
【0075】
いくつかの指向進化技法は、「Gene Splicing by Overlap Extension」または「gene SOEing」を使用する。これは、制限部位に依存することなくDNA配列を組み換え、そしてin vitroで変異させられたDNA断片を直接生成するPCRベース方法である。この技法の一部の実施において、最初のPCRにより、完全長生成物を作製するために第2のPCRのための鋳型DNAとして使用される重なった遺伝子セグメントが生成される。内部PCRプライマーは、中間セグメントに重なった相補的3’末端を生成し、遺伝子スプライシングのためのヌクレオチド置換、挿入、または欠失を導入する。これらの中間セグメントの重なった鎖は、第2のPCRにおいて3’領域でハイブリダイズし、伸長されて完全長生成物を生成する。様々な用途において、全長生成物は、クローニング目的で発現ベクター中に生成物を挿入するための制限酵素部位を含むことができるフランキングプライマーによって増幅される。例えば、Hortonら、Biotechniques、8巻(5号):528〜35頁[1990年]を参照。「変異誘発」は、標準配列または参照配列、例えば、親核酸または親ポリペプチドなどの中に少なくとも1つの変異を導入するプロセスである。
【0076】
部位指向性変異誘発は、変異を導入するための有用な技法の一例であるが、任意の適当な方法が有用である。したがって、代替としてまたは追加的に、変異体は、遺伝子合成、飽和ランダム変異誘発、残基の半合成組み合わせのライブラリー、再帰的配列組換え(「RSR」)(例えば、その全体が本明細書に参照により組み込まれている、米国特許出願公開第2006/0223143号を参照)、遺伝子シャッフリング、エラープローンPCR、および/または任意の他の適当な方法によってもたらされ得る。
【0077】
適当な飽和変異誘発手順の一例は、米国特許出願公開第2010/0093560号に記載されており、これは、その全体が参照により本明細書に組み込まれている。
【0078】
「断片」は、ヌクレオチドまたはアミノ酸の配列の任意の一部である。断片は、それだけに限らないが、ポリペプチドまたはポリヌクレオチド配列の切断を含めた当技術分野で公知の任意の適当な方法を使用して生成され得る。一部の実施形態では、断片は、ポリヌクレオチドを切断するヌクレアーゼを使用することによって生成される。一部の追加の実施形態では、断片は、化学的および/または生物学的合成技法を使用して生成される。一部の実施形態では、断片は、相補的核酸(複数可)の部分的鎖伸長を使用して生成される少なくとも1つの親配列の部分配列を含む。in silico技法を伴う一部の実施形態では、化学的および/または生物学的技法によって生成される断片の結果を模倣するために、仮想断片が計算的に生成される。一部の実施形態では、ポリペプチド断片は、完全長ポリペプチドの活性を呈し、一方、一部の他の実施形態では、ポリペプチド断片は、完全長ポリペプチドが呈する活性を有しない。
【0079】
「親ポリペプチド」、「親ポリヌクレオチド」、「親核酸」、および「親」は、一般に、野生型ポリペプチド、野生型ポリヌクレオチド、または指向進化などの多様性生成手順における出発点として使用されるバリアントを指すために使用される。一部の実施形態では、親自体が、シャッフリングまたは他の多様性生成手順(複数可)を介して生成される。一部の実施形態では、指向進化で使用される変異体は、親ポリペプチドに直接関連する。一部の実施形態では、親ポリペプチドは、極度の温度、pH、および/または溶媒条件にさらされるとき安定であり、シャッフリングのためのバリアントを生成するための基盤として機能を果たすことができる。一部の実施形態では、親ポリペプチドは、極度の温度、pH、および/または溶媒条件に対して安定でなく、親ポリペプチドは、ロバストなバリアントを作製するために進化させられる。
【0080】
「親核酸」は、親ポリペプチドをコードする。
【0081】
「ライブラリー」または「集団」は、少なくとも2つの異なる分子、文字列、および/またはモデル、例えば、核酸配列(例えば、遺伝子、オリゴヌクレオチドなど)、またはこれらに由来する発現生成物(例えば、酵素または他のタンパク質)などのコレクションを指す。ライブラリーまたは集団は一般に、いくつかの異なる分子を含む。例えば、ライブラリーまたは集団は、典型的には、少なくとも約10の異なる分子を含む。大きいライブラリーは、典型的には、少なくとも約100の異なる分子、より典型的には、少なくとも約1000の異なる分子を含む。一部の用途については、ライブラリーは、少なくとも約10000以上の異なる分子を含む。しかし、本発明が異なる分子の具体的な数に限定されることは意図されていない。ある特定の実施形態では、ライブラリーは、指向進化手順によって生成されるある数のバリアントまたはキメラ核酸またはタンパク質を含む。
【0082】
2つの核酸は、この2つの核酸の各々に由来する配列が組み合わされて子孫核酸(複数可)が生成されるとき、「組み換えられる」。2つの配列は、核酸の両方が組換えの基質であるとき、「直接」組み換えられる。
【0083】
用語「選択」は、1つ以上の生体分子が1つ以上の目的の性質を有すると識別されるプロセスを指す。したがって、例えば、ライブラリーをスクリーニングして、1つ以上のライブラリーメンバーの1つ以上の性質を決定することができる。ライブラリーメンバーのうちの1つ以上が目的の性質を持っていると識別される場合、それは、選択される。選択は、ライブラリーメンバーの分離を含むことができるが、これは必要ではない。さらに、選択およびスクリーニングは、同時であることができ、同時であることが多い。本明細書に開示の一部の実施形態は、望ましい活性および/または選択性の酵素をスクリーニングおよび選択するためのシステムおよび方法を提供する。
【0084】
「次世代シーケンシング」および「ハイスループットシーケンシング」は、シーケンシングプロセスを並列化し、数千または数百万の配列を一度に生成するシーケンシング技法である。適当な次世代シーケンシング法の例としては、それだけに限らないが、単一分子リアルタイムシーケンシング(例えば、Pacific Biosciences、Menlo Park、California)、イオン半導体シーケンシング(例えば、Ion Torrent、South San Francisco、California)、パイロシーケンシング(例えば、454、Branford、Connecticut)、ライゲーションによるシーケンシング(例えば、Life Technologies、Carlsbad、CaliforniaのSOLiDシーケンシング)、合成および可逆性ターミネーターによるシーケンシング(例えば、Illumina、San Diego、California)、透過型電子顕微鏡法などの核酸イメージング技術などがある。
【0085】
「従属変数」(「DV」)は、出力もしくは効果を表示するか、またはそれが効果であるか否かを確認するために試験される。「独立変数」(「IV」)は、入力もしくは原因を表示するか、またはこれらが原因であるか否かを確認するために試験される。従属変数は、独立変数が変化するにつれてこれがどのくらい変化するかを確認するために試験され得る。
【0086】
単純な確率論的線形モデルでは、
y
i=a+bx
i+e
i
である。
式中、項y
iは、従属変数のi番目の値であり、x
iは、独立変数(IV)のi番目の値である。項e
iは、「誤差」として公知であり、独立変数によって説明されない従属変数のばらつきを含む。
【0087】
独立変数(IV)は、「予測変数」、「リグレッサー」、「制御変数」、「マニピュレート変数」、「説明変数」、または「入力変数」としても公知である。
【0088】
用語「係数」は、従属変数または従属変数を含む式を乗算されるスカラー値を指す。
【0089】
用語「直交の」および「直交性」は、モデルまたは他の関係性において他の独立変数と無相関である独立変数を指す。
【0090】
用語「配列活性モデル」は、一方における生物学的分子の活性、特性、または性質と、他方における様々な生物学的配列との間の関係性を記述する任意の数学的モデルを指す。
【0091】
用語「文字列」は、生物学的分子の表現を指し、生物学的分子の表現は、その分子に関する配列/構造情報を保存する。一部の実施形態では、文字列は、バリアントのライブラリー中の配列変異についての情報を含む。生体分子の文字列および生体分子についての活性情報は、配列活性モデルの訓練セットとして使用され得る。生体分子の非配列の性質は、記憶されるか、または生体分子の文字列に関連付けられることができる。
【0092】
「参照配列」は、それから配列のバリエーションがもたらされる配列である。一部の場合では、「参照配列」は、バリエーションを定義するために使用される。このような配列は、所望の活性の最高値(または最高値のうちの1つ)を有するとモデルによって予測されたものであり得る。別の場合では、参照配列は、元のタンパク質バリアントライブラリーのメンバーのものであり得る。ある特定の実施形態では、参照配列は、親タンパク質または核酸の配列である。
【0093】
語句「訓練セット」は、1つ以上のモデルが適合され、構築される一組の配列活性データまたは観察結果を指す。例えば、タンパク質配列活性モデルについて、訓練セットは、最初のまたは改善されたタンパク質バリアントライブラリーの残基配列を含む。典型的には、これらのデータは、ライブラリー中の各タンパク質についての活性値と一緒に完全または部分的な残基配列情報を含む。一部の場合では、複数のタイプの活性(例えば、速度定数データおよび熱安定性データ)が、訓練セット中に一緒に提供される。活性は、時に有益な性質である。
【0094】
用語「観察結果」は、配列活性モデルなどのモデルを生成するために訓練セット中で使用され得るタンパク質または他の生物学的実体についての情報である。用語「観察結果」は、タンパク質バリアントを含めた任意のシーケンシングおよび/またはアッセイされた生物学的分子を指す場合がある。ある特定の実施形態では、各観察結果は、ライブラリー中のバリアントについての活性値および関連配列である。一般に、配列活性モデルを作製するために使用される観察結果が多いほど、その配列活性モデルの予測力はより良好である。
【0095】
語句「予測力」は、様々な条件下でデータの従属変数の値を正確に予測するモデルの能力を指す。例えば、配列活性モデルの予測力は、配列情報から活性を予測するモデルの能力を指す。
【0096】
語句「クロスバリデーション」は、従属変数の値を予測するモデルの能力の一般化可能性を試験する方法を指す。この方法は、1つのセットのデータを使用してモデルを準備し、異なるセットのデータを使用してそのモデルの誤差を試験する。第1のセットのデータは、訓練セットとして見なされ、第2のセットのデータは、バリデーションセットである。
【0097】
語句「系統的分散」は、一項目または異なる組合せで変更されている項目のセットの異なる記述子を指す。
【0098】
語句「系統的に変化したデータ」は、一項目または異なる組合せで変更されている項目のセットの異なる記述子から生成され、導出され、または生じたデータを指す。多くの異なる記述子を同時に、しかし異なる組合せで変更することができる。例えば、アミノ酸の組合せが変更されたポリペプチドから集められた活性データは、系統的に変化したデータである。
【0099】
語句「系統的に変化した配列」は、各残基が複数の場面において見られる一組の配列を指す。原理上は、系統的なバリエーションのレベルは、配列が互いに直交している(すなわち、平均と比較して最大に異なる)程度によって定量化することができる。
【0100】
用語「トグリング」は、最適化されたライブラリー中のタンパク質バリアントの配列における具体的な位置への複数のアミノ酸残基タイプの導入を指す。
【0101】
用語「回帰」および「回帰分析」は、独立変数のうちのどれが従属変数に関係しているかを理解し、これらの関係性の形態を探索するために使用される技法を指す。制限された状況において、回帰分析を使用して独立変数と従属変数との間の因果関係を推測することができる。これは、変数の間の関係を推定するための統計的技法である。これは、焦点が従属変数と1つ以上の独立変数との間の関係性にあるとき、いくつかの変数をモデル化および分析するための多くの技法を含む。より具体的には、回帰分析は、独立変数のいずれか1つが変更されている一方、他の独立変数が固定して保持されているとき、従属変数の典型的な値がどのように変化するかを理解するために役立つ。回帰技法は、配列および活性の情報を含み得る複数の観察結果を含む訓練セットから配列活性モデルを生成するために使用され得る。
【0102】
「部分最小二乗法」(「PLS」)は、予測変数(例えば、活性)および観察可能な変数(例えば、配列)を新しい空間に投影することによって線形回帰モデルを見つける方法のファミリーである。PLSは、「潜在構造への投影」としても公知である。X(独立変数)およびY(従属変数)のデータの両方が新しい空間に投影される。PLSは、2つのマトリックス(XとY)間の基本的な関係を見つけるために使用される。潜在的変数モデルがXおよびY空間における共分散構造をモデル化するために使用される。PLSモデルは、Y空間における最大多次元分散方向を説明するX空間における多次元方向を見つけようとする。PLS回帰は、予測因子のマトリックスが観察結果より多くの変数を有するとき、およびX値の間で多重共線性があるとき、特に有用である。
【0103】
潜在的変数(観察可能な変数とは対照的に)は、直接観察されないが、観察される変数または直接測定される変数から推測される変数である。潜在的変数の観点から観察される変数を説明することを目的とする数学的モデルは、潜在的変数モデルと呼ばれる。
【0104】
「記述子」は、項目を記述または識別する機能を果たすものを指す。例えば、文字列中の文字は、文字列によって表示されているポリペプチド中のアミノ酸の記述子であることができる。
【0105】
回帰モデルでは、従属変数は、項の和によって独立変数に関連している。各項は、独立変数と関連した回帰係数との積を含む。純粋に線形回帰モデルの場合では、回帰係数は、以下の形式の表現においてβによって与えられる:
y
i=β
1x
i1+...+β
px
ip+ε
i=x
iTβ+ε
i
式中、y
iは、従属変数であり、x
iは、独立変数であり、ε
iは、誤差変数であり、Tは、ベクトルx
iとβとの内積である転置行列を表す。
【0106】
語句「主成分回帰」(「PCR」)は、回帰係数を推定するとき主成分分析を使用する回帰分析を指す。独立変数に対して直接的に従属変数を回帰する代わりに、独立変数の主成分が使用される。PCRは、典型的には、回帰分析における主成分のサブセットを使用するだけである。
【0107】
語句「主成分分析」(「PCA」)は、おそらく相関した変数の一組の観察結果を「主成分」と呼ばれる線形的に無相関の変数の一組の値に転換する直交変換を使用する数学的手順を指す。主成分の数は、元の変数の数より少ないか、またはそれに等しい。この変換は、第1の主成分が最大の可能な分散を有し(すなわち、可能な限り多くのデータ中のばらつきの要因となる)、各後続の成分が、次々に、それが先行する成分と直交している(すなわち相関していない)べきであるという制約下で可能な最高の分散を有する方法で定義される。
【0108】
「ニューラルネットワーク」は、計算に対してコネクショニスト手法を使用して情報を処理する処理要素または「ニューロン」の相互接続した群を含むモデルである。ニューラルネットワークは、入力と出力との間の複雑な関係性をモデル化し、かつ/またはデータ中のパターンを見つけるために使用される。ほとんどのニューラルネットワークは、非線形、分布型、並列の様式でデータを処理する。ほとんどの場合、ニューラルネットワークは、学習フェーズ中にこれらの構造を変更する適応システムである。機能は、様々なユニットが割り当てられているサブタスクの明瞭な描写を使用するのではなく、処理要素によって一括してかつ並列に実施される。
【0109】
一般に、ニューラルネットワークは、処理要素と要素パラメータとの間のコネクションによって決定される複雑な全体的挙動を呈する単純な処理要素のネットワークを伴う。ニューラルネットワークは、ネットワーク内のコネクションの強度を変えて所望の信号の流れを生成するように設計されたアルゴリズムとともに使用される。強度は、訓練または学習中に変えられる。
【0110】
「遺伝的アルゴリズム」(「GA」)は、進化のプロセスを模倣するプロセスである。遺伝的アルゴリズム(GA)は、完全に特徴付けられていないか、または複雑すぎて完全な特徴付けを可能にすることができないが、何らかの分析的評価が利用可能である問題を解決するために多種多様な分野で使用される。すなわち、GAは、解の相対値について何らかの定量化可能な尺度(または少なくとも、別のものと比較した1つの潜在的な解の相対値)によって評価することができる問題を解決するために使用される。本開示との関連で、遺伝的アルゴリズムは、典型的には文字列が1つ以上の生物学的分子(例えば、核酸、タンパク質など)、または配列活性モデルなどのモデルもしくはサポートベクターマシンを訓練するために使用されるデータに対応する場合に、コンピューターで文字列を選択またはマニピュレートするためのプロセスである。
【0111】
一例では、遺伝的アルゴリズムは、第1の世代のアルゴリズムにおけるモデルの集団を提供および評価する。各モデルは、少なくとも1つの独立変数(IV)と従属変数(DV)との間の関係性を記述する複数のパラメータを含む。「適合度関数」は、集団のメンバーモデルを評価し、1つ以上の基準、例えば、高い所望の活性または低いモデル予測誤差などに基づいてこれらをランク付けする。集団のメンバーモデルは、遺伝的アルゴリズムとの関連で個体または染色体とも時に呼ばれる。一部の実施形態では、モデル適合度は、赤池情報量基準(AIC)またはベイズ情報量規準(BIC)を使用して評価され、最小のAICまたはBIC値を有する個体が最適合個体として選択される。高ランクのモデルが、第2の世代への昇進および/または第2の世代のアルゴリズムのための「子モデル」の集団を生成するための交配のために選択される。第2の世代における集団は、適合度関数によって同様に評価され、高ランクのメンバーが、第1の世代と同様にプロモートされ、かつ/または交配される。遺伝的アルゴリズムは、「収束基準」が満たされるまで後続の世代についてこのようにして継続し、その時点でアルゴリズムは、1つ以上の高ランクの個体(モデル)を伴って終了する。
【0112】
別の例では、「個体」は、バリアントペプチド配列であり、適合度関数は、これらの個体の予測された活性である。各世代は、適合度について評価される個々のペプチド配列の集団を含む。世代における最適合が、次世代集団を生成するための昇進および/または交配のために選択される。複数の世代の後、遺伝的アルゴリズムは、高性能ペプチド配列の集団へと収束し得る。
【0113】
上記例と同様に、遺伝的アルゴリズムは、多くの場合複数の繰り返しを通じて進行して、パラメータ空間内の最適パラメータをサーチする。遺伝的アルゴリズムの各繰り返しは、遺伝的アルゴリズムの「世代」とも呼ばれる。遺伝的アルゴリズムの一世代におけるモデルは、その世代の「集団」を形成する。遺伝的アルゴリズムとの関連で、用語「染色体」および「個体」は、集団中のモデルまたは一組のモデルパラメータの通称として時に使用される。親世代に由来するモデルは、そのパラメータ(または「遺伝子」)を子世代のモデルに渡し、それは、親染色体がその遺伝子を子染色体に渡す生物学的プロセスに類似するので、これは、そのように使用される。
【0114】
用語「遺伝的操作」(「GO」)は、生物学的なおよび/または計算による遺伝的操作を指し、ここで、文字列の任意のタイプの任意の集団の(かつしたがってこのような列によってコードされる物理的物体の任意の物理的性質の)すべての変化は、論理代数関数の有限のセットのランダムなおよび/または所定の適用の結果として記述することができる。GOの例としては、それだけに限らないが、増殖、クロスオーバー、組換え、変異、ライゲーション、断片化などがある。
【0115】
「赤池情報量基準」(「AIC」)は、統計モデルの相対的な適合の良さの尺度であり、有限のセットのモデルの中でのモデル選択の基準として使用されることが多い。AICは、情報エントロピーの概念に基づいており、実際には所与のモデルが現実性を記述するために使用されるとき失われる情報の相対的尺度を提供する。これは、モデル構築における偏りと分散との間、大ざっぱに言うと、モデルの精度と複雑性との間の兼ね合いを記述すると言うことができる。AICは、
AIC=−2log
eL+2k
として算出することができ、式中、Lは、関数の最大尤度であり、kは、推定されるモデルの自由パラメータの数である。
【0116】
「ベイズ情報量規準」(「BIC」)は、有限のセットのモデルの中でのモデル選択の基準であり、AICと密接に関連している。BICは、BIC=−2log
eL+klog
e(n)として算出することができ、式中、nは、データ観察結果の数である。観察結果の数が増加するにつれて、BICは、AICより重く余分の数の自由パラメータにペナルティーを科すことが多い。
【0117】
モデルの「尤度関数」または「尤度」は、統計モデルのパラメータの関数である。いくつかの観察された転帰を与えられた一組のパラメータ値の尤度は、これらのパラメータ値を与えられたこれらの観察された転帰の確率に等しく、すなわち、L(θ|x)=P(x|θ)である。
【0118】
「アンサンブルモデル」は、その項がモデルの1つの群のすべての項を含むモデルであり、項のアンサンブルモデルの係数は、その群の個々のモデルの対応する項の重み付けられた係数に基づく。係数の重み付けは、個々のモデルの予測力および/または適合度に基づく。
【0119】
「モンテカルロシミュレーション」は、実際の現象をシミュレートする数値的結果を得るために多数のランダムサンプリングを利用するシミュレーションである。例えば、間隔(0,1]から多数の疑似ランダムな均一な変数を抜き取り、前部として0.50未満またはそれに等しい値、および後部として0.50超の値を割り当てることは、コインを繰り返して投げる挙動のモンテカルロシミュレーションである。
【0120】
(II.ワークフローの一般的な記述)
(A.指向進化のラウンドについてのワークフロー)
ある特定の実施形態では、全体的なワークフローは、指向進化プロセスを制御するために、in vitro技法および計算手法の両方を使用する。プロセスの計算側は、構造モデルおよび配列活性モデルを使用する。
【0121】
指向進化の各ラウンドは、新しいセットの構造モデル、および新しい配列活性モデルを使用する。さらに、各ラウンドにおいて、さらなる分析のために識別された生体分子バリアントは、バリアントの3次元構造モデルを使用して評価される。構造モデルからの情報は、バリアントの配列およびアッセイデータ(活性)と組み合わされて、大きいフィルタリングされていないデータセットを生成する。典型的には、データセットの一部は、訓練セットとして使用される。指向進化の現在のラウンドについて、訓練セットは、配列活性モデルを訓練し、次いでこれは、指向進化の次のラウンドのための生体分子バリアントを識別する。
【0122】
ある特定の実施形態では、指向進化の各ラウンドの始めに提供された組み合わされたフィルタリングされていないデータを評価するために、1つ以上の遺伝的アルゴリズム(GA)が使用される。GAは、フィルタリングされていないデータセット中に含まれる情報のサブセットを識別し、このサブセットは、新しい配列活性モデルを訓練するための独立変数として使用される。活性は、従属変数であり、配列活性モデルは、フィルタリング中に識別された独立変数の関数として活性を提供する。様々な実施形態では、配列活性モデルは、非線形モデルである。ある特定の実施形態では、配列活性モデルは、n次元空間における超平面であり、これは、サポートベクターマシンによって生成され得る。
【0123】
図1Aに表した一例では、指向進化ワークフローは、以下のように展開する。最初に、複数の生体分子バリアントについて情報が収集される。これらのバリアントの各々は、指向進化の以前のラウンドで識別されていた場合がある。プロジェクトが始まったばかりの場合(すなわち、指向進化の以前のラウンドがない)、バリアントは、異なる源、例えば、潜在的に興味深い性質を有することが分かっている生体分子のパネルなどから得られる。時に、第1のラウンドのバリアントは、配列および/または活性空間の相対的に広い範囲に及ぶように選択される。
【0124】
バリアントが識別された後、評価システムは、各バリアントについての様々なタイプの情報を得る。特に、各バリアントの目的の少なくとも1つの活性、および配列が決定される。一部の実施形態では、配列は、野生型配列または他の参照配列からの変異のコレクションとして表示される。一部の実施形態では、活性は、定義された単位を有する数値として記憶される。一部の実施形態では、活性値は、正規化される。所与のバリアントの配列が分かっていない場合、これは、バリアントの物理的な試料をシーケンシングすることによって得られ得る。
【0125】
配列活性データに加えて、構造モデルが各バリアント生体分子について生成される。ある特定の実施形態では、構造モデルは、ホモロジーモデルである。構造モデルは、追加のデータを得るために計算的に評価され、このデータは、各バリアントの配列および活性データと組み合わされている。一部の実施では、各バリアントの構造モデルが使用されて、リガンドと生体分子の受容体部位との相互作用エネルギーおよび/または受容体部位中のリガンドの幾何学的配置を記述する1つもしくは複数のパラメータが識別される。このような幾何学的配置は、リガンドの原子と、結合部位における残基部分の原子および/または結合部位におけるコファクター部分の原子との間の距離を含み得る。ある特定の例を以下に提示する。
【0126】
フィルタリングされていないデータセットは、各バリアントについての配列および活性データを含み、典型的には各バリアントについての情報の様々な追加のピースを含む。本明細書に記載するように、情報のこれらの追加のピースは、各バリアントについての構造モデルに由来する。さらに、これらの追加のデータは、典型的には、(i)検討中のリガンドと各バリアントの結合部位との間の相互作用もしくは結合エネルギー、および/または、(ii)リガンドと受容体との相互作用を特徴付ける構造的/幾何学的記述子を含む。
図1Aのブロック103を参照。
【0127】
生のフィルタリングされていないセットのデータは、必ずしも新しい配列活性モデルを訓練するために最適であるとは限らないことが判明している。むしろ、組み合わされた生データセットのフィルタリングされたサブセットは、典型的にはより有用な配列活性モデルをもたらす。したがって、ブロック103からの生データセットは、ブロック105および107に例示したようにフィルタリングされる。
【0128】
フィルタリングは、任意の適当な技法(複数可)によって達成され得る。以下でより完全に記載するように、1つの任意選択の技法は、バリアントの構造モデルから得られるある特定のタイプのパラメータ(例えば、ある特定の基質原子から残基原子までの距離)を除去する。ブロック105。一例として、フィルタリングされていないデータセットは、受容体結合部位におけるリガンドの10の利用可能な幾何学的特性を含み得るが、フィルタリングによりこれらのうちの3つが排除され、その結果、7つのみのこのようなパラメータのサブセットが訓練セットにおいて使用される。これらのパラメータは、配列とともに、訓練セットで訓練される配列活性モデルにおける独立変数として機能を果たす。代替としてまたは追加的に、フィルタリングは、配列活性モデルを生成するために有用であると決定された範囲の外、または閾値未満に入る独立変数の1つ以上の値を有するバリアントを除去し得る。ブロック107。ある特定の実施形態では、このようにしてフィルタリングされる独立変数は、構造モデルに由来する。
【0129】
ブロック109で例示したように、生データセットが適切にフィルタリングされた後、これは、配列活性モデルを生成するために使用される。述べたように、配列活性モデルは、非線形モデル、例えば、サポートベクターマシンによって決定されるn次元空間内の超平面などであり得る。配列活性モデルが生成された後、これは、指向進化の次のラウンドのための高性能バリアントを識別するために役立つように使用される。ブロック111を参照。一実施形態では、訓練された配列活性モデルは、遺伝的アルゴリズム(GA)とともに使用されて、有益な性質を有する可能性が高い複数のバリアントを選択する。選択されたバリアントは、指向進化の次のラウンドで使用される。このような次のラウンドでは、配列活性モデルを用いて選択されたバリアントは、上述したように取り扱われる(ブロック103、任意選択で105、107、および109)。しかし、これらは、新しい生データセットを生成するために最初に分析される。ブロック113を参照。ある特定の実施形態では、バリアントは、物理的に生成され、活性についてアッセイされる。これは、生データの一部を提供する。バリアントはまた、指向進化のより早いラウンドで使用されたエネルギータイプおよび幾何形状タイプの各々についての相互作用エネルギー値およびリガンド結合幾何学値を決定するために、構造的にモデル化される。これらのデータタイプについての値を生成するためにドッカーを使用し得る。必要であれば、生データを完成するためにバリアントの1つ以上がシーケンシングされる。
【0130】
指向進化のラウンドは、1つ以上のラウンドが限定された改善を示し、または他の収束基準を満たすまでこのようにして継続する。そして、指向進化プロジェクトは終了する。
図1Aでは、収束基準の点検が決定ブロック115によって例示されている。
【0131】
(B.モデル生成ワークフロー)
上記に示したように、一部の実施は、配列活性モデルを訓練する前に生データセットをフィルタリングする。フィルタリングは、生データからある特定の変数タイプを除去し得る。各変数タイプは、配列活性モデルの潜在的な独立変数である。代替としてまたは追加的に、フィルタリングは、定義された範囲外のパラメータ値を有するある特定のバリアントを除去し得る。このようなフィルタリングは、データを使用する訓練されたモデルによって生成されるノイズを低減させることが判明している。一部の実施では、フィルタリングは、1つ以上のGAを使用して達成される。ある特定の実施形態では、生データからフィルタリングされるデータのタイプは、リガンドと生体分子との間の相互作用エネルギーおよび/または生体分子の結合部位におけるリガンドの幾何学的特性に限定される。
【0132】
図1Bは、生データをフィルタリングする一手法を提示する。表した実施形態では、3つの源からのデータが組み合わされて、生データセット153が形成される。各バリアントは、3つすべての源からの独自のデータを与える。組み合わされたデータは、リガンド−バリアント相互作用に対する活性データを含む。ブロック141によって表示されている活性データは、標準アッセイツール、例えば、液体クロマトグラフィー、ガスクロマトグラフィーなどを使用して生成され得る。さらに、配列データは、所望の活性データを有する個々のバリアントに対して提供される(ブロック141)。ブロック143によって表示されている配列データは、事前に分かっていることも、バリアントのアミノ酸またはコード核酸をシーケンシングすることによって決定されることもある。シーケンシングは、多くの利用可能なシーケンシング技術の任意の1つを使用して実施され得る。大量並列シーケンシングが一部の実施形態では使用される。最後に、構造データがバリアントの構造モデルから生成され得る。このような情報は、構造モデルだけでなくドッキングプログラム(ドッカー)も使用して得られ得る。このプログラムは、検討中のバリアントの構造モデルの結合部位におけるリガンドのポーズを評価する。生の構造データは、リガンドとコファクターおよび/または結合部位残基との間の特定の相互作用エネルギータイプおよび原子間距離を含めた多くのタイプのパラメータについてのデータを含む。生の構造データは、
図1Bでブロック145によって表示されている。
【0133】
3つのすべての源のデータは、
図1Bに表したように組み合わされて組み合わされた生データ153をもたらす。ある特定の実施形態では、組み合わされた生データは、フィルタリングツールまたはコンピューター実装アルゴリズムによってさらに処理するために利用可能であるコンピューター読み取り可能なファイルまたはファイルの群の形態で提供される。
【0134】
表した実施形態では、フィルタリングの2つの別個の段階、段階155の特徴選択および段階157の距離選択が示されている。表した実施形態では、これらのフィルタリングオペレーションの各々は、目的関数として独自の配列活性モデルを使用する独自の遺伝的アルゴリズムを使用して達成される。具体的な実施形態では、配列活性モデルは、
図1Bに表したように、サポートベクターマシン159および161を使用して生成される。特徴選択フィルターは、組み合わされた生データセットからの除去のために、特定の相互作用エネルギータイプおよび/または原子間距離を識別する。この実施形態では、「距離」の概念は、他の幾何学的パラメータ、例えば、生体分子および/またはコファクターの原子に対するリガンド原子の角度特性、ねじれ特性、および全体的な位置特性などを含む。識別されたデータタイプは、データセットに寄与するすべてのバリアントについて除去される。遺伝的アルゴリズムを使用するとき、除去プロセスは、流動的であり得る。言い換えれば、除去されるデータタイプの1つ以上は、特徴選択遺伝的アルゴリズムのパフォーマンス中に、1つ以上の世代について一時的にのみ除去され得る。これを達成するための適当な技法の例を以下に記載する。距離選択フィルターは、生データに寄与するある特定のバリアントについてのデータを除去する。このフィルターは、指定された数値範囲外であるある特定のエネルギーおよび/または距離の値を選択する。これらの範囲外のエネルギーおよび/または距離の値を有する任意のバリアントは、そのデータを生データセットから完全に除去させる。フィルタリングが遺伝的アルゴリズムを使用して実施されると、プロセスの一時点で除去されたバリアントデータは、遺伝的アルゴリズムの後の実行中に、適切な場合再導入され得る。例えば、遺伝的アルゴリズムの一世代中に除去されたバリアントデータは、後の世代で再導入され得る。このプロセスを以下でより詳細に記載する。
【0135】
フィルタリングがブロック155および157に関して記載したように終了した後、配列活性モデルは、フィルタリングされたデータを使用して訓練される。一部の実施では、訓練は、サポートベクターマシンを使用して実施される。得られる配列活性モデルは、ブロック165として表されている。これは、予測された活性値に基づいてバリアント配列を検討しランク付けする異なる遺伝的アルゴリズムにおける目的関数として使用され。当該遺伝的アルゴリズムは、
図1Bのブロック167に表されている。
【0136】
一部の他の実施形態では、特徴選択段階155は実施されない。したがって、特徴は、フィルターアウトされない。言い換えれば、すべての利用可能な特徴が、予測遺伝的アルゴリズム167のための配列活性モデル165を訓練するために使用される。フィルタリングは、識別された範囲外のエネルギーまたは幾何学値を有するバリアントを除去するだけである。一部の他の実施形態では、特徴選択段階155および距離選択段階157は、組み合わされて単一の選択段階にされ、それは、遺伝的アルゴリズムを使用して実施され得る。これらの実施形態では、特徴タイプおよび特徴値の両方は、遺伝的アルゴリズムを使用して評価された訓練セットデータ内で変更される。
【0137】
図1Cは、特徴選択段階が実施されないプロセス、または距離選択段階157と組み合わされるプロセスを提示するものである。示したように、生データ171は、単一の遺伝的アルゴリズム173を使用してフィルタリングされ、このアルゴリズムは、選択された範囲内に制約された1つ以上の幾何学的パラメータを有するバリアントを選択する。一例では、幾何学的パラメータは、基質の原子と結合部位における残基またはコファクターの原子との間の距離である。例えば、1つのパラメータは、結合部位におけるコファクター上の窒素原子とチロシン残基上の酸素原子との間の距離であり得、別のパラメータは、基質上のカルボニル炭素とコファクター上のリン原子との間の距離であり得る、などである。これらの距離の各々は、自由裁量の閾値内に設定され得る(例えば、第1の距離は、5オングストローム未満である必要があり得、第2の距離は、7.5オングストローム未満である必要があり得る)。
【0138】
アルゴリズム173の適合度関数は、パラメータの制約の異なる組合せを使用して訓練された配列活性モデル175の予測精度である。このようにして、制約された幾何学的パラメータの様々な組合せが、正確な配列活性モデル175を訓練するその能力について評価される。ある特定の実施形態では、配列活性モデルは、サポートベクターマシンを使用して訓練される。
【0139】
遺伝的アルゴリズム173によって選択されないバリアントは、フィルタリングされたバリアントのデータセット177を生成するための考慮事項から除去される。言い換えれば、単一の遺伝的アルゴリズム173によるフィルタリングの結果は、データ171中のバリアントのサブセットについてのデータのみを含む生データ171のサブセットである。このサブセットは、高度に正確な配列活性モデルを訓練するために使用され、このモデルは、ひいては別の遺伝的アルゴリズム、予測アルゴリズム179において使用される。ある特定の実施形態では、予測アルゴリズム179は、高活性を有すると予測された新しいバリアント配列を識別する。それは、代替アミノ酸(またはヌクレオチド)配列を訓練された配列活性モデルに適用し、どれが有益な性質(例えば、配列活性モデルの活性)について高い値を有する可能性が高いかを決定することによってこれを行い得る。遺伝的アルゴリズム179は、訓練された配列活性モデルが適合度について評価する代替の配列を生成する。最終的に、高性能のバリアント配列がさらなる調査および/または生成のために識別される。
【0140】
(III.遺伝的アルゴリズム適用の一般的な記載)
一部の実施形態は、配列活性モデルを訓練するためのフィルタリングされたデータセット、例えば、サポートベクターマシンによって最適化されたものなどを生成するための遺伝的アルゴリズム(例えば、以下に記載される第1および第2の遺伝的アルゴリズム)を使用する方法を提供する。他の実施形態は、モデルをフィルタリングされた訓練データセットに適合させるために、遺伝的アルゴリズムを使用して配列活性モデルの係数の値を調整する方法を提供する。さらに他の実施形態は、配列空間を探索し、有利な性質を有するタンパク質バリアントを識別するために遺伝的アルゴリズム(例えば、以下に記載される第3の遺伝的アルゴリズム)を使用する。
【0141】
遺伝的アルゴリズムでは、適切な適合度関数および適切な交配手順が定義される。適合度関数は、どの「個体」(一部の実施形態ではモデル)が観察されたデータに関して「最も適合」されており、最高の予測力を有するか(すなわち、モデルが最良の結果をもたらす可能性が高い)を決定するための基準を提供する。一部の実施形態では、モデルは、1つ以上の独立変数(IV)と従属変数(DV)との間の関係によって定義され、関係性は、1つ以上のパラメータによって記述される。遺伝的アルゴリズムは、最も順調なモデルを生成するパラメータの組合せまたはパラメータ値の範囲を見つけるためにパラメータ空間を通してサーチする機構を提供する。
【0142】
遺伝的アルゴリズム中の多くのプロセスが、生物学的な遺伝的操作によって触発されている。したがって、遺伝的アルゴリズムで使用される用語は、遺伝的操作に関する生物学用語から借用されている。これらの実施形態では、集団の「個体」(メンバー、または染色体と時に呼ばれる)の各々は、モデルに対して試験されているすべてのパラメータを表す「遺伝子」、およびパラメータについて定義された範囲内の選択された値を有する遺伝子を含む。例えば、染色体は、131位におけるGlyの存在を表示する遺伝子を有することができる。
【0143】
一部の実施形態では、遺伝的アルゴリズムは、モデルのために適切なIVを選択するために使用され得る(例えば、列のフィルタリングについて以下に記載される第1の遺伝的アルゴリズム)。このようなアルゴリズムの一例は、バイナリ値1および0の遺伝子/パラメータを含み、各パラメータは、1つのIVに関連する。パラメータがアルゴリズムの最後で最適合個体の中の1つのIVについて0に収束する場合、そのIVは、モデルから削除される。その項は、反対に保存される。
【0144】
一部の実施形態では、モデルの適合度は、モデルの予測力によって測定される。一部の実施形態では、適合度は、以下に記載する混同行列に基づくヒット率によって測定される。一部の実施形態では、適合度は、AICまたはBICによって測定される。この例におけるモデルは、一部の場合では実際に、これらのモデルを生成するために使用される根本的なデータセットであり得る。
【0145】
特定の世代における各「モデル」がその予測力について評価された後、遺伝的アルゴリズムは、収束または他の基準(固定数の世代など)について点検されて、プロセスをさらなる世代について継続するべきか否かが決定される。遺伝的アルゴリズムがまだ停止するための基準を満たしていないと仮定すると、現在の世代のモデルがランク付けされる。最高の予測力を有するものが保存され、次世代で使用され得る。例えば、10%のエリート支配率(elitism rate)が使用され得る。言い換えれば、モデルの上位10%が(適合関数を使用して決定され、例えば、精度またはAICによって測定される場合)、次世代のメンバーとなるために取り置かれる。次世代におけるメンバーの残りの90%は、以前の世代に由来する「親」を交配することによって得られる。
【0146】
示したように、「親」は、以前の世代から選択されたモデルである。一般に、選択されたものは、以前の世代の適合メンバーに向けてより重み付けられるが、これらの選択においてランダムな成分が存在し得る。例えば、親モデルは、線形重み付け(例えば、別のモデルより1.2倍良好に機能するモデルは、選択される可能性が20%高い)または幾何学的な重み付け(すなわち、モデルにおける予測的差異は、選択の確率を得るためにべき乗される)を使用して選択され得る。一部の実施形態では、親は、以前の世代におけるモデルのランキングから最良に機能する2つ以上のモデルを単に選択することによって選択され、他のモデルは選択されない。これらの実施形態では、先の世代から選択されたモデルのすべてが交配される。他の実施形態では、先の世代からのいくつかのモデルは、交配することなく次世代モデルに含めるために選択され、先の世代からの他のより劣って機能するモデルが親としてランダムに選択される。これらの親は、互いに交配され得、および/または次世代にそのように含めるために選択されたより良好に機能するモデルと交配され得る。
【0147】
一組の親モデルが選択された後、このようなモデルの対は、一方の親からのいくつかの遺伝子(パラメータ値)および他方の親からの他の遺伝子(パラメータ値)を提供することによって子モデルを生成するように交配される。一手法では、2つの親の係数がそろえられ、子が、親Aからの項を採用すべきか、または親Bからの項を採用すべきかを決定するために各値が連続して考慮される。一実施では、交配プロセスは、親Aから始まり、遭遇した最初の項で「クロスオーバー」イベントが起こるべきか否かをランダムに決定する。そうである場合、その項は、親Bから採用される。そうでない場合、その項は、親Aから採用される。連続して次の項がクロスオーバーについて考慮される、などである。項は、クロスオーバーイベントが起こるまで、検討中の以前の項を提供する親からもたらされ続ける。その時点で、次の項は、他の親から提供され、すべての連続的な項は、別のクロスオーバーイベントが起こるまでその親から提供される。同じ項が子モデル中の2つの異なる場所で選択されないことを保証するために、様々な技法、例えば、部分一致クロスオーバー(partially matched crossover)技法が使用され得る。一部の実施形態では、いずれかの親からの遺伝子の値を使用する代わりに、遺伝子の値の平均が子染色体のために採択され得る。
【0148】
一部の実施形態では、遺伝的アルゴリズムは、モデルのさらなる多様性を生じさせるために1つ以上の変異機構も使用し、それは、親世代における任意の現存する遺伝子によってカバーされていないパラメータ空間の領域を探索するために役立つ。その一方で、変異機構は、収束に影響し、その結果、変異率が高いほど、または変異範囲が大きいほど、収束するためにより長くかかる(仮にあるとして)。一部の実施形態では、変異は、染色体/モデルのランダムな選択、および前記染色体のパラメータ/遺伝子のランダムな選択によって実施され、次いでこれはランダムに変更される。一部の実施形態では、パラメータ/遺伝子のランダムに変更される値は、定義された範囲を有するランダムな均一な分布から引き出される。他の実施形態では、パラメータ/遺伝子のランダムに変更される値は、定義された範囲を有するランダムな正規分布から引き出される。
【0149】
各パラメータが考慮された後、子「モデル」が次世代のために定義される。次いで別の2つの親を、別の子モデルを生成するために選択することができる、などである。最終的に、新しい世代における子集団は、上述した様式で適合度関数によって評価される準備が整っている。
【0150】
プロセスは、値の収束などの停止基準を満たすまで世代ごとに継続する。その時点で、上位にランクされたモデルの少なくとも1つが、全体的に最良のモデルとして現在の世代から選択される。収束は、多くの慣例的な技法によって試験することができる。一部の実施形態では、それは、いくつかの連続する世代からの最良のモデルの性能が認め得るほどに変化しないことを決定する。停止基準の例としては、それだけに限らないが、これまで生成された世代の数、現在のライブラリーからの上位のタンパク質の活性、望まれる活性の規模、およびモデルの最後の世代で観察される改善のレベルがある。
【0151】
(IV.データフィルタリングのために遺伝的アルゴリズムを使用する実施形態)
一部の実施形態では、利用可能な情報から配列活性モデルを得、使用するために2つまたは3つの段階がある。これらのステップの各々は、遺伝的アルゴリズムを使用する。3段階プロセスでは、第1の遺伝的アルゴリズムは、生データセットからのデータで動作して、配列活性モデルで使用するための独立変数を選択する。これらの独立変数は、利用可能な独立変数(パラメータと時に呼ばれる)のプールから選択される。すべての利用可能な独立変数が最終モデルで使用されるわけではない。一実施形態では、配列または変異情報は、独立変数として常に使用されるが、他のタイプの独立変数も遺伝的アルゴリズムによって選択される。活性を正確に予測する非常に良い仕事(または一部の実施形態では、最良の仕事)をする独立変数の特定の組合せが選択される。一例として、配列情報に加えて使用するための5〜10個の利用可能な独立変数が存在し得るが、これらの非配列変数のうちの3つのみが配列活性モデルで使用するために選択される。遺伝的アルゴリズムは、独立変数の多くの代替の組合せのうちのどれが、活性を予測するために配列活性モデルを訓練する最良の仕事をするのかを識別する。
【0152】
別の遺伝的アルゴリズムは、データセット中の非配列独立変数の一部またはすべての適当な範囲を識別する。範囲は、独立変数の閾値またはカットオフ値によって定義され得る。この遺伝的アルゴリズムは、2および3段階プロセスの両方で使用される。
【0153】
最終的な遺伝的アルゴリズムは、選択またはさらなる分析に値する生体分子(例えば、タンパク質バリアント)配列を識別する。この遺伝的アルゴリズムは、様々な配列を提供し、1つまたは2つの先行する遺伝的アルゴリズムを使用して選択されたフィルタリングされたデータを使用して訓練された配列活性モデルを使用してこれらの適合度を試験する。この遺伝的アルゴリズムと本明細書に論じた他の遺伝的アルゴリズムとの間の差異は、注目する価値がある。このアルゴリズムは、集団中の個体として核酸、アミノ酸、または他の生体分子配列をもたらす。対照的に、本明細書に論じた他の遺伝的アルゴリズムでは、個体は、モデルまたはモデルパラメータのセットである。
【0154】
一部の実施形態では、配列活性モデルは、非線形モデルである。他の実施形態では、それは、線形モデルである。
【0155】
図2に例示したように、配列活性モデル訓練セットに利用可能なデータは、訓練セットを調製するために使用される複数のバリアント生体分子の各々についての情報を含む。各バリアントについての情報は、その配列およびその活性を含む。本明細書に提示した様々な例では、活性は、基質を転換することにおける酵素生体分子の速度および/または立体選択性である。他のタイプの活性または有益な性質が使用され得、これらのタイプの一部は、本明細書に他の箇所で記載されている。活性データは、in vitro分析および/または計算技法、例えば、本発明と同じ日に出願され、その全体が参照により本明細書に組み込まれている、米国特許出願第61/883,838号[代理人整理番号CDXSP020P]に記載された仮想スクリーニングなどから決定される。
【0156】
ある特定の実施形態では、配列情報は、出発骨格に対する変異の群として提供され得、この骨格は、野生型配列であり得るしまたはコンセンサス配列などのいくつかの他の配列であり得る。変異に関する配列情報は、所与の位置における出発残基および置換残基の形態で提示され得る。別の選択肢では、特定の位置における終了残基を単に識別する。様々な実施形態では、配列情報は、遺伝的アルゴリズムまたは他の計算手法によって提供され、したがって、核酸または他の組成物をシーケンシングする必要なく公知である。シーケンシングが要求される場合、多くのタイプのシーケンシングのいずれも使用され得る。これらのタイプのいくつかは、本明細書に他の箇所で記載されている。例えば、一部の実施形態では、核酸をシーケンシングするためのハイスループット技法が使用される。
【0157】
配列および活性データに加えて、生データは、配列活性モデルの最終的な訓練セットに組み込まれることも、組み込まれないこともある様々なタイプの追加の情報を含む。追加の情報は、多くの異なるタイプのものであり得る。各タイプは、配列活性モデルの独立変数として潜在的に機能を果たす。本明細書で説明するように、遺伝的アルゴリズムまたは他の技法は、各タイプの情報の有用性を評価する。
【0158】
様々な実施形態では、追加の情報は、リガンド−受容体結合の特性を記述する。このような情報は、測定および/または計算から導出され得る。述べたように、バリアントの構造モデルは、これらの他のタイプの情報についての値を識別し得る。一例では、構造モデルは、ホモロジーモデルである。ドッカーまたは同様のツールを使用して、構造モデルから追加の情報を得てもよい。ドッカーから生成される情報の例には、Accelrys CDockerプログラムなどのドッキングプログラムによって算出される場合の相互作用エネルギーおよび/または全エネルギーが含まれる。他の例は、検討中のバリアントの結合部位に関連するコファクター、結合部位残基、および/または他の特徴に対する、リガンドまたはその活性部分もしくは原子の相対的な位置を特徴付ける幾何学的パラメータに関係する。述べたように、いくつかのこの情報は、基質または中間体と、結合部位におけるコファクターまたは残基との相対的な位置についての距離、角度、および/またはねじれの情報に関係し得る。例として、相互作用エネルギー値は、ファンデルワールス力および/または静電相互作用に基づき得る。リガンドの内部エネルギーも考慮され得る。
【0159】
図2A〜2Cは、本開示の一部の実施形態による生の配列活性データセットをフィルタリングする一例を例示するものである。
図2Aは、トランスアミナーゼのファミリーのn個のバリアントについての生の配列活性データを示す。各バリアントは、活性データ、配列データ、エネルギーデータ、および幾何学データに関連付けられている。一部の実施形態では、活性データは、触媒反応速度、エナンチオ特異性などであり得、これらは、本明細書に他の箇所で記載される様々な方法によってアッセイされ得る。各バリアントについての3つの配列位置、P1、P2、およびP3が、配列活性モデルに含めるために生データセット中に提供される。さらに、2つのエネルギー値、本明細書に他の箇所で仮想ドッキングシステムによって決定される全エネルギーおよび相互作用エネルギーが、モデルに含める可能性のために提供される。最後に、5つの幾何学値が、モデルに含める可能性のために仮想ドッキングシステムによって提供される。リガンドを伴うこの例では、これらの幾何学値の各々は、酵素バリアント中にドッキングされる場合のリガンドの重要な原子と、野生型の酵素中にドッキングされる場合のそれとの間の距離である。具体的には、N
1は、窒素原子を表し、Pは、リン酸基のリンであり、C
(O)は、カルボキシル基の炭素原子であり、C
(H3)は、メチル基の炭素原子であり、O
(H)は、水酸基の酸素原子である。
【0160】
一部の実施形態によれば、生の配列活性データを遺伝的アルゴリズムによってフィルタリングして、高い予測力の配列活性モデルを訓練するために情報価値のないデータの列を除外することができる。
図2Bは、遺伝的アルゴリズムによってフィルタリングされるデータの列の一例を示す。この実施では、遺伝的アルゴリズムは、個体の集団を生成し、各個体は、エネルギー値および幾何学値が配列活性モデルに含まれるべきか否かを示す一組の2進値化された(binary−valued)「遺伝子」または係数(例えば、0および1)を有する。
図2B中の例は、GAの集団の個体の効果を示し、個体は、以下のパラメータ:E Total=1、E Interact=1、N
1=1、P=1、C
(O)=0、C
(H3)=1、O
(H)=0を有する。パラメータが0の値をとる場合、そのパラメータに関連する特徴は、モデルから有効に除外される。このGAの個体は、幾何学データC
(O)およびO
(H)をフィルターアウトし、それによって配列活性モデルを訓練するためのデータのサブセットを提供する。一部の実施形態では、配列活性モデルは、3つの配列IV、2つのエネルギーIV、および3つの幾何学的配置IVを含むデータのサブセットを使用して訓練される。GAの2進値化された係数または遺伝子は、配列活性モデルと別個に実施され、その結果、配列活性モデルは、係数値を含まない場合があることに留意されたい。一部の実施形態では、配列活性モデルは、SVMを使用して最適化され、SVMは、予測された活性についてヒットおよびミスを出力する。各個体について決定されるGAの適合度関数は、予測の精度に基づく。GAの一世代の集団中の複数の個体は、上述した同じ様式で試験される。各個体は、0または1の値を有する一組のパラメータを有し、0の値のパラメータは、一組の特徴を有効にフィルターアウトし、それによって配列活性モデルを訓練するためのデータサブセットを生じる。個体は、これらの適合度関数に基づいて比較およびランク付けされる。次いで、「適者」個体の1つ以上が、本明細書に他の箇所で記載されているように、少なくとも1つの多様性の機構を使用して集団の次世代の親として選択される。一部の実施形態では、適合度の比較は、赤池情報量基準(AIC)またはベイズ情報量規準(BIC)を使用して実施され、最小のAICまたはBIC値を有する個体が、最適合個体として選択される。典型的には、GAは、収束基準が満たされるまで2つ以上の世代について繰り返される。
【0161】
列のフィルタリングは、一部の実施形態では、任意選択であることに留意されたい。一部の実施形態によれば、生の配列活性データを遺伝的アルゴリズムによってフィルタリングして、列のフィルタリングの代わりに、またはそれに加えて、行のデータを除外することができる。
図2Cは、遺伝的アルゴリズムによってフィルターアウトされる行のデータ(酵素バリアント)の一例を示す。この実施では、遺伝的アルゴリズムは、個体の集団を提供し、各個体は、除外閾値を示す一組の連続した値の「遺伝子」または係数を有する。エネルギー値および幾何学値がバリアントに対する閾値を超える場合、そのバリアントは、配列活性モデルから除外される。
図2C中の例は、以下の閾値:E Total>1.5、E Interaction>1.5、N
1>3.3、P>2.8、C
(O)>3.6、C
(H3)>6、およびO
(H)>6を有するGA個体を示す。これらの閾値は、例示的な目的のためのみであり、実際の実施についての最適な閾値を示さない。この例では、このGA個体は、バリアント1およびバリアント5をフィルターアウトし、配列活性モデルを訓練するためのデータのサブセットを提供する。GAの閾値は、配列活性モデルと別個に実施され得、その結果配列活性モデルは、閾値を含まないことに留意されたい。列のフィルタリングと同様に、一部の実施形態では、配列活性モデルは、SVMを使用して最適化され、SVMは、予測された活性についてのヒットおよびミスを出力する。個体の適合度関数は、予測の精度に基づく。GAの複数の個体は、上記例に記載した同じ様式で試験される。個体は、これらの適合度関数に基づいて比較およびランク付けされる。1つ以上の最適合個体が、本明細書に他の箇所で記載されているように、少なくとも1つの多様性の機構を使用して集団の次世代を生成するように選択される。
【0162】
一部の実施形態では、
図2の例に示したGAに由来する最適合個体は、データのサブセットを提供し、サポートベクターマシンを訓練して、高い予測力を有する配列活性モデルのパラメータを定義する。一部の実施形態では、この配列活性モデルは、以下にさらに記載するように、指向進化の新しいラウンドについての新しいバリアントの設計をガイドすることができる。1つ以上の「最良の配列活性モデル」が得られた後、一部の実施形態は、これらのモデルを使用して実際のタンパク質の合成をガイドし、それは、指向進化によってさらに発展され得る。一部の実施形態は、本明細書に他の箇所で記載されるように、モデルで予測された配列を改良することによって所望の活性を有するタンパク質を設計する方法を提供する。
【0163】
(A.第1の遺伝的アルゴリズム−パラメータの選択)
ある特定の実施形態、例えば、
図3Aに表した実施形態などでは、遺伝的アルゴリズムは、利用可能なパラメータのプールと複数のバリアントについての活性情報とから特定のパラメータを選択する。
図3Aに示した実施形態は、
図1Aに表したプロセスにおける、1つ以上のエネルギータイプおよび/または幾何学タイプを除去するために生データをフィルタリングするステップ105を実施する1つの方法である。これらのパラメータのデータは、フィルタリングされていないデータセットにおいて提供される。
図3Aのブロック303を参照。すべてのデータは、第1の遺伝的アルゴリズムの実行中の好都合なアクセスのために、1つ以上のコンピューター読み取り可能なファイルの中で組み合わせられ得る。
【0164】
第1の遺伝的アルゴリズムを実施するために、利用可能なパラメータのプールからのパラメータのランダムに選択された群が、第1の世代のデータサブセットを提供するために使用される。ブロック305を参照。独立変数のコレクションとして機能を果たすパラメータの各コレクションは、固有のデータサブセットを定義する。独立変数の異なるランダムに選択された群(すなわち、複数の個々のデータサブセット)が、配列活性モデルを訓練するために使用される。一部の実施形態では、同数の独立変数が、各データサブセットを作製するために使用される。多くの実施では、配列または変異情報は、ありとあらゆるデータサブセットにおける追加の独立変数として使用される。まとめると、データサブセットは、遺伝的アルゴリズムの世代の集団中の「個体」を構成する。
【0165】
第1の世代の遺伝的アルゴリズムでは、配列活性モデルは、データサブセットの各々から提供され、各モデルは、独立変数の異なるランダムに選択された組合せに関連付けられる。次いでこれらは、活性を予測するために使用される。ブロック307を参照。ある特定の実施形態では、予測は、モデルを実際に訓練するために使用されなかった配列に対して実施され、クロスバリデーションによってモデルの予測力を試験する。例えば、フィルタリングされていないデータは、100のバリアントについて利用可能であり得るが、これらのうちの70のみについてのデータが配列活性モデルを訓練するために使用される。残りの30のバリアント、より正確には、これらの残りの30のバリアントについてのデータは、配列活性モデルの有効性を試験するための試験セットとして使用され、モデルの予測力のクロスバリデーションをもたらす。
【0166】
第1の遺伝的アルゴリズムのこの第1の世代中に得られる生じたデータサブセットは、活性を正確に予測するモデルを訓練するこれらの能力に基づいてランク付けされる。ブロック311を参照。ランク付けは、訓練されたモデルの性能として見なされ得る適合度関数を使用して実施される。言い換えれば、このプロセスは、異なる組合せの変数を除去するために異なる方法でフィルタリングされた生データからモデルを導出する。モデルは、これらを訓練するために使用されたデータサブセット(すなわち、個体)の適合度を評価する。
【0167】
最低ランクのデータサブセットは、独立変数の最低ランクのコレクションを反映し、第2の世代の遺伝的アルゴリズムに移る前に拒絶される。拒絶されたデータサブセットは、第1の世代からの上位性能モデルタイプを交配することによって得られるデータサブセットと置き換えられる。ブロック313を参照。
【0168】
データサブセットの交配は、様々な技法によって実施され得る。基本的に、2つの親データサブセットの各々からの選択された独立変数のいくつかが交配で使用され、その結果これらは、子データサブセットに進められ得る。一例では、2つの親データサブセットは、利用可能な独立変数のプールからの特定のパラメータが、データサブセット中の独立変数として使用されているか否かを示すために、1および0の配列として表示される。これらの2進表示のデータサブセットは、クロスオーバーポイントでカットされ、得られたセグメントは、他の親からのデータサブセットの相補的セグメントと接合される。
【0169】
適合度関数、またはより正確には、特定の配列活性モデルの精度を評価する方法は、様々な方法で実施され得る。一手法では、適合度関数は、混同行列を使用してモデルの精度を評価する。このような技法では、試験セットで使用されるバリアントの各々は、その測定される活性が定義された閾値超であるか、以下であるかに応じて活性または不活性と見なされる。同様に、配列活性モデルは、それが活性の値を定義された閾値超以下であると予測するかどうかに基づいて、試験セットからのバリアントを活性または不活性であると予測するように特徴付けられる。試験セットの各メンバーについて、メンバーの実際のおよび予測された活性状態が比較される。配列活性モデルは、それが試験バリアントを活性または不活性と正確に特徴付けるとき、信用を得る。これが、試験バリアントが活性であると測定される場合にそれが不活性であると予測するとき、またはこれが、試験バリアントが不活性であると測定される場合にそれが活性であると予測するとき、信用を失う。これらの4つの選択肢は、混同行列を構成する。特定のモデルが活性または不活性を正確に予測する頻度は、モデルを訓練するために使用されるデータサブセットをランク付けるために使用される。モデルの精度を特徴付けるための別の選択肢は、その予測された活性(またはその規模)と実際の測定される活性との間の誤差または差異を利用する。この距離を、試験セットのすべてのメンバーにわたって和をとり、または平均することができる。
【0170】
第1の世代の遺伝的アルゴリズムの最後に、配列活性モデルについてのいくつかの独立変数の群(すなわち、データサブセット)が選択される。述べたように、高くランク付けされたデータサブセットが、交配および/または次世代への昇進のために選択される。これらのサブセットは、配列独立変数に加えて選択された構造(例えば、距離)および/またはエネルギーの独立変数を含む。
【0171】
第2の世代のデータサブセットは、これらを使用して訓練されるモデルの予測能力について評価される。このプロセスは、独立変数の選択されたものが収束するまで複数の世代について繰り返される。収束ブロック309を参照。ある特定の実施形態では、収束基準により、現在の世代の改善が、先の世代と比較して、1つ以上の連続した世代についての閾値レベル未満であるか否かが決定される。一部の実施形態では、収束について試験するための他の方法としては、それだけに限らないが、100%の適合度のような最大または最小適合度値について試験すること、固定数の世代にわたって行うこと、固定された時間制限内で行うこと、または上記の組合せがある。ある特定の実施形態では、約5〜100のデータサブセットが、各世代において生成および評価される。ある特定の実施形態では、約30〜70のデータサブセットが、各世代において生成および評価される。本発明がいずれかの具体的な数のデータサブセットおよび/または世代に限定されることは意図されていない。
【0172】
(B.第2の遺伝的アルゴリズム)
図3Bに例示した第2の遺伝的アルゴリズムでは、
図1Aのステップ107を実施して生データをフィルタリングし、それによって定義された範囲外のエネルギー値および/または幾何学値を有するバリアントについてのデータを除去するプロセスが提供される。
図3Bでは、第1の遺伝的アルゴリズムで識別された独立変数が固定されている。選択されなかった独立変数は、もはや妥当であると見なされず、第2の遺伝的アルゴリズムは、第1の遺伝的アルゴリズムによってフィルタリングされたデータセットを受け取ることによって始まる。ブロック323を参照。第1の遺伝的アルゴリズムによって選択された独立変数は、検討中の配列活性モデルの形式(例えば、サポートベクターマシンによって生成されるn次元平面)を少なくとも使用して活性を正確に予測することにおいてほとんどの値を有する可能性が高いものであると仮定され得る。代替の実施形態では、第1の遺伝的アルゴリズムは、実施されず、生データセットからのすべての独立変数が使用される。
【0173】
バリアントの配列は、必ずしも追加の独立変数、すなわち、エネルギーおよび構造的制約変数の値を設定する必要はないことが理解されるべきである。例えば、結合ポケットにおいて存在する変異の組合せは、利用可能な独立変数として機能を果たすある特定の幾何学的構造的結合特性および相互作用エネルギー値を定義するであろう。それでもやはり、配列情報だけでは、活性を正確に予測するように配列活性モデルを有効に訓練するために不十分である場合がある。
【0174】
第2の遺伝的アルゴリズムでは、各独立変数(配列以外)は、独立変数の閾値を満たすバリアントのみがデータサブセットで使用されるために選択されるように洗練される。この洗練は、複数の非配列独立変数に適用され得る。言い換えれば、第2の遺伝的アルゴリズムは、選択された非配列独立変数の1つ以上について、規模の全利用可能範囲内のサブ範囲を選択する。一手法の一例として、所与の独立変数は、約0〜20Åのダイナミックレンジを有し得る。これは、2つの原子間、または同じ原子の2つのドッキングされた位置間の距離を表す。この独立変数のより洗練されたバージョンは、約12Å以下の値を有するバリアントのみを考慮する。値の範囲の別の例は、約5Å以下であり得る。第2の遺伝的アルゴリズムの目標は、活性を予測するために有用である、変数規模の全範囲の一部に的を絞ることである。これは、訓練されたモデルの予測能力におけるノイズを低減させるように思われる。
【0175】
この第2のタイプの遺伝的アルゴリズムの第1の世代では、独立変数の各々(配列変数以外)は、部分に分割される。分割は、ランダムに実施される。ブロック325を参照。例えば、独立変数の各々についての規模の特定の値がランダムに選択される。この分割ポイント未満の値を有するバリアントのみが考慮される。これにより、配列活性モデルの訓練セットで使用される独立変数が有効に削減される。
【0176】
第1の世代では、個々のデータサブセットは、各非配列独立変数についてランダムに選択されたカットオフポイントを有する。ブロック325。第1の世代中の各々の個々のデータサブセットは、独自の固有の配列活性モデルを使用して訓練する。ブロック327を参照。得られるモデルは、試験セットの各メンバーについての活性を予測するために使用される。ブロック327。各個々のデータサブセットは、例えば、上述した混同行列を使用することによって正確なモデルを訓練するその能力についてランク付けされる。ブロック331を参照。これが適合度関数である。代替の適合度関数が可能である。これらには、予測値と実際の値との間の差異値を利用する関数が含まれる。適合度は、モデルで使用される独立変数のタイプおよび/または使用される独立変数値の全範囲のうちの部分に基づくものであることもできる。
【0177】
ある特定の実施形態では、データサブセットは、生データセット中のバリアントのサブセットについてのデータを含む。これらのバリアントの部分のデータは、配列活性モデルを訓練するために使用される。残りのバリアントのデータは、得られた配列活性モデルを試験するために使用される。言い換えれば、各データサブセットは、訓練セットおよび試験セットに分配される。分配は、ランダムな選択によって行われ得る。一部の実施形態では、訓練セットは、サブセット中のバリアントの約20から90%の間(または約50から80%の間)を含む。本発明がサブセットおよび/または訓練セットにおけるバリアントのどんな具体的な数にも限定されることは意図されていない。
【0178】
第1の世代中の高スコアのデータサブセットが、第2の世代において、かつ/または第2の世代の子孫を生成するために交配するための親として使用するために選択される。ブロック333を参照。交配は、任意の適当な技法(複数可)を使用して行うことができる。一実施形態では、コスト−重み付けスキーム、例えば、差異の加重和などが、所与の独立変数についての2つの交配親の各々についてのカットオフ(すなわち、閾値)値を使用して適用される。コスト−重み付けスキームでは、交配選択は、相対的により高い適合度を有する個体(すなわち、データサブセット)に向けて偏っている。最も適合した個体があまり適合していない個体より多く交配する。他の交配選択スキームとしては、比例ルーレット選択(proportional roulette wheel selection)、ランクベースのルーレット選択(rank−based roulette wheel selection)、およびトーナメント選択がある。
【0179】
実際の交配プロセスは、多くの形式を採用することができる。一例は、連続パラメータ交配(continuous parameter mating)である。この手法では、子データサブセットにおける所与のパラメータについてのカットオフ値は、2つの親データサブセットにおける同じパラメータについてのカットオフ値間にある値である。例えば、一方の親は、第1のパラメータ(距離X)について0.1オングストロームのカットオフ値を有し得る一方、他方の親は、距離Xについて0.6オングストロームのカットオフ値を有し得る。距離Xの子のカットオフ値は、0.1から0.6オングストロームの間となる。距離Xについての子の中間カットオフ値を決定するために様々な関数が定義されることができる。連続パラメータ交配スキームでは、「ベータ」値がランダムに選択され、親の2つのカットオフ値間の部分的距離を決定するために適用される。上記例では、ベータが0.7であるように選択され、2つの子が生成される場合、子のカットオフ値は、以下のように算出され得る:
子1の距離=0.1−(0.7)
*0.1+(0.7)
*0.6=0.45
子2の距離=0.6+(0.7)
*0.1−(0.7)
*0.6=0.25
子1=a+ベータ
*(b−a)
子2=b+ベータ
*(a−b)
【0180】
第2の世代では、第1のラウンドでの交配によって選択および/または生成された個体(定義されたデータサブセット)が、これらの各々に適合度関数を適用することによって評価される。言い換えれば、ブロック327、331、および333のプロセスが、第2の世代に適用される。第1の世代と同様に、データサブセットは、バリアントの試験セットにおいて活性を正確に予測するモデルを訓練するこれらの能力に基づいてランク付けされ得る。高ランクのサブセットが、上述したように次世代へと通過させられ、かつ/または交配され得る。
【0181】
さらなる世代が、収束に到達するまで第2の世代と同様に継続する。
図3Bに表したように、各世代は、収束点検を受ける。ブロック329を参照。ある特定の実施形態では、収束基準は、現在の世代の改善が、先の世代と比較して、1つ以上の連続した世代についての閾値レベル未満であるか否かを決定する。収束について試験するための他の方法としては、100%の適合度などの最大/最小適合度値について試験すること、固定数の世代にわたって行うこと、固定された時間制限内で行うこと、または上記の組合せがある。
【0182】
ある特定の実施形態では、約5〜100のデータサブセットが各世代について生成および評価される。ある特定の実施形態では、約30〜70のデータサブセットが各世代について生成および評価される。特定の例では、第2の遺伝的アルゴリズムの各世代において約45の個体データサブセットが存在する。しかし、本発明が、各または任意の世代について特徴付けられ、かつ/または使用されるいずれかの特定数のデータサブセットに限定されることは意図されていない。
【0183】
一部の態様では、このデータセットフィルタリングプロセスは、以下のように特徴付けられ得る。最初に、システムは、フィルタリングされていないデータセットを使用して、データサブセットの集団を作製する。これらのサブセットの各々は、遺伝的アルゴリズムの世代の集団中の「個体」である。各データサブセットは、生体分子の結合部位へのリガンドの結合を特徴付ける幾何学的パラメータについてのパラメータ値閾値(カットオフ)を使用して識別される。システムがパラメータ値閾値を適用すると、これは、フィルタリングされていないデータセットからある特定のバリアントを有効に除去する。言い換えれば、各データサブセットは、フィルタリングされていないデータセットに含まれているバリアントの一部のみについてのデータを含む。
【0184】
各データサブセット(すなわち、個体)について、システムは、構成要素バリアントを訓練セットに属するものおよび試験セットに属するものに分配する。訓練セットに属するバリアントは、配列活性モデルを訓練するために使用される。訓練は、サポートベクターマシンまたは部分最小二乗法などの技法を使用して達成され得る。得られる訓練された配列活性モデルは、試験セットバリアントに適用される。モデルは、各試験セットバリアントの活性を予測し、システムはそれによって、配列活性モデルおよびしたがってその関連したデータサブセットの精度を評価する。遺伝的アルゴリズムの世代の集団中の各データサブセット(すなわち、個体)は、同じ様式で精度について評価される。
【0185】
遺伝的アルゴリズムの所与の世代について、データサブセットおよび関連する配列活性モデルの各々は、関連する試験セット中のバリアントの活性を正確に予測するこれらの能力に基づいてランク付けされる。世代内で、このプロセスは、次世代への昇進について上位ランクのサブセットを選択する。さらに、このプロセスは、上位ランクのサブセットのいくつかを交配して子サブセットを生成し、これらも次世代に提供される。次世代データサブセット(すなわち、個体)は、上述したように取り扱われる。複数の世代が、収束に到達するまで取り扱われ、評価される。
【0186】
(C.第3の遺伝的アルゴリズム)
記載したワークフローでは、生の配列、活性、および構造データをフィルタリングすることによって選択されたデータサブセットは、高精度配列活性モデルを訓練する。サポートベクターマシンを、訓練を実施するために使用し得る。得られる配列活性モデルは、新しいバリアント生体分子を識別する。一部の実施形態では、これらの新しいバリアント生体分子は、指向進化の少なくとも1つのラウンドで使用される。ある特定の実施形態では、最終的な遺伝的アルゴリズムが、
図1Aのブロック111に記載の新しい生体分子バリアントを識別するために使用される。適当な遺伝的アルゴリズムの一例は、
図3Cに表されている。そこに示されているように、このプロセスは、第2の遺伝的アルゴリズムを終了した後、選択された配列活性モデルから始まる。ブロック353。
【0187】
上記に指摘したように、この遺伝的アルゴリズムと上記に論じた他の遺伝的アルゴリズムとの間に差異がある。このアルゴリズムは、集団の個体として核酸、アミノ酸、または他の生体分子の配列をもたらす。対照的に、本明細書に論じた他の遺伝的アルゴリズムでは、個体は、モデルまたはモデルパラメータのセットである。このGAの第1の世代では、遺伝的アルゴリズムは、各別個のタンパク質(または他の生体分子)配列を表す個体のランダムな集団を提供する。ブロック355。個々のタンパク質は、所与の位置における変異によって互いに異なる。一部の実施では、変異は、少なくとも第1の世代においてランダムに生成される。変異は、単一のタンパク質骨格、例えば、野生型タンパク質の骨格または指向進化のラウンド中に識別された参照骨格などに関して生成され得る。
【0188】
第1の世代中の個体は、第2の遺伝的アルゴリズムの最後に得られたデータサブセット(すなわち、ブロック353で渡されたモデル)で訓練された配列活性モデルである適合度関数を使用してランク付けまたは選択される。ブロック357および359を参照。各個々の生体分子についての配列情報を識別することが、配列活性モデルに入力される。この情報は、変異のリストであり得、変異が存在する位置の各々についての出発および終了残基の両方を任意選択で識別する。モデルは、各個体に予測された活性を割り当てることによってこの入力に対して作用する。ブロック357。上位ランクの活性値(モデルによって予測された)を有する個々の生体分子が、交配および/または次世代への移動のために選択される。ブロック359および363。交配された個体は、変異の新しい組合せをもたらし、各新しい組合せは、次世代のメンバーである。ある特定の実施形態では、交配は、クロスオーバー操作によって達成される。この遺伝的アルゴリズムにおけるクロスオーバー操作の一例は、以下のように理解され得る。親1は、12位および25位に変異を有し、親2は、15位および30位に変異を有する。第1の子孫は、親1に由来する12位および親2に由来する30位に変異を有し得、第2の子孫は、親1に由来する25位および親2に由来する12位に変異を有するであろう。
【0189】
一部の場合では、交配によって生成される子孫の一部(例えば、これらの20%)は、それだけに限らないが、点変異を含めた任意の適当な方法を使用してさらに変異させられる。このような変異は、ランダムに実施され得る。
【0190】
別個の生体分子の集団のさらなる世代は、第2の世代について記載したように導出される。新しい世代の作製は、モデルによって予測される活性が定義された数の世代にわたって有意に改善しなくなるまで繰り返す。この時点で、生体分子の集団は、一組の変異および予測された活性によって識別されているランク付けされた個体の最終的なリストに収束したと見なされる。収束条件は、
図3Cのブロック361に示されている。
【0191】
ある特定の実施形態では、最終リストからの個々の生体分子は、in vitroで合成およびスクリーニングされる。さらに、個々の生体分子は、ドッキングソフトウェアまたは他のツールを使用することによって分析され、幾何学的制約もしくは他の構造データおよび/または相互作用エネルギーを提供し得る。次いで得られた配列、活性、および構造/エネルギーデータは、指向進化の次のラウンドのためのワークフローへの入力として機能を果たすために組み合わされる。言い換えれば、遺伝的アルゴリズム後にスクリーニングされたタンパク質は、分析の第2のラウンドの新しい訓練セットとして機能を果たし得るデータを提供する。したがって、データフィルタリング遺伝的アルゴリズムが再び、しかし完全に新しい訓練セットを用いて実施される。一部の実施形態では、指向進化の一ラウンドからのデータセットおよび配列活性モデルは、次のラウンドで保存されない。すなわち、次のラウンドは新たに開始し、新しいフィルタリングされていないデータセットを使用して独立変数の新しいセットを探す。
【0192】
一部の実施形態では、第3の遺伝的アルゴリズムで使用される配列活性モデルは、エネルギーおよび/または構造(幾何学的)パラメータならびに配列情報を使用して訓練される。しかし、ある特定の実施では、最終的な遺伝的アルゴリズムは、モデルに配列情報のみを入力し、エネルギーおよび/または構造情報を入力しない。言い換えれば、モデルは、配列ならびにエネルギーおよび/または構造の独立変数を使用して開発されたが、モデルは、第3の遺伝的アルゴリズムで新しい配列を評価するとき、エネルギーおよび/または構造の独立変数を受け取らない。
【0193】
ある特定の実施形態では、約10〜10,000の生体分子が各世代で評価される。ある特定の実施形態では、約100〜1000の生体分子が各世代で評価される。特定の例では、第3の遺伝的アルゴリズムの各世代中に約500の個々の生体分子が存在する。本発明が評価される生体分子のどんな具体的な数にも限定されることは意図されていない。
【0194】
ある時点で、上述したプロセスは、完了し、現在の世代の1つ以上のバリアントが、さらなる調査、合成、開発、生成などのために選択される。一例では、選択された生体分子バリアントは、in vitro指向進化の1つ以上のラウンドに種をまくために使用される。一例として、in vitro指向進化の一ラウンドは、i)選択されたタンパク質バリアントの少なくとも一部を含有またはコードする複数のオリゴヌクレオチドを調製すること、および(ii)複数のオリゴヌクレオチドを使用してin vitro指向進化のラウンドを実施することを含み得る。オリゴヌクレオチドは、遺伝子合成、選択されたタンパク質バリアントの一部またはすべてをコードする核酸の断片化などによって調製され得る。ある特定の実施形態では、in vitro指向進化のラウンドは、複数のオリゴヌクレオチドを断片化し、組み換えることを含む。ある特定の実施形態では、in vitro指向進化のラウンドは、複数のオリゴヌクレオチドに対して飽和変異誘発を実施することを含む。
【0195】
(V.配列活性モデル)
本明細書に開示の方法およびシステムは、高い予測力の配列活性モデルを提供する。一部の実施形態では、配列活性モデルは、非線形モデルである。他の実施形態では、これは、線形モデルである。線形および非線形配列活性モデルの例は、米国特許第7,747,391号、米国特許出願公開第2005/0084907号、米国仮特許出願第61/759,276号、および米国仮特許出願第61/799,377号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれている。本明細書に記載の様々な実施形態では、配列活性モデルは、サポートベクターマシンによって生成され得るn次元超平面として実施される。以下の記載では、配列活性モデルがサポートベクターマシンによって生成されるn次元平面として例示されているとき、この形式またはモデルは、他のタイプの線形および非線形モデル、例えば、最小二乗モデル、部分最小二乗モデル、多重線形回帰、主成分回帰、部分最小二乗回帰、サポートベクターマシン、ニューラルネットワーク、ベイズ線形回帰、またはブートストラップ、およびこれらのアンサンブルバージョンなどによって置換することができることが意図されている。
【0196】
上記に示したように、一部の実施形態では、本明細書の実施形態とともに使用される配列活性モデルは、タンパク質配列情報をタンパク質活性に関連付ける。モデルによって使用されるタンパク質配列情報は、多くの形式を採用し得る。一部の実施形態では、これは、タンパク質中のアミノ酸残基の完全な配列である。しかし、一部の実施形態では、完全なアミノ酸配列は、不要である。例えば、一部の実施形態では、特定の研究努力において変更されるべきである残基のみを提供することで十分である。後の研究段階を伴う一部の実施形態では、多くの残基が固定され、配列空間の限られた領域のみがなお探索されるべきである。このような局面の一部では、探索が継続するタンパク質の領域内の残基の識別のみを入力として要求する配列活性モデルを提供することが好都合である。一部の追加の実施形態では、モデルは、目的の残基位置における残基の正確なアイデンティティーが分かっていることを要求しない。一部のそのような実施形態では、特定の残基位置におけるアミノ酸を特徴付ける1つ以上の物理的または化学的性質が識別される。一部の実施形態では、構造情報を記述する幾何学的パラメータ、例えば、部分同士間の距離がモデルに含められる。構造情報は、構造モデルで実施され得るが、配列活性モデルの一部としても実施することができる。代わりに、構造情報は、データをフィルターアウトして、配列活性モデルを訓練するための配列活性データのサブセットを選択するために使用され得る。
【0197】
さらに、一部のモデルでは、このような性質の組合せが使用される。実際に、本発明がいずれかの特定の手法に限定されることは意図されておらず、モデルが、配列情報、活性情報、構造情報、および/または他の物理的性質(例えば、疎水性など)の様々な構成において使用を見つけるからである。
【0198】
上述した一部の実施形態では、アミノ酸配列は、配列活性モデルの独立変数についての情報を提供する。他の実施形態では、アミノ酸配列とは対照的に核酸配列が独立変数の情報を提供する。後者の実施形態では、ヌクレオチド配列の特定の位置における特定のタイプのヌクレオチドの存在または非存在を表示するIVがモデルの入力として使用される。ヌクレオチド配列に由来するタンパク質は、モデルの出力としての活性データを提供する。当業者は、異なるヌクレオチド配列がコドン縮重に起因して同じアミノ酸に翻訳され得、2種以上の異なるコドン(すなわち、ヌクレオチドのトリオ)が同じアミノ酸をコードすることを認識する。したがって、異なるヌクレオチド配列は、潜在的に同じタンパク質およびタンパク質活性に関連することができる。しかし、入力としてヌクレオチド配列情報および出力としてタンパク質活性を採用する配列活性モデルは、このような縮重を心配する必要がない。実際的に、入力と出力との間の1対1の対応の欠如は、一部の実施形態ではモデルにノイズを導入し得るが、このようなノイズは、モデルの有用性を無効にしない。一部の実施形態では、このようなノイズは、モデルの予測力を改善さえし得る。例えば、モデルは、データを過剰に適合させにくいからである。一部の実施形態では、モデルは一般に、従属変数として活性を、独立変数として配列/残基値を取り扱う。活性データは、それだけに限らないが、目的の活性/諸活性の規模を測定するように適切に設計されたアッセイおよび/またはスクリーニングを含めた当技術分野で公知の任意の適当な手段を使用して得られ得る。このような技法は、当業者に周知であり、本発明にとって本質的でない。実際に、適切なアッセイまたはスクリーニングを設計するための原理は、広く理解されており、当技術分野で公知である。タンパク質配列を得るための技法も周知であり、本発明にとって重要でない。述べたように、次世代シーケンシング技術が使用され得る。一部の実施形態では、目的の活性は、タンパク質安定性(例えば、熱安定性)であり得る。しかし、多くの重要な実施形態は、他の活性、例えば、触媒活性、病原体および/または毒素に対する耐性、治療活性、毒性などを考慮する。実際に、本発明がどんな定のアッセイ/スクリーニング方法(複数可)および/またはシーケンシング法(複数可)にも限定されることは意図されていない。なぜなら、当技術分野で公知の任意の適当な方法が、本発明において有用であるためである。
【0199】
様々な実施形態では、配列活性モデルの形式は、それが要望通り配列情報に基づいてタンパク質の相対的な活性を正確に近似するためのビヒクルを提供する限り、変化に富むことができる。モデルの数学的/論理的形式の例としては、それだけに限らないが、様々な次数の加法の、乗法の、線形/非相互作用、および非線形/相互作用数式、ニューラルネットワーク、分類および回帰ツリー/グラフ、クラスタリング手法、再帰分割、サポートベクターマシンなどがある。
【0200】
モデルを生成するための様々な技法が、利用可能であり、本発明において使用を見出す。一部の実施形態では、これらの技法は、モデルの最適化およびモデル誤差の最小化を伴う。具体例としては、それだけに限らないが、部分最小二乗法、アンサンブル回帰、ランダムフォレスト、および様々な他の回帰法、ならびにニューラルネットワーク技法、再帰分割、サポートベクターマシン技法、CART(分類および回帰ツリー)などがある。一般に、この技法は、活性に対してかなりのインパクトを有する残基と、有しないものとを区別することができるモデルを生成するべきである。一部の実施形態では、モデルはまた、個々の残基または残基位置を、活性に対するこれらのインパクトに基づいてランク付けする。本発明がモデルを生成するためのどんな特定の技法にも限定されることは意図されておらず、当技術分野で公知の任意の適当な方法が本発明において使用を見出すからである。
【0201】
加法モデルを伴う一部の実施形態では、モデルは、訓練セット中の独立および従属変数の共分散を識別する回帰法によって生成される。様々な回帰法が公知であり、広く使用されている。例としては、それだけに限らないが、多重線形回帰(MLR)、主成分回帰(PCR)、および部分最小二乗回帰(PLS)がある。一部の実施形態では、モデルは、それだけに限らないが、アンサンブル回帰およびランダムフォレストを含めた複数の構成要素を伴う技法を使用して生成される。これらおよび任意の他の適当な方法が本発明において使用を見出す。本発明がどんな特定の技法にも限定されることは意図されていない。
【0202】
MLRは、これらの技法のうちで最も基本のものである。これは、訓練セットのメンバーについての一組の係数方程式を単に解くために使用される。各方程式は、特定の位置における特定の残基の存在または非存在(すなわち、独立変数)を伴った訓練セットメンバーの活性(すなわち、従属変数)に関係する。訓練セット中の残基選択肢の数に応じて、これらの方程式の数は、かなり大きくなることができる。
【0203】
MLRのように、PLSおよびPCRは、配列活性を残基値に関連付ける方程式からモデルを生成する。しかし、これらの技法は、異なる様式でそのようにする。これらは、最初に座標変換を実施して独立変数の数を低減させる。次いでこれらは、変換された変数に対して回帰を実施する。MLRでは、潜在的に非常に多数の独立変数、すなわち、訓練セット内で変動する各残基位置について2つ以上が存在する。目的のタンパク質およびペプチドがかなり大きいことが多く、訓練セットが多くの異なる配列をもたらし得ることを考慮すると、独立変数の数は、急速に非常に大きくなることができる。変数の数を低減させてデータセットにおける最も大きなバリエーションをもたらすそれらに注目することによって、PLSおよびPCRは一般に、より少ない試料を要求し、モデルの生成に関与するステップを単純化する。
【0204】
PCRは、実際の回帰が生の独立変数(すなわち、残基値)の座標変換によって得られる相対的に少数の潜在的変数に対して行われる点でPLS回帰と同様である。PLSとPCRとの間の差異は、PCRにおける潜在的変数が独立変数(すなわち、残基値)間の共分散を最大化することによって構築されることである。PLS回帰では、潜在的変数は、独立変数と従属変数(すなわち、活性値)との間の共分散を最大化するような方法で構築される。部分最小二乗回帰は、Hand,D.J.ら(2001年)、Principles of Data Mining(Adaptive Computation and Machine Learning)、Boston、MA、MIT Press、およびGeladiら(1986年)、「Partial Least−Squares Regression:a Tutorial」、Analytica Chimica Acta、198巻:1〜17号に記載されている。これらの参考文献の両方は、すべての目的に関して参照により本明細書に組み込まれている。
【0205】
PCRおよびPLSでは、回帰分析の直接の結果は、重み付けられた潜在的変数の関数である活性についての数式である。この数式は、潜在的変数を転換して元の独立変数に戻す座標変換を実施することによって元の独立変数の関数としての活性についての数式に変換することができる。
【0206】
本質的に、PCRおよびPLSはともに、訓練セット中に含まれる情報の次元性を最初に低減させ、次いで、新しい独立変数を生じるように変換されているが、元の従属変数値を保存する変換されたデータセットに対して回帰分析を実施する。変換されたバージョンのデータセットは、回帰分析を実施するための相対的に少ない数式のみをもたらし得る。次元低減が実施されなかったプロトコルでは、バリエーションが存在することができる各別個の残基が考慮されなければならない。これは、非常に大きいセットの係数であることができる(例えば、双方向相互作用について2
N個の係数、ここでNは、訓練セット中で変動し得る残基位置の数である)。典型的な主成分分析では、3、4、5、または6個の主成分だけが使用される。しかし、本発明が主成分のどんな具体的な数にも限定されることは意図されていない。
【0207】
訓練データを適合させるマシン学習技法の能力は、「モデル適合」と呼ばれることが多く、回帰法、例えば、MLR、PCR、およびPLSなどでは、モデル適合は、典型的には、測定値と予測値との間の差の二乗和によって測定される。所与の訓練セットについて、最適なモデル適合は、MLRを使用して実現されることになり、PCRおよびPLSは、より劣ったモデル適合(より高い測定と予測との間の差の二乗和)を有することが多い。しかし、PCRおよびPLSなどの潜在変数回帰法を使用する主な利点は、このようなモデルの予測能力にある。非常に小さい差の二乗和を有するモデル適合を得ることは、モデルが訓練セット中に見られない新しい試料を正確に予測することができることを決して保証せず、実際には、特に多くの変数およびほんのわずかな観察結果(すなわち、試料)が存在するとき、これは、反対の場合であることが多い。したがって、潜在変数回帰法(例えば、PCR、PLS)は、訓練データに対してより劣ったモデル適合を有することが多いが、通常よりロバストであり、訓練セット外の新しい試料をより正確に予測することができる。
【0208】
サポートベクターマシン(SVM)も、本発明で使用されるモデルを生成するために使用することができる。上記に説明したように、SVMは、入力として、活性に基づいて2つ以上の群に分類された配列の訓練セットを採用する。サポートベクターマシンは、訓練セットの異なるメンバーを、これらがどの程度訓練セットの「活性」および「不活性」メンバーを分離する超平面インターフェースに近いかに応じて異なって重み付けることによって動作する。この技法では、科学者が、どの訓練セットメンバーを「活性」群に配置し、どの訓練セットメンバーを「不活性」群に配置するかを最初に決定することが要求される。一部の実施形態では、これは、訓練セットの「活性」メンバーと「不活性」メンバーとの間の境界として機能を果たす、活性レベルについての適切な数値を選択することによって達成される。この分類から、サポートベクターマシンは、ベクトル、Wを生成し、Wは、訓練セット中の活性および不活性群メンバーの配列を定義する個々の独立変数についての係数値を提供することができる。これらの係数は、本明細書に他の箇所で記載されているように、個々の残基を「ランク付けする」ために使用することができる。この技法は、超平面を識別するために使用され、超平面は、その平面の反対側の最も近い訓練セットメンバー間の距離を最大にする。
【0209】
(VI.タンパク質ドッキング)
一部の実施形態では、仮想タンパク質ドッキングまたはスクリーニングシステムは、望ましい活性(定義された温度で反応を効率的かつ選択的に触媒するなど)を有する可能性が高い生体分子バリアントを計算的に識別することに関連付けられた様々なオペレーションを実施するように構成される。仮想タンパク質ドッキングシステムは、入力として、バリアントと相互作用するように意図された少なくとも1つのリガンドの表示を採用し得る。システムは、他の入力として、生体分子バリアント、またはこれらのバリアントの少なくとも結合部位の表示を採用し得る。表示は、リガンドおよび/またはバリアントの原子および/または部分の3次元位置を含み得る。ホモロジーモデルは、生体分子バリアントの表示の例である。一部の実施形態では、仮想タンパク質スクリーニングシステムは、バリアントの機能を査定するためにドッキング情報、および活性の制約を適用し得る。
【0210】
ある特定の実施形態では、仮想タンパク質ドッキングおよびスクリーニングシステムは、2つの異なる分子上の部分間の関係を参照して1つ以上のエネルギー値および1つ以上の幾何学値を決定する。一部の実施形態では、エネルギー値は、基質と酵素との間の相互作用エネルギーを含み得、基質は、酵素とドッキングされている1つ以上のポーズにある。一部の実施形態では、エネルギー値は、結合相互作用に参加するものの相互作用エネルギーおよび内部エネルギーを含む全ドッキングエネルギーを含み得る。一部の実施形態では、幾何学値は、2つの分子の部分間の距離、角度、またはねじれの値を含む場合がある。一部の実施形態では、幾何学値は、ともに同じ酵素にドッキングされた天然および所望の基質上の対応する部分間の距離を含む。他の実施形態では、幾何学値は、互いにドッキングした基質と酵素との間の距離を含む。
【0211】
基質の触媒転換を活性として考慮するとき、仮想タンパク質スクリーニングシステムは、特定の反応に関連していることが分かっているポーズを識別するように構成し得る。一部の実施形態では、これは、基質自体ではなく、反応中間体または遷移状態を考慮する。転換に加えて、ポーズは、他のタイプの活性、例えば、鏡像異性体の立体選択的合成、薬物発見に重要であると識別された標的生体分子の受容体への結合などのために評価され得る。一部の場合では、活性は、非可逆性または可逆性共有結合、例えば、標的化共有結合的阻害(TCI)などである。
【0212】
ある特定の実施形態では、バリアントの各活性ポーズのエネルギー特性を評価するために、結合エネルギーを算出するためのプロトコルが実行される。一部の実施では、このプロトコルは、ファンデルワールス力、静電相互作用、および溶媒和エネルギーを考慮し得る。溶媒和は、典型的には、ドッカーによって実施される算出において考慮されない。様々な溶媒和モデルが結合エネルギーを算出するために利用可能である。これらとしては、それだけに限らないが、距離依存性誘電体、ペアワイズ加算を用いた一般化ボルン(GenBorn)、インプリシットメンブレン(Implicit Membrane)を用いた一般化ボルン(GBIM)、分子体積統合(Molecular Volume integration)を用いた一般化ボルン(GBMV)、単純スイッチング(simple switching)を用いた一般化ボルン(GBSW)、および非極性表面積(PBSA)を用いたポアソン−ボルツマン方程式がある。結合エネルギーを算出するためのプロトコルは、ドッカープログラムと異なり、またはそれと別個である。これらは一般に、これらの算出において溶媒和効果を含めることに部分的に起因して、ドッキングスコアより正確である結果を生じさせる。様々な実施では、結合エネルギーは、活性であると見なされているポーズについてのみ算出される。
【0213】
(A.生体分子およびこれらの結合部位の構造モデル)
ある特定の実施形態では、コンピューターシステムは、タンパク質バリアント(または他の生体分子)についての3次元モデルを提供する。3次元モデルは、タンパク質バリアントの全長配列の一部またはすべての計算上の表示である。典型的には最低でも、計算表示は、少なくともタンパク質バリアントの結合部位をカバーする。
【0214】
本明細書に記載するように、3次元モデルは、適切に設計されたコンピューターシステムを使用して調製されるホモロジーモデルであり得る。3次元モデルは、タンパク質バリアントがこれらのアミノ酸配列において相違する構造鋳型を使用する。一般に、構造鋳型は、モデル配列に相同である配列についてX線結晶構造解析法またはNMRによって以前に解析された構造である。ホモロジーモデルの品質は、構造鋳型の配列アイデンティティーおよび分解能に依存する。ある特定の実施形態では、3次元モデルは、現在または将来のプロジェクトに必要な場合に使用するためにデータベース中に記憶され得る。
【0215】
タンパク質バリアントの3次元モデルは、ホモロジーモデリング以外の技法によって生成され得る。一例は、タンパク質スレッディングであり、これも構造鋳型を必要とする。別の例は、構造鋳型を必要とせず、根本的な物理的原理に基づくab initioまたはde novoタンパク質モデリングである。ab initio技法の例としては、分子動力学シミュレーションおよびRosettaソフトウェアスイートを使用するシミュレーションがある。
【0216】
一部の実施形態では、タンパク質バリアントは、これらの結合部位において互いに異なる。一部の場合では、結合部位は、結合部位のアミノ酸配列中の少なくとも1つの変異によって互いに異なる。変異は、野生型タンパク質配列または一部の他の参照タンパク質配列において行われ得る。一部の場合では、タンパク質バリアントの2つ以上は、結合部位について同じアミノ酸配列を共有するが、タンパク質の別の領域のアミノ酸配列が異なる。一部の場合では、2つのタンパク質バリアントは、少なくとも約2つのアミノ酸、または少なくとも約3つのアミノ酸、または少なくとも約4つのアミノ酸だけ互いに異なる。しかし、本発明がタンパク質バリアント間のアミノ酸差異のどんな具体的な数にも限定されることは意図されていない。
【0217】
ある特定の実施形態では、複数のバリアントは、指向進化の1つ以上のラウンドによって生成されるライブラリーのメンバーを含む。指向進化で使用される多様性生成技法としては、遺伝子シャフリング、部位指向性変異誘発などがある。指向進化技法の例は、米国特許第7,024,312号、米国特許出願公開第2012/0040871号、米国特許第7,981,614号、WO2013/003290、PCT出願第PCT/US2013/030526号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれている。
【0218】
(B.タンパク質バリアントへのリガンドのドッキング)
本明細書に説明するように、ドッキングは、配列活性モデルの訓練で使用するための相互作用エネルギーおよび/または幾何学的パラメータを識別するために使用され得る。典型的には、ドッキングは、リガンドの計算上の表示および生成された複数のバリアントの結合部位の計算上の表示を使用する適切にプログラムされたコンピューターシステムによって行われる。
【0219】
一例として、ドッカーは、以下のオペレーションの一部またはすべてを実施するように構成され得る:
1.ランダムな種を用いた高温分子動力学を使用して一組のリガンドコンホメーションを生成する。ドッカーは、リガンドの環境を考慮することなくこのようなコンホメーションを生成し得る。したがって、ドッカーは、内部歪みまたはリガンドだけに特異的な他の考慮事項のみを考慮することによって好都合なコンホメーションを識別し得る。生成されるべきコンホメーションの数は、自由裁量で設定することができる。一実施形態では、少なくとも約10のコンホメーションが生成される。別の実施形態では、少なくとも約20コンホメーション、または少なくとも約50コンホメーション、または少なくとも約100のコンホメーションが生成される。しかし、本発明がコンホメーションの具体的な数に限定されることは意図されていない。
【0220】
2.リガンドの中心を受容体活性部位内の指定場所に並行移動し、一連結のランダムな回転を実施することによってコンホメーションのランダムな向きを生成する。洗練するための向きの数は、自由裁量で設定することができる。一実施形態では、少なくとも約10の向きが生成される。別の実施形態では、少なくとも約20の向き、または少なくとも約50の向き、または少なくとも約100の向きが生成される。しかし、本発明が向きのどんな具体的な数にも限定されることは意図されていない。ある特定の実施形態では、ドッカーは、向きとコンホメーションのさらなる組合せを生成するための「柔軟化(softened)」エネルギーを算出する。ドッカーは、結合部位中のある特定の向きの許容性について物理的に非現実的な仮定を使用して柔軟化エネルギーを算出する。例えば、ドッカーは、リガンド原子および結合部位原子が、パウリ反発および立体的配慮に基づいて不可能である、本質的に同じ空間を占有することができると仮定し得る。この柔軟化された仮定は、例えば、コンホメーション空間を探索するときのレナード−ジョーンズポテンシャルの緩和形式を使用することによって実施することができる。柔軟化エネルギー算出を使用することによって、ドッカーは、物理的に現実的なエネルギー考慮事項を使用して利用可能であるものより、コンホメーションの完全な探索を可能にする。特定の向きにおけるコンホメーションの柔軟化エネルギーが指定された閾値より低い場合、コンホメーション−向きは保たれる。これらの低エネルギーコンホメーションは、「ポーズ」として保持される。ある特定の実施では、このプロセスは、所望の数の低エネルギーポーズが見つかるか、または最大数の悪いポーズが見つかるまで継続する。
【0221】
3.ステップ2からの各保持されたポーズにシミュレーテッドアニーリング分子動力学を受けさせ、ポーズを洗練する。温度が高い値まで上昇され、次いで標的温度に冷却される。ドッカーは、柔軟化エネルギー算出によって提供されるより物理的に現実的な向きおよび/またはコンホメーションを提供するためにこれを行い得る。
【0222】
4.非柔軟化ポテンシャルを使用して剛性受容体(rigid receptor)におけるリガンドの最終的な最小化を実施する。これは、保持されたポーズについてより正確なエネルギー値をもたらす。しかし、この算出は、ポーズのエネルギーについて部分的な情報しかもたらさない場合がある。
【0223】
5.各最終ポーズについて全エネルギー((受容体−リガンド相互作用エネルギー)+(リガンド内部歪み))と相互作用エネルギー単独とを算出する。算出は、CHARMmを使用して実施され得る。ポーズは、CHARMmエネルギーによって並び替えられ、上位スコアの(最も否定的(most negative)、したがって結合に好都合な)ポーズが保持される。一部の実施形態では、このステップ(および/またはステップ4)により、エネルギー的に不都合であるポーズが除去される。
【0224】
以下の参考文献は、ドッカーの機能の一例を提供するものである:Wuら、Detailed Analysis of Grid−Based Molecular Docking:A Case Study of CDOCKER − A CHARMm−Based MD Docking Algorithm、J.Computational Chem.、24巻、13号、1549〜62頁(2003年)。これは、その全体が参照により本明細書に組み込まれている。
【0225】
ここで記載したものなどのドッカーは、所望の基質とのドッキングの見込みがないバリアントのアイデンティティー、活性について考慮することができるポーズのセット(各バリアントについて1セット)、およびセット中のポーズについての相互作用エネルギーなどの情報を提供し得る。
【0226】
(C.ドッキングされるリガンドの幾何学的パラメータの決定)
リガンドと順調にドッキングするタンパク質バリアントについて、幾何学的な結合パラメータは、1つ以上の活性ポーズを識別し得る。活性ポーズは、リガンドが定義された条件下で(自由裁量の結合条件ではなく)結合するための1つ以上の制約を満たすものである。リガンドが基質であり、タンパク質が酵素である場合、活性な結合は、基質に触媒による化学変換、特に立体特異的変換を起こさせる結合であり得る。一部の実施では、幾何学的な結合特性は、リガンド中の1つもしくは複数の原子とタンパク質および/またはタンパク質に関連したコファクター中の1つもしくは複数の原子との相対的な位置を定義する。
【0227】
一部の場合では、幾何学的パラメータは、天然の基質および/または後続の中間体であって、それが野生型酵素によって触媒による化学変換を起こすときのものの1つ以上のコンホメーションから識別される。ある特定の実施形態では、幾何学的パラメータとしては、(i)基質および/もしくは後続の中間体上の特定の部分と触媒部位中の特定の残基もしくは残基部分との間の距離、(ii)基質および/もしくは後続の中間体上の特定の部分と触媒部位中の特定のコファクターとの間の距離、ならびに/または、(iii)基質および/もしくは後続の中間体上の特定の部分と触媒部位に理想的に位置された天然の基質および/もしくは後続の中間体上の特定の部分との間の距離がある。距離の代替案としては、結合間の角度または化合物間の原子のアライメント間の角度、共通の軸周りのねじれの位置などがある。これらの幾何学的パラメータの例は、本発明と同じ日に出願され、その全体が参照により本明細書に組み込まれている、米国特許出願第61/883,838号[代理人整理番号CDXSP020P]に記載されている。
【0228】
基質および/または後続の中間体の計算上の表示の複数のポーズは、検討中のタンパク質バリアントの計算上の表示に関して生成され得る。複数のポーズは、様々な技法によって生成され得る。このような技法の一般的な例として、それだけに限らないが、回転可能な結合についての系統的または確率論的ねじりサーチ、分子動力学シミュレーション、および低エネルギーコンホメーションを場所特定するように設計された遺伝的アルゴリズムがある。一例では、ポーズは、高温分子動力学、その後のランダム回転、グリッド−ベースシミュレーテッドアニーリングによる洗練、ならびに/または計算上の表示の触媒部位中の基質および/もしくは後続の中間体のコンホメーションおよび/もしくは向きを生成するための最終的なグリッドベースもしくは力場最小化を使用して生成される。これらのオペレーションのいくつか、例えば、グリッド−ベースシミュレーテッドアニーリングによる洗練、およびグリッド−ベースまたは力場最小化は任意選択である。
【0229】
ある特定の実施形態では、考慮されるポーズの数は、少なくとも約10、または少なくとも約20、または少なくとも約50、または少なくとも約100、または少なくとも約200、または少なくとも約500である。しかし、本発明が考慮されるポーズの具体的な数に限定されることは意図されていない。
【0230】
(VII.モデルで予測された配列を改変することによる所望の活性を有するタンパク質の生成)
本発明の目標の1つは、指向進化によって最適化されたタンパク質バリアントライブラリーを生成することである。本発明の一部の実施形態は、生成された配列活性モデルを使用してタンパク質バリアントの指向進化をガイドする方法を提供する。上述した方法によって調製および洗練される様々な配列活性モデルは、タンパク質または生物学的分子の指向進化をガイドするために適している。プロセスの一部として、本方法は、
図1Aのブロック111によって示された指向進化の次のラウンドのための新しいタンパク質バリアントを生成するために使用されるべき配列を識別し得る。このような配列は、上記に識別された定義された残基に対するバリエーションを含むか、またはこのようなバリエーションを引き続いて導入するために使用される前駆体である。配列は、タンパク質バリアントの新しいライブラリーを生成するために、変異誘発および/または組換えベース多様性生成機構を実施することによって改変され得る。一部の実施形態では、新しいバリアントは、目的の活性についてアッセイされることができる。
図1Aのブロック113を参照。一部の用途では、構造モデルが新しいバリアントについて生成され得、その構造モデルは、バリアントについてのエネルギー値および幾何学値を提供することができる。
図1Aのブロック113を参照。一部の実施形態では、次いでこれらのデータは、指向進化の新しいラウンドで新しい配列活性モデルを開発するために使用され得る。
図1Aのブロック115を参照。
【0231】
一部の実施形態では、オリゴヌクレオチドまたは核酸配列の調製は、核酸シンセサイザーを使用してオリゴヌクレオチドまたは核酸配列を合成することによって実現される。本発明の一部の実施形態は、指向進化の構築ブロックとして調製されたオリゴヌクレオチドまたはタンパク質配列を使用して指向進化のラウンドを実施することを含む。本発明の様々な実施形態は、多様性を生成するためにこれらの構築ブロックに組換えおよび/または変異誘発を適用することができる。
【0232】
一部の実施形態では、本プロセスは、有利な性質を有する1つ以上の配列を識別する。次いでバリアントが、指向進化の新しいラウンドにおける配列活性モデルのための訓練セットとして、識別された配列から生成される。
図3Cのブロック355および357を参照。
【0233】
バリアントを生成するために、一具体例として、一部の実施形態は、組換え技法をオリゴヌクレオチドに適用する。これらの実施形態では、本方法は、配列活性モデルの項の係数を評価することによって、指向進化のラウンドについて1つ以上の変異を選択することを伴う。変異は、具体的な位置における具体的な残基タイプの定義されたアミノ酸またはヌクレオチドの組合せから、モデルによって予測されるタンパク質の活性へのそれらの寄与に基づいて、選択される。一部の実施形態では、変異の選択は、係数の他のものより大きいと決定される1つ以上の係数を識別することを伴う。係数の各々は、タンパク質活性への残基の寄与に関係し、その残基は、具体的な場所における具体的なタイプのものであるように定義される。変異の選択は、そのように識別される1つ以上の係数と関連する残基を選択することを伴う。一部の実施形態では、配列活性モデルによって変異を選択した後、本方法は、少なくとも1つの変異を含む、またはコードする複数のオリゴヌクレオチドを調製し、指向進化のラウンドを実施することを伴う。一部の実施形態では、指向進化技法は、オリゴヌクレオチドを組み合わせ、かつ/または組み換えることを伴う。
【0234】
他の実施形態は、タンパク質配列に組換え技法を適用する。一部の実施形態では、本方法は、新しいタンパク質または新しい核酸配列を識別し、新しいタンパク質または新しい核酸配列によってコードされるタンパク質を調製およびアッセイすることを伴う。一部の実施形態では、本方法はさらに、さらなる指向進化の出発点として新しいタンパク質または新しい核酸配列によってコードされるタンパク質を使用することを伴う。一部の実施形態では、指向進化プロセスは、所望のレベルの活性を有するとモデルによって予測されたタンパク質配列を断片化し、組み換えることを伴う。
【0235】
一部の実施形態では、本方法は、モデルによって重要であると予測された個々の変異に基づいて新しいタンパク質または新しい核酸配列を識別および/または調製する。これらの方法は、配列活性モデルの項の係数を評価して、活性に寄与する定義された位置における定義されたアミノ酸またはヌクレオチドの1つ以上を識別することによって1つ以上の変異を選択すること、上記で選択された1つ以上の変異を含む新しいタンパク質または新しい核酸配列を識別すること、および新しいタンパク質または新しい核酸配列によってコードされるタンパク質を調製およびアッセイすることを伴う。
【0236】
他の実施形態では、本方法は、個々の変異の代わりに全配列の予測された活性に基づいて新しいタンパク質または新しい核酸配列を識別および/または調製する。これらの実施形態の一部では、本方法は、複数のタンパク質配列または複数のアミノ酸配列を配列活性モデルに適用し、複数のタンパク質配列または核酸配列の各々について配列活性モデルによって予測された活性値を決定することを伴う。本方法はさらに、複数の配列について配列活性モデルによって予測された活性値を評価することによって上記で適用した複数のタンパク質配列または複数のアミノ酸配列の中から新しいタンパク質配列または新しい核酸配列を選択することを伴う。本方法はまた、新しいタンパク質配列を有するタンパク質、または新しい核酸配列によってコードされるタンパク質を調製およびアッセイすることを伴う。
【0237】
一部の実施形態では、最良に予測された単一のタンパク質を単に合成するのではなく、タンパク質の組み合わせのライブラリーが、タンパク質中の各場所における残基選択の最良変化の感受性分析に基づいて生成される。この実施形態では、所与の残基選択が予測されるタンパク質に対してより敏感であるほど、予測される適合度の変化はより大きくなる。一部の実施形態では、これらの感受性は、最高から最低までであり、後続のラウンドにおける組み合わせのタンパク質ライブラリーを作製するために、感受性スコアが使用される(すなわち、感受性に基づいてこれらの残基を組み込むことによって)。線形/非相互作用モデルが使用される一部の実施形態では、感受性は、モデル中の所与の残基項に関連した係数のサイズを単に考慮することによって識別される。しかしこれは、非線形/相互作用モデルについて可能でない。代わりに、非線形/相互作用モデルを利用する実施形態では、残基の感受性は、単一の残基が「最良に」予測される配列において変更された場合の活性の変化を算出するモデルを使用することによって決定される。
【0238】
本発明の一部の実施形態は、タンパク質配列または核酸配列中の1つ以上の位置を選択すること、およびそのように識別された1つ以上の位置において飽和変異誘発を行うことを含む。一部の実施形態では、位置は、配列活性モデルの項の係数を評価し、活性に寄与する定義された位置における定義されたアミノ酸またはヌクレオチドの1つ以上を識別することによって選択される。したがって、一部の実施形態では、指向進化のラウンドは、配列活性モデルを使用して選択された位置においてタンパク質配列に対して飽和変異誘発を実施することを含む。1つ以上の相互作用項を含むモデルを伴う一部の実施形態では、各相互作用項は、2つ以上の残基に関係する。本方法は、2つ以上の相互作用残基において同時に変異誘発を適用することを伴う。
【0239】
一部の実施形態では、残基は、それらがランク付けされる順序で考慮に入れられる。一部の実施形態では、検討中の各残基について、本プロセスは、その残基を「トグル」すべきか否かを決定する。用語「トグル」することは、最適化されたライブラリー中のタンパク質バリアントの配列中の具体的な位置において具体的なアミノ酸残基を含めることまたは除外することを指す。例えば、セリンが、1つのタンパク質バリアント中の166位に現れる場合があり、一方、フェニルアラニンが、同じライブラリー中の別のタンパク質バリアント中の166位に現れる場合がある。訓練セット中のタンパク質バリアント配列同士間で変化しないアミノ酸残基は、典型的には、最適化されたライブラリー中で固定されたままである。しかしこれは、常に当てはまるわけではなく、バリエーションが最適化されたライブラリーにおいて存在することができるからである。
【0240】
一部の実施形態では、最適化されたタンパク質バリアントライブラリーは、識別された「高」ランクの回帰係数残基のすべてが固定され、残りのより低いランクの回帰係数残基がトグルされるように設計される。この実施形態の原理は、「最良に」予測されたタンパク質を囲む局所的な空間がサーチされるべきであるということである。トグルが導入される出発点「骨格」は、モデルによって予測される最良のタンパク質、および/またはスクリーニングされたライブラリーに由来する既に確認された「最良の」タンパク質であり得ることが注目される。実際に、出発点骨格がどんな特定のタンパク質にも限定されることは意図されていない。
【0241】
代替の実施形態では、識別された高ランクの回帰係数残基のすべてではないが少なくとも1つ以上が最適化されたライブラリー中に固定され、他はトグルされる。一度に多すぎる変化を組み込むことによって他のアミノ酸残基の状況を大幅に変化させない希望がある場合、この手法は一部の実施形態において推奨される。やはり、トグリングの出発点は、モデルによって予測される残基の最良のセット、現存するライブラリーに由来する最良の確認されたタンパク質、または十分にモデル化する「平均」クローンであり得る。後者の場合では、重要性がより高いと予測された残基をトグルすることが望ましくあり得る。より大きい空間が、サンプリングから以前に省略された活性丘(activity hill)に対して、サーチにおいて探索されるべきであるからである。このタイプのライブラリーは、後続のラウンドのためにより洗練された状況生じさせるので、典型的にはライブラリー生成の早期ラウンドにおいてより妥当である。出発点骨格がどんな特定のタンパク質にも限定されることも意図されていない。
【0242】
上記実施形態の一部の代替案は、どの残基がトグルされるべきかの決定において残基の重要性(すなわち、ランキング)を使用するために異なる手順を伴う。1つのこのような代替の実施形態では、より高いランクの残基位置が、トグリングに関してより積極的に好まれる。この手法に必要とされる情報は、訓練セットからの最良のタンパク質の配列、PLSまたはPCRで予測された最良の配列、およびPLSまたはPCRモデルからの残基のランキングを含む。一部の実施形態では、「最良の」タンパク質は、データセット中のウェットラボで確認された「最良の」のクローン(すなわち、クロスバリデーションでの予測された値の相対的に近くに入るという点で依然として十分にモデル化する最高の測定された機能を有するクローン)である。本方法は、このタンパク質に由来する各残基を所望の活性の最高値を有する「最良に予測された」配列に由来する対応する残基と比較する。最高の荷重係数または回帰係数を有する残基が「最良の」クローン中に存在しない場合、本方法は、後続のライブラリーに対するトグル位置としてその位置を導入する。残基が最良のクローン中に存在する場合、本方法は、その位置をトグル位置として取り扱わず、連続して次の位置に移動することになる。このプロセスは、十分なサイズのライブラリーが生成されるまで、連続的により低い荷重値を移動して様々な残基について繰り返される。
【0243】
一部の追加の実施形態では、現在最適化されているライブラリー中のウェットラボで確認された「最良の」(または最良のうちの1つの)タンパク質(すなわち、依然として十分モデル化する、すなわちクロスバリデーションでの予測された値の相対的に近くに入る最高の、または最高のうちの1つの測定された機能を有するタンパク質)が、様々な変化が組み込まれる骨格として機能を果たす。別の手法では、十分にモデル化しないこともある現在のライブラリー中のウェットラボで確認された「最良の」(または最良のうちの1つの)タンパク質が、様々な変化が組み込まれる骨格として機能を果たす。一部の他の手法では、所望の活性の最高値(または最高値のうちの1つ)を有すると配列活性モデルによって予測された配列が、骨格として機能を果たす。これらの手法では、「次世代」ライブラリーのためのデータセット(および場合により対応するモデル)は、最良のタンパク質の少なくとも1つにおける残基を変更することによって得られる。一実施形態では、これらの変更は、骨格中の残基の系統的なバリエーションを含む。一部の場合では、変更は、様々な変異誘発、組換え、および/または部分配列選択技法を含む。これらの各々は、in vitro、in vivo、および/またはin silicoで実施され得る。実際に、任意の適当なフォーマットが使用を見出すので、本発明がどんな特定のフォーマットにも限定されることは意図されていない。
【0244】
一部の実施形態では、最適化されたタンパク質バリアントライブラリーは、本明細書に記載の組換え方法、または代わりに遺伝子合成方法、その後のin vivoまたはin vitro発現によって生成される。一部の実施形態では、最適化されたタンパク質バリアントライブラリーが所望の活性についてスクリーニングされた後、これらはシーケンシングされる。上記に示したように、本明細書に記載の方法を使用して、最適化されたタンパク質バリアントライブラリーからの活性および配列情報を、さらに最適化されたライブラリーを設計することができる別の配列活性モデルを生成するために使用することができる。一実施形態では、この新しいライブラリーに由来するタンパク質のすべてが、データセットの一部として使用される。
【0245】
(VIII.ポリヌクレオチドおよびポリペプチドのシーケンシング)
一部の実施形態では、ポリヌクレオチドおよびポリペプチドの配列情報は、タンパク質バリアントの活性部位の配列活性モデルまたは計算上の表示を生成するために使用される。一部の実施形態では、ポリヌクレオチドおよびポリペプチドの配列情報は、所望の性質のタンパク質バリアントを得るための指向進化プロセスにおいて使用される。
【0246】
様々な実施形態では、タンパク質バリアントの配列は、タンパク質シーケンシング方法によって物理的な生体分子から確認される。これらの方法の一部は、以下でさらに記載されている。タンパク質シーケンシングは、タンパク質のアミノ酸配列を決定することを伴う。いくつかのタンパク質シーケンシング技法は、タンパク質がとるコンホメーション、およびタンパク質が任意の非ペプチド分子と複合体形成される程度も決定する。質量分析法およびエドマン分解反応は、タンパク質のアミノ酸の配列を直接決定するために使用され得る。
【0247】
エドマン分解反応は、タンパク質の順序付けられたアミノ酸組成を発見するのを可能にする。一部の実施形態では、自動エドマンシーケンサーをタンパク質バリアントの配列を決定するために使用することができる。自動エドマンシーケンサーは、ますますより長い配列(例えば、最大でおよそ長さ50アミノ酸の配列)のペプチドをシーケンシングすることができる。一部の実施形態では、エドマン分解を実施するタンパク質シーケンシングプロセスは、以下のうちの1つ以上を伴う。
−− 還元剤、例えば、2−メルカプトエタノールを用いてタンパク質中のジスルフィド架橋をブレイクする。ヨード酢酸などの保護基を、結合の再形成を妨げるために使用し得る。
−− 1つを超えて存在する場合、タンパク質複合体の個々の鎖を分離および精製する。
−− 各鎖のアミノ酸組成を決定する。
−− 各鎖の末端アミノ酸を決定する。
−− 各鎖をブレイクして断片、例えば、長さ50アミノ酸未満の断片にする。
−− 断片を分離および精製する。
−− エドマン分解反応を使用して各断片の配列を決定する。
−− アミノ酸配列の追加のリード(複数可)をもたらすために異なるパターンの切断を適用して上記ステップを繰り返す。
−− アミノ酸配列リードから全体的なタンパク質の配列を構築する。
【0248】
様々な実施において、約50〜70アミノ酸より長いペプチドは、エドマン反応によるシーケンシングを促進するために小さい断片にブレイクされるべきである。より長い配列の消化は、トリプシンもしくはペプシンなどのエンドペプチダーゼによって、または臭化シアンなどの化学試薬によって実施することができる。異なる酵素は、異なる切断パターンを与え、断片同士の重複を、全体的な配列を構築するために使用することができる。
【0249】
エドマン分解反応中、シーケンシングされるペプチドは、基板の固体表面上に吸着されている。一部の実施形態では、1つの適当な基板は、ポリブレン、カチオン性ポリマーで被覆されたガラス繊維である。エドマン試薬、フェニルイソチオシアネート(PITC)が、トリメチルアミンの弱塩基性緩衝液と一緒に吸着されたペプチドに添加される。この反応溶液は、N末端アミノ酸のアミン基と反応する。次いで末端アミノ酸を、無水酸を添加することによって選択的に引き離すことができる。次いで誘導体が異性化して置換フェニルチオヒダントインを与え、これを洗い落とし、クロマトグラフィーによって識別することができる。次いでこのサイクルを繰り返すことができる。
【0250】
一部の実施形態では、質量分析法を使用して、アミノ酸配列の断片の質量対電荷比を決定することによってアミノ酸配列を決定することができる。多重荷電した断片に対応するピークを含む質量スペクトルを決定することができ、この場合、異なる同位体に対応するピーク同士の距離は、断片上の電荷に反比例する。質量スペクトルは、例えば、以前にシーケンシングされたタンパク質のデータベースに対する比較によって分析されて、断片の配列が決定される。次いでこのプロセスが異なる消化酵素を用いて繰り返され、配列における重複が使用されて、完全なアミノ酸配列が構築される。
【0251】
ペプチドは、全タンパク質より、調製し、質量分析法で分析するのが容易であることが多い。一部の実施形態では、エレクトロスプレーイオン化がペプチドをスペクトル計に送達するために使用される。タンパク質は、エンドプロテアーゼによって消化され、得られた溶液は、高圧液体クロマトグラフィーカラムを通過させられる。このカラムの末端で、溶液は、質量分析計中に噴霧され、陽電位で荷電される。溶液滴上の電荷が、これらを単一イオンに断片化させる。次いでペプチドが断片化され、断片の質量対電荷比が測定される。
【0252】
タンパク質をコードするDNAまたはmRNA配列からアミノ酸配列を間接的に決定することも可能である。核酸シーケンシング方法、例えば、様々な次世代シーケンシング方法が、DNAまたはRNA配列を決定するために使用され得る。一部の実施において、タンパク質配列は、タンパク質をコードするヌクレオチドの知識なしで新しく単離される。このような実施において、直接タンパク質シーケンシング方法の1つを使用して短いポリペプチド配列を最初に決定し得る。タンパク質のRNAの相補的マーカーを、この短い配列から決定することができる。次いでこれを、このタンパク質をコードするmRNAを単離するために使用することができ、次いでこのmRNAをポリメラーゼ連鎖反応で複製してかなりの量のDNAを得ることができ、次いでこのDNAを、DNAシーケンシング方法を使用してシーケンシングすることができる。次いでタンパク質のアミノ酸配列を、DNA配列から演繹することができる。演繹法では、mRNAが翻訳された後に除去されるアミノ酸を考慮に入れることが必要である。
【0253】
様々な実施形態では、ポリヌクレオチドの配列情報が、タンパク質活性部位の配列活性モデルまたは計算上の表示を生成するために使用される。核酸配列情報は、核酸シーケンシング方法によって物理的な生体分子から確認することができる。これらの方法のいくつかは、以下でさらに記載されている。
【0254】
1つ以上の実施形態では、配列データは、第1の世代のシーケンシング方法と見なされる例えば、サンガーシーケンシングまたはマクサム−ギルバートシーケンシングを含めたバルクシーケンシング方法を使用して得ることができる。標識されたジデオキシ鎖ターミネーターを使用することを伴うサンガーシーケンシングは、当技術分野で周知である。例えば、Sangerら、Proceedings of the National Academy of Sciences of the United States of America、74巻、5463〜5467頁(1997年)を参照。核酸試料の断片に対して複数の部分的な化学分解反応を実施し、その後断片を検出および分析して配列を推測することを伴うマクサム−ギルバートシーケンシングも当技術分野で周知である。例えば、Maxamら、Proceedings of the National Academy of Sciences of the United States of America、74巻、560〜564頁(1977年)を参照。別のバルクシーケンシング方法は、ハイブリダイゼーションによるシーケンシングであり、このシーケンシングでは、試料の配列が、例えば、マイクロアレイまたは遺伝子チップ上の複数の配列へのそのハイブリダイゼーション性質に基づいて演繹される。例えば、Drmanacら、Nature Biotechnology、16巻、54〜58頁(1998年)を参照。
【0255】
1つ以上の実施形態では、配列データは、次世代シーケンシング法を使用して得られる。次世代シーケンシングは、ハイスループットシーケンシングとも呼ばれる。この技法は、シーケンシングプロセスを並列化し、数千または数百万の配列を一度に生成する。適当な次世代シーケンシング方法の例としては、それだけに限らないが、単一分子リアルタイムシーケンシング(例えば、Menlo Park、CaliforniaのPacific Biosciences)、イオン半導体シーケンシング(例えば、South San Francisco、CaliforniaのIon Torrent)、パイロシーケンシング(例えば、Branford、Connecticutの454)、ライゲーションによるシーケンシング(例えば、Carlsbad、CaliforniaのLife Technologiesが所有するSOLiDシーケンシング)、合成および可逆性ターミネーターによるシーケンシング(例えば、San Diego、CaliforniaのIllumina)、透過型電子顕微鏡法などの核酸イメージング技術などがある。
【0256】
一般に、次世代シーケンシング方法は、典型的には、個々のDNA分子を増幅するためにin vitroクローニングステップを使用する。エマルジョンPCR(emPCR)は、油相内の水滴においてプライマー被覆ビーズとともに個々のDNA分子を単離する。PCRは、DNA分子のコピーを生成し、これらはビーズ上のプライマーに結合し、その後、後のシーケンシングのために固定化される。emPCRは、Marguilisら(454 Life Sciences、Branford、CTによって商品化された)、ShendureおよびPorrecaら(「ポロニーシーケンシング」としても公知)による方法、ならびにSOLiDシーケンシング(Applied Biosystems Inc.、Foster City、CA)で使用される。M.Marguliesら(2005年)、「Genome sequencing in microfabricated high−density picolitre reactors」、Nature、437巻:376〜380頁;J.Shendureら(2005年)、「Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome」、Science、309巻(5741号):1728〜1732頁を参照。in vitroクローン増幅は、「ブリッジPCR」によっても実施することができ、この場合、断片は、プライマーが固体表面に付着されると増幅される。Braslavskyらは、この増幅ステップを省略し、DNA分子を表面に直接固定する単一分子方法を開発した(Helicos Biosciences Corp.、Cambridge、MAによって商品化された)。I.Braslavskyら(2003年)、「Sequence information can be obtained from single DNA molecules」、Proceedings of the National Academy of Sciences of the United States of America、100巻:3960〜3964頁。
【0257】
表面に物理的に結合したDNA分子を、並列にシーケンシングすることができる。「合成によるシーケンシング」では、相補鎖は、DNAポリメラーゼを使用して鋳型鎖の配列に基づいて構築される。色素停止電気泳動シーケンシングのように、可逆性ターミネーター方法(Illumina,Inc.、San Diego、CAおよびHelicos Biosciences Corp.、Cambridge、MAによって商品化された)は、色素ターミネーターの可逆バージョンを使用し、一度に1つのヌクレオチドを付加して、別のヌクレオチドの重合を可能にするためにブロッキング基を繰り返し除去することによって、リアルタイムで各位置における蛍光を検出する。「パイロシーケンシング」も、DNA重合を使用し、一度に1つのヌクレオチドを付加し、結合していたピロリン酸の遊離によって放出された光によって所与の場所に付加されたヌクレオチドの数を検出および定量化する(454 Life Sciences、Branford、CTによって商品化された)。M.Ronaghiら(1996年)、「Real−time DNA sequencing using detection of pyrophosphate release」、Analytical Biochemistry、242巻:84〜89頁を参照。
【0258】
次世代シーケンシング方法の具体例は、以下でさらに詳細に記載されている。本発明の1つ以上の実施は、本発明の原理から逸脱することなく、以下のシーケンシング方法の1つ以上を使用し得る。
【0259】
単一分子リアルタイムシーケンシング(SMRTとしても公知)は、Pacific Biosciencesが開発した、合成技術による並列化された単一分子DNAシーケンシングである。単一分子リアルタイムシーケンシングは、ゼロモード導波路(ZMW)を利用する。単一のDNAポリメラーゼ酵素が、鋳型としてのDNAの単一分子とともにZMWの底部に固定される。ZMWは、DNAポリメラーゼによって組み込まれているDNAの単一のヌクレオチド(塩基としても公知)のみを観察するために十分小さい照らされた観察体積を生成する構造体である。4つのDNA塩基の各々には、4つの異なる蛍光色素の1つが結合されている。ヌクレオチドがDNAポリメラーゼによって組み込まれるとき、蛍光タグが切り離され、ZMWの観察エリア外に拡散し、ここで、その蛍光は、もはや観察可能でない。検出器は、ヌクレオチド組込みの蛍光シグナルを検出し、色素の対応する蛍光にしたがって塩基のコールが行われる。
【0260】
適用可能な別の単一分子シーケンシング技術は、Helicos True Single Molecule Sequencing(tSMS)技術(例えば、Harris T.D.ら、Science、320巻:106〜109頁[2008年]に記載された)である。tSMS技法では、DNA試料が切断されておよそ100〜200ヌクレオチドの鎖にされ、polyA配列が各DNA鎖の3’末端に付加される。各鎖は、蛍光標識アデノシンヌクレオチドの付加によって標識される。次いでDNA鎖は、フローセル表面に固定化された数百万のオリゴ−T捕捉部位を含むフローセルにハイブリダイズされる。ある特定の実施形態では、鋳型は、約1億の鋳型/cm
2の密度とすることができる。次いでフローセルは、計測器、例えば、HeliScope(商標)シーケンサー中に装填され、レーザーがフローセルの表面を照らし、各鋳型の位置を明らかにする。CCDカメラは、フローセル表面上の鋳型の位置をマッピングすることができる。次いで鋳型の蛍光標識が切断され、洗い流される。シーケンシング反応は、DNAポリメラーゼおよび蛍光標識ヌクレオチドを導入することによって始まる。オリゴ−T核酸は、プライマーとして機能を果たす。ポリメラーゼは、鋳型指向様式でプライマーに標識ヌクレオチドを組み込む。ポリメラーゼおよび組み込まれなかったヌクレオチドは、除去される。蛍光標識ヌクレオチドの組込みを示す鋳型は、フローセル表面をイメージングすることによって見分けられる。イメージング後、切断ステップにより、蛍光標識が除去され、プロセスは、所望のリード長が達成されるまで他の蛍光標識ヌクレオチドを用いて繰り返される。配列情報は、各ヌクレオチド付加ステップで収集される。単一分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリーの調製におけるPCRベースの増幅を除外し、または典型的には不要にし、この方法は、試料のコピーの測定ではなくその試料の直接測定を可能にする。
【0261】
イオン半導体シーケンシングは、DNAの重合中に放出される水素イオンの検出に基づくDNAシーケンシングの方法である。これは、シーケンシング中に相補鎖が鋳型鎖の配列に基づいて構築される「合成によるシーケンシング」の一方法である。シーケンシングされる鋳型DNA鎖を含むマイクロウェルは、単一種のデオキシリボヌクレオチド三リン酸(dNTP)であふれさせられる。導入されるdNTPがリーディング鋳型ヌクレオチド(leading template nucleotide)に相補的である場合、それは、成長中の相補鎖に組み込まれる。これは、反応が起こったことを示す、ISFETイオンセンサーを作動させる水素イオンの放出を引き起こす。ホモポリマーリピートが鋳型配列中に存在する場合、複数のdNTP分子が単一のサイクルで組み込まれる。これは、対応する数の水素の放出および比例してより高い電子シグナルをもたらす。この技術は、修飾ヌクレオチドまたは光学系が使用されないという点で他のシーケンシング技術と異なる。イオン半導体シーケンシングは、イオントレントシーケンシング、pH媒介シーケンシング、シリコンシーケンシング、または半導体シーケンシングと呼ばれる場合もある。
【0262】
パイロシーケンシングでは、重合反応によって放出されるピロリン酸イオンは、ATPスルフリラーゼによってアデノシン5’ホスホ硫酸と反応させられてATPを生成する。次いでATPは、ルシフェラーゼによるルシフェリンのオキシルシフェリンおよび光への転換を推進する。蛍光は一過性であるので、蛍光を排除する別個のステップは、この方法では必要でない。一タイプのデオキシリボヌクレオチド三リン酸(dNTP)が一度に付加され、配列情報は、どのdNTPが反応部位において有意なシグナルを生成するかによって見分けられる。市販のRoche GS FLX計測器は、この方法を使用して配列を取得する。この技法およびその用途は、例えば、Ronaghiら、Analytical Biochemistry、242巻、84〜89頁(1996年)、およびMarguliesら、Nature、437巻、376〜380頁(2005年)(Nature、441巻、120頁(2006年)の誤植)に詳細に論じられている。市販のパイロシーケンシング技術は、454シーケンシング(Roche)(例えば、Margulies,M.ら、Nature、437巻:376〜380頁[2005年]に記載された)である。
【0263】
ライゲーションシーケンシングでは、オーバーハングを有する部分的に二本鎖のオリゴヌクレオチドを、オーバーハングを有するシーケンシングされている核酸に接合するために、リガーゼ酵素が使用される。ライゲーションが起こるために、オーバーハングは、相補的でなければならない。部分的に二本鎖のオリゴヌクレオチドのオーバーハング中の塩基は、部分的に二本鎖のオリゴヌクレオチドおよび/または部分的に二本鎖のオリゴヌクレオチドの別の一部にハイブリダイズする第2のオリゴヌクレオチドにコンジュゲートしたフルオロフォアによって識別することができる。蛍光データを取得した後、ライゲーションされた複合体は、その認識部位(部分的に二本鎖のオリゴヌクレオチド中に含まれていた)から固定距離をカットするII型制限酵素、例えば、Bbvlなどによって、ライゲーション部位の上流で切断される。この切断反応により、先のオーバーハングのすぐ上流に新しいオーバーハングが露出され、このプロセスが繰り返される。この技法およびその用途は、例えば、Brennerら、Nature Biotechnology、18巻、630〜634頁(2000年)に詳細に論じられている。一部の実施形態では、ライゲーションシーケンシングは、環状核酸分子のローリングサークル増幅生成物を得、ライゲーションシーケンシングの鋳型としてローリングサークル増幅生成物を使用することによって、本発明の方法に適応されている。
【0264】
ライゲーションシーケンシング技術の市販の例は、SOLiD(商標)技術(Applied Biosystems)である。SOLiD(商標)のライゲーションによるシーケンシングでは、ゲノムDNAがせん断されて断片にされ、アダプターが断片の5’および3’末端に結合されて断片ライブラリーが生成される。あるいは、アダプターを断片の5’および3’末端にライゲーションし、断片を環状化し、環状化した断片を消化して内部アダプターを生成し、アダプターを得られた断片の5’および3’末端に結合させることによって内部アダプターを導入して、メイトペアのライブラリーを生成することができる。次に、クローンのビーズ集団が、ビーズ、プライマー、鋳型、およびPCRコンポーネントを含むマイクロリアクター内で調製される。PCRの後、鋳型が変性され、伸長した鋳型を有するビーズを分離するためにビーズが濃縮される。選択されたビーズ上の鋳型は、ガラススライドへの結合を可能にする3’修飾に付される。配列は、特異的フルオロフォアによって識別される中央決定塩基(central determined base)(または塩基の対)を有する部分的にランダムなオリゴヌクレオチドを逐次ハイブリサイズおよびライゲーションすることによって決定することができる。色が記録された後、ライゲーションされたオリゴヌクレオチドが切断および除去され、次いでこのプロセスが繰り返される。
【0265】
可逆性ターミネーターシーケンシングでは、ブロッキング基の存在に起因して可逆性鎖ターミネーターである蛍光色素標識ヌクレオチド類似体が、単一塩基伸長反応で組み込まれる。塩基のアイデンティティーは、フルオロフォアによって決定される。言い換えれば、各塩基は、異なるフルオロフォアと対形成される。蛍光/配列データが取得された後、フルオロフォアおよびブロッキング基は、化学的に除去され、サイクルは、次の塩基の配列情報を取得するために繰り返される。Illumina GA計測器は、この方法によって動作する。この技法およびその用途は、例えば、Ruparelら、Proceedings of the National Academy of Sciences of the United States of America、102巻、5932〜5937頁(2005年)、およびHarrisら、Science、320巻、106〜109頁(2008年)に詳細に論じられている。
【0266】
可逆性ターミネーターシーケンシング法の市販の例は、Illuminaの合成によるシーケンシングおよび可逆性ターミネーターベースのシーケンシング(例えば、Bentleyら、Nature、6巻:53〜59頁[2009年]に記載された)である。Illuminaのシーケンシング技術は、断片化されたゲノムDNAの、オリゴヌクレオチドアンカーが結合している平面の光学的に透明な表面への結合を利用する。鋳型DNAが末端修復されて5’−リン酸化平滑末端が生成され、クレノウ断片のポリメラーゼ活性が使用されて、平滑リン酸化DNA断片の3’末端に単一のA塩基が付加される。この付加により、オリゴヌクレオチドアダプターへのライゲーションのためのDNA断片が調製され、このアダプターは、その3’末端に単一のT塩基のオーバーハングを有することによってライゲーション効率を増大させる。アダプターオリゴヌクレオチドは、フローセルアンカーと相補的である。限界希釈条件下で、アダプター修飾一本鎖鋳型DNAがフローセルに添加され、アンカーへのハイブリダイゼーションによって固定化される。結合したDNA断片は、伸長および架橋増幅されて、それぞれが約1,000コピーの同じ鋳型を含む数億のクラスターを有する超高密度シーケンシングフローセルが生成される。鋳型は、除去可能な蛍光色素を有する可逆性ターミネーターを使用するロバストな4色のDNAの合成によるシーケンシング技術を使用してシーケンシングされる。高感度蛍光検出が、レーザー励起および全内部反射光学系を使用して達成される。約20〜40bp、例えば、36bpの短い配列リードが繰り返しマスクされた参照ゲノムに対してアラインメントされ、この短い配列リードの参照ゲノムへの固有のマッピングが、特別に開発されたデータ解析パイプラインソフトウェアを使用して識別される。繰り返しマスクされていない参照ゲノムも使用することができる。繰り返しマスクされた参照ゲノムが使用されても、繰り返しマスクされていない参照ゲノムが使用されても、参照ゲノムにユニークにマッピングするリードのみがカウントされる。最初のリードが完了した後、断片の反対の末端からの第2のリードを可能にするために、鋳型をin situで再生することができる。したがって、DNA断片のシングルエンドまたはペアエンドシーケンシングのいずれかを使用することができる。試料中に存在するDNA断片の部分的なシーケンシングが実施され、既知の参照ゲノムにマッピングされる所定の長さ、例えば、36bpのリードを含む配列タグがカウントされる。
【0267】
ナノ細孔シーケンシングでは、一本鎖核酸分子が、例えば電気泳動駆動力を使用して細孔に通され、一本鎖核酸分子が細孔を通過する際に得られるデータを分析することによって配列が演繹される。データは、イオン電流データとすることができ、ここで各塩基は、例えば、細孔を通過する電流を異なる、区別可能な程度に部分的に遮断することによって電流を変化させる。
【0268】
別の例示的な、しかし非限定的な実施形態では、本明細書に記載の方法は、透過型電子顕微鏡法(TEM)を使用して配列情報を得るステップを含む。本方法は、重原子マーカーで選択的に標識された高分子量(150kbまたはそれ超)DNAの単原子分解能透過型電子顕微鏡イメージングを利用するステップ、および一貫した塩基間間隔を有する超高密度(3nmの鎖間)並列アレイにおいて超薄膜上にこれらの分子を配列するステップを含む。電子顕微鏡は、膜上の分子をイメージングして重原子マーカーの位置を決定し、DNAから塩基配列情報を抽出するために使用される。本方法は、PCT特許公開第WO2009/046445号にさらに記載されている。
【0269】
別の例示的な、しかし非限定的な実施形態では、本明細書に記載の方法は、第3の世代のシーケンシングを使用して配列情報を得るステップを含む。第3の世代のシーケンシングでは、多くの小さい(約50nm)穴を有するアルミニウム被膜を含むスライドがゼロモード導波路として使用される(例えば、Leveneら、Science、299巻、682〜686頁(2003年)を参照)。アルミニウム表面は、ポリホスホネート化学、例えば、ポリビニルホスホネート化学によってDNAポリメラーゼの結合から保護されている(例えば、Korlachら、Proceedings of the National Academy of Sciences of the United States of America、105巻、1176〜1181頁(2008年)を参照)。これは、アルミニウム被膜の穴中の露出したシリカへのDNAポリメラーゼ分子の優先的な結合をもたらす。この設定は、蛍光バックグラウンドを低減させるためにエバネッセント波現象を使用することを可能にし、より高い濃度の蛍光標識されたdNTPの使用を可能にする。フルオロフォアは、dNTPの終端リン酸に結合されており、その結果、dNTPが組み込まれると蛍光が放出されるが、フルオロフォアは、新しく組み込まれたヌクレオチドに結合されたままでなく、これは、複合体が、組込みの別のラウンドのために直ちに準備ができることを意味する。この方法によって、アルミニウム被膜の穴の中に存在する個々のプライマー−鋳型複合体へのdNTPの組込みを検出することができる。例えば、Eidら、Science、323巻、133〜138号(2009年)を参照。
【0270】
(IX.遺伝子およびタンパク質バリアントのアッセイ)
一部の実施形態では、本発明の方法に関連して生成されるポリヌクレオチドは、活性スクリーニングのためのタンパク質バリアントを発現させるように細胞内に任意選択でクローニングされる(またはスクリーニングされる生成物を作製するためにin vitro転写反応で使用される)。さらに、タンパク質バリアントをコードする核酸は、in vitroで濃縮し、シーケンシングし、発現させ、増幅し、または任意の他の一般的な組換え方法で処理することができる。
【0271】
クローニング、変異誘発、ライブラリー構築、スクリーニングアッセイ、細胞培養などを含めた本明細書で有用な分子生物学的技法を記載する一般的な教科書としては、BergerおよびKimmel、Guide to Molecular Cloning Techniques,Methods in Enzymology、152巻、Academic Press,Inc.、San Diego、CA(Berger);Sambrookら、Molecular Cloning − A Laboratory Manual(2版)、1〜3巻、Cold Spring Harbor Laboratory、Cold Spring Harbor、New York、1989年(Sambrook)、ならびにCurrent Protocols in Molecular Biology、F.M.Ausubelら編、Current Protocols、Greene Publishing Associates,Inc.とJohn Wiley & Sons,Inc.、New Yorkとの間のジョイントベンチャー(2000年にかけて補足された)(Ausubel))がある。核酸を植物および動物細胞を含めた細胞に形質導入する方法と同様に、このような核酸によってコードされるタンパク質を発現させる方法も、一般に利用可能である。Berger、Ausubel、およびSambrookに加えて、動物細胞の培養についての有用な一般的な参考文献としては、Freshney(Culture of Animal Cells,a Manual of Basic Technique、3版、Wiley− Liss、New York(1994年))、およびその中に引用された参考文献、Humason(Animal Tissue Techniques、4版、W.H.Freeman and Company(1979年))、ならびにRicciardelliら、In Vitro Cell Dev.Biol.、25巻:1016〜1024頁(1989年)がある。植物細胞のクローニング、培養、および再生についての参考文献としては、Payneら(1992年)、Plant Cell and Tissue Culture in Liquid Systems、John Wiley & Sons,Inc.、New York、NY(Payne);ならびにGamborgおよびPhillips(編)(1995年)、Plant Cell,Tissue and Organ Culture; Fundamental Methods Springer Lab Manual、Springer−Verlag(Berlin Heidelberg New York)(Gamborg)がある。様々な細胞培養培地が、AtlasおよびParks(編)、The Handbook of Microbiological Media(1993年)、CRC Press、Boca Raton、FL(Atlas)に記載されている。植物細胞培養についての追加の情報は、市販の文献、例えば、Sigma−Aldrich,Inc.(St Louis、MO)からのthe Life Science Research Cell Culture Catalogue(1998年)(Sigma−LSRCCC)、および例えば、同様にSigma−Aldrich,Inc.(St Louis、MO)からのthe Plant Culture Catalogue and supplement(1997年)(Sigma−PCCS)に見つかる。
【0272】
例えば、オリゴヌクレオチド組換え核酸を増幅するために有用なin vitro増幅方法に当業者を導くのに十分な技法の例として、ポリメラーゼ連鎖反応(PCR)、リガーゼ連鎖反応(LCR)、Qβ−レプリカーゼ増幅、および他のRNAポリメラーゼ媒介技法(例えば、NASBA)がある。これらの技法は、Berger、Sambrook、およびAusubel、上記、ならびにMullisら(1987年)、米国特許第4,683,202号;PCR Protocols A Guide to Methods and Applications(Innisら編)、Academic Press Inc.、San Diego、CA(1990年)(Innis);ArnheimおよびLevinson(1990年10月1日)C&EN、36〜47頁;The Journal Of NIH Research(1991年)、3巻、81〜94頁;Kwohら(1989年)、Proc.Natl.Acad.Sci.USA、86巻、1173頁;Guatelliら(1990年)、Proc.Natl.Acad.Sci.USA、87巻、1874頁;Lomellら(1989年)、J.Clin.Chem、35巻、1826頁;Landegrenら(1988年)、Science、241巻、1077〜1080頁;Van Brunt(1990年)、Biotechnology、8巻、291〜294頁;WuおよびWallace(1989年)、Gene、4巻、560頁;Barringerら(1990年)、Gene、89巻、117頁、ならびにSooknananおよびMalek(1995年)、Biotechnology、13巻:563〜564頁に見つかる。増幅核酸をin vitroでクローニングする改良方法は、Wallaceら、米国特許第5,426,039号に記載されている。PCRによって大きい核酸を増幅する改良方法は、Chengら(1994年)、Nature、369巻:684〜685頁、およびその中の参考文献に要約されており、これらの中で最大で40kbのPCRアンプリコンが生成されている。本質的に任意のRNAを、制限消化、PCR拡大、ならびに逆転写酵素およびポリメラーゼを使用するシーケンシングに適した二本鎖DNAに変換することができることを当業者は理解する。Ausubel、Sambrook、およびBerger、すべて上記を参照。
【0273】
一好適な方法では、再アセンブルされた配列が、ファミリーベース組換えオリゴヌクレオチドの組込みについて点検される。これは、例えば、Sambrook、Berger、およびAusubel、上記に本質的に教示されているように、核酸をクローニングおよびシーケンシングすることによって、かつ/または制限消化によって行うことができる。さらに、配列をPCR増幅し、直接シーケンシングすることができる。したがって、例えば、Sambrook、Berger、Ausubel、およびInnis(上記)に加えて、追加のPCRシーケンシング方法論も特に有用である。例えば、PCR中のホウ素化ヌクレアーゼ耐性ヌクレオチドのアンプリコン中への選択的な組み込み、および大きさを合わせた鋳型断片を生成するためのヌクレアーゼを用いたアンプリコンの消化によるPCR生成アンプリコンの直接シーケンシングが実施された(Porterら(1997年)、Nucleic Acids Research、25巻(8号):1611〜1617頁)。この方法では、鋳型に対して4つのPCR反応が実施され、その各々において、PCR反応混合物中のヌクレオチド三リン酸の1つが2’デオキシヌクレオシド5’−[P−ボラノ]−三リン酸と部分的に置換される。ホウ素化ヌクレオチドは、鋳型のPCR断片の入れ子集合においてPCRアンプリコンに沿った様々な位置でPCR生成物中に確率論的に組み込まれる。組み込まれたホウ素化ヌクレオチドによって遮断されたエキソヌクレアーゼがPCRアンプリコンを切断するために使用される。次いで切断されたアンプリコンは、ポリアクリルアミドゲル電気泳動を使用してサイズによって分離され、アンプリコンの配列をもたらす。この方法の利点は、それが、PCRアンプリコンの標準的なサンガースタイルシーケンシングを実施するより、少ない生化学的操作を使用することである。
【0274】
合成遺伝子は、慣例的なクローニングおよび発現手法に適用でき、したがって、遺伝子およびこれらがコードするタンパク質の性質は、宿主細胞内でこれらを発現させた後に容易に検査することができる。合成遺伝子は、in vitro(無細胞)転写および翻訳によってポリペプチド生成物を生成するためにも使用することができる。したがって、ポリヌクレオチドおよびポリペプチドを、様々な所定のリガンド、低分子、およびイオン、または他のタンパク質およびポリペプチドエピトープを含めたポリマーおよびヘテロポリマー物質、ならびに微生物細胞壁、ウイルスの粒子、表面、および膜に結合するこれらの能力について検査することができる。
【0275】
例えば、多くの物理的な方法を、直接ポリヌクレオチドによって、またはコードされたポリペプチドによって化学反応の触媒作用に関連した表現型をコードするポリヌクレオチドを検出するために使用することができる。もっぱら例示の目的のために、かつ目的の特定の所定の化学反応の細目に応じて、これらの方法は、基質(複数可)と生成物(複数可)との間の物理的差異、または化学反応と関連した反応媒体の変化(例えば、電磁放射線、吸着、散逸、および蛍光(UV、可視、もしくは赤外(熱)であってもなくても)の変化)を説明する当技術分野で公知の多数の技法を含み得る。これらの方法は、以下のうちの任意の組合せから選択することができる:質量分析;核磁気共鳴;同位体分布または標識生成物形成を説明する同位体標識材料、分割法およびスペクトル法;反応生成物(複数可)のイオンまたは元素の組成における付随する変化(pH、無機および有機イオンなどの変化を含む)を検出するためのスペクトル法および化学的方法。本明細書の方法で使用するために適した物理的なアッセイの他の方法は、レポーター性質を有する抗体を含むもの、またはレポーター遺伝子の発現および活性とカップリングしたin vivo親和性認識に基づくものを含めた反応生成物(複数可)に特異的なバイオセンサーの使用に基づくことができる。in vivoでの反応生成物検出および細胞寿命−細胞死−細胞増殖選択のための酵素併用アッセイも、適切な場合使用することができる。物理的なアッセイの特異的な性質にかかわらず、これらはすべて、目的の生体分子によってもたらされ、またはコードされる所望の活性または所望の活性の組合せを選択するために使用される。
【0276】
選択に使用される具体的なアッセイは、用途に依存することになる。タンパク質、受容体、リガンド、酵素、基質などについての多くのアッセイが公知である。フォーマットとしては、固定化されたコンポーネントへの結合、細胞または生物生存能、レポーター組成物の生成などがある。
【0277】
ハイスループットアッセイは、本発明で使用されるライブラリーをスクリーニングするために特に適している。ハイスループットアッセイでは、1日で、最大で数千の異なるバリアントをスクリーニングすることが可能である。例えば、マイクロタイタープレートの各ウェルを、別個のアッセイを走らせるために使用することができ、または濃度もしくはインキュベーション時間効果が観察される場合、5〜10ウェル毎に、単一のバリアントを(例えば、異なる濃度で)試験することができる。したがって、単一の標準的なマイクロタイタープレートは、約100(例えば、96)の反応をアッセイすることができる。1536ウェルプレートが使用される場合、単一のプレートは、約100〜約1500の異なる反応を容易にアッセイすることができる。1日当たりに数個の異なるプレートをアッセイすることが可能であり、最大で約6,000〜20,000の異なるアッセイ(すなわち、異なる核酸、コードされるタンパク質、濃度などを伴う)のアッセイスクリーニングが、本発明の総合システムを使用して可能である。さらに最近では、試薬操作に対するマイクロ流体手法が、例えば、Caliper Technologies(Mountain View、CA)によって開発されており、これは、非常にハイスループットなマイクロ流体アッセイ方法をもたらすことができる。
【0278】
ハイスループットスクリーニングシステムは、市販されている(例えば、Zymark Corp.、Hopkinton、MA;Air Technical Industries、Mentor、OH;Beckman Instruments,Inc.、Fullerton、CA;Precision Systems,Inc.、Natick、MAなどを参照)。これらのシステムは、典型的には、すべての試料および試薬のピペット操作、液体分注、時限インキュベーション、ならびにアッセイに適切な検出器(複数可)におけるマイクロプレートの最終的な読み取りを含む全手順を自動化する。これらの構成可能なシステムは、ハイスループットで迅速な開始、ならびに高度の柔軟性およびカスタマイゼーションを提供する。
【0279】
このようなシステムの製造者は、様々なハイスループットスクリーニングアッセイのための詳細なプロトコルを提供している。したがって例えば、Zymark Corp.は、遺伝子転写の調節、リガンド結合などを検出するためのスクリーニングシステムを記載する技術告示を提供している。
【0280】
例えば、PC(Intel x86もしくはペンティアム(登録商標)チップ互換性のMAC OS、WINDOWS(登録商標)ファミリー、またはUNIX(登録商標)ベース(例えば、SUN
TMワークステーション)コンピューターを使用して、デジタル化されたビデオ、またはデジタル化された光学もしくは他のアッセイ画像をデジタル化、記憶、および分析するために、様々な市販の周辺装置およびソフトウェアが利用可能である。
【0281】
分析用システムは、典型的には、本明細書の方法の1つ以上の1つ以上のステップを指示するためのソフトウェアを使用する特殊なアルゴリズムを実施するように具体的にプログラムされたデジタルコンピューターを含み、かつ任意選択で、例えば、次世代シーケンシングプラットフォーム制御ソフトウェア、ハイスループット液体制御ソフトウェア、画像解析ソフトウェア、データ解釈ソフトウェア、源からデジタルコンピューターに作動可能に連結した移動先に溶液を移動させるためのロボット液体制御アーマチュア、ロボット液体制御アーマチュアによるオペレーションまたはハイスループット液体移動を制御するためにデジタルコンピューターにデータを入力するための入力デバイス(例えば、コンピューターキーボード)、および任意選択で、標識されたアッセイコンポーネントからの標識シグナルをデジタル化するためのイメージスキャナーも含む。イメージスキャナーは、プローブ標識強度の測定値をもたらすように画像解析ソフトウェアとインターフェースをとることができる。典型的には、プローブ標識強度測定値は、データ解釈ソフトウェアによって解釈されて、標識プローブが固体支持体上のDNAにハイブリダイズするか否かが示される。
【0282】
一部の実施形態では、in vitroオリゴヌクレオチド媒介組換え生成物、またはin silicoで組み換えられた核酸の物理的な実施形態を含む細胞、ウイルスプラーク、胞子などは、固体培地上で分離されて個々のコロニー(またはプラーク)を生成することができる。自動コロニーピッカー(例えば、Q−bot、Genetix、U.K.)を使用して、コロニーまたはプラークが識別され、摘み取られ、最大で10,000の異なる変異体が、2個の3mmのガラス玉/ウェルを含む96ウェルマイクロタイター皿に接種される。Q−botは、コロニー全体を摘み取るのではなく、コロニーの中心を通じてピンを挿入し、細胞(または菌糸体)および胞子(またはプラーク用途におけるウイルス)を少し試料採取して終了する。ピンがコロニー中に存在する時間、培養培地に接種するためのディップの数、ピンがその培地中に存在する時間、各効果の接種量、および各パラメータは、制御および最適化することができる。
【0283】
Q−botなどの自動コロニーピッキングの均一なプロセスにより、人のハンドリング誤差が減少し、培養を確立する速度が増大する(おおよそ10,000/4時間)。これらの培養物は、温度および湿度が制御されたインキュベーター内で任意選択で振盪される。マイクロタイタープレート中の任意選択のガラス玉は、発酵槽のブレードと同様に細胞の均一な通気および細胞(例えば、菌糸体)断片の分散を促進するように作用する。目的の培養物に由来するクローンは、限界希釈によって単離することができる。やはり上記に記載したように、ライブラリーを構成するプラークまたは細胞は、ハイブリダイゼーション、タンパク質活性、抗体へのタンパク質結合などのいずれかを検出することによって、タンパク質の生成について直接スクリーニングすることもできる。十分なサイズのプールを識別する機会を増大させるために、処理される変異体の数を10倍増大させるプレスクリーニングを使用することができる。一次スクリーニングの目標は、親株(複数可)と等しい、またはそれより良好な生成物力価を有する変異体を迅速に識別すること、およびこれらの変異体のみを後続の分析のために液体細胞培養に進めることである。
【0284】
多様なライブラリーをスクリーニングする一手法は、大量並列固相手順を使用してポリヌクレオチドバリアント、例えば、酵素バリアントをコードするポリヌクレオチドを発現する細胞をスクリーニングすることである。吸収、蛍光、またはFRETを使用する大量並列固相スクリーニング装置が利用可能である。例えば、Bylinaらの米国特許第5,914,245号(1999年)を参照。http://www|.|kairos−scientific.com/;Youvanら(1999年)「Fluorescence Imaging Micro−Spectrophotometer (FIMS)」、Biotechnologyその他、<www|.|et−al.com>、1巻:1〜16頁;Yangら(1998年)、「High Resolution Imaging Microscope (HIRIM)」、Biotechnologyその他、<www|.|et−al.com>、4巻:1〜20頁;およびwww|.|kairos−scientific.com.に書き込まれたYouvanら(1999年)、「Calibration of Fluorescence Resonance Energy Transfer in Microscopy Using Genetically Engineered GFP Derivatives on Nickel Chelating Beads」も参照。これらの技法によってスクリーニングされた後、目的の分子は、典型的には単離され、当技術分野で公知である方法を使用して任意選択でシーケンシングされる。次いで配列情報が本明細書に示したように使用されて、新しいタンパク質バリアントライブラリーが設計される。
【0285】
同様に、いくつかの周知のロボットシステムも、アッセイシステムで有用な溶液相化学反応のために開発された。これらのシステムとしては、Takeda Chemical Industries,LTD.(大阪、日本)によって開発された自動合成装置のような自動ワークステーション、および科学者によって実施されるマニュアル合成操作を模倣する、ロボットアームを利用する多くのロボットシステム(Zymate II、Zymark Corporation、Hopkinton、Mass.;Orca、Beckman Coulter,Inc.(Fullerton、CA))がある。上記デバイスのいずれも、本発明で使用するために、例えば、本明細書に記載されるように進化させられた核酸によってコードされる分子のハイスループットスクリーニングに適している。これらのデバイスを本明細書に論じたように操作することができるようにこれらを改良すること(もしあれば)の特質および実施は、当業者に明らかとなるであろう。
【0286】
(X.デジタル装置およびシステム)
明らかであるはずであるように、本明細書に記載の実施形態は、1つ以上のコンピューターシステム内に記憶された、またはこれらによって移された命令および/またはデータの制御下で作用するプロセスを使用する。本明細書に開示の実施形態は、これらのオペレーションを実施するための装置にも関する。一部の実施形態では、装置は、要求される目的のために特別に設計および/または構築されており、またはこれは、コンピューター中に記憶されたコンピュータープログラムおよび/またはデータ構造によって選択的に稼働させられ、または再構成される汎用コンピューターであり得る。本開示によって提供されるプロセスは、任意の特定のコンピューターまたは他の具体的な装置に本質的に関係しない。特に、様々な汎用マシンが、本明細書の教示に従って書かれたプログラムを用いた使用を見出す。しかし、一部の実施形態では、特殊な装置が、要求される方法のオペレーションを実施するために構築される。様々なこれらのマシンについての特定の構造の一実施形態を以下に記載する。
【0287】
さらに、本開示のある特定の実施形態は、様々なコンピューター実装されたオペレーションを実施するためのプログラム命令および/またはデータ(データ構造を含む)を含むコンピューター読み取り可能な媒体またはコンピュータープログラム製品に関する。コンピューター読み取り可能な媒体の例としては、それだけに限らないが、ハードディスクなどの磁気媒体;CD−ROMデバイスおよびホログラフィックデバイスなどの光媒体;光磁気媒体;ならびにフラッシュメモリーなどの半導体メモリーデバイスがある。ハードウェアデバイス、例えば、リードオンリーメモリーデバイス(ROM)およびランダムアクセスメモリデバイス(RAM)などが、プログラム命令を記憶するために構成され得る。ハードウェアデバイス、例えば、特定用途向け集積回路(ASIC)およびプログラマブルロジックデバイス(PLD)などが、プログラム命令を記憶し、実行するために構成され得る。本開示がコンピューター実装されたオペレーションを実施するための命令および/またはデータを含むどんな特定のコンピューター読み取り可能な媒体またはどんな他のコンピュータープログラム製品にも限定されることは意図されていない。
【0288】
プログラム命令の例としては、それだけに限らないが、コンパイラーによって生成されるものなどの低レベルコード、およびインタープリターを使用してコンピューターによって実行され得るより高いレベルのコードを含むファイルがある。さらに、プログラム命令としては、それだけに限らないが、マシンコード、ソースコード、および本開示に従って計算機のオペレーションを直接または間接的に制御する任意の他のコードが含まれる。コードは、入力、出力、算出、条件文、ブランチ、反復ループなどを指定し得る。
【0289】
一例示的例では、本明細書に開示の方法を具現化するコードは、適切に構成されたコンピューティングデバイス中にロードされると、そのデバイスに1つ以上の文字列に対する模擬遺伝子操作(GO)を実施させる論理命令および/またはデータを含む固定媒体または伝達性プログラムコンポーネントで具現化される。
図4は、媒体817、ネットワークポート819、ユーザー入力キーボード809、ユーザー入力811、または他の入力手段からの命令を読むことができる論理装置である例示的なデジタルデバイス800を示す。装置800はその後、例えば、1つ以上のデータセットを構築するために(例えば、データ空間の複数の代表的なメンバーを決定するために)データ空間内での統計的オペレーションを指示するためにこれらの命令を使用することができる。開示した実施形態を具現化することができる一タイプの論理装置は、CPU 807、任意選択のユーザー入力デバイスキーボード809、およびGUIポインティングデバイス811、ならびに周辺コンポーネント、例えば、ディスクドライブ815およびモニター805(これは、GO改変された文字列をディスプレイし、ユーザーによるこのような文字列のサブセットの簡易化された選択をもたらす)などを含むコンピューターシステム800のようなコンピューターシステムである。固定媒体817が、総合システムをプログラムするために任意選択で使用され、これらとして、例えば、ディスクタイプ光媒体もしくは磁気媒体、または他の電子メモリー記憶素子を挙げることができる。COMポート819をシステムをプログラムするために使用することができ、これは、任意のタイプの通信接続を表すことができる。
【0290】
ある特定の実施形態は、特定用途向け集積回路(ASIC)またはプログラマブルロジックデバイス(PLD)の電気回路内でも具現化することができる。このような場合では、実施形態は、ASICまたはPLDを作製するために使用することができるコンピューター読み取り可能な記述言語で実装される。本開示の一部の実施形態は、様々な他のデジタル装置、例えば、PDA、ラップトップコンピューターシステム、ディスプレイ、画像編集設備などの電気回路または論理プロセッサー内で実装される。
【0291】
一部の実施形態では、本開示は、コンピューターシステムの1つ以上のプロセッサーによって実行されると、コンピューターシステムにタンパク質バリアントの仮想スクリーニングおよび/または所望の活性を有するタンパク質のin silico指向進化のための方法を実装させるコンピューター実行可能命令を記憶した1つ以上のコンピューター読み取り可能な記憶媒体を含むコンピュータープログラム製品に関する。このような方法は、図および疑似コードによって包含されるものなどの本明細書に記載の任意の方法であり得る。一部の実施形態では、例えば、本方法は、複数の酵素についての配列データを受け取り、生物学的分子の3次元ホモロジーモデルを作製し、酵素のホモロジーモデルを基質の1つ以上の計算上の表示とドッキングし、酵素および基質を参照して幾何学的パラメータに関する構造データを導出する。一部の実施形態では、本方法は、モデル化された構造データを参照してデータをフィルタリングすることによって配列活性モデルをさらに開発することができる。バリアントライブラリーは、反復性指向進化で使用することができ、それは、所望の有益な性質の酵素をもたらすことができる。
【0292】
一部の実施形態では、酵素のホモロジーモデルの基質の1つ以上の計算上の表示とのドッキングは、本明細書に記載の様式でリガンドの計算上の表示および複数のバリアントの結合部位の計算上の表示を使用するコンピューターシステム上のドッキングプログラムによって行われる。様々な実施形態では、ドッキングプログラムは、基質のポーズと酵素との間の結合エネルギーを評価する。リガンドと順調にドッキングするタンパク質バリアントについて、システムは、参加中のリガンドおよびタンパク質に関して幾何学値を決定する。様々な実施形態では、コンピューターシステムは、サポートベクターマシンを訓練することによって配列活性モデルを構築する。様々な実施形態では、コンピューターシステムは、情報価値のないデータをフィルターアウトするための遺伝的アルゴリズムを使用し、それによってサポートベクターマシンを訓練するためのデータのサブセットをもたらす。
【0293】
(XI.ウェブサイトおよびクラウドコンピューティングにおける実施形態)
インターネットは、通信リンクによって相互接続されたコンピューター、情報家電、およびコンピューターネットワークを含む。相互接続したコンピューターは、様々なサービス、例えば、電子メール、ftp、ワールドワイドウェブ(「WWW」)、およびセキュアなサービスを含めた他のサービスなどを使用して情報を交換する。WWWサービスは、サーバーコンピューターシステム(例えば、Webサーバーまたはウェブサイト)が情報のウェブページを遠隔のクライアントの情報家電またはコンピューターシステムに送ることを可能にするものとして理解することができる。そのとき遠隔のクライアントコンピューターシステムは、ウェブページをディスプレイすることができる。一般に、WWWの各リソース(例えば、コンピューターまたはウェブページ)は、ユニフォームリソースロケーター(「URL」)によってユニークに識別可能である。具体的なウェブページを閲覧し、またはそれと相互作用するために、クライアントコンピューターシステムは、リクエストでそのウェブページのURLを指定する。リクエストは、そのウェブページをサポートするサーバーに転送される。サーバーがリクエストを受け取ると、これは、そのウェブページをクライアント情報システムに送る。クライアントコンピューターシステムがそのウェブページを受け取ると、これは、ブラウザを使用してウェブページをディスプレイすることができ、またはウェブページまたは別段に提供されるインターフェースと相互作用することができる。ブラウザは、ウェブページをリクエストすること、およびウェブページをディスプレイすることまたはそれと相互作用することを行う論理モジュールである。
【0294】
現在、表示可能なウェブページは、典型的にはハイパーテキストマークアップ言語(「HTML」)を使用して定義される。HTMLは、ウェブページがどのようにディスプレイされるべきかを定義するタグの標準セットを提供する。HTMLドキュメントは、テキスト、グラフィックス、コントロール、および他の特徴をディスプレイすることを制御する様々なタグを含む。HTMLドキュメントは、そのサーバーコンピューターシステムまたは他のサーバーコンピューターシステム上で利用可能な他のウェブページのURLを含み得る。URLは、必ずしもユーザーに情報をディスプレイすることなく、遠隔情報家電またはサーバーと通信するために情報家電が使用するCGIスクリプトまたは実行可能なインターフェースのようなものなどを含めた他のタイプのインターフェースを示すこともできる。
【0295】
インターネットは特に、1人または複数の遠隔の顧客に情報サービスを提供する助けになる。サービスは、インターネットによって購入者に電子的に送達されるアイテム(例えば、音楽または株価)を含むことができる。サービスは、慣例的な流通チャネル(例えば、一般的なキャリア)によって送達され得るアイテム(例えば、食料品、書籍、または化学的もしくは生物学的化合物など)の注文のハンドリングも含むことができる。サービスは、購入者が後の時間にアクセスする航空会社または劇場の予約などのアイテムの注文のハンドリングも含み得る。サーバーコンピューターシステムは、利用可能であるアイテムまたはサービスを列挙するインターフェースの電子版を提供し得る。ユーザーまたは潜在的な購入者は、ブラウザを使用してインターフェースにアクセスし、目的の様々なアイテムを選択し得る。ユーザーが所望のアイテムの選択を完了したとき、次いでサーバーコンピューターシステムは、サービスを完了するために必要な情報をユーザーに促す場合がある。このトランザクション固有の注文情報は、購入者の名称もしくは他の識別、支払いの識別(企業の発注番号もしくはアカウント番号など)、または飛行情報などのサービスを完了するために必要な追加の情報を含み得る。
【0296】
特に目的のサービスの中でも、インターネットおよび他のネットワークによって提供されることができるものは、生物学的データおよび生物学的データベースである。このようなサービスには、国立衛生研究所(NIH)の国立バイオテクノロジー情報センター(NCBI)によって提供される様々なサービスが含まれる。NCBIは、分子生物学、生化学、および遺伝学についての知識を記憶および分析するための自動システムを作製し;研究団体および医学界によるこのようなデータベースおよびソフトウェアの使用を促進し;全国的および国際的の両方でバイオテクノロジー情報を集める取り組みを調整し;生物学的に重要な分子の構造および機能を分析するためのコンピューターベース情報処理の高度な方法の研究を実施することを担当している。
【0297】
NCBIは、GenBank(登録商標)DNA配列データベースの責任を負っている。このデータベースは、個々の研究所、ならびに国際的なヌクレオチド配列データベース、ヨーロッパ分子生物学研究所(EMBL)、および日本のDNAデータベース(DDBJ)とのデータ交換によって提出された配列から構築されており、米国特許商標庁に提出される特許配列データを含む。GenBank(登録商標)に加えて、NCBIは、医学界および科学界のために様々なデータベースをサポートおよび配信する。これらとしては、オンライン版ヒトメンデル遺伝(OMIM)、3Dタンパク質構造の分子モデリングデータベース(MMDB)、ユニークヒト遺伝子配列コレクション(Unique Human Gene Sequence Collection)(UniGene)、ヒトゲノムの遺伝子地図、分類学ブラウザ、および国立がん研究所と共同したがんゲノム解剖学プロジェクト(Cancer Genome Anatomy Project)(CGAP)がある。Entrezは、ユーザーに配列、マッピング、分類学、および構造データへの統合アクセスを提供するNCBIのサーチ(search)および検索(retrieval)システムである。Entrezは、配列および染色体マップのグラフィカルビューも提供する。Entrezの特徴は、関連した配列、構造、および参考文献を検索する能力である。本明細書に記載のBLASTは、全DNAデータベースに対して配列サーチを実行することができる、遺伝子および遺伝子の特徴を識別するためにNCBIで開発された配列類似性サーチのためのプログラムである。NCBIによって提供されている追加のソフトウェアツールとしては、オープンリーディングフレームファインダー(ORF Finder)、電子PCR、ならびに配列提出ツール(sequence submission tool)であるSequinおよびBankItがある。NCBIの様々なデータベースおよびソフトウェアツールが、WWWから、FTPによって、またはe−mailサーバーによって利用可能である。さらなる情報は、www|.|ncbi.nlm.nih.govで利用可能である。
【0298】
インターネットによって利用可能な一部の生物学的データは、特別なブラウザ「プラグイン」または他の実行可能なコードで一般に閲覧されるデータである。このようなシステムの一例は、CHIME、生物学的な分子構造を含めた分子構造の相互作用的仮想3次元ディスプレイを可能にするブラウザのプラグインである。CHIMEに関するさらなる情報は、www|.|mdlchime.com/chime/で利用可能である。
【0299】
様々な会社および施設が生体化合物を注文するためのオンラインシステムを提供している。このようなシステムの例は、www|.|genosys.com/ oligo_custinfo.cfmまたはwww|.|genomictechnologies.com/Qbrowser2_FP.htmlで見つけることができる。典型的には、これらのシステムは、所望の生体化合物(オリゴヌクレオチド、DNA鎖、RNA鎖、アミノ酸配列など)のいくつかの記述子を受け入れ、次いでリクエストされた化合物が製造され、溶液または他の適切な形態で顧客に発送される。
【0300】
本明細書に提供される方法は、以下でさらに記載されるようにウェブサイト上で実装され得るので、本開示の一部の実施形態によって生成されるポリペプチドまたはポリヌクレオチドを伴う計算結果または物理的結果は、上述した生物情報および化合物と同様の様式でインターネットを通じて提供され得る。
【0301】
さらに例示するために、本発明の方法を、ローカライズまたは分散コンピューティング環境で実装することができる。分散環境では、本方法は、複数のプロセッサーを含む単一のコンピューターまたは多数のコンピューターで実装され得る。コンピューターを例えば、共通のバスを通じてリンクすることができるが、より好ましくはコンピューター(複数可)は、ネットワーク上のノードである。ネットワークは、汎用または専用のローカルまたはワイドエリアネットワークとすることができ、ある特定の好適な実施形態では、コンピューターは、イントラネットまたはインターネットのコンポーネントであり得る。
【0302】
インターネットの一実施形態では、クライアントシステムは、典型的にはウェブブラウザを実行し、Webサーバーを実行するサーバーコンピューターにカップリングされている。ウェブブラウザは、典型的には、IBMのWeb Explorer、Microsoftのインターネットエクスプローラー、NetScape、Opera、またはMosaicなどのプログラムである。Webサーバーは、典型的には、しかし必ずしもではないが、IBMのHTTP Daemonまたは他のwww daemon(例えば、プログラムのLINUX(登録商標)ベース形式)などのプログラムである。クライアントコンピューターは、ラインによって、またはワイヤレスシステムを介してサーバーコンピューターと双方向でカップリングされている。次に、サーバーコンピューターは、ウェブサイト(ウェブサイトをホストしているサーバー)と双方向でカップリングされており、本発明の方法を実装するソフトウェアへのアクセスをもたらしている。
【0303】
述べたように、イントラネットまたはインターネットに接続されているクライアントのユーザーは、クライアントに、本発明の方法の実装を提供するアプリケーション(複数可)をホストしているウェブサイト(複数可)の一部であるリソースをリクエストさせ得る。次いでサーバープログラム(複数可)は、リクエストを処理して指定されたリソースを返す(これらが現在利用可能であると仮定して)。標準的な命名規則(すなわち、ユニフォームリソースロケーター(「URL」))は、ハイパーテキスト転送プロトコル(「http」)、ファイル転送プロトコル(「ftp」)、ゴーファー、および広域情報サービス(「WAIS」)などのサブクラスを現在含む、いくつかのタイプのロケーション名を包含する。リソースがダウンロードされるとき、それは、追加のリソースのURLを含み得る。したがって、クライアントのユーザーは、彼または彼女が具体的にはリクエストしていなかった新しいリソースの存在を容易に学習することができる。
【0304】
本発明の方法(複数可)を実装するソフトウェアは、真のクライアント−サーバーアーキテクチャ内でウェブサイトをホストするサーバー上で局所的に稼働することができる。したがって、クライアントコンピューターは、リクエストをホストサーバーに知らせ、これは、リクエストされた処理(複数可)を局所的に稼働させ、次いでクライアントに結果をダウンロードする。代わりに、本発明の方法を、本方法(複数可)のコンポーネントがクライアントによって局所的に実施される「マルチティア」フォーマットで実装することができる。これは、クライアントによるリクエストに対してサーバーからダウンロードされたソフトウェア(例えば、Java(登録商標)アプリケーション)によって実装することができ、またはこれは、クライアント上に「永続的に」インストールされたソフトウェアによって実装することができる。
【0305】
一実施形態では、本発明の方法を実装するアプリケーション(複数可)は、フレームに分配される。このパラダイムでは、特徴または機能性のコレクションほどではなく、代わりに別々のフレームまたはビューのコレクションとしてアプリケーションを見ることが有用である。例えば、典型的なアプリケーションは一般に、一組のメニューアイテムを含み、その各々は、特定のフレーム、すなわち、アプリケーションのある特定の機能性を顕在化する形式を呼び起こす。この観点で、アプリケーションは、コードのモノリシック体としてではなく、アプレットのコレクションまたは機能性の束として見られる。ブラウザ内からこのようにして、ユーザーは、ウェブページリンクを選択し、これはひいては、アプリケーションの特定のフレーム(すなわち、サブアプリケーション)を呼び起こす。したがって、例えば、1つ以上のフレームは、生物学的分子(複数可)を1つ以上のデータ空間に入力および/またはエンコードするための機能性を提供し得る一方、別のフレームは、データ空間のモデルを洗練するためのツールを提供する。
【0306】
ある特定の実施形態では、本発明の方法は、例えば、以下の機能性(複数可)を提供する1つ以上のフレームとして実装される:2つ以上の生物学的分子を文字列にエンコードして2つ以上の異なる最初の文字列のコレクションをもたらす機能(複数可)であって、前記生物学的分子の各々は、サブユニットの選択されたセットを含む、機能;文字列から少なくとの2つの部分文字列を選択する機能;部分文字列を繋ぎ合わせて、最初の文字列の1つ以上とほぼ同じ長さの1つ以上の生成文字列を形成する機能;文字列のコレクションに生成文字列を付加(配置)する機能;酵素および基質の計算上の表示/モデルを作製およびマニピュレートする機能、基質(例えば、リガンド)の計算上の表示を酵素(例えば、タンパク質)の計算上の表示とドッキングする機能;分子モデルに分子動力学を適用する機能;分子を伴う化学反応に影響する分子同士間の様々な制約(例えば、基質部分と酵素活性部位との間の距離または角度)を算出する機能;および本明細書に示した任意の特徴を実施する機能。
【0307】
これらの機能性の1つ以上も、もっぱらサーバー上またはクライアントコンピューター上で実装され得る。これらの機能、例えば、生物学的分子のコンピューターモデルを作製またはマニピュレートするための機能は、ユーザーが生物学的分子の表示(複数可)を挿入またはマニピュレートすることができる1つ以上のウィンドウを提供することができる。さらに、諸機能はまた任意選択で、ローカルネットワークおよび/またはイントラネットによってアクセス可能な私的なおよび/または公共のデータベースへのアクセスを提供し、それによってデータベース中に含まれる1つ以上の配列を本発明の方法に入力することができる。したがって、例えば、一実施形態では、ユーザーは任意選択で、GenBank(登録商標)のサーチをリクエストし、このようなサーチによって返された配列の1つ以上をエンコーディングおよび/または多様性生成機能に入力する能力を有することができる。
【0308】
コンピューターおよび/またはデータアクセス処理のイントラネットおよび/またはイントラネット実施形態を実装する方法は、当業者に周知であり、非常に詳細に文書提供されている(例えば、Cluerら(1992年)、「A General Framework for the Optimization of Object−Oriented Queries」、Proc SIGMOD International Conference on Management of Data、San Diego、California、1992年6月2〜5日、SIGMOD Record、21巻、2号、1992年6月;Stonebraker,M.編;ACM Press、383〜392頁;ISO−ANSI、作業草案、「Information Technology−Database Language SQL」、Jim Melton編、International Organization for Standardization and American National Standards Institute、1992年7月;Microsoft Corporation、「ODBC 2.0 Programmer’s Reference and SDK Guide.The Microsoft Open Database Standard for Microsoft Windows(登録商標).
TM and Windows(登録商標) NT
TM,Microsoft Open Database Connectivity.TM.Software Development Kit」、1992年、1993年、1994年、Microsoft Press、3〜30頁および41〜56頁;ISO作業草案、「Database Language SQL−Part 2:Foundation (SQL/Foundation)」、CD9075−2:199.chi.SQL、1997年9月11日などを参照)。ウェブベースアプリケーションに関する追加の該当する詳細は、SelifonovおよびStemmerによる「METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS」という表題のWO00/42559に見つかる。
【0309】
一部の実施形態では、ポリヌクレオチドまたはポリペプチド配列を探索、スクリーニング、および/または開発する方法は、コンピューターネットワークを介して分布した複数のプロセシングユニットおよびメモリーを含むコンピューターシステム上のマルチユーザーシステムとして実装することができ、ここでネットワークは、LAN上のイントラネットおよび/またはインターネットを含み得る。一部の実施形態では、分散コンピューティングアーキテクチャは、計算およびデータ記憶のためにコンピューターネットワークを介して利用可能なコンピューターシステムのコレクションである「クラウド」を伴う。クラウドを伴うコンピューター環境は、クラウドコンピューティング環境と呼ばれる。一部の実施形態では、1人または複数のユーザーが、イントラネットおよび/またはインターネットを介して分布したクラウドのコンピューターにアクセスすることができる。一部の実施形態では、ユーザーは、上述したタンパク質バリアントをスクリーニングおよび/または開発する方法を実装するウェブクライアント、サーバーコンピューターによって遠隔でアクセスし得る。
【0310】
クラウドコンピューティング環境を伴う一部の実施形態では、仮想計算機(VM)がサーバーコンピューター上にプロビジョニングされており、仮想計算機の結果をユーザーに送り返すことができる。仮想計算機(VM)は、コンピューターのソフトウェアベースエミュレーションである。仮想計算機は、仮定的コンピューターの仕様に基づき得るか、または実世界のコンピューターのコンピューターアーキテクチャおよび機能をエミュレートし得る。VMの構造および機能は、当技術分野で周知である。典型的には、VMは、システムハードウェアを含むホストプラットフォーム上にインストールされ、VM自体は、仮想システムハードウェアおよびゲストソフトウェアを含む。
【0311】
VMのホストシステムハードウェアは、1つ以上の中央処理装置(CPU)、メモリー、1つ以上のハードディスク、および様々な他のデバイスを含む。VMの仮想システムハードウェアは、1つ以上の仮想CPU、仮想メモリー、1つ以上の仮想ハードディスク、および1つ以上の仮想デバイスを含む。VMのゲストソフトウェアは、ゲストシステムソフトウェアおよびゲストアプリケーションを含む。一部の実装では、ゲストシステムソフトウェアは、仮想デバイスのドライバーを伴ったゲストオペレーティングシステムを含む。一部の実装では、VMのゲストアプリケーションは、上述した仮想タンパク質スクリーニングシステムの少なくとも1つの事例を含む。
【0312】
一部の実施形態では、プロビジョニングされるVMの数は、解かれるべき問題の計算負荷に対して増減することができる。一部の実施形態では、ユーザーは、クラウドからの仮想計算機、仮想スクリーニングシステムを含むVMをリクエストすることができる。一部の実施形態では、クラウドコンピューティング環境は、ユーザーのリクエストに基づいてVMをプロビジョニングすることができる。一部の実施形態では、VMは、イメージリポジトリー中に記憶させることができる以前に記憶されたVMイメージで存在し得る。クラウドコンピューティング環境は、イメージをサーチし、サーバーまたはユーザーシステムに転送することができる。次いでクラウドコンピューティング環境は、サーバーまたはユーザーシステム上でイメージを起動することができる。
【0313】
上記は、明確さおよび理解の目的で幾分詳細に記載されたが、形式および詳細の様々な変更を本開示の真の射程から逸脱することなく行うことができることが、本開示を読むことによって当業者に明らかとなるであろう。例えば、上述したすべての技法および装置は、様々な組合せで使用され得る。本願で引用したすべての刊行物、特許、特許出願、または他の文書は、各個々の刊行物、特許、特許出願、または他の文献が、すべての目的に関して参照により組み込まれるように個々に示されているのと同じ程度に、すべての目的に関してその全体が参照により組み込まれている。