IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ポリテクニコ ディ トリノの特許一覧 ▶ セントロ デ イミュノロジア モレキュラーの特許一覧

特表2022-538378生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法
<>
  • 特表-生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法 図1
  • 特表-生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法 図2
  • 特表-生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法 図3
  • 特表-生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法 図4
  • 特表-生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法 図5
  • 特表-生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-02
(54)【発明の名称】生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法
(51)【国際特許分類】
   G16B 40/30 20190101AFI20220826BHJP
【FI】
G16B40/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021567991
(86)(22)【出願日】2020-06-19
(85)【翻訳文提出日】2021-12-24
(86)【国際出願番号】 IB2020055780
(87)【国際公開番号】W WO2020255058
(87)【国際公開日】2020-12-24
(31)【優先権主張番号】102019000009531
(32)【優先日】2019-06-19
(33)【優先権主張国・地域又は機関】IT
(81)【指定国・地域】
(71)【出願人】
【識別番号】506075182
【氏名又は名称】ポリテクニコ ディ トリノ
(71)【出願人】
【識別番号】521495529
【氏名又は名称】セントロ デ イミュノロジア モレキュラー
(74)【代理人】
【識別番号】100091683
【弁理士】
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【弁理士】
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】ウグツォーニ,グイド
(72)【発明者】
【氏名】パニーニ,アンドレア
(72)【発明者】
【氏名】フェルナンデス デ コシーオ ディアズ,ホルヘ
(57)【要約】
コンピュータを利用した生物学的シーケンス分析方法を提供する。これにより、スクリーニング試験からのデータを取り込む学習段階後に、スクリーニング試験の物理的/化学的特性対象に対する性能を示す入力シーケンスおよび少なくとも最適化された出力シーケンスの、いずれかに対する評価が行われる。
【選択図】図1
【特許請求の範囲】
【請求項1】
コンピュータを使用した、生物学的シーケンススクリーニング試験の結果を処理する方法であって、
a)シーケンスによってコード化された分子が、対象とする化学的/物理的特性に基づいて選択される選択工程を含んだ複数の工程を有する少なくとも一つのスクリーニング試験で選択された、サンプル生物学的シーケンスのセットを受信する工程と、
b)前記対象とする化学的/物理的特性に関する許容分子状態と、特定の統計エネルギーパラメータの多変量線形関数で表され、前記許容分子状態と紐づく、少なくとも一つの統計エネルギー関数とを定義する工程と、
c)異なる試験回でのシーケンスのサンプルを得る尤度の式であって、シーケンスが前記統計エネルギーパラメータの関数として試験中に選択される確率を表す選択係数を含む式を提供する工程と、
d)前記尤度の式を最大化し、サンプルシーケンスの前記セットを考慮することで、前記少なくとも一つの多変量線形関数の前記エネルギーパラメータを算出する工程と、
e)少なくとも一つの入力シーケンスについて、既に算出された関連するエネルギーパラメータによって同定される前記統計エネルギー関数に基づき、前記入力シーケンスのスコアを算出し、それにより、前記対象とする化学的/物理的特性に対する前記入力シーケンスを評価する工程と、
f)既に算出された関連するエネルギーパラメータによって同定される前記統計エネルギー関数に基づき、少なくとも局所的にスコア関数を最大化する少なくとも一つのシーケンスを生成する工程と、
を含む、ことを特徴とする方法。
【請求項2】
前記算出工程は、サンプルシーケンスの前記セットに基づき、物理的または化学的パラメータの試験的測定を回避する、教師なし学習を定義する、ことを特徴とする、請求項1に記載の方法。
【請求項3】
前記尤度関数の式は、増幅係数および/またはサンプリング係数をさらに含み、
増幅係数およびサンプリング係数は、シーケンスが試験中に増幅およびサンプリングされる確率によって表される、ことを特徴とする、請求項1に記載の方法。
【請求項4】
(t)は、t回目におけるシーケンスsの読取データの数であり、
(t)は、t回目でシーケンスsを転送する生物学的ベクトルの数であり、
tot(t)=Σ(t)は、t回目における生物学的ベクトルの合計数であり、
tot(t)=Σ(t)は、t回目における読取データの合計数であり、
tot(t)=ΣΣk∈sels,k(t)は、t回目における生物学的ベクトルの合計数であって、ここで、ns,k(t)は、t回目における状態kのシーケンスsの生物学的ベクトルの数であり、
dは、異なるシーケンスの数であり、
(s)は、状態kにおけるシーケンスsの統計エネルギーであり、
k∈selは、学習データ(例えば、非特異結合、特異結合、フォールディング、非フォールディング等)を取得した前記スクリーニング試験の次の試験回に対して、選択を表す個々の分子状態のセットであり、
Cはターゲット数であり、
S((t),C)は、数1の式を満たす場合は、S((t),C)=1、その他の場合はS((t),C)=0として定義される関数であるとき、
【数1】
前記選択係数は、数2の式で表される、
【数2】
ことを特徴とする、請求項1に記載の方法。
【請求項5】
前記統計エネルギー関数は、独立位置偏りおよび上位性効果を示す項を含む、ことを特徴とする、請求項1に記載の方法。
【請求項6】
前記統計エネルギー関数は、数3の式で表される、
【数3】
ことを特徴とする、請求項5に記載の方法。
【請求項7】
前記統計エネルギー関数は、数4の式で表される、
【数4】
ことを特徴とする、請求項5に記載の方法。
【請求項8】
前記尤度関数の式は、増幅係数を含み、
前記増幅係数は、数5の式で表される、
【数5】
ことを特徴とする、請求項4に記載の方法。
【請求項9】
前記尤度関数の式は、読取データサンプリング係数を含み、
前記読取データサンプリング係数は、数6の式で表される、
【数6】
ことを特徴とする、請求項8に記載の方法。
【請求項10】
許容状態は二種類あり、前記スクリーニング試験で選択されてもよい、ことを特徴とする、請求項9に記載の方法。
【請求項11】
前記選択係数が、数7の式で表される、
【数7】
ことを特徴とする、請求項10に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、重合生体分子、特に、タンパク質や核酸の物理的/化学的特性を最適化するためのコンピュータ実施方法に関する。特に、本発明は、分子の対象となる物理的/化学的特性に対して、最適な特性を有するシーケンスを、コンピュータにより自動で予測、同定、選択、生成する方法に関する。
【0002】
特に、本発明は、ディープミューテーションスキャン法(Deep Mutational Scanning:DMS)および指向性進化法(Direct Evolution:DE)に由来するデータの分析および選択方法に関する。
【0003】
本発明はまた、HTS-SELEX(High-Throughput Sequencing SELEX)試験に由来するデータの使用に基づいて、生物学的シーケンスの物理的/化学的特性を予測する方法に関する。
【背景技術】
【0004】
ディープミューテーションスキャン法および指向性進化法は、変異誘発による異なるタンパク変種の影響に関する研究やこれらの変種の機能選択に備えるための手法である。
【0005】
特に、信頼性の高い製品や高収率が求められる産業用途や医薬用途において、アミノ酸シーケンスを生成し、同時にその挙動を予測することは、成しえていない課題として残っている。
【0006】
現在、実験室でのタンパク質操作の手法としては、誘導進化等の生体試験方法や、合理的設計といったコンピュータによるシミュレーションを利用した方法の、大きく分けて二つがある。
【0007】
前者において、生物学的進化の過程が、実験室内で再現され、促進される(PackerおよびLiu著,Nature Reviews Genetics,2015年)。こうした技術には、比較タンパク質変異体のライブラリ構築や、プログレッシブサイクルの実施が含まれる。プログレッシブサイクルには、所定の機能によって、変異種が抽出・隔離される選択工程および選択された変異種に対するさらなる変異誘発工程が含まれる。この技術は、化学合成の酵素を最適化するにあたり、成功の裡に適用されてきた。誘導進化技術には、所定のシーケンスにおける、理論上可能とされる膨大な量の変異種のうち、ごく一部しか調査できないという根本的な限界がある。こうした理由から、通常、試験されたサンプルは、明確な点変異体、もしくは、既知のシーケンスを組み替えて生成された変異体を有するものである。
【0008】
一方、合理的設計方法は、結晶化試験に当初由来する構造情報、または、コンピュータによるシミュレーションを利用した、タンパク質の考えられる構造についての予測に基づいている。したがって、スコア関数によって算出されるアミノ酸置換によって、自由エネルギーの変化に関連する予測を使用して、想定されるタンパク質構造およびシーケンスのシミュレーションを実施する。
【0009】
この手法では、通常、側鎖の回転異性体のライブラリを伴った立体構造研究において、効率的なアルゴリズムが必要となる。これにより、設計または修正された構造の、想定される立体構造を例示することができる。通常、スコアリング関数および立体構造探索アルゴリズムは、天然タンパク質情報や開始点として知られるインターフェイスを使用する。
【0010】
シーケンスに基づく戦略を使用して、機能タンパク質を生成することを意図した手法も存在する。こうした手法では、機械学習技術を応用し、同種シーケンスの統計的制約を特定の目標タンパク質に表す(Barrat-Charlaix他、Scientific reports)(Hopf他、Nature Biotechnology)。しかしながら、当該技術では、成功の裡にデノボタンパク質を設計できるケースが非常に少ない。Bakersとその共同研究者ら(Po-Ssu Huang他、Nature、2016年)は、自然界では表されないフォールディング構造を有するタンパク質を設計・構築し、タンパク質-タンパク質インターフェイスを変更することに成功した。
【0011】
ディープミューテーションスキャン法(DMS)は、近年確立された手法で、タンパク質機能を調べる大規模変異誘発試験から得たデータの選択と、DNAシーケンス技術の高スループットシーケンスとを組み合わせたものである。これにより、タンパク質の異なる変異種の活動を定量化することができる(Fowler DMおよびFields S.,Nat Methods,2014年)。
【0012】
この種の手法では、タンパク変種のライブラリが、ファージ、バクテリア、酵母菌、哺乳類細胞培養といったモデル生体に、最初に導入される。対象となるタンパク質およびその異なる変異体が表されると、予想されるタンパク質機能または対象となるその他分子の特性に対して、選択工程を実施する。この工程には、フィット性、選択されたターゲットとの結合性、酵素反応の触媒性といった機能キャパシティに基づいて、各変異種の頻度を高める効果がある。
【0013】
各サイクルにおいて、各変異種が発現する回数を算出するDNAディープシーケンス技術を利用して、各変異体の頻度を決定する。これらのシーケンス技術の出現により、タンパク質のシーケンス-機能間関係を試験する性能が大幅に向上した。現在までに、DMSデータ分析は主に、各タンパク変種に対する強化スコアに基づいている。このスコアは、選択される変異体の傾向を定量化する際に使用され、選択前後の変異体の頻度の比率として算出され、各回において元の(野生型)タンパク質のスコアと比較される。
【0014】
参照ソフトウェアとしては、Enrich2が挙げられる(Alan F. Rubin他,Genome Biology,2017年)。このソフトウェアは、利用可能であれば、サンプリングエラーおよび試験レプリカとの整合性に基づいて、スコアを修正する手段を備える。複数サイクルの場合、最終スコアを評価するにあたり、線形回帰が利用される。
【0015】
こうした手段を利用するにも関わらず、強化スコアは、様々な性格の統計ノイズに影響される。例えば、サンプリングによるノイズ、試験レプリカおよび時系列での頻度変動の非線形性の再現性の低さ、その初期ライブラリからの強い依存、試験のその他特性といったものに左右される。
【0016】
また、DMSからのデータ解析ツールとして、dms_tools2が挙げられる(Jesse D Bloom,BMC Bioinformatics,2015年)。DMSデータ分析に関する、対象となるその他刊行物としては、Otwinowski, Jakub. " Biophysical inference of epistasis and the effects of mutations on protein stability and function." Molecular biology and evolution, 2018年, Vol. 35, No.10, p.2345-2354がある。
【0017】
アプタマーとは、短いRNA分子またはDNA分子であり、高い親和性および特異性をもって目標分子同士を結合させることができ、治療や診断分野への応用に大きな可能性を秘めている。機能的アプタマーを選択する際に最も利用されている技術の一つに、SELEX(試験管内進化法:Systematic Evolution of Ligands by Exponential Enrichment)と呼ばれるものがある。
【0018】
この古典的な方法には、固有のオリゴヌクレオチドシーケンスのライブラリを合成することが含まれ、該ライブラリは、保存シーケンスの両端部が並ぶようにランダムに作成されたシーケンスを含む中央部を有する構造となっている。
当該技術の工程には、目標分子を結合するいくつかの選択サイクル、選択されたシーケンスの分離、そしてその後の増幅が含まれる。
【0019】
いくつかのサイクルの終わりには、高い結合キャパシティを有するシーケンスが強化され、その頻度がディープシーケンス技術を利用して決定される。これは、すなわち、高スループットシーケンスSELEX(HTS-SELEX)である。しかしながら、選択概念および最も機能的なシーケンスの強化を維持する当該技術には、いくつかの派生が存在する。
【0020】
DMS手法と同様に、大量のデータの操作が必要とされ、シーケンス強化の研究において、様々な分析手法が存在する。
【0021】
そこで、効果的かつ信頼性の高い方法であって、コンピュータによるシミュレーションを利用した、スクリーニング試験(DMS、DE、およびSELEX)より得たシーケンスライブラリの分析方法を発展させる必要があり、これにより、所望の特性を有する変異体の選択、実験的に試験されない変異体のフィット性に関する予測、そして最適化された特性を有する変異体の生成を可能にする。特に、個々の変異体の非添加上位性効果を考慮に入れた、変異体の効果を予測する方法について、発展させていく必要がある。
【0022】
Shen他が、“Protein Engineering, Desing and Selection,” Vol. 21, No. 1,2007年12月19日発行でも述べている方法では、モデル学習のための入力データとして、実験測定されたギブス自由エネルギー値や、ギブス自由エネルギーが測定された温度およびpH値が必要とされる。こうした測定には、大幅な時間とコストがかかっていた。
【先行技術文献】
【非特許文献】
【0023】
【非特許文献1】PackerおよびLiu著,Nature Reviews Genetics,2015年
【非特許文献2】Barrat-Charlaix他、Scientific reports
【非特許文献3】Hopf他、Nature Biotechnology
【非特許文献4】Po-Ssu Huang他、Nature、2016年
【非特許文献5】Fowler DMおよびFields S.,Nat Methods,2014年
【非特許文献6】Otwinowski, Jakub. " Biophysical inference of epistasis and the effects of mutations on protein stability and function." Molecular biology and evolution, 2018年, Vol. 35, No.10, p.2345-2354
【非特許文献7】Shen他、“Protein Engineering, Desing and Selection,” Vol. 21, No. 1,2007年12月19日発行
【発明の概要】
【発明が解決しようとする課題】
【0024】
先行技術における問題点は、本発明による方法によって解決された。
【0025】
発明者らは、現在まで、DMS、DE、およびSELEX試験に由来するデータライブラリを分析する方法を発展させてきた。
【0026】
そのため、本発明の目的は、コンピュータによるシミュレーションを利用した、上述のような試験から得られるシーケンスライブラリのスクリーニングと、所望の特性に対する最適な変異体の選択とを実施する方法であって、効果的かつ信頼性が高いものを提供することにある。
【0027】
本発明のさらなる目的は、DMS試験に由来するシーケンスのセットまたはライブラリ使用のために、非常に効率的な生物学的シーケンスの第2のセットの作成のためのSELEXを提供する方法にある。ここで「非常に効率的」は、例えば、触媒キャパシティ、高いフィット性、特定のターゲットに対する高い結合性、高い蛍光活性、一般的には、初期段階で定義され、上述した試験によって選択され得る分子の物理的/化学的特性における高い性能を指す。
【課題を解決するための手段】
【0028】
本発明の範囲は、少なくともその一部が、コンピュータを利用した方法によって実現される。該方法により、生物学的シーケンスを解析して、分子の化学的/物理的特性に関連する、生物学的シーケンスの生物物理学的特性(例えば、タンパク質、RNA、DNA等)を最適化する。分子の化学的/物理的特性は、例えば、特定の目標分子への結合性(例えば、特異的抗原と結合する抗体)、触媒効果、蛍光、耐熱性、予防接種力(感染症に対する抗体の活性におけるIC50)といった生物学的特性を含む。該方法は、以下の工程を備える。
・分子の活性または対象となる物理的/化学的特性に関連する、許容された、または対象となる分子状態(例えば、結合、非結合、フォールディング、非フォールディング等の、目視できる分子の状態)を決定する工程。
・少なくとも一つの関数を定義する工程。以降、許容分子状態と関連付けられる、統計的エネルギーと定義する。異なる状態のこうした統計的エネルギーは、ジェネリックシーケンスの関数であり、したがって、遺伝子型から表現型へのマッピングを定義する(つまり、シーケンスから、検討される物理的/化学的活性までのマップ)。これらの関数は、位置バイアスと関連付けられる、例えば、タンパク質の特定の位置におけるアミノ酸のエネルギー貢献を含む、スカラパラメータの多変量線形関数に依存する。また、突然変異効果の非追加性を考慮に入れた、ペアでのハイレベル(例えば三重項、四重項等)な相互作用といった上位性効果とも関連付けられる。
・スクリーニング試験(例えば、指向進化、ディープミューテーションスキャン法、SELEX等)の一回以上の実施回を表す尤度関数を提供する工程。この確率関数は、少なくとも一つの統計エネルギー関数に基づいてシーケンスが選択される確率を表す、少なくとも第1の確率因子を含む。好ましくは、試験的スクリーニング工程中に所定のシーケンスが臓腑される確率を表す第2の確率因子といった、その他の因子も存在する。より一般的には、尤度関数の確率因子のそれぞれは、スクリーニング試験工程の確率式である。特に、これらの確率は、a)各分子の状態の統計エネルギー関数の上述した定義におけるモデルパラメータ、b)この方法を適用する前に実施された試験的シーケンシングスクリーニング回によって検知された各変異種のサンプル数、に依存する。
・後のパラメータ自体の確率を最大化し、所望の物理的/化学的特性(例えば、異なるターゲットに対するリンク)に関して、分子の変異種を選択する、一つ以上のスクリーニング試験のシーケンシングから学習データが割り合てられることで、少なくとも一つの統計エネルギー関数のパラメータを決定する工程。特に、それぞれの想定されるシーケンス変異種に対するパラメータが算出される。
・検討されるシーケンスの分子状態に関連付けられた統計エネルギー関数を、学習段階で得たパラメータに基づいて、算出する工程。
・少なくとも一つの統計エネルギー関数に基づいて、所望の物理的/化学的特性に関連する割り当てられたシーケンスに対し、スコアを出す工程。例えば、割り当てられたシーケンスのターゲットとの親和性を予測するために、ターゲットにリンクする状態に関して、シーケンスに関連する統計的エネルギーによって、スコアを定義する。それぞれの想定されるシーケンス変異種のパラメータが利用でき、統計的エネルギーは、割り当てられたシーケンスに基づいて算出される。エネルギーパラメータ算出後に割り当てられた異なるシーケンスは、異なるスコア値に相当する。および/または、
・想定されるシーケンスのセット全体、または、その特定の対象に対して、最大化されたスコアまたは所定の閾値を上回るスコアを有するシーケンスまたはシーケンスライブラリを作成する工程。好ましくは、ここでのセットは、学習に利用した試験のシーケンスと同等の長さを有するシーケンスセットとして理解されたい。エネルギーパラメータを利用することで、最適化アルゴリズムが適用され、シーケンス、または、エネルギーパラメータを最大化可能、または、学習段階で既に算出された、エネルギーパラメータ関数を最大化可能なシーケンスを探すことができる。こうした方法により、特に、スコアの帰属によって、大量の入力シーケンスを処理することができ、これにより、所望の化学的/物理的特性、つまり、触媒作用、フィット性、特定のターゲットへの結合性、蛍光活性、予防接種力といった特性に対する、変異体の挙動を分析できる。
【0029】
なお、所望の化学的/物理的特性は、モデルを学習するのに、つまり、多変量線形関数のパラメータを算出するのに使用される、生物学的サンプルシーケンスのセットによって、特定される。このセットは、備えられ、発現し、ターゲットとなる化学的/物理的特性に対して効果的な複数のシーケンスを含む。
【0030】
このように、入力シーケンスがどの程度関連性を有しているか、つまり、どの程度、与えられ、発現し、ターゲット化学的/物理的特性に対して効果的であるかを、該方法により割り当てられて処理される各シーケンスに対し、コンピュータによるシミュレーションを利用し、スコアによって、推定することができる。
【0031】
さらに、ターゲットとなる化学的/物理的特性と高い親和性を有するシーケンスライブラリは、イン・ビトロまたはイン・ビボでの、連続した試験フェーズで利用される、潜在的に効果的なタンパク質シーケンスを多く含んでいる。
【0032】
なお、さらに、多変量線形関数のパラメータは、学習段階での入力サンプルシーケンスに基づいて、算出される。学習段階で、入力データとして、好ましくは、入力データの種類のみとして、サンプルシーケンスを使用し、教師なし学習(学習)を行うことで、かなりの労力削減となる。これは、pH値といったパラメータを特別に測定する必要もなく、ギブス温度および/または自由エネルギーも必要としないためである。本発明の方法によれば、ギブスの自由エネルギーは、該方法によって算出される、あるいは算出可能であり、入力データを決定する試験においては測定されない。
【0033】
ジェネリックスクリーニング試験の尤度関数を定式化することができ、試験では常に存在する選択フェーズを表す相対因子を、1つ以上の多変量および線形統計エネルギー関数に基づいて、表すことができることが検証された。線形統計エネルギー関数のそれぞれは、以下の実施例で説明するデバイスで、可能性のあるすべてのシーケンスを示すパラメータを有する。当業者であれば、特定のスクリーニング試験のフェーズに基づいて、選択因子に加えて、尤度関数を完成させるのに適した、いかなる確率因子を定式化することができる。
【0034】
尤度関数を最大化することで、少なくとも一つの統計エネルギー関数のスカラパラメータを算出すると、ジェネリックシーケンスに対してスコアを算出する基準として、尤度関数を利用することができる。ジェネリックシーケンスには、様々な式があるが、特にシンプルなものでは、シーケンスのスコアが、シーケンスに関連するスカラパラメータの総和となっている。
【0035】
したがって、統計エネルギー関数のパラメータまたは算出された関数を、スコアによって1つ以上の入力シーケンスを評価することと、エネルギーパラメータの関数を最大化する1つ以上のシーケンスを生成することの両方に、使用することができる。
【0036】
さらに、以下の事項も可能である。
・対象となるそれぞれの特性に関連付けられた統計エネルギー関数に基づいて、分子の、異なる生物物理学的特性を考慮したスコアを提供することができる。例えば、結合エネルギーをフォールディングエネルギーと組み合わせることで、分子の安定性および親和性の両方を考慮したスコアを定義することができる。および/または
・異なる機能(例えば、異なる目標分子への結合)を選択することで、同一分子の複数のスクリーニング試験を使用したスコアを提供することができる。この場合、当該方法は、各試験(つまり、異なる機能)に関連するシーケンスエネルギーを提供する。個別のスコアを有するこれらのエネルギーを組み合わせることができ、分子の生物物理学的機能に関する所望の組み合わせを実現する。例えば、スクリーニングで使用されるターゲットに割り当てられた結合エネルギーを有する多特化変異種を設計する際に、有用である(例えば、二重特異性モノクローナル抗体、または、より一般的な、多重特異性抗体)。および/または、
・当該方法の一実施形態によれば、後続の試験、または、新たなランダム化シーケンスの生成のための、初期シーケンスセットとして、最適化されたライブラリを使用することができる。この処理は、スクリーニング試験、コンピュータによるシミュレーションを利用したモデル学習、および、それによる変異体ライブラリ作成のサイクルを含むルートにおいて、理解されるものである。
【0037】
その他の目的は、以下の本発明の詳細な既述によって裏付けられる。
【図面の簡単な説明】
【0038】
図1図1は、当該方法の入力/出力の例に関する総合的なフローチャートである。
図2図2は、試験のシーケンシングからの生データの前処理から始まり、モデル出力の3つの例までの、当該方法のルート例に関するフローチャートである。その網羅的な使用は考慮しないものとする。
図3図3は、モデルの説明で使用される主な定義をまとめた模式図である。左側パネル:N(t)は、シーケンスsを表すベクトル(例えば、ファージ)の数である。シーケンシングから得る読取データの数は、N(t)に比例する。右側パネル:n(t)は、選択された(例えば、ターゲットに結合された)シーケンスsを有するベクトルの数である。
図4図4は、変異体の選択度の評価である。モデルで算出した統計的結合エネルギーとデータ(以下の説明で示す選択度式)で算出された選択度の散布図である。図内の4つのパネルは、実施例1で説明する試験に関するものである。〇印(×印)は、一定の閾値を越える初期回数を有するテストセット(学習セット)のシーケンスである(データ品質を確認する手順)。各パネルにおいて、それぞれの場合のスピアマン相関係数が示されている。スピアマン係数とは、2つの変数の順序関係の度合を測るものである。強い相関関係をしめす、0.80~0.98の値をとる係数の値は、4つの試験データセットのそれぞれにおける結合親和性を予測するモデル性能を表している。
図5図5は、変異体の選択度の評価である。モデルで算出された結合エネルギーおよびデータ上で算出された選択度の散布図である。同図は、同じタンパク質に関する別の試験(実施例3)のモデルを学習することで、試験(実施例2)のシーケンスの選択度の評価を示す。したがって、点は、一定の閾値を越える合計回数を有する実施例2に属するシーケンスに相当する(データ品質を確認する手順)。実施例2の回数から算出された選択度は、横座標で表され、実施例3のデータで初期化されたモデルの統計的エネルギーは縦軸で表される。強い相関関係を示すピアソン係数は、学習とは別の試験の結合親和性を予測するモデル性能を示す。2つの統計的変数間のピアソン係数は、それら変数間の線形関係性の度合を表している。
図6図6は、変異体の選択度の評価である。モデルで算出された結合エネルギーおよびデータ上で算出された選択度の散布図である。同図では、低い選択度のシーケンス上のモデルを学習することで、高い選択度(この場合、高い結合親和性)を有するシーケンスの選択度を評価している。データは、実施例1のものである。なお、本例において、高い親和性ひいてはより高い有益性を有するシーケンスは、学習または初期化フェーズ時、モデルには見られない。黒点は、低い選択度学習シーケンスに相当する。一方、グレーの×印は、高い選択度の試験シーケンスに相当する。ここでも、モデルスコアは、試験的選択度に関連して、シーケンスを適切に分類する。
【発明を実施するための形態】
【0039】
以下に記載する定義は、本発明の説明において使用される。
【0040】
ディープミューテーションスキャン法(DMS)方法論とは、次世代シーケンス技術に基づくもので、1回の試験で、105(あるいはそれ以上)の順に、タンパク質、DNAシーケンス、または基準RNAの、多くのユニークな変異種の活性を測るものである。
【0041】
生化学的組合わせ手法である、Selex(試験管内進化法:Systematic Evolution of Ligands by Exponential Enrichment)は、アプタマーと呼ばれる所定のターゲットを結合することができる、DNAまたはRNAオリゴヌクレオチド(単鎖型および二重鎖型の両方)の生成に適している。
【0042】
指向進化、すなわちDE技術とは、変異種のライブラリが1つ以上のシーケンスから構築され、対象となる特性の選択処理が行われるもので、最良の変異種または、変異種の選択が、処理を繰り返す次の回で使用される。
【0043】
機械学習支援指向進化とは、指向性進化処理を指す。ここでは、シーケンス選択データ(選択されたシーケンスのサンプルのシーケンシング)から初めて、イン・シリコモデルが学習され、そして、次回に変異種を提案する際に利用される。これについては、Z. Wu他,“Machine learning-assisted directed protein evolution with combinatorial libraries”,arXiv(出版前)に詳しい。
【0044】
ディープシーケンシングとは、DNAの所定の領域に対し、シーケンシングを繰り返し(100回~1000回)行う技術である。この新世代シーケンシング手法により、希少クローン型や、遺伝的貢献が、分析された遺伝物質の1%程度の微生物細胞を検出することができる。
【0045】
ウルトラディープシーケンス技術とは、ゲノムの制限された領域に特化したディープシーケンシング技術である。これにより、遺伝的貢献パーセンテージが、10-7/10-8程度の変異種であっても、検出することができる。
【0046】
遺伝子突然変異とは、遺伝子組み換えではない、外的要因により、ゲノムのヌクレオチドシーケンス、より一般的には、遺伝物質(DNAおよびRNAの両方)における安定かつ遺伝的変更を指す。
【0047】
不定突然変異とは、遺伝性ではない遺伝子突然変異を指す。
【0048】
フォールディング、またはタンパク質フォールディングとは、分子のフォールディング処理である。この処理により、タンパク質は、3次元構造となる。一方、タンパク質の非フォールディング状態とは、線形ポリペプチド鎖の変性状態を指す。
【0049】
表現型とは、生物の全ての特性のセットであり、ひいては、形態学、発達、挙動を含む生物化学的・生理的特性等が挙げられる。広義に、ゲノムコーディング領域における1つ以上の変異体の表現型は、機能的または構造的バリエーションを指す。
【0050】
遺伝子型とは、生物または集団のDNA(遺伝子形成/遺伝子識別/遺伝子体質)を形成する全ての遺伝子のセットである。
【0051】
エピスタシスとは、一般的に、個々の変異体間の非添加表現型効果を指す。
【0052】
残渣とは、タンパク質のアミノ酸またはポリペプチドを指す。
【0053】
分子状態とは、活性やその物理的/化学的特性と関連付けられた生物学的分子の状態(例えば、結合、非結合、フォールディング、非フォールディング等)を指す。
【0054】
符号化シーケンスとは、タンパク質のコードである、遺伝子のDNAまたはRNAの一部を指す。
【0055】
シーケンスアラインメントとは、バイオインフォマティクス手順を指し、該手順において、適切な挿入および消去符号(アミノ酸や窒素塩基に関係する説明記号ではない)を挿入することで、2つ以上の、アミノ酸、DNA、またはRNAの1次シーケンスが、共通の長さの行列に配置される。
【0056】
位置バイアスとは、所定のシーケンスライブラリ、より一般的には、複数のシーケンスアラインメントにおける特定の位置で、所定のアミノ酸がみられる頻度を指す。
【0057】
ファージディスプレイとは、バクテリオファージ(細菌に感染するウイルス)を使用した、タンパク質-タンパク質、タンパク質-ペプチド、およびタンパク質-DNA相互作用の研究のための実験技術である。この技術により、対象となるタンパク質の遺伝子コーディングが、ファージコーティングされたタンパク質の遺伝子に挿入され、ファージの外側にタンパク質を露出させ、タンパク質の遺伝子を内側に維持し、遺伝子型および表現型の結合を確立する。
【0058】
リボソームディスプレイとは、特定のリガンドと結合するタンパク質を生成する生化学的手法である。特に、この技術は、対象となるタンパク質および異なる選択工程で固定された特定のリガンドを結合する複合体を使用する前駆RNA-メッセンジャーの間のハイブリッドを作り出すことを含む。
【0059】
本発明は、スクリーニング試験、例えば、ディープミューテーションスキャン法(DMS)、指向進化(DE)、またはSELEX等に由来するシーケンスライブラリの分析および使用の、コンピュータ実施方法に関する。また、タンパク質および/またはペプチド、またはスクリーニング試験時に所定の化学的/物理的特性で選択されたアプタマーをともなう、アミノ酸またはヌクレオチドシーケンスの選択または評価を目的とする。
【0060】
先行技術について技術したように、DMS手法は、所望の一特性や、変異体の初期プールを起点とする最良の変異体を選択することを目的としており、既知の、異なる種類の実験を用いて、実施することが可能である。
【0061】
例えば、試験は、一般的には、プラスミドまたはウイルスによって現れるタンパク質をともなう細胞(バクテリア、酵母菌、そして培養哺乳類細胞)に基づいて、あるいは、ファージディスプレイまたはリボソームディスプレイといったイン・ビトロで発達するシステムの利用に基づいて、実施される。
【0062】
一般的に、対象となる遺伝子の変異種のライブラリは、DMSと合成され、適切な式ベクトルでクローン化され、例えば細胞に導入される 。ここで、タンパク質は、遺伝子によってコード化され、選択可能な機能を有する。この選択は、タンパク質機能や、対象となる、他の分子の特性に適用されてもよく、その機能キャパシティに基づいて、各変異種の頻度が変更される。
【0063】
スクリーニング試験における選択は、異なる方針を用いて実施され得る。例えば、酵素触媒作用、分子ターゲットへの結合、多少効果的な変異種の存在による細胞増殖、または、特定の変異種を表す細胞の分離に基づいて、実施され得る。例えば、選択により、よりアクティブなタンパク変種を有する細胞を強化し、不活性または非常に非効率的な変異種を排出する。選択はまた、例えば、ディスプレイ試験では、変異種の物理的な分離を実施することで実行されてもよく、あるいは、先行技術において既知の細胞分離技術を利用してもよい。選択は、最終的に、特定の処理または期間の前後に行われる。いずれの場合であっても、当該手法の基礎は、確立された特性の選択処理にある。
【0064】
1つ以上の選択回の終了時には、初期入力集団のライブラリおよび選択後集団のライブラリの両方が回復され、特定のディープシーケンシングおよびウルトラディープシーケンシングの、高性能DNAシーケンス技術により、2つのライブラリの各変異種の頻度が決定される。
【0065】
先行技術で説明した通り、SELEXによる手法は、高い特異性をともなって、選択された分子のターゲット(タンパク質、その他核酸、細胞全体、例えば、癌)に結合可能なアプタマーを選択することを目的としている。また、この場合、オリゴヌクレオチドシーケンスのライブラリが生成される。各シーケンスは、2つの一定領域をその両端に有する。これにより、PCR増幅や、ヌクレオチドのランダムシーケンスをともなって作成された中央領域を実現する。
【0066】
これらのシーケンスは、また、イン・ビトロ選択手順が実施されることで、その他のシーケンスではなく、主に機能的アプタマーが分離され増幅される。選択はまた、この場合、当業者にとっては明らかな、異なる技術に基づいて、例えば、特定の分子ターゲットの結合親和性や、触媒活動に基づいて、実施されてもよい。いずれの場合であっても、当該手法の基礎は、確立された特性の選択処理にある。
【0067】
選択された分子の増幅・選択・分離を、1回以上行ってもよい。
【0068】
1つ以上の選択回の終盤において、選択されたシーケンスが回復し、特定のディープシーケンシングといった、高性能DNAシーケンス技術によって分析される。
【0069】
まず、SELEX技術では、当業者にとっては既知の、異なる選択および増幅戦略をともなって、種々の変異種が発達する。例えば、Zhuo Z他, “Recent Advances in SELEX Technology and Aptamer Applications in Biomedicine”, Int J Mol Sci. Vol. 18, No. 10, 2017年10月14日にも記載がある。
【0070】
したがって、本発明に係る方法は、シーケンスの異なる位置で、変異体が起こる可能性だけでなく、実施形態によれば、相対エピスタシスも考慮に入れつつ、学習セットのシーケンスに対して、1つ以上の変異体が存在するシーケンスを評価することのできるモデルの使用に基づいている。
【0071】
説明される当該方法中のシーケンスの統計エネルギー関数に基づくスコアによって、選択が実行される。
【0072】
一度モデルを入力シーケンスのセットで学習させる(例えば、DMS試験)、試験スクリーニングで使用される変異体ライブラリに配列される、いかなるシーケンスの評価にも、当該モデルを使用することができるようになる。
【0073】
確率モデルに関する説明
以下の好ましい実施形態におけるモデルは、各シーケンスに確率が関連付けられる、選択・非選択の二つの状態を検討する。
【0074】
しかしながら、各シーケンスに確立が関連付けられる、いくつかの状態に一般化することができる。例えば、好ましい実施形態では、結合、非結合、フォールディング、非フォールディング等の3つの状態が検討される。
【0075】
したがって、モデルの詳細な説明において、一般的な状態の数、特に、2つの状態についての一般的な場合を参照して、説明がなされる。
【0076】
表記
例えば、のように、下線をともなう符号は、要素がシーケンス{x}を示すベクトル指す。太字の符号xは、各シーケンスsおよび反復処理tについて、全てのシーケンスおよび回数にわたる配分量のセット{x(t)}を指す。
【0077】
符号の定義
(t)は、t回目におけるシーケンスsの読取データの数である。
(t)は、t回目でシーケンスsを転送するベクトルの数である。
tot(t)=Σ(t)は、t回目におけるベクトルの合計数である。
tot(t)=Σ(t)は、t回目における読取データの合計数である。
tot(t)=ΣΣk∈sels,k(t)は、t回目におけるベクトルの合計数であって、ここで、ns,k(t)は、t回目における状態kのシーケンスsのベクトルの数である。
dは、異なるシーケンスの数である。
(s)は、状態kにおけるシーケンスsの統計エネルギーである。
k∈selは、学習データ(例えば、非特異結合、特異結合、フォールディング、非フォールディング等)を取得したスクリーニング試験の次の試験回に対して、選択を表す個々の分子状態のセットである。
【0078】
一般的に、統計エネルギーは、線形多変量関数である。最初の例では、各状態においてのエネルギーは、エネルギーパラメータの線形関数θk(i1…,ip)(si1,…,sip)として定義され、独立位置バイアスおよび二重、三重の相互作用等としての上位性効果(つまり、突然変異効果の非追加性)の両方を表している。
【0079】
【数1】
【0080】
各θk(i1…,ip)(si1,…,sip)は、位置i1…,ipを有する、pアミノ酸si1,…,sipに依存する統計エネルギー貢献である。全てをあわせて、学習段階においてスカラとして算出される自由パラメータを構築する。
【0081】
上記の式は、考えられる統計的エネルギーの網羅的な定式化として考慮されるものではない。例えば、統計的エネルギーは、代替として、以下の多変量線形関数として定義してもよい。
【0082】
【数2】
【0083】
この式は、例えば、複数の線形にシーケンスを揃える必要がなく、使用することができる(上述の定義を参照のこと)。
【0084】
シーケンスに依存するパラメータθに加えて、シーケンスの長さLに依存するエネルギー統計的寄与を表す項Ukが与えられる。
【0085】
また、例えば、シーケンスが特に長くない場合の統計的エネルギーを、独立した位置バイアス、つまり、上述の最初の例における式の最初の項のみで定義することができる。
【0086】
一般的に、少なくとも一つの対象とする、分子の化学的/物理的特性のスクリーニング試験時に定義済の選択に対して、パラメータを算出する。
【0087】
Tは、回数/サイクルの数である。
Cはターゲット数である。
S((t),C)は、数3の式を満たす場合はS((t),C)=1、その他の場合はS((t),C)=0として定義される関数である。
【0088】
【数3】
【0089】
スクリーニング試験を参照して、尤度は、T回の選択および増幅の接合確率として、以下の通り、定義される(数4の式)。
【0090】
【数4】
【0091】
ここで、Preg)は、定数項であり、項P((0))は、ラウンドゼロで存在するベクトルの分布を表す。その他3つの係数は、以下の定義を有する。
【0092】
読取係数P(R(t)|N(t))は、読取データのセットR={Rs(t)}を、ベクトルN={Ns(t)}の分布から抽出する確率であり、以下の式によって定義することができる。
【0093】
【数5】
【0094】
ここで、Rtot(t)は、t回目の読取データの合計数である。
【0095】
第2項は、増幅係数、つまり、t回目で選択されたn(t)ベクトルを起点として、t+1回目に増幅されたN(t+1)ベクトルを有する確率であり、以下のように定義される。
【0096】
【数6】
【0097】
第3項は、選択を指し、存在するN(t)ベクトルからn(t)ベクトルを選択する確率であり、以下のように定義される。
【0098】
【数7】
【0099】
学習段階は、既知の最適化アルゴリズムによって、後の接合確率Pを最大化するエネルギーパラメータθk(i1…,ip)(si1,…,sip)のスカラ値を探すことと、スクリーニング試験からの学習試験的データを読取データ={R(t)}に割り当てることと、を含む。
【0100】
好ましい実施形態:稀かつ決定的なリンクを伴う、2つの状態のシステムと、2つの状態の相互作用を伴う上位性効果の説明
好ましい実施形態では、2つの状態のみ、つまり、選択および非選択状態(例えば、ターゲットと紐づいている、または紐づいていない)を考えることができる。さらに、結合分子は稀な現象であるという前提のもと、確率を1よりもはるかに低いとする。
【0101】
さらなる仮定として、ターゲットC→∞の無限数をおく。この近似は、ターゲットの数が、スクリーニング試験で存在したベクトル数をはるかに上回る場合に、現実に即したものとなっている。この条件は、試験の大部分において検証される。
【0102】
こうした場合には、状態指数kが除去される。これは、k-1の統計的エネルギーが存在し、この場合、状態は2つであるためである。
【0103】
(t)をt回目でシーケンスsに結合するベクトルの数であるとする。こうした仮定のもと、上述した3つの係数は、以下のように簡略化される。
【0104】
数8の式とすると、読取データ係数P(R(t)|N(t))は限定される。増幅係数は、以下の通り(数9)である。
【0105】
【数8】
【0106】
【数9】
【0107】
選択係数は、以下の通りである。
【0108】
【数10】
【0109】
ここで、Pは、シーケンスが選択される確率であり、以下のように定義される。
【0110】
【数11】
【0111】
以下の数12とすると、以下の数13であると推定することができる。
【0112】
【数12】
【0113】
【数13】
【0114】
本例において、エネルギーは、1つあるいは2つの位置の相互作用を伴って、パラメータ化できる。
【0115】
【数14】
【0116】
この式は、シーケンスを選択する確率とあわせて、遺伝子型-表現型マップを構築できる。ここでは、シーケンス(遺伝子型)を分子状態(表現型)にある確率と関連付ける。ここから、接合確率の対数は以下のようになる。
【0117】
【数15】
【0118】
採用した近似は、パラメータθおよびθijに対する凹面最適化問題であるLの最大化を表す。試験によって選択されたシーケンスがN(t)として割り当てられると、前述の問題を、L-BFGS最適化アルゴリズムを用いて解くことができる。
【0119】
より一般的な形式を有する尤度関数を最大化することで、パラメータθおよびθijを算出しようとする最も一般的な場合の問題の場合でも、つまり、数4の式のような場合でも、数値解析的方法で解くことができると言える。
【0120】
学習用入力データ
例えば、ディープミューテーションスキャン法、指向進化、SELEXに基づく技術等の、生物学的重合分子の変異種に対するスクリーニング試験から、入力データを得る。
【0121】
入力データは、選択回の回数をともなう生物学的シーケンス、例えば、試験で使用される変異体のアミノ酸やヌクレオチドである。
【0122】
これらは、シーケンシングデータ(例えば、fastq形式のDNA読取データ)から取得できる。
【0123】
図2で示すように、通常のバイオインフォマティクスに則った手順は、以下の表1でまとめたテストとして使用された4つのデータセットで実施された処理に相当する。
【0124】
シーケンシングは、例えば、fastq形式の、各回の読取データセットを起点とするDNAフィラメントを含み、手順には、以下の工程が含まれる。
・読取データをフィルタリングして、シーケンシング品質が低いものや、順方向および逆方向読取データが一致しないものを探す。
・アミノ酸シーケンスのヌクレオチドシーケンスを変換し、停止コドンを有するシーケンスを除外する。
・各回において、シーケンス数を数える。
・シーケンスをフィルタリングして、様々な回において、発生合計数が10未満のものを探す。
【0125】
確率モデルの学習
この工程は、上述のように、上記選択係数の、少なくとも一つの統計エネルギー関数のパラメータ関数として、尤度関数を最大化する問題を数字的に解決するものである。ここで得られたパラメータの最適値は、セット特性、または、モデルに入力する学習シーケンスセットであり、これら学習シーケンスが修正されると、変化する。
【0126】
統計エネルギー関数のパラメータの使用
したがって、上述の確率論は、選択の試験および変異体生物学的シーケンスの強化に由来するシーケンシングデータライブラリを分析し、少なくとも一つの入力変異体生物学的シーケンスを評価し、割り当てられた化学的/物理的特性に対して最良のものを選択することを目的としている。この特性は、統計エネルギー関数、または、学習段階で算出された統計エネルギー関数のそれぞれのエネルギーパラメータによって定義された、統計的エネルギーの組合わせによって、許容分子状態で定量化される。
【0127】
続いて、これらパラメータを起点として、対象とする化学的/物理的特性を有する生物学的シーケンスのライブラリの作成が可能となる。
【0128】
モデルは、その後、以下の用途に適用できる。
・変異体を評価し、最良の変異体を所定の特性に基づいて選択すること。特に、一度、上述のようにエネルギーパラメータを定めてしまえば、これらのパラメータを利用して、入力シーケンス、例えば、限定はされないが、新たなシーケンス、つまり、学習工程でしようしたシーケンスには属さないシーケンスに関する、少なくとも一つの統計エネルギー関数を算出することができる。尤度関数を最大化することで、相対エネルギーパラメータが算出されると、統計的エネルギーθも、事実上、未知数が生物学的シーケンスである関数である。エネルギー関数のそれぞれが、選択試験時に観察された、関連する分子状態に関連付けられ、それにより、分子状態が表す所望の化学的/物理的特性と関連付けられたシーケンスのスコアを得ることができる。
・生物学的シーケンス、例えば、所定の化学的/物理的特性を有するタンパク質のライブラリを作成し、統計的エネルギーの最適化された関数によって特徴付けられるシーケンスセットを推定する。
【0129】
変異体評価
好ましい実施形態に係る当該方法において、所定の生物学的シーケンス(アミノ酸またはヌクレオチド)のスコアが、関連するコード化されたタンパク質の特性または活性に関連して、算出される。評価対象の生物学的シーケンスは、学習データ(図2の右側のボックスにおける1列目)、または、学習モデルで使用されていないデータを有する、その他試験(図2の右側のボックスにおける2列目)から取得することが出来る。
【0130】
上記のように定式化された2つの状態の構造(例えば、リンクの有無)において、スコアは、例えば、統計的エネルギー自体によって、識別される。
【0131】
【数16】
【0132】
3つの状態を有する実施形態(例えば、結合、非結合、フォールディング、非フォールディング等)においては、スコアΦを、以下のような結合状態Eおよびフォールディング状態Eのエネルギーの組合わせとして、定義できる。
【0133】
【数17】
【0134】
入力変異体のシーケンスに関連する統計的エネルギーのパラメータを選択し、2つの状態の場合では、上述の統計エネルギー関数の式に相当するスコアの式を適用する。これにより、スコアが容易に算出される。
【0135】
特に、上述の3つの状態のスコアの値が高い場合、所定の試験において、関連する分子が結合かつフォールディング状態にある確率が高いことを意味する。一方、スコアが統計的エネルギーと同一と定義された場合、低い値は、結合状態にある可能性が高いことを意味する。
【0136】
1つ以上の最適なシーケンスの作成
好ましい実施形態に係る当該方法において、モデルのスコア関数Φsを最大化するシーケンスを作成できる。このスコア関数は、一般的に、各想定される状態kのエネルギー関数E(s)を起点に、定義される。
【0137】
割り当てられたスコア関数Φsを絶対的あるいは想定的に最大化するシーケンスのアルゴリズム検索により、最適なスコアを有するシーケンスが作成される。これに対する効率的なアルゴリズムは、アニーリング、標準的な最適化アルゴリズムによってシミュレーションされる。
【0138】
好ましい実施形態によれば、データは、タンパク質ディスプレイ技術の一つを使用したDMS試験から由来する(参照:Fowler, Douglas M., and Stanley Fields. “Deep mutational scanning: a new style of protein science.” Nature methods 11.8, p.801, 2014年.)。
【0139】
さらなる好ましい実施形態によれば、特定の分子のターゲット、好ましくは、ペプチドまたはタンパク質を効果的に結合するタンパク変種を選択することを目的とした、DMSおよび指向進化(DE)試験からデータをとる。当該方法は、分析されたもののなかから、最も選択的なタンパク変種を選択することを目的としている。
【0140】
さらなる好ましい実施形態によれば、特定の分子のターゲット、好ましくは、ペプチドまたはタンパク質を効果的に結合するタンパク変種を選択することを目的とした、DMSおよびDE試験からデータをとる。当該方法は、分子のターゲットに対して、より選択的なタンパク質の変異種のライブラリを作成することを目的としている。
【0141】
さらなる好ましい実施形態によれば、特定の触媒作用を効果的に実施するタンパク変種を選択することを目的とした、DMSおよびDE試験からデータをとる。本発明に係る方法は、酵素触媒作用において、より活性度の高いタンパク変種のライブラリを作成することを目的としている。
【0142】
さらなる好ましい実施形態によれば、特定の触媒作用を効果的に実施するタンパク変種を選択することを目的とした、DMSおよびDE試験からデータをとる。本発明に係る方法は、ライブラリから、酵素触媒作用において、より活性度の高いタンパク変種を選択することを目的としている。
【0143】
さらなる好ましい実施形態によれば、最適な発光を効果的に実現するタンパク変種を選択することを目的とした、DMSおよびDE試験からデータをとる。本発明に係る方法は、ライブラリから、最も発光する変異種を選択することを目的としている。
【0144】
さらなる好ましい実施形態によれば、高温で活性度の高いタンパク変種を選択することを目的とした、DMSおよびDE試験からデータをとる。本発明に係る方法は、ライブラリから、最も耐熱性の高い変異種を選択することを目的としている。
【0145】
好ましい実施形態によれば、SELEX試験または当業者にとっては既知の、SELEX試験に基づいた技術から、データをとる。これに限定されないが、Zhuo Z他, “Recent Advances in SELEX Technology and Aptamer Applications in Biomedicine”, Int J Mol Sci. Vol. 18, No. 10, 2017年10月14日、を参照されたい。
【0146】
さらなる好ましい実施形態によれば、特定の分子ターゲットを効果的に結合するアプタマーを選択することを目的とした、SELEX試験またはそれに基づいた技術から、データをとる。当該方法は、分析されたもののなかから、最も選択的なアプタマーを選択することを目的としている。
【0147】
さらなる好ましい実施形態によれば、特定の分子ターゲットを効果的に結合するアプタマーを選択することを目的とした、SELEX試験またはそれに基づいた技術から、データをとる。当該方法は、分子ターゲットに対する、最も選択的なアプタマー変異種のライブラリを作成することを目的としている。
【0148】
さらなる好ましい実施形態によれば、当該方法は、いわゆる「機械学習支援指向進化」プロセスに適用される。したがって、本実施形態において、当該方法は、1回以上の指向性進化から得たデータで学習をし、機械学習支援指向進化と呼ばれるスキームに則って、変化対象であり、かつ、後続の指向性進化で試験対象となるタンパク変種を効果的に作成するのに適用される。
【0149】
したがって、本発明の方法は、効果的かつ信頼性の高い方法であって、DMS、DE、または、SELEXに基づく技術の試験で得たタンパク質またはヌクレオチドシーケンスのライブラリに対する、コンピュータによるシミュレーションを利用したスクリーニングと、所望の特性を有する変異体の選択とを実現する。また、本発明の方法によれば、これらの試験に由来するデータを利用可能であり、これにより、分子の化学的/物理的特性を伴う、高効率シーケンスのライブラリを得ることができる。ここで、高効率とは、例えば、高触媒キャパシティ、高フィット性、特定の分子ターゲットを結合する高い性能などを意味する。
【0150】
本発明に係る方法は、一般的に、少なくとも一つの選択サイクルをともなう、全ての種類のDMSまたはDE試験に適用することができる。
【0151】
本発明に係る方法は、一般的に、全ての種類のHTS-SELEX(ハイスループットシーケンシングSELEX)試験および少なくとも一つの選択サイクルを伴う試験に基づく技術に適用することができる。
【実施例
【0152】
以下の実施例は、本発明を例示するものであり、相対的に範囲を限定するものではない。
【0153】
以下に簡単に記載した、4つのDMS試験に由来するデータを伴う方法の成果を報告するとともに、その特性を、以下にまとめた。
【0154】
【表1】
【0155】
実施例1.ファージディスプレイによって実施されたDMS試験に由来するデータを基にした、変異体抗体結合の選択度における予測
S. Boyer他. “Hierarchy and extremes in selections from pools of randomized proteins.” PNAS(2016年)におけるデータをもとに、モデルを試験した。
【0156】
ここで報告されるDMS試験は、抗体ライブラリ、中性合成ポリマーとの結合、およびポリビニルピロリドン(PVP)の分析を目的としたものである。この場合、ファージディスプレイ技術を利用した増幅および選択を3回行うことで、当該試験を実施した。初期ライブラリは、補完3(CDR3)を決定する領域の4つの連続アミノ酸に基づいて、対PVP抗体の飽和変異誘発により作成された。
【0157】
実施例2.ファージディスプレイによって実施されたDMS試験に由来するデータを基にした、hYAP65タンパク質のWWドメイン変異体の結合選択度における予測
D.M. Fowler他. “High-resolution mapping of protein sequence-function relationships.” Nature methods(2010年)におけるデータをもとに、モデルを試験した。
【0158】
ここで報告されるDMS試験は、ペプチドリガンド(GTPPPPYTVG)を結合するよう選択されたWWドメイン変異体のライブラリを分析することを目的としている。ファージディスプレイ技術を利用した増幅と選択を6回、シーケンシングを3回行うことで、当該試験を実施した(0.3,6)。初期ライブラリは、「添加オリゴヌクレオチド合成」技術によって作成された。
【0159】
実施例3.ファージディスプレイによって実施されたDMS試験に由来するデータを基にした、hYAP65タンパク質のWWドメイン変異体の結合選択度における予測
C.L. Araya他. “A fundamental protein property, thermodynamic stability, revealed solely from large-scale measurements of protein function.” PNAS(2012)におけるデータをもとに、モデルを試験した。
【0160】
ここで報告されるDMS試験は、ペプチドリガンドを結合するよう選択されたWWドメイン変異体のライブラリを分析することを目的としている。この場合、ファージディスプレイ技術を利用した増幅と選択を4回行うことで、当該試験を実施した。初期ライブラリは、「添加ヌクレオチドプール」をともなうDNAの化学合成により作成された。
【0161】
実施例4.mRNAディスプレイによって実施されたDMS試験に由来するデータを基にした、Gタンパク質の免疫グロブリンG(IgG)の結合ドメイン(タンパク質GのIgG結合ドメイン)(GB1)を有する変異体の結合選択度における予測
C. Olson他. “A comprehensive biophysical description of pairwise epistasis throughout an entire protein domain.” Current Biology(2014年)におけるデータをもとに、モデルを試験した。。
【0162】
ここで報告されるDMS試験は、IgG-FCと結合するよう選択されたGB1タンパク質の変異体のライブラリを分析することを目的としている。この場合、mRNAディスプレイを利用した増幅および選択を1回行うことで、当該試験を実施した。初期ライブラリは、飽和変異誘発技術により作成された。
【0163】
試験形式
これらの試験から得たデータセットを、ランダムに、モデル用学習セットと、モデルの統計的結合エネルギーおよび、結合され、次回で選択される変異体の機能の試験的測定の比較がなされたテストセットと、に分割した。変異体の選択度の測定は、1回のシーケンスの発現頻度の割合として定義され、その次の連続する2回にわたってのシーケンスの発現頻度の平均を分母とする。シーケンスsの選択度を以下のように式で表した。
【0164】
【数18】
【0165】
ここで、fs(t)は、t回目の試験時におけるシーケンスsの頻度であり、Tは、回数の合計である(図4図5図6)。
【0166】
当該方法の実施形態は、希少かつ決定的な結合の2つの状態のシステムに関する説明、および2つの状態の相互作用の上位性効果に関する説明で記載したとおりである。
図1
図2
図3
図4
図5
図6
【国際調査報告】