IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピーセルの特許一覧

特許7425056拡張数値配列を介してタンパク質の少なくとも1つの適応度の値を予測するための方法および電子システム、関係するコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-22
(45)【発行日】2024-01-30
(54)【発明の名称】拡張数値配列を介してタンパク質の少なくとも1つの適応度の値を予測するための方法および電子システム、関係するコンピュータプログラム
(51)【国際特許分類】
   G16B 20/50 20190101AFI20240123BHJP
【FI】
G16B20/50
【請求項の数】 17
(21)【出願番号】P 2021525372
(86)(22)【出願日】2019-07-18
(65)【公表番号】
(43)【公表日】2021-11-25
(86)【国際出願番号】 EP2019069389
(87)【国際公開番号】W WO2020016365
(87)【国際公開日】2020-01-23
【審査請求日】2022-05-25
(31)【優先権主張番号】18305994.8
(32)【優先日】2018-07-20
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】521028349
【氏名又は名称】ピーセル
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】グザヴィエ・カデ
(72)【発明者】
【氏名】ニコラ・フォンテーヌ
【審査官】鈴木 和樹
(56)【参考文献】
【文献】特表2018-517219(JP,A)
【文献】米国特許出願公開第2004/0029126(US,A1)
【文献】国際公開第2008/129458(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
タンパク質の少なくとも1つの適応度の値を予測するための方法であって、前記方法は、コンピュータ上で実施され、
- Q個の基本数値配列を計算するステップ(100)であって、Qが2以上の整数であり、各基本数値配列が、タンパク質データベース(21)による、前記タンパク質のアミノ酸配列のそれぞれのコード化に依存する、ステップと、
- 前記Q個の基本数値配列を連結することによって拡張数値配列(Ext_SEQ)を決定するステップ(110)であって、前記決定するステップ(110)の間、前記基本数値配列が、前記拡張数値配列(Ext_SEQ)を決定するための連結パターンに従って連結され、参照拡張数値配列が、同じ連結パターンを用いて取得されている、ステップと、
適応度ごとに、
- 前記決定された拡張数値配列(Ext_SEQ)を所定のデータベース(25)の前記参照拡張数値配列と比較するステップ(130)であって、前記所定のデータベース(25)が、前記適応度の様々な値に対する参照拡張数値配列を含み、前記比較するステップ(130)が、前記適応度の様々な値に対する参照拡張数値配列の前記所定のデータベース(25)の中で、前記決定された拡張数値配列(Ext_SEQ)に所定の基準に従って最も近い前記参照拡張数値配列を識別するステップを含み、前記適応度の予測値が、前記識別された参照拡張数値配列に前記データベースの中で関連付けられている前記適応度の値に等しい、ステップと、
- 前記比較するステップに従って前記適応度の値を予測するステップ(130)と
を含み、
前記タンパク質データベース(21)が数値の少なくとも1つのインデックスを含み、各数値がそれぞれのアミノ酸に対して与えられ、
前記タンパク質の前記アミノ酸配列の各コード化が、それぞれのインデックスに対して実行され、アミノ酸ごとの数値配列の中の値が、前記それぞれのインデックスにおける、前記数値または前記アミノ酸に対する前記数値に等しい、
方法。
【請求項2】
少なくとも1つの基本数値配列が基本タンパク質スペクトルであり、前記基本タンパク質スペクトルが、中間数値配列にフーリエ変換を適用することによって取得され、前記中間数値配列が、前記タンパク質の前記アミノ酸配列のそれぞれのコード化によって取得される、
請求項1に記載の方法。
【請求項3】
前記フーリエ変換が、高速フーリエ変換である、
請求項2に記載の方法。
【請求項4】
少なくとも1つの基本タンパク質スペクトルが、1つまたは複数の周波数の所与のセットに従って前記アミノ酸配列に対して計算される、
請求項2または3に記載の方法。
【請求項5】
各基本タンパク質スペクトルが、
【数1】
に依存し、ここで、jが前記基本タンパク質スペクトルfjのインデックス番号であり、
前記中間数値配列がxkと示されるN個の値を含み、0≦k≦N-1かつN≧1であり、
iが、i2=-1となるような虚数を規定する、
請求項2から4のいずれか一項に記載の方法。
【請求項6】
すべての前記基本数値配列が互いに別個である、請求項1から5のいずれか一項に記載の方法。
【請求項7】
基本数値配列のペアの間で、前記ペアのうちの一方の基本数値配列のみに対する前記フーリエ変換の前記適用に加えて、かつ/または前記ペアのうちの他方の基本数値配列とは異なる、一方の基本数値配列からのインデックスに加えて、前記一方の基本数値配列が前記他方の基本数値配列とは異なる、請求項2に記載の方法。
【請求項8】
前記タンパク質データベース(21)が数値のいくつかのインデックスを含み、
前記方法が、
- 各インデックスに従って試料タンパク質に対してあらかじめ取得された予測適応度値との、前記試料タンパク質に対する測定適応度値の比較に基づいて、最良インデックスを選択するステップ(100)
をさらに含み、
前記タンパク質の前記アミノ酸配列の少なくとも1つのコード化が、それぞれの選択されたインデックスを使用して実行される、
請求項1または7に記載の方法。
【請求項9】
前記選択するステップの間、前記選択されたインデックスが、2乗平均平方根誤差が最小のインデックスであり、
インデックスごとの前記2乗平均平方根誤差が、
【数2】
を満たし、ここで、yiが、第iの試料タンパク質の測定適応度であり、
【数3】
が、第jのインデックスを有する前記第iの試料タンパク質の予測適応度であり、
Sが、試料タンパク質の個数である、
請求項8に記載の方法。
【請求項10】
前記選択するステップの間、前記選択されたインデックスが、1に最も近い決定係数を有するインデックスであり、
インデックスごとの前記決定係数が、
【数4】
を満たし、ここで、yiが、第iの試料タンパク質の測定適応度であり、
【数5】
が、第jのインデックスを有する前記第iの試料タンパク質の予測適応度であり、
Sが、試料タンパク質の個数であり、
【数6】
が、前記S個の試料タンパク質に対する前記測定適応度の平均であり、
【数7】
が、前記S個の試料タンパク質に対する前記予測適応度の平均である、
請求項8に記載の方法。
【請求項11】
前記連結パターンが、連結されるべき前記基本数値配列の継続からの基本数値配列ごとに、それぞれのインデックス、および前記フーリエ変換の前記適用か否かを規定する、請求項2に記載の方法。
【請求項12】
前記タンパク質データベース(21)が、別個のカテゴリーに分類されたいくつかのインデックスを含み、
前記連結パターンが、少なくとも2つのカテゴリーからのインデックスを含む、
請求項1または11に記載の方法。
【請求項13】
各カテゴリーが、タンパク質特徴に関連するファミリーである、
請求項12に記載の方法。
【請求項14】
前記タンパク質特徴が、アルファおよびターン傾向、ベータ傾向、組成、疎水性、物理化学的特性、ならびに他のタンパク質特性からなるグループの中から選ばれる、
請求項13に記載の方法。
【請求項15】
各カテゴリーが、インデックスのクラスタであり、前記クラスタが、前記インデックスの統計的特徴に従って取得される、
請求項12に記載の方法。
【請求項16】
コンピュータによって実行されるとき、請求項1から15のいずれか一項に記載の方法を実施するソフトウェア命令を含むコンピュータプログラムを記憶したコンピュータ可読記憶媒体。
【請求項17】
タンパク質の少なくとも1つの適応度の値を予測するための電子予測システム(10)であって、
- Q個の基本数値配列を計算するために構成された計算モジュール(20)であって、Qが2以上の整数であり、各基本数値配列が、タンパク質データベース(21)による、前記タンパク質のアミノ酸配列のそれぞれのコード化に依存する、計算モジュール(20)と、
- 前記Q個の基本数値配列を連結することによって拡張数値配列(Ext_SEQ)を決定するために構成された決定モジュール(22)であって、前記決定の間、前記基本数値配列が、前記拡張数値配列(Ext_SEQ)を決定するための連結パターンに従って連結され、参照拡張数値配列が、同じ連結パターンを用いて取得されている、決定モジュール(22)と、
- 適応度ごとに、
+ 前記決定された拡張数値配列(Ext_SEQ)を所定のデータベース(25)の前記参照拡張数値配列と比較することであって、前記所定のデータベース(25)が、前記適応度の様々な値に対する参照拡張数値配列を含み、前記適応度の様々な値に対する参照拡張数値配列の前記所定のデータベース(25)の中で、前記決定された拡張数値配列(Ext_SEQ)に所定の基準に従って最も近い前記参照拡張数値配列を識別することを含み、前記適応度の予測値が、前記識別された参照拡張数値配列に前記データベースの中で関連付けられている前記適応度の値に等しい、比較すること、および
+ 前記比較に従って前記適応度の値を予測すること
を行うために構成された予測モジュール(26)と
を含み、
前記タンパク質データベース(21)が数値の少なくとも1つのインデックスを含み、各数値がそれぞれのアミノ酸に対して与えられ、
前記タンパク質の前記アミノ酸配列の各コード化が、それぞれのインデックスに対して実行され、アミノ酸ごとの数値配列の中の値が、前記それぞれのインデックスにおける、前記数値または前記アミノ酸に対する前記数値に等しい、
電子予測システム(10)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、タンパク質の少なくとも1つの適応度の値を予測するための方法および関係する電子システムに関し、タンパク質はアミノ酸配列を備える。本発明はまた、コンピュータによって実行されるとき、そのような方法を実施するソフトウェア命令を含むコンピュータプログラムに関する。
【背景技術】
【0002】
タンパク質は、アミノ酸配列の少なくとも1つの連鎖からなる生物学的な分子である。タンパク質は主に、アミノ酸のそれらの配列が互いに異なり、配列間の差異は「突然変異」と呼ばれる。
【0003】
タンパク質工学の究極の目標のうちの1つは、所望の特性(「適応度」と総称される)を有するペプチド、酵素、タンパク質、またはアミノ酸配列の設計および構成である。人工アミノ酸置換、アミノ酸またはアミノ酸のブロックの欠失または挿入を用いた修飾アミノ酸配列(キメラタンパク質)(すなわち、「突然変異体」)の構成は、適応度における任意の特定のアミノ酸の役割の評価、およびタンパク質構造とタンパク質の適応度との間の関係の理解を可能にする。
【0004】
定量的構造機能/適応度関係分析の主な目的は、タンパク質の適応度に対するタンパク質の構造の変化の影響を詳細に調べ数学的に表すことである。突然変異の影響は、様々なアミノ酸の物理化学的な特性および他の分子的な特性に関係し、統計分析を用いて取り組むことができる。
【0005】
適応度状況を探求すること、n個の単一点置換のすべての可能な組合せ(並べ替え)を詳細に調べることは、極めて困難な作業である。確かに、突然変異体の個数は極めて急速に増大する(表1)。
【0006】
【表1】
【0007】
特にnが増大するとき、すべての可能な突然変異体を探求することは経験的に困難である。実際には、ウェットラボ(wet lab)の中で単一点置換を用いて突然変異体を生み出すことは非常に容易かつ安価である。それらの各々に対して、適応度は容易に特徴づけることができる。
【0008】
しかし、単一点置換を組み合わせることは、ウェットラボの中ではあまり容易ではない。標的となるn個の単一点置換のすべての可能な(>=2n)組合せを生成することは、極めて緻密な作業でありコストがかかることがある。大規模に適応度を評価することは問題がある。
【0009】
タンパク質の指向性進化のプロセスを支援するために、混合されたインビトロ(in vitro)およびインシリコ(in silico)の手法が開発されている。それらは、個数が限定された試料の配列および/または構造を(「学習データセット」と呼ばれる)ライブラリから取り出すために、かつサンプリングされた各突然変異体の適応度を評価するために、(部位特異的突然変異誘発、ランダム突然変異誘発、または組合せ突然変異誘発による)突然変異体のライブラリを構成することを、ウェットラボから必要とする。それらは、デスクリプタと適応度との間の関係を確立する(学習フェーズ)ための多変量統計的方法を使用するために、かつ実験的にはテストされない突然変異体に対する予測を行うためのモデルを確立するために、突然変異体ごとにデスクリプタを抽出することを、インシリコからさらに必要とする。
【0010】
定量的構造機能関係(QFSR:Quantitative structure-function relationship)と呼ばれる、3D構造に基づく方法が提案されている(Damborsky J、Prot. Eng.(1998年)1月、11(1):21-30)。3D構造ではなく配列のみに基づき、かつ統計的モデリングを使用するインシリコ合理的スクリーニングを実行する、他の方法が提案された(Fox R.ら、Protein Eng.(2003年)、16(8):589-97、Fox R.、Journal of Theoretical Biology(2005年)、234:187-199、Minshull J.ら、Curr Opin Chem Biol.、2005年4月、9(2):202-9、Fox R.ら、Nature Biotechnology(2007年)、25(3):338-344、Fox R.およびHuisman、GWTrends Biotechnol.、2008年3月、26(3):132-8)。最も知られているのはバイナリコード化(0または1)に基づくProSARである(Fox R.、Journal of Theoretical Biology(2005年)、234:187-199、Fox R.ら、Nature Biotechnology(2007年)、25(3):338-344)。
【0011】
QSFR方法は効率的であり、非変異体残基との可能な相互作用についての情報を考慮に入れる。しかしながら、QSFRは、依然として現在は限定されている3Dタンパク質構造についての情報を必要とし、その方法はさらに緩慢である。
【0012】
比較してみると、ProSARは、1次配列のみに基づいて算出され、かつ線形モデルおよび非線形モデルを使用できるので、3D構造の知識を必要としない。しかしながら、ProSARは依然として欠点に悩まされ、スクリーニングのProSARの容量は限定される。詳細には、変異を受けるそれらの残基のみがモデリングの中に含められ、結果として、突然変異した残基と他の非変異体残基との間の可能な相互作用についての情報が失われる。ProSARは、アミノ酸の物理化学的な特性または他の分子的な特性を考慮に入れない、突然変異のバイナリコード化(0または1)に依拠する。追加として、(i)テストされ得る新たな配列は、モデルを構築するために使用される学習セットの中で使用された位置において、突然変異または突然変異の組合せを有する配列だけであり、(ii)スクリーニングされるべき新たな配列の中の突然変異の位置の数は、訓練セットの中の突然変異の個数と異なることがなく、(iii)モデルを構築するために非線形項を導入するときの計算時間は、スーパーコンピュータ上で極めて長い(100個の非線形項にとって最高2週間)。
【0013】
タンパク質の指向性進化のプロセスにおいて助けとなるべき多用途かつ高速のインシリコ手法が、それゆえ依然として必要とされる。本発明は、これらの要件を満たすとともにデジタル信号処理(DSP)に基づく方法を提供する。
【0014】
デジタル信号処理技法は、信号の中に埋め込まれた情報を明らかにするために信号を分解および処理する分析手順である。信号は、連続的(終わりがない)であってもよく、またはタンパク質残基のような離散的であってもよい。タンパク質では、バイオシーケンス(DNAおよびタンパク質)比較、タンパク質ファミリーの特徴づけおよびパターン認識、対称性および反復する構造単位またはパターンの分析などの分類および他の構造ベースの研究、2次/3次構造予測の予測、疎水性コアの予測、モチーフ、保存ドメイン、膜タンパク質の予測、保存領域の予測、タンパク質細胞内位置の予測のために、アミノ酸配列の中の2次構造内容の研究のために、かつタンパク質における周期性の検出のために、フーリエ変換法が使用されている。つい最近では、タンパク質構造の中のソレノイドドメインの検出のための新たな方法が提案された。
【0015】
デジタル信号処理技法は、タンパク質相互作用を分析する助けとなっており(Cosic I.、IEEE Trans Biomed Eng.(1994年)、41(12):1101-14)、生物学的な機能性を計算可能にさせている。これらの研究は、Nwankwo N.およびSeker H.(J Proteomics Bioinform(2011年)、4(12):260-268)の中で詳細に検討されている。
【0016】
これらの手法では、アミノ酸ごとに生化学的な特性または物理化学的なパラメータを表す、データベースAAindex(Kawashima, S.およびKanehisa, M.、Nucleic Acids Res.(2000年)、28(1):374、Kawashima, S.ら、Nucleic Acids Res.、2008年1月; 36)からの利用可能なAAindexのうちの1つを使用して、タンパク質残基が最初に数値配列に変換される。これらの数値配列は、次いで、情報スペクトルの形態でタンパク質の生物学的な特性を提示するために、離散フーリエ変換(DFT)によって処理される。この手順は情報スペクトル法(ISM:Informational Spectrum Method)と呼ばれる(Veljkovic Vら、IEEE Trans Biomed Eng.、1985年5月、32(5):337-41)。ISM手順は、カルシウム結合タンパク質(Viari Aら、Comput Appl Biosci.、1990年4月、6(2):71-80)およびインフルエンザウイルス(Veljkovic V.ら、BMC Struct Biol.、2009年4月7日、9:21、Veljkovic V.ら、BMC Struct Biol.、2009年9月28日、9:62)の中の主要な配置を詳細に調べるために使用されている。
【0017】
電子イオン相互作用ポテンシャル(EIIP:Electron-Ion Interaction Potential)と呼ばれるアミノ酸パラメータを用いるISMの変形態が、共鳴認識モデル(RRM:Resonant Recognition Model)として参照される。この手順では、生物学的な機能性がスペクトル特性として提示される。この物理数学的なプロセスは、同じ生物学的特性を有する生体分子が、それらの価電子が発振し、次いで、電磁場の中で反響するときに、それら自体を認識するとともにそれら自体にバイオアタック(bio-attach)するという事実に基づく(Cosic I.、IEEE Trans Biomed Eng.(1994年)、41(12):1101-14、Cosic I.、The Resonant Recognition Model of Macromolecular Bioactivity Birkhauser Verlag、1997年)。
【0018】
共鳴認識モデルは4つのステップを伴う(Nwankwo N.およびSeker H.、J Proteomics Bioinform(2011年)、4(12): 260-268を参照)。
- ステップ1:電子イオン相互作用ポテンシャル(EIIP)パラメータの数値へのタンパク質残基の変換。
- ステップ2:ゼロパディング/アップサンプリング。信号処理は、すべてのタンパク質のウィンドウ長が同じであることを必要とするので、このプロセスは、任意の位置において、分析されるべきタンパク質の配列の中のギャップを満たすためにゼロパディングを使用する。
- ステップ3:高速フーリエ変換(FFT)を使用してスペクトル特性(SC:Spectral Characteristic)を与えるとともに、ステップ4の間に点別乗算されて相互スペクトル(CS:Cross Spectral)特徴を生成する、数値配列の処理。
- ステップ4:相互スペクトル分析:相互スペクトル(CS)分析は、スペクトル特性(SC)の点別乗算を表す。
【0019】
したがって、たとえば、リガンドスペクトルと受容体スペクトルとの間の共通周波数(共鳴)に基づいてリガンド受容体結合を予測するために、CS分析が定性的に使用されている。別の例は、Ha-ras p21タンパク質配列にRRMを適用することによって、rasのような活動度か否かを、すなわち、細胞を変換するための能力か否かを予測することである。
【0020】
これらの従来技術の方法によって提供される情報は有用であるが、しかしながら、指向性進化によって生成される最も有益なタンパク質突然変異体を特定するのに不十分である。
【0021】
WO2016/166253 A1は、タンパク質スペクトルに基づいてタンパク質の少なくとも1つの適応度の値を予測するための方法および関係する電子システムを開示し、タンパク質スペクトルは、たとえば、タンパク質のアミノ酸配列をコード化することに加えて取得される数値配列に適用される、高速フーリエ変換などのフーリエ変換である。
【0022】
この最新の方法によって提供される結果は、他の従来技術の方法によって提供される結果よりも良好である。
【0023】
しかしながら、この方法によって予測されるタンパク質適応度値の確度は、さらに改善され得る。
【先行技術文献】
【特許文献】
【0024】
【文献】国際公開第2016/166253号
【非特許文献】
【0025】
【文献】Damborsky J、Prot. Eng.(1998年)1月、11(1):21-30
【文献】Fox R.ら、Protein Eng.(2003年)、16(8):589-97
【文献】Fox R.、Journal of Theoretical Biology(2005年)、234:187-199
【文献】Minshull J.ら、Curr Opin Chem Biol.、2005年4月、9(2):202-9
【文献】Fox R.ら、Nature Biotechnology(2007年)、25(3):338-344
【文献】Fox R.およびHuisman GW、Trends Biotechnol.、2008年3月、26(3):132-8
【文献】Cosic I.、IEEE Trans Biomed Eng.(1994年)、41(12):1101-14
【文献】Nwankwo N.およびSeker H.、J Proteomics Bioinform(2011年)、4(12):260-268
【文献】Kawashima, S.およびKanehisa, M.、Nucleic Acids Res.(2000年)、28(1):374
【文献】Kawashima, S.ら、Nucleic Acids Res.、2008年1月; 36
【文献】Veljkovic Vら、IEEE Trans Biomed Eng.、1985年5月、32(5):337-41
【文献】Viari Aら、Comput Appl Biosci.、1990年4月、6(2):71-80
【文献】Veljkovic V.ら、BMC Struct Biol.、2009年4月7日、9:21
【文献】Veljkovic V.ら、BMC Struct Biol.、2009年9月28日、9:62
【文献】Cosic I.、The Resonant Recognition Model of Macromolecular Bioactivity Birkhauser Verlag、1997年
【文献】http://www.genome.jp/dbget-bin/www_bfind?aaindex (version Release 9.1, Aug 06)
【文献】「An index for characterization of natural and non-natural amino acids for peptidomimetics」、Liang, G.、Liu, Y.、Shi, B.、Zhao, J.、およびZheng, J.、PloS one、8(7)、e67844、2013年
【文献】http://www.vcclab.org/lab/edragon
【文献】「Choosing SNPs using feature selection」、T. M. Phuong、Z. Lin、およびR. B. Altman、IEEE Computational Systems Bioinformatics Conference、301~309頁、2005年
【文献】「A diverse family of thermostable cytochrome P450s created by recombination of stabilizing fragments」、Li, Y.、Drummond, D. A.、Sawayama, A. M.、Snow, C. D.、Bloom, J. D.、およびArnold, F. H、2007年、Nature biotechnology、25(9)、1051
【文献】「Constructing and analyzing the fitness landscape of an experimental evolutionary process」、Reetz, M. T.、およびSanchis, J.(2008年)、ChemBioChem、9(14)、2260-2267
【文献】Iakovou, K.、Kazanis, M.、Vavayannis, A.、Bruni, G.、Romeo, M. R.、Massarelli, P.、...およびMori, T. (1999)、「Synthesis of oxypropanolamine derivatives of 3, 4-dihydro-2H-1, 4-benzoxazine, β-adrenergic affinity, inotropic, chronotropic and coronary vasodilating activities」、European journal of medicinal chemistry、34(11)、903-917
【文献】「Structure-function relationship of tumor necrosis factor (TNF) and its receptor interaction based on 3D structural analysis of a fully active TNFR1-selective TNF mutant」、Mukai Yら(J Mol Biol、2009年1月30日、385(4):1221-9)
【発明の概要】
【課題を解決するための手段】
【0026】
本発明は、したがって、タンパク質の少なくとも1つの適応度の値を予測するための方法に関し、方法は、コンピュータ上で実施され、
- Q個の基本数値配列を計算するステップであって、Qが2以上の整数であり、各基本数値配列が、タンパク質データベースによる、タンパク質のアミノ酸配列のそれぞれのコード化に依存する、ステップと、
- Q個の基本数値配列を連結することによって拡張数値配列を決定するステップと、
適応度ごとに、
- 決定された拡張数値配列を所定のデータベースの参照拡張数値配列と比較するステップであって、前記データベースが、前記適応度の様々な値に対する参照拡張数値配列を含む、ステップと、
- 比較するステップに従って前記適応度の値を予測するステップとを含む。
【0027】
本発明の他の有利な態様によれば、方法は、単独で、または技術的に可能なすべての組合せに従って取られる、以下の特徴のうちの1つまたは複数を備える。すなわち、
- 少なくとも1つの基本数値配列は基本タンパク質スペクトルであり、基本タンパク質スペクトルは、中間数値配列にフーリエ変換を適用することによって取得され、中間数値配列は、タンパク質のアミノ酸配列のそれぞれのコード化によって取得され、
フーリエ変換は、好ましくは高速フーリエ変換であり、
少なくとも1つの基本タンパク質スペクトルは、好ましくは、1つまたは複数の周波数の所与のセットに従って前記アミノ酸配列に対して計算され、
- 各基本タンパク質スペクトルは、
【0028】
【数1】
【0029】
に依存し、ここで、jは基本タンパク質スペクトルfjのインデックス番号であり、
中間数値配列は、0≦k≦N-1かつN≧1であってxkと示されるN個の値を含み、
iは、i2=-1となるような虚数を規定し、
- タンパク質データベースは数値の少なくとも1つのインデックスを含み、各数値はそれぞれのアミノ酸に対して与えられ、
タンパク質のアミノ酸配列の各コード化は、それぞれのインデックスに対して実行され、アミノ酸ごとの数値配列の中の値は、それぞれのインデックスにおける、前記アミノ酸に対する数値に等しく、
- すべての基本数値配列は互いに別個であり、
- 基本数値配列のペアの間で、ペアのうちの一方の基本数値配列のみに対するフーリエ変換の適用に加えて、かつ/またはペアのうちの他方の基本数値配列とは異なる、一方の基本数値配列からのインデックスに加えて、一方の基本数値配列が他方の基本数値配列とは異なり、
- タンパク質データベースは数値のいくつかのインデックスを含み、
方法は、
+ 各インデックスに従って試料タンパク質に対してあらかじめ取得された予測適応度値との、前記試料タンパク質に対する測定適応度値の比較に基づいて、最良インデックスを選択するステップをさらに含み、
タンパク質のアミノ酸配列の少なくとも1つのコード化が、次いで、それぞれの選択されたインデックスを使用して実行され、
- 選択するステップの間、選択されたインデックスは、2乗平均平方根誤差が最小のインデックスであり、
インデックスごとの2乗平均平方根誤差は、
【0030】
【数2】
【0031】
を満たし、ここで、yiは第iの試料タンパク質の測定適応度であり、
【数3】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは、試料タンパク質の個数であり、
- 選択するステップの間、選択されたインデックスは、1に最も近い決定係数を有するインデックスであり、
インデックスごとの決定係数は、
【0032】
【数4】
【0033】
を満たし、ここで、yiは、第iの試料タンパク質の測定適応度であり、
【数5】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは、試料タンパク質の個数であり、
【数6】
は、S個の試料タンパク質に対する測定適応度の平均であり、
【数7】
は、S個の試料タンパク質に対する予測適応度の平均であり、
- 決定するステップの間、基本数値配列は、拡張数値配列を決定するステップのための連結パターンに従って連結され、参照拡張数値配列は、同じ連結パターンを用いて取得されており、
- 連結パターンは、連結されるべき基本数値配列の継続からの基本数値配列ごとに、それぞれのインデックス、およびフーリエ変換の適用か否かを規定し、
- タンパク質データベースは、別個のカテゴリーに分類されたいくつかのインデックスを含み、連結パターンは、少なくとも2つのカテゴリーからのインデックスを含み、
各カテゴリーは、好ましくは、アルファおよびターン傾向、ベータ傾向、組成、疎水性、物理化学的特性、ならびに他のタンパク質特性からなるグループの中から選ばれたタンパク質特徴などの、タンパク質特徴に関連するファミリーであるか、または
各カテゴリーは、好ましくはインデックスのクラスタであり、クラスタは、インデックスの統計的特徴に従って取得され、
- 比較するステップは、前記適応度の様々な値に対する参照拡張数値配列の所定のデータベースの中で、決定された拡張数値配列に所定の基準に従って最も近い参照拡張数値配列を識別するステップを含み、前記適応度の予測値は、そのとき、識別された参照拡張数値配列に前記データベースの中で関連付けられている適応度の値に等しい。
【0034】
本発明はまた、コンピュータによって実行されるとき、上記で規定したような方法を実施するソフトウェア命令を含むコンピュータプログラムを記憶したコンピュータ可読記憶媒体に関する。
【0035】
本発明はまた、タンパク質の少なくとも1つの適応度の値を予測するための電子予測システムに関し、予測システムは、
- Q個の基本数値配列を計算するために構成された計算モジュールであって、Qが2以上の整数であり、各基本数値配列が、タンパク質データベースによる、タンパク質のアミノ酸配列のそれぞれのコード化に依存する、計算モジュールと、
- Q個の基本数値配列を連結することによって拡張数値配列を決定するために構成された決定モジュールと、
- 適応度ごとに、
+ 決定された拡張数値配列を所定のデータベースの参照拡張数値配列と比較することであって、前記データベースが、前記適応度の様々な値に対する参照拡張数値配列を含むこと、
+ 前記比較に従って前記適応度の値を予測すること
を行うために構成された予測モジュールとを含む。
【0036】
単に例として、また添付図面を参照しながら与えられる、以下の説明を読むと、本発明がより良く理解される。
【図面の簡単な説明】
【0037】
図1】タンパク質の少なくとも1つの適応度の値を予測するための電子予測システムの概略図であり、予測システムは、タンパク質データベースによる、タンパク質のアミノ酸配列のそれぞれのコード化に各々が依存する、Q個(Q≧2)の基本数値配列を計算するための計算モジュールと、Q個の基本数値配列を連結することによって拡張数値配列を決定するための決定モジュールと、各適応度の少なくとも1つの値を予測するために構成された予測モジュールとを含む。
図2】本発明による、タンパク質の少なくとも1つの適応度の値を予測するための予測方法の概略フローチャートである。
図3】従来技術の予測方法を用いた、縦座標が予測値に対応し横座標が測定値に対応して各点がそれぞれのタンパク質に関係する、シトクロムP450ファミリーのタンパク質のセットに対する熱安定性の予測値および測定値を示す点のセットを示す図である。
図4】本発明による予測方法を用いた、図3のものと類似の図である。
図5】従来技術の予測方法を用いた、GLP2突然変異体のセットに対する有効性の予測値および測定値を示す、図3のものと類似の図である。
図6】本発明による予測方法を用いた、図5のものと類似の図である。
図7】従来技術の予測方法を用いた、エポキシド加水分解酵素ファミリーのタンパク質のセットに対するエナンチオ選択性の予測値および測定値を示す、図3のものと類似の図である。
図8】従来技術の予測方法を用いた、エポキシド加水分解酵素ファミリーのタンパク質のセットに対するエナンチオ選択性の予測値および測定値を示す、図3のものと類似の図である。
図9】本発明による予測方法を用いた、図7および図8のものと類似の図である。
図10】従来技術の予測方法を用いた、TNF突然変異体のセットに対する結合親和性の予測値および測定値を示す、図3のものと類似の図である。
図11】本発明による予測方法を用いた、図10のものと類似の図である。
図12】基本数値配列へのタンパク質のアミノ酸配列のコード化のために使用されるそれぞれのコード化インデックスの他の例に対する、図4のものと類似の図である。
図13】基本数値配列へのタンパク質のアミノ酸配列のコード化のために使用されるそれぞれのコード化インデックスの他の例に対する、図4のものと類似の図である。
図14】基本数値配列へのタンパク質のアミノ酸配列のコード化のために使用されるそれぞれのコード化インデックスの他の例に対する、図4のものと類似の図である。
図15】インデックスの様々なカテゴリーから発行されるそれぞれのコード化インデックスの別の例に対する、図6のものと類似の図である。
図16】インデックスの様々なクラスタから発行されるそれぞれのコード化インデックスの別の例に対する、図11のものと類似の図である。
図17図16の例において使用されるインデックスの様々なクラスタを示す図である。
図18】それぞれのコード化インデックスの別の例に対する、図11のものと類似の図である。
図19】第1のコード化インデックスに対する、従来技術の予測方法を用いた、図10のものと類似の図である。
図20】第2のコード化インデックスに対する、従来技術の予測方法を用いた、図10のものと類似の図である。
図21図19および図20の第1および第2のコード化インデックスを使用する、本発明による予測方法を用いた、図11のものと類似の図である。
図22】周波数またはハーモニクスの所与のセットに対する基本タンパク質スペクトルを使用する、本発明による予測方法を用いた、図3のものと類似の図である。
図23】本発明による予測方法を用いた、図22のものと類似の図であり、それぞれの基本数値配列は、周波数またはハーモニクスの所与のセットに対する基本タンパク質スペクトルである。
図24】本発明による予測方法を用いた、図22のものと類似の図であり、それぞれの基本数値配列は、周波数またはハーモニクスの所与のセットに対する基本タンパク質スペクトルである。
【発明を実施するための形態】
【0038】
ペプチド結合によって互いに結合された少なくとも2つのアミノ酸は、本明細書で使用するような「タンパク質」によって表される。「タンパク質」という用語は、タンパク質、オリゴペプチド、ポリペプチド、およびペプチドを含む。ペプチジルグループは、自然発生アミノ酸およびペプチド結合、または合成ペプチド模倣構造、すなわち、ペプトイドなどの「類似体」を備えてもよい。アミノ酸は、自然発生または非自然発生のいずれかであり得る。好ましい実施形態では、タンパク質は少なくとも10個のアミノ酸を備えるが、もっと少数のアミノ酸しか管理され得ない。
【0039】
タンパク質の「適応度」とは、触媒効能、触媒活動度、速度定数、Km、Keq、結合親和性、熱安定性、溶解度、凝集、有効性、毒性、アレルゲン性、免疫原性、熱力学的安定性、フレキシビリティ、タンパク質発現レベル、およびmRNA発現レベルなどの基準への、タンパク質の適合を指す。本発明によれば、「適応度」は「活動度」とも呼ばれ、本説明のうちの以下において、適応度および活動度が同じ特徴を指すことが考慮される。
【0040】
触媒効能は、通常、s-1.M-1単位で表現され、比率kcat/Kmを指す。
【0041】
触媒活動度は、通常、mol.s-1単位で表現され、酵素触媒作用における酵素活性レベルを指す。
【0042】
速度定数kcatは、通常、s-1単位で表現され、反応の速度を定量化する数値パラメータを指す。
【0043】
Kmは、通常、M単位で表現され、反応の速度がその最大値の半分となる基質濃度を指す。
【0044】
Keqは、通常、M単位、M-1単位、または単位なしで表現され、化学反応における化学平衡を特徴づける数量である。
【0045】
結合親和性は、通常、M単位で表現され、タンパク質の間の、またはタンパク質とリガンド(ペプチドまたは小型化学分子)との間の、相互作用の強さを指す。
【0046】
熱安定性は、通常、℃単位で表現され、通常、10分という定温放置時間の後にタンパク質のうちの50%が不可逆的に変性される温度として規定される、測定された活動度T50を指す。
【0047】
溶解度は、通常、mol/L単位で表現され、溶液が飽和状態になる前の、溶液のリットル当りに溶解され得る物質(溶質)のモル数を指す。
【0048】
凝集は、通常、(280nmおよび340nmにおける単純な吸収測定からの)凝集指数を使用して表現され、細胞内または細胞外のいずれかで誤って折り畳まれたタンパク質が凝集する(すなわち、蓄積し一緒に塊になる)生物学的現象を指す。
【0049】
有効性は、通常、M単位で表現され、所与の強度の効果を生み出すために必要とされる量に換算して表現される、薬剤活性の測度を指す。
【0050】
毒性は、通常、M単位で表現され、物質(毒素または毒薬)が人間または動物に害を与え得る程度を指す。
【0051】
アレルゲン性は、通常、mL当りの生物学的同等アレルギー単位(Bioequivalent Allergy Unit)(BAU/mL)の単位で表現され、即時過敏症(アレルギー)をもたらすべき抗原性物質の容量を指す。
【0052】
免疫原性は、通常、試料の中の抗体の量の単位として表現され、人間または動物の体の中で免疫応答を引き起こすための、抗原またはエピトープなどの特定の物質の能力を指す。
【0053】
安定性は、通常、ΔΔG(kcal/mol-1)として表現され、急速に、可逆的に、かつ協働的に、広がり再び折り畳むタンパク質の熱力学的安定性を指す。
【0054】
フレキシビリティは、通常、A°単位で表現され、タンパク質変性および立体構造変化を指す。
【0055】
タンパク質発現レベルは、通常、パーセンテージまたは10進値などの単位のない値として表現され、細胞によるタンパク質の生成の量を指す。
【0056】
mRNA発現レベルも、通常、パーセンテージまたは10進値などの単位のない値として表現され、生細胞の中のmRNAの機能的複製の数量を指す。
【0057】
エナンチオ選択性とは、化学反応における1つの立体異性体の別の立体異性体にまさる優先的形成、または鏡像異性体のペアのうちの一方に向かう反応の選択性を指す。エナンチオ選択性は、通常、E値によって表現され、E値は、関係ΔΔG‡=-RT ln (E)によってΔΔG‡(kcal/mol)単位に変換可能である。
【0058】
図1において、タンパク質の少なくとも1つの適応度の値を予測するための電子予測システム10は、Q個の基本数値配列を計算するために構成された計算モジュール20を含み、Qは2以上の整数であり、各基本数値配列は、タンパク質データベース21による、タンパク質のアミノ酸配列のそれぞれのコード化に依存する。
【0059】
電子予測システム10は、Q個の基本数値配列を連結することによって拡張数値配列Ext_SEQを決定するために構成された決定モジュール22をさらに含む。
【0060】
随意の追加として、電子予測システム10は、参照データベース25を事前決定するために構成されたモデリングモジュール24を含み、前記参照データベース25は、前記適応度の様々な値に対する参照拡張数値配列を含む。
【0061】
電子予測システム10は、適応度ごとに、決定された拡張数値配列Ext_SEQを参照データベース25の参照拡張数値配列と比較し、前記比較に従って前記適応度の値を予測するために構成された、予測モジュール26をさらに含む。
【0062】
随意の追加として、電子予測システム10は、決定された拡張数値配列Ext_SEQに従ってタンパク質を分析し、それによって、突然変異体のライブラリをスクリーニングするために構成された、スクリーニングモジュール28を含み、分析は、たとえば、因子判別分析または主成分分析である。
【0063】
図1の例では、電子予測システム10は、データ処理ユニット30、表示スクリーン32、およびデータ処理ユニット30の中にデータを入力するための入力手段34を含む。
【0064】
データ処理ユニット30は、たとえば、メモリ40、およびメモリ40に関連するプロセッサ42から作られる。
【0065】
表示スクリーン32および入力手段34は、それ自体知られている。
【0066】
図1の例では、計算モジュール20、決定モジュール22、および予測モジュール26、かつ随意の追加として、モデリングモジュール24および/またはスクリーニングモジュール28は、たとえば、プロセッサ42によって実行可能なソフトウェアとして、各々が実現すなわち実装される。処理ユニット30のメモリ40は、Q個の基本数値配列を計算するために構成された計算ソフトウェアと、Q個の基本数値配列を連結することによって拡張数値配列Ext_SEQを決定するために構成された決定ソフトウェアと、適応度ごとに、決定された拡張数値配列Ext_SEQを参照データベース25の参照拡張数値配列と比較し、前記比較に従って前記適応度の値を予測するために構成された、予測ソフトウェアとを記憶するように適合される。随意の追加として、処理ユニット30のメモリ40は、前記適応度の様々な値に対する参照拡張数値配列を含む参照データベース25を事前決定するために構成されたモデリングソフトウェア、および/または決定された拡張数値配列Ext_SEQに従ってタンパク質を分析し、それによって、突然変異体のライブラリをスクリーニングするために構成された、スクリーニングソフトウェアを記憶するように適合される。処理ユニット30のプロセッサ42は、そのとき、計算ソフトウェア、決定ソフトウェア、および予測ソフトウェア、かつ随意の追加として、モデリングソフトウェアおよび/またはスクリーニングソフトウェアを実行するように構成される。
【0067】
図示しない変形態として、計算モジュール20、決定モジュール22、および予測モジュール26、かつ随意の追加として、モデリングモジュール24および/またはスクリーニングモジュール28は各々、フィールドプログラマブルゲートアレイすなわちFPGAなどのプログラマブル論理構成要素の形態をなすか、または特定用途向け集積回路すなわちASICなどの専用集積回路の形態をなす。
【0068】
電子予測システム10は、1つまたは複数のソフトウェアプログラムの形態をなすとき、すなわち、コンピュータプログラムの形態をなすとき、コンピュータ可読媒体上に記録されることも可能である(図示せず)。コンピュータ可読媒体は、たとえば、電子命令を記憶することおよびコンピュータシステムのバスに結合されることが可能な媒体である。たとえば、可読媒体は、光ディスク、光磁気ディスク、ROMメモリ、RAMメモリ、任意のタイプの不揮発性メモリ(たとえば、EPROM、EEPROM、FLASH(登録商標)、NVRAM)、磁気カード、または光カードである。ソフトウェア命令を有するコンピュータプログラムは、そのとき、可読媒体上に記憶される。
【0069】
計算モジュール20は、いくつかの基本数値配列を計算するために構成され、各基本数値配列は、タンパク質データベース21による、タンパク質のアミノ酸配列のそれぞれのコード化に依存する。
【0070】
計算モジュール20は、たとえば、タンパク質データベース21に従ってアミノ酸配列をそれぞれの基本数値配列にコード化するために適合され、各基本数値配列は、配列のアミノ酸ごとの値xkを備える。基本数値配列は、0≦k≦P-1かつP≧1であってP個の値xkから構成され、kおよびPは整数である。
【0071】
言い換えれば、アミノ酸配列を数値配列にコード化することは、結果としてアミノ酸配列の中のアミノ酸の各文字を値によって置換する。
【0072】
アミノ酸配列が、タンパク質の全体的なアミノ酸配列に、または代替としてタンパク質の部分的なアミノ酸配列のみに対応することに、当業者は注目されよう。この代替形態によれば、部分的なアミノ酸配列は、言い換えれば、タンパク質の全体的なアミノ酸配列の中で、1つまたは複数のアミノ酸位置にしか対応しない。
【0073】
タンパク質データベース21は、一般的な方式で1組の関係に対応し、各関係は、任意の数値を所与のアミノ酸に関連付ける。
【0074】
タンパク質データベース21は、たとえば、メモリ40の中に記憶される。代替として、タンパク質データベース21は、メモリ40とは別個のリモートメモリ(図示せず)の中に記憶される。
【0075】
タンパク質データベース21は、たとえば、AAIndexとも呼ばれるアミノ酸インデックスデータベースである。アミノ酸インデックスデータベースは、http://www.genome.jp/dbget-bin/www_bfind?aaindex (version Release 9.1, Aug 06)から利用可能である。AAIndexは、20個の標準的なアミノ酸に対して様々な物理化学的特性および生化学的特性を表す566個のインデックスを保持し、これらのインデックス間の相関もAAIndexの中に列挙されている。
【0076】
代替として、タンパク質データベース21は、たとえば、1からNAAまでにわたる、既定の任意の数値を含み、ここで、NAAは、タンパク質データベース21の中の天然アミノ酸および/または非天然アミノ酸の個数である。
【0077】
さらに代替として、タンパク質データベース21は、アミノ酸ごとの計算済みの数値を含み、これらの数値は、既定の計算法則に従って計算されるか、またはランダムもしくは擬似ランダムに計算される。
【0078】
代替または追加として、タンパク質データベース21は、非天然アミノ酸に対する数値を含む。タンパク質データベース21は、たとえば、2013年にPloS one、8(7)、e67844において公表されたLiang, G.、Liu, Y.、Shi, B.、Zhao, J.、およびZheng, J.の論文「An index for characterization of natural and non-natural amino acids for peptidomimetics」に基づき、所与の分子からの物理化学的な分子デスクリプタの計算を可能にする、http://www.vcclab.org/lab/edragonから利用可能なアプリケーションe-dragonの利用に由来する。タンパク質データベース21は、それに応じて、たとえば、1600個よりも多くのデスクリプタとともに、615個の非天然アミノ酸を含む。
【0079】
タンパク質データベース21は、数値の少なくとも1つのインデックスを含み、各値はそれぞれのアミノ酸に対して与えられる。タンパク質データベース21は、好ましくは数値のいくつかのインデックスを含む。
【0080】
タンパク質データベース21は、たとえば、生化学的または物理化学的な特性値の1つまたは複数のインデックスを含み、各特性値はそれぞれのアミノ酸に対して与えられる。各インデックスは、それぞれの例に照らして以下に示すように、たとえば、AAindexコードに対応する。アミノ酸配列をコード化するための選ばれたAAindexコードは、たとえば、拡張構造のD個の正規化周波数、D個の電子イオン相互作用ポテンシャル値、全タンパク質のAA組成のD個のSD、IFHスケールからのD個のpK-CまたはD個の重みである。
【0081】
随意の追加として、タンパク質データベース21が数値のいくつかのインデックスを含むとき、これらのいくつかのインデックスは、たとえば、別個のカテゴリーに分類される。分類例によれば、各カテゴリーは、アルファおよびターン傾向、ベータ傾向、組成、疎水性、物理化学的特性、ならびに他のタンパク質特性からなるグループの中から選ばれるタンパク質特徴などの、タンパク質特徴に関連するファミリーである。別の分類例によれば、各カテゴリーは、インデックスの統計的特徴に従って取得される、インデックスのクラスタである。図17は、8個のクラスタC1~C8を有するそのような分類例を示す。
【0082】
アミノ酸配列をコード化するために、計算モジュール20は、次いで、アミノ酸ごとに、所与のインデックスに従って前記アミノ酸に対する数値を決定するように適合され、基本数値配列の中のコード化される各値xkは、そのとき、それぞれの数値に等しい。
【0083】
随意の追加として、タンパク質データベース21が数値のいくつかのインデックスを含むとき、計算モジュール20は、たとえば、各インデックスに従って試料タンパク質に対してあらかじめ取得された予測適応度値との、前記試料タンパク質に対する測定適応度値の比較に基づいて、最良インデックスを選択するために、かつ次いで、選択されたインデックスを使用してアミノ酸配列をコード化するために構成される。
【0084】
選択されたインデックスは、たとえば、2乗平均平方根誤差が最小のインデックスであり、インデックスごとの2乗平均平方根誤差は、
【0085】
【数8】
【0086】
を満たし、ここで、yiは、第iの試料タンパク質の測定適応度であり、
【数9】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは、試料タンパク質の個数である。
【0087】
代替として、選択されたインデックスは、1に最も近い決定係数を有するインデックスであり、インデックスごとの決定係数は、
【0088】
【数10】
【0089】
を満たし、ここで、yiは、第iの試料タンパク質の測定適応度であり、
【数11】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは、試料タンパク質の個数であり、
【数12】
は、S個の試料タンパク質に対する測定適応度の平均であり、
【数13】
は、S個の試料タンパク質に対する予測適応度の平均である。
【0090】
随意の追加として、計算モジュール20は、たとえば、基本数値配列の各値xkから基本数値配列値の平均
【数14】
を減算することによって、取得された基本数値配列を正規化するためにさらに構成される。
【0091】
言い換えれば、
【数15】
と示される、正規化された各値は、次式を満たす。
【0092】
【数16】
【0093】
平均
【数17】
は、たとえば、相加平均であり、
【0094】
【数18】
【0095】
を満たす。
【0096】
代替として、平均
【数19】
は、相乗平均、調和平均、または平方平均である。
【0097】
随意の追加として、計算モジュール20は、前記基本数値配列の一方の端部においてM個(Mは(N-P)に等しい)のゼロを追加することによって、取得された基本数値配列をゼロパディングするためにさらに構成され、ここで、Nは所定の整数であり、Pは前記基本数値配列の中の値の初期個数である。Nは、したがって、ゼロパディング後の基本数値配列の中の値の総数である。
【0098】
随意の追加として、少なくとも1つの基本数値配列は基本タンパク質スペクトルであり、基本タンパク質スペクトルは、高速フーリエ変換などのフーリエ変換を中間数値配列に適用することによって取得され、中間数値配列は、タンパク質のアミノ酸配列のそれぞれのコード化によって取得される。
【0099】
この随意の追加によれば、計算モジュール20は、中間数値配列に従って基本タンパク質スペクトルを計算するために構成される。
【0100】
計算される基本タンパク質スペクトルは、少なくとも1つの周波数値を含む。基本タンパク質スペクトルは、したがって、全体的な周波数スペクトルに対して、または代替として1つもしくは複数の周波数値を有する周波数もしくはハーモニクスの所与のセットのみに従って、計算される。基本タンパク質スペクトルが周波数またはハーモニクスの所与のセットのみに従って計算されるこの代替形態は、図22図24の例に鑑みて後でさらに説明される。
【0101】
周波数またはハーモニクスのセットを決定するために、すなわち、周波数またはハーモニクスを選択するために、計算モジュール20は、たとえば、フィルタ法またはラッパー法を使用するために構成される。
【0102】
フィルタ法は、モデルに関係なく変数を選択し、たとえば、予測すべき変数との相関のみに基づく。フィルタ法は、最も関心を引かない変数を抑圧する。他の変数は、データを分類または予測するために使用される分類モデルまたは回帰モデルの一部である。そのようなフィルタ法は、たとえば、各ハーモニクスにおける振幅値を活動度値(すなわち、予測されるべき値)と相関させることによって、かつ次いで、相関が最大のハーモニクスを選択するために、実行される。相関は、たとえば、R2に従って評価され、周波数またはハーモニクスのセットは、そのとき、R2がそれに対して最大となる所与のパーセンテージの周波数またはハーモニクスである。
【0103】
ラッパー法は変数のサブセットを評価し、そのことにより、フィルタ法とは異なり、変数の間の可能な相互作用を検出することが可能になる。そのようなラッパー法は、たとえば、IEEE Computational Systems Bioinformatics Conference、301~309頁、2005年におけるT. M. Phuong、Z. Lin、およびR. B. Altmanの論文「Choosing SNPs using feature selection」において開示される。
【0104】
計算モジュール20は、取得された中間数値配列に、好ましくは高速フーリエ変換などのフーリエ変換を適用することによって、基本タンパク質スペクトルfjを計算するために構成される。
【0105】
各基本タンパク質スペクトルfjは、たとえば、
【0106】
【数20】
【0107】
をそれゆえ満たし、ここで、jは、基本タンパク質スペクトルfjのインデックス番号であり、
iは、i2=-1となるような虚数を規定する。
【0108】
随意の追加として、中間数値配列が正規化されるとき、計算モジュール20は、正規化された中間数値配列に対して基本タンパク質スペクトル計算を実行するためにさらに構成される。
【0109】
言い換えれば、この場合、各基本タンパク質スペクトルfjは、たとえば、次式をそれゆえ満たす。
【0110】
【数21】
【0111】
随意の追加として、中間数値配列に対してゼロパディングが実行されるとき、計算モジュール20は、ゼロパディングに加えて取得される中間数値配列に対して基本タンパク質スペクトルfjを計算するためにさらに構成される。
【0112】
言い換えれば、この場合、各基本タンパク質スペクトルfjは、たとえば、次式をそれゆえ満たす。
【0113】
【数22】
【0114】
随意の追加として、中間数値配列に対して正規化とゼロパディングの両方が実行されるとき、計算モジュール20は、ゼロパディングに加えて取得される正規化された中間数値配列に対して基本タンパク質スペクトルfjを計算するためにさらに構成される。
【0115】
言い換えれば、この場合、各基本タンパク質スペクトルfjは、たとえば、次式をそれゆえ満たす。
【0116】
【数23】
【0117】
決定モジュール22は、Q個の基本数値配列を連結することによって拡張数値配列Ext_SEQを決定するために構成される。
【0118】
決定モジュール22によって決定される拡張数値配列Ext_SEQの中で、すべての基本数値配列は互いに別個である。
【0119】
たとえば、基本数値配列のペアの間で、ペアのうちの一方の基本数値配列のみに対するフーリエ変換の適用に加えて、一方の基本数値配列は他方の基本数値配列とは異なる。本説明のうちの以下において、フーリエ変換の適用に加えて取得される基本数値配列は、単一のコード化インデックスについてはFFT_Seq、またはいくつかのコード化インデックスj1、j2が考慮されるときはFFT_Seqj1、FFT_Seqj2と示される。反対に、フーリエ変換を適用することなく取得される基本数値配列は、単一のコード化インデックスについてはnoFFT_Seq、またはいくつかのコード化インデックスj1、j2が考慮されるときはnoFFT_Seqj1、noFFT_Seqj2と示される。
【0120】
追加または代替として、基本数値配列のペアの間で、ペアのうちの他方の基本数値配列とは異なる、一方の基本数値配列からのインデックスに加えて、一方の基本数値配列は、たとえば、他方の基本数値配列とは異なる。
【0121】
一例として、タンパク質のアミノ酸配列が1つのコード化インデックスのみに従ってコード化される場合、決定モジュール22は、以下の公式化に従って拡張数値配列Ext_SEQを決定するために構成される。
Ext_SEQ=noFFT_Seq--FFT_Seq (9)
ここで、2つの基本数値配列noFFT_SeqとFFT_Seqとの間のシンボル「--」は、これらの2つの基本数値配列の連結を表す。
【0122】
別の例によれば、タンパク質のアミノ酸配列が2つの別個のコード化インデックスj1およびj2に従ってコード化される場合、決定モジュール22は、以下の可能な代替公式化に従って拡張数値配列Ext_SEQを決定するために構成される。
Ext_SEQ=noFFT_Seqj1--noFFT_Seqj2 (10)
Ext_SEQ=FFT_Seqj1--noFFT_Seqj2 (11)
Ext_SEQ=noFFT_Seqj1--FFT_Seqj2 (12)
Ext_SEQ=FFT_Seqj1--FFT_Seqj2 (13)
【0123】
タンパク質のアミノ酸配列が、厳密に2よりも大きい別個のコード化インデックスj1、j2、...、jNb_Indexの個数Nb_Indexに従ってコード化される場合には、当業者は、拡張数値配列Ext_SEQの可能な代替公式化を上述の公式化から必然的に導出する。
【0124】
すべての基本数値配列が互いに別個であっても、すべての基本数値配列が、所与の拡張数値配列Ext_SEQに対して、好ましくはタンパク質の同じアミノ酸配列に対応することに留意されたい。すべての基本数値配列は、したがって、所与の拡張数値配列Ext_SEQに対して、タンパク質の単一のアミノ酸配列に依存する。実際、本発明による電子予測システム10は、タンパク質の前記アミノ酸配列の適応度の値をより良好に予測することを目的とする。言い換えれば、基本数値配列は、コード化インデックスを通じて、かつ/またはフーリエ変換の適用か否かを通じて、互いに異なる。
【0125】
上の公式化は各々、基本数値配列を連結して、決定される拡張数値配列Ext_SEQにするための連結パターンを表す。
【0126】
言い換えれば、連結パターンは、連結されるべき基本数値配列の継続からの基本数値配列ごとに、それぞれのインデックス、およびフーリエ変換の適用か否かを規定する。
【0127】
決定モジュール22は、連結パターンに従ってQ個の基本数値配列を連結して拡張数値配列Ext_SEQにするために構成される。連結パターンは、好ましくは既定の連結パターンである。
【0128】
随意の追加として、タンパク質データベース21が、別個のカテゴリーに分類されたいくつかのインデックスを含むとき、連結パターンは、たとえば、少なくとも2つの別個のカテゴリーからのインデックスを含む。
【0129】
随意の追加として、タンパク質データベース21がいくつかのインデックスを含むとき、最良インデックスは、たとえば、上記で説明したように最初に最良インデックスj1を決定することによって、かつ次いで、(最初に決定された)最良インデックスよりも低い、インデックスの初期セットに対応するインデックスの残りのセットの中で2番目に良いj2を識別することなどによって選択される。
【0130】
一例として、566個のインデックスを含むAAIndexを用いて、566個のインデックスが1つずつテストされる。タンパク質データベース21の566個のインデックスのランク付けは、交差検証手順の間にcvRMSE値に従って行われる。最良インデックスj1とは、最小のcvRMSEを与えるインデックスである。次いで、もう一度すべての(566-1)個のインデックスを順にテストすることによって、2番目に良いインデックスj2が識別される。プロセスの終了において、第2のインデックスj2が、LOOCVを使用して取得されるようなcvRMSEの最小値に従って選ばれる。3番目に良いインデックスj3についても同様である。
【0131】
モデリングモジュール24は、モデルとも呼ばれるタンパク質スペクトルデータベース25を学習データおよび学習拡張数値配列に従って事前決定するために適合される。学習拡張数値配列は学習データに対応し、学習データは各々、所与の適応度に、また好ましくは前記適応度の様々な値に対して関係する。
【0132】
モデリングモジュール24は、Q個の基本数値配列を連結して拡張数値配列Ext_SEQにするために、決定モジュール22によって使用されるものと同じ連結パターンを有する参照拡張数値配列を取得するためにさらに構成される。
【0133】
参照データベース25は、前記適応度の様々な値に対する参照拡張数値配列を含む。好ましくは、参照データベース25を構築するために、少なくとも10個の拡張数値配列および10個の異なる適応度が使用される。当然、参照拡張数値配列および関係するタンパク質適応度の個数が多ければ多いほど、適応度の予測の観点から結果は良好となる。
【0134】
予測モジュール26は、適応度ごとに、決定された拡張数値配列Ext_SEQを参照データベース25の参照拡張数値配列と比較し、前記比較に従って前記適応度の値を予測するために適合される。
【0135】
予測モジュール26は、好ましくは、前記適応度の様々な値に対する参照拡張数値配列の所定のデータベース25の中で、決定された拡張数値配列Ext_SEQに所定の基準に従って最も近い参照拡張数値配列を識別するためにさらに構成され、前記適応度の予測値は、そのとき、識別された参照拡張数値配列に前記データベースの中で関連付けられている適応度の値に等しい。
【0136】
所定の基準とは、たとえば、決定された拡張数値配列Ext_SEQと参照データベース25の中に含まれる参照拡張数値配列との間の最小差分である。代替として、所定の基準は、決定された拡張数値配列Ext_SEQと参照データベース25の中に含まれる参照拡張数値配列との間の相関係数Rまたは決定係数R2である。
【0137】
代替として、予測モジュール26は、人工ニューラルネットワーク(ANN)を使用して適応度の予測値を算出するために構成され、入力変数は決定された拡張数値配列Ext_SEQであり、出力変数は適応度の予測値である。この代替形態によれば、人工ニューラルネットワークは、拡張数値配列Ext_SEQを決定するために使用されるものと同じ連結パターンを有する、参照データベース25の参照拡張数値配列に対して、あらかじめトレーニングされる。
【0138】
加えて、随意の方式では、予測モジュール26は、突然変異体のライブラリのスクリーニングを取得することを可能にする。
【0139】
加えて、随意の方式では、スクリーニングモジュール28は、決定された拡張数値配列Ext_SEQに従ってタンパク質を分析するために、かつ因子判別分析または主成分分析とそれに後続する、たとえば、k平均によるなどの、数学的処理を使用して、それらのそれぞれの拡張数値配列Ext_SEQに従ってタンパク質配列を分類するために適合される。分類は、たとえば、タンパク質スペクトルのファミリーの中に異なるグループ、すなわち、例として、高い適応度、中間の適応度、および低い適応度を有するグループ、ならびに適応度の発現を伴うグループ、および適応度の発現を伴わないグループが存在するかどうかを識別するために行われ得る。
【0140】
本発明による電子予測システム10の動作が、タンパク質の少なくとも1つの適応度の値を予測するための方法のフローチャートを表す図2に鑑みて、ここで説明される。
【0141】
初期ステップ100において、計算モジュール20が、いくつかの基本数値配列を計算し、各基本数値配列は、タンパク質データベース21による、タンパク質のアミノ酸配列のそれぞれのコード化に依存する。
【0142】
計算モジュール20は、アミノ酸ごとに、所与のインデックスにおける、たとえば、所与のAAindexコードにおける、前記アミノ酸に対する数値を決定することによって、タンパク質データベース21に従ってアミノ酸配列をそれぞれの基本数値配列にコード化し、次いで、前記数値に等しいコード化された値xkを発行する。
【0143】
加えて、タンパク質データベース21が数値のいくつかのインデックスを随意に含むとき、計算モジュール20は、上記で説明したように最良インデックスをさらに選択し、次いで、選択されたインデックスを使用してアミノ酸配列をコード化する。最良インデックスは、たとえば、式(1)または式(2)を使用して選択される。
【0144】
代替または追加として、タンパク質データベース21が数値のいくつかのインデックスを随意に含むとき、計算モジュール20は、いくつかのそれぞれの基本数値配列をコード化するために、いくつかのインデックスを使用する。
【0145】
随意の追加として、計算モジュール20は、たとえば、式(3)に従って数値配列の各値xkから数値配列値の平均
【数24】
を減算することによって、取得された各基本数値配列を随意に正規化する。
【0146】
随意の追加として、計算モジュール20は、前記基本数値配列の一方の端部においてM個のゼロを追加することによって、取得された基本数値配列に対してゼロパディングを随意に実行する。
【0147】
随意の追加として、少なくとも1つの基本数値配列は基本タンパク質スペクトルであり、計算モジュール20は、それに応じて、対応する基本タンパク質スペクトルを取得するために、タンパク質のアミノ酸配列のそれぞれのコード化によって取得された中間数値配列に高速フーリエ変換などのフーリエ変換を適用する。基本タンパク質スペクトルfjは、たとえば、随意の正規化および/またはゼロパディングに応じて式(5)~式(8)の間の式に従って、好ましくは高速フーリエ変換などのフーリエ変換を使用することによって計算される。
【0148】
次のステップ110において、決定モジュールは、Q個の基本数値配列を連結することによって拡張数値配列Ext_SEQを決定し、すべての基本数値配列は互いに別個である。
【0149】
たとえば、基本数値配列のペアの間で、ペアのうちの一方の基本数値配列のみに対するフーリエ変換の適用に加えて、かつ/またはペアのうちの他方の基本数値配列とは異なる、一方の基本数値配列からのインデックスに加えて、一方の基本数値配列は他方の基本数値配列とは異なる。
【0150】
決定モジュール22は、たとえば、単一のコード化インデックスの場合には公式化(9)に従って、または2つの別個のコード化インデックスの場合には任意の1つの公式化(10)~(13)に従って、または3つ以上の別個のコード化インデックスの場合には、少なくとも基本数値配列を用いた類似の公式化に従って、拡張数値配列Ext_SEQを決定する。
【0151】
決定ステップ110の終了において、決定モジュール22は、学習データおよび学習拡張数値配列をモデリングモジュール24に配信する。
【0152】
次いで、モデリングモジュール24は、ステップ120において、決定ステップ110の終了において取得された学習データおよび学習拡張数値配列に従って参照データベース25を決定する。
【0153】
モデリングステップ120の間、モデリングモジュール24は、複数のコード化インデックスを評価してモデルの構成にとって最良のものを見つける。たとえば、モデリングモジュール24は、したがって、トレーニングデータセットとも呼ばれる初期データセットを使用して、コード化インデックスごとに予測モデルを構成する。モデルごとに、モデリングモジュール24は、2つの段階の中で性能パラメータの値を計算する。第1の段階は、標準的な交差検証である。第2の段階は、完全なセットを学習ステップの中に統合するモデリングである。モデルのロバストネスおよび妥当性を評価およびチェックするために、2つの段階からの性能が分析される。
【0154】
第1の段階、すなわち、交差検証段階において、初期データセットがk個の等しい部分に分割される。数kは、初期データセットのサイズに従って変化する。モデリングモジュール24は、データセットサイズが大きい場合には小さいk値を、また逆に、反対の状況では大きいk値を使用する。モデリングモジュール24は、学習データセットとしてk-1個の部分を、かつテストデータセットとして残りの部分を使用する。各部分がテストデータセットとして1回使用されるまで、このことがさらにk回反復される。交差検証により、潜在的な過剰適合問題を回避すること、およびいくつかのモデリングパラメータを最適化することが可能になる。交差検証は、たとえば、1個抜き交差検証(LOOCV:Leave-One-Out Cross-Validation)であり、ここで、kは基本数値配列の個数Qに等しい。
【0155】
第2の段階、すなわち、完全なセットの段階において、全体的な初期データセットが学習データセットとして使用され、第1の段階からの最適化されたパラメータを用いてテストデータセットがテストされる。この第2の段階において、モデリングモジュール24は、学習された配列に対する予測の確度をチェックする。
【0156】
モデリングステップ120の終了において、モデリングモジュール24は、正確なモデルのセットおよびそれらの関連するコード化インデックスを選択し参照データベース25の中に記憶する。
【0157】
ステップ130において、適応度ごとに、予測モジュール26は、決定された拡張数値配列Ext_SEQを参照データベース25の参照拡張数値配列と比較し、前記比較に従って前記適応度の値を予測する。
【0158】
より正確には、予測モジュール26は、決定された拡張数値配列Ext_SEQに所定の基準に従って最も近い参照拡張数値配列を参照データベース25の中で識別し、前記適応度の予測値は、そのとき、識別された参照拡張数値配列に前記データベースの中で関連付けられている適応度の値に等しい。
【0159】
代替として、予測モジュール26は、人工ニューラルネットワーク(ANN)を使用して適応度の予測値を算出し、入力変数は決定された拡張数値配列Ext_SEQであり、出力変数は適応度の予測値である。この代替形態によれば、人工ニューラルネットワークは、拡張数値配列Ext_SEQを決定するために使用されるものと同じ連結パターンを有する、参照データベース25の参照拡張数値配列に対して、あらかじめトレーニングされる。
【0160】
最後に、かつ随意に、スクリーニングモジュール28が、ステップ140において、決定された拡張数値配列Ext_SEQに従ってタンパク質を分析し、因子判別分析または主成分分析とそれに後続する、たとえば、k平均によるなどの、数学的処理を使用して、それらのそれぞれの拡張数値配列Ext_SEQに従ってタンパク質配列を分類する。
【0161】
したがって、そのことにより突然変異体のライブラリのより良好なスクリーニングを取得することが可能になる。このステップは多変量分析ステップとも呼ばれる。
【0162】
分類されたタンパク質の一部または全部に対する適応度の値を予測するために、分析ステップ140が決定ステップ120の直後にくること、および追加として、予測ステップ130が分析ステップ140の後に実行されてもよいことに留意されたい。
【0163】
(実施形態)
本発明は、以下の実施形態に鑑みてさらに説明される。
【0164】
これらの実施形態では、4つのデータセット、すなわち、シトクロムP450データセット、GLP2データセット、エポキシド加水分解酵素データセット、およびTNFデータセットを使用している。
【0165】
ヘム含有酸化還元酵素の多用途なシトクロムP450ファミリーは、幅広い基質をヒドロキシル化して医学的かつ工業的に著しく重要な産物を生成する。
【0166】
3つの親シトクロムP450、すなわち、CYP102A1(SEQ ID NO: 1)、CYP102A2 (SEQ ID NO: 2)、およびCYP102A3 (SEQ ID NO: 3)を使用して、シトクロムP450の184個のキメラ配列を生成した。変異体ごとに、10分にわたる定温放置の後にタンパク質のうちの50%が不可逆的に変性される、温度T50の測定によって熱安定性を分析した。Nature biotechnology、25(9)、1051において2007年に公表されたLi, Y.、Drummond, D. A.、Sawayama, A. M.、Snow, C. D.、Bloom, J. D.、およびArnold, F. Hの論文「A diverse family of thermostable cytochrome P450s created by recombination of stabilizing fragments」の中で、このデータセットが開示された。
【0167】
【表2A】
【表2B】
【表2C】
【表2D】
【表2E】
【0168】
GLP2データセットは、その受容体の活性化に関してグルカゴン様ペプチド-2(GLP-2:Glucagon like peptide-2)の31アラニン変異体の有効性を伴う。GLP-2(SEQ ID NO: 4)は、その活動度の増大が腸の中での上皮成長の制御において直接の関係を有する、短い33残基ペプチドである。GLP-2の31アラニン変異体にとって、対応する受容体活性化に対する値は、基本cAMP生成を超える増大として規定され、0.7から10.4までにわたる。
【0169】
【表3】
【0170】
エポキシド加水分解酵素データセットは、Reetz, M. T.、およびSanchis, J.(2008年)の論文「Constructing and analyzing the fitness landscape of an experimental evolutionary process」、ChemBioChem、9(14)、2260-2267の中で開示され、アスペルギルスニガーからの37個の突然変異体および1つのWT配列(WT配列は、SEQ ID NO: 5に対応する)、ならびにそれらのエナンチオ選択性を集めたものである。グリシジルフェニルエーテルの加水分解のために、この酵素が知られている。エポキシド加水分解酵素により、ベータ遮断剤、すなわち、高血圧治療において普通に使用される調合薬の合成にとって重要な、中間体の合成が可能になる(Iakovou, K.、Kazanis, M.、Vavayannis, A.、Bruni, G.、Romeo, M. R.、Massarelli, P.、...およびMori, T. (1999)、「Synthesis of oxypropanolamine derivatives of 3, 4-dihydro-2H-1, 4-benzoxazine, β-adrenergic affinity, inotropic, chronotropic and coronary vasodilating activities」、European journal of medicinal chemistry、34(11)、903-917)。Reetzらの研究は、鏡像異性体Sに向かう選択性が改善されたエポキシド突然変異体を特定する。
【0171】
【表4】
【0172】
Mukai Yらの論文(J Mol Biol、2009年1月30日、385(4):1221-9)「Structure-function relationship of tumor necrosis factor (TNF) and its receptor interaction based on 3D structural analysis of a fully active TNFR1-selective TNF mutant」の中で開示されたTNFデータセットは、20個の突然変異体および1つのWT腫瘍壊死因子(TNF:Tumour Necrosis Factor)配列(WT配列はSEQ ID NO: 6に対応する)を集めたものである。TNFは、発がん現象を抑圧し感染性病原体を排除して恒常性を維持する重要なサイトカインである。TNFの2つの受容体TNFR1およびTNFR2へのTNFの相対親和性(%Kd)は、0から2.87までにわたるlog10(R1/R2)という単一の比率として算出され、ここで、R1およびR2は、ng/ml単位でIC50検定によって測定されるような、それぞれ、TNFR1およびTNFR2へのTNFの親和性である。
【0173】
【表5】
【0174】
以下の実施形態において使用されるコード化インデックスが下の表6の中に列挙され、表6は、以下の実施形態において、対応するコード化インデックスがそれに対して使用されたデータセットを示しながら、AAindexデータベースの中でのインデックス番号とインデックスの名称との間の対応を規定する。
【0175】
【表6A】
【表6B】
【0176】
(実施形態1)
シトクロムP450(図3および図4)
第1の実施形態では、単一のコード化インデックス、詳細には、インデックス番号300を用いて識別されるコード化インデックスを使用して、シトクロムP450のアミノ酸配列を数値配列にコード化した。
【0177】
図3は、従来技術の予測方法に従って予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、コード化数値配列に高速フーリエ変換を適用する一方で、インデックス番号300を用いて識別されるコード化インデックスを使用する。したがって、図3は、インデックス番号300を有するFFT_Seqに対応する。
【0178】
図4は、本発明による予測方法を用いて予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、2つの基本数値配列、すなわち、基本数値配列にフーリエ変換をこれ以上適用しない一方の基本数値配列、および高速フーリエ変換のさらなる適用を伴う他方の基本数値配列に対して、インデックス番号300を用いて識別される同じコード化インデックスを使用する。したがって、図4は、インデックス番号300を有するnoFFT_Seq--FFT_Seqに等しい拡張数値配列Ext_SEQに対応する。
【0179】
図3は、高速フーリエ変換が適用されるときに取得された最良インデックスを使用して、かつ従来技術の予測方法を用いて、シトクロムP450に対して取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.83および1.91である。
【0180】
同じコード化インデックスを用いて、図4は、本発明による予測方法を用いて取得された、より良好な結果を示し、cvR2およびcvRMSEは、それぞれ、0.83および1.9である。
【0181】
cvRMSEとも示される、2乗平均平方根誤差RMSE、およびcvR2とも示される、決定係数R2は、対応する測定適応度値に対する予測適応度値の比較を伴う検証フェーズの間に予測モジュール26の回帰モデルを評価するための、性能パラメータである。RMSE値は、0と+∞との間で変化する。R2値は、0と1との間で変化する。正確な回帰モデルは、0に近いRMSEおよび1に近いR2を有する。
【0182】
(実施形態2)
GLP2突然変異体(図5および図6)
第2の実施形態では、図5については1つの最良コード化インデックス(インデックス番号449)を使用して、また図6については2つの最良コード化インデックス(インデックス番号449および341)を使用して、GLP2変異体(または突然変異体)のアミノ酸配列を数値配列にコード化した。
【0183】
図5は、従来技術の予測方法に従って予測される有効性に対する、GLP2変異体の測定された有効性(cAMPの増大)のグラフを表し、コード化数値配列に高速フーリエ変換を適用する一方で、インデックス番号449を用いて識別されるコード化インデックスを使用する。したがって、図5は、インデックス番号449を有するFFT_Seqに対応する。
【0184】
図6は、本発明による予測方法を用いて予測される有効性に対する、GLP2変異体の測定された有効性(cAMPの増大)のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う2つの基本数値配列に対して、2つの最良コード化インデックス(インデックス番号449および341)を使用する。したがって、図6は、FFT_Seqj1--FFT_Seqj2に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号449に等しく、j2がインデックス番号341に等しい。
【0185】
図5は、第1の最良インデックス449を単独で用いて取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.42および2.11である。
【0186】
2つの最良コード化インデックス(インデックス番号449および341)を用いて、図6は、本発明による予測方法を用いて取得された、著しくより良好な結果を示し、cvR2およびcvRMSEは、それぞれ、0.55および1.77である。
【0187】
(実施形態3)
エポキシド加水分解酵素(図7図9)
第3の実施形態では、図7については1つの最良コード化インデックス(インデックス番号303)を使用して、図8については2番目に良い1つのコード化インデックス(インデックス番号14)を使用して、また図9については2つの最良コード化インデックス(インデックス番号303および14)を使用して、エポキシド加水分解酵素変異体のアミノ酸配列を数値配列にコード化した。
【0188】
図7は、従来技術の予測方法に従って予測されるΔΔG‡に対する、エポキシド加水分解酵素変異体の測定されたΔΔG‡のグラフを表し、コード化数値配列に高速フーリエ変換を適用する一方で、コード化インデックス番号303を使用する。したがって、図7は、インデックス番号303を有するFFT_Seqに対応する。
【0189】
同様に、図8は、従来技術の予測方法に従って予測されたΔΔG‡に対する、エポキシド加水分解酵素変異体の測定されたΔΔG‡のグラフを表し、コード化数値配列に高速フーリエ変換を適用する一方で、コード化インデックス番号14を使用する。したがって、図8は、インデックス番号14を有するFFT_Seqに対応する。
【0190】
図9は、本発明による予測方法を用いて予測されるΔΔG‡に対する、エポキシド加水分解酵素変異体の測定されたΔΔG‡のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う2つの基本数値配列に対して、2つの最良コード化インデックス(インデックス番号303および14)を使用する。したがって、図9は、FFT_Seqj1--FFT_Seqj2に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号303に等しく、j2がインデックス番号14に等しい。
【0191】
図7は、第1の最良インデックス303を単独で用いて取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.96および0.12である。図8は、2番目に良いインデックス14を単独で用いて取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.9および0.19である。
【0192】
2つの最良コード化インデックス(インデックス番号303および14)を用いて、図9は、本発明による予測方法を用いて取得された、わずかにより良好な結果を示し、cvR2およびcvRMSEは、それぞれ、0.97および0.1である。したがって、拡張数値配列Ext_SEQを取得するために2つのコード化インデックスを使用することは、またしても予測の品質を改善する。上位性現象が起こるときには、上述のそのようなわずかな改善でも重要であり得る。
【0193】
(実施形態4)
TNF(図10および図11)
第4の実施形態では、図10については1つの最良コード化インデックス(インデックス番号203)を使用して、また図11については2つの最良コード化インデックス(インデックス番号203および504)を使用して、TNF変異体のアミノ酸配列を数値配列にコード化した。
【0194】
図10は、従来技術の予測方法に従って予測される親和性に対する、TNF変異体の測定された親和性のグラフを表し、コード化数値配列に高速フーリエ変換を適用する一方で、番号203を有するコード化インデックスを使用する。したがって、図10は、インデックス番号203を有するFFT_Seqに対応する。
【0195】
図11は、本発明による予測方法を用いて予測される親和性に対する、TNF変異体の測定された親和性のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う2つの基本数値配列に対して、2つの最良コード化インデックス(インデックス番号203および504)を使用する。したがって、図11は、FFT_Seqj1--FFT_Seqj2に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号203に等しく、j2がインデックス番号504に等しい。
【0196】
図10は、第1の最良インデックス203を単独で用いて取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.85および0.32である。
【0197】
2つの最良コード化インデックス(インデックス番号203および504)を用いて、図11は、本発明による予測方法を用いて取得された、より良好な結果を示し、cvR2およびcvRMSEは、それぞれ、0.87および0.29である。
【0198】
(実施形態5)
シトクロムP450(図12および図13)
第5の実施形態では、図12および図13については最良コード化インデックス300を含む2つのコード化インデックスを使用して、シトクロムP450のアミノ酸配列を数値配列にコード化した。
【0199】
図12は、本発明による予測方法を用いて予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う2つの基本数値配列に対して、2つのコード化インデックス(インデックス番号300および39)を使用する。したがって、図12は、FFT_Seqj1--FFT_Seqj2に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号300に等しく、j2がインデックス番号39に等しい。
【0200】
図13は、本発明による予測方法を用いて予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、2つの基本数値配列、すなわち、高速フーリエ変換のさらなる適用を伴う一方(インデックス番号300)、および高速フーリエ変換のこれ以上の適用を伴わない他方(インデックス番号343)に対して、2つのコード化インデックス(インデックス番号300および343)を使用する。したがって、図13は、noFFT_Seqj1--FFT_Seqj2に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号343に等しく、j2がインデックス番号300に等しい。
【0201】
2つのコード化インデックス(インデックス番号300および39)を用いて、図12は、本発明による予測方法を用いて取得された、著しくより良好な結果を示し(cvR2およびcvRMSEが、それぞれ、0.83および1.91である、最良インデックス番号300を有するFFT_Seqについての図3と比較すると)、cvR2およびcvRMSEは、それぞれ、0.87および1.67である。
【0202】
2つのコード化インデックス(インデックス番号300および343)を用いて、図13も、本発明による予測方法を用いて取得された、より良好な結果を示し(cvR2およびcvRMSEが、それぞれ、0.83および1.91である、最良インデックス番号300を有するFFT_Seqについての図3と比較すると)、cvR2およびcvRMSEは、それぞれ、0.84および1.85である。
【0203】
(実施形態6)
シトクロムP450(図14)
第6の実施形態では、図14については3つの最良コード化インデックス(インデックス番号300、39、および226)を使用して、シトクロムP450のアミノ酸配列を数値配列にコード化した。
【0204】
図14は、本発明による予測方法を用いて予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う3つの基本数値配列に対して、3つの最良コード化インデックス(インデックス番号300、39、および226)を使用する。したがって、図14は、FFT_Seqj1--FFT_Seqj2--FFT_Seqj3に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号300に等しく、j2がインデックス番号39に等しく、j3がインデックス番号226に等しい。
【0205】
3つのコード化インデックスを用いて、図14は、本発明による予測方法を用いて取得された、著しくより良好な結果を示し(cvR2およびcvRMSEが、それぞれ、0.83および1.91である、最良インデックス番号300を有するFFT_Seqについての図3と比較すると)、cvR2およびcvRMSEは、それぞれ、0.88および1.63である。
【0206】
(実施形態7)
複数のコード化インデックスの組合せ
ここで、n個のインデックスj1~jnに従ってタンパク質配列をコード化し、n個の基本数値配列が各々、それぞれのコード化インデックスに従って取得される。次いで、mが2からnまで変化してm個のインデックスの最良の組合せが何であるのかを見つけ出すために、組合せを実行する。
【0207】
cvRMSEに従って各組合せを評価する。最良の組合せは最小のcvRMSEに対応する。この場合、1つのインデックスに対する最良インデックスは、n個のインデックスの組合せに対して使用するのに必ずしも最良であるとは限らない。
【0208】
一例として、GLP2変異体を用いて、(AAIndexからの566個のインデックスのランク付けの後の)上位10個のインデックスを保持する。以前のランク付けからの上位10個のインデックスに対して、多くて3個のインデックスの組合せが実行される。FFT_Seqj1--FFT_Seqj2がFFT_Seqj2--FFT_Seqj1と均等であるので、組み合わせられた175個の拡張配列がそのように取得される。
【0209】
【表7】
【0210】
第1の最良インデックス449を単独で用いた、従来技術の予測方法を用いて取得された結果cvR2およびcvRMSEは、それぞれ、0.42および2.11である。
【0211】
表7は、3つのインデックスを用いた、本発明による予測方法を用いて取得された最良のcvR2およびcvRMSEが、それぞれ、0.47および1.99であることを示す。FFT_Seqj1--FFT_Seqj2--…--FFT_Seqj10を得るために10個のインデックスが使用されるとき、cvRMSEは2.48に跳ぶ(cvR2=0.11)。
【0212】
したがって、複数のインデックスの組合せは結果を著しく改善する。インデックスの正しい個数が決定されなければならず、m>nであってm個のインデックスの組合せが常にn個のインデックス組合せよりも良好であるとは限らないことに注目されたい。
【0213】
エポキシド加水分解酵素変異体を用いた別の例は、下の表8による類似の結果を導く。
【0214】
【表8】
【0215】
AAIndexの566個のインデックスをランク付けするときに最良のものとして識別されるインデックス303が、組合せが使用されるときの第38のランク付け位置38においてしか分類されず、すなわち、(この例では上位10個のみを考慮するとき、かつこの最良インデックス303が上位10個の中に含まれるとき)インデックスの37個の組合せがインデックス303単独よりも良好であることに注目されたい。
【0216】
(実施形態8)
GLP2突然変異体(図15)
第8の実施形態(図15)では、3つの別個のファミリーから発行された3つのコード化インデックス、すなわち、「他の特性」ファミリーから発行されたインデックス449、「アルファおよびターン傾向」ファミリーから発行されたインデックス341、および「組成」ファミリーから発行されたインデックス193を使用して、GLP2変異体のアミノ酸配列を数値配列にコード化した。
【0217】
図15は、本発明による予測方法を用いて予測される有効性に対する、GLP2変異体の測定された有効性(cAMPの増大)のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う3つの基本数値配列に対して、上述の3つのコード化インデックス(インデックス番号449、341、および193)を使用する。したがって、図15は、FFT_Seqj1--FFT_Seqj2--FFT_Seqj3に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号449に等しく、j2がインデックス番号341に等しく、j3がインデックス番号193に等しい。
【0218】
3つのコード化インデックスを用いて、図15は、本発明による予測方法を用いて取得された、著しくより良好な結果を示し(cvR2およびcvRMSEが、それぞれ、0.42および2.11である、最良インデックス番号449を有するFFT_Seqについての図5と比較すると)、cvR2およびcvRMSEは、それぞれ、0.55および1.75である。
【0219】
(実施形態9)
TNF(図16および図17)
第9の実施形態(図16および図17)では、3つの別個のクラスタから発行された3つのコード化インデックス、すなわち、図17のクラスタC3から発行されたインデックス203、クラスタC8から発行されたインデックス504、およびクラスタC5から発行されたインデックス486を使用して、TNF変異体のアミノ酸配列を数値配列にコード化した。
【0220】
図17に示すものなどのクラスタへの分類を取得するために、AAIndexの566個のインデックスなどのコード化インデックスは、K平均、ファジー分析クラスタリング、メドイド周辺区分(partitioning around medoids)などの、教師なしクラスタ形成のための手法を使用して異なるクラスタに分類される。
【0221】
各インデックスは、選択された手法に基づいてクラスタに作用される。インデックスに対するランク付けが実行され、各クラスタの中で1つまたは複数の上位インデックスが選択される。一例として、上記で説明したような組合せは、上位NbC個のインデックスを使用して実行することができ、ここで、1つのクラスタの中で1つのインデックスが選ばれる(NbC=クラスタの個数)。クラスタリングにより、それらの生物学的特徴および物理化学的特徴によるのではなく、それらの統計的特徴によって、インデックスを再グループ化することが可能になる。
【0222】
図16は、本発明による予測方法を用いて予測される親和性に対する、TNF変異体の測定された親和性のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う3つの基本数値配列に対して、上述の3つのコード化インデックス(インデックス番号203、504、および486)を使用する。したがって、図16は、FFT_Seqj1--FFT_Seqj2--FFT_Seqj3に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号203に等しく、j2がインデックス番号504に等しく、j3がインデックス番号486に等しい。
【0223】
3つのコード化インデックスを用いて、図16は、本発明による予測方法を用いて取得された、著しくより良好な結果を示し(cvR2およびcvRMSEが、それぞれ、0.42および2.11である、最良インデックス番号449を有するFFT_Seqについての図5と比較すると)、cvR2およびcvRMSEは、それぞれ、0.88および0.28である。
【0224】
(実施形態10)
TNF(図18)
代替として、インデックスごとにモデルが構築され、(cvRMSE基準に基づいて)選択されたモデルが使用されて、たとえば、これらのモデルの各々を用いたホールドアウト配列の予測の平均を計算するためのモデルの集合を形成し、または各モデルの予測値を使用して新たな予測を可能にする新たなモデルを構築し、あるいはより一般的には、スタッキング、バギング、ブースティングなどの、アンサンブルモデリングの様々な手法を使用する。
【0225】
一例として、20個のモデル、すなわち、グラフの上側部分を効率的に予測する10個、およびグラフの下側部分を効率的に予測する10個が、一度に1つのインデックスに基づいて使用され(すなわち、20個の異なるインデックスが使用され)、予測の平均が算出される。予測の平均は、そのとき、対角線により良く合致するものと予想される。
【0226】
【表9】
【0227】
上の表9は、TNF変異体のセットに対するそのような例示的な結果を提供する。
【0228】
図18は、本発明による予測方法を用いて予測される親和性に対する、TNF変異体の測定された親和性のグラフを表し、上述の集合を使用する。
【0229】
上述の集合を用いて、図18は、本発明による予測方法を用いて取得された、著しくより良好な結果を示し(cvR2およびcvRMSEが、それぞれ、0.42および2.11である、最良インデックス番号449を有するFFT_Seqに対する図5と比較すると)、cvR2およびcvRMSEは、それぞれ、0.83および0.33である。
【0230】
(実施形態11)
TNF(図19図21)
第11の実施形態では、上側のモデルに対応する図19については単一の第1のコード化インデックス(インデックス番号523)を使用して、下側のモデルに対応する図20については単一の第2のコード化インデックス(インデックス番号297)を使用して、また図21については上述のこれらの2つのコード化インデックス(インデックス番号523および297)を使用して、TNF変異体のアミノ酸配列を数値配列にコード化した。
【0231】
図19は、従来技術の予測方法に従って予測される親和性に対する、TNF変異体の測定された親和性のグラフを表し、コード化数値配列に高速フーリエ変換を適用する一方で、コード化インデックス番号523を使用する。したがって、図19は、インデックス番号523を有するFFT_Seqに対応する。
【0232】
同様に、図20は、従来技術の予測方法に従って予測される親和性に対する、TNF変異体の測定された親和性のグラフを表し、コード化数値配列に高速フーリエ変換を適用する一方で、コード化インデックス番号297を使用する。したがって、図20は、インデックス番号297を有するFFT_Seqに対応する。
【0233】
図21は、本発明による予測方法を用いて予測される親和性に対する、TNF変異体の測定された親和性のグラフを表し、各々が高速フーリエ変換のさらなる適用を伴う2つの基本数値配列に対して、上述の2つのコード化インデックス(インデックス番号523および297)を使用する。したがって、図21は、FFT_Seqj1--FFT_Seqj2に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号523に等しく、j2がインデックス番号297に等しい。
【0234】
図19は、第1のインデックス523を単独で用いて取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.5および0.68である。図20は、第2のインデックス297を単独で用いて取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.45および0.57である。
【0235】
これらの2つのコード化インデックス(インデックス番号523および297)を用いて、図21は、本発明による予測方法を用いて取得された、より良好な結果を示し、cvR2およびcvRMSEは、それぞれ、0.6および0.53である。
【0236】
(実施形態12)
シトクロムP450(図22図24)
随意の追加として、前に説明したように、本発明による予測方法は、以前の例において例示したようにタンパク質配列全体に対して、またはFFTを伴わないタンパク質配列の中の位置の選択において、かつ/もしくはFFTのタンパク質スペクトルの中の周波数の選択において、適用可能である。
【0237】
位置の選択は、周波数またはハーモニクスの選択と同様の方法で、すなわち、前に説明したように、フィルタ法またはラッパー法を使用することによって行われる。
【0238】
第12の実施形態は、この随意の特徴の一例であり、本発明による予測方法は、FFTのタンパク質スペクトルの中の周波数の選択に対して、すなわち、1つまたは複数の周波数範囲に対応する1つまたは複数の選択されたハーモニクスなどの、周波数またはハーモニクスの所与のセットに対して実行される。
【0239】
第12の実施形態では、図22および図23については1つの最良コード化インデックス(インデックス番号300)を使用して、また図24については2つの最良コード化インデックス(インデックス番号300および343)を使用して、シトクロムP450のアミノ酸配列を数値配列にコード化した。
【0240】
図22は、従来技術の予測方法に従って予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、コード化数値配列に高速フーリエ変換を、ただし全体的なスペクトルのうちの一部を表すハーモニクスの所与のセットのみに対して適用する一方で、番号300を有するコード化インデックスを使用する。この例では、ハーモニクスのセットは、考慮される全体的なスペクトルのうちのほぼ20%を表す。ハーモニクスは、たとえば、0から256まで番号付けされ、この例における選択されるハーモニクスは以下のもの、すなわち3;7;18;22;29;33;42;46;48;58;59;65;69;79;81;88;94;99;103;109;111;112;115;128;132;134;138;139;142;146;159;160;163;165;171;177;182;183;184;206;214;220;222;223;224;225;226;230;235;238;240;249である。したがって、図10は、インデックス番号300を有するFFT20%_Seqに対応し、ここで、FFT20%は、全体的なスペクトルのうちの20%を表す周波数またはハーモニクスの所与のセットのみに対して高速フーリエ変換が適用されることを示す。
【0241】
図23は、本発明による予測方法を用いて予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、2つの基本数値配列、すなわち、基本数値配列にフーリエ変換をこれ以上適用しない一方の基本数値配列、および高速フーリエ変換のさらなる適用を伴う他方の基本数値配列に対して、ただし、全体的なスペクトルのうちの20%を表す周波数またはハーモニクスの前記所与のセットのみに対して、インデックス番号300を用いて識別される同じコード化インデックスを使用する。したがって、図23は、インデックス番号300を有するnoFFT_Seq-- FFT20%_Seqに等しい拡張数値配列Ext_SEQに対応する。
【0242】
図24は、本発明による予測方法を用いて予測される熱安定性に対する、シトクロムP450変異体の測定された熱安定性のグラフを表し、2つの基本数値配列、すなわち、基本数値配列にフーリエ変換をこれ以上適用しない一方(インデックス番号343)、および高速フーリエ変換のさらなる適用を伴う他方(インデックス番号300)に対して、ただし、全体的なスペクトルのうちの20%を表す周波数またはハーモニクスの前記所与のセットのみに対して、2つの最良コード化インデックス(インデックス番号300および343)を使用する。したがって、図24は、noFFT_Seqj1--FFT20%_Seqj2に等しい拡張数値配列Ext_SEQに対応し、j1がインデックス番号343に等しく、j2がインデックス番号300に等しい。
【0243】
図22は、最良インデックス300を単独で、かつFFT20%を用いて取得された結果を示し、cvR2およびcvRMSEは、それぞれ、0.66および2.68である。
【0244】
同じコード化インデックス300を用いて、FFTを伴わずに、またFFT20%を伴って、図23は、本発明による予測方法を用いて取得された、より良好な結果を示し、cvR2およびcvRMSEは、それぞれ、0.74および2.38である。
【0245】
2つの最良コード化インデックス(インデックス番号300および343)、およびインデックス番号300に対してFFT20%を用いて、図24は、本発明による予測方法を用いて取得された、より良好な結果を示し、cvR2およびcvRMSEは、それぞれ、0.74および2.39である。
【0246】
したがって、上述の例において説明したような、いくつかの適応度の予測値と測定値との間のR2およびRMSEは、本発明による予測システム10および方法により、従来技術の予測システムおよび方法よりも、様々なタンパク質またはタンパク質変異体の様々な適応度の値のより効率的な予測が可能になることを示す。
【符号の説明】
【0247】
10 電子予測システム
20 計算モジュール
21 タンパク質データベース
22 決定モジュール
24 モデリングモジュール
25 参照データベース、タンパク質スペクトルデータベース
26 予測モジュール
28 スクリーニングモジュール
30 データ処理ユニット
32 表示スクリーン
34 入力手段
40 メモリ
42 プロセッサ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
【配列表】
0007425056000001.app