特許第6744909号(P6744909)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピアッセルの特許一覧

特許6744909タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品
<>
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000070
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000071
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000072
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000073
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000074
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000075
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000076
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000077
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000078
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000079
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000080
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000081
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000082
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000083
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000084
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000085
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000086
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000087
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000088
  • 特許6744909-タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品 図000089
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6744909
(24)【登録日】2020年8月4日
(45)【発行日】2020年8月19日
(54)【発明の名称】タンパク質の少なくとも1つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品
(51)【国際特許分類】
   G16B 30/00 20190101AFI20200806BHJP
   C07K 5/00 20060101ALI20200806BHJP
   C07K 14/00 20060101ALN20200806BHJP
   C07K 7/00 20060101ALN20200806BHJP
   C12N 15/09 20060101ALN20200806BHJP
【FI】
   G16B30/00ZNA
   C07K5/00
   !C07K14/00
   !C07K7/00
   !C12N15/09
【請求項の数】12
【全頁数】62
(21)【出願番号】特願2018-505535(P2018-505535)
(86)(22)【出願日】2016年4月14日
(65)【公表番号】特表2018-517219(P2018-517219A)
(43)【公表日】2018年6月28日
(86)【国際出願番号】EP2016058287
(87)【国際公開番号】WO2016166253
(87)【国際公開日】20161020
【審査請求日】2019年3月14日
(31)【優先権主張番号】15305552.0
(32)【優先日】2015年4月14日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】517361443
【氏名又は名称】ピアッセル
【氏名又は名称原語表記】PEACCEL
(74)【代理人】
【識別番号】100110423
【弁理士】
【氏名又は名称】曾我 道治
(74)【代理人】
【識別番号】100111648
【弁理士】
【氏名又は名称】梶並 順
(74)【代理人】
【識別番号】100166235
【弁理士】
【氏名又は名称】大井 一郎
(74)【代理人】
【識別番号】100179936
【弁理士】
【氏名又は名称】金山 明日香
(72)【発明者】
【氏名】フォンテーヌ、ニコラ
(72)【発明者】
【氏名】カデ、フレデリク
【審査官】 田付 徳雄
(56)【参考文献】
【文献】 特開2008−076406(JP,A)
【文献】 国際公開第2008/129458(WO,A1)
【文献】 米国特許出願公開第2004/0029126(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 − 99/00
C07K 5/00
C07K 7/00
C07K 14/00
C12N 15/09
(57)【特許請求の範囲】
【請求項1】
タンパク質の少なくとも1つの適応度値を予測するための方法であって、コンピュータ上で実施され、以下のステップ:
− 前記タンパク質のアミノ酸配列をタンパク質データベース(51)による数値配列に符号化するステップ(100)であって、該数値配列は前記アミノ酸配列の各アミノ酸の値を含む、ステップ(100)と、
− 前記数値配列に従って、タンパク質スペクトルを計算するステップ(110)と、
各適応度について、前記計算されたタンパク質スペクトルを、前記適応度の異なる値に関するタンパク質スペクトル値を含む所定のデータベース(55)のタンパク質スペクトル値と比較し、前記比較に従って、前記適応度の値を予測するステップ(130)と
を含
前記符号化するステップ(100)において、前記タンパク質データベース(51)は生化学的又は物理化学的な特性値の少なくとも1つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられ、各アミノ酸について、前記数値配列における値が所与のインデックスにおける前記アミノ酸に関する前記特性値に等しく、
前記計算するステップ(100)において、フーリエ変換が前記符号化するステップによってさらに得られた前記数値配列に適用され、
前記予測するステップ(130)は、前記適応度の異なる値に関するタンパク質スペクトル値の前記所定のデータベース(55)内で、所定の基準に従って、前記計算されたタンパク質スペクトルに最も近い前記タンパク質スペクトル値を決定し、予測する前記適応度の前記値は、前記データベース内において、前記決定されたタンパク質スペクトル値に関連付けられる前記適応度値に等しい、
タンパク質の少なくとも1つの適応度値を予測するための方法。
【請求項2】
前記計算されたタンパク質スペクトルは、少なくとも1つの周波数値を含み、
前記計算されたタンパク質スペクトルは、各周波数値について前記タンパク質スペクトル値と比較される、請求項1に記載の方法。
【請求項3】
各タンパク質スペクトルは以下の式:
【数1】
を検証し、
ここで、jは前記タンパク質スペクトル|f|のインデックス番号であり、前記数値配列はxと表されるN個の値を含み、0≦k≦N−1且つN≧1であり、iはi=−1であるような虚数を定義する、請求項1又は2に記載の方法。
【請求項4】
前記符号化ステップ(100)において、前記タンパク質データベース(51)は特性値の幾つかのインデックスを含み、
前記方法は、
− 各インデックスに従って、試料タンパク質に関する測定適応度値と、前記試料タンパク質について以前に得られた予測適応度値との比較に基づいて、最良のインデックスを選択するステップをさらに含み、
前記符号化ステップ(100)は、前記選択されたインデックスを使用して行われる、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
前記選択ステップにおいて、前記選択されたインデックスは、最小の二乗平均平方根誤差を有するインデックスであり、
各インデックスの前記二乗平均平方根誤差は以下の式:
【数2】
を検証し、
ここで、yは第iの試料タンパク質の測定適応度であり、
【数3】
は、第jのインデックスを有する前記第iの試料タンパク質の予測適応度であり、
Sは試料タンパク質の数である、請求項に記載の方法。
【請求項6】
前記選択ステップにおいて、前記選択されたインデックスは、1に最も近い決定係数を有するインデックスであり、
各インデックスの前記決定係数は以下の式:
【数4】
を検証し、
ここで、yは第iの試料タンパク質の測定適応度であり、
【数5】
は、第jのインデックスを有する前記第iの試料タンパク質の予測適応度であり、
Sは試料タンパク質の数であり、
【数6】
は、前記S個の試料タンパク質に関する前記測定適応度の平均であり、
【数7】
は、前記S個の試料タンパク質に関する前記予測適応度の平均である、請求項に記載の方法。
【請求項7】
前記符号化ステップの後で且つ前記タンパク質スペクトル計算ステップの前に、以下のステップ:
− 前記数値配列の各値から前記数値配列値の平均を引くことにより、前記符号化ステップによって得られた前記数値配列を正規化するステップ
をさらに含み、
前記タンパク質スペクトル計算ステップは、前記正規化された数値配列に対して行われる、請求項1〜のいずれか一項に記載の方法。
【請求項8】
前記符号化ステップの後で且つ前記タンパク質スペクトル計算ステップの前に、以下のステップ:
− 前記数値配列の一端にM個のゼロを加えることにより、前記符号化ステップによって得られた前記数値配列をゼロパディングするステップであって、Mは(N−P)に等しく、ここで、Nが所定の整数であり、Pは前記数値配列における値の数である、ステップ
をさらに含み、
前記タンパク質スペクトル計算ステップは、前記ゼロパディングステップによってさらに得られた前記数値配列に対して行われる、請求項1〜のいずれか一項に記載の方法。
【請求項9】
前記タンパク質スペクトル計算ステップ(110)において、幾つかの周波数範囲に従って前記タンパク質について幾つかのタンパク質スペクトルが計算され、
前記予測ステップにおいて、前記比較ステップに従って各タンパク質スペクトルについて前記適応度の中間値が推定され、該中間適応度値を使用して前記適応度の前記予測値が計算される、請求項1〜のいずれか一項に記載の方法。
【請求項10】
− 変異体ライブラリのスクリーニングのために、前記計算されたタンパク質スペクトルに従って前記タンパク質を解析するステップ(140)
を含む、請求項1〜のいずれか一項に記載の方法。
【請求項11】
コンピュータによって実施されると、請求項1〜1のいずれか一項に記載の方法を実施するソフトウェア命令を含む、コンピュータプログラ
【請求項12】
タンパク質の少なくとも1つの適応度値を予測するための電子予測システム(20)であって、
− アミノ酸配列をタンパク質データベース(51)による数値配列に符号化するように構成された符号化モジュール(50)であって、該数値配列は前記アミノ酸配列の各アミノ酸の値を含む、符号化モジュール(50)と、
− 前記数値配列に従って、タンパク質スペクトルを計算するように構成された計算モジュール(52)と、
− 予測モジュール(56)であって、各適応度について、
+ 前記計算されたタンパク質スペクトルを所定のデータベースのタンパク質スペクトル値と比較することであって、前記データベースは前記適応度の異なる値に関するタンパク質スペクトル値を含む、比較することと、
+ 前記比較に従って前記適応度の値を予測することと
を行うように構成された予測モジュール(56)と
を含
前記符号化モジュール(50)において、前記タンパク質データベース(51)は生化学的又は物理化学的な特性値の少なくとも1つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられ、各アミノ酸について、前記数値配列における値が所与のインデックスにおける前記アミノ酸に関する前記特性値に等しく、
前記計算モジュール(52)において、フーリエ変換が前記符号化モジュール(50)によってさらに得られた前記数値配列に適用され、
前記予測モジュール(56)は、
前記適応度の異なる値に関するタンパク質スペクトル値の前記所定のデータベース(55)内で、所定の基準に従って、前記計算されたタンパク質スペクトルに最も近い前記タンパク質スペクトル値を決定し、
予測する前記適応度の前記値は、前記データベース内において、前記決定されたタンパク質スペクトル値に関連付けられる前記適応度値に等しい、
電子予測システム(20)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アミノ酸配列を含むタンパク質の少なくとも1つの適応度値(fitness value)を予測するための方法及び関連する電子システムに関する。本発明はまた、コンピュータによって実施されると、そのような方法を実施するソフトウェア命令を含むコンピュータプログラム製品に関する。
【背景技術】
【0002】
タンパク質は、少なくとも1本のアミノ酸配列鎖からなる生体分子である。タンパク質は、主にアミノ酸の配列が互いに異なり、配列間の相違は「変異」と呼ばれる。
【0003】
タンパク質工学の最終目標の1つは、所望の特性(総称して「適応度(fitness)」と呼ぶ)を有するペプチド、酵素、タンパク質、又はアミノ酸配列の設計及び構成である。アミノ酸又はアミノ酸ブロック(キメラタンパク質)の人工的なアミノ酸置換、除去、又は挿入による改変アミノ酸配列(すなわち「変異体」)の構成は、適応度に対する任意の特定のアミノ酸の役割の評価、及びタンパク質構造とその適応度との関係の理解を可能にする。
【0004】
定量的構造−機能/適応度関係解析の主な目的は、タンパク質の構造の変化がその適応度に及ぼす影響を調べ、数学的に記述することである。変異の影響は、様々なアミノ酸の物理化学的特性及び他の分子特性に関係付けられ、統計解析によって扱うことができる。
【0005】
適応度ランドスケープを探索し、n個の単一点置換の全ての可能な組合せ(順列)を調べることは非常に困難な作業である。実際、変異体の数は非常に迅速に増加する(表1)。
【0006】
【表1】
【0007】
全ての生じ得る変異体を探索することは、特にnが増加する場合には実験的に困難である。実際には、ウェットラボで単一点置換を有する変異体を製造することはかなり容易且つ安価である。変異体のそれぞれに関して、適応度を容易に特徴付けることができる。
【0008】
しかし、単一点置換を組み合わせることは、ウェットラボではそれほど容易でない。標的にされるn個の単一点置換の全ての可能な(2個の)組合せを生成することは、非常に困難であり且つコストがかかるものであり得る。大規模な適応度の評価には問題がある。
【0009】
タンパク質の指向性進化のプロセスを促進するために、インビトロ及びインシリコの混合手法が開発されている。それらの手法は、ウェットラボから、(部位特異的な、ランダムな、又は組合せ変異誘発によって)変異体のライブラリを構築すること、ライブラリからの限られた数の試料の配列及び/又は構造(「学習データセット」と呼ばれる)を検索すること、及び各サンプリングされた変異体の適応度を評価することを必要とする。それらは、インシリコから各変異体に関する記述子を抽出し、記述子と適応度(学習段階)との関係を確立するための多変量統計法を使用し、実験的に試験されていない変異体に関する予測を行うためにモデルを確立することをさらに必要とする。
【0010】
定量的構造−機能関係(QFSR)と呼ばれる3D構造に基づく方法が提案されている(非特許文献1)。3次元構造ではなく配列のみに基づいて、統計的モデリングを使用してインシリコでの合理的スクリーニングを行う他の方法が提案されている(非特許文献2;非特許文献3;非特許文献4;非特許文献5;非特許文献6)。最もよく知られているのは、2値符号化(0又は1)に基づくProSAR(非特許文献3;非特許文献5)である。
【0011】
QSFR法は効率的であり、非多様体残基との生じ得る相互作用に関する情報を考慮に入れる。しかし、QSFRは、3Dタンパク質構造に関する情報を必要とし、そのような情報は現在のところ依然として限られており、この方法はさらに遅くなる。
【0012】
それに対して、ProSARは、一次配列のみに基づいて計算されるため、3D構造の知識を必要とせず、線形及び非線形モデルを使用することができる。しかし、ProSARは依然として欠点があり、そのスクリーニング能力は限られている。特に、多様化された残基のみがモデリングに含まれ、その結果、変異された残基と他の非多様体残基との間の生じ得る相互作用に関する情報が欠落している。ProSARは、アミノ酸の物理化学的又は他の分子特性を考慮に入れない変異の2値符号化(0又は1)に依拠している。さらに、(i)試験することができる新規の配列は、モデルを構築するために使用された学習セットで使用された位置で変異又は変異の組合せを有する配列のみであり、(ii)スクリーニングされる新規の配列における変異の位置の数が訓練セットでの変異の数と異なってはならず、(iii)モデルを構築するために非線形項を導入するときの計算時間は、スーパーコンピュータでは非常に長い(100個の非線形項では最大で2週間)。
【0013】
したがって、タンパク質の指向性進化のプロセスを促進する多用途であり高速のインシリコ手法が依然として必要とされる。本発明は、これらの要件を満たし、ディジタル信号処理(DSP)に基づく方法を提供する。
【0014】
ディジタル信号処理技法は、信号を分解して処理し、そこに埋め込まれた情報を明らかにする解析手順である。信号は、連続的(永久的)であってもよいし、又はタンパク質残基などに関して離散的であってもよい。タンパク質では、バイオシークエンス(DNA及びタンパク質)の比較、タンパク質ファミリーの特徴付け及びパターン認識、分類、並びに他の構造ベースの研究、例えば、対称性及び反復構造単位又はパターンの解析、2次/3次の構造予測、疎水性コアの予測、モチーフ、保存ドメイン、膜タンパク質の予測、保存領域の予測、タンパク質細胞下位置の予測、アミノ酸配列中の2次構造含量の研究、及びタンパク質中の周期性の検出に関してフーリエ変換法が使用されている。近年、タンパク質構造におけるソレノイドドメインの検出のための新規な方法が提案された。
【0015】
ディジタル信号処理技法は、タンパク質相互作用を解析するのに役立ち(非特許文献7)、生物学的機能を計算可能にしている。これらの研究は、(非特許文献8)において詳細に検討されている。
【0016】
これらの手法では、まず、データベースAAindexからの利用可能なAAindexの1つを使用してタンパク質残基が数値配列に変換され(非特許文献9;非特許文献10)、各アミノ酸の生化学的特性又は物理化学的パラメータを表現する。次いで、これらの数値配列が離散フーリエ変換(DFT)によって処理されて、情報スペクトルの形式でタンパク質の生物学的特性を提供する。この手順は、情報スペクトル法(ISM)と呼ばれる(非特許文献11)。ISM手順は、カルシウム結合タンパク質(非特許文献12)及びインフルエンザウイルス(非特許文献13)での主要な構成を調べるために使用されている。
【0017】
電子−イオン相互作用ポテンシャル(EIIP)と呼ばれるアミノ酸パラメータに関与するISMの多様体は、共鳴認識モデル(RRM)と呼ばれる。この手順では、生物学的機能がスペクトル特性として提供される。この物理−数学的プロセスは、同じ生物学的特性を有する生体分子が、その原子価電子が振動し次いで電磁場内で反響するときを認識してそれら自体に生物学的に付着する(bio-attach)ことに基づいている(非特許文献7;非特許文献14)。
【0018】
共鳴認識モデルは4つのステップを含む((非特許文献8)を参照されたい)。
− ステップ1:タンパク質残基を電子−イオン相互作用ポテンシャル(EIIP)パラメータの数値へと変換。
− ステップ2:ゼロパディング/アップサンプリング。信号処理は、全てのタンパク質のウインドウの長さが同じであることを必要とするため、このプロセスは、ゼロパディングを使用して、任意の位置で解析され得るタンパク質の配列中の隙間を埋める。
− ステップ3:スペクトル特性(SC)を生成するための高速フーリエ変換(FFT)を使用した数値配列の処理、スペクトル特性(SC)は、ステップ4中に各点について乗算されてクロススペクトル(CS)特徴を生成する。
− ステップ4:クロススペクトル解析:クロススペクトル(CS)解析は、スペクトル特性(SC)の各点乗算を表す。
【0019】
したがって、CS解析は、配位子と受容体スペクトルとの間の共通の周波数(共鳴)に基づいて、例えば配位子−受容体結合を予測するために定性的に使用されている。別の例は、RRMをHa−ras p21タンパク質配列に適用することにより、ras様活性の有無、すなわち細胞の形質転換の可能性の有無を予測することである。
【0020】
これらの従来技術の方法によって提供される情報は有用であるが、指向性進化によって生成された最も有用なタンパク質変異体を同定するには不十分である。
【先行技術文献】
【非特許文献】
【0021】
【非特許文献1】Damborsky J,Prot.Eng.(1998)Jan;11(1):21−30
【非特許文献2】Fox R.et al.,Protein Eng.(2003)16(8):589−97
【非特許文献3】Fox R.,Journal of Theoretical Biology(2005),234:187−199
【非特許文献4】Minshull J.et al.,Curr Opin Chem Biol.2005 Apr;9(2):202−9
【非特許文献5】Fox R.et al.,Nature Biotechnology(2007),25(3):338−344
【非特許文献6】Fox R.and Huisman GW Trends Biotechnol.2008 Mar;26(3):132−8
【非特許文献7】Cosic I.,IEEE Trans Biomed Eng.(1994)41(12):1101−14
【非特許文献8】Nwankwo N.and Seker H.(J Proteomics Bioinform(2011)4(12):260−268)
【非特許文献9】Kawashima,S.and Kanehisa,M.Nucleic Acids Res.(2000),28(1):374
【非特許文献10】Kawashima,S.et al.,Nucleic Acids Res.Jan 2008;36
【非特許文献11】Veljkovic V,et al.,IEEE Trans Biomed Eng.1985 May;32(5):337−41
【非特許文献12】Viari A,et al.,Comput Appl Biosci.1990 Apr;6(2):71−80
【非特許文献13】Veljkovic V.,et al.BMC Struct Biol.2009 Apr 7;9:21,Veljkovic V.,et al.BMC Struct Biol.2009 Sep 28;9:62
【非特許文献14】Cosic I.,The Resonant Recognition Model of Macromolecular Bioactivity Birkhauser Verlag,1997
【発明の概要】
【課題を解決するための手段】
【0022】
したがって、本発明は、タンパク質の少なくとも1つの適応度値を予測するための方法であって、コンピュータ上で実施され、以下のステップ:
− タンパク質のアミノ酸配列をタンパク質データベースによる数値配列に符号化するステップであって、当該数値配列はアミノ酸配列の各アミノ酸の値を含む、ステップと、
− 数値配列に従って、タンパク質スペクトルを計算するステップと、
各適応度について、
− 計算されたタンパク質スペクトルを所定のデータベースのタンパク質スペクトル値と比較するステップであって、データベースがは適応度の異なる値に関するタンパク質スペクトル値を含む、ステップと、
− 比較ステップに従って、適応度の値を予測するステップと
を含む方法に関する。
【0023】
したがって、本発明者らによって開発された方法は、タンパク質スペクトルの定量解析を含み、これは、所与の活性の有無を予測するだけでなく、タンパク質の適応度値を予測することを可能にする。
【0024】
本発明の他の有利な態様によれば、本発明による方法は、単独で又は全ての技術的に可能な組合せに従って以下の特徴の1つ又は複数を含む。
− 計算されたタンパク質スペクトルは、少なくとも1つの周波数値を含み、計算されたタンパク質スペクトルは、各周波数値についてタンパク質スペクトル値と比較され、
− タンパク質スペクトル計算ステップにおいて、高速フーリエ変換などのフーリエ変換が、符号化ステップによってさらに得られた数値配列に適用され、
− 各タンパク質スペクトルは以下の式:
【数1】
を検証し、
ここで、jはタンパク質スペクトル|f|のインデックス番号であり、数値配列はxと表されるN個の値を含み、0≦k≦N−1且つN≧1であり、iはi=−1であるような虚数を定義し、
− 符号化ステップにおいて、タンパク質データベースは生化学的又は物理化学的な特性値の少なくとも1つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられ、
各アミノ酸について、数値配列における値が所与のインデックスにおけるアミノ酸に関する特性値に等しく、
− 符号化ステップにおいて、タンパク質データベースは特性値の幾つかのインデックスを含み、
当該方法は、各インデックスに従って、試料タンパク質に関する測定適応度値と、試料タンパク質について以前に得られた予測適応度値との比較に基づいて、最良のインデックスを選択するステップをさらに含み、
符号化ステップは、選択されたインデックスを使用して行われ、
− 選択ステップにおいて、選択されたインデックスは、最小の二乗平均平方根誤差を有するインデックスであり、
各インデックスの二乗平均平方根誤差は以下の式:
【数2】
を検証し、
ここで、yは第iの試料タンパク質の測定適応度であり、
【数3】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは試料タンパク質の数であり、
− 選択ステップにおいて、選択されたインデックスは、1に最も近い決定係数を有するインデックスであり、
各インデックスの決定係数は以下の式:
【数4】
を検証し、
ここで、yは第iの試料タンパク質の測定適応度であり、
【数5】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは試料タンパク質の数であり、
【数6】
はS個の試料タンパク質に関する測定適応度の平均であり、
【数7】
はS個の試料タンパク質に関する予測適応度の平均であり、
− 当該方法は、符号化ステップの後で且つタンパク質スペクトル計算ステップの前に、以下のステップ:
+ 数値配列の各値から数値配列値の平均を引くことにより、符号化ステップによって得られた数値配列を正規化するステップ
をさらに含み、
タンパク質スペクトル計算ステップは、正規化された数値配列に対して行われ、
− 当該方法は、符号化ステップの後で且つタンパク質スペクトル計算ステップの前に、以下のステップ:
+ 数値配列の一端にM個のゼロを加えることにより、符号化ステップによって得られた数値配列をゼロパディングするステップであって、Mは(N−P)に等しく、ここで、Nが所定の整数であり、Pは前記数値配列における値の数である、ステップ
をさらに含み、
タンパク質スペクトル計算ステップは、ゼロパディングステップによってさらに得られた数値配列に対して行われ、
− 比較ステップは、適応度の異なる値に関するタンパク質スペクトル値の所定のデータベース内で、所定の基準に従って、計算されたタンパク質スペクトルに最も近いタンパク質スペクトル値を決定するステップを含み、、適応度の予測値は、データベース内において、決定されたタンパク質スペクトル値に関連付けられる適応度値に等しく、
− タンパク質スペクトル計算ステップにおいて、幾つかの周波数範囲に従ってタンパク質について幾つかのタンパク質スペクトルが計算され、
予測ステップにおいて、比較ステップに従って各タンパク質スペクトルについて適応度の中間値が推定され、当該中間適応度値を使用して適応度の予測値が計算され、
好ましくは、中間適応度値に対する部分的最小二乗回帰などの回帰が用いられ、並びに
− 当該方法は、
− 変異体ライブラリのスクリーニングのために、計算されたタンパク質スペクトルに従ってタンパク質を解析するステップ
を含み、
解析は、好ましくは要因判別解析又は主成分解析を使用して行われる。
【0025】
本発明はまた、コンピュータによって実施されると、上で定義したような方法を実施するソフトウェア命令を含む、コンピュータプログラム製品に関する。
【0026】
本発明はまた、タンパク質の少なくとも1つの適応度値を予測するための電子予測システムであって、
− アミノ酸配列をタンパク質データベースによる数値配列に符号化するように構成された符号化モジュールであって、数値配列はアミノ酸配列の各アミノ酸の値を含む、符号化モジュールと、
− 数値配列に従って、タンパク質スペクトルを計算するように構成された計算モジュールと、
− 予測モジュールであって、各適応度について、
+ 計算されたタンパク質スペクトルを所定のデータベースのタンパク質スペクトル値と比較することであって、データベースは適応度の異なる値に関するタンパク質スペクトル値を含む、比較することと、
+ 比較に従って適応度の値を予測することと
を行うように構成された予測モジュールと
を含む、電子予測システムに関する。
【0027】
本発明は、以下の説明を読むことでより良く理解されるであろう。以下の説明は、単なる例として、添付図面を参照して提示される。
【図面の簡単な説明】
【0028】
図1】タンパク質の少なくとも1つの適応度値を予測するための電子予測システムの概略図である。予測システムは、アミノ酸配列を数値配列に符号化するように構成された符号化モジュールと、数値配列に従ってタンパク質スペクトルを計算するように構成された計算モジュールと、各適応度の少なくとも1つの値を予測するように構成された予測モジュールとを含む。
図2】本発明による、タンパク質の少なくとも1つの適応度値を予測するための方法の概略フローチャートである。
図3】天然型及び変異型のヒトGLP1タンパク質について得られたタンパク質スペクトルの曲線を表す。
図4】シトクロムP450ファミリーのタンパク質の組に関する熱安定性の予測値及び測定値を示す点の組である。各点はそれぞれのタンパク質に関係付けられ、縦軸は予測値に対応し、横軸は測定値に対応し、タンパク質スペクトルに含まれる全ての周波数が用いられる。
図5】シトクロムP450ファミリーからのタンパク質の組の訓練サブセット及び検証サブセットについてそれぞれ得られた、図4のものと同様の図である。訓練サブセットは、熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、対応する測定値と比較した予測値との関連性を試験するために使用される。
図6】シトクロムP450ファミリーからのタンパク質の組の訓練サブセット及び検証サブセットについてそれぞれ得られた、図4のものと同様の図である。訓練サブセットは、熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、対応する測定値と比較した予測値との関連性を試験するために使用される。
図7】GLP1変異体の組に関する結合親和性の予測値及び測定値を含む、図4のものと同様の図である。
図8】GLP1変異体の組に関する効力の予測値及び測定値を含む、図4のものと同様の図である。
図9】エンテロトキシンSEE及びSEAの組の訓練サブセット及び検証サブセットについてそれぞれ得られた熱安定性の予測値及び測定値を含む、図4のものと同様の図である。訓練サブセットは、上記熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。
図10】エンテロトキシンSEE及びSEAの組の訓練サブセット及び検証サブセットについてそれぞれ得られた熱安定性の予測値及び測定値を含む、図4のものと同様の図である。訓練サブセットは、上記熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。
図11】TNF変異体の組の訓練サブセット及び検証サブセットについてそれぞれ得られた結合親和性の予測値及び測定値を含む、図4のものと同様の図である。訓練サブセットは、上記結合親和性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。
図12】TNF変異体の組の訓練サブセット及び検証サブセットについてそれぞれ得られた結合親和性の予測値及び測定値を含む、図4のものと同様の図である。訓練サブセットは、上記結合親和性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。
図13】タンパク質スペクトルからの周波数値の選択を使用する、図4のものと同様の図である。
図14】エポキシドヒドロラーゼファミリーのタンパク質の組に関するエナンチオ選択性の予測値及び測定値を含む、図4のものと同様の図である。
図15】エポキシドヒドロラーゼの512個の変異体のライブラリのスクリーニングを表す。
図16】タンパク質スクリーニングに関する多変量解析(主成分解析)を使用したエポキシドヒドロラーゼの10個の変異体のタンパク質スペクトルの分類を表す。
図17】ブルトン型チロシンキナーゼ多様体に関するタンパク質発現レベルの予測値及び測定値を含む、図4のものと同様の図である。
図18】K562細胞株におけるRNAに関するmRNA発現レベルの予測値及び測定値を含む、図4のものと同様の図である。
図19】心臓細胞におけるタンパク質に関するタンパク質発現レベルの予測値及び測定値を含む、図4のものと同様の図である。
図20】腎臓細胞におけるタンパク質に関するタンパク質発現レベルの予測値及び測定値を含む、図4のものと同様の図である。
【発明を実施するための形態】
【0029】
本明細書で使用するとき、「タンパク質」とは、ペプチド結合によって共に連結された少なくとも2つのアミノ酸を意味する。「タンパク質」という用語には、タンパク質、オリゴペプチド、ポリペプチド、及びペプチドが含まれる。ペプチジル基は、天然のアミノ酸及びペプチド結合、又は合成ペプチド模倣構造体、すなわちペプトイドなどの「類似体」を含むことがある。アミノ酸は、天然のものでも、天然に存在しないものでもよい。好ましい実施形態では、タンパク質は少なくとも10個のアミノ酸を含むが、より少数のアミノ酸でもよい。
【0030】
タンパク質の「適応度」とは、触媒効率、触媒活性、速度定数、Km、Keq、結合親和性、熱安定性、溶解度、凝集、効力、毒性、アレルギー性、免疫原性、熱力学的安定性、柔軟性などの基準へのそのタンパク質の適合を表す。本発明によれば、「適応度」は「活性」とも呼ばれ、以下の説明では、適応度と活性とが同じ特徴を表すものとみなす。
【0031】
触媒効率は、通常、s−1.M−1単位で表され、kcat/Kmの比を示す。
【0032】
触媒活性は、通常、mol.s−1単位で表され、酵素触媒作用における酵素活性レベルを示す。
【0033】
速度定数kcatは、通常、s−1単位で表され、反応速度を定量化する数値パラメータを示す。
【0034】
Kmは、通常、M単位で表され、反応速度がその最大値の半分である基質濃度を示す。
【0035】
Keqは、通常、(M単位、M−1単位、又は単位なし)で表され、化学反応での化学的平衡を特徴付ける量である。
【0036】
結合親和性は、通常、M単位で表され、タンパク質同士又はタンパク質と配位子(ペプチド若しくは小さい化学分子)との相互作用の強さを示す。
【0037】
熱安定性は、通常、℃単位で表され、通常、測定される活性T50を示し、これは、通常、10分間のインキュベーション時間後にタンパク質の50%が不可逆的に変性される温度として定義される。
【0038】
溶解度は、通常、mol/L単位で表され、溶液が飽和する前に溶液1リットル当たりに溶解することができる物質(溶質)のモル数を示す。
【0039】
凝集は、通常、(280nm及び340nmでの単純な吸収測定からの)凝集指数を用いて表され、ミスフォールディングされたタンパク質が細胞内又は細胞外で凝集(すなわち蓄積及び集塊)する生物学的現象を表す。
【0040】
効力は、通常、M単位で表され、所与の強度の効果をもたらすのに必要な量で表された薬物活性の尺度を示す。
【0041】
毒性は、通常、M単位で表され、物質(毒素又は毒)がヒト又は動物に害を与える可能性がある度合いを示す。
【0042】
アレルギー性は、通常、BAU/mL単位(1mL当たりの生物学的同等性アレルギー単位)で表され、抗原性物質が即時過敏症(アレルギー)を引き起こす能力を示す。
【0043】
免疫原性は、通常、試料中の抗体の量の単位で表され、抗原又はエピトープなど特定の物質がヒト又は動物の体内で免疫応答を引き起こす能力を示す。
【0044】
安定性は、通常、ΔΔG(kcal/mol−1)単位で表され、迅速に、可逆的に、且つ協働してアンフォールディング及びリフォールディングするタンパク質の熱力学的安定性を示す。
【0045】
柔軟性は、通常、A°単位で表され、タンパク質疾患及び構造変化を表す。
【0046】
図1では、タンパク質の少なくとも1つの適応度値を予測するための電子予測システム20は、データ処理ユニット30と、表示画面32と、データ処理ユニット30にデータを入力するための入力手段34とを含む。
【0047】
データ処理ユニット30は、例えば、メモリ40と、メモリ40に関連付けられたプロセッサ42とから構成される。
【0048】
表示画面32及び入力手段34は、それ自体既知である。
【0049】
メモリ40は、アミノ酸配列をタンパク質データベース51による数値配列に符号化するように構成された符号化コンピュータプログラム50と、数値配列に従ってタンパク質スペクトルを計算するように構成された計算コンピュータプログラム52とを記憶するように適合され、タンパク質スペクトルは、本明細書において以下では|f|と表し、jはタンパク質スペクトルのインデックス番号である。
【0050】
メモリ40はまた、上記適応度の異なる値に関するタンパク質スペクトル値を含むタンパク質スペクトルデータベース55を予め決定するように構成された、モデリングコンピュータプログラム54を記憶するように適合される。
【0051】
メモリ40は、各適応度について、計算されたタンパク質スペクトルを上記予め決定されたデータベースのタンパク質スペクトル値と比較すると共に、当該比較に従って上記適応度の値を予測するように、また任意選択的にさらに変異体ライブラリをスクリーニングするように構成された、予測コンピュータプログラム56を記憶するように適合される。
【0052】
任意選択的な追加として、メモリ40は、計算されたタンパク質スペクトルに従ってタンパク質を解析し、それにより変異体ライブラリをスクリーニングするように構成された、スクリーニングコンピュータプログラム58を記憶するように適合される。解析は、好ましくは、要因判別解析又は主成分解析である。
【0053】
プロセッサ42は、符号化、計算、モデリング、予測、及びスクリーニングコンピュータプログラム50、52、54、56、58のそれぞれを実行するように構成される。符号化、計算、モデルリング、予測、及びスクリーニングコンピュータプログラム50、52、54、56、58は、それらがプロセッサ42によって実行されるときに、それぞれアミノ酸配列をタンパク質データベースによる数値配列に符号化するための符号化モジュール;数値配列に従ってタンパク質スペクトルを計算するための計算モジュール;タンパク質スペクトル値を含むデータベースを予め決定するためのモデリングモジュール;計算されたタンパク質スペクトルを上記予め決定されたデータベースのタンパク質スペクトル値と比較し、当該比較に従って上記適応度の値を予測し、及びスクリーニングするための予測モジュール;計算されたタンパク質スペクトルに従ってタンパク質を解析するためのスクリーニングモジュールを形成する。
【0054】
代替として、符号化モジュール50、計算モジュール52、モデリングモジュール54、予測モジュール56、及びスクリーニングモジュール58は、プログラマブル論理コンポーネントの形態又は専用集積回路の形態である。
【0055】
符号化モジュール50は、アミノ酸配列をタンパク質データベース51による数値配列に符号化するように適合される。数値配列は、アミノ酸配列の各アミノ酸の値xを含む。数値配列は、P個の値xで構成され、0≦k≦P−1且つP≧1(k及びPは整数)である。
【0056】
タンパク質データベース51は、例えばメモリ40に記憶される。代替として、タンパク質データベース51は、メモリ40と異なる遠隔メモリ(図示せず)に記憶される。
【0057】
タンパク質データベース51は、好ましくは、アミノ酸インデックスデータベース(AAINdexとも呼ばれる)である。アミノ酸インデックスデータベースはhttp://www.genome.jp/dbget−bin/www_bfind?aaindex(バージョンリリース9.1、8月6日)から入手できる。
【0058】
タンパク質データベース51は、生化学的又は物理化学的な特性値の少なくとも1つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられている。タンパク質データベース51は、好ましくは、生化学的又は物理化学的な特性値の幾つかのインデックスを含む。各インデックスは、それぞれの例を参照して以下に述べるように、例えばAAindexコードに対応する。アミノ酸配列を符号化するための選択されたAAindexコードは、例えば、D伸長構造の正規化周波数、D電子−イオン相互作用ポテンシャル値、D全タンパク質のAA組成のSD、D pK−C、又はD IFHスケールからの重量である。
【0059】
次いで、アミノ酸配列を符号化するために、符号化モジュール50は、各アミノ酸について、所与のインデックスでの上記アミノ酸に関する特性値を決定するように適合される。この場合、数値配列における各符号化された値xは、それぞれの特性値に等しい。
【0060】
追加として、任意選択的に、タンパク質データベース51が特性値の幾つかのインデックスを含むとき、符号化モジュール50は、試料タンパク質に関する測定適応度値と、各インデックスに従って上記試料タンパク質について以前に得られた予測適応度値との比較に基づいて最良のインデックスを選択し、当該選択されたインデックスを使用してアミノ酸配列を符号化するようにさらに構成される。
【0061】
選択されたインデックスは、例えば、最小二乗平均平方根誤差を用いたインデックスであり、各インデックスの二乗平均平方根誤差は以下の式:
【数8】
を検証し、
ここで、yは第iの試料タンパク質の測定適応度であり、
【数9】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは試料タンパク質の数である。
【0062】
代替として、選択されるインデックスは、1に最も近い決定係数を有するインデックスであり、各インデックスの決定係数は以下の式:
【数10】
を検証し、
ここで、yは第iの試料タンパク質の測定適応度であり、
【数11】
は、第jのインデックスを有する第iの試料タンパク質の予測適応度であり、
Sは試料タンパク質の数であり、
【数12】
はS個の試料タンパク質に関する測定適応度の平均であり、
【数13】
はS個の試料タンパク質に関する予測適応度の平均である。
【0063】
追加として、任意選択的に、符号化モジュール50は、例えば数値配列の各値xから数値配列値の平均
【数14】
を引くことにより、得られた数値配列を正規化するようにさらに構成される。
【0064】
すなわち、
【数15】
で表される各正規化された値は、以下の式:
【数16】
を検証する。
【0065】
平均
【数17】
は、例えば算術平均であり、以下を満たす。
【数18】
【0066】
代替として、平均
【数19】
は、幾何平均、調和平均、又は平方平均である。
【0067】
追加として、任意選択的に、符号化モジュール50は、上記数値配列の一端にM個のゼロを加えることにより、得られた数値配列をゼロパディングするようにさらに構成され、Mは(N−P)に等しい。ここで、Nは所定の整数であり、Pは上記数値配列における値の初期数である。したがって、Nは、ゼロパディング後の数値配列における値の総数である。
【0068】
計算モジュール52は、数値配列に従ってタンパク質スペクトルを計算するように構成される。計算されたタンパク質スペクトルは、少なくとも1つの周波数値を含む。
【0069】
計算モジュール52は、好ましくは、得られた数値配列に高速フーリエ変換などのフーリエ変換を適用することにより、タンパク質スペクトル|f|を計算するように構成される。
【0070】
したがって、各タンパク質スペクトル|f|は、例えば以下の式:
【数20】
を検証する。
ここで、jはタンパク質スペクトル|f|のインデックス番号であり、iは、i=−1であるような虚数を定義する。
【0071】
追加として、数値配列が符号化モジュール50によって正規化されるとき、計算モジュール52は、正規化された数値配列に対してタンパク質スペクトル計算を行うようにさらに構成される。
【0072】
したがって、換言すると、この場合、各タンパク質スペクトル|f|は、例えば以下の式:
【数21】
を検証する。
【0073】
追加として、符号化モジュール50によって数値配列に対してゼロパディングが行われるとき、計算モジュール52は、ゼロパディングによってさらに得られた数値配列についてタンパク質スペクトル|f|を計算するようにさらに構成される。
【0074】
したがって、換言すると、この場合、各タンパク質スペクトル|f|は、例えば以下の式:
【数22】
を検証する。
【0075】
追加として、符号化モジュール50によって数値配列に対して正規化とゼロパディングとの両方が行われるとき、計算モジュール52は、ゼロパディングによってさらに得られた正規化された数値配列におけるタンパク質スペクトル|f|を計算するようにさらに構成される。
【0076】
したがって、換言すると、この場合、各タンパク質スペクトル|f|は、例えば以下の式:
【数23】
を検証する。
【0077】
モデリングモジュール54は、符号化モジュール50から発出された学習データ及び計算モジュール52から発出された学習タンパク質スペクトルに従って、タンパク質スペクトルデータベース55(モデルとも呼ばれる)を予め決定するように構成される。学習タンパク質スペクトルは学習データに対応し、学習データは、それぞれ所与の適応度に関係付けられ、好ましくは上記適応度の異なる値に関するものである。
【0078】
タンパク質スペクトルデータベース55は、各適応度の異なる値に関するタンパク質スペクトル値を含む。好ましくは、タンパク質スペクトルデータベース55を構築するために、少なくとも10個のタンパク質スペクトル及び10個の異なる適応度が使用される。当然、タンパク質スペクトル及び関連するタンパク質適応度の数が多いほど、適応度の予測に関してより良好な結果となる。以下の実施例では、学習データとして使用されたタンパク質スペクトル及び適応度の数は、8〜242(242個のタンパク質スペクトル及び242個のタンパク質適応度;8個のタンパク質スペクトル及び8個のタンパク質適応度)の範囲であった。
【0079】
予測モジュール56は、各適応度について、計算されたタンパク質スペクトルをタンパク質スペクトルデータベース55のタンパク質スペクトル値と比較し、当該比較に従って上記適応度の値を予測するように適合される。
【0080】
予測モジュール56は、タンパク質スペクトルデータベース55内で、所定の基準に従って、計算されたタンパク質スペクトルに最も近いタンパク質スペクトル値を決定するようにさらに構成される。この場合、上記適応度の予測値は、タンパク質スペクトルデータベース55内の決定されたタンパク質スペクトル値に関連付けられる適応度値に等しい。
【0081】
所定の基準は、例えば、計算されたタンパク質スペクトルと、タンパク質スペクトルデータベース55に含まれるタンパク質スペクトル値との最小の差である。代替として、所定の基準は、計算されたタンパク質スペクトルとタンパク質スペクトルデータベース55に含まれるタンパク質スペクトル値との間の相関係数R又は決定係数R2である。
【0082】
タンパク質スペクトル|f|が幾つかの周波数値を含むとき、計算されたタンパク質スペクトル|f|は、各周波数値について上記タンパク質スペクトル値と比較される。
【0083】
代替として、計算されたタンパク質スペクトル|f|と上記タンパク質スペクトル値との比較のために周波数値の幾つかのみが考慮に入れられる。この場合、周波数値は、例えば適応度とのそれらの相関に従ってソートされ、計算されたタンパク質スペクトルの比較のために最良の周波数値のみが考慮に入れられる。
【0084】
追加として、任意選択的に、予測モジュール56は、幾つかの周波数範囲に従って上記タンパク質について幾つかのタンパク質スペクトルが計算されるとき、各タンパク質スペクトルについて適応度の中間値を推定するようにさらに構成される。
【0085】
次いで、予測モジュール56は、部分的最小二乗回帰(PLSRとも呼ばれる)など、上記中間適応度値に対する回帰を用いて適応度の予測値を計算するようにさらに構成される。
【0086】
代替として、予測モジュール56は、人工ニューラルネットワーク(ANN)を使用して適応度の予測値を計算するように構成され、入力変数は上記中間適応度値であり、出力変数は適応度の予測値である。
【0087】
追加として、任意選択的に、予測モジュール56は、適応度としてエナンチオ選択性を用いた図15を参照して以下に述べるように、変異体ライブラリのスクリーニングを得ることを可能にする。
【0088】
追加として、任意選択的に、スクリーニングモジュール58は、計算されたタンパク質スペクトルに従ってタンパク質を解析し、要因判別解析又は主成分解析とそれに続く例えばk平均などの数学的処理とを使用して、タンパク質配列をそれらのそれぞれのタンパク質スペクトルに従って分類するように適合される。分類は、例えば、タンパク質スペクトルのファミリー内に異なる群が存在するかどうかを識別するために行うことができる。例えば、高い、中程度の、及び低い適応度を有する群;適応度の表現を有する群と適応度の表現を有さない群である。以下で、図16を参照してこのスクリーニングをさらに例示する。
【0089】
次に、本発明による電子予測システム20の動作を、タンパク質の少なくとも1つの適応度値を予測するための方法のフローチャートを表す図2を参照して述べる。
【0090】
最初のステップ100で、符号化モジュール50は、タンパク質のアミノ酸配列をタンパク質データベース51による数値配列に符号化する。
【0091】
符号化ステップ100は、アミノ酸インデックスデータベース(AAIndexとも呼ばれる)を使用して行ってよい。
【0092】
符号化ステップ100において、符号化モジュール50は、各アミノ酸について、例えば所与のAAindexコードにおける所与のインデックスでの当該アミノ酸に関する特性値を決定し、次いで、当該特性値に等しい符号化された値xを発出する。
【0093】
追加として、タンパク質データベース51が任意選択的に特性値の幾つかのインデックスを含むとき、符号化モジュール50は、さらに、試料タンパク質に関する測定適応度値と、各インデックスに従って当該試料タンパク質について以前に得られた予測適応度値との比較に基づいて最良のインデックスを選択し、当該選択されたインデックスを使用してアミノ酸配列を符号化する。
【0094】
最良のインデックスは、例えば、式(1)又は式(2)を使用して選択される。
【0095】
追加として、符号化モジュール50は、任意選択的に、例えば式(3)に従って数値配列の各値xから数値配列値の平均
【数24】
を引くことにより、得られた数値配列を正規化する。
【0096】
追加として、符号化モジュール50は、任意選択的に、上記数値配列の一端にM個のゼロを加えることにより、得られた数値配列に対してゼロパディングを行う。
【0097】
符号化ステップ100の最後に、符号化モジュール50は、学習数値配列及び検証数値配列を計算モジュール52に送達し、学習データをモデリングモジュール54に送達する。
【0098】
2つのタンパク質スペクトルの一例が図3に示されている。第1の曲線102は、天然型のヒトGLP1タンパク質に関するタンパク質スペクトルを表しており、第2の曲線104は、変異型(単一変異)のヒトGLP1タンパク質に関するタンパク質スペクトルを表している。各曲線102、104について、タンパク質スペクトルの連続する離散値が互いにつながれている。
【0099】
次のステップ110において、計算モジュール52は、符号化モジュール50から発出された各数値配列について、タンパク質スペクトル|f|を計算する。学習数値配列に対応するタンパク質スペクトルは学習スペクトルとも呼ばれ、検証数値配列に対応するタンパク質スペクトルは検証スペクトルとも呼ばれる。ステップ110はスペクトル変換ステップとも呼ばれる。タンパク質スペクトル|f|は、好ましくは、任意選択的な正規化及び/又はゼロパディングに応じて、例えば式(5)〜(8)のうちの1つの式に従って、高速フーリエ変換などのフーリエ変換を使用することによって計算される。
【0100】
次いで、モデリングモジュール54は、ステップ120において、符号化ステップ100中に得られた学習データ及びスペクトル変換ステップ110中に得られた学習タンパク質スペクトルに従って、タンパク質スペクトルデータベース55を決定する。
【0101】
ステップ130において、各適応度について、予測モジュール56は、計算されたタンパク質スペクトルを、タンパク質スペクトルデータベース55から発出されたタンパク質スペクトル値と比較し、当該比較に従って適応度値を予測する。
【0102】
より正確には、予測モジュール56は、タンパク質スペクトルデータベース55内で、所定の基準に従って、計算されたタンパク質スペクトルに最も近いタンパク質スペクトル値を決定する。この場合、予測適応度値は、タンパク質スペクトルデータベース55内の決定されたタンパク質スペクトル値に関連付けられる適応度値に等しい。
【0103】
任意選択的に、計算されたタンパク質スペクトル|f|と上記タンパク質スペクトル値との比較のために、周波数値の幾つかのみが考慮に入れられる。
【0104】
追加として、予測モジュール56は、幾つかの周波数範囲に従って上記タンパク質について幾つかのタンパク質スペクトルが任意選択的に計算されるとき、各タンパク質スペクトルについて中間適応度値を推定する。次いで、予測モジュール56は、PLSRなど、当該中間適応度値に対する回帰を用いて予測適応度値を計算する。代替として、予測モジュール56により、当該中間適応度値に基づいて適応度の予測値を計算するために、人工ニューラルネットワーク(ANN)が使用される。次いで、予測モジュール56は、予測適応度についてタンパク質スペクトルをランク付けすることによって、タンパク質スクリーニングを可能にする。
【0105】
最後に、任意選択的に、スクリーニングモジュール58は、ステップ140で、要因判別解析又は主成分解析などの数学的処理を使用して、タンパク質配列をそれらの各タンパク質スペクトルに従って解析して分類する。
【0106】
代替として、変異体ライブラリをスクリーニングするための解析は、例えば所定の値との比較を使用することにより、計算されたタンパク質スペクトルに対して直接行われる。
【0107】
したがって、変異体ライブラリのより良好なスクリーニングを得ることが可能になる。このステップは、多変量解析ステップとも呼ばれる。
【0108】
解析ステップ140は、スペクトル変換ステップ120の直後に続き、追加として、予測ステップ130が、分類されたタンパク質の幾つか又は全てに関する適応度値を予測するために解析ステップ140後に行われ得ることに留意されたい。
【0109】
潜在成分が元の変数の線形結合として計算される。潜在成分の数は、RMSE(二乗平均平方根誤差)を最小にするように選択される。潜在成分は、元の変数(周波数値)の線形結合として計算される。潜在成分の数は、成分を1つずつ追加することによって、RMSE(二乗平均平方根誤差)を最小にするように選択される。
[実施例]
【0110】
以下の実施例を参照して本発明をさらに例示する。
【0111】
実施例1:シトクロムP450(図4図6
この実施例では、シトクロムP450のアミノ酸配列を、以下のAAindexコードを使用して数値配列に符号化した:D伸長構造の正規化周波数(Maxfield and Scheraga,Biochemistry.1976;15(23):5138−53)。
【0112】
最初のデータセット(Li et al.,2007:Nat Biotechnol 25(9):1051−1056.;Romero et al.,PNAS.2013:January 15,vol 110,n°3:E193−E201からのもの)は、シトクロムP450ファミリー、特にシトクロムP450 BM3 A1、A2、及びA3に関する配列/安定性−機能関係に関する研究からのものであり、この研究は、シトクロムの熱安定性を改良することを狙いとする。ヘム含有酸化還元酵素の多様なシトクロムP450ファミリーは、様々な基質をヒドロキシル化して、医学的及び工業的に重要性の高い産物を生成する。これら3つの異なる親の任意のものから継承された8つの連続する断片を有する新規のキメラタンパク質が生成された。測定される活性は、10分間のインキュベーション時間後にタンパク質の50%が不可逆的に変性される温度として定義されるT50である。得られたデータセットは、39.2〜64.48℃の範囲のT50実験値を有する242個の多様体配列で構成される。CYP102A1、並びにその同族体CYP102A2(A2)及びCYP102A3(A3)のヘムドメインの組換えは、それぞれ3つの親の1つから選択される8つの断片からなる242個のキメラP450配列の作成を可能にする。キメラは、断片構成に従って書き表される。例えば、23121321は、親A2からの最初の断片、A3からの第2の断片、A1からの第3の断片などを継承するタンパク質を表す。
【0113】
【表2a】
【表2b】
【0114】
図4は、一個抜き交差検証(LOOCV)R2=0.96及びRMSE=1.21を使用して、タンパク質配列の全集合に対するモデリングを行った後に得られた結果を示す。これは、そのような方法を使用してタンパク質の適応度に関する情報を捕捉し得ることを実証する。
【0115】
【表3】
【0116】
図5及び図6は、モデルがシトクロムP450に関する変異の組合せを予測し得ることを示す。ここでは、データセットを、学習配列としての196個の配列と検証配列としての46個の配列とに分割した。
【0117】
実施例2:ヒトグルカゴン様ペプチド−1(GLP1)予測類似体(図7及び図8
この実施例では、GLP1のアミノ酸配列を、以下のAAindexコードを使用して数値配列に符号化した:D電子−イオン相互作用ポテンシャル値(Cosic,IEEE Trans Biomed Eng.1994 Dec;41(12):1101−14)。
【0118】
タスポグルチド及びエクセンディン−4は、グルカゴン様ペプチド(GLP)受容体のペプチドアゴニストとして作用し、II型糖尿病の治療のために臨床開発中(タスポグルチド)のGLP1類似体である。
【0119】
【表4】
【0120】
天然のヒトGLP1及びタスポグルチドに対する結合親和性(受容体との相互作用)を改良し、及び/又は効力(受容体の活性化−アデニリルシクラーゼ活性)を改良するGLP1受容体の候補アゴニストを提供するために、本発明の方法を実施した。
【0121】
ヒトGLP1の配列から始めて、単一点部位飽和変異誘発を行うことによって変異体のライブラリをインシリコで設計した。アミノ酸配列のあらゆる位置が19個の他の天然アミノ酸で置換される。したがって、タンパク質配列がn=30個のアミノ酸から構成されている場合、生成されるライブラリは、30×19=570個の単一点多様体を含むことになる。単一点変異の複合を行った。
【0122】
Adelhorst K et al.(J Biol Chem.1994 Mar 4;269(9):6275−8)は、GLP−1受容体との相互作用に必要な側鎖官能基を同定するために、Alaスキャニングにより、すなわち各アミノ酸をL−アラニンで連続的に置換することにより形成されたGLP−1の一連の類似体を既に述べている。L−アラニンが親アミノ酸である場合、グルカゴンでの対応する位置に見出されるアミノ酸で置換が行われた。これらの類似体をラットGLP−1受容体に対する結合アッセイ(IC50)でアッセイし、効力(アデニル酸シクラーゼ活性の検出によって測定された受容体活性化、EC50)をさらに監視した。これらの類似体(30個の単一変異体)及びそれらの報告された活性(それぞれ野生型ヒトGLP1のIC50又はEC50と比較して正規化されたLog(IC50)及びLog(EC50))を、予測モデルを構築するための学習データセットとして使用した(図7及び図8を参照されたい)。
【0123】
【表5】
【0124】
【表6】
【0125】
【表7】
【0126】
それらの活性は、結合親和性について−0.62〜2.55(logIC50)の範囲であり、効力について−0.30〜4.00(logEC50)の範囲であった。
【0127】
結果は、R2及びRMSEがそれぞれ結合親和性(図7)について0.93及び0.19であり、効力(図8)について0.94及び0.28であることを示し、したがって、2つの適応度に関する情報を非常に効率的に捕捉し得ることを示している。
【0128】
ヒトGLP1、タスポグルチド、及び(予測モデルに基づく)最良のインシリコ類似体に関して評価された結合及び効力は、表7に示す通りであった。
【0129】
【表8】
【0130】
GLP1のペプチド配位子類似体とその受容体との結合親和性について、135倍の改良が実現される。124倍の効力の改良が得られる。
【0131】
これは、2つ以上のパラメータを同時に改良するために本発明の方法を使用し得ることを示している。
【0132】
実施例3:エポキシドヒドロラーゼのエナンチオ選択性の推移(図14及び図15
この実施例では、エポキシドヒドロラーゼのアミノ酸配列を、以下のAAindexコードを使用して数値配列に符号化した:D全タンパク質のAA組成のSD(Nakashima et al.,Proteins.1990;8(2):173−8)。
【0133】
エナンチオ選択性は、化学反応において、ある立体異性体を別の立体異性体よりも優先して形成することである。エナンチオ選択性は、多くの工業的に重要性の高い化学物質の合成に重要であり、実現は困難である。グリーンケミストリは、酵素が高い特異性を有するときに組換え酵素を利用して対象の化学的産物を合成する。したがって、グリーンケミストリにおいて、効率が改良された酵素が特に求められている。
【0134】
Reetz,et al.(Ang 2006 Feb 13;45(8):1236−41)は、ジオール(R)−及び(S)−2の生成を伴うグリシジルエーテル1の加水分解速度論的分割における触媒としてのアスペルギルスニガー(Aspergillus niger)からのエポキシドヒドロラーゼのエナンチオ選択性変異体の指向性進化を述べている。
【0135】
このモデルは、Reetz et al.(上記)で述べられている10個の学習配列の組で構築した。
【0136】
【表9】
【0137】
ウェットラボで産生された32個の変異体に関する結果を、本出願人らの手法を用いて予測されたものと比較した。定量値が図14の右側に示されており、実験値と予測値との両方を表している。得られた予測値は実験値に非常に近く、平均バイアスは−0.011kcal/molであった。これは、少数の学習配列及び学習データでさえ、改良されたパラメータを有する良好な変異体を得ることができることを実証する。
【0138】
図15では、512個の変異体のライブラリを構築してスクリーニングした。ウェットラボで同定された最良の変異体は、実際には、良好なもの(矢印150)に見えるが最良ではない。最良のものは、図15の楕円160によって識別される。野生型タンパク質は矢印170によって示されている。
【0139】
【表10】
【0140】
実施例4:エンテロトキシンSEA及びSEEの熱安定性(Tm)の予測(図9及び図10
この実施例では、エンテロトキシンのアミノ酸配列を、以下のAAindexコードを使用して数値配列に符号化した:D pK−C(Fasman,1976)。
【0141】
第4のデータセット(Cavallin A.et al.,2000:Biol Chem.Jan 21;275(3):1665−72からのもの)がエンテロトキシンSEE及びSEAの熱安定性に関係付けられる。ブドウ球菌エンテロトキシン(SE)などのスーパー抗原(SAg)は、食中毒又は毒素性ショックを引き起こすことが知られている非常に強力なT細胞活性化タンパク質である。これらのエンテロトキシンによって誘発される強い細胞毒性は、それらを腫瘍反応性抗体に融合することにより、癌療法のために探索されている。Tmは、変性温度EC50値として定義され、12個のタンパク質配列(WT SAE+WT SEE+単一の1個〜複数の21個の変異を含む10個の変異体)から構成されるデータセットについて55.1〜73.3℃の範囲である。
【0142】
【表11】
【0143】
【表12】
【0144】
【表13】
【0145】
本出願人らの予測を、ウェットラボ結果(Cavallin A.2000)と比較した。ここでもまた、小さい学習配列(8つの学習配列)及び学習データを使用して、熱安定性に関連する情報を捕捉し、新規の変異体についてこのパラメータを予測することができた。
【0146】
図10に対応する検証セットのタンパク質配列(4つのタンパク質配列)のうちの2つの配列は、図9に対応する訓練セットでサンプリングされなかった位置に変異を含んでいたことに留意されたい(7つの新規の変異を有する1つの配列と、2つの変異にわたる1つの新規の変異を有する1つの配列)。したがって、これらの結果は、訓練セットでサンプリングされていない変異の位置を含む新規の変異体を同定することが可能であることを裏付けている。
【0147】
結果は、R2及びRMSEがそれぞれ訓練セット(図9)について0.97及び1.16であり、検証セット(図10)について0.96及び1.46であることを示している。したがって、この場合に、熱安定性に関する情報を効率的に予測し得ることを示している。
【0148】
実施例5:受容体選択性が変化した変異体TNF(図11及び図12
この実施例では、TNFのアミノ酸配列を、以下のAAindexコードを使用して数値配列に符号化した:D IFHスケールからの重量(Jacobs and White,Biochemistry.1989;28(8):3421−37)。
【0149】
腫瘍壊死因子(TNF)は、発癌を抑制し、感染性病原体を排除してホメオスタシスを維持する重要なサイトカインである。TNFは、その2つの受容体であるTNF受容体TNFR1及びTNFR2を活性化する。
【0150】
Mukai Y et al.(J Mol Biol.2009 Jan 30;385(4):1221−9)は、1つのTNFRのみを活性化する受容体選択性TNF変異体を生成した。
【0151】
Mukai et al.(上記)によって開示された21個の変異体の受容体選択性が、変異体(WT+単一の1個〜複数の6個の変異を含む20個の変異体)のデータと、学習データセットとしてその論文に開示されているデータとを使用して予測された。
【0152】
【表14】
【0153】
Mukai Yらによる論文で述べられているように、ELISA測定に基づいて、TNFR1(R1)及びTNFR2(R2)に対するTNFの競合的結合を予測した。R1とR2とに関する相対親和性(%Kd)を使用してlogR1/R2比を計算した。相対親和性log10(R1/R2)は、0〜2.87の範囲である。
【0154】
第1のステップでは、この方法をデータセット全体に適用した。R2及びRMSEは、TNFの結合親和性についてそれぞれ0.97及び0.11である。これは、ここでもまた、この方法が適応度に連動した情報も捕捉し得ることを実証する。
【0155】
第2のステップでは、17個の変異体を学習配列として使用し、4個を検証配列として使用した。
【0156】
【表15】
【0157】
結果は、R2及びRMSEがそれぞれ訓練セット(図11)について0.93及び0.21であり、検証セット(図12)について0.99及び0.17であることを示している。したがって、この方法を使用して、TNF変異体が受容体の一方のタイプに優先的に結合する能力(比R1/R2)をモデル化することが可能であることを示している。
【0158】
上の全ての実施例1〜5において、予測を行うためにタンパク質スペクトル全体を使用した。以下の実施例6では、本発明者らは、本発明による方法がタンパク質スペクトルの一部のみを使用して非常に効率的に機能することを実証する。
【0159】
実施例6:タンパク質スペクトルからの周波数値の選択を使用したシトクロムP450の熱安定性の予測(図13
この実施例では、シトクロムP450のアミノ酸配列を、以下のAAindexコードを使用して数値配列に符号化した:D伸長構造の正規化周波数(Maxfield and Scheraga,Biochemistry.1976;15(23):5138−53)。
【0160】
ここでは、予測を行うために、タンパク質スペクトルからの最も重要性の高い周波数の選択を使用した。周波数値は、適応度とのそれらの相関に従ってソートされ、最良の周波数値のみが考慮に入れられる。
【0161】
データセットは実施例1と同じである。
【0162】
結果は、R2とRMSEがそれぞれ0.91及び1.75であることを示しており、それにより、タンパク質スペクトルからの周波数の一部(選択)のみを用いて適応度、ここでは熱安定性をやはり効率的に予測できることを示している。
【0163】
これは、タンパク質スペクトル全体又はタンパク質スペクトルからの周波数の一部(選択)を使用して、本発明の方法を使用し得ることを示す。
【0164】
実施例7:タンパク質スクリーニングのための多変量解析を使用したタンパク質スペクトルの分類(図16
低い値及び高い値の適応度(エナンチオ選択性)を有する10個のタンパク質スペクトルを含むエポキシドヒドロラーゼのサブセット(実施例3と同様)を使用した。PCA(主成分解析)を行った。低い値及び高い値の適応度は、それぞれ小さい楕円形180内及び大きい楕円形190内にあり、したがって、タンパク質スペクトルに適用された多変量解析がタンパク質スクリーニングに役立つことを示している。
【0165】
軸X、Y、及びZは、PCAから生じた3つの主成分であり、タンパク質スペクトルの集合に関係付けられる全体の情報の58.28%を考慮に入れる(それぞれ軸X、Y、及びZの慣性(inertia)に関して21.51%、19.72%、16.05%)。
【0166】
したがって、前述の実施例で得られた幾つかの適応度の予測値と測定値との間のR2及びRMSEは、本発明による予測システム20及び方法が異なるタンパク質の異なる適応度値の効率的な予測を可能にすることを示している。
【0167】
追加として、本発明による方法は、モデルを構築するための学習配列セットで使用されたものとは別の位置に変異又は変異の組合せを有する新規の配列(検証/試験配列)を試験することを可能にする。
【0168】
この方法はまた、学習配列セットで使用された変異の位置の数と比べて異なる数の変異の位置を有する新規の配列(検証/試験配列)を試験することも可能にする。
【0169】
この方法はまた、訓練セットでサンプリングされていない変異の位置を含む新規の配列を試験することも可能にする。そのような場合におけるこの方法の実施の例としてエンテロトキシンが挙げられる。
【0170】
さらに、この方法はまた、モデルを構築するために使用される学習配列セットの長さと比べて、アミノ酸の数に関して異なる長さを有する新規の配列(検証/試験配列)を試験することも可能にする。
【0171】
この方法は、同一の学習配列と、1つ又は異なる符号化AAindex及び学習データとしての異なる適応度/活性値とを使用して、学習配列又は検証配列に関する適応度(検証/試験データ)を予測することを可能にする。すなわち、この新規の手法を使用して、タンパク質配列に関する2つ以上の活性/適応度を予測することができる。本明細書では、例としてGLP1を使用する。一例として、同じAAindexを使用したGLP1受容体に対する結合親和性の予測と効力の予測とが行われる。
【0172】
この方法により、非常に小さい学習配列及び学習データを使用して、非常に良い予測を実現し、適応度が改良された変異体を得ることが可能である。わずか10個のタンパク質配列を使用したエポキシドヒドロラーゼが一例として与えられる。
【0173】
この方法は、単一点変異又は単一点変異の組合せを有するタンパク質配列ではなく、キメラタンパク質を使用することをさらに可能にする。本明細書では、シトクロムP450が一例として与えられている。異なるP450の断片の組合せが使用される。
【0174】
本発明は、アミノ酸配列中の異なる位置にある異なるAA酸の相互作用の影響を考慮に入れることを可能にする。図3は、単一点変異があらゆる周波数でタンパク質スペクトル全体に影響を及ぼすことを示している。
【0175】
追加として、この方法は、学習配列に関して50個のタンパク質配列及び検証配列に関して20個のタンパク質配列を使用する一方、適応度を予測するために符号化ステップ後に10分以下のみを必要とするため、非常に効率が良い。
【0176】
追加として、タンパク質の「適応度」は、タンパク質発現レベル又はmRNA発現レベルなどの基準へのそのタンパク質の適応をさらに表す。
【0177】
したがって、タンパク質の「適応度」とは、触媒効率、触媒活性、速度定数、Km、Keq、結合親和性、熱安定性、溶解度、凝集、効力、毒性、アレルギー性、免疫原性、熱力学的安定性、柔軟性、タンパク質発現レベル、及びmRNA発現レベルなどの基準へのそのタンパク質の適合を表す。上述したように、「適応度」は「活性」とも呼ばれ、以下の説明では、適応度及び活性が同じ特徴を表すものとみなす。
【0178】
タンパク質発現レベル又はmRNA発現レベルなどの適応度について、以下の実施例を参照してさらに例示する。
【0179】
実施例8:ブルトン型チロシンキナーゼ多様体に関するタンパク質発現レベルの予測(図17
この実施例において、ブルトン型チロシンキナーゼ(BTK)は、B細胞の発達及び成熟に関与する重要なタンパク質である。実際、BTKは、成熟したB細胞による抗体産生を誘発し、感染の除去を促進する。また、このタンパク質の機能不全は、X連鎖無ガンマグロブリン血症又はブルトン型無ガンマグロブリン血症(B細胞が成熟しない)などの疾患を引き起こし得る。
【0180】
この実施例では、以下の表15に示されるように、18個のタンパク質多様体(Futatani T.et al.1998,<<Deficient expression of Bruton’s tyrosine kinase in monocytes from X−linked agammaglobulinemia as evaluated by a flow cytometric analysis and its clinical application to carrier detection.>>,Blood.1998 Jan 15;91(2):595−602;Kanegane H.et al.2000,<<Detection of Bruton’s tyrosine kinase mutations in hypogammaglobulinaemic males registered as common variable immunodeficiency(CVID)in the Japanese Immunodeficiency Registry>>,Clin Exp Immunol.2000 Jun;120(3):512−7)及び野生型BTKを使用した。
【0181】
【表16】
【0182】
図17において、測定された活性は、BTKのタンパク質発現レベルに関するインビトロ測定値に対応し、予測された活性は、BTKのタンパク質発現レベルに関する本発明による方法によって予測された値に対応する。
【0183】
値は、タンパク質発現レベルのパーセンテージで与えられており、100%が野生型のタンパク質発現レベルに対応する。
【0184】
モデルを構築し、タンパク質発現値を予測するために、一個抜き交差検証(LOOCV)を使用した。結果は、R2及びRMSEがそれぞれ0.98及び1.5であることを示している。それにより、適応度、ここではタンパク質発現レベルも効率的に予測し得ることを示している。タンパク質配列を、最適化された相対分配エネルギー − 方法B(Miyazawa−Jernigan,1999 Self−consistent estimation of inter−residue protein contact energies based on an equilibrium mixture approximation of residues.Proteins:Structure,Function,and Bioinformatics,34(1),49−68)を使用して符号化した。
【0185】
EMBL−EBIからのExpression Atlas(http://www.ebi.ac.uk/gxa)は、異なる細胞型、有機体の部分、発達段階、疾患、及び他の条件の動物及び植物試料における遺伝子及びタンパク質発現レベルに関する情報を提供する。当業者は、「正常」条件(例えば組織や細胞型)においてどの遺伝子産物がどの程度の量だけ存在するかに関する情報について、Petryszak et al.,2016<<Expression Atlas update−an integrated database of gene and protein expression in humans,animals and plants.>>,Nucl.Acids Res.(04 January 2016)44(D1):D746−D752.doi:10.1093/nar/gkv1045を参照するであろう。
【0186】
実施例9:K562細胞株におけるmRNA発現レベルの予測(図18
また、本発明による方法は、K562細胞株でのmRNA発現レベル値を予測するように適合される(Fonseca NA et al.2014 RNA−Seq Gene Profiling−A Systematic Empirical Comparison.PLoS ONE 9(9):e107026.doi:10.1371/journal.pone.0107026)。RNA配列とタンパク質配列との間に共直線性があることから、モデルを構築するために、各遺伝子に関連付けられるタンパク質配列を使用した。タンパク質は、RNA配列及び長さを反映するアミノ酸組成及び長さによって異なる。以下の表16に、97個のRNAについてデータセット(配列及びタンパク質発現レベル)を提供する。
【0187】
【表17a】
【表17b】
【表17c】
【表17d】
【表17e】
【表17f】
【0188】
図18は、一個抜き交差検証(R2:0.81、RMSE:10.3)を使用して得られた結果を示しており、それにより、本発明による方法が、RNAに関連付けられるタンパク質配列によってmRNA発現レベルを予測するようにも適合されることを示している。
【0189】
タンパク質配列を、2状態モデル(25%のアクセス可能性)での自己情報値に基づいたハイドロパシースケールを使用して符号化した(Naderi−Manesh et al.,2001 Prediction of protein surface accessibility with information theory.Proteins:Structure,Function,and Bioinformatics,42(4),452−459)。
【0190】
実施例10:心臓細胞における異なるタンパク質のタンパク質発現レベルの予測(図19
本発明による方法を、心臓細胞における異なるタンパク質のタンパク質発現レベル値を予測するためにも使用した。タンパク質は、アミノ酸組成及び長さによって異なる。以下の表17に、85個のタンパク質についてデータセット(配列及びタンパク質発現レベル)が提供される。
【0191】
【表18a】
【表18b】
【表18c】
【表18d】
【表18e】
【表18f】
【0192】
図19は、一個抜き交差検証(LOOCV、R2:0.87、RMSE:20.22)を使用して得られた結果を示している。図19では、値に10000を乗じた。したがって、本発明による方法は、心臓細胞における異なるタンパク質のタンパク質発現レベル値を予測するようにも適合される。
【0193】
タンパク質配列を、露出残基のパーセンテージを使用して符号化した(Janin et al.,1978 Conformation of amino acid side−chains in proteins.Journal of molecular biology,125(3),357−386)。
【0194】
実施例11:腎臓細胞における異なるタンパク質のタンパク質発現レベルの予測(図20
この実施例ではまた、本発明による方法を、腎臓細胞における異なるタンパク質のタンパク質発現レベル値を予測するために使用した。タンパク質は、アミノ酸組成及び長さによって異なる。以下の表18に、データセット(配列及びタンパク質発現レベル)を提供する。
【0195】
【表19a】
【表19b】
【表19c】
【表19d】
【表19e】
【表19f】
【表19g】
【表19h】
【0196】
図20は、130個のタンパク質配列に関して、一個抜き交差検証(LOOCV、R2:0.83、RMSE:1.75)を使用して得られた結果を示している。したがって、本発明による方法は、特に腎臓細胞における異なるタンパク質に関してタンパク質発現レベル値を予測するようにも適合される。
【0197】
タンパク質配列を、Midでの相対嗜好値を使用して符号化した(Richardson−Richardson,1988 Amino acid preferences for specific locations at the ends of alpha helices.Science,240(4859),1648−1652)。
【0198】
したがって、上記の実施例で得られたタンパク質発現レベル又はmRNA発現レベルなどの幾つかの適応度の予測値と測定値との間のR2及びRMSEは、本発明による予測システム20及び方法が、タンパク質発現レベル及びmRNA発現レベルについても異なるタンパク質又はタンパク質多様体の異なる適応度値の効率的な予測を可能にすることを示している。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
【配列表】
[この文献には参照ファイルがあります.J-PlatPatにて入手可能です(IP Forceでは現在のところ参照ファイルは掲載していません)]