(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-22
(45)【発行日】2024-08-30
(54)【発明の名称】コドン最適化
(51)【国際特許分類】
G16B 30/00 20190101AFI20240823BHJP
C12N 15/11 20060101ALI20240823BHJP
C12P 21/02 20060101ALI20240823BHJP
C12N 15/63 20060101ALI20240823BHJP
C12N 1/15 20060101ALI20240823BHJP
C12N 1/19 20060101ALI20240823BHJP
C12N 1/21 20060101ALI20240823BHJP
C12N 5/10 20060101ALI20240823BHJP
【FI】
G16B30/00
C12N15/11 Z ZNA
C12P21/02 C
C12N15/63 Z
C12N1/15
C12N1/19
C12N1/21
C12N5/10
(21)【出願番号】P 2020566849
(86)(22)【出願日】2019-07-30
(86)【国際出願番号】 CN2019098258
(87)【国際公開番号】W WO2020024917
(87)【国際公開日】2020-02-06
【審査請求日】2022-05-25
(31)【優先権主張番号】PCT/CN2018/097745
(32)【優先日】2018-07-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】515134069
【氏名又は名称】ナンジン ジェンスクリプト バイオテック カンパニー,リミテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ファン, ロン
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】国際公開第2017/169736(WO,A1)
【文献】米国特許出願公開第2014/0256557(US,A1)
【文献】米国特許出願公開第2013/0011909(US,A1)
【文献】米国特許出願公開第2014/0244228(US,A1)
【文献】米国特許出願公開第2011/0081708(US,A1)
【文献】米国特許出願公開第2017/0362627(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16Z 99/00
C12N 1/15
C12N 1/19
C12N 1/21
C12N 5/10
C12N 15/11
C12N 15/63
C12P 21/02
(57)【特許請求の範囲】
【請求項1】
宿主におけるタンパク質の発現のための、核酸配列を最適化するためのコンピュータ実施方法であって、前記コンピュータ実施方法は、
a)初期集団セットを受け取ることであって、前記初期集団セットが、前記タンパク質を発現することができる複数の初期候補核酸配列を含む、前記受け取ることと、
b)前記初期集団セットに基づいて、コンピュータ支援NSGA-IIIアルゴリズムまたはその変形を使用して、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行し、それによって前記タンパク質を発現することができる複数の最適化された核酸配列を得ることを含み、
候補核酸配列の前記調和インデックスは、複数の高発現遺伝子と前記候補核酸配列との間の同義コドンの使用頻度分布の一貫性を示し、
前記候補核酸配列の前記コドン文脈インデックスは、同義コドンを好適な場所に配置するための尺度であり、
前記候補核酸配列の前記外れ値インデックスは、前記候補核酸配列に対する複数の所定の配列特徴の負の効果の尺度であり、
調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、
前記初期集団セットの各初期候補核酸配列について、それぞれの初期候補核酸配列のそれぞれの調和インデックス値、それぞれのコドン文脈インデックス値、及びそれぞれの外れ値インデックス値を計算することと、
前記計算に基づいて、前記複数の初期候補核酸配列に対応する複数の適合値を割り当てることと、
前記複数の適合値に基づいて、前記複数の初期候補核酸配列を分類することと、
後続の集団セット内に前記分類された複数の初期候補核酸配列のサブセットを含むことを含み、
調和インデックス、コドン文脈インデックス、及び外れ値のインデックスの最適化を実行することは、複数の反復を含み、前記複数の反復の1つ以上の終了条件は、一定の反復数に到達することと、最良の適合性がプラトーに到達し、これ以上良好な結果が生成されないことと、ほぼ最適な解決策の最小基準がいくつかの解決策によって満たされることと、またはそれらの任意の組み合わせを含む、前記コンピュータ実施方法。
【請求項2】
前記複数の最適化された核酸配列のうちの少なくとも1つの最適化された核酸配列を示す出力を提供することをさらに含む、請求項1に記載の方法。
【請求項3】
初期集団セットを受け取ることは、
タンパク質配列を受け取ることと、
前記受け取ったタンパク質配列に基づいて、前記初期集団セットを生成することを含む、請求項1または2に記載の方法。
【請求項4】
初期集団セットを受け取ることは、
核酸配列を受け取ることと、
前記受け取った核酸配列をタンパク質配列に翻訳することと、
前記タンパク質配列に基づいて、前記初期集団セットを生成することを含む、
請求項1または2に記載の方法。
【請求項5】
調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、
前記調和インデックスを最大化することと、
前記コドン文脈インデックスを最大化することと、
前記外れ値インデックスを最小化することを含む、
請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記初期集団セットに基づいて子孫集団を生成することと、
前記後続の集団セットに前記子孫集団を含むことと、をさらに含む、
請求項5に記載の方法。
【請求項7】
調和インデックス、コドン文脈インデックス、及び外れ値のインデックスの最適化を実行することは、複数の反復を含み、
前記複数の反復のi番目の反復は、
(i-1)番目の反復に対応する核酸配列の集団セットを受け取ることと、
前記(i-1)番目の反復に対応する前記集団セットの各核酸配列を非優勢レベルに関連付けることと、
前記関連付けた非優勢レベルに基づいて、前記(i-1)番目の反復に対応する前記集団セット内の前記核酸配列を分類することと、
前記i番目の反復に対応する集団セットを生成することであって、前記i番目の反復に対応する前記集団セットには、前記(i-1)番目の反復に対応する前記分類された核酸配列のサブセット及び前記(i-1)番目の反復に対応する前記分類された核酸配列に基づいて生成された子孫集団が含まれる、前記生成することと、
1つ以上の終了条件に基づいて、前記i番目の反復に対応する前記集団セットを使用して、(i+1)番目の反復に進むか否かを決定することを含む、
請求項1~6のいずれか1項に記載の方法。
【請求項8】
各核酸配列を非優勢レベルと関連付けることは、前記(i-1)番目の反復に対応する前記集団セットの各核酸配列について、それぞれの調和インデックス値、それぞれのコドン文脈インデックス値、及びそれぞれの外れ値インデックス値を計算することを含む、請求項7に記載の方法。
【請求項9】
候補核酸配列の前記調和インデックスが、以下の式:
【数16】
に基づいて計算され、
式中、D()は距離関数を示し、
F
hsが、複数の高発現遺伝子内の複数のアミノ酸の同義コドンの頻度を含むベクトルを含み、
F
tsが、前記候補核酸配列のコーディング遺伝子内の前記複数のアミノ酸の同義コドンの頻度を含むベクトルを含む、
請求項1~8のいずれか1項に記載の方法。
【請求項10】
D()は、限定されないが、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離などの距離関数である、請求項9に記載の方法。
【請求項11】
前記複数の高発現遺伝子または候補核酸配列の同義コドンの頻度が以下のように定義される、請求項10に記載の方法。
【数17】
【請求項12】
候補核酸配列の前記コドン文脈インデックスが、以下の式:
【数18】
に基づいて計算され、
式中、D()は距離関数を示し、
F
hccは、複数の高発現遺伝子内の2つの連続的なアミノ酸の同義コドンペアの頻度を含むベクトルを含み、
F
tccは、前記候補核酸配列のコーディング遺伝子内の2つの連続アミノ酸の同義コドンペアの頻度を含むベクトルを含む、
請求項1~11のいずれか1項に記載の方法。
【請求項13】
D()は、限定されないが、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離などの距離関数である、請求項12に記載の方法。
【請求項14】
前記複数の高発現遺伝子または候補核酸配列の同義コドンペアの頻度が、以下のように定義される、請求項12~13のいずれかに記載の方法。
【数19】
【請求項15】
前記外れ値インデックスが、以下の式:
【数20】
に基づいて計算され、
Nが、前記複数の所定の配列特徴の数であり、
f
i(x)は、前記複数の所定の配列特徴のi番目の配列特徴のペナルティスコアリング関数の特徴を表し;
w
iは、f
i(x)に関連付けられる相対的な重み付けを示す、請求項1~14のいずれか1項に記載の方法。
【請求項16】
前記複数の所定の配列特徴が、
GC含有値、
CISエレメント、
反復エレメント、
RNAスプライシング部位、
リボソーム結合配列、
mRNAの最小自由エネルギー、または
それらの任意の組み合わせを含む、
請求項15に記載の方法。
【請求項17】
前記コンピュータ支援NSGA-IIIアルゴリズムの変形が、EliteNSGA-IIIアルゴリズムまたはNSGA-IIベースの免疫アルゴリズムを含む、請求項1~16のいずれか1項に記載の方法。
【請求項18】
調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、
調和インデックスの降順、次にコドン文脈インデックスの降順、次に外れ値インデックスの昇順によって、前記複数の最適化された核酸配列をランク付けすることと、
合成のために1つ以上のトップランクの最適化された核酸配列を選択することを含む、請求項1~17のいずれか1項に記載の方法。
【請求項19】
c)前記複数の最適化された核酸配列のうちの最適化された核酸配列から所定の有害な部分配列またはモチーフを除去すること、
をさらに含む、請求項1~18のいずれか1項に記載の方法。
【請求項20】
前記所定の有害な部分配列またはモチーフを除去することは、
前記最適化された核酸配列における前記所定の有害な部分配列またはモチーフを同定することと、
同定された所定の有害な部分配列またはモチーフに基づいて複数の同義コドンを同定することと、
前記最適化された核酸配列において前記同定された所定の有害な部分配列で置換するために、前記複数の同義コドンから同義コドンを選択すること、
を含む、請求項19に記載の方法。
【請求項21】
前記調和インデックス、前記コドン文脈インデックス、及び前記外れ値インデックスのうちの少なくとも1つが、1つ以上のデータベースからの複数の高発現遺伝子の1つ以上の特徴に基づいて計算される、請求項1~20のいずれか1項に記載の方法。
【請求項22】
前記1つ以上の特徴が、コドン頻度、同義コドンの頻度、コドンペア頻度、またはそれらの組み合わせを含む、請求項21に記載の方法。
【請求項23】
宿主においてタンパク質を発現させるために核酸配列を最適化するためのシステムであって、前記システムが、
1つ以上のプロセッサと、
メモリと、
1つ以上のプログラムと、を備え、前記1つ以上のプログラムが前記メモリに格納され、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムが、請求項1~22のいずれか1項に記載の方法を実行するための命令を含む、前記システム。
【請求項24】
宿主においてタンパク質を発現させるために核酸配列を最適化するための電子デバイスであって、請求項1~22のいずれか1項に記載の方法を実行するためのソフトウェアを含む、前記電子デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
ASCIIテキストファイルでの配列表の提出
ASCIIテキストファイルでの以下の提出内容の全体が、参照により本明細書に組み込まれる:コンピュータ可読形態(CRF)の配列表(ファイル名:759892000440SEQLIST.TXT、データ記録日:2018年7月25日、サイズ:4KB)。
【0002】
発明の分野
本開示は、一般に、最適化技術、より具体的には、宿主においてタンパク質を発現させるために配列(例えば、核酸配列)を最適化するためのシステム及び方法に関する。
【背景技術】
【0003】
コドン縮重とは、遺伝暗号の冗長性を指し、それはアミノ酸が異なる同義コドンによって指定され得る現象として示される。特に、これらの同義コドンは、配列決定されたほとんどのゲノムにおいて均等でない頻度で使用されていることが発見された。この現象は、コドン使用頻度バイアスと呼ばれる。
【0004】
生物医学及び生物工学の研究ならびに工業生産には、正しいフォールディング及び修飾を有する高品質のタンパク質が必要であるため、タンパク質の発現レベルを改善するには、高発現遺伝子のコドン使用頻度バイアスを反映する潜在的に有益なルール及びパターンを探索し、要約する方法が不可欠である。しかし、タンパク質の発現は、転写、mRNAターンオーバー、翻訳、及び翻訳後修飾のレベルでの調節を伴う多段階プロセスであり、これにより、安定した生成物の形成が可能になる。単一の同義コドンの置換であっても、導入遺伝子の発現を1,000倍以上増加させることができる。したがって、コドン最適化は、組換え宿主において合成遺伝子を最適に発現させるようになっている。
【発明の概要】
【課題を解決するための手段】
【0005】
本明細書で提供されるのは、多目的最適化アルゴリズムを使用して複数の因子を考慮し、バランスをとる、コドン最適化を向上させるためのシステム及び方法である。いくつかの実施形態によれば、コドン最適化は、とりわけ、(i)ある特定のアミノ酸の同義コドンの数を最初にどのように割り当てるか、(ii)同義コドンをその最も好適な場所にどのように配置するか、及び(iii)有害であるが誤って生成された部分配列及び/またはモチーフをどのように減少させるかの3つの目的に基づく。いくつかの実施形態では、これらの3つの目的は、調和インデックス、コドン文脈インデックス、及び外れ値インデックスとして定量化される。最適化中に、これらの目的は、非優勢ソート遺伝的アルゴリズムIII(NSGA-III)またはその変形などの多目的アルゴリズムを使用して考慮される。具体的には、これらの目的は、高発現遺伝子の既知の特徴を参照して、所与の候補核酸配列について計算することができる。いくつかの実施形態では、様々な既知の有害なモチーフ及び/または特徴(例えば、文献から同定されるもの)は、遺伝子合成及びタンパク質発現の前に、1つ以上の最適化された配列から除去される。
【0006】
したがって、本発明は、好ましくは、限定されないが、コドン調和、コドン使用頻度(例えば、同義コドンの分布)、コドン文脈インデックス、シス作用性mRNA不安定化モチーフ、RNaseスプライシング部位、GC含有率、リボソーム結合部位(RBS)、遺伝子のmRNA二次構造(例えば、mRNA自由エネルギー)など、タンパク質発現に影響を与えるパラメータ及び因子のすべてまたはほとんどを提供する体系的な方法を提供し、哺乳動物、昆虫、酵母、細菌、藻類などの真核細胞及び原核細胞の両方などの発現宿主細胞などの発現系、ならびに無細胞発現系における遺伝子のタンパク質発現を高めるために、核酸配列を改善し、最適化するために反復エレメントを考慮する。
【0007】
いくつかの実施形態では、宿主においてタンパク質を発現させるために核酸配列を最適化するためのコンピュータ実施方法が提供され、本方法は、a)初期集団セットを受け取ることであって、初期集団セットが、タンパク質を発現できる複数の初期候補核酸を含む、受け取ることと、b)初期集団セットに基づいて、コンピュータ支援NSGA-IIIアルゴリズムまたはその変形を使用して、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行し、それにより、当該タンパク質を発現させ得る複数の最適化された核酸配列を得ることを含み、候補核酸配列の調和インデックスは、複数の高発現遺伝子と候補核酸配列との間の同義コドンの使用頻度分布の一貫性を示し、候補核酸配列のコドン文脈インデックスは、同義コドンを好適な場所に配置するための尺度であり、候補核酸配列の外れ値インデックスは、候補核酸配列に対する複数の所定の配列特徴の負の効果の尺度である。
【0008】
いくつかの実施形態では、この方法は、複数の最適化された核酸配列のうちの少なくとも1つの最適化された核酸配列を示す出力を提供することをさらに含む。
【0009】
いくつかの実施形態では、初期集団セットを受け取ることは、タンパク質配列を受け取ることと、受け取ったタンパク質配列に基づいて初期集団セットを生成することを含む。
【0010】
いくつかの実施形態では、初期集団セットを受け取ることは、核酸配列を受け取ることと、受け取った核酸配列をタンパク質配列に翻訳することと、タンパク質配列に基づいて初期集団セットを生成することを含む。
【0011】
いくつかの実施形態では、初期集団セットは、所定のサイズのものである。
【0012】
いくつかの実施形態では、初期集団セットは、複数の初期候補核酸配列のバイナリ表現を含む。
【0013】
いくつかの実施形態では、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、調和インデックスを最大化することと、コドン文脈インデックスを最大化することと、外れ値インデックスを最小化することを含む。
【0014】
いくつかの実施形態では、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、初期集団セットの各初期候補核酸配列について、それぞれの初期候補核酸配列のそれぞれの調和インデックス値、それぞれのコドン文脈インデックス値及びそれぞれの外れ値インデックス値を計算することと、この計算に基づいて、複数の初期候補核酸配列に対応する複数の適合性値を割り当てることと、この複数の適合性値に基づいて、複数の初期候補核酸配列を分類することと、分類された複数の初期候補核酸配列のサブセットを後続の集団セットに含めることを含む。いくつかの実施形態では、複数の適合性値は、候補核酸配列の調和インデックス、コドン文脈インデックス、及び外れ値インデックスを含む。
【0015】
いくつかの実施形態では、この方法は、初期集団に基づいて子孫集団を生成することと、子孫集団を後続の集団セットに含めることと、をさらに含む。
【0016】
いくつかの実施形態では、子孫集団は、バイナリトーナメント選択、クロスオーバー/組換え、変異、またはそれらの任意の組み合わせを介して生成される。
【0017】
いくつかの実施形態では、初期集団セット及び後続の集団セットは、同じサイズである。
【0018】
いくつかの実施形態では、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実施することは、複数の反復を含み、複数の反復のi番目の反復は、(i-1)番目の反復に対応する核酸配列の集団セットを受け取ることと、(i-1)番目の反復に対応する集団セットの各核酸配列を非優勢レベルに関連付けることと、関連付けた非優勢レベルに基づいて、(i-1)番目の反復に対応する集団セット内の核酸配列を分類することと、i番目の反復に対応する集団セットを生成することであって、i番目の反復に対応する集団セットが、(i-1)番目の反復に対応する分類された核酸配列のサブセットと、(i-1)番目の反復に対応する分類された核酸配列に基づいて生成された子孫集団と、を含む、生成することと、1つ以上の終了条件に基づいて、i番目の反復に対応する集団セットを使用して、(i+1)番目の反復に進むか否かを決定することを含む。
【0019】
いくつかの実施形態では、各核酸配列を非優勢レベルに関連付けることは、(i-1)番目の反復に対応する集団セットの各核酸配列について、それぞれの調和インデックス値、それぞれのコドン文脈インデックス値、及びそれぞれの外れ値インデックス値を計算することを含む。
【0020】
いくつかの実施形態では、i番目の反復に対応する集団セットを生成することは、(i-1)番目の反復に対応する分類された核酸配列の少なくとも1つの核酸配列を複数の所定の参照点のうちの1つに関連付けることを含む。
【0021】
いくつかの実施形態では、1つ以上の終了条件は、一定の反復数に到達すること、最良の適合性がプラトーに到達し、これ以上の良い結果が生成されないこと、ほぼ最適な解決策の最小基準がいくつかの解決策によって満たされていること、またはそれらの任意の組み合わせを含む。
【0022】
いくつかの実施形態では、候補核酸配列の調和インデックスは、以下の式:
【数1】
に基づいて計算され、式中、D()は距離関数を示し、F
hsは、複数の高発現遺伝子内の複数のアミノ酸の同義コドンの頻度を含むベクトルを含み、F
tsは、候補核酸配列のコード遺伝子内の複数のアミノ酸の同義コドンの頻度を含むベクトルを含む。
【0023】
いくつかの実施形態では、D()は、2つのベクトル間の距離を測定する関数を示す。いくつかの実施形態では、D()は、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離を含むがこれらに限定されない距離関数である。
【0024】
いくつかの実施形態では、複数の高発現遺伝子または候補核酸配列の同義コドンの頻度は、以下のとおり定義される。
【数2】
【0025】
いくつかの実施形態では、候補核酸配列のコドン文脈インデックスは、以下の式:
【数3】
に基づいて計算され、
式中、D()は距離関数を示し、F
hccは、複数の高発現遺伝子内の2つの連続したアミノ酸の同義コドンペアの頻度を含むベクトルを含み、F
tccは、候補核酸配列のコード遺伝子内の2つの連続するアミノ酸の同義コドンペアの頻度を含むベクトルを含む。
【0026】
いくつかの実施形態では、D()は、2つのベクトル間の距離を測定する関数を示す。いくつかの実施形態では、D()は、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離を含むがこれらに限定されない距離関数である。
【0027】
いくつかの実施形態では、複数の高発現遺伝子または候補核酸配列の同義コドンペアの頻度は、以下のように定義される。
【数4】
【0028】
いくつかの実施形態では、外れ値インデックスは、以下の式:
【数5】
に基づいて計算され、
式中、Nは、複数の所定の配列特徴の数であり、f
i(x)は、複数の所定の配列特徴のi番目の配列特徴のペナルティスコアリング関数を示し、w
iはf
i(x)に関連付けられた相対的な重み付けを示す。
【0029】
いくつかの実施形態では、複数の所定の特徴としては、GC含有値、CISエレメント、反復エレメント、RNAスプライシング部位、リボソーム結合配列、mRNAの最小自由エネルギー、またはそれらの任意の組み合わせが挙げられる。
【0030】
いくつかの実施形態では、複数の所定の特徴は、選択された発現系に基づいて同定される。
【0031】
いくつかの実施形態では、NSGA-IIIアルゴリズムの変形としては、EliteNSGA-IIIアルゴリズムまたはNSGA-IIベースの免疫アルゴリズムが挙げられる。
【0032】
いくつかの実施形態では、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実施することは、調和インデックスの降順、次にコドン文脈インデックスの降順、次に外れ値インデックスの昇順によって複数の最適化された核酸配列をランク付けすることと、合成のために1つ以上のトップランクの最適化された核酸配列を選択することを含む。
【0033】
いくつかの実施形態では、この方法は、c)複数の最適化された核酸配列のうちの最適化された核酸配列から、所定の有害な部分配列またはモチーフを除去することをさらに含む。
【0034】
いくつかの実施形態では、所定の有害な部分配列またはモチーフは、複数のテキスト部分の分析に基づいて同定される。
【0035】
いくつかの実施形態では、所定の有害な部分配列またはモチーフを除去することは、最適化された核酸配列において所定の有害な部分配列またはモチーフを同定することと、同定された所定の有害な部分配列またはモチーフに基づいて複数の同義コドンを同定することと、最適化された核酸配列において同定された所定の有害な部分配列を置換するために、複数の同義コドンから同義コドンを選択することを含む。
【0036】
いくつかの実施形態では、調和インデックス、コドン文脈インデックス、及び外れ値インデックスのうちの少なくとも1つは、1つ以上のデータベースからの複数の高発現遺伝子の1つ以上の特徴に基づいて計算される。
【0037】
いくつかの実施形態では、1つ以上の特徴には、コドン頻度、同義コドンの頻度、コドンペア頻度、またはそれらの組み合わせが含まれる。
【0038】
いくつかの実施形態では、方法は、1つ以上のパラメータを設定することをさらに含み、1つ以上のパラメータには、集団セットのサイズ、分割数、シミュレートされたバイナリクロスオーバーの分布インデックス、シミュレートされたバイナリクロスオーバーのクロスオーバー率、ビット反転変異の変異率、ビット反転変異の分布インデックス、またはそれらの任意の組み合わせが含まれる。
【0039】
いくつかの実施形態では、1つ以上のプログラムを格納する非一時的コンピュータ可読記憶媒体が提供され、1つ以上のプログラムは、電子デバイスの1つ以上のプロセッサによって実行されたときに、電子デバイスに本明細書に記載の方法のうちのいずれかを実行させる命令を含む。
【0040】
いくつかの実施形態では、宿主においてタンパク質を発現させるために核酸配列を最適化するためのシステムが提供され、このシステムは、1つ以上のプロセッサ、メモリ、及び1つ以上のプログラムを備え、1つ以上のプログラムは、メモリに格納され、1つ以上のプロセッサによって実行されるように構成され、また1つ以上のプログラムは、本明細書に記載の方法のいずれかを実行するための命令を含む。
【0041】
いくつかの実施形態では、宿主においてタンパク質を発現させるために核酸配列を最適化するための電子デバイスが提供され、デバイスは、本明細書に記載の方法のいずれかを実行するための手段を含む。
【0042】
いくつかの実施形態では、宿主においてタンパク質を発現させるために核酸配列を最適化するための記録可能媒体に格納されたプログラム製品が提供され、プログラム製品は、本明細書に記載の方法のいずれかを実行するためのコンピュータソフトウェアを備える。
【0043】
いくつかの実施形態では、本明細書に記載の方法のいずれかから得られた最適化された核酸配列を含む単離された核酸分子が提供される。
【0044】
いくつかの実施形態では、上記の単離された核酸分子を含むベクターが提供される。
【0045】
いくつかの実施形態では、上記の単離された核酸分子または上記のベクターを含む組換え宿主細胞が提供される。
【0046】
いくつかの実施形態では、宿主細胞においてタンパク質を発現させるための方法が提供され、この方法は、(a)本明細書に記載の方法のいずれかを使用して、宿主細胞においてタンパク質を発現させるための最適化された核酸配列を得ることと、(b)最適化された核酸配列を含む核酸分子を合成することと、(c)核酸分子を宿主細胞に導入して組換え宿主細胞を得ることと、(d)最適化された核酸配列からのタンパク質の発現を可能にする条件下で組換え宿主細胞を培養することを含む。
本発明は、以下の項目を提供する。
(項目1)
宿主におけるタンパク質の発現のための、核酸配列を最適化するためのコンピュータ実施方法であって、前記方法は、
a)初期集団セットを受け取ることであって、前記初期集団セットが、前記タンパク質を発現することができる複数の初期候補核酸配列を含む、前記受け取ることと、
b)前記初期集団セットに基づいて、コンピュータ支援NSGA-IIIアルゴリズムまたはその変形を使用して、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行し、それによって前記タンパク質を発現することができる複数の最適化された核酸配列を得ることを含み、
候補核酸配列の前記調和インデックスは、複数の高発現遺伝子と前記候補核酸配列との間の同義コドンの使用頻度分布の一貫性を示し、
前記候補核酸配列の前記コドン文脈インデックスは、同義コドンを好適な場所に配置するための尺度であり、
前記候補核酸配列の前記外れ値インデックスは、前記候補核酸配列に対する複数の所定の配列特徴の負の効果の尺度である、
前記方法。
(項目2)
前記複数の最適化された核酸配列のうちの少なくとも1つの最適化された核酸配列を示す出力を提供することをさらに含む、項目1に記載の方法。
(項目3)
初期集団セットを受け取ることは、
タンパク質配列を受け取ることと、
前記受け取ったタンパク質配列に基づいて、前記初期集団セットを生成することを含む、項目1または2に記載の方法。
(項目4)
初期集団セットを受け取ることは、
核酸配列を受け取ることと、
前記受け取った核酸配列をタンパク質配列に翻訳することと、
前記タンパク質配列に基づいて、前記初期集団セットを生成することを含む、
項目1または2に記載の方法。
(項目5)
前記初期集団セットが所定のサイズである、項目1~4のいずれか1項に記載の方法。
(項目6)
前記初期集団セットが、前記複数の初期候補核酸配列のバイナリ表現を含む、項目1~5のいずれか1項に記載の方法。
(項目7)
調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、
前記調和インデックスを最大化することと、
前記コドン文脈インデックスを最大化することと、
前記外れ値インデックスを最小化することを含む、
項目1~6のいずれか1項に記載の方法。
(項目8)
調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、
前記初期集団セットの各初期候補核酸配列について、それぞれの初期候補核酸配列のそれぞれの調和インデックス値、それぞれのコドン文脈インデックス値、及びそれぞれの外れ値インデックス値を計算することと、
前記計算に基づいて、前記複数の初期候補核酸配列に対応する複数の適合値を割り当てることと、
前記複数の適合値に基づいて、前記複数の初期候補核酸配列を分類することと、
後続の集団セット内に前記分類された複数の初期候補核酸配列のサブセットを含むことを含む、
項目1~7のいずれか1項に記載の方法。
(項目9)
前記初期集団に基づいて子孫集団を生成することと、
前記後続の集団セットに前記子孫の集団を含むことと、をさらに含む、
項目8に記載の方法。
(項目10)
前記子孫集団が、バイナリトーナメント選択、クロスオーバー/組換え、変異、またはそれらの任意の組み合わせを介して生成される、項目9に記載の方法。
(項目11)
前記初期集団セット及び前記後続の集団セットが同じサイズである、項目8~10のいずれか1項に記載の方法。
(項目12)
調和インデックス、コドン文脈インデックス、及び外れ値のインデックスの最適化を実行することは、複数の反復を含み、
前記複数の反復のi番目の反復は、
(i-1)番目の反復に対応する核酸配列の集団セットを受け取ることと、
前記(i-1)番目の反復に対応する前記集団セットの各核酸配列を非優勢レベルに関連付けることと、
前記関連付けた非優勢レベルに基づいて、前記(i-1)番目の反復に対応する前記集団セット内の前記核酸配列を分類することと、
前記i番目の反復に対応する集団セットを生成することであって、前記i番目の反復に対応する前記集団セットには、前記(i-1)番目の反復に対応する前記分類された核酸配列のサブセット及び前記(i-1)番目の反復に対応する前記分類された核酸配列に基づいて生成された子孫集団が含まれる、前記生成することと、
1つ以上の終了条件に基づいて、前記i番目の反復に対応する前記集団セットを使用して、(i+1)番目の反復に進むか否かを決定することを含む、
項目1~11のいずれか1項に記載の方法。
(項目13)
各核酸配列を非優勢レベルと関連付けることは、前記(i-1)番目の反復に対応する前記集団セットの各核酸配列について、それぞれの調和インデックス値、それぞれのコドン文脈インデックス値、及びそれぞれの外れ値インデックス値を計算することを含む、項目12に記載の方法。
(項目14)
前記i番目の反復に対応する集団セットを生成することは、
前記(i-1)番目の反復に対応する前記分類された核酸配列の少なくとも1つの核酸配列を、複数の所定の参照点のうちの1つに関連付けることを含む、
項目10または11に記載の方法。
(項目15)
前記1つ以上の終了条件は、一定の反復数に到達することと、最良の適合性がプラトーに到達し、これ以上良好な結果が生成されないことと、ほぼ最適な解決策の最小基準がいくつかの解決策によって満たされることと、またはそれらの任意の組み合わせを含む、項目10~12のいずれか1項に記載の方法。
(項目16)
候補核酸配列の前記調和インデックスが、以下の式:
【数16】
に基づいて計算され、
式中、D()は距離関数を示し、
F
hs
が、複数の高発現遺伝子内の複数のアミノ酸の同義コドンの頻度を含むベクトルを含み、
F
ts
が、前記候補核酸配列のコーディング遺伝子内の前記複数のアミノ酸の同義コドンの頻度を含むベクトルを含む、
項目1~15のいずれか1項に記載の方法。
(項目17)
D()が2つのベクトル間の距離を測定する関数を示す、項目16に記載の方法。
(項目18)
D()は、限定されないが、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離などの距離関数である、項目17に記載の方法。
(項目19)
前記複数の高発現遺伝子または候補核酸配列の同義コドンの頻度が以下のように定義される、項目18に記載の方法。
【数17】
(項目20)
候補核酸配列の前記コドン文脈インデックスが、以下の式:
【数18】
に基づいて計算され、
式中、D()は距離関数を示し、
F
hcc
は、複数の高発現遺伝子内の2つの連続的なアミノ酸の同義コドンペアの頻度を含むベクトルを含み、
F
tcc
は、前記候補核酸配列のコーディング遺伝子内の2つの連続アミノ酸の同義コドンペアの頻度を含むベクトルを含む、
項目1~19のいずれか1項に記載の方法。
(項目21)
D()が2つのベクトル間の距離を測定する関数を示す、項目20に記載の方法。
(項目22)
D()は、限定されないが、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離などの距離関数である、項目21に記載の方法。
(項目23)
前記複数の高発現遺伝子または候補核酸配列の同義コドンペアの頻度が、以下のように定義される、項目20~22のいずれかに記載の方法。
【数19】
(項目24)
前記外れ値インデックスが、以下の式:
【数20】
に基づいて計算され、
Nが、前記複数の所定の配列特徴の数であり、
f
i
(x)は、前記複数の所定の配列特徴のi番目の配列特徴のペナルティスコアリング関数の特徴を表し;
w
i
は、f
i
(x)に関連付けられる相対的な重み付けを示す、項目1~23のいずれか1項に記載の方法。
(項目25)
前記複数の所定の特徴が、
GC含有値、
CISエレメント、
反復エレメント、
RNAスプライシング部位、
リボソーム結合配列、
mRNAの最小自由エネルギー、または
それらの任意の組み合わせを含む、
項目24に記載の方法。
(項目26)
前記複数の所定の特徴が、選択された発現系に基づいて同定される、項目24に記載の方法。
(項目27)
前記NSGA-IIIアルゴリズムの変形が、EliteNSGA-IIIアルゴリズムまたはNSGA-IIベースの免疫アルゴリズムを含む、先行項目のいずれか1~26項に記載の方法。
(項目28)
調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、
調和インデックスの降順、次にコドン文脈インデックスの降順、次に外れ値インデックスの昇順によって、前記複数の最適化された核酸配列をランク付けすることと、
合成のために1つ以上のトップランクの最適化された核酸配列を選択することを含む、項目1~27のいずれか1項に記載の方法。
(項目29)
c)前記複数の最適化された核酸配列のうちの最適化された核酸配列から所定の有害な部分配列またはモチーフを除去すること、
をさらに含む、項目1~28のいずれか1項に記載の方法。
(項目30)
複数のテキスト部分の分析に基づいて、前記所定の有害な部分配列またはモチーフを同定する、項目29に記載の方法。
(項目31)
前記所定の有害な部分配列またはモチーフを除去することは、
前記最適化された核酸配列における前記所定の有害な部分配列またはモチーフを同定することと、
同定された所定の有害な部分配列またはモチーフに基づいて複数の同義コドンを同定することと、
前記最適化された核酸配列において前記同定された所定の有害な部分配列で置換するために、前記複数の同義コドンから同義コドンを選択すること、
を含む、項目29に記載の方法。
(項目32)
前記調和インデックス、前記コドン文脈インデックス、及び前記外れ値インデックスのうちの少なくとも1つが、1つ以上のデータベースからの複数の高発現遺伝子の1つ以上の特徴に基づいて計算される、項目1~31のいずれか1項に記載の方法。
(項目33)
前記1つ以上の特徴が、コドン頻度、同義コドンの頻度、コドンペア頻度、またはそれらの組み合わせを含む、項目32に記載の方法。
(項目34)
1つ以上のパラメータを設定することをさらに含み、前記1つ以上のパラメータは、集団セットのサイズ、分割数、シミュレートされたバイナリクロスオーバーの分布インデックス、シミュレートされたバイナリクロスオーバーのクロスオーバー率、ビット反転変異の変異率、ビット反転変異の分布インデックス、またはそれらの任意の組み合わせを含む、項目1~33のいずれか1項に記載の方法。
(項目35)
1つ以上のプログラムを格納する非一時的コンピュータ可読記憶媒体であって、前記1つ以上のプログラムが、電子デバイスの1つ以上のプロセッサによって実行されたときに、前記電子デバイスに項目1~34のいずれか1項に記載の方法を実行させる命令を含む、前記媒体。
(項目36)
宿主においてタンパク質を発現させるために核酸配列を最適化するためのシステムであって、前記システムが、
1つ以上のプロセッサと、
メモリと、
1つ以上のプログラムと、を備え、前記1つ以上のプログラムが前記メモリに格納され、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムが、項目1~34のいずれか1項に記載の方法を実行するための命令を含む、前記システム。
(項目37)
宿主においてタンパク質を発現させるために核酸配列を最適化するための電子デバイスであって、項目1~34のいずれか1項に記載の方法を実行するための手段を含む、前記デバイス。
(項目38)
宿主においてタンパク質を発現させるために核酸配列を最適化するための記録可能媒体に格納されたプログラム製品であって、項目1~34のいずれか1項に記載の方法を実行するためのコンピュータソフトウェアを含むプログラム製品。
(項目39)
項目1~34のいずれか1項に記載の方法から得られる前記最適化された核酸配列を含む単離された核酸分子。
(項目40)
項目39に記載の前記単離された核酸を含む、ベクター。
(項目41)
項目39に記載の単離された核酸分子または項目40に記載のベクターを含む組換え宿主細胞。
(項目42)
宿主細胞においてタンパク質を発現させるための方法であって、
(a)項目1~34のいずれか1項に記載の方法を使用して、前記宿主細胞において前記タンパク質を発現させるために最適化された核酸配列を得ることと、
(b)前記最適化された核酸配列を含む核酸分子を合成することと、
(c)前記核酸分子を前記宿主細胞に導入して、組換え宿主細胞を得ることと、
(d)前記最適化された核酸配列からの前記タンパク質の発現を可能にする条件下で前記組換え宿主細胞を培養すること、
を含む、前記方法。
【図面の簡単な説明】
【0047】
【
図1】いくつかの実施形態によるコドン最適化するための例示的なプロセスを示すブロック図である。
【
図2A】いくつかの実施形態による、宿主においてタンパク質を発現させるための配列(例えば、核酸配列)を最適化するためのアルゴリズムを構築し、実行するための例示的なパイプラインを示す図である。
【
図2B】いくつかの実施形態による、遺伝的アルゴリズムの例示的な一般的なワークフローを示す図である。
【
図3】いくつかの実施形態による、それらの野生型と比較した最適化されたGFP及びJNK3A1のウエスタンブロット結果を示す図である。
【
図4】いくつかの実施形態による、例示的な電子デバイスを示す図である。
【発明を実施するための形態】
【0048】
本発明は、限定されないが、E.coli、CHO、HEK293、酵母、昆虫、無細胞発現系など様々な宿主における遺伝子の組換え発現を改善するための増強されたコドン最適化を提供する。本発明によるシステムでは、ある発現系の高発現遺伝子を収集し、基本的な配列特徴を抽出し、目的の配列(例えば、核酸配列)における有益な包括的パターンを複製し、有害な特徴を除去することで、その発現系において標的遺伝子の発現を改善するようにする。
【0049】
現在、複数のコドン最適化ツールが開発されており、以下の表1にまとめる。細菌、酵母、昆虫及び哺乳類細胞のコドン最適化中の発現を高めるために、コドン使用頻度(例えば、コドン適応インデックス[CAI]、有効コドン数[ENc]、相対的同義コドン使用頻度[RSCU]及び同義コドン使用順序[SCUO])、コドンペア、tRNA使用頻度(例えば、tRNA適応インデックス[tAI])、GC含有率、リボソーム結合部位(RBS)、隠れた終始コドン、モチーフ回避、制限部位の除去、遺伝子のmRNA二次構造(例えば、mRNA自由エネルギー)及びハイドロパシーインデックスの最適化を含む複数の(好ましくはほとんどまたはすべての)パラメータ及び因子が、これらのツールでは考慮されている。
【表1】
【0050】
しかし、重要なポイントには非常に多くの因子が考慮され得ることから、これらの因子のバランスをどのように取るかについては、依然として課題である。これは、複数の目的の最適化問題ではあるが、それらの目的が互いに矛盾する可能性があるためである。その一方で、1つ以上の因子またはパラメータを考慮しない場合には、発現系における標的遺伝子の発現が少なくなるか、または全く発現しなくなり得る。
【0051】
本明細書で提供されるのは、多目的最適化アルゴリズムを使用して複数の因子を考慮し、バランスをとる、コドン最適化を向上させるためのシステム及び方法である。いくつかの実施形態によれば、コドン最適化は、とりわけ、(i)ある特定のアミノ酸の同義コドンの数を最初にどのように割り当てるか、(ii)同義コドンをその最も好適な場所にどのように配置するか、及び(iii)有害であるが誤って生成された部分配列及び/またはモチーフをどのように減少させるかの3つの目的に基づく。いくつかの実施形態では、これらの3つの目的は、調和インデックス、コドン文脈インデックス、及び外れ値インデックスとして定量化される。最適化中に、これらの目的は、非優勢ソート遺伝的アルゴリズムIII(NSGA-III)またはその変形などの多目的アルゴリズムを使用して考慮される。具体的には、これらの目的は、高発現遺伝子の既知の特徴を参照して、所与の候補核酸配列について計算することができる。いくつかの実施形態では、様々な既知の有害なモチーフ及び/または特徴(例えば、文献から同定されるもの)は、遺伝子合成及びタンパク質発現の前に、1つ以上の最適化された配列から除去される。
【0052】
したがって、本発明は、体系的な方法を提供し、この方法によって、好ましくは、限定されないが、コドン調和、コドン使用頻度(例えば、同義のコドン分布)、コドン文脈インデックス、シス作用性mRNA不安定化モチーフ、RNaseスプライシング部位、GC含有率、リボソーム結合部位(RBS)、遺伝子のmRNA二次構造(例えば、mRNA自由エネルギー)、及び反復エレメントを含む、タンパク質発現に影響を与えるパラメータ及び因子のすべてまたはほとんどを考慮し、哺乳動物、昆虫、酵母、細菌、藻類などの真核細胞及び原核細胞の両方などの発現宿主細胞、ならびに無細胞発現系などの、発現系における遺伝子のタンパク質発現を高めるために、核酸を改善し、最適化する。
【0053】
したがって、一態様における本発明は、NSGA-IIIアルゴリズムまたはその変形を使用して、複数の(例えば、2つ以上の)目的を最適化して、改善された組換えタンパク質を発現させるために配列を最適化するための方法を提供する。別の態様では、遺伝子合成及びタンパク質発現の前に(例えば、NSGA-IIIアルゴリズムの反復が完了した後)、核酸配列から有害なモチーフ及び特徴を除去するための方法が提供される。また、最適化アルゴリズムにおいて複数の目的を定量化し、計算するための方法、ならびに有害なモチーフ及び特徴を減少させるかまたは除去するために同定するための方法も提供される。
【0054】
本明細書に記載の方法の任意の1つ以上のステップを実行するための1つ以上のプログラムを格納するためのシステム、非一時的コンピュータ可読記憶媒体、電子デバイス、及びプログラム製品も提供される。本明細書に記載の方法から得られた最適化核酸配列を含む単離された核酸分子、前記単離された核酸分子を含むベクター、前記単離された核酸分子または前記ベクターを含む組換え宿主細胞も提供される。本明細書に記載の方法のいずれかを伴う、宿主細胞においてタンパク質を発現させるための方法も提供される。
【0055】
本明細書に記載されている本発明の実施形態は、実施形態「からなる」及び/または実施形態「から本質的になる」ものを含むことを理解されたい。
【0056】
本明細書において「約」ある値または「約」パラメータへの言及は、その値またはパラメータ自体を対象とする変動を含む(かつ記述する)。例えば、「約X」としている記載には、「X」の記載が含まれる。
【0057】
本明細書で使用する場合、ある値またはパラメータ「ではない」と言及している場合には概して、その値またはパラメータ「以外の」値またはパラメータを意味し、説明する。例えば、Xという種類のがんを治療するのに、その方法を使用しないとは、その方法を用いて、X以外の種類のがんを治療することを意味する。
【0058】
本明細書及び添付の特許請求の範囲で使用されるとき、単数形「a(1つの)」、「or(または)」、及び「the(その)」は、文脈が別途明確に指示しない限り、複数の指示対象を含む。
【0059】
本明細書及び添付の特許請求の範囲で使用される場合、「セット」は、文脈が明らかに他のことを指示しない限り、1つまたは複数の指示対象を指す。
【0060】
コドン最適化方法
【0061】
一態様における本発明は、宿主においてタンパク質を発現させるために核酸配列を最適化するための方法(例えば、コンピュータ実施方法またはコンピュータ支援方法)を提供する。これらの方法に関連するのは、遺伝子合成及びタンパク質発現の前に(例えば、NSGA-IIIアルゴリズムの反復が完了した後)、核酸配列から有害なモチーフ及び特徴を除去するための方法である。また、これらの方法に関連するのは、最適化アルゴリズムにおける複数の目的を定量化、計算するための方法、ならびに減少させるかまたは削除する有害なモチーフ及び特徴を特定するための方法である。
【0062】
図1は、コドン最適化のための例示的なプロセス100を示しており、点線ブロックは任意のステップを示す。プロセス100の一部は、特定のデバイスによって実施されるものとして本明細書に記載されているが、プロセス100は、そのように限定されないことは理解されよう。他の実施例では、プロセス100は、単一の電子デバイス(例えば、電子デバイス400)のみまたは複数の電子デバイスを使用して実施される。プロセス100では、いくつかのブロックが任意により組み合わされ、いくつかのブロックの順序が任意により変更され、いくつかのブロックが任意により省略される。いくつかの実施例では、プロセス100と組み合わせて追加のステップを実行することができる。
【0063】
ブロック106において、電子デバイスは、初期集団セットを受け取り、そこで初期集団セットは、タンパク質を発現することができる複数の初期候補核酸配列を含む。いくつかの実施形態では、初期集団セットはランダムに生成される。いくつかの実施形態では、初期集団セットは、所定のサイズ(例えば、ユーザによって決定される)のものである。
【0064】
いくつかの実施形態では、ブロック106に示すとおり、初期集団セットを受け取ることは、タンパク質配列に基づいて初期集団セットを生成することを含む。例えば、初期集団セットを受け取ることは、タンパク質配列を受け取ることと(例えば、ユーザーからの入力として)、受け取ったタンパク質配列に基づいて初期集団セットを生成することを含むことができる。別の実施例として、初期集団セットを受け取ることは、核酸配列を受け取ることと(例えば、ユーザーからの入力として)、受け取った核酸配列をタンパク質配列に翻訳することと、そのタンパク質配列に基づいて初期集団セットを生成することを含むことができる。
【0065】
いくつかの実施形態では、初期集団セットは、複数の初期候補核酸配列のバイナリ表現(例えば、バイナリ文字列)を含む。一般に、コーディング遺伝子を示すためのデータ構造として、コドンリスト/アレイ/ベクトルではなく、バイナリ文字列が選択され、選択前の遺伝子の適合性評価を除いて、集団の初期化、クロスオーバー/再結合、変異、選択などの遺伝的アルゴリズムの操作オブジェクトはすべて、バイナリ文字列である。以下でさらに説明するように、いくつかの実施形態では、選択前に集団全体の各個体について適合性関数(すなわち、3つのインデックス関数)を評価する必要がある場合、バイナリ表現を一時的にコドン文字列に戻す必要がある。
【0066】
ブロック108においては、電子デバイスは、初期集団セットに基づいて、コンピュータ支援NSGA-IIIアルゴリズムまたはその変形を使用して、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行し、それによってタンパク質を発現させることができる複数の最適化された核酸配列を得る。
【0067】
常に、またはいくつかの実施形態では、候補核酸配列の調和インデックスは、複数の高発現遺伝子と候補核酸配列(すなわち、最適化中の候補タンパク質をコードする遺伝子)との間の同義コドンの使用頻度分布の一貫性を示し、これらは、特定のアミノ酸の同義コドンの数を割り当てる方法を解決するのに有用である。候補核酸配列のコドン文脈インデックスは、同義コドンを好適な場所に配置するための尺度である。候補核酸配列の外れ値インデックスは、候補核酸配列に対する複数の所定の配列特徴の負の効果の尺度である。
【0068】
いくつかの実施形態では、ブロック106に示すとおり、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、調和インデックスを最大化することと、コドン文脈インデックスを最大化することと、外れ値インデックスを最小化することを含む。
【0069】
最適化は、多目的遺伝的アルゴリズムを使用して実行できる。これらの3つの目的は、調和インデックスを最大化すること、コドン文脈インデックスを最大化すること、及び外れ値インデックスを最小化することである。いくつかの実施形態では、NSGA-IIIアルゴリズムまたは変形が使用される。従来の遺伝的アルゴリズムとは異なり、NSGA-IIIの集団メンバー間での多様性の維持が、十分に広がっている複数の事前定義された参照点を提供して、適応的に更新することによって支援され、したがって、NSGA-IIIでは、その選択演算子が大幅に変更される。さらに、NSGA-IIIは、NSGA-IIなどの他の遺伝的アルゴリズムと比較して、3目的から15目的の最適化問題を解決する効果を呈する。NSGA-IIIアルゴリズムの変形としては、EliteNSGA-IIIアルゴリズム、NSGA-IIベースの免疫アルゴリズム、MAM-MOIAまたはMOLAが挙げられる。EliteNSGA-IIIアルゴリズムは、2016年に発行されたAmin Ibrahim et al.による表題「EliteNSGA-III:An Improved Evolutionary Many-Objective Optimization Algorithm」の刊行物(その全体が参照により本明細書に組み込まれる)に記載されている。様々な免疫アルゴリズムが、例えば、2010年9月に発行のGuan-Chun Luh et al.による表題「MOIA:Multi-objective Immune Algorithm」の刊行物、2007年に発行のFelipe Campelo et al.による表題「Overview of Artificial Immune Systems for Multi-objective Optimization」の刊行物、2010年4月に発行のZhi-Hua Huによる「A multiobjective immune algorithm based on a multiple-affinity model」、及び2017年7月25日に出願の中国特許出願第201710611752.5号に記載されており、これらは参照によりその全体が本明細書に組み込まれる。
【0070】
NSGA-IIIアルゴリズム(または同様の遺伝的アルゴリズム)の動作に従って、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、初期集団セットの各初期候補塩基配列について、それぞれの初期候補核酸配列のそれぞれの調和インデックス値、それぞれのコドン文脈インデックス値、及びそれぞれの外れ値インデックス値を計算することと、その計算に基づいて、複数の初期候補核酸配列に対応する複数の適合性値を割り当てることと、それらの複数の適合性値に基づいて、複数の初期候補核酸配列を分類することと、後続の集団セット内に分類された複数の初期候補核酸配列のサブセットを含むことと(すなわち、2番目の反復で使用されるように)を含む。
【0071】
NSGA-IIIアルゴリズム(または同様の遺伝的アルゴリズム)の動作に従って、この方法は、初期集団に基づいて子孫集団を生成することと、子孫集団を後続の集団セットに含めること(すなわち、2番目の反復で使用されるように)と、をさらに含む。いくつかの実施形態では、子孫集団は、バイナリトーナメント選択、クロスオーバー/組換え、変異、またはそれらの任意の組み合わせを介して生成される。
【0072】
いくつかの実施形態では、初期集団セットと後続の集団セット(すなわち、2番目の反復で使用されるように)と同じ大きさである。
【0073】
NSGA-IIIアルゴリズム(または同様の遺伝的アルゴリズム)の動作に従って、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実行することは、複数の反復を含む。複数の反復のi番目の反復(ここで、iは2、3、4、5、6...nであり得る)は、(i-1)番目の反復に対応する核酸配列の集団セットを受け取ることと、(i-1)番目の反復に対応する集団セットの各核酸配列を非優勢レベルに関連付けることと、関連付けた非優勢レベルに基づいて、(i-1)番目の反復に対応する集団セット内の核酸配列を分類することと、i番目の反復に対応する集団セットを生成することであって、i番目の反復に対応する集団セットは、(i-1)番目の反復に対応する分類された核酸配列のサブセット及び(i-1)番目の反復に対応する分類された核酸配列に基づいて生成された子孫集団を含む、生成することと、1つ以上の終了条件に基づいて、i番目の反復に対応する集団セットを使用して、(i+1)番目の反復に進むか否かを決定することを含む。
【0074】
いくつかの実施形態では、各核酸配列を非優勢レベルに関連付けることは、(i-1)番目の反復に対応する集団セットの各核酸配列について、それぞれの調和インデックス値、それぞれのコドン文脈インデックス値、及びそれぞれの外れ値インデックス値を計算することを含む。
【0075】
NSGA-IIIアルゴリズムの動作に従って、いくつかの実施形態では、i番目の反復に対応する集団セットを生成することは、(i-1)番目の反復に対応する分類された核酸配列の少なくとも1つの核酸配列を複数の所定の参照点のうちの1つに関連付けることを含む。
【0076】
いくつかの実施形態では、1つ以上の終了条件は、一定の反復数に到達すること、最良の適合性がプラトーに到達し、これ以上の良い結果が生成されないこと、ほぼ最適な解決策の最小基準がいくつかの解決策によって満たされていること、またはそれらの任意の組み合わせを含む。
【0077】
いくつかの実施形態では、この方法は、最適化アルゴリズムのための1つ以上のパラメータを設定することをさらに含み、1つ以上のパラメータには、集団セットのサイズ、分割数、シミュレートされたバイナリクロスオーバーの分布インデックス、シミュレートされたバイナリクロスオーバーのクロスオーバー率、ビット反転変異の変異率、ビット反転変異の分布インデックス、またはそれらの任意の組み合わせが含まれる。
【0078】
いくつかの実施形態では、最適化中に、調和インデックス、コドン文脈インデックス、及び外れ値インデックスのうちの少なくとも1つが、1つ以上のデータベースからの複数の高発現遺伝子の1つ以上の特徴に基づいて計算される。いくつかの実施形態では、1つ以上の特徴には、コドン頻度、同義コドンの頻度、コドンペア頻度、またはそれらの組み合わせが含まれる。高発現遺伝子のこれらの特徴を使用して、以下の式に示すとおり、特定の候補核酸配列の調和インデックス、コドン文脈インデックス、及び外れ値インデックスを計算できる。
【0079】
いくつかの実施形態では、ブロック102に示すとおり、高発現遺伝子のこれらの特徴は、プライベートまたはパブリックデータベースに基づいて同定される。例えば、データベース(複数可)は、ある企業の順序システムから収集された、以前に成功裏に最適化された順序を含む独自のデータベースであってもよい。別の実施例として、データは、公開情報であり得る様々な培養条件下でのRNA-seqデータのデータマイニングによって得ることができる。データ処理は、コドン頻度、同義コドンの頻度、及びコドンペア頻度など、高発現遺伝子の基本情報を得ることを目的として実行される。
【0080】
いくつかの実施形態では、候補核酸配列の調和インデックスは、以下の式:
【数6】
に基づいて計算され、
式中、D()は距離関数を示し、F
hsは、複数の高発現遺伝子内の複数のアミノ酸の同義コドンの頻度を含むベクトルを含み、F
tsは、候補核酸配列のコード遺伝子内の複数のアミノ酸の同義コドンの頻度を含むベクトルを含む。
【0081】
いくつかの実施形態では、D()は、2つのベクトル間の距離を測定する関数を示す。いくつかの実施形態では、D()は、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離を含むがこれらに限定されない距離関数である。
【0082】
いくつかの実施形態では、複数の高発現遺伝子または候補核酸配列の同義コドンの頻度は、以下のとおり定義される。
【数7】
【0083】
いくつかの実施形態では、候補核酸配列のコドン文脈インデックスは、以下の式:
【数8】
に基づいて計算され、
式中、D()は距離関数を示し、F
hccは、複数の高発現遺伝子内の2つの連続したアミノ酸の同義コドンペアの頻度を含むベクトルを含み、F
tccは、候補核酸配列のコード遺伝子内の2つの連続するアミノ酸の同義コドンペアの頻度を含むベクトルを含む。
【0084】
いくつかの実施形態では、D()は、2つのベクトル間の距離を測定する関数を示す。いくつかの実施形態では、D()は、2つのベクトルのユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離を含むがこれらに限定されない距離関数である。
【0085】
いくつかの実施形態では、複数の高発現遺伝子または候補核酸配列の同義コドンペアの頻度は、以下のように定義される。
【数9】
【0086】
いくつかの実施形態では、外れ値インデックスは、以下の式:
【数10】
に基づいて計算され、
式中、Nは、複数の所定の配列特徴の数であり、f
i(x)は、複数の所定の配列特徴のi番目の配列特徴のペナルティスコアリング関数を示し、w
iはf
i(x)に関連付けられた相対的な重み付けを示す。
【0087】
いくつかの実施形態では、複数の所定の特徴としては、GC含有値、CISエレメント、反復エレメント、RNAスプライシング部位、リボソーム結合配列、mRNAの最小自由エネルギー、またはそれらの任意の組み合わせが挙げられる。
【0088】
いくつかの実施形態では、複数の所定の特徴は、選択された発現系に基づいて同定される。様々な発現系では、有害因子のカタログが変更される可能性があり、その影響または重み付けも等しくない。
【0089】
いくつかの実施形態では、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの最適化を実施することは、調和インデックスの降順、次にコドン文脈インデックスの降順、次に外れ値インデックスの昇順によって複数の最適化された核酸配列をランク付けすることと、合成のために1つ以上のトップランクの最適化された核酸配列を選択することを含む。
【0090】
ブロック110では、この方法は、任意にc)複数の最適化された核酸配列のうちの最適化された核酸配列から、所定の有害な部分配列またはモチーフを除去することをさらに含む。いくつかの実施形態では、所定の有害な部分配列またはモチーフを除去することは、最適化された核酸配列において所定の有害な部分配列またはモチーフを同定することと、同定された所定の有害な部分配列またはモチーフに基づいて複数の同義コドンを同定することと、最適化された核酸配列において同定された所定の有害な部分配列を置換するために、複数の同義コドンから同義コドンを選択することを含む。
【0091】
いくつかの実施形態では、ブロック104に示すとおり、所定の有害な部分配列またはモチーフは、複数のテキスト部分の分析(例えば、自動テキストマイニングまたは文献の手作業によるチェック)に基づいて同定される。
【0092】
いくつかの実施形態では、この方法は、複数の最適化された核酸配列のうちの少なくとも1つの最適化された核酸配列を示す出力を提供することをさらに含む。
【0093】
いくつかの実施形態では、1つ以上のプログラムを格納する非一時的コンピュータ可読記憶媒体が提供され、1つ以上のプログラムは、電子デバイスの1つ以上のプロセッサによって実行されたときに、電子デバイスに本明細書に記載の方法のうちのいずれかを実行させる命令を含む。
【0094】
いくつかの実施形態では、宿主においてタンパク質を発現させるために核酸配列を最適化するためのシステムが提供され、このシステムは、1つ以上のプロセッサ、メモリ、及び1つ以上のプログラムを備え、1つ以上のプログラムは、メモリに格納され、1つ以上のプロセッサによって実行されるように構成され、また1つ以上のプログラムは、本明細書に記載の方法のいずれかを実行するための命令を含む。
【0095】
いくつかの実施形態では、宿主においてタンパク質を発現させるために核酸配列を最適化するための電子デバイスが提供され、デバイスは、本明細書に記載の方法のいずれかを実行するための手段を含む。
【0096】
いくつかの実施形態では、宿主においてタンパク質を発現させるために核酸配列を最適化するための記録可能媒体に格納されたプログラム製品が提供され、プログラム製品は、本明細書に記載の方法のいずれかを実行するためのコンピュータソフトウェアを備える。
【0097】
いくつかの実施形態では、本明細書に記載の方法のいずれかから得られた最適化された核酸配列を含む単離された核酸分子が提供される。
【0098】
いくつかの実施形態では、上記の単離された核酸分子を含むベクターが提供される。
【0099】
いくつかの実施形態では、上記の単離された核酸分子または上記のベクターを含む組換え宿主細胞が提供される。
【0100】
いくつかの実施形態では、宿主細胞においてタンパク質を発現させるための方法が提供され、この方法は、(a)本明細書に記載の方法のいずれかを使用して、宿主細胞においてタンパク質を発現させるための最適化された核酸配列を得ることと、(b)最適化された核酸配列を含む核酸分子を合成することと、(c)核酸分子を宿主細胞に導入して組換え宿主細胞を得ることと、(d)最適化された核酸配列からのタンパク質の発現を可能にする条件下で組換え宿主細胞を培養することを含む。
【0101】
図2Aは、いくつかの実施形態による、宿主においてタンパク質を発現させるための配列(例えば、核酸配列)を最適化するためのアルゴリズムを構築し、実行するための例示的なパイプライン200を示す。プロセス200は、例えば、
図4に例解する1つ以上の電子デバイスを使用して実行される。いくつかの実施例では、プロセス200は、クライアントサーバーシステムを使用して実行され、プロセス200のブロックは、サーバーとクライアントデバイスとの間で任意の方法で分割される。他の実施例では、プロセス200のブロックは、サーバー及び/または複数のクライアントデバイスとの間で分割される。したがって、プロセス200の一部は、特定のデバイスによって実行されるものとして本明細書で説明されているが、プロセス200は、そのように限定されないことが理解されよう。他の実施例では、プロセス200は、単一の電子デバイス(例えば、電子デバイス400)のみまたは複数の電子デバイスを使用して実行される。プロセス200では、いくつかのブロックが任意により組み合わされ、いくつかのブロックの順序が任意により変更され、いくつかのブロックが任意により省略される。いくつかの実施例では、プロセス200と組み合わせて追加のステップを実行することができる。
【0102】
データ収集及び文献レビュー
図2Aを参照すると、ブロック202において、複数の高発現遺伝子は、1つ以上のデータベースから同定され得る。データベースは、パブリックまたはプライベートであり得る。例えば、データベース(複数可)は、ある企業の順序システムから収集された、以前に成功裏に最適化された順序を含む独自のデータベースであってもよい。別の例として、データは、公開情報であり得る様々な培養条件下でのRNA-seqデータのデータマイニングによって得ることができる。
【0103】
ブロック204では、高発現遺伝子の基本的な特徴が同定される。例示的な実施では、mRNA-seq実験及びデータ分析は、標準サンプルに対してIllumina推奨のmRNA-Seqワークフローに従って実行する。過程中、TruSeq Stranded mRNA Library Prep Kitをライブラリー調製に使用でき、NextSeqのPE300をシーケンシングに使用できる。その後、コドン頻度、同義コドン頻度、及びコドンペア頻度などの高発現遺伝子の基本情報を得ることを目的として、TopHat、Cufflinks、及び自家製スクリプトによるデータ処理を適用することができる。
【0104】
ブロック206及び208において、例示的なシステムはまた、確立された利点を維持するために回避する報告され検証されたあらゆる有害な特徴を同定することができる。タンパク質発現の低下をもたらし得る負の因子を発見するために、このシステムでは、文献レビューを実施することができる。例えば、自動テキストマイニング及び/または手作業によるチェックにより、様々な宿主に対して、報告された発現関連の有害なモチーフ及びmRNAの特徴を特定することができる。
【0105】
最適化アルゴリズムの主な因子/適合性関数
コーディング遺伝子の発現には、複数のステップがあり、これは、転写レベル、mRNAターンオーバー、翻訳(開始、プロモーターエスケープ、伸長、及び終了など)、及び翻訳後修飾に依存する。それにもかかわらず、コドン最適化は組み合わせ問題として単純化でき、(i)最初にある特定のアミノ酸の同義コドンの数を割り当てる方法、(ii)同義コドンを最も好適な場所に配置する方法、及び(iii)有害であるが誤って生成された部分配列及び/またはモチーフを減少させる方法の3つの直感的な操作にグループ化できる。
【0106】
本発明のいくつかの実施形態によれば、以下に提供するのは、上記の3つの操作にそれぞれ一致し、タンパク質発現と高度に相関する3つの重要な因子、すなわち調和インデックス、コドン文脈インデックス、及び外れ値インデックスである。以下に説明するように、これら3つのインデックスは、様々なデータソースから収集された上記の基礎データに基づいて計算される。
【0107】
図2Aを参照すると、ブロック210において、2つのステップ212及び214を含む最適化手順が実行される。ブロック212に示すステップ1において、システムは、NSGA-IIIアルゴリズムまたはその変形に基づいて多目的コドン最適化を実行し、これには、調和インデックスの最大化、コドン文脈インデックスの最大化、及び外れ値インデックスの最小化を伴う。
【0108】
1.調和インデックス
調和インデックスは、高発現遺伝子と候補核酸配列との間の同義コドンの使用頻度分布の一貫性を表す。候補核酸配列は、最適化アルゴリズムの少なくとも1回の反復において評価した候補タンパク質をコードする遺伝子を指し、これは、「多目的最適化アルゴリズム」の見出しにおいて詳細に説明する。いくつかの実施形態では、調和インデックスは次のとおり定義される。
【数11】
【0109】
上記の式で、Hは調和インデックスであり、D()は、2つのベクトル間の距離関数であり、限定されないが、ユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離であり得る。Fhsは、高発現遺伝子内の18個のアミノ酸(Met/M及びTrp/Wを除く)の同義コドンの頻度を含むベクトルであり、64個のコドンから3つの終始コドン(すなわち、TAA、TAG、及びTGA)、アミノ酸Met/Mのコドン(すなわち、ATG)、及びアミノ酸Trp/Wのコドン(すなわち、TGG)を除いた59個のエレメントを有する。Ftsは、コドン最適化を待機している候補タンパク質のコーディング遺伝子(すなわち、候補核酸配列)内の18個のアミノ酸の同義コドンの頻度を含むベクトルである。
【0110】
コドン適応インデックス(CAI)と比較して、調和インデックスは同義コドンの分布(すなわち、使用頻度のバランス/負荷のバランス)に集中するが、最も高頻度で発生する一意の上位1つの同義コドンを選択することによって、常にCAIを最大化することを目的にするものではない。
【0111】
いくつかの実施形態では、調和インデックスの計算中に使用される高発現遺伝子または候補核酸配列のある特定の同義コドンの頻度は、以下のように定義される。
【数12】
【0112】
調和インデックスは、コドン使用頻度を考慮に入れているが、これは、同義コドンの頻度分布のみを考慮しており、18個のアミノ酸のうちの1つの異なる遺伝子座での割り当てについては、依然として問題である(すなわち、同じアミノ酸の同義コドンの設定の順序付け)。したがって、同義コドンのほぼ最適なランク付けを選択するために、同義コドンのペアリングを通じてこのボトルネックを解決するには、以下に説明するコドン文脈インデックスが必要である。
2.コドン文脈インデックス
【0113】
候補核酸配列のコドン文脈インデックスは、同義コドンを好適な場所に配置するための尺度である。いくつかの実施形態では、コドン文脈インデックスは次のように定義される。
【数13】
【0114】
上記の式で、CCは、コドン文脈インデックスを意味し、D()は、2つのベクトル間の距離関数であり、限定されないが、ユークリッド距離、コサイン距離、マンハッタン距離、またはミンコフスキー距離であり得る。Fhccは、高発現遺伝子内の2つの連続したアミノ酸のすべての種類の同義コドンペアの頻度で構成されたベクトルである。例えば、アミノ酸Phe/Fは、2つの同義のコドン、すなわちTTT及びTTCを有する。アミノ酸Lys/Kは、コドンとしてAAA及びAAGも有する。それらの同義のコドンペアは、TTTAAA、TTTAAG、TTCAAA、及びTTCAAGを含む2x2の組み合わせであろう。2つのアミノ酸メチオニン/M及びトリプトファン/W(すなわち、MM、MW、WW、及びWM)の順列には同義のコドンペアが存在しないため、CCの長さは61x61マイナス4であり、最終的に3717に等しくなる。Ftccは、候補タンパク質のコード遺伝子(すなわち、候補核酸配列)内のすべての種類の2つの連続するアミノ酸の同義コドンペアの頻度で構成されたベクトルであり、その長さは同様に3717である。
【0115】
コドン文脈インデックスの計算中に使用される、高発現遺伝子または候補核酸配列の特定の同義コドンペアの頻度は、次のように定義される。
【数14】
【0116】
3.外れ値インデックス
外れ値インデックスは、タンパク質発現に対する同定された複数の配列特徴の悪影響を評価するために重み付け関数によって計算された尺度である。いくつかの実施形態では、外れ値インデックスは次のように定義される。
【数15】
【0117】
上記の式において、Nは、同定された複数の配列因子の数であり、N>1である。fi(x)は、同定されたN個の配列特徴のi番目の配列因子のペナルティスコアリング関数を示し、wiは、fi(x)に付与される相対的な重み付けを示す。したがって、最適化された遺伝子は、可能な限り低い値の外れ値インデックスを有するであろう。
【0118】
いくつかの実施形態では、複数の配列因子は、
図2Aに示すステップ202、204、及び208のうちの1つ以上を介して同定され得る。いくつかの実施形態では、複数の配列因子は、限定されないが、GC含有率、CISエレメント、反復エレメント、RNAスプライシング部位、リボソーム結合配列、mRNAの最小自由エネルギーを含む(以下に詳細に記載する)。
【0119】
3(a).mRNAの最小自由エネルギー(MFE)
開始コドンの下流に位置するmRNAの潜在的な強力なステムループ二次構造により、リボソーム複合体の動きが妨げられ、したがって翻訳を減速させ、翻訳効率を低下させ得る。mRNAの安定した二次構造は、リボソーム複合体をmRNAから脱落させ、翻訳の早期終了を引き起こす可能性さえある。Mfold、RNAfold、RNAstructureなど、自由エネルギーの計算及び二次構造予測のための方法が複数存在する。本発明の実施形態によれば、低い自由エネルギー(△G<-18Kcal/モル)または長い相補的幹(>10bp)を有するmRNAの局所二次構造は、効率的な翻訳には安定しすぎると定義される。遺伝子配列は、好ましくは、局所構造がそれほど安定しないように最適化される。mRNA構造の自由エネルギーの計算及び二次構造の予測には、mRNAの5’-UTR及び3’-UTRの両方を考慮することが好ましい。
【0120】
いくつかの実施形態では、安定しすぎると見なされる二次構造は、より高いペナルティに対応付けられる。より高いペナルティスコアを付与するために使用される重み付けは柔軟である。
【0121】
3(b).GC含有率
mRNAのGC含有率も考慮に入れることが好ましい。GC%の理想的な範囲は、約30~70%である。GC含有率が高い場合には、mRNAが強力なステムループ二次構造を形成する。また、PCR増幅及び遺伝子クローニングにも問題が生じることになる。標的配列の高いGC含有率は、好ましくは、コドン縮重が約50~60%であることを使用して変異させる(例えば、NSGA-IIIアルゴリズムの動作中に、バイナリ文字列のクロスオーバー及び変異など)。
【0122】
GC%には、2つの異なる測定値がある。1つは、その配列全体で平均化された全体的GC%であり、もう1つは、より有用であり、固定サイズ(例えば、60bp)のシフトされた「ウィンドウ」内で計算された局所GC%である。本発明の実施形態によれば、局所GC%は、約35~65%に最適化される。
【0123】
3(c).不安定因子(例えば、シス作用性mRNA不安定化モチーフ、RNaseスプライシング部位及び反復エレメントなど)
mRNA分解を減少させるかもしくは最小化するか、またはmRNAの安定性を増大させ、これによりmRNAのターンオーバー時間を短縮するためには、限定されないが、AUリッチエレメント(ARE)ならびにRNase認識及び切断部位などのシス作用性mRNA不安定化モチーフを遺伝子配列から変異させるか、または欠失させることが好ましい。AUUUA(配列番号1)のコアモチーフを有するAUリッチエレメント(ARE)は、通常、mRNAの3’非翻訳領域に見られる。mRNAシスエレメントの別の例は、配列モチーフTGYYGATGYYYYY(配列番号2)で構成され、Yは、TまたはCのいずれかを表す。RNase認識配列には、限定されないが、RNaseE認識配列を含む。RNaseの欠損を有する宿主株も、タンパク質発現に使用され得る。
【0124】
RNaseスプライシング部位は、RNAスプライシングによって異なるmRNAを生成し、したがって元のmRNAレベルを低下させることができる。RNaseスプライシング部位もまた、mRNAレベルを維持するために非機能的に変異させることが好ましい。
【0125】
高レベルのmRNAを生成するために、最適な転写プロモーター配列が遺伝子配列において使用されることが好ましい。E.coliなどの原核生物宿主の場合、強力なプロモーターのうちの1つは、T7 RNAポリメラーゼ(T7RNAP)のT7プロモーターである。長いまたは短いタンデム単純配列反復(SSR)のうちのいくつかの塩基は、好ましくは、コドン縮重を使用して変異させて反復を破壊し、ポリメラーゼのずれを減少させ、したがって、時期尚早のタンパク質またはタンパク質の変異を減少させる。
【0126】
mRNAの翻訳及び結果として生じるタンパク質の発現レベルに影響を与える追加の因子及びパラメータが存在する。これらの因子は、翻訳開始から翻訳終了までの翻訳に影響を与える。リボソームは、リボソーム結合部位(RBS)においてmRNAと結合し、翻訳を開始する。リボソームは、二本鎖RNAに結合しないため、この領域の周囲の局所的なmRNA構造は、一本鎖であり、いかなる安定した二次構造も形成しないことが望ましい。シャイン-ダルガノ配列とも呼ばれるE.coliなどの原核細胞のコンセンサスRBS配列AGGAGG(配列番号3)は、好ましくは発現する遺伝子内の翻訳開始部位の数塩基直前に配置される。しかし、内部リボソーム侵入部位(IRES)は、好ましくは、非特異的翻訳開始を回避するためにリボソーム結合を防ぐために変異される。
【0127】
上記の因子の説明は、例えば、2018年5月発行のSaeid Kadkhodaei et al.,による表題「Cis/Transgene Optimization:Systematic Discovery of Novel Gene Expression Using bioinformatics and computational biology approaches」の刊行物、2014年7月に発行のTimothy J Gingerich et al.,による表題「AU-rich elements and the control of gene expression through regulated mRNA stability」の刊行物、2017年10月に発行のTala Bakheetによる表題「ARED-PLUS:AN UPDATED AND EXPANDED DATABASE OF AU-RICH ELEMENT-CONTAINING MRNAS AND PRE-MRNAS」の刊行物、1995年に発行のShuang Zhang et al.,による表題「Identification and characterization of a sequence motif involved in nonsense-mediated mRNA decay」の刊行物、2002年に発行のJiong Ma et al.,による表題「CORRELATIONS BETWEEN SHINE-DALGARNO SEQUENCES AND GENE FEATURES SUCH AS PREDICTED EXPRESSION LEVELS AND OPERON STRUCTURES」の刊行物に見い出され、これらは、参照によりその全体が本明細書に組み込まれる。
【0128】
様々な発現系では、有害因子のカタログが変更され得、その影響または重み付けも等しくない。したがって、fi(x)及びその重みは、様々な表現系において動的に変更でき得る。例えば、GC含有率及びMFEの許容範囲を設定した後、「範囲外」の範囲は、その比率でペナルティを引き起こす。同様に、不安定因子の発生数をペナルティスコアとして直接記録してもよい。
【0129】
候補核酸配列の外れ値インデックスが高くても、集団全体の多様性を維持するために、候補配列は、反復において残存する可能性を依然として幾分有することを認識すべきである。換言すると、外れ値インデックス(すなわちペナルティ)が高いと生存率が低くなるだけであり得るので、有害なモチーフ/特徴の外れ値インデックスによるフィルタリングは必須ではない。対照的に、NSGA-IIIアルゴリズムの反復が完了した後(すなわち、
図1のステップ110または
図2のステップ214)の有害なモチーフ/特徴の除去は必須である。
【0130】
結論として、本発明は、調和インデックス及びコドン文脈インデックスの値を最大化することによって正の効果を促進する試みのみでなく、外れ値インデックスを最小化することによって負の影響を回避するために最善の試みを行っている。
【0131】
多目的(例えば、2つ以上の目的)最適化アルゴリズム
本発明は3つの包括的な目的の最適化タスクであるため、多目的遺伝的アルゴリズムを使用することができる。いくつかの実施形態では、NSGA-IIIアルゴリズムまたはEliteNSGA-III(K.Debによっても提示される)などのその変形は、遺伝的アルゴリズムの古典的なフレームワークの選択操作の間、集団の多様性を維持することにより、多目的最適化問題を解決する上での利点のために使用可能である。
【0132】
NSGA-IIIは、2014年にKalyanmoy Deb及び Himanshu Jainによって提唱された。これは、NSGA-IIフレームワークに従った参照点ベースの多目的進化的アルゴリズムであり、優先でないが、提供された参照点のセットに近い集団メンバーに重点を置いている。NSGA-IIIは、NSGA-IIなどの他の遺伝的アルゴリズムと比較して、3目的から15目的の最適化問題を解決する効果を示している。従来の遺伝的アルゴリズムとは異なり、NSGA-IIIの集団メンバー間での多様性の維持が、十分に広がっている複数の事前定義された参照点を提供して、適応的に更新することによって支援され、したがって、NSGA-IIIでは、その選択演算子が大幅に変更される。
【0133】
NSGA-IIIアルゴリズムは、2014年8月に発行のKalyanmoy Deb et al.,による表題「An Evolutionary Many-Objective Optimization Algorithm Using Reference-Point-Based Nondominated Sorting Approach,PartI:Solving Problems With Box Constraints」の刊行物に記載されており、これは、その全体が参照により本明細書に組み込まれる。関連するNSGA-IIアルゴリズムは、2002年8月に発行のKalyanmoy Deb et al.,による表題「A fast and elitist multiobjective genetic algorithm:NSGA-II」の刊行物に記載されており、その全体が参照により本明細書に組み込まれる。
【0134】
NSGA-IIIの実施中に、核酸配列を表すデータ構造として、コドンリスト/アレイ/ベクトルではなく、バイナリ文字列が選択されるが、バイナリ文字列では、データ構造としてのコドンリスト/アレイ/ベクトルと比較して、より小さいコンピュータメモリが必要であり、より速い操作速度が可能になるため、集団の初期化、クロスオーバー/組換え、変異などの一般的な遺伝的アルゴリズムのすべての一般的な操作オブジェクトは、バイナリ文字列である。いくつかの実施形態では、3つのビットのすべての組み合わせの数は、特定のアミノ酸の考えられる同義コドンの候補のすべてに一致するのに十分であるため、3つの連続ビットを使用して、1つの位置でのコドンを示す。例えば、3ビットには8種類の組み合わせ、例えば000、001、010、011、100、101、110、及び111があり、その数は任意のアミノ酸、さらにはそれぞれ6つの同義コドンを所有しているアミノ酸L、R及びSの同義コドンの数よりも多くなる。
【0135】
したがって、3つのビット文字列のそれぞれは、所与のアミノ酸の同義のコドンを表す。適合性の計算(例えば、調和インデックス、コドン文脈インデックス、及び外れ値インデックスの計算)中に、集団の個々の候補を表すバイナリ文字列がコーディング配列(すなわち、DNA)に変換して戻される。一方、前述のように、遺伝的アルゴリズムの動作オブジェクト(クロスオーバー、変異、選択など)は、すべてバイナリ文字列であるため、変換は一時的なものである。したがって、適応性の計算は配列に基づくが、他のすべての動作は、効率及び速度のためにバイナリ文字列に基づく。
【0136】
NSGA-IIIを開始する前に、集団のサイズ、分割数、シミュレートされたバイナリクロスオーバーの分布インデックス、シミュレートされたバイナリクロスオーバーのクロスオーバー率、ビット反転変異の変異率、ビット反転変異の分布インデックスなど、複数のパラメータを設定する必要がある。NSGA-IIIの作成者は、外側と内側の分割数が指定されている多目的問題の分割に対して2層アプローチを提案している。2層アプローチを使用するために、分割数を外部分割数及び内部分割数に置き換えることができ得る。それぞれの個体の初期化プロセスはランダムであり、クロスオーバー及び変異の操作は、
図2Bに示す古典的な遺伝的アルゴリズムと大きな差はない。
【0137】
図2Bは、クロスオーバー、変異、及び集団進化の選択など、生体から発想された演算子を含む遺伝的アルゴリズムの例示的な一般的なワークフローを示している。本発明の実施中、バイナリ文字列は、配列を示し、したがって、上記のすべての演算子のオブジェクトはバイナリ文字列である。
【0138】
選択する前に、集団全体の各個体について適合性関数(すなわち、前述の3つのインデックス関数)を評価する必要がある場合、バイナリ文字列は、一時的にコドン文字列に戻される。複数の進化世代及び進化の終了の後、最終的に生成されたコドン文字列が連結され、組換え発現に使用される最適な遺伝子として出力される。
【0139】
いくつかの実施形態では、終了条件としては、限定されないが、一定数の世代に到達すること、最良の適合性がプラトーに達し、これ以上良好な結果が生成されないこと、ほぼ最適な解決策の最小基準がいくつかの解決策によって満たされていることが挙げられる。
【0140】
NSGA-IIIアルゴリズムの教示によれば、これらの最適な遺伝子は、3次元空間のパレート面に配置され、等しく扱われるソリューションである必要がある。実用目的上、遺伝子合成及び発現試験に使用するリソースが限られているため、最初に調和インデックスの降順、次にコドン文脈インデックスの降順、最後に外れ値インデックスの昇順でランク付けする。クォータが1つの配列のみである場合、最上位1つを合成用に選択できる。厳密なコスト管理がないと仮定すると、例えば、調和インデックスが最も高い候補、コドン文脈インデックスが最も高い候補、及び外れ値インデックスが最も低い候補など、パレート面で十分な間隔を有するいくつかをテストすることが勧められる。本発明において、予備的最適遺伝子は終止コドンを有さないため、2つの連続的な終止コドンをコード配列の3’末端に付加することができる。
【0141】
分子クローニングのための特定の部分配列の除去
図2Aを参照すると、ブロック214において、最適化手順は、モチーフを回避し、制限部位を除去するステップを含む。分子クローニングの利便性を高めることを目的として、遺伝子合成及びタンパク質発現の前に、いくつかの有害なモチーフ及び制限部位(例えば、顧客が好まないもの)を1つ以上の最適化された配列から除去する。この過程には、以下を含む:
ステップ1:回避する必要のあるすべての部分配列を配置する。
ステップ2:部分配列内の置換に使用でき得るすべての同義コドンをリスト化する。
ステップ3:高発現遺伝子内でより頻繁に使用される同義コドンは、必ず新しい部分配列が同時に出現しないことを条件として、より高い選択優先度を有する。
ステップ4:ステップ2~3を使用して、見つかったすべての部分配列を繰り返し処理する。
【0142】
いくつかの実施形態では、ブロック206及び208に示すとおり、有害なモチーフ及び特徴は、テキストマイニング及び文献レビューによって、様々な宿主について別々に同定する。
【0143】
例示的な実現形態
本明細書に記載の例示的な実現形態は、CHO3E7細胞株における2つの遺伝子(JNK3A1及びGFP)の最適化及び発現によるコドン最適化に関する本発明の効率を示し、その基本情報を以下に要約する。発現レベルを評価するためにFlagタグの抗体を適用してウエスタンブロットを行ったため、Flagタグを2つのタンパク質のC末端に付加し、添加対照としてベータアクチンを使用した。各発現実験を2回繰り返した。
【表A】
【0144】
FreeStyleCHO発現培地及びCDCHO培地(Thermofish)などいくつかの培地で培養されたCHO 3E7のmRNA-seqを、Illumina推奨の古典的なmRNA-seqの提案に従って実行した。当社の最適化に成功した部分的順序と統合することにより、合計500の配列をCHO3E7細胞株の高発現遺伝子として定義した。文献レビューの後、以下の部分配列を、有害なモチーフにグループ化し、その出現はペナルティ(すなわち、外れ値インデックスの増加)とした。好適な局所(60bpスライディングウィンドウ)及び全体的GC含有率は、約35~65%であり、mRNA二次構造の許容可能な最小MFE△Gは、-18Kcal/molであり、これらのパラメータの外れ値がペナルティとなった。
1)スプライス部位:GGTAAG、GGTGAT
2)ATリッチエレメント:ATTTTA、ATTTTTA、ATTTTTTA
3)リボソーム結合部位:ACCACCATGG(配列番号4)、GCCACCATGG(配列番号5)
4)抗ウイルスモチーフ:TGTGT、AACGTT、CGTTCG、AGCGCT、GACGTC、GACGTT
5)CpGアイランド:CGCGCGCG
6)ポリメラーゼずれ部位:GGGGGG、CCCCCC
7)アミロイド前駆体タンパク質3プライム安定性エレメント:TCTCTTTACATTTTGGTCTCTATACTACA(配列番号6)
8)K-Box:CTGTGATA
9)Brd-Box:AGCTTTA
【0145】
NSGA-IIIによるコドン最適化中に、集団サイズを100に設定し、個々は、バイナリコード化させてランダムに生成した。その長さはタンパク質のアミノ酸数の3倍に等しく、進化世代数は200,000に等しく、分割数は適合性関数の数に依存し、シミュレートされたバイナリクロスオーバーの分布インデックスは15.0であり、シミュレートされたバイナリクロスオーバーのシングルポイントクロスオーバー率は0.9であり、ビット反転変異の変異率は1.0/Lであり、ビット反転変異の分布インデックスは、20.0であった。
【0146】
外れ値インデックスを最小化すると共に調和インデックス及びコドン文脈インデックスを最大化した後、各タンパク質は、いくつかの出力最適コーディング遺伝子を有し、そのうちの1つの遺伝子のみが最大調和インデックスを有し、以下の発現試験のために選択した。EcoRI及びHindIII酵素をベクターの構築及びクローニングに使用したため、GAATTC及びAAGCTTは、コドン置換によって回避した。
【0147】
本明細書においてASCIIテキストファイルで提出し配列表には、2つのタンパク質GFP_Flag(配列番号7)及びJNK3_Flag(配列番号8)の最適化配列が含まれる。
【0148】
同じ遺伝子の野生型と比較して、最適化遺伝子の性能を評価するために使用する実験の詳細なステップを以下に記載する。
【0149】
ステップ1:一過性のトランスフェクション及び細胞培養
1.合成された遺伝子は、EcoRI及びHindIII酵素を使用して、pTT5ベクターにクローン化した。CHO 3E7細胞をFreeStyle CHO発現培地で培養し、ベクターの一過性トランスフェクションを、好適な細胞-ベクター比で、標準的な分子生物学的技術を用いて行った(すなわち、細胞密度1~1.2x106/mL、ベクター濃度1μg/ml以上)。
2.一過性トランスフェクション後、CHO 3E7細胞は37℃、5%CO2で、浮遊培養を必要とし、これを48時間継続させた。
【0150】
ステップ2:細胞破壊
1.上流から培養細胞を採取し、4℃で2分間遠心分離(10,000xg)する。上澄みを廃棄する。
2.1mLの1*PBSを添加して、エッペンドルフチューブの底に細胞を再懸濁する。次に、4℃で2分間遠心分離(10,000×g)し、上澄みを廃棄する。
3.1×106細胞あたり、200μL溶解緩衝液(低張性緩衝液[10mMトリス、1.5mMのMgCl2、10mMのKCl、pH7.9]+0.5%DDM、PMSF[最終濃度1mM]、ヌクレアーゼ、カクテル)をエッペンドルフチューブに添加する。ピペットで細胞を再懸濁する。
4.細胞をカップ型超音波セルディスラプターに入れて細胞を破砕させる(4℃、3秒超音波、1秒間隔、合計10分)。
5.破砕後、4℃で20分間遠心分離(12,000×g)する。上澄みを回収する。
【0151】
ステップ3:サンプル処理
1.BCA法を使用して上澄みの濃度を測定する。
2.上澄みの一部をローディングバッファーで処理した。
【0152】
ステップ4:電気泳動及びウエスタンブロット
1.SOPに従ってSDS-PAGE用に処理したサンプルをロードする(サンプルあたり8μg)。
2.電気泳動後、SOPに従ってウエスタンブロット実験を行った。
1)トランスファー:SDS-PAGE後にゲルを除去し、タンパク質をゲルからPVDFメンブレンに移す(トランスファーバッファー:200mLの5×トランスファー溶液を150mLの無水エタノールに加えて1Lに希釈し、1時間トランスファーする)。
2)ブロッキング:トランスファー後、PVDFを高速ブロッキング溶液で10分間ブロックした。
3)インキュベーション:ブロッキング後、5%ミルク及び対応する標識抗体と45分間インキュベートする(フラグタグ:マウス抗フラグmAb GenScript、カタログ番号A00187、1:5000希釈、THETMベータアクチン抗体、mAb、マウスGenScript、カタログ番号A00702を1:1000希釈で1時間添加し、次に標識二次抗体ヤギ抗マウスIgG-HRP GenScript、カタログ番号A00160を1:2500希釈で添加する)。
4)露光:露光撮像を、抗体のインキュベーション後にChemiDoc(商標)Touch Imaging Systemsを使用して実行し、これらの画像は、編集のために指定された場所に保存する。
5)ImageLabをタンパク質の定量分析に使用した。
【0153】
図3は、本開示の実施形態による、CHO 3E7細胞株における最適化された配列と野生型の2つの遺伝子(すなわち、GFP及びJNK3A1)との間の発現の比較を示すウエスタンブロット結果であり、各遺伝子の調和インデックスが最も高い最適化された溶液のみを、発現を比較するために試験した。本発明がコドン最適化に有効であり、ほとんど変化しない内部対照ベータアクチンと比較して発現を増強することが明らかに示されている。左レーンは常にラダーマーカーであり、単一プラスミドのすべての発現が2回繰り返された。大まかな定量分析によれば、GFPの発現は約6.2倍改善されたと推定され、JNK3の発現は本発明のコドン最適化後に約2.4倍促進された。
【0154】
例示的な電子デバイス
図4には、一実施形態によるコンピューティングデバイスの一例を示す。デバイス400は、ネットワークに接続されたホストコンピュータであり得る。デバイス400は、クライアントコンピュータまたはサーバーであり得る。
図4に示すように、デバイス400は、パーソナルコンピュータ、ワークステーション、サーバ、または電話またはタブレットなどのハンドヘルドコンピューティングデバイス(携帯電子デバイス)など、任意の好適なタイプのマイクロプロセッサベースのデバイスであり得る。デバイスは、例えば、プロセッサ410、入力デバイス420、出力デバイス430、ストレージ440、及び通信デバイス460のうちの1つ以上を備えることができる。入力デバイス420及び出力デバイス430は、一般に、上記のものに対応することができ、コンピュータに接続可能であるか、またはコンピュータと統合することができる。
【0155】
入力デバイス420は、タッチスクリーン、キーボードまたはキーパッド、マウス、または音声認識デバイスなど、入力を提供する任意の好適なデバイスであり得る。出力デバイス430は、タッチスクリーン、触覚デバイス、またはスピーカーなど、出力を提供する任意の好適なデバイスであり得る。
【0156】
ストレージ440は、RAM、キャッシュ、ハードドライブ、またはリムーバブルストレージディスクを含む、電気的、磁気的または光学的メモリなどのストレージを提供する任意の好適なデバイスであり得る。通信デバイス460は、ネットワークインターフェースチップまたはデバイスなど、ネットワークを介して信号を送受信することができる任意の好適なデバイスを含むことができる。コンピュータの構成要素は、物理バスまたはワイヤレスなど、任意の好適な方法で接続され得る。
【0157】
ストレージ440に格納され、プロセッサ410によって実行され得るソフトウェア450は、例えば、本開示の機能を具現するプログラミングを含むことができる(例えば、上記のようにデバイスに具現されるように)。
【0158】
ソフトウェア450はまた、命令実行システム、装置、またはデバイスからのソフトウェアに関連する命令を取得して、命令を実行することができる、上記のものなど、命令実行システム、装置、またはデバイスによってまたはそれらに接続して使用するために、任意の非一時的コンピュータ可読記憶媒体内に格納及び/または輸送することができる。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、もしくはデバイスによる使用のためにまたはそれらと接続してプログラムを含むかまたは格納することができる、ストレージ440など、任意の媒体であり得る。
【0159】
ソフトウェア450はまた、命令実行システム、装置、またはデバイスからソフトウェアに関連する命令を取得して、その命令を実行することができる、上記のものなどの命令実行システム、装置、またはデバイスによってまたはそれらに接続して使用するために、任意の輸送媒体内で伝播させることができる。本開示の文脈において、輸送媒体は、命令実行システム、装置、またはデバイスによって、またはそれらに接続して使用するために、プログラミングを通信、伝播、または輸送することができる任意の媒体であり得る。輸送可読媒体は、限定されないが、電子的、磁気的、光学的、電磁的または赤外線有線または無線伝搬媒体を含むことができる。
【0160】
デバイス400は、任意の好適な型の相互接続された通信システムであり得るネットワークに接続され得る。ネットワークは、任意の好適な通信プロトコルを実施でき、任意の好適なセキュリティプロトコルによって保護され得る。ネットワークは、無線ネットワーク接続、T1またはT3回線、ケーブルネットワーク、DSL、または電話回線など、ネットワーク信号の送受信を実施できる任意の好適な構成のネットワークリンクを含むことができる。
【0161】
デバイス400は、ネットワーク上での動作に好適である任意のオペレーティングシステムを実装することができる。ソフトウェア450は、C、C++、Java(登録商標)、Pythonなどの任意の好適なプログラミング言語で記述できる。様々な実施形態では、本開示の機能を具現するアプリケーションソフトウェアは、例えば、クライアント/サーバー構成において、またはウェブベースのアプリケーションまたはウェブサービスとしてのウェブブラウザを介してなど、異なる構成で展開され得る。
【0162】
本開示及び実施例は、添付の図を参照して完全に説明されているが、様々な変更及び修正が当業者に明らかであろうことに留意されたい。そのような変更及び修正は、特許請求の範囲によって定義される開示及び実施例の範囲内に含まれるものとして理解されるべきである。
【0163】
説明のための上記記述は、具体的な実施形態を参照して説明した。しかしながら、上記の例示的な考察は、網羅的であることを意図するものではなく、また、本発明を開示されている正確な形態に限定することを意図するものでもない。上述の教示に照らして多くの変更形態及び変形形態が可能である。実施形態は、技術の原理及びそれらの実際の適用を最もよく説明するために選択され、記載した。これにより、当業者は、企図される特定の用途に適した様々な修正を加えた技術及び様々な実施形態を最もよく利用することが可能になる。
【配列表】