(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022155412
(43)【公開日】2022-10-13
(54)【発明の名称】植物へ導入する遺伝子の人工配列の設計システム
(51)【国際特許分類】
C12N 15/09 20060101AFI20221005BHJP
A01H 1/00 20060101ALN20221005BHJP
【FI】
C12N15/09 Z ZNA
A01H1/00 A
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021058895
(22)【出願日】2021-03-30
【国等の委託研究の成果に係る記載事項】(出願人による申告)2020年度、国立研究開発法人新エネルギー・産業技術総合開発機構業務委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504143441
【氏名又は名称】国立大学法人 奈良先端科学技術大学院大学
(74)【代理人】
【識別番号】100124039
【弁理士】
【氏名又は名称】立花 顕治
(72)【発明者】
【氏名】加藤 晃
(72)【発明者】
【氏名】山▲崎▼ 将太朗
【テーマコード(参考)】
2B030
【Fターム(参考)】
2B030AA02
2B030AB02
2B030AD20
2B030CA14
(57)【要約】
【課題】高発現できる人工配列を高精度で設計することが可能な植物へ導入する遺伝子の人工配列の設計システム、設計方法、及び設計プログラムを提供する。
【解決手段】本発明に係る、植物へ導入する遺伝子の人工配列の設計システムは、植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断効率に関する第1情報、を算出する第1予測器、及び植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断部位と当該切断部位における切断効率に関する第2情報を、算出する第2予測器、の少なくとも一方を含み、前記遺伝子情報から、前記第1情報及び前記第2情報の少なくとも1つに基づく切断情報を出力する学習装置と、植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された切断情報を目的変数とする遺伝的アルゴリズムにより、切断効率の低い前記個体の前記遺伝子情報を算出する最適化装置と、を備えている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断効率に関する第1情報を、算出する第1予測器、及び
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断部位と当該切断部位における切断効率に関する第2情報を、算出する第2予測器、
の少なくとも一方を含み、前記遺伝子情報から、前記第1情報及び前記第2情報の少なくとも1つに基づく切断情報を出力する学習装置と、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された切断情報を目的変数とする遺伝的アルゴリズムにより、切断効率の低い前記個体の前記遺伝子情報を算出する最適化装置と、
を備えている、植物へ導入する遺伝子の人工配列の設計システム。
【請求項2】
前記第1予測器は、
前記遺伝子情報から、前記mRNAの5’UTR内の特徴、前記mRNAのCDS内の特徴、前記mRNAの3’UTR内の特徴、及び前記mRNAの長さを含む前記mRNA全体の特徴、の少なくとも1つに関する第1評価値を生成し、
前記第1評価値に基づいて、前記第1情報を算出するように学習された第1学習器を備えている、
請求項1に記載の、植物へ導入する遺伝子の人工配列の設計システム。
【請求項3】
前記第2予測器は、
前記遺伝子情報から、切断部位周辺の配列パターン、及び切断部位が存在する位置、の少なくとも1つに関する第2評価値を生成し、
前記第2評価値に基づいて、前記第2情報を算出するように学習された第1学習器を備えている、
請求項1または2に記載の、植物へ導入する遺伝子の人工配列の設計システム。
【請求項4】
前記学習装置は、前記第1情報及び前記第2情報の両方に基づいて、前記切断情報を算出する、
請求項1から3のいずれかに記載の、植物へ導入する遺伝子の人工配列の設計システム。
【請求項5】
植物の転写開始点、ポリA付加部位、及びスプライシングサイトに所定の頻度で出現する配列パターンのうち少なくとも1つに該当するものを特定配列パターンとして規定し、
前記遺伝的アルゴリズムは、交叉の処理において生成された前記個体の遺伝子情報が、前記特定配列パターンと所定の類似度で類似する配列パターンを含む場合、当該生成された個体を前記集団に含ませず、当該集団に含まれる他の個体を複製して当該集団に含ませる、
請求項1から4のいずれかに記載の、植物へ導入する遺伝子の人工配列の設計システム。
【請求項6】
植物の転写開始点、ポリA付加部位、及びスプライシングサイトに所定の頻度で出現する配列パターンのうち少なくとも1つに該当するものを特定配列パターンとして規定し、
前記遺伝的アルゴリズムは、突然変異の処理において生成された前記個体の遺伝子情報が、前記特定配列パターンと所定の類似度で類似する配列パターンを含む場合、当該生成された個体を前記集団に含ませず、当該突然変異の処理前の前記個体を当該集団に含ませる、
請求項1から5のいずれかに記載の、植物へ導入する遺伝子の人工配列のシステム。
【請求項7】
前記遺伝的アルゴリズムは、島モデル型遺伝的アルゴリズムである、
請求項1から6のいずれかに記載の、植物へ導入する遺伝子の人工配列の設計システム。
【請求項8】
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける分解効率に関する第1情報を、算出する第1予測器を含み、前記遺伝子情報から、前記第1情報に基づく分解情報を出力する学習装置と、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された分解情報を目的変数とする遺伝的アルゴリズムにより、分解効率の低い前記個体の前記遺伝子情報を算出する最適化装置と、
を備えている、植物へ導入する遺伝子の人工配列の設計システム。
【請求項9】
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断効率に関する第1情報、を算出する第1予測器、及び
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断部位と当該切断部位における切断効率に関する第2情報を、算出する第2予測器、
の少なくとも一方を含み、前記遺伝子情報から、前記第1情報及び前記第2情報の少なくとも1つに基づく切断情報を出力する学習装置を準備するステップと、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された切断情報を目的変数とする遺伝的アルゴリズムにより、切断効率の低い前記個体の前記遺伝子情報を算出するステップと、
を備えている、植物へ導入する遺伝子の人工配列の設計方法。
【請求項10】
コンピュータに、
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断効率に関する第1情報、を算出する第1予測器、及び
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断部位と当該切断部位における切断効率に関する第2情報を、算出する第2予測器、
の少なくとも一方を含み、前記遺伝子情報から、前記第1情報及び前記第2情報の少なくとも1つに基づく切断情報を出力する学習装置を準備するステップと、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された切断情報を目的変数とする遺伝的アルゴリズムにより、切断効率の低い前記個体の前記遺伝子情報を算出するステップと、
を実行させる、植物へ導入する遺伝子の人工配列の設計プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、植物へ導入する遺伝子の人工配列の設計システム、設計方法、及び設計プログラムに関する。
【背景技術】
【0002】
従来、植物への外来遺伝子の導入技術が確立されており、その高発現システムについて様々な研究開発が行われている。植物における遺伝子発現量を増大させるための主なターゲットは、セントラルドグマにおける転写ステップと翻訳ステップである。転写ステップにおいては最終的に翻訳可能な転写産物を増加させることが重要であり、従来、CaMV35Sに代わる新規プロモーターや効率的なターミネーターを活用することにより正味の転写産物量を増加させ得ることが報告されている(非特許文献1及び2)。また、翻訳ステップでは、単位mRNA当たりの翻訳効率を高める翻訳エンハンサーの活用(非特許文献3~6)、開始コドンや終始コドンの近傍配列を最適化(非特許文献7及び8)により翻訳効率を向上させ得ることが報告されている。
【0003】
一方、外来遺伝子を導入した植物において、発現したmRNAが植物内で不安定になることがあり、外来遺伝子由来のmRNA蓄積量が意図せず極めて低い場合がしばしば報告されている。そのため、外来遺伝子を導入した植物において、仮に多量のmRNAが転写合成されても、mRNAが不安定な場合には細胞内で速やかに分解され、残存する翻訳可能なmRNA量が少なくなってしまう。そこで、植物内で発現したmRNAの分解を抑制できる技術の開発が望まれている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Wu, K. et al., Mol. Gen. Genomics, Vol.265, 2001, p.763-770
【非特許文献2】Nagaya, S. et al., Plant Cell Physiol., Vol.51, 2010, p.328-332
【非特許文献3】Sugio, T. et al., J. Biosci. Bioeng., Vol.105, 2008, p.300-302
【非特許文献4】Matui, T. et al., Plant Biotech., Vol.29, 2012, p.319-322
【非特許文献5】Yamasaki, S. et al., J. Biosci. Bioeng., Vol.125, 2018, p.124-130
【非特許文献6】Yamasaki, S. et al., Plant Biotech., Vol.35, 2018, p.365-373
【非特許文献7】Sugio, T. et al., J. Biosci. Bioeng., Vol.109, 2010, p.170-173
【非特許文献8】Parker, R., Genetics, Vol.191, 2012, p.671-702
【発明の概要】
【発明が解決しようとする課題】
【0005】
mRNAの分解機構は、ポリA短鎖短縮、キャップ除去に起因する分解、及びエンドヌクレアーゼによる内部配列の切断に起因する分解に大別される(非特許文献8)。一般的に導入遺伝子を発現させる際には、両末端配列がある程度同一の発現カセット(5'UTR及び3'UTR)を使用しており、転写されたmRNA量は導入遺伝子の種類によらず同程度になると考えられるため、導入遺伝子の種類によって蓄積mRNA量が大きく異なる要因は、特にmRNAの内部切断に起因する分解機構が大きく関与していると類推される。mRNAの内部切断に関する分子メカニズムは不明であったが、本発明者等は、植物内在mRNAの内部切断部位を網羅的に同定できるTruncated RNA end sequencing (TREseq)法をシロイヌナズナにおいて確立した(Ueno, D. et al., J. Biosci. Bioeng., Vol.125, 2018, p.723-728)。本発明者は、TREseq法を用いて、シロイヌナズナに加え、イネ、バラ、レタス等で同様の解析を行い、特定の配列パターンがmRNAの内部切断に強く関与することを見出している(Ueno, D. et al., Plant Cell Physiol., Vol.61, 2020, p.53-63)。
【0006】
本発明は、内部切断等の分解が起きにくい、高発現できる人工配列を高精度で設計することが可能な植物へ導入する遺伝子の人工配列の設計システム、設計方法、及び設計プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
項1.植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断効率に関する第1情報、を算出する第1予測器、及び
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断部位と当該切断部位における切断効率に関する第2情報を、算出する第2予測器、
の少なくとも一方を含み、前記遺伝子情報から、前記第1情報及び前記第2情報の少なくとも1つに基づく切断情報を出力する学習装置と、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された切断情報を目的変数とする遺伝的アルゴリズムにより、切断効率の低い前記個体の前記遺伝子情報を算出する最適化装置と、
を備えている、植物へ導入する遺伝子の人工配列の設計システム。
【0008】
項2.前記第1予測器は、
前記遺伝子情報から、前記mRNAの5’UTR内の特徴、前記mRNAのCDS内の特徴、前記mRNAの3’UTR内の特徴、及び前記mRNAの長さを含む前記mRNA全体の特徴、の少なくとも1つに関する第1評価値を生成し、
前記第1評価値に基づいて、前記第1情報を算出するように学習された第1学習器を備えている、
項1に記載の、植物へ導入する遺伝子の人工配列の設計システム。
【0009】
項3.前記第2予測器は、
前記遺伝子情報から、切断部位周辺の配列パターン、及び切断部位が存在する位置、の少なくとも1つに関する第2評価値を生成し、
前記第2評価値に基づいて、前記第2情報を算出するように学習された第1学習器を備えている、
項1または2に記載の、植物へ導入する遺伝子の人工配列の設計システム。
【0010】
項4.前記学習装置は、前記第1情報及び前記第2情報の両方に基づいて、前記切断情報を算出する、
項1から3のいずれかに記載の、植物へ導入する遺伝子の人工配列の設計システム。
【0011】
項5.植物の転写開始点、ポリA付加部位、及びスプライシングサイトに所定の頻度で出現する配列パターンのうち少なくとも1つに該当するものを特定配列パターンとして規定し、
前記遺伝的アルゴリズムは、交叉の処理において生成された前記個体の遺伝子情報が、前記特定配列パターンと所定の類似度で類似する配列パターンを含む場合、当該生成された個体を前記集団に含ませず、当該集団に含まれる他の個体を複製して当該集団に含ませる、
項1から4のいずれかに記載の、植物へ導入する遺伝子の人工配列の設計システム。
【0012】
項6.植物の転写開始点、ポリA付加部位、及びスプライシングサイトに所定の頻度で出現する配列パターンのうち少なくとも1つに該当するものを特定配列パターンとして規定し、
前記遺伝的アルゴリズムは、突然変異の処理において生成された前記個体の遺伝子情報が、前記特定配列パターンと所定の類似度で類似する配列パターンを含む場合、当該生成された個体を前記集団に含ませず、当該突然変異の処理前の前記個体を当該集団に含ませる、
項1から5のいずれかに記載の、植物へ導入する遺伝子の人工配列のシステム。
【0013】
項7.前記遺伝的アルゴリズムは、島モデル型遺伝的アルゴリズムである、
項1から6のいずれかに記載の、植物へ導入する遺伝子の人工配列の設計システム。
【0014】
項8.植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける分解効率に関する第1情報を、算出する第1予測器を含み、前記遺伝子情報から、前記第1情報に基づく分解情報を出力する学習装置と、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された分解情報を目的変数とする遺伝的アルゴリズムにより、分解効率の低い前記個体の前記遺伝子情報を算出する最適化装置と、
を備えている、植物へ導入する遺伝子の人工配列の設計システム。
【0015】
項9.植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断効率に関する第1情報、を算出する第1予測器、及び
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断部位と当該切断部位における切断効率に関する第2情報を、算出する第2予測器、
の少なくとも一方を含み、前記遺伝子情報から、前記第1情報及び前記第2情報の少なくとも1つに基づく切断情報を出力する学習装置を準備するステップと、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された切断情報を目的変数とする遺伝的アルゴリズムにより、切断効率の低い前記個体の前記遺伝子情報を算出するステップと、
を備えている、植物へ導入する遺伝子の人工配列の設計方法。
【0016】
項10.コンピュータに、
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断効率に関する第1情報、を算出する第1予測器、及び
植物のmRNA配列に関する遺伝子情報から、当該mRNAにおける内部切断の切断部位と当該切断部位における切断効率に関する第2情報を、算出する第2予測器、
の少なくとも一方を含み、前記遺伝子情報から、前記第1情報及び前記第2情報の少なくとも1つに基づく切断情報を出力する学習装置を準備するステップと、
植物のmRNA配列に関する複数の遺伝子情報を個体として含む集団を準備し、前記個体の遺伝子情報から前記学習装置によって算出された切断情報を目的変数とする遺伝的アルゴリズムにより、切断効率の低い前記個体の前記遺伝子情報を算出するステップと、
を実行させる、植物へ導入する遺伝子の人工配列の設計プログラム。
【発明の効果】
【0017】
本発明によれば、内部切断等の分解が起きにくい、高発現できる人工配列を高精度で設計することが可能である。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施形態に係る設計システムのブロック図である。
【
図3】第1学習器における学習の例を説明する図である。
【
図4】第1学習器を用いたCS_Gene値の予測を説明する図である。
【
図5】第2学習器における学習の例を説明する図である。
【
図6】第2学習器を用いたCS_Site値の予測を説明する図である。
【
図7】島モデル型遺伝的アルゴリズムの一例を示す図である。
【
図8】CS_Geneの予測値(縦軸)と実測値(横軸)の関係を示すグラフである。
【
図9】一過性発現実験に使用した発現ベクターの構築図である。
【
図10】各R-Luc配列を導入した発現ベクターを使用した一過性発現実験において、ルシフェラーゼの相対活性値(R-Luc活性値/F-Luc活性値)を求めた結果を示す図である。
【
図11】各R-Luc配列を導入した発現ベクターを使用した一過性発現実験において、RNA蓄積量を測定した結果を示す図である。
【発明を実施するための形態】
【0019】
以下、本発明に係る植物へ導入する遺伝子の人工配列の設計方法の一実施形態について説明する。
【0020】
本発明に係る植物へ導入する遺伝子の人工配列の設計システムについて、図面を参照しつつ説明する。
図1は本実施形態に係る設計システムのブロック図である。
【0021】
この設計システムは、植物で発現させたい遺伝子配列に対して、アミノ酸配列を変化させることなく、内部切断が起きにくい人工配列を設計するためのシステムである。
図1に示すように、このシステムは、mRNAの配列情報から内部切断の切断情報を予測するための機械学習モデルを有する学習装置1と、この学習装置1によって配列情報を評価することで内部切断が起きにくい人工配列を算出するための最適化装置2と、を備えている。これらの装置1,2を備える設計システムは、CPU等のプロセッサ、RAM、及びROM等を有する制御部、不揮発性の記憶部等を有する公知のコンピュータで構成することができ、このコンピュータにより以下で説明する処理(設計方法)を行うための設計プログラムが実行される。以下、各装置について、詳細に説明する。
【0022】
<1.学習装置>
図2は学習装置のブロック図である。
図2に示すように、この学習装置1は、第1予測器11と、第2予測器12と、これら予測器11,12から算出される情報を演算する演算部13とを有している。すなわち、上記制御部は、記憶部に記憶された設計プログラムをRAMに展開する。そして、制御部は、RAMに展開されたプログラムをCPUにより解釈及び実行して、各構成要素を制御する。これによって、
図2に示すように、本実施形態に係る設計システムの学習装置1は、第1予測器11、第2予測器12、及び演算部13を備えるコンピュータとして機能する。これらの予測器11,12によって、mRNAの配列情報からmRNAの切断部位と切断効率等を含む切断情報を予測するように構成されている。以下、これらの予測器について詳細に説明する。
【0023】
<1-1.第1予測器>
第1予測器11は、第1評価部111と、第1学習器112とを有している。第1評価部111は、植物のmRNA全長配列を入力である遺伝子情報として用い、この遺伝子情報からmRNAの特徴を示す第1評価値を算出する。第1学習器112は、第1評価値から、各mRNAの全体的な切断効率であるCS_Gene値(第1情報)を出力するように学習された機械学習モデルである。CS_Gene値はmRNAの切断されにくさを表す指標であり、値が低いほど、切断されにくいことを示している。より詳細に説明すると、CS_Gene値は、そのmRNA上に存在する全切断部位由来の断片の総量を、蓄積mRNA量の指標となるCap構造を有するRNAの総量で補正した値であり、そのmRNAの全体的な切断されやすさを表す指標となる。この値が低いほど、蓄積mRNA量に対して断片RNAが少なく、切断されにくいことを示している。
【0024】
次に、第1評価部111で算出される第1評価値について説明する。第1評価値は、CS_Gene値を算出するために適したmRNAの特徴を数値化したものである。このmRNAの特徴は、種々の観点から設定可能であるが、例えば、(1)mRNAの塩基配列パターン(あらゆるパターン長、あらゆる位置)、(2)mRNAの二次構造(あらゆる構造単位、その組み合わせ、形成強度、あらゆる位置)を用いることができる。
【0025】
mRNAの安定性と翻訳効率の間には強い関係性があることが示唆されているため、mRNAの安定性と翻訳効率のいずれかに関わる特徴が特に重要となる。より詳細には、例えば、以下の特徴(a)~(d)の少なくとも1つを用いることができる。
(a) 5'UTR内の特徴(特定の位置の特定の配列パターン、二次構造の形成強度)
特に5'UTRの5'末端側の塩基配列がリボソームのリクルートに、また、CDS側の配列(コザック配列)部分が翻訳の開始に、5'UTR全体を通しての二次構造の形成強度がリボソームのスキャニングに重要と言われている。また5'UTR内で位置不問のuAUGやuORFと呼ばれる要素は、翻訳阻害やmRNA分解に関わっている。さらに、5'UTRには短すぎると翻訳が正しく開始されにくい一方、長すぎると不安定化しやすいなどの長さの要素が関わっている。
【0026】
(b) CDS内の特徴(コドンの出現頻度)
特に、翻訳の開始に関わるとされるCDSの5'UTR側の配列(コザック配列)部分や、翻訳伸長速度とmRNA安定性に関わるとされるコドンの出現頻度、mRNA内部切断に関わるとされる特徴的な配列パターンなどの特徴があげられる。
【0027】
(c) 3'UTR内の特徴(特定の配列パターン、長さ)
特に、mRNAの安定性や翻訳効率に関わるとされる複数の配列パターンや、mRNAの安定性に関わるとされる3'UTRの長さなどの特徴があげられる。
【0028】
(d) mRNA全体の特徴(特定の位置の特定の配列パターン、二次構造の形成強度、長さ)
5'側の数十から数百塩基内の二次構造は翻訳効率に影響することが分かっている。また、mRNAの長さは、mRNA翻訳時の環状化効率などに関わることで、翻訳効率や安定性に影響を与えると言われている。
【0029】
第1評価値は、上記特徴を数値化したものであり、例えば、特徴として、mRNAの5'側の塩基出現頻度を用いる場合には、この出現頻度を所定範囲の数値に正規化するなどして第1評価値を算出することができる。また、塩基配列をAUGCの4行×配列長数の列の真偽値とした配列や、二次構造の予測構造の画像を変換した配列、塩基配列を各塩基に対応する数値に置き換えた配列なども第1評価値に用いることもできる。
なお、塩基長のAUGCの4行×配列長数の列の例として、AAGUCを以下のように変換して第1評価値として用いることができる。
A:11000
U:00010
G:00100
U:00001
【0030】
また、塩基配列を各塩基に対応する数値に置き換えた配列として、例えば、A:0,U:1,G:2,C:3とすると、AAUGCを、00213と変換して第1評価値として用いることができる。
【0031】
次に、第1学習器112における具体的な学習の例について、
図3を参照しつつ、説明する。
図3に示すTREseqデータベースは、実験的手法で取得された各遺伝子の各サイトの切断されやすさに関する実測データを数値化したデータベースである。すなわち、このデータベースに上述した断片RNA量や蓄積mRNA量の情報等が含まれている。まず、TREseqデータベースから断片RNA量や蓄積mRNA量の遺伝子単位のデータを取得し(ステップS101)、これに対応するmRNAの全長配列をゲノムデータベースから取得する(ステップS102)。そして、取得したmRNAの全長配列から、上述した特徴に基づく第1評価値を算出し(ステップS103)、これを入力の教師データとする。一方、TREseqデータベースから取得された断片RNA量や蓄積mRNA量の遺伝子単位のデータからはCS_Gene値を算出する(ステップS104)。これが出力の教師データとなる。
【0032】
こうして、生成された教師データにより第1学習器112を学習させる(ステップS105)。第1学習器112で用いる機械学習モデルは特には限定されないが、例えば、Lasso回帰、PLS回帰、ランダムフォレスト回帰、勾配ブースティング回帰、サポートベクター回帰、多層ニューラルネットワーク、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク等を用いることができる。
【0033】
次に、第1学習器112を用いたCS_Gene値の予測について、
図4を参照しつつ説明する。
図4に示すように、まず、任意の全長mRNA配列を入力し(ステップS201)、これから第1評価部111により、上述した特徴を抽出するとともに、第1評価値を算出する(ステップS202)。次に、この第1評価値を学習済の第1学習器112に入力し、CS_Gene値を算出する(ステップS203)。
【0034】
<1-2.第2予測器>
第2予測器12は、第2評価部121と、第2学習器122とを有している。第2評価部121は、入力である遺伝子情報として、植物のmRNA全長配列を入力である遺伝子情報として用い、この遺伝子情報からmRNAの特徴を示す第2評価値を算出する。第2学習器122は、第2評価値から、各mRNAの全体的な切断効率であるCS_Site値(第2情報)を出力するように学習された機械学習モデルである。CS_Site値は、mRNAの各切断部位での切断されにくさを表す指標であり、値が低いほど、切断されにくいことを示している。また、CS_Gene値と違い、切断部位の数だけ指標を有している。より詳細に説明すると、CS_Site値は、各切断部位について、その切断部位由来の断片RNA量を、遺伝子単位で標準化(例えば、Z-socre化)した数値であり、各切断部位での切断されやすさを表す指標となる。この値が低いほど、その位置で切断されにくいことを示している。
【0035】
例えば、i番目の遺伝子由来のmRNAのj番目の切断部位でのCS_Site値は、以下の数式により算出することができる。以下の式で、は、i番目の遺伝子由来のmRNAのj番目の切断部位での断片RNA量、およびは、それぞれi番目の遺伝子由来のmRNA上の全切断部位での平均値および標準偏差を表す。
【数1】
【0036】
次に、第2評価部121で算出される第2評価値について説明する。第2評価値は、CS_Site値を算出するために適したmRNAの特徴を数値化したものである。このmRNAの特徴は、上記第1評価値を算出するときと同様の種々の観点から設定可能であるが、より詳細には、例えば、以下の特徴の少なくとも1つを用いることができる。特に、CS_Site値(各塩基上での切れやすさの傾向)に関わる要素は、生物学的知見より、その塩基周辺の配列パターンと切断部位が存在する位置が重要と考えられる。
【0037】
(a) 切断部位周辺の配列パターン(特定の位置の特定の配列パターン、二次構造の形成強度)
特に、切断部位の上流5塩基、下流20塩基の合成25塩基の配列パターンや、前後の二次構造やコドンの出現頻度が重要な特徴としてあげられる。
【0038】
(b) 切断部位が存在する位置(5'UTR、CDS、または3'UTR)
特に、切断部位が存在する5'UTR等の領域の違いや、切断部位と開始コドンや終始コドンとの距離が重要な特徴としてあげられる。
【0039】
第2評価値は、上記特徴を数値化したものであり、例えば、特徴として切断部位周辺の塩基出現頻度を用いる場合には、この塩基出現頻度を所定範囲の数値に正規化するなどして第2評価値を算出することができる。その他の手法としては、第1評価値の算出で示した方法を適宜採用することができる。
【0040】
次に、第2学習器122における具体的な学習の例について、
図5を参照しつつ、説明する。
図5に示すTREseqデータベースは、上述したとおりであり、上述した切断部位や断片RNA量の情報等が含まれている。そして、TREseqデータベースから断片RNA量の切断部位単位のデータを取得し(ステップS301)、切断部位の位置情報を取得する(ステップS302)とともに、これに対応する切断部位周辺500塩基の配列をゲノムデータベースから取得する(ステップS303)。こうして、取得した切断部位の位置情報と、切断部位周辺500塩基の配列とから、上述した特徴に基づく第2評価値を算出し(ステップS304)、これを入力の教師データとする。一方、TREseqデータベースから取得された断片RNA量の切断部位単位のデータからはCS_Site値を算出する(ステップS305)。これが出力の教師データとなる。
【0041】
こうして、生成された教師データにより第2学習器122を学習させる(ステップS306)。第2学習器122で用いる機械学習モデルは、第1学習器112と同様のものを用いることができる。
【0042】
次に、第2学習器122を用いたCS_Site値の予測について、
図6を参照しつつ説明する。
図6に示すように、まず、任意の全長mRNA配列を入力し(ステップS401)、これから第2評価部により、500塩基長の配列とウィンドウ位置の情報(n=mRNA配列長)を算出する(ステップS402)。すなわち、500塩基のスライディングウィンドウ方式による配列の分割を行う。その後、これらの情報から、上述した特徴の評価を行い、第2評価値を算出する(ステップS403)。次に、この第2評価値を学習済の第2学習器122に入力し、CS_Site値(n=mRNA配列長)を算出する(ステップS404)。
【0043】
また、CS_Site値は、例えば、対数変換するなど、必要に応じて種々の変換をした上で、後述する最適化装置で用いることができる。なお、全ての切断部位のCS_Site値を情報として有していると、mRNAの中のいずれの切断部位が切断されやすいかを事後的に知ることができるため、そのような情報の取得には有利である。
【0044】
以上のようにして第1予測器11からCS_Gene値が算出され、第2予測器12からCS_Site値が算出されると、
図2に示すように、演算部13において、切断情報を算出する。切断情報は、そのmRNAの総合的な切断のされやすさ(切断効率)を示す情報であり、CS_Gene値及びCS_Site値から算出される。切断情報の算出方法は特には限定されず、例えば、CS_Gene値とCS_Site値の合計値との平均を切断情報とすることができる。この場合、CS_Site値に代えて、任意の位置の1つのCS_Site値や、全ての切断部位のCS_Site値の合計値、全ての切断部位のCS_Site値のうち、最も高い値を用いることができる。また、CS_Gene値及びCS_Site値は、例えば、対数変換するなど、必要に応じて種々の変換をした上で、後述する最適化装置2で用いることができる。
【0045】
<2.最適化装置>
次に、最適化装置2について、
図7を参照しつつ説明する。最適化装置2は、切断効率の低いmRNAの配列を算出するものであり、遺伝的アルゴリズムを用いて構築されている。上記学習装置1と同様に、上記制御部は、記憶部に記憶された設計プログラムをRAMに展開する。そして、制御部は、RAMに展開されたプログラムをCPUにより解釈及び実行して、各構成要素を制御する。これによって、本実施形態に係る設計システムの最適化装置2は、以下に示す処理を行うコンピュータとして機能する。ここでは、一例として、
図7に示すように、島モデル型遺伝的アルゴリズムを用いることとする。但し、以下の手法は一例であり、他の遺伝的アルゴリズムを用いることもできる。まず、各島において行われている遺伝的アルゴリズムの計算について説明する。
【0046】
<2-1.遺伝的アルゴリズムによる人工配列の設計>
まず、
図7に示すように、各島の初期集団としてランダムに生成されたmRNA配列を有する複数の個体を生成する(ステップS501)。そして、この集団の個体の目的変数を上記学習装置1により算出する。すなわち、各個体のmRNA配列から、学習装置1によって切断情報を算出し、これを各個体の目的変数とする(ステップS502)。続いて、選択(ステップS503)、交叉(ステップS504)、致死判定(ステップS505)、突然変異(ステップS506)、及び致死判定(ステップS507)の処理を行い、これらを繰り返す。致死判定については後述する。トーナメント選択、交差、及び突然変異の処理は、通常の遺伝的アルゴリズムと同様である。また、交叉及び突然変異の処理は、各個体のmRNA配列に対して行う。そして、切断情報(切断効率)が低くなるように各集団を最適化する。例えば、所定の最低世代数以上に処理を行い、所定の世代数の間、各集団で最良の個体のmRNAの配列が変わらないときに処理を終了することができ、最良の個体のmRNAを最適化されたmRNA配列(人工配列)とすることができる。
【0047】
以下は、上記遺伝的アルゴリズムのハイパーパラメータの一例である。
(1) 島の数: 10
(2) 島あたりの個体数: 50
(3) 最大世代数: 500
(4) 最小世代数: 100
(5) 早期終了条件: 50世代以上の間、最良配列が変わっていない
(6) 選択の方法: 3個体でのトーナメント選択および1個体のエリート選択
(7) 交差の方法: 一様
(8) 交差確率: 100%
(9) 変異確率: 1/配列上で変異可能な個所の数(つまり1配列1か所の変異が期待値)
(10) 島間の個体の移動の頻度: 毎世代
(11) 島間を移動する個体の割合: 各島の個体数の10%
(12) 島間を移動する個体の選抜法: 適応度が低いものを優先
(13) 移住する島の選択法: ランダム
【0048】
<2-2.致死判定>
本実施形態における遺伝的アルゴリズムでは、切断以外の遺伝子発現過程への意図しない影響を避けるために、植物で発現させたい遺伝子配列において、(a)転写開始点、(b)ポリA付加部位、(c)スプライシングサイト周辺の頻出パターンと類似した配列を避けるアルゴリズムの追加(致死配列の設定)を行っている。すなわち、このような頻出パターンと類似した配列が、集団の個体のmRNAに含まれている場合には、そのような個体を集団から排除するようにしている。以下、この点について説明する。
【0049】
<2-2-1.致死判定の概要>
(a) 転写開始点(Transcription Start Site: TSS)
転写開始点はゲノム上のどこからmRNAを転写するのかを決める位置である。この転写開始点ができると、本来作りたかったmRNAよりも下流から転写され作りたいタンパク質をコードしている領域の欠落等の異常が発生する。この転写開始点は、CAGEまたは全長mRNAシーケンス等のmRNAの5'末端を解析可能な手法で網羅的に同定することが可能である。本発明において、一例としてCAGEを用いている。転写開始点は各遺伝子が複数持っており、使用頻度が高く、よく転写されるため蓄積量が高い位置から、蓄積量が低い位置まで様々である。本実施形態においては、転写されたmRNAの蓄積量が上位10%(好ましくは、5%、さらに好ましくは1%)の非常に高い使用頻度の転写開始点を典型的な転写開始点と定義し、そこに存在する配列パターンを転写開始点の典型パターン(特定配列パターン)とした。
【0050】
(b) ポリA付加部位(Cleavage and Polyadenylation Site: CPS)
ポリA付加部位は、ゲノム上のどこまでが成熟mRNAとされるのかを決める位置である。これはpAやCSなどとも表記される。このポリA付加部位ができると、本来作りたかったmRNAは途中までしか存在しなくなり、作りたいタンパク質をコードしている領域の欠落等の異常が発生する。このポリA付加部位は、TAIL-seqまたは全長mRNAシーケンス等のmRNAの3'末端を解析可能な手法で網羅的な同定が可能である。本発明では、Nanoporeシーケンサーによる全長mRNAシーケンスを用いている。ポリA付加部位も転写開始点と同様に、転写されたmRNAの蓄積量が上位10%(好ましくは、5%、さらに好ましくは1%)の非常に高い使用頻度の高い位置を、典型的なポリA付加部位と定義し、そこに存在する配列パターンを典型パターン(特別配列パターン)とした。
【0051】
(c) スプライシングサイト(5' Splicing Site and 3' Splicing Site: 5'SS and 3'SS)
スプライシングサイトは、mRNAが成熟する際に切り取られるmRNAとして不要な配列の開始(5'SS)と終わり(3'SS)を定義する位置である。通常、スプライシングサイトはmRNAが機能するために必要なものであるが、これが意図しない位置に作られてしまった場合、本来必要だった配列が除去されてしまい、作りたいタンパク質をコードしている領域の欠落等の異常が発生する。これらは、RNA-seqや全長mRNAシーケンスなど、mRNAを満遍なく調べることができる手法で、スプライスアウトされたイントロンの位置より網羅的に同定することができる。スプライシングサイトは、100%の確率で使用される効率的な配列や、滅多にスプライスアウトされない非効率的な配列が存在する本実施形態の例では、Nanoporeシーケンサーによる全長mRNAシーケンスを用いて、スプライスアウトされた比率を算出し、上位10%(好ましくは、5%、さらに好ましくは1%)の非常に高い確率で使用される5'SSと3'SSを典型的な位置とし、そこに存在する配列パターンを典型パターン(特別配列パターン)とした。
【0052】
次に、網羅的データを基にした避けるべき典型的な配列パターンの解析の例について説明する。上述した(a)~(c)を典型的な位置として定義し、それらのデータの上流下流それぞれ200塩基、合計400塩基の配列を取得する。取得した配列の塩基の出現パターンを、3塩基のパターンが各位置でどれだけ出現しているのによって評価する。例えば、4^3の64塩基パターン(AAA, AAU, AAG, AAC, AUA, …, CCC)の出現数を、1-3, 2-4, …, 397-399, 398-400のように398か所で数える(64*398=25,472)。数えた塩基数を標準化し、出現頻度の偏りの指標値とする。なお、データベース上では塩基が不明瞭などで厳密に定義できていない場合、NなどのAUGC以外の他の文字が出現することがある。このような場合はカウントをしない。
【0053】
ここで、i(1..398)番目からスタートする、長さ3の領域において、j(1..64)番目の塩基パターンを有する配列の数をN_ijとする。評価した位置iにおけるパターンjの出現数N_ijは、以下の式によって標準化(Z-socre化)し、出現頻度の偏りの指標値(B_ij)として類似度の評価を行う際に参照する。Z-socre化する際には正規分布で近似して計算を行う。
【数2】
【0054】
次に、避けるべき典型的な配列パターンとの類似度の評価の例について説明する。ここでは、類似度の評価を行うべき配列について、各位置での3塩基パターンの有無を評価する。ここで、i番目の位置にj番のインデックス番号の配列パターンが存在しているのかを、N_ijとし、0または1の数値が入ることになる。その後、出現頻度の偏りの指標値B_ijとN_ijを掛け合わせ平均することで、配列の類似度Sとして評価する。
【数3】
【0055】
続いて、致死判定を行う類似度の基準値の決定について説明する。例えば、以下の式に基づいてpが所定より小さい場合(例えば、p < 0.05)の場合は、致死と判定する。式中のerf(x)は誤差関数である。mRNA配列中のどこか一か所でもいずれかの典型パターンと比較したときに、例えばp<0.05であれば致死とする。これ以上に基準を厳しくすると、目的とするタンパク質配列の中には絶対に基準値を下回ってしまい、配列が一つも成立しないなどの問題が生じるおそれがある。したがって、pに関する基準は、必要に応じてp<0.1など、基準を緩くすることができる。
【数4】
【0056】
<2-2-2.致死判定の適用>
以上のように設定された致死判定は、遺伝的アルゴリズムの交叉及び突然変異の処理において用いられる。例えば、以下のように用いることができる。
【0057】
交叉処理においては、交叉の結果生成された2つのmRNA配列に対し、致死判定を行う。すなわち、生成されたmRNAに、上述した特別配列パターンと所定の類似度である配列パターンが含まれている場合には、そのmRNAを有する個体を使用せず、新たな乱数に基づいて交差処理を再度行う。あるいは、交叉処理前の個体を集団に残すこともできる。一方、致死判定の結果、特別配列パターンと所定の類似度である配列パターンが含まれていない場合には、そのmRNAを有する個体を集団に組み込む。
【0058】
突然変異処理においては、突然変異の結果生成されたmRNA配列に対し、致死判定を行う。すなわち、生成されたmRNAに、上述した特別配列パターンと所定の類似度である配列パターンが含まれている場合には、そのmRNAを有する個体を使用せず、突然変異処理前の個体を集団に組み込む。一方、致死判定の結果、特別配列パターンと所定の類似度である配列パターンが含まれていない場合には、そのmRNAを有する個体を集団に組み込む。
【0059】
なお、以上のような致死判定は、交叉処理及び突然変異処理のいずれか一方で用いることもできる。
【0060】
こうして、遺伝的アルゴリズムの各集団の中での最良の個体のmRNAを最適化されたmRNA配列(人工配列)とする。この人工配列の評価の例は、後述する実施例において説明する。
【0061】
<3.変形例>
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。例えば、以下の変更が可能である。また、以下の変形例の要旨は、適宜組み合わせることができる。
【0062】
(1)上記実施形態では、最適化装置の遺伝的アルゴリズムにおいて、致死判定を用いているが、上述したものは、致死判定の一例であり、種々の変更が可能である。すなわち、目的遺伝子において、転写開始点、ポリA付加部位、及びスプライシングサイトの少なくとも1つに該当する領域に存在する配列パターンを特定配列パターンとして規定し、交差及び突然変異の処理において生成された個体の遺伝子情報が、規定した特定配列パターンと所定の類似度で類似する配列パターンを含む場合、その個体を採用しないようにすればよい。致死判定は必ずしも必要ではなく、交叉及び突然変異の処理のいずれか一方にのみ使用したり、あるいはこれらの処理において、使用しないようにすることもできる。
【0063】
(2)上記実施形態では、第1予測器と第2予測器の両方を用いて切断情報を算出したが、いずれか一方を用い、算出されたCS_Gene値またはCS_Site値、あるいはこれらの値に正規化等の所定の変換を施した値を切断情報として用いることもできる。なお、CS_Gene値は本発明の第1情報の一例であるが、第1情報としてはmRNAにおける内部切断の切断効率に関する情報であればよい。また、CS_Site値は本発明の第2情報の一例であるが、第2情報としてはmRNAにおける内部切断の切断部位とその切断部位に置ける切断効率に関する情報であればよい。
【0064】
(3)上記実施形態では、第1評価値又は第2評価値を算出後、これを教師データとして用いているが、mRNA配列から抽出された特徴を数値化せず(第1及び第2評価値を算出せず)、そのまま、あるいは所定の変換を行った後、教師データとして用いることもできる。
【0065】
(4)上記実施形態では、植物のmRNAの内部切断の切断効率に基づいて、人工配列を設計しているが、内部切断に限らず、mRNAの分解に基づいて人工配列を設計することもできる。すなわち、内部切断は分解の一現象であるため、上記設計システムを利用することができる。この場合、学習装置には、第1予測器のみを含むことができる。そして、第1予測器で算出される第1情報の例としては、上述したCS_Gene値に代わって、例えば、mRNAの半減期の逆数や、完全長mRNAの蓄積量の逆数を用いることができる。
【0066】
(5)上記設計システムを構築するコンピュータは、上記のように1台のコンピュータで学習装置と最適化装置を構成することもできるし、各装置1,2毎に1台ずつのコンピュータを用いることもできる。この場合、学習装置1に対応するコンピュータにおいては、設計プログラムのうち、上述した学習装置1で行われた処理を行うように構成され、最適化装置2に対応するコンピュータにおいては、設計プログラムのうち、上述した最適化装置2で行われた処理を行うように構成される。また、上記処理を行うために専用で設計された情報処理装置の他、汎用のデスクトップPC(Personal Computer)、タブレットPC等が用いられてもよい。
【実施例0067】
以下、本発明の実施例について説明する。但し、本発明は以下の実施例に限定されない。
【0068】
まず、上記実施形態で説明した設計システムにおいて、以下の条件により、切断情報の予測を行った。
(1) CS_Gene値の予測に用いた特徴(合計389個)
(i)mRNAの5'側の塩基出現頻度(236個)
(ii) mRNAの全体的な塩基出現頻度(84個)
(iii) 典型的な切断部位の配列パターン(典型パターン)との類似度(どの程度の類似度の位置が何個あったか)(4個)
(iv)コドンの出現頻度(61個)
(v) mRNAの長さ(4個)
【0069】
【0070】
また、CS_Gene値については、一つの遺伝子(正確には転写産物)について一つの値が存在している。合計11679のデータが存在しており、10511の遺伝子のデータを、教師データ(交差検証にてハイパーパラメータの決定を行っているため、それぞれがトレーニングデータかつバリデーションデータ)として使用し、1168の遺伝子を学習とは完全に独立したテストデータとし、精度の評価に用いている。それぞれのデータが、5'UTR配列とCDS配列、3'UTR配列の塩基配列情報を有しており、それより特徴を評価・数値化している。CDS配列と3'UTR配列情報は、データベース上の情報をそのまま使用している。5'UTR配列はデータベース上の情報と独自に取得したCAGEの結果(TREseqデータとして公開されている関連データの一部)を統合して使用している。
【0071】
(2) CS_Site値の予測に用いた特徴(合計296個)
(i) 切断部位周辺の塩基出現頻度(236個)
(ii) 切断部位周辺の典型パターンとの類似度(50個)
(iii) 切断部位が存在する位置(10個)
【0072】
【0073】
CS_Site値については、一つの遺伝子(正確には転写産物)について検出できた複数の位置での値が存在する。値が存在しない位置は、検出感度の問題から数値が得られていない(数値がかなり低い)だけであり、無限回数のシーケンスを行えばすべての位置について値を得ることができる。全てで776の遺伝子上の357429サイトのデータが存在しており、698の遺伝子上の321669サイトのデータを、教師データ(交差検証にてハイパーパラメータの決定を行っているため、それぞれがトレーニングデータかつバリデーションデータ)として使用し、78の遺伝子上の35760サイトを学習とは完全に独立したテストデータとし、精度の評価に用いている。それぞれが、切断部位周辺の400塩基長の配列情報を有しており、それより特徴を評価・数値化している。
【0074】
その他の設定は上記実施形態で示したとおりである。なお、学習装置は、勾配ブースティング回帰で構築した。こうして構築した学習済の学習装置について、学習データと完全に独立した検証データにおける、予測値と実測値の間の相関係数はCS_Siteではr=0.79、CS_Geneではr=0.87と高く、高い精度でmRNAの切断効率と切断部位の予測が可能な機械学習モデルの構築に成功した。
図8に、CS_Geneの予測値(縦軸)と実測値(横軸)の関係を示す。
【0075】
この学習装置を用い、上記最適化装置において、上述したハイパーパラメータを用いた遺伝的アルゴリズムによって、ウミシイタケ由来ルシフェラーゼ(R-Luc)のmRNAを最適値として算出した。
【0076】
続いて、最適値として導き出されたウミシイタケ由来ルシフェラーゼ(R-Luc)のmRNA(R-Luc MinB配列;配列番号2)を用いて、一過性発現実験におけるR-LucのmRNA蓄積量及びタンパク質蓄積量を測定した。また、比較のために、未改変のLucのmRNA(R-Luc配列;配列番号1)、前記CDS配列最適化プログラムで最も不安定として導き出されたR-LucのmRNA(R-Luc MaxB配列;配列番号3)、市場で提供されている2社(A社及びB社)の最適化プログラムから導き出されたR-LucのmRNA(A社R-Luc配列(配列番号4)、及びB社R-Luc配列(配列番号5))についても、一過性発現実験におけるR-LucのmRNA蓄積量及びタンパク質蓄積量を測定した。
【0077】
先ず、以下に示す手法で発現ベクターを構築した。CamV35Sプロモーター支配下に、R-Luc、ターミネーター(Heat Shock Protein 18.2遺伝子由来)で構成される発現ベクター(pRI909)を使用した。R-Luc遺伝子を組み込むために、インバースPCRを行い、35Sプロモーターの3'末端にBamHIサイト、またHSP18.2ターミネーターの直上にKpnIサイトを負荷した。次に、このベクター内に存在する制限酵素サイトHindIIIで制限酵素処理してプラスミドDNAを線状化し、35Sプロモーター、シロイヌナズナ由来Alcohol dehydrogenase遺伝子の5'UTR、導入遺伝子の導入効率補正に使用するホタル由来のルシフェラーゼ(F-Luc)遺伝子、HSPターミネーターからなる発現カセットをIn-Fusionクローニング(TaKaRa)のプロトコールに従って連結した。更に、ベクター内に存在する制限酵素サイトSmaIで制限酵素処理した後、シロイヌナズナ由来COR47遺伝子の5'UTRを一部改変した配列をIn-FusionクローニングによってR-Luc遺伝子の直上に連結した(
図9)。
【0078】
R-Luc MinB配列、R-Luc MaxB配列、A社R-Luc配列、及びB社R-Luc配列に相補的なDNAを人工遺伝子合成により合成した。人工遺伝子合成の際には、5'末端及び3'末端にBamHIサイト及びKpnlサイトをそれぞれ付加した。
【0079】
前記発現ベクター(
図9)中のR-Luc配列と改変R-Luc配列(R-Luc MinB配列、R-Luc MaxB配列、A社R-Luc配列、及びB社R-Luc配列)を入れ替えるために、前記で構築した発現ベクターと、人工遺伝子合成により得られた4種のDNAをBamHIサイト及びKpnlサイトで制限酵素処理を行い、DNA Ligation kit<Mighty Mix>(TaKaRa)を用いてプラスミドDNA由来のDNA断片と連結した。
【0080】
次に、構築した発現ベクター1μgをシロイヌナズナ培養細胞(Arabidopsis thaliana T87)から調製したプロトプラストにポリエチレングリコール法(Kovtun, Y. et al., Proc. Natl. Acad. Sci. USA Vol.97, 2000, p.2940-2945)により導入し、22℃で16時間静置した。その後、Luc活性測定用とRNA抽出用のサンプルに分け、遠心操作を行い、上清を除去した。次いで、サンプルを液体窒素で凍結して-80で保存した。
【0081】
Luc活性測定用サンプルに、passive lysis buffer(Promega Wisconsin, USA)を加えて細胞を溶解させ、Dual-luciferase reporter assay system(Promega)とプレートリーダー(Tristar LB 941, BERTHOLD TECHNOLOGIES)によって溶解液中のR-LucとF-Lucのルシフェラーゼ活性を測定し、相対活性値(R-Luc活性値/F-Luc活性値)を求めた。相対活性値の測定では、プロトプラストへのベクターの導入から独立に3回実験を行い、その平均値と標準偏差を求めた。未改変R-Lucにおける相対活性値に対して、各改変R-Lucにおける相対活性値に有意差があるかをWelch's-testで評価した(*:p<0.05)。
【0082】
また、RNA抽出用のサンプルからMaxwell RSC Plant RNA Kit AS1500(Thermo Fisher Scientific)を用いてDNase処理を行った。次いで、SuperScript III reverse Transcriptase(Thermo Fisher Scientific)を用いて、プロトコールに従って逆転写反応を行った。そして、逆転写反応液1 μlを鋳型にして半定量RT-PCRを行い、R-LucのmRNA量を求めた。
【0083】
ルシフェラーゼ活性の測定結果を
図10に示し、mRNA蓄積量の測定結果を
図11に示す。
【0084】
ルシフェラーゼ活性は、未改変のR-Lucと比較して、A社R-Luc及びB社R-Lucでは有意な上昇は認められなかった。また、R-Luc MaxBのルシフェラーゼ活性は、未改変のR-Lucの及び1/3倍に低下していた。これに対し、R-Luc MinBのルシフェラーゼ活性は、未改変のR-Lucのおよそ190倍にまで上昇していた。また、mRNA蓄積量は、R-Luc MaxBではシグナルが検出されなかった。一方、R-Luc MinBでは顕著にmRNA蓄積量が増大していた。
【0085】
以上の結果から、本発明の設計プログラムを使用して植物に導入する遺伝子のmRNA配列を設計することにより、mRNAの安定性を向上させ、その発現量を増大させ得ることが確認された。