IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

7551189プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法
<>
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図1
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図2
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図3
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図4
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図5
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図6
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図7
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図8
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図9
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図10
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図11
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図12
  • -プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-09-06
(45)【発行日】2024-09-17
(54)【発明の名称】プロモーター活性の予測方法とその予測結果に基づくプロモーターの改変方法
(51)【国際特許分類】
   C12N 15/67 20060101AFI20240909BHJP
   C12N 15/09 20060101ALI20240909BHJP
   C12N 15/82 20060101ALI20240909BHJP
   A01H 5/00 20180101ALI20240909BHJP
   G16B 40/20 20190101ALI20240909BHJP
【FI】
C12N15/67 Z
C12N15/09 110
C12N15/82 Z
A01H5/00 A ZNA
G16B40/20
【請求項の数】 12
(21)【出願番号】P 2024001583
(22)【出願日】2024-01-10
(62)【分割の表示】P 2023223673の分割
【原出願日】2023-12-28
【審査請求日】2024-01-10
【早期審査対象出願】
(73)【特許権者】
【識別番号】517173857
【氏名又は名称】グランドグリーン株式会社
(74)【代理人】
【識別番号】100130845
【弁理士】
【氏名又は名称】渡邉 伸一
(74)【代理人】
【識別番号】100201020
【弁理士】
【氏名又は名称】野中 信宏
(74)【代理人】
【識別番号】100140350
【弁理士】
【氏名又は名称】渡辺 和宏
(72)【発明者】
【氏名】豊倉 浩一
(72)【発明者】
【氏名】谷本 連
(72)【発明者】
【氏名】近藤 隆之
【審査官】鳥居 敬司
(56)【参考文献】
【文献】特表2018-527647(JP,A)
【文献】米国特許出願公開第2023/0056396(US,A1)
【文献】米国特許出願公開第2022/0290132(US,A1)
【文献】Mei ZHAO et al.,Precise Prediction of Promoter Strength Based on a De Novo Synthetic Promoter Library Coupled with Machine Learning,ACS Synthetic Biology,2021年12月20日,Vol. 11,No. 1,p.92-102
【文献】YANG W et al.,EVMP: enhancing machine learning models for synthetic promoter strength prediction by Extended Vision Mutant Priority framework,Frontiers in microbiology,2023年07月05日,Vol. 14, 1215609,p.1-12
【文献】Eeshit Dhaval Vaishnav et al.,The evolution, evolvability and engineering of gene regulatory DNA,Nature,2022年03月09日,Vol. 603,No. 7901,p.455-463
【文献】齋藤裕,機械学習による生体分子の機能改良,JSBi Bioinformatics Review,2020年,Vol.1, No.1,p.12-17
【文献】Elison GL et al.,A Precise Genome Editing Method Reveals Insights into the Activity of Eukaryotic Promoters,Cell reports,2017年01月03日,Vol. 18,No. 1,p.275-286
【文献】TANG X et al.,Beyond knockouts: fine-tuning regulation of gene expression in plants with CRISPR-Cas-based promoter editing,The New phytologist,2023年06月06日,Vol. 239,No. 3,p.868-874
【文献】Ahamed KHAN et al.,Plant Synthetic Promoters: Advancement and Prospective,Agriculture,2023年01月26日,Vol. 13,No. 2, 298,p.1-21
【文献】MIROSHNICHENKO D et al.,CRISPR/Cas9-induced modification of the conservative promoter region of VRN-A1 alters the heading time of hexaploid bread wheat,Frontiers in plant science,2022年12月05日,Vol. 13; 1048695,p.01-13
【文献】KUMMARI D et al.,An update and perspectives on the use of promoters in plant genetic engineering,Journal of biosciences,2020年,Vol.45, No.119,p.1-24
(58)【調査した分野】(Int.Cl.,DB名)
C12N 15/00-15/90
A01H 5/00-5/12
G16B 40/00-40/30
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
所望の活性を有するように改変されたプロモーター配列の取得方法であって、
改変の対象となる元のプロモーター配列を用意すること、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成すること、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測すること、
所望の活性を有すると予測された改変プロモーター配列を選択すること
含み
プロモーター配列が植物細胞のプロモーター配列であり、
元のプロモーター配列がコアプロモーターおよびその上流の配列を含み、ここで、コアプロモーターは、転写開始点の塩基の位置を+1と表したとき、-200~+50の位置に含まれる配列であり、
ゲノム編集技術がCRISPR/Cas系を用いたゲノム編集技術であり、
複数の改変プロモーター配列のセットが、2つのPAM認識配列に基づき設計されるガイドRNA配列の組合せが誘導する切断により生じる配列欠失により生成され、ここで、前記2つのPAM認識配列のうち少なくとも1つのPAM認識配列は、コアプロモーター内に位置しており、
元のプロモーターの長さが少なくとも2000bpである、方法。
【請求項2】
所望の活性が、元のプロモーター配列よりも高い遺伝子発現誘導活性、または元のプロモーター配列よりも低い遺伝子発現誘導活性である、請求項1に記載の方法。
【請求項3】
元のプロモーター配列が、コアプロモーター配列とその上流の配列を含む、請求項1に記載の方法。
【請求項4】
改変プロモーター配列のセットが、少なくとも1000の異なる配列を含む、請求項1に記載の方法。
【請求項5】
機械学習モデルが、植物細胞における複数のプロモーター配列の遺伝子発現誘導活性データを教師データとして、プロモーター配列から遺伝子発現誘導活性を予測するように訓練された回帰モデルである、請求項1に記載の方法。
【請求項6】
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性をコンピューターディスプレイ上でビジュアライズする工程をさらに含む、請求項1に記載の方法。
【請求項7】
所望の活性を有するように改変されたプロモーター配列を予測する情報処理装置であって、
改変の対象となる元のプロモーター配列の入力を受け付ける配列入力部、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する改変配列生成部、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する活性予測部、
所望の活性を有すると予測された改変プロモーター配列を選択する配列選択部
含み
プロモーター配列が植物細胞のプロモーター配列であり、
元のプロモーター配列がコアプロモーターおよびその上流の配列を含み、ここで、コアプロモーターは、転写開始点の塩基の位置を+1と表したとき、-200~+50の位置に含まれる配列であり、
ゲノム編集技術がCRISPR/Cas系を用いたゲノム編集技術であり、
複数の改変プロモーター配列のセットが、2つのPAM認識配列に基づき設計されるガイドRNA配列の組合せが誘導する切断により生じる配列欠失により生成され、ここで、前記2つのPAM認識配列のうち少なくとも1つのPAM認識配列は、コアプロモーター内に位置しており、
元のプロモーターの長さが少なくとも2000bpである、情報処理装置。
【請求項8】
命令が格納された非一時的なコンピューター可読媒体であって、命令がプロセッサーによって実行されると、以下のステップ:
改変の対象となる元のプロモーター配列の入力を受け付けるステップ、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成するステップ、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測するステップ、
所望の活性を有すると予測された改変プロモーター配列を選択するステップ
を実行することができ、
プロモーター配列が植物細胞のプロモーター配列であり、
元のプロモーター配列がコアプロモーターおよびその上流の配列を含み、ここで、コアプロモーターは、転写開始点の塩基の位置を+1と表したとき、-200~+50の位置に含まれる配列であり、
ゲノム編集技術がCRISPR/Cas系を用いたゲノム編集技術であり、
複数の改変プロモーター配列のセットが、2つのPAM認識配列に基づき設計されるガイドRNA配列の組合せが誘導する切断により生じる配列欠失により生成され、ここで、前記2つのPAM認識配列のうち少なくとも1つのPAM認識配列は、コアプロモーター内に位置しており、
元のプロモーターの長さが少なくとも2000bpである、コンピューター可読媒体。
【請求項9】
コンピューターに、
改変の対象となる元のプロモーター配列の入力を受け付ける機能、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する機能、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する機能、
所望の活性を有すると予測された改変プロモーター配列を選択する機能を実現させ、
プロモーター配列が植物細胞のプロモーター配列であり、
元のプロモーター配列がコアプロモーターおよびその上流の配列を含み、ここで、コアプロモーターは、転写開始点の塩基の位置を+1と表したとき、-200~+50の位置に含まれる配列であり、
ゲノム編集技術がCRISPR/Cas系を用いたゲノム編集技術であり、
複数の改変プロモーター配列のセットが、2つのPAM認識配列に基づき設計されるガイドRNA配列の組合せが誘導する切断により生じる配列欠失により生成され、ここで、前記2つのPAM認識配列のうち少なくとも1つのPAM認識配列は、コアプロモーター内に位置しており、
元のプロモーターの長さが少なくとも2000bpである、プログラム。
【請求項10】
所望の遺伝子の発現量を調節するための植物細胞のゲノム編集方法であって、
請求項1に記載の方法により所望の活性を有する改変プロモーター配列を取得すること、
ゲノム編集の対象となる植物細胞を用意すること、
前記改変プロモーター配列を生じるように前記植物細胞のゲノムを編集すること
を含む、方法。
【請求項11】
所望の遺伝子の発現量が調節されたゲノム編集植物の製造方法であって、
請求項10に記載の方法により所望の植物細胞のゲノムを編集すること、
ゲノム編集された細胞に由来する植物個体を得ること
を含む、方法。
【請求項12】
個々の改変プロモーター配列の活性の機械学習モデルによる予測が、個々の改変プロモーター配列のコアプロモーター部分のみを用いて行われる、請求項1に記載の方法。


【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プロモーター活性の予測とその予測結果に基づくプロモーターの改変に関する。
【背景技術】
【0002】
現在、ゲノム編集によって植物に形質を付与する場合には、コーディングリージョン(CDS)内に変異を導入し、フレームシフトにより遺伝子の機能を欠損させるloss-of-functionの方法が主である。
【0003】
一方で、標的の遺伝子の発現量を上昇させることで機能強化を図ったり、(発現をゼロにするのではなく)僅かに残すことでノックアウトのサイドエフェクトを抑制するような方法が考えられる。トランスジーンを導入することで機能増強した研究や、RNAiによって機能解析をした知見が応用可能になることから、このような方法は、ゲノム編集で付与できる形質のバリエーションを大きく広げることと期待され、重要である。
【先行技術文献】
【非特許文献】
【0004】
【文献】Zhang, Yi, et al. "Applications and potential of genome editing in crop improvement." Genome biology 19 (2018): 1-11.
【発明の概要】
【発明が解決しようとする課題】
【0005】
そのような方法の1つとして考えられるのが、CDSではなく、プロモーター領域を編集するという方法である。遺伝子発現強度を決定しているのはプロモーターやエンハンサーといった領域であることから、この領域の塩基配列を改変することで、遺伝子の機能はそのままに、発現量を上下できると考えられる。
【0006】
実際、RNA-seq法で測定されるmRNAレベルでの遺伝子発現量の幅(ダイナミックレンジ)は非常に大きい。1つの細胞内に数コピー程度しか含まれないmRNAがあるのに対し、105コピー程度含まれるmRNAもある。このような遺伝子発現量の差は、主としてプロモーターやエンハンサーによりもたらされると考えられ、プロモーター領域の塩基配列を改変する方法のポテンシャルを示していると考えられる。よって、ゲノム編集により、遺伝子発現量を精密に制御する技術の提供が、本開示に係る目的の1つである。
【課題を解決するための手段】
【0007】
プロモーターやエンハンサーといった領域は、「この部分がこの機能を有する」という配列-機能の対応関係が、CDSに比べると曖昧である。TATAボックスに代表されるような、高度に保存されたコンセンサス配列をもつCis制御エレメントがいくつか発見されており、データベース化されている。例えば、理化学研究所のPromoterCADや農業・食品産業技術総合研究機構のNEW PLACEのようなソフトウェアは、このような知見を元にCis制御エレメントを検索し、転写因子がプロモーターに結合するか推測するシステムであるが、発現量を予測し、設計するという目的からすると、その精度は不十分である。
【0008】
そこで、本発明者らは、個別のエレメントを登録するデータベース方式ではなく、塩基配列と発現量の関係をマシンラーニングにより学習させる方式を開発した。その結果、実測値と予測値との相関を示す決定係数としてR2=0.75という高い値が得られた。そして、予測システムを利用して配列を設計し、植物を使用した実験を行って、予測の精度を実証した。任意の塩基配列をコンピューターに与えて、転写活性を予測することができれば、発現量を「設計」することができるようになる。本開示において示されるように、本発明者らは、コンピューターによる予測に基づき、遺伝子のプロモーターを編集することで、遺伝子の機能(発現量)を上昇または低下させることができることを実証した。
【0009】
本開示は、これらの知見を基礎とするものであり、以下の態様を包含する:
[態様1]
所望の活性を有するように改変されたプロモーター配列の取得方法であって、
改変の対象となる元のプロモーター配列を用意すること、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成すること、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測すること、
所望の活性を有すると予測された改変プロモーター配列を選択すること
を含む、方法。
[態様2]
所望の活性が、元のプロモーター配列よりも高い遺伝子発現誘導活性、または元のプロモーター配列よりも低い遺伝子発現誘導活性である、態様1に記載の方法。
[態様3]
プロモーター配列が植物細胞のプロモーター配列である、態様1に記載の方法。
[態様4]
元のプロモーター配列が、コアプロモーター配列とその上流の配列を含む、態様1に記載の方法。
[態様5]
ゲノム編集技術がCRISPR/Cas系を用いたゲノム編集技術である、態様1に記載の方法。
[態様6]
複数の改変プロモーター配列のセットが、2つのPAM認識配列に基づき設計されるガイドRNA配列の組合せが誘導する切断により生じる配列欠失により生成される、態様5に記載の方法。
[態様7]
改変プロモーター配列のセットが、少なくとも1000の異なる配列を含む、態様1に記載の方法。
[態様8]
機械学習モデルが、植物細胞における複数のプロモーター配列の遺伝子発現誘導活性データを教師データとして、プロモーター配列から遺伝子発現誘導活性を予測するように訓練された回帰モデルである、態様1に記載の方法。
[態様9]
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性をコンピューターディスプレイ上でビジュアライズする工程をさらに含む、態様1に記載の方法。
[態様10]
所望の活性を有するように改変されたプロモーター配列を予測する情報処理装置であって、
改変の対象となる元のプロモーター配列の入力を受け付ける配列入力部、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する改変配列生成部、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する活性予測部、
所望の活性を有すると予測された改変プロモーター配列を選択する配列選択部
を含む、情報処理装置。
[態様11]
命令が格納された非一時的なコンピューター可読媒体であって、命令がプロセッサーによって実行されると、以下のステップ:
改変の対象となる元のプロモーター配列の入力を受け付けるステップ、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成するステップ、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測するステップ、
所望の活性を有すると予測された改変プロモーター配列を選択するステップ
を実行することができる、コンピューター可読媒体。
[態様12]
コンピューターに、
改変の対象となる元のプロモーター配列の入力を受け付ける機能、
前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する機能、
生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する機能、
所望の活性を有すると予測された改変プロモーター配列を選択する機能
を実現させる、プログラム。
[態様13]
所望の遺伝子の発現量を調節するための細胞のゲノム編集方法であって、
態様1に記載の方法により所望の活性を有する改変プロモーター配列を取得すること、
ゲノム編集の対象となる細胞を用意すること、
前記改変プロモーター配列を生じるように前記細胞のゲノムを編集すること
を含む、方法。
[態様14]
所望の遺伝子の発現量が調節されたゲノム編集植物の製造方法であって、
態様13に記載の方法により所望の植物細胞のゲノムを編集すること、
ゲノム編集された細胞に由来する植物個体を得ること
を含む、方法。
[態様15]
プロモーター配列から植物細胞における遺伝子発現誘導活性を予測する機械学習モデルであって、植物細胞における複数のプロモーター配列の遺伝子発現誘導活性データを教師データとして、プロモーター配列から遺伝子発現誘導活性を予測するように訓練された回帰モデルである、機械学習モデル。
[態様16]
プロモーター配列から植物細胞における遺伝子発現誘導活性を予測する機械学習モデルの生成方法であって、植物細胞における複数のプロモーター配列の遺伝子発現誘導活性データを教師データとしてモデルを訓練することを含む、方法。
[態様17]
訓練の対象となるモデルとして、トランスフォーマーベースの事前訓練された基礎モデルが用いられる、態様16に記載の方法。
【図面の簡単な説明】
【0010】
図1図1は、人工合成遺伝子の構造を示す概略図である。高発現グループから7プロモーター、中程度グループから8プロモーター、低発現グループから4プロモーターをそれぞれ選び、ルシフェラーゼ(LUC)遺伝子に接続した人工合成遺伝子を作成した。プロモーターは19種類の様々な配列パターンを持つ。下流のLUC遺伝子と上流のカリフラワーモザイクウイルス(CaMV)35Sエンハンサーの配列は各人工遺伝子で共通である。
図2図2は、LUC遺伝子の発現量の実測値と、プロモーター強度の予測値の関係を示す散布図である。縦軸は予測されたプロモーター強度を示す。値が高いほど、下流の遺伝子の発現量が大きくなると期待される。横軸はLUC発現量の実測値を示す。ただし、ポジティブコントロールであるCaMVプロモーターの転写活性で標準化した。
図3図3は、予測された転写活性に対応するLUC発現量を計算して比較した結果を示している。縦軸にLUCの発現量をプロットした。ただし、ポジティブコントロールの発光強度を1とした相対値で示している。ポジティブコントロールとして、高い転写活性を示すことが知られているカリフラワーモザイクウイルス(CaMV)35Sプロモーターを使用した。横軸に19種類のプロモーターの番号を示した。プロモーター番号3~10は高い発現強度が予測された「高発現」グループ、プロモーター番号13~21は同「中程度」グループ、プロモーター番号22~25は同「低発現」グループに分類した。黒い棒グラフがLUCアッセイの実測値を示す。白色の棒グラフは、本開示の予測システムによる転写活性予測値を示す。
図4図4は、転写活性を低下させることのできる編集パターンを探索した結果を示している。プロモーター番号3、4、5、6、9、10、21番について、転写活性を低下させることのできる編集パターンを探索した。黒色の三角形のプロットで、予測された新しい転写活性に基づいて計算されたLUCアッセイのスコア(発現量)の予測値を示した。その結果、元のプロモーターに比して、14%~1%程度の転写活性となることが予測された。
図5図5は、図4に重ね合わせて、網かけの棒グラフで新しいプロモーターのLUCの発現量の実測値を示している。非常に低い発現量となったため、縦軸を拡大して示した。プロモーター5番については欠損値となった。測定値の得られた6個のプロモーターについて、いずれも大幅な発現量の低下が認められ、予測値と一致した。
図6図6は、編集後に転写活性の予測値が上昇するものを探索した結果を示している。プロモーター番号13、17、22、23、24、25について、転写活性が上昇するものを選び、予測される発現量を白色の円で示した。元のプロモーターに比して、7.4~125倍のLUC発現量が予測された。
図7図7は、理論的なプロモーター配列をもつ遺伝子を人工的に合成し、プロトプラストに対し同様にトランスフェクションし発現量をプレートリーダーで測定した結果を示している。6個のプロモーター中、5個で発現量が元のプロモーターに比して上昇したものの、予測値を超えて発現量が上昇したものは13番のみであった。
図8図8は、入力された塩基配列Xの全体像を分析するためのビジュアライズ方法の一例を示している。縦軸は予測された転写活性、横軸は塩基配列の位置に対応している。
図9図9は、別の方法によるビジュアライズの例を示している。縦軸は、標的の遺伝子から近い位置に設計されたガイドRNA(近位ガイド)の位置、横軸は、遠い位置に設計されたガイドRNA(遠位ガイド)の位置に対応している。各位置のプロットの色は、転写活性の推測された値に基づいて変更される。例えば、カラーチャートで、明るい灰色は転写活性が高いと推測されたもの、黒色は低いと推測されたものといった着色が行われる。
図10図10は、特定のダイズ遺伝子について、転写活性を高める検討を行った結果を示している。ダイズのある遺伝子のプロモーターを基に、遺伝子の発現を上昇させるためのゲノム編集後のプロモーター配列を2種類作成した(edit1、edit2)。edit1の転写活性は2.950119と予測された。また、LUC発現量は線形回帰により、Pコントロールに対し13.2%と予測された。このプロモーターのLUCアッセイの実測値はPコントロールに対し19.0%であった。edit2の転写活性は2.432977と予測された。また、LUC発現量はPコントロールに対し7.27%と予測された。このプロモーターのLUCアッセイの実測値はPコントロールに対し41.6%であった。
図11図11は、所望の活性を有するように改変されたプロモーター配列を予測する情報処理装置の例示的な構成を示している。
図12図12は、コンピューターに、改変の対象となる元のプロモーター配列の入力を受け付ける機能、前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する機能、生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する機能、所望の活性を有すると予測された改変プロモーター配列を選択する機能を実現させる、プログラムの例示的なフローチャートを示している。
図13図13は、本開示の態様の実装に用いられ得るコンピューターの概略構成である。
【発明を実施するための形態】
【0011】
作物の育種の過程で、特定の遺伝子の発現を増強あるいは抑制したいという希望を育種家は持っている。遺伝子の機能が解析されるようになり、遺伝子と形質の関連が次々に明らかにされている。例えばイネにおける半矮性の例を示すと、イネでは半矮性という形質が育種の目標とされ、1966年に半矮性品種「レイメイ」が育成された。半矮性イネでは肥料を投入した場合にも草丈が高くなりづらく、かつ収量は低下しない。肥料を投入すると通常イネは垂直方向に生育するが、これにより台風や強風により容易に倒伏し、収穫できないか品質が低下する。そのため、一定以上の施肥は倒伏を招き収穫量増に結びつかない。半矮性イネでは草丈が高くなりづらいため、多量の肥料を施した場合でも倒伏に強く、収量が増した。レイメイに半矮性を与えた変異は、ジベレリン生合成系のG20酸化酵素をコードしている遺伝子に存在することが、今日では明らかになっている。半矮性作物は食糧生産の拡大に絶大な進歩をもたらした大発明であった。
【0012】
このような、遺伝子と形質の関連が次々に明らかにされ、知見が蓄積されている。これにより目標とする形質を得るために、しばしば標的の遺伝子が設定されるようになった。例えば、イネに半矮性を導入しようとした場合、上記遺伝子の変異体(sd1変異体)を選抜すればよい。天然に生じたミュータントを探索することも可能であるが、化学的あるいは放射線照射によりランダムに変異を導入することもできる。sd1の機能欠失アレルは潜性であると考えられるが、計画的な交配によって両アレルが機能欠失型sd1となった個体を育成できる。
【0013】
遺伝子組換え技術の登場で、人工的に遺伝子型を設計できるようになった。つまり、対象とする作物に対し、任意の遺伝子配列を導入することで、機能や形質を付与できることとなった。代表的な例として、除草剤耐性を付与したトウモロコシが挙げられる(ラウンドアップレディ(登録商標))。ラウンドアップ(登録商標)(グリホサート)は除草剤であり、実体としてはアミノ酸アナログである。植物やバクテリアの一部ではグリホサートを取り込むとアミノ酸合成が阻害されて枯死する。グリホサートを無害化する遺伝子をバクテリアから導入することで植物にグリホサートに対する耐性が付与されたが、これは、除草のコストを大幅に削減する大発明であった。一方で、外来の遺伝子を導入する遺伝子組換え植物の生産と利用はは限定的であり、地球上の全作物が遺伝子組換えに置き換えられるようなことにはならなかった。特に欧州では反発が大きく、現在でも欧州では遺伝子組換え作物の栽培は大きく制限されており、栽培されている品種は1品種のみ(スペインにおけるトウモロコシ)である。
【0014】
ゲノム編集が発明されてからは、さらに状況は変化した。非遺伝子組換えで、標的の遺伝子に直に変異を導入することができるようになった。これは歴史的な大発明と言える。例えば、コシヒカリに半矮性を導入しようと考えた場合、SD1遺伝子座に1~10塩基程度の小規模なindelを導入することでフレームシフトを誘導し、機能欠損させればよい。この方法では、化学的あるいは放射線による変異導入(とそれに続く5~7回程度の戻し交配)よりも早期に開発できることと、リンケージドラッグによる意図しない形質の発現が回避できることがあり、コストの点で大きなアドバンテージがある。この手法で作出され日本で発売されている食品としては、例えば、リージョナルフィッシュ社から発売されているマダイで、ミオスタチン遺伝子を欠損したものが挙げられる。
【0015】
ゲノム編集では、1~10塩基程度の小規模なindel以外にも、数千塩基までの中規模な欠失を誘導することもできる。この場合は2つのガイドRNAを同時に細胞内に送達し、2か所のDNAの標的配列を切断する2か所の切断サイトが連鎖しているなど物理的に接近している場合には、2か所の切断サイトの間が抜け落ちて、修復されることがある。具体的な例を挙げると、コルテバ・アグリサイエンス社のワキシーコーンが挙げられ、これはWx遺伝子座のコーディングシーケンス全体を含む、およそ4kbが欠失されたものである。
【0016】
上で挙げた、ゲノム編集を介して育成された品種における変異は、自然界においても起こりえる種類のものであって、出来上がったもの(作物)は、従来的な交配による育種と本質的に差がない。これに対し、ゲノム編集を用いてホモロガスリコンビネーションを起こすことも可能であり、ゲノム中の目標の位置を、任意のDNA配列で置換することができる。これを応用して点変異、欠失、挿入など様々な変異が導入できるが、さらに、外来遺伝子で置換することで、遺伝子組換えを起こすこともできる。このように、ひと口にゲノム編集と言っても、自然界で生じ得る変異や、自然下では全く起こり得ない遺伝子組換えなど、本質的に異なるカテゴリーの変異体を作出できる。紛らわしさを避けるため、ゲノム編集により作出された品種はSDN1~3という3種類のカテゴリーに分類されることになっている。上記のリージョナルフィッシュ社の例とコルテバ社の例は、いずれもSDN1に分類される。ゲノム編集作物では、新品種作出に伴い、行政機関への届出や事前相談といった手続きが日本を含む多くの国で求められる。SDN1では、新たに導入された変異が、自然に生じた変異と本質的に同等であるため、また、前例も蓄積されていることから、多くの国で迅速に手続きが進むと期待され、産業上利点がある。
【0017】
ところで、ゲノム編集ではフレームシフトを誘導できると上で述べたが、これにより簡便に特定の遺伝子の機能欠損体が作り出せる。ところが、育種家にとって遺伝子の機能欠損体だけが有用なわけではない。遺伝子の発現上昇を伴う変異、あるいは遺伝子の発現の減少を伴う変異体が、意図して、あるいは意図されず無数に選抜されてきた。また、植物科学の歴史の中で、膨大な数のジーンサイレンシング(RNAi、KD)実験が報告されている。ノックアウト(KO)体とノックダウン(KD)体では表現型が異なることもある。僅かな発現の残存が有害な表現型を回避しているという事例もあると考えられる。このように、KD体を模した、遺伝子発現量の大幅な減少もまた、しばしば有用であると考えられる。本開示に係る方法は、日本において関係省庁への届出というプロセスのみで商業化が可能となるSDN1のゲノム編集を用いて、こうした遺伝子発現量の増加や減少をデザインすることを可能にするという利点がある。
【0018】
機能を強化する方法として、ひとつには遺伝子に変異を導入する方法が考えられる。例えば酵素の自己阻害ドメインを破壊することで活性を高めることができると考えられる。日本で発売されている作物を例示すると、サナテックシード社の高GABA蓄積トマトでは、GABA合成酵素GADのC末端に存在する自己阻害ドメインをフレームシフトにより破壊することで、GABA合成活性が強化されている。この方法は大変有効であるが、標的のタンパク質(遺伝子)が自己阻害ドメインを有する場合にしか利用できない。自己阻害ドメインを有するタンパク質は比較的少数であるため、応用の幅は狭い。それ以外の方法として、タンパク質の局在シグナルを破壊して、常に活性型にする方法や、リン酸化を受けるアミノ酸をグルタミン酸に置換する方法、酵素の活性部位に変異を導入することで反応性を向上させることが考えられる。しかしながら、このような手法は、一般的にどのような遺伝子でも利用できる方法ではない。
【0019】
機能を強化する方法で、多くの遺伝子に一般的に利用可能なものとして、もうひとつは、遺伝子の発現量を調節する領域に変異を導入する方法が考えられる。つまり、プロモーターを編集することで発現量を増加させ、機能が強化されるというアイデアであるが、このアイデアには欠点がある。それは、プロモーターにしても、配列と機能の対応関係が曖昧であるという点である。遺伝子では、コドンとアミノ酸配列の対応関係は厳密であり、特定のアミノ酸配列がつくる機能ドメインも保存性が高いため、配列から機能を推定することができる。このため、標的のドメインを破壊するといったことが高い確度で実施できる。翻ってプロモーター(非ORF)では、「この部分をこうすれば、このようなことが起こる」という仮説を立てることが難しい。
もちろん、配列と機能の関連についても存在している。TATAボックスに代表されるCis制御エレメントは、基本転写因子や転写因子の結合部位として理解されており、配列を元に転写因子を推測すること、転写因子から結合部位を推定することに成功した事例がある。例えば、理化学研究所のPromoterCADや農業・食品産業技術総合研究機構のNEW PLACEといったWebアプリケーションは、こうしたエレメントを検索するためのツールである。こうしたツールが提案されている一方で、これらを利用して育種に成功した例は限られていると思われる。Song et al.,2022はプロモーターのゲノム編集による遺伝子発現の向上を報告した(Song, X., Meng, X., Guo, H. et al. Targeting a gene regulatory element enhances rice grain yield by decoupling panicle number and size. Nat Biotechnol 40, 1403-1411 (2022). https://doi.org/10.1038/s41587-022-01281-7)。この報告ではイネIPA1遺伝子のプロモーターまたは5’UTRを編集することで、収量の増加が得られることを報告している。ゲノム編集で様々な欠失パターンの系統を作出して、発現パターンや形質を評価して、重要な制御エレメントを探し当てる、という手順になっている。これは、制御エレメントから機能をデザインすることがいかに困難であるかを示している。制御エレメントのゆらぎ(典型的な、コンセンサス配列から数塩基のミスマッチを許容する)が、困難さのひとつの理由であろう。最近は、ディープラーニングを応用してCis制御エレメントを推定する報告もあるが、実際作物の形質に結びついたという例は絶無である。
【0020】
本発明者らは、Cis制御エレメントから機能を推測する従来の方法ではなく、DNA配列から発現量を直接推測する戦略を採用した。そのために、プロモーターに標的を限定した。配列と発現量の関係性はブラックボックスであるが、ディープラーニングを利用した方法では、しばしば原理や理論が不明な場合でも高いパフォーマンスを発揮する。例えば機械翻訳の分野では、1990年代までは、語彙を収集して機能(意味情報)に紐づけた辞書を構築し、言語を変換する方法が模索されたが(例えば、英語から独語への変換)、高いパフォーマンスは得られなかった。これに対し、2011年ごろになってニューラルネットワーク(NN)を応用したWATSONが自然言語処理で高いパフォーマンスを発揮すると、人間が辞書を作成してコンピューターに意味を理解させるよりも、膨大なテキストデータを学習させることで、個々の文の意味を入力することなく高い精度で翻訳が実現されるようになった。今日のGoogle翻訳やDeepLはNNを用いた機械翻訳の代表的な例であって、いずれも大変高い有用性を提供している。このように、NNを用いた機械学習では、原理や理論を人間が理解・整理することなく高い性能を発揮することがある。
【0021】
DNABERTは、自然言語処理を目的として作成された自然言語モデルBERTを参考に、DNA配列を扱うように事前学習されたモデルである。DNABERTはDNA配列を元に非コード領域を解析することを目的に開発され、プロモーターや、スプライスサイトの発見などの課題で高いパフォーマンスが示されている。このことから、コアプロモーターの転写活性を予測させるという本発明の課題に用いることにした。しかし、DNABERTを本発明に応用するにあたり、2つの問題点があった。
【0022】
第一に、ヒトゲノムが事前学習のデータとして用いられており、植物のゲノムをDNABERTで扱えるかどうかは明らかではなかった。植物ではコアプロモーターを構成するコアエレメントとして、TATA boxやInitiator、Kozakといった動物と共通の因子に加えて、Y patch、CAおよびGAという植物特異的エレメントを有する場合がある。また、動植物の遺伝子のプロモーターでは、DNAがメチル化されることで転写活性が制御される場合があるが、動物ではCG(CpG)という配列のシトシンがメチル化される場合がほとんどである。これに対して植物では非CG配列のシトシンもメチル化される。このように、転写の基本的なメカニズムは動植物間で共通しているとはいえ、コアエレメントやメチル化部位などの構成要素は異なる。このように、ヒトと構造が大きく異なるプロモーターを有する植物において、DNABERTが高いパフォーマンスを発揮するかどうかは不明であった。
【0023】
また、第二に、DNABERTは転写開始点の発見やスプライスサイトの発見などのタスクで高いパフォーマンスが示されていたが、これらは、与えられた配列中に、興味のある要素が「存在する」または「存在しない」ことを判定する課題で、二値分類問題であった。これに対し、本発明者らの課題はコアプロモーター配列の下流の遺伝子発現強度を予測するもので、連続的な値を出力することが要求された。このような回帰問題でもDNABERTが有効であるか、高いパフォーマンスを発揮するかどうかは全く不明であった。DNAの配列に関連した連続的な値を扱う場合は、CNNを用いることが一般的であった。本発明者らは、自然言語処理モデルBERTを応用して、回帰問題も扱えるとの報告を元に、DNABERTのコードを改変した。具体的には、クラスを追加して連続的な値を扱えるように変更した。
【0024】
このような問題点がありつつも、別に示した手順でDNABERTの事前学習モデルをファインチューニングし、高い精度でプロモーターの強度を予測することに成功した。さらに発明者らは、この学習モデルを組込み、ゲノム編集によりプロモーターの機能を変化させるプログラムの開発にも成功している。
【0025】
1つの態様において、本開示は、所望の活性を有するように改変されたプロモーター配列の取得方法に関する。一部の実施形態では、本開示に係る方法は、改変の対象となる元のプロモーター配列を用意すること、前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成すること、生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測すること、所望の活性を有すると予測された改変プロモーター配列を選択することを含む、方法でありうる。
【0026】
プロモーターは遺伝子の(通常)上流に位置するDNA配列で、自身は転写されないが、遺伝子の転写量(発現レベル)や、多細胞生物では発現する部位・組織特異性を決定する機能を有する。本明細書では、特に遺伝子近傍の、基本転写因子と相互作用する領域を「コアプロモーター」と呼ぶ。コアプロモーターは、転写開始点の塩基の位置を+1と表したとき、-200~+50の位置として定義されうる。より好ましくは、-180~+25の位置として定義されうる。さらに好ましくは、―170~+17の位置として定義されうる。最も好ましくは、-165~+5の位置がコアプロモ―ターとして定義されうる。コアプロモーターは基本的な転写量を決定する機能があると考えられる。
【0027】
一部の実施形態では、プロモーター配列は、植物細胞のプロモーター配列である。なお、動物と植物では、コアプロモ―ターに含まれるコアエレメントの種類が異なることが知られている。本明細書中において、「植物」は、特に制限されない。例えばコケ植物、シダ植物、裸子植物、被子植物のモクレン類、単子葉類、真正双子葉類(バラ類I、バラ類II、キク類I、キク類II及びそれらの外群)を含む広い範囲の植物を挙げることができる。植物のより具体的な例としては、トマト、ピーマン、トウガラシ、ナス、タバコ、トルバム等のナス類;キュウリ、カボチャ、メロン、スイカ等のウリ類;キャベツ、ブロッコリー、ハクサイ、ケール等の菜類;シソ、セルリー、パセリー、レタス等の生菜・香辛菜類;ネギ、タマネギ、ニンニク等のネギ類;イチゴ、メロン等のその他果菜類;ダイコン、カブ、ニンジン、ゴボウ等の直根類;サトイモ、キャッサバ、ジャガイモ(バレイショ)、サツマイモ、ナガイモ等のイモ類;イネ、トウモロコシ、コムギ、ソルガム、オオムギ、ライムギ、ミナトカモジグサ、ソバ等の穀類;ダイズ、アズキ、リョクトウ、ササゲ、インゲンマメ、ラッカセイ、エンドウ、ソラマメ等のマメ類;アスパラガス、ホウレンソウ、ミツバ等の柔菜類;トルコギキョウ、バラ、ストック、カーネーション、キク等の花卉類;ベントグラス、コウライシバ等の芝類;ナタネ、カメリナ、セイヨウアブラナ、ナンヨウアブラギリ(ジャトロファ)、ゴマ、エゴマ等の油料作物類;ワタ、イグサ、アサ等の繊維料作物類;クローバー、デントコーン、タルウマゴヤシ等の飼料作物類;リンゴ、ナシ、ブドウ、モモ等の落葉性果樹類;ウンシュウミカン、オレンジ、レモン、グレープフルーツ等の柑橘類;サツキ、ツツジ、スギ、ポプラ、パラゴムノキ等の木本類等が挙げられる。また、プロモーターは、部位特異的なものでも、非部位特異的なものでもあってもよい。部位特異的プロモーターは、例えば、葉や根において特異的な発現を制御するものでありうる。
一部の実施形態では、改変プロモーターに求められる所望の活性は、元のプロモーター配列よりも高い遺伝子発現誘導活性、または元のプロモーター配列よりも低い遺伝子発現誘導活性でありうる。元のプロモーター配列よりも高い遺伝子発現誘導活性は、例えば、元の活性の1.1倍から1000倍のいずれか、例えば、1.1倍、1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、50倍、100倍、200倍、300倍、400倍、500倍、600倍、700倍、800倍、900倍、または1000倍でありうる。元のプロモーター配列よりも低い遺伝子発現誘導活性は、例えば、元の活性の90%から0.01%のいずれか、例えば、90%、80%、50%、10%、5%、1%、0.5%、0.1%、0.05%、0.04%、0.03%、0.02%、または0.01%でありうる。
【0028】
一部の実施形態では、改変プロモーターに求められる所望の活性は、元のプロモーター配列ではなく、他の基準となるプロモーター配列の活性との比較で決定されてもよい。
【0029】
あるいは、改変プロモーターに求められる所望の活性は、高発現、中発現、低発現といった層別化により決定されてもよい。一部の実施形態では、任意の数や範囲の層別化が行われうる。
【0030】
一部の実施形態では、プロモーター配列の改変は、配列の一部の欠失、置換、または挿入によるものでありうる。一部の実施形態では、プロモーター配列の改変は、プロモーター配列中の2カ所の切断による配列の一部の欠失でありうる。
【0031】
一部の実施形態では、改変の対象となる元のプロモーター配列は、GenBankなどのデータベースから取得することにより用意されうる。プロモーター配列としては、例えば、標的遺伝子の転写開始点周辺の-9900~+100、好ましくは-4950~+50または-2975~+25、より好ましくは-1995~+5のDNA領域内の、転写開始点を含む任意のDNA領域が挙げられる。あるいは、標的遺伝子の転写開始点から、隣接する遺伝子の転写終結点までの間の任意のDNA領域が挙げられる。つまり、プロモーター配列としては、コアプロモーターとその上流の配列を含む領域が用いられうる。コアプロモーター上流の配列の長さは、例えば、少なくとも200bp、400bp、600bp、800bp、1000bp、1200bp、1400bp、1600bp、1800bp、2000bp、3000bp、4000bp、5000bp、6000bp、7000bp、8000bp、または9000bpでありうる。なお、転写開始点が複数存在する場合は、その複数の転写開始点を選択することができる。また、例えば、転写開始点周辺の-1995~+5に含まれる100~1800塩基の任意の範囲が使用されてもよい。プロモーターの長さ(塩基対数:bp)としては、例えば、少なくとも200bp、400bp、600bp、800bp、1000bp、1200bp、1500bp、2000bp、3000bp、4000bp、5000bp、6000bp、7000bp、8000bp、または9000bp、範囲としては、100~10000bp、好ましくは200~5000bp、より好ましくは500~3000bpの範囲の長さが挙げられうる。
【0032】
一部の実施形態では、所望の活性を有する改変プロモーター配列を選択するために、プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットが生成される。
【0033】
ゲノム編集技術としては、ZFNsやTALEN、CRISPR-Casシステムが使用されうる。CRISPR-Casシステムは、Class1 Type IのCRISPR-Cas3やClass2 Type IIのCas9、Class2 Type VのCas12a、Class2 Type VのCas12f (Cas14a)、Class2 Type VIのCas13aなどが挙げられ、その機能メカニズムや分類は問わない。また、Casタンパク質は様々な細菌に由来するものが使用されうる。例えば、Cas9ではStreptococcus pyogenesに由来するSpCas9、Staphylococcus aureusに由来するSaCas9、Francisella novicidaに由来するFnCas9、Campylobacter jejuniに由来するCjCas9、Cas12aではAcidaminococcus sp.に由来するAsCas12a(AsCpf1)、Lachnospiraceae bacteriumに由来するLbCas12a(LbCpf1)、Eubacterium rectaleに由来するErCas12aなどが挙げられ、その由来を限定しない。また、Casタンパク質をコードする塩基配列やCasタンパク質のアミノ酸配列を改変したものや、他のタンパク質または機能ドメインまたはペプチドまたはアミノ酸配列を融合したもの、化合物で修飾したものも使用されうる。
【0034】
CRISPR-Cas系では、標的配列の切断のために、CasヌクレアーゼとガイドRNA(gRNA)が使用される。ガイドRNAはcrRNAとtracrRNAの2つの要素から成り、これらは個別のRNAとして存在しても、連結されて一本鎖のRNAとして存在してもよい。一本鎖のガイドRNAはsgRNAとも呼ばれる。ガイドRNAの5’末端、3’末端には1塩基から10塩基、10塩基から50塩基、50塩基から100塩基、100塩基から500塩基の塩基配列が付加される場合もあり得る。ガイドRNAは特定のDNA配列と相補的に結合し、Casヌクレアーゼをゲノムの特定の位置に導く。これにより、Casヌクレアーゼは、特定のDNA配列を切断し、ゲノム編集を可能とする。例えば、CRISPRを使用する場合は、プロモーター配列中のPAM配列を検索して、切断可能な位置の一覧をリスト化する。PAM配列は使用するCasタンパク質により、例えば、SpCas9の場合はNGG、SaCas9の場合はNGRRTもしくはNGNRRN、NmeCas9の場合はNNNNGATT、CjCas9の場合はNNNNRYAC、LbCas12a(Cpf1)の場合はTTTV、AsCas12a(Cpf1)の場合はTTTV、AacCas12a(Cpf1)の場合はTTN、BhCas12b v4の場合はATTNもしくはTTTNもしくはGTTNなどが挙げられるが、Casタンパク質が認識できる配列であればこれらのPAM配列に1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基のミスマッチが含まれる場合もありうる。PAM配列の存在は、CRISPR系のゲノム編集の精度と特異性を高める上で重要である。PAM配列が無い場合、CasヌクレアーゼはガイドRNAが指定するDNA配列に結合できない。この特性により、特定の遺伝子領域を正確にゲノム編集の標的とすることが可能になる。また、上記のように、異なる種類のCasヌクレアーゼを使用することで、異なるPAM配列を有する領域を標的化することもできる。例えば典型的には、Cas9ならばPAM配列から3~4塩基の位置、Cas12aならばPAM配列から18~23塩基の位置がそれぞれ切断位置となる。当業者は標的ゲノム中のPAM配列にもとづき、適切なガイドRNAを設計することができる。切断位置は典型的には、2000塩基の中では50か所程度発見される。例えば、n箇所の切断位置のうち、2箇所を指定する組み合わせはnC2通りある。つまり、50か所の切断位置について、1250通りの組み合わせがありえる。よって、一部の実施形態では、所望の活性を有する改変プロモーター配列を選択するために、改変の対象とされるプロモーター配列中のPAM配列のnC2通りの組み合わせについて、2か所の切断位置の間を切り詰めた(削除した)塩基配列のセットが生成されうる。このように、一部の実施形態では、複数の改変プロモーター配列のセットが、2つのPAM認識配列に基づき設計されるガイドRNA配列の組合せが誘導する切断により生じる配列欠失により生成される。
【0035】
また、他のプロモーター編集方法として、Cas9ニッカーゼによって生じさせた2箇所のニック間を削除する方法、ゲノム上の狙った塩基を別の塩基へと置換するbase editingを用いた方法、1から20塩基または20から50塩基または50から100塩基からなる任意の塩基配列をゲノム中に欠失、挿入、置換することが可能なprime editorを用いた方法も使用されうる。
【0036】
改変プロモーター配列のセットに含まれる異なる配列の数は、少なくとも5、10、20、50、100、150、200、300、500、700、1000、1200、1500、2000、3000、4000、または5000でありうる。活性に影響を及ぼす配列の十分な探索のためには、改変プロモーター配列のセットに含まれる異なる配列の数は、1000以上であることが好ましい。また、改変プロモーター配列のセットに含まれる異なる配列の数を十分に確保するためには、元のプロモーター配列の長さは、例えば1800bp以上であることが好ましい。
【0037】
複数の改変プロモーター配列のセットが生成された後、一部の実施形態では、生成された改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性が、機械学習モデルによって予測される。例えば、生成されたそれぞれの塩基配列について、3'末端側170塩基を取得して、機械学習モデルに入力する。一部の実施形態では、3'末端側100~250塩基を取得して、機械学習モデルに入力してもよい。また、一部の実施形態では、3'末端側170塩基に含まれる一部の配列、例えば、100~169塩基が入力されてもよい。適切に訓練された機械学習モデルは、与えられた塩基配列のコアプロモーターとしての強さ(転写活性)を出力することができる。
【0038】
一部の実施形態では、生成された改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性がコンピューターディスプレイ上でビジュアライズされる。ビジュアライズは、例えば、図8または図9に示されるようにして行われうる。
【0039】
そして、機械学習モデルの予測結果から、所望の活性を有すると予測された改変プロモーター配列を選択することにより、所望の活性を有するように改変されたプロモーター配列を取得することができる。
【0040】
一部の実施形態では、機械学習モデルは、植物細胞における複数のプロモーター配列の遺伝子発現誘導活性データを教師データとして、プロモーター配列から遺伝子発現誘導活性を予測するように訓練された回帰モデルでありうる。一部の実施形態では、Joresら(2021)のデータが学習に使用されうる(Jores, T., Tonnies, J., Wrightsman, T. et al. Synthetic promoter designs enabled by a comprehensive analysis of plant core promoters. Nat. Plants 7, 842-855 (2021). https://doi.org/10.1038/s41477-021-00932-y)。よって、本開示に係る1つの態様は、プロモーター配列から植物細胞における遺伝子発現誘導活性を予測する機械学習モデルの生成方法であって、植物細胞における複数のプロモーター配列の遺伝子発現誘導活性データを教師データとしてモデルを訓練することを含む、方法に関する。一部の実施形態では、訓練の対象となるモデルとしては、トランスフォーマーベースの事前訓練された基礎モデルが用いられうる。
【0041】
一部の実施形態では、機械学習モデルの構築において、トランスフォーマーなどの深層学習モデル、特にBERTをベースにしたモデルが使用されうる。BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理(NLP)において広く使われている機械学習モデルの一つである。Google社によって2018年に開発され、テキストの理解と生成において顕著な性能が示された。BERTの主な特徴としては、1)双方向の文脈理解、2)Transformerアーキテクチャの利用、3)事前学習とファインチューニング、4)多様な応用可能性などがある。まず、BERTは「双方向」モデルであり、与えられたテキスト内の単語を、左右両方の文脈で理解する。従来のモデルが一方向(左から右、またはその逆)でしか文脈を考慮しなかったのに対し、BERTはテキスト全体を包括的に理解することができる。また、BERTはTransformerと呼ばれるニューラルネットワークアーキテクチャを基に構築されている。Transformerは「アテンション機構」を使用して、入力されたテキスト内の各単語間の関係を捉える。これにより、より複雑で洗練されたテキスト理解が可能になる。さらに、BERTは大量のテキストデータで「事前学習」されており、一般的な言語の理解を身につけている。その後、特定のタスク(例えば感情分析や質問応答)に対して「ファインチューニング」(fine-tuning)を行うことで、特定の用途に合わせて最適化することができる。BERTは様々なNLPタスクに適用可能であり、例えば、テキスト分類、質問応答、感情分析、機械翻訳など、幅広い分野で利用されている。
【0042】
BERTモデルのトレーニングには主に2つのタスクが用いられる。MLMタスクは、入力テキストからランダムに単語を「マスク」し、BERTにそのマスクされた単語を予測させるタスクである。このタスクの主な目的は、BERTに文脈を利用して単語の意味を理解させることである。双方向の文脈を考慮するため、モデルは文全体の情報を活用してマスクされた単語を予測する。NSPタスクは、BERTに2つの文が連続しているかどうかを判断させるものである。モデルには、ある文(A)ともう一つの文(B)が与えられ、BがAの直後に来る文かどうかを予測させる。この際、半分の確率でBはAに続く実際の文で、残り半分はランダムに選ばれた関連のない文である。NSPタスクの目的は、BERTに文章間の関係を理解させることである。この能力は特に、文章の繋がりや意味の流れを理解することが重要なタスク、例えば質問応答や文章の要約などにおいて有用となる。これらのタスクにより、BERTは単語レベルだけでなく、文全体や複数の文の関係を理解する能力を養う。この結果、BERTはさまざまな自然言語処理タスクにおいて高いパフォーマンスを発揮することができるようになる。
【0043】
一部の実施形態では、機械学習には、トランスフォーマーベースの事前訓練された基礎モデルであるDNABERTが利用されうる(Yanrong Ji, Zhihan Zhou, Han Liu, Ramana V Davuluri, DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome, Bioinformatics, Volume 37, Issue 15, August 2021, Pages 2112-2120)。DNABERTは、上流および下流の塩基配列のコンテキストに基づいて、ゲノムDNA配列のグローバルな理解を捉えることのできる、事前訓練された双方向エンコーダー表現である。DNABERTでは、BERTで用いられていたNSPタスクは行われず、MLMタスクのみでの学習が行われている。DNA配列において一定の割合をマスクし、マスク部位のk-merトークンが予測される。DNABERTの事前学習に用いられた訓練データはヒトゲノムからサンプリングされたDNA配列である。本発明者らは、DNABERTのような事前訓練された基礎モデルをファインチューニングすることで、プロモーター配列から植物細胞における遺伝子発現誘導活性を予測する機械学習モデルを生成できることを実証した。なお、本開示に係る機械学習モデルは、二値分類問題だけでなく、回帰問題も扱うことができ、その結果として、遺伝子発現誘導活性の高低を予測することができる。
【0044】
本開示の1つの態様は、所望の遺伝子の発現量を調節するための細胞のゲノム編集方法に関する。一部の実施形態では、本方法は、本開示に係る所望の活性を有するように改変されたプロモーター配列の取得方法により所望の活性を有する改変プロモーター配列を取得すること、ゲノム編集の対象となる細胞を用意すること、前記改変プロモーター配列を生じるように前記細胞のゲノムを編集することを含む、方法でありうる。
【0045】
一部の実施形態では、細胞は植物の細胞、例えば、コケ植物、シダ植物、裸子植物、被子植物のモクレン類、単子葉類、真正双子葉類(バラ類I、バラ類II、キク類I、キク類II及びそれらの外群)を含む広い範囲の植物を挙げることができる。植物のより具体的な例としては、トマト、ピーマン、トウガラシ、ナス、タバコ、トルバム等のナス類;キュウリ、カボチャ、メロン、スイカ等のウリ類;キャベツ、ブロッコリー、ハクサイ、ケール等の菜類;シソ、セルリー、パセリー、レタス等の生菜・香辛菜類;ネギ、タマネギ、ニンニク等のネギ類;イチゴ、メロン等のその他果菜類;ダイコン、カブ、ニンジン、ゴボウ等の直根類;サトイモ、キャッサバ、ジャガイモ(バレイショ)、サツマイモ、ナガイモ等のイモ類;イネ、トウモロコシ、コムギ、ソルガム、オオムギ、ライムギ、ミナトカモジグサ、ソバ等の穀類;ダイズ、アズキ、リョクトウ、ササゲ、インゲンマメ、ラッカセイ、エンドウ、ソラマメ等のマメ類;アスパラガス、ホウレンソウ、ミツバ等の柔菜類;トルコギキョウ、バラ、ストック、カーネーション、キク等の花卉類;ベントグラス、コウライシバ等の芝類;ナタネ、カメリナ、セイヨウアブラナ、ナンヨウアブラギリ(ジャトロファ)、ゴマ、エゴマ等の油料作物類;ワタ、イグサ、アサ等の繊維料作物類;クローバー、デントコーン、タルウマゴヤシ等の飼料作物類;リンゴ、ナシ、ブドウ、モモ等の落葉性果樹類;ウンシュウミカン、オレンジ、レモン、グレープフルーツ等の柑橘類;サツキ、ツツジ、スギ、ポプラ、パラゴムノキ等の木本類等が挙げられる。
【0046】
本開示の1つの態様は、本開示に係る方法により取得された配列を有する、プロモーター活性を有するポリヌクレオチドに関する。そのようなポリヌクレオチドは、例えば、配列番号2または4の配列を有するものでありうる。
【0047】
本開示の1つの態様は、所望の遺伝子の発現量が調節されたゲノム編集植物の製造方法に関する。一部の実施形態では、本方法は、本開示に係る所望の遺伝子の発現量を調節するための細胞のゲノム編集方法により所望の植物細胞のゲノムを編集すること、ゲノム編集された細胞に由来する植物個体を得ることを含む、方法でありうる。さらに、本開示の1つの態様は、本開示に係る製造方法により製造されたゲノム編集植物に関する。
【0048】
ゲノム編集された細胞を得る際には、植物の組織や細胞にゲノム編集酵素をDNA、RNP、タンパク質のいずれかの態様で導入しうる。植物におけるゲノム編集酵素の導入部位としては、例えば花(卵細胞、花粉、花弁等)、茎(形成層、髄、皮層等)、葉(葉原基を含む)、根、茎頂、側芽、花芽、根端、プロトプラスト等が挙げられる。
【0049】
導入方法は、特に制限されず、導入する植物種や導入対象細胞/組織に応じて、適宜選択することができる。導入方法としては、例えば、アグロバクテリウム法、パーティクル・ガン法、ウィスカー法、ナノピペット法、ウイルス媒介性核酸送達等が挙げられる。
【0050】
一部の実施形態では、ゲノム編集された細胞に由来する植物個体を得る際には、例えば、ゲノム編集された細胞、あるいは編集された細胞を含む組織を適切な培養条件下で培養する工程(a)、細胞を増殖させてカルス(未分化の細胞塊)を形成させる工程(b)、カルスからシュート(新芽)を誘導する工程(c1)、編集された細胞を含む組織から直接的にシュートを形成させる工程(c2)、シュートに根を誘導して、植物体を再生させる工程(d)、再生した植物体から次世代の種子を得る工程(e1)、あるいは再生した植物体の一部を挿し木して増殖させる工程(e2)、などの工程を含みうる。
【0051】
本開示の1つの態様は、所望の活性を有するように改変されたプロモーター配列を予測する情報処理装置に関する(図11参照)。
【0052】
一部の実施形態において、本装置010は、改変の対象となる元のプロモーター配列の入力を受け付ける配列入力部011、前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する改変配列生成部012、生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する活性予測部013、所望の活性を有すると予測された改変プロモーター配列を選択する配列選択部014を含む、情報処理装置でありうる。配列入力部011は、例えば、外部ネットワークとの通信機器やキーボードなどの入力デバイスと接続されていてもよい。配列選択部014は、例えば、ディスプレイやプリンタなどの出力機器、外部ネットワークとの通信機器などと接続されていてもよい。当業者は、本装置が本開示に係る配列取得方法を実施するために必要な構成を、本明細書の開示に照らし、理解することができるであろう。
【0053】
本開示の1つの態様は、命令またはプログラムが格納された非一時的なコンピューター可読媒体に関する。
【0054】
一部の実施形態において、本コンピューター可読媒体は、命令またはプログラムがプロセッサーによって実行されると、以下のステップ:改変の対象となる元のプロモーター配列の入力を受け付けるステップS100、前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成するステップS110、生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測するステップS120、所望の活性を有すると予測された改変プロモーター配列を選択するステップS130を実行することができる命令またはプログラムが格納された、コンピューター可読媒体でありうる。図12は、このようなプログラムの例示的なフローチャートを示している。
【0055】
ゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成するステップS110はさらに、入力された配列の中からCas9による切断可能位置(PAM配列)を網羅的に検索するステップS112、検索された切断可能位置(PAM配列)のうちの2つを組合せ論的にすべて選択するステップS114、すべての組合せについて選択された2か所の切断部位の間の配列を欠失させて改変プロモーター配列のセットを生成するステップS116を含んでいてもよい。また、個々の改変プロモーター配列の活性を機械学習モデルによって予測するステップS120は、個々の改変プロモーター配列のコアプロモーター部分(3'末端側の150~200bp、例えば約170bpの配列)のみを用いて行ってもよい。
【0056】
本開示の1つの態様は、所望の活性を有するように改変されたプロモーター配列を予測するコンピュータープログラムに関する。
【0057】
一部の実施形態において、本プログラムは、コンピューターに、改変の対象となる元のプロモーター配列の入力を受け付ける機能、前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する機能、生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する機能、所望の活性を有すると予測された改変プロモーター配列を選択する機能を実現させる、プログラムでありうる。
【0058】
図13は、本開示の装置の例示的な一態様を示した概略図である。図13おいて、100はコンピューターであり、制御部101、記憶部102、周辺機器I/F部103、入力部104、表示部105、通信部106を備え、これらがバス110により接続される。なお、この構成は例示であり、適宜、様々な構成を採ることができる。
【0059】
制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。CPUは、記憶部102、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス110を介して接続された各装置を駆動制御し、コンピューターが行う処理を実現する。ROMは、不揮発性メモリであり、コンピューター100のブートプログラムやBIOS等のプログラム、データ等を保持している。RAMは、揮発性メモリであり、記憶部102、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部101が各種処理を行う際に使用するワークエリアを備える。記憶部102は、例えばHDD(ハードディスクドライブ)であり、制御部101が実行するプログラム、その他各種データを格納する。
【0060】
周辺機器I/F(インターフェース)部103は、コンピューター100と周辺機器とを接続させるためのポートである。周辺機器I/F部103は、USBやIEEE1394やRS-232C等で構成される。なお、周辺機器との接続形態は有線、無線を問わない。入力部104は、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有し、コンピューター100に対して、操作指示、動作指示、データ入力等を行う。表示部105は、液晶パネル等のディスプレイ装置に映像・画像等の表示を行うための論理回路乃至デバイスドライバーである。入力部104及び表示部105を、タッチディスプレイとして一体的に構成することもできる。
【0061】
通信部106は、通信制御装置、通信ポート等を有し、ネットワーク120との通信を媒介する有線または無線の通信インターフェースである。バス110は、各装置間の制御信号、データ信号等の授受を媒介する通信経路である。ネットワーク120は、さらに外部サーバー130やネットストレージ140に接続されていてもよい。
【0062】
例えば、図13の装置に、本開示に係るコンピューター可読媒体に記録されたプログラムを読み込み、コンピューターを、改変の対象となる元のプロモーター配列の入力を受け付ける配列入力部、前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成する改変配列生成部、生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の活性を機械学習モデルによって予測する活性予測部、所望の活性を有すると予測された改変プロモーター配列を選択する配列選択部を備えた、情報処理装置として機能させることができる。
【0063】
特に定義されない限り、本明細書中で使用されるすべての技術的および科学的な用語は、本発明が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書中で記述されるものと類似もしくは等価なあらゆる方法および材料が、本発明の実施もしくは試験のために使用されうるものの、いくつかの可能性のある、好ましい方法および材料がこれから記述される。本明細書で言及されるすべての刊行物は、参照により本明細書に組み込まれ、関連して刊行物が引用される方法および/または材料が開示および記述される。本開示は、矛盾がある場合、組み込まれた刊行物の開示に優先することが理解される。
【0064】
値の範囲が記載される場合、文脈上明らかに別段の指示がない限り、その範囲の上限と下限の間に、下限の単位の10分の1までの介在するそれぞれの値もまた具体的に開示されていると理解される。記載された範囲内の任意の記載された値または介在する値と、その記載された範囲内の任意の他の記載された値または介在する値との間の、より小さなそれぞれの範囲もまた、本開示に包含される。これらのより小さな範囲の上限と下限は独立して、その範囲に含められても除外されてもよく、より小さな範囲にどちらか、どちらも、または両方の限界値が含まれる各範囲もまた、本発明に包含されるが、記載された範囲において具体的に除外された限界値は留保される。記載された範囲が限界値の一方または両方を含む場合、含まれる限界値のいずれかまたは両方を除外する範囲も本発明に含まれる。数値に関する「約」という用語は、5%以内を意味する。
【0065】
本明細書に記載の実施形態は、単に例示的なものであることを意図しており、当業者であれば、本発明の精神から逸脱することなく、数多くの変形及び修正を行うことができるであろう。また、ある種の変形及び修正は、最適な結果には至らないものの、それでも満足のいく結果をもたらしうる。そのような変形及び修正は全て、添付の特許請求の範囲によって定義される本発明の範囲内にあることが意図されている。また、本明細書に開示の構成要素の任意の組み合わせ、本開示の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本開示に係る態様として有効である。よって、本開示の方法に関して記載された詳細は、システム、コンピュータプログラム、データ構造、記録媒体等に適用されうる。
【実施例
【0066】
実施例1:機械学習モデルの構築
プロモーター配列から植物細胞における遺伝子発現誘導活性を予測する機械学習モデルは、以下のようにして構築した。まず、学習元となるデータとして、Jores et al.による論文で示されたものを入手した(Jores, T., Tonnies, J., Wrightsman, T. et al. Synthetic promoter designs enabled by a comprehensive analysis of plant core promoters. Nat. Plants 7, 842-855 (2021). https://doi.org/10.1038/s41477-021-00932-y)。データセットの概要としては、約7万件のデータセットであって、170塩基のDNA配列と、発現強度の組であった。
【0067】
また、機械学習には、トランスフォーマーベースの事前訓練された基礎モデルであるDNABERTを利用した。DNABERTについては、例えば、上述のJi et al.による論文で報告されている。DNABERTは、主として2値分類問題を扱うことに主眼を置いており、例えば、「与えられた塩基配列について、スプライシングサイトを有するか否か」といった判定を行うことができると示されている。2値分類問題とはつまり、スプライシングサイトを有するならば1、そうでなければ0というように、2つのカテゴリーに分類する問題である。これに対し、「与えられた塩基配列について、下流の遺伝子発現量を予測する」といった問題は、分類問題に対して回帰問題と呼ばれ、連続的な値を出力する必要がある。そこで、DNABERTで連続的な値を扱うために、トランスフォーマーにクラスを追加してモデルの訓練を行った。
【0068】
実施例2:学習済みモデルによるプロモーター強度の予測と分類
プロモーター配列は多くの場合遺伝子の上流に存在し、直下にある遺伝子の転写量(発現量)を制御している。遺伝子の発現量はプロモーターの配列により制御されていると考えられる。下流の遺伝子の発現量を、プロモーターの強度と定義する。プロモーターの配列ごとに固有の強度を示すと考えられる。
【0069】
実施例1で説明したように、塩基配列を基に、転写活性を予測する機械学習モデルを構築した。これを用いてシロイヌナズナの全遺伝子の転写活性を評価した一覧を作成した。
【0070】
全てのプロモーターを、予測された転写活性を基に、以下の3つのグループに分類した:
1.高いプロモーター強度を示すと予測された「高発現グループ」;
2.非常に低いかほぼ発現を示さないプロモーター強度をもつと予測された「低発現グループ」;および
3.それらの中間のプロモーター強度を示す「中程度グループ」。
【0071】
実施例3:モデルによる予測と実際の遺伝子発現との比較
高発現グループから7プロモーター、中程度グループから8プロモーター、低発現グループから4プロモーターをそれぞれ選び、ルシフェラーゼ(LUC)遺伝子に接続した人工合成遺伝子を作成した。
【0072】
遺伝子の構造は、図1に示されているとおりである。プロモーターは19種類の様々な配列パターンを持つ。下流のLUC遺伝子と上流のカリフラワーモザイクウイルス(CaMV)35Sエンハンサーの配列は各人工遺伝子で共通である。
【0073】
この人工遺伝子を搭載したプラスミドベクターをシロイヌナズナの葉から採取したプロトプラストに対し、ポリエチレングリコール法によりトランスフェクションした。プロトプラストはLUC遺伝子を様々の発現量で発現した。LUC発現量を評価するために、プレートリーダーを用いて発光強度を測定した。測定の結果と、予測されたプロモーター強度の関係を図2に示す。LUC遺伝子の発現量の実測値と、プロモーター強度の予測値の関係を散布図で示した。縦軸は予測された転写活性を示す。値が高いほど、下流の遺伝子の発現量が大きくなると期待される。横軸は対数変換したLUC発現強度の実測値を示す。ただし、ポジティブコントロール(Pコントロール)であるCaMVプロモーターの発現量で標準化した。
【0074】
図2に示されている結果から、予測値に基づくグループと一致して、実測値が3群に分かれることがわかる。このように、構築した機械学習モデルによる予測値と実測値には明瞭な相関関係が確認された。この図は、予測性の高さを示している。この図において、線形に収束する場合には予測値と実測値が一致していることを意味し、高い予測性能を有することになる。この予測性能を相関係数Rで評価すると、R=0.9296673となった。
【0075】
次に、上記の散布図で示された相関関係を基に、線形回帰予測により、予測された転写活性に対応するLUC発現量を計算した。これらを比較したものを次の図3に示す。
【0076】
縦軸にLUCの発光強度をプロットした。ただし、Pコントロールの発光強度を1とした相対値で示している。Pコントロールとして、高い転写活性が知られているカリフラワーモザイクウイルス(CaMV)プロモーターを使用した。横軸に19種類のプロモーターの番号を示した。プロモーター番号3~10は高い発現強度が予測された「高発現」グループ、プロモーター番号13~21は同「中程度」グループ、プロモーター番号22~25は同「低発現」グループに分類した。黒い棒グラフはLUCアッセイの実測値(発現量)を示す。白色の棒グラフは、機械学習モデルによる発現強度予測値を示す。図3において、黒い棒グラフに着目すると、「高発現」グループでは比較的高い発現量を示し、また「低発現」グループでは低い発現量を示した。「中程度」グループでは中間の値を示した。
【0077】
次に、個別のプロモーターについて、どの程度正確に発現量が予測されるのか確認した。各プロモーターの黒い棒と白色の棒を比較すると、3番、6番、10番、18番のプロモーターでは高い一致度で予測されていることがわかる。一方で、4番は実測値>予測値となった。5番では反対に予測値>実測値となった。
【0078】
概括すると、構築したモデルにより、高発現・低発現といった大まかな傾向を予測することができた。低発現のプロモーターについては、総じて高い精度で予測された。高発現のグループでは、実測値の50%~200%の範囲で発現を予測することができた。
【0079】
このように、本開示に係る機械学習モデルは、遺伝子発現量を、プロモーターの塩基配列を基に予測できる。
【0080】
実施例4:活性の低下したプロモーターの予測と実証
次に、プロモーターの転写活性を低下させる方法を考案した。各プロモーターには、Cas9のPAM認識配列(NGG)が多く存在する。これらの配列を検索し、可能な編集パターンおよそ数千通りをリストアップした。
【0081】
より具体的な手順は以下のとおりである:
1.与えられた塩基配列の中からCas9による切断可能な位置(PAM配列)を網羅的に検索する;
2.その中から2か所を選ぶ;
3.2か所の切断部位で切断し、修復後に出現する新しいコアプロモーター配列をシミュレーションする;
4.シミュレーションされた配列に対し、コアプロモーターとしての強度を推測する;
5.上記の工程を、考えうる全ての切断部位のペアについて実行する;
6.シミュレーションされた全てのコアプロモーターの中で、最低のスコア(転写活性が上昇したプロモーターを選択する場合は最高のスコア)を示すものを選ぶ。
【0082】
以上により、発現量を強化/抑制したい場合に、どの切断部位を選択すればよいか判断することができる。このようにして、それぞれの編集パターンの塩基配列についてプロモーターの転写活性を推測することで、プロモーターの転写活性を低下させることのできる編集パターンを探索した。結果を図4に示す。プロモーター番号3、4、5、6、9、10、21番について、プロモーター強度を低下させることのできる編集パターンを探索した。黒色で三角形のプロットで、予測された新しいプロモーター強度に基づいて計算された、LUCアッセイのスコアの予測値を示した。その結果、元のプロモーターに比して、LUC発現量が14%~1%程度の転写活性となることが予測された。
【0083】
次に、これらの理論的なプロモーター配列をもつ遺伝子を人工的に合成し、プロトプラストに対し同様にトランスフェクションし発現量をプレートリーダーで測定した。その結果を図5に示す。図4に重ね合わせて、網かけの棒グラフで新しい配列のプロモーターのLUCの発現量の実測値を示している。非常に低い発現量となったため、縦軸を拡大して示した。プロモーター5番については欠損値となった。測定値の得られた6個のプロモーターについて、いずれも大幅な発現量の低下が認められ、予測値と一致した。例えばプロモーター3番の配列は
CGGAAACTTGTCACTTCCTTTACATTTGAGTTTCCAACACCTAATCACGACAACAATCATATAGCTCTCGCATACAAACAAACATATGCATGTATTCTTACACGTGAACTCCATGCAAGTCTCTTTTCTCACCTATAAATACCAACCACACCTTCACCACATTCTTCACT(配列番号1)
であり、転写活性の予測値は5.43、この値から線形回帰によって予測されるLUC発現量はPコントロールに比して111.5%であった。また、LUC発現量の実測値は68.6%であった。これに対して、プロモーター3番の、編集後の配列は
GAAACTGATTAGCTCCTATCAGTTCAGCAAACCACAAGCTGAAGAATCCAAGACTTGAGAAACAAATTTACAAAAGCCCATGTTCCAATCAAAACTGTTACCAAACATCTGAAATAGATCTAAATGAGCGTTGGTATAATTGAAACTTACCGAAGGCCCACATTCTTCAC(配列番号2)
であり、-852~-7の間の845塩基を切り詰めた場合に生じる。転写活性の予測値は0.393、この値から線形回帰によって予測されるLUC発現量はPコントロールに対して7.98%であった。また、LUC発現量の実測値はPコントロールに対して3.41%だった。
【0084】
このように、本開示に係る機械学習モデルの予測に基づきプロモーターの塩基配列を編集することで、発現を減少させることができる。
【0085】
実施例5: 活性の上昇したプロモーターの予測と実証
最後に、プロモーター活性を上昇させる方法を考案した。実施例4の場合と同様に、考えられる編集パターンのプロモーターの塩基配列のうち、編集後にプロモーターの強度の予測値が上昇するものを探索した。その結果を図6に示した。プロモーター番号13、17、22、23、24、25について、プロモーター強度が上昇するものを選び、予測される発現量を白色の円で示した。元のプロモーター比して、LUC発現量が7.4~125倍となることが予測された。
【0086】
次に、これらの理論的なプロモーター配列をもつ遺伝子を人工的に合成し、プロトプラストに対し同様にトランスフェクションし発現量をプレートリーダーで測定した。その結果を次の図7に示す。6個のプロモーター中、5個で発現量が元のプロモーターに比して上昇したものの、予測値を超えて発現量が上昇したものは13番のみであった。例えばプロモーター13番の配列は
TCAAGCAATCATTATCGACTACGGTCGTTCGTTAAAGATCATGCATGTGCTTAGTGGCAATACCCTACGCATCTTGATTCGTTACTGCGGCACGTGTCATGACCATGCACATGAATGATGATTAATGTTTAGTACATATAATGTTCACGCAAACGCATAGTGTTAGGAAA(配列番号3)
であり、転写活性の予測値は2.00、この値から線形回帰によって予測されるLUC発現量はPコントロールに比して6.94%であった。また、LUC発現量の実測値はPコントロールに比して6.60%であった。これに対して、プロモーター13番の、編集後の配列は
GAAACTTGAAAATCAAATCAGTGAGTCGCAAGTAAGACTTTGTGGTTGTTGTATCAGATTTCGCCGTGCGCATCTTGATTCGTTACTGCGGCACGTGTCATGACCATGCACATGAATGATGATTAATGTTTAGTACATATAATGTTCACGCAAACGCATAGTGTTAGGAA(配列番号4)
であり、転写活性の予測値は4.18、この値から線形回帰によって予測されるLUC発現量はPコントロールに比して36.7%であった。また、LUC発現量の実測値はPコントロールに比して69.5%だった。
【0087】
このように、本開示に係る機械学習モデルの予測に基づきプロモーターの塩基配列を編集することで、発現を上昇させることができる。
【0088】
実施例6: ゲノム編集によりプロモーターの機能を変化させるためのプログラム
本発明者らは、次のような手順でゲノム編集によりプロモーターの機能を変化させるために用いるプログラムを開発した。
【0089】
1.塩基配列Xを入力する。例えば標的遺伝子の転写開始点周辺の-1995~+5の2000塩基である。
2.塩基配列X中のPAM配列を検索する。(Cas9:NGGまたはCas12a:TTTVの配列)
3.PAM配列を元に、切断位置の一覧を配列に格納する。ここで、Cas9ならばPAM配列の下流4塩基の位置、Cas12aならばPAM配列の下流18塩基の位置がそれぞれ切断位置となる。切断位置は例えば2000塩基の中で50か所程度発見される。
4.n箇所の切断位置のうち、2箇所を指定する組み合わせはnC2通りある。例えば、50か所の切断位置について、1250通りの組み合わせがありえる。nC2通りの組み合わせについて、2か所の切断位置間を切り詰めた(削除した)塩基配列を生成する。
5.生成されたそれぞれの塩基配列について、3’末端側170塩基を取得し、学習モデルに入力する。
6.学習モデルが、与えられた塩基配列のコアプロモーターとしての強さ(転写活性)を出力する。
7.総合すると、次の3種類の情報が得られる。
A.塩基配列Xの転写活性
B.2か所の切断位置の間を切り詰めてできる配列のプロモーター活性がA.と比較して大となる、切断位置の組
C.2か所の切断位置の間を切り詰めてできる配列のプロモーター活性がA.と比較して小となる、切断位置の組
8.例えば標的の遺伝子の発現を増大させる場合、7.B.で得られる切断位置を標的とする、2種類のガイドRNAを同時に細胞に導入して、CRISPR-Cas9または-Cas12aによるゲノム編集を施すことで、2か所の切断サイトの間が欠失した個体が得られると期待される。
【0090】
特に、2種類の異なるガイドRNAを同時に用いるのは、カテゴリーSDN1の範囲内で、小~中規模の欠失を誘導することを意図したものであることに留意されたい。
【0091】
実施例7: プロモーター活性の予測値の可視化
最終的に、実施例6に記載のプログラムからは、2つのガイドRNAの位置と、欠失後の配列の新しいプロモーター活性の予測値の組が得られるが、これは直感的には理解しがたい。そこで、これらをビジュアライズする方法も本発明者らは考案した。
【0092】
ビジュアライズの方法の一つ目として、入力された塩基配列Xの全体像を分析する方法を考案した。縦軸に予測されたプロモーターの強さ、横軸に塩基配列の位置をとった。個々のプロットは、ある位置のDNA配列を170塩基のウィンドウで切り出して転写活性を予測した場合の値を示している。例えば横軸の位置0にある点は、入力された塩基配列Xのうち、5’末端から170塩基を取り出して、転写活性を予測した。その結果、転写活性は1.24であった(この170塩基の塩基配列は遺伝子に接していないため、コアプロモーターとして機能することは考えづらいが、仮にこの170塩基の配列の直下に遺伝子が接続された場合、1.24の強さで転写することを予測したものである)。したがって、点(0, 1.24)の位置に、プロットした。次に、ウィンドウを1塩基スライドし、塩基配列Xのうち2塩基目~171塩基目の塩基配列を取り出して、同様に予測した。その結果、転写活性は1.37と推定された。したがって、点(1, 1.37)の位置にプロットされた。この操作を繰り返し、全1830点がプロットされた(図8)。
【0093】
図8において、右端の点(1829, 1.47)が、遺伝子の直上流の170塩基を評価したものとなる。この値よりも高い値を持つ点と、3’末端との間の配列をゲノム編集により除去することができれば、遺伝子発現が増大するものと期待される。同様に、遺伝子発現を低下させることも可能と考えられる。この図を用いることで、配列Xの全体像を俯瞰するとともに、希望する発現量を得るためには、どの部分にハイブリダイズするガイドRNAを設計するべきかが明らかになる。
【0094】
上記のビジュアライズの方法では、標的配列の全体像を大まかに把握するのに有効である可能性がある。一方で、プロモーターの強さと設計すべき2箇所のガイドRNAの位置関係は示されていない。この点を克服するため、別の方法によるビジュアライズを考案した。次に示す図9は、別の方法でビジュアライズしたものである。
【0095】
標的の遺伝子から近い位置に設計されたガイドRNAを近位ガイド、遠い位置に設計されたガイドRNAを遠位ガイドと呼ぶ。設計可能なガイドRNAの位置(PAM配列の位置)に基づいてビジュアライズを行った。ただし遺伝子の直上流から1000塩基の範囲のみを示している。
【0096】
横軸に遠位ガイドのハイブリダイズする塩基の、配列X中の位置を示した。つまり、遺伝子の転写開始点と遠位ガイドの距離を示している。縦軸に、同様に近位ガイドと遺伝子の転写開始点の距離をとった。ここで、近位ガイドは遠位ガイドよりも遠くに設計されることはないため、図9のプロットの半分は隠れている。直線y=x上の点では、近位ガイドと遠位ガイドがともに遺伝子からほぼ同じ距離に位置しており、互いに接近していることを示している。この場合欠失する塩基は小さくなるため、最小限の編集となり、望ましい。近位ガイド-遠位ガイド間の配列を削除した場合にできる新しい配列の3’末端から170塩基を取り出し、転写活性を予測した。予測された値に基づいて、プロットの色を変更している。カラーチャートで、明るい灰色は転写活性が高いと予測されたもの、黒色は低いと予測されたものを示す。
【0097】
例えば、点(849, 17)のプロットを例に説明する。この点の遠位ガイドの位置は遺伝子から849塩基の距離である。また、近位ガイドの位置は遺伝子から17塩基の位置である。塩基配列Xの中から、この2点間の832塩基を削除した塩基配列X’を作成する。塩基配列X'の3’末端から170塩基を取り出し、転写活性を予測したところ、4.02であった。カラーチャートに従い、明るい灰色のプロットを打った。以上の操作を全ての遠位ガイドと近位ガイドの組み合わせについて行うことで、作図した。
【0098】
この遺伝子の発現量を増大することを希望する場合、元の転写活性2.34よりも大きい点を選び、それらの遠位および近位ガイドの位置から、設計すべきガイドRNAの位置を読み取ればよい。例えば、点(849, 17)または点(841, 29)を選択した場合、高い転写活性が期待される。また、点(432, 110)または点(271, 77)を選択した場合、低い転写活性が期待される。このようにビジュアライズすることで目標とするプロモーターの構造を実現するガイドRNAの設計が簡便になる可能性がある。
【0099】
このようにしてガイドRNAの標的配列の位置を取得したのちに、その位置の塩基配列を取得し、20塩基または23塩基を取得してガイドRNAを設計した。このガイドRNAの配列をCRISPOR等のツールにより評価・検証し、特異性の高さやオフターゲット等を評価する。適当なガイドRNAの設計に成功した場合、人工DNA合成とPCR法を応用してガイドRNAを搭載したベクターを作成した。これ以降は、定法に従いゲノム編集を実施することができる。
【0100】
実施例8:ダイズ遺伝子プロモーターの例
機械学習モデルの教師データはシロイヌナズナ、ソルガムおよびトウモロコシのプロモーター配列を用いたものであった。ゆえに、これら3種以外の生物のプロモーター配列に対しても本発明に係る予測システムが期待通り機能するかどうかは不明であった。そこで特定のダイズ遺伝子について、転写活性を高める検討を行った。その結果を図10に示した。
【0101】
ダイズのある遺伝子のコアプロモーターの170塩基の配列の転写活性を予測したところ、0.927494と予測された。この値を基にLUC発現量を予測すると、ポジティブコントロールの1.26%であった。このプロモーター配列を人工的に合成し、シロイヌナズナの葉から単離したプロトプラストに導入し、LUCアッセイを行った。その結果、4.15%であった。
【0102】
このプロモーターを基に、遺伝子の発現を上昇させるためのゲノム編集後のプロモーター配列を2種類作成した。それぞれedit1、edit2とする。edit1の転写活性は2.950119と予測された。また、LUC発現量は13.2%と予測された。このプロモーターのLUCアッセイの実測値は19.0%であった。
【0103】
edit2の転写活性は2.432977と予測された。また、LUC発現量は7.27%と予測された。このプロモーターのLUCアッセイの実測値は41.6%であった。
【符号の説明】
【0104】
010・・・情報処理装置
011・・・配列入力部
012・・・改変配列生成部
013・・・活性予測部
014・・・配列選択部
100・・・コンピューター
101・・・制御部
102・・・記憶部
103・・・周辺機器I/F部
104・・・入力部
105・・・表示部
106・・・通信部
110・・・バス
120・・・ネットワーク
130・・・外部サーバー
140・・・データベース
【要約】
【課題】 本開示は、所望の転写活性を有するように改変されたプロモーター配列の取得方法を提供することを目的とする。
【解決手段】 所望の転写活性を有するように改変されたプロモーター配列の取得方法であって、改変の対象となる元のプロモーター配列を用意すること、前記プロモーター配列に基づきゲノム編集技術により作成可能な複数の改変プロモーター配列のセットを生成すること、生成された前記改変プロモーター配列のセットに含まれる個々の改変プロモーター配列の転写活性を機械学習モデルによって予測すること、ならびに所望の活転写性を有すると予測された改変プロモーター配列を選択することを含む、方法が提供される。
【選択図】 図2
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
【配列表】
0007551189000001.xml