(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-26
(45)【発行日】2023-05-09
(54)【発明の名称】機能性配列選択方法及び機能性配列選択システム
(51)【国際特許分類】
C12Q 1/68 20180101AFI20230427BHJP
C12M 1/00 20060101ALI20230427BHJP
C12N 15/09 20060101ALI20230427BHJP
G06F 16/245 20190101ALI20230427BHJP
【FI】
C12Q1/68
C12M1/00 A
C12N15/09 Z
G06F16/245
(21)【出願番号】P 2019055527
(22)【出願日】2019-03-22
【審査請求日】2021-12-23
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、国立研究開発法人新エネルギー・産業技術総合開発機構、「植物等の生物を用いた高機能品生産技術の開発/高生産性微生物創製に資する情報解析システムの開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(73)【特許権者】
【識別番号】504150450
【氏名又は名称】国立大学法人神戸大学
(73)【特許権者】
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】田邉 麻衣子
(72)【発明者】
【氏名】武田 志津
(72)【発明者】
【氏名】伊藤 潔人
(72)【発明者】
【氏名】今一 修
(72)【発明者】
【氏名】柘植 謙爾
(72)【発明者】
【氏名】荒木 通啓
【審査官】田ノ上 拓自
(56)【参考文献】
【文献】ACS Synth. Biol. 2017年,Vol.6,p.2362-2365,DOI: 10.1021/acssynbio.7b00236
【文献】frontiers in BIOENGINEERING AND BIOTECHNOLOGY, 2014年,Vol.2,Article60 (p.1-23),doi: 10.3389/fbioe.2014.00060
【文献】SCIENCE, 2016年,VOL.352, ISSUE6281,aac7341 (p.1-11),http://dx.doi.org/10.1126/science.aac7341
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00-3/00
C12M 1/00-3/10
C12N 15/00-15/90
G06F 16/245
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または前記遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択方法であって、
前記目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列をクェリとして入力するための入力装置と、
機能性配列を選択するための選択装置と、
選択した機能性配列を出力するための出力装置と、
を備えた機能性配列選択システムにおいて、
前記入力装置が前記クェリを入力し、
前記選択装置において、
相同性配列検索手段が、前記データベースにおいて、前記目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索し、
第1の配列リスト記憶手段が、検索して得られた塩基配列を第1の配列リストとして記憶し、
機能性配列抽出手段が、第1の配列リストから、塩基配列全体がゲノム由来である塩基配列を除去して、塩基配列全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記データ内の前記遺伝子情報に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出し、
第2の配列リスト記憶手段が、第1の機能性配列及び第2の機能性配列を含む第2の配列リストを記憶し、
スコアリング手段が、第2の配列リストに対し、
出現頻度を基準として、または各機能性配列が由来する前記データ内の前記遺伝子情報に出現する特定のキーワードの頻度を基準として、スコアリングを行い、
機能性配列選択手段が、前記スコアリングの結果の上位の機能性配列を選択し、
機能性配列記憶手段が、選択された前記上位の機能性配列を記憶し、
前記出力装置が、選択された前記上位の機能性配列を出力
し、
前記機能性配列は、プロモーター配列、ターミネーター配列、及び終止コドンを含む、
機能性配列選択方法。
【請求項2】
前記遺伝子情報に、ゲノム由来である塩基配列を示すキーワードがあるかどうか検索することによって、全体がゲノム由来である塩基配列以外の塩基配列が抽出される、請求項1に記載の機能性配列選択方法。
【請求項3】
(1)の場合において、機能性配列ライブラリーまたは前記遺伝子情報を用いて、上流または下流に存在する該塩基配列が機能性配列かどうか解析される、
請求項1または2に記載の機能性配列選択方法。
【請求項4】
第2の配列リストに対し、スコアリングを行うまえに、
第2の配列リストから、前記目的遺伝子が天然に有する機能性配列を除外する工程を有する
、請求項1~3のいずれか1項に記載の機能性配列選択方法。
【請求項5】
遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または前記遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択システムであって、
前記目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列をクェリとして入力するための入力装置と、
機能性配列を選択するための選択装置と、
選択した機能性配列を出力するための出力装置と、
を備え、前記選択装置は、
前記データベースにおいて、前記目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索するための相同性配列検索手段と、
検索して得られた塩基配列を第1の配列リストとして格納するための第1の配列リスト記憶手段と、
第1の配列リストから、塩基配列全体がゲノム由来である塩基配列を除去して、塩基配列全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記データ内の前記遺伝子情報に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出するための機能性配列抽出手段と、
第1の機能性配列及び第2の機能性配列を含む第2の配列リストを格納するための第2の配列リスト記憶手段と、
第2の配列リストに対し、
出現頻度を基準として、または各機能性配列が由来する前記データ内の前記遺伝子情報に出現する特定のキーワードの頻度を基準として、スコアリングを行うためのスコアリング手段と、
前記スコアリングの結果の上位の機能性配列を選択するための機能性配列選択手段と、
選択された前記上位の機能性配列を格納するための機能性配列記憶手段と、
を備
え、
前記機能性配列は、プロモーター配列、ターミネーター配列、及び終止コドンを含む、
機能性配列選択システム。
【請求項6】
前記遺伝子情報に、ゲノム由来である塩基配列を示すキーワードがあるかどうか検索することによって、全体がゲノム由来である塩基配列以外の塩基配列が抽出される、
請求項5に記載の機能性配列選択システム。
【請求項7】
(1)の場合において、機能性配列ライブラリーまたは前記遺伝子情報を用いて、上流または下流に存在する該塩基配列が機能性配列かどうか解析される、
請求項5または6に記載の機能性配列選択システム。
【請求項8】
第2の配列リストに対し、スコアリングを行う前に、
第2の配列リストから、前記目的遺伝子が天然に有する機能性配列が除外される、
請求項5~7のいずれか1項に記載の機能性配列選択システム。
【請求項9】
遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または前記遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択方法であって、
前記データベースにおいて、前記目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索する工程と、
検索して得られた塩基配列またはアミノ酸配列をコードする塩基配列のうち、全体がゲノム由来である塩基配列を除去して、全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記遺伝子情報の記載に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出する工程と、
第1の機能性配列および第2の機能性配列から第2の配列リストを作成する工程と、
第2の配列リストに対し、
出現頻度を基準として、または各機能性配列が由来する前記データ内の前記遺伝子情報に出現する特定のキーワードの頻度を基準として、スコアリングを行う工程と、
前記スコアリングの結果の上位の機能性配列を選択する工程と、
を含
み、
前記機能性配列は、プロモーター配列、ターミネーター配列、及び終止コドンを含む、
機能性配列選択方法。
【請求項10】
前記遺伝子情報に、ゲノム由来である塩基配列を示すキーワードがあるかどうか検索することによって、全体がゲノム由来である塩基配列以外の塩基配列が抽出される、請求項9に記載の機能性配列選択方法。
【請求項11】
(1)の場合において、機能性配列ライブラリーまたは前記遺伝子情報を用いて、上流または下流に存在する該塩基配列が機能性配列かどうか解析される、請求項9または10に記載の機能性配列選択方法。
【請求項12】
第2の配列リストに対し、スコアリングを行うまえに、
第2の配列リストから、前記目的遺伝子が天然に有する機能性配列を除外する工程を有する、請求項9~11のいずれか1項に記載の機能性配列選択方法。
【請求項13】
請求項1~4または9~12のいずれか1項に記載の機能性配列選択方法を前記機能性配列選択システムに実行させるためのプログラム。
【請求項14】
請求項13のプログラムを格納したコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機能性配列選択方法及び機能性配列選択システムに関する。
【背景技術】
【0002】
細胞に遺伝子を導入し、細胞内で発現させるために必要な機能性配列であるプロモーターやターミネーター配列は、導入する遺伝子配列や細胞の由来である生物種により異なっているため、最適な配列を選択するためには試行錯誤が必要となる。このような課題を解決するために、遺伝子設計、特に至適機能性配列選択を行なうことが容易となる遺伝子配列設計ツールが必要とされており、現在複数開発されている。
【0003】
例えば、目的の遺伝子名を検索すると、米国のNCBI( National Center For Biotechnology Information)とiGEM(The International Genetically Engineered Machine competition)のデータベースの情報のうち、登録されている文献及びプロモーター、ターミネーター配列を抽出することができるツールが開発されている(特許文献1参照)。このツールでは、ユーザーは、抽出した情報の中から、目的に近い文献を自身で選択することで、その文献で取り扱われたプロモーターとターミネーター配列を抽出することができる。このツールにより、登録文献から、導入遺伝子配列に適する機能性配列情報を得ることができるが、該当配列を選択するためには研究者が文献を解読し判断することが必要となる。また、目的に則した機能性配列を自動で選択できるツールも開発されている(特許文献2参照)。
【先行技術文献】
【非特許文献】
【0004】
【文献】Bates M et al., ACS Synth Biol., 6,12. (2017)
【文献】Nealsen A A K et al., Science,352, 6281.(2016)
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、新規な機能性配列選択方法及び機能性配列選択システムを提供することである。
【課題を解決するための手段】
【0006】
本発明は以下の態様を包含する。
【0007】
本発明の一実施態様は、遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または前記遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択方法であって、前記目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列をクェリとして入力するための入力装置と、機能性配列を選択するための選択装置と、選択した機能性配列を出力するための出力装置と、を備えた機能性配列選択システムにおいて、前記入力装置が前記クェリを入力し、前記選択装置において、相同性配列検索手段が、前記データベースにおいて、前記目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索し、第1の配列リスト記憶手段が、検索して得られた塩基配列を第1の配列リストとして記憶し、機能性配列抽出手段が、第1の配列リストから、塩基配列全体がゲノム由来である塩基配列を除去して、塩基配列全体がゲノム由来である塩基
配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記データ内の前記遺伝子情報に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出し、
第2の配列リスト記憶手段が、第1の機能性配列及び第2の機能性配列を含む第2の配列リストを記憶し、スコアリング手段が、第2の配列リストに対し、スコアリングを行い、機能性配列選択手段が、前記スコアリングの結果の上位の機能性配列を選択し、機能性配列記憶手段が、選択された前記上位の機能性配列を記憶し、前記出力装置が、選択された前記上位の機能性配列を出力する、機能性配列選択方法である。前記遺伝子情報に、ゲノム由来である塩基配列を示すキーワードがあるかどうか検索することによって、全体がゲノム由来である塩基配列以外の塩基配列が抽出されてもよい。前記機能性配列は、プロモーター配列、ターミネーター配列、及び終止コドンを含んでもよい。(1)の場合において、機能性配列ライブラリーまたは前記遺伝子情報を用いて、上流または下流に存在する該塩基配列が機能性配列かどうか解析されてもよい。第1の機能性配列及び第2の機能性配列に対し、出現頻度を基準として、または各機能性配列が由来する前記データ内の前記遺伝子情報に出現する特定のキーワードの頻度を基準としてスコアリングが行われてもよい。第1の機能性配列及び第2の機能性配列に対し、スコアリングを行うまえに、第1の機能性配列及び第2の機能性配列から、前記目的遺伝子が天然に有する機能性配列を除外する工程を有してもよい。
【0008】
本発明の他の実施態様は、遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または前記遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択システムであって、前記目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列をクェリとして入力するための入力装置と、機能性配列を選択するための選択装置と、選択した機能性配列を出力するための出力装置と、を備え、前記選択装置は、前記データベースにおいて、前記目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索するための相同性配列検索手段と、検索して得られた塩基配列を第1の配列リストとして格納するための第1の配列リスト記憶手段と、第1の配列リストから、塩基配列全体がゲノム由来である塩基配列を除去して、塩基配列全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記データ内の前記遺伝子情報に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出するための機能性配列抽出手段と、
第1の機能性配列及び第2の機能性配列を含む第2の配列リストを格納するための第2の配列リスト記憶手段と、第2の配列リストに対し、スコアリングを行うためのスコアリング手段と、前記スコアリングの結果の上位の機能性配列を選択するための機能性配列選択手段と、選択された前記上位の機能性配列を格納するための機能性配列記憶手段と、を備
える機能性配列選択システムである。前記遺伝子情報に、ゲノム由来である塩基配列を示すキーワードがあるかどうか検索することによって、全体がゲノム由来である塩基配列以外の塩基配列が抽出されてもよい。前記機能性配列は、プロモーター配列、ターミネーター配列、及び終止コドンを含んでもよい。(1)の場合において、機能性配列ライブラリーまたは前記遺伝子情報を用いて、上流または下流に存在する該塩基配列が機能性配列かどうか解析されてもよい。第1の機能性配列及び第2の機能性配列に対し、出現頻度を基準として、または各機能性配列が由来する前記遺伝子情報に出現する特定のキーワードの頻度を基準としてスコアリングが行われてもよい。第1の機能性配列及び第2の機能性配列に対し、スコアリングを行う前に、第1の機能性配列及び第2の機能性配列から、前記目的遺伝子が天然に有する機能性配列が除外されてもよい。
【0009】
本発明のさらなる実施態様は、遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または前記遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択方法であって、前記データベースにおいて、前記目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索する工程と、検索して得られた塩基配列またはアミノ酸配列をコードする塩基配列のうち、全体がゲノム由来である塩基配列を除去して、全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記遺伝子情報の記載に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出する工程と、第1の機能性配列及び第2の機能性配列に対し、スコアリングを行う工程と、前記スコアリングの結果の上位の機能性配列を選択する工程と、を含む機能性配列選択方法である。
【0010】
本発明のさらなる実施態様は、上記いずれかの機能性配列選択方法を前記機能性配列選択システムに実行させるためのプログラムである。また、本発明のさらなる実施態様は、このプログラムを格納したコンピュータ可読記憶媒体である。
【発明の効果】
【0011】
本発明によれば、新規な機能性配列選択方法及び機能性配列選択システムを提供することができるようになった。
【図面の簡単な説明】
【0012】
【
図1】本発明の一実施形態にかかる機能性配列選択方法における各工程の概略図である。
【
図2】本発明の一実施形態にかかる機能性配列選択方法において、第3工程から第5工程を詳細に示すフローチャートである。
【
図3】本発明の一実施形態にかかる遺伝子配列設計システムの模式図である。
【
図4】本発明の一実施形態における検索インタフェースの模式図である。
【
図5】本発明の一実施形態における第1工程から第4-2工程までのフローチャーである。
【
図6】本発明の一実施形態における第4-2工程から第5工程までのフローチャートである。
【
図7】本発明の一実施形態における第4-2工程において、検索配列の上流及び下流に塩基配列が存在しないデータの相同性検索結果の一例である。
【
図8A】本発明の一実施形態において、
図7に示す特許文献からの機能性配列領域の抽出方法を示す図である。
【
図8B】本発明の一実施形態で用いることのできる機能性配列ライブラリーの一例である。
【
図9】本発明の一実施形態における第5工程から第7工程までのフローチャートである。
【
図10】本発明の一実施形態における出力結果表示インタフェースを示す模式図である。
【
図11A】本発明の一実施形態における出力結果インタフェースのプロモーター配列のポップアップ画面を示す。
【
図11B】本発明の一実施形態における出力結果インタフェースのプロモーター配列のポップアップ全件表示画面を示す。
【
図12A】本発明の一実施形態における出力結果インタフェースのターミネーター配列のポップアップ画面を示す。
【
図12B】本発明の一実施形態における出力結果インタフェースのターミネーター配列のポップアップ全件表示画面を示す。
【
図13】本発明の一実施形態における出力結果インタフェースのプロモーター・ターミネーターペア配列のポップアップ画面を示す。
【
図14】本発明の一実施形態における出力結果インタフェースのクェリの遺伝子塩基配列のポップアップ画面を示す。
【
図15】本発明の一実施形態において、
図10で示す出力結果インタフェースのダウンロード表示結果を示す。
【発明を実施するための形態】
【0013】
本発明の目的、特徴、利点、およびそのアイデアは、本明細書の記載により、当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を再現できる。以下に記載された発明の実施の形態および具体的な実施例などは、本発明の好ましい実施態様を示すものであり、例示または説明のために示されているのであって、本発明をそれらに限定するものではない。本明細書で開示されている本発明の意図並びに範囲内で、本明細書の記載に基づき、様々な改変並びに修飾ができることは、当業者にとって明らかである。
【0014】
==機能性配列選択方法==
本発明の一実施形態にかかる機能性配列選択方法を用いる。すなわち、遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択方法であって、データベースにおいて、目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索する工程と、検索して得られた塩基配列またはアミノ酸配列をコードする塩基配列のうち、全体がゲノム由来である塩基配列を除去して、全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記遺伝子情報の記載に、
機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出する工程と、第1の機能性配列及び第2の機能性配列に対し、スコアリングを行う工程と、スコアリングの結果の上位の機能性配列を選択する工程と、を含む機能性配列選択方法である。
【0015】
本発明の機能性配列選択方法は、後述する機能性配列選択システムにおいて実行される。すなわち、遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または前記遺伝子の遺伝子情報を含むデータを含むデータベースを用いた、目的遺伝子を細胞で発現させるための組換え遺伝子を作製するための機能性配列選択方法であって、前記目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列をクェリとして入力するための入力装置と、機能性配列を選択するための選択装置と、選択した機能性配列を出力するための出力装置と、を備えた機能性配列選択システムにおいて、入力装置がクェリを入力し、選択装置において、相同性配列検索手段が、データベースにおいて、目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、当該塩基配列または当該アミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索し、第1の配列リスト記憶手段が、検索して得られた塩基配列を第1の配列リストとして記憶し、機能性配列抽出手段が、第1の配列リストから、塩基配列全体がゲノム由来である塩基配列を除去して、塩基配列全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の上流かつ下流に塩基配列が存在しない場合、前記データ内の前記遺伝子情報に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出し、
第2の配列リスト記憶手段が、第1の機能性配列及び第2の機能性配列を含む第2の配列リストを記憶し、スコアリング手段が、第2の配列リストに対し、スコアリングを行い、機能性配列選択手段が、スコアリングの結果の上位の機能性配列を選択し、機能性配列記憶手段が、選択された上位の機能性配列を記憶し、出力装置が、選択された前記上位の機能性配列を出力する、機能性配列選択方法である。
【0016】
以下、本方法について、詳細に説明する。
【0017】
本実施形態にかかる方法は
図1に示す第1~7で構成される工程からなる。以下、各工程
について詳細に説明する。
【0018】
(第1工程)
第1工程であるクェリ入力工程1は、細胞に導入したい目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列をクェリとして入力し、同方法を開始する工程である。すなわち、クェリは、以下の(1)もしくは(2)からなる配列、または(1)もしくは(2)を含む配列である。
(1)目的遺伝子のコーディング領域の塩基配列またはその一部
(2)目的遺伝子がコードするアミノ酸配列またはその一部
配列が登録されている名前を用いる場合は、例えば遺伝子名から遺伝子配列を出力する前処理を行なった後に、その配列をクェリとして入力すればよい。クェリとして入力する配列数は複数でもよいが、その場合は複数の配列をそれぞれ識別した状態で入力することが好ましい。
【0019】
また、クェリに付随して、
図1に示す第2工程(相同性検索工程2)、第4工程(検索
結果解析工程4)、第6工程(スコアリング実行工程6)、第7工程(機能性配列領域出力工程7)における各種条件を入力してもよい。
【0020】
(第2工程)
第2工程である相同性検索工程2は、第1工程でクェリとして入力した目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列を検索配列として、当該検索配列と相同性の高い塩基配列またはアミノ酸配列を検索する工程である。このような遺伝子の塩基配列またはアミノ酸配列の相同性検索は、遺伝子もしくはその一部の配列、遺伝子がコードするアミノ酸の配列もしくはその一部の配列、および/または遺伝子情報を含む生物情報データベースに対して実行する。このようなデータベースとして、研究者により頻繁に用いられるものとしては、NCBIのEntrez (http://www.ncbi.nlm.nih.gov/entrez/)や日本の国立遺伝学研究所(DDBJ:https://www.ddbj.nig.ac.jp/index.html)、ヨーロッパ分子生物学研究所(EMBL: European Molecular Biology Laboratory)の中の EBI(European Bioinformatics Institute)、NCBIが提供するLocusLink (http://www.Ncbi.nlm.nih.gov/LocusLink/)、タンパク質情報中心のSWISS-PROT (http://kr.Expasy.org/sprot/) 等が良く知られている。どのデータベースを
用いるかは、あらかじめ決められていても良いし、第1工程のクェリに付随して入力してもよい。
【0021】
データベースを用いて相同性検索を行なう方法としては、例えば塩基配列あるいはアミノ酸配列の相同性を調べるツールであるBLAST(Basic Local Alignment Search Tool)やSSEARCH(http://www.biology.wustl.edu/gcg/ssearch.html)などが知られており、同ツールを用いてクェリと相同性の高い遺伝子配列情報を抽出してもよい。このとき、相同性判定基準を、第1工程のクェリに付随して入力してもよい。相同性判定基準に関しては、例えばBLASTなどではe-value値を設定することができる。
【0022】
ここで、遺伝子情報とは、遺伝子の特徴の記載であって、例えば、データベースに登録されているデータ名やデータID、データが記載されている文献情報(例えば、文献発行年月日、文献要旨、著者、文献内に含まれる塩基配列やアミノ酸配列とそれらの由来、などの一部または全部)、などを含む。
【0023】
(第3工程)
第3工程である第一配列リスト記憶工程3は、第2工程で検索した相同性の高い配列情報からリストを作成し、記憶する工程である。ここでリスト化する情報としては、検索より得られた高い相同性を持つ塩基配列もしくはアミノ酸配列またはアミノ酸配列をコードする塩基配列だけでなく、塩基配列上やアミノ酸配列上で検索配列と相同性の高い領域の位置情報の他、データベースに登録されているデータ名やデータID、データが記載されている文献情報などが挙げられる。検索配列と相同性の高い領域の位置情報とは、例えば、登録されている塩基配列の5’末端からの塩基数などが挙げられるが、その限りではない。
【0024】
(第4工程)
第4工程である検索結果解析工程4は、第3工程でリスト化された塩基配列及び情報を、天然配列とその他の配列へ分類し(第4-1工程)、機能性配列領域を抽出・解析した
後に(第4-2工程)、天然配列と人工配列に再分類する(第4-3工程)工程である。
本工程のフローチャートを
図2に示し、以下説明する。
【0025】
第4-1工程:天然配列と人工配列の分類
本工程では、第3工程にて得られた第一配列リスト10のデータを、天然配列分類工程
11により、天然配列と人工配列の候補であるその他の配列に分類する。ここで言う天然配列とは、全体がゲノム由来である、すなわち生物のゲノム上に存在する配列のみが含まれる塩基配列を意味し、人工配列とは、全体がゲノム由来である配列以外の配列、すなわち天然には存在しない配列が含まれる塩基配列のことを示す。このような分類には、天然配列の場合、例えば、相同性検索を行なう際にヒットしたデータに含まれる遺伝子情報に、天然に存在する配列であることを示すキーワードを含むものを使用することができる。このキーワードとして、例えば「complete genome」や「genome」または「chromosome」
などが該当するが、その限りではない。また、その他の配列は上記キーワードを含まないデータが挙げられる。そのため、分類としては、天然配列以外のデータをその他の配列として分けることが可能である。また、人工配列は、天然配列以外の配列としたり、データ情報に人工的に設計した配列であることを示すキーワードを含むものとしたりして、分類することができる。このキーワードとして、例えば「synthesis」や「mutant」やその類
義語などが上げられるが、その限りではない。第一配列リスト10から天然配列分類工程11により天然配列とその他の配列として分類した後に、第4-2工程で機能性配列領域を抽出し、解析することが望ましいが、工程の順序はこの限りではない。
【0026】
第4-2工程:機能性配列領域の抽出・解析
機能性配列領域の抽出・解析は、第4-1工程で分類されたその他の配列リスト13において、遺伝子が生物内で機能するために必要な機能性配列を含む領域を抽出し、機能性配列を解析する工程である。このような機能性配列としては、プロモーター配列、ターミネーター配列、終止コドンなどが挙げられるが、それらに限定されない。ここで、プロモーター配列とは、存在する転写開始点の上流、たとえば転写開始点から上流約300bpまで、100bpまで、あるいは60bpまでに存在し、転写の開始に必要な塩基配列のことであって、RNAポリメーラーゼ等の基本転写因子の結合に寄与する領域の配列を意味
する。
【0027】
具体的な機能性配列領域の解析方法は、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同領域の下流に塩基配列が存在するかどうかを確認するが(機能性配列領域抽出工程14)、その結果によって解析方法が異なる。
【0028】
検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同性領域の上流または下流に塩基配列が存在する場合は、
図2の機能性配列領域抽出・解析工程15に示すように、コーディング配列の端から一定塩基長を抽出した後に、同抽出領域内に機能性配列が存在するかを解析する。ここで、上流及び下流とは、それぞれクェリの配列の相同性領域と隣接した、または離れた上流側及び下流側を意味し、上流は、クェリの配列の相同性領域より上流でもよく、開始コドンの上流でもよく、転写開始点から上流でもよい。また、下流は、クェリの配列との相同性領域より下流でもよく、終始コドンを含んで、そこから下流でもよく、終始コドンの下流でもよい。また一定塩基長とは3塩基以上10000塩基以下であればよく、好ましくは10塩基以上500塩基以下であり、より好ましくは、20塩基以上200塩基以下である。この抽出塩基長は、上流と下流で、独立して選択することができる。このように抽出した配列において、通常上流配列にプロモーター配列が、下流配列にターミネーター配列及び/又は終止コドンが含まれている。これらの配列を解析する方法としては、プロモーター配列やターミネーター配列の機能性配列データベース、コマーシャルに用いられている配列を検索する方法(
図2において機能性配列領域抽出・解析工程15中DBと記載)、機能性配列推測プログラムを用いてプロモーター、ターミネーター配列を推測する方法(
図2において機能性配列領域抽出・解析工程15中推定ツールと記載)、抽出配列中に他の遺伝子コード配列が存在するかを確認し、該当領域以外の配列を機能性配列と設定する方法(機能性配列領域抽出・解析工程15中その他と記載)がある。DBにより同定する方法において用いるデータベースとしては、例えばRegulon DBやiGEMなどが知られている他、コマーシャルに用いられている配列としては
AddgeneやGene Scan、TaKaRaバイオ、Thermo Scientific、Invitrogen等で取り扱ってい
る製品の配列情報を確認することができる。この場合は、各データベースやコマーシャル情報のライブラリーである機能性配列ライブラリーを作製し、一致する、または類似する配列を同定することができる。また、推測ツールにより同定する方法としては、機械学習手法を用いた推測方法等を用いることができる。このような方法としては、CNNpromoter(http://www.softberry.com/berry.phtml?topic=index&group=programs&subgroup=deeplearn)や、Findtermtopic=index&group=programs&subgroup=deeplearn)や、Findterm(http://www.softberry.com/berry.phtml?topic=findterm&group=programs&subgroup=gfindb)などが知られており、同技術、または同技術を修飾したプログラムにて推測することが可能となる。さらにその他の方法として、抽出配列中に他の遺伝子配列が含まれているかを調べる方法としては、抽出配列をクェリとしてBLASTやSSEARCHにて検索する方法がある。同検索により遺伝子配列をコードしている領域を同定し、同領域以外の配列を機能性配列領域として抽出することができる。また、遺伝子情報に記載があれば、その情報を用いてもよく、文献から、テキストマイニング技術を用いて機能性配列を抽出してもよい。テキストマイニング技術については、後述する。
【0029】
検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同性領域の上流および下流の配列が存在しない場合、
図2の機能性配列領域解析工程16に示すように、文献からテキストマイニング技術を用いて機能性配列を抽出する方法を用いる。例えば、特許文献内に相同性の高い遺伝子配列が登録されていた場合は、遺伝子情報には、該当する特許文献情報と、同文献内で登録されている遺伝子配列のID情報が記載されている。そこで、特許本文中の同配列IDが記載されている文章、及び段落内に、関連するキーワードが存在するかを確認し、同キーワードを抽出することでプロモーターまたはターミネーター配列情報を得ることができる。このようなキーワードとしては、「promoter」、「terminator」などがあり、同単語と同一文章中の塩基配列を抽出することができる。また、上記以外にも、プロモーター名、ターミネーター名、ベクター名やプラスミド名が記載されている場合もある。このような場合は、機能性配列領域抽出・解析工程15のDBでの検索と同様に、データベースやコマーシャルの製品情報を基に、上記の名前と塩基配列情報が格納された機能性配列ライブラリーを作製することで、配列情報を抽出することが可能となる。
本工程において、機能性配列として終止コドンも検索することが好ましい。終止コドンは、機能性配列領域抽出・解析工程15及び機能性配列領域解析工程16のいずれにおいても、抽出した下流の塩基配列の5’末端の3塩基において、終止コドンとして登録されているDNA配列(TAA、TAG、TGA)を検索し、これらのいずれかが存在する場合に第6工程にて出力することができる。この際、もし上記3種類の配列が存在しない場合は、終止コドンを出力として提示しないか、もしくはTAAを付与して提示してもよい。
【0030】
機能性配列のうち、開始コドンは概ねクェリとして入力した塩基配列の5’末端に3塩基存在している。そのため、クェリの5’末端の3塩基が後述する開始コドンから始まっているかを確認し、開始コドンがあれば、それを選択する。開始コドンをコードする塩基配列としては、真核生物では原則的にATGであるが、原核生物ではATG以外にGTG、TTGが知られている。
【0031】
第4-3工程:天然配列と人工配列の再分類
検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同性領域の上流または下流の配列が存在する場合と上流および下流の配列が存在しない場合とで、それぞれ抽出された機能性配列を合わせて、データベースを作成する。
【0032】
このデータベースに対し、オプションとして、第4-2工程で抽出・解析された機能性
配列領域及びそれらの情報は、その他の配列に分類された機能性配列領域が天然配列に分類されたものと同じ配列を持つ場合は天然配列として天然配列リスト18へ再分類し(再分類工程17)、該当しないその他の配列を人工配列リスト19へ分類してもよいが、再分類することなく、第二配列リスト20としてもよい。
【0033】
(第5工程)
第5工程である第二配列リスト記憶工程5は、
図2に示すように、第4工程で得られた人工配列リスト19に分類された機能性配列領域情報から第二配列リスト20を作成し、記憶する工程である。このとき、配列に付随して、第一配列リストから紐付く各データの情報や、機能性配列の抽出及び解析方法をリストに入れてもよい。特に機能性配列解析において、DBによる同定を行なった際には、由来となったDB名や配列名も情報としてリスト化されることが好ましい。
【0034】
(第6工程)
第6工程であるスコアリング実行工程6は、第5工程で得られる第二配列リストにおいて、所望の観点よりスコアリングを実行する工程である。所望の観点とは、例えば頻度が挙げられる。この場合は、第二配列リスト20において登録されている数をスコアとして用い、最も数が多いものをスコア上位としてプロモーター配列、ターミネーター配列、または配列ペアを提示する。別の所望の観点としては、機能性配列へ求める機能が挙げられる。例えば、ある物質合成を生物へ付与するための遺伝子に必要な機能性配列情報を調べる場合、1、遺伝子を導入する生物種、2、目的とする物質合成の実績の有無、3、導入遺伝子の生物内の量(発現量)、などの機能が関連する。このような場合は、1、2、3、に関連するキーワードを第1工程においてクェリに付随させ、第4工程でこれらのキーワードが該当情報中にどの程度存在するかをカウントし、得られたカウント数をスコアとして上位から提示してもよい。ここでクェリとするキーワードとしては、上記1、2、3に該当するもの以外でもよい。またキーワードを検索する該当情報としては、例えばデータ名や文献などが挙げられるが、それらに限定されない。
【0035】
(第7工程)
第7工程である機能性配列領域出力工程7は、第6工程で実施するスコアリングを基に、上位となった機能性配列領域を選択し、出力する工程を示す。機能性配列領域は、リストとして出力されてもよい。ここで選択される塩基配列は、プロモーター配列または領域、クェリとした遺伝子配列(開始コドンを含む)、終止コドン、ターミネーター配列または領域から選択される1つ以上の機能性配列が選択されることが望ましい。ここで言うプロモーター配列領域は、プロモーター配列と開始コドンの間、もしくはプロモーター配列より上流に、更なる配列が付与されている領域を示す。更なる配列があらかじめ決められている場合は、出力の際にプロモーター配列の前後に付与する設定とすることもできる。このような条件は、第1工程のクェリに付随して入力しておくことができる。例えば、真核生物では、プロモーター配列と開始コドンの間にKozak配列やTATAbox配列を付与することができ、原核生物にもコンセンサス配列が存在することが知られており、生物種に応じて適宜必要配列を付与してもよい。ターミネーター配列領域も、プロモーター配列領域と同様に、ターミネーター配列の前後に更なる配列が付与されてもよく、更なる配列があらかじめ決められている場合は、出力の際にターミネーター配列の前後に付与してもよい。
【0036】
==発現ベクター設計方法==
機能性配列選択方法で選択された機能性配列を、目的遺伝子の前後に結合し、発現ベクターのエンハンサーの下流の適正の位置に挿入する。それによって、目的遺伝子の発現レベルの高い発現ベクターを作製することができる。
【0037】
このように、発現ベクターを作製するにあたって、本開示の機能性配列選択方法によっ
て、データベースから配列情報抽出を行なうことで、自動的に、そして遺伝子配列や生物種を限定することなく、網羅的に機能性配列領域情報を抽出することができる。さらに、遺伝子導入目的が定まっている場合は、目的に適した機能性配列情報をあらかじめクェリに付随して入力してスコアリングすることで、目的に最も適した機能性配列を出力として得ることができ、至適機能性配列情報を短時間で自動的に得ることが可能になる。得られた機能性配列を用いて発現ベクターを作製することにより、遺伝子導入に最適の発現ベクターを構築することができる。
【0038】
==機能性配列選択システム==
本実施形態の機能性配列選択システムは、機能性配列選択方法の第1から7の工程を行うシステムである。目的遺伝子のコーディング領域の塩基配列もしくはアミノ酸配列またはそれらの一部を含む配列をクェリとして入力するための入力装置と、機能性配列を選択するための選択装置と、選択した機能性配列を出力するための出力装置と、を備え、選択装置は、データベースにおいて、目的遺伝子のコーディング領域の塩基配列、アミノ酸配列をコードする塩基配列、またはアミノ酸配列を用いて、塩基配列またはアミノ酸配列をコードする塩基配列と相同性を有する塩基配列を検索するための相同性配列検索手段と、検索して得られた塩基配列を第1の配列リストとして格納するための第1の配列リスト記憶手段と、第1の配列リストから、塩基配列全体がゲノム由来である塩基配列を除去して、塩基配列全体がゲノム由来である塩基配列以外の塩基配列を抽出し、
(1)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同性領域の上流または下流に塩基配列が存在する場合、上流または下流に存在する該塩基配列が機能性配列かどうか解析して1つまたはそれ以上の第1の機能性配列を抽出し、
(2)抽出した塩基配列に、検索に用いた塩基配列またはアミノ酸配列をコードする塩基配列の相同性領域の上流かつ下流に塩基配列が存在しない場合、データ内の前記遺伝子情報に、機能性配列を示す記載があるかどうかを検索して1つまたはそれ以上の第2の機能性配列を抽出するための機能性配列抽出手段と、
第1の機能性配列及び第2の機能性配列を含む第2の配列リストを格納するための第2の配列リスト記憶手段と、第2の配列リストに対し、スコアリングを行うためのスコアリング手段と、スコアリングの結果の上位の機能性配列を選択するための機能性配列選択手段と、選択された前記上位の機能性配列を格納するための機能性配列記憶手段と、を備える。以下、具体的なシステムについて、詳細に述べる。
【0039】
図3に一実施形態の遺伝子設計システム30のブロック構成図を示す。本実施形態の機能性配列選択システムは、入力装置としてユーザーがクェリを入力する入出力端末31と、本システムへアクセスするために利用するインターネット32と、出力装置としてクェリ及び出力情報を提示するインタフェースとなる情報制御部33と、クェリをシステムへ導入するクェリ導入部34と、相同性配列検索手段として生物情報データベース35を用いてクェリの相同性検索を行なうデータベース検索部36と、第1の配列リスト記憶手段としてクェリの相同性解析結果を格納する検索結果保持部37と、機能性配列抽出手段として、解析に用いる機能性配列ライブラリー38及び検索結果解析部39と、第2の配列リスト記憶手段として同解析結果を保持する解析結果保持部40(第ニ配列リスト)と、スコアリング手段として解析結果保持部40のデータを基にスコアリングを行うスコア解析部41と、機能性配列選択手段及び機能性配列記憶手段としてスコア解析結果を基に出力情報を抽出する出力制御部42からなる。出力制御部42により、情報制御部33を介して解析結果が表示される。
【0040】
なお、データベース検索部36、検索結果保持部37、検索結果解析部39、解析結果保持部40、スコア解析部41において、順に
図1中の第2工程(相同性解析工程2)、
第3工程(第一配列リスト作製工程3)、第4工程(検索結果解析工程4)、第5工程(
第二配列リスト作製工程5)、第6工程(スコアリング実行工程6)が実行され、詳細は上述した各工程の説明に記載されている。機能性配列ライブラリーは、プロモーター名、ターミネーター名、ベクター名やプラスミド名とそれらの配列がリスト化されているライブラリーを意味し、詳細は第4-2工程の説明に記載されている。
【0041】
以下、本システムを用いた機能性配列選択方法を概略する。まず、本実施形態の機能性配列選択システムにおいて、ユーザーが入出力端末31より入力した遺伝子配列情報と検索、解析、スコアリング、出力条件をクェリ導入部34によって受け付ける。クェリ導入部34はデータベース検索部36、検索結果解析部39、スコア解析部41、出力制御部42へクェリ及び付随情報を導入する。クェリ導入部34を介して、遺伝子配列情報及び検索条件をキーとして生物情報データベース35に対してデータベース検索部36にて相同性検索を実行し、その結果を第一配列リストとして検索結果保持部37へ格納する。この時、検索条件として、生物情報データベース35の種類や相同性判定基準を入力することができる。次に、クェリ導入部34を介して導入された解析条件をキーとして、検索結果保持部37のデータを天然配列及び人工配列に分類し、機能性配列領域を抽出・解析し、必要があれば天然配列の再分類を行なうことを検索結果解析部39にて実行し、その結果を第二配列リストとして解析結果保持部40に格納する。この時、解析条件としては、機能性配列領域の抽出塩基長を入力することができる。さらに、機能性配列の解析において参考とするDBは機能性配列ライブラリー38の情報を参考に行なうこともできる。さらに、クェリ導入部34を介して導入されたスコア条件をキーとして、解析結果保持部40のデータをスコア解析部41にてスコアリングを実行する。この時、スコア条件としては、頻度、または所望の機能に関するキーワードを入力することができる。ここで得られたスコア上位の機能性配列または領域及びクェリの遺伝子配列を、出力制御部42から情報制御部33を介して表示することができる。ここで、出力条件として、機能性配列領域に付与したい配列がある場合は、クェリとして設定することができ、その場合は入出力端末31へ当該条件を入力することで設定することができる。
【0042】
==具体的な機能性配列選択方法==
[1]本実施形態では、
図1に記載する遺伝子設計方法を基本構成とした
図3に記載の遺伝子設計システムを用いて、第1工程から第5工程である第二配列リスト作製工程までを実施した一例を示す。
【0043】
以下、
図4~6を参照しながら詳細に説明する。
図4に検索インタフェースと、
図5、6に第1工程から第4-1及び4-2工程の機能性配列領域抽出までと、第4-2工程の機能性配列領域解析から第5工程までのフローチャートを示す。
【0044】
まず、検索インタフェース50へ入力を行なうことによりクェリ入力工程60を実行する。本実施例のクェリである遺伝子のアミノ酸配列を、遺伝子配列入力部51へ直接入力するか、または52へテキストファイルとして入力できる。また、相同性検索工程のためにBLAST検索61を実行するが、クェリの付随情報の検索条件として、本工程で用いる生
物情報データベース62の選択および相同性判定基準をインタフェースに入力する。本実施例では、BLAST検索61としてtBLASTnを用い、生物情報データベース62にはNCBIに登録されているNucleotide collectionと、Patent sequenceのデータベースの選択をデータベース選択53にて実行し、且つ相同性判定基準54もe-value値を入力する。さらに、
第4-2工程で行なう機能性配列領域の塩基配列長も同画面の塩基長選択55にて選択することができる。これらの条件を入力・選択した後、インタフェースの検索開始ボタン56をクリックすることで、相同性検索が開始され、以降の工程が自動で実施されるようになる。
【0045】
BLAST検索61を実施し、検索結果を第一配列リスト63へ格納する。格納されたデー
タ情報のうち、データ名に「complete genome」、または「chromosome」が含まれている
かをキーワード検索64にて実行し、含まれる場合は天然配列リスト65へ、含まれない場合はその他の配列リスト66へデータを格納することで、第4-1工程を実施する。
【0046】
次に、抽出工程67において、その他の配列リスト66を用いて相同性解析を行い、及びリストの配列と検索配列のアライメントを行い、クェリのアミノ酸配列がコードする塩基配列の相同性領域の上流、下流の配列を抽出する。このとき、フレーム確認工程69として、抽出した配列情報のうち、フレームがクェリのアミノ酸配列をコードする側と同じ(プラス)か、反対(マイナス)かを生物情報データベース68より確認する。そして、第一配列リストを参照して、フレーム情報を第一配列リストに格納してもよい。フレームがマイナスであった場合、クェリのアミノ酸配列をコードする塩基配列と逆の塩基配列が表示され、且つ上流と下流の配列が逆の位置となるため、抽出した配列において、相補配列対応工程70を実施する。フレームの統一を行なった後、下流の抽出配列の5’末端に
終止コドンが存在しているかどうかを確認し(71)、これらの変更及び追加情報をその他の配列リストに追加することで(72)、第4-2工程の機能性配列領域の抽出を実行する。
【0047】
続いて、その他の配列リスト80へ機能性配列領域が抽出・格納された後に、それぞれのデータにおいて上流と下流の抽出配列があるか(81)を実行する。以下、抽出配列がある場合と無い場合の工程に関して記載する。
【0048】
抽出配列が存在する場合は、抽出配列をデータベース等に登録されている情報を機能性配列ライブラリー82に格納し、これらのデータを基に検索する(83)。本実施例では、機能性配列ライブラリー82へ、RegulonDB、iGEM、Addgeneに登録されているプロモーター、ターミネーター、ベクター、プラスミド名及び配列を格納するが、本ライブラリーには追加でデータを入力でき、たとえば、コマーシャルにて使用されるSnap Gene, Invitrogen、Takaraバイオ等で取り扱っている上記情報を格納できる。DB検索83の検索結果
チェック工程84においてヒットした配列は、その他の配列リストへ変更データを追加する(85)が、ヒットしなかった配列は、次に推定ツール検索86により機能性配列の同定を行なう。本ツールにはCNNpromoterやFindtermを用いる。推定ツール検索86の検索
結果チェック工程87においてヒットしなかった配列は、次にその他の検索88により機能性配列の同定を行なう。その他の検索にはBLASTを用いて抽出配列中に遺伝子配列とし
てコードされている領域があるかを確認する。その他の検索88の検索結果チェック工程89において、遺伝子配列領域と相同性を持つ領域がある場合は、遺伝子配列領域以外の配列領域を機能性配列領域としてその他の配列リストへ変更データを追加するが、存在しなかった配列は、その旨の変更データをその他の配列リストへ追加する。
【0049】
抽出配列が存在しない場合は、第一配列リストに登録されている遺伝子情報を基に、機械学習技術により機能性配列領域情報を抽出する(90)。具体的には、データが記載されている文献情報を用いて、特許の場合は配列IDを、論文の場合はデータ名を検索し、同情報が記載されている文章またはセンテンスより、プロモーター、ターミネーター、ベクター、プラスミド名の記述を抽出する。その一例を
図7に示す。
【0050】
図7では、大腸菌のMEP代謝経路に関与する酵素であるispE遺伝子のアミノ酸配列をクェリとして本ツールを用い特許文献より配列情報を抽出する。まず、
図5の相同性検索61により、たとえば
図7に示す特許文献情報100が得られる。ここでは、相同性を持つデータ名101や相同性配列102、データベースsequence ID103、フレーム情報
104等が得られ、これらの情報は第一配列リストへ格納される。ここで得られたデータ名101やデータベース上のsequence ID 103より、特許文献情報と、その特許内にて登録されているSequence ID情報が得られる。
図7に示すデータの場合は、データベース
名101から、特許文献情報US6234514と文献中のSequence ID(SEQ ID)No:5にクェリの配列が登録されていることが示されている。ここでの検索式としては、SEQ ID No:5として
いる。これらの情報を基に、実際の特許文献中にSEQ ID No:5が記載されている文章を検
索する。
図8Aに検索イメージを示すが、特許本文109中、SEQ ID NO:5が記載されて
いる文章の前後を抽出し、抽出領域110中に、機能性配列ライブラリーに登録されている文言の有無を検索する。
図8Aの場合、抽出領域110中に含まれるpBAD TOPO TAという単語が機能性ライブラリーにベクター名として登録されているため、この情報よりプロモーター名とターミネーター名の抽出結果112を得ることができ、特許文献から機能性配列領域を抽出することができる。このような機能性配列ライブラリー113の例を
図8Bに示す。機能性配列ライブラリー113はベクターまたはプラスミド名と同領域に含まれるプロモーター名及び配列、ターミネーター名及び配列とこれらの配列の天然、人工配列の分類、且つ出典が記載されている。このようなライブラリーは既存のプロモーター、ターミネーター、ベクター、プラスミド配列データベースや、コマーシャルで使用されているこれらの製品情報を記載する媒体より抽出して作製する。このように得られた機能性配列領域情報を、抽出配列が存在する場合と同様に、その他の配列リストへ変更データとして追加する(85)。本工程により第4-2工程の機能性配列領域の解析を実行する。
【0051】
次に、ゲノムデータベースなどを用いて、その他の配列リストの中に天然配列リストと同じ機能性配列及び領域が存在するかを検索結果チェック工程91により確認する。同じ配列が存在する場合は、その他の配列リストから除去し(92)、同じ配列が存在しない場合は、人工配列リストとして分類する(93)。得られた人工配列リストを第二配列リスト94として格納する。このように、導入したい遺伝子のアミノ酸配列をクェリとして入力することにより、遺伝子導入の際に使用される機能性配列領域を第二配列リストとして得ることができる。
【0052】
[2]本実施形態では、
図1に記載する遺伝子設計方法を基本構成とした
図3に記載の遺伝子設計システムを用いて、第5工程から第7工程の機能性配列領域出力工程までを実施する例を示す。
【0053】
図9に第5工程から第6工程のスコアリング工程と第7工程の機能性配列領域出力工程までのフローチャートと、
図10に出力結果表示インタフェースを示す。スコアリング条件は第1工程のクェリ入力の際に、頻度で行なうか、所望の条件におけるキーワードにおいて行なうかを選択する。この選択は
図4の検索インタフェースのスコアリング条件選択57にて行うことができる。
【0054】
図9のスコアリング条件選択工程121において、頻度でのスコアリングを選択した場合、第二配列リスト120の情報より登録数をスコアリング対象として頻度別スコアリングを実施し、結果を頻度別スコア結果リストへ格納する(122)。また、頻度でのスコアリングを選択しなかった場合、所望のスコアリングキーワードの存在率をスコアとする。本スコアのキーワードは
図4のスコアリング条件選択57で入力できる。ここで入力されたキーワードは、キーワードスコアリング実行工程123において、遺伝子情報に記載の文献またはデータ名に、同キーワードが存在するかを検索しその数をスコアとしてカウントする。同スコアに基づいてキーワードスコア結果リストを作製する(124)。いずれのスコアリング方法で得られた結果でも、スコア上位を出力対象とし、機能性配列、つまりプロモーター、ターミネーター、終止コドン、開始コドン等を含む、クェリで入力した遺伝子配列の塩基配列を機能性配列領域出力工程125時に出力データとして選択し、その結果を
図10に示すインタフェースにより表示する(126)。
図10は検索インタフェースの下部にスコアリング上位の出力結果130が表示される例を示す。それぞれプロモーター配列、遺伝子の塩基配列、ターミネーター配列、プロモーター・ターミネーターペア配列が表示されるが、それぞれの表示領域のポップアップボタン131、132、
133、134をクリックすると、
図11、12、13、14に示すようにそれぞれのポップアップ画面が表示される。
【0055】
まずプロモーター配列において、ポップアップボタン131をクリックすると、
図11Aに示すように、各条件にて同定された際に得られたプロモーター名140と、プロモー
ター領域配列141と、天然配列(図中Nと表示)か人工配列(図中Aと表示)か、両方に存在するか(図中NAと表示)を示す分類欄142と、配列同定方法及び同定に用いたデータベース情報143と、頻度によるスコア144からなる。配列同定方法としては機能性配列ライブラリーを参照するDB法と推測ツールを用いる方法、その他の方法がある。DB法で同定した場合は機能性配列ライブラリーに登録したデータベース名が、推定ツール及びその他の方法で推定された領域に関しては、推定ツールまたはその他(図中ハイフンで記載)と表示される。そして、人工配列のうち最もスコアが高いものがスコアリングの上位として表示されている。
図11のチェック箇所145により選択し、セレクトボタン146をクリックすることで、
図10に表示される結果の配列を変更することも可能である。さらに全件表示ボタン147をクリックすることにより、
図11Bに示すように、検索により得られた全結果を表示する(全結果表示148)ことができる。この操作は、
図12に示すターミネーター配列及び
図13に示すプロモータ・ターミネータ配列ペアのポップアップ画面においても可能となる。さらに、
図14には、本解析のクェリとして入力した遺伝子の塩基配列170のポップアップ画面を示すが、5’末端に開始コドン171、3’末端に終止コドン172が付与されている。クェリカバー率173も表示されており、クェリカバー率100%となる塩基配列が
図10及び本ポップアップ画面に表示される。このように、各配列において、スコア上位もしくは任意で選択した配列を
図10中に表示し、ダウンロードボタン135をクリックすることにより、
図15の出力配列180に示すように、プロモーター配列181、開始コドン182、終止コドン183を含む遺伝子配列、ターミネーター配列184を一括で表示することができる。そして、細胞に導入したい遺伝子のアミノ酸配列の機能性配列領域が格納された第二配列リストより、機能性配列であるプロモーター、ターミネーター配列を同定または推定し、所望の条件でスコアリングを行なうことにより、自動で至適機能性配列情報を得ることが可能となる。以上のように、本ツールを用いることで遺伝子配列設計工程の短時間化を可能とすることができる。
==プログラム及びコンピュータ可読記憶媒体==
本発明の一実施態様は、上記の機能性配列選択システムに、上記の機能性配列選択方法を行わせるためのプログラムである。また、このプログラムをコンピュータによって読み取り可能に格納する記録媒体も、本発明の実施形態の一つである。これらによって、上記の機能性配列選択方法が汎用できるようになる。
【実施例】
【0056】
以下、本発明を実施例に基づいてさらに具体的に説明するが、本発明はこれに限定されるものではない。当業者は、本発明の意義を逸脱することなく様々な態様に本発明を変更することができ、これらの変更も本発明の範囲に含まれる。
【0057】
本実施例では、クェリを特定し、
図6の工程を行ったところ、機能性配列が得られたことを示す。
【0058】
[実施例1]
以下の条件で
図6のデータベース検索(83)を行ったところ、プロモーターとして、RegulonDB: ispFp2、ターミネーターとして、(iGEM:BBa_B0010)が得られた。
【0059】
クェリの一つである遺伝子のアミノ酸配列:非メバロン酸経路関連遺伝子ispF
生物情報データベース:nucleotide collection , patent sequenceを選択
上流・下流の各抽出配列長:1000bp
[実施例2]
以下の条件で
図6のデータベース検索(83)を行ったところ、機能性配列が得られなかったので、blast search(88)を行ったところ、遺伝子コード領域として「hypothetical protein AC239_22870」が、上流抽出塩基(1000nt)の5’側から196~804ntに存在することが検出され、残りの196ntにlac promoter配列が含まれていることが検出された。
【0060】
クェリの一つである遺伝子のアミノ酸配列:非メバロン酸経路関連遺伝子ispG
生物情報データベース62:nucleotide collection , patent sequenceを選択
上流・下流の各抽出配列長:1000bp
【符号の説明】
【0061】
1、60…クェリ入力工程
2…相同性検索工程
3…第一配列リスト作製工程
4…検索結果解析工程
5…第二配列リスト作製工程
6…スコアリング実行工程
7、125…機能性配列領域出力工程
10、63…第一配列リスト
11…天然配列分類工程
12、18…天然配列リスト
13、66…その他の配列リスト
14…機能性配列領域抽出工程
15…機能性配列領域抽出・解析工程
16…機能性配列領域解析工程
17…再分類工程
19、65…人工配列リスト
20、94、120…第二配列リスト
30…遺伝子設計システム
31…入出力端末
32…インターネット
33…情報制御部
34…データベース保持部
35、62、68…生物情報データベース
36…データベース検索部
37…検索結果保持部
38、82、111、113…機能性配列ライブラリー
39…検索結果解析部
40…検索結果保持部
41…スコア化遺跡部
42…出力制御部
50…検索インタフェース
51、52…遺伝子配列入力部
53…データベース選択
54…相同性判定基準
55…塩基長選択
56…検索開始ボタン
57…スコアリング条件選択
61…BLAST検索
64…キーワード検索
67…抽出工程
69…フレーム確認工程
70…相補配列対応工程
71…終止コドン確認工程
72、85…変更情報追加工程
80…天然配列リストとその他の配列リスト
81…抽出配列確認工程
83…DB検索
84、87、89、91…検索結果チェック工程
86…推定ツール検索
88…その他の検索
90…機械学習技術による抽出工程
92…天然配列リスト再分類工程
93…人工配列リスト分類工程
100…特許文献情報
101…データ名
102…相同性配列
103…データベース中のsequence ID
104…フレーム情報
109…特許本文
110…抽出領域
112…検索結果
121…スコアリング条件選択工程
122…頻度別スコア結果リスト作製工程
123…キーワードスコアリング実行工程
124…キーワードスコア結果作製工程
126…結果表示工程
130…出力結果
131、132、133、134…ポップアップボタン
135…ダウンロードボタン
140、160…プロモーター名
141、161、191…プロモーター領域配列
142、152、165…分類欄
143、153、162、166…配列同定方法及び同定に用いたデータベース情報
144、154、167…スコア
145、155、168…チェック箇所
146、156、170…セレクトボタン
147、157、169…全件表示ボタン
148、158…全結果表示
150、163…ターミネーター名
151、164、194…ターミネーター領域配列
180…クェリとして入力した遺伝子の塩基配列
181、192…開始コドン
182、193…終止コドン
183…クェリカバー率
190…出力配列
【配列表】