IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人農業・食品産業技術総合研究機構の特許一覧

<>
  • 特許-転移因子検出法 図1
  • 特許-転移因子検出法 図2
  • 特許-転移因子検出法 図3
  • 特許-転移因子検出法 図4
  • 特許-転移因子検出法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-18
(45)【発行日】2024-10-28
(54)【発明の名称】転移因子検出法
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20241021BHJP
   C12N 15/11 20060101ALI20241021BHJP
   C12Q 1/686 20180101ALI20241021BHJP
   C12Q 1/6813 20180101ALI20241021BHJP
   C12M 1/00 20060101ALI20241021BHJP
【FI】
C12Q1/6869 Z
C12N15/11 Z ZNA
C12Q1/686 Z
C12Q1/6813 Z
C12M1/00 A
【請求項の数】 33
(21)【出願番号】P 2020217693
(22)【出願日】2020-12-25
(65)【公開番号】P2021104016
(43)【公開日】2021-07-26
【審査請求日】2023-10-20
(31)【優先権主張番号】P 2019236480
(32)【優先日】2019-12-26
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
【前置審査】
(73)【特許権者】
【識別番号】501203344
【氏名又は名称】国立研究開発法人農業・食品産業技術総合研究機構
(74)【代理人】
【識別番号】100136629
【弁理士】
【氏名又は名称】鎌田 光宜
(74)【代理人】
【識別番号】100080791
【弁理士】
【氏名又は名称】高島 一
(74)【代理人】
【識別番号】100118371
【弁理士】
【氏名又は名称】▲駒▼谷 剛志
(72)【発明者】
【氏名】宮尾 安藝雄
【審査官】中野 あい
(56)【参考文献】
【文献】BMC Bioinformatics,2014年03月14日,vol. 15,article no. 71 (pp. 1-9)
【文献】日本植物生理学会年会要旨集,2015年03月09日,vol.56th,p. 139
【文献】Methods Mol Biol,2021年,vol. 2250,pp. 123-129
【文献】BMC Bioinformatics,2022年11月22日,Nov 22, vol. 23,article no. 500 (pp. 1-17)
(58)【調査した分野】(Int.Cl.,DB名)
C12N 15/00-15/90
C12Q 1/00- 3/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
配列中の転移因子を特定する方法であって、
(A)第1のゲノム配列データおよび第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(B)該切り出し配列のそれぞれについて、n塩基長の標的部位重複(TSD)に該当する配列を含む部分と、該TSDに該当する配列を含まない部分とに区別し、同一のTSDを含む切り出し配列のペアを選抜するステップであって、ここでnが3~20である、ステップと、
(C)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(D)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、方法。
【請求項2】
ステップ(B)が、前記TSDに該当する配列と前記TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップである、請求項1に記載の方法。
【請求項3】
ステップ(B)が、前記TSDに該当する配列を含む部分と前記TSDに該当する配列を含まない部分とに区別し、前半部分の3’末端にTSDに該当する配列を含む切り出し配列と後半部分の5’末端にTSDに該当する配列を含む切り出し配列とにおいて、同一のTSDを含む切り出し配列のペアを選抜するステップである、請求項1に記載の方法。
【請求項4】
前記TSDに該当する配列を含む部分と前記TSDに該当する配列を含まない部分との区別が、前記切り出し配列の半分で区別することを含む、請求項3に記載の方法。
【請求項5】
ステップ(B)が、さらに、前記切り出し配列をリファレンス配列上にマッピングすることにより、前記TSDに該当する配列を含む部分および前記TSDに該当する配列を含まない部分のゲノム上の位置を特定するステップを含む、請求項3または4に記載の方法。
【請求項6】
前記ステップ(B)の前に、前記第1のゲノム配列データからの切り出し配列のセットと、前記第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列を選抜するステップを含み、
5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアの選抜が、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列の中から行われる、請求項1~5のいずれかに記載の方法。
【請求項7】
前記切り出し配列のセットにおいて、同一の切り出し配列の頻度を計算するステップをさらに含む、請求項1~6のいずれかに記載の方法。
【請求項8】
前記切り出し配列のセットにおいて、一定以下の頻度の切り出し配列を除外するステップをさらに含む、請求項7に記載の方法。
【請求項9】
前記転移因子対応ペアに基づいて、転移因子配列を特定するステップをさらに含む、請求項1~8のいずれかに記載の方法。
【請求項10】
前記転移因子の転移活性を確認するステップをさらに含む、請求項1~9のいずれかに記載の方法。
【請求項11】
前記転移因子の転移活性の確認が、PCR、配列決定、およびハイブリダイゼーションから選択される1つ以上によってなされる、請求項10に記載の方法。
【請求項12】
ステップ(B)~(D)を、nを変更して繰り返すステップをさらに含む、請求項1~11のいずれかに記載の方法。
【請求項13】
前記一定長が17~50塩基長である、請求項1~12のいずれかに記載の方法。
【請求項14】
前記対応する転移因子部分配列が、少なくとも90%の同一性を有する転移因子部分配列である、請求項1~13のいずれかに記載の方法。
【請求項15】
前記対応する転移因子部分配列が、少なくとも95%の同一性を有する転移因子部分配列である、請求項14に記載の方法。
【請求項16】
前記対応する転移因子部分配列が、同一の転移因子部分配列である、請求項1~15のいずれかに記載の方法。
【請求項17】
前記切り出し配列のセットを生成するステップが、第1のゲノム配列データおよび第2のゲノム配列データの相補鎖について前記一定長の配列を1塩基ずつずらして切り出すことを含む、請求項1~16のいずれかに記載の方法。
【請求項18】
nが5または8であり、かつ前記一定長が25塩基長である、請求項1~17のいずれかに記載の方法。
【請求項19】
前記転移因子対応ペアに基づいて、前記転移因子の挿入位置を、前記TSDを含む個体とは異なる個体における参照配列と比較することにより、前記転移因子部分配列の挿入の有無および/または前記転移因子部分配列の挿入位置を特定するステップをさらに含む、請求項1~18のいずれかに記載の方法。
【請求項20】
前記転移因子対応ペアに基づいて、前記転移因子の挿入位置をリファレンス配列上にマッピングすることにより、前記転移因子部分配列の挿入の有無および/または前記転移因子部分配列の挿入位置を特定するステップをさらに含む、請求項1~19のいずれかに記載の方法。
【請求項21】
配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムであって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップであって、ここでnが3~20である、ステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、プログラム。
【請求項22】
配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップであって、ここでnが3~20である、ステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列
のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、記録媒体。
【請求項23】
配列中の転移因子を特定するためのシステムであって、該システムは、1つ以上のプロセッサと、メモリと、プログラムを格納する記録媒体とを備え、該プログラムは、該1つ以上のプロセッサによって実行されると、以下:
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップであって、ここでnが3~20である、ステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む方法を実装する、システム。
【請求項24】
配列中の転移因子を特定するためのシステムであって、該システムは、以下:
(A)第1のゲノム配列データおよび第2のゲノム配列データを受け取る配列データ受信部と、
(B)該配列データ受信部で得られた該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成し、
該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜し、
該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜し、
該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップを実行する転移因子対応ペア選抜部であって、ここでnが3~20である、転移因子対応ペア選抜部と
(C)該転移因子対応ペアを表示する、表示部と
を含む、システム。
【請求項25】
配列中の転移因子を生産する方法であって、
(A)第1のゲノム配列データおよび第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(B)該切り出し配列のそれぞれについて、n塩基長の標的部位重複(TSD)に該当する配列を含む部分と、該TSDに該当する配列を含まない部分とに区別し、同一のTSDを含む切り出し配列のペアを選抜するステップであって、ここでnが3~20である、ステップと、
(C)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(D)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
(E)該ステップ(D)によって特定された転移因子における転移酵素の認識配列を有する核酸を生産するステップと
を包含する方法
【請求項26】
前記核酸は、前記転移因子の全部の配列を有する、請求項25に記載の方法
【請求項27】
前記核酸はゲノム配列への変異の導入のためのものである、請求項25または26に記載の方法
【請求項28】
前記核酸は転移因子の転移による遺伝子破壊のためのものである、請求項25または26に記載の方法
【請求項29】
前記核酸は転写の制御のためのものである、請求項25または26に記載の方法
【請求項30】
前記核酸は挿入変異系統の作出のためのものである、請求項25または26に記載の方法
【請求項31】
請求項1に記載される、配列中の転移因子を特定する方法であって、前記方法は
(A)第1のゲノム配列データおよび第2のゲノム配列データから、X塩基+n塩基の一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップであって、ここでnが3~20である、ステップと、
(A1)該第1のゲノム配列データからの切り出し配列のセットと該第2のゲノム配列データからの切り出し配列のセットとを、ソートして頻度とともに出力するステップと、
(A2)該第1のゲノム配列データからの切り出し配列のセットと該第2のゲノム配列データからの切り出し配列のセットとから、該第1のゲノム配列データと該第2のゲノム配列とで重複する配列を除き、該第1のゲノム配列データからの切り出し配列のセットと該第2のゲノム配列データからの切り出し配列のセットにおいて各々に特異的な配列を選択するステップと、
(B)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列候補)とに区別し、該転移因子部分配列候補のペアのうち、TSDが2種類以上ある転移因子部分配列候補の5’末端側のTSDと該転移因子部分配列候補の3’末端側のTSDとを選抜し、選抜したデータセットから、5’末端側のTSDと3’末端側のTSDとが同一である切り出し配列のペアをすべて選抜するステップと、
(C)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップであって、5’側転移因子部分配列候補および3’側転移因子部分配列候補と該当するTSDとを一行に出力してソートするステップであって、ここでnが3~20である、ステップと、
(D)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップであって、
候補となる5’側転移因子部分配列および3’側転移因子部分配列のペアのTSDに対する、該第1のゲノム配列データに特異的なTSD配列または該第2のゲノム配列データに特異的なTSD配列の割合がthを超える値になった5’側転移因子部分配列および3’側転移因子部分配列のペアを選択するステップであって、thは0.2以上である、ステップと、
(E)リファレンス配列が存在する場合、検出された転移因子部分配列候補の5’末端および3’末端の隣接配列をマッピングして、ゲノム上の挿入位置を特定するか、またはリファレンス配列が存在していない場合、挿入が顕出されたサンプルとは別のサンプル配列で、想定された挿入部位に対応する参照配列に、挿入がないことを確認するステップと
を含む、方法。
【請求項32】
前記thは0.7である、請求項31に記載の方法。
【請求項33】
Xが17~50である、請求項31または32記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、配列情報、とりわけ、ゲノム等の生体分子の配列情報の情報処理の分野に関する。本開示は、転移因子の検出により、医療、ヘルスケア、農業、林業、畜産業、水産業、環境での応用および基礎研究の分野において利用可能である。
【背景技術】
【0002】
ゲノム中には多くの種類の転移因子が様々なコピー数で存在しており、大部分は変異が起こって不活性な状態である。これらの大量の不活性な転移因子の情報が障害となって、塩基配列情報から活性のある新規な転移因子を検出するのは困難であった。
【発明の概要】
【課題を解決するための手段】
【0003】
転移因子が転移する際に、標的部位に数塩基の配列の重複(Target Site Duplication、TSD)が起こる場合があることが知られている。例えばTSDのサイズが5塩基の転移因子の場合、転移因子の5’末端の上流5塩基と3’末端の下流5塩基の配列は同じになる。トランスポゾンの両末端とTSDに着目すると、新たに転移したトランスポゾンでは、転移ごとに標的部位の塩基配列が異なるので、その結果としてTSDの配列が異なると考えられる。2つの試料から得られた塩基配列より、TSDの配列が異なるトランスポゾンの5’末端と3’末端のペアを検出することにより、参照配列を用いないで直接転移を検出することが可能であることを本開示において見出した。
【0004】
本開示において、配列中の転移因子を特定する方法であって、(A)ゲノム配列データから一定長の配列を1塩基ずつずらして切り出して、切り出し配列のセットを生成するステップ、(B)切り出し配列のそれぞれを、n塩基長の部分とそれ以外の部分に切り分け、5’末端のn塩基長の部分と3’末端のn塩基長の部分とが同一である切り出し配列のペアを選抜するステップ、(C)選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップ、および/または(D)対応する転移因子部分配列を有する切り出し配列のペアから、ゲノム配列データによってn塩基長部分が異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップを含む方法が提供される。方法は、本明細書に記載される追加的な工程をさらに含んでもよい。本開示において、当該方法を実装するプログラムもしくはそれを格納する記録媒体、あるいはそのためのシステムもまた提供され得る。本開示の別の態様は、特定された転移因子、またはその使用に関する。
【0005】
本開示の例として、以下の項目が挙げられる。
(項目1) 配列中の転移因子を特定する方法であって、
(A)第1のゲノム配列データおよび第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(B)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(C)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(D)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、方法。
(項目2) 前記ステップ(B)の前に、前記第1のゲノム配列データからの切り出し配列のセットと、前記第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列を選抜するステップを含み、
5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアの選抜が、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列の中から行われる、前記項目に記載の方法。
(項目3) 前記切り出し配列のセットにおいて、同一の切り出し配列の頻度を計算するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目4) 前記切り出し配列のセットにおいて、一定以下の頻度の切り出し配列を除外するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目5) 前記転移因子対応ペアに基づいて、転移因子配列を特定するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目6) 前記転移因子の転移活性を確認するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目7) 前記転移因子の転移活性の確認が、PCR、配列決定、およびハイブリダイゼーションから選択される1つ以上によってなされる、前記項目のいずれかに記載の方法。
(項目8) ステップ(B)~(D)を、nを変更して繰り返すステップをさらに含む、前記項目のいずれかに記載の方法。
(項目9) nが3~20である、前記項目のいずれかに記載の方法。
(項目10) 前記一定長が17~50塩基長である、前記項目のいずれかに記載の方法。
(項目11) 前記対応する転移因子部分配列が、少なくとも90%の同一性を有する転移因子部分配列である、前記項目のいずれかに記載の方法。
(項目12) 前記対応する転移因子部分配列が、少なくとも95%の同一性を有する転移因子部分配列である、前記項目のいずれかに記載の方法。
(項目13) 前記対応する転移因子部分配列が、同一の転移因子部分配列である、前記項目のいずれかに記載の方法。
(項目14) 前記切り出し配列のセットを生成するステップが、第1のゲノム配列データおよび第2のゲノム配列データの相補鎖について前記一定長の配列を1塩基ずつずらして切り出すことを含む、前記項目のいずれかに記載の方法。
(項目15) 配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムであって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、プログラム。
(項目15-1) 前記項目のいずれか1つまたは複数に記載の特徴をさらに備える、前記項目に記載のプログラム。
(項目16) 配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、記録媒体。
(項目16-1) 前記項目のいずれか1つまたは複数に記載の特徴をさらに備える、前記項目に記載の記録媒体。
(項目17) 配列中の転移因子を特定するためのシステムであって、該システムは、1つ以上のプロセッサと、メモリと、プログラムを格納する記録媒体とを備え、該プログラムは、該1つ以上のプロセッサによって実行されると、以下:
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む方法を実装する、システム。
(項目17-1) 前記項目のいずれか1つまたは複数に記載の特徴をさらに備える、前記項目に記載のシステム。
(項目18) 配列中の転移因子を特定するためのシステムであって、該システムは、以下:
(A)第1のゲノム配列データおよび第2のゲノム配列データを受け取る配列データ受信部と、
(B)該配列データ受信部で得られた該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成し、
該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜し、
該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜し、
該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップを実行する転移因子対応ペア選抜部と
(C)該転移因子対応ペアを表示する、表示部と
を含む、システム。
(項目18-1) 前記項目のいずれか1つまたは複数に記載の特徴をさらに備える、前記項目に記載のシステム。
(項目19) 前記項目のいずれかに記載の方法によって特定された転移因子の少なくとも一部の配列を有する核酸。
(項目20) 前記転移因子における転移酵素の認識配列を有する、前記項目に記載の核酸。
(項目21) ゲノム配列への変異の導入のための、前記項目のいずれかに記載の核酸の使用。
(項目22) 転移因子の転移による遺伝子破壊のための、前記項目のいずれかに記載の核酸の使用。
(項目23) 転写の制御のための、前記項目のいずれかに記載の核酸の使用。
(項目24) 挿入変異系統の作出のための、前記項目のいずれかに記載の核酸の使用。
【0006】
さらに本開示は以下を提供する。
(項目A1) 配列中の転移因子を特定する方法であって、
(A)第1のゲノム配列データおよび第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(B)該切り出し配列のそれぞれについて、n塩基長の標的部位重複(TSD)に該当する配列を含む部分と、該TSDに該当する配列を含まない部分とに区別し、同一のTSDを含む切り出し配列のペアを選抜するステップと、
(C)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(D)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、方法。
(項目A2) ステップ(B)が、前記TSDに該当する配列と前記TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップである、上記項目に記載の方法。
(項目A3) ステップ(B)が、前記TSDに該当する配列を含む部分と前記TSDに該当する配列を含まない部分とに区別し、前半部分の3’末端にTSDに該当する配列を含む切り出し配列と後半部分の5’末端にTSDに該当する配列を含む切り出し配列とにおいて、同一のTSDを含む切り出し配列のペアを選抜するステップである、上記項目のいずれかに記載の方法。
(項目A4) 前記TSDに該当する配列を含む部分と前記TSDに該当する配列を含まない部分との区別が、前記切り出し配列の半分で区別することを含む、上記項目のいずれかに記載の方法。
(項目A5) ステップ(B)が、さらに、前記切り出し配列をリファレンス配列上にマッピングすることにより、前記TSDに該当する配列を含む部分および前記TSDに該当する配列を含まない部分のゲノム上の位置を特定するステップを含む、上記項目のいずれかに記載の方法。
(項目A6) 前記ステップ(B)の前に、前記第1のゲノム配列データからの切り出し配列のセットと、前記第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列を選抜するステップを含み、
5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアの選抜が、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列の中から行われる、上記項目のいずれかに記載の方法。
(項目A7) 前記切り出し配列のセットにおいて、同一の切り出し配列の頻度を計算するステップをさらに含む、上記項目のいずれかに記載の方法。
(項目A8) 前記切り出し配列のセットにおいて、一定以下の頻度の切り出し配列を除外するステップをさらに含む、上記項目のいずれかに記載の方法。
(項目A9) 前記転移因子対応ペアに基づいて、転移因子配列を特定するステップをさらに含む、上記項目のいずれかに記載の方法。
(項目A10) 前記転移因子の転移活性を確認するステップをさらに含む、上記項目のいずれかに記載の方法。
(項目A11) 前記転移因子の転移活性の確認が、PCR、配列決定、およびハイブリダイゼーションから選択される1つ以上によってなされる、上記項目のいずれかに記載の方法。
(項目A12) ステップ(B)~(D)を、nを変更して繰り返すステップをさらに含む、上記項目のいずれかに記載の方法。
(項目A13) nが3~20である、上記項目のいずれかに記載の方法。
(項目A14) 前記一定長が17~50塩基長である、上記項目のいずれかに記載の方法。
(項目A15) 前記対応する転移因子部分配列が、少なくとも90%の同一性を有する転移因子部分配列である、上記項目のいずれかに記載の方法。
(項目A16) 前記対応する転移因子部分配列が、少なくとも95%の同一性を有する転移因子部分配列である、上記項目のいずれかに記載の方法。
(項目A17) 前記対応する転移因子部分配列が、同一の転移因子部分配列である、上記項目のいずれかに記載の方法。
(項目A18) 前記切り出し配列のセットを生成するステップが、第1のゲノム配列データおよび第2のゲノム配列データの相補鎖について前記一定長の配列を1塩基ずつずらして切り出すことを含む、上記項目のいずれかに記載の方法。
(項目A19) nが5または8であり、かつ前記一定長が25塩基長である、上記項目のいずれかに記載の方法。
(項目A20) nが5または8であり、かつ前記一定長が40塩基長である、上記項目のいずれかに記載の方法。
(項目A21) 前記転移因子対応ペアに基づいて、前記転移因子の挿入位置を、前記TSDを含む個体とは異なる個体における参照配列と比較することにより、前記転移因子部分配列の挿入の有無および/または前記転移因子部分配列の挿入位置を特定するステップをさらに含む、上記項目のいずれかに記載の方法。
(項目A22) 前記転移因子対応ペアに基づいて、前記転移因子の挿入位置をリファレンス配列上にマッピングすることにより、前記転移因子部分配列の挿入の有無および/または前記転移因子部分配列の挿入位置を特定するステップをさらに含む、上記項目のいずれかに記載の方法。
(項目A23) 配列中の転移因子を特定する方法であって、
(A)2種類のサンプル由来のショートリードから、X塩基の配列を1塩基ずつずらして切り出す工程と、
(B)得られた複数のX塩基の各配列の頻度を取得する工程と、
(C)得られた複数のX塩基の配列において、ぞれぞれの配列の前半部分および後半部分のリファレンス配列上での位置を取得して比較する工程と、
を含む、方法。
(項目A24) 前記前半部分および前記後半部分の塩基長がX/2塩基である、上記項目のいずれかに記載の方法。
(項目A25) Xは20塩基以上である、上記項目のいずれかに記載の方法。
(項目A26) 配列中の転移因子の標的部位重複(TSD)及び/またはジャンクションを検出する方法であって、
(A)2種類のサンプル由来のショートリードから、X塩基の配列を1塩基ずつずらして切り出す工程と、
(B)得られた複数のX塩基の各配列の頻度を取得する工程と、
(C)得られた複数のX塩基の配列において、ぞれぞれの配列の前半部分および後半部分のリファレンス配列上での位置を取得して比較する工程と、
を含む、方法。
(項目A27) 前記前半部分および前記後半部分の塩基長がX/2塩基である、上記項目のいずれかに記載の方法。
(項目A28) Xは20塩基以上である、上記項目のいずれかに記載の方法。
(項目A29) 配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムであって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、プログラム。
(項目A30) 配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、記録媒体。
(項目A31) 配列中の転移因子を特定するためのシステムであって、該システムは、1つ以上のプロセッサと、メモリと、プログラムを格納する記録媒体とを備え、該プログラムは、該1つ以上のプロセッサによって実行されると、以下:
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む方法を実装する、システム。
(項目A32) 配列中の転移因子を特定するためのシステムであって、該システムは、以下:
(A)第1のゲノム配列データおよび第2のゲノム配列データを受け取る配列データ受信部と、
(B)該配列データ受信部で得られた該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成し、
該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜し、
該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜し、
該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップを実行する転移因子対応ペア選抜部と
(C)該転移因子対応ペアを表示する、表示部と
を含む、システム。
(項目A33) 上記項目のいずれか1項に記載の方法によって特定された転移因子の少なくとも一部の配列を有する核酸。
(項目A34) 前記転移因子における転移酵素の認識配列を有する、上記項目のいずれかに記載の核酸。
(項目A35) ゲノム配列への変異の導入のための、上記項目のいずれかに記載の核酸の使用。
(項目A36) 転移因子の転移による遺伝子破壊のための、上記項目のいずれかに記載の核酸の使用。
(項目A37) 転写の制御のための、上記項目のいずれかに記載の核酸の使用。
(項目A38) 挿入変異系統の作出のための、上記項目のいずれかに記載の核酸の使用。
(項目A39) 上記項目のいずれかに記載される、配列中の転移因子を特定する方法であって、前記方法は
(A)第1のゲノム配列データおよび第2のゲノム配列データから、X塩基+n塩基の一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(A1)該第1のゲノム配列データからの切り出し配列のセットと該第2のゲノム配列データからの切り出し配列のセットとを、ソートして頻度とともに出力するステップと、
(A2)該第1のゲノム配列データからの切り出し配列のセットと該第2のゲノム配列データからの切り出し配列のセットとから、該第1のゲノム配列データと該第2のゲノム配列とで重複する配列を除き、該第1のゲノム配列データからの切り出し配列のセットと該第2のゲノム配列データからの切り出し配列のセットにおいて各々に特異的な配列を選択するステップと、
(B)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列候補)とに区別し、該転移因子部分配列候補のペアのうち、TSDが2種類以上ある転移因子部分配列候補の5’末端側のTSDと該転移因子部分配列候補の3’末端側のTSDとを選抜し、選抜したデータセットから、5’末端側のTSDと3’末端側のTSDとが同一である切り出し配列のペアをすべて選抜するステップと、
(C)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップであって、5’側転移因子部分配列候補および3’側転移因子部分配列候補と該当するTSDとを一行に出力してソートするステップと、
(D)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップであって、
候補となる5’側転移因子部分配列および3’側転移因子部分配列のペアのTSDに対する、該第1のゲノム配列データに特異的なTSD配列または該第2のゲノム配列データに特異的なTSD配列の割合がthを超える値になった5’側転移因子部分配列および3’側転移因子部分配列のペアを選択するステップであって、thは0.2以上である、ステップと、
(E)リファレンス配列が存在する場合、検出された転移因子部分配列候補の5’末端および3’末端の隣接配列をマッピングして、ゲノム上の挿入位置を特定するか、またはリファレンス配列が存在していない場合、挿入が顕出されたサンプルとは別のサンプル配列で、想定された挿入部位に対応する参照配列に、挿入がないことを確認するステップと
を含む、方法。
(項目A39-1) さらに、(C1)該5’側転移因子部分配列候補および該3’側転移因子部分配列候補において、A,C、GまたはTのいずれかの塩基が1以下の配列を除外するステップを含む、上記項目のいずれかに記載の方法。
(項目A40) 前記thは0.7である、上記項目のいずれかに記載の方法。
(項目A41) nが3~20である、上記項目のいずれかに記載の方法。
(項目A42) Xが17~50である、上記項目のいずれかに記載の方法。
(項目A43)(A)2種類のサンプル由来のショートリードから、X塩基の配列を1塩基ずつずらして切り出す工程と、
(B)得られた複数のX塩基の各配列の頻度を取得する工程と、
(B1)複数のX塩基の各配列をソートして出力する工程と、
(B2)該2種類のサンプルのいずれかに特異的なX塩基の配列を抽出する工程と、
(C1)抽出されたX塩基の配列において、それぞれの配列の前半X/2塩基の配列に対応するリファレンス配列上での位置を取得する工程と、
(C2)抽出されたX塩基の配列において、それぞれの配列の後半X/2塩基の配列に対応するリファレンス配列上での位置を取得する工程と、
(C3)C1およびC2で得られた位置データを染色体別にわけてソートする工程と、
(D)C3においてソートされた位置データから、それぞれのジャンクション位置がずれてTSDを形成し、かつTSDの長さがs1以上s2以下のものを出力する工程と、
(E)TSDが2種類以上ある前半X/2塩基の3’末端側に隣接するTSDと後半X/2塩基の5’末端側に隣接するTSDとを選抜し、選抜したデータセットから、5’末端側に隣接するTSDと3’末端側に隣接するTSDとが同一である該X塩基の配列のペアをすべて選抜する工程と、
(F)該2種類のサンプルのいずれにも存在する該X/2塩基の配列のペアであって、かつ2種類以上の異なるTSD配列を持つペアを選抜する工程と、
(G)C1およびC2で得られた位置データから、Fにおいて選抜されたペアを出力する工程と
を含む、上記項目のいずれかに記載の方法。
(項目A44) Xが20以上である、上記項目のいずれかに記載の方法。
(項目A45) s1が3以上である、上記項目のいずれかに記載の方法。
(項目A46) s2が20以下である、上記項目のいずれかに記載の方法。
【0007】
本開示において、上記1または複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供され得ることが意図される。本開示のなおさらなる実施形態および利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。
【発明の効果】
【0008】
本開示の方法は、リファレンス配列との比較を行う必要なく、次世代シーケンサーの配列解析のみから、新規の活性のある転移因子の転移を検出できる。塩基配列情報を用いて配列既知のトランスポゾンの転移を検出する手法はいくつか公知であるが、本開示の方法は、配列自体も分からなかった新規の転移因子の新たな転移を正確に捉えることが可能である。
【0009】
リファレンスゲノム配列がまだ存在しない生物の場合でも活性のあるトランスポゾンを見つけることができるので、作物に加えて野菜、果樹、花き等でのトランスポゾン検出とその育種に利用され得る。花きでは斑入りのコントロール、作物、果樹、野菜では、耐病性・耐乾燥性の付与等、収量の増大、食味の向上、収穫時期の改変等の様々な応用が想定される。動物などの分野では、トランスポゾンが関与する種々の特性(例えば、疾患、障害などを含む状態、あるいは、個性に関連する特性等)を特定することや、それに基づく診断、特性改変等に応用することができる。
【図面の簡単な説明】
【0010】
図1図1は、本開示のシステムの実施形態を模式的に示した図である。
図2図2は、本開示のシステムのさらなる実施形態を模式的に示した図である。
図3図3は、本開示の一実施形態に係るアルゴリズム1の方法によって特定される転移配列の模式図である。
図4図4は、本開示の一実施形態に係るアルゴリズム2の方法によって特定される転移配列の模式図である。
図5図5は、レトロトランスポゾンTos17のLTR配置を示す模式図である。
【発明を実施するための形態】
【0011】
以下、本開示を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語および科学技術用語は、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
【0012】
(定義)
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
【0013】
本明細書において「または」は、文章中に列挙されている事項の「少なくとも1つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「2つの値」の「範囲内」と明記した場合、その範囲には2つの値自体も含む。
【0014】
本明細書において、「配列」(sequence)とは、各々が何らかの値を取る複数の変数であって、それら複数の変数の順序の情報をさらに含むものをいう。代表的には文字列で表示される。配列としては、例えば、核酸配列(DNA配列、ヌクレオチド配列などと実質的に同義)、アミノ酸配列(ペプチド配列、タンパク質配列などと実質的に同義)等を挙げることができるがこれらに限定されない。配列を決定することを配列決定またはシーケンシング(またはシークエンシング)等と言うがこれらは同義である。
【0015】
本明細書において、「対象配列」とは、多型を検出しようとする任意の配列をいい、本明細書においては、「ターゲット」、「ターゲット配列」、「target」とも表記する場合がある。本明細書において、「コントロール配列」とは、その配列との差異を多型として検出するための基準として用いられる任意の配列をいい、本明細書においては、「コントロール」、「参照配列」、「比較配列」、「control」とも表記する場合がある。
【0016】
本明細書において、「リファレンス(reference)配列」とは、対象配列および/またはコントロール配列の全長の配列として扱うことができる配列を指す。いかなる配列を全長配列とするかは、対象配列および/またはコントロール配列として用いる配列に応じて適宜決定されるものであり、例示されるものに限定されないが、例えば、ウェブ上のデータベース等に存在する、全ゲノム配列、染色体全長配列、遺伝子全長配列、プラスミド全長配列、エクソン全長配列、タンパク質全長配列などをリファレンス配列として用いることができる。本明細書では、第1の配列、第2の配列など、序数で表示することがあるが、いずれを対象配列と称してもよく、いずれをリファレンス配列と称してもよいが、対象配列とリファレンス配列とは異なる序数が割り当てられることに留意されるべきである。
【0017】
本明細書において「切り出し配列」とは、ある配列の中から、その一部を抜き出す(切り出す)ことによって得られる配列を言う。
【0018】
本明細書において、「配列データ」とは、ある配列についての情報を与えるデータをいう。代表的には、配列そのものも配列データということができ、また、配列の一部について情報を与えるデータ(例えば、ゲノム配列に対するシーケンシングによる解析データ)も配列データとして包含される。
【0019】
本明細書において、ある配列の「部分配列」とは、その配列に含まれる任意の配列をいう。
【0020】
本明細書において、「サブセット」とは、配列の集合と、それらの配列の部分配列の集合とを合わせた集合の任意の部分集合をいう。
【0021】
本明細書において、「次世代シーケンシング」とは、配列決定プロセスを並列化し、一度のランで数千万から数億の配列データを生成するシーケンシング技法である。「次世代シーケンサー」とは、次世代シーケンシングを行うための機器を指す。
【0022】
本明細書において、「偶然同一を排除する」とは、ある配列と、偶然に同一の配列が出現する期待値を1未満にすることをいう。
【0023】
本明細書において、「カバレッジ」とは、配列データの量が、配列全長の何倍に相当しているかを指す。「カバー率」、「~倍の読み」などと称される場合もある。
【0024】
本明細書において、「配列構造体」とは、配列中における、物理的に分離された一連の配列をいう。例えば、ゲノム配列の文脈では、染色体のそれぞれは配列構造体ということができる。
【0025】
本明細書において、「転移」とは、転移因子が配列構造体に挿入されることをいう。
【0026】
(転移因子)
1つの局面において、本開示は新規転移因子およびその同定技術を提供する。
【0027】
本明細書で使用される「転移因子(transposable element)」は、ゲノム上の位置を転移(トランスポジション)できる塩基配列を指す。転移因子には、大きく分けて、DNA断片が直接転移するDNA型と、転写と逆転写の過程を経るRNA型とがあり、狭義のトランスポゾンは前者であり、後者はレトロトランスポゾン(またはレトロポゾン)とも称される。本明細書において、単に「トランスポゾン」と記載する場合は狭義のトランスポゾンに限定されることを意図せず、特に断らない限り、転移因子と同義で用いられるものと理解される。
【0028】
DNA型トランスポゾンが転移するためにはトランスポザーゼ(Transposase)と呼ばれる酵素が必要であり、これはトランスポゾン自身がコードしている。トランスポゾンは末端に逆向きの反復配列を持っており、トランスポザーゼはこの配列を認識してトランスポゾンをゲノム配列から切り出し、そして適当なゲノム配列に再度挿入する。レトロポゾンは転写を受けた後、自身がコードする逆転写酵素によってmRNAからcDNAを作り出し、再度染色体に挿入される。いずれも遺伝子領域に挿入されると変異を引き起こし、DNA型は切り出しの際に周りのDNA配列を削り染色体異常を誘導することもある。また転移が不完全に起こることで染色体にジャンク配列を残す。「RNA型」はいわゆるコピー&ペースト型の移動をするのに対して、「DNA型」はいわゆるカット&ペースト型の移動をする。
【0029】
RNA型の転移因子としては、長い末端反復(LTR)レトロトランスポゾン、内在性レトロウイルス、長鎖散在反復配列(LINE)、短鎖散在反復配列(SINE)、およびプロセシング済み偽遺伝子(PP)として知られる非自律性因子などが挙げられる。DNA型の転移因子としては、DNAトランスポゾンや小型の逆位反復転移因子(MITE)が含まれる。いずれの因子も、新たなゲノムの位置に組み込まれる際、標的となる部位の配列が重複することがあり、この重複を本明細書では、「標的部位重複(Target Site Duplication)」と称し、略称として「TSD」を用いて表記する場合がある。この標的部位重複の長さは、個々の転移因子に特有であることが多い。TSDは、一般に、2~20bp程度の同方向の反復配列である。本明細書ではTSD以外の配列は、「転移因子部分配列」と称することがある。
【0030】
トランスポゾンは真核生物のゲノム配列上に多く存在している。大部分は不活性化されており、これまでは不必要なジャンクと認識されてきたが、ごくまれに、一部トランスポゾンが転移する場合があり、突然変異を引き起こす原因となっている。例えば、赤ワインと白ワインのブドウの色は、アントシアニン合成酵素遺伝子にトランスポゾンが挿入されて活性が失われることで白くなることがわかっている(Science 304:982,2004)。イネのレトロトランスポゾンTos17が転移した変異体の中から、デンプン生合成の遺伝子が変異した系統では、そのデンプン糊化特性を用いた「あきたばらり」、「あきたさらり」などの新品種が育成されている。トランスポゾンの転移を自在にコントロールできれば、様々な遺伝子の機能改変が可能になり産業上の利用価値は高いと考えられるが、活性のあるトランスポゾンを見つけるのは非常に困難であった。
【0031】
活性のあるトランスポゾンを検出する手法としては、逆転写酵素遺伝子等トランスポゾン特有のコンセンサス配列よりプライマーを作成して、その転写産物からトランスポゾンの転移を検出する方法(Hirochika H et al. (1996) Retrotransposons of rice involved in mutations induced by tissue culture, Proc Natl Sci U S A., 93:7783-7788)や着目した遺伝子にたまたま挿入されたトランスポゾンが検出できた例(Nakazaki T et al. (2003) Mobilization of a transposon in the rice genome, Nature 421, 170-172)等がある。分子生物学的な実験的手法での単離となっている。
【0032】
(転移因子の特定方法)
本開示の一実施形態において、転移因子は例えば以下のようにして特定することができる。
アルゴリズム1 (TSD法)
1. A, B 2種類のサンプル由来ショートリードをそれぞれ1塩基ずつずらしながら20塩基+指定されたTSDのサイズで切り出す。
2. 切り出された配列をソートして頻度とあわせて出力する。
3. A、B双方にある配列を除き、A特異的あるいはB特異的な配列を選ぶ。
4. 選んだ配列をTSD配列Head配列、および、Tail配列 TSD配列として、候補になりうる配列をそれぞれ出力する。
5. HeadおよびTailとTSDの組み合わせの配列より、TSDが2種類以上あるHeadおよびTail配列のデータセットを選ぶ。
6. TSDが同じであるHeadとTail配列のすべての組み合わせを作る。
7. AおよびBに対する、Head_TailとTSDを一行に出力してソートしたファイルをつくる。
8. HeadあるいはTail配列で、A,C, G, Tのいずれかの塩基が1以下の配列は除外する。
9. 着目したHead_Tailペアに対するTSDが、A特異的あるいはB特異的なTSD配列の割合がthを超える値(例えば、thは0.2であり、この場合、プログラム上はth > 0.2で設定)になったHead_Tailペアを選ぶ。
10. リファレンス配列が存在している場合は、検出されたHeadおよびTail配列の隣接配列をマップして、ゲノム上の挿入位置を割り出す。
11. リファレンス配列が存在していない場合は、挿入が検出されたサンプルとは別のサンプル配列で、想定された挿入部位に対応する配列に、挿入がないことを確認する。
【0033】
この手法を用いる場合、thは代表的に0.1以上の値であり、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0等であってもよく、通常0.7で概ね良好な結果を得ることができる。もちろん、th> 0.7では条件が厳しすぎて何も検出できない場合には、閾値を下げて計算することができる。例えば、ショウジョウバエのPエレメントの検出例では、TSDサイズを8にして、th> 0.2に下げることで転移の検出ができることが本実施例に示されている。
【0034】
またリファレンス配列が存在しない場合、別のサンプルの当該配列に転移因子の挿入がなければ、転移があったことの証明とすることができる。例えばイネのゲノムは2倍体であるため、転移直後の世代では、新たな転移の遺伝子型はヘテロ型となり、挿入が検出されたサンプルの配列の中にも挿入のない配列が検出できる。またttm2とttm5の場合は、4回自殖を行ったF4世代のため、転移部分がホモ型の部分も存在する。このような場合は、転移が検出された個体とは別の個体の配列で確認することができる。
【0035】
一実施形態において、リファレンス配列が存在しない生物の配列解析の場合、検出された転移因子の末端候補配列をクエリにして、2個体以上の配列に対して検索をかけ転移の証拠を検出することができる。
【0036】
一実施形態において、リファレンス配列が存在する場合、リファレンス配列のすべての位置の20塩基の配列に対して、挿入隣接配列を検索して挿入位置を特定することもできる。これにより、リピート領域への挿入位置の特定もすることができる。
【0037】
転移因子がゲノムDNA配列上に転移し、挿入されると標的部位に数塩基の重複ができる(図3a)。アルゴリズム1の場合には、この転移因子が挿入された配列を一定長で細切れにし、その中には転移因子の5’末端および3’末端に隣接する標的部位重複(TSD)を含む配列が存在することとなり、またTSD配列は挿入した部位ごとに異なるため、TSD配列でグループ化すると転移因子の5’および3’末端配列を検出することができる(図3b)。
【0038】
また本開示の一実施形態においては、以下のようにして転移因子を特定することができる。
アルゴリズム2 (ジャンクション法)
1. A, B 2種類のサンプル由来ショートリードをそれぞれ1塩基ずつずらしながら40塩基のサイズで切り出す。
2. 切り出された40塩基の配列をソートして頻度とあわせて出力する。
3. AあるいはB特異的な40塩基配列を抽出する。
4. 前半の20塩基の配列に対応するゲノムの位置を求める。この時、AC,AG, AT, TC, TGの9回以上の繰り返し配列が含まれる場合は、除外する。
5. 後半の20塩基の配列に対応するゲノムの位置を求める。AC,AG, AT, TC, TGの9回以上の繰り返し配列が含まれる場合は、除外する。
6. 前半、後半20塩基のデータを染色体別に分けた後、位置でソートする。
7. ソートされたデータより、それぞれのジャンクション位置がずれてTSDを形成し、かつTSDのサイズが4以上10以下のデータを出力する。
8. TSDが複数種類あるheadとtailのペアを選ぶ。
9. AおよびBの双方に存在するheadとtailのペアで、2つ以上の異なるTSD配列を持つペアを選ぶ。
10. マップされたデータから選ばれたheadとtailのペアのものを選択して出力する。
【0039】
この場合、切り出す塩基数は40塩基長に限られるものではなく、任意の長さとすることができる。例えば、20塩基長以上の長さで切り出すことができる。また一実施形態において、ステップ4および5において、切り出した塩基長を前半部分および後半部分にわける場合には、前半部分と後半部分とにわけてそれぞれのリファレンス配列上の位置を求めればよく、必ずしも半分で分ける必要はない。
【0040】
一実施形態において、切り出した塩基長を前半部分および後半部分の半分の位置でわける場合には、それぞれの塩基長が同じになるため、同じ長さに細分化して位置データとペアになったリファレンスデータと完全一致で検索することができる。
【0041】
アルゴリズム2の場合には、切り出した配列の前半または後半部分におけるTSDを見出し、その隣接する部位に存在するトランスポゾンを検出することができる(図4。切り出し配列のそれぞれについて、出現順に、個体Aの上から下に、次いで個体Bの上から下にかけて配列番号29~40)。
【0042】
またレトロトランスポゾンは、一般に両末端にLong terminal repeat (LTR)と呼ばれる重複配列を持っている。このため、トランスポゾンの5’末端付近の配列は下流側のLTRにも存在し、3’末端付近の配列は上流側のLTRの3’端にも同一配列が存在する(図5)。
【0043】
アルゴリズム1は、TSDの長さを指定して解析することができる。このためTSD長を1塩基ずつ変化させて同じ解析を繰り返すことになる。アルゴリズム2は、40塩基の配列の最初の20塩基と残りの20塩基をゲノム上にマップしてジャンクションを検出してから、TSDの突合を行うので最初にTSDの長さの指定を行う必要はない。
【0044】
またアルゴリズム1は、リファレンス配列がない場合も、2つの検体由来の配列同士を比較して転移因子の転移が検出できる。アルゴリズム2は最初にリファレンス配列にマッピングし、リファレンス上にオリジナルの転移因子が存在する。活性のある転移因子が含まれる個体からのリファレンス配列の作成は転移した転移因子配列部分でアセンブルに矛盾が生じるため困難を伴う。結果的にリファレンス配列では、普段は転移因子の転移活性が存在しない個体が選ばれる可能性が高い。アルゴリズム2は、イネのTos17のように特別な環境下のみで活性化されて転移する転移因子の検出に適用できる。
【0045】
したがって、本開示の一つの局面において、配列(例えば、核酸配列)中の転移因子を特定する方法が提供される。転移因子は、転移するときに数塩基の標的部位重複(TSD)を生じさせることが知られている。そのため、転移した転移因子の両末端は配列が保存されていると考えられる。本開示の方法は、少なくとも部分的には、そのことを手掛かりとして、配列中の転移因子を検出することができる。本開示の方法は、リファレンスゲノム配列の情報を必要とすることなく、転移因子を検出できる。例えば、次世代シーケンサーのショートリードの解析から、転移因子を検出することができる。本開示の方法は、配列未知の転移因子の検出に使用可能である。また、本開示の方法は、実際に転移を起こしている活性な転移因子を検出し得る。
【0046】
ある局面において、本開示において、配列中の転移因子を特定する方法であって、
(A)第1のゲノム配列データおよび第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(B)切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列とTSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(C)選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(D)対応する転移因子部分配列を有する切り出し配列のペアから、第1のゲノム配列データからの切り出し配列のセットと、第2のゲノム配列データからの切り出し配列のセットとにおいて、TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップとを含む、方法が提供され得る。
【0047】
本開示のこの局面において、複数のゲノム配列データを比較して、その間で転移を起こしている転移因子が検出される。代表的には、第1および第2のゲノム配列データを比較するが、2つ超のゲノム配列データ間での比較を行ってもよい。例えば、2、3、4、5、8、10またはそれら超のゲノム配列データを使用し得る。例えば、約10、約15、約20、約50、約100、約200、約500、約1000、またはそれら超のゲノム配列データを使用し得る。本開示の1つの実施形態として、第1のゲノム配列データおよび第2のゲノム配列データの両方(またはどちらか)に、異なる由来の複数のゲノム配列データを混合して解析することが可能である。
【0048】
ゲノム配列データは、リファレンスゲノム配列であってもよく、ゲノム配列のシーケンシングデータであってもよい。ゲノム配列データは、データベース等に記録されているものを使用してもよく、新規に配列決定を行って得てもよい。
【0049】
一つの実施形態では、切り出し配列のセットの生成は、ゲノム配列データ中の配列のそれぞれを、開始位置を一塩基ずつずらしながら一定長の配列を取得することによって行い得る。一定長としては、例えば、17~50塩基長の範囲内を使用することができる。一定長の例としては、20塩基+TSDのサイズが挙げられ、例えば、23、24、25、26、27、または28塩基長が挙げられる。一定長を17塩基以上とすると、切り出し配列における偶然一致の可能性を排除することができると考えられる。また、一定長は長いほど精度は高くなると考えられるが、長くなると扱うデータ量が多くなる。大きなデータを扱うことができる環境では問題ないが、およそ35~50塩基長を上限とするのが好ましい。一定長としては、例えば、10~100の範囲内の塩基長が挙げられ、例えば、10~20、20~30、30~40、40~50、50~60、60~70、70~80、80~90または90~100の範囲内の塩基長が挙げられる。またTSDのサイズは任意の長さとすることができ、例えば3~20塩基とすることができる。
【0050】
ある実施形態では、切り出し配列のセットを生成するステップは、第1のゲノム配列データおよび/または第2のゲノム配列データの相補鎖について前記一定長の配列を1塩基ずつずらして切り出すことを含んでもよい。配列データが十分量ある場合は、必ずしも必要ではないが、相補鎖の切り出し配列を解析に含めることによって、配列データ量が少ない場合に検出感度を上げることができる。
【0051】
ある実施形態では、切り出し配列のセットは、一定長の配列の集合となる。この集合の全体を用いて解析してもよいが、この中から、必要に応じて一部の配列を解析から除外してもよい。配列を解析から適切に除外することは、配列決定時のエラーの影響を回避する他、計算量の減少につながり、膨大なデータを扱う上で有利であり得る。本開示において、切り出し配列中に、不明の塩基(一般にNと表される)などが含まれる場合に、解析から除外してもよい。
【0052】
本開示のある実施形態において、方法は、一定長の切り出し配列のセットから、同一の切り出し配列の頻度を計算するステップをさらに含んでよい。さらに、本開示の方法において、一定以下の頻度の切り出し配列を除外するステップがさらに含まれ得る。好ましくはショートリードのゲノム配列を用いる場合に一定以下の頻度の切り出し配列を除外することができ、アセンブルされたゲノム配列を用いる場合には一定以下の頻度の切り出し配列を除外する必要はない。同一の切り出し配列の頻度の計算は、例えば、切り出し配列を辞書順にソートすることによって行うことができる。また、同一の配列の個数が一定以下の配列を、シーケンサーのエラーが含まれている可能性が高いものとして解析から除外することができる。基準とする頻度は、配列データ量と対象生物のゲノムサイズとのバランス(シーケンスのカバレッジ)を考慮して決定することができる。例えば、シーケンスのカバレッジが40の場合、同一の配列が1、2、3、4、または5個以下の時に解析から除外することができる。イネにおいては経験的に同一の配列が5個以下の時に解析から除外することにより、ノイズの偶然一致をほぼ排除することができる。他の実施形態において、シーケンスのカバレッジは任意の値をとることができ、例えばシーケンスのカバレッジを20とすることもできる。
【0053】
ある実施形態では、本開示の方法は、第1のゲノム配列データからの切り出し配列のセットと、第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列を選抜するステップを含み得る。転移を起こしたトランスポゾンでは、トランスポゾンの配列が保存されているものの、TSD配列の部分が異なっていると考えられることから、転移を起こしたトランスポゾンの末端とTSD配列を含んでいる切り出し配列は、各ゲノム配列データに特異的となると考えられる。そのため、ここで選抜された切り出し配列の中にトランスポゾンの末端とTSD配列のセットが含まれると考えられる。この選抜は、上記のステップ(B)の前に行うことができる。異なる切り出し配列としては、代表的には、第1のゲノム配列データからの切り出し配列のセットに存在し、第2のゲノム配列データからの切り出し配列のセットに存在しないか、または、第2のゲノム配列データからの切り出し配列のセットに存在し、第1のゲノム配列データからの切り出し配列のセットに存在しない切り出し配列である。ただし、第1のゲノム配列データからの切り出し配列のセットに多数存在し、第2のゲノム配列データからの切り出し配列のセットに少数しか存在しないか、または、第2のゲノム配列データからの切り出し配列のセットに多数存在し、第1のゲノム配列データからの切り出し配列のセットに少数しか存在しない切り出し配列についても、異なる切り出し配列として考え得る。例えば、切り出し配列の存在量が、少なくとも約2倍、少なくとも約5倍、少なくとも約10倍、少なくとも約20倍、少なくとも約40倍、少なくとも約50倍、少なくとも約100倍、少なくとも約200倍、少なくとも約500倍、または少なくとも約1000倍、あるいはそれ超異なっている場合に、第1のゲノム配列データからの切り出し配列のセットと、第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列として扱うことが可能である。TSDが短い場合には、偶然一致するものが出現する可能性が高くなるため、一方で完全に存在しない配列に加えて、存在量の差が一定以上の配列を考慮することが好ましい場合がある。例えば、3塩基のTSDは組み合わせが64種となり、相当量の偶然一致が生じると考えられ、より網羅的に転移因子を検出するためには、存在量の差が約5倍程度の配列まで考慮してもよい。
【0054】
一つの実施形態では、ステップ(B)の5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアの選抜は、第1のゲノム配列データからの切り出し配列のセットと、第2のゲノム配列データからの切り出し配列のセットとで異なる切り出し配列の中から行うことができる。これにより、ペアの検出に必要となる莫大な計算量を大きく低減することができる。
【0055】
本開示の方法は、ある実施形態において、切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップを含み得る。n塩基長は、TSDの可能な長さに鑑みて、例えば、3~20の範囲(すなわち、3、4、5、6、7、8,9、10、11、12、13、14、15、16、17、18、19、20)、例えば、3~10の範囲(すなわち、3、4、5、6、7、8,9、10)で設定することができる。本開示の方法は、nとして設定した塩基長のTSDを有する転移因子の検出に有効であると考えられるため、本開示の方法のステップ(例えば、上述のステップ(B)~(D))を、nを変更して繰り返すステップをさらに含んでよい。
【0056】
切り出し配列をTSDに該当する配列と転移因子部分配列とに区別する工程は、ある切り出し配列から、5’側からのn塩基長の配列とそれ以外の部分の配列とのセット、および3’側からのn塩基長の配列とそれ以外の部分の配列とのセットを生成することによって行うことができる。一般にTSDは同方向の反復であるため、5’側からのn塩基長の配列の5’→3’方向の配列と、3’側からのn塩基長の配列の5’→3’方向の配列をそのまま比較して、5’末端のTSDと3’末端のTSDとが同一であるかどうかを判断することができる。
【0057】
ある実施形態では、上記の5’末端のTSDと3’末端のTSDが同一である配列のペアのうち、ゲノム配列データ間で、(i)転移因子部分の配列が対応しており;(ii)TSD部分の配列が異なる、という2つの条件を満たすペアを選抜することによって、実際の転移因子に対応する切り出し配列のペアを検出することができると考えられる。
【0058】
特定の実施形態では、本開示の方法は、選抜された5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップをさらに含み得る。対応する転移因子部分配列としては、例えば、少なくとも約90%の同一性を有する転移因子部分配列、少なくとも約95%の同一性を有する転移因子部分配列、少なくとも約97%の同一性を有する転移因子部分配列、少なくとも約98%の同一性を有する転移因子部分配列、少なくとも約99%の同一性を有する転移因子部分配列、または同一の転移因子部分配列が挙げられる。転移した時点で転移因子部分の配列に変異が入ることがあるため、それを考慮して処理を行ってもよいが、それを考慮から除外し、完全一致する転移因子部分配列のみを考慮する場合、計算量を削減し計算に要する時間を大幅に低減することも可能である。
【0059】
ある実施形態ではさらに、本開示の方法は、対応する転移因子部分配列を有する切り出し配列のペアから、第1のゲノム配列データからの切り出し配列のセットと、第2のゲノム配列データからの切り出し配列のセットとにおいて、TSDが異なる配列を有する切り出し配列のペアを選抜するステップを含み得る。このステップにて選抜されたペアを、転移因子対応ペアとすることが可能である。本明細書において、「転移因子対応ペア」とは、転移因子の末端とその外側のTSDとを含んでいると考えられる一定長切り出し配列のペアをいう。例えば、それぞれの切り出し配列をリファレンス配列上に位置付けたり、ゲノム配列データからそれぞれの切り出し配列の間の領域の配列を決定することができる。これにより本開示の方法において、転移因子対応ペアに基づいて、転移因子配列を特定するステップをさらに含んでよい。
【0060】
異なるTSD配列としては、代表的には、第1のゲノム配列データからの切り出し配列のペアに存在し、第2のゲノム配列データからの切り出し配列のペアに存在しないか、または、第2のゲノム配列データからの切り出し配列のペアに存在し、第1のゲノム配列データからの切り出し配列のペアに存在しないTSD配列である。ただし、第1のゲノム配列データからの切り出し配列のペアに多数存在し、第2のゲノム配列データからの切り出し配列のペアに少数しか存在しないか、または、第2のゲノム配列データからの切り出し配列のペアに多数存在し、第1のゲノム配列データからの切り出し配列のペアに少数しか存在しないTSD配列についても、異なるTSD配列として考え得る。例えば、あるTSD配列の存在量が、少なくとも約2倍、少なくとも約5倍、少なくとも約10倍、少なくとも約20倍、少なくとも約40倍、少なくとも約50倍、少なくとも約100倍、少なくとも約200倍、少なくとも約500倍、または少なくとも約1000倍、あるいはそれ超異なっている場合に、第1のゲノム配列データからの切り出し配列のペアと、第2のゲノム配列データからの切り出し配列のペアとで異なるTSD配列として扱うことが可能である。大半のTSDの配列が第1のゲノム配列データと第2のゲノム配列データで異なる場合はトランスポゾンの確率が高いと考えられる。ただし、ほとんどのTSDが双方で検出されても、ごく少数、例えば1つだけ異なるものが検出された場合も、非常に低頻度で転移した結果の場合があるので、そのような場合についても検出してよい。
【0061】
さらなる実施形態では、転移因子配列の候補が特定されれば、既知の方法を必要に応じてさらに利用して、転移因子の転移活性を確認するステップをさらに行うことができる。転移因子の転移活性の確認は、例えば、転移因子の転移が生じていると考えられる試料の間で解析を行うことによって行い得る。例えば、転移因子の転移活性の確認が、PCR、配列決定、およびハイブリダイゼーションから選択される1つ以上を含む手法によって行い得る。転移因子の確認は、当技術分野で知られる他の転移因子検出技術を併せて行うことによってもよい。他の転移因子検出技術としては、例えば、Transposon Insertion Finder(TIF)(Nakagome M, Solovieva E, Takahashi A, Yasue H, Hirochika H, Miyao A (2014) Transposon Insertion Finder (TIF): a novel program for detection of de novo transpositions of transposable elements. BMC Bioinformatics 5:71. doi:10.1186/1471-2105-15-71)などが挙げられる。
【0062】
(模式的な実施形態)
本項目にて、転移因子の検出の方法の模式的な例を示す。本項目は、例示の目的で記載するものであり、本開示の方法の限定を意図するものではない。
TSDを5塩基と仮定して、トランスポゾン両末端(それぞれ20塩基)とTSD(5塩基)に着目すると、転移したトランスポゾン由来の配列は、ゲノム上では、
【化1】
と表される形で存在していると考えられる。当該模式図中、「_」はトランスポゾンの外側の塩基配列、「+」および HeadとTail部分に該当する塩基配列はトランスポゾンの塩基配列を示している。そのゲノムに対するシーケンシングによって得られた配列データのうち、すべてのショートリードの、すべての塩基を開始位置にして25塩基を切り出すと、その中には、TSD-HeadとTail-TSDが含まれると考えられる。トランスポゾンの転移は独立のイベントであるため、2つの個体の配列を比較した場合、同じトランスポゾンの転移でもTSDの配列は異なる。したがって、25塩基の配列(TSD5塩基とHeadあるいはTailの20塩基)からHeadとTailが同じ配列で、TSDが個体間で異なる25塩基のセットが得られれば、そのセットは転移したトランスポゾンの両末端とTSDのセットであると考えられる。
【0063】
(ゲノム配列データ)
特定の実施形態では、本開示において、ゲノム配列データとして、転移因子の転移によって差異が生じている可能性がある2つ以上のゲノム配列データを用いることができる。転移因子は、細胞のゲノム内で転移し得るため、ゲノム配列データとして、同一の個体の異なる細胞に由来するゲノム配列データを使用し得る。本開示において単一細胞に由来するゲノム配列データを使用してもよい。
【0064】
本開示における第1および第2のゲノム配列データの由来の組み合わせの例としては、例えば、ある個体の第1の細胞および第2の細胞、ある個体の第1の組織および第2の組織、ある生物種の第1の個体および第2の個体、ある生物種の第1の集団と第2の集団、第1および第2の条件下でのある個体、第1および第2の条件下でのある細胞などが挙げられる。
【0065】
本開示のゲノム配列データの由来となる生物種としては、生物学的配列を有するものである以上は何ら制限されない。一部を例示すると、動物としては、ヒトもしくは非ヒト哺乳動物(例えば、マウス、ラット、ウサギ、ヒツジ、ブタ、ウシ、ウマ、ネコ、イヌ、サル、チンパンジー)、鳥類、爬虫類、両生類、魚類等の脊椎動物、無脊椎動物、例えば、昆虫、線形動物などを挙げることができる。植物としては、イネ、コムギ、トウモロコシ、ジャガイモ、オオムギ、サツマイモ、ソバ、シロイヌナズナ、ミヤコグサ、トマト、キュウリ、キャベツ、白菜、ナス、サトウキビ、ソルガム、リンゴ、ミカン、バナナ、桃、ポプラ、松、杉、被子植物、裸子植物、シダ、コケ、藻類などを挙げることができる。その他、真菌、細菌、ウイルス等でもよい。これらの生物の一部分、例えば、組織、細胞等に由来するゲノム配列データを解析し、転移因子を検出してもよい。
【0066】
1つの実施形態では、本開示の方法で用いるゲノム配列データは、シーケンシングによって得られた塩基配列データである。シーケンシングの手法としては、サンガー法、マクサム・ギルバード法、単一分子リアルタイムシーケンシング(例えば、Pacific Biosciences、Menlo Park、California)、イオン半導体シーケンシング(例えば、Ion Torrent、South San Francisco、California)、パイロシーケンシング(例えば、454、Branford、Connecticut)、ライゲーションによるシーケンシング(例えば、Life Technologies、Carlsbad、CaliforniaのSOLiDシーケンシング)、合成および可逆性ターミネーターによるシーケンシング(例えば、Illumina、San Diego、California)、透過型電子顕微鏡法などの核酸イメージング技術、ナノポアシーケンシングなどがある。
【0067】
1つの実施形態では、本開示の方法で用いるゲノム配列データは、次世代シーケンシングによって得られた配列データであり得る。次世代シーケンシングとしては、シーケンシングバイシンセシス、パイロシーケンシング、ライゲーションによるシーケンシング、イオン半導体シーケンシング、ナノポアシーケンシングが挙げられる。次世代シーケンシングデータからの転移因子の相違を含めた多型の検出においては、リファレンスへのマッピングやアセンブリによって精度が制限されていたため、本開示の方法を用いた場合に大きな利益が得られると考えられる。
【0068】
本開示のゲノム配列データは、上述のいずれかのゲノム配列データをデータベース等から取得して使用してもよく、新たに配列決定を行って使用してもよい。ゲノム配列データとして、シーケンサーからの出力そのもの(リード)の集合、リードをまとめたコンティグの集合、コンティグをさらに繋ぎあわせたスキャフォールド、またはゲノム配列そのもの、あるいはそれらの任意の組み合わせを使用し得る。
【0069】
(プログラム、記録媒体およびシステム)
1つの実施形態において、配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムであって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、プログラムが提供される。プログラムはどのような言語で記述されてもよい。
【0070】
別の実施形態において、配列中の転移因子を特定する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法が、
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む、記録媒体が提供される。プログラムはどのような言語で記述されてもよい。1つの実施形態では、記録媒体は、内部に格納され得るROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置でありうる。記録媒体は、非一時的であり得る。
【0071】
別の実施形態において、配列中の転移因子を特定するためのシステムであって、該システムは、1つ以上のプロセッサと、メモリと、プログラムを格納する記録媒体とを備え、該プログラムは、該1つ以上のプロセッサによって実行されると、以下:
(a)第1のゲノム配列データおよび第2のゲノム配列データを受け取るステップと、
(b)該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成するステップと、
(c)該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜するステップと、
(d)該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜するステップと、
(e)該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップと
を含む方法を実装する、システムが提供される。プログラムはどのような言語で記述されてもよい。1つの実施形態では、記録媒体は、内部に格納され得るROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置でありうる。記録媒体は、非一時的であり得る。
【0072】
次に、図1の機能ブロック図を参照して、本開示のシステム1の構成を説明する。なお、本図においては、単一のシステムで実現した場合を示しているが、複数のシステムで実現される場合も本開示の範囲に包含されることが理解される。
【0073】
本開示のシステム1000は、コンピュータシステムに内蔵されたCPU1001にシステムバス1020を介してRAM1003、ROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置1005及び入出力インターフェース(I/F)1025が接続されて構成される。入出力I/F1025には、キーボードやマウスなどの入力装置1009、ディスプレイなどの出力装置1007、及びモデムなどの通信デバイス1011がそれぞれ接続されている。外部記憶装置1005は、情報データベース格納部1030とプログラム格納部1040とを備えている。何れも、外部記憶装置1005内に確保された一定の記憶領域である。
【0074】
このようなハードウェア構成において、入力装置1009を介して各種の指令(コマンド)が入力されることで、又は通信I/Fや通信デバイス1011等を介してコマンドを受信することで、この記憶装置1005にインストールされたソフトウェアプログラムがCPU1001によってRAM1003上に呼び出されて展開され実行されることで、OS(オペレーションシステム)と協働してゲノム配列データにおいて転移因子を検出する方法の機能を奏するようになっている。もちろん、このような協働する場合以外の仕組みでも本開示を実装することは可能である。
【0075】
特定の実施形態において、本開示の実装のために、ゲノム配列データは、入力装置1009を介して入力され、あるいは、通信I/Fや通信デバイス1011等を介して入力されるか、あるいは、データベース格納部1030に格納されたものであってもよい。特定された切り出し配列のペアのデータは、出力装置1007を通じて出力されるかまたは情報データベース格納部1030等の外部記憶装置1005に格納されてもよい。次に、配列の切り出し、比較および/または選抜は、プログラム格納部1040に格納されたプログラム、または、入力装置1009を介して各種の指令(コマンド)が入力されることで、又は通信I/Fや通信デバイス1011等を介してコマンドを受信することで、この外部記憶装置1005にインストールされたソフトウェアプログラムによって実行することができる。結果は、出力装置1007を通じて出力されるかまたは情報データベース格納部1030等の外部記憶装置1005に格納されてもよい。
【0076】
データベース格納部1030には、これらのデータや計算結果、もしくは通信デバイス1011等を介して取得した情報が随時書き込まれ、更新される。各入力配列セット中の各々の配列、参照データベースの各遺伝子情報ID等の情報を各マスタテーブルで管理することにより、蓄積対象となるサンプルに帰属する情報を、各マスタテーブルにおいて定義されたIDにより管理することが可能となる。
【0077】
また、プログラム格納部1040に格納されるコンピュータプログラムは、コンピュータを、上記した処理システム、例えば、転移因子の検出などの処理を実施するシステムとして構成するものである。これらの各機能は、それぞれが独立したコンピュータプログラムやそのモジュール、ルーチンなどであり、上記CPU1001によって実行されることでコンピュータを各システムや装置として構成させるものである。なお、本開示の例示においては、それぞれのシステムにおける各機能が協働してそれぞれのシステムを構成しているものとするが、この処理のためのプログラムもまた、それぞれ外部記憶装置または通信デバイスまたは入力装置を介して提供されうる。
【0078】
また、図2に示されるように、クラスター構造を有する計算システムによって本開示の方法を実装してもよい。1つの実施形態では、システムはクラスター構成であり、ヘッドとノードからなる。ノードは検索の高速化を図るため、主記憶装置にSSDを用いることができる。1つの実施形態では、ヘッド1台に対して複数のノード(例えば12台)で運用することができる。1つの実施形態では、計算システムはクラスター構造を持ち、主コンピュータ(クラスターヘッド)に大容量記憶装置(HDD)を搭載して解析データおよび結果を保存する。クラスターヘッドより、分割したデータを各ノードに送り計算を実行し、結果をクラスターヘッドに集約する。クラスターヘッド、ノード共に、中央制御素子(CPU)、メモリ(RAM)を搭載し、通信インターフェース(NIC)を介してデータの通信を行い得る。ノードには高速での検索処理をするため、ソリッドステートドライブ(SSD)を主記憶装置とすることができる。各ノードに搭載されるCPU、RAM、SSD等は、他のノードと共有されてもよく、物理的に分離していてもよい。
【0079】
別の局面において、本開示は、配列中の転移因子を特定するためのシステムを提供し、このシステムは、(A)第1のゲノム配列データおよび第2のゲノム配列データを受け取る配列データ受信部と、(B)該配列データ受信部で得られた該第1のゲノム配列データおよび該第2のゲノム配列データから、一定長の配列を1塩基ずつずらして切り出し、第1のゲノム配列データからの切り出し配列のセットと第2のゲノム配列データからの切り出し配列のセットを生成し、該切り出し配列のそれぞれを、n塩基長の標的部位重複(TSD)に該当する配列と該TSD以外の配列(転移因子部分配列)とに区別し、5’末端のTSDと3’末端のTSDとが同一である切り出し配列のペアを選抜し、該選抜されたペアから、対応する転移因子部分配列を有する切り出し配列のペアを選抜し、該対応する転移因子部分配列を有する切り出し配列のペアから、該第1のゲノム配列データからの切り出し配列のセットと、該第2のゲノム配列データからの切り出し配列のセットとにおいて、該TSDが異なる配列を有する切り出し配列のペアを転移因子対応ペアとして選抜するステップを実行する転移因子対応ペア選抜部と、(C)該転移因子対応ペアを表示する、表示部とを含む。
【0080】
この局面では、配列データ受信部は、入出力I/F1025に含まれる入力装置1009などにより実現されることができ、表示部はディスプレイなどの出力装置1007により実現される。転移因子対応ペア選抜部は、上記方法の実装方法のいずれの実施形態で実現されることができ、例えば、プログラム格納部1040に格納されるコンピュータプログラムは、コンピュータを、上記した処理システムとして機能させることにより、転移因子対応ペア選抜部の機能を実現することができる。
【0081】
(特定された転移因子)
本開示のさらなる局面において、本開示の方法によって特定された転移因子の少なくとも一部(全部であってもよい)の配列を有する核酸が提供される。核酸は、転移因子における転移酵素の認識配列を有し得る。ゲノム配列中で実際に活性である転移因子の転移に関する要素を特定し、それを含む核酸を導入することで、ゲノム配列への変異の導入のために使用可能であると考えられる。ゲノム配列中で実際に活性である転移因子の転移に関する要素を特定し、それを含む核酸を導入することで、転移因子の転移による遺伝子破壊のために使用可能であると考えられる。あるいは、ゲノム配列中で実際に活性である転移因子の転移に関する要素を特定し、それを含む核酸を導入することで、転写の制御に使用可能であると考えられる。転移因子は、全ゲノムにアトランダムに転移するので、挿入変異系統の作出のために用いて、ゲノム全体にわたる挿入変異系統を作出することが可能である。
【0082】
また、本開示において、ある特定の条件で活性化されて転移する転移因子を使用することもできる。例えば、Tos17は培養時のみに活性化されて転移するが、培養細胞から植物体に再分化するとTos17は不活性化されてそれ以上転移しなくなる。ある特定の条件下とそれ以外の条件下とでの同一個体からDNAを抽出して本開示の解析を行い、転移因子が検出されれば、かかる転移因子は、特定の条件で転移する転移因子の候補と考えられる。
【0083】
得られた転移因子の応用例としては、例えば、麹菌トランスポゾン(例えば、https://www.jstage.jst.go.jp/article/jbrewsocjapan/105/6/105_6_334/_pdf)があげられる。
ここでは、トランスポゾン活性を利用した実用麹菌株育種への応用を行うことができ、本開示の技術を応用することができる。
【0084】
また、レトロトランスポゾンを利用したサツマイモ加工品などの加工品の原料品種判定も可能である。例えば、育種学研究6 : 169~177 (2004)(https://www.jstage.jst.go.jp/article/jsbbr/6/4/6_4_169/_pdf)でも触れられているように、レトロトランスポゾンの複製配列はゲノム中に多数散在しており、優れた遺伝子マーカーとなることが知られていることから、レトロトランスポゾンをマルチローカスプローブとして用いると,日本型イネ6品種とインド型イネ6品種のすべての品種同定が可能であるとされており、これらの技術を応用して加工品から、原料品種の判定をすることができる。
【0085】
また、衣料革命から医療革命へ進化する「カイコ技術」(https://www.yakult.co.jp/healthist/213/img/pdf/p02_07.pdf)で紹介されているように、昆虫の効率よい遺伝子組み換えのための本開示で同定されるトランスポゾンを応用することができる。さらに、イオンビーム育種技術の特長と産業利用(https://katosei.jsbba.or.jp/download_pdf.php?aid=268)で紹介されているように、花などの植物の改変を行うことができ、そのイオン照射により改変を強化することができる。
【0086】
また、トランスポゾンを用いた網羅的変異マウス作製によるゲノム機能の解析を行うことができ(例えば、http://lifesciencedb.jp/houkoku/pdf/A-42_final.pdf)、この技術を本開示のトランスポゾンに応用することができる。
【0087】
(応用)
本開示で提供される転移因子を同定する技術を用いて、転移因子が関係する事象の検査や同定に用いることができる。
【0088】
例えば、脳の認知機能の診断や分析を行うことができる(例えば、脳の認知機能に重要なレトロトランスポゾン由来の獲得遺伝子を発見(http://www.tmd.ac.jp/mri/press/press29/index.html)の報告を参照)。ここでは、例えば、哺乳類の脳における注意や認識といった反応に、LTRレトロトランスポゾン由来の遺伝子「SIRH11/ZCCHC16」が重要な役割を果たしていることが実証されており、本開示の方法を用いて、このような認知機能の検査や分析を行うことができる。
【0089】
また、DNA変異の同定や分析にも用いることができる(例えば、DNA」がDNA上を移動する仕組みを解明-宿主因子を巧妙に利用した移動戦略-(http://www.kyoto-u.ac.jp/ja/research/research_results/2019/190829_1.html)を参照。また、Miyoshi T. et al., Molecular Cell, Volume 75, ISSUE 6, P1286-1298(https://doi.org/10.1016/j.molcel.2019.07.018)も参照。)。LINEは、癌化に関与するDNA変異の抑止につながるとされており、本開示を直接または間接に応用することができる。
【0090】
また、脳の分析については、神経系の形成などの分析にも用いることができる(例えば、成体の脳内で新しい神経をつくり出す力-産業技術総合研究所(https://www.aist.go.jp/Portals/0/resource_images/aist_j/aistinfo/aist_today/vol10_05/vol10_05_p12.pdf)。個々で報告されているように、進化の過程で哺乳類になって爆発的にゲノムに含まれる割合を増やしたものが「レトロトランスポゾン」という動く遺伝子で、Wnt3aシグナルが活性化すると、レトロトランスポゾン配列も活性化することが報告されており、レトロトランスポゾン配列の近隣にある遺伝子も、その影響を間接的に受けて発現量が左右され、神経疾患に関連する遺伝子や、神経の機能を調節する重要な遺伝子があるとされており、本開示を用いることで診断や検査にも応用し得ることが示唆される。
【0091】
また、Chen, JM., Stenson, P.D., Cooper, D.N. et al. Hum Genet (2005) 117: 411.(https://link.springer.com/article/10.1007%2Fs00439-005-1321-0 )およびW’ Waves Vol. 17 No. 1 2011(http://www.npo-jsct.umin.jp/wwaves/WWAVES%20Vol.17_p044.pdf)に報告されているように、Line-1というレトロトランスポゾンの転移で様々な遺伝病が引き起こされていることが示されており(表2)、本開示の手法は、これらの疾患(遺伝病)の診断へ応用することができることが理解される。このように、Line-1の遺伝病や癌との関係が説明されており、本開示の手法は、これらの応用が可能である。
【0092】
(一般技術)
本明細書において用いられる分子生物学的手法、生化学的手法、微生物学的手法、バイオインフォマティクスは、当該分野において公知であり、周知でありまたは慣用される任意のものが使用され得る。
【0093】
本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
【0094】
以上、本開示の理解を容易にするために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本開示を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本開示を限定する目的で提供したのではない。従って、本開示の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
【実施例
【0095】
以下に実施例を記載する。以下の実施例で用いる生物の取り扱いは、必要な場合、実施機関および監督官庁において規定される基準を遵守した。プログラム言語については以下に示した実施例においてはperlを用いているが、これ以外に他のプログラム言語を用いても同様の結果を得ることができる。
【0096】
(一般的情報処理)
以下に、本実施例にて行った配列情報処理の手順を説明する。対象とする生物または個体について、2つのゲノム配列データ(ここでは、次世代シーケンサーによる配列決定データ)を用意し、以下の手順で解析を行った。
【0097】
1.次世代シーケンサーの配列データのすべての位置より20塩基+TSDのサイズの配列を切り出す。本実施例では、TSDのサイズを5塩基と仮定し、25塩基の配列での解析を例示している。また、塩基配列データの相補鎖配列に関しても同様に切り出す。切り出した25塩基の中にNが含まれている場合は以後の解析には含めない。
【0098】
2.切り出した25塩基の配列を辞書順にソートして、同一の配列の個数を調べる。
【0099】
3.同一の配列が5以下の配列は、シーケンサーのエラーが含まれている可能性が高いので、5以上の頻度の配列のみを選ぶ。
【0100】
4.ターゲットとコントロールの配列セットを比較して、ターゲット特異的、あるいはコントロール特異的な25塩基の配列を選ぶ。選んだ配列の中に、トランスポゾンの末端とTSD配列のセットが含まれているはずである。
【0101】
5.すべてのターゲット、あるいは、コントロール特異的な配列に関して、最初の20塩基と残りの5塩基のペアに切り分ける。最初の20塩基がトランスポゾンの3’末端候補、残りの5塩基がTSD候補となり、また、同じ25塩基の配列の相補鎖配列を得て、最初の5塩基と、残りの20塩基のペアに切り分ける。こちらは、最初の5塩基がTSD候補、残りの20塩基がトランスポゾンの5’末端候補となる。
【0102】
6.TSDが同じ配列である5’末端候補と3’末端候補のペアを得る。異なる種類のTSD配列が得られる5’、3’末端候補のペアは、新たに転移したトランスポゾンの両末端配列である可能性がある。
【0103】
7.異なる種類のTSD配列を持つ両末端ペアのうち、ターゲットとコントロールでTSD配列の大半が異なるペアを得る。このペアを、新規に転移したトランスポゾンの末端配列に対応するものとして特定する。
【0104】
以下の実施例では、転移した部位が既知のTos17の2個体での検出例と、ddm1変異体での未報告の転移の検出を示している。このような現象を見ることができる系は、本開示の系が初めてであると考えられる。
【0105】
(実施例1:既知トランスポゾンの検出)
ttm2、ttm5は細胞培養により活性化したTos17が転移したミュータントパネル系統である。本実施例では、ttm2、ttm5のゲノム配列データを解析に使用した。これらのゲノム配列データは、Nakagome M, Solovieva E, Takahashi A, Yasue H, Hirochika H, Miyao A. Transposon Insertion Finder (TIF): a novel program for detection of de novo transpositions of transposable elements. BMC Bioinformatics. 2014 Mar 14;15:71. doi: 10.1186/1471-2105-15-71.において解析されたものであり、ttm2は、SRR556173、ttm5はSRR556174およびSRR556175のアクセッション番号で登録されている。
【0106】
これらのゲノム配列データについて、(一般的情報処理)に示される処理を行った。結果を以下に示す。
【0107】
Tos17の5’末端(最初のカラム)と3’末端(次のカラム)が検出され、ttm2で3件(|の前)、ttm5で8件(|の後)のTSDが検出された。TSD配列は以前に解析して報告した配列と一致した。二行出力されているが、二行目は最初の行の相補鎖のデータなので、細胞培養で転移するトランスポゾンはTos17のみであることがわかる。
【化2】
(トランスポゾン末端候補の20塩基配列について、出現順に配列番号1~4に対応)
【0108】
以上のように、検出されたTSDは以前に報告された実験により検出済みの配列と一致したことから、この方法でレトロトランスポゾンの転移が検出されうることが証明された。
【0109】
(実施例2:未知トランスポゾンの検出)
本開示の方法を用いて未知のトランスポゾンが検出できるかどうかを試験した。アクセッション番号DRR001193、DRR001194は、アラビドプシスのddm1変異体のゲノム配列である。ddm1変異体はDNAのメチル化が低下しており、トランスポゾンが活性化されて転移することが知られている。
【0110】
本実施例において、DRR001193およびDRR001194の配列を解析の対象とし、これらのゲノム配列データについて、(一般的情報処理)に示される処理を行った。結果を以下に示す。ddm1変異体の解析では、まだ報告されていないトランスポゾンと思われる転移が検出された。
【化3-1】
【化3-2】
(トランスポゾン末端候補の20塩基配列について、出現順に配列番号5~28に対応)
【0111】
上記配列の多くは、未知のレトロトランスポゾンの末端配列およびTSDの可能性が高い。つまり、本開示の方法は、既知のトランスポゾンであるTos17の転移の検出以外にも有効であることが明らかになった。このことから、本開示の方法は、これまで解析できていない新たなトランスポゾンの転移の検出ができると考えられる。
【0112】
(実施例3:改変方法)
(一般的情報処理)に記載される手順から、相補鎖配列を得る部分を除いて処理を行った。具体的には「5.」の工程を以下のとおり改変した。
【0113】
5.すべてのターゲット、あるいは、コントロール特異的な配列に関して、最初の20塩基と残りの5塩基のペアに切り分ける。最初の20塩基がトランスポゾンの3’末端候補、残りの5塩基がTSD候補となる。また、同じ25塩基の配列の、最初の5塩基と、残りの20塩基のペアに切り分ける。こちらは、最初の5塩基がTSD候補、残りの20塩基がトランスポゾンの5’末端候補となる。
【0114】
(結果)
(実施例1)と同様の結果が得られた。具体的には以下のとおり:
【化6】
(トランスポゾン末端候補の20塩基配列について、出現順に配列番号1~4に対応)
【0115】
相補鎖の解析を行わない場合でも、同様の結果が得られることが示された。
【0116】
(実施例4:がん診断への応用)
同一癌患者の通常組織と癌組織からDNAを抽出して、塩基配列を取得し本法を用いて癌組織で転移するトランスポゾンを検出する。
【0117】
複数の癌患者よりトランスポゾンの転移を検出し、癌化により特異的に活性化するトランスポゾンを同定する。癌化で活性化されるトランスポゾンが同定されれば、簡便な癌の判定に使用可能である。
【0118】
癌を疑われる患者の組織からDNAあるいはRNAを抽出してトランスポゾンの増加を検出することにより癌の判定をすることが可能になると考えられる。
【0119】
生体においてランダムに遺伝子変異をひき起こすことのできる転移因子を同定し、挿入変異スクリーニング系を作出し、腫瘍の形成を誘導する。これらの腫瘍から得られたゲノムの塩基配列を決定し挿入変異の部位を特定することにより、がんの形成にかかわる候補遺伝子および/またはがんの悪性化にかかわる候補遺伝子を同定する。候補遺伝子についてがん化能を機能的に評価することにより,新規のがん遺伝子および/または大腸がん抑制遺伝子を同定する。
【0120】
(実施例5:変異系統作出への利用)
転移因子を用いて、突然変異系統コレクションを作出する。例えば、Tos17挿入変異系統の作出については、Miyao A, Tanaka K, Murata K, Sawaki H, Takeda S, Abe K, Shinozuka Y, Onosato K, Hirochika H. (2003) Target site specificity of the Tos17 retrotransposon shows a preference for insertion within genes and against insertion in retrotransposon-rich regions of the genome. Plant Cell 15(8):1771-80. Miyao A, Iwasaki Y, Kitano H, Itoh JI, Maekawa M, Murata K, Yatou O, Nagato Y, Hirochika H. (2007) A large-scale collection of phenotypic data describing an insertional mutant population to facilitate functional analysis of rice genes. Plant Mol Biol. 63(5):625-635, 2007. およびMiyao A, Nakagome M, Ohnuma T, Yamagata H, Kanamori H, Katayose Y, Takahashi A, Matsumoto T, Hirochika H. (2012) Molecular spectrum of somaclonal variation in regenerated rice revealed by whole-genome sequencing. Plant Cell Physiol. 53(1):256-64. doi: 10.1093/pcp/pcr172.に記載されている。同定された転移因子を用いて同様の突然変異系統コレクションが作出可能である。突然変異系統コレクションは、遺伝子の機能分析や、所望の形質の獲得に使用可能である。例えば、イネについては、突然変異系統コレクションを用いて、特定のAGPase遺伝子を抑制することで茎部に可溶糖が高蓄積することが見いだされ、植物の茎部に可溶糖を高蓄積させることができ、可溶糖含量の高い植物が製造できたこと(「植物変異体、植物変異体の製造方法、及び可溶糖の蓄積方法」、特許第5623324号);突然変異系統コレクションを用いて、イネのスターチシンターゼI型(SSI)遺伝子がノックアウトされたミュータントを作出し、それによりSSIの機能を解明し、新規なデンプンを製造できたこと(「スターチシンターゼI型の機能解明と新規デンプン作出法」、特許第4703919号);および、突然変異系統コレクションを用いて、イネ集団からスターチシンターゼIIIa型(SSIIIa)変異体を単離し、SSIIIa活性が野生型と比べて完全に欠失した変異体を得て、アミロペクチンの鎖長分布が野生型と異なっており、既存の野生型デンプンとは異なる糊化特性などの物性を示すデンプンを得たこと(「スターチシンターゼIIIa型の機能解明と新規デンプン作出法」、特許第4711762号)が知られている。同様に、本開示の方法で特定した転移因子を用いて作出した突然変異系統コレクションは、遺伝子の機能分析や、所望の形質の獲得、それによる新規産物の産生などに使用できる。
【0121】
(実施例6:アラビドプシス低メチル化変異体での転移因子の検出)
アラビドプシス低メチル化変異体での転移因子を検出した(DRR00193, DRR00194)。その結果の一部を以下の表に示した。
【表1】

(トランスポゾン配列および隣接配列のそれぞれについて、出現順に、各行左から右に、上から下にかけて配列番号41~88に対応)
ユニークな位置に挿入された位置にはuniqueと記載されている。リピート領域に挿入されたものは、これまで検出が難しかったが、本開示の方法では、複数ある候補位置のうち可能性のある位置を出力できる。
【0122】
(実施例7:レトロトランスポゾンTos17の転移検出例)
本発明の方法によってレトロトランスポゾンTos17の転移を検出した。その結果の一部を以下の表に示した。
【表2】

(headおよびtail配列ならびに隣接配列のそれぞれについて、出現順に、各行左から右に、上から下にかけて配列番号89~128に対応)
ユニークな位置に挿入された位置にはuniqueと記載されている。
【0123】
(実施例8:任意のTSDサイズでの転移の検出例)
任意のTSDのサイズでの転移を検出できるかどうかを確認するため、ショウジョウバエPエレメントであるSRR823377とSRR823382を解析した。その結果の一部を以下の表に示した。
【表3】

(headおよびtail配列ならびに隣接配列のそれぞれについて、出現順に、各行左から右に、上から下にかけて配列番号129~168に対応)
ユニークな位置に挿入された位置にはuniqueと記載されている。
【0124】
(実施例9:アルゴリズム2による転移配列の検出例)
アルゴリズム2の方法によって、ttm2におけるTos17挿入を検出した。その結果の一部を以下の表に示した。
【表4】

(末端配列および挿入部位配列のそれぞれについて、出現順に、各行左から右に、上から下にかけて配列番号169~188に対応)
オリジナルのTos17は、第7染色体と第10染色体にそれぞれ1コピー存在している。転移因子の末端の20塩基の配列は転移因子両端に存在する長い末端重複(LongTerminal Repeat, LTR)の両端に存在するため、それぞれ2ヶ所ずつ検出されている。新規アルゴリズムでは転移前のオリジナル転移因子のゲノム上の存在位置もあわせて検出できている。
【0125】
(注記)
以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願及び他の文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。本願は日本国特許庁に2019年12月26日に出願された特願2019-236480に対して優先権主張を伴うものであり、その内容はその全体が参考として本願において援用される。
【産業上の利用可能性】
【0126】
個体内でのトランスポゾンの動態は未知の部分が多いが、本開示の方法は、実際に転移しているトランスポゾンを検出することが可能であり、幅広い応用範囲を有する。植物の応用例としては、トランスポゾンタギングに使えるトランスポゾンのスクリーニングに利用でき、ヒトの場合は、癌化とトランスポゾンの関係の研究や、トランスポゾンの転移による遺伝子の転写の活性化、非活性化等の研究に有用であると考えられる。
【配列表フリーテキスト】
【0127】
配列番号1~4:実施例1および4に記載されるトランスポゾン末端候補の20塩基配列(イネ)
配列番号5~28:実施例2に記載されるトランスポゾン末端候補の20塩基配列(アラビドプシス)
配列番号29~40:図4に記載される切り出し配列の20塩基配列(イネ)
配列番号41~88:実施例6に記載されるトランスポゾン配列および隣接配列の20塩基配列(アラビドプシス)
配列番号89~128:実施例7に記載されるheadおよびtail配列ならびに隣接配列の20塩基配列(イネ)
配列番号129~168:実施例8に記載されるheadおよびtail配列ならびに隣接配列の20塩基配列(ショウジョウバエ)
配列番号169~188:実施例9に記載される末端配列および挿入部位配列(イネ)
図1
図2
図3
図4
図5
【配列表】
0007573862000001.app