(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-22
(45)【発行日】2024-05-01
(54)【発明の名称】試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法またはシステム
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240423BHJP
G16B 20/20 20190101ALI20240423BHJP
G16B 20/50 20190101ALI20240423BHJP
G16B 30/10 20190101ALI20240423BHJP
A01H 11/00 20060101ALN20240423BHJP
A01H 1/06 20060101ALN20240423BHJP
C12N 15/00 20060101ALN20240423BHJP
【FI】
C12Q1/6869 Z
G16B20/20
G16B20/50
G16B30/10
A01H11/00
A01H1/06
C12N15/00
(21)【出願番号】P 2021512583
(86)(22)【出願日】2019-09-05
(86)【国際出願番号】 IB2019057464
(87)【国際公開番号】W WO2020049491
(87)【国際公開日】2020-03-12
【審査請求日】2022-03-15
(32)【優先日】2018-09-05
(33)【優先権主張国・地域又は機関】AU
(32)【優先日】2019-07-12
(33)【優先権主張国・地域又は機関】AU
(73)【特許権者】
【識別番号】521088642
【氏名又は名称】オックスフォード ユニバーシティ イノベーション リミティド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100150810
【氏名又は名称】武居 良太郎
(74)【代理人】
【識別番号】100197169
【氏名又は名称】柴田 潤二
(72)【発明者】
【氏名】クレメント チャンピオン
(72)【発明者】
【氏名】リアム ドラン
【審査官】鈴木 崇之
(56)【参考文献】
【文献】特開2017-033046(JP,A)
【文献】特開2015-035212(JP,A)
【文献】植物科学最前線(BSJ- Review),2012年,Vol. 3,pp. 58-70
【文献】生物工学(The Society for Bioscience and Bioengineering, Japan),2012年,第90巻, 第9号,pp. 600-603
【文献】植物の生長調節(The Japanese Society for Chemical Regulation of Plants (JSCRP)),2015年,Vol. 50, No. 2,pp. 96-102
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00-3/00
C12N 15/00-15/90
A01H 1/00-17/00
G16B 5/00-99/00
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
非維管束植物における関心対象の表現型に関連する変異を同定するためのコンピュータ実装方法であって、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、前記DNA配列と前記参照DNA配列間の第1のセットの配列ミスマッチを同定することであって、前記試験サンプルは、変異誘発された非維管束植物に由来する、同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を前記参照DNA配列に整列させ、前記DNA配列と前記参照DNA配列間の第2のセットの配列ミスマッチを同定すること、および
(c)前記第2のセットの配列ミスマッチに関して、前記第1のセットの配列ミスマッチをフィルタリングし、前記第1のセットの配列ミスマッチに特有である配列ミスマッチのサブセットを同定すること、を含み、前記配列ミスマッチのサブセットは、前記関心対象の表現型に関連する変異の候補変異であり、前記試験サンプルは、前記関心対象の表現型を示す非維管束植物に由来し、
前記少なくとも1つの比較サンプルは、前記関心対象の表現型を示さない同じ属の独立した非維管束植物に由来し、前記参照DNA配列は、前記属の非維管束植物の既知の参照配列であり、そして
前記方法は、分離分析、複合分離分析、バルク分離分析、自家受精、受精、異系交配、戻し交配または前記非維管束植物の近同質遺伝子系統による受精の工程を含まない、コンピュータ実装方法。
【請求項2】
非維管束植物における関心対象の表現型に関連する変異を同定するためのコンピュータ実装方法であって、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、前記DNA配列と前記参照DNA配列間の第1のセットの配列ミスマッチを同定することであって、前記試験サンプルは、変異誘発された非維管束植物に由来する、同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を前記参照DNA配列に整列させ、前記DNA配列と前記参照DNA配列間の第2のセットの配列ミスマッチを同定すること、および
(c)前記第2のセットの配列ミスマッチに関して、前記第1のセットの配列ミスマッチをフィルタリングし、前記第1および第2のセットの配列ミスマッチに共通する配列ミスマッチのサブセットを同定すること、を含み、
前記配列ミスマッチのサブセットは、前記関心対象の表現型に関連する変異の候補変異であり、
前記試験サンプルおよび前記比較サンプル(複数可)は、前記関心対象の表現型を示す独立した非維管束植物に由来し、前記独立した非維管束植物は、同じ属であり、前記参照DNA配列は、前記属の非維管束植物の既知の参照配列であり、
そして
前記方法は、分離分析、複合分離分析、バルク分離分析、自家受精、受精、異系交配、戻し交配または前記非維管束植物の近同質遺伝子系統による受精の工程を含まない、コンピュータ実装方法。
【請求項3】
前記方法は、
(b-i)少なくとも1つの追加の比較サンプルのDNA配列を前記参照DNA配列に整列させ、前記DNA配列と前記参照DNA配列間の第3のセットの配列ミスマッチを同定することをさらに含み、前記追加の比較サンプル(複数可)は、前記関心対象の表現型を示す独立した非維管束植物に由来し、前記独立した非維管束植物は、同じ属であり、そして
(c)前記第3のセットの配列ミスマッチに関して、前記第1のセットの配列ミスマッチをフィルタリングし、前記第1および第2のセットの配列ミスマッチに共通する配列ミスマッチのサブセットを同定すること
を含み、前記配列ミスマッチの2つのサブセットは、前記
関心対象の表現型に関連する変異の候補変異である、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記関心対象の表現型は、収量の増加、ストレス耐性、ストレス抵抗性、非生物ストレス耐性、非生物ストレス抵抗性、耐塩性、塩抵抗性、不稔性、乾燥抵抗性、耐乾燥性、高温または低温に対する抵抗性、霜抵抗性、耐霜性、植物成長速度、植物細胞分裂速度、耐病性、病害抵抗性、病害感受性、除草剤耐性、除草剤抵抗性、除草剤感受性、抗生物質耐性、抗生物質抵抗性および抗生物質感受性からなる群から選択される観察可能特性である、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
【請求項5】
前記関心対象の表現型は
、除草剤に対する増加した抵抗性または増加した耐性である、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記非維管束植物が葉状苔類、単純葉状体苔類または複雑葉状体苔類である、請求項1~5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
前記非維管束植物は、Marchantia alpestris、Marchantia aquatica、Marchantia berteroana、Marchantia carrii、Marchantia chenopoda、Marchantia debilis、Marchantia domingenis、Marchantia emarginata、Marchantia foliacia、Marchantia grossibarba、Marchantia inflexa、Marchantia linearis、Marchantia macropora、Marchantia novoguineensis、Marchantia paleacea、
Marchantia palmata、Marchantia papillate、Marchantia pappeana、Marchantia polymorpha、Marchantia rubribarba、Marchantia solomonensis、Marchantia streimannii、Marchantia subgeminata、Marchantia vitiensis、Marchantia wallisiiおよびMarchantia nepalensisからなる群から選択される、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記変異誘発された試験サンプルは、M1変異体である、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
独立した非維管束植物由来の前記比較サンプルは、変異誘発された非維管束植物である、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
【請求項10】
前記変異誘発された試験サンプルは、天然に存在しない変異を含む、請求項1~9のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
工程(b)は、2個以上の比較サンプルのDNA配列を前記参照DNA配列に整列させ、前記DNA配列と前記参照DNA配列間の第2のセットの配列ミスマッチを同定することを含む、請求項1~10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
前記方法はさらに、前記候補変異をフィルタリングし、変異誘発方法の変異シグネチャーと一致しない変異;コードされたタンパク質のアミノ酸配列に変化を引き起こさないミスマッチ変異;および/又は予測された機能を持つ遺伝子のコード配列にある変異を分離することによって、前記
関心対象の表現型に関連する変異の候補変異の数を減らすことを含む、請求項1~11のいずれか一項に記載のコンピュータ実装方法。
【請求項13】
前記非維管束植物は一倍体である、請求項1~12のいずれか一項に記載のコンピュータ実装方法。
【請求項14】
前記非維管束植物は、蘚類、苔類およびツノゴケ類からなる群から選択される、請求項1~13のいずれか一項に記載のコンピュータ実装方法。
【請求項15】
前記非維管束植物は、Physcomitrella patensまたはPhyscomitrella readeriから選択される蘚類である、請求項14に記載のコンピュータ実装方法。
【請求項16】
前記関心対象の表現型は、植物サイズ、植物の高さ、葉のサイズ、植物の色および植物の構造からなる群から選択される形態的特徴である、請求項1~15のいずれか一項に記載のコンピュータ実装方法。
【請求項17】
前記関心対象の表現型は、ウイルス、細菌もしくは真菌の病原体に対する増加した抵抗性または増加した耐性である、請求項1~16のいずれか一項に記載のコンピュータ実装方法。
【請求項18】
前記方法は、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を薬剤に曝露すること、
(iii)変異誘発された非維管束植物から試験サンプルを得ること、および
(iv)独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、をさらに含み、(i)~(iv)は、(a)に先立って実施される、請求項1~17のいずれか一項に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法またはシステムに関する。
【背景技術】
【0002】
関心対象の表現型に関連する遺伝子型の同定は、植物生物学での多数の応用において重要である。変異誘発実験後の変異の発見は、典型的には、変異体を野生型植物と異系交配させること、バルク状野生型および変異体集団を生成すること、ならびに変異体のバルクでのみ起こる変異を同定することを伴う。そうすることによって、野生型および変異体のゲノムが再結合することが可能になるため、変異ゲノムにおけるバックグラウンド変異の数が減少し、原因となる変異を同定する可能性が高まる。しかしながら、この準備工程にはコストがかかる。
【0003】
第1に、異系交配の必要性は、不稔変異体を交配できないという点では、典型的な変異発見パイプラインに対する量的制限を表す。多くの変異(原因となる変異またはバックグラウンド変異に関わらず)は、不稔性を引き起こす可能性がある。
【0004】
第2に、異系交配の必要性は、異系交配が、少なくとも1回(およびしばしばそれより多くの)生殖サイクルを行う必要があり、時間および費用がかかるため、パイプラインのスループットが制限されるという点では、典型的な変異発見パイプラインに対する量的制限を表す。
【発明の概要】
【0005】
本発明の目的は、既存の構成の1つ以上の欠点を実質的に克服するか、または少なくとも改善することである。
【0006】
本発明につながる研究は、欧州連合の第7次フレームワークプログラム(FP7/2007-2013)/ERC助成契約第250284号において欧州研究会議からの資金を受けている。
【0007】
試験されたサンプルにおける関心対象の表現型を引き起こすサンプルDNAのDNA配列(原因となる変異)の一部を発見する前に、異系交配の必要性を回避することによって上記の問題に取り組もうとする構成が開示される。
【0008】
本開示の第1の態様によれば、試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法が提供され、i)試験サンプルおよび比較サンプルが相補性群の一部を形成するという予測、ならびに/またはii)比較サンプルが原因となる変異を含まないという予測のいずれかに基づいて比較サンプルを選択する工程を含む方法であり、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサの工程をさらに含む方法であり、コンピュータプログラムコードは、試験サンプルに関連するサンプルDNA配列データを得て、参照サンプルに関連する参照DNA配列データを得て、比較サンプルに関連する比較DNA配列データを得て、サンプルDNA配列データおよび参照DNA配列データに関連する第1のセットのミスマッチDNA配列データを決定し、比較DNA配列データおよび参照DNA配列データに関連するさらなるセットのミスマッチDNA配列データを決定し、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、候補ミスマッチ内から原因となる変異を同定するための原因となる変異を含む1セットの候補ミスマッチを得る方法を実行する。
【0009】
本開示の第2の態様によれば、試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するためのシステムが提供され、i)試験サンプルおよび比較サンプルが相補性群の一部を形成するという予測、ならびに/またはii)比較サンプルが原因となる変異を含まないという予測のいずれかに基づいて比較サンプルを選択する方法を含むシステムであり、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサをさらに含むシステムであり、コンピュータプログラムコードは、試験サンプルに関連するサンプルDNA配列データを得て、参照サンプルに関連する参照DNA配列データを得て、比較サンプルに関連する比較DNA配列データを得て、サンプルDNA配列データおよび参照DNA配列データに関連する第1のセットのミスマッチDNA配列データを決定し、比較DNA配列データおよび参照DNA配列データに関連するさらなるセットのミスマッチDNA配列データを決定し、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、候補ミスマッチ内から原因となる変異を同定するための原因となる変異を含む1セットの候補ミスマッチを得るように構成される。
【0010】
本開示の第3の態様によれば、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、関心対象の表現型を示す独立した非維管束植物に由来し、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0011】
本開示の第4の態様によれば、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す非維管束植物に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物に由来し、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0012】
本開示の第5の態様によれば、シダ類における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、関心対象の表現型を示す独立したシダ類に由来し、独立したシダ類は、同じ属であり、
参照DNA配列は、この属のシダ類の既知の参照配列である。
【0013】
本開示の第6の態様によれば、シダ類における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示すものに由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立したシダ類に由来し、
参照DNA配列は、この属のシダ類の既知の参照配列である。
【0014】
本開示の第7の態様によれば、藻類における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、関心対象の表現型を示す独立した藻類に由来し、独立した藻類は、同じ属であり、
参照DNA配列は、この属の藻類の既知の参照配列である。
【0015】
本開示の第8の態様によれば、藻類における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す藻類に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立した藻類に由来し、
参照DNA配列は、この属の藻類の既知の参照配列である。
【図面の簡単な説明】
【0016】
本発明の少なくとも1つの実施形態を、以下の図面を参照してこれから説明する。
【0017】
【
図1】本発明の実施形態による、試験されたサンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法のプロセスフロー図である。
【
図2】本発明の実施形態による、記載された構成を実施することができるコンピュータシステムの概略ブロック図を形成する。
【
図3】本発明の実施形態による、試験されたサンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法のさらなるプロセスフロー図である。
【
図4】本発明の実施形態による、様々なプロセスの例として、参照リードと比較した配列リードを図示したものである。
【
図8】:2日齢のMarchantia polymorpha植物の仮根の表現型。野生型の仮根の表現型(A)、波状の仮根の表現型(B)。仮根は、野生型(A)ではまっすぐに成長し、一部の変異体(B)では波状に成長する細胞である。
【
図9】:2ヶ月齢のMarchantia polymorpha植物の背側表皮表現型。野生型表皮表現型(A)、延伸した表皮表現型(B)。背側表皮は気室孔(A、矢印)を示し、一部の変異体(B)では延伸している。
【
図10】:UV4.32での非対立性ベースの変異発見パイプラインの性能。A:フィルタリング効率に対する非対立遺伝子変異体バックグラウンドの増加数の影響。B:8つの非対立遺伝子UV変異系統を使用した場合、各フィルタリング工程後に残っているUV4.32ミスマッチの数。
【
図11】:クロルスルフロン抵抗性変異体における非対立性に基づく変異発見パイプラインの性能。対立遺伝子変異体バックグラウンドの数を増やすと、フィルタリング効率が向上する。左端の散布ボックスは、再配列決定された野生型ゲノムでも観察されるミスマッチを除外する前の、クロルスルフロン抵抗性変異系統のミスマッチの総数を表す。
【0018】
最良の態様を含む詳細な説明
添付図面のうち1つ以上において、同じ参照番号を有する工程および/または特徴が参照される場合、これらの工程および/または特徴は、反する意図が示されない限り、この説明のために、同じ機能(複数可)または操作(複数可)を有する。
【0019】
「背景」セクションに含まれる議論、および先行技術の取り決めに関する上記の議論は、それぞれの公開および/または使用を通じて公の知識を形成する文書またはデバイスの議論に関連することに留意されたい。そのようなものは、このような文書またはデバイスが、何らかの形で当技術分野における一般的知識の一部を形成するという本発明者(複数可)または特許出願人による表明として解釈されるべきではない。
【0020】
以下に、本明細書で使用する用語のある特定の定義を提供する。
【0021】
表現型:個体の観察可能な特性のセット。
【0022】
関心対象の表現型:本明細書に開示される方法およびシステムを使用して調査される表現型。関心対象の表現型は、望ましい観察可能な特性または形質であり得る。場合によっては、関心対象の表現型は、野生型植物と比較して好ましい観察可能な特性のセットであり得る。場合によっては、関心対象の表現型は、野生型植物と比較して異なる観察可能な特性のセットであり得る。場合によっては、関心対象の表現型は、野生型藻類またはシダ類と比較して好ましい観察可能な特性のセットであり得る。場合によっては、関心対象の表現型は、野生型藻類またはシダ類と比較して異なる観察可能な特性のセットであり得る。
【0023】
M0、M1およびM2:M0は、変異原への曝露前の変異誘発実験における植物集団(すなわち、親集団)を意味する。M1は、変異原への曝露後の同じ植物集団(すなわち、親集団)を指すために使用される表記である。M2世代は、自家受粉後の子孫(すなわち、変異体とそれ自体を交配するプロセス)を指す。
【0024】
ミスマッチ:リードが最適に整列する参照DNA配列の一部と比較した、リードの配列の違い(例えば、試験されたサンプル内の原因となる変異を同定するために試験されている試験されたサンプルのDNA配列の一部)。
【0025】
変異:参照DNA配列と比較した変異誘発された植物のDNA配列の物理的変化。
【0026】
原因となる変異:関心対象の表現型を引き起こす変異。
【0027】
バックグラウンド変異:関心対象の表現型を引き起こしていない変異。
【0028】
ゲノムワイド関連解析:疾患または特定の形質のリスクに関連する遺伝性の遺伝的多様体の同定。この方法は、対照(疾患または形質のない人)より症例(評価されている疾患または形質のある人)において頻繁に起こる、天然に存在する遺伝的多型、典型的には一塩基多型(SNP)についてゲノム全体を調べる。
【0029】
一倍体/二倍体/倍数体:倍数性状態は、生物がそのライフサイクルのある一定の時間に含有する染色体のセットの数である。植物は、そのライフサイクル間に一倍体状態と二倍体状態を交互に繰り返し得る。一倍体植物は、主にそのライフサイクルを一倍体状態で、すなわち染色体の単一のセットで過ごす植物である。二倍体植物は、主にそのライフサイクルを二倍体状態で、すなわち染色体の2つのセットで過ごす植物である。倍数体植物は、主にそのライフサイクルを二倍体状態で、すなわち染色体の3つ以上のセットで過ごす植物である。苔類、例えばMarchantia polymorphaは、そのライフサイクルの大部分の間、一倍体であり、すなわち染色体の単一のセットを含有する。比較すると、草または双子葉植物などの高等植物は、二倍体または倍数体であり、すなわちライフサイクルの大部分の間、染色体の2つ以上のセットを有する。
【0030】
除草剤:植物、植物細胞、植物の種子もしくは植物組織の成長を死滅させるまたは阻害するために使用される化学物質。
【0031】
ヘテロ/ホモ接合体:一倍体、二倍体、倍数体の生物は、染色体のセットと同数種のある一定の遺伝子を含有することができる。例えば、一倍体生物は、1つのみのバージョン、すなわち対立遺伝子を含有するが、二倍体生物は、同じ遺伝子の2つの異なるバージョン(ヘテロ接合体)または同じ遺伝子の2つの同一のバージョン(ホモ接合体)を含有することができる。
【0032】
異系交配:原因となる変異からバックグラウンド変異を分離することを目的として、多型系統を参照の系統(通常は親系統)と交配するプロセス。
【0033】
調査される変異体:原因となる変異が同定される変異系統を指す。
【0034】
非維管束植物:維管束系(木部および師部)を欠く植物。
【0035】
分離分析:研究中の形質または疾患の最も可能性の高い遺伝様式を決定するために、生物学的家族における発現した形質または疾患(表現型)に関するデータに正式な遺伝的モデルを適合させるための統計的手法。分離分析では、分析される表現型の遺伝パターンを決定するために、複数世代の家族を必要とする。
【0036】
変異体の減算:調査される変異体からバックグラウンド変異を計算で除去するために使用される独立した変異系統。これらは、独立した対立遺伝子変異系統または独立した非対立遺伝子変異系統であり得る。比較サンプルは、減算変異体のサンプルである。
【0037】
相補性群:相補性群は、互いに補完できない対立遺伝子の群を定義する(すなわち遺伝子のバージョン)。そしてさらに、相補性群はまた、互いに補完できない対立遺伝子を含む変異系統群を定義し得る。すなわち、同じ相補性群の変異系統間の交配からの子孫には、親の表現型の組換えは観察されない。例えば、Marchantia polymorphaでは、2つの変異体対立遺伝子が同じ相補性群にある場合、変異体間の交配から生じるF1植物の100%は、すべて変異体表現型を示す。
相補性群は典型的には、単一の多型遺伝子(すなわち、DNA配列が変異している遺伝子)を同定する。
【0038】
参照DNA配列:調査されている植物、藻類またはシダ類の参照ゲノム配列。参照DNA配列は、一般に公開されているデータベース上で公開されている。
【0039】
本明細書に記載されたプロセスおよびシステムの目的は、選択された植物サンプルにおける原因となる変異の同定を可能にすることである。すなわち、記載されたプロセスおよびシステムは、選択された植物サンプルにおける遺伝子配列の一部(原因となる変異)の同定を可能にする。
【0040】
Li et al.,2016(Gene discovery by chemical mutagenesis and whole-genome sequencing in Dictyostelium,Genome research 26:1268-1276)は、タマホコリカビ、変形菌における変異遺伝子の同定のための全ゲノムシークエンシングの使用について記載する。タマホコリカビは、動菌下(アメーバ動物)門のメンバーであるため、非維管束植物および藻類から系統学的に離れている。Thole et al.,2015(Next-generation sequencing as a tool to quickly identify causative EMS-generated mutations,Plant Signalling & Behaviour 10:1-4)は、M4変異体における全ゲノムシークエンシングを使用したArabidopsis thalianaのメタンスルホン酸エチル生成変異の同定を詳しく述べる。本発明は、稔性変異体に依存しないため、より広範囲の変異体を検出することができる。
【0041】
本明細書に記載されたプロセスおよびシステムは、変異フィルタリングへの代替アプローチを使用する。異系交配の代わりに、プロセスおよびシステムは最初に、バックグラウンドおよび原因となる変異の両方で、調査された変異体のすべての変異を同定する。すなわち、記載されたプロセスおよびシステムは、参照DNA配列と比較したときに変異したDNA配列のすべての部分を同定する工程を含む。これらの変異のいくつかは、バックグラウンド変異(有用とは見なされない)であり、他は原因となる変異である。異系交配の方法では、異系交配工程は、この段階でバックグラウンド変異の数を減らすことを試みた。
【0042】
次に、プロセスおよびシステムは、それらを、調査された変異体の原因となる変異を保有しないと予想される、または試験されたサンプルとの相補性群の一部であると予想される他の変異体由来のすべての変異と比較する。複数の減算変異体を使用することによって、フィルタリングの能力は向上し、バックグラウンド変異および技術的アーティファクトが除去される。
【0043】
図1は、試験されたサンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法のプロセスフロー図である。
【0044】
一般に、プロセスは工程S101から始まる。S103、S105、S107で、サンプル、参照および比較(減算)DNA配列データは、
図1を参照して記載されたコンピューティングシステムのコンピュータプログラムコードによって得られる。例えば、DNA配列データは、DNAシークエンシングシステム1329から直接得るか、またはコンピュータシステム内のメモリから得るか、またはコンピュータシステムの外部にメモリを形成するか、またはWANもしくはLANを介してコンピュータシステムの外部にあるデバイスから得ることができる。
【0045】
サンプルDNA配列データは、試験されたサンプルに関連する。参照
DNA配列データは、参照サンプルに関連する。比較(または減算)DNA配列データは、比較(または減算)サンプルに関連する。複数の比較サンプルが選択され、複数の比較サンプルの各々の選択は、i)試験されたサンプルおよび選択された比較サンプルは、相補性群の一部に由来するという予測またはii)選択された比較サンプルは原因となる変異を含まないという予測のいずれかに基づいて行われる。
【0046】
工程S109で、プロセスは、サンプルDNA配列データおよび参照DNA配列データに関連する第1のセットのミスマッチDNA配列データを決定する。
【0047】
工程S111で、プロセスは、比較DNA配列データおよび参照DNA配列データに関連するさらなるセットのミスマッチDNA配列データを決定する。
【0048】
工程S113で、プロセスは、原因となる変異を含む1セットの候補ミスマッチを生成するために、選択された比較サンプルのタイプに基づいて(後述のように)様々なフィルタリング工程を実行する。特に、工程S113で、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、候補ミスマッチ内から原因となる変異を同定するための原因となる変異を含む1セットの候補ミスマッチを得る。
【0049】
上記の工程(および追加の工程)は、本明細書でより詳細に記載されている。
【0050】
図2は、記載された構成を実施することができる、コンピュータシステム1300を示す。本明細書に記載されたプロセスが、コンピュータ可読媒体に格納されたコンピュータプログラムコードによってコンピュータシステム内に実装されると、コンピュータシステムは特有の様式で動作すると理解されるであろう。コンピュータシステム内のプロセッサは、コンピュータプログラムコードを実行するように構成され、本明細書に記載されたプロセス工程を実行する。
【0051】
図2で明らかなように、コンピュータシステム1300は、コンピュータモジュール1301、キーボード1302、マウスポインタデバイス1303、スキャナ1326、カメラ1327、タッチスクリーン1328、およびマイクロフォン1380などの入力デバイス、ならびにプリンタ1315、ディスプレイデバイス1314およびラウドスピーカー1317を含む出力デバイスを含む。さらに、コンピュータシステムは、DNAシークエンシングシステム1329の形態の入力デバイスを含み得る。DNAシークエンシングシステムは、例えば、DNAシークエンシングシステムは、HiSeq2000またはHiSeq4000などのIllumina Hiseqシリーズシークエンシングプラットフォームであり得る。DNAシークエンシングシステムからの出力は、ローリード(raw reads)を含む2つのファイルであり、ペアリードの各メイトに1つずつある。すなわち、例えば、Illuminaシークエンシングプラットフォームは、DNA配列の先端を読み取るように設計されている。メイトとも呼ばれる、両方の先端が連結され、ペアリードをともに形成する。したがって、2つのファイルがIlluminaシークエンシングによって生成され、1つは左のメイト用で、もう1つは右のメイト用である。本発明は、ペアリードを生成することに限定されないと理解されるであろう。
【0052】
DNAシークエンシングシステム1329は、I/Oインターフェース1313によってコンピュータシステムに直接接続されない場合があると理解されるであろう。例えば、DNAシークエンシングシステム1329は、ワイドエリアネットワーク1320またはローカルエリアネットワーク1322に接続され得る。
【0053】
外部モジュレータ-デモジュレータ(モデム)トランシーバデバイス1316は、接続1321を介して通信ネットワーク1320との間で通信するために、コンピュータモジュール1301によって使用され得る。通信ネットワーク1320は、インターネット、セルラー通信ネットワーク、またはプライベートWANなどのワイドエリアネットワーク(WAN)であり得る。接続1321が電話回線である場合、モデム1316は、大容量(例えば、ケーブル)接続であり得るか、またはモデム1316は、広帯域モデムであり得る。無線モデムはまた、通信ネットワーク1320への無線接続のために使用され得る。
【0054】
コンピュータモジュール1301としては典型的には、少なくとも1つのプロセッサユニット1305、およびメモリユニット1306が挙げられる。例えば、メモリユニット1306は、半導体ランダムアクセスメモリ(RAM)および半導体リードオンリーメモリ(ROM)を有し得る。コンピュータモジュール1301はまた、ビデオディスプレイ1314、ラウドスピーカー1317およびマイクロフォン1380に接続するオーディオビデオインターフェース1307、キーボード1302、マウス1303、スキャナ1326、カメラ1327、タッチスクリーン1328およびDNAシークエンシングシステム1329(例えば)または他のヒューマンインターフェースデバイス(図示せず)に接続する入出力インターフェース1313、ならびに外部モデム1316およびプリンタ1315用のインターフェース1308を含む多数の入出力(I/O)インターフェースを含む。いくつかの実装形態では、モデム1316は、コンピュータモジュール1301内、例えば、インターフェース1308内に組み込まれ得る。コンピュータモジュール1301はまた、ローカルネットワークインターフェース1311を有し、接続1323を介して、ローカルエリアネットワーク(LAN)として知られるローカルエリア通信ネットワーク1322へのコンピュータシステム1300の接続を可能にする。
図2に図示されるように、ローカル通信ネットワーク1322はまた、接続1324を介してワイドネットワーク1320に接続することができ、これは、典型的には、いわゆる「ファイアウォール」デバイスまたは同様の機能のデバイスを含む。ローカルネットワークインターフェース1311は、イーサネット回路カード、Bluetooth(登録商標)無線構成、またはIEEE802.11無線構成を含み得る。しかしながら、多数の他のタイプのインターフェースは、インターフェース1311に対して実施され得る。
【0055】
I/Oインターフェース1308および1313は、シリアル接続およびパラレル接続のいずれかまたは両方を行うことができ、前者は、典型的には、ユニバーサルシリアルバス(USB)標準に従って実装され、対応するUSBコネクタ(図示せず)を有する。記憶デバイス1309は、典型的には、ハードディスクドライブ(HDD)1310を含んで提供される。フロッピーディスクおよび磁気テープドライブ(図示せず)などの他の記憶デバイスも使用され得る。光ディスクドライブ1312は、典型的には、データの不揮発性のソースとして動作するために提供される。光ディスク(例えば、CD-ROM、DVD、Blu-ray(登録商標)ディスク)、USB-RAM、ポータブル、外付けハードディスクなどのポータブルメモリデバイスは、例えば、システム1300へのデータの適切なソースとして使用され得る。
【0056】
コンピュータモジュール1301の構成要素1305~1313は、典型的には、相互接続バス1304を介して、関連する分野の当業者に知られているコンピュータシステム1300の動作の従来のモードとなるような様式で通信する。例えば、プロセッサ1305は、接続1318を使用してシステムバス1304と接続する。同様に、メモリ1306および光ディスクドライブ1312は、接続1319によってシステムバス1304に接続される。記載された構成が実施され得るコンピュータの例として、IBM-PCの、および互換性のあるApple MAC(商標)または同様のコンピュータシステムが挙げられる。
【0057】
本明細書に記載の方法は、コンピュータシステム1300を使用して実装され、記載される
図1のプロセスおよび関連するプロセスは、コンピュータシステム1300内で実行可能な1つ以上のソフトウェアアプリケーションプログラム1333として実装され得る。特に、原因となる変異を同定する記載された方法の工程は、コンピュータシステム1300内で実行されるソフトウェア1333における命令1331(
図2を参照)によって達成される。ソフトウェアの命令1331は、各々が1つ以上の特定のタスクを実施するための、1つ以上のコードモジュールとして形成され得る。
【0058】
ソフトウェアは、例えば、後述の記憶デバイスを含むコンピュータ可読媒体に格納され得る。ソフトウェアは、コンピュータ可読媒体から、コンピュータシステム1300にロードされ、次にコンピュータシステム1300によって実行される。コンピュータ可読媒体に記録された、そのようなソフトウェアまたはコンピュータプログラムを有するコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム1300におけるコンピュータプログラム製品の使用により、原因となる変異を同定するための有利な装置が好ましくもたらされる。
【0059】
ソフトウェア1333は、典型的には、HDD1310またはメモリ1306に格納される。ソフトウェアは、コンピュータ可読媒体から、コンピュータシステム1300にロードされ、コンピュータシステム1300によって実行される。したがって、例えば、ソフトウェア1333は、光ディスクドライブ1312によって読み取られる光学的可読ディスク記憶媒体(例えば、CD-ROM)1325に格納され得る。それに記録された、そのようなソフトウェアまたはコンピュータプログラムを有するコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム1300におけるコンピュータプログラム製品の使用により、原因となる変異を同定するための装置が好ましくもたらされる。
【0060】
いくつかの場合では、アプリケーションプログラム1333は、1つ以上のCD-ROM1325上で符号化されて、ユーザーに提供され、対応するドライブ1312を介して読み取られ、または、代わりに、ネットワーク1320もしくは1322から、ユーザーにより読み取られ得る。さらに、ソフトウェアは、他のコンピュータ可読媒体から、コンピュータシステム1300へロードされ得る。コンピュータ可読記憶媒体は、実行および/または処理のために記録された命令および/またはデータをコンピュータシステム1300に提供する任意の非一時的な有形記憶媒体を指す。そのような記憶媒体の例としては、コンピュータモジュール1301の内部または外部であるかを問わず、フロッピーディスク、磁気テープ、CD-ROM、DVD、Blu-ray(登録商標)ディスク、ハードディスクドライブ、ROMもしくは集積回路、USBメモリ、光磁気ディスク、またはPCMCIAカードなどのコンピュータ可読カードが挙げられる。コンピュータモジュール1301への、ソフトウェア、アプリケーションプログラム、命令、および/またはデータの提供に関与し得る、一時的または非有形のコンピュータ可読送信媒体の例としては、無線または赤外線送信チャネル、ならびに、別のコンピュータまたはネットワーク化されたデバイスへのネットワーク接続、および、e-mail送信およびウェブサイトなどに記録された情報を含むインターネットまたはイントラネットなどが挙げられる。
【0061】
上述した、アプリケーションプログラム1333の第2のパートおよび対応するコードモジュールは、レンダリングされ、そうでなければ、ディスプレイ1314上に表され、1つ以上のグラフィックユーザーインターフェース(GUI)を実装するために実行され得る。典型的にはキーボード1302およびマウス1303の操作を介して、コンピュータシステム1300およびアプリケーションのユーザーは、制御コマンドおよび/またはGUI(複数可)に関連するアプリケーションへの入力を提供するために、機能的に調整可能な様式で、インターフェースを操作し得る。ラウドスピーカー1317を介したスピーチプロンプトの出力およびマイクロフォン1380を介した音声コマンドの入力を利用するオーディオインターフェースのような、機能的に調整可能なユーザーインターフェースの他の形態もまた、実装され得る。
【0062】
一般に、プロセッサ1305は、そこで実行される命令のセットが与え得られる。プロセッサ1305は、次の入力を待ち、プロセッサ1305は、命令の別のセットを実行することによって反応する。各入力は、1つ以上のソースから提供され得る。当該ソースは、入力デバイス1302、1303の1つ以上によって生成されたデータ、ネットワーク1320、1302のうちの1つを渡る外部ソースから受信したデータ、記憶デバイス1306、1309のうちの1つから取り出されたデータ、または対応するリーダ1312に挿入された記憶媒体1325から取り出されたデータを含み、これらはすべて
図2に示されている。命令のセットの実行は、場合によっては、データの出力をもたらす。実行はまた、メモリ1334にデータまたは変数を格納することを含み得る。
【0063】
図3は、試験されたサンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法のプロセスフロー図である。
【0064】
工程S301で、調査される(サンプル)変異体(および減算(比較)変異体(複数可))のゲノムは、DNAシークエンシングシステムによって配列決定され、試験されたサンプルDNA配列データ(および比較、つまり減算、DNA配列データ)が生成される。上述のように、DNAシークエンシングシステムを使用して、試験されたサンプルおよび比較サンプルの各々のDNA配列データが生成される。DNA配列データとしては、複数のリードまたはテキストの配列から構成されるローリードデータが挙げられる。DNA配列データは、DNAシークエンシングデータに対してクオリティートリミング、インターリービング、および正規化プロセスが実行された後、分析用に作製される。
【0065】
工程S302で、プロセッサは、試験されたサンプルDNA配列データのクオリティートリミングプロセスを実行し、例えば、プログラムTrimmomatic-0.32などの任意の好適な既知のソフトウェアプログラムを呼び出すスクリプトを使用して実行することができる。トリミングプログラムは、Illuminaのアダプターおよび、シークエンシングクオリティーの低下に関連するリードの一部をトリミングする。クオリティートリミングを実行するための他の既知のプロセスも使用することができる。
【0066】
工程S303で、プロセッサは、インターリービングプロセスを実行することができ、例えば、任意の好適な解析スクリプトを使用して実行することができる。例えば、ペアリードがシークエンシングシステムによって得られる場合、解析スクリプトを使用して、すべてのペアリードの2つのメイトリードを単一のファイルに再結合することができる。
【0067】
工程S304で、プロセッサは、正規化プロセスを実行することができ、例えば、Khmer-0.7.1などの任意の好適な既知のソフトウェアプログラムを呼び出すスクリプトを使用して31-merによって正規化することによって実行することができる。この例では、正規化プログラムは、kの事前定義された値を使用して、すべてのリードにおけるk-merの分布を調べ、余分な情報しか提供しないという理由で、最も頻繁なk-merを含むリードの比例量を破棄する。この工程により、次の工程のメモリ効率が向上する。
【0068】
さらに、工程S305で、正規化されたリードファイルは、2つのファイル内のすべてのペアリードの2つのメイトリードを分離する任意の好適な解析スクリプトを使用して、プロセッサによってデインターリービングまたはデカップリングされる。この工程は、インターリービング工程の反対である。ペアリードごとに、同じペアリードに属するものとして同定される2つのメイトがある。それらは、同じファイル(つまりインターリービング)または別々のファイル(デインターリービング)のいずれかに書き込むことができる。あるものから別のものに移動するプロセスは、同じペアリードに属するものとしてメイトを同定するタグ付け文字列に従って解析するだけである。このタグ付けは、シークエンシングプラットフォームによって生成されたファイルに由来し、メイト1の場合はXYZ/1、メイト2の場合はXYZ/2のように見える。ソフトウェアはテキストマッチングによってそれらを同定し、対応するDNA配列を同じファイルまたは2つの別々のファイルに書き込む。
【0069】
この工程は、リードが次の工程で処理されるために必要である。
【0070】
工程S306およびS307で、サンプルDNA配列データの作製されたリードは、参照ゲノムに対してプロセッサによって整列され、アライメントファイルは、参照ゲノムにおけるアライメントのポジションによってプロセッサでソートされる。さらに、比較(すなわち減算)DNA配列データの作製されたリードは、参照ゲノムに対してプロセッサによって整列され、アライメントファイルは、参照ゲノムにおけるアライメントのポジションによってプロセッサでソートされる。
【0071】
工程S306のアライメント工程(サンプルおよび比較DNA配列データの両方について)について、関連する正規化されたリードは、例えば、プログラムbowtie2-2.1.0などの任意の好適な既知のソフトウェアプログラムを呼び出すスクリプトを使用して、参照DNA配列データに対して整列される。ペアリードは、変異体の野生型親のゲノムの全配列と効果的に比較され、最良のマッチングが保持される。アライメントのポジション、ペアリードがこのポジションで整列する信頼度、アライメント内のミスマッチの存在、タイプ、詳細など、アライメントを説明する多数のパラメータが出力され、アライメントファイルに書き込まれる。
【0072】
S307でのポジションソート工程(サンプルおよび比較DNA配列データの両方)の場合、関連するアライメントファイルは、例えば、プログラムbio-samtools-2.0.5の関数「ソート(sort)」などの任意の好適な既知のソフトウェアプログラムを呼び出すスクリプトを使用して、参照ゲノム内のアライメントのポジションによってソートされる。
【0073】
ミスマッチが説得力のあるアライメントスコアによってサポートされている場合、ミスマッチは、工程S308でポジションソートされたアライメントファイルからプロセッサによって抽出され、候補ミスマッチファイルに配置される。例えば、ミスマッチは、例えば、プログラムbio-samtools-2.0.5からのプログラム関数パイルアップ(mpileup)などの任意の好適な既知のソフトウェアプログラムを呼び出すスクリプトを使用して、ポジションソートされたアライメントファイルから抽出される。パイルアップ関数は、ポジションソートされたアライメントファイルを調べてミスマッチを探し、事前定義された閾値を超えて正しく整列される可能性のあるリードからのミスマッチに関連するすべての情報を新しいファイルに書き込む。
【0074】
工程S309において、予想よりも多くのリードが整列するゲノムの領域は、プロセッサによって除外される。つまり、シーケンス深度は、参照DNA配列の領域に対して整列するサンプルからのシーケンスリードの数によって定義される。サンプルのDNA配列を配列決定する場合、ユーザーはDNA配列の同じ部分を配列決定する回数を選択できる。この選択により、予想されるシーケンス深度が定義される。例えば、シーケンス深度1を目指すには、サンプリングシステムがサンプルのDNA配列全体を1回配列決定する必要がある。予想されるシーケンス深度が20の場合、サンプリングシステムはサンプルのDNAの20倍を配列決定する。
【0075】
したがって、例として、定義されたポジションで観察されたシーケンス深度が10の場合、10個のシーケンスリードがこのポジションを含む参照DNA配列の領域に整列される。予想されるシーケンス深度が1の場合、これは10個のリードのうち9個が誤ってDNA配列のこの領域に対して整列されたことを示唆する。このため、ソフトウェアは、観察されたシーケンス深度が予想されるシーケンス深度よりも高い参照DNA配列の領域のミスマッチを、誤って整列されたリードの結果である可能性が高いと見なし、ミスマッチデータのセットから除去する。言い換えると、ミスマッチはアライメントアーティファクトと見なされ、候補変異とは見なされないため、データセットから破棄または除去される。この実施形態によれば、ソフトウェアは、ミスマッチファイルデータを使用し、bcftoolsと呼ばれるプログラムからvarFilterと呼ばれる関数を呼び出す。この機能を実装するために、任意の他の好適なソフトウェアプログラムを使用できると理解されるであろう。
【0076】
決定工程SX01および工程S309での上記のシーケンス深度プロセスは、参照DNA配列データに関する比較DNA配列データのさらなるセットにも適用される。
【0077】
言い換えれば、ミスマッチDNA配列データの第1またはそれ以上のセットを決定するために、記載された方法およびソフトウェアは、実際のリード深度が予想されるリード深度を超えていることに基づいて、参照DNA配列データと整列するサンプルDNA配列データの少なくとも1つの領域を拒絶し得る。
【0078】
さらに、システムは、ゲノム内のあるポジションに整列するリード群におけるミスマッチの発生頻度を使用して、決定工程SX02および工程S310でアライメントアーティファクトを除外する。例えば、変異体が二倍体種である場合、変異体ゲノムでのミスマッチの予想頻度は50%であるが、一倍体種では100%である。観察されたシーケンス深度が定義された種の予想されるシーケンス深度と一致しない場合、関連するリードはデータセットから破棄される。また、これはサンプルおよび比較DNA配列の両方のデータのセットに適用される。最後に、決定SX03および工程S311で、ごくわずかなリードによってサポートされるミスマッチは、候補ミスマッチファイルからミスマッチを除去することによって、プロセッサによって無視される。システムはさらに、生物学的基準を使用してミスマッチをフィルタリングする。最初の生物学的基準は、調査された変異体(複数可)に対するミスマッチの特異性である。別々にまたは一緒に使用できる2つの主要なシナリオがある。シナリオAの場合、減算変異体および試験されたサンプルは同じように見えるか、同様に動作する(つまり、表現型的に似ている)、および/またはシナリオBの場合、独立した変異系統および試験されたサンプルは見た目も動作も異なる(つまり、表現型的に異なる)。シナリオAの場合、比較(減算)サンプルは、調査された(サンプル)変異体および減算(比較)変異体が、表現型的に類似していることに基づいて相補性群を形成するという予測に基づいて選択される。これは、変異体が不稔性でない場合、ペアワイズクロッシングによって任意に試験され得る。この予測工程は、特定の実施形態では「相補性群予測工程」と呼ばれ得る。次に、システムは、減算系統(すなわち、仮定された比較変異体サンプルの遺伝子配列)のミスマッチリード(ミスマッチ)のクオリティートリミング、正規化、アライメント、ポジショニングおよびソート(上記のとおり)の工程を実行する。次に、システムは、調査された(サンプル)変異体のミスマッチのセットを減算(比較)変異体のミスマッチのセットと比較し、調査された変異体およびすべての減算変異体の両方で見つかったミスマッチのみをミスマッチの候補セットに保持する。調査された変異体および減算変異体の両方にあるミスマッチ(参照サンプルと比較して)を保持することにより、ミスマッチの1つが原因となる変異に関連する可能性がはるかに高くなる。したがって、この工程により、候補となる変異の数が減り、原因となる変異を同定するために必要な追加の処理の量が減る。シナリオBの場合、比較(減算)サンプルは、減算(比較)変異体が調査された(サンプル)変異体の原因となる変異を含まないという予測に基づいて選択される。これは、変異体が不稔性でない場合、ペアワイズクロッシングによって任意に試験され得る。この予測工程は、特定の実施形態では「比較原因となる変異予測工程」と呼ばれ得る。次に、システムは、減算比較系統のミスマッチリード(ミスマッチ)のクオリティートリミング、正規化、アライメント、ポジショニングおよびソート(上記のとおり)の工程を実行する。次に、システムは、調査された(サンプル)変異体のミスマッチのセットを減算(比較)変異体のミスマッチのセットと比較し、調査された変異体に特異的なミスマッチのみをミスマッチの候補セットに保持する。つまり、減算変異サンプルおよび調査された変異サンプルの両方で遺伝子配列に同じミスマッチが見つかった場合、その特定のミスマッチは原因となる変異ではないと見なされる。
【0079】
システムは、シナリオAおよびシナリオBの両方に関連するプロセスを連続的または同時に実施して、プロセス全体の能力を高めることができる。
【0080】
最後に、標準的な生物学的基準を使用して、原因となる変異である可能性が低い調査された変異体のミスマッチを破棄することもできる。第1に、システムは、変異体を作成するために使用される変異誘発方法から期待される変異の特徴と一致しないミスマッチを破棄する可能性がある。すなわち、非標準的なミスマッチフィルタリングは、システムが、調査される変異体を生成するために使用される変異誘発方法の変異シグネチャーと一致しない候補ミスマッチのセットのミスマッチのみを保持する場合に実行され得る。次に、システムは、コードされたタンパク質のアミノ酸配列の変化を引き起こさないミスマッチ(すなわち、遺伝子間領域、非翻訳領域、またはイントロンにある変異)を破棄する。すなわち、システムがタンパク質のアミノ酸配列の変化を引き起こす候補ミスマッチのセットのミスマッチのみを保持する場合、非コーディングミスマッチフィルタリングを実行することができる。
【0081】
例えば、プロセッサは、変異した遺伝子(サンプル)のコード配列を入力として得て、対応する翻訳されたタンパク質配列を一時的なアレイに格納する。次に、システムは、参照コード配列について同じことを繰り返し、対応するタンパク質配列を一時的なアレイにプッシュすることができる。さらに、システムは次いで、一時的なアレイの両方の要素にテキストを一致させ、一致がない場合、関連するミスマッチを候補ミスマッチのセットに書き込むことができる。
【0082】
図4を参照すると、サンプルから採取され、参照DNA配列403に対して参照される複数のリード401の例が提供される。405に示されるように、サンプルからの複数のリードは、参照DNA配列データ403を参照して整列され、ポジションソートされている。つまり、(サンプルの)リードは、サンプルのリードが(ポジション的に)対応する、または整列する参照配列の上に表示される。
【0083】
垂直線407は、その線を通過する任意のリードとそのポジションでの参照DNA配列データとの間に差があることを示している。つまり、そのリードの配列および参照配列の間にミスマッチがある。
【0084】
セクション409は、遺伝子のコード配列を示す。この実施形態の文脈において、遺伝子は、タンパク質をコードするDNAの配列である。遺伝子の一部はタンパク質のコーディングに必要な情報を保有するが、残りは保有しない。この情報を保有する部分は、遺伝子のコード配列と呼ばれる。これは、太い黒いバー(コード配列)および細い線(非コード配列)で409に視覚的に表される。
【0085】
セクション411は、参照配列のある一定のポジションでのサンプルのリード数を示す。
【0086】
図4は、サンプルDNA配列データおよび参照DNA配列データの複数のリードを参照して説明されているが、比較(減算)DNA配列データおよび参照DNA配列データでも同じタイプの情報が生成されることが理解されよう。
【0087】
図5を参照すると、サンプルから採取され、参照DNA配列データからの単一のリード503に対して参照される複数のリード501のさらなる例が提供される。このグラフ表示では、サンプルDNA配列の観察されたリード数が、参照配列に対する関連するポジションに示されている。これにより、ソフトウェアは、予想されるシーケンス深度が測定されたシーケンス深度と一致しているかどうかを決定できる。
【0088】
ポジション505では、観察されたシーケンス深度(つまり、このポジションでのリード数)が予想されるシーケンス深度と一致しているため、これらのリードのミスマッチは候補ミスマッチファイルに保持されていることが読み取れる。一方、ポジション507では、観察されたシーケンス深度(つまり、このポジションでのリード数)が予想されるシーケンス深度と一致しないため、これらのリードは候補ミスマッチファイルに保持されないことが読み取れる。つまり、候補ミスマッチファイルから削除、除去、または破棄される。
【0089】
図6では、予想される対立遺伝子頻度に関連する頻度基準かどうかを決定するためのグラフ表示が示されている。この例では、矢印601で示されるポジションで、サンプルのDNA配列は、参照DNA配列に対して関連するポジションでのすべてのリードで異なる。そのため、対立遺伝子頻度は100%であり、頻度基準が満たされると、ミスマッチデータは候補ミスマッチファイルに保持される。
【0090】
図7では、予想される対立遺伝子頻度に関連する頻度基準かどうかを決定するためのグラフ表示が示されている。この例では、矢印701および703で示されるポジションで、サンプルのDNA配列は、参照DNA配列に対して関連するポジションでのこれらのリードで異なる。そのため、対立遺伝子頻度は100%ではなく、ミスマッチデータは候補ミスマッチファイルに保持されない。つまり、頻度基準が満たされていないため、候補ミスマッチファイルから削除、除去、または破棄される。
【0091】
本開示の第1、第3、第5および第7の態様によれば、関心対象の表現型に関連する変異、すなわち原因となる変異を同定するための方法が提供される。これらの態様では、減算変異体および試験されたサンプルは同じように見えるか、同様に動作する(つまり、表現型的に似ている)。
【0092】
本開示の第2、第4、第6および第8の態様によれば、関心対象の表現型に関連する変異を同定するための方法が提供される。これらの態様では、独立した変異系統および試験されたサンプルは、見た目も動作も異なる(つまり、表現型的に異なる)。
【0093】
これらの態様では、方法を実施する前に、関心対象の表現型に関連する作用機序もしくは生物学的標的の予測または知識を有することは必須ではない。したがって、この方法を使用して、原因となる変異の可能性のあるゲノムポジションが不明であり、関心対象の表現型を示す植物における原因となる変異を同定することができる。
【0094】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、関心対象の表現型を示す独立した非維管束植物由来であり、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0095】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す非維管束植物由来であり、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物由来であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0096】
一実施形態では、この方法は、
(b-i)少なくとも1つの追加の比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第3のセットの配列ミスマッチを同定することをさらに含み、追加の比較サンプル(複数可)は、関心対象の表現型を示す独立した非維管束植物に由来し、独立した非維管束植物は、同じ属であり、
(c)第3のセットの配列ミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第3のセットの配列ミスマッチに共通するミスマッチのサブセットを同定することをさらに含み、ミスマッチの2つのサブセットは、原因となる変異の候補変異である。
【0097】
一実施形態では、この方法は、
(b-i)少なくとも1つの追加の比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第3のセットの配列ミスマッチを同定することをさらに含み、追加の比較サンプル(複数可)は、関心対象の表現型を示す独立したシダ類に由来し、独立したシダ類は、同じ属であり、
(c)第3のセットの配列ミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第3のセットの配列ミスマッチに共通するミスマッチのサブセットを同定することをさらに含み、ミスマッチの2つのサブセットは、原因となる変異の候補変異である。
【0098】
一実施形態では、この方法は、
(b-i)少なくとも1つの追加の比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第3のセットの配列ミスマッチを同定することをさらに含み、追加の比較サンプル(複数可)は、関心対象の表現型を示す独立した藻類に由来し、独立した藻類は、同じ属であり、
(c)第3のセットの配列ミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第3のセットの配列ミスマッチに共通するミスマッチのサブセットを同定することをさらに含み、ミスマッチの2つのサブセットは、原因となる変異の候補変異である。
【0099】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、および
少なくとも1つの追加の比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第3のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、および
第3のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第3のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチの2つのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す非維管束植物に由来し、比較サンプル(複数可)は、関心対象の表現型を示さない同じ属の独立した非維管束植物に由来し、追加の比較サンプル(複数可)は、関心対象の表現型を示す同じ属の独立した非維管束植物に由来し、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0100】
植物または植物集団を変異原に曝露すると、植物ゲノムに変異をもたらすことができる。同様に、シダ類もしくは藻類植物または集団を曝露すると、それらのゲノムに変異をもたらすことができる。変異はランダムに発生する場合もあれば、標的となる変異の場合もある。その結果、変異誘発のプロセスによるゲノムの変化は、表現型の変化をもたらす可能性がある。多数の変異原を使用して、本発明で使用するための変異体植物、シダ類および藻類を生成することができる。
【0101】
一実施形態では、試験サンプルは変異誘発されている。一実施形態では、試験サンプルは変異原への曝露によって変異誘発されている。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、変異誘発されている。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、変異原への曝露によって変異誘発されている。
【0102】
一実施形態では、試験サンプルは変異誘発されており、変異誘発は自然には起こらない。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、変異誘発されており、変異誘発は自然には起こらない。一実施形態では、試験サンプルは変異誘発されており、変異誘発は実験的に誘発される。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、変異誘発されており、変異誘発は実験的に誘発される。
【0103】
一実施形態では、変異原は放射線である。一実施形態では、変異原は紫外線(UV)光、X線、ガンマ線および中性子からなる群から選択される。一実施形態では、変異原はUV光、任意にUV-A、UV-BまたはUV-C光である。一実施形態では、変異原はUV-B光である。
【0104】
一実施形態では、変異原は化学薬剤である。一実施形態では、化学薬剤はアルキル化剤、任意にメタンスルホン酸エチル(EMS)、硫酸ジメチル、アジ化ナトリウム、メチルニトロニトロソグアニジン(MNNG)である。一実施形態では、化学薬剤は脱アミノ化剤である。一実施形態では、化学薬剤は挿入剤である。
【0105】
一実施形態では、変異原は転移因子(トランスポゾンとしても知られている)である。当業者は、植物に変異誘発を誘導するための多数の変異原があり、本発明の方法内で採用することができることを理解するであろう。
【0106】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、化学的または物理的薬剤への曝露によって変異誘発された非維管束植物物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、化学的または物理的薬剤への曝露によって変異誘発されたシダ類生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、化学的または物理的薬剤への曝露によって変異誘発された藻類生物質である。
【0107】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、化学薬剤によって変異誘発された非維管束植物物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、放射線によって変異誘発された非維管束植物物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、化学薬剤によって変異誘発されたシダ類生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、放射線によって変異誘発されたシダ類生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、化学薬剤によって変異誘発された藻類生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、放射線によって変異誘発された藻類生物質である。
【0108】
一実施形態では、この方法は、以下の準備工程:
(i)非維管束植物の集団を変異原に曝露すること、
(ii)関心対象の表現型を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iii)同じ関心対象の表現型を示す独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、または
(iii)関心対象の表現型を示さない独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、を含み、
(i)~(iiii)は(a)に先立って実施される。
【0109】
一実施形態では、この方法は、以下の準備工程:
(i)シダ類の集団を変異原に曝露すること、
(ii)関心対象の表現型を示す変異誘発されたシダ類から試験サンプルを得ること、
(iii)同じ関心対象の表現型を示す独立した変異誘発されたシダ類から少なくとも1つの比較サンプルを得ること、または
(iii)関心対象の表現型を示さない独立した変異誘発されたシダ類から少なくとも1つの比較サンプルを得ること、を含み、
(i)~(iiii)は(a)に先立って実施される。
【0110】
一実施形態では、この方法は、以下の準備工程:
(i)藻類の集団を変異原に曝露すること、
(ii)関心対象の表現型を示す変異誘発されたシダ類から試験サンプルを得ること、
(iii)同じ関心対象の表現型を示す独立した変異誘発された藻類から少なくとも1つの比較サンプルを得ること、または
(iii)関心対象の表現型を示さない独立した変異誘発された藻類から少なくとも1つの比較サンプルを得ること、を含み、
(i)~(iiii)は(a)に先立って実施される。
【0111】
一実施形態では、この方法は、試験および/または少なくとも1つの比較サンプルを受け取ることを含む。一実施形態では、この方法は、試験および/または少なくとも1つの比較サンプルからDNA配列を受け取ることを含む。一実施形態では、この方法は、試験および/または少なくとも1つの比較サンプルを得ることを含む。一実施形態では、この方法は、試験および/または少なくとも1つの比較サンプルを単離することを含む。一実施形態では、この方法は、試験および/または少なくとも1つの比較サンプルからDNA配列を単離することを含む。
【0112】
一実施形態では、試験サンプルは植物全体または植物の実質的な部分であり得る。一実施形態では、試験サンプルは植物全体またはシダ類の実質的な部分であり得る。一実施形態では、試験サンプルは植物全体または藻類の実質的な部分であり得る。一実施形態では、試験サンプルは植物プロトプラスト、カルス、胞子体、胞子細胞、胞子、無性芽、配偶体、精子、造精器、仮根、接合子または胚であり得る。一実施形態では、試験サンプルは非維管束植物組織であり得る。一実施形態では、試験サンプルはシダ類組織であり得る。一実施形態では、試験サンプルは藻類組織であり得る。
【0113】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定することであって、
試験サンプルは、変異誘発された非維管束植物に由来する、同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、関心対象の表現型を示す独立した非維管束植物由来であり、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0114】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立したM1世代の非維管束植物に由来し、独立した非維管束植物は、関心対象の表現型を示し、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0115】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)関心対象の表現型を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iii)同じ関心対象の表現型を示す独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0116】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
試験サンプルは、変異誘発された非維管束植物に由来する、同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す非維管束植物由来であり、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物由来であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異である。
【0117】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立したM1世代の非維管束植物に由来し、試験サンプルは、関心対象の表現型を示す非維管束植物に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物に由来し、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0118】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)関心対象の表現型を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iii)同じ関心対象の表現型を示さない独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0119】
一実施形態では、工程(b)は、少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定することを含む。少なくとも1つの比較サンプルは、1つの比較サンプル、および1つ以上の比較サンプル(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15個以上の比較サンプル)の両方を含む。
【0120】
一実施形態では、(b)の工程は、2、3、4、5、6、7、8、9、10、11、12、13、14、15個以上の比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定することを含む。一実施形態では、この方法は、7つ以上の比較サンプルを利用する。複数の比較サンプル(つまり2つ以上)の場合、複数の独立した比較が行われる。最初に、第1の比較サンプルのDNA配列と参照DNA配列との間で、第1のセットのミスマッチを得る。第2に、第2の比較サンプルのDNA配列と参照DNA配列との間で、第2のセットのミスマッチを得る。第3に、第3の比較サンプルのDNA配列と参照DNA配列との間で、第3のセットのミスマッチを得る。同様に、これは、第4、第5、第6、第7、第8、第9、第10、第11、第12、第13、第14または第15のサンプルに関連して実施され、分析のために使用されるのと同じくらいの数の比較サンプルに関連して実施され得る。工程(b)で同定された第1、第2、第3などのセットのミスマッチは、集合的に第2のセットのミスマッチを形成し、方法の工程(a)で同定された第1のセットのミスマッチに関してフィルタリングするために使用される。プログラムvcftoolsまたはSnpSiftなど、これらの比較工程を実施するためのいくつかのツールが知られている。
【0121】
本発明は、関心対象の表現型形質に関連する原因となる変異の遺伝様式を理解することに依存していない。したがって、本発明は、従来の変異誘発研究で採用されている、分離パターンを決定するために関心対象の変異体を異系交配するという時間のかかる工程を回避する。さらに、本発明は、関心対象の表現型およびM1変異体の子孫に分離する多型のグループを、関心対象の表現型と関連付けることに依存しない。したがって、本発明は、原因となる変異をマッピングするために関心対象の変異体を異系交配するという、従来の変異誘発研究で採用されている時間のかかる工程を回避する。一実施形態では、試験サンプルは、M1世代の変異体である。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、M1世代の変異体である。M1変異体であるがゆえに、非維管束植物は異系交配されない。したがって、この方法では原因となる変異を同定するために変異体を交配する必要がないため、不稔性を引き起こすM1変異体の原因となる変異を同定することが可能である。
【0122】
一実施形態では、試験サンプルは、M1またはM2世代の変異体である。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、M1またはM2世代の変異体である。一実施形態では、試験サンプルは、M1、M2またはM3世代の変異体である。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、M1、M2またはM3世代の変異体である。
【0123】
一実施形態では、この方法は、関心対象の表現型に関連する原因となる変異を同定するために、分離分析、複合分離分析、またはバルク分離分析の工程を必要としない。一実施形態では、この方法は、関心対象の表現型に関連する原因となる変異を同定するために、非維管束植物の受精の工程を必要としない。一実施形態では、この方法は、関心対象の表現型に関連する原因となる変異を同定するために、自家受精、受精、異系交配、戻し交配また非維管束植物の近同質遺伝子系統による受精を必要としない。
【0124】
一実施形態では、この方法は、原因となる変異を同定するために、関心対象の表現型の遺伝特性の知識を必要としない。一実施形態では、この方法は、原因となる変異を同定するために、関心対象の表現型の遺伝パターンを決定する工程を含まない。
【0125】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットの配列ミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットの配列ミスマッチに共通するミスマッチのサブセットを同定すること、を含み、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、独立した非維管束植物は、関心対象の表現型を示し、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列であり、
この方法は、関心対象の表現型に関連する原因となる変異を同定するために、分離分析、複合分離分析、またはバルク分離分析の工程を含まない。
【0126】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、独立した非維管束植物は、関心対象の表現型を示し、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列であり、
この方法は、関心対象の表現型に関連する原因となる変異を同定するために、受精の工程を必要としない。
【0127】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、試験サンプルは、関心対象の表現型を示す非維管束植物に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物に由来し、
参照DNA配列は、この属の非維管束植物の既知の参照配列であり、
この方法は、関心対象の表現型に関連する原因となる変異を同定するために、分離分析、複合分離分析、またはバルク分離分析の工程を含まない。
【0128】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、試験サンプルは、関心対象の表現型を示す非維管束植物に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物に由来し、
参照DNA配列は、この属の非維管束植物の既知の参照配列であり、
この方法は、関心対象の表現型に関連する原因となる変異を同定するために、自家受精の工程を必要としない。
【0129】
一実施形態では、試験サンプルは、一倍体植物に由来する生物質である。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、一倍体植物に由来する生物質である。一実施形態では、試験サンプルは、そのライフサイクル間に主に一倍体相にある植物に由来する生物質である。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、そのライフサイクル間に主に一倍体相にある植物に由来する生物質である。
【0130】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、藻類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、緑藻植物門(Chlorophyta)またはストレプト藻(streptophyta algae)に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、
Mesostigmatophyceae、Chlorokybophyceae、Klebsormidiophyceae、Zygnematophyceae、CharophyceaeおよびColeochaetophyceaeに由来する生物質である。
【0131】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、クラミドモナス(Chlamydomonas)属の藻類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Chlamydomonas caudata Wille、Chlamydomonas ehrenbergii Gorozhankin、Chlamydomonas elegans、
Chlamydomonas moewusii、Chlamydomonas nivalis、Chlamydomonas ovoidaeまたはChlamydomonas reinhardtii algaeに由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Chlamydomonas reinhardtii algaeに由来する生物質である。
【0132】
一実施形態では、試験サンプルは、蘚苔類である非維管束陸生植物に由来する生物質および/または少なくとも1つの比較サンプルである。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、蘚類、苔類およびツノゴケ類からなる群から選択される蘚苔類に由来する生物質である。
【0133】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、ツノゴケ類に由来する生物質である。
【0134】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、蘚類に由来する生物質である。一実施形態では、試験サンプルは、Physcomitrella属の蘚類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Physcomitrella patensまたはPhyscomitrella readeri蘚類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Physcomitrella patens蘚類に由来する生物質である。
【0135】
好ましい実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、苔類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Jungermanniopsida網の植物に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、JungermanniidaeまたはMetzgeriidae亜綱の植物に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、
Marchantiopsida綱の植物に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、MarchantiidaeまたはSphaerocarpidae亜網の植物に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Haplomitriopsida網の植物に由来する生物質である。
【0136】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、生物質の葉状苔類、単純葉状体苔類または複雑葉状体苔類である。
【0137】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Marchantia種の植物に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Marchantia alpestris、
Marchantia aquatica、Marchantia berteroana、Marchantia carrii、Marchantia chenopoda、
Marchantia debilis、Marchantia domingenis、Marchantia emarginata、Marchantia foliacia、
Marchantia grossibarba、Marchantia inflexa、Marchantia linearis、Marchantia macropora、
Marchantia novoguineensis、Marchantia paleacea、Marchantia palmata、Marchantia papillate、Marchantia pappeana、Marchantia polymorpha(M.aquaticaとしても知られている)、Marchantia rubribarba、Marchantia solomonensis、Marchantia streimannii、Marchantia subgeminata、Marchantia vitiensis、Marchantia wallisiiまたはMarchantia nepalensisに由来する生物質である。好ましい実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Marchantia polymorphaに由来する生物質である。
【0138】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、シダ類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、Eusporangiateシダ類またはLeptosporangiateシダ類(Polypodiidaeシダ類としても知られている)に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、シダ類に由来する生物質である。一実施形態では、試験サンプルは、Eusporangiateシダ類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、marattioidシダ類(Marattiidae、Marattiaceae)、トクサシダ類(Equisetiidae、Equisetaceae)、whiskシダ類またはハナワラビ(moonwort)シダ類に由来する生物質である。
【0139】
一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、同じ属の独立した植物に由来するサンプルである。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、同じ種の独立した植物に由来するサンプルである。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、同じ属の独立したシダ類に由来するサンプルである。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、同じ種の独立したシダ類に由来するサンプルである。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、同じ属の独立した藻類に由来するサンプルである。一実施形態では、試験サンプルおよび少なくとも1つの比較サンプルは、同じ種の独立した藻類に由来するサンプルである。
【0140】
一実施形態では、参照DNA配列は、試験サンプルおよび少なくとも1つの比較サンプルとして使用される植物と同じ属の植物の既知のDNA配列である。一実施形態では、参照DNA配列は、試験サンプルおよび少なくとも1つの比較サンプルとして使用される植物と同じ種の植物の既知のDNA配列である。一実施形態では、参照DNA配列は、試験サンプルおよび少なくとも1つの比較サンプルとして使用されるシダ類と同じ属のシダ類の既知のDNA配列である。一実施形態では、参照DNA配列は、試験サンプルおよび少なくとも1つの比較サンプルとして使用されるシダ類と同じ種のシダ類の既知のDNA配列である。一実施形態では、参照DNA配列は、試験サンプルおよび少なくとも1つの比較サンプルとして使用されるシダ類と同じ属の藻類の既知のDNA配列である。一実施形態では、参照DNA配列は、試験サンプルおよび少なくとも1つの比較サンプルとして使用されるシダ類と同じ種の藻類の既知のDNA配列である。一実施形態では、この方法は、(a)試験サンプルのDNA配列を1つ以上の参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、および/または(b)少なくとも1つの比較サンプルのDNA配列を1つ以上の参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、を含む。参照ゲノムは公開データベースで幅広く利用可能であり、当業者は適切な参照配列を選択する方法を理解している。
【0141】
一実施形態では、この方法は、(a)試験サンプルのDNA配列を2つ以上の参照DNA配列に整列させ、第1のセットの配列ミスマッチを同定すること、および/または(b)少なくとも1つの比較サンプルのDNA配列を2つ以上の参照DNA配列に整列させ、第2のセットの配列ミスマッチを同定すること、を含む。複数の参照DNAサンプル(つまり2つ以上)の場合、複数の独立した比較が行われる。最初に、試験サンプルのDNA配列と第1の参照DNA配列との間で、第1のセットのミスマッチを得る。第2に、試験サンプルと第2の参照DNA配列との間で、第2のセットのミスマッチを得る。第3に、試験サンプルと参照DNA配列との間で、第3のセットのミスマッチなどを得る。第1、第2、第3などのセットのミスマッチは、集合的に、工程(a)の第1のセットのミスマッチを形成する。同様に、複数の独立した比較を実施し、少なくとも1つの比較サンプルを複数の参照DNA配列と比較し、工程(b)の第2のセットのミスマッチを形成する。
【0142】
一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、胞子形成生物、例えば胞子形成植物、胞子形成藻類または胞子形成シダ類に由来する生物質である。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、胞子を介して繁殖する非維管束植物に由来する。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、胞子を介して繁殖するシダ類に由来する。一実施形態では、試験サンプルおよび/または少なくとも1つの比較サンプルは、胞子を介して繁殖する藻類に由来する。
【0143】
一実施形態では、苔類植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した苔類植物に由来し、独立した苔類植物は、関心対象の表現型を示し、独立した苔類植物は、同じ属であり、
参照DNA配列は、この属の苔類植物の既知の参照配列である。
【0144】
一実施形態では、苔類植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した苔類植物に由来し、試験サンプルは、関心対象の表現型を示す非苔類植物に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立した苔類植物に由来し、
参照DNA配列は、この属の苔類植物の既知の参照配列である。
【0145】
一実施形態では、シダ類における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立したシダ類植物に由来し、独立したシダ類植物は、関心対象の表現型を示し、独立したシダ類植物は、同じ属であり、
参照DNA配列は、この属のシダ類の既知の参照配列である。
【0146】
一実施形態では、シダ類植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立したシダ類植物に由来し、試験サンプルは、関心対象の表現型を示すシダ類植物に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立したシダ類植物に由来し、
参照DNA配列は、この属のシダ類の既知の参照配列である。
【0147】
一実施形態では、藻類における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した藻類に由来し、独立した藻類は、関心対象の表現型を示し、独立した藻類は、同じ属であり、
参照DNA配列は、この属の藻類の既知の参照配列である。
【0148】
一実施形態では、藻類における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した藻類に由来し、試験サンプルは、関心対象の表現型を示す藻類に由来し、比較サンプルは、関心対象の表現型を示さない同じ属の独立した藻類に由来し、参照DNA配列は、この属の藻類の既知の参照配列である。
【0149】
一実施形態では、関心対象の表現型は、非維管束植物、シダ類もしくは藻類のサイズ、高さ、サイズ、色または構造などの形態的特徴である。一実施形態では、関心対象の表現型は、収量の増加、ストレス耐性、ストレス抵抗性、非生物ストレス耐性、非生物ストレス抵抗性、耐塩性、塩抵抗性、不稔性、乾燥抵抗性、耐乾燥性、高温もしくは低温に対する抵抗性、霜抵抗性、耐霜性、成長速度、細胞分裂速度、耐病性、病害抵抗性、病害感受性、除草剤耐性、除草剤抵抗性、除草剤感受性、抗生物質耐性、抗生物質抵抗性または抗生物質感受性などの観察可能特性である。所望の関心対象の表現型に応じて、植物、藻類またはシダ類は、野生型植物と比較して、関心対象の形質(例えば、除草剤抵抗性)のレベルの増加または減少を示し得る。一実施形態では、関心対象の表現型は、野生型レベルと比較して、関心対象の形質の10、20、30、40、50、60、70、80、90または100%の増加を示す植物である。一実施形態では、関心対象の表現型は、野生型レベルと比較して、関心対象の形質の200、250、300、350、400、450または500%の増加を示す植物である。一実施形態では、関心対象の表現型は、野生型レベルと比較して、関心対象の形質の10、20、30、40、50、60、70、80、90または100%の減少を示す植物である。
【0150】
一実施形態では、関心対象の表現型は、除草剤抵抗性である。一実施形態では、関心対象の表現型は、除草剤耐性である。一実施形態では、関心対象の表現型は、除草剤感受性である。一実施形態では、関心対象の表現型は、ウイルス、細菌もしくは真菌の病原体に対する増加した抵抗性または増加した耐性であり得る。一実施形態では、関心対象の表現型は、天然の、合成のもしくは化学的除草剤に対する増加した抵抗性または増加した耐性であり得る。好ましい実施形態では、関心対象の表現型は、増加した除草剤抵抗性であり得る。好ましい実施形態では、関心対象の表現型は、特定の除草剤に対する増加した除草剤抵抗性であり得る。試験サンプルは、特定の除草剤に対して抵抗性である非維管束植物に由来し得、少なくとも1つの比較サンプルは、代替の除草剤に対して抵抗性であるか、または代替の表現型を示す(すなわち、特定の除草剤に対する抵抗性を示さない)独立した非維管束植物に由来し得る。除草剤抵抗性の場合、抵抗性は、関心対象の除草剤への曝露後の植物の生存として決定することができる(すなわち、植物は除草剤曝露後に死なない)。一実施形態では、生存は、除草剤曝露後1週間での植物の生存として決定される。一実施形態では、生存は、除草剤曝露後2週間での植物の生存として決定される。一実施形態では、生存は、除草剤曝露後3週間での植物の生存として決定される。
【0151】
一実施形態では、この方法は、非維管束植物、シダ類もしくは藻類またはシダ類を薬剤に曝露することを含む。薬剤への曝露は、関心対象の表現型を示す植物、シダ類、または藻類をもたらす可能性がある。薬剤は、栄養素、栄養飢餓反応を誘発する分子、植物成長調節剤、植物成長阻害剤、植物成長促進剤、肥料または除草剤であり得る。一実施形態では、試験サンプルは、薬剤に曝露されている非維管束植物に由来する。一実施形態では、試験サンプルは、薬剤に曝露されているシダ類に由来する。一実施形態では、試験サンプルは、薬剤に曝露されている藻類に由来する。一実施形態では、試験サンプルは、除草剤に曝露されている非維管束植物に由来する。
【0152】
一実施形態では、この方法は、非維管束植物を関心対象の薬剤に曝露すること、および薬剤に対する非維管束植物の応答に基づいて、関心対象の表現型を示す非維管束植物を選択することを含む。一実施形態では、この方法は、非維管束植物を関心対象の除草剤に曝露すること、および除草剤に対する非維管束植物の応答に基づいて、関心対象の表現型を示す非維管束植物を選択することを含む。一実施形態では、この方法は、非維管束植物を関心対象の除草剤に曝露すること、および除草剤抵抗性を示す非維管束植物を選択することを含む。
【0153】
一実施形態では、この方法は、シダ類を関心対象の薬剤に曝露すること、および薬剤に対するシダ類の応答に基づいて、関心対象の表現型を示すシダ類を選択することを含む。一実施形態では、この方法は、藻類を関心対象の薬剤に曝露すること、および薬剤に対する藻類の応答に基づいて、関心対象の表現型を示す藻類を選択することを含む。
【0154】
一実施形態では、この方法は、以下の準備工程:
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を薬剤に曝露すること、
(iii)変異誘発された非維管束植物から試験サンプルを得ること、
(iv)独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、をさらに含み、(i)~(iv)は、(a)に先立って実施される。
薬剤への曝露は、関心対象の表現型をもたらす可能性がある。一実施形態では、この方法は、非維管束植物を関心対象の薬剤に曝露すること、および薬剤に対する非維管束植物の応答に基づいて、関心対象の表現型を示す非維管束植物を選択することを含む。
【0155】
一実施形態では、方法は、以下の準備工程:
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を除草剤に曝露すること、
(iii)変異誘発された非維管束植物から試験サンプルを得ること、
(iv)独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、をさらに含み、(i)~(iv)は、(a)に先立って実施される。
【0156】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、さらに非維管束植物は、薬剤に曝露されており、
独立した非維管束植物は、関心対象の表現型を示し、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0157】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、さらに非維管束植物は、除草剤に曝露されており、
独立した非維管束植物は、関心対象の表現型を示し、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0158】
一実施形態では、非維管束植物における除草剤抵抗性に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、さらに非維管束植物は、除草剤に曝露されており、
独立した非維管束植物は、除草剤に対する抵抗性を示し、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0159】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、さらに非維管束植物は、薬剤に曝露されており、
試験サンプルは、関心対象の表現型を示す非維管束植物由来であり、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物由来であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0160】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、さらに非維管束植物は、除草剤に曝露されており、
試験サンプルは、関心対象の表現型を示す非維管束植物由来であり、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物由来であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0161】
一実施形態では、非維管束植物における除草剤抵抗性に関連する変異を同定するための方法が提供され、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルおよび比較サンプル(複数可)は、変異原に曝露されている独立した非維管束植物に由来し、試験サンプルは、除草剤抵抗性を示す非維管束植物に由来し、比較サンプルは、異なる表現型を示す同じ属の独立した非維管束植物に由来し、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0162】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を薬剤に曝露すること、
(iii)関心対象の表現型を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iv)同じ関心対象の表現型を示す独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0163】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を除草剤に曝露すること、
(iii)関心対象の表現型を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iv)同じ関心対象の表現型を示す独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0164】
一実施形態では、非維管束植物における除草剤抵抗性に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を除草剤に曝露すること、
(iii)除草剤に対する抵抗性を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iv)同じ関心対象の表現型を示さない独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0165】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を薬剤に曝露すること、
(iii)関心対象の表現型を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iv)関心対象の表現型を示さない独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0166】
一実施形態では、非維管束植物における除草剤抵抗性に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を除草剤に曝露すること、
(iii)除草剤抵抗性を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iv)同じ関心対象の表現型を示さない独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0167】
一実施形態では、非維管束植物における除草剤抵抗性に関連する変異を同定するための方法が提供され、
(i)非維管束植物の集団を変異原に曝露すること、
(ii)非維管束植物の集団を除草剤に曝露すること、
(iii)除草剤抵抗性を示す変異誘発された非維管束植物から試験サンプルを得ること、
(iv)同じ関心対象の表現型を示さない独立した変異誘発された非維管束植物から少なくとも1つの比較サンプルを得ること、および
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
参照DNA配列は、属の非維管束植物の既知の参照配列である。
【0168】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(i)試験サンプルからゲノムDNAおよび少なくとも1つの比較サンプルからゲノムDNAを得て、シークエンシングライブラリを生成すること、
(ii)クラスター形成を行うこと、
(iii)試験サンプルからのゲノムDNAおよび少なくとも1つの比較サンプルからのゲノムDNAを配列決定し、配列リードを得ること、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
試験サンプルは、変異誘発された非維管束植物に由来する、同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定すること、を含み、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す非維管束植物由来であり、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物由来であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0169】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するための方法が提供され、
(i)試験サンプルからゲノムDNAおよび少なくとも1つの比較サンプルからゲノムDNAを得て、シークエンシングライブラリを生成すること、
(ii)クラスター形成を行うこと、
(iii)試験サンプルからのゲノムDNAおよび少なくとも1つの比較サンプルからのゲノムDNAを配列決定し、配列リードを得ること、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定すること、
試験サンプルは、変異誘発された非維管束植物に由来する、同定すること、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定すること、
(c)第2のセットの配列ミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットの配列ミスマッチに共通するミスマッチのサブセットを同定すること、を含み、
試験サンプルおよび比較サンプル(複数可)は、関心対象の表現型を示す独立した非維管束植物由来であり、独立した非維管束植物は、同じ属であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0170】
一実施形態では、この方法は、ローリードを提供するために、試験サンプルおよび少なくとも1つの比較サンプルからのDNA配列を配列決定することを含む。一実施形態では、DNAを配列決定する工程は、ローリードDNA配列をクオリティートリミングおよび正規化することを含む。これらのシークエンシング工程の各々を実施するために、多数のソフトウェアパッケージが存在する。
【0171】
一実施形態では、本明細書に記載の方法は、コンピュータ実装方法である。一実施形態では、方法工程(a)~(c)および任意に(d)は、コンピュータプログラムコードによって実行される。一実施形態では、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサは、コンピュータプログラムコードを介して方法工程(a)~(c)および任意に(d)を実行する。
【0172】
一実施形態では、この方法は、同定された候補変異を生物学的フィルターでフィルタリングし、原因となる変異の候補変異の数を減らすことを含む。このさらなるフィルタリング工程は、第2のセットのミスマッチに関して第1のセットのミスマッチをフィルタリングする第1のフィルタリング工程(c)の後に実施することができる。生物学的フィルターは、変異誘発方法の変異シグネチャーと一致しない変異のためのフィルター(非標準的なミスマッチフィルター)であり得る。生物学的フィルターは、コードされたタンパク質のアミノ酸配列に変化を引き起こさないミスマッチのためのフィルターであり得る。生物学的フィルターは、非コーディング変異のためのフィルターであり得る。生物学的フィルターは、予測された機能を持つ遺伝子のコード配列にあるミスマッチのためのフィルターであり得る。
【0173】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するためのシステムが提供され、このシステムは、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサを含み、コンピュータプログラムコードは、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定することであって、
試験サンプルは、変異誘発された非維管束植物に由来する、同定し、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定し、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1および第2のセットのミスマッチに共通するミスマッチのサブセットを同定するように構成され、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す非維管束植物由来であり、比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物由来であり、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0174】
一実施形態では、非維管束植物における関心対象の表現型に関連する変異を同定するためのシステムであって、このシステムは、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサを含み、コンピュータプログラムコードは、
(a)試験サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第1のセットの配列ミスマッチを同定することであって、
試験サンプルは、変異誘発された非維管束植物に由来する、同定し、
(b)少なくとも1つの比較サンプルのDNA配列を参照DNA配列に整列させ、2つの配列間の第2のセットの配列ミスマッチを同定し、
(c)第2のセットのミスマッチに関して、第1のセットのミスマッチをフィルタリングし、第1のセットのミスマッチに特有であるミスマッチのサブセットを同定するように構成され、ミスマッチのサブセットは、原因となる変異の候補変異であり、
試験サンプルは、関心対象の表現型を示す非維管束植物に由来し、少なくとも1つの比較サンプルは、関心対象の表現型を示さない同じ属の独立した非維管束植物に由来し、
参照DNA配列は、この属の非維管束植物の既知の参照配列である。
【0175】
例えば、試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法などの他の態様もまた想定され、i)独立した対立遺伝子M1変異系統の試験サンプルおよび比較サンプルが相補性群の一部を形成するという相補性群の予測ならびに/またはii)独立した非対立遺伝子M1変異系統の比較サンプルおよびM0野生型植物が原因となる変異を含まないという比較原因となる変異の予測のいずれかに基づいて比較サンプルを選択する工程を含む方法であり、
相補性群の予測または比較原因となる変異の予測は、分離分析の工程を含まず、この方法は、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサの工程をさらに含み、コンピュータプログラムコードは、試験サンプルに関連するサンプルDNA配列データを得て、参照サンプルに関連する参照DNA配列データを得て、比較サンプルに関連する比較DNA配列データを得て、サンプルDNA配列データおよび参照DNA配列データに関連する第1のセットのミスマッチDNA配列データを決定し、比較DNA配列データおよび参照DNA配列データに関連するさらなるセットのミスマッチDNA配列データを決定し、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、候補ミスマッチ内から原因となる変異を同定するための原因となる変異を含む1セットの候補ミスマッチを得る方法を実行する。
【0176】
別の例としては、試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するためのシステムもまた想定され、独立した対立遺伝子M1変異系統の試験サンプルおよび比較サンプルが相補性群の一部を形成するという相補性群の予測ならびに/またはii)独立した非対立遺伝子M1変異系統の比較サンプルおよびM0野生型植物が原因となる変異を含まないという比較原因となる変異の予測のいずれかに基づいて比較サンプルを選択する方法を含むシステムであり、相補性群の予測または比較原因となる変異の予測は、分離分析の工程を含まず、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサをさらに含むシステムであり、コンピュータプログラムコードは、試験サンプルに関連するサンプルDNA配列データを得て、参照サンプルに関連する参照DNA配列データを得て、比較サンプルに関連する比較DNA配列データを得て、サンプルDNA配列データおよび参照DNA配列データに関連する第1のセットのミスマッチDNA配列データを決定し、比較DNA配列データおよび参照DNA配列データに関連するさらなるセットのミスマッチDNA配列データを決定し、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、候補ミスマッチ内から原因となる変異を同定するための原因となる変異を含む1セットの候補ミスマッチを得るように構成される。
【0177】
一態様では、試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するための方法が提供され、i)試験サンプルおよび比較サンプルが相補性群の一部を形成するという予測、ならびに/またはii)比較サンプルが原因となる変異を含まないという予測のいずれかに基づいて比較サンプルを選択する工程を含む方法であり、この方法は、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサの工程をさらに含み、コンピュータプログラムコードは、
試験サンプルに関連するサンプルDNA配列データを得て、
参照サンプルに関連する参照DNA配列データを得て、
比較サンプルに関連する比較DNA配列データを得て、
サンプルDNA配列データおよび参照DNA配列データに関連する第1のセットのミスマッチDNA配列データを決定し、
比較DNA配列データおよび参照DNA配列データに関連するさらなるセットのミスマッチDNA配列データを決定し、
さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、候補ミスマッチ内から原因となる変異を同定するための原因となる変異を含む1セットの候補ミスマッチを得る方法を実行する。
【0178】
一実施形態では、比較サンプルは、試験サンプルおよび比較サンプルが相補性群の一部を形成するという予測に基づいて選択され、
i)第1のセットのミスマッチDNA配列データおよびii)さらなるセットのミスマッチDNA配列データの両方における共通のミスマッチDNA配列データを決定することによって、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、
共通のミスマッチDNA配列データに基づいて候補ミスマッチのセットを生成する方法を実行するコンピュータプログラムコードをさらに含む。
【0179】
一実施形態では、比較サンプルは、比較サンプルが原因となる変異を含まないという予測に基づいて選択され、
第1のセットのミスマッチDNA配列データにあり、およびさらなるセットのミスマッチDNA配列データにはない共通しないミスマッチDNA配列データを決定することによって、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、
共通しないミスマッチDNA配列データに基づいて候補ミスマッチのセットを生成する方法を実行するコンピュータプログラムコードをさらに含む。
【0180】
一実施形態では、第1のセットのミスマッチDNA配列データを決定する工程は、コンピュータプログラムコードの工程:
サンプルDNA配列データの各リードを参照DNA配列データに整列させ、
参照DNA配列データに対するサンプルDNA配列データのリードのポジションに基づいて、サンプルDNA配列データの整列させたリードをソートすること、を含む。
【0181】
一実施形態では、第2のまたはさらなるセットのミスマッチDNA配列データを決定する工程は、コンピュータプログラムコードの工程:
比較DNA配列データの各リードを参照DNA配列データに整列させ、
参照DNA配列データに対する比較DNA配列データのリードのポジションに基づいて、比較DNA配列データの整列させたリードをソートすること、を含む。
【0182】
一実施形態では、第1のセットのミスマッチDNA配列データを決定する工程は、コンピュータプログラムコードの工程:
所定のシーケンス深度を超えて整列する領域のサイズに基づいて、参照DNA配列データと整列するサンプルDNA配列データの少なくとも1つの領域を拒絶すること、を含む。
【0183】
一実施形態では、第2のまたはさらなるセットのミスマッチDNA配列データを決定する工程は、コンピュータプログラムコードの工程:
所定のシーケンス深度を超えて整列する領域のサイズに基づいて、参照DNA配列データと整列する比較DNA配列データの少なくとも1つの領域を拒絶すること、を含む。
【0184】
一実施形態では、コンピュータプログラムコードは、
複数の第1のセットのミスマッチDNA配列データを決定し、
ミスマッチが発生する複数の第1のセットの中のセットの数を決定し、
ミスマッチが発生するセットの数が所定の閾値を超えるという肯定的な決定に基づいて、ミスマッチに関連するミスマッチDNA配列データを候補ミスマッチのセットに追加する、方法を実行する。
【0185】
一態様では、試験サンプルにおける関心対象の表現型を引き起こす原因となる変異を同定するためのシステムが提供され、i)試験サンプルおよび比較サンプルが相補性群の一部を形成するという予測、ならびに/またはii)比較サンプルが原因となる変異を含まないという予測のいずれかに基づいて比較サンプルを選択する方法を含むシステムであり、このシステムは、コンピュータ可読媒体に格納されたコンピュータプログラムコードを実行するように構成されたプロセッサをさらに含み、コンピュータプログラムコードは、
試験サンプルに関連するサンプルDNA配列データを得て、
参照サンプルに関連する参照DNA配列データを得て、
比較サンプルに関連する比較DNA配列データを得て、
サンプルDNA配列データおよび参照DNA配列データに関連する第1のセットのミスマッチDNA配列データを決定し、
比較DNA配列データおよび参照DNA配列データに関連するさらなるセットのミスマッチDNA配列データを決定し、
さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、候補ミスマッチ内から原因となる変異を同定するための原因となる変異を含む1セットの候補ミスマッチを得るように構成される。
【0186】
一実施形態では、比較サンプルは、試験サンプルおよび比較サンプルが相補性群の一部を形成するという予測に基づいて選択され、コンピュータプログラムコードは、
i)第1のセットのミスマッチDNA配列データおよびii)さらなるセットのミスマッチDNA配列データの両方における共通のミスマッチDNA配列データを決定するように構成されるコンピュータプログラムコードよって、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、
共通のミスマッチDNA配列データに基づいて候補ミスマッチのセットを生成するように構成されている。
【0187】
一実施形態では、比較サンプルは、比較サンプルが原因となる変異を含まないという予測に基づいて選択され、コンピュータプログラムコードはさらに、
第1のセットのミスマッチDNA配列データにあり、およびさらなるセットのミスマッチDNA配列データにはない共通しないミスマッチDNA配列データを決定するように構成されるコンピュータプログラムコードによって、さらなるセットのミスマッチDNA配列データに関して、第1のセットのミスマッチDNA配列データをフィルタリングし、
共通しないミスマッチDNA配列データに基づいて候補ミスマッチのセットを生成するように構成されている。
【0188】
一実施形態では、第1のセットのミスマッチDNA配列データを決定するために、コンピュータプログラムコードはさらに、
サンプルDNA配列データの各リードを参照DNA配列データに整列させ、
参照DNA配列データに対するサンプルDNA配列データのリードのポジションに基づいて、サンプルDNA配列データの整列させたリードをソートするように構成されている。
【0189】
一実施形態では、第2のまたはさらなるセットのミスマッチDNA配列データを決定するために、コンピュータプログラムコードはさらに、
比較DNA配列データの各リードを参照DNA配列データに整列させ、
参照DNA配列データに対する比較DNA配列データのリードのポジションに基づいて、比較DNA配列データの整列させたリードをソートするように構成されている。
【0190】
一実施形態では、第1のセットのミスマッチDNA配列データを決定するために、コンピュータプログラムコードはさらに、
所定のシーケンス深度を超えて整列する領域のサイズに基づいて、参照DNA配列データと整列するサンプルDNA配列データの少なくとも1つの領域を拒絶するように構成されている。
【0191】
一実施形態では、さらなるセットのミスマッチDNA配列データを決定するために、コンピュータプログラムコードはさらに、
所定のシーケンス深度を超えて整列する領域のサイズに基づいて、参照DNA配列データと整列する比較DNA配列データの少なくとも1つの領域を拒絶するように構成されている。
【0192】
一実施形態では、コンピュータプログラムコードはさらに、
複数の第1のセットのミスマッチDNA配列データを決定し、
ミスマッチが発生する複数の第1のセットの中のセットの数を決定し、
ミスマッチが発生するセットの数が所定の閾値を超えるという肯定的な決定に基づいて、ミスマッチに関連するミスマッチDNA配列データを候補ミスマッチのセットに追加するように構成されている。
【0193】
一態様では、そこに記録されたコンピュータプログラムを有するコンピュータ可読記憶媒体が提供され、プログラムは、コンピュータに本明細書に開示される実施形態のいずれか1つの方法を実施させるためにコンピュータ装置によって実行可能である。
【0194】
産業上の利用可能性
記載された構成は、DNAシークエンシング業界、特にDNA配列における原因となる変異の検出を扱う業界に適用できる。
【0195】
開示されたソフトウェア方法および/またはシステムは、変異体を交配させる必要なしに、原因となる変異の発見を可能にする。したがって、不稔変異体の原因となる変異は、開示されたソフトウェア方法および/またはシステムを使用して同定することができる。不稔性を引き起こす変異を同定することは、農業技術の分野で応用を有し得る。不稔性を引き起こす変異は、不稔性種子を生産するために、農業に関連する植物種で遺伝子操作され得る。例えば、不稔性を引き起こす変異は、遺伝子利用制限技術(GURT)に適用され得る。
【0196】
前述は、本発明のいくつかの実施形態のみを記載し、修正および/または変更は、本発明の範囲および精神から逸脱することなくそれに行うことができ、実施形態は例示的であり、限定的ではない。
【0197】
本明細書の文脈において、「含む(comprising)」の意味は、「主だったもので、必ずしも単一としないものを含む」、「有する(having)」、「含有する(including)」を意味し、「それだけにより構成される」を意味しない。「含む(comprising)」の言葉の変化、例えば、「comprise」と「comprises」は、対応して変化した意味を有する。
【0198】
実施例1:生殖能力を損なう植物エンハンサータンパク質遺伝子のRHO GTPASESにおける変異の発見(ケースB)
いくつかの独立した変異系統は、Marchantia polymorphaの胞子に紫外線Bを照射することによって生成された。変異系統は、2つの表現型群、まっすぐな仮根(
図8A)および無傷な表皮(
図9A)を有するもの、波状の仮根(
図8B)および延伸した表皮(
図9B)を有するもの、に分類された。
【0199】
波状の仮根および延伸した表皮を持つUV4.32変異系統の原因となる変異を同定することを目的とした。DNAは、サンプルとしてのすべての植物、標準DNA PhenolChlorophorm-IAA抽出を使用して、波状の仮根および延伸した表皮を持つUV4.32変異体から抽出された。UV4.32のゲノム、ならびにまっすぐな仮根および無傷な表皮を持つ7つの独立した変異系統のゲノムを、IlluminaのHiSeq-2000プラットフォーム技術を使用して配列決定した。
【0200】
Trimmomatic-0.32を使用してローリードをクオリティートリミングし、k-merサイズが31のKhmer0.7.1を使用して正規化した。--very-sensitive-localモードに設定されたbowtie2-2.1.0を使用して、得られたリードを参照ゲノムに対して整列させた。使用される参照ゲノムは、NCBI Whole Genome Shotgun(WGS)データベースで公開されているドラフトMarchantia polymorphaゲノムアセンブリである。
【0201】
bio-samtools-2.0.5の関数ソートおよびパイルアップを使用して、アライメントをポジションソートし、qクオリティーが35を超えるリード内のミスマッチを抽出した。ミスアライメントが原因である可能性が高いため、
samtools-0.1.9パッケージのbcftoolsからのvarFilter関数を使用して、100X超えるカバレッジを有する領域のミスマッチを除外した。次に、ミスマッチは、7を超えるリードでサポートされ、負のFQ値または0.5001より高いAF1値に基づいて、十分にホモ接合であるように見える場合にのみ保持された。
【0202】
全体で、フィルタリングの前に、UV4.32で143 292のミスマッチが同定された。UV4.32に特有のミスマッチの数は、フィルタリングに使用されたまっすぐな仮根および無傷な表皮を持つUV変異系統の数とともに減少した(
図10A)。
【0203】
最終的に、配列決定されたすべてのフィルタリング系統を使用して、候補ミスマッチの数は12000ミスマッチ、または90%より多く減少した(
図3B)。これは、原因となる変異を含まないと予測される比較サンプルのミスマッチのセットによって、試験サンプルのミスマッチのセットを減算するフィルタリング工程が、標準のフィルタリング工程の前に候補ミスマッチの同定の厳密性を高めたことを示す。
【0204】
後続のフィルタリング工程を実施して、UVシグネチャーと矛盾するミスマッチをフィルタリングし、遺伝子コード配列外のミスマッチをフィルタリングし、非同義のミスマッチをフィルタリングした。これらの3つのフィルタリング工程により、候補のミスマッチの数がさらに10の変異に減少し、予想されるUV変異シグネチャーと一致し(
図3)、遺伝子のコード配列にあると予測され(
図3)、対応するタンパク質のアミノ酸配列(表1)が変化した。
【表1】
【0205】
10の変異のうち、最も強い変異は2塩基対の欠失であり、MpRENで早期終止コドンを引き起こす(表1)。Ren変異体は、UV4.32と同じ表現型を示すことが知られている(Honkanen et al,2016および未発表データ/
図2B)。これは、その後のフィルタリング工程が十分に保守的であることを示唆している。
【0206】
全体として、これは、原因となる変異を含まないと予測される比較サンプルのミスマッチのセットによって試験サンプルのミスマッチのセットを減算することに基づくパイプラインのバージョンが、変異系統を異系交配する必要なく、原因となる変異を含む少数の変異の同定を可能にすることを示す。
【0207】
実施例2:クロルスルフロン抵抗性を引き起こすアセト乳酸シンターゼ遺伝子の変異の発見(ケースA)
Marchantia polymorphaの胞子に紫外線B照射を照射し、除草剤クロルスルフロンに対して抵抗性である7つの独立した変異系統を同定した。クロルスルフロン抵抗性は、致死量のクロルスルフロン(0.1ppm用量、つまり野生型植物を100%殺すのに十分な用量)への曝露後2週間生存していたMarchantia polymorpha植物によって決定された。
【0208】
すべての変異体植物は同じ表現型(クロルスルフロン抵抗性)を共有していたため、それぞれが同じ原因となる変異を含むと仮定した。クロルスルフロン抵抗性変異体を参照ゲノムと比較して、100000を超えるミスマッチを個別に同定し、最初にM0野生型ゲノムにも存在するミスマッチをフィルタリングした(
図11、左端の2つの散布ボックス)。
【0209】
パイプラインの対立ベースバージョンの効率を試験するために、4、5、6、および7つすべてのクロルスルフロン変異体の組み合わせに適用した。使用する対立遺伝子の減算ラインが多いほど、パイプラインはより効率的になる。実際、7つのクロルスルフロン抵抗性系統すべてを使用して、ミスマッチの数をほぼ100000から11の候補変異に減らした。これは、予想される変異シグネチャーと一致し、遺伝子のコード配列にある(
図11)。
【0210】
7つのクロルスルフロン抵抗性変異体すべてに共通であるが野生型には存在しない11の候補変異のうち、5つはコードされたタンパク質のアミノ酸配列の変化を引き起こす(表3)。それらの5つの候補変異のうち、1つだけが予測された機能を持つ遺伝子にある。実際、アセト乳酸シンターゼ遺伝子のこの正確な変異は、他の植物モデルでクロルスルフロン抵抗性を引き起こすことが知られている。
【表2】
【0211】
実施例3:クロルスルフロン抵抗性を引き起こすアセト乳酸シンターゼ遺伝子の変異の発見(ケースAB)
実施例1および実施例2で例示したパイプラインの能力を向上させるために、両方のアプローチを組み合わせた。パイプラインのこの実施形態では、対立遺伝子変異体に共通で野生型および非対立遺伝子変異体に存在しないミスマッチの群で、原因となる変異を探す。
【0212】
3つのクロルスルフロン感受性変異誘発系統を使用して、予想される変異シグネチャーと一致し、遺伝子のコード配列にあると以前に特定された11つのクロルスルフロン抵抗性特定ミスマッチのうち4つをフィルタリングし、最終的にタンパク質のアミノ酸配列に変化を引き起こすと予測される4つの候補変異(表4)のみを残した。
【0213】
これは、実施例2のみで例示されているパイプラインと比較して、パイプラインの能力が20~30%向上することを表している。実施例1および2のパイプラインの能力は、対立遺伝子および非対立遺伝子減算系統の数に応じて向上するため、本発明の実施例で例示されているパイプラインの能力は、対立遺伝子および非対立遺伝子減算系統をさらに使用するとさらに向上すると予測する。
【表3】