IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 中国水産科学研究院黄海水産研究所の特許一覧 ▶ 南方海洋科学与工程广東省実験室湛江の特許一覧

特表2024-521656東星斑の抗病性優良品種を育成するためのゲノム選択方法
<>
  • 特表-東星斑の抗病性優良品種を育成するためのゲノム選択方法 図1
  • 特表-東星斑の抗病性優良品種を育成するためのゲノム選択方法 図2
  • 特表-東星斑の抗病性優良品種を育成するためのゲノム選択方法 図3
  • 特表-東星斑の抗病性優良品種を育成するためのゲノム選択方法 図4
  • 特表-東星斑の抗病性優良品種を育成するためのゲノム選択方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-04
(54)【発明の名称】東星斑の抗病性優良品種を育成するためのゲノム選択方法
(51)【国際特許分類】
   A01K 67/02 20060101AFI20240528BHJP
   C12N 15/09 20060101ALI20240528BHJP
   C12Q 1/6888 20180101ALI20240528BHJP
   G06Q 50/02 20240101ALI20240528BHJP
   G16B 30/00 20190101ALI20240528BHJP
   C12N 15/11 20060101ALN20240528BHJP
   C12Q 1/6809 20180101ALN20240528BHJP
   C12Q 1/6869 20180101ALN20240528BHJP
【FI】
A01K67/02
C12N15/09 Z
C12Q1/6888 Z
G06Q50/02
G16B30/00
C12N15/11 Z ZNA
C12Q1/6809 Z
C12Q1/6869 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023570117
(86)(22)【出願日】2022-06-02
(85)【翻訳文提出日】2023-11-10
(86)【国際出願番号】 CN2022096720
(87)【国際公開番号】W WO2023103303
(87)【国際公開日】2023-06-15
(31)【優先権主張番号】202111478938.0
(32)【優先日】2021-12-06
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Linux
(71)【出願人】
【識別番号】520057601
【氏名又は名称】中国水産科学研究院黄海水産研究所
(71)【出願人】
【識別番号】523427593
【氏名又は名称】南方海洋科学与工程广東省実験室湛江
【氏名又は名称原語表記】GUANGDONG PROVINCIAL LABORATORY OF SOUTHERN MARINE SCIENCE AND ENGINEERING (ZHANJIANG)
【住所又は居所原語表記】No.1 Wenti Road, Xiashan District(Library) Zhanjiang, Guangdong 524000, China
(74)【代理人】
【識別番号】100178434
【弁理士】
【氏名又は名称】李 じゅん
(72)【発明者】
【氏名】陳 松林
(72)【発明者】
【氏名】盧 昇
(72)【発明者】
【氏名】劉 洋
(72)【発明者】
【氏名】周 茜
(72)【発明者】
【氏名】王 磊
(72)【発明者】
【氏名】朱 春華
(72)【発明者】
【氏名】張 天時
(72)【発明者】
【氏名】陳 亜東
(72)【発明者】
【氏名】徐 文騰
【テーマコード(参考)】
4B063
5L050
【Fターム(参考)】
4B063QA07
4B063QA13
4B063QA20
4B063QQ02
4B063QQ42
4B063QR32
4B063QR72
4B063QX02
5L050CC01
(57)【要約】
【課題】本発明は、東星斑の抗病性優良品種を育成するためのゲノム選択方法に関するものである。
【解決手段】前記方法において、異なる地理由来の非家族系グループの東星斑の幼魚を使用して抗病性の参照グループを生成し、抗病性参照グループを生成するための東星斑の幼魚は、抗病性のスクリーニング後に取得されたものである。抗病性の表現型を有するが参照グループには含まれていない個体を検証グループとして生成して、本発明で提供されたSNP部位によりゲノム推定育種価を計算する効果を検証する。これらのSNP部位には東星斑の抗病性性状に関連するSNP部位が含まれる。本発明より提供されるSNP部位によって候補グループのゲノム推定育種価を計算し、ゲノム推定育種価が高い個体を抗病性が強いと認めて、東星斑の抗病性優良品種を育成するために利用する。本発明により提供されるゲノム選択技術に基づく東星斑の抗病性優良品種を育成するための方法は、抗病性の強い親をスクリーニングするために利用することができる。選択された親は、東星斑の選択育種に使用することができる。これにより、本発明は東星斑の繁殖グループの生存率を向上させるための効率的な技術的な手段を提供した。
【特許請求の範囲】
【請求項1】
ゲノム選択に基づく東星斑の抗病性優良品種を育成するための方法であって、
1)異なる地理由来の東星斑の幼魚により東星斑の抗病性の参照グループを生成し、且つ、
方法の選択効果を検証するため、抗病性の表現型を有するが参照グループには含まれていない個体により検証グループを生成するステップと、
2)参照グループと検証グループに対して全ゲノムリシーケンシングを行い、ゲノム範囲内の高品質の一塩基多型(SNP)の部位を捕獲するステップと、
3)抗病性性状ゲノム推定育種価GEBVを予測する精度がSNP数に応じて変化する傾向に関して、ゲノム最良線形不偏予測G-BLUPとBayesCπとの2つの方法を比較し、これにより、候補グループのGEBVを計算するためのSNP数と方法を選択するステップと、
4)ステップ3)で取得した結果に基づいて、東星斑の候補グループのGEBVを計算するための、東星斑の抗病性性状に関連するSNP部位が含まれているSNPマーカーを選択するステップと、
5)ステップ3)で選択されたゲノム選択方法と、ステップ4)で選出したSNPマーカーとを利用して、候補グループのGEBVを計算し、GEBVが高い個体の抗病性が強いと認めて子孫を繁殖する親として使用するステップとを含む、
ことを特徴とするゲノム選択に基づく東星斑の抗病性優良品種を育成するための方法。
【請求項2】
前記ステップ1)における、抗病性の参照グループを生成するための東星斑の幼魚は、抗病性のスクリーニングを行って得られたものである、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記方法では、検証グループを利用して、ステップ3)で選択されたゲノム選択方法とステップ4)で選出されたSNPマーカーの予測効果を検証する、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記SNPマーカーは、SED ID NO:1~SED ID NO:10000のいずれかの配列の第36位と第107位に位置する、
ことを特徴とする請求項1に記載の方法。
【請求項5】
東星斑の抗病性性状に関連する前記SNP部位は、SED ID NO:1~SED ID NO:15のいずれかの配列の第36位と第107位に位置する、
ことを特徴とする請求項1に記載のゲノム選択方法。
【請求項6】
SNPマーカーセットであって、上記SNPマーカーセットにおけるSNP部位は、SED ID NO:1~SED ID NO:10000のいずれかの配列の第36位と第107位に位置する、
ことを特徴とするSNPマーカーセット。
【請求項7】
方法であって、東星斑の抗病性優良品種のスクリーニングにおいて、請求項6に記載のSNPマーカーセットの利用する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、水産遺伝品種育成の技術分野に属し、特に、東星斑の抗病性優良品種を育成するためのゲノム選択方法に関する。
【背景技術】
【0002】
東星斑(トンシンバーン)の学名はニセスジハタ(Plectropomus leopardus)であり、スズキ目、ハタ科、ハタ亜科、スヂハタ属に属する。東星斑は肉質が緻密で美味しく、全身が鮮やかな赤色で、経済的価値や観賞価値が高く、貴重な海洋養殖魚類である。市場での需要が高いため、乱獲により野生個体数が大幅に減少され、東星斑は市場で希少な魚となっている。近年、東星斑の人工養殖技術の進歩と発展につれて、養殖範囲と規模は徐々に拡大されている。しかしながら、高密度な養殖モデルの普及に加え、東星斑の養殖環境の悪化や生殖質の劣化により、養殖過程で病害が頻繁に発生され、多大な経済的損失を引き起こした。その中でも、ビブリオ・ハーヴェイ(Vibrio harveyi)による「腐体病」が養殖業者にとって大きな問題となっている。例えば、2011年に中国海南省でビブリオ・ハーヴェイを優勢菌とする細菌性疾患が発生し、発病した魚が大量に死亡し、尾部潰瘍や全身の白化などの症状が現れた。通常、養殖農家は病気に対処する際は予防に重点を置き、病気発生後はプール全体にオキシテトラサイクリン、エンロフロキサシン、ノルフロキサシンなどの抗生物質を撒いて治療する。しかし、抗生物質の大規模な使用は水産物の品質に影響を与えるだけでなく、食品の安全性の問題を引き起こし、市販魚の価値に影響を与え、消費者に潜在的な損害をもたらす。したがって、東星斑の抗病性優良品種を育成し、東星斑養殖グループ自体の抗病性を向上させることが非常に必要である。
【0003】
繁殖能力のある個体をいかに正確に選び出すかは、優良品種を育種するための核心的な問題である。魚類の抗病性育種において、通常、大規模に確立された家系と人工感染実験を利用して抗病性表現型を取得した後、最良線形不偏予測(PBLUP)から推定された推定育種価(EBV)によって選択育種する。ただし、病原体の垂直感染を避けるため、人工感染実験で生存された個体を繁殖親として使用するのではなく、EBVの高い家系から未感染の健康な個体を選択して繁殖させるのが一般的である。したがって、選択効率が高くなく、毎年得られる遺伝的進歩は限られている。選択育種された魚類が家系を確立できない場合、表現型や経験に基づいて選択することになり、選択育種の効率が大幅に低下してしまう。現在、東星班の人工繁殖は主に自然産卵や自然受精に依存しており、家族系を確立できない。そのため、東星斑のような家系確立が難しい魚類では有効な選択育種方法が不足している。本発明は、非家族系グループを利用して東星斑の抗病性優良品種を育成するための方法を詳細に記載し、東星斑の優良品種を育成するための技術方法を提供し、家族系確立が難しい魚類の選択育種のために新たなアイデアを提供することを目的としている。
【発明の概要】
【0004】
本発明の目的は、非家族系グループに基づく東星斑の抗病性優良品種を育成するためのゲノム選択方法を確立し、従来の選択育種における家系確立の必要性と選択精度の低さの問題を克服し、東星斑の抗病性優良品種を育成するための分子育種方法を提供し、東星斑養殖グループの抗病性を向上させ、東星斑の抗病性優良品種の育種プロセスを促進することにある。
【0005】
本発明により提供される東星斑の抗病性優良品種を育成するためのゲノム選択方法は、
1)異なる地理由来の東星斑の幼魚を使用して、東星斑の抗病性参照グループを生成し、
さらに、本発明の上記方法による選択効果の検証を行うために、抗病性表現型を有するが参照グループには含まれていない一部の個体を検証グループとして生成し、
ここで、抗病性参照グループを生成するための東星斑の幼魚は、抗病性のスクリーニングを行った後に取得されるものである、ステップと、
2)参照グループと検証グループに対して全ゲノムリシーケンシングを行い、ゲノム範囲内の高品質の一塩基多型(SNP)部位を捕獲するステップと、
3)抗病性性状ゲノム推定育種価(GEBV)を予測する精度がSNP数に応じて変化する傾向に関して、ゲノム最良線形不偏予測(G-BLUP)とBayesCπとの2つの方法を比較し、これにより、候補グループのGEBVを計算するためのSNP数と方法を選択するステップと、
4)ステップ3)で取得した結果に基づいて、東星斑の候補グループのGEBVを計算するための、東星斑の抗病性性状に関連するSNP部位が含まれているSNPマーカーを選択するステップと、
5)検証グループを利用してステップ3)で選択されたゲノム選択方法とステップ4)で選び出されたSNPマーカーとの予測効果を検証し、生存された検証個体の平均GEBVが死亡個体の平均GEBVよりも大きい場合、GEBVと個体の抗病性との間に正の相関があることを示し、GEBVが高い個体が抗病性も強いため、GEBVを利用して候補の親を選択して、抗病性が強い子孫を育種することができるステップと、
6)ステップ3)で選択されたゲノム選択方法と、ステップ4)で選出したSNPマーカーとを利用して、候補グループのGEBVを計算し、GEBVが高い個体の抗病性が強いと認めて子孫を繁殖する親として使用するステップと、を含む。
【0006】
前記SNP部位は、合計20,000(20k)個があり、SED ID NO:1~SED ID NO:10000のいずれかの配列の第36位と第107位に位置し、部位前後35bp以内の配列はフランキング配列(flanking sequence)である。
【0007】
前記SNP部位には、東星斑の抗病性に関連する30個のSNP部位が含まれ、SED ID NO:1~SED ID NO:15のいずれかの配列の第36位と第107位に位置し、部位前後35bp以内の配列はフランキング配列である。
【0008】
本発明により提供されるゲノム選択技術に基づく東星斑の抗病性優良品種を育成するための方法と20,000個のSNP部位は、抗病性の強い親をスクリーニングするために利用することができる。選択された親は、東星斑の選択育種に直接使用することができ、これにより、本発明は、東星斑繁殖グループの生存率を向上させるために効率的な技術的な手段を提供した。
【図面の簡単な説明】
【0009】
図1】東星斑参照グループ及び検証グループの共通部位欠失率の箱ひげ図である。
図2】G-BLUPとBayesCπとにより東星斑の抗病性性状GEBVを予測する精度の変化を示すグラフである。
図3】検証グループGEBVを推定するための20kのSNPの密度分布図である。
図4】検証グループにおける生存個体と死亡個体の抗病性GEBV平均値の比較図である。
図5】候補グループにおける抗病性が高い個体と感染され易い個体の抗病性GEBV平均値の比較図である。
【発明を実施するための形態】
【0010】
以下、本発明の抗ビブリオ・ハーヴェイの東星斑養殖グループを育成するための方法について、詳細に説明する。
【実施例1】
【0011】
実施例1:東星斑抗病性参照グループを生成する
中国海南省と山東省の多数の大規模な養殖場から東星斑の幼魚を収集し、収集された幼魚を人工感染実験が可能な場所へ輸送し、ビブリオ・ハーヴェイ菌液を腹腔内注射することによりこれらの幼魚を人為的に感染させる。菌液を注入した時刻を開始点(0時)とし、一度注入後の幼魚の生存状況を8時間ごとに観察し、適時に死亡個体を除去し、個体情報(全長、体重、死亡時刻など)を記録し、尾鰭の鰭条を切り取り、無水エタノール中に保存する。実験は合計5日間行われ、終了後、生存個体の尾鰭の鰭条を採集し、無水エタノール中に保存し、個体出所、全長、体重、死亡時刻などのデータを記録する。その中から一部の個体を選択して全ゲノムリシーケンシングを行い、東星斑の抗ビブリオ・ハーヴェイ参照グループを生成する(表1)。人工感染実験における被験された東星斑の幼魚の生存状態を抗病性表現型とし、その後の分析に使用する。抗病性表現型を二値性状として定義する。即ち、0は感染実験で死亡した幼魚を表し、1は実験期間で生存した幼魚を表す。
【0012】
実験では、採集された幼魚を6つのグループに分け、注射後、それぞれ同じ仕様の繊維強化プラスチック(FRP)水槽に投入する。中国山東省産からの東星斑の幼魚の平均体重と平均全長は、いずれも中国海南省産からの幼魚より高かった。一元配置分散検定では、6つの実験グループ間で感染生存率に顕著な差がないことを示した(p=0.05)。感染後の生存率範囲は31.85%~43.41%であり、合計534匹の東星斑の幼魚を選択して参照グループを生成した(表1)。
【0013】
【表1】
【実施例2】
【0014】
実施例2:東星斑抗病性参照グループのゲノムリシーケンシングと高品質SNPのスクリーニング
1、参照グループの全ゲノムリシーケンシング及び変異の検出
DNA抽出キット(TIANGEN、北京)により提供される標準手順を使用し、東星斑抗病性参照グループのゲノムDNAを抽出及び精製した。参照グループのゲノムDNAに加えて、本発明の上記方法の効果を検証するために、抗病性表現型を有する298匹の東星斑のゲノムDNAも抽出した。精製されたゲノムDNAを使用してイルミナ(llumina)ペアエンドライブラリを生成した後、IlluminaHiSeq2000シーケンシングプラットフォームを使用してシーケンシングし、低品質のシーケンシングリード(reads)を除外した後、ソフトウェアBWAを使用してこれらのリードを東星斑の参照ゲノムと比較した。ソフトウェアGATKを使用し、変異情報(SNP及びINDEL)を検出した。最終的に、参照グループにおいて、498個の個体のシーケンシングが成功し、個体のシーケンシングデータ量は10Gで、合計34,026,719個の変異が取得され、染色体上の変異は28,789,387個で、非染色体上の変異は5,237,332個で、個体平均シーケンシング深度は7.66Xで、変異結果はファイル「variances.Ref.vcf.gz」に保存される。検証グループにおいて、298個の個体のシーケンシングが成功し、個体のシーケンシングデータ量は5Gで、合計12,452,483個の変異が取得され、染色体上の変異は11,355,373個で、非染色体上の変異は1,097,110個で、個体平均シーケンシング深度は3.66Xで、変異結果はファイル「variances.Val.vcf.gz」に保存される。
【0015】
2、高品質SNP変異部位をスクリーニングする
以下の手順に従って、上述の変異をフィルタリングし、高品質SNP部位を保留した後、欠失している部位情報を充填する。Linux環境で次のコマンドを実行する:
【0016】
#VCFtoolsを使用して染色体上のSNP部位を出力する
vcftools --gzvcf variances.Ref.vcf.gz
--remove-indels
--chr chr1 --chr chr2 --chr chr3 --chr chr4 --chr chr5 --chr chr6 --chr chr7
--chr chr8 --chr chr9 --chr chr10 --chr chr11 --chr chr12 --chr chr13
--chr chr14 --chr chr15 --chr chr16 --chr chr17--chr chr18 --chr chr19
--chr chr20 --chr chr21 --chr chr22 --chr chr23 --chr chr24
--recode-INFO-all --recode --stdout | bgzip -c -f > raw.snps.Ref.vcf.gz
vcftools --gzvcf variances.Val.vcf.gz
--remove-indels
--chr chr1 --chr chr2 --chr chr3 --chr chr4 --chr chr5 --chr chr6 --chr chr7
--chr chr8 --chr chr9 --chr chr10 --chr chr11 --chr chr12 --chr chr13
--chr chr14 --chr chr15 --chr chr16 --chr chr17--chr chr18 --chr chr19
--chr chr20 --chr chr21 --chr chr22 --chr chr23 --chr chr24
--recode-INFO-all --recode --stdout | bgzip -c -f > raw.snps.Val.vcf.gz
【0017】
実行後、参照グループと検証グループの染色体上のSNP部位は、それぞれファイル「raw.snps.Ref.vcf.gz」と「raw.snps.Val.vcf.gz」に保存される。
【0018】
#PLINK2を使用して上述のVCFファイルを読み取り、二対立遺伝子部位を保留する
plink2 --vcf raw.snps.Ref.vcf.gz --autosome-num 24
--max-alleles 2 --min-alleles 2
--make-bpgen --out raw.Ref
plink2 --vcf raw.snps.Val.vcf.gz --autosome-num 24
--max-alleles 2 --min-alleles 2
--make-bpgen --out raw.Val
【0019】
#Rを使用して「raw.Ref.bim」ファイルと「raw.Val.bim」ファイルを修正する
library(data.table)
bim <- fread(“raw.Ref.bim”)
bim$V2 <- paste(“rs”, bim$V1, ‘:’, bim$V4, sep = “”)
fwrite(bim, “raw.Ref.bim”, sep = “\t”, col.names = F, quote = F)
bim <- fread(“raw.Val.bim”)
bim$V2 <- paste(“rs”, bim$V1, ‘:’, bim$V4, sep = “”)
fwrite(bim, “raw.Can.bim”, sep = “\t”, col.names = F, quote = F)
【0020】
#PLINK2を使用して各部位の欠失率をカウントする
plink2 --bpfile raw.Ref --autosome-num 24 --missing --out Ref
plink2 --bpfile raw.Val --autosome-num 24 --missing --out Val
【0021】
#Rを使用して2つのファイル内の共通部位の欠失率をカウントし、欠失率が0.05未満の部位を出力する
library(data.table)
vmiss.ref <- fread(“Ref.vmiss”)
vmiss.val <- fread(“Val.vmiss”)
comm.loci <- intersect(vmiss.ref$ID, vmiss.val$ID)
ref.comm <- vmiss.ref[ID %in% comm.loci]
val.comm <- vmiss.val[ID %in% comm.loci]
new.vmiss <- data.table(SNP = comm.loci, MISSING = (ref.comm$MISSING_CT + val.comm$MISSING_CT), OBS = (ref.comm$OBS_CT + val.comm$OBS_CT))
new.vmiss$F_MISS <- round(new.vmiss$MISSING / new.vmiss$OBS, 3)
kept.loci <- new.vmiss[F_MISS < 0.05, SNP]
write.table(kept.loci, “kept.loci.txt”, sep = “\t”, col.names = F, row.names = F, quote = F)
実行後、ファイル「kept.loci.txt」には、2つのファイル中で欠失率が0.05未満の部位が保存される(図1)。
【0022】
#2つのファイルを合併する
##PLINK2を使用してVCFファイルを生成する
plink2 --bpfile raw.Ref --autosome-num 24 --extract kept.loci.txt
--export vcf-4.2 --out snps.ref
plink2 --bpfile raw.Val --autosome-num 24 --extract kept.loci.txt
--export vcf-4.2 --out snps.val
##VCFファイルを圧縮する
bgzip -c -f snps.ref.vcf > snps.ref.vcf.gz
bgzip -c -f snps.val.vcf > snps.val.vcf.gz
##bcftoolsを使用してインデックスを作成する
bcftools index -t snps.ref.vcf.gz
bcftools index -t snps.val.vcf.gz
##bcftoolsを使用してVCFファイルを合併する
bcftools merge -m snps -O snps.ref.vcf.gz snps.val.vcf.gz -o snps.merged.vcf.gz
【0023】
#PLINK2を使用し、合併後のSNP部位について品質管理を行う
##合併後のファイルを読み取る
plink2 --vcf snps.merged.vcf.gz --autosome-num 24
--max-alleles 2 --min-alleles 2
--make-bpgen --out snps.merged
##品質管理
plink2 --bpfile snps.merged --autosome-num 24
--maf 0.05 --hwe 0.001
--make-bpgen --out snps.qc
##品質管理後のデータをVCFに変換する
plink2 --bpfile snps.qc --autosome-num 24 --export vcf --out snps4impute
##VCFファイルを圧縮する
bgzip -c -f snps4impute.vcf > snps4impute.vcf.gz
##欠失しているSNP部位を充填する
java -Xmx20g -jar beagle.05Apr21.9b7.jar gt=snps4impute.vcf.gz ne=500 iterations=30 burnin=10 out=snps.imputed
実行後、合計1,213,496個の高品質SNPがその後の分析のために残され、充填された遺伝子型はファイル「snps.imputed.vcf.gz」に保存される。
【実施例3】
【0024】
実施例3:2つのゲノム選択方法で東星斑の抗病性GEBVの精度を予測する
東星斑の抗ビブリオ・ハーヴェイ病GEBVを推定するための方法及び適切なSNPマーカー数を検討するために、本発明は、生成された参照グループの表現型及び遺伝子型データを利用し、5倍交差検証法によって、SNP数の減少に応じてG-BLUPとBayesCπが東星斑の抗ビブリオ・ハーヴェイGEBVを予測する精度の変化傾向を比較した。予測精度は被検者動作特性曲線下面積(AUC)を評価指標とし、合計25回計算し、25回の平均値で最終精度を示す。計算前にRパッケージ:data.table、ASReml、BGLR、Rcpp、pROC及びParallelをインストールする必要がある。
【0025】
1、東星斑抗病性参照グループから異なる数のSNPセット(SNPサブセット)を抽出する
実施例2で取得された高品質SNPから異なる数のSNPサブセットを抽出する。抗病性参照グループの個体番号は、ファイル「indiv.ref.txt」に保存される。Linux環境で次のコマンドを実行し、SNPサブセットを抽出する:
#VCFファイルを読み込み、関連データを準備する
##PLINK2を使用してVCFファイルを読み取り、品質管理を再度実行する
plink2 --vcf snps.imputed.vcf.gz --autosome-num 24 --maf 0.05 --make-bpgen --out snps.imputed
##PLINK2を使用して対立遺伝子頻度をカウントする
plink2 --bpfile snps.imputed --autosome-num 24 --freq --out snps.imputed
##Rで次のコードを実行し、遺伝子型の出力に必要なファイルを準備する
library(data.table)
freq <- fread(“snps.imputed.afreq”)
alleles <- rbind(freq[ALT_FREQS <= 0.5, c(“ID”, “ALT”)], freq[ALT_FREQS > 0.5, c(“ID”, “REF”)], use.names = F)
write.table(alleles, “export.A.txt”, sep = “\t”, col.names = F, quote = F)
【0026】
実行後、1,211,259個の高品質SNPと796個の個体が残され、その後の分析に使用される。その中で、498個の個体が参照グループで、298個の個体が検証グループである。
【0027】
#Rを使用し、参照グループから異なるSNP数を含むサブセットを抽出し、バイナリ形式で保存する。SNP数はそれぞれ500、700、1k、2k、8k、10k、20k、50k、80k、100kである。
##PLINK2を使用し、0/1/2モードでエンコードされた遺伝子型AA/Aa/aaファイルを生成する
plink2 --bpfile snps.imputed --autosome-num 24 --export-allele export.A.txt --keep indiv.ref.txt --export A --out geno.ref
##個体番号を出力する
awk ‘{print $2}’ geno.ref.raw | sed ‘1d’ > iid.ref.txt
##Rで次のスクリプトを実行してSNPサブセットを抽出し、バイナリ形式で保存する
library(data.table)
Den.snp <- c(5e2, 7e2, 1e3, 2e3, 8e3, 1e4, 2e4, 5e4, 8e4, 1e5)
geno <- fread(paste(“geno.ref.raw”))
geno[, c(1: 6):= NULL]
geno <- as.matrix(geno)
for (i in 1: length(Den.snp)) {
coor <- floor(seq(from = 1, to = ncol(geno), length.out = Den.snp[i]))
M <- geno[, coor]
save(M, file = paste(“ref.snp.s”, i, “.bin”, sep = “”))
}
実行後、すべてのSNPサブセットは、後で簡単に読み取ることができるようにバイナリ形式で保存される。
【0028】
2、G-BLUPの予測精度を評価する
ASRreml-Rで、次のモデルを使用して表現型データをフィッティングさせ、G-BLUPの予測精度を評価する。
yijk=Φ(Ori.Locationi+b.weightj+ak)
上述のモデルで、yijkは表現型値であり、場所iから採集された個体kを体重jのときに感染させた場合の表現型を示す。Ori.Locationiは固定効果であり、被検個体の採集場所を示す。b.weightjは共変量であり、感染実験時の被検個体の体重を示す。akは個体のランダムな相加効果である。Φは標準正規分布の累積関数を示す。Linux環境で次のコマンドを実行する。
##Rで次のスクリプトを実行し、3列G行列の逆行列を生成する
library(data.table)
library(Rcpp)
sourceCpp(“matrix_multiplication.cpp”)
ginv <- function(invG) {
Ginv <- data.frame(row = rep(1 : nrow(invG), nrow(invG)),
column = rep(1 : nrow(invG), each = nrow(invG)),
value = as.numeric(invG),
lower.mat = as.logical(lower.tri(invG, diag = T)))
Ginv <- Ginv[Ginv$lower.mat == T, c("row", "column", "value")]
Ginv <- Ginv[order(Ginv$row, Ginv$column), ]
return(Ginv)
}
No.subsets <- 10
IID <- fread(“iid.ref.txt”, header = F)$V1
A22 <- diag(1, length(IID))
w <- 0.95
for (i in 1: No.subsets) {
load(paste(“ref.snp.s”, i, “.bin”, sep = “”))
pi <- colSums(M) / (2 * nrow(M))
P <- matrix((2 * pi), nrow = nrow(M), ncol = ncol(M), byrow = T)
Z <- as.matrix(M - P)
sum2pq <- 2 * (sum(pi * (1- pi)))
Zt <- t(Z)
ZZt <- eigenMatMult(Z, Zt)
G <- (ZZt / sum2pq)
Ga <- (w * G) + ((1 - w) * A22)
invG <- solve(Ga)
Ginv <- ginv(invG)
attr(Ginv, “rowNames”) <- IID
attr(Ginv, “INVERSE”) <- TRUE
save(Ginv, file = paste(“Ginv.ref.s”, i, “.bin”, sep = “”))
}
##実行前に、次のスクリプトをファイル「matrix_multiplication.cpp」に保存し、作業パスに配置する。
// [[Rcpp::depends(RcppArmadillo, RcppEigen)]]
#include <RcppArmadillo.h>
#include <RcppEigen.h>
// [[Rcpp::export]]
SEXP armaMatMult(arma::mat A, arma::mat B){
arma::mat C = A * B;
return Rcpp::wrap(C);
}
// [[Rcpp::export]]
SEXP eigenMatMult(Eigen::MatrixXd A, Eigen::MatrixXd B){
Eigen::MatrixXd C = A * B;
return Rcpp::wrap(C);
}
// [[Rcpp::export]]
SEXP eigenMapMatMult(const Eigen::Map<Eigen::MatrixXd> A, Eigen::Map<Eigen::MatrixXd> B){
Eigen::MatrixXd C = A * B;
return Rcpp::wrap(C);
}
##Rで次のスクリプトを実行し、5倍交差検証に必要なファイル「coor4cv.ref.csv」を生成する。
library(data.table)
fold <- 5
No.cv <- 5
No.indiv <- 500
res <- matrix(nrow = (No.indiv / fold), ncol = (fold * No.cv))
for (i in 1: fold) {
coor <- data.table(seq = c(1: No.indiv), or = rnorm(No.indiv))
setorder(coor, -or)
res[, (i * 5 - 4): (i * 5)] <- coor$seq
}
for (i in 1: ncol(res))
res[, i] <- sort(res[ ,i])
res[which(res == 499)] <- NA
res[which(res == 500)] <- NA
write.table("coor4cv.ref.csv", sep = ",", col.names = F, row.names = F, quote = F)
##Rで次のスクリプトを実行し、G-BLUPの予測精度を評価する。その中で、抗病性表現型変数の名前はsur.statusであり、Ori.Locationとb.weightは固定項目とし、それぞれ採集場所と体重である。
library(data.table)
library(pROC)
library(asreml)s
No.subset <- 10
ref.pheno <- asreml.read.table(“ref.pheno4cv.csv”, sep = “,”, header = T)
cv.coor <- as.matrix(fread(“coor4cv.ref.csv”))
cv.res <- matrix(NA, nrow = (ncol(cv.coor) + 1), ncol = No.subset)
colnames(cv.res) <- paste(‘s’, 1: ncol(cv.coor), sep = “”)
rownames(cv.res) <- c(paste(“CV”, 1: ncol(cv.coor), sep = “”), “Average”)
for (i in 1: No.subset) {
load(paste(“Ginv.ref.s”, i, “.bin”, sep = “”))
for (j in 1: ncol(cv.coor)) {
pheno4cv <- ref.pheno[-na.omit(cv.coor[, j]), ]
gblup <- asreml(sur.status ~ Ori.Location + b.weight,
random = ~vm(IID, Ginv),
dense = ~vm(IID, Ginv),
family = asr_binomial(“probit”),
data = pheno4cv,
maxiter = 100)
y4val <- ref.pheno$sur.status[na.omit(cv.coor[, j])]
gebv4val <- coef(gblup)$random[na.omit(cv.coor[, j])]
cv.res[j, i] <- roc(y4val, gebv4val)$auc
}
}
cv.res [nrow(cv.res), ] <- colMeans(cv.res, na.rm = T)
write.table(cv.res, “Ref.cv.results.gblup.csv”, sep = “,”, row.names = F, quote = F)
実行後、ファイル「Ref.cv.results.gblup.csv」の最終行情報が、即ちSNP数の変化に応じてG-BLUPが抗病性GEBVを予測する精度である。
【0029】
3、BayesCπの予測精度を評価する
G-BLUPと同じモデルを使用し、RでBayesCπの予測精度を評価する。Bayes法は時間がかかるため、SNPサブセットごとに1つのコマンドを指定する。以下では、SNPサブセット「s1」を例とし、BayesCπの予測精度を推定する方法を説明する。
Linux環境で次のコマンドを実行する:
#Rで次のスクリプトを実行し、SNPサブセット「s1」を使用する時、BayesCπでの予測精度を評価する。
library(data.table)
library(BGLR)
library(pROC)
set.seed(123)
i <- 1 #別のSNPサブセットを使用するためにはiの値を変更する
load(paste(“ref.snp.s”, i, “.bin”, sep = “”))
ref.pheno <- fread (“ref.pheno4cv.csv”)
cv.coor <- as.matrix(fread(“coor4cv.ref.csv”))
No.CV <- ncol(cv.coor)
gebv <- matrix(nrow = nrow(ref.pheno), ncol = No.CV)
cv.res <- matrix(nrow = No.CV + 1)
colnames(cv.res) <- paste(“s”, i, sep = “”)
rownames(cv.res) <- c(paste(“CV”, 1: ncol(dr.coor), sep = “”), “Average”)
for (i in 1: No.CV) {
pheno4trn <- ref.pheno[-na.omit(cv.coor[, i]), ]
geno4trn <- M[-na.omit(cv.coor[, i]), ]
ETA4trn <- list(FIX = list(~factor(Ori.Location) + b.weight, data = pheno4trn, model = 'FIXED'), MAR = list(X = geno4trn, model = 'BayesC'))
bc <- BGLR(y = pheno4trn$sur.status,
ETA = ETA4trn,
response_type = “ordinal”,
nIter = 20000,
burnIn = 5000,
thin = 10,
saveAt = “bc_”,
verbose = F)
MarEff <- bc$ETA$MAR$b
gebv[, i] <- M %*% MarEff
y4val <- ref.pheno$sur.status[na.omit(cv.coor[, i])]
gebv4val <- gebv[na.omit(cv.coor[, i]), i]
cv.res[i, ] <- roc(y4val, gebv4val)$auc
}
cv.res[nrow(cv.res), ] <- colMeans(cv.res, na.rm = T)
write.table(cv.res, paste(“Ref.results.cv.BC.s”, i, “.csv”, sep = “”), sep = “,”, row.names = F, quote = F)
実行後、ファイル「Ref.results.cv.BC.s1.csv」の最終行情報は、即ちSNPサブセット「s1」を使用する時、BayesCπで予測した抗病性の精度である。上述のスクリプトを10回実行し(iの範囲は1~10である)、SNP数の変化に応じてBayesCπが東星斑の抗ビブリオ・ハーヴェイGEBVを予測する精度を取得する(図2)。
【0030】
4、異なるSNP数における2つのゲノム選択方法の予測精度を比較する
SNP数の変化に応じてG-BLUPとBayesCπが東星斑の抗ビブリオ・ハーヴェイGEBVを予測する精度の変化傾向を図2に示す。その中からわかるように、SNP数の減少に応じて、G-BLUPとBayesCπによる予測精度は低下する傾向を示し、SNP数が50kの場合、G-BLUPとBayesCπによる予測精度が最も高く、それぞれ0.670と0.681であって、SNPマーカー数が20kから3kに減少すると、G-BLUPとBayesCπによる予測精度は許容範囲内で減少し、マーカー数が2k未満の場合、2つの方法による予測精度は0.606と0.611までに急速に減少する。要するに、BayesCπの予測精度はG-BLUPよりわずかに優れ、BayesCπを抗病性GEBVを推定する方法として利用することができる。GEBVの推定に使用されるマーカー数が多いほど、遺伝子型のコストも高くなるため、本発明は、20kのSNP部位を使用して抗病性GEBVを推定することにより、ゲノム選択方法の予測精度を保証するだけでなく、遺伝子型のコストを適切に削減し、計算にかかる時間を節約することができる。
【実施例4】
【0031】
実施例4:東星斑候補グループGEBVを予測するためのSNPマーカーを選び出す
実施例3の結果に基づいて、本発明は、候補グループの抗病性GEBVを推定するために20,000個(20k)のSNP部位を選択するが、その中には、東星斑の抗ビブリオ・ハーヴェイに関連する30部位と東星斑ゲノム上に均等に分布する19,970個の部位とが含まれる。抗病性に関連する部位は、SED ID NO:1~SED ID NO:15のいずれかの配列の第36位と第107位に位置し、ゲノムワイド関連解析により取得される。他のSNP部位は東星斑ゲノム上に均等に分布され、部位はSED ID NO:16~SED ID NO:10000のいずれかの配列の第36位と第107位に位置する。
【0032】
Linux環境で次のコマンドを実行する:
#PLINKを使用して遺伝子型データを準備する
plink2 --bpfile snps.imputed --autosome-num 24 --keep indiv.ref.txt --make-bpgen --out geno4gwas
#GCTAを使用してGRM行列を生成する
gcta --bpfile geno4gwas --autosome-num 24 --make-grm --out grm.gcta
#GCTAを使用してGRM疎行列を生成する
gcta --grm grm.gcta --make-bK-sparse 0.05 --out sparse.grm.gcta
#抗病性表現型と共変量をそれぞれテキストファイル「pheno4gcta.phe」と「qcov4gcta.qcov」へ整理する。共変量には体重とPCA分析の上位10個の主成分ベクトルが含まれる
#GCTAを使用してゲノムワイド関連解析を実行する
gcta --bpfile geno4gwas --grm-sparse sparse.grm.gcta --pheno pheno4gcta.phe-qcovar qcov4gcta.qcov --fastGWA-mlm --autosome-num 24 --out res.gwas
#Rを使用して解析結果を読み取り、抗病性性状に関連する30個のSNP情報を出力する
library(data.table)
res <- fread(“res.gwas.fastGWA”)
setorder(res, P)
sel.loci <- res[1: 30, ]
setorder(sel.loci, CHR, POS)
write.table(sel.loci, “selected.loci.info.txt”, sep = “\t”, quote = F)
実行後、抗病性に関連する30個のSNP部位の番号、染色体番号、物理的位置などの情報をファイル「selected.loci.info.txt」に保存する。その後、GEBVの計算に使用される20kのSNPを選択し、これらの20kのSNPには上述30個のSNPが含まれる。
【0033】
Linux環境で次のコマンドを実行する:
#ゲノムを均等にカバーする20kのSNPを選び出す
##PLINK2を使用してゲノムを均等にカバーする19,970個のSNPを抽出し、--bp-spaceの値を増やすと取得されるSNP数が少なくなり、逆に--bp-spaceの値を減らすと取得されるSNP数が多くなる。
plink2 --bpfile snps.imputed --extract comm.loci.txt --bp-space 37267 --make-bpgen --out snps.20k.part1
##Rを使用し、最後20kのSNPを抽出するためのファイルを整理する
library(data.table)
bim.p1 <- fread(“snps.20k.part1.bim”)
loci.info <- fread(“trait.realted.loci.txt”)
loci.20k <- c(bim.p1$V2, loci.info$SNP)
write.table(loci.20k, “snps.20k.txt”, sep = “\t”, col.names = F, row.names = F, quote = F)
実行後、ファイル「snps.20k.txt」には20kのSNP番号が含まれており、これらの番号はPLINK2に読み取られ、対応する部位を抽出することができる。ファイルにはすべて20,000個のSNP部位が含まれており、その中には東星斑の抗病性に関連する30個のSNP部位と、東星斑の参照ゲノムを均一にカバーする19,970個のSNP部位が含まれる。図3は、1M範囲ごとで東星斑の参照ゲノム上のこれら20kのSNPの分布を示しており、これらの部位は基本的に東星斑のゲノムを均等にカバーしていることがわかる。
【実施例5】
【0034】
実施例5:BayesCπと好ましい20kのSNPマーカーの予測効果を検証する
1、交差検証を利用して予測効果を評価する
実施例3で記載されたのと同じモデルを使用し、実施例4で取得された20kのSNPを検証する。実施例3の結果と比較すると、次のことがわかる:東星斑点ゲノムの均一に分布された20kのSNP部位(実施例4で選択した30個の抗病性に関連するSNP部位を含まない)を使用したBayesCπの予測精度は0.670であり(図2)、これらの30個の抗病性に関連する部位を含む20kのSNP部位を使用した後、BayesCπの予測精度は0.682であり、0.012が増加され、実施例3で50kのSNPを使用したBaeysCπの予測精度(0.681)に近い。従って、本発明により提供される20kのSNPを使用すると、ゲノム選択を無事完了できるだけでなく、良好な予測効果も有する。
【0035】
2、検証グループの抗病性GEBVを利用して予測効果を評価する
抗病性表現型を有するが参照グループには含まれていない個体を検証個体とし、BayesCπと実施例4で取得された20kのSNPを使用して検証グループの抗病性GEBVを算出し、生存個体と死亡個体の平均GEBVを比較し、本発明の上記方法の実現可能性を検証する。Linux環境で次のコマンドを実行する:
#候補となる個体の遺伝子型を抽出する
##PLINK2で次のコマンドを実行する
plink2 --bpfile snps.imputed --autosome-num 24 --extract snps.20k.txt --keep indiv.ref.txt --export-allele export.A.txt --export A --out geno.Ref.20k
plink2 --bpfile snps.imputed --autosome-num 24 --extract snps.20k.txt --keep indiv.val.txt --export-allele export.A.txt --export A --out geno.Val.20k
awk ‘{print $2}’ geno.Val.20k.raw | sed ‘1d’ > iid.val.20k.txt
#検証グループの抗病性GEBVを計算する
library(data.table)
library(BGLR)
set.seed(123)
pheno.ref <- fread(“pheno.Ref.csv”)
pheno.val <- fread(“pheno.Val.csv”)
iid.val <- fread(“iid.val.20k.txt”, header = F)$V1
M.ref <- fread(“geno.Ref.20k.raw”)
M.val <- fread(“geno.Val.20k.raw”)
M.ref <- as.matrix(M.ref[, c(1: 6):= NULL])
M.val <- as.matrix(M.val[, c(1: 6):= NULL])
ETA4MarEst <- list(FIX = list(~factor(Ori.Location) + b.weight, data = pheno.ref, model = ‘FIXED’), MAR = list(X = M.ref, model = ‘BayesC’))
BC <- BGLR(y = pheno$sur.status, ETA = ETA4MarEst,
response_type = “ordinal”,
nIter = 20000, burnIn = 5000, thin = 10,
saveAt = “BC4Val_”, verbose = T)
MarEff <- BC$ETA$MAR$b
gebv <- data.frame(IID = iid.val, GEBV = M.val %*% MarEff)
gebv <- merge(gebv, pheno.val, sort = F)
mean(gebv$GEBV[gebv$sur.status == 0])
mean(gebv$GEBV[gebv$sur.status == 1])
length(gebv$GEBV[gebv$sur.status == 0])
length(gebv$GEBV[gebv$sur.status == 1])
実行後、298匹の検証グループの抗病性GEBVを予測することに成功し、生存個体と死亡個体の平均GEBVを図4に示した。その中で、生存個体は110匹で、平均GEBVは0.413で、全体の平均GEBVより高く、死亡個体は188匹で、平均GEBVは0.255で、全体の平均GEBVよりも低かった。このことからわかるように、GEBVは個体の抗病性と正の相関があり、GEBVが高い個体は抗病性が強いため、GEBVを使用して個体を選択し、その中から抗病性の強い個体の選び出して繁殖に利用できる。
【実施例6】
【0036】
実施例6:東星斑候補グループの抗病性GEBVを計算する
100匹の東星斑の幼魚を選択して候補グループとし、全ゲノムリシーケンシングを使用して候補グループ遺伝子型を取得し、遺伝子型情報をファイル「candidates.geno.vcf.gz」に保存する。シーケンシングが完了した後、実施例4に記載されたのと同じ20kのSNPを抽出し、実施例3の参照グループと組み合わせ、BayesCπを利用して候補グループの抗病性GEBVを計算する。高い抗病性GEBVを有する個体の抗病性が強いことをさらに説明するために、本発明は感染実験を利用して候補グループの抗病性を測定し、生存個体を抗病性が高い個体として認定し、死亡個体を感染され易い個体として認定した。これら100匹の東星斑の候補グループには、それぞれ50匹の抗病性が高い個体と50匹の感染され易い個体が含まれる。Linux環境で次のコマンドを実行する:
#候補グループ遺伝子型ファイルから実施例4で記載された20kのSNPを抽出する
##Rで次のスクリプトを実行する
library(data.table)
snps.20k <- fread(“snps.20k.txt”)
pos <- as.integer(matrix(unlist(strsplit(snps.20k$V1, ‘:’)), ncol = 2, byrow = T)[, 2])
chr <- gsub(“rs”, “chr”, matrix(unlist(strsplit(snps.20k$V1, ‘:’)), ncol = 2, byrow = T)[, 1]
info <- data.table(CHR = chr, POS = pos)
fwrite(info, “info.20k.txt”, sep = “\t”, col.names = F, quote = F)
##VCFtoolsで次のコマンドを実行する
vcftools --gzvcf candidates.geno.vcf.gz --positions info.20k.txt --recode -- recode-INFO-all --stdout | bgzip -c -f -@ 10 > candidates.geno.20k.vcf.gz
##PLINK2で次のコマンドを実行する
plink2 --vcf candidates.geno.20k.vcf.gz --autosome-num 24 --make-bpgen --out Can.geno.20k
##Rで次のスクリプトを実行する
library(data.table)
bim <- fread(“Can.geno.20k.bim”)
bim$V2 <- paste(“rs”, bim$V1, ‘:’, bim$V4, sep = “”)
fwrite(bim, “Can.geno.20k.bim”, sep = “\t”, col.names = F, quote = F)
##PLINK2で次のコマンドを実行する
plink2 --bpfile Can.geno.20k --autosome-num 24 --export-allele export.A.txt --export A --out geno.Can.20k
awk ‘{print $2}’ geno.Val.20k.raw | sed ‘1d’ > iid.can.20k.txt
#候補グループGEBVを計算する。最初の50個の個体は感染され易い個体であり、最後の50個の個体は抗病性が高い個体である。
##Rで次のスクリプトを実行する
library(data.table)
library(BGLR)
setseed(123)

pheno.ref <- fread(“pheno.Ref.csv”)
iid.can <- fread(“iid.can.20k.txt”, header = F)$V1
M.ref <- fread(“geno.Ref.20k.raw”)
M.can <- fread(“geno.Can.20k.raw”)
M.ref <- as.matrix(M.ref[, c(1: 6):= NULL])
M.can <- as.matrix(M.can[, c(1: 6):= NULL])
ETA4MarEst <- list(FIX = list(~factor(Ori.Location) + b.weight, data = pheno.ref, model = ‘FIXED’), MAR = list(X = M.ref, model = ‘BayesC’))
BC <- BGLR(y = pheno$sur.status, ETA = ETA4MarEst,
response_type = “ordinal”,
nIter = 20000, burnIn = 5000, thin = 10,
saveAt = “BC_”, verbose = F)
MarEff <- BC$ETA$MAR$b
gebv <- data.frame(IID = iid.can, GEBV = M.val %*% MarEff, pheno = c(rep(0, 50), rep(1, 50)))
fwrite(gebv, “GEBV.candidates.csv”, sep = “,”, quote = F)
実行後、100匹の東星斑候補グループの抗病性GEBVの計算に成功し、50匹の抗病性が高い個体のGEBV平均値は0.643で、感染され易い個体のGEBV平均値(0.525)よりも高かった(図5)。また、GEBVの上位20%個体の中には、抗病性が高い個体が15匹で、感染され易い個体(5匹)よりもはるかに多かった。これは、GEBVが高い個体は抗病性が強いため、子孫を繁殖させる親として使用し、子孫の耐病性を向上させることができることをさらに示している。同時に、本発明の実施例3で選択されたBayesCπ法と実施例4で好ましく選択された20kのSNPが良好な予測効果を有し、抗病性の強い個体のスクリーニングに使用することができることも示している。
図1
図2
図3
図4
図5
【配列表】
2024521656000001.app
【国際調査報告】