IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 花王株式会社の特許一覧

<>
  • 特許-イネの収量予測方法 図1
  • 特許-イネの収量予測方法 図2
  • 特許-イネの収量予測方法 図3
  • 特許-イネの収量予測方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-01
(45)【発行日】2024-07-09
(54)【発明の名称】イネの収量予測方法
(51)【国際特許分類】
   G01N 27/62 20210101AFI20240702BHJP
【FI】
G01N27/62 V
【請求項の数】 16
(21)【出願番号】P 2021168109
(22)【出願日】2021-10-13
(65)【公開番号】P2022064328
(43)【公開日】2022-04-25
【審査請求日】2023-03-29
(31)【優先権主張番号】P 2020172820
(32)【優先日】2020-10-13
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000000918
【氏名又は名称】花王株式会社
(74)【代理人】
【識別番号】110000084
【氏名又は名称】弁理士法人アルガ特許事務所
(72)【発明者】
【氏名】前田 春香
(72)【発明者】
【氏名】藤松 輝久
(72)【発明者】
【氏名】遠藤 圭二
【審査官】吉田 将志
(56)【参考文献】
【文献】特開2011-033533(JP,A)
【文献】米国特許出願公開第2015/0168419(US,A1)
【文献】特開2012-215482(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 27/62
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
イネから採取された葉サンプルから、LC/MSによる質量分析により提供される精密質量(m/z)と保持時間(分)で規定された、下記表1a~1に記載の成分から選ばれる1種以上の成分の分析データを取得し、当該データとイネ収量との相関性を利用してイネの収量を予測する、イネの収量予測方法。
【表1a】
【表1b】
【表1c】
【表1d】
【表1e】
【表1f】
【表1g】
【表1h】
【表1i】
【表1j】
【表1k】
【表1l】
【表1m】
【表1n】
【表1o】
【表1p】
【表1q】
【請求項2】
前記1種以上の成分の分析データをpooled QC法により補正する、請求項1に記載の方法。
【請求項3】
成分が、前記表1a~1に記載の成分No.1、4、6、9、10、11、12、19、20、21、23、26、27、29、30、33、34、35、38、39、45、46、47、48、49、50、51、52、54、55、56、61、62、63、64、65、66、67、69、71、75、76、77、78、81、83、84、85、88、89、90、91、92、96、100、102、105、106、107、108、109、113、116、118、119、120、121、123、124、126、127、129、130、131、133、134、137、139、142、145、147、148、149、151、152、153、154、155、156、159、162、163、164、165、166、167、168、169、170、172、174、175、177、178、181、182、183、184、186、187、188、191、193、194、196、198、200、202、203、206、208、209、210、212、213、214、215、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、235、237、238、239、240、243、245、246、247、248、249、250、251、252、254、255、258、259、260、261、262、263、264、265、266、268、270、271、272、273、274、275、277、278、280、281、283、284、285、286、288、289、290、291、293、294、298、300、302、303、305、310、312、314、316、317、318、320、321、323、325、327、329、331、332、333、334、335、337、338、339、342、343、344、345、346、347、348、350、351、352、355、358、359、360、361、362、363、365、366、368、369、370、371、373、374、375、378、379、381、382、389、390、391、392、395、397、398、399、401、404、407、408、409、410、411、413、414、415、416、417、418、419、423、424、425、428、431、433、434、435、436、437、438、439、441、444、445、446、447、449、450、451、454、455、457、458、459、460、461、462、464、465、469、471、472、473、474、475、478、480、481、482、483、487、489、490、491、492、494、502、503、504、507、509、510、511、512、513、514、516、517、522、523、525、526、529、532、534、539、540、542、543、547、548、549、551、552、554、555、557、561、565、566、567、573、582、583、585、586、588、589、590、591、593、594、595、596、597、599、600、602、603、604、606、609、611、612、613、615、616、617、619、620、621、624、628、630、631、632、633、635、639、643、644、647、649、650、651、653、654、655、656、658、660、661、662、665、666、671、672、673、674、675、681、682、683、684、685、688、689、691、692、693、694、695、696、699、700、701、702、703、704、706、707、708、713、714、715、717、719、721、722、723、724、725、726、727、728、729、731、732、734、735、737、738、740、745、746、748、749、750、754、756、757、762、765、766、767、768、770、774、776、777、780、781、782、785、787、789、792、793、794、795、796、797、798、799、801、802、803、804、810、811、813、815、816、817、818、820、822、823、824、827、828、829、830、832、834、841、842、843、844、845、846、848、849、850、852、854、858、863、864、867、868、869、870、871、872、874、877、878、879、882、883、884、885、886、888、889、893、894、895、896、898、899、900、901、902、903、910、911、912、914、917、919、922、923、924、925、926、928、930、932、938、941、942、943、944、945、946、947、948、949、950、952、953、955、956、958、959、960、962、965、966、968、969、973、976、979、980、981、983、985、986、989、992、993、994、995、996、997、999、1001、1002、1003、1005、1006、1007、1009、1012、1013、1015、1017、1019、1020、1021、1022、1024、1025、1026、1027、1031、1032、1034、1036、1039、1043、1044、1045、1046、1047、1048、1049、1050、1051、1053、1054、1057、1058、1059、1060、1062、1066、1067、1068、1069、1070、1072、1074、1075、1077、1078、1079、1081、1082、1087、1088、1089、1092、1094、1098、1100、1101、1102、1103、1104、1105、1106、1108、1110、1112、1113、1114、1117、1118、1119、1120、1121、1123、1126、1127、1128、1129、1133、1134、1135、1139、1140、1141、1142、1143、1144、1147、1148、1149、1150、1151、1152、1153、1154、1158、1160、1163、1166、1167、1168、1170、1171、1172、1173、1174、1177、1178、1179、1180、1181、1182、1184、1186、1187、1188、1189、1190、1191、1192、1193、1194、1195、1196、1197、1198、1199、1202、1204、1208、1211、1212、1214、1217、1218、1221、1222、1224、1225、1226、1229、1231、1233、1234、1235、1237、1238、1239、1240、1241、1242、1243、1244、1246、1247、1248、1249、1250、1252、1254、1255、1256、1257、1258、1261、1263、1265、1267、1268、1269、1271、1272、1276、1277、1278、1280、1283、1291、1292、1295、1296、1297、1299、1300、1301、1304、1305、1306、1309、1311、1312、1313、1314、1315、1316、1317、1318、1319、1321及び1322から選ばれる1種以上である請求項1又は2に記載の方法。
【請求項4】
成分が、前記表1a~1に記載の成分No.10、177、178、245、254、272、294、337、366、435、462、529、539、708、729、832、842、869、901、912、1050、1060、1173及び1306から選ばれる1種以上である請求項1又は2に記載の方法。
【請求項5】
成分が、前記表1a~1に記載の成分No.10、178及び1173から選ばれる1種以上である請求項1又は2に記載の方法。
【請求項6】
葉サンプルが、出芽期から出穂期のイネから採取される、請求項1~5のいずれか1項に記載の方法。
【請求項7】
葉サンプルが、2葉齢期から幼穂形成期のイネから採取される、請求項1~5のいずれか1項に記載の方法。
【請求項8】
分析データが、質量分析データである請求項1~7のいずれか1項に記載の方法。
【請求項9】
葉サンプルから取得された成分の分析データを、前記表1a~1に記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個の中から少なくとも1個の成分の分析データを用いて構築された収量予測モデルと照合する工程を含む、請求項1~8のいずれか1項に記載の方法。
【請求項10】
収量予測モデルが、前記表1a~1に記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個の中から少なくとも5個を用いる、請求項9に記載の方法。
【請求項11】
収量予測モデルが、前記表1a~1に記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個の中から少なくとも10個を用いる、請求項9に記載の方法。
【請求項12】
収量予測モデルが、前記表1a~1に記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位10個の中から少なくとも1個を用いる、請求項9に記載の方法。
【請求項13】
収量予測モデルが、前記表1a~1に記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位10個の中から少なくとも5個を用いる、請求項9に記載の方法。
【請求項14】
収量予測モデルが、前記表1a~1に記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位10個の中から少なくとも9個を用いる、請求項9に記載の方法。
【請求項15】
収量予測モデルが、前記表1a~1に記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個を用いる、請求項9に記載の方法。
【請求項16】
収量予測モデルが、OPLS法を用いて構築されたモデルである請求項9~15のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はイネの収量を早期に予測する方法に関する。
【背景技術】
【0002】
イネは、重要な穀物であり、日本を始め世界中で広く食されている。また他の代表的な穀物であるトウモロコシ、コムギ、ダイズと比較しても日本での生産量は多い。このように重要な穀物の1つとして広く栽培され、また収量を増加させる技術の開発が行われている。
イネの生育期間は、品種や栽培条件によって若干異なるが、通常、播種から収穫まで3~6か月という長期間を要する。よって、イネの収量を増加させる技術の開発において、収量評価を行うには栽培に多くの時間を必要とする。さらに、日本のような季節・気候条件では、収穫まで3~6か月を要するイネの栽培は年に1回が一般的である。屋外栽培での収量評価が年に1度しかできず収量増加技術の開発の障害となっていることから、早期に収量を予測する方法が求められてきた。また、実際の生産場面において、早期に収量を予測することができれば、生産者は安定した収量確保のために費用コストのかかる追加技術を投入すべきかどうかの判断を容易に下すことができる。
【0003】
これまでにも気象データ、圃場の画像や生育情報を利用した早期に収量性を評価する方法が種々検討されている。例えば、非特許文献1では、播種前に積算降水量・積算平均気温等の気象データを用いて国レベルでの生産量を予測するモデルの構築が行われている。また、特許文献1及び特許文献2では、葉身窒素量、葉色又はクロロフィル量を測定し、生育や収量性を評価し、施肥量を決定する試みもなされている。さらに、非特許文献2では、イネの種子中又は播種後15日程度の地上部から抽出される代謝物をGC-MSにより網羅的に測定し、それらのデータを用いてハイブリッドライス収量予測モデルを作成したことが報告されている。
【0004】
しかしながら、非特許文献1のモデルは、播種前から予測された気象データを用いてイネの収量を予測するモデルであるが、予測できる単位が国単位であり、個体毎の予測因子と収量とを対応させたい場合の評価には向いていない。特許文献1及び2の方法は、非破壊で簡易的な測定であるといえるが、予測時期が幼穂形成期以降、すなわち生育期間の半分が経過した後での予測となる。さらに、圃場単位での予測を行うため、個体レベルでの収量を予測する技術ではない。また、非特許文献2では、通常の予測モデル構築の際に行われるクロスバリデーションというモデルの予測性評価が行われていない。具体的には、モデルの予測精度を示すRは0.82と報告されているものの、Rとともに重要なモデルの予測性を示すQの記載がない。非特許文献2のモデルは、モデル構築用データに対する誤差は小さいが未知のデータに対する予測誤差が大きいオーバーフィッティングしたモデルであることが懸念された。また、非特許文献2の方法は、侵襲的であり、個体毎の予測因子と収量とを対応させたい場合の評価には向いていない。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2000-300077号公報
【文献】特開2018-82648号公報
【非特許文献】
【0006】
【文献】Iizumi,T. et al., Climate Services, 2018, vol. 11, p.13-23
【文献】Dan,Z. et al., Scientific Reports, 2016, 6, 21732
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、イネの収量を早期に精度よく予測する方法を提供することに関する。
【課題を解決するための手段】
【0008】
本発明者らは、イネの収量性評価について種々検討した結果、葉中に含まれる代謝物にはその存在量が収量と相関する成分があること、そして、播種後早期にイネ展開葉から一部を採取し、葉中に含まれる成分を分析し、解析することで最終的な収量を個体レベルで評価できることを見出した。
【0009】
すなわち、本発明は、イネから採取された葉サンプルから1以上の成分の分析データを取得し、当該データとイネ収量との相関性を利用してイネの収量を予測する、イネの収量予測方法、を提供する。
【発明の効果】
【0010】
本発明の方法によれば、イネの収量を早期に予測できる。これにより、例えば、収量確保のための追加技術投入の判断が容易となるほか、収量増加技術の開発の大幅な効率化を図ることができる。
【図面の簡単な説明】
【0011】
図1】非特許文献2のデータを用いて構築されたOPLSモデルによる収量の予測値と実測値との関係を示す図。
図2】全26データを用いて構築されたOPLSモデルによる収量の予測値と実測値との関係を示す図。
図3図2のモデルにおけるVIP値11位以下800位までのすべての成分の分析データ、21位以下800位までのすべての成分の分析データ、31位以下800位までのすべての成分の分析データ・・・及び111位以下800位までのすべての成分の分析データを用いてOPLS法により構築した各々のモデルのR(図中ではR2Yと表示)値及びQ(図中ではQ2と表示)値を示す図。
図4図2のモデルにおけるVIP値上位1位から10位までの成分の分析データの内、任意の9個の組み合わせ(10通り)についてOPLS法により構築した各々のモデルのR(図中ではR2Yと表示)値及びQ(図中ではQ2と表示)値を示す図。
【発明を実施するための形態】
【0012】
本発明において、イネとは、イネ科イネ属(学名Oryza)に属する植物全般を意味し、好ましくはイネ科イネ属のアジアイネ(学名Oryza sativa)を意味する。アジアイネには、ジャポニカ種とインディカ種が含まれる。ジャポニカ種に含まれる品種は、ニホンバレ、ミルキークイーン、コシヒカリ、ひとめぼれ、ヒノヒカリ、あきたこまち、ななつぼし、はえぬき、まっしぐら、キヌヒカリ、あさひの夢、ゆめぴりか、きぬむすめ、こしいぶき、つや姫、夢つくし、ふさこがね等が挙げられる。インディカ種に含まれる品種は、Mudgo、Peta、Yodanya、Sigadis、IR8、IR36、IR72等が挙げられる。このように品種は多岐にわたるが、本発明においてはそれに限定されるものではない。
【0013】
イネの出芽から出穂期までの生育ステージは、出芽期(播種後5日前後)、2葉齢期(播種後25日前後)、分げつ期(播種後60日前後)、幼穂形成期(播種後90日前後)、止め葉期(播種後100日前後)、出穂期(播種後120日前後)に分けられる。本発明において、イネの葉サンプルの採取は、葉が採取可能な出芽期から出穂期までの間に行われればよく、該採取時期としては、好ましくは2葉齢期~出穂期、より好ましくは2葉齢期~止め葉期、さらに好ましくは2葉齢期~幼穂形成期、さらに好ましくは2葉齢期~分げつ期が挙げられる。尚、上記各生育ステージにおける前後の日数幅は5日間以内が好適である。
或いは、イネの葉の採取時期は、播種後5日以上、好ましくは16日以上、より好ましくは25日以上、さらに好ましくは40日以上で、且つ好ましくは播種後90日より前、より好ましくは70日より前、さらに好ましくは60日より前であり得る。また、播種後5~90日目、好ましくは16~70日目、より好ましくは25~60日目、さらに好ましくは40~60日目であり得る。
ここで、播種後日数とは、屋外で苗を移植栽培した場合の日数を表す。屋内ハウスでの直播栽培では、各生育ステージの播種後日数は上記日数と相違するが、当業者であれば、屋内ハウスでの直播栽培条件を考慮して各生育ステージの播種後日数を理解でき、例えば、分げつ期は屋外で移植栽培した場合は播種後60日前後であるが、屋内ハウスで直播栽培した場合は播種後30日前後である。屋内ハウスでの直播栽培では、上記採取時期に相当する時期に葉サンプルを採取すればよい。
【0014】
葉サンプルの採取部位は、特に限定されないが、例えば、株の根本から葉を1~5枚程度、好ましくは2~6枚程度、より好ましくは4~7枚程度切断して採取することが挙げられる。
【0015】
本発明において、収量とは、個体あたりのイネの子実質量、または個体あたりの粒数を意味する。質量については、特に限定されないが、乾燥質量が好ましい。これらのうち、個体あたりのイネの乾燥子実質量が特に好ましい。本発明における乾燥子実質量とは、90℃にて72時間乾燥させた後の子実に含まれる水分率が7%以下に減少した状態で測定した質量を意味する。乾燥子実質量は、電子天秤などの校正機能つきの天秤ばかりによって測定されることが好ましい。
【0016】
本発明において、取得される成分の分析データとしては、高速液体クロマトグラフィー(HPLC)、ガスクロマトグラフィー(GC)、イオンクロマトグラフィー、質量分析(MS)、近赤外分光分析(NIR)、フーリエ変換赤外分光分析(FT-IR)、核磁気共鳴分析(NMR)、フーリエ変換核磁気共鳴分析(FT-NMR)、誘導結合プラズマ質量分析計(ICP-MS)、液体クロマトグラフと質量分析とを組合せたLC/MS等の機器分析手段を用いて分析・測定されたデータが挙げられるが、好ましくは質量分析データであり、より好ましくはLC/MSによる質量分析データである。
質量分析データとしては、精密質量(「m/z値」)、イオン強度、保持時間等が挙げられるが、好ましくは精密質量の情報である。
【0017】
葉サンプルを、上記機器分析手段に適用するためには、分析手段に応じて適宜前処理されるが、通常、採取した葉はアルミホイルで包み直ちに液体窒素中で凍結して代謝反応を停止させ、凍結乾燥にかけて乾燥した後、抽出操作に供される。
抽出は、凍結乾燥した葉サンプルを、ビーズ粉砕機等を用いて粉砕した後、抽出溶媒を添加して撹拌することにより行われる。ここで用いられる抽出溶媒としては、メタノール、エタノール、ブタノール、アセトニトリル、クロロホルム、酢酸エチル、ヘキサン、アセトン、イソプロパノール、水等及びそれらを混合したものが挙げられる。分析手段としてLC/MSを用いる場合には、内部標準物質を添加した80v/v%メタノール水溶液等が好適に使用される。
【0018】
本発明において、分析される葉中の成分としては、LC/MSによって分離検出されるイネの代謝物質が挙げられる。好ましくは、質量分析により提供される精密質量(m/z)が101~1215である成分が挙げられる。より好ましくは、質量分析により提供される精密質量(m/z値)で規定された、下記表1a~1iに記載された1,324成分が挙げられる。尚、LC/MSによる分離検出の過程において、代謝物質から部分分解物及びアダクト(M+H、M+Na等)の異なる分子イオンピークが生じる場合、検出された部分分解物は、元の代謝物質とは別の成分とした。
【0019】
【表1a】
【0020】
【表1b】
【0021】
【表1c】
【0022】
【表1d】
【0023】
【表1e】
【0024】
【表1f】
【0025】
【表1g】
【0026】
【表1h】
【0027】
【表1i】
【0028】
当該1,324成分はイネの代謝物質から選択抽出されたものであり、その選択方法は詳細には実施例に示すとおりであるが、概略すると、1)施肥条件を変えてイネを屋内ハウスで直播栽培し、2)それぞれ播種後1ヶ月程度に葉を4~7枚採取して葉サンプルを得、3)80v/v%メタノールを用いて成分抽出を行った後、4)LC/MS分析を行って分子イオン情報(精密質量,m/z)とフラグメントに由来する構造情報を取得し、5)成分由来ピークを抽出し、次いで各ピークを各サンプル間で整列化させるアラインメント処理、同位体ピークの除去、サンプル間のピーク強度補正、ノイズの除去、を行って1,324成分の分析データを取得する、というものである。尚、サンプル間のピーク強度補正の方法は特に限定されないが、pooled QC法を用いた補正が挙げられる。pooled QC法は、同一バッチ内の全てのサンプルから一定量を混合したpooled QCと呼ばれるサンプルを作製し、各サンプルの合間に一定の頻度(5~9回に1回程度)でpooled QCの分析を実施することにより、「各サンプルを分析していた際にQCサンプルを分析していたと仮定するとそれぞれのピーク強度はどうなるか」という推定値を計算し、その値で補正するという処理を行って各サンプル間の感度の補正を行うものである。なお、データの補正方法が収量との相関性および予測モデルの性能に大きく影響することはない。
【0029】
また、取得した1,324成分の分析データと対応する収量データ(乾燥子実質量)との相関解析を行った結果(各成分の分析データのピーク面積と収量との単相関係数r及び無相関の検定によりp値を算出)、一定の成分は収量と有意に相関することが示された(後記表4a~4q参照)。
【0030】
したがって、1,324成分のうち、本発明における分析対象成分としては、収量との相関が有意(p<0.05)かつ相関係数の絶対値|r|>0.51である成分、すなわち成分No.10、177、178、245、254、272、294、337、366、435、462、529、539、708、729、832、842、869、901、912、1050、1060、1173及び1306から選ばれる1種以上を含むのが好ましい。なお、上記成分は、後述のVIP値がすべて1.08以上であった。
【0031】
さらに1,324成分のうち、本発明における分析対象成分としては、収量との相関が有意(p<0.05)かつ相関係数の絶対値|r|>0.66である成分、すなわち成分No.10、178及び1173から選ばれる1種以上を含むのが好ましい。なお、上記成分は、後述のVIP値がすべて2.17以上であった。
【0032】
表1a~1iでは、1,324の成分を質量分析により得られる精密質量で規定しているが、これらの精密質量データから化合物の組成式を推定することができる。また、分析時に同時に取得しているMS/MSデータからは、化合物の部分構造情報が得られる。よって、組成式と部分構造情報から、対象の成分を推定することができ、更に試薬との比較が可能なものについては同定することができる。
【0033】
例えば、解析の結果、No.10は組成式C、No.178は組成式C1318、No.245は組成式C1320、No.272は組成式C1328、No.347は組成式C1826、No.416及びNo.417は組成式C1828、No.539は組成式C1522、No.729は組成式C1930、No.1050は組成式C242811、No.1182は組成式C344010であると推定した。
【0034】
イネの収量の予測手段としては、上記1,324の成分、好ましくは収量との相関が有意(p<0.05)かつ相関係数の絶対値|r|>0.51である成分、より好ましくは有意(p<0.05)かつ相関係数の絶対値|r|>0.66である成分の存在量(例えば相関係数が-0.825である精密質量m/z124.0869のピーク面積)を、予測したいイネ葉サンプルについても測定し、既知の収量と測定したピーク面積との相関関係から収量を予測することが挙げられる。
【0035】
また、上記1,324成分の分析データから複数を使用し、多変量解析手法を用いて構築された収量予測モデルと照合することにより、収量を予測することができる。
すなわち、播種から所定期間経過後のイネの葉サンプルを採取し、分析サンプルを得、該分析サンプルを機器分析に供して機器分析データを得、該機器分析データを、収量予測モデルと照合することにより、当該イネの収量を予測することができる。
【0036】
収量予測モデルは、説明変数に各精密質量をもった補正済みの成分の分析データのピーク面積値を、また目的変数に収量値を用いた回帰分析を行うことにより構築できる。回帰分析法としては、例えば主成分回帰分析、PLS(Partial least squares projection to latent structures)回帰分析、OPLS(Orthogonal projections to latent structures)回帰分析、一般化線形回帰分析の他、バギング、サポートベクターマシン、ランダムフォレスト、ニューラルネットワーク回帰分析等の機械学習・回帰分析手法等の多変量回帰分析手法が挙げられる。このうち、PLS法、PLS法の改良版であるOPLS法、或いは機械学習・回帰分析手法を用いるのが好ましい。OPLS法は、PLS法に比べ予測性は同じだが、解釈のための視覚化がより容易になる点が今回のような目的においては優れている。PLS法及びOPLS法は、共に高次元のデータから情報を集約し少数の潜在変数に置き換え、その潜在変数を用いて目的変数を表現する方法である。潜在変数の数を適切に選ぶことが重要であり、潜在変数の数を決めるのによく利用されるのがクロスバリデーション(交差検証)である。すなわち、モデル構築用データをいくつかのグループに分割し、あるグループをモデル検証に、その他のグループをモデル構築に用いて予測誤差を見積り、この作業を、グループを入れ替えながら繰り返して、予測誤差の合計が最小となる潜在変数の数が選ばれる。
【0037】
予測モデルの評価は、主に2つの指標で判断される。1つは予測精度を表すR、もう1つは予測性を表すQである。Rは予測モデル構築に使用したデータの実測値とモデルで計算した予測値との相関係数の2乗であり、1に近いほど予測精度が高いことを示している。一方、Qは、上記クロスバリデーションの結果であり、実測値と、繰り返し実施したモデル検証の結果である予測値との相関係数の2乗を表している。本発明のイネ収量予測モデルにおいては、Q>0.50をモデル評価の基準とするのが好ましい。なお、常にR>Qとなるため、Q>0.50は同時にR>0.50を満たすこととなる。
以下に、上記1,324成分の分析データのピーク面積値と、子実収量を用いた種々のイネ収量予測モデルを作成しその精度を検証した結果を示す。
【0038】
(1)全ての成分情報を用いた収量予測モデルの構築
1データ当り1,324個の成分の分析データのピーク面積値と収量値を持つ全26個のデータマトリックスからOPLSモデルを構築した。なお、構築の際は、各成分の分析データのピーク面積値及び収量データはオートスケーリングにより平均0、分散1に変換した。
上記モデルではVIP(Variable Importance in the Projection,投影における変数重要性)値とよばれる各成分に与えられるモデル性能への寄与度が算出される。
VIP値は、下記式1により求められる。
【0039】
【数1】
【0040】
VIP値はその値が大きいほどモデルへの寄与度が大きく、相関係数の絶対値とも相関する。VIP値上位800位までのリストを後記表5a~5jに示す。
【0041】
(2)VIP値を指標としたモデル構築
(2-1)VIP値上位800位までの成分の分析データを用いたモデル
VIP値上位800位までのすべての成分を選択し、1データ当り該800個の成分の分析データのピーク面積値と収量値を持つ全26個のデータマトリックスからOPLSモデル(図2)を構築した。なお、構築の際は、各成分の分析データのピーク面積値及び収量データはオートスケーリングにより平均0、分散1に変換した。R=0.78、Q=0.51であり、高い予測性を持つモデルといえる。
【0042】
(2-2)VIP値上位800位までの成分のうちVIP値が下位の成分の分析データを用いたモデル
VIP値11位以下800位までのすべての成分の分析データ、21位以下800位までのすべての成分の分析データ、31位以下800位までのすべての成分の分析データ・・・及び111位以下800位までのすべての成分の分析データを用いてOPLS法によりモデル(図3)を構築した。
>0.5を満たすのは11位以下800位までのすべての成分の分析データ及び21位以下800位までのすべての成分の分析データを用いたモデルである。VIP値31位以下800位までのすべての成分の分析データを用いてもQ>0.50とはならない。
【0043】
(2-3)VIP値上位10位までの成分の分析データを9個用いたモデル
VIP値上位1位から10位までの成分の分析データの内、任意の9個の組み合わせ(10通り)についてOPLS法によりモデル(図4)を構築した。
いずれのモデルにおいてもQ>0.50を満たす。
【0044】
予測に用いる成分数は、簡便に予測を行う場合には、成分数が少ない方が好適であり、例えば、10個以下であり、好ましくは5個以下、より好ましくは3個以下、最も好ましくは1個である。また、精度を高めたい場合には、成分数が多い方が好適であり、例えば、11個以上、好ましくは20個以上、より好ましくは50個以上、さらに好ましくは90個以上、最も好ましくは150個以上である。少ない成分数にて予測する場合は、VIP値上位の成分または相関係数のより高い成分を予測に用いることが好ましい。
【0045】
VIP値上位の成分は、例えば、VIP値上位800個から選択される少なくとも1個の成分であり、好ましくはVIP値上位800個から選択される少なくとも5個の成分であり、より好ましくはVIP値上位800個から選択される少なくとも10個の成分であり、さらに好ましくはVIP値上位10個から選択される少なくとも1個の成分であり、さらに好ましくはVIP値上位10個から選択される少なくとも5個の成分であり、さらに好ましくはVIP値上位10個から選択される少なくとも9個の成分であり、さらに好ましくはVIP値上位800個の成分である。
【0046】
本発明の態様及び好ましい実施態様を以下に示す。
<1>イネから採取された葉サンプルから、質量分析により提供される精密質量(m/z)が101~1215である成分から選ばれる1種以上の成分の分析データを取得し、当該データとイネ収量との相関性を利用してイネの収量を予測する、イネの収量予測方法。
<2>前記1以上の成分の分析データをpooled QC法により補正する、<1>に記載の方法。
<3>前記成分が、質量分析により提供される精密質量(m/z)で規定された、前記表1a~1iに記載の成分から選ばれる1種以上である、<1>又は<2>に記載の方法。
<4>成分が、前記表1a~1iに記載の成分No.1、4、6、9、10、11、12、19、20、21、23、26、27、29、30、33、34、35、38、39、45、46、47、48、49、50、51、52、54、55、56、61、62、63、64、65、66、67、69、71、75、76、77、78、81、83、84、85、88、89、90、91、92、96、100、102、105、106、107、108、109、113、116、118、119、120、121、123、124、126、127、129、130、131、133、134、137、139、142、145、147、148、149、151、152、153、154、155、156、159、162、163、164、165、166、167、168、169、170、172、174、175、177、178、181、182、183、184、186、187、188、191、193、194、196、198、200、202、203、206、208、209、210、212、213、214、215、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、235、237、238、239、240、243、245、246、247、248、249、250、251、252、254、255、258、259、260、261、262、263、264、265、266、268、270、271、272、273、274、275、277、278、280、281、283、284、285、286、288、289、290、291、293、294、298、300、302、303、305、310、312、314、316、317、318、320、321、323、325、327、329、331、332、333、334、335、337、338、339、342、343、344、345、346、347、348、350、351、352、355、358、359、360、361、362、363、365、366、368、369、370、371、373、374、375、378、379、381、382、389、390、391、392、395、397、398、399、401、404、407、408、409、410、411、413、414、415、416、417、418、419、423、424、425、428、431、433、434、435、436、437、438、439、441、444、445、446、447、449、450、451、454、455、457、458、459、460、461、462、464、465、469、471、472、473、474、475、478、480、481、482、483、487、489、490、491、492、494、502、503、504、507、509、510、511、512、513、514、516、517、522、523、525、526、529、532、534、539、540、542、543、547、548、549、551、552、554、555、557、561、565、566、567、573、582、583、585、586、588、589、590、591、593、594、595、596、597、599、600、602、603、604、606、609、611、612、613、615、616、617、619、620、621、624、628、630、631、632、633、635、639、643、644、647、649、650、651、653、654、655、656、658、660、661、662、665、666、671、672、673、674、675、681、682、683、684、685、688、689、691、692、693、694、695、696、699、700、701、702、703、704、706、707、708、713、714、715、717、719、721、722、723、724、725、726、727、728、729、731、732、734、735、737、738、740、745、746、748、749、750、754、756、757、762、765、766、767、768、770、774、776、777、780、781、782、785、787、789、792、793、794、795、796、797、798、799、801、802、803、804、810、811、813、815、816、817、818、820、822、823、824、827、828、829、830、832、834、841、842、843、844、845、846、848、849、850、852、854、858、863、864、867、868、869、870、871、872、874、877、878、879、882、883、884、885、886、888、889、893、894、895、896、898、899、900、901、902、903、910、911、912、914、917、919、922、923、924、925、926、928、930、932、938、941、942、943、944、945、946、947、948、949、950、952、953、955、956、958、959、960、962、965、966、968、969、973、976、979、980、981、983、985、986、989、992、993、994、995、996、997、999、1001、1002、1003、1005、1006、1007、1009、1012、1013、1015、1017、1019、1020、1021、1022、1024、1025、1026、1027、1031、1032、1034、1036、1039、1043、1044、1045、1046、1047、1048、1049、1050、1051、1053、1054、1057、1058、1059、1060、1062、1066、1067、1068、1069、1070、1072、1074、1075、1077、1078、1079、1081、1082、1087、1088、1089、1092、1094、1098、1100、1101、1102、1103、1104、1105、1106、1108、1110、1112、1113、1114、1117、1118、1119、1120、1121、1123、1126、1127、1128、1129、1133、1134、1135、1139、1140、1141、1142、1143、1144、1147、1148、1149、1150、1151、1152、1153、1154、1158、1160、1163、1166、1167、1168、1170、1171、1172、1173、1174、1177、1178、1179、1180、1181、1182、1184、1186、1187、1188、1189、1190、1191、1192、1193、1194、1195、1196、1197、1198、1199、1202、1204、1208、1211、1212、1214、1217、1218、1221、1222、1224、1225、1226、1229、1231、1233、1234、1235、1237、1238、1239、1240、1241、1242、1243、1244、1246、1247、1248、1249、1250、1252、1254、1255、1256、1257、1258、1261、1263、1265、1267、1268、1269、1271、1272、1276、1277、1278、1280、1283、1291、1292、1295、1296、1297、1299、1300、1301、1304、1305、1306、1309、1311、1312、1313、1314、1315、1316、1317、1318、1319、1321及び1322から選ばれる1種以上である<3>に記載の方法。
<5>成分が、前記表1a~1iに記載の成分No.10、177、178、245、254、272、294、337、366、435、462、529、539、708、729、832、842、869、901、912、1050、1060、1173及び1306から選ばれる1種以上である<3>に記載の方法。
<6>成分が、前記表1a~1iに記載の成分No.10、178及び1173から選ばれる1種以上である<3>に記載の方法。
<7>成分が、前記表1a~1iに記載の成分No.10、178、245、272、347、416、417、539、729、1050及び1182から選ばれる1種以上であり、前記成分No.10が組成式Cの成分であり、前記成分No.178が組成式C1318の成分であり、前記成分No.245が組成式C1320の成分であり、前記成分No.272が組成式C1328の成分であり、前記成分No.347が組成式C1826の成分であり、前記成分No.416が組成式C1828の成分であり、前記成分No.417が組成式C1828の成分であり、前記成分No.539が組成式C1522の成分であり、前記成分No.729が組成式C1930の成分であり、前記成分No.1050が組成式C242811の成分であり、前記成分No.1182が組成式C344010の成分である、<3>に記載の方法。
<8>葉サンプルが、出芽期から出穂期のイネから採取される、<1>~<7>のいずれかに記載の方法。
<9>葉サンプルが、2葉齢期から幼穂形成期のイネから採取される、<1>~<7>のいずれかに記載の方法。
<10>分析データが、質量分析データである<1>~<9>のいずれかに記載の方法。
<11>葉サンプルから取得された成分の分析データを、前記表1a~1iに記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個の中から少なくとも1個の成分の分析データを用いて構築された収量予測モデルと照合する工程を含む、<3>~<10>のいずれかに記載の方法。
<12>収量予測モデルが、前記表1a~1iに記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個の中から少なくとも5個を用いる、<11>に記載の方法。
<13>収量予測モデルが、前記表1a~1iに記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個の中から少なくとも10個を用いる、<11>に記載の方法。
<14>収量予測モデルが、前記表1a~1iに記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位10個の中から少なくとも1個を用いる、<11>に記載の方法。
<15>収量予測モデルが、前記表1a~1iに記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位10個の中から少なくとも5個を用いる、<11>に記載の方法。
<16>収量予測モデルが、前記表1a~1iに記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位10個の中から少なくとも9個を用いる、<11>に記載の方法。
<17>収量予測モデルが、前記表1a~1iに記載の成分情報を用いて構築された収量予測モデルから算出されたVIP値の上位800個を用いる、<11>に記載の方法。
<18>収量予測モデルが、OPLS法を用いて構築されたモデルである<11>~<17>のいずれかに記載の方法。
<19>精密質量が小数点以下4桁以上の精度にて測定されたものである<1>~<18>のいずれかに記載の方法。
【実施例
【0047】
比較例
1.解析用データの取得
前記非特許文献2のDanらの文献と一緒に公開されているデータ(https://www.nature.com/articles/srep21732#Sec8)を入手した。収量データとして個体あたりの乾燥子実質量を使用した。葉抽出物のデータは公開されているすべてのデータを解析に使用した。
【0048】
2.モデル構築・評価
2つ以上の複数の成分の分析データを用いた収量予測モデルの構築には多変量解析手法を用い、解析ツールとしてSIMCA ver.14(Umetrics)を用いた。予測モデルは、説明変数に各精密質量をもった補正済みの成分の分析データのピーク面積値を、また目的変数に収量値を用いた回帰分析をおこなった。回帰分析はPLS法の改良版であるOPLS法でおこなった。
【0049】
予測モデルの評価方法は、主に2つの指標で判断される。1つは予測精度を表すR、もう1つは予測性を表すQである。Rは予測モデル構築に使用したデータの実測値とモデルで計算した予測値との相関係数の2乗であり、1に近いほど予測精度が高いことを示している。一方、Qは、上記クロスバリデーションの結果であり、実測値と繰り返し実施したモデル検証の結果である予測値との相関係数の2乗を表している。実施例と同様に、Q>0.50をモデル評価の基準とした。なお、常にR>Qとなるため、Q>0.50は同時にR>0.50を満たすこととなる。
【0050】
3.全データを用いたモデルの構築・評価
1データ当り525個の成分の分析データのピーク面積値と収量値を持ち、全295個のデータマトリックスから、収量を予測するOPLSモデルを構築した。構築の際、各成分の分析データのピーク面積値及び収量データはオートスケーリングにより平均0、分散1に変換した。モデル構築の結果、予測精度を示すR=0.07、予測性を示すQ=0.008であり、Q>0.50の基準を満たさなかった。結果を図1に示す。よって、非特許文献2の収量予測モデルは、予測精度が非常に低いことが判明した。
【0051】
実施例
1.栽培試験
2019年に実施した温室内ポット栽培試験データについて詳述する。
神奈川県平塚市内の温室内にてポット栽培を実施した。土壌は花王株式会社栃木事業場内の圃場土を用いた。ポットあたり0.8gを基本施肥量と設定し、窒素、リンおよびカリウムを肥料成分として含む化成肥料(商品名「百勝一基」関菱化学株式会社)を4Lの土壌に混和した。上記基本施肥量の1/4倍量、1/2倍量、2倍量及び4倍量の条件も設定することで、計5種類の施肥条件での栽培を行った。ポットには1/5000aワグネルポットを用い、上記土壌を1ポットあたり約4L詰め、30ポットを準備した。2019年7月29日に3粒播きで各ポット内2カ所に播種した(1ポットあたり6粒使用)。3粒の種子由来の植物体をまとめて1個体として扱った。なお、品種は、ジャポニカ種の「ニホンバレ」を用いた。本葉が2枚展開時に1ポットにつき1株となるように間引きした。8月22日から10月28日の間は湛水条件で栽培を行い、播種から湛水開始までは週に1回の頻度で土壌が湿る程度に水やりを行った。10月28日以降は水やりは行わなかった。サンプリングは8月28日に行った。サンプリング後、窒素・リン酸・カリウムをそれぞれ14%ずつ含む化成肥料(商品名「化成肥料14号」株式会社サンアンドホープ)をポットあたり1g追肥した。収穫は11月14日に実施した(播種後80日)。なお、4個体が欠株したため、収量予測には計26個体を用いた。温室内の温度は、気温に応じて扉の開閉により適宜調整した。
【0052】
2.葉のサンプリング
葉のサンプリングは、播種後30日後となる日の日中に実施した(おおむね13時―15時)。この際のイネの生育ステージは、個体により若干異なるが概ね個体あたりの葉の数が15-20枚程度であり、分げつ期に相当する生育ステージであった。葉のサンプリングは、株の根元から葉を4-7枚切断することによって採取した。採取時には株全体から偏りなく採取するようにした。採取した葉はアルミホイルで包み直ちに液体窒素中で凍結し、代謝反応を停止させた。凍結サンプルは凍結状態を維持したまま実験室へ持ち帰り、凍結乾燥にかけて乾燥させた。この乾燥したサンプルを後述の抽出操作に供試した。
【0053】
3.最終的な子実収量の測定
播種後80日である11月14日に収穫を行った。栽培試験後の各個体から全子実を回収し、90℃に設定した乾燥機(送風定温恒温器DKN602,ヤマト科学株式会社)にて3日間乾燥させた。収量データとして乾燥子実質量(mgDW/個体)、及び粒数(個/個体)を測定した。後述する各成分の分析データと収量との単相関解析及び予測モデルの構築には乾燥子実質量(mgDW/個体)を用いた。乾燥子実質量のデータは、表2に示すように最小で5507.97mgDW/個体、最大で10507.17mgDW/個体であった。
【0054】
【表2】
【0055】
4.採取した葉の成分の抽出
凍結乾燥した葉サンプルは、スパーテルを用いて手作業にて可能な限り粉砕をおこなった。粉砕後、2mLのチューブ(セーフロックチューブ,エッペンドルフ)に10mgを秤量し、直径5mmのジルコニア製ボール1つをチューブに加えて、ビーズ粉砕機(MM400,Retsch)にて25Hzで1分間粉砕した。抽出溶媒は、内部標準としてリドカイン(和光純薬工業,♯120-02671)を500ng/mLとなるように加えた80v/v%メタノール水溶液を用いた。粉砕後のチューブに調製した抽出溶媒を1mL添加し、同ビーズ粉砕機にて、20Hzで5分間ホモジナイズ抽出をおこなった。抽出終了後、2,000×g程度の卓上遠心機(チビタン)にて、30秒程度遠心し、0.45μmの親水性PTFEフィルター(DISMIC-13HP 0.45μm syringe filter,ADVANTEC)でろ過し、分析サンプルを得た。
【0056】
5.LC/MSによる葉サンプルの分析
葉抽出サンプルの分析は、Agilent社製HPLCシステム(Infinity1260シリーズ)をフロントとし、AB SCIEX社製Q-TOFMS装置(TripleTOF4600)を検出器として用いてLC/MS分析をおこなった。HPLCにおける分離カラムには、株式会社資生堂社製のコアシェルカラムCapcell core
C18(2.1mm I.D.×100mm,粒子計2.7μm)及びガードカラム(2.1mm I.D.×5mm, 粒子計2.7μm)を使用し、カラム温度は40℃に設定した。オートサンプラーは分析中5℃を保持した。分析サンプルは5μLを注入した。溶離液にはA:0.1v/v%ギ酸水溶液及びB:0.1v/v%ギ酸アセトニトリル溶液を用いた。グラジエント溶出条件は、0分~0.1分は1v/v%B(99v/v%A)で保持し、0.1分~13分の間に1v/v%Bから99.5v/v%Bまで溶離液Bの比率を上昇させ、13.01分~16分まで99.5v/v%Bで保持した。流速は0.5mL/minとした。
【0057】
質量分析装置条件は、イオン化モードをポジティブモードとし、イオン化法はESIを用いた。本分析系では、溶出してくるイオンをTOFMSにより0.1秒間スキャンし、その中の強度の大きいイオンを10個選択し、それぞれを0.05秒間MS/MSにかけるというサイクルを繰り返しながら、TOFMSスキャンによる分子イオン情報(精密質量, m/z)とMS/MSスキャンにより生じるフラグメントに由来する構造情報を取得した。質量測定範囲はTOFMSがm/z 100-1,250、MS/MSがm/z 50-1,250に設定した。各スキャンのパラメータはTOFMSスキャンについては、GS1=50、GS2=50、CUR=25、TEM=450、ISVF=5500、DP=80及びCE=10に設定し、MS/MSスキャンについては、GS1=50、GS2=50、CUR=25、TEM=450、ISVF=5500、DP=80、CE=30、CES=15、IRD=30及びIRW=15に設定した。
【0058】
6.データ行列の作成
データ処理は下記の通りおこなった。まず、MarkerViewTM Software(AB SCIEX)を用いてピークの抽出をおこなった。ピーク抽出条件(「peak finding option」)は、保持時間0.5分~16分に該当するピークとし、「Enhance Peak Finding」の項目におけるSubtraction offsetを20スキャン、Minimum spectral peak widthを5ppm、Subtraction multi. Factorを1.2、Minimum RT peak widthを10スキャン、Noise thresholdを5に設定し、「More」の項目におけるAssign charge stateにチェックを入れた。その結果、31,649のピーク情報を得た。
【0059】
次に、検出したピークを分析した各サンプル間で整列化させるアラインメント処理をおこなった。アラインメントの処理条件(「Alighmment & Filtering」)は、「Alignment」の項目におけるRetention time toleranceを0.20分及びMass toleranceを10.0ppmに設定した。また「Filtering」の項目におけるIntensity thresholdを10、Retention time filteringにチェックを入れ、Remove peaks in<3サンプルとし、Maximum number of peaksを50,000に設定した。「Internal standards」の項目においてリドカインのピークを用いて保持時間の補正をおこなった。
【0060】
次に同位体ピークの除去をおこなった。同位体ピークはピーク抽出の時点でソフトウェアが自動で認識し、ピークリスト上で「isotopic」のラベルが付けられているため、「isotopic」でソートして該当ピークを削除した。その結果、ピークは25,895ピークに減少した。
【0061】
次に、サンプル間のピーク強度補正をおこなった。今回の分析では、サンプルの他に、すべてのサンプルから一定量を混合したpooled QCと呼ばれるサンプルを作製し、6回に1回の頻度でpooled QCの分析を実施した。これらの全QC分析結果から、「各サンプルを分析していた際にQCサンプルを分析していたと仮定するとそれぞれのピーク強度はどうなるか」という推定値を計算し、その値で補正するという処理を実施し、同一バッチ内における各サンプル間の感度の補正をおこなった。なお、本処理は、理研が提供しているフリーソフト(LOWESS-Normalization-Tool)を用いた。最後に、測定した9個のQC分析データを用いて11,408ピークの相対標準偏差(RSD)を計算し、RSD>30%となるばらつきの大きいピークを除去し、最終的に1,324のピークデータ、すなわち1,324成分の分析データを得た。得られた分析データを表3a~3qに示す。これらのデータを用いて、以降の解析をおこなった。
【0062】
【表3a】
【0063】
【表3b】
【0064】
【表3c】
【0065】
【表3d】
【0066】
【表3e】
【0067】
【表3f】
【0068】
【表3g】
【0069】
【表3h】
【0070】
【表3i】
【0071】
【表3j】
【0072】
【表3k】
【0073】
【表3l】
【0074】
【表3m】
【0075】
【表3n】
【0076】
【表3o】
【0077】
【表3p】
【0078】
【表3q】
【0079】
7.相関解析
取得した26個体分の葉中1,324成分の分析データと対応する収量データ(乾燥子実質量)、すなわち26×1,324のマトリックスデータを用いて相関解析をおこなった。各成分の分析データと収量データとの単相関係数r及び無相関の検定によりp値を算出した。結果を表4a~4qに示す。なお、表中の「成分No.」は1,324個の成分を質量順に並べた際に質量数が小さい方から番号を付けた便宜的なものである。また、分析結果には質量情報とともに保持時間の情報も含まれるが、特開2016-57219号公報によれば、少数点以下4桁以上の精密質量数を用いれば、保持時間によらず複数の質量分析用試料間で質量分析データの比較及び解析が可能であることが示されている。よって、保持時間の情報は除去し、精密質量情報のみを記載した。
【0080】
【表4a】
【0081】
【表4b】
【0082】
【表4c】
【0083】
【表4d】
【0084】
【表4e】
【0085】
【表4f】
【0086】
【表4g】
【0087】
【表4h】
【0088】
【表4i】
【0089】
【表4j】
【0090】
【表4k】
【0091】
【表4l】
【0092】
【表4m】
【0093】
【表4n】
【0094】
【表4o】
【0095】
【表4p】
【0096】
【表4q】
【0097】
相関解析で得られた結果により、一定の相関係数を持つ成分は収量と有意に相関することが示された。相関係数の絶対値|r|>0.51となる成分は24個、|r|>0.66となる成分は3個であることがわかった。
【0098】
8.モデル構築・評価
2つ以上の複数の成分の分析データを用いた収量予測モデルの構築には多変量解析手法を用い、解析ツールとしてSIMCA ver.14(Umetrics)を用いた。予測モデルは、説明変数に各精密質量をもった補正済みの成分の分析データのピーク面積値を、また目的変数に収量値を用いた回帰分析をおこなった。回帰分析はPLS法の改良版であるOPLS法でおこなった。
【0099】
予測モデルの評価方法は、主に2つの指標で判断される。1つは予測精度を表すR、もう1つは予測性を表すQである。Rは予測モデル構築に使用したデータの実測値とモデルで計算した予測値との相関係数の2乗であり、1に近いほど予測精度が高いことを示している。一方、Qは、上記クロスバリデーションの結果であり、実測値と繰り返し実施したモデル検証の結果である予測値との相関係数の2乗を表している。予測の観点から、少なくともQ>0.50であれば、そのモデルは良好な予測性を持つとされていることから(Triba, M. N. et al., Mol. BioSyst. 2015, 11, 13-19.)、Q>0.50をモデル評価の基準とした。なお、常にR>Qとなるため、Q>0.50は同時にR>0.50を満たすこととなる。
【0100】
8-1.全データを用いたモデルの構築・評価
1データ当り1,324個の成分の分析データのピーク面積値と収量値を持ち、全26個のデータマトリックスから、収量を予測するOPLSモデルを構築した。構築の際、各成分の分析データのピーク面積値及び収量データはオートスケーリングにより平均0、分散1に変換した。モデル構築の結果、予測精度を示すR=0.931、予測性を示すQ=0.344であり、Q>0.50の基準を満たさなかった。
【0101】
8-2.VIP値の算出
8-1で構築したモデルではVIP(Variable Importance in
the Projection,投影における変数重要性)値とよばれる各成分に与えられるモデル性能への寄与度が算出される。VIP値はその値が大きいほどモデルへの寄与度が大きく、相関係数の絶対値とも相関する。VIP値上位800位までのリストを表5a~5jに示す。
【0102】
【表5a】
【0103】
【表5b】
【0104】
【表5c】
【0105】
【表5d】
【0106】
【表5e】
【0107】
【表5f】
【0108】
【表5g】
【0109】
【表5h】
【0110】
【表5i】
【0111】
【表5j】
【0112】
8-3.VIP値を指標としたモデル構築
8-1で構築したモデルへの各成分の寄与度であるVIP値のランキング(表5a~5j)を基に複数の成分でモデルを構築した。特に限定されるわけではないが、モデル性能の基準を便宜上Q>0.50とした。
【0113】
8-3-1.VIP値上位800位までの成分の分析データを用いたモデル
VIP値上位800位までのすべての成分を選択し、1データ当り該800個の成分の分析データのピーク面積値と収量値を持ち、全26個のデータマトリックスから、収量を予測するOPLSモデルを構築した。構築の際、各成分の分析データのピーク面積値及び収量データはオートスケーリングにより平均0、分散1に変換した。モデル構築の結果、予測精度を示すR=0.78、予測性を示すQ=0.51であった。結果を図2に示す。この予測モデルにより、栽培1カ月程度の葉に含まれる成分組成を用いることで、高い予測性を持つモデルが構築でき、早期収量予測が可能であることが示された。
【0114】
8-3-2.VIP値上位800位までの成分のうちVIP値が下位の成分の分析データを用いたモデル
VIP値11位以下800位までのすべての成分の分析データ、21位以下800位までのすべての成分の分析データ、31位以下800位までのすべての成分の分析データ・・・及び111位以下800位までのすべての成分の分析データを用いてそれぞれOPLSモデルの構築をおこなった。その結果、Q>0.5を満たすのは11位以下800位までのすべての成分の分析データ及び21位以下800位までのすべての成分の分析データを用いたモデルであり、VIP値31位以下800位までのすべての成分の分析データを用いてもQ>0.50とはならないことがわかった(図3)。
【0115】
8-3-3.VIP値上位10位までの成分の分析データを9個用いたモデル
VIP値上位1位から10位までの成分の分析データの内、任意の9個の組み合わせ(10通り)についてOPLSモデルの構築をおこなった。その結果、いずれのモデルにおいてもQ>0.50を満たすことがわかった。このことからVIP値上位10位までの代謝物を9個含んでいれば、一定の予測性を持つモデルが構築できることが示された(図4)。
図1
図2
図3
図4