利用环境互作结合基因型提高甘蓝型复杂性状预测精度的两阶段方法 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

摘要

提高复杂性状的预测精度是作物育种中基因组选择的关键。对于在多个环境中测量的复杂性状，本文提出了一种两阶段方法来求解联合建模遗传效应和基因型×环境交互作用的线性模型(G×E)的影响。第一阶段采用LASSO惩罚法进行数量性状位点鉴定。第二阶段采用普通最小二乘(OLS)方法重新估计QTL效应。将该方法应用于水稻开花时间(FT)、含油量(OC)和单株种子产量(SY)的预测中，提高了预测精度芸苔属植物显著（显著）．结果表明G×E效应显著降低了均方误差(MSE)。大量QTL具有环境特异性，且效应较小。平均而言，两阶段OLS后lasso方法的预测精度最高(FT、OC和SY的相关性分别为0.8789、0.9045和0.5507)。其次是标记与环境的交互作用(米×E)基因组最佳线性无偏预测(GBLUP)模型(相关性是0.8347,0.8205,和0.4005英尺,OC, SY,分别),套索方法(相关性是0.7583,0.7755,和0.2718英尺,OC, SY,分别),和分层GBLUP模型(相关性是0.6789,0.6361,和0.2860英尺,OC, SY,分别)。两阶段法在预测精度上有明显提高，本研究将为改良育种的GS提供方法和参考。

1.介绍

近三十年来，分子标记技术的发展为最重要的物种提供了众多的分子标记[1]．关于分子标记在遗传性状选择中的应用，标记辅助选择(MAS) [2[]在20世纪90年代成为动植物育种的一个有价值的工具，并在具有简单遗传结构的性状方面发挥良好作用。然而，MAS不适用于多基因控制的复杂性状，其中许多基因效应较小。因此，基因组选择(genomic selection, GS)作为MAS的高级形式最早由Meuwissen等人提出[3.]．GS使用全基因组标记来预测被选择个体的基因组估计育种值(GEBVs)，而不是在MAS中使用重要标记的子集进行选择，从而避免了MAS检测过程中估计的偏倚标记效应。然而，高密度分子标记时，标记数(p)可大大超过样本量(n)，它被称为“大p小n”的问题。因此，不可能通过OLS的线性模型获得标记效应的估计[4]．

处理“大的”p小n“问题，可以对线性模型施加一些约束，导致惩罚估计方法，如岭回归(RR) [5]和LASSO [6]．RR只执行参数收缩，而LASSO同时提供参数收缩和变量选择。在存在大量预测因子的情况下，RR和LASSO都可以生成简洁的模型。LASSO选择的预测器大小一般小于样本量(n）［7]，因此将OLS应用于LASSO选择的模型是可行的。Belloni和Chernozhukov的研究将后模型选择估计量称为“OLS后lasso”[8它的优点是比LASSO的偏差小。OLS后lasso的去偏往往会改善模型的预测误差[9，这两个阶段的过程也被称为松弛LASSO [10]．

贝叶斯方法也被用于适应这个“大”p小n“GS的问题[11]．在贝叶斯推理中，标记效应被认为是随机的而不是固定的，通常采用混合效应模型来描述表型变异。通过为随机标记效应指定不同的先验，许多不同的模型，包括BLUP(最佳线性无偏预测)[12， BayesA, BayesB [3.], BayesC [13]，以及贝叶斯拉索[14，已在GS中提出(见de los Campos et al. [11)。BLUP是一种用于估计随机效应的统计程序，通过求解著名的亨德森混合模型方程(MME)很容易得到[15]．因此，BLUP及其扩展，包括rrBLUP (ridge regression BLUP) [16,17]及GBLUP [18，已成为GS中应用最广泛的方法。许多用于这些方法的软件包，例如，rrBLUP [17]和BGLR(贝叶斯广义线性回归)[19，都可以在网上免费获得。最近，GBLUP模型已经扩展到多环境数据。例如，Lopez-Cruz等人[20.)提出了一个米×EGBLUP模型来适应G×E，他们还比较了米×EGBLUP模型与分层的(在环境中)GBLUP模型。结果表明，该方法的预测精度较高米×EGBLUP模型明显大于分层GBLUP模型。与单环境分析相比，使用多环境模型的预测精度显著提高，这已在许多作物中得到证实，如玉米[21]和米[22]．

显著是世界上最重要的油料作物之一。为更好地了解水稻重要农艺性状的遗传控制显著以欧洲品种Tapidor与中国品种宁优7号F1杂交得来的双单倍体(DH)群体命名为TNDH [23]．经过数年的试验定位，从多环境中收集表型数据，TNDH群体已被OREGIN (Oilseed油菜遗传改良网络)管理团队作为参考资源。基于TNDH群体，已经检测到许多复杂性状的QTL(见Shi et al. [24),等等)。最近，共构建了2041个分子标记的TNDH高密度遗传图谱[25]．利用这一高密度的遗传图谱，在基因组中预测FT性状的准确性显著Li等人通过8个现有模型进行了评估。[26]．然而，作者没有纳入G×E影响他们的学习。如前所述G×E效应在解释复杂性状变异中起着非常重要的作用。不断积累的研究表明，合并G×E对GS模型的影响可以显著提高复杂性状的预测精度。因此，在本研究中，基于具有代表性的TNDH群体，我们将通过一个线性模型来评估两阶段方法的性能，该模型联合建模遗传效应和G×E效果。本研究的目的是提高复杂性状的预测精度B．显著．与最常用的相反G×EGS模型，如米×ELopez-Cruz等人的GBLUP模型[20.，我们将标记效果视为固定的而不是随机的。假设LASSO方法可用于识别主效应和环境效应QTL。根据鉴定的QTL，可以建立一个简洁的线性模型，并使用OLS方法重新估计QTL的效应。这两阶段方法的性能称为OLS后LASSO和其他比较方法，包括LASSO，米×EGBLUP模型，以及Lopez-Cruz等人的分层GBLUP模型[20.]，以预测FT、OC和SY的准确性来评估。

2.材料和方法

２.１.基因型和表型数据

本研究使用了已发表的TNDH人群数据集(见Luo等[27]详情)。TNDH种群是由F₁欧洲冬种“Tapidor”与中国半冬种“宁优7号”杂交后代[23]．该种群包括182个DH系，在中国5个不同的地点(武汉、江陵、大叶、杭州和大理)生长了5年多(2002-2007)。结合收获年份和地点，总共有10个环境(年-地点组合)可用，分别编码为“S3”、“S4”、“S5”、“S6”、“S7”、“E7”、“N3”、“N4”、“N6”和“N7”。每个DH品系基因分型的分子标记共2041个，其中“a”为“Tapidor”，“B”为“Ningyou7”芸苔属植物60K Illumina Infinium SNP序列，从所有10个环境中收集了SY、OC和FT等22个性状。表型和基因型数据的细节以及TNDH群体是如何发展的可以在Luo等人的文章中找到[27]．本研究利用182个TNDH品系、2041个标记和3个复杂性状(SY、OC和FT)在所有10个环境中的表型数据。

２.２.两阶段的方法

假设有几个n种群系(个体)共培养米环境中,y_ki是单独的我从环境中收集的特征值k（我= 1,…,n,k= 1,…,米）．因为这些n我们认为，在不同环境下培养的个体具有相同的基因型x_ij表示个体的基因型我在轨迹j（j= 1,…,p）．x_ij= 1和0分别代表A和B基因型，其中p为标记数。共同建模遗传效应和G×E效果,G×E通过回归所有多个环境中标记的表型的线性模型可以描述如下: 在哪里是总体平均值(截距项)，它在整个环境中是稳定的吗是环境效应(E)，可能因环境而异，是所有环境的主要影响(问），是特定环境效应还是相互作用的效应j^th轨迹和k^th环境(问 E), 为残差。如果一些年代或年代不等于零，我们认为存在主效应或问 E效果。

模型(1)与“米×EGBLUP模型”，Lopez-Cruz等人[20.]．在米×EGBLUP模型中，主效应和环境特异性效应均被视为随机效应。此外,米×EGBLUP模型不包含总体均值，可以表示为: 在哪里年代被称为米×ELopez-Cruz等人的影响[20.]．此外,忽略了米×E在每个环境、模型(1)被Lopez-Cruz等人简化为“分层GBLUP模型”[20.]．分层GBLUP模型可以表示为: 在哪里效果如何j^th标记的k^th环境。

在本研究中，标记效应，包括主效应和环境特异性效应，被认为是固定的，而不是随机的。考虑到模型中的参数个数(1)往往大于GS的样本量，采用两阶段的方法，即OLS后lasso方法来解决这个问题，方法描述如下:

在第一阶段，利用LASSO方法从标记中选择非零效应或相当于检测QTL的标记，如Zhang等[28]．矩阵形式，模型(1)可以表示为在哪里是两个矩阵和的克罗内克乘积吗 , ,和向量是1阶的吗锰,n,米,分别。单位矩阵是有序的吗米, 是跨环境的表型值，为基因型矩阵，是环境影响，是主要的标志效应，是特定环境的标记效应吗为残差。

让 , , ,和K= (米+ 1)p是矩阵的列数吗X；然后Z是一个矩阵,X是一个矩阵,是一个K维列向量。矩阵Z和X可以用列来划分和 ,和向量可以写成．然后,模型(4)可以表示为

方程(5)是线性模型的标准形式。考虑到预测因子的数目(K+米)模型(5)往往比样本量(锰)在…的背景下G×E，首先采用LASSO方法求解模型。模型的LASSO估计量(5)可以通过最小化得到在哪里表示l₂规范和是一个调优参数。调谐参数可选择为k-fold交叉验证，例如，使用10倍交叉验证。正如许多研究指出的那样，如邹和Hastie [7， LASSO选择的非零效应数量一般小于样本量，即锰对模型(6）．因此，经过LASSO后，利用所选QTL进行OLS回归是可行的，具有一定的优势，特别是减小了LASSO的收缩偏差[8]．

因此，在第二阶段，我们采用OLS重新评估QTL效应。这种两阶段方法被Belloni和Chernozhukov称为OLS后lasso [8]．

2．3.完整的数据分析

来评估标记物的效果并显示G×E数据集、模型的相关性和结构(5)首先使用OLS后lasso拟合到完整数据集。如前所述，LASSO在第一期中具有非零主效应和环境特异性效应的标记均为QTL。在筛选出QTL的基础上，利用OLS方法对其值进行重新估算。以OLS的重估计值作为QTL的最终估计值。我们使用t-test测试每个QTL对应的重估效果是否等于零。如果的价值t-检验< 0.05，对应的QTL报道为显著QTL。否则为不显著QTL。对于不显著的QTL，相应的效应与零没有显著差异，或者等效地，相应的效应可以忽略。同时，OLS方法可以产生参数估计的相应标准误差(S.E.)。根据QTL效应估计的标准误差，我们可以构建QTL效应估计的95%置信区间，包括主效应和环境特异性效应。95%置信区间是由估计的效应加上或减去标准误差的1.96倍来计算的。

对于线性回归，r平方通常被报告为表示模型所解释的因变量变化的比例的度量。然而，r平方并不会随着模型中加入更多的预测因子而减少。因此，r平方不能用来衡量每个预测因子的贡献。调整后的r平方不会随着更多预测因子的加入而增加;因此，它被选择作为衡量模型各组成部分的贡献。然而，我们不能将调整后的r平方与r平方解释相同。注意，调整后的r平方等于MSE从只包含截距项的空模型到同时包含截距项和模型其他组件的替代模型的下降百分比。因此，我们计算了零模型和备选模型的MSE。同时计算它们之间的减量和减量百分比。为了更好地理解模型的三个组成部分的贡献，即，E问,问×E，五个替代模型，包括模型的三个组成部分及其组合，E+问和E+问+问×E，在文章中进行了评价。那些调整后的r平方值较高的替代模型，即从零模型到相应替代模型的MSE减少的百分比较高的替代模型，是较好的模型。较好的模型中包含的相应分量将在预测中发挥重要作用。

２.４.随机分割数据以评估预测精度

为了比较，现有的米×E选择上述的“GBLUP模型”和“分层GBLUP模型”作为比较方法。与此同时,n= 182条TNDH线横跨所有10个环境(即，米= 10)作为实例，对两阶段法和比较法的预测精度进行了评价。基于182个TNDH株系，对于每一个复杂性状，即SY、OC和FT，我们将表型数据集合并为一个长向量，就像该方法中描述的那样，从所有10个环境到一个数据集。合并后，样本量扩大到1820 (=纳米= 182×10)。然后，对每一个合并的数据集，按2:1的比例随机划分为训练数据集和测试数据集。这个随机划分重复100次，总共有100个随机训练数据集和相应的100个随机测试数据集。使用LASSO、OLS后LASSO和在不同环境下估计每个训练数据集上的标记效果米×EGBLUP模型，并在每个环境中使用分层的GBLUP模型。gebv在相应的测试数据集中跨环境使用估计LASSO、OLS后LASSO和米×EGBLUP模型，并在每个环境中使用估计分层GBLUP模型。然后，我们计算GEBVs与观察到的表型之间的相关性，每个性状在每个环境。取100个复制分区的平均值，我们得到平均相关性，并将其作为每个环境中的预测精度报告。同时，用100个复制分区的预测精度抽样分布标准差(standard deviation, SD)表示预测精度的偏差。

2．5．软件

方程(6)可以通过最小角度回归有效求解[29在R软件(30.]使用“lars”包或交替方向乘法器(ADMM) [31]算法在MATLAB软件中使用“lasso”函数，该函数在本研究中使用。的米×EGBLUP模型(2)和分层GBLUP模型(3.)使用R包BGLR [19]．

3.结果

３．１．标记的影响

表中报告了检测到的QTL数量和显著或不显著QTL的频率分析1．从表1，可以看出各性状主效QTL总数存在差异。对FT、OC和SY有主效应的QTL分别为46、77和26个，对FT、OC和SY有环境特异性效应的QTL分别为231、237和146个。在主标记效应中，显著非零效应较少，FT、OC和SY的显著QTL比例分别为39.13%、32.47%和42.31%。同样，LASSO鉴定的主效应QTL多数效应较小或可忽略，FT、OC和SY的不显著QTL比例分别为60.87%、67.53%和57.69%。在环境特异性标记效应方面，FT、OC和SY对环境特异性标记效应的影响分别为15.58%、16.03%和6.85%，差异显著。因此，LASSO鉴定的大多数环境特异性效应QTL的效应很小或可以忽略。


特征	效果	总计	重要的	不重要的

英国《金融时报》	主要	46	18	28
英国《金融时报》	特定于环境的	231	36	195

OC	主要	77	25	52
OC	特定于环境的	237	38	199

SY	主要	26	11	15
SY	特定于环境的	146	10	136

英国《金融时报》,开花时间;OC,含油量;SY:单株种子产量;QTL:数量性状位点;LASSO，最小绝对收缩和选择算子;OLS，普通最小二乘。

数据1- - - - - -3.显示沿着染色体的标记主效应和环境特异性效应的点估计和95%置信区间(95% CI)。垂直的绿色置信区间重叠的水平线为零包含值为零;因此，相应的标记效应不显著。表示相应标记效应的垂直蓝色置信区间在0.05显著水平下具有统计学意义。从这些数字中可以看出，大多数主要的和环境特异性的标记效应都很小，没有显著的零差异。数据1 (c)- - - - - -3 (c)对同一检测到的环境特异性QTL显示了环境特异性标记效应的标准误差(SE)。s. e为正值(蓝线)，表明相应的QTL在多种环境中具有环境特异性效应。数据1- - - - - -3.结果表明，很少有QTL的环境特异性效应与多种环境互作，大多数QTL的环境特异性效应只在一个环境中表现出来。

(一)

(b)

(c)

图1

点估计和95%置信区间(95% CI)为主要标志和特定于环境的影响和特定于环境的标准错误(SE)对英国《金融时报》的影响。(a)点(红点)和95%可信区间估计主要影响(垂直的蓝色和绿色CIs代表显著或无意义的值,分别)。(b)特定环境效应的点估计(红点)和95% CI(垂直的蓝色和绿色CI分别代表统计上显著或不显著的值)。(c) SE表示特定环境效应(蓝色和绿色茎分别表示在多个环境或仅在一个环境中发现的特定环境效应)。

(一)

(b)

(c)

图2

标记主效应和环境特异性效应的点估计和95%置信区间(95% CI)以及OC环境特异性效应的标准误差(SE)。(a)点估计(红点)和主效应的95% CI(垂直的蓝色和绿色CI分别代表统计上显著或不显著的值)。(b)特定环境效应的点估计(红点)和95% CI(垂直的蓝色和绿色CI分别代表统计上显著或不显著的值)。(c) SE表示特定环境效应(蓝色和绿色茎分别表示在多个环境或仅在一个环境中发现的特定环境效应)。

(一)

(b)

(c)

图3

主要环境效应的点估计和95%置信区间(95% CI)以及SY环境效应的标准误差(SE)。(a)点估计(红点)和主效应的95% CI(垂直的蓝色和绿色CI分别代表统计上显著或不显著的值)。(b)特定环境效应的点估计(红点)和95% CI(垂直的蓝色和绿色CI分别代表统计上显著或不显著的值)。(c) SE表示特定环境效应(蓝色和绿色茎分别表示在多个环境或仅在一个环境中发现的特定环境效应)。

３.２．MSE的衰减

从只包含截距项的空模型到同时包含截距项和的一个分量的替代模型的MSE的减量E问,问×E,E+问,E+问+问×E载于附表2．


特征	类型	零模型(拦截)	替代模型(添加如下所示的组件)
特征	类型	零模型(拦截)	E	问	问×E	E+问	E+问+问×E

英国《金融时报》	均方误差^一个	198.4734	17.0725	196.5320	9.1477	3.3914	2.6336
	减量^b	- - - - - -	181.4009	1.9414	189.3257	195.0819	195.8397
	%的衰减^c	- - - - - -	91.3981	0.9781	95.3910	98.2912	98.6731

OC	均方误差	6.2661	4.4863	4.1189	1.6027	1.5870	0.7472
	减量	- - - - - -	1.7798	2.1473	4.6635	4.6792	5.5189
	%的衰减	- - - - - -	28.4040	34.2680	74.4235	74.6738	88.0751

SY	均方误差	0.3503	0.2259	0.3284	0.1360	0.1331	0.1167
	减量	- - - - - -	0.1245	0.0219	0.2143	0.2172	0.2336
	%的衰减	- - - - - -	35.5276	6.2476	61.1769	62.0056	66.6784

^一个均方误差;^b仅包含截距项的空模型与同时包含截距和相应分量的替代模型之间的MSE的减小;^c零模型与备选模型之间的MSE减少的百分比，或等效地，调整后的r平方;英国《金融时报》,开花时间;OC,含油量;SY:单株种子产量;E，环境效应;问，轨迹的主效应;问E，轨迹与环境的相互作用效应。

从表2，可以看出，原模型的MSE, FT为198.4734,OC为6.2661,SY为0.3503。添加后的组件问×E在模型中，FT、OC、SY的MSE分别减少了189.3257、4.6635、0.2143,FT、OC、SY的MSE分别减少了95.3910%、74.4235%、61.1769%，即调整后的r平方。这意味着问×E在模型中起着关键作用。如果加上的组合E和问在null模型中，FT、OC和SY的MSE分别减少了98.2912%、74.6738%和62.0056%，略大于同时包含截距和SY的替代模型问×E．包含所有三个成分的完整模型的MSE的减少百分比，E+问+问×E， FT、OC和SY的最大值分别为98.6731%、88.0751%和66.6784%。因此，完整模型最适合用于预测复杂性状。

另一个有趣的发现是，组合成分的模型的MSE减少的百分比，如E+问和E+问+问×E，不等于只包含其中一个的所有分离模型的MSE的减量百分比之和。这是因为主效应QTL与环境特异性效应QTL高度相关。它们之间的相关性可以显著地改变MSE的下降百分比，而在单独的模型中则是如此。

３．３．预测精度

分别对FT、OC和SY的预测精度进行评价(表)3.- - - - - -5）．从表3.- - - - - -5，可以看出，在10个环境中，OLS后lasso方法的平均预测精度最高(FT、OC和SY的平均相关性分别为0.8789、0.9045和0.5507)。这个两阶段的方法之后是米×EGBLUP模型(FT、OC和SY的平均相关系数分别为0.8347、0.8205和0.4005)。对于FT和OC，第三种表现方法是LASSO方法(FT和OC的平均相关性分别为0.7583和0.7755)。然而，对于SY，分层GBLUP方法是第三种执行方法(平均相关为0.2860)。因此，平均而言，两阶段法对所有三个复杂性状的预测精度总是最好的。


环境	套索	OLS post-LASSO	分层GBLUP	米×EGBLUP

E7	0.6030 (0.0077)	0.9008 (0.0040)	0.6906 (0.0056)	0.7563 (0.0049)
N3	0.7871 (0.0045)	0.8774 (0.0036)	0.6724 (0.0064)	0.8656 (0.0028)
陶瓷	0.8091 (0.0040)	0.8924 (0.0037)	0.7032 (0.0057)	0.8882 (0.0026)
N6	0.7864 (0.0056)	0.8270 (0.0048)	0.6791 (0.0057)	0.8512 (0.0040)
N7	0.7634 (0.0063)	0.9048 (0.0049)	0.6429 (0.0062)	0.8284 (0.0053)
S3	0.8124 (0.0032)	0.8706 (0.0037)	0.6907 (0.0052)	0.8536 (0.0023)
S4	0.7935 (0.0039)	0.9333 (0.0023)	0.7497 (0.0045)	0.8948 (0.0025)
S5	0.7563 (0.0053)	0.7889 (0.0047)	0.6038 (0.0076)	0.7659 (0.0051)
S6	0.8048 (0.0042)	0.8858 (0.0033)	0.6916 (0.0055)	0.8630 (0.0031)
S7	0.6675 (0.0071)	0.9083 (0.0031)	0.6646 (0.0062)	0.7796 (0.0044)
平均	0.7583 (0.0052)	0.8789 (0.0038)	0.6789 (0.0058)	0.8347 (0.0037)

英国《金融时报》,开花时间;LASSO，最小绝对收缩和选择算子;OLS，普通最小二乘;GBLUP:基因组最佳线性无偏预测;米×E，标记与环境的交互作用。


环境	套索	OLS post-LASSO	分层GBLUP	米×EGBLUP

E7	0.7552 (0.0060)	0.8665 (0.0041)	0.5956 (0.0075)	0.7784 (0.0057)
N3	0.8239 (0.0043)	0.9097 (0.0030)	0.6721 (0.0065)	0.8514 (0.0033)
陶瓷	0.7594 (0.0049)	0.9153 (0.0027)	0.6261 (0.0078)	0.8048 (0.0045)
N6	0.8255 (0.0038)	0.9130 (0.0025)	0.7300 (0.0055)	0.8729 (0.0030)
N7	0.7625 (0.0073)	0.8866 (0.0044)	0.5837 (0.0096)	0.7859 (0.0065)
S3	0.8127 (0.0037)	0.9175 (0.0021)	0.6767 (0.0063)	0.8336 (0.0034)
S4	0.7809 (0.0048)	0.9114 (0.0028)	0.6600 (0.0068)	0.8372 (0.0042)
S5	0.7189 (0.0065)	0.9030 (0.0029)	0.5806 (0.0075)	0.7990 (0.0040)
S6	0.7174 (0.0045)	0.9037 (0.0028)	0.5625 (0.0070)	0.7846 (0.0035)
S7	0.7986 (0.0047)	0.9188 (0.0026)	0.6741 (0.0059)	0.8572 (0.0034)
平均	0.7755 (0.0051)	0.9045 (0.0030)	0.6361 (0.0070)	0.8205 (0.0042)

OC,含油量;LASSO，最小绝对收缩和选择算子;OLS，普通最小二乘;GBLUP:基因组最佳线性无偏预测;米×E，标记与环境的交互作用。


环境	套索	OLS post-LASSO	分层GBLUP	米×EGBLUP

E7	0.4952 (0.0082)	0.5735 (0.0075)	0.4418 (0.0076)	0.4767 (0.0071)
N3	0.1600 (0.0104)	0.6958 (0.0092)	0.1336 (0.0097)	0.2322 (0.0104)
陶瓷	0.2635 (0.0115)	0.3816 (0.0089)	0.1509 (0.0110)	0.3049 (0.0098)
N6	0.2811 (0.0097)	0.7039 (0.0092)	0.4038 (0.0089)	0.4653 (0.0097)
N7	0.2224 (0.0106)	0.6312 (0.0089)	0.3251 (0.0079)	0.4464 (0.0087)
S3	0.1351 (0.0111)	0.4698 (0.0108)	0.0907 (0.0110)	0.2088 (0.0114)
S4	0.2887 (0.0109)	0.6395 (0.0082)	0.3056 (0.0099)	0.4269 (0.0094)
S5	0.1232 (0.0093)	0.2285 (0.0113)	0.3595 (0.0106)	0.3924 (0.0079)
S6	0.4142 (0.0100)	0.6203 (0.0074)	0.3973 (0.0099)	0.5919 (0.0070)
S7	0.3351 (0.0093)	0.5627 (0.0092)	0.2517 (0.0099)	0.4597 (0.0087)
平均	0.2718 (0.0101)	0.5507 (0.0091)	0.2860 (0.0096)	0.4005 (0.0090)

SY:单株种子产量;LASSO，最小绝对收缩和选择算子;OLS，普通最小二乘;GBLUP:基因组最佳线性无偏预测;米×E，标记与环境的交互作用。

此外，虽然各种方法在不同环境下的性能有所不同，但除了FT的“N6”和SY的“S5”外，OLS后lasso方法在所有10个环境中都具有优势。OLS后lasso的精度在“S4”中最高(相关为0.9333)，在“S7”中最高(相关为0.9188)，在“N6”中最高(相关为0.7039)。对于英国《金融时报》来说，在“N6”环境中米×EGBLUP模型的预测精度高于OLS后lasso方法(相关性分别为0.8512和0.8270)米×EGBLUP模型和OLS后lasso方法)。对于SY，在环境“S5”中米×EGBLUP模型的预测精度也高于OLS后lasso方法(相关性分别为0.3924和0.2285)米×EGBLUP模型和OLS后lasso方法)。

一般来说，LASSO方法的预测精度较低米×E对于FT、OC和SY采用GBLUP方法，而OLS后LASSO方法基于LASSO方法识别的QTL对模型进行了重新修正米×EGBLUP模型。LASSO对OLS后预测精度的提高是显著的。例如，平均预测精度米×EFT的GBLUP模型(相关系数为0.8347)位于OLS后lasso的95%置信区间(0.8789±1.96 × 0.0038 =[0.8715, 0.8864])之外3.）．换句话说，OLS后lasso的平均预测精度差的概率米×EGBLUP模型小于0.05。因此，FT的改善是显著的，OC和SY的改善也是如此，如表所示4和5,分别。

4.讨论

由于GS是由Meuwissen等人提出的[3.]，为提高兴趣特征的预测精度进行了大量的研究，在不同情况下对GS提出了许多方法，尤其是BLUP型方法。作为BLUP方法的派生之一，GBLUP方法已经成为一种常用的GS方法，并在许多情况下显示出了成功，如在有G×E．在本研究中，我们建立了一个一般的G×E线性模型同时模拟遗传效应和G×E效果。通过将所有环境中主要的标记效应和特定环境的标记效应作为固定的而非随机的处理，采用OLS后lasso两阶段方法求解模型，得到基因组预测结果。

Meuwissen等人也使用OLS方法[3.，但不是在G×E．在GS中使用OLS方法时，通过某些程序选择最大的效应，如Meuwissen等进行的单段回归分析[3.),也包括在内。然而，这种分步方法往往会高估标记效果，导致预测精度降低。这一问题在利用连锁不平衡(LD)进行QTL定位或连锁分析的背景下也存在，尤其是在G×E．在本研究中，我们在第一阶段采用LASSO方法同时估计所有标记的效果。我们知道，LASSO方法可以精确地缩小标记效果估计，并选择最大的效果。当我们预先用LASSO进行QTL选择后，OLS估计在第二阶段就不再是无偏的了。因此，两阶段方法可以缓解这一问题在GS，特别是在背景G×E．

以TNDH群体为例，采用OLS post-LASSO、LASSO、SY 4种方法对3个复杂性状(FT、OC、SY)的预测精度进行了比较。米×EGBLUP模型，分层GBLUP模型。一般来说，两阶段法，即OLS后lasso，在不同环境下的平均预测精度最高，并且在10个环境中的大多数环境中预测精度最高。的米×EGBLUP模型的表现不如两阶段方法，但优于LASSO和分层GBLUP模型。虽然LASSO的表现比米×EGBLUP模型，在LASSO之后的OLS，即OLS后LASSO，表现优于米×EGBLUP模型，预测精度有显著提高。结果表明，无论是FT、OC还是SY, OLS后LASSO总能优于LASSO。尽管Belloni和Chernozhukov已经报道了两阶段方法的优势[8]，本研究首先研究其在GS中的应用及其对提高预测能力的益处。

从模型的计算方面来看，两阶段方法在第一阶段的计算时间大约为45分钟(Windows10 Pro与1.6 GHz英特尔酷睿i5-8250U处理器和8gb内存)，而在第二阶段的计算时间大约为0.1秒。计算时间比分层法和分层法都要长G×EGBLUP模型。大概花了30秒10分钟的时间G×EGBLUP模型,分别。然而，就G×E与因子分析法等传统方法相比，两阶段法易于拟合。因素分析方法试图简化一个复杂的协方差结构，在某些情况下，例如，在G×E、趋同的困难[32]．

LASSO作为一种惩罚回归方法，最早由Usai等人在GS中实现[33]，许多研究对其预测性能进行了评价，如Ogutu等[34Xu等人[35]．LASSO和GBLUP, GS中最常用的方法，总是优于其他方法，如rr-BLUP [34]及支持向量机[35]．Li等基于TNDH群体FT性状数据集的研究[26]表明，使用现有的8个模型:rr-BLUP、再生核希尔伯特空间(RKHS)、贝叶斯LASSO、BayesA、BayesB、随机森林(RF)和SVM(线性核和高斯核)，在10个环境中的平均预测精度从0.593到0.651不等。Li等人获得的平均预测精度[26的相关系数均低于本研究评价的4种方法(OLS后lasso、0.8789、0.8347、0.7583和0.6789)。米×EGBLUP模型、LASSO模型和分层GBLUP模型)。分层GBLUP模型的表现与Li等人评估的8种模型相似。[26，因为这些方法忽略G×E在分析中的影响。我们的研究结果证实了G×E对GS模型的影响提高了预测精度，这已被许多研究注意到，如Lopez-Cruz等[20.]．其中，两阶段法对复杂性状FT、OC和SY表现最好。

模型(1)的MSE衰减百分比(对应于用E+问+问×E)的FT性状(98.6731%)非常接近100%。这一发现表明，我们提出的模型与FT特征数据集非常吻合。然而，当对其他性状采用相同的模型(1)时，如OC (MSE下降百分比为88.0751%)和SY (MSE下降百分比为66.6784%)的性能会降低。正如Luo等人所指出的[27，英国《金融时报》显示出很高的遗传力;SY遗传力较低。因此，我们提出的模型可以解释更多的FT变化而更少的SY变化。然而，即使在更复杂的性状，即OC和SY的情况下，我们所提出的方法的预测性能仍然优于之前的方法，如米×EGBLUP模型和其他模型。

虽然FT不像SY那样复杂，但FT所鉴定的QTL数量大于SY1）．如果我们只关注已鉴定的QTL数量，似乎存在一些不合理的地方。我们至少可以从以下两个方面来解释这个问题。首先，LASSO所鉴定的QTL具有启发式，还需要进一步的实验鉴定。这意味着检测到的QTL可能不是真正的QTL。第二，从图的第一副图(a)1，可以看出，在C5染色体上存在一个FT主标记效应最大的QTL，而其他显著QTL(蓝线)的主标记效应小于主标记效应。但是我们找不到OC和SY的主要QTL(见图中的子图(a))2和3.）．同时，从主要标记效应的绝对值大小可以看出，FT的绝对值约为4,OC的绝对值约为1.5,SY的绝对值约为0.3。在特定环境的标记效应中也可以找到类似的模式(见图中的副图(b)1- - - - - -3.详情)。因此，我们的研究结果也支持了FT特征并不像我们预期的OC和SY那么复杂。

数据可用性

本文使用的表型和标记数据可在补充文件S1中找到。

的利益冲突

作者声明不存在利益冲突。

致谢

本文受国家自然科学基金项目(no. 31970564, no. 11971362, no. 11661003, no. 11661004)和华东理工大学博士研究项目(no. 11970564, no. 11971362, no. 11661003, no. 11661004)资助。DHBK2018052。

补充材料

名为“S1_TN182 Phenotypic and marker data.zip”的压缩补充文件包含一个名为“TN182 Phenotypic and marker data.xlsx”的Excel文件。Excel文件包括四张表格。“Environment”表显示了关于这10个环境的信息，包括宏环境的名称、实验的代码等等。“性状名称”表列出了本文研究的三个性状的名称、缩写和测量方法。“表型”表显示了从所有10个环境中收集到的3个性状的所有表型值。“基因型”表显示了所有个体的基因型矩阵。（补充材料）

参考文献

F. Khan，《分子标记:基因分析的一个极好的工具》，分子生物标记与诊断杂志，第06卷，第2期2015年，第233页，第03页。视图:出版商的网站|谷歌学者
R. Lande和R. Thompson，“标记辅助选择在数量性状改良中的效率”，遗传学号，第124卷。3，第743-756页，1990。视图:谷歌学者
T. H. Meuwissen, B. J. Hayes, M. E. Goddard，“利用全基因组密集标记图预测总遗传价值”，遗传学，第157卷，第1期4，页1819-1829,2001。视图:谷歌学者
P. Pérez, G. de Los Campos, J. Crossa，和D. Gianola，“基于分子标记和系谱的基因组预测使用贝叶斯线性回归包在R，”植物基因组，第3卷，第2期。2, pp. 106 - 116,2010。视图:出版商的网站|谷歌学者
“岭回归:非正交问题的有偏估计”，国立台湾大学资讯科学研究所硕士论文，技术计量学，第12卷，第2期1，页55-67,1970。视图:出版商的网站|谷歌学者
R. Tibshirani，《通过套索的回归收缩和选择》，英国皇家统计学会学报:B辑(方法论)，第58卷，第2期1，页267-288,1996。视图:出版商的网站|谷歌学者
H. Zou, T. Hastie，“通过弹性网的规则化和变量选择”，英国皇家统计学会学报:B辑(统计方法学)，第67卷，第5期2，页301-320,2005。视图:出版商的网站|谷歌学者
A. Belloni和V. Chernozhukov，“高维稀疏模型中模型选择后的最小二乘”，伯努利第19卷第2期2, pp. 521-547, 2013。视图:出版商的网站|谷歌学者
T. Hastie, R. Tibshirani和M. Wainwright具有稀疏性的统计学习，查普曼和霍尔/CRC，纽约，纽约，美国，2015。
N. Meinshausen，《放松的套索》计算统计与数据分析号，第52卷。1，页374 - 393,2007。视图:出版商的网站|谷歌学者
G. de los Campos, J. M. Hickey, R. Pong-Wong, H. D. Daetwyler，和M. P. L. Calus，“全基因组回归和预测方法在植物和动物育种中的应用”，遗传学第193卷第1期2, pp. 327-345, 2013。视图:出版商的网站|谷歌学者
C. R. Henderson和R. L. Quaas，“使用亲属记录的多重特质评估”，动物科学杂志号，第43卷。6，页1188-1197,1976。视图:出版商的网站|谷歌学者
D. Habier, R. L. Fernando, K. Kizilkaya，和D. J. Garrick，《基因组选择贝叶斯字母表的扩展》，BMC生物信息学，第12卷，第2期1，页186,2011。视图:出版商的网站|谷歌学者
t·帕克和g·卡塞拉，《贝叶斯套索》美国统计协会杂志号，第103卷。482，第681-686页，2008。视图:出版商的网站|谷歌学者
G. K. Robinson，“BLUP是一件好事:随机效应的估计，”统计科学，第6卷，第2期1，第15-32页，1991。视图:出版商的网站|谷歌学者
D. Ruppert, M. P. Wand和R. J. Carroll，半参数回归，剑桥大学出版社，剑桥;美国纽约,2003年。
[J. B. Endelman， " rblup基因组选择的岭回归和其他内核"植物基因组，第4卷，第4期。3, pp. 250-255, 2011。视图:出版商的网站|谷歌学者
P. M. VanRaden，“计算基因组预测的有效方法”，乳品科学杂志第91卷第1期11，页4414-4423,2008。视图:出版商的网站|谷歌学者
P. Pérez和G. de los Campos，《用BGLR统计软件包进行全基因组回归和预测》，遗传学第198卷第2期2、2014。视图:出版商的网站|谷歌学者
M. Lopez-Cruz, J. Crossa, D. Bonnett等人，“利用标记×环境交互作用基因组选择模型提高小麦育种试验的预测精度”，| |基因组遗传基因，第5卷，第5期。4, pp. 569-582, 2015。视图:出版商的网站|谷歌学者
M. Bandeira E Sousa, J. Cuevas, E. G. de Oliveira Couto等，“利用基因型×环境交互作用的玉米籽粒模型的基因组enabled预测”，| |基因组遗传基因，第7卷，第5期6, pp. 1995-2014, 2017。视图:出版商的网站|谷歌学者
E. Monteverde, J. E. Rosas, P. Blanco等人，“多环境模型提高了水稻高级育种系复杂性状的预测精度。”作物科学，第58卷，第2期4, pp. 1519-1530, 2018。视图:出版商的网站|谷歌学者
邱丹，C. Morgan, J. Shi, et al.，“一种油菜比较连锁图谱及其在籽粒油和芥酸含量QTL分析中的应用”，理论与应用遗传学，第114卷，第2期。1，页67-80,2006。视图:出版商的网站|谷歌学者
史军，李锐，邱德华等，“利用数量性状位点定位揭示作物产量的复杂性状芸苔属植物显著”,遗传学号，第182卷。3，第851-861页，2009。视图:出版商的网站|谷歌学者
Zhang Y.， C. L. Thomas, J. Xiang, et al.，“水稻根系性状的QTL元分析芸苔属植物显著在两种生长系统磷供应的对比下，科学报告，第6卷，第2期1, 2016。视图:出版商的网站|谷歌学者
李丽，龙玉龙，张磊等，“利用高通量基因分型技术对水稻开花时间性状的全基因组分析芸苔属植物显著L。”《公共科学图书馆•综合》，第10卷，第5期。3、文章编号e0119425, p. e0119425, 2015。视图:出版商的网站|谷歌学者
罗忠，王敏，龙玉龙等，“利用多效性数量性状位点分析复杂性状:以油菜种子产量为例”，《中国农业大学学报》，理论与应用遗传学号，第130卷。8, pp. 1569-1585, 2017。视图:出版商的网站|谷歌学者
M. Zhang, K. L. Montooth, M. T. Wells, A. G. Clark, and D. Zhang，“基于贝叶斯分类的多数量性状位点定位”，遗传学第169卷第1期4，页2305-2318,2005。视图:出版商的网站|谷歌学者
B. Efron, T. Hastie, I. Johnstone, R. Tibshirani，《最小角度回归》，统计年鉴，第32卷，第2期2，页407-499,2004。视图:谷歌学者
R核心团队,R:统计计算的语言和环境， R基金会统计计算，维也纳，奥地利，奥地利，2017。
S. Boyd, N. Parikh, E. Chu, B. Peleato, J. Eckstein，“通过乘数交替方向方法的分布式优化和统计学习”，机器学习的基础和趋势，第3卷，第2期。1，页1 - 122,2010。视图:出版商的网站|谷歌学者
L. S. Peixouto, J. A. R. Nunes，和D. F. Furtado，“通过REML/BLUP应用于G+GE矩阵的多环境数据的因子分析”，作物育种与应用生物技术，第16卷，第5期。1, pp. 1 - 6, 2016。视图:出版商的网站|谷歌学者
M. G. Usai, M. E. Goddard, B. J. Hayes，“LASSO与基因组选择的交叉验证”，遗传学研究第91卷第1期6, pp. 427-436, 2009。视图:出版商的网站|谷歌学者
J. O. Ogutu, T. Schulz-Streeck, H. P. Piepho，“使用正则线性回归模型的基因组选择:脊回归、套索、弹性网及其延伸”，BMC，第6卷，第2期2012年增刊2。视图:出版商的网站|谷歌学者
徐勇，王学军，丁学军等，“基于NCII群体的杂交水稻农艺性状的基因组选择”，大米，第11卷，第5期。1, p. 32, 2018。视图:出版商的网站|谷歌学者

自然与社会中的离散动力学

调度研究中的理论、应用与解决方案

利用基因型和环境互作提高复杂性状预测精度的两阶段方法芸苔属植物显著

摘要

1.介绍

2.材料和方法

２.１.基因型和表型数据

２.２.两阶段的方法

2．3.完整的数据分析

２.４.随机分割数据以评估预测精度

2．5．软件

3.结果

３．１．标记的影响

３.２．MSE的衰减

３．３．预测精度

4.讨论

数据可用性

的利益冲突

致谢

补充材料

参考文献

版权

更多相关文章

相关文章