aes 应用和环境土壤学 1687 - 7675 1687 - 7667 Hindawi出版公司 294121年 10.1155 / 2012/294121 294121年 研究文章 影响构造子集的碳含量、土壤秩序,和光谱分类的预测土壤总碳和漫反射光谱 麦克道尔 梅丽尔·L。 1 Bruland 格雷戈里·L。 1、2 Deenik 乔纳森·L。 3 格伦沃尔德 Sabine 4 Chabrillat Sabine 1 自然资源和环境管理部门 夏威夷大学Mānoa 檀香山东西方路1910号,谢尔曼101年,你好96822 美国 hawaii.edu 2 生物学和自然资源部门 原理学院1 Maybeck, Elsah, 62028 美国 ufl.edu 3 热带植物和土壤科学系 夏威夷大学Mānoa 3190微笑,檀香山,嗨96822 美国 hawaii.edu 4 土壤和水科学系 佛罗里达大学,2169年McCarty大厅 邮政信箱110290,盖恩斯维尔,FL 32611 - 0290 美国 ufl.edu 2012年 21 11 2012年 2012年 15 03 2012年 20. 08年 2012年 14 10 2012年 2012年 版权©2012梅丽尔·l·麦克道尔et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

构造子集的样本是一个前途的研究项目的持续改进与漫反射光谱学为土壤属性预测模型。本研究调查了影响土壤总碳(构造子集的 C t )内容、土壤秩序,光谱分类 k聚类分析则可见/近红外和中红外偏最小二乘回归模型 C t 预测。我们的样本集是由各种各样的夏威夷从主要农田土壤 C t 内容从< 1%到56%。确定系数的微小改进( R 2 )和其他标准模型中观察质量参数模型的子集粘土高活动订单的模型相比,完整的样本集。其他子集模型探索不表现出改善所有参数。创建的模型子集组成的低 C t 样品(例如, C t < 10%)显示改善根均方误差(RMSE)和预测误差百分比低 C t 土壤样本。这些结果为未来研究提供一个基础的实际构造子集土壤的策略 C t 预测。

1。介绍

漫反射光谱(DRS)和最优化分析已经成为受欢迎的学科研究的潜力预测土壤碳和其他属性。这种方法可以有利于土壤质量监测和时间变化,以及帮助促进数字土壤制图工作。可见/近红外(VNIR)和中红外(MIR)光谱显示承诺的预测土壤全碳量( C t )和有机碳以及有机质、全N、全P,沙子,淤泥,粘土分数、阳离子交换容量、pH值(例如, 1- - - - - - 8])。一直特别关注土壤碳,这是土壤肥力的重要指标和生物活性和碳封存的努力至关重要 9- - - - - - 12]。

偏最小二乘回归(PLSR)似乎是最广泛使用的最优化方法,开发从土壤漫反射光谱预测模型。样本集是通常与更大的分成两组用于校准和验证近似真实的较小的独立的模型验证,但没有明确的或一致的指导方针已经采用这一过程。模型结果已知随不同分组的校准和验证集样品。为了解决这个问题,一些研究已经创建了多个模型,每个都有不同的随机样本集的分歧在校准和验证集,以反映可能结果的范围( 13, 14]。

DRS需要高度精确的预测模型是一种有效的方法在实际应用土壤碳的决心。许多统计健壮的模型已经开发(例如, 5- - - - - - 8, 15]),但一个过程不一定是最好的生产高质量的模型从不同土壤在不同的位置。甚至模型有良好的相关性可以改善土壤光谱和属性。例如,麦克道尔的健壮的PLSR模型等。 8有相对大的错误 C t 预测在非常低的 C t 值,减少模型的效用较低的情况下 C t 土壤或小的变化 C t 检查。额外的方法探索生产最健壮的和准确的DRS预测模型可能对不同的本地和全球土壤数据集。一个有前途的想法是将样本集分为团体基于相似特征和开发每一个单个预测模型的子集。研究土壤中来自波兰,巴西,和佛罗里达(美国),先前的研究人员调查了构造子集碳含量等特征,土壤,土壤质地、光谱相似与不同的成功的特定样本集( 16- - - - - - 18]。

当前的工作旨在改进的预测 C t VNIR和米尔DRS通过创建把具体最优化模型。具体地说,我们研究了如果从最优化模型预测建立只从一个子集的样品类似的关于一个特定的特征(例如, C t )会比一个全面提供更好的预测模型由一组所有可能的样本。这项研究调查了以下三个构造子集策略:(1)土壤 C t 价值;(2)土壤秩序;(3)光谱分类 k ——集群分析。每个不同的子集模型比较完整对原始样本集模型来评估预测的变化的大小。本研究建立在麦克道尔的研究报告等。 8]。在工作的作者展示了C DRS的预测能力t在夏威夷的土壤。不同的波长范围(即的成功。,VNIR versus MIR) and chemometric methods was investigated, as well. Because these ideas have been previously explored in McDowell et al. [ 8),他们将不会进一步讨论。

2。材料和方法 2.1。样本收集和准备

本研究的样本集是由307个土壤样本收集五个主要考艾岛的夏威夷群岛,瓦胡岛、莫洛凯岛、毛伊岛和夏威夷,见图 1。二百一十六个样本收集从1981年到2007年,储存在档案自然资源保护服务(nrc)国家土壤调查中心的林肯,内布拉斯加州,剩下的91新2010年收集的样本。在这个全套样品,10土壤订单和100多个系列。样本主要来自各种农业的土壤,举办超过25种不同作物类型。大多数样品的表面土壤(~ 77%),和其余的相应的地下土壤的视野从17收集网站。土壤样本干和渗保留VNIR DRS分析分数小于2毫米。每个样本的一部分也被球磨不到250 μ米米尔DRS分析。

分布的土壤样本收集网站整个夏威夷群岛与象征颜色指示土壤秩序。

2.2。传统的全碳量分析

干式燃烧是用来测量 C t 球磨的土壤样本。几个从nrc档案以前获得的样品测量 C t 通过干燥燃烧之前存储。所有剩下的样品进行了分析在农业诊断服务中心(ADSC)在夏威夷大学Mānoa用LECO CN2000燃烧气体分析仪( 19]。前面的一小部分测量nrc存档ADSC提供再确认的样本重新分析从不同的实验室获得的值。的 C t 完整的样本集的值的范围从< 1%到56%分布倾向较低 C t 结束。

2.3。可见/近红外漫反射光谱

可见/近红外漫反射光谱收集从渗土壤样本的2毫米的Agrispec光谱仪和muglight光源(分析光谱设备,Inc .,博尔德有限公司,美国)。Agrispec有三个探测器光谱范围总计350至2500海里,采样间隔1海里,光谱分辨率从3海里(700海里)10 nm(1400海里)。每一个土样测定三次,与样品杯旋转20°之间测量。三谱平均为每个样本生成最终的频谱。Spectralon(美国北萨顿Labsphere NH)白色参考测量作为参考光谱开始每个会话之后再一次每30分钟或更少。涵盖的范围略有偏移反射之间的第一和第二探测器观察在许多光谱,因此,我们删除990 - 1010 nm的狭窄区域最后的光谱进行分析。这些土壤的VNIR光谱一般展览功能相关的哦H2啊,铁氧化物、层状硅酸盐和有机分子。回归分析的光谱转换使用的预处理确认为最有效的数据集在麦克道尔et al。 8]。VNIR光谱,这个最优预处理变换是意味着正常化。

2.4。中红外漫反射光谱

中红外漫反射光谱收集从球磨样品以简洁的形式,弯刀2000红外光谱谱仪(瓦里安,Inc .,现在安捷伦科技,圣克拉拉,CA,美国)和漫反射率红外傅里叶变换(漂移)配件。光谱范围是400到6000厘米−1,采样间隔2厘米−1和光谱分辨率4厘米−1(注意:我们的米尔光谱重叠的范围略VNIR光谱范围。)光谱为背景大气纠正和仪器效果的谱减法的溴化钾粉末之间的测量每七样本,但在两个狭窄的区域特征依然存在。因此,我们排除了1350 - 1419厘米的区域−1和2281 - 2449厘米−1从分析。在这些土壤的米尔光谱特性归因于哦、有机分子和各种各样的硅酸盐矿物。基于麦克道尔的发现等。 8),在回归分析Savitzky-Golay 1日之前转换被应用于米尔光谱导数决心是最有效的预处理数据集。

2.5。回归分析

偏最小二乘回归(PLSR)是用来为C开发的最优化模型t预测。模型使用辨音器生成X软件包(美国新泽西州伍德布里奇迷彩伪装软件有限公司)。光谱范围包括在分析减少略通过移除任何高噪声部分范围的限制;因此,VNIR光谱被限制的范围425 - 2450 nm,和米尔光谱被限制在489 - 5300厘米−1。所有光谱都意味着PLSR集中分析。选择回归的最优数量的因素分别为每个模型基于解释方差最大化但在拟合的可能性最小化。我们考虑几个参数评估模型的质量,包括确定系数( R 2 )、根均方误差(RMSE),剩余的预测偏差(RPD) [ 20.,性能比四分位距(RPIQ) [ 21]。我们定义了RPD作为验证的标准偏差的比例设置为标准预测误差(RPD = SD / 9月)和RPIQ作为验证集的四分位距比预测的标准误差(RPIQ =智商/ 9月),在四分位距第三和第一个四分位数之间的区别(智商=−Q1第三季度)。对这些一般模型的质量参数,将最高最好的模型 R 2 ,RPD RPIQ, RMSE最低。我们还研究了对个人的成功预测样本使用百分比误差,计算测量之间的绝对差(即。(即,通过燃烧)和预测。DRS) C t 值,除以测量值,乘以100。

2.6。样本构造子集

我们选择构造子集策略背后的动机是提高 C t 预测,同时仍然保持简单性使得DRS的吸引力。我们专注于构造子集标准,不需要额外的高度详细的土壤特性,而不是依靠通用土壤在土壤分类数据和信息。

2.6.1。< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M26 " > < mml: mrow > < mml: msub > < mml: mrow > < mml:多行文字> C < / mml:多行文字> < / mml: mrow > < mml: mrow > < mml: mi > t < / mml: mi > < / mml: mrow > < / mml: msub > < / mml: mrow > < / mml:数学> < / inline-formula >内容子集

一个简单的分组土壤的低和高 C t 被用于构造子集 C t 价值。初步测试了各种低工作 C t /高 C t 部门(例如,2,4,6,8,和10% C t )迭代。最初的结果表明,10%的截止 C t 是最有前途的,因此用于最终的分析。此外,部门10%允许相当容易分配不明的土壤为低或高 C t 分组从 C t 基于通用或现成的土壤信息的估计。

近似独立的验证,样品被随机分成一组为70%,模型校准和模型验证为30%。这个随机选择重复生产10迭代的校准/验证对全样本集。这种分裂后,样品从每个迭代分为低 C t (< 10%)和高 C t (> 10%)的子集。单独的VNIR和米尔回归模型被开发的低 C t 和高 C t 部分的每个10次迭代。相比之下,VNIR和米尔回归模型充分使用这些相同的样本集10校准和验证部门,但是没有分离 C t 值,也创造了。

2.6.2。土壤命令子集

四个广泛的土壤组创建基于通用土壤秩序的相似性和可用的样本数量的类型。allophane-dominated火山Andisol土壤组成一组( n = 96年 )、旱成土、新成土,始成土、软土、变性土土壤组合让第二组(高活动粘土土壤; n = 101年 ),氧化土和老成土土壤第三组(低活性粘土土壤; n = 75年 ),有机土和灰土土组成第四组(organic-dominated土壤; n = 26 )。这些土壤分类是基于信息包含在土壤分类发展的允许组织根据粘土矿物学和土壤有机质。表 1提供额外的信息每个土壤的土壤属性子集。这些土壤组的平均光谱图所示 2。九个土壤样本nrc档案没有记录分类分类,因此并不包括在这些子集。

土壤属性选择为每个样本土壤分组用于构造子集的秩序。值在表中列出的最大值和最小值的特定子集,意味着在括号中。提供数据为样本自然资源保护服务(nrc)档案是可用的。(即组成信息。,pH值,texture, Al, Ca, and Fe) for the samples newly collected in 2010 has yet to be determined.

总碳wt % 有机碳wt % 粘土wt % 淤泥wt % 砂wt % pH值 总Al wt % 总Ca wt % 总铁wt %
Andisol土壤 -51 - 0.24 0.39 - -55.59 0.3 - -59.8 4.7 - -81.3 2.4 - -94.9 3.7 8 1.58 - -13.89 0.025 - -4.80 7.33 - -22.63
(13.39) (12.53) (17.26) (40.62) (42.83) (5.66) (8.54) (0.64) (15.49)

高活动粘土土壤 0.21 - -53.63 0.3 - -14.65 0.2 - -66.7 10.8 - -93.2 0.4 - -88.6 3.3 - -8.3 10.95一个 0.52一个 10.13一个
(14.51) (3.94) (25.72) (44.08) (30.21) (5.89)

低活性粘土土壤 -10 - 0.15 0.2 - -3.58 7.6 - -88.7 10.4 - -69.5 0.75 - -69.8 4.5 - -7.3 7.66 - -9.61 0.049 - -0.16 13.43 - -27.03
(1.65) (1.11) (47.52) (34.86) (17.61) (5.92) (8.28) (0.096) (23.23)

Organic-dominated土壤 5 - 55.29 2.62 - -54.98 4.4 - -67.6 11.5 - -45.7 1.3 - -84.1 3.3 - -5.8 不可用
(36.19) (20.26) (31.68) (30.45) (37.86) (4.29)

一个只有一个数据点。

平均(a)可见/近红外(VNIR)和(b)中红外漫反射光谱(MIR)土壤组用于构造子集的秩序。虚线代表一个标准差的平均值。

完整的样本集10次随机分为一组样本的70%用于回归模型的校准和30%的样本用于验证。这种分裂后,每个样品十迭代分组根据土壤如上所述。单独VNIR然后米尔回归模型为每个土壤组开发在每个子集的十个校准/验证迭代。因为低活性粘土和organic-dominated土壤样本的数量很小(例如,≤80),完整的交叉验证(即。,leave-one-out cross validation) was used with the regression models for these two groups rather than committing 30% of those samples to validation as with the other subsets. Additional models were created from the 10 calibration/validation divisions of the full sample set with no separation of soil order for the comparison of results without subsetting. A full cross validation model of the full sample set was developed to be compared with the low activity clay and organic-dominated soil subsets’ full cross validation models.

2.6.3。光谱分类子集

我们分组土壤样品光谱特征背后的基本原理是基于假设这种方法删除主要光谱变化考虑,这样小规模的变化是用来产生一个更精致的 C t 预测模型。同时,土壤样本分成子集创建单独从光谱分类的优点是不需要额外的信息。

光谱分类是由子集 k 聚类分析则辨音器 X 。光谱被分配到三个集群基于最小欧氏距离子集集群中心。进行了单独分析VNIR和米尔光谱,从而导致集群不同组合的样本子集。用于这些集群分析的光谱范围仅限于地区最相关的碳排放预测之前由PLSR变量意义分析麦克道尔et al。 8]。具体地说,使用的范围是600 - 750,898 - 990,1910 - 1938,2070 - 2150,和2288 - 2316 nm VNIR光谱和1500 - 1870,3650 - 3690,4235 - 4260,4305 - 4330,4410 - 4455,和5280 - 5245厘米−1米尔光谱。每个集群子集是随机分为模型校准和一群一群70%剩下的30%的模型验证,除非集群中样本的数量很小(例如,≤80),在这种情况下,样本不分裂和完整的交叉验证。随机划分为校准和验证组重复9次给10校准/验证对每个VNIR和米尔集群的子集。单独的 C t 预测模型被创建为每个集群的不同子集。相比较而言,我们也开发了10 VNIR和米尔从全部样本集模型。这些模型的校准和验证组是由结合相应的校准或验证组的三个不同的集群模型子集。VNIR和米尔全交叉验证模型充分利用样本集也产生了比较完整的交叉验证模型从小型集群子集。

3所示。结果与讨论 3.1。数学建模的< inline-formula > < mml: xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M48 " > < mml: mrow > < mml: msub > < mml: mrow > < mml:多行文字> C < / mml:多行文字> < / mml: mrow > < mml: mrow > < mml: mi > t < / mml: mi > < / mml: mrow > < / mml: msub > < / mml: mrow > < / mml:数学> < / inline-formula >内容子集

VNIR模型子集 C t 产生的结果总结在表的内容 2并绘制在图 3(一个)。结果的范围从10个随机的样本分成70%的校准和30%的验证组以及它们的平均值。的 R 2 ,RPD RPIQ值低 C t 不如这些子集产生了充分利用样本集,虽然RMSE值较低的低 C t 子集。结果高 C t 模型接近,但并不是那么好,结果从完整的样本集。

详细的偏最小二乘回归模型结果土壤全碳量( C t )预测子集的可见/近红外漫反射光谱的基础上 C t 内容。值的范围反映出10个随机迭代模型的结果,和数字在括号的意思。详细结果给出完整的样本集模型没有划分子集进行比较。

校准 验证
n 一个 R 2 , b 均方根误差(%)c n R 2 均方根误差(%) RPDd RPIQe
C t < 10% 133 - 147 0.43 - -0.80 1.08 - -1.78 56 - 70 0.47 - -0.76 1.27 - -1.97 1.37 - -2.03 1.77 - -2.88
(0.64) (1.46) (0.61) (1.59) (1.63) (2.12)

C t > 10% 68 - 82 0.77 - -0.93 3.86 - -7.00 22-36 0.77 - -0.91 3.96 - -7.65 2.05 - -3.21 2.38 - -5.16
(0.86) (5.33) (0.84) (5.87) (2.55) (4.02)

完整的样本集 215年 0.81 - -0.96 2.88 - -5.87 92年 0.81 - -0.95 2.82 - -7.18 2.27 - -4.47 2.08 - -4.35
(0.91) (4.06) (0.91) (4.24) (3.46) (3.19)

一个样品的数量。

b确定系数。

c根均方误差。

d剩余的预测偏差。

e性能比四分位的距离。

偏最小二乘回归模型结果的视觉评估土壤总碳( C t )预测的子集(一)可见/近红外(VNIR)和(b)中红外(MIR)漫反射光谱的基础上 C t 内容。给定的参数确定系数( R 2 )、根均方误差(RMSE, %),剩余的预测偏差(RPD),性能比四分位距(RPIQ)。值的范围反映出10个随机迭代模型的结果。结果也显示完整的样本集模型没有划分子集进行比较。

米尔的结果 C t 子集模型如图 3 (b)和表 3。模型产生的低 C t 子集一般都较低的质量比完整的样本集,除了更好的RMSE值,这一趋势类似于VNIR模型。高 C t 模型与整体生产的高质量的模型使用完整的样本集。

详细的偏最小二乘回归模型结果土壤全碳量( C t )预测基于中红外漫反射光谱的子集 C t 内容。值的范围反映出10个随机迭代模型的结果,和数字在括号的意思。详细结果给出完整的样本集模型没有划分子集进行比较。

校准 验证
n 一个 R 2 , b 均方根误差(%)c n R 2 均方根误差(%) RPDd RPIQe
C t < 10% 133 - 147 0.86 - -0.99 0.21 - -0.87 56 - 70 0.71 - -0.86 0.94 - -1.26 1.84 - -2.64 2.24 - -3.66
(0.94) (0.58) (0.82) (1.10) (2.34) (3.05)

C t > 10% 68 - 82 0.91 - -0.99 1.11 - -4.47 22-36 0.90 - -0.95 3.48 - -4.93 3.18 - -4.29 3.10 - -8.42
(0.95) (3.10) (0.92) (4.17) (3.55) (5.75)

完整的样本集 215年 0.94 - -0.99 1.61 - -3.40 92年 0.91 - -0.96 2.87 - -4.48 3.33 - -4.87 2.36 - -5.69
(0.96) (2.61) (0.94) (3.38) (4.07) (3.74)

一个样品的数量。

b确定系数。

c根均方误差。

d剩余的预测偏差。

e性能比四分位的距离。

从这些结果,似乎一个单独的高 C t 预测模型不是一个改进模型利用充分 C t 的可用的样本范围VNIR或米尔光谱从这个数据集。这句话可能是真的为一个单独的低 C t 预测模型,但较低的好处RMSE也应该被考虑。

先前的研究结果不同检查单独的行为模型基于碳含量。Madari et al。 16发现限制 C t 近红外光谱和米尔校准模型0.4 - -99.10 g公斤−1和0.4 - -39.90 g公斤−1不仅减少了 R 2 ,而且根均方偏差(RMSD)相比原来的近红外光谱和米尔模型(0.4公斤-555克−1 C t );这种行为类似于观察到的低 C t 这里给出模型。这项研究由Vasques et al。 18)开发单独的VNIR有机碳矿物和有机土壤样本预测模型,大致对应于部门的碳含量在这种情况下(矿物质的土壤,0.01 - -14.70%碳;有机土壤,13.52 - -57.54%碳)。原来的组合模型相比, R 2 改进模型的子集,但低碳的RMSE减少矿物组和增加更高的碳有机组。的增加 R 2 值的子集模型不同于什么是出现在我们的工作和Madari et al。 16),是土壤的一个例子具有不同特点的不同回应相同的待遇。

3.2。建模的土壤子集

VNIR模型的结果从土壤中有序子集给出了表 4和图 4(一)。Andisol子集不执行的模型以及模型充分利用样本集。 R 2 、RMSE和RPD值高活动粘土子集是完整的样本集的相似模型,但RPIQ值通常略低。低活性粘土和organic-dominated子集和一个独立的验证没有验证组由于小样本数据,因此他们的研究结果可能过于乐观。相比一个完整模型的交叉验证从全部样本集,创建低活性粘土子集模型没有执行,除非考虑RMSE参数,而organic-dominated子集模型是类似的。

详细的偏最小二乘回归模型结果土壤全碳量( C t )预测子集的可见/近红外漫反射光谱基于土壤秩序。值的范围反映出10个随机迭代模型的结果,和数字在括号的意思。详细结果给出完整的样本集模型没有划分子集进行比较。与完整的交叉验证(即模型。,leave-one-out cross validation), the same samples used to calibrate the model were used to validate the model.

校准 验证
n 一个 R 2 , b 均方根误差(%)c n R 2 均方根误差(%) RPDd RPIQe
Andisol土壤 64 - 71 0.62 - -0.86 2.71 - -7.75 25-32 0.37 - -0.93 3.38 - -7.48 1.01 - -3.80 1.29 - -3.38
(0.72) (4.64) (0.69) (4.85) (2.02) (2.28)

高活动粘土土壤 67 - 72 0.86 - -0.98 2.38 - -5.17 29-34 0.74 - -0.98 2.19 - -6.31 1.89 - -7.74 0.71 - -3.03
(0.93) (3.73) (0.90) (4.02) (4.12) (1.68)

低活性粘土土壤 75年 0.82 0.72 完整的交叉验证 0.74 0.90 1.93 1.82

Organic-dominated土壤 26 0.96 3.35 完整的交叉验证 0.92 5.16 3.30 6.26

完整的样本集 215年 0.82 - -0.96 2.89 - -5.96 92年 0.79 - -0.95 2.96 - -6.03 2.25 - -4.43 2.07 - -4.53
(0.92) (3.89) (0.91) (4.02) (3.58) (3.42)

完整的样本集 307年 0.95 3.09 完整的交叉验证 0.94 3.39 4.09 3.80

一个样品的数量。

b确定系数。

c根均方误差。

d剩余的预测偏差。

e性能比四分位的距离。

偏最小二乘回归模型结果的视觉评估土壤总碳( C t )预测的子集(一)可见/近红外(VNIR)和(b)中红外漫反射光谱(MIR)基于土壤秩序。给定的参数确定系数( R 2 )、根均方误差(RMSE, %),剩余的预测偏差(RPD),性能比四分位距(RPIQ)。值的范围反映出10个随机迭代模型的结果。结果也显示完整的样本集模型没有划分子集进行比较。

5和图 4 (b)显示的结果米尔土壤模型子集。Andisol子集产生的模型没有改进的模型产生的完整的样本集。结果高活动粘土模型子集一样好或者比完整的样本集模型结果,除了RPIQ值低。的整体性能低活性粘土和organic-dominated子集模型使用完整的交叉验证不是那么好完整的交叉验证模型的完整的样本集。

详细的偏最小二乘回归模型结果土壤全碳量( C t )的子集预测基于土壤中红外漫反射光谱顺序。值的范围反映出10个随机迭代模型的结果,和数字在括号的意思。详细结果给出完整的样本集模型没有划分子集进行比较。与完整的交叉验证(即模型。,leave-one-out cross validation), the same samples used to calibrate the model were used to validate the model.

校准 验证
n 一个 R 2 , b 均方根误差(%)c n R 2 均方根误差(%) RPDd RPIQe
Andisol土壤 64 - 71 0.84 - -0.96 1.92 - -3.02 25-32 0.41 - -0.92 2.99 - -6.94 1.12 - -3.60 1.87 - -4.09
(0.91) (2.49) (0.79) (4.03) (2.33) (2.66)

高活动粘土土壤 67 - 72 0.96 - -0.99 0.96 - -2.71 29-34 0.95 - -0.99 1.70 - -3.60 4.34 - -9.81 0.92 - -4.38
(0.98) (1.74) (0.96) (2.65) (5.57) (2.44)

低活性粘土土壤 75年 0.98 0.24 完整的交叉验证 0.79 0.80 2.10 2.01

Organic-dominated土壤 26 0.97 2。9 完整的交叉验证 0.86 6.7 2.52 4.78

完整的样本集 215年 0.94 - -0.98 1.94 - -3.50 92年 0.91 - -0.96 2.74 - -3.91 3.38 - -5.07 3.22 - -5.27
(0.96) (2.78) (0.94) (3.39) (4.07) (3.89)

完整的样本集 307年 0.95 3.12 完整的交叉验证 0.94 3.52 3.94 3.68

一个样品的数量。

b确定系数。

c根均方误差。

d剩余的预测偏差。

e性能比四分位的距离。

这些结果表明,一个独立的预测模型为高活动粘土订单可能有轻微的优势相比,模型与所有可用土壤订单VNIR和米尔的光谱数据集。独立的预测模型对于其他土壤子集不似乎是有前途的。

一项由Madari et al。 16研究构造子集的好处他们根据土壤样品订单。作者产生单独的模型有机土和灰化土、铁铝土(分类根据世界参考基础( 22),大约相当于大多数氧化土土壤顺序),和强淋溶土(分类根据世界参考基础( 22),包括许多老成土亚纲和一些氧化土)。这些模型变化的结果。铁铝土和强淋溶土NIR和米尔模型较低 R 2 也比原来的模型和低RMSD;这两个子集包括相对较低 C t (2 - 85.10 g公斤−1和1.70 - -91.60 g公斤−1、职责)相比,完整的样本集(0.40公斤-555克−1),所以这个低 R 2 和更低的RMSD低是一个类似的行为 C t 子集模型在当前的研究中。有机土和灰土NIR和米尔模型子集Madari et al。 16导致略高 R 2 价值观和更高RMSD值。我们的有机土和灰土(即。,organic-dominated soils) subset models did not have significantly increased R 2 值,但是验证RMSE值大于完整的样本集模型的价值。

Vasques et al。 18)开发独立的有机碳预测VNIR模型为每个订单7个土壤样本集的组成的土壤从佛罗里达,美国东南部相比原始模型包含所有这些矿物的土壤样品,6个土壤模型子集导致改进 R 2 值(新成土湿润,始成,软土,灰化土、和老成土)。RMSE值也相似或更好的为这些子集。有机土子集模型是唯一一个没有改善 R 2 或RMSE。这些结果不同于在这项研究中,只有高粘土土壤(即活动。,Aridisols, Entisols, Inceptisols, Mollisols, and Vertisols) are suggested to provide an overall improvement on models including all available samples.

3.3。建模光谱分类的子集

k ——集群VNIR光谱的分析导致了三个集群之间的样本分配不均。集群0只包括78个样本子集(~ 3 - 56% C t ),因此所有78个样本用于它的模型校准和交叉验证。集群的集群1和2子集包含124个样本(~ 0 - 23% C t )和105个样本(~ 0 - 14% C t ),分别允许独立验证的模型按照最初的计划。结果10 VNIR C t 预测模型的每个集群表 6和图 5(一个)。集群0子集模型的比较完整的交叉验证模型的完整的样本集显示子集模型不是很强劲,但它确实产生更高的RPIQ价值。集群的集群1和2子集模型的结果通常较低(即。,better) RMSE values, but were otherwise not quite as robust as the full sample set models’ results.

详细的偏最小二乘回归模型结果土壤全碳量( C t )预测子集的可见/近红外漫反射光谱基于光谱分类 k——集群分析。值的范围反映出10个随机迭代模型的结果,和数字在括号的意思。详细结果给出完整的样本集模型没有划分子集进行比较。与完整的交叉验证(即模型。,leave-one-out cross validation), the same samples used to calibrate the model were used to validate the model.

校准 验证
n 一个 R 2 , b 均方根误差(%)c n R 2 均方根误差(%) RPDd RPIQe
集群0 78年 0.93 4.52 完整的交叉验证 0.88 5.87 2.86 5.40

集群1 87年 0.68 - -0.88 1.92 - -3.26 37 0.60 - -0.91 1.74 - -3.47 1.54 - -3.33 1.94 - -5.50
(0.77) (2.86) (0.75) (2.89) (2.16) (3.14)

集群2 73年 0.54 - -0.96 0.65 - -2.22 32 0.62 - -0.91 0.98 - -1.72 1.67 - -3.34 0.79 - -2.56
(0.81) (1.29) (0.80) (1.33) (2.39) (1.71)

完整的样本集 215年 0.83 - -0.96 2.82 - -5.84 92年 0.74 - -0.95 3.10 - -5.83 1.89 - -4.54 1.80 - -3.92
(0.90) (4.30) (0.88) (4.30) (3.28) (3.06)

完整的样本集 307年 0.95 3.09 完整的交叉验证 0.94 3.39 4.09 3.80

一个样品的数量。

b确定系数。

c根均方误差。

d剩余的预测偏差。

e性能比四分位的距离。

偏最小二乘回归模型结果的视觉评估土壤总碳( C t )预测的子集(a)可见/近红外(VNIR)和(b)中红外漫反射光谱(MIR)基于光谱分类 k ——集群分析。给定的参数确定系数( R 2 )、根均方误差(RMSE, %),剩余的预测偏差(RPD),性能比四分位距(RPIQ)。值的范围反映出10个随机迭代模型的结果。结果也显示完整的样本集模型没有划分子集进行比较。

在米尔谱的聚类分析,样本的权重分配,对集群(样本,137 ~ 0 - 52% C t 集群)和2(样本,132 ~ 0 - 11% C t )的子集。集群1只包含38个样本子集(~ 15 - 56% C t ),验证了全交叉验证,而不是独立的验证。表 7和图 5 (b)现在的结果预测模型从集群子集,以及那些从全部样本集模型进行比较。集群的结果0子集模型是大体相似的全样本集模型但总的来说他们并不是一种进步。完整的交叉验证结果校准的集群1子集略高,但低得多比的交叉验证验证样本集。一般来说,集群1模型是不完整的样本集模型一样健壮。集群2子集模型的整体性能不太好完整的样本集模型,但有限 C t 集群范围2子集是明显的从其范围的RMSE值要低得多。

详细的偏最小二乘回归模型结果土壤全碳量( C t 的子集)预测基于光谱中红外漫反射光谱分类 k ——集群分析。值的范围反映出10个随机迭代模型的结果,和数字在括号的意思。详细结果给出完整的样本集模型没有划分子集进行比较。与完整的交叉验证(即模型。,leave-one-out cross validation), the same samples used to calibrate the model were used to validate the model.

校准 验证
n 一个 R 2 , b 均方根误差(%)c n R 2 均方根误差(%) RPDd RPIQe
集群0 96年 0.78 - -0.96 1.49 - -4.07 41 0.55 - -0.91 2.08 - -4.67 1.13 - -3.20 1.77 - -5.65
(0.90) (2.45) (0.81) (3.43) (2.34) (3.31)

集群1 38 0.98 1.89 完整的交叉验证 0.86 5.19 2.62 3.93

集群2 92年 0.88 - -0.99 0.15 - -0.58 40 0.77 - -0.90 0.39 - -0.82 1.50 - -2.84 1.30 - -3.33
(0.95) (0.33) (0.85) (0.56) (2.36) (2.33)

完整的样本集 215年 0.93 - -0.98 1.68 - -3.61 92年 0.92 - -0.95 2.94 - -3.78 3.48 - -4.68 2.61 - -4.61
(0.95) (2.98) (0.94) (3.38) (4.03) (3.82)

完整的样本集 307年 0.95 3.12 完整的交叉验证 0.94 3.52 3.94 3.68

一个样品的数量。

b确定系数。

c根均方误差。

d剩余的预测偏差。

e性能比四分位的距离。

对于这个样本集,光谱分类 k ——聚类,并为每个集群不是一个独立的预测模型明显改善原始完整VNIR或米尔模型。最明显的区别是较低的RMSE子集模型从集群限于低 C t 值。

我们发现另一个研究调查的影响构造子集一组样本光谱分类的土壤碳的预测。Cierniewski et al。 17)测试的影响四个不同的无监督分类算法( k 则采用,沃德的欧氏距离,兰斯和威廉姆斯的欧几里得距离)从VNIR数据简单线性回归的结果。这些聚类算法产生五六集群,每个集群和样本的数量范围从4 - 56。这是对比的方法 k 聚类分析则使用在我们的研究中,我们指定了三个集群生产减少的概率很低的集群中的样本数量不是足够的健壮的建模。Cierniewski et al。 17)发现,大多数集群改善了子集 R 2 值相对于原始样本集。增加 R 2 没有观察到光谱分类子集在当前工作。相反,最重要的改进是一个低的RMSE集群模型子集。因为其他参数如RMSE没有提供Cierniewski et al。 17),很难判断这种行为是一种构造子集的影响研究。

3.4。预测误差百分比

子集模型与改进的RMSE值但原本不那么兴旺性能仍保持完整原始样本集模型的优势。如果一个更准确的预测的低 C t 样品能显著降低RMSE,模型可能非常有助于解决大错误在低的问题 C t 值。在这些低评价的误差 C t 值,预测误差百分比计算的样本 C t 值低于10%,平均值为每个模型(图据报道 6)。我们使用百分比误差而不是RMSE比较完整的样本集的子集模型规范化模型预测值的误差对其测量值。

平均误差百分比 C t < 10%部分(a)可见/近红外(VNIR)和(b)中红外(MIR)子集和完整的样本集模型在这个研究。值的范围反映出10个随机迭代模型的结果。VNIR和米尔高 C t 模型和米尔集群1模型不包括因为所有样品 C t > 10%。

均值的平均百分比误差为每个完整的样本集的十个迭代模型~ 160 - 200%,但单个模型的平均百分比误差可能高达近400%(图 6)。例如,1%的测量值 C t ,400%的误差会翻译的预测值5% C t 。米尔全样本集模型有较低的平均百分比误差,平均的平均百分比误差~ 135 - 150%,最大平均误差百分比~ 200%。许多低RMSE子集模型平均百分比误差明显降低。低 C t VNIR和米尔模型和集群2似乎米尔模型最重要的改进,平均% ~ 80%或更少的错误。测量值的1% C t ,百分之一的误差预测值将减少80%至1.8% C t 。集群1和2 VNIR模型还显示温和改善,与所有的平均百分比误差结果~ 175%以下。的平均误差百分比低活性粘土土壤全交叉验证模型略低于全样本集模型VNIR和米尔数据。organic-dominated土壤子集只包含两个样品 C t < 10%,所以比较平均百分比误差是不可靠的。

的子集最大减少平均预测误差百分比低 C t 内容(例如, C t < 10 % )是那些只包括低 C t 在他们的模型样品。低 C t VNIR和米尔模型包含样本 C t 值~ 0到9.9%之间 C t 和集群2米尔模型和样品 C t 值~ 0到11%之间 C t 。这些结果表明,一个单独的模型低 C t 有利于样品的准确性预测样品在这个范围内。这种优势的RMSE表示低 C t 模型,但可能不明显 R 2 参数。相对较大的问题的错误预测的样本非常低 C t 内容已被替代。据我们所知没有研究提供定量信息解决散射观察的程度低 C t 土壤在大多数预测与测量的情节。

3.5。模型参数的变化

PLSR模型参数的范围10次迭代产生的随机校准/验证设置部门在这项研究似乎比值的范围中遇到以前的研究在多个PLSR模型迭代。布朗et al。 13]报道结果5个模型从不同的随机产生分歧的样本集分成70%的校准和30%的验证组。有机碳值预测从VNIR数据从0.75到0.86不等 R 2 表示,1.08,1.26,1.95到2.62 RPD。Mouazen et al。 14包括与随机分裂成三个模型的迭代90%校准和10%验证团体在他们的研究。详尽的结果没有报告,但视觉估计从块的平均值和标准偏差 R 2 从有机碳和RMSE预测模型表明,变异是类似于布朗et al。 13)或更少。模型参数的大范围观察到在我们的研究中可能的相关测试(即更多的迭代。,10rather than five or three), or it could be related to a less obvious attribute, such as a greater variation in a spectral character within the sample set.

4所示。摘要和结论

我们的研究提供了一个介绍超样本构造子集的概念基于标准是简单和容易应用。这个调查的构造子集 C t 预测了不同的结果与我们的夏威夷土壤样本集。所有的不同子集模型基础上创建的 C t 内容、土壤秩序和光谱分类、粘土高活动订单的子集是唯一一个给改善所有参数(例如, R 2 、RMSE RPD和RPIQ)而完整的样本集。值得注意的是,发现了一个重要的优势;包括子集只低 C t 样品(例如, C t < 10%的子集,米尔集群2子集)生产模型与低得多的RMSE值与全样本集模型相比,尽管其他模型参数不健壮。为这些模型对应于较低的RMSE显著减少预测误差百分比低 C t 样品,这可能是非常有用的分析较低的土壤 C t 内容或监控的小变化 C t 。公司的低 C t 在未来子集模型预测未知的土壤 C t 创建值可以由第一次使用模型的全部可能的范围 C t 值,然后利用单独的低 C t 子集模型如果土壤是预测低 C t

从这项研究和先前的研究,构造子集可以有不同的结果的影响取决于样本集的特性,它包括样品的数量。小样本大小改善有限可能通过构造子集在当前工作。为了保持子集的大小足够大的回归分析,构造子集可能是太粗(例如,太少的子集 C t 由土壤秩序和光谱分类预测)。构造子集的类型策略探索这里可能是最有利于大型数据集,应该进一步的研究验证。无论战略用于开发一个模型,我们的研究结果表明,多个迭代模型与不同的校准/验证分组可能有助于产生一个更完整的图片整体模型的质量。

确认

这项研究受到了美国农业部CSREES TSTAR项目2009-34135-20183和嗯热带农业和人力资源学院(CTAHRs)孵化项目ha - 154。作者感谢j .亨佩尔l .西方,t . Reinsch l·阿诺德和r . nes nrc全国土壤调查中心的林肯,东北,美国寻求帮助与访问,抽样,和扫描存档样本;l·穆勒和a . Quidez帮忙扫描样本嗯;Drs。g . Uehara r·约斯特和d . Beilman嗯对这个项目的支持。他们也欣赏夏威夷土地所有者、经理和扩展代理,让他们获得各自领域收集土壤样本。这些包括从考艾岛:r . Yamakawa和j . Gordines (CTAHR),美国Lupkes(巴斯夫),和林农场;来自瓦胡岛:r·柯拉勒斯、a . Umaki和j . Grzebik (CTAHR),阿花Aina,毛泽东有机农场,Nii托儿所,j·安东尼奥和m·康威(多尔),c和p . Reppun l·圣·t·琼斯和n·达德利(HARC)和a·苏(Aloun农场);莫洛凯岛:a . Arakaki (CTAHR), k . Duvchelle (nrc)和r·福斯特(孟山都);从毛伊岛:j . Powley和d·奥卡河(CTAHR), m . Nakahata和m·罗斯(HC&S), t·卡兰德(Ulupono)和b . Abru。

里夫斯 j·B。 三世 马克卡迪 g·W。 里夫斯 诉B。 中红外漫反射光谱定量分析的农业土壤 农业与食品化学杂志》上 2001年 49 2 766年 772年 2 - s2.0 - 0035114902 10.1021 / jf0011283 马克卡迪 g·W。 里夫斯 j·B。 里夫斯 诉B。 福利特 r F。 金布尔 j . M。 中红外和近红外漫反射光谱测量土壤碳 美国土壤科学学会杂志》上 2002年 66年 2 640年 646年 2 - s2.0 - 0036119262 牧羊人 k·D。 沃尔什 m·G。 反射光谱的发展为特征的土壤属性库 美国土壤科学学会杂志》上 2002年 66年 3 988年 998年 2 - s2.0 - 0036242834 Rossel r·a·V。 Walvoort d·J·J。 McBratney 答:B。 Janik l . J。 Skjemstad j . O。 可见、近红外、中红外或结合漫反射光谱同时评估各种土壤属性 Geoderma 2006年 131年 1 - 2 59 75年 2 - s2.0 - 31944445266 10.1016 / j.geoderma.2005.03.007 Vasques g . M。 格伦沃尔德 年代。 Sickman j . O。 比较土壤碳多元推理方法建模的使用可见/近红外光谱 Geoderma 2008年 146年 1 - 2 14 25 2 - s2.0 - 48149107700 10.1016 / j.geoderma.2008.04.007 Vasques g . M。 格伦沃尔德 年代。 Sickman j . O。 使用visible-near-lnfrared光谱建模的土壤有机碳分数 美国土壤科学学会杂志》上 2009年 73年 1 176年 184年 2 - s2.0 - 60549096110 10.2136 / sssaj2008.0015 Rossel r·a·V。 behren T。 使用数据挖掘模型和解释土壤漫反射光谱 Geoderma 2010年 158年 1 - 2 46 54 2 - s2.0 - 77953621099 10.1016 / j.geoderma.2009.12.025 麦克道尔 m . L。 Bruland g . L。 Deenik j·L。 格伦沃尔德 年代。 诺克斯 n·M。 在夏威夷土土壤全碳的分析可见,近红外和中红外漫反射光谱 Geoderma 2012年 189 - 190 312年 320年 10.1016 / j.geoderma.2012.06.009 Paustian K。 Andren O。 简森 H . H。 拉尔 R。 史密斯 P。 G。 Tiessen H。 凡位于 M。 Woomer p . L。 农业土壤作为一个水槽减轻有限公司2排放 土地使用和管理 1997年 13 4 230年 244年 2 - s2.0 - 0031414815 Tiessen H。 奎瓦斯 E。 查孔 P。 土壤有机质的作用在维持土壤肥力 自然 1994年 371年 6500年 783年 785年 2 - s2.0 - 0028162303 10.1038 / 371783 a0 Craswell e . T。 勒弗罗伊 r·d·B。 在热带土壤有机质的作用和功能 农业生态系统养分循环 2001年 61年 1 - 2 7 18 2 - s2.0 - 0035717930 10.1023 /:1013656024633 拉尔 R。 土壤固碳对全球气候变化和粮食安全的影响 科学 2004年 304年 5677年 1623年 1627年 2 - s2.0 - 2942636040 10.1126 / science.1097396 布朗 d . J。 Bricklemyer r S。 米勒 p R。 验证要求漫反射率土壤特性模型的案例研究VNIR土壤C预测在蒙大拿 Geoderma 2005年 129年 3 - 4 251年 267年 2 - s2.0 - 27644476330 10.1016 / j.geoderma.2005.01.001 Mouazen a . M。 B。 De Baerdemaeker J。 拉蒙 H。 主成分之间比较,偏最小二乘和反向传播神经网络分析的测量精度选择土壤特性与可见光和近红外光谱 Geoderma 2010年 158年 1 - 2 23 31日 2 - s2.0 - 77953620835 10.1016 / j.geoderma.2010.03.001 Sarkhot d . V。 格伦沃尔德 年代。 通用电气 Y。 摩根 c·l·S。 比较和检测总分数和可用的土壤碳的使用可见/近红外漫反射光谱 Geoderma 2011年 164年 1 - 2 22 32 2 - s2.0 - 79959591355 10.1016 / j.geoderma.2011.05.006 Madari b E。 里夫斯 j·B。 科埃略 m·R。 马查多 p . l . o . A。 De-Polli H。 科埃略 r·M。 Benites 诉M。 Souza l F。 马克卡迪 g·W。 中期和近红外光谱测定的土壤碳在巴西国家土壤收藏 光谱信 2005年 38 6 721年 740年 2 - s2.0 - 29244434832 10.1080 / 00387010500315876 Cierniewski J。 Kaźmierowski C。 Kuśnierek K。 Piekarczyk J。 Krolewicz 年代。 Guliński M。 Terelak H。 Stuczyński T。 Maliszewska-Kordybach B。 无监督聚类的土壤光谱曲线与土壤特性得到更强的相关性 学报第二高光谱图像和信号处理研讨会:进化在遥感,10(低语) 2010年6月 雷克雅未克,冰岛 2 - s2.0 - 78649286674 10.1109 / WHISPERS.2010.5594852 Vasques g . M。 格伦沃尔德 年代。 哈里斯 w·G。 光谱模型的土壤有机碳在佛罗里达州,美国 《环境质量 2010年 39 3 923年 934年 2 - s2.0 - 77952224825 10.2134 / jeq2009.0314 采用AOAC公认的国际 采用AOAC公认的国际的官方的分析方法 1997年 16日 美国弗吉尼亚州阿灵顿 采用AOAC公认的国际 威廉姆斯 p C。 威廉姆斯 P。 诺里斯 K。 变量影响近红外反射光谱分析 近红外技术在农业和食品行业 1987年 圣保罗,明尼苏达州,美国 美国谷物协会的化学家 143年 167年 Bellon-Maurel V。 Fernandez-Ahumada E。 Palagos B。 罗杰 j . M。 McBratney 一个。 评论最优化指标常用来评估的质量预测土壤属性的近红外光谱 趋势分析化学 2010年 29日 9 1073年 1081年 2 - s2.0 - 77955178352 10.1016 / j.trac.2010.05.006 国际单位工作小组 w·r·B。 世界土壤资源参考基础 世界土壤资源 2006年 报告没有。103年 罗马,意大利 粮农组织