构造子集的样本是一个前途的研究项目的持续改进与漫反射光谱学为土壤属性预测模型。本研究调查了影响土壤总碳(构造子集的
漫反射光谱(DRS)和最优化分析已经成为受欢迎的学科研究的潜力预测土壤碳和其他属性。这种方法可以有利于土壤质量监测和时间变化,以及帮助促进数字土壤制图工作。可见/近红外(VNIR)和中红外(MIR)光谱显示承诺的预测土壤全碳量(
偏最小二乘回归(PLSR)似乎是最广泛使用的最优化方法,开发从土壤漫反射光谱预测模型。样本集是通常与更大的分成两组用于校准和验证近似真实的较小的独立的模型验证,但没有明确的或一致的指导方针已经采用这一过程。模型结果已知随不同分组的校准和验证集样品。为了解决这个问题,一些研究已经创建了多个模型,每个都有不同的随机样本集的分歧在校准和验证集,以反映可能结果的范围(
DRS需要高度精确的预测模型是一种有效的方法在实际应用土壤碳的决心。许多统计健壮的模型已经开发(例如,
当前的工作旨在改进的预测
本研究的样本集是由307个土壤样本收集五个主要考艾岛的夏威夷群岛,瓦胡岛、莫洛凯岛、毛伊岛和夏威夷,见图
分布的土壤样本收集网站整个夏威夷群岛与象征颜色指示土壤秩序。
干式燃烧是用来测量
可见/近红外漫反射光谱收集从渗土壤样本的2毫米的Agrispec光谱仪和muglight光源(分析光谱设备,Inc .,博尔德有限公司,美国)。Agrispec有三个探测器光谱范围总计350至2500海里,采样间隔1海里,光谱分辨率从3海里(700海里)10 nm(1400海里)。每一个土样测定三次,与样品杯旋转20°之间测量。三谱平均为每个样本生成最终的频谱。Spectralon(美国北萨顿Labsphere NH)白色参考测量作为参考光谱开始每个会话之后再一次每30分钟或更少。涵盖的范围略有偏移反射之间的第一和第二探测器观察在许多光谱,因此,我们删除990 - 1010 nm的狭窄区域最后的光谱进行分析。这些土壤的VNIR光谱一般展览功能相关的哦−H2啊,铁氧化物、层状硅酸盐和有机分子。回归分析的光谱转换使用的预处理确认为最有效的数据集在麦克道尔et al。
中红外漫反射光谱收集从球磨样品以简洁的形式,弯刀2000红外光谱谱仪(瓦里安,Inc .,现在安捷伦科技,圣克拉拉,CA,美国)和漫反射率红外傅里叶变换(漂移)配件。光谱范围是400到6000厘米−1,采样间隔2厘米−1和光谱分辨率4厘米−1(注意:我们的米尔光谱重叠的范围略VNIR光谱范围。)光谱为背景大气纠正和仪器效果的谱减法的溴化钾粉末之间的测量每七样本,但在两个狭窄的区域特征依然存在。因此,我们排除了1350 - 1419厘米的区域−1和2281 - 2449厘米−1从分析。在这些土壤的米尔光谱特性归因于哦−、有机分子和各种各样的硅酸盐矿物。基于麦克道尔的发现等。
偏最小二乘回归(PLSR)是用来为C开发的最优化模型t预测。模型使用辨音器生成X软件包(美国新泽西州伍德布里奇迷彩伪装软件有限公司)。光谱范围包括在分析减少略通过移除任何高噪声部分范围的限制;因此,VNIR光谱被限制的范围425 - 2450 nm,和米尔光谱被限制在489 - 5300厘米−1。所有光谱都意味着PLSR集中分析。选择回归的最优数量的因素分别为每个模型基于解释方差最大化但在拟合的可能性最小化。我们考虑几个参数评估模型的质量,包括确定系数(
我们选择构造子集策略背后的动机是提高
一个简单的分组土壤的低和高
近似独立的验证,样品被随机分成一组为70%,模型校准和模型验证为30%。这个随机选择重复生产10迭代的校准/验证对全样本集。这种分裂后,样品从每个迭代分为低
四个广泛的土壤组创建基于通用土壤秩序的相似性和可用的样本数量的类型。allophane-dominated火山Andisol土壤组成一组(
土壤属性选择为每个样本土壤分组用于构造子集的秩序。值在表中列出的最大值和最小值的特定子集,意味着在括号中。提供数据为样本自然资源保护服务(nrc)档案是可用的。(即组成信息。,pH值,texture, Al, Ca, and Fe) for the samples newly collected in 2010 has yet to be determined.
| 总碳wt % | 有机碳wt % | 粘土wt % | 淤泥wt % | 砂wt % | pH值 | 总Al wt % | 总Ca wt % | 总铁wt % | |
|---|---|---|---|---|---|---|---|---|---|
| Andisol |
-51 - 0.24 |
0.39 - -55.59 | 0.3 - -59.8 | 4.7 - -81.3 | 2.4 - -94.9 | 3.7 8 |
1.58 - -13.89 | 0.025 - -4.80 | 7.33 - -22.63 |
| (13.39) | (12.53) | (17.26) | (40.62) | (42.83) | (5.66) | (8.54) | (0.64) | (15.49) | |
|
|
|||||||||
| 高活动粘土土壤 |
0.21 - -53.63 | 0.3 - -14.65 | 0.2 - -66.7 | 10.8 - -93.2 | 0.4 - -88.6 | 3.3 - -8.3 | 10.95一个 | 0.52一个 | 10.13一个 |
| (14.51) | (3.94) | (25.72) | (44.08) | (30.21) | (5.89) | ||||
|
|
|||||||||
| 低活性粘土土壤 |
-10 - 0.15 |
0.2 - -3.58 |
7.6 - -88.7 | 10.4 - -69.5 | 0.75 - -69.8 | 4.5 - -7.3 | 7.66 - -9.61 | 0.049 - -0.16 | 13.43 - -27.03 |
| (1.65) | (1.11) | (47.52) | (34.86) | (17.61) | (5.92) | (8.28) | (0.096) | (23.23) | |
|
|
|||||||||
| Organic-dominated土壤 |
5 - 55.29 | 2.62 - -54.98 | 4.4 - -67.6 | 11.5 - -45.7 | 1.3 - -84.1 | 3.3 - -5.8 | 不可用 | ||
| (36.19) | (20.26) | (31.68) | (30.45) | (37.86) | (4.29) | ||||
一个只有一个数据点。
平均(a)可见/近红外(VNIR)和(b)中红外漫反射光谱(MIR)土壤组用于构造子集的秩序。虚线代表一个标准差的平均值。
完整的样本集10次随机分为一组样本的70%用于回归模型的校准和30%的样本用于验证。这种分裂后,每个样品十迭代分组根据土壤如上所述。单独VNIR然后米尔回归模型为每个土壤组开发在每个子集的十个校准/验证迭代。因为低活性粘土和organic-dominated土壤样本的数量很小(例如,≤80),完整的交叉验证(即。,leave-one-out cross validation) was used with the regression models for these two groups rather than committing 30% of those samples to validation as with the other subsets. Additional models were created from the 10 calibration/validation divisions of the full sample set with no separation of soil order for the comparison of results without subsetting. A full cross validation model of the full sample set was developed to be compared with the low activity clay and organic-dominated soil subsets’ full cross validation models.
我们分组土壤样品光谱特征背后的基本原理是基于假设这种方法删除主要光谱变化考虑,这样小规模的变化是用来产生一个更精致的
光谱分类是由子集
VNIR模型子集
详细的偏最小二乘回归模型结果土壤全碳量(
| 校准 | 验证 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
|
|
|
均方根误差(%)c |
|
|
均方根误差(%) | RPDd | RPIQe | ||
|
|
133 - 147 | 0.43 - -0.80 | 1.08 - -1.78 | 56 - 70 | 0.47 - -0.76 | 1.27 - -1.97 | 1.37 - -2.03 | 1.77 - -2.88 | |
| (0.64) | (1.46) | (0.61) | (1.59) | (1.63) | (2.12) | ||||
|
|
|||||||||
|
|
68 - 82 | 0.77 - -0.93 | 3.86 - -7.00 | 22-36 | 0.77 - -0.91 | 3.96 - -7.65 | 2.05 - -3.21 | 2.38 - -5.16 | |
| (0.86) | (5.33) | (0.84) | (5.87) | (2.55) | (4.02) | ||||
|
|
|||||||||
| 完整的样本集 | 215年 | 0.81 - -0.96 | 2.88 - -5.87 | 92年 | 0.81 - -0.95 | 2.82 - -7.18 | 2.27 - -4.47 | 2.08 - -4.35 | |
| (0.91) | (4.06) | (0.91) | (4.24) | (3.46) | (3.19) | ||||
一个样品的数量。
b确定系数。
c根均方误差。
d剩余的预测偏差。
e性能比四分位的距离。
偏最小二乘回归模型结果的视觉评估土壤总碳(
米尔的结果
详细的偏最小二乘回归模型结果土壤全碳量(
| 校准 | 验证 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
|
|
|
均方根误差(%)c |
|
|
均方根误差(%) | RPDd | RPIQe | ||
|
|
133 - 147 | 0.86 - -0.99 | 0.21 - -0.87 | 56 - 70 | 0.71 - -0.86 | 0.94 - -1.26 | 1.84 - -2.64 | 2.24 - -3.66 | |
| (0.94) | (0.58) | (0.82) | (1.10) | (2.34) | (3.05) | ||||
|
|
|||||||||
|
|
68 - 82 | 0.91 - -0.99 | 1.11 - -4.47 | 22-36 | 0.90 - -0.95 | 3.48 - -4.93 | 3.18 - -4.29 | 3.10 - -8.42 | |
| (0.95) | (3.10) | (0.92) | (4.17) | (3.55) | (5.75) | ||||
|
|
|||||||||
| 完整的样本集 | 215年 | 0.94 - -0.99 | 1.61 - -3.40 | 92年 | 0.91 - -0.96 | 2.87 - -4.48 | 3.33 - -4.87 | 2.36 - -5.69 | |
| (0.96) | (2.61) | (0.94) | (3.38) | (4.07) | (3.74) | ||||
一个样品的数量。
b确定系数。
c根均方误差。
d剩余的预测偏差。
e性能比四分位的距离。
从这些结果,似乎一个单独的高
先前的研究结果不同检查单独的行为模型基于碳含量。Madari et al。
VNIR模型的结果从土壤中有序子集给出了表
详细的偏最小二乘回归模型结果土壤全碳量(
| 校准 | 验证 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
|
|
|
均方根误差(%)c |
|
|
均方根误差(%) | RPDd | RPIQe | ||
| Andisol土壤 | 64 - 71 | 0.62 - -0.86 | 2.71 - -7.75 | 25-32 | 0.37 - -0.93 | 3.38 - -7.48 | 1.01 - -3.80 | 1.29 - -3.38 | |
| (0.72) | (4.64) | (0.69) | (4.85) | (2.02) | (2.28) | ||||
|
|
|||||||||
| 高活动粘土土壤 | 67 - 72 | 0.86 - -0.98 | 2.38 - -5.17 | 29-34 | 0.74 - -0.98 | 2.19 - -6.31 | 1.89 - -7.74 | 0.71 - -3.03 | |
| (0.93) | (3.73) | (0.90) | (4.02) | (4.12) | (1.68) | ||||
|
|
|||||||||
| 低活性粘土土壤 | 75年 | 0.82 | 0.72 | 完整的交叉验证 | 0.74 | 0.90 | 1.93 | 1.82 | |
|
|
|||||||||
| Organic-dominated土壤 | 26 | 0.96 | 3.35 | 完整的交叉验证 | 0.92 | 5.16 | 3.30 | 6.26 | |
|
|
|||||||||
| 完整的样本集 | 215年 | 0.82 - -0.96 | 2.89 - -5.96 | 92年 | 0.79 - -0.95 | 2.96 - -6.03 | 2.25 - -4.43 | 2.07 - -4.53 | |
| (0.92) | (3.89) | (0.91) | (4.02) | (3.58) | (3.42) | ||||
|
|
|||||||||
| 完整的样本集 | 307年 | 0.95 | 3.09 | 完整的交叉验证 | 0.94 | 3.39 | 4.09 | 3.80 | |
一个样品的数量。
b确定系数。
c根均方误差。
d剩余的预测偏差。
e性能比四分位的距离。
偏最小二乘回归模型结果的视觉评估土壤总碳(
表
详细的偏最小二乘回归模型结果土壤全碳量(
| 校准 | 验证 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
|
|
|
均方根误差(%)c |
|
|
均方根误差(%) | RPDd | RPIQe | ||
| Andisol土壤 | 64 - 71 | 0.84 - -0.96 | 1.92 - -3.02 | 25-32 | 0.41 - -0.92 | 2.99 - -6.94 | 1.12 - -3.60 | 1.87 - -4.09 | |
| (0.91) | (2.49) | (0.79) | (4.03) | (2.33) | (2.66) | ||||
|
|
|||||||||
| 高活动粘土土壤 | 67 - 72 | 0.96 - -0.99 | 0.96 - -2.71 | 29-34 | 0.95 - -0.99 | 1.70 - -3.60 | 4.34 - -9.81 | 0.92 - -4.38 | |
| (0.98) | (1.74) | (0.96) | (2.65) | (5.57) | (2.44) | ||||
|
|
|||||||||
| 低活性粘土土壤 | 75年 | 0.98 | 0.24 | 完整的交叉验证 | 0.79 | 0.80 | 2.10 | 2.01 | |
|
|
|||||||||
| Organic-dominated土壤 | 26 | 0.97 | 2。9 | 完整的交叉验证 | 0.86 | 6.7 | 2.52 | 4.78 | |
|
|
|||||||||
| 完整的样本集 | 215年 | 0.94 - -0.98 | 1.94 - -3.50 | 92年 | 0.91 - -0.96 | 2.74 - -3.91 | 3.38 - -5.07 | 3.22 - -5.27 | |
| (0.96) | (2.78) | (0.94) | (3.39) | (4.07) | (3.89) | ||||
|
|
|||||||||
| 完整的样本集 | 307年 | 0.95 | 3.12 | 完整的交叉验证 | 0.94 | 3.52 | 3.94 | 3.68 | |
一个样品的数量。
b确定系数。
c根均方误差。
d剩余的预测偏差。
e性能比四分位的距离。
这些结果表明,一个独立的预测模型为高活动粘土订单可能有轻微的优势相比,模型与所有可用土壤订单VNIR和米尔的光谱数据集。独立的预测模型对于其他土壤子集不似乎是有前途的。
一项由Madari et al。
Vasques et al。
的
详细的偏最小二乘回归模型结果土壤全碳量(
| 校准 | 验证 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
|
|
|
均方根误差(%)c |
|
|
均方根误差(%) | RPDd | RPIQe | ||
| 集群0 | 78年 | 0.93 | 4.52 | 完整的交叉验证 | 0.88 | 5.87 | 2.86 | 5.40 | |
|
|
|||||||||
| 集群1 | 87年 | 0.68 - -0.88 | 1.92 - -3.26 | 37 | 0.60 - -0.91 | 1.74 - -3.47 | 1.54 - -3.33 | 1.94 - -5.50 | |
| (0.77) | (2.86) | (0.75) | (2.89) | (2.16) | (3.14) | ||||
|
|
|||||||||
| 集群2 | 73年 | 0.54 - -0.96 | 0.65 - -2.22 | 32 | 0.62 - -0.91 | 0.98 - -1.72 | 1.67 - -3.34 | 0.79 - -2.56 | |
| (0.81) | (1.29) | (0.80) | (1.33) | (2.39) |
(1.71) | ||||
|
|
|||||||||
| 完整的样本集 | 215年 | 0.83 - -0.96 | 2.82 - -5.84 | 92年 | 0.74 - -0.95 | 3.10 - -5.83 | 1.89 - -4.54 | 1.80 - -3.92 | |
| (0.90) | (4.30) | (0.88) | (4.30) | (3.28) | (3.06) | ||||
|
|
|||||||||
| 完整的样本集 | 307年 | 0.95 | 3.09 | 完整的交叉验证 | 0.94 | 3.39 | 4.09 | 3.80 | |
一个样品的数量。
b确定系数。
c根均方误差。
d剩余的预测偏差。
e性能比四分位的距离。
偏最小二乘回归模型结果的视觉评估土壤总碳(
在米尔谱的聚类分析,样本的权重分配,对集群(样本,137 ~ 0 - 52%
详细的偏最小二乘回归模型结果土壤全碳量(
| 校准 | 验证 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
|
|
|
均方根误差(%)c |
|
|
均方根误差(%) | RPDd | RPIQe | ||
| 集群0 | 96年 | 0.78 - -0.96 | 1.49 - -4.07 | 41 | 0.55 - -0.91 | 2.08 - -4.67 | 1.13 - -3.20 | 1.77 - -5.65 | |
| (0.90) | (2.45) | (0.81) | (3.43) | (2.34) | (3.31) | ||||
|
|
|||||||||
| 集群1 | 38 | 0.98 | 1.89 | 完整的交叉验证 | 0.86 | 5.19 | 2.62 | 3.93 | |
|
|
|||||||||
| 集群2 | 92年 | 0.88 - -0.99 | 0.15 - -0.58 | 40 | 0.77 - -0.90 | 0.39 - -0.82 | 1.50 - -2.84 | 1.30 - -3.33 | |
| (0.95) | (0.33) | (0.85) | (0.56) | (2.36) | (2.33) | ||||
|
|
|||||||||
| 完整的样本集 | 215年 | 0.93 - -0.98 | 1.68 - -3.61 | 92年 | 0.92 - -0.95 | 2.94 - -3.78 | 3.48 - -4.68 | 2.61 - -4.61 | |
| (0.95) | (2.98) | (0.94) | (3.38) | (4.03) | (3.82) | ||||
|
|
|||||||||
| 完整的样本集 | 307年 | 0.95 | 3.12 | 完整的交叉验证 | 0.94 | 3.52 | 3.94 | 3.68 | |
一个样品的数量。
b确定系数。
c根均方误差。
d剩余的预测偏差。
e性能比四分位的距离。
对于这个样本集,光谱分类
我们发现另一个研究调查的影响构造子集一组样本光谱分类的土壤碳的预测。Cierniewski et al。
子集模型与改进的RMSE值但原本不那么兴旺性能仍保持完整原始样本集模型的优势。如果一个更准确的预测的低
平均误差百分比
均值的平均百分比误差为每个完整的样本集的十个迭代模型~ 160 - 200%,但单个模型的平均百分比误差可能高达近400%(图
的子集最大减少平均预测误差百分比低
PLSR模型参数的范围10次迭代产生的随机校准/验证设置部门在这项研究似乎比值的范围中遇到以前的研究在多个PLSR模型迭代。布朗et al。
我们的研究提供了一个介绍超样本构造子集的概念基于标准是简单和容易应用。这个调查的构造子集
从这项研究和先前的研究,构造子集可以有不同的结果的影响取决于样本集的特性,它包括样品的数量。小样本大小改善有限可能通过构造子集在当前工作。为了保持子集的大小足够大的回归分析,构造子集可能是太粗(例如,太少的子集
这项研究受到了美国农业部CSREES TSTAR项目2009-34135-20183和嗯热带农业和人力资源学院(CTAHRs)孵化项目ha - 154。作者感谢j .亨佩尔l .西方,t . Reinsch l·阿诺德和r . nes nrc全国土壤调查中心的林肯,东北,美国寻求帮助与访问,抽样,和扫描存档样本;l·穆勒和a . Quidez帮忙扫描样本嗯;Drs。g . Uehara r·约斯特和d . Beilman嗯对这个项目的支持。他们也欣赏夏威夷土地所有者、经理和扩展代理,让他们获得各自领域收集土壤样本。这些包括从考艾岛:r . Yamakawa和j . Gordines (CTAHR),美国Lupkes(巴斯夫),和林农场;来自瓦胡岛:r·柯拉勒斯、a . Umaki和j . Grzebik (CTAHR),阿花Aina,毛泽东有机农场,Nii托儿所,j·安东尼奥和m·康威(多尔),c和p . Reppun l·圣·t·琼斯和n·达德利(HARC)和a·苏(Aloun农场);莫洛凯岛:a . Arakaki (CTAHR), k . Duvchelle (nrc)和r·福斯特(孟山都);从毛伊岛:j . Powley和d·奥卡河(CTAHR), m . Nakahata和m·罗斯(HC&S), t·卡兰德(Ulupono)和b . Abru。