一种改进的合奏的全自动优化方法在多元校正光谱区间选择

文摘

在我们最近的工作中,蒙特卡洛交叉验证多层回归(MCCVSR)提出了实现自动优化光谱区间选择多元校正。尽管MCCVSR表现良好在正常情况下,它仍然需要改善更普遍的应用。根据著名的原则“垃圾,垃圾(GIGO)”,作为一个精确的整体方法,MCCVSR可能受到边远非常糟糕的子。本文统计测试是为了排除合奏的毁灭性的子学习过程,因此,组合过程变得更加可靠。虽然完全自动化,该方法可根据数据的性质进行了分析,包括训练样本的大小,分辨率光谱和定量的势子。子模型的有效性精炼的调查证明了一个真正的标准数据。

1。介绍

Mutivariate光谱校准是一个古老而日益增长的化学计量学的研究领域。多元校正技术非常全面,这一技术的成功应用需要从业者的经验和专业知识。多元校正建模涉及很多步骤,比如异常值诊断,代表训练样本的选择、数据预处理、模型优化和验证(1]。由于数据的复杂性和不确定性分析,上述每个流程的成功与校准,因此应该执行正确。为快速量化寻求组件的需求增加,此外,在各种复杂的化学系统参与不同的科目,自动优化多元校正建模无疑将促进化学计量学在分析化学中的应用。

现代光谱仪器可以提供数百甚至数千个波长的光谱测量在几秒钟。多元校正的重要一步是波长的选择。最受欢迎的方法,偏最小二乘(pls),例如,波长选择和模型优化通常是同时执行的。确定模型的复杂性请应该基于测量波长的最佳子集。此外,它支持实践经验(2- - - - - -5和理论研究,适当的波长选择对于多元光谱校准是必要的(6,7]。有很多文献致力于这个问题;为全面审查可以看到[8,9]。

本文是面向区间选择。首先,对于这样像近红外(NIR)光谱数据的分析渠道的一个重要特性是其连续性[10,11]。光谱校准意味着,当某一波长连续性包含有用的定量信息或被污染,所以很有可能是周边波长。因此,不同的光谱间隔将有不同的数据结构,也就是说,不同的间隔请优化模型很可能有不同的模型的复杂性。其次,对光谱数据与数百甚至数千个波长,它使波长选择过程更简单的解决波长间隔,因为间隔的数量将会比总波长小得多。作为区间选择两个先锋方法,请间隔(ipl)模型(10,11)是建立在均匀分割光谱间隔,而移动窗请(MWPLS) [12)发展间隔请模型基于光谱窗口沿着整个光谱范围。这两种方法都可以提供一个图形化展示当地间隔的量化潜在和复杂性,并提供一个简单的区间选择和模型优化的工具。最初的ipl和MWPLS选择较低的间隔错误和减少模型的复杂性。这种策略是非常合理和直观,但间隔的选择包括在联赛或确定区间边界MWPLS仍然很大程度上取决于经验。一些研究者也有助于改善和优化ipl或MWPLS [13- - - - - -15];然而,许多这些方法计算昂贵或不实现最优模型。考虑到本地数据结构,把所有看似“好”间隔为一个请模型可能不是最好的选择。由于上述原因,结合适当的小间隔模型和优化集成学习方法似乎很有吸引力。

在我们最近的工作,一种改进的整体学习法,蒙特卡洛交叉验证(MCCV) [16回归(MCCVSR)[]堆放17)是用于优化区间选择。与其他常见的整体方法,实现由平均模型组合,选择一个值等等,MCCVSR有其特有的优化目标,即MCCV的最小均方误差(RMSEMCCV)。此外,MCCVSR优雅地结合了模型在小的MCCV光谱间隔与非负最小二乘(NNLSs),这是非常经济计算。优化区间选择是通过加权子根据RMSEMCCV最低的标准。

MCCVSR执行很好当子是合理的或不是很坏。此外,它可以排除,给予这些可怜的模型在NNLS零权重。然而,关注一般使用这种方法应用于数据集时更多的不确定性,可能非常糟糕的子破坏预测的结果。根据著名的“垃圾,垃圾”的原则,与非零重量只有一个偏远的子模型组合将导致贫困的预测最终的整体模型。此外,如果存在,许多边远或很差的子他们彼此可以掩盖,非零整体模型中的权重。因此,对于获得一个自动的目的,更重要的是,一个通常可靠的算法,有必要在MCCVSR预选之前的子组合。在这项工作中,统计检验的目的是预选间隔模型来开发一个完全自动的区间选择算法和模型优化。

2。理论

2.1。MCCVSR

堆叠回归(SR) [18,19]是一个有趣的整体方法结合子没有痛苦的相关性。考虑到大量的组合系数可以提高模型的自由度并导致过度拟合,MCCV [16)引入老去改善它。因为MCCV允许大量的采样时间和高百分比的遗漏样本,它可以有效地减少过度拟合的子和组合的风险。MCCVSR优化组合模型如下:

的列向量包含参考浓度的遗漏值在MCCV取样和样品包含相应的子模型的预测值()。的向量包含了模型系数和组合K子的数量。

结合系数向量,,在(1)由NNLS容易计算,已被证明是更适合组合比普通最小二乘法通过避免过大的重量有些子(19]。预测的组合模型可以表示为:

在哪里子模型的预测未知样品的浓度吗()。MCCVSR的更多细节可以在[17]。

2.2。精炼的子的统计测试

在这里,介绍了统计方法来测试相关系数的意义,之间,()和相应的参考价值,。只有子sigificantly足够的相关系数可以包含的组合。因为样本分布的相关系数比这要复杂得多的方式或差异,费雪的近似正常的转换(20.,21的来使用:

新大约正常统计有一个预期的标准偏差靠近,在那里是采样向量的长度。获得的以及价值被称为正态分布来测试是否sigificantly大于一个阈值。考虑不同数据集的性质,上述阈值的重要性水平和单侧检验应可调。例如,考虑到常用的显著性水平,0.05,当光谱间隔非常有效的定量分析,可以采用更高的阈值,反之亦然。在这篇文章中,默认阈值的相关系数是0.80。

2.3。通过改进MCCVSR优化区间选择

MCCVSR的原始论文,子建在进化光谱间隔(17)的总和。MCCVSR优化区间选择通过加权子达到最低RMSEMCCV值在所有组合与非负约束模型。只是需要做MCCV NNLS小间隔模型,结合起来,这是非常经济计算。

为了达到更精密时间间隔选择,移动窗口的概念引入MCCVSR。一步的间隔模型可以调整光谱数据的分辨率。例如,波长步骤1,2,3,4,5或其他正整数。一个默认的波长步骤5和30本文采用窗口的宽度。当然,对于光谱数据和高分辨率,是明智的有更大的进化步骤节省计算时间。

3所示。数据描述

为了测试该方法的性能,一个标准的真实数据集是调查。

温度数据(2219)光谱混合的乙醇、水和异丙醇的光谱被记录在一个纯化合物紫外可见光谱惠普8453光谱仪。光谱范围从580 - 1091吗?与1海里?n米increment are measured at 30, 40, 50, 60, and 70 degrees Celsius. Representative samples measured at the five temperatures are selected to form a training set to predict concentrations of the three components.

4所示。结果和讨论

数据集19 3组件的混合物,乙醇,水和异丙醇,与纯组件以5个不同的温度,所以我们有完全110个样本。开发全球校正模型预测的百分比3组件,在每个温度、双法(23]一致选择16个样本用于培训和6个样品测试。我们有80个样本训练集和测试集的30个样品。一些最初的训练光谱绘制在图1。

对于每一个组件,请模型总光谱范围,MCCVSR模型和改进的MCCVSR模型构建与精炼步骤。请模型和请间隔模型的复杂性是由MCCV,采样时间是50,每次50百分比训练样本的预测。潜变量的数量是如此确定,RMSEMCCV值最小化。的根均方误差校准(RMSEC)和均方误差的预测(RMSEP)是用来评估模型的质量。模型的结果请与总光谱范围中列出表1。从表可以看出1,请在这些潜变量模型的数量远远大于3,表明数据的高复杂性。从本质上讲,受温度变化和其他因素的影响,光谱还远未预期的一个常见的三分量的系统。此外,需要注意的是,RMSEP值远高于RMSEC值。很明显,一些光谱间隔是复杂和全球模型包含许多non-concentration-correlated变化;因此,它是非常必要的进行波长选择。


组件		RMSEMCCV	RMSEC	RMSEP

乙醇	12	0.0098	0.0287	0.0257
水	13	0.0038	0.0094	0.0136
异丙醇	12	0.0082	0.0225	0.0212

请潜变量的数量。

对于MCCVSR模型,请子都是建立在光谱区间沿着光谱范围。区间包含30个波长,其步骤是将5波长,所以我们有97区间模型。所有的间隔模型的复杂性是由MCCV上面描述。对于每个区间模型,请确定潜在变量的数量获得RMSEMCCV值最低。子会结合,如(1)。作为一个例子,图2提出了优化区间模型的复杂性及其RMSEMCCV值预测乙醇。如图2本地数据结构非常复杂,因为一些复杂性较低的区间模型有更高的RMSEMCCV值虽然许多间隔模型与更高的复杂性呈现更好的定量潜力。因此,一个直观的选择区间的低复杂度和错误并不容易,这个过程的自动化是必要的。MCCVSR的组合系数和MCCVSR预测子模型提炼的乙醇是绘制在图3。在这里,显著性水平的测试将0.05和相关系数的阈值是0.80。从图3,与子模型精炼可以看出,一些间隔模型被排除在最终的组合,包括两个子零MCCVSR权重。这种变化似乎太微不足道但不应被忽视。考虑NNLS的性质,当大多数的子(预测)非常准确,MCCVSR反对坏子的力量很强,这种情况如上所述。然而,当光谱间隔一般定量差势,MCCVSR容易包括非常糟糕的模型。

(一)

(b)

(一)

(b)

的校准结果获得的三个组件组合模型是列在表中2。与总光谱范围请模型相比,组合模型证明改进的训练和预测RMSEC和RMSEP表演。与区间模型雅致,用于组合子的数量减少了,但精度。


组件			RMSEMCCV		RMSEC		RMSEP

			1	2	1	2	1	2
乙醇	97年	67年	0.0137	0.0138	0.0103	0.0104	0.0183	0.0185
水	97年	81年	0.0094	0.0094	0.0077	0.0078	0.0121	0.0120
异丙醇	97年	72年	0.0136	0.0137	0.0109	0.0109	0.0170	0.0164

子数量组合。通过MCCVSR获得。通过MCCVSR子模型精炼。

一些参数参与MCCVSR应该讨论。执行MCCV时,两个重要的参数是忽略时样品的百分比和采样时间。一般来说,只要离群值删除,计算时间允许,一个更大的采样时间和更高比例的忽略时样品有助于减少过度拟合的风险在单独的子和组合。另一方面,忽略时样品的比例可以调整根据训练样本的大小,以便有足够的代表性样本进行建模。光谱区间的大小和发展步骤也可调。首先,间隔应包含足够的波长(至少20个频道)构建一个稳定的校准模型。其次,可以更大的进化步骤节省时间当光谱分辨率高。执行统计检验时,给定的显著性水平为0.05,为了有足够的模型组合,相关系数的阈值可以根据定量调整势子。0.80建议的经验值,这就足以消除边远模型。

5。结论

在我们最近的工作,MCCVSR已被证明是一个计算波长选择的经济和有效的方法。为了使MCCVSR算法更可靠和完全自动化的波长选择、统计测试是为了排除外围子从整体学习最后没有或很少退化模型的精度。通过研究一个真实的数据集,改进MCCVSR方法执行几乎以及原始算法的训练和预测。此外,随着越来越细化的子,最后结合肯定会更可靠。此外,该算法是完全自动的,可根据数据的性质进行了分析。虽然只是波长选择解决的问题,很明显,精炼的想法子之前整体组合通常是有利于多元校正与整体方法像装袋24]。最后,该方法可以自动执行可靠的波长选择和强劲的反对贫穷间隔模型而不是离群值参考浓度(y)或光谱(X)。因此,它不是一个健壮的多元校正方法像健壮的主成分回归25,26和健壮的请27),离群值应该在校准中。

确认

这项工作被农业部财政支持中华人民共和国的中国(授予。2009 zx08012 - 013 b)。作者感谢你们Zi-Hong和鑫达林的讨论

引用

h·马顿斯和t . Næs多元校正约翰•威利& Sons奇切斯特,英国,1989年。
c·w·布朗·f·林奇r . j . Obremski和d s拉威利,“矩阵表示和选择标准分析波长多组分光谱分析,“分析化学,54卷,不。9日,第1479 - 1472页,1982年。视图:出版商的网站|谷歌学术搜索
s·d·弗兰斯和j·m·哈里斯,”选择的多组分分析波长光谱光度测量的决心,“分析化学卷,57号13日,2680 - 2684年,1985页。视图:出版商的网站|谷歌学术搜索
j . h . Kalivas n .罗伯茨和j·m·萨特“全局优化的模拟退火与紫外-可见分光光度法、波长选择”分析化学,卷61,不。18日,第2030 - 2024页,1989年。视图:出版商的网站|谷歌学术搜索
d . Jouan-Rimbaud查克,d . l .设计学院i r .最后,和k . a . Prebble”比较多元方法基于潜在的向量和方法基于波长选择近红外光谱分析的数据,”分析Chimica学报,卷304,不。3、285 - 295年,1995页。视图:出版商的网站|谷歌学术搜索
c . h . Spiegelman m·j·麦柯肖恩·m·j . Goetz m . Motamedi问:l .悦和g . l .象牙海岸”理论在请标定波长选择的理由:新算法的发展,“分析化学,卷70,不。1,35-44,1998页。视图:出版商的网站|谷歌学术搜索
b•纳德勒和r . r . Coifman CLS的预测误差,请:特征选择的重要性多元校正之前,“化学计量学杂志》,19卷,不。2、107 - 118年,2005页。视图:出版商的网站|谷歌学术搜索
a . Hoskuldsson”请回归变量和子集选择”,化学计量学和智能实验室系统,55卷,不。1 - 2日,政府,2001页。视图:出版商的网站|谷歌学术搜索
l .徐和W.-J。张,比较不同的变量选择方法,“分析Chimica学报,卷446,不。1 - 2、477 - 483年,2001页。视图:出版商的网站|谷歌学术搜索
l . Nørgaard a . Saudland j·瓦格纳,j·p·尼尔森,l . Munck和s . b . Engelsen”间隔偏最小二乘回归(ipl):比较最优化研究近红外光谱分析的一个例子,“应用光谱学,54卷,不。3、413 - 419年,2000页。视图:出版商的网站|谷歌学术搜索
Munck l . j .婴儿车尼尔森b . Møller et al .,“探索监管proteome-altering基因的表型表达的光谱和化学计量学,”分析Chimica学报,卷446,不。1 - 2、171 - 186年,2001页。视图:出版商的网站|谷歌学术搜索
黄永发。江,r·詹姆斯·贝瑞、h·w·Siesler和y Ozaki“波长区间选择在多组分光谱分析通过移动窗口偏最小二乘回归应用中红外和近红外光谱数据,”分析化学,卷74,不。14日,第3565 - 3555页,2002年。视图:出版商的网站|谷歌学术搜索
r . Leardi和l . Nørgaard”顺序向后间隔偏最小二乘法和遗传算法的应用相关的光谱区域的选择,”化学计量学杂志》,18卷,不。11日,第497 - 486页,2004年。视图:出版商的网站|谷歌学术搜索
y·杜y z梁,j . h .江r·j·贝瑞和y Ozaki,“光谱区域选择的PLS模型提高预测能力的大小移动窗口偏最小二乘和搜索结合移动窗口偏最小二乘回归,”分析Chimica学报,卷501,不。2、183 - 191年,2004页。视图:出版商的网站|谷歌学术搜索
j·a·克莱默k·e·克雷默k·j·约翰逊,r·e·莫里斯和s . l . Rose-Pehrsson”自动波长选择光谱燃料由对称收缩模型重复静止的窗口偏最小二乘回归,”化学计量学和智能实验室系统,卷92,不。1,13-21,2008页。视图:出版商的网站|谷歌学术搜索
Q.-S。徐和Y.-Z。梁:“蒙特卡洛交叉验证,”化学计量学和智能实验室系统卷,56号1、1 - 11,2001页。视图:出版商的网站|谷歌学术搜索
l .徐黄永发。江,Y.-P。周,H.-L。吴,G.-L。沈,R.-Q。Yu”MCCV堆叠和快速回归的模型组合在多元校正光谱区间选择,”化学计量学和智能实验室系统,卷87,不。2、226 - 230年,2007页。视图:出版商的网站|谷歌学术搜索
d·沃伯特”,数学理论的概括:第一部分,第二部分,“复杂的系统4卷,第200 - 151页,1990年。视图:谷歌学术搜索
l . Breiman“堆叠回归”,机器学习,24卷,不。1,49 - 64年,1996页。视图:谷歌学术搜索
r·a·费舍尔“频率分布样本的相关系数的值从一个无限期的人口多,“生物统计学,10卷,不。4、507 - 521年,1915页。视图:谷歌学术搜索
d·l·霍金斯,”使用 $U$ 统计得到费舍尔的渐近分布 $Z$ 统计。”美国统计学家,43卷,不。4、235 - 237年,1989页。视图:出版商的网站|谷歌学术搜索
f . Wulfert w . Th。角,a . k . Smilde“温度对振动光谱的影响和后果的预测能力多元模型,”分析化学,卷70,不。9日,第1767 - 1761页,1998年。视图:出版商的网站|谷歌学术搜索
r·d·斯尼”,回归模型的验证方法和例子,”技术计量学,19卷,不。4、415 - 428年,1977页。视图:出版商的网站|谷歌学术搜索
l . Breiman“装袋预测”,机器学习,24卷,不。2、123 - 140年,1996页。视图:谷歌学术搜索
m·休伯特和美国Verboven”,一个健壮的PCR方法对高维解释变量,“化学计量学杂志》,17卷,不。8 - 9,438 - 452年,2003页。视图:出版商的网站|谷歌学术搜索
m·休伯特和k . Vanden Branden“健壮的偏最小二乘回归方法,”化学计量学杂志》,17卷,不。10日,537 - 549年,2003页。视图:出版商的网站|谷歌学术搜索
s . Serneels c . Croux p Filzmoser, p . j·范·埃斯“部分M-regression强劲,”化学计量学和智能实验室系统,卷79,不。1 - 2,55 - 64、2005页。视图:出版商的网站|谷歌学术搜索

分析方法在化学杂志》上

文摘