HPLC-DAD数据集的分解模型和粒子群优化的解决方案

文摘

提出了一种分离方法,基于广义参考曲线测量的模型和粒子群优化算法(GRCM-PSO)的高效液相色谱二极管阵列检测(HPLC-DAD)数据集。首先,初始参数构造参考曲线生成化合物的色谱峰根据其物理原理。然后,一般参考曲线测量(GRCM)模型旨在改变这些参数来标量值,标明所有参数的适应性。第三,粗略的解决方案被发现通过搜索个人目标为每个参数,仅只有这些粗糙的执行解决方案。然后,采用粒子群优化(PSO)算法获得最优参数通过最小化这些新参数的健身GRCM模型。最后,化合物的光谱估计基于最优参数和HPLC-DAD数据集。通过模拟和实验,结论是:(1)GRCM-PSO方法可以从HPLC-DAD色谱峰纯度分离和光谱数据集不知道提前化合物的数量甚至存在严重的重叠和白噪声时;(2)GRCM-PSO方法能够处理实际HPLC-DAD数据集。

1。介绍

经过100多年的发展,色谱技术已成为集体的一组实验室质量控制技术等各种混合物的草药,葡萄酒,农业,和石油。色谱仪器的发展,高效液相色谱二极管阵列检测器(HPLC-DAD)技术被用在许多研究来生成一个数据集包含所有化合物的色谱峰和光谱。图1显示了HPLC-DAD数据集的原则。样品注射进样。高压泵驱动溶剂携带样品通过列与吸收剂。不同的化合物将得到不同的电阻时经过的列。给定一个紫外探测器底部的列,色谱峰为代表将观察到当一个复合列出来。峰的位置和区域的名称和数量可以告诉化合物。如果探测器是爸爸,有超过一千个频道同时检测得出,同一化合物的光谱为代表也会被记录。代表th复合,代表了混合物。变量在图之间的关系1可以显示为在哪里表明这些化合物的数量。

的数据集在(1),已经有几个方法来分离,但不足。进化算法的因子分析(必需)1,2等)及其改进进化因素分析(EVOLU) [3),固定大小的滑动窗口发展因素分析(FSMWEFA) [4],启发式发展潜在的预测(帮助)5),和正交投影的分辨率(超载比)6)用于峰纯度,但没有完整的定量信息。多元曲线分辨率的方法与交替最小二乘(MCR-ALS) [7,8)可以恢复纯物种光谱和洗脱概要文件。然而,MCR-ALS方法时将不可用化合物变得复杂(见模拟)。和MCR-ALS方法的性能取决于两个重要参数:(1)阈值决定化合物的数量;(2)数据的噪声电平设置初始谱估计。通常,不容易决定这两个参数噪声存在时(见附录一个解释)。免疫算法(IA) (9,10)可以从噪声中提取的化合物。但是,化合物的色谱峰纯度标准是需要提前从实验中。独立分量分析(ICA)的方法11)可以单独HPLC-DAD数据集不知道提前化合物的数量。但集群方法仍需要从获得的独立的组件选择化合物。我们之前的工作提出了一个名为独立分量分析模型受到参考曲线(ICARC)及其解决方案,multiarea遗传算法(公司)12)和多目标粒子群优化(mPSO) [13),分别可以从HPLC-DAD色谱峰纯度提取直接数据集。然而,通过进一步分析,我们发现没有必要的色谱峰(源信号)是相互独立的。所以广义的方法基于模型参考曲线测量(GRCM)和粒子群优化(PSO)算法的提出。

本文的其余部分安排如下:部分2介绍了GRCM-PSO方法的原理;部分3给出了仿真和实验;最后,部分4得出了结论和未来的工作。

2。数学方法

很难提取和在(1)只基于数据集没有任何其他的知识。幸运的是,这一事实色谱峰的形状看起来像一个高斯曲线(14可以帮助。基于这种“先验知识,提出了GRCM-PSO方法如图2。首先,参考曲线与参数构建基于通用色谱峰的形状,根据初始人口,生成。然后,GRCM模型计算错误,的参数。之后,一个搜索类别是用来获取粗略的解决方案,()。在图中的虚线矩形框2,称为仅生成的步骤例如,随机参数在一个粗略的解决方案,在图2第一粗略的解决方案。GRCM模型计算错误对于这些。基于这些错误,采用PSO算法获得最优参数周围。同样,其他最优参数,可以找到。最后,可以构造近似色谱峰的参考曲线,和光谱可以通过一个估计量。

本文中使用的参数的结构是一样的,在文献[13由()所示2)和(3)。方程(2)是高斯曲线将用于模拟演示GRCM-PSO性能的方法;(3)是一个5-parameter曲线将用于实验显示我们的方法的可行性: 在哪里列号的吗。是两条高斯曲线在峰值位置的组合和每一方的宽度和和每一方的偏离零。的范围,,是有限的,为了保证每个峰都有一个完整的形状。,在实验中由于数据集的概要文件。是函数极限振幅在1。

为了获得初始参数与小错误,相同的初始化人口的四倍实现生成8000参数完全,只有前2000名参数选择根据他们的错误作为初始化参数。

2.1。GRCM模型

GRCM模型评估的功能参数通过计算错误,标明参考曲线之间的距离由这些参数和存在的色谱峰。如图3,GRCM模型由五个要素:参考曲线,数据集、参考曲线测量(RCM)模型,预测曲线(PC)和测量操作符(MO)。

RCM模型的目的是通过引入一个向量这

方程(4)意味着让近似和看起来像。然后,我们的目标函数

解决(5),我们获得RCM模型在哪里是一个矩阵生成的,这将在附录B从(以及推导过程5)(6)。

莫被设计为

2.2。搜索类别和仅

初始化后,每一个参数将搜索小超球面内找到一个参数以最小的误差为目标。它是可能的找到作为它的目标,也就是说,,对于找到作为它的目标,也就是说,。为了加快搜索速度,我们直接设置。最后,只有有限的参数被选为目标对另一些人来说,这是粗略的解决方案,()。假设所有真正的解决方案是在粗糙的解决方案,因为集中和随机分布的初始化参数。所以一步叫仅只有粗略的解决方案将大大减少搜索区域。仅的领域是超球面的半径的一半之间最小距离中心的解决方案和其他的解决方案,以覆盖所有可能的空间。一个超球面的例子如图4。有五个粗略的解决方案,在二维空间。之间的距离和其他的解决方案。的超球面圆的图吗4,在那里。人口在每一个超球面被设置为10。

2.3。粒子群算法

PSO是群体智能模拟鸟群觅食的社会互动和个人认知(15,16]。方程(9)给出了PSO算法: 在哪里和代表的位置和速度th粒子分别;惯性权重;和加速常数;和是两个随机数;个人最佳位置;和是全球最好的位置。请参阅相关文献对参数的值(8)。

在本文中,所有的参数都将在几个不同的组内某些超球面。和每组更新这些粒子根据(8),分别,直到每一组最好的粒子的价值不会改变500步,或达到最大的一步。

2.4。其他进程

在这个过程中从,来,在图2随机初始化的可能会导致不准确的结果。所以这个过程执行多次消除随机初始化的影响。通过观察、选择十倍。十执行将产生10个候选人的解决方案。可以有价值之间的差异甚至这些候选人之间的最优参数的数量。首先,选择一个候选人的最大数量参数作为参考。然后,从每个候选人选择一个参数组合与一个参数的参考根据欧氏距离和计算参数的数量在每一个组。只有两组参数的数量比6啤酒选为有效的组织。最后,选择一个参数误差最低从每个有效组形成最终的结果。

最后,估计是设计为以下方程来计算所有化合物的光谱: 在哪里色谱峰纯度的近似;是伪逆函数。方程(9)来自(1直接)。

3所示。仿真、实验和讨论

在本节中,给出了一组模拟演示GRCM-PSO方法的性能。然后实验HPLC-DAD实现数据集显示GRCM-PSO方法的实用性。两个标准用来评估结果:(1)是否可以找到所有的色谱峰;(2)之间的错误是否真实/模拟光谱和光谱估计是足够小。

3.1。仿真和讨论

图中所示的仿真数据集(a)和(b)的人物5,其中包含七个化合物有严重重叠。七个色谱峰是由(2)的参数,,,,,,。和七个光谱构造随机只要彼此不相关的。模拟数据集添加不同水平的白噪声。表中列出的结果1。从结果中,我们可以看到以下。(1)GRCM-PSO方法可以单独的仿真数据集不知道化合物的数量提前即使严重重叠和白噪声的存在。比以前的方法,这是一个巨大的优势需要提前知道化合物的号码。的值和模拟计算光谱和光谱之间的误差很小。该方法所花费的时间远远少于通过ICARCmPSO [12),13.9秒。然而,MCR-ALS方法不能给出正确的结果。结果由MCR-ALS方法见图(c)和图(d)5,没有噪音被添加到模拟数据集。(2)十实现的平均时间成本几乎是一样的。这意味着白噪音的程度没有显著影响的时间成本。(3)的值和模拟计算光谱和光谱之间的误差变大的增加噪声水平。应该注意的是,当噪音变得严重,小峰的“错误”是影响更重要的比大的山峰。


数量	信噪比	参数		步骤/次	率	错误
数量	信噪比			步骤/次	率	错误

1	没有噪音	45	6	1048.1/3.17年代	1
		53	15		1
		59	9		1
		One hundred.	30.		1
		141年	5		1
		149年	15		1
		157年	8		1

2	One hundred.	45	6	1059.3/3.23年代	1
		53	15		1
		59	9		1
		99.99	30.		1
		141年	4.99		1
		149年	15		1
		157年	8		1

3	50	44.99	5.99	1063.1/3.20年代	1	0.01
		52.96	15.06		1
		58.98	9.01		1	0.09
		99.99	29.99		1
		140.98	5.05		1	0.0003
		149年	14.99		1	0.0001
		157年	7.99		1	0.005

4	40	45	5.99	1055.7/3.26年代	1	0.11
		52.79	15.17		1
		58.95	8.98		0.9	1.23
		100.04	30.46		1
		140.99	5.03		1	0.008
		149.01	14.99		1	0.008
		156.98	8.01		1	0.09

(一)

(b)

(c)

(d)

3.2。实验和讨论

“adataset HPLC-DAD数据集。垫”下载http://www.mcrals.info/免费的。这个数据集是一个three-compound混合物与两个已知的杀虫剂和一个未知的干扰物质(8]。5-parameter函数(所示3作为RC)是用于实验。图形结果见图6以及ICARCmPSO方法给出的结果和MCR-ALS方法。结果列在表的值2。从实验中,我们可以看到以下。


方法	参数					步骤/次	率		错误
方法						步骤/次	率		错误

GRCM-PSO	23.93	7.11	12.70	0	0.03	1361/3.61年代	0.8		0.27
	30.29	8.72	14.07		0.01		1		1.59
	59.85	7.91	14.43		0.03		1		- - - - - -

ICARC mPSO	23.07	7.37	12.28		0.08	1481.8/16.55年代	1		0.18
	29.91	8.39	14.12		0.01		1		1.73
	59.17	8.26	13.04		0.10		1		- - - - - -

MCR-ALS	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	1000/0.39年代	- - - - - -	- - - - - -	0.033
MCR-ALS	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	1000/0.39年代	- - - - - -	- - - - - -	0.153

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

(1)对比GRCM-PSO法和ICARCmPSO [13的平均时间和平均步骤:GRCM-PSO方法少得多。的和“错误”这两种方法都是类似的。

ICARCmPSO方法,参数的空间粒子搜索当地的目标应该根据特定的应用程序决定。GRCM-PSO方法,这个参数是固定的一个小值。所以,从可操作性的角度和速度,GRCM-PSO方法优势ICARCmPSO方法。

(2)对比GRCM-PSO法和MCR-ALS方法:他们两人获得相同数量,3的化合物。的速度MCR-ALS法优于GRCM-PSO法。MCR-ALS方法可以更好的准确性比GRCM-PSO方法。但GRCM-PSO中的参数方法更容易被控制。

MCR-ALS方法,最重要的两个参数阈值选择有效的奇异值和噪声谱的初始估计。如果噪声存在,很难决定第一个参数作为附录解释道一个。MCR-ALS方法的性能也非常敏感,第二个参数(我)的图所示图6。一个小的变化附录中解释一个,将导致大误差计算光谱,尽管所有的参数GRCM-PSO方法对所有应用程序是固定的。

所以,从可操作性的角度与稳定,GRCM-PSO方法优势MCR-ALS方法。

4所示。结论和未来的工作

本文提出了一种方法叫GRCM-PSO分离化合物的色谱峰和光谱HPLC-DAD数据集。GRCM模型分离的问题转化为一个多参数优化问题。介绍了PSO算法计算最优参数。组织实施模拟不同的噪声水平。建立了一个模拟数据集有严重重叠等七个化合物。GRCM-PSO方法分离色谱峰和光谱模拟数据集不知道提前化合物的数量。,速度快。组实验真正HPLC-DAD数据集被实现。GRCM-PSO方法和比较结果,ICARCmPSO方法,MCR-ALS方法。结果表明,GRCM-PSO方法是一种有效、高效和实用的方法分离HPLC-DAD数据集即使严重重叠和白噪声的存在。的速度和实用性GRCM-PSO方法比ICARCmPSO的方法。 The stability and operability of the GRCM-PSO method are better than that of the MCR-ALS method.

目前,GRCM-PSO方法的性能取决于参考曲线的选择。所以它只适用于分离与“先验”知识的任务,如HPLC-DAD数据集的分离。结果的准确性GRCM-PSO方法可以提高通过进一步研究更精确的参考曲线。

附录

答:MAC-ALS方法的参数

MCR-ALS方法的流程图见图(图一)7。化合物的数量计算的计算方法。计算方法需要一个阈值保持有效的奇异值,指出作为。的初始估计是由纯计算的变量检测方法,该方法需要知道噪声水平的数据集表示。的变量和是两个阈值根据数据集。请参阅相关文献MCR-ALS方法的详细信息(8]。

(一)

(b)

的奇异值从大到小排序HPLC-DAD数据集用于列出本文的实验图的图(b)7。虽然三个化合物是已知中包含的数据集,第三奇异值之间没有明显的界限,第四个。也就是说,它是不容易设置参数的值。

(我)的图所示图6,一个小变化的参数计算频谱将领导一个大错误。

b . RCM模型的推导过程

为了使计算(5)简单,预处理[17是用于转换作为在哪里是一个矩阵生成的预处理;是一个矩阵中每一行充满了每一行的平均值(见[17]详情)。每一个列向量在(责任)满足在哪里矩阵的行号。然后,(6)可以转化为在哪里的列的数量吗;和在预处理矩阵生成的。如果我们将在哪里为每个元素是一个向量具有相同价值指的是一个特定的吗和(B.3)转换为的证明将在附录C。方程(B.5)是一个优化问题。根据Karush-Kuhn-Tucker(马)条件18),解决方案应该满足在哪里的值是th元素下的参数。(的雅可比矩阵B.6)是因此,基于牛顿迭代得到以下公式(19]: (B.8),我们可以计算作为

c .证明(B.5)

从定义中(B.5),我们有在哪里矩阵的列号吗和()的列向量。然后,我们有因为(B.2),我们有因为转换来不改变原来的振幅,所以我们有吗在哪里是零均值的列向量(16]。替代(C.3)和(C.4)(C.2);我们有

利益冲突

作者宣称没有利益冲突有关的出版。

确认

替崔由于信息技术学院,悉尼大学为他提供一个博士奖学金;我们应感谢中国奖学金委员会为荔枝崔提供金融支持;学生的不。是201206740061。

引用

m . maed“进化因素分析解析重叠色谱峰,”分析化学卷,59号3、527 - 530年,1987页。视图:出版商的网站|谷歌学术搜索
m . maed和a . Zilian”发展的因素分析,一个新的多元色谱技术,”化学计量学和智能实验室系统,3卷,不。3、205 - 213年,1988页。视图:出版商的网站|谷歌学术搜索
马林诺夫斯基k . j . Schostack和e . r .,“理论的进化因素分析三元混合物的决议”化学计量学和智能实验室系统,8卷,不。2、121 - 141年,1990页。视图:出版商的网站|谷歌学术搜索
h·r·凯勒和d . l .设计学院”,在液相色谱峰纯度控制由一个固定大小的滑动窗口与二极管阵列检测发展的因素分析,“分析Chimica学报,卷246,不。2、379 - 390年,1991页。视图:出版商的网站|谷歌学术搜索
o . m . Kvalheim Y.-Z。梁,“启发式发展潜在的预测:解决双向多组分数据。1。选择性,latent-projective图,datascope,本地排名,和独特的解决方案。”分析化学,卷64,不。8,936 - 946年,1992页。视图:出版商的网站|谷歌学术搜索
Y.-Z。“梁和o·m·科瓦海姆(grant Kvalheim诊断和多波长色谱的分辨率等级地图,正交投影和顺序排名分析,“分析Chimica学报,卷292,不。1 - 2,5 - 15,1994页。视图:出版商的网站|谷歌学术搜索
r . Tauler“多元曲线分辨率应用于二阶数据。”化学计量学和智能实验室系统,30卷,不。1,第146 - 133页,1995。视图:出版商的网站|谷歌学术搜索
r . Tauler s Lacorte, d . Barcelo”塑造自我的定量曲线分辨率认证自我应用多元微量有机磷农药在自然水域从多个实验室的研究中,“杂志的色谱,卷730,不。1 - 2、177 - 183年,1996页。视图:出版商的网站|谷歌学术搜索
x邵、z . Yu和l .太阳“免疫算法在分析化学,”趋势分析化学,22卷,不。2,59 - 69年,2003页。视图:出版商的网站|谷歌学术搜索
x邵、刘z和w·蔡”由免疫算法解决多组分的气相重叠的信号。”趋势分析化学,28卷,不。11日,第1321 - 1312页,2009年。视图:出版商的网站|谷歌学术搜索
b . Debrus p . Lebrun A Ceccato et al .,”一个新的统计方法自动检测UV-DAD色谱峰的样品混合物,”Talanta,卷79,不。1,第85 - 77页,2009。视图:出版商的网站|谷歌学术搜索
s . k . l .崔j . Poon Poon et al .,“平行的独立分量分析模型受到参考曲线HPLC-DAD及其互联遗传算法解决方案,”《IEEE国际会议上生物信息学和生物医学(BIBM 13),页27 - 28日,上海,中国,2013年12月。视图:出版商的网站|谷歌学术搜索
l .崔z, j . Poon et al .,“独立分量分析的并行模型受到5-parameter参考曲线和多目标粒子群优化的解决方案,“分析方法》第六卷,没有。8,2679 - 2686年,2014页。视图:出版商的网站|谷歌学术搜索
Z.-M。张、陈s和Y.-Z。梁:“峰对齐使用小波模式匹配和微分进化,”Talanta,卷83,不。4、1108 - 1117年,2011页。视图:出版商的网站|谷歌学术搜索
进行j·肯尼迪和r·埃伯哈特,“粒子群优化”《IEEE国际会议上神经网络1995年12月,页1942 - 1948。视图:谷歌学术搜索
江b、n . Wang和l .王”与同龄组拓扑粒子群优化多峰函数和数据聚类,“非线性科学与数值模拟通信,18卷,不。11日,第3145 - 3134页,2013年。视图:出版商的网站|谷歌学术搜索|MathSciNet
a . Hyvarinen和大肠Oja独立分量分析:算法和应用程序”,神经网络,13卷,不。4 - 5,411 - 430年,2000页。视图:出版商的网站|谷歌学术搜索
公元Belegundu和t·r·Chandrupatla在工程优化的概念和应用剑桥大学出版社,第二版,2011年版。
d . g . Luenberger由向量空间优化方法约翰•威利& Sons第1版,1969年版。视图:MathSciNet

应用计算智能和软计算

文摘

1。介绍

2。数学方法

2.1。GRCM模型

2.2。搜索类别和仅

2.3。粒子群算法

2.4。其他进程

3所示。仿真、实验和讨论

3.1。仿真和讨论

3.2。实验和讨论

4所示。结论和未来的工作

附录

答:MAC-ALS方法的参数

b . RCM模型的推导过程

c .证明(B.5)

利益冲突

确认

引用

版权

更多相关文章

相关文章