文摘
矿物中药(中药)是天然矿物,矿物加工产品,一些动物或动物骨骼化石,可以用作药物。矿物中药是中药的特点部分和在中药的发展发挥独特的作用。矿物中药通常是确定根据其形态特性,如形状、颜色、或气味,但很难单独的中药,外貌很相似或气味。在这项研究中,利用拉曼光谱的可行性结合支持向量机(SVM)的快速识别九容易混淆矿物中药,即。、硼砂、石膏地泛摘要exsiccatus,泛摘要,alumen,氯化铵,石英、方解石和黄花鱼耳石研究。最初,两种方法,特征强度数据提取和主成分分析(PCA),进行减少光谱数据的维数。识别模型随后由支持向量机算法。三倍交叉验证(3-CV)建立支持向量机模型的准确性基于提取特征光谱强度数据进行预处理,首先推导为98.61%,和训练集和验证集的预测精度为100%。PCA-SVM模型,向量归一化的光谱进行预处理和主成分的数量(NPC) 7日3-CV精度和预测精度都达到了100%。两种模型具有良好的性能和较强的预测能力。这些结果说明拉曼光谱结合强大的支持向量机算法具有巨大潜力提供矿物中药的有效、准确的识别方法。
1。介绍
矿物中药(中药)是系统的一个重要组成部分。9个常用矿物中药,即硼砂、石膏地泛摘要exsiccatus,泛摘要,alumen,氯化铵,石英、方解石、和黄花鱼耳石,有很大的差异在化学成分和药理作用。例如,alumen,广泛应用在中国治疗痔疮、湿疹、疥疮,具有治疗功能包括去除湿气减轻瘙痒,停止出血、预防腹泻(1]。泛热,将用于清洁,通便,治疗periappendicular脓肿(2]。硼砂的主要成分是著名的中成药麝香痔疮膏(1]。氯化铵具有一定的毒性,应小心使用(3]。
然而,这些九矿物中药高相似的颜色,光泽,形状,质地,和切割面性格。这九个矿物中药的特点见表1。可以看出,大部分都是无味的,白色或无色、透明,半透明的,不规则的形状。此外,中药通常用于矿物粉末形式,这将使他们更容易相互混淆。传统上,矿物中药主要是确定依赖视觉识别和物理化学方法。前者是主观的,可能会导致不可靠的结果,而后者是耗时的。因此,需要一个更快和更可靠的检测技术。
拉曼光谱是一种非破坏性的分析工具,长期以来一直用于分析自喇曼效应的发现的矿物质。拉曼光谱测量非弹性光散射和振动光谱技术能够提供指纹的数组分配的物理振动模式。这些信息可以用来描述不同材料之间的差异。近年来,这项技术已经被广泛研究领域的中药,因为快速等优点,方便,无损,样品消耗少。许多研究已经报道了中药使用拉曼光谱的识别。在这些研究中,拉曼光谱被成功应用于原材料的认证(6- - - - - -8),描述的目的(9,10),发现假货的11,12中药[],和地理起源的识别13,14]。这些研究获得良好的性能,表明优秀的歧视使用拉曼光谱技术在中药的能力。目前,近红外光谱和拉曼光谱等光谱技术结合不同类型的最优化算法,如主成分分析(PCA) (15),支持向量机(SVM) [16,17)和人工神经网络(ANN) [18- - - - - -20.)已经成功地用于中药的定性和定量分析。因此,识别模型建立了基于拉曼光谱结合支持向量机实现九个容易混淆的快速、准确识别矿物中药。
2。材料和方法
2.1。样品收集
108批次的样本来自安徽省亳州的中药市场,河南禹州,广西玉林,在陕西西安,和江西Zhangshu Jointown制药集团有限公司和Mayinglong制药集团有限公司有限公司。在样本中,有14批次的石膏地10批alumen 14批次的氯化铵,10批石英,10批泛摘要,12批泛将exsiccatus, 14批次的方解石,12批黄花鱼耳石,和12批硼砂。所有样品被确认是真实的x射线衍射(XRD)和化学方法根据中国药典2015年(ChP)。
2.2。仪器和软件
这个项目使用的仪器包括一个XPertPro x射线衍射仪(PANalytical公司)和一个便携式i-Raman 475 - 785 h(黑白Tek)谱仪。便携式拉曼光谱仪是连接到一个BAC150B(黑白Tek)拉曼采样附件由150厘米光纤探针bac102 - 785 e(黑白Tek)。仪器配有CleanLaze(黑白Tek)在785 nm激光发射连续可调功率从0到420兆瓦和热电的冷却探测器电荷耦合(CCD),覆盖的光谱范围65 - 2700厘米−1的分辨率大约3.5厘米−1。
在这项研究中使用的软件包括BWSpec4™光谱数据采集软件、作品7.5光谱分析软件(力量),IBM SPSS统计19 (SPSS统计/ IBM公司),MATLAB R2014b (MathWorks Inc .)和libsvm工具箱(libsvm - 3.1, Faruto最终)。
2.3。拉曼光谱采集
每个样本都碾成粉末,然后通过100 -孔筛;2 g的每个样品粉末放入标本采样附件的杯子在舞台上。光谱被记录在70 - 2695厘米的范围−1。激光输出功率为100%。每个光谱的积分时间调整,以提供一个更好的拉曼信号。每个样品重复三次的测量。三个光谱的平均值被选为分析的光谱信息。
2.4。光谱预处理方法
的过程中收集样本光谱,最初的拉曼光谱往往受到与测试样本属性无关的因素,例如示例自发荧光和测量条件的变化。这些因素会导致基线漂移和不稳定。因此,进行合适的光谱预处理是非常必要的。在这项研究中,单独的向量归一化预处理方法(VN),首先推导(FD),其次推导(SD)和组合预处理方法VN + FD和VN + SD是受雇于作品为了优化模型的性能。
2.5。光谱数据压缩方法
拉曼光谱的高维度空间将导致优化和计算复杂度和效率低下的SVM算法的实现。有必要提取光谱特性和压缩光谱数据来创建有效的和健壮的SVM模型。
主成分分析(PCA)是一种常见的降维方法,它可以改变一些可能相关变量(光谱矩阵)到一个小数量的变量叫做主成分(pc)。变换后的新变量是不相关的,可以消除重叠的部分信息(21]。此外,这些新变量包括原始变量的大部分信息维度和尽可能能在不丢失有用的信息。在这个研究中,主成分分析是在MATLAB进行2014 b降低维度的原始光谱和光谱预处理,分别。
另一种方法来压缩光谱数据在这个研究中提取完整的光谱特征峰的强度数据。具体方法如下。拉曼峰强的拉曼转换每个矿物中药被选中,然后在这些拉曼强度数据的变化每个样本光谱提取作为SVM模型的输入变量,而不是完整的光谱。如图1,一个拉曼峰变成了两座山峰被用FD预处理后,也就是在强度和相反的方向。一个拉曼峰变成了三个山峰后使用SD:两对y设在正方向,一个方向y设在负方向。考虑到减少的数据量,在选择特征峰,我们只选择峰值向y设在正方向与FD对光谱进行预处理,只选择峰值向y设在光谱使用SD负方向。
(一)
(b)
(c)
2.6。支持向量机
支持向量机是一种强大的监督学习算法,首次提出了Vapnik [22)并成功扩展的其他研究人员近年来,基于结构风险最小化的原则在构建一个最优分离超平面,区分不同类型的数据。在这个过程中,输入向量映射到一个新建的高维空间,然后平行超平面构造最大化interplane距离分开的数据。支持向量机分类器的详细信息可以在[23,24]。在这个研究中,支持向量机进行了MATLAB 2014 b构建定性模型。
采用径向基函数(RBF)的核函数支持向量机在处理非线性问题,但由于其能力强也是标准的内核应用于大多数的支持向量机应用程序(25]。RBF有两个重要的参数:软边缘参数C和核函数参数(26]。这两个参数的值应该在模型优化过程中确定。常见的优化方法包括网格搜索方法(GS),粒子群优化算法(PSO)和遗传算法(GA)。算法是源于仿真的鸟在寻找食物27]。算法系统,每一个可选择的解决方案被认为是一种“粒子”,多个颗粒共存、相互配合(大约像鸟类的觅食),并且每个粒子“飞”到一个更好的位置在空间的问题根据自己的“经验”或相邻粒子的最佳“体验”,这样可以搜索最优解。GA操作是一种基于生物自然选择和遗传机制的选择、交换和突变被认为是操作方法。连续遗传迭代,变量值保留具有良好的目标,因此,可以最终实现最优结果28]。
3所示。结果与讨论
规范化、基线修正每种药物的平均光谱图所示2,所有观察到的拉曼乐队进行了综述表2。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
3.1。样本集的分区
每个光谱被分配一个标签根据它的名字从1到9,和每个频谱公司的标签变成了一个样本进行建模。四个样本选择随机从每个标签作为验证集样本(共36个样本),剩下的72个样本作为训练集样本(如表所示3)。训练集用于建立识别模型,验证集是用于验证。
3.2。光谱数据压缩
因为拉曼峰不同,特征峰的强度数据可能被视为特征SVM模型的输入变量,而不是完整的光谱。为了研究这种方法的可行性,聚类分析提取的强度训练集样本的数据进行基于团体之间的联系方法和SPSS平方欧氏距离。修正的聚类分析提取强度数据的基础上建立原始光谱和光谱预处理是为了确定最优预处理方法相比。
校正的聚类分析是基于完整的光谱,原始光谱的强度数据,光谱预处理和强度数据如表所示4。基于完整的光谱校正率仅为61.11%。基于强度的数据值明显改善。最重要的是,基于强度数据校正率从光谱进行预处理,提取FD最高(90.28%),和相应的敏感性和特异性的值每个矿物中药如表所示5。聚类分析的结果可以看出,基于强度数据提取光谱进行预处理,FD是好的。图3显示所选强峰的光谱进行预处理FD和相应的系统树图。有七个样本集中错误,主要是明矾、泛摘要。他们都是硫酸盐矿物中药,所以他们的拉曼光谱有很高的相似性。
(一)
(b)
聚类分析的结果表明基于提取的光谱压缩的可行性方法强度数据。然而,一些样品的拉曼光谱相似性高,如明矾、泛摘要,不能分化的聚类分析。因此,介绍了支持向量机算法建立识别模型的基础上,提取强度数据。
3.3。支持向量机识别模型的建立
因为集群基于强度数据校正率从光谱进行预处理,提取FD最高,SVM模型建立了通过使用强度FD提取光谱进行预处理的数据作为输入变量和标签作为输出变量。所有的输入变量应该首先正常化。GS内核参数进行了优化,同时遗传算法,算法。模型性能评价三倍交叉验证(3-CV)的训练集,在优化的过程中,最优值C和确定当3-CV精度达到最大。支持向量机模型建立之后,训练集和验证集进行了预测。预测能力评估的预测精度训练集和验证集。
建模结果表明,最佳的组合C和(C= 1,= 0.5744)是由GS, 3-CV精度为98.61%,训练集和验证集的预测精度是100%。优化流程如图4。
3.4。基于主成分分析的光谱压缩
从2000多光谱数据点被压缩到不到50通过使用光谱压缩方法基于提取强度数据。其他光谱数据压缩方法调查研究主成分分析。主成分分析是在MATLAB进行2014 b降低维度的原始光谱和光谱预处理。累计贡献率(ACR)的电脑图所示5。
如图5原始光谱和光谱预处理,ACR的第一个6个人电脑达到90%,这意味着第一个6个人电脑最能代表所提供的资料完整的光谱。因此,使用第一个PCA-SVM模型建立了6个人电脑的原始光谱和光谱预处理调查不同光谱预处理方法对模型的影响表现。
3.5。PCA-SVM识别模型的建立
PCA-SVM模型建立了第一个6个人电脑的使用分数作为输入变量和标签作为输出变量。表6显示的结果PCA-SVM模型基于原始光谱和光谱预处理。它可以发现3-CV准确性和基于VN PCA-SVM模型的预测精度是最高的,所以VN被认为是最合适的预处理方法PCA-SVM模型。
然而,VN预处理下,第一个6个人电脑可能不是最优的建模。如果人大过于少,所建立的模型无法反映样本之间的关系特征和光谱信息,和“under-fitting”的现象发生。然而,如果人大太多,模型的预测精度和泛化能力会受到影响,和“过度学习”将会发生。因此,模型性能应该调查下不同的人大,以确定最佳的人大。在这项研究中,PCA-SVM模型建立了使用的第一个1,2,3,…,8个人电脑,分别,结果如表所示7。
如表所示7,最好的性能和PCA-SVM模型的预测能力时获得全国人大是7,GA优化。3-CV精度和训练集和验证集的预测精度达到100%。预测精度下降少电脑加载时,模型的预测能力保持不变,当更多的电脑被加载。GA parameters-optimized过程如图6。
模型建立在两个光谱压缩方法具有良好的精度。与PCA相比,基于提取的光谱压缩方法强度数据有一些优势;例如,它是容易学习和推广,因为它避免了复杂的计算。更重要的是,拉曼峰的提取拉曼和强度变化数据可以用来建立拉曼光谱数据库。然而,缺点是峰的位置和强度的错误可能会导致预测精度的降低。
总体结果表明拉曼光谱与支持向量机方法可以有效地识别矿物中药。与其他的表征技术相比,拉曼光谱显示了显著的优势。它比形态更客观和有效的描述方法在识别中药,外貌很相似。化学特异性和准确性高的比化学方法。未知矿物中药样品的化学方法需要至少两个实验,和拉曼光谱只需要一个检测得到识别结果。此外,由于拉曼光谱可以反映晶体的结构特点,它可以区分矿物中药的化学成分相同,但是不同的晶体结构,如方解石和霰石的主要成分都是CaCO3。此外,与红外光谱(IR)和近红外光谱(NIR),拉曼光谱具有锋利的山峰,高分辨率和高特异性和不容易受到水或其他干扰。x射线衍射(XRD)是一种最有效的现代技术鉴定矿物中药。这是精度高、特异性好,但样品制备的要求很高,和光谱分析是复杂的。无损的优点,没有样品预处理的拉曼光谱比XRD使它更加方便和有效。
4所示。结论
使用拉曼光谱建立的模型基于SVM方法有良好的性能和较强的预测能力识别这九容易混淆矿物中药。它是快速和方便的收集光谱矿物中药使用便携式拉曼光谱仪,无需样品预处理和识别的结果可以立即获得的光谱样本加载到支持向量机模型。这意味着SVM模型不仅能满足快速检测在中药市场的需要,也被用于生产过程控制原材料的质量,以确保药物的安全使用。
结果表明支持向量机算法在快速识别的可行性,并通过拉曼光谱质量分析。拉曼光谱结合PCA等最优化算法,支持向量机算法,遗传算法,有可能对其他矿物中药的分析作出了重大贡献。在接下来的工作,更多的样本应该被用于改善模型的可靠性和适用性。拉曼光谱数据库的矿物中药与样本的增加将被创建。其他算法也将调查在未来改善模型性能和扩大拉曼光谱在中药领域的应用。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
本研究武汉专项基金支持的生物技术和新医药高科技产业发展行动计划在2012年(201260523193)。