文摘
离散小波变换(DWT)在时频域提取有意义的信息,是一种良好的特征提取方法从pulse-like反应大脉冲伏安法(LAPV)电子舌头(e-tongue)。常规DWT生成大量的细节和近似系数来描述信号在不同的尺度。因此,选择系数减少特征尺寸是必要的。然而,普通DWT-based特征选择遵循一个被动模式:操作通过人类经验或详尽的试验。它是主观的,耗时的,几乎在nonlaboratory工作条件。在本文中,我们提出一个活跃的特征选择策略组成的离散率计算和最优搜索搜索。评价该方法的性能,我们准备了一些饮料样品,进行实验LAPV e-tongue。同时,原始响应的特点,peak-inflection点,引用DWT方法,我们的方法提出了表明精制的影响该方法的特点。此外,我们利用多个分类器等最近的邻居(神经网络,支持向量机(SVM)和随机森林(RF)评估改善精制的识别功能。与其它常规特征提取方法相比,该方法可以自动探索高质量特性与一个可接受的特征尺寸。此外,最高平均精度为每个分类器实现了该方法。这是另一种特征提取方法LAPV e-tongue没有任何操作在真实的应用程序中。
1。介绍
一个名为电子舌的人工味觉系统(e-tongue)已成为一个潜在的液相方法评估(1,2]。传感器阵列和适当的模式识别算法是e-tongue的两个主要部分。传感器阵列模仿人类的味觉细胞物质,而模式识别算法函数作为人类大脑处理判断。与传统化学设备相比,e-tongues有明显优势包括更低的成本、更低的延迟和更简单的操作。广泛应用,如蜂蜜识别(3)、大米歧视(4),和饮料分类(5,6),近年来一直关注。在饮料分类,学者主要将注意力集中在物质与特定的芳香风味茶和酒等(7,8)自e-tongue识别比人类更客观和可再生的判断(9]。
模式识别部分组成的分类和特征提取是一个重要的部分在一个e-tongue系统。各种分类器吸引e-tongue研究问题。主成分分析(PCA) [10,11),支持向量机(SVM) [12,13],autoregressive-modeling技术[14),线性判别分析(6,15),和反向传播神经网络13,16)出现歧视不同分析物。另一方面,从传感器的响应特征提取吸收有意义的特征分类器。有规律的特征提取方法对于大型脉冲伏安法(LAPV) [17- - - - - -19),一个共同的e-tongue pulse-like响应的传感器类型。e-tongue特征有两类:几何和时频方法。对于几何方法,根据主成分分析可以获得有价值的特性相关传感器的响应(20.]。此外,一些学者利用原始响应曲线峰值和拐点值作为特征来表达信号特征(10,21]。有时,即使最初的传感器响应是直接使用作为分类器的几何特征(22]。与此同时,时频分析是另一种流行的方式e-tongue特征提取。离散小波变换(DWT)是一种很有前途的技术由于其多尺度分析能力(23,24]。殷等人介绍了功率比DWT功能提炼和优化(25]。考虑到e-tongue系统用于实验遵循大脉冲伏安法(LAPV)模式并生成一系列的多频pulse-like响应,我们更加注重DWT特征提取的方法。通常,DWT系数存在很大(特性)以及分解级别的增加,因此一个特征选择的过程是需要删除冗余和无意义的DWT系数。然而,传统的DWT特征选择取决于人类的操纵。有利的特性实现根据人类经验或详尽的试验。主观决策和大规模计算会妨碍e-tongue系统处理实际工业应用。因此,我们需要探索客观、简单的策略来指导DWT无人条件下特征选择。
在这项研究中,我们提出了DWT特征提取方法与一个活跃的特征选择策略(AFS-DWT)从DWT系数获得合适的特性。介绍了离散率计算和最优搜索阶段AFS-DWT。同时,我们执行饮料实验LAPV e-tongue分类红酒,白酒,啤酒,红茶,乌龙茶,毛峰,普洱茶样品。识别模型等最近的邻居(nn) [26),支持向量机(SVM) [27),和随机森林(RF) (28)在评价探索采用特征提取方法的性能。实验结果表明,AFS-DWT合格在无人工作条件和显示类似的性能最好的参考方法。本文由五个部分组成:部分1介绍了本研究的文献和背景。部分2描述了我们的硬件LAPV e-tongue。识别和特征提取方法在这项研究中提出的部分3。部分4展示了实验结果和分析。最后,一些结论在上一节中进行了总结。
2。e-Tongue系统
如图1,我们设计了一个LAPV e-tongue组成的电解槽,电极传感器阵列,LAPV转换板、控制单元和更高级的电脑。8个金属电极固定在顶部的电解槽选择组成三电极系统。电极传感器阵列的细节描述表1。LAPV转换板有两个功能:一是产生激励信号同步辅助和参考电极传感器,另一个是转换LAPV反应在临床上的工作电极传感器正确的电压。控制单元接收转换LAPV响应和处理响应抽样、数据存储、数据传输和激励信号通过机载32位单片机控制。6通道模拟-数字转换器的采样电路由一个16位分辨率相应的工作电极传感器。我们将数字化的数据保存在一个TF卡高级电脑上进行进一步的处理。特别是,原励磁信号是由数模转换器生成集成在单片机;因此,频率、振幅和激励信号的时间间隔是可编程的。
当LAPV e-tongue工作时,我们使用一个带状电缆传输转换LAPV LAPV之间的响应和激励信号转换板和控制单元。屏蔽电缆和bayonet-nut连接器连接电极传感器阵列和LAPV转换板以减少信号干扰。算法实现和评价通常表现在更高级的电脑(台式机或笔记本电脑)。我们还设计了外部记忆在单片机的控制单元执行轻量级算法如果必要的话。
3所示。材料和方法
3.1。主成分分析
主成分分析是广泛应用于维数降低及数据可视化29日]。它执行正交变换通过将一组相关的信号转换为不相关的线性组件。
在实践中,特征值分解利用计算主成分(pc)和他们的载荷。在这里,我们假设电脑表示不相关的线性组件,而载荷意味着个人电脑的振幅。因此,它是可能的选择少量的电脑一般表达高维数据在低维空间。电脑最大的两个或三个载荷通常选择在2 d或3 d可视化原始数据空间,分别。
3.2。Peak-Inflection点方法
考虑到信号的几何形状,LAPV e-tongue反应经常由一系列的波峰和波谷。因此,它是合理的采取一些代表点电极反应的特点。典型的一个是捡四分在每个脉冲周期:一个峰值点,一个谷点,两个拐点作为响应特性(19),我们的名字这种特征提取方法peak-inflection点方法(PIPM)。这个几何特征提取访问非常方便,和选择的点直观地包含e-tongue反应的不同的特征。
3.3。离散小波变换
DWT处理离散信号时频分析。在多尺度分析它的使用是相当大的数字数据。该方法将原始信号近似和详细的部件通过低频和高频过滤器,分别。近似的解析和详细的部分依赖于DWT分解水平虽然近似和详细的部分的长度减半根据父母的系数。如图2,DWT使用锥体的Mallat算法实现(30.]。CA1和CD1表示第一的近似和详细的DWT系数分解水平。在第二分解水平、CAA2和cad从CA1 2近似和详细的DWT系数而CDA2和CDD2 CD1的。
考虑到pulse-like LAVP模式拥有丰富的频率成分的反应,DWT方法符合这种情况下由于不同时间尺度分析的能力。
3.4。离散小波变换的相对功率比
相对功率比(RPR)可以计算出每个DWT系数根据一项研究[25];我们称之为RPR-DWT特征提取策略。假设代表了DWT系数中分解级别。我们可以计算的力量如下: 在哪里和表示的力量和弹性分组环分别。在特征提取,计算每个分解级别的最大弹性分组环作为候选人的特性,然后从候选人中选择最好的一个特性。我们应该注意,RPR-DWT精制方法DWT系数,系数选择过程仍然依赖于被动模式:人类指定基于经验或详尽的计算。
3.5。活跃的离散小波变换的特征选择策略
就我们而言,当DWT执行作为一种特征提取方法,生成大量的小波系数的分解水平增加。因此,选择必要的特性从DWT系数的有效性和简洁性的关键以下分类。当前的策略来解决这个问题取决于手动选择。然而,这种方式是有害的对DWT的实用性。在本部分中,我们介绍一个活跃的特征选择(ASF) DWT系数的策略。ASF中包含有两个阶段的过程。
3.5.1。第一阶段:DWT系数的离散率计算
为了减少并提供一个统一的特征维度,我们用RPR预处理每个DWT系数从数字的响应中获得。为th的类别,我们将训练样本分成两个部分:和非类别。假设和样本大小的吗和非类别,分别。我们计算句距离和类的距离的如下: 在哪里和表示的弹性分组环th和th样本在相应的类别,分别。因此,分散率的定义如下: 较小的离散率在哪里意味着更容易独立DWT系数的样本空间反之亦然。
3.5.2。第二阶段:搜索最优特征
在这个阶段,我们的目标是找到最优DWT系数的分类算法的自动搜索方法进行了总结1这确保了整个搜索过程的结果是以下分类最有用的特性。
|
||||||||||||||||||||||||||||||
通过以上阶段,最初的精炼和DWT特性选择根据他们的RPR值。简洁的特性是最终实现了以积极的方式,没有人类的称号。
4所示。结果与讨论
4.1。样品制备
我们选择等7种喝红酒,白酒,啤酒,乌龙茶,红茶,毛峰,普洱茶作为测试对象。对于每一种茶,我们测量了2 g的干茶叶与电子微量天平,那么我们和200毫升的沸水浸泡树叶5分钟。之后,我们过滤液体作为最初的解决方案。酒对象,如红酒,白酒,啤酒,我们认为酒本身最初的解决方案。在实验中,我们制定了三种不同浓度使用原来的解决方案,并为每个喝蒸馏水。低、中、高浓度被调整的比例由原来的解决方案为14%,25%,和100%,分别。一个浓度的实验进行了三次增加抽样数据的可靠性。因此,我们一共收集了63(7种×3×3倍浓度)在本研究样本。
4.2。电子舌的设置
正如上面提到的,设计的电极传感器阵列e-tongue由六个工作电极传感器,一个参考传感器,一个辅助电极传感器。我们采用了多频LAPV (MLAPV)方法(19)来生成一个多频激励信号参比电极传感器,而辅助和工作电极传感器形式六电子循环工作过程中通过测试解决方案。MLAPV包括几个频率的激励信号段在一个时间周期来刺激不同的瞬态pulse-like反应。因此,可以实现物质的指纹一系列脉冲的形式。如图3,我们在大约0.2赫兹的频率,设置三个部分1赫兹,2赫兹。为了避免相邻段之间的干扰,我们增加了银行领域之间的相邻段。在每一段,五排列在脉冲电压为3.3 V, 3.1 V, 2.9 V, 2.7 V和2.5 V根据参考电压为2.3 V(参比电极上的直流电压传感器)。换句话说,实际的脉冲振幅1 V, 0.8 V, 0.6 V, 0.4 V和0.2 V。因此,总共15个参比电极上生成脉冲信号在一个周期时间。应该注意,每个脉冲的持续时间保持不变,由于保持相同的激发时间所有的工作电极传感器。
(一)
(b)
图3 (b)显示了一个典型的反应的一个工作电极传感器实验。我们设定的采样率为200 Hz传感器阵列,以减少失真根据激励信号的最高频率。因此,我们总共有12300点采样6工作电极传感器在一个时间周期为61.5年代和一个传感器的响应大小排序为12300/6 = 2050年的一个测试。
4.3。特征可视化和分布
在本部分中,我们将演示通过不同方法提取的特征不包括特征提取(NFE) PIPM RPR-DWT,提议ASF-DWT。这里我们采用NFE表明之前的数据分布特征提取过程。对于两个DWT-based特征提取方法,我们选择Daubechies 1(冷雾)小波作为小波基础由于其简单性和DWT分析中广泛应用。考虑高维度的原始反应和提取功能,我们实现PCA变换的特征提取方法上面提到的可视化结果分布(31日,32]。我们使用红色标记表示属于每种酒的饮料:啤酒(块)、精神(星号),和红酒(五角星形),而红茶的样本分布,毛峰,普洱茶,和乌龙茶所示黑色三角形,星号,块,分别和圆。数据4- - - - - -7显示NFE的功能分布、PIPM RPR-DWT, ASF-DWT,分别在PCA空间。
(一)
(b)
(一)
(b)
(一)
(b)
(c)
(d)
(e)
(f)
(一)
(b)
如图8,我们安排的所有反应6传感器工作一个接一个直接形成原始样本进行PCA变换。根据12300点,我们组织每个原始样本作为12300 -维向量进入PCA NFE模式。数据4(一)和4 (b)显示的结果NFE:精神可以轻轻分开其他饮料样品而发行版都或多或少相互之间的重叠。可以看出PC1-PC3的贡献率是32.68%,5.88%,和4.58%,分别在图4。前两个或三个的总贡献率电脑似乎显著低。我们推断这种现象可能是由于大量的方差相同的原始样本向量有12300维度。换句话说,原始样品的质量不满意,需要进一步的识别和特征提取来实现有意义的信息隐藏在原始样本向量。
至于PIPM,我们从每个脉冲四分。考虑15脉冲在一个时间周期,15×4 = 60点可以从每个传感器响应中提取,和60×6 = 6个传感器收集了360分;因此,PIPM有360维的特征向量。从数据5(一个)和5 (b),我们发现更大的贡献率为前三个电脑(66.79%,7.69%,和4.78%)NFE PIPM相比的。这意味着PIPM特性提高了数据质量减少同类样本的偏差。另一方面,不同类别的分布仍然重叠;甚至红酒样品不再分离由于分布类似于乌龙茶样品。
RPR-DWT而言,考虑到第一每个分解级别系数经验中最强大的力量系数属于同一分解的层次,我们指定1系数的选择范围从1到6日分解水平。对于每一个工作电极传感器,我们从其响应提取RPR值。因此,RPR-DWT的特征尺寸显示是6六个工作电极传感器。从数据6(一)- - - - - -6 (f),我们可以发现贡献率(85%以上)的前两个电脑RPR-DWT高于前的特征提取方法。我们相信RPR电力计算过程降低了小扰动引起的干扰信号和浓缩的有用的信息从原始样本向量。如图6(一)证明,精神和红酒样品都显然与弹性分组环位于不同区域的特点1日DWT系数在1日分解层。同时,只有精神样本可分为从任何其他样本分布数据6 (b)- - - - - -6 (f)。看来第一RPR价值分解层1是更有效的识别。总之,RPR-DWT是一个有能力的特征提取方法LAPV e-tongues提高提取的质量特性的小特征尺寸6。然而,合适的DWT系数对弹性分组环特性主要是由人类的经验和大量的试验。它缺乏客观性和高成本。
数据7(一)和7 (b)证明2 d和3 d PCA块ASF-DWT特性,分别。根据算法1节3.5、功能探索从1日开始分解层。饮料的数据集,我们发现rpr的色散率第二分解层不小于他们的父母的第一分解层。因此,弹性分组环和离散率计算可以停在第二分解层。同时,第一和第二弹性分组环1分解层的选择作为一个传感器ASF-DWT特性。总共有12个特征值提取的一个测试。考虑到所选的特征是基于1的系数分解层,它是合理的样本分布在ASF-DWT特性(如图7(一))类似的第一弹性分组环的RPR-DWT第一分解级别(如图6(一))。尽管ASF-DWT有点的特征尺寸大于RPR-DWT之一,它可以自动工作在无人驾驶的情况下有限的计算。
一般来说,PIPM、RPR-DWT ASF-DWT是有效提高原始传感器响应的质量差。偏差而言,功能细化的影响正逐渐在NFE, PIPM, DWT-based (RPR-DWT和ASF-DWT)方法。此外,关于特征尺寸,DWT-based方法提供更多比NFE和PIPM紧凑表达式。它有较低的计算复杂度为识别。尤其是ASF-DWT意识到积极和自动特征选择机制尽管一点点的维数增加而RPR-DWT。对样本分布,我们不能选择一个,所有的类都是明显分开。因此,我们需要利用合适的分类器来数值评估上述特征提取方法对分类的影响。
4.4。评价设置
在评价部分,我们采用了随机森林(RF)、支持向量机(SVM)和最近的邻居(神经网络从AFS-DWT)作为分类器识别的功能。除此之外,其他特征提取方法包括NFE PIPM, RPR-DWT选为参考。
射频是一个强大的系综分类方法提出Breiman 2001年,基于决策树和装袋策略28),优秀的鲁棒性,和射频识别能力13)使学者倾向于改善和应用这个分类器。在接下来的评估、决策树的数量在一个随机森林被设置为200,最后一个类别的样本是由200年的决策树的投票结果。
支持向量机的基本思想就是将样本按照结构和经验风险最小化。我们选择两种核函数的支持向量机学习:线性内核和径向基函数(RBF)的内核。线性内核将原始样本空间,而RBF核函数将样本映射到一个非线性高维空间。我们表示支持向量机与线性和RBF内核SVM1 SVM2,分别在以下部分。在支持向量机模型中,一个点球系数介绍了调整对错误分类。一个更大的值代表一个较小的公差分类错误。我们扫描了值从0.1到1步骤0.1和发现 全面是一个合适的选择。此外,我们将 RBF核函数和使用one-versus-one策略执行多级识别。
神经网络是一个典型的基于样本分类器在局域密度。它决定了一个未知样本的类最近的标签样品距离。在接下来的讨论中,我们设置 将欧氏距离作为衡量指标神经网络。
考虑到63所选样本,我们使用一个分析策略33)来执行验证。我们采用了这种策略指数的影响特征提取方法理论上。关于标签的平衡训练样本,相同大小的样本之后每个类的培训和验证。
4.5。评价结果
每个特征提取方法应该加上一个分类器中提到的最后一部分来计算相应的认可率。考虑到一组验证某种饮料的大小是9,我们获得9百分比值为每个特征提取和分类器的组合。
根据验证结果见表2最高的平均识别率可以达到与ASF-DWT在大多数情况下,相对于其他特征提取方法。关于SVM1,两个DWT-based方法实现相同的平均识别率和明显超过NFE和PIPM RPR-DWT SVM2获得最好的利率。与射频的利率nn, DWT-based方法表现比其他人更好。有点不同,ASF-DWT有点高于RPR-DWT之一。它可能积极受益ASF的搜索特性与良好的分散策略比率。考虑到两种DWT-based方法很近的影响,我们进行了t以及识别利率相同的分类器和结果收集表3。我们设定的显著性水平t以及到0.05。结果“1”表示,在分布两种情况之间存在着显著性差异,而“0”意味着相反的。换句话说,“1”表示比较结果是不平等的,取决于表的平均识别率2而“0”表明,这两种方法的识别性能是相等的。的结果t以及都是0这意味着RPR-DWT的识别性能和ASF-DWT在统计上是平等的。
关于DWT系数选择的细节,我们使用:来表示的DWT系数中分解级别。我们选择3:1 RPR值遍历的第一弹性分组环1 st-10th分解层RPR-DWT虽然2:1,6:1和8:1 ASF-DWT RPR值被自动探索。因此,特征尺寸是6和18 RPR-DWT ASF-DWT,分别。它是值得的,我们假设,与小维加法交换自动操作。
所有分类器的识别学习者,执行无效地原始样本向量或PIPM特性除了NFE射频。很明显,出色的结果很难实现数据和大量分散的同一个班。两个DWT-based特征提取方法,我们发现识别利率逐渐高SVM1的顺序,射频,SVM2,神经网络。合理,SVM1提供糟糕的结果由于其线性内核,将样本线性而射频和SVM2获得通过实现非线性分类识别率更高。我们注意到神经网络达到的最高利率82.54%和84.13%和RPR-DWT ASF-DWT特性,分别在四个特征提取模式。然而,在传统的观点中,神经网络分类器遭受干扰从本地样本分布,而支持向量机可以实现全局最优的结果。我们相信这一矛盾可以解释的样本分布如图6和7。把图7作为一个例子,红茶(黑色三角形),毛峰(黑五角星形),普洱茶(黑色广场)样本中重叠的阴谋。很难区分它们完全按照一定的分离超平面,即使在非线性空间。在这一限制下,承认取决于其邻国(nn)似乎更有效和可行的。
5。结论
在这项研究中,我们建议ASF-DWT自动提取特征从原始的反应LAPV e-tongue处理不便和巨大的计算所需的人工判断。离散率计算和最优搜索功能组合在一起以获得有利的特性。此外,我们使用LAPV e-tongue采集饮料样本和识别分类。实验结果表明,ASF-DWT是一个非常有用的特征提取工具LAPV e-tongue反应和它优于传统的特征提取方法与可接受的特征尺寸。
未来应该专注于最优ASF-DWT规则适合各种应用程序及其兼容各种分类方法。同时,激励信号的带宽可以进一步增加从瞬态响应获得更多有用的信息。
信息披露
赞助商的资金没有参与这项研究的设计;在收集、分析或解释数据;在写作手稿;并决定发表的结果。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了国家自然科学基金(国家自然科学基金委,61403049)在2015年p . r .中国和由国家国际科技合作项目(2014 dfa31560)在2014年p . r .中国。
补充材料
本文使用的数据集是包含在补充材料。我们救了63测试的原始数据(十六进制数字)分别用txt文件。因此,每个文件对应一个测试和信息主体、浓度,并提供顺序文件名称“A - B - C”,“A”显示了饮料的名字,“B”代表浓度水平,“C”是指实验的顺序。(补充材料)