文摘

功能优化,这是本文的主题,实际上是有选择性的选择变量的输入端时的一种预测模型。然而,一种改进的基于Pearson-BPSO特性优化算法对呼吸信号被提出并应用于区分肝癌电子鼻(电子鼻)。首先,呼吸的多维特性曲线的肝细胞癌患者和健康对照组提取训练样本;然后,用更少的特性与分类是根据皮尔逊相关系数中删除;接下来,适应度函数是构造基于再(资讯)分类错误和功能维度,和基于全局搜索功能优化变换矩阵得到。此外,变换矩阵应用于优化测试样本的特性。最后,优化算法的性能评估的分类器。实验结果表明,Pearson-BPSO算法能有效地提高分类的性能与全局搜索和主成分分析的优化方法。SVM和RF分类器的精度是86.03%和90%,分别,敏感性和特异性分别约为90%和80%。因此,Pearson-BPSO特性优化算法的应用将有助于改善肝癌检测的准确性,电子鼻,促进智能检测的临床应用。

1。介绍

肝细胞癌是一种恶性肿瘤发病率高,死亡率高,严重危害我们生活的质量和生活。据统计,2018年,肝细胞癌的死亡率占癌症病例总数的8.2%(世界上1]。超过一半的世界的肝细胞癌病例和死亡发生在中国2]。研究发现,肝癌的早期症状尤为显著。很多肝癌患者进入中、晚期疾病的诊断。因此,减少死亡率,急于改善肝细胞癌的早期诊断和筛查。

疾病会导致代谢变化,从而导致不同的呼出气体。结果表明,6挥发量有显著差异在肝细胞癌患者的呼出气体与健康对照组相比P< 0.05)(3]。近年来新兴的呼气检测技术可以检测人体呼出气体和确定疾病,可广泛应用于早期临床检查(4]。作为一个呼气检测装置,电子鼻设备记录呼出气体通过其内部传感器的反应不同的呼出气体。值得注意的是,该设备没有检测到特定的气体组分;它只是记录气体的总体响应曲线。研究人员需要建立模型通过大量不同志愿气体响应曲线和找到潜在的疾病和呼气响应之间的关系,实现基于电子鼻疾病诊断的目的。

在构建的过程中使用呼气疾病分类模型信号,特征提取是第一步。为了不失去信息,可能会影响测试的准确性,我们通常提取尽可能多的功能(5]。然而,这可能导致的冗余特性,计算,增加和减少计算速度和精度。因此,功能优化算法的研究已经受到了越来越多的关注。目前,主成分分析(PCA)是广泛应用于功能优化。算法是一个线性降维算法,将高维数据转换成低维数据矩阵压缩。该算法快速计算和低复杂性,但它不是很好复杂的非线性数据降维的(6]。一个二进制粒子群优化算法(全局搜索)在1997年提出的艾伯特可以用来解决这个问题。近年来,该算法不断改进,应用于特征选择的研究人员,如基于遗传算法全局搜索,基于全局搜索的平均健身、全局搜索结合细菌算法,免疫算法[7 - 9]。在这些研究中,全局搜索的改进主要集中在设计的粒子群优化算法的适应度函数,不考虑特征选择的特点,在实际的分类问题。因此,不能利用算法的最大性能。一些研究人员建议使用SVM-RFE方法选择的粒子群优化算法的初始种群减少粒子的搜索空间。该算法可以有效地提高分类和识别的准确性(10]。然而,每次SVM-RFE算法的维度不同,从而导致最终的优化结果的随机性。

此外,由于功能优化的不确定性因素,优化算法不适合泛化功能优化的新样品。

一种改进的特征优化算法Pearson-BPSO基于传统的全局搜索算法和皮尔逊相关系数提出了。本研究的目的是测试新算法的可行性。我们应用三种不同的算法,包括主成分分析、全局搜索,Pearson-BPSO优化功能。然后,我们评估的三个优化算法性能的两种不同的基于支持向量机(SVM)分类模型和随机森林(RF),分别。的比较结果表明,新功能优化算法有利于提高分类的准确性。在下一节中,即,部分2之后,介绍,基于材料和方法。在这之后,部分3包含结果。实际上是在讨论部分4,部分5是结论部分。

2。材料和方法

2.1。信号采集

电子鼻设备、也被称为一个人工嗅觉系统,可以模拟生物嗅觉系统通过气体传感器和模式识别技术的结合。它的基本原理是使用气体传感器模拟嗅觉感官神经细胞在生物嗅觉系统和使用电脑或特殊芯片处理收集到的信息,来达到识别气体或气味的目的(11]。

项目中,呼出气体的响应曲线与传感器收集的电子鼻设备命名ILD.3000、由科大传感器设计GmbH是一家德国的公司。如图1,三种不同的气体传感器RS1,卢比,和RS3硬件系统的核心是(12]。不同的人呼出不同气体组分,因此传感器响应曲线也会截然不同。气体传感器是无功测量系统的一部分,每一层的传感器具有不同的敏感性和选择性在不同温度下各种不同的气体。这三个设备中的气体传感器GGS1000系列传感器,可燃气体敏感;GGS3000系列传感器,可以检测碳氢化合物,特别是对C1C2,.....C8;GGS7000系列传感器,可以检测到没有2(13]。可控温度传感器Rt是用来提供一个合适的温度环境,提高响应能力的气体传感器。

如表所示1,在研究过程中,121名志愿者的呼气数据收集在瑞金医院,包括69名肝癌患者和52健康对照组。主动呼气所有数据收集。在收集过程中,一次性使用呼气喷嘴,在体外完成没有任何介入设备,对人体无害。入选标准的志愿者必须原发性肝癌病人,没有其他转移性癌症,没有呼吸系统疾病,无吸烟史、饮酒在过去的三个月。集合之后,应禁食。

如图2,在测试中,我们可以同时获得三个响应曲线(由三个不同的颜色:黄色,灰色,和橙色)呼出气体和温度曲线的电子鼻设备,对应于三个不同的传感器。温度变化从280°C到420°C,和响应曲线代表的反应电阻传感器不同的气体。与温度相比,电阻值差别很大。

2.2。信号预处理

如图2的价值观和振幅曲线三个传感器收集在一次变化很大。为了便于比较,规范化处理方法首先减少大小不改变波形的状态。每个曲线转换公式(1)相对的值在[0,1]的范围,以简化后续的分析。 在哪里 代表了th某个传感器收集的样本曲线,样品的长度是60。 可以A、B和C,代表三个传感器,分别; 代表了th样本; 意味着的j点th样本曲线。的价值j从0到59岁, , 分别代表了信号的最小值和最大值。

2.3。特征提取

信号曲线归一化后,尽可能多的功能为每个曲线被提取。在这项研究中,我们提取的时间特性、频域特性,统计每个曲线特性和相关特性之间的三个不同的传感器获得的曲线。15时域特性的最大值和相应的位置,最小值和相应的位置,意思是,峰,纠正的意思是,方差,标准差,波形因素,脉冲因素,峰值因子,保证金的因素,和区域。14个频域特性包括重心频率,频率方差,均方根差,频谱和功率谱计算的各种方法。10统计特性是极端的偏差,值,分位数,和多元性,变异系数、偏态、峰态,自相关系数和信息熵。此外,2乘2计算三个传感器信号之间的相关性,和三个特性。最后,每个志愿者的一个呼吸测试,我们结合所有三条曲线的特点,2082维的高维特性可以实现。

2.4。功能优化

在分类任务中,样品的初步分析功能基本是提取功能最重要的区分不同类别的原始数据,而丢弃这些特性没有贡献的分类。因此,功能优化实际上删除无关的因素和减少干扰的分类。选择最优的特性可以有效地降低特征空间的维数。因此,功能优化可以减少计算的工作量,提高了算法的计算速度。

如图3,传统的优化算法全局搜索特性是改善,不仅考虑了分类精度和特性,还充分利用分类的特点考虑特征之间的相关性和类别。在使用全局搜索特征选择的算法,特征和类别之间的相关性是首先计算。根据皮尔逊相关系数,第一个特定数量的特性与高相关性被选中。重要的是要注意,特征选择的数量可以设置的经验。在这项研究中,数量是1000年作为一个相对大量。然后用的优化目标,减少资讯的分类错误率和特征维数,构造适应度函数。因此,最优特征子集选择基于全局搜索,优化算子和特性是确定。算法的具体流程如图3

2.4.1。根据皮尔逊相关系数初步筛选的功能

皮尔森相关系数和演化提出了在1880年代由英国统计学家卡尔·皮尔森(14]。的系数可以用来衡量两个变量之间的相关性(线性关系)X和Y,它的值是- 1和1之间。

在这项研究中,每个样本的特征值作为输入变量x每个样本的标签,被视为变量y。皮尔逊相关系数可以确定之间的相关程度,标签和每个特性的多维特性集通过计算输入特性和输出之间的相关标签。然后,根据皮尔逊相关系数,初步筛选功能可以实现。

皮尔森相关系数是通过以下公式: 在哪里 代表的数学期望, 分别代表输入特性和输出标签。相关系数的值是在−1和1之间。当相关系数的值是接近0,他们之间没有相关性。当相关系数接近1的值,之间有显著的正相关特性和标签。同样,当值接近−1,有一个输入变量和标签之间的负相关。也就是说,当输入功能的价值上升时,标签会被改变。

2.4.2。基于识别错误和功能优化功能维度

对于一个 数据集,每一行代表一个样本。 行代表 样品, 列表示 一个样本的特性。功能优化至关重要的最小子集在这些特性 特性。的新功能,可以确保更高的正确的分类结果。特性的子集可能被视为优化功能。

通过计算优化转换因子,更多样本特性可以被优化。的主要步骤15,16)如下:

步骤1。初步筛选后设置功能粒子,粒子的特征维度的维度,和初始粒子数到300。粒子的位置和个体最优位置随机初始化使用二进制编码。

步骤2。特征选择的适应度函数是构造基于分类错误率和优化的特征维度,如以下公式所示: 在哪里 是基于粒子获得的健康; 是分类器的错误率识别特征选择后基于粒子; 原始特征空间; 是选择功能维度基于粒子; 是分类器识别错误率的权重和特征尺寸优化,可为0.8和0.2,分别。

步骤3。计算每个粒子的健身价值根据步骤2,个人和全球动态因素和惯性权重更新根据健身价值,如公式(4)(6): 其中, 是个别调整和全球调整的动态因素, 惯性权重, 是一个随机数[0,1], 是迭代的数量, 是预设的迭代次数,w马克斯w最小值最大惯性重量和最小惯性权重,分别。
根据公式(4)(6),速度可以进一步的迭代更新价值计算,如以下公式: 更新的速度值, 是动态惯性权重, 是最后的速度值,然后呢 当前位置; 是个体最优位置, 全局最优位置。

步骤4。多个迭代执行,粒子位置更新的关键(0,1)根据速度定义条件使用公式(8)和(9): 在公式(8),一个s形的函数是用来映射速度区间[0,1]的概率,这概率的概率是粒子将一个值为1。
同时,Xij在公式(iter + 1) (9)是绝对的概率改变位置。

第5步。确定迭代的最大数量。如果迭代的数量已经达到了 ,最优特征子集是有根据人口历史最优位置,和最优位置记录将被用作功能优化转换操作符;否则,返回步骤3

3所示。结果

功能优化后,有必要通过定量方法评估优化的效果。在本文中,我们评估的影响特性优化分类器的性能。

首先,我们获得特性优化算子基于训练呼气样本特性和实现的功能优化测试样品。具体步骤如下。

首先,收集了两种类型的样本,共计121呼吸信号包含健康控制和肝细胞癌患者,分为训练集和测试集后多维特征提取。然后,训练集被用来确定功能优化算子。具体方法如下:使用标签值1(代表肝细胞癌患者)和标记值0(代表健康对照组)构建一个标记数组。以它为因变量y和高维样本特性数组变量x,样本特征和类别之间的关系被皮尔森相关分析计算。因此,样品功能组排序的皮尔森相关系数的绝对值,和前1000维特征被保留。此外,适应度函数是由资讯分类错误率和特征维度,并实现了基于全局搜索最优子集。同时,功能优化转换因子。优化之后,特点是使用特性的测试集上执行优化算子导出在上面的步骤。

一旦功能优化完成后,下一步是建立分类器。

建立了两种不同的分类器获得更可观的评价。一个是基于支持向量分类器构建机制(SVM分类器),另一个是基于随机森林分类器构建方法(射频标识符)。

在这里,我们应用两种不同的分类器进行分类和检测由三个处理各种优化方法的优化特性。通过比较分类器的性能,我们发现Pearson-BPSO更有效的分类与其他两个传统的特征优化方法相比,PCA和全局搜索。

3.1。性能比较Pearson-BPSO和全局搜索

比较功能的优化效果改善Pearson-BPSO和传统的全局搜索,寻找最优的子集的特性和功能转换因子的确定进行了基于上述两种算法,分别。

4显示了适应曲线的两个100年全局搜索算法迭代。的水平坐标图表示迭代的数量,和最大设置是100;垂直坐标是健身价值,值越小意味着更好的优化性能。其中,图4(一)显示了改进Pearson-BPSO算法的适应曲线。基于优化的健身、特征维度可以减少到251,和适应值低于0.045。图4 (b)曲线显示了适应传统的全局搜索算法,与712年的优化功能维度和最优适应值约为0.08。

3.2。分类性能

优化算法的性能特征映射可以反映在分类器的性能。在这里,我们计算了SVM分类器和射频分类器的性能比较的性能优化算法。

原始样本的特征提取后,积极的和消极的样本分为10倍和组合成10组样本数据。单一的数据(约7例肝和5例控制)为每次测试样品,剩下的样本作为训练样本。然后,计算的功能转换因素改善Pearson-BPSO特性优化算法,传统的全局搜索,和PCA优化算法用于优化和减少训练样本和测试样本的特征维数,分别获得不同的优化特性的数据集。此外,基于SVM的分类器建立了射频,分别计算和分类性能对每个时间。这个过程被重复十次,不同的单一数据作为测试样本,和分类性能是每次分开计算。最后,平均每个性能获得了两个分类器的性能指标下的三种不同特性的优化算法,如表所示23

从表2,我们发现最好的精度是86.03,而最好的敏感性为90.79,当Pearson-BPSO特性优化应用。从表3,我们发现最好的精度是90年最好的敏感性为94.83,当Pearson-BPSO特性优化应用。

表的性能指标23包括以下:Acc是用来衡量分类器的正确分类样本的准确性。Sens代表样本的分类器识别肝细胞癌的敏感性。规范的特异性识别正常样本的分类器。f值代表的是分类器的综合性能,f值值越高,分类器的性能越好。

4所示。讨论

根据呼吸测试的机制,由于病理原因,肝细胞癌患者的代谢变化,呼出气体的成分也会改变。因此,呼出数据的分类和识别的肝细胞癌患者和健康人是最智能检测肝细胞癌的重要工作。在这项研究中,我们通过构建一个杰出的肝细胞癌二分模型区分呼吸信号的肝细胞癌患者和健康人。

以往研究的结果是一致的与其他研究已经表明,挥发性呼吸生物标志物可以区分人与非癌恶性实体肿瘤对照组(17]。然而,没有明确的结论不稳定的标志气体的类型为肝细胞癌。目前的研究是基于使用的收集装置可以应对大量挥发性呼出的气体,其中包括肝细胞癌可能特定的呼出气体(18]。我们不需要知道特定类型的气体;我们只需要记录的总体响应包含一些特定的气体呼出气体。在这里,我们试图建立一个二分分类器使用不同的特征的综合响应曲线在健康的个人和肝细胞癌患者呼出气体。然而,提高呼出气体响应的有效性检测,我们需要使用gc - ms进一步比较和分析从病人和健康人呼出气体,并确定特定气体的物种。因此,一个高度敏感的电子鼻专门设计用于检测某些疾病然后可以设计。

此外,研究中所使用的设备尚未应用于临床,并且没有明确的国际标准的方式和标准呼出气体的收集。临床数据的数量和来源的数据分析是相对有限的。一些先进的智能算法19),如深度学习,基于大数据,不能利用。因此,呼吸数据库的建立是一个重要的步骤来推进临床应用电子鼻的研究。这取决于对呼吸集合建立国际统一的标准。集标准包括类型的气体收集,收集方法,病人的年龄、性别、饮食,甚至种族,和其他需要收集更全面的信息。

这项研究仍处于探索阶段,收集的数据的数量是有限的,和临床分析的结果可能是片面的。由于有限的样本的性质,传统的机器学习算法被用于分类的研究,即,signal preprocessing, and feature extraction and classification model construction to distinguish hepatocellular carcinoma patients from healthy individuals. In the specific work, because the human exhalation signal collected by the eNose device has a large interindividual and individual variability at different moments, which cannot visually and effectively distinguish the data of hepatocellular carcinoma patients from other health data, the signal is firstly subjected to feature extraction. The extraction of signal curves’ features helps discover more potential information. However, high-dimensional features may lead to the degradation of classification accuracy and slow computation, so the optimization of features becomes a hot topic of research.

一种方法来衡量是否功能优化更有效满足相同的特性,不同的算法优化,同一分类器和测试的分类性能。在这项研究中,使用的十倍交叉验证方法数据分析,考虑到构造分类器的性能变化当使用不同的训练样本,平均性能作为最后的措施。此外,随机性的基础上选择划分样本时,积极和消极之间的不平衡样本训练和测试样本可能发生。保持样品一致,使用分层筛选方法。也就是说,积极的和消极的样品分别除以10倍,然后划分数据进一步组合为训练和测试样本。

此外,评估优化算法的泛化能力,使用的资讯分类器算法优化健身时避免选择分类器和支持向量机分类器和射频分类器选择。从表,我们发现分类器应用改进的优化算法Pearson-BPSO超过了所有其他优化算法。

虽然仍有许多工作要做在这项研究中,我们可以从实验结果得到以下结论。首先,它是有意义的和可行的,电子鼻设备可以识别健康对照组肝细胞癌。然而,仍然有许多困难要克服临床应用的电子鼻。其次,改进功能优化算法确实是有利于提高检测的性能在某种程度上,如图所示,由10倍的平均结果两种不同的分类器。从表23,我们可以发现这两个分类器应用改进的优化算法Pearson-BPSO超过所有其他优化算法。

5。结论

不同的气体有不同的响应曲线,这导致不同的传感器测量信号和呼出信号。在收集人类呼出信号通过电子鼻子,很难区分肝细胞癌患者的数据和其他健康数据直观、有效,因为伟大的个体间的差异,在不同的时间。的提取波形特征有助于发现更多的潜在信息。然而,高维特征可能导致分类精度的下降和缓慢的计算,所以功能优化已成为一个研究热点。

优化算法,一种改进的特性,Pearson-BPSO,提出了基于二进制粒子群优化(全局搜索)“two-classification”任务区分肝细胞癌患者和健康人的呼吸。根据皮尔森系数和标签之间的关系可量化的特性,该算法初步提升功能,优化功能设置最小化资讯分类识别率和功能尺寸,改善算法的分类精度,减少了数据量。与传统的全局搜索算法和PCA算法相比,该算法在一定程度上提高分类性能,有利于提高分类精度的检测速度和电子鼻检测。

6。未来的工作

在下一步中,我们可以进一步分析之间的关系特征,然后用这种方法有效地结合更多的定向搜索最优子集,提高分类的准确性。我们还将使用更高级的算法,不断优化改进的特征优化方法Pearson-BPSO实现更稳定和更好的分类结果20.]。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是财务支持的关键中国国家自然科学基金项目(批准号81830052)和上海市教育委员会(二类SUMHS高原医学技术的学科建设规划,2018 - 2020)。数据收集工作是由团队完成从上海交通大学和上海理工大学。和电子鼻子部门支持的德国公司。