文摘
客观的。选择重要的Haar-like特性提取舌图像对健康鉴定。材料和方法。舌头1322例纳入本研究。健康信息收集和舌头每种情况下的图像。病例分为以下组:组包含148例诊断为健康;组包含332例诊断为生病的基于健康信息,即使舌头图像是正常的;和组包含842例诊断为生病。Haar-like特征提取舌图像。然后,我们提出了一种新的增强方法在中华民国空间选择从这些图像中提取的显著特征特性。结果。总共27个特性被从组,B和C七个特性被选自组A和B,而25特性被选自组A和C。结论。所选特征在本研究中主要是获得从根,顶部,舌头的地区。这是符合从事中医舌分区。这些结果为健康提供科学证据中医舌诊识别。
1。介绍
随着社会的不断发展,健康状况问题已成为近年来研究的重点,和健康识别一直是最重要的问题之一。健康的识别是一个过程识别主题健康或生病的状况。西医诊断一个人的健康状况基于一系列的实验室检查。然而,这些考试是侵入性且耗时,需要大量的实验。另一种诊断方法,中药(TCM)提出了苏温(普通的问题)作为一个概念的预防治疗疾病。普通的问题是古典文献学的一部分写中国古代战国时期,它声称中医识别一个人的健康状况诊断前死亡。健康鉴定是一个最基本的诊断方法应用于疾病的预防治疗中医(1]。与西医相比,中医采用无创性,省时的方法包括舌头和脉冲识别一个人的健康状况。近年来,西方医学也开始关注建立预防治疗疾病,如医疗鉴定,因为这些结果可以节省医疗的时间,精力,和成本(2]。
然而,在中医舌诊被批评因其主观的诊断标准。几项研究都集中在舌头图像诊断和计算机图像处理导致舌头标准客观化。颜色是最常见的特性在舌诊由于其直觉。彭日成等人的研究介绍了低阶时刻的平均值和标准偏差等颜色特征来诊断阑尾炎(3]。赵等人的研究发现颜色差异,没有慢性乙型肝炎患者(4]。在最近的研究中,舌苔颜色特征提取。对于颜色特征,王等人舌头的颜色分为12类通过大量的舌图像的统计分析(5]。然而,这些颜色特征是全球性的,无法描述图像的局部信息。研究Kanawong中医郑等人利用颜色特征进行分类(6]。在当前的研究中,舌头图像被分成几个区域,在几个颜色空间提取和特征。荣格等人研究的病例对照研究探讨颜色分布差异的舌头睡眠障碍(7]。目前的研究还使用分区颜色特征。张等人他们的中医分区知识学习演算法用于舌识别(8]。上述研究的共同特征是,中医知识用于分区。然而,从中医的角度来看,这些研究的结果不被接受,因为这些都是基于中医先验知识。此外,这些研究主要集中在疾病诊断,而不是医疗鉴定,这并不符合中医诊断,中医称健康诊断识别比疾病更重要9]。
智等人利用高光谱特征分类的舌头图像(10),这个功能也是一个全球性的特点。杨等人使用纹理和曲率特性来检测舌裂纹(11,12]。目前的研究集中在特殊的舌头除了舌诊图像,和这些特性也太全球代表这些舌头分区之间的任何关系。
Haar-like特性的一类图像分区的特性。中提琴和琼斯Haar-like特性用于人脸检测(13]。人脸检测分类分区包含和不包含人脸。目前,这种方法已经被证明是成功的人脸检测。然而,它的性能显著下降当应用于其他领域14]。福等人使用Haar-like功能段的舌头图像从背景15]。王等人也用Haar-like特性来探测和跟踪嘴唇(16]。然而,这两项研究没有关注诊断疾病或健康状况确定。崔等人采用这种方法在诊断高尿酸血17]。然而,只有少数可以找到类似的研究。
特征选择是最重要的步骤之一,在分类和诊断。有三种类型的特征选择方法:过滤方法,之前选择一个最优的特性集分类;包装器方法,它使用一个固定的搜索策略和交互分类器;和嵌入的方法,该方法结合了特征选择和分类器结合在一起。Saeys等人评估这些方法在应用这些生物信息学(18]。
提高算法在羽毛的选择和分类是一种有效的方法。它结合了许多单分类器的结果,并结合这些结果的性能比单个分类器更好。原因增加的方法具有更好的性能可以被解释为可能大约正确理论的勇敢的(19]。在这个理论中,强可学的和弱可学的定义的概念。Schapire能够证明这两个概念是等价的(20.]。这一结论表明,如果存在一个分类模型具有较高的预测精度,一系列疲弱的整体模型是等价的,即使他们的预测结果仅略比随机猜测。
中提琴和琼斯增强算法用于人脸检测(13),证明了该算法可以用来应对特征选择和分类。然而,这种算法只适合于人脸检测,因为眼睛和鼻子是自然的。Mamitsuka提出了一个基于提升算法来对微阵列归类(ROC曲线21]。小森江和长Servedio还提议提高算法最大化ROC曲线下的面积(AUC) [22,23]。这些研究可以部分解决小观察问题,但没有用于不平衡样本问题。在我们的问题中,许多特性比例子的数量大得多。风扇和Lv提出了理论保证筛选功能从超高特征空间24]。
为了解决这个限制,我们建议ROC-Boosting方法对中医舌诊在医疗鉴定。该方法首先屏幕使用的特性以及。Haar-like特性是使用几个不同的条件来选择并发送此功能集成分类器。我们的方法是通用的与以前的方法相比,由于其条件包括AUC值,敏感性,特异性,他们的组合。它还可以使用正负样本比例条件处理样本不平衡问题。ROC-Boosting我们命名这个方法,因为其特征选择条件都相对于民国空间。此外,我们的方法避免了使用中医先验,及其与中医舌分区的结果是一致的。
2。对象和方法
舌头图像和健康信息收集从2011年到2012年的1426例。ROC-Boosting来选择Haar-like特性提取舌图像。自然选择分区的舌头图像特征。然后,分区舌图像证实中医诊断方法。这个过程如图1。
2.1。主题
舌头图像和卫生信息从2011年到2012年的1426例获得天津大学教学医院的中医(TJUTCM)。其中1426例,96例排除由于低质量或复制图片和健康记录缺失值。然后,中医学生和专家们用来讨论舌头图像和健康信息收集。在这个讨论中,八个额外复制图片被发现。门诊医生证实,这些副本是由于滥用医疗保险ID使用。因此,这八个图像被排除在外。最后,共有1322例包括进入本研究。中医诊断健康/疾病状态在特定疾病之前,因为中医关注疾病的预防治疗8]。出于这个原因,我们专注于健康识别问题在这项研究中,所有被诊断为健康或生病。以下的1322例分类组:A组,诊断为健康基于舌图像和健康信息(例);B组,诊断为生病的基于健康信息,即使舌图像是正常的(中医认为舌头的变化并不能反映所有疾病,例);和C组,诊断为疾病根据舌图像和健康信息(例)。每组的病例数是总结表1。在特征提取之前,所有图片缩放到120×100,排除从背景中分割出来的影响背景特征提取和选择过程,如图2。
2.2。方法
2.2.1。改善Haar-Like特征提取
通常,颜色特征提取整个舌头和Haar-like特性提取分区。完善Haar-like功能有五个分区,考虑到人类关注他们的观点的中心目标乍一看,如图3。相比之下,原Haar-like特性被认为是不同的和两个水平或垂直分区之间的颜色值。这个功能的中心分区有两个参数:和。这些参数代表这个分区的宽度和高度。周围的其他四个分区有三个参数:,,。代表这四个分区的宽度,而和代表Haar-feature左上角的位置。考虑到人类通常在中心分区集中他们的观点和其他四个分区,中心像素的数量在改进的分区和其他四个分区Haar-like特性应该一律平等。确保中心像素分区的数量等于其他四个分区,是由,在那里代表的最大整数小于计算实数。参数和代表这一特性的工具条角落的位置。改进Haar-like特性使用不同像素颜色值之和的分区和其他四个分区。
每一个改进Haar-like特性由五个分区(1 - 5)。这个Haar-like功能有五个参数:,,,,。和代表中心的宽度和高度分区。代表其他分区的宽度。和代表Haar-like功能的位置。可以计算特征值之间的差异和中心像素值的分区和其他四个分区。
在此设置中,改进的Haar-like功能非常大的数量。考虑到数量的显著特征是非常小的在我们之前的研究中,我们减少的数量特征类似于透光研究[14]。在这项研究中,参数的密度网格的数量减少,降低改善Haar-like特性。我们设置,,,实验。这种简化后,特性的数量是98592年的红色,绿色和蓝色的平原,分别。这些特性是部分ROC-Boosting算法的输入。
2.2.2。ROC-Boosting
关于改善Haar-like特性之间的区别健康和患病人群的价值观,三个测试设计。第一个测试调查的区别健康组(A组)和疾病组诊断仅仅基于健康信息在B组(B组)。病例诊断为健康,因为舌图像的差异无法用肉眼观察到。这个测试可以证明这两个组之间是否存在差异。第二个测试的目的是验证的区别健康和疾病组(C组),因为这两组之间的差异可以用肉眼观察到。第三个测试的目的是验证的区别健康(A)和疾病组(B和C)。随着改善Haar-like特性变得非常大数量的例子的数量相比,屏幕测试被用来改进Haar-like特性在第一个实例应用我们的方法。我们改进的Haar-like功能的数量减少到大约104通过的价值以及。的价值和数量的过滤特性表中列出2。这些特性是我们的方法的输入。
我们的方法,ROC-Boosting,见算法1。该算法计算所有功能的AUC值在每一个循环。AUC值将被设置为负值时,ROC曲线凹;即中华民国曲线翻在随机猜测。这烙旨在处理逆转预测功能。然后,ROC-Boosting选择特性在某些情况下,这将稍后讨论。后被正确分类的例子和选择特性,循环重新启动。选择功能不再满足条件时,算法停止所有选择特性和礼物。ROC-Boosting选择最重要的特性在舌头图像诊断对象来自不同团体在每一步。这些特性可以用来构建分类器识别对象从不同群体的健康状况。 Verification of conformance between the positions of these features and TCM tongue partitions provides scientific evidence for TCM tongue diagnosis.
|
||||||||||||||||||||||||||||||||
如之前所述,该算法是一种通用版本的杨所使用的算法等。12]。中提琴的方法只适用于情况特性和极高的灵敏度存在比如特性,描述一个人的眼睛和鼻子人脸检测问题。当条件第9步改为最高的敏感性和特异性,ROC-Boosting将类似于中提琴的算法。中提琴的算法运行的过程表明,这些特性并不存在于我们的问题。这就是为什么我们广义中提琴的方法。
在我们的问题,我们在第9步使用接下来的两个条件。第一种是消极/积极比率条件。我们计算和,在那里是正面例子的数量,是负面的例子,是正面例子的数量正确分类的特性,然后呢是负面的例子的数量修正分类功能。这个条件是。第二个条件是AUC值,的AUC是这个特性。我们使用这两个条件,因为我们并没有发现任何显著特性存在的问题,并积极/消极的例子是不平衡的。
2.3。统计分析软件
我们提取ROC-Boosting特性使用戴尔电脑(7020年商用台式机,i5 - 4590;四核8 GB RAM)。R 2.15.2 64位版本所使用的统计软件(25]。使用ROCR包AUC值计算。特征提取和ROC-Boosting编程的代码脚本在R。
3所示。结果和讨论
3.1。结果
为测试1,只有8个功能选择。第九特性条件。为测试2,25个功能选择。第26届特性条件。在这两个测试,算法结束,因为这个功能比猜再也不能被发现。为测试3,27个功能选择。28日特性极其担忧疾病的例子比健康的例子(35/2)。算法结束,因为功能有关的正面和负面的例子可能不再被发现。
我们覆盖所选择的特性和舌头图像调查这两个之间的关系,因为我们假设舌诊是由重复的观察和每个观察对应一个功能。图4显示所有选择特性的叠加的结果。从(a)在图(d)4:(a)是我们样品的舌头形象;(b)的叠加特性测试1,和它的AUC值为0.662;(c)是为测试2,AUC值为0.740;和(d)是为测试3,AUC值是0.723。
(一)
(b)
(c)
(d)
测试1表现不佳是因为组a和b之间的细微差异甚至肉眼不能识别组的健康状况测试2有最好的结果,因为集团是由健康受试者和C组由生病科目。覆盖的形状特征是分布在舌头。这两组之间的差异是最重要的三个测试。测试2的覆盖特性是集中在舌头的中心。最后一个图的覆盖特性包括三个方面:根,中心,舌图像的顶部。我们在最后一个图标志着这三个领域。其性能略低于测试2 B组的干扰。
3.2。讨论
我们的方法比以往的研究更一般的。中提琴的方法只适用于高灵敏度特性存在的情况下(13]。在这种情况下,该算法选择特性增加特异性与灵敏度高的特性。高性能分类器将建在保持高灵敏度和特异性增加。同时ROC-Boosting还可以使用特异性和敏感性,特异性和灵敏度的值可以相对较低。它还可以使用其他条件来选择功能。ROC-Boosting也工作得很好,即使不存在高灵敏度特性。医疗鉴定的问题之一是Haar-like特性舌图像的使用。在preexperiment,我们测试所有功能。我们的数据不存在高灵敏度特性,我们证实中提琴的方法。ROC-Boosting能够选择功能。
易学性理论保证ROC-Boosting算法的有效性。如果一个高性能分类器存在于健康使用Haar-like特性在舌头图像识别问题,这是本研究的基本假设,一个弱分类器的性能比随机猜测就相当于它。ROC-Boosting的条件让每个弱分类器比随机猜测。
此外,弱分类器应该关注正面和负面的例子。如图5,尽管这两个特性(自181520年至188479年在左subfigure右subfigure),188479年是排除在外,因为它只专注于积极的例子。在ROC-Boosting,不包括这些功能。
(一)
(b)
我们也比较了两种不同条件的ROC-Boosting为测试3。第一个条件是消极/积极和比例条件,在我们的研究中使用。第二个条件是完全AUC值条件,提出了在先前的研究。比较结果如图6。我们也选择27特性使用仅仅AUC值条件。然而,16功能被选中后,下一个功能选择这种情况只能正确地预测一个两端的四个主题功能价值。正确地预测受试者的数量决定了AUC值增加这一步。这表明AUC值16特征选择后是不可持续的。比较两种不同条件下的结果,我们连续运行程序。虽然正确的图像的AUC值(0.727)比左边图像(0.723),仅仅AUC条件获得这种优势,因为它是倾向于预测所有科目与疾病。当正面和负面的受试者的数量是不平衡的,预测倾向于主要的类是最常见的现象。消极/积极比和相对条件与正负类相关联,同时获得类似的AUC值。正确的预测健康和生病的科目是同样重要的医疗鉴定。
(一)
(b)
4所示。结论
我们建议卫生ROC-Boosting算法识别的应用。这个算法使用过滤Haar-like特性和选择特性从正面和负面的例子。特征选择健康和疾病诊断的对象主要集中在根,舌头图像中心,高级分区。与以往的研究不同的是,这些分区不是preexperience的结果。确定性算法提出了这些分区。这些结果为健康提供科学证据中医舌诊识别。
利益冲突
作者宣称没有利益冲突的工作。
作者的贡献
燕崔完成了算法和写论文。洪武Wang和侍童廖本研究的数学模型和方法执行。
确认
这项工作是由中国国家基础研究计划(973计划,批准号2011 cb505406)和天津政府中医,中药,结合医学研究和特殊项目(批准号15269)。