文摘

蛛网膜下腔出血(SAH)是最常见的突发脑血管事件之一,这可能导致严重的后果。自发性蛛网膜下腔出血急性脑血管意外事故约占15%。其中,自发性蛛网膜下腔出血引起的破裂颅内动脉瘤或血管畸形更为常见,约占85%。因此,它是非常重要的检测通过合理手段蛛网膜下腔出血的早期症状,进行适当的临床干预和治疗。随着成像技术的发展,计算机断层扫描血管造影(CTA)是广泛应用于临床实践。然而,手动识别CT图像的准确性不是很高,效率很低。数据挖掘技术的出现逐渐解决这个问题。在本文中,我们介绍和总结数据挖掘的发展,国内外研究进展,数据挖掘技术在医学领域的应用现状,以及数据挖掘的主要技术和方法。我们研究数据挖掘中关联规则提取技术的应用在医学领域。先验的算法寻找频繁项集的关联规则提取和一系列的改进算法进行了研究,最后结合医学CT图像的特点,图像挖掘关联规则的方法提出了基于灰度同现矩阵。 Based on the FP-growth algorithm, the NCFP-growth algorithm based on association rules is proposed and compared with the mining effect of several other algorithms. The proposed algorithm achieves a classification accuracy of above 90%, which is higher than the Apriori algorithm and its improved variations.

1。介绍

蛛网膜下腔出血(SAH)是一种急性脑血管疾病由多种原因造成的。这是血管破裂造成的表面的大脑或脊髓,和血液流入蛛网膜下腔。其发病率仅次于脑血栓形成。形成和高血压脑出血(1),根据不同的原因,临床上,蛛网膜下腔出血分为两大类:自发性和创伤。自发性蛛网膜下腔出血占15%的急性脑血管疾病。颅内动脉瘤、脑脊髓动静脉畸形、动脉粥样硬化和高血压是最常见的导致这种疾病的原因。此外,性烟雾病,大脑血管炎、恶性肿瘤、血液疾病、脑膜炎、脑炎、和抗凝治疗的并发症会导致这种疾病的发生[2]。其中,自发性蛛网膜下腔出血引起的破裂颅内动脉瘤或血管畸形是最常见的,和其他人比较少见。在自发性蛛网膜下腔出血引起的罕见的病因,perimensencephalic nonaneurysmal蛛网膜下腔出血(PNSH)和防止损伤的convexal蛛网膜下腔出血(cSAH)是他们的主要亚型。1991年,Rinkei提议PNSH的定义:蛛网膜下腔出血的核心部分仅限于中脑的前面。出血可能伴随着扩张环形水槽的底部。纵向裂缝的前部水箱并非完全填满。它不向外侧裂水箱,和没有明确的颅内血肿形成3]。PNSH约占15%的自发性蛛网膜下腔出血(4]。sSAH蛛网膜下腔出血是指局限于表面的沟回大脑皮层,它通常不涉及邻大、小脑实质,前部和后部纵向裂缝水箱,皮下水箱或心室,等,和出血范围很小5),约占自发性蛛网膜下腔出血。7.45% (6]。因此,早期诊断和早期治疗是预防和治疗的一个重要组成部分的蛛网膜下腔出血的后遗症。颅内动脉瘤性蛛网膜下腔出血是自发性蛛网膜下腔出血的典型代表,是临床上最常见的脑血管疾病。一年一度的分裂到8 - 16个病例发病率约为每100000人,约占85%的自发性蛛网膜下腔出血患者(7]。颅内动脉瘤破裂是阴险和发展。很快,第一次出血的死亡率高达40%,和伤残率高达33%8,9]。如果不及时诊断和治疗,死亡率rerupture高达60 - 70%,和损失是巨大的10]。大约有6000万个动脉瘤,患者和200000多例颅内动脉瘤破裂和出血,严重威胁着人们的生命和健康,为社会和家庭带来了沉重的心理和经济负担。因此,应通过合理的手段进行早期检测。

是非常重要的提取颅内动脉瘤,开展适当的临床干预措施。数据挖掘技术诞生以来已经受到越来越多的关注。它善于处理大量的不完整,嘈杂但嘈杂的实际应用。对于数据隐藏值,数据挖掘进行高度智能的分析这些数据。通过归纳、概括和推理,发现数据中的潜在信息。同时,数据本身是不断改进采矿过程获得的数据可以完全,解释,和用于最大11]。医学和相关领域的研究越来越依赖于新技术和实践他们的影响。我们需要存储和处理大量的数据能够使用数据和从它(提取的见解12]。这些数据是非常宝贵的疾病诊断,疾病分析、和病理研究,但大多数当前的数据库系统不能智能地处理这些数据,他们无法找到他们。数据的知识不能预测未来发展趋势的数据。有效的医疗数据挖掘可以提高医院信息管理的水平,提供准确的信息和模式在疾病的诊断和治疗,以及帮助医生做出科学正确的决策(13,14]。本文介绍了数据挖掘的发展现状和知识发现和数据挖掘的现状在医学应用。的基本思路、总体框架和主要详细介绍了数据挖掘的技术和方法,然后医疗数据的特殊性进行了分析。并结合两个流程模型提出一种适用于医学数据挖掘。然后根据关联规则的提取及其应用在医学图像挖掘关联规则的相关理论,介绍了主要的关联规则提取算法进行了研究,然后图像相结合。灰度共生矩阵提取蛛网膜下腔出血的CT图像的纹理特征和关联规则提取来实现辅助诊断和分类的目的。

Perimetral nonaneurysmal蛛网膜下腔出血(PNSH)约占21 - 68%的第一次自发性蛛网膜下腔出血- DSA,也是一个重要的子类型的蛛网膜下腔出血。在疾病的发作,症状和体征轻微,出血部位是有限的,临床治疗过程是好的,脑血管造影术是负的,血管痉挛或脑积水等并发症非常罕见,预后良好,很少有复发。动脉瘤性蛛网膜下腔的严重后果是相关腔出血是完全不同的,它可以被认为是一种特殊类型的良性的蛛网膜下腔出血。对于这样一个较低的疾病发病率和死亡率和伤残率低,文献认为是有意义的疾病并发症引起的检查方法是不到0.5%。因此,我们选择应该无创性检查方法和有效的。它不仅减少了病人检验方法本身所造成的损害,但也有更高的敏感性,可排除动脉瘤有较高的死亡率和伤残率。与此同时,它也需要有一个更高的正确诊断PNSH阴性预测值。此外,蛛网膜下腔出血的另一个重要亚型今年已被发现,即自发的局部蛛网膜下腔出血。斯皮策等人在2005年首次报告12例cSAH之前,只有少数病例报告(5]。Kumar等人的研究表明,其发病率约为7.45% (6]。此外,没有大规模的流行病学调查报告其发病率和性别差异。其出血网站不同于PNSH,但预后相对良好,它也可以被视为另一个良性的蛛网膜下腔出血。蛛网膜下腔出血的诊断和治疗原则也应区别于动脉瘤。然后,SAH的推论的原因,除了病人的临床资料,我们经常使用以下影像检查方法。数字减影血管造影(DSA)是目前公认的黄金标准颅内动脉瘤诊断、术前评估和评价其他血管成像指标(12,15]。然而,作为一个侵入性检查,DSA的并发症率约为1 - 2%,和0.5%左右将会永久性的神经功能障碍。在严重的情况下,它可以导致死亡。此外,还有入侵和使用血管造影术。药物的缺点,辐射危害,检测时间长,成本高,等等,也限制其广泛应用于颅内动脉瘤的筛查和随访观察16,17),尤其不适合排除筛选良性SAH PNSH和随访等。因此,非侵入性检查方法受到越来越多的关注。随着成像技术的发展,计算机断层扫描血管造影(CTA)广泛用于诊所,让它安静仅仅依靠DSA技术作为金标准检测颅内动脉瘤的血管内治疗和外科手术。这些无创性血管成像方法确保动脉瘤同时有效避免并发症的有效检测脑血管造影术(18]。

然而,手动识别CT图像的准确性不是很高,效率低,数据挖掘技术的出现逐渐解决这个问题。图像挖掘是近年来发展起来的一个前沿领域。它是多学科的交叉,包括计算机视觉,图像处理,图像检索、数据挖掘、机器学习、数据库和人工智能。尽管这些学科在各自领域相对成熟,形象矿业仍处于探索研究阶段。国内外许多学者在这一领域做出了积极探索,取得了有意义的尝试在以下方面:(1)天体图像挖掘:系统使用天空由天文学家仔细分类的图像作为训练集构造模型用于确定星系,人们已经成功地使用这种方法来识别金星上的火山(19]。(2)卫星遥感图像挖掘(20.]:卫星遥感图像现在在各个领域的广泛应用,和我们的目标是利用遥感图像来解决表面问题。检测移动目标在遥感图像和数据库中的存储移动目标信息与原始图像可以挖掘出丰富的知识,如目标之间的关系。(3)空间数据挖掘(21):用于理解空间数据,发现空间关系和空间和非空间数据之间的关系。人们希望构建一个空间数据立方体和矿山空间数据基于数据立方体。协会的分析空间数据是在这个领域的一个研究热点,并提出了一些算法。美国宇航局喷气推进实验室的美国国家航空和宇宙航行局研究和开发了一个原型图像数据挖掘软件系统,即“钻石眼系统,可以自动从图像中提取知识包含语义信息和检测火山口的地形。和分析和卫星检测具体应用(22]。(4)医学图像挖掘(23]:大量的医学图像已成为一个重要的因素在促进图像挖掘技术的发展。医学图像总是伴随着医生的诊断记录。可能会有大量的相关性之间的诊断记录和医学图像的视觉特征。人们已经开始致力于研究在这个领域。例如,一些研究小组研究患病的大脑的空间组织。之间的关系的特点和病理特征诊断记录可以帮助医生找到病变的位置;一些研究小组使用类似的方法判断早期乳腺癌的24]。1998年,加拿大西蒙Frase大学研究图像数据挖掘软件的原型称为多媒体矿工。这个系统研究和开发的基础上,原来的关系数据挖掘系统“DB-Miner”和C-BIRD [25]。系统包括使用多维分析技术创建多媒体数据立方体,可以用来发现各种各样的知识,包括总结知识,分类知识、关联规则知识,MM-Associator等。其中一个模块,主要矿山图像的关联规则。通过这些规则连接的信息包括图像大小,颜色,和图片描述(26]。原型系统包含三个功能模块:(1)MM-Characterizer模块描述了多媒体数据的特点从多个抽象层,允许用户从多层次的角度观察数据,提供向上滚动和向下钻取功能。(2)MM-Associator模块发现关联规则从图像或视频数据集。(3)MM-Classifier模块将多媒体数据根据类标签,给每个类的描述。陈等人。27]相信减少出血的死亡率和准确的处理,基于机器学习的算法起着重要的作用。他们提出一个基于物联网的系统使用分类的支持向量机和前馈网络。基于机器学习的应用程序能够提供的信息类型的脑部出血,最终帮助专家的诊断和治疗过程。王等人。28)现在的概述的应用深度学习算法自动检测和分类出血的CT图像。他们认为基于ai的应用系统可以帮助自动诊断的过程,最终使我们更好的和及时的治愈的疾病。他们使用CNN-based深学习模型来实现准确的出血检测。

目前,图像挖掘的研究相对成熟,可以执行各种医学图像处理,所以很难观察明朗化的病变,同时提供一定程度的辅助诊断。它已经取得了飞跃从电影到医学影像的数字化,极大地简化了医务人员的工作负载设备,允许他们更关注疾病的诊断和治疗,通过这种技术,促进医院之间的沟通,以提高整体医疗水平做出贡献。

3所示。方法

3.1。关联规则的概述

关联规则是指之间的相关性不同的物品出现在相同的事件。关联规则的提取被Agrawal等人在1993年首次提出。经过20多年的发展,它已成为最重要的一个采矿技术在数据挖掘和模式是一个描述性的模式。一方面,关联规则挖掘的过程中,我们可以获得协会在不同概念层次关系。与领域相关的上下文中的概念层次树的支持,可以使用关联规则挖掘方法获取关联规则反映了不同层次的法律。另一方面,关联规则中包含不同的数据集是不同的。有两个指标来评估规则提取通过协会分析,这是支持的程度反映出规则的兴趣度和置信度反映规则的可靠性。通常情况下,关联规则挖掘的目的是找出哪些是高于最小支持度和最小阈值规则的信心。然而,在一些特定的情况下,可能还需要注意低支持规则,如疾病监测。典型的关联规则挖掘过程分为两个步骤:第一是找到满足最小支持度的项集,即频繁项集。 The second is to generate the lowest confidence rules from frequent itemsets, that is, strong association rules. The main technical difficulty of this mining method lies in the first step, i.e., to efficiently find frequent itemsets, which has a greater impact on the performance of the algorithm. Many classic algorithms for mining association rules use this two-step mining method, such as Apriori and DHP.

3.2。关联规则的分类

(1)基于类别的变量处理规则,它分为布尔关联规则和数值关联规则。如果协会认为规则是存在和缺乏项目,这是一个布尔关联规则。如果规则描述了量化项目或属性之间的联系,它是一个量化关联规则。(2)基于数据的维度参与规则,它分为单维关联规则和多维关联规则。如果每个项目或属性的关联规则仅涉及一个维度和处理一些关系在一个单一的属性,那么它就是一个单维关联规则。如果规则设计两个或多个维度和处理各种属性之间的关系,那么它就是一个多维关联规则。(3)基于数据抽象层次的参与规则,它分为单层关联规则和多层次关联规则。如果在一个给定的规则集,不涉及项目或属性不同的抽象层,然后集包含一个单层关联规则。多层关联规则涉及物品或属性不同的抽象层。

3.3。关联规则的过程

关联规则挖掘是指发现规则,满足最小支持度阈值和最小阈值从一个给定的事务数据库的信心。更原始的采矿方法是计算所有可能的规则 但这种方法显然是低效的。只是一个小数据集可以提取数以百计的规则。如果最小支持度阈值和最小信心阈值设置为25%和50%,分别超过80%的规则将被消除。因此,为了提高挖掘的效率,必须首先删除规则。的计算公式可以看出规则的支持规则的支持 只取决于项目集的支持计数 由此,可以看出,大部分的关联规则提取算法挖掘任务分解,将它划分为两个步骤:寻找频繁项集和关联规则挖掘。前者的目标是找出人们感兴趣的项目集(即高于预定阈值),被称为频繁项集。后者是提取关联规则高于预设的信心从频繁项集阈值,也就是说,强关联规则。

3.4。关联规则挖掘算法
3.4.1。先验的算法

在关联规则的分析,最基本和常用的算法是先验的算法(29日Agrawal),提出的学者在分析购物篮数据。它使用多个数据库的扫描我所需的单层布尔关联规则频繁项集,算法的名称取自拉丁语先天,这指的是导致的原因。它的核心思想是基于频率集合理论的递归。先验的算法被命名为基于频繁项集的先验知识。它使用一个圆形分层搜索挖掘频繁项集。这个循环使用k项集生成 - - - - - -项集。首先,极其频繁项集1-items组T1,然后T1是我用来T2,T2是我用来T3。与此同时,每一层的数据必须扫描一次挖掘,并将继续循环,直到没有更多的可以挖掘频繁项。该算法首先生成T1组,然后生成一个候选人T2通过T1,扫描数据库D、删除部分候选项目集的集合,并获得T2。它产生一组候选人的T3通过T2然后扫描数据库D一次。重复这个过程直到没有包含更多的条目项集。先验的算法有一个重要的属性。根据定义,如果某个项目集,不满足最小支持度阈值的方法呢不是一个频繁项集。如果一个项目被添加到项目集,新项目集 是在数据库中。出现的数量必须小于,所以 不能频繁项目集。它的逆命题是:如果itemset不能满足最小支持度阈值,所有可能的超集也不能得到满足。以下部分描述的具体过程Tk生成 详细并解释先天属性的应用程序的两个步骤在频繁项集挖掘加入和删除:(1)连接步骤:为了我的 ,两项集Tk可以连接到获得一组候选人 ,这是设置为一组吗 t1t2两项集Tk。如果项集t1t2,除了最后一项和倒数第二项,其他项目都是相同的;与此同时,倒数第二项是不一样的。假设数据库中的记录在辞典编纂的订单,安排t1t2Tk可以连接,这个连接的原则可以确保所有和nonduplicate生成候选项集。(2)删除步骤:候选集 由上面的连接原理的超集 这里的删除过程也分为两个步骤。首先,删除所有之前发现频繁项集的超集根据先验的财产。然后扫描数据库删除项集的支持小于最小支持度阈值,同时这部分不频繁项集的项集进行分类。(3)据删除步骤中,我们可以知道每个itemset 需要扫描的数据库,然后再决定是否添加 这个验证过程的瓶颈是先验的算法。例如,系数k= 10,那么数据库需要扫描的十倍,这就需要一个大的I / O负载,而且大部分的改进先验的算法也针对这一点。后发现所有的频繁项集,有必要通过频繁项集产生关联规则。大多数算法包括先天的规则生成过程基本上是相同的。为每个频繁项目集T,所有非空的子集年代生成。对于每个非空的子集,如果 ,强关联规则 是生成的。

先验的算法1(29日在给出一般形式如下。

l1={大型1-itemsets}
Ck = Apriori-gen
(所有事务 ,
增量c.count
结束
结束
解决方案=Uklk
3.4.2。设计马力算法

的过程中挖掘频繁项集,先天算法获得候选人的下一层通过连接上一层的频繁项集。经过进一步筛选候选人将获得这一层的频繁项集,这样周而复始。最大的瓶颈是这个筛选过程需要计算候选集合中的每个项目集的支持通过一对一的比较与数据库,以便当候选项集的数量的增加,算法的效率将是巨大的。因此,最大程度减少候选集的数量可以减少数量的比较,提高算法的效率。设计马力(直接Hasmngarld Prulling)算法引入了一个哈希表结构,删除不必要的候选集,提高关联规则挖掘的效率。具体的方法是建立一个散列桶的分层技术循环,也就是说,在推导的过程(k+ 1)项集k项目集,并使用哈希桶进一步筛选候选集。与此同时,与频繁项集更新数据库。虽然设计马力算法花费资源来保持哈希桶和更新数据库,它可以极大地减少候选项集的集合,从而大大减少比较的数量,显著提高效率。

3.4.3。分区算法

挖掘频繁项集和获取规则,分区算法的原理基本上是一样的,先天的算法。所不同的是,每个扫描的分区算法减少了比较成本的数据库通过将数据库。的核心思想如下:一个特定的项目集整个数据库的频繁项目集,然后必须频繁项目集的数据库。算法主要分为两个步骤:第一步是段数据库并执行每个段的频繁项集挖掘算法获得的频繁项集。第二步是把所有频繁项集分割获得大量候选集,然后通过比较大的候选集和整个数据库过滤和验证整个数据库的真实频繁项目集。分而治之的思想采用分区算法,整个过程其实只有两次搜索数据库,所以I / O消耗大大降低,但为了避免重复的不同部分之间的频繁项集,它必须实现矿业类数据库之前,还消耗时间和资源限制的应用在一定程度上的分区算法。

3.4.4。FP-Growth算法

FP-growth算法可以直接跳过候选项目集步骤和生成频繁项集。FP-growth算法也使用分而治之的思想,但它的策略分为两个步骤:第一步是把整个数据库压缩到一个FP-tree第一扫描,并保留项目集的信息,然后把压缩数据库分成一组条件的数据库与频繁的项目一个接一个;第二步是我的这些条件数据库。在列出的几个改进先验的算法中,FP-growth算法是最不同的。对频繁项集的分类规则是不同的。先验的算法划分成1-itemsets, 2-item集,……,k项设置根据频繁项集的长度,矿业进行的顺序增加长度,而FP-growth算法分类根据减少经常项目订单的支持。任何交易的频繁项插入到FP-tree FP-tree排序后,然后递归地挖掘。

3.4.5。NCFP-Growth算法

自提出了挖掘关联规则的问题,人们不断指出关联规则的限制。为了避免产生虚幻的关联规则,人们引入了多种新的阈值加强关联规则的评价。因此,FP-growth算法的基础上,结合新的阈值,提出了一种改进的频繁模式树构造算法NCFP-growth频繁Pattern-growth(新标准)算法。通过引入兴趣度权值,该算法有效地进一步过滤器频繁项,从而减少大量冗余和错误的规则系统采用FP-growth时生成算法。此外,与FP-growth算法相比,该算法有效地减少了树的大小和系统存储空间构造频繁模式树时,算法的搜索空间也是有效压缩。建设NCFP-tree:输入事务数据库DB;是min_sup的最小支持度阈值的方法;最低利益重量min_up;输出完整的频繁模式集。方法如下:(1)扫描事务数据库DB; (2) find the set F of frequent items and the corresponding support from the minimum support min sup; (3) arrange the items of W in descending order according to the degree of support, and record the result as tablel;(4)创建NCFP-tree根节点,作为根用户记录它,和它的值为空;(5)执行事务中每个事务数据库DB(6)和(7)两个步骤;(6)排序的频繁项满足min_up在每个事务的顺序l;排序表被标记为 ,在哪里p是第一个元素,然后呢P剩下的元素的列表;(7)如果T有一个孩子N这样吗N_item name =p_item名称的计数N增加1;否则,一个新节点N创建,其计数设置为1,并链接到它的父节点T;链接的节点链N与相同的项目名称的节点通过节点链结构;如果P非空,重复这个步骤。构建NCFP-tree后,频繁模式挖掘过程NCFP-tree FP-tree的采矿方法是一样的。NCFP-growth算法的流程图如图1

观察NCFP-growth算法,可以看出,由于添加新的阈值,原数据库中的频繁项进一步过滤,以避免系统从产生大量冗余和错误的规则,使得用户更容易我更实际的他们感兴趣的关联规则。

3.5。灰度图像的同现矩阵

任何图像由许多像素,和两个像素有相同的或不同的灰色的水平。图像中,两个像素相隔一定距离,灰色的联合分布的统计形式水平可以用来分析图像的纹理信息。灰度同现矩阵纹理分析方法基于条件概率密度函数估计的二阶组合灰色的水平。整个图像中定义,从一个像素的灰度,另一个像素的距离的概率(Dx, Dy)有一个灰色的水平j叫做频率,公式如下: 在哪里 图像像素的坐标, 代表图像的灰度, 两像素指的方向,有四个值:0°、45°、90°、135°。通过这种方式,描述图像的纹理信息的灰度 显然,灰度同现矩阵是一个对称矩阵形成的。的元素 灰度的同现矩阵作为一个例子, 意味着只有一对1像素的灰度水平相邻的原始图像。 ,因为有两双像素与灰色尺度水平1和2相邻的原始图像。

3.6。关联规则挖掘方法

总之,在矿业蛛网膜CT图像、医学的特点蛛网膜CT图像必须转化为数学的纹理特性通过灰度同现矩阵,如图2

在特征提取之前,有必要进行图像裁剪、图像降噪、图像的增强。完成后,CT图像的灰度同现矩阵可以被构造。矩阵的建设主要是确定灰度l和步骤。漫长的两个参数D的数据量,计算图像的灰度同现矩阵的数量是由这两个参数决定的。假设图像格式是288×288。如果不接受任何压缩和图像灰度l= 256和步长D= 1,计算灰度同现矩阵的时间消耗将会十分惊人。的基础上减少l和增加D压缩原始图像,灰度越小l和步长越大D,成本越低的计算灰度同现矩阵,但失去的更多信息,准确的结果将是更少。相反,越大l,越小D保留的更多信息,但是成本的计算灰度同现矩阵将会增加。在确定lD,图像的灰度同现矩阵可以得到6能源的特点,对比,熵值,局部稳定性,相关矩阵可以提取。后计算上述6蛛网膜CT图像的特点,结合医生的prediagnosis蛛网膜下腔出血患者的(缩写为PD), CT图像挖掘数据库可以构造。每个案例的特点组织和事务的形式存储在数据库中,每个记录在下列格式:PN, PD, H, I, J, K, L, M,类,其中PN表示数量,PD代表医生的prediagnosis, H, I, J, K, L和M是特征提取的6灰度同现矩阵,分别和类显示情况是否最终确定为蛛网膜下腔出血。建立了数据库之后,可以使用关联规则挖掘协助诊断和分类。这里,采矿的过程数据库段确定蛛网膜下腔出血的诊断标准。表1是一段建立数据库。

根据临床医学经验和智能图像诊断规则,初步认为以下诊断标准:如果医生提前诊断为1,和至少一个H,我和J蛛网膜CT图像的值是1,如果至少有两个K, L和M的值是1,建立了诊断,并可诊断为蛛网膜下腔出血,也就是说,类是1。在分析,发现数据库中的81号不符合最初的诊断标准,但最终仍是蛛网膜下腔出血。这表明诊断标准的实用性和科学性应该衡量关联规则挖掘。

4所示。实验和分析

4.1。数据收集

第三章引入了蛛网膜下腔出血的CT图像的性能,主要包括不平滑的边缘,黑暗的表面颜色,粗糙的质感,灰度分布不均匀,等。对于这些表演,本文收集了50组1000蛛网膜CT图像(两种类型的正常和异常)某附属医院的三大医疗医院,和有组织的图像数据库进行应用研究,特定数量的组和图像的数量每组如表所示2

4.2。与其他算法比较NCFP-Growth
4.2.1。准备在UCI数据集算法实验

为了测试本文NCFP-growth算法的性能,本文选择了标准数据在数据挖掘领域比较不同算法的性能。8在UCI数据集毫升存储库:糖尿病、玻璃、心脏、肝炎、马、蝴蝶花、劳动、led7。第三章中提到的五个算法用于获得比较影响通过比较实验,如图36

从柱状图可以看出,NCFP-growth算法在精度有很大的优势。这是因为NCFP-growth算法可以删除不必要的候选集,当寻找频繁项集,从而提高挖掘的准确性。分治法的分区算法可以显著提高该算法的性能。

4.2.2。实验NCFP-Growth蛛网膜下腔出血的数据集

10倍交叉验证也用于蛛网膜下腔出血的数据集和分类精度与第三章中介绍的几个传统分类算法,推测的,设计马力,分区,FP-growth。实验参数设置如下:min_sup设置为1%,min_conf设置为50%。

蛛网膜下腔出血的数据集上的实验结果表3表明,与其他算法相比,NCFP-growth大大减少候选关联规则的数量,从8756年FP-growth NCFP-growth 3122,和分类器的规则数量已经从63年开始减少在FP-growth NCFP-growth 26。实验结果图7表明,相比之下,传统的数据挖掘分类算法中引入第三章,NCFP-growth分类准确率最高为95.2%,符合要求的蛛网膜下腔出血的核心分类算法。

5。结论

本文进行了深入研究数据挖掘中关联规则提取的应用在医学图像诊断矿业。研究表明,该技术在医学图像数据挖掘可以取得良好的结果。本文的主要工作如下:(1)本文首先介绍了数据挖掘的发展,国内外的研究进展,以及数据挖掘技术在医学领域的应用现状,等,并介绍了数据挖掘的主要技术和方法,结合医疗数据的特点,提出了一种适合医疗数据挖掘过程模型,并给出一个详细描述的流程模型。(2)本文详细研究数据挖掘中关联规则提取技术的应用在医学领域。首先,理论基础和基本原理的介绍了关联规则提取方法。先验的算法寻找频繁项集的关联规则提取及其一系列改进算法深入研究。最后,结合医学CT图像的特点,grayscale-based算法。同现矩阵的图像关联规则挖掘方法是计算的灰色同现矩阵蛛网膜CT图像和获取图像的纹理特征。处理后的特性和组织,关联规则挖掘。(3)基于FP-growth算法,NCFP-growth算法提出了基于关联规则并与其他几种算法的挖掘效果。 Experiments on the subarachnoid hemorrhage data set show that the NCFP-growth algorithm has a higher accuracy rate in the CT diagnosis of subarachnoid hemorrhage, and can be used for actual case diagnosis.

数据可用性

在当前的研究中使用的数据集是可从相应的作者以合理的要求。

的利益冲突

作者宣称没有利益冲突。