文摘

本研究确定了影响因素的减少尸检在韦拉克鲁斯的医院。这项研究是基于数据挖掘技术的应用,如关联规则和贝叶斯网络在数据集获得医生的意见。我们分析,探索和知识的提取,算法和推测的一样,FPGrowth, PredictiveApriori,第三的,J48, NaiveBayes, MultilayerPerceptron,和BayesNet WEKA API提供的。生成挖掘模型和现在的自然语言的新知识,我们还开发了一个web应用程序。提出了研究结果是那些从best-evaluated算法,获得已验证了病理学领域的专家。

1。介绍

解剖(1)是一个非常重要的医学实践。这是唯一的研究,可以确定死者的真正死因,研究疾病的演变,确定传统疗法的有效性,发现新的疾病,等等。然而,在韦拉克鲁斯州的医院,这个方法实际上是在停止使用,已促使病理部门调查可能的原因。图1显示解剖研究拒绝在医院。在2012年和2016年,没有一个进行的。由于这个原因,在2,3],先验的算法应用于多个数据集通过乐器的应用(调查)的医院的医生,目的是寻找有趣的关联规则来识别的主要原因nonrealization尸检的医院。在本文中,我们提出一个更完整的分析,因为我们申请四个关联规则挖掘算法,即先天,FPGrowth, PredictiveApriori,和第三的,以及贝叶斯网络学习的数据集来确定影响因素减少尸检在医院里。同时,我们评估不同的分类算法,如J48 NaiveBayes MultilayerPerceptron,序列最小优化(SMO)来确定哪些是最好的应用分类的开放式问题的调查。

本研究的目的是提供一个工具病理学系,使得上述情况的分析更容易,并允许丢弃或测试假设的起源问题,这样医生就可以基于他们的解决方案建议聪明,统计和概率方法。因此,我们开发一个web应用程序,它能够生成挖掘模型,解释,并返回结果的自然语言病理学家可以理解。

开发web应用程序之前,我们回顾了一些研究性的论文,描述的部分2。建议的解决方案,这些研究的结果证明的有效性数据挖掘(DM)来解决问题,如一个,所以我们认为相关的解决方案来确定影响因素减少尸体解剖,通过机器学习算法的应用DM任务。

作为一种社会研究方法,我们使用调查,一个工具,允许我们收集医生关于重要性的意见,请求,实现医院验尸。一些年来,尸体解剖的主题感兴趣的一些研究人员证明在[4]。这表明研究的问题并不是微不足道的,除此之外墨西哥医院也是影响区域,所以有必要做这样的研究来帮助继续使用这种做法医学为了保持质量。

废弃的尸体解剖是一个明显的事实在世界的许多地方,(所5]。本文指出,在健康中心在尼日利亚目前没有尸检,最可怕的是自己却什么也做不了。作者,除了露出这种做法的真正好处,提及可能产生这种情况的原因,引用一组工作,报告数据,使尸体解剖的减少在其他地方如英国(英国)明显,目前死者的尸体解剖只有10%。此外,这项研究排除了这种可能性,尸检可以取而代之的是高科技技术迄今为止,因为没有人设法减轻临床诊断错误。

另一工作表明,尸检正在下降在世界上的许多国家是6]。作者分析了苏黎世的癌症登记在1980年和2010年之间的癌症患者的尸检已经改变了。调查表明,分析尸检率从60%下降到7%。

尸体解剖的利率在英国不同的地方,提出了在7是惊人的。本研究分析数据从2013年进行尸体解剖,发现英国平均尸检率达到0.51%,苏格兰的2.13%,0.65%,威尔士和北爱尔兰的0.46%。我们可以看到,大部分值低于1%,这就是为什么作者提出进行调查,分析患者安全的影响,健康和医学教育。

在[8),这是认为验尸的情况正在经历很严重。它指解剖实践,急剧下降的解释,在英国国家卫生服务的第四部分尸检不再执行,在欧洲和美国其他地区,尸体解剖的数量也大大减少。的主要原因是,医生们不要求他们。因此,作者打算提高认识的重要性这个医学研究领域的健康,以及政客和公众,这一切的目的,恢复尸检像例行程序。

研究[9]显示研究的结果在旁遮普医学院,费萨尔巴德,一群医学生调查了在2011年和2012年学术年。调查记录了一群情绪反应这一做法,但总的来说所有的学生推荐其使用。这项工作的重要性,指出强调维护尸检在医学教育,因为没有这个学习资源,未来的医生将存在的问题当解释程序,他们从来没有见过。

更好的解释的客观的研究,本文的其余部分的结构如下。部分2显示了一些工作相关的研究这一研究的目的,也就是说,数据挖掘技术应用于医学领域。之后获得的方法介绍了这项研究的结果部分3。提出了关联规则和贝叶斯网络获得4。最后,给出了结论部分5

我们可以分类相关的工作分成两组根据类型的DM技术在医疗领域应用于解决问题。我们首先讨论关注的文章分类技术的使用,或结合几个技术,其次是专门做关联规则下工作。

2.1。分类技术

的动力支持卫生部门在智能城市的发展,一些数据挖掘在该领域的进展和趋势被描述在10]。根据作者,神经网络和决策树数据挖掘技术是最常用的预测分析。

在[11),使用支持向量机(svm)分类特征与人类免疫缺陷病毒(HIV)的影响,对大脑早期临床课程的三个不同的时期:原发感染,4 - 12个月postinfection(π)和> 12到24个月π。

此外,我们的目标的12)来演示使用基于人工智能的方法如贝叶斯网络开放的机会创造新知识的慢性病的管理。研究发现哮喘和肾功能衰竭之间的联系,并证明了该方法的实用性辨别临床相关,相关性并不明显。

此外,在13)确定高甘油三酯血症的最佳预测,基于传统指标来源于人体测量,根据性别和年龄可能有所不同。确定合适的预测当中的措施,作者采用两个广泛使用的机器学习算法来解决分类问题:逻辑回归和朴素贝叶斯算法(NB)。

为了达到高度精确、简明和可翻译的分类规则,促进2型糖尿病的诊断和医疗决策,结合使用衍生法则萃取(Re-RX)和J48graft算法提出了14]。使用这个组合,研制了一种新的提取算法,作者建议在其他数据集进行测试,以验证其准确性。

不同模式的类标签的识别对于一个给定的数据集进行对比(15),说明改进的全球特征选择的建议方案(IGFSS)比经典的更有效率。此外,作者描述了使用的算法通常用于NB和SVM文本分类,为了证明他的建议的有效性。

的目标预测死亡的原因与世界卫生组织标准的疾病分类,在16自动学习技术是应用于法医文本报告。反过来,作者进行了特征提取方法的比较,功能集表示方法,支持向量机等和文本分类器,随机森林(RF), NB法医尸检报告的分类。使用的数据集是400年法医尸检报告的结果从一个医院在吉隆坡,马来西亚,包括八个最常见的死亡原因。为支持向量机决策模型的结果超过了射频和NB。

同样的结果(17很有趣因为作者提出了一个自动分类系统(多级)预测决策模型的死因文本的自动分类。2200年数据分析解剖记录事故在吉隆坡一家医院。研究人员评估SVM, NB,再(资讯),决策树(DT),根据精度和RF算法,记得,F-measure,和中华民国(接受者操作特征)面积指标,从数据挖掘工具WEKA(怀卡托环境知识分析)。射频和J48证明是best-evaluated决策模型。

高效和健壮的发展方案分类文本是重视商业智能等领域。由于这个原因,18)进行实证分析的统计方法提取关键字使用ACM(计算机协会)和路透社- 21578文档集合。作者也描述了分类算法的预测行为和共同学习方法在使用关键字来代表科学文本文档,从而证明作为关键词数量的增加,分类器的预测性能也会增加。

在许多贫穷的国家医疗保健,大多数死亡发生在家庭。与医院死亡,死亡并没有一个标准来验证,因为它是表示(19),因为这个原因解释说,先前的研究显示矛盾的性能的自动化方法相比physician-based死因分类(COD)。因此,作者比较了NB,开源方法(移动),关税和InterVA-4(死因推断解释模型数据到鳕鱼)在三个数据集分类器组成的大约21000名儿童和成人死亡的记录。NB的结果分类器克服了另一个分类器,虽然很明显,目前没有一个自动分类器能够充分表现个人鳕鱼分类。

解决的问题(20.专家),它是难以确定疾病的程度时缺乏足够的医疗诊断的证据或当他们有太多的证据。出于这个原因,作者分析了重要的研究,涉及自动学习算法的应用数据挖掘任务旨在支持的诊断心脏病、乳腺癌和糖尿病。本研究的目的是确定DM算法,可以有效地使用在医疗领域的预测。从这个意义上说,它重申了诊断这些疾病在早期阶段的重要性和神圣的需要新的方法来减少误报率,增加疾病的检出率。

最后,回顾描述应用程序的来源不同的数据挖掘技术在医学领域提出了(21)来识别有用的分类和聚类的方法预测系统的开发。同时,可用的数据处理和分类工具进行了讨论和解释,对模式识别、挖掘任务的选择取决于数据的特征。因此,作者表示分组技术的使用数据时没有标注和分类相反的情况。他们的研究强调了危及生命的疾病的诊断准确性的重要性,比如癌症和心脏病,并指出这是一个因素,需要一个新颖的方法,减轻假警报和提高诊断在疾病的早期阶段。

2.2。关联规则挖掘

考虑到各种各样的韩国传统医学的草药,在22)数据挖掘协会技术用于建立各种方式解决病因治疗相同的疾病的因素。作为一个分析的结果,代表草药专门用于确定每个疾病。

为了克服的缺点的大量规则来源于应用数据挖掘关联算法大医疗数据库,在23本体基于措施极大的兴趣,有利于建立关联规则提出了层次结构。因此,这种本体知识挖掘方法用于排名语义上有趣的规则。该方法应用于数据对乳房摄影领域的本体。

的目的,提高老年人医疗保健服务的质量,满足医疗需求的社会群体,并使一个更好的管理涉及的医疗资源,设计一个智能医疗补给系统(24),基于模糊关联规则挖掘和模糊逻辑,被证明是非常有效的。

此外,使用数据挖掘技术,(25)提出了一个医疗诊断系统web应用程序中,这有助于减少访问医生的费用和时间。使用关联规则系统流程由用户输入的信息,分析症状和症状的相关性,在此基础上,是能够给出一个初步的诊断。

此外,危险因素与糖尿病2型(DM2)和医疗服务提供者执行这种疾病的管理方式被确定在26应用关联规则。实验进行了使用数据库DM2治疗患者的医疗服务提供者在哥伦比亚的实体。此外,在[27)风险因素和共病与糖尿病相关条件确定通过频繁项目集挖掘,这是应用于一组医疗数据。研究提出了一种新的方法基于集成协会和分类技术的改善,导致一个算法与更大的分析和预测能力。

此外,一个新的数据挖掘框架基于广义关联规则发现的多层次病人数据之间的相关性提出了在28]。框架规定考试之间的相关性,发现和分析药品,医学治疗,病人资料在不同的抽象级别。另外,规则是根据相关数据分类特性(医疗或病人概要文件),然后研究了自顶向下的方式:小子集的高级规则,进行向下钻取到目标更具体的规则。此外,在[29日重症监护病房的风险预测系统,称为ICU ARM-II(重症监护病房)关联规则挖掘,提出了。ICU ARM-II是基于一组关联规则,形成了一个灵活的个性化风险的预测模型。这种方法假定一个分类得到协会的支持。

数据挖掘技术可以用来改善决策在医院管理等领域。在这个意义上,他们可以是非常有用的替代的手工分析医疗保险数据。增加的人加入一个计划,这一任务,只有专业知识有限,已经变得越来越困难,无法有效地执行。因此,(30.]提出了一种基于三个标准分类(精度、稳定性和复杂性)允许更有效的数据量的分析,而人工分析。数据集用来测试这种方法的有效性包括成千上万的病人在一个城市,成千上万的医疗报销记录2010 - 2015年期间。实验的结果执行FPGrowth算法从医疗数据分析表明,该方法提高了决策模型,以便决策的灵活性和效率,超过其他方案的分类的精度。

基于机器学习算法的数据挖掘,在31日)进行了一项关于蚊子引起的疾病的特点,如dengue-1 dengue-4、黄热病、西尼罗河病毒、丝虫病。尽管一些上述的疾病治疗,作者认为这些主要影响地区的贫困如非洲大陆和亚洲西部,人们不能指定的治疗。因此,本研究的目的是找到类似的特征氨基酸序列,它允许创建一个治疗能治愈病人。研究结果表明,虽然似乎登革病毒之间的相似的特征,黄热病病毒,西尼罗河病毒,并与象皮病马来丝虫线粒体,这些是之间的差异比他们的相似之处。另一方面,作者发现亮氨酸控制可能导致发展的一个有效治疗例西尼罗河与象皮病马来丝虫线粒体。

最后,因为癌症死亡率高,32]调查各种细胞因子的序列使用算法如先验的、决策树、支持向量机(SVM)。细胞因子在免疫系统中发挥核心作用,因此,研究中,如果它的目标是实现,可能导致他人在寻找新规则来确定是否一个细胞因子可能有抗癌特性。

1显示了这些调查的总结。

我们可以看到在桌子上1前面提到的不同的研究证明的有效性的数据挖掘技术在医学领域解决方案的问题,提出为研究对象,以适当的研究从这个角度看问题。然而,我们所知,没有作品使用关联规则挖掘和贝叶斯网络分析的数量的减少尸检在医院执行;因此这决定适当性、新颖性和这项研究的兴趣。

3所示。方法

3.1。数据的收集和准备

为了进行这项研究,有必要收集数据记录方面的意见,态度或行为的医生对尸体解剖的实践,以及价值观,信仰,或主题描述它们。要做到这一点,一个部门的病理学家编译16的调查问题,分为三个开放类型和十三封闭类型,其中5包括一节指定其他认为医生的反应。表2调查显示了一个总结应用于医生和类别的数量所产生的反应。

这项调查是86医院的医生回答说。他们的答案是加工,导致以下:(我)27个类别相关的因素,实现尸检的医生认为是消极和26类生成的积极因素。(2)九动机解剖家庭的排斥和八个可能原因nonrealization提取足够的尸检的医院。(3)关于医生的意见的过程要求尸检,14个有效方法和六个选项要求尸检被认为合适的员工。(iv)给出的答案一般评论医生减少到25类别。(v)剩下的问题不断提出问卷的选项,三个可能的答案区域,和医生和五年级的三个问题相关医疗意见发现尸体解剖中发现的。

数据库设计并实现存储从调查获得的信息,并确保这些数据的持久性,这样他们可以用于后续的分析。这个数据库是使用PostgreSQL数据库管理系统实现的。从数据库记录,两个合适的表征(binary-matrixminable-view)应用DM技术创建的。这些结构是由SQL函数,动态生成的表,就这样,两个不同的数据集是由相同的数据。摘要binary-matrix表将被命名为C和minable-view表作为其特征描述在表d3

Minable-View。函数构造一个矩阵的行意味着回答民意调查和列的组合代表了答案。每一列的值响应十字路口,可以解读为一对

Binary-Matrix。的函数构造一个binary-matrix,每一行代表一个被调查者和列代表的答案。每一列的值响应十字路口,可以解读为一对 ,值等于“S”如果回答是回答,否则无效。

开放的答案为研究提供更高层次的复杂性,因为在这些情况下受访者通过编写一个免费的想法能回答这个问题。因此,系统必须执行文本的自动分类,它预测或分配一个响应的类别。要做到这一点,我们需要每个问题的分类数据集训练预测模型,这是必要的专家建立了可能的类别和手动排序的答案记录调查(见表4,5,6)。通过这种方式,数据集“aut_reason”,“reason_no_aut”,“com_sug_op”创建与开放式问题的答案。这些回答的理由要求尸检,理由不要求他们,和评论(见表的特征7)。

数据集的特征进行了分析和证明不是转换是必要的,因为它们并不影响算法的性能,考虑评估。所以,我们直接到DM的阶段。

3.2。评估算法

根据数据和本文的目的,两个DM任务被认为是解决这一问题。首先想到的是执行一个关联分析来确定属性之间的关系,另一方面使用分类识别相关的属性之间的依赖关系,根据概率论与数理统计,利用贝叶斯网络。其他数据挖掘技术用于文本分类被认为是。WEKA的评估算法的比较对于每个DM任务考虑的研究提出了如下。

3.2.1之上。关联算法

先验的(33]。这是一个经典的关联规则挖掘算法。它生成规则通过增量过程,搜索频繁的属性之间的关系受最小约束的信心。算法可以配置为在特定条件下运行,如上下覆盖范围,并接受的项目,满足约束,最低的信心,显示规则和秩序的标准,以及一个参数来表示我们想要展示特定的规则。

FPGrowth [34]。它是基于先验的执行的第一个探索数据,它标识的频繁项集及其支持,值允许我们组织集降序的方式。方法提出了选择性好,大大降低了搜索的成本,因为它开始通过寻找最短的频繁模式,然后用不那么频繁的连接(后缀),从而确定最长的频繁模式。它已被证明是约一个数量级的速度比先验的算法。

PredictiveApriori [35]。算法实现了良好的计算性能由于其动态剪枝技术,使用的上限规则超集的一个给定的一组元素。此外,通过反向偏压的规则,它能消除多余的那些来自更一般的。对于该算法,有必要指定规则所需的数量。

第三的(36]。它执行一个最优搜索的基础上找到最证实假设使用nonredundant细化算子来消除重复的结果。算法具有一系列的配置参数,使其应用到多个领域。

这些措施被认为是在评价如下:(我)确认:这个统计测量表明有趣的规则。(2)事务支持:它代表的比例从事务数据库,满足给定的规则。(3)信心:评估检测协会确定的程度。(iv)时间:需要的毫秒的建设模式。

为了确定哪些算法可以应用于C和D的数据集,分析了基于数据集的特点,比如他们的属性类型,是否包含失踪,范围,或不一致的值。这种分析的结果如表所示8

协会分组算法,考虑到它们的配置特点相互比较。因此,先验的和FPGrowth首次进行了分析。为此,不同阈值建立了支持和信心,因为规则被认为是有趣的和强大的。如果他们同时满足最小支持度阈值的方法(min_sup)和最低阈值的信心(min_conf)(34]。此外,生成的规则数量,算法的执行时间(以毫秒为单位),和支持和信心平均为每个记录。另一方面,分析PredictiveApriori和第三的有必要指定规则的数量由这些算法生成的。算法的执行时间和平均注册了的支持和信心。最后,我们比较了best-evaluated算法在每一种情况下考虑以下变量:数量的规则生成,执行时间,平均价值的支持。

的结果评估算法的C数据集被记录在表910。每个评估执行100次估计的平均时间的建设模式。此外,平均价值考虑在内的支持和信心。表9展示了先天和FPGrowth之间的比较,我们可以看到后者计算速度比前者。此外,尽管先天发现更多的规则比FPGrowth 7例,平均FPGrowth更大信心的规则发现的三种情况,只有在一个案例中,最低时的平均支持其规则克服先天获得的平均支持规则的四个病例。因此,FPGrowth比先天的C数据集。

PredictiveApriori之间的比较,提出了第三的表10。实验证明,第三的获得相同数量的规则PredictiveApriori低很多时间。然而,规则发现的平均支持后者大于平均支持的规则前3例和更低的只有一次。数据23显示的四个算法之间的比较对支持和时间,分别。表9和图3表明FPGrowth是最快的算法。相比之下,表10和图3证明PredictiveApriori是最慢的。此外,结果表明,该算法生成规则更好地支持C数据集合中是先验的和FPGrowth。因此,最好的算法数据集C是FPGrowth。

11显示为D算法的比较结果评估数据集。同时,每个评估进行了100次估计的平均时间的建设模式和规则的数量和平均支持考虑在内。比第三的先验的报告更好的结果,因为所花费的时间获得相同数量的规则和规则,确定短得有更好的支持。

虽然FPGrowth是最好的算法C数据集,它有缺点,它不能用于D数据集;因此推测的算法被认为是更适合这项工作,因为它比FPGrowth生成更多的规则,可以用于本研究的两个数据集考虑,如图4

3.2.2。分类算法

贝叶斯网络被认为是分析调查的数据,而J48,神经网络,NaiveBayes和序列最小优化(SMO)研究了考虑他们的应用程序在分类过程中开放的问题。我们进行了10倍交叉验证在所有情况下,以避免过度拟合的问题。

BayesNet。它决定了所有的变量之间的依赖关系和概率独立的数据集,因此符合贝叶斯网络的结构,由一个非循环图,其中节点和弧的变量概率与属性之间的依赖关系(37,38]。

J48。构造一个二叉决策树模型的分类过程。该算法忽略了缺失的值或根据属性的已知值预测他们在另一个寄存器(39,40]。

神经网络。这些数学过程基于并行开发本地处理和分布式的属性表示,模仿神经系统的结构,可以理解为从经验中获取知识的方法(41]。

NaiveBayes。概率分类器,根据组合计算的概率和频率出现的数据在一个给定的数据集39,40]。

SMO。它实现了算法训练支持向量机,解决这些假定的二次规划问题(42]。

这些措施被认为是在评价如下:

精度。测试集元组的比例,正确分类的分类器。

中华民国领域。它指的是真正的阳性之间的曲线下的面积( 设在)和假阳性( 设在);结果是当它接近更好。

卡巴。它决定了好的分类器是根据获得的结果的一致性几个相同类型的分类器。值接近1确认良好的一致性,而值接近于0显示一致性由于专门的机会。

时间。毫秒的数量,需要建设一个模型。

应用贝叶斯网络学习的可能性,使用各种搜索算法分析了C和D组(见表12神经网络),以及J48, NaiveBayes, SMOaut_reason,reason_no_aut,com_sug_op数据集(见表13)。

评估的贝叶斯网络,18 D数据集被认为是类的属性。每个测试被执行100次来估计网络建设的平均时间。准确性和ROC面积值被认为是。表14显示了测试的结果由被申请人的品位(年级)作为一个类。同样,17类记录的结果,这表明,最好的结果(见表18)得到棕褐色(树增强朴素贝叶斯)搜索算法的14类和HillClimber其余4。我们可以看到在桌子上14,HillClimber类年级是最好的算法,因为尽管TabuSearch RepeatedHillClimber和HillClimber精度高和ROC区域比其他算法,HillClimber获得贝叶斯网络在较低的时间。

J48评价的神经网络(MultilayerPerceptron) NaiveBayes, SMO算法,考虑文本分类,描述在表15,16,17aut_reason,reason_no_aut,com_sug_op分别的数据集。执行每个测试估计平均值100倍的时间和除其他指标如准确性、中华民国领域,卡帕被认为是。

18礼物最好的情况下,为每个算法分析根据不同的数据集。此信息可以非常有用的指导专家必须生成的模型的参数,从而获得更准确的结果。应该注意的是,只有最好的配置算法是未遂,但不管这个,专家可以根据他们的利益配置它们。

3.2.3。鲁棒性评价

鲁棒性是分类器的能力做出正确的预测给定嘈杂的数据或数据缺失值。这通常是评估一系列的合成数据集表示增加的程度的噪音和缺失值(34]。评估的贝叶斯网络的鲁棒性的搜索算法,我们创建了18个数据集有10%的缺失为每个属性值,然后执行每一个算法考虑每个属性作为一个类。数据56显示评价结果。晒黑是最好的算法,因为它有最大的准确性14的18类。也得到了最好的ROC面积18类。

4所示。结果

算法的评价部分3.2本文是在web应用程序中实现,这项工作的作者提出的一个工具来支持应用的调查中发现有用的知识的过程,生成模型,并提交结果的全面评估专家。这些算法配置的参数给最好的结果在评价阶段。

应用程序允许医生回答调查,研究本研究的主题。此外,它保证了持久性的数据,从这些数据集挖掘算法被认为是在这个工作必须分析生成。使用WEKA API,应用程序所生成的模型根据所选算法并返回结果。的格式规则生成的算法可以被理解为数据挖掘专家但是很难被理解常见的用户,所以决定将它描述应用程序中的每个变量参与调查。,并使用一个模式定义一个规则的解释,有可能编写一个函数,给定的规则模型,收益的解释这些自然语言表达。通过这种方式,专家可以不必依赖于数据挖掘专家进行评估。

4.1。协会

我们获得最好的20规则从每个数据集使用先天,FPGrowth PredictiveApriori和第三的算法。然后,由专家进行评估的规则。图7显示了C的规则生成的应用程序的数据集使用先验的算法。

4.2。BayesNet

鉴于专家知道的利益的行为数据问题的原因不要求尸检和他们要求的原因,两个贝叶斯网络建立以这些属性为类。应用程序显示了每个网络的准确性和也代表了他们的非指导性无环图。这使我们能够以图形方式欣赏节点之间的关系。第二网络的图如图8

4.3。评价的结果

支持专家在评价过程中,系统提供了一个自然语言解释挖掘模型的结果,所以,病理学家理解他们。通过这种方式,专家可以通过主观评价结果分析,根据他的经验和知识,提取的信息模型。

关联规则分析的专家是每个算法的前20名在本研究中实现。例如,C中的20个先天获得的关联规则数据集如图7

为每个节点在贝叶斯网络中,应用程序显示一个条件概率表包含所有概率的事件属性。为此,要分析的贝叶斯网络提供太多的信息,但这并不意味着一切都很有趣。出于这个原因,两个网络生成的分析仅限于六个调查问题,只考虑概率值最高。相关的问题是多年的医生,医生的病例数已经介入,有差异的结果,发现需求,尸体解剖的原因拒绝,理由不要求尸检在医院里,医生为什么不执行它,等等。

为了说明这个过程更清楚,我们描述的分析过程no_hosp从贝叶斯网络问题产生的查询aut_reason的图8。从这个网络,我们选择相对应的节点对这种情况下的问题(no_hosp)生成,共有1875个条件概率。下一步是排除条件概率低于50%,这将会减少到14(参见图的结果数9)。在这种特殊的情况下,专家排除了条件概率1,2,3,4,11。这个过程剩下的问题选择在每个网络进行评估。

4.3.1。协会

结果由120条规则,20每个模型,只有100的专家评估。决定不包括FPGrowth规则是为了避免重复的结果,考虑到大多数的规则也通过先验的。

规则的深入分析后,结论性的结果如下:从100年的规则,专家75年批准。8规则被丢弃在每个模型的先验的,七PredictiveApriori和两个模型的第三的维数据集。最公认的算法是第三的90%的规定批准D C数据集的数据集和100%(见表19)。一般来说,它可以得出在协会分析,结果有75%的批准。

4.3.2。BayesNet

分析是复杂的贝叶斯模型生成的数据由于大量的概率已经从这些网络的关系。这就是为什么,这个研究,专家分隔的分析结果与相关的概率大于50%的属性:多年的实践,情况下,医生已经介入,有差异的结果,发现需求,尸体解剖拒绝的原因,原因不是在医院要求尸检,为什么医生不做呢。这样,352概率关系进行评估。168人从网络中提取产生的aut_reason类和184reason_no_aut类(见表20.)。

在深入分析之后,结论性的结果如下:总共352条件概率,347人经专家。专家丢弃概率的贝叶斯网络aut_reason和四个概率的贝叶斯网络reason_no_aut。总的来说,结果表明,贝叶斯网络批准了98.6%(见表21)。

网络也使得建立一个情境尸检在医院的诊断,详细的数据1011。这些诊断是指请求的原因和原因,而不是要求尸检,分别。

5。结论和未来的工作

在尸体解剖的数量显著减少世界各地的医院提出了疑问的动机这一现象。这项工作的目的是分析可能原因减少的尸检的医院系统“Servicios de Salud德韦拉克鲁斯”通过关联规则挖掘和贝叶斯网络的数据属于医疗意见这样的医疗实践。

通过调查收集的数据分析应用于医院的医生。调查集中在医疗意见尸体解剖没有执行的原因或原因,研究水平的专家,多年的经验,和尸体解剖的情况下他们有参与,等等。

关联规则挖掘技术的使用和贝叶斯网络允许我们执行一个描述性的分析有问题的情况下,找到数据集的分类属性之间的相关性,形成从医务人员获得的信息,所有这些通过web应用程序或系统开发尤其是如此。该系统提供了一个自然语言解释挖掘模型的结果,所以,病理学家理解他们。通过这种方式,专家可以通过主观评价结果分析,根据他的经验和知识,提取的信息模型。

生成的规则协会模型检测的研究专家批准了75%。至于算法,第三的是最准确的,90%的人赞同其规则的C D数据集的数据集和100%。

作为未来的工作,我们建议的临床研究数据记录的病人死在医院与真实数据和分析趋势的原因,导致一些患者进行尸体解剖,而不是别人的。这将证实本研究的结果的真实性。我们也建议执行的其他地区的类似的研究和确定医疗意见和尸检的结果拒绝因地区而异。

的利益冲突

作者宣称没有利益冲突。

确认

作者非常感谢墨西哥国家技术支持这项工作。同时,这项研究是由国家科学技术委员会(CONACYT),以及通过公共教育部长(9月)即。