计算和数学方法在医学

在这一页上

文摘介绍相关工作讨论结论数据可用性的利益冲突引用版权相关文章

研究文章收缩

这篇文章被收回了。查看这篇文章的细节,请点击上面的“收缩”标签。

特殊的问题

社交网络的医学信息学与深度学习的角度

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID2376391| https://doi.org/10.1155/2021/2376391

有效地预测错过了使用机器学习临床的任命

Zeeshan库雷希 ,¹ 阿伊莎Maqbool ,² Alina殿下,³ 默罕默德Zubair伊克巴尔,⁴ Farkhanda阿夫扎尔 ,⁵ 黛博拉Dormah Kanubala ,⁶ 总会有Rana ,¹ 米尔亚希尔Umair,³ 阿卜杜勒·瓦克尔,³ 和哈立德国王说⁷

学术编辑器: 默罕默德Zubair Asghar

收到了 2021年7月17日

接受 2021年9月25日

发表 2021年10月22日

文摘

公共卫生及其相关设施蓬勃发展的城市和社会的关键。卫生资源的最佳利用节省金钱和时间,但最重要的是,它节省了宝贵的生命。在现在已经变得更加明显随着大流行过度现有的医疗资源。特定的病人预约调度,失踪的休闲态度医疗预约(no-show-ups)可能引起严重损害患者的健康。本文借助机器学习,我们分析六百万+病人预约记录来预测病人的行为/特点使用十个不同的机器学习算法。为此,我们首先从原始数据中提取有意义的特性使用数据清洗。我们应用合成少数过采样技术(杀),自适应合成抽样法(Adasyn)和随机采样(俄文)来平衡我们的数据。平衡后,我们应用十个不同的机器学习算法,即随机森林分类器、决策树、逻辑回归,XG提振,梯度推进,演算法分类器,朴素贝叶斯、随机梯度下降法,多层感知器,支持向量机。我们分析这些结果的帮助下六个不同的指标,即。,recall, accuracy, precision, F1-score, area under the curve, and mean square error. Our study has achieved 94% recall, 86% accuracy, 83% precision, 87% F1-score, 92% area under the curve, and 0.106 minimum mean square error. Effectiveness of presented data cleaning and feature selection is confirmed by better results in all training algorithms. Notably, recall is greater than 75%, accuracy is greater than 73%, F1-score is more significant than 75%, MSE is lesser than 0.26, and AUC is greater than 74%. The research shows that instead of individual features, combining different features helps make better predictions of a patient’s appointment status.

1。介绍

COVID-19大流行期间,世界经历了重要的病人的护理是最艰苦的卫生系统。政府已经选择了完整的长期封锁预防措施保持较低的急诊病人的数量。有很多原因导致患者可能达到临界状态。其中一个不是跟踪与初级保健提供者(PCP)。完整的治疗任何疾病或健康问题需要适当的治疗和多个病人访问卡式肺囊虫肺炎。所以,卡式肺囊虫肺炎需要计划政策,将为患者提供适当的警报/通知在一个困难的情况下,未能跟进。大多数情况下,社会和金融挑战使病人错过约会。根据医学专家评审(1失踪),任命造成更多的伤害不仅仅是收入。它会影响病人的护理,病人满意度,员工,和整体医疗资源利用率。资源包括宝贵的时间,安排手术环境,或建议的任何特殊照顾病人。

研究表明,降低错过了约会的速度可以提高临床效率和利用率,减少浪费,提高供应商满意度,为患者带来更好的健康结果(2]。在这个研究中,我们致力于在600万条记录的数据。我们执行不同的分析在提取未知的和隐藏的原因和病人的独特属性之间的关系,他们不要出现在后续任命。我们分析了病人独特的属性和应用不同的算法来提取有用的特性分析。数据接收起初并不在可分析的形式。使用数据存储在电子医疗记录(EHR)系统,我们有超过六百万条记录,我们在研究中使用预测哪种类型的病人会错过后续任命(称为no-show-up任命在本文的其余部分)。

从35卡式肺囊虫肺炎系统获得数据用于分析。按照道德和隐私问题,我们遵循指导方针下健康保险流通与责任法案(HIPAA),修改经济和临床医疗卫生信息技术(高科技)和综合最终规则。因此,我们将只讨论其余的聚合数据。受保护的健康信息(φ)属性创建任何隐私问题被丢弃等功能列表的医疗记录数字、病人姓名、地址、联系方式和语言。研究算法需要一些φ作为输入来创建一个有用的功能像出生日期年龄和年龄。但输出和指标用于优化和分数的算法不使用任何φ直接导致隐私保护问题。

本研究的动机是帮助卫生保健提供者做出政策,这样他们就可以找到门诊慢性疾病的风险更高,有更高的概率失踪的任命。在这一分析的帮助下,医院管理可以制定方法和政策支持病人的随访预约。使用知识的分析,医院可以优化资源的利用,包括高素质的医生和医院的房间。我们研究的另一个重点是找到约会的季节性/趋势。的帮助下这些信息,医院和其他医疗中心可以使必要的计划季节有大量的任命。因此,资源利用率可以提高我们分析利用。

摘要部分2指的是机器学习领域的相关工作,尤其是no-show-up任命分析。节3,我们已经讨论了我们的技术和过程的数据用于分析做准备。然后,我们讨论了我们申请预测方法错过了约会。节4,我们提出结果获得通过使用所提到的算法。部分5讨论我们的结果通过比较他们与现有研究和解释我们的分析增加了价值。部分6是我们工作的结论。

建设一个好的毫升模型更多的是一种艺术而非科学。每个模型都有其特性、优点和应用程序。至关重要的是在一些标准来区分每个模型的性能标准。在ML,我们有四种不同的指标来评估模型的性能:(1)阈值类型的鉴别器指标、(2)均方误差(MSE) [3),(3)ROC曲线下面积(AUC) [4),(4)混合鉴别器度量。戴维斯等人画详细比较的评价指标(5]。发现最常用的指标是门槛类型鉴别器指标。其中,准确性是最重要的措施。但精度的一个主要的限制是它产生独特的和可分别的值(6,7]。如果不平衡数据类,试图分析数据可能取得更好的精度。但精度不是有用的其他指标如回忆,精度和F1-score值很低由于歧视差数据,论文中提到的6,7]。因此,我们需要不同的技术来平衡数据类的帮助所以所有指标给一个更好的结果。

此外,它也无能为力的信息量(8),不利于对少数类实例(8- - - - - -12]。信息量是一个特点,有助于辨别好与坏(信息和noninformative)解决方案。不太有利于少数民族的准确性是一个很大的缺陷。仅仅基于准确性,不能推断出一个解决方案是好还是坏。结合其他指标的准确性可以给更好的理解解决方案的效率。其他有用的特性是精确,召回,F1-score敏感性(sn)和特异性(sp)。虽然准确性和回忆他们之间的关系(13),通过改善一个指标,其他也受到影响。MSE用于监督学习矢量量化(LVQ)来度量分类性能14]。AUC是最受欢迎的排名类型指标之一。这些指标的最有益的特点是整体排名的多类分类器的性能问题(15]。混合鉴别器指标是不同的阈值类型鉴别器指标的结合。优化精度(11)和优化的准确性和查全率和查准率(16)属于混合度量。这些评价指标标准是基于解决方案将被评估之后。

在处理数据时,最重要的任务之一是处理不平衡类的数据。数据平衡技术用于操作数据,在每个类同等数量的记录进行分析。为此,少数合成过采样技术(杀)算法产生良好的结果。使用杀算法,少数类是通过每个少数类样本采样过量和合成的例子介绍加入任何/所有的线段 - - - - - -最近的邻居(17]。不平衡类的,精度可以得到改善。但回忆和其他指标会显示非常低的值。这表明歧视差数据。通过平衡少数类杀算法提高了结果。但依靠平衡数据使用一个技术也可能引导我们向偏差分析算法的固有性质。例如,名义上的所有功能,但打不处理数据集处理复杂数据集的连续和名义上的特性。(18]。因此,提出了不同的变化。应对这些问题,我们选择另外两个技术Adasyn和俄文。这样我们可以比较不同的平衡数据集数据而不是依靠单个技术。

目前,有一个缺乏研究解决预测no-show-up任命。大多数论文描述一个参数模型的使用,例如,使用普通最小二乘法预测在给定的一天多少no-show-up约会会发生。逻辑回归的二元分类是用来预测病人的预约了19]。大多数研究使用很少的特性分析和应用有限。一些研究提出了回归模型来预测任命不依从[20.,21]。一些回顾性研究也在预测no-show-up预约(22]。但这也适用于小数据集的几千记录。

最相关的分析中可以看到纸Denney et al。23]。在本文中,作者预测失约预约使用机器学习算法,为这篇文章集中在约会错过对收入的影响,这是一个错过了约会分析的实际应用。为此,他们集中在收入类类别进行分析,这是一个重要的问题在no-show-up。在这个分析中,他们使用了数以百万计的数据。他们10学习演算法的应用分析,逻辑回归(24),支持向量机(SVM) [25],朴素贝叶斯[26),随机梯度下降法(27),额外的树、决策树、XG提高,和随机森林28]。表1显示了重要贡献我们的工作相比其他现有的研究。

另一篇论文通过AlMuhaideb et al。29日)显示了一个通过人工智能分析失约的任命。在这篇论文中,作者使用一个数据集超过一百万条记录。他们与机器学习算法建立预测模型JRip [32)和霍夫丁树算法(33]。在[31日使用),数据是由作者的国家的国民健康中心。5算法,随机森林,梯度推进,逻辑回归,支持向量机,和多层感知器,34]。我们采用相同的算法34]。我们进一步分析了在五个不同的指标更好的评估结果。提到的研究有助于我们识别的一些基本因素来预测失约的任命。穆罕默迪et al。30.)收集电子健康记录(EHR)数据和预约数据,包括病人、供应商,和临床访问特点,超过三年。人工神经网络,运用逻辑回归和朴素贝叶斯分类器模型来预测错过了约会。

我们的工作分析了类似的模型与扩展的五个不同的指标更好的性能评价模型。我们已经识别出重要的因素来预测失约的任命。让任何毫升模型工作,好的特征选择和更好的算法参数来创建一个模型是至关重要的任务。以下是我们的研究工作的贡献:(我)基于熵和提取有意义的属性的信息增益特性(2)分析和比较三种不同性能的平衡技术:击杀,Adasyn,俄文(3)10毫升的应用模型,即随机森林分类器、决策树、逻辑回归,XG提振,梯度推进,演算法分类器,朴素贝叶斯、随机梯度下降法,多层感知器,支持向量机(iv)基于六个指标的评价结果,即。,recall, accuracy, precision, F1-score, area under the curve, and minimum mean square error

只考虑召回,随机森林分类器给了我们一个最大得分。通过考虑其他指标,决策树算法给出更好的结果通过比较所有平衡技术。

3所示。技术和方法

摘要数据包含大约六百万条记录。在原始格式,这些记录由EHR直截了当的条目。从这个数据集,特点是提取使用推荐的机器学习方法进行分析。用于分析步骤中提到以下部分。

3.1。数据采集和特性的一代

这项研究获得的数据在事务的SQL数据库。必需的数据存在于不同的SQL表。分离和倾倒csv文件进行进一步分析。有两种类型的约会中可用的数据。第一个是封闭的类型,这意味着病人出现在面前,卡式肺囊虫肺炎和预约已经完成通过提供任何处方或治疗。第二种类型是取消的,约会取消了通过适当的通知pcp或它可能包含no-show-up数据。取消,no-show-up的区别是在功能的取消原因。约会有原因没有性能被认为是对于我们的分析,而另保存在现身的范畴,即使取消了。

如前所述,只有聚合φ数据用于分析。初始数据不是直接有用的分析;然而,从这个原始数据生成有意义的特性使用功能,像年龄范围的特点是出生日期的帮助下创建的。同样,约会的季节特性获得的帮助下预约日期的特点。个人特性,比如任命创建日期相关进行分析。但是通过结合这些,一个更好的特性是获得预约的日期之间的区别和创建日期给我们预约创建的区别。这些信息帮助我们预测,如果任命的区别是超过2个月,患者不太可能出现在一个约会。这些只是例子;很多功能可以生成使用合成一代的特性(35]。在表2,我们提供了一个列表的所有有用的特性形成的个人或属性的组合。

通过生成许多特性,需要选择最相关的特征用于预测no-show-up预测。为了这个目的,我们使用信息增益(36]。这是一个有用的技术来预测数据的相关性是通过许多研究人员(37- - - - - -39]。基于信息、相关特性的特征序列表3。表3描述了过程类型特性,这告诉我们程序的类型,例如,血管造影瘘和诊所办公室访问。大约有30 +不同类型的比赛在我们的数据,有助于更好的分析。公民身份告诉患者的婚姻状况。任命创建一个属性差异(天数之间的约会,约会的实际日期)对预测有很大的影响。但该属性被在我们的模型的天数不容易的支持。我们划分类别描述:1周,2周,3周,1月,2月,3月,4月,5月,6月,7月,8月,9月,10月,11月,1年,2年,3年,4年,5年。形成的年龄特性也是七个类别的患者,低于17、18到29岁的30到39岁,40至49岁,50到59岁60到69和70年开始。任命季节的特性是由寻找约会了几个月。在当前的场景中,它是一直从1月到12月。性属性告诉是否患者是男性,女性,或未知。 But by checking information gain, it is observed that this feature contributes to prediction at a very low level. In the dataset, the oldest appointment date is 10/10/2007, and the latest appointment is of date 02/28/2022. Future appointments are also present in the system whose appointment status is pending. For the current analysis, pending status appointments are ignored.

3.2。数据清理

原始数据有许多空值,需要过滤。在仔细分析了每个特性空值。可用数据有一些空值取消预约。但数据有一个额外的修改日期功能。修改的日期预约日期的变化,也表明no-show-up。一旦预约取消了,没有进一步的改变可以任命。所以,这些空值充满了修改后的日期。

获得的数据用于分析不同来源的软件。其中一些显式存储取消日期以及原因。他们中的一些人只是存储取消原因。对于第二种情况,最后修改日期的一个修改后的日期被认为是取消了约会,因为一旦取消预约,不执行进一步的行动。因此,在这些情况下,取消日期从原因和修改日期。一些功能没有条目,缺乏任何其他属性引用。因此,这些条目被丢弃。公民身份属性也几乎五到六个不同类型的值不是在大的方面。这些是单独转化成三种不同的类别,夫妇,和未知的。在单独的类别,单身、离婚或丧偶的。 While in the couple category, married people are held for analysis. The third category is maintained for those whose civil status is unknown or not mentioned in the record. Table3描述了有用的特性后获得适当的清洗。这些特性帮助我们预测no-show-up最终结果更好的结果。

3.3。数据探索

将模型应用于数据分析之前,应探索数据详细评估更好的结果分析。数据探索的第一个任务是确定有多少记录从我们的数据显示或no-show-up任命。清晰的展示和比较no-show-up数据可以观察到在图1,它显示了展示和失约的任命 - - - - - -指望轴和约会 - - - - - -轴。

图2说明了病人的预约的比较对年龄。同样,图3显示的智性别分布显示和no-show-up任命。表2描绘了最相关的特征,手术类型、年龄和性别。饼图在图4揭示了不同类型的程序方面的百分比。在这个图中,程序类型0显示记录有一个未知值。但随着中提到的部分3.2值,忽略缺少参考价值进行分析。因此,程序类型0摘要丢弃进行进一步分析。

3.4。平衡数据

数据清洗和准备使用的分析。数据1- - - - - -3描述数据有不平衡类。在这种情况下,算法往往会预测现身的任命与更大的准确性。但这预测不是很好等其他指标分数少的数据。解决不平衡数据,各种技术被用于文献[23,40,41]。在我们的工作中,我们采用了以下三个技术平衡类。

3.4.1。合成少数过采样技术(打)

介绍了拉et al。17)和使用Denney et al。23]平衡医疗数据,将被证明是一个好的方法来平衡类。这项技术的核心思想是使用undersample oversample的多数类和少数类。过采样是通过引入合成段加入任何/所有的例子少数类最近的邻居。这些新特性被添加在特征空间,然后再考虑在下一个迭代。这个过程不断重复,直到一个平衡的数据集具有同样的形成分布的样本。

3.4.2。自适应合成抽样方法(Adasyn)

这种技术的核心是类似于打代少数类的元素。但这里,密度分布是合成样品,在击杀,统一使用体重少数点。cata et al。40建议使用Adasyn的两个好处:(1)它减少了偏差引入的类不平衡(2)它自适应变化的分类决策边界向复杂的例子

3.4.3。随机采样(俄文)

我们有两种方法来解决过采样的多数类和少数类的欠采样。德拉蒙德等。41]分析了在不同的场景中随机采样的好处。随机采样是一个简单的技术,它已被证明有利于平衡数据(42]。多数类样本减少等同于少数类样本。这样,等于样本进行分析。保持视图其简单的优点,分析数据,我们认为是随机采样技术。

图5显示数据的实际分布,而图6说明了分布在应用这些技术。

3.5。方法

在本文中,十个不同的算法用于鸽子。(1)决策树(2)逻辑回归(3)朴素贝叶斯(4)随机森林分类器(5)演算法分类器(6)支持向量机(SVM)(7)XG提高(8)梯度增加(9)随机梯度下降法(SGD)(10)多层感知器

不同参数对这些算法需要预先安排好的表现的更好。在我们的研究中,我们跑的不同变化和组合参数来实现改进的结果。我们不确定所有参数效果最好即使清理数据。众所周知,适当的选择参数和输入数据中扮演着重要的角色在改善结果43,44]。随机森林分类器和随机梯度下降法(给了连续形式的结果),结果在十进制基于概率显示或no-show-up。一个阈值设置为0.6。大于0.6的值被认为是1,低于0.6被称为0。

4所示。评价的结果

算法中提到的部分3.5应用于数据集,使用坚持技术和模型生成(45]。坚持是一种有用的机器学习技术用于分析大型数据集。使用这种技术,一小块数据和随机选择被认为是记录在测量算法的效率,同时保持数据用于训练算法。

在我们的例子中,有超过600万个条目的数据。因此,抵抗是用来评估模型使用选定的生成算法。70 - 30的最佳实践是使用生成的模型中,70%的数据被保存模型的训练,和30%的数据保存测试算法的性能。有不同类型的技术,可以应用于在训练和测试部分分发数据交叉验证和10倍交叉验证技术。但坚持技术是最简单、最实用。

数据分析表4基于击杀。阈值类型鉴别器度量和评估算法分析的数据呈现在图3。阈值类型鉴别器评估,最好的结果的准确性仅通过逻辑回归。但通过保持在查看其他属性,结果得到改善,即。F1-score精度,精度74%,82.26%,最重要的是记得91%。回忆是最好的标准来评估算法的性能。随机森林分类器提供了最好的回忆失约的预测。提出了模型的评估基于均方误差和曲线下的面积如表所示5。可以看出,最小均方误差,即、0.1069和更好的曲线下的面积,即。,92.09%, are obtained by the random forest classifier. So based on statistics, we can conclude that random forest performed better on data balanced by SMOTE. Hybrid discriminator metric values are dependent on a combination of threshold discriminator values. The good discriminator values give better metrics of hybrid discriminators [5]。

评估表所示6是基于Adasyn平衡的数据。阈值类型鉴别器度量结果展示在表6。基于这些值,最好的结果是基地在独自回忆了随机森林。但保持在其他视图属性,决策树显示更好的结果有85.03%的准确率,精度81%,86% F1-score, 90%召回。只考虑召回,随机森林提供了更好的结果,而决策树优于其他指标。提出的评价分析模型基于均方误差和曲线下的面积如表所示7。根据决策树算法,获得最小均方误差,即、0.15和更好的曲线下的面积,即。,85.03%。此外,在表6和show-no-show Adasyn任命MSE和AUC统计预测评价,可以得出的结论是,决策树分类器的表现要好于Adasyn平衡的数据技术。

数据分析表8基于数据平衡技术俄文。基于阈值类型鉴别器指标,最好的结果的召回是通过随机森林,即。,94%。但保持在其他视图属性,更好的结果由决策树有86.5%的准确率,取得83%的精度,F1-score 87%, 92%的召回。只考虑召回属性,优于随机森林,而决策树在其他指标执行。提出了模型的评价结果基于均方误差和曲线下的面积如表所示9。根据最小均方误差,即、0.135和更好的曲线下的面积,即。86.5%,得到的决策树。它可以通过考虑统计得出决策树分类器的表现要好于俄文平衡的数据技术。

5。讨论

基于结果部分中提到3,以下主要结论。指研究[3,46),它可以观察到更小的均方误差(MSE)给一个更好的预测。同样,研究[4)说,AUC的价值越多,越改善结果。保持在查看结果表5,结果表明,随机森林分类器在给定的数据集上执行更好的均方误差值最低的AUC值0.1069和92.09%。Show-no-show俄文任命预测结果评价MSE和AUC通常用来测量模型的性能。随机森林和决策树在所有指标表现更好。从总结表的结果1085.26%的准确率,随机森林使用击打,Adasyn,俄文。召回俄文在随机森林提供的是94%。F1-score击打在随机森林提供的86.25%。均方误差最小的击杀。,0.1069 under random forest, while the area under the curve is maximum given by SMOTE 92.09% under random forest. So, out of six metrics, three indicate that RUS balancing technique gives better results, while four indicate that SMOTE is better for the random forest. Similarly, the decision tree’s statistics against SMOTE, Adasyn, and RUS are also analyzed. We attained the best accuracy under RUS, i.e., 85.5%; best precision under RUS, i.e., 83%; best recall 92% under RUS; best F1-score 87% under RUS; minimum MSE 0.1285 under SMOTE; and best AUC 87.13% under SMOTE. So, based on that, four out of six metrics indicate that the RUS technique is better, while two out of six metrics favor SMOTE balancing technique. Based on these discussions, we can say that RUS technique for balancing data performs better.

只考虑召回,随机森林分类器给我们94%的最高得分与俄文平衡技术。通过考虑其他指标,决策树算法给出更好的结果通过比较所有平衡技术。此外,不同的模型也表现在给定的数据作为其价值也提高了超过55%在所有平衡技术。虽然这些结果与其他研究(指23,29日,31日),它可以观察到一个更好的可用数据集,数据更好的清洁,和良好的特征选择改进的预测结果失约。另一个关键因素是,只有一个指标不能帮助分类模型是好是坏。所有值的指标证实这一论点,这工作价值的研究增添了新的内容。

6。结论

本研究使用三种不同的平衡技术来平衡数据集。介绍详细的解释数据以及一个分析有用的特性进行分析。我们有十个不同的算法分析的帮助下六个不同类型的指标。此外,我们取得更好的度量值数据平衡和功能包含技术。基于本文的结果进行验证,只有一个指标是不够的讲述模型性能。需要从多个指标评估模型的性能。此外,平衡技术也可以使不同的结果。俄文平衡技术和决策树算法是最好的选项分析病人是否显示或错过预约。特征选择是一个关键,从而获得更好的结果信息增益。我们发现特性、标题、手术类型、种族、公民地位,创造差异,年龄范围在变得更好更有效的预测。 Six different types of metrics achieve improved results than mentioned in the literature. Furthermore, it is verified that the random forest classifier, decision tree, logistic regression, XG Boost, and gradient boosting performed very well, having recall greater than 75%, an accuracy greater than 73%, and F1-score greater than 75%.

数据可用性

没有数据可用于支持这项研究。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

d . Marbouh Khaleel, k . al Shanqiti et al .,“评估病人可能会对服务质量的影响,“风险管理和医疗政策13卷,第517 - 509页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
t . Molfenter”,减少任命旷课:从理论到实践,“物质使用和滥用,48卷,不。9日,第749 - 743页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
d·m·艾伦,”的预测均方误差作为选择的标准变量,“技术指标,13卷,不。3、469 - 475年,1971页。
视图: 出版商的网站 | 谷歌学术搜索
l·j·迈尔森绿、m . Warusawitharana”曲线下的面积来衡量打折,“实验分析的行为》杂志上,卷76,不。2、235 - 243年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
j·v·戴维斯,b .巴巴,p . Jain, s . Sra i s Dhillon,“信息理论度量学习”24日国际会议的程序机器学习Corvalis,页209 - 216年,俄勒冈州,美国,2007年。
视图: 谷歌学术搜索
j·黄和c x凌,构建新的机器学习和更好的评估措施2007年,IJCAI,展出。
a . Rakotomamonjy优化与svm Roc曲线下面积,2004年ROCAI。
d . j . Mac凯和d . j . Mac凯信息理论、推理和学习算法》,剑桥大学出版社,2003年。
加西亚和f . Herrera”进化训练集的选择优化c4。5不平衡问题,”2008年第八届国际会议上混合智能系统西班牙巴塞罗那,页567 - 572,,2008。
视图: 出版商的网站 | 谷歌学术搜索
m . Hossin m . Sulaiman A·穆斯塔法:穆斯塔法,r·马特,“混合评价指标优化分类器,”2011年3日会议上的数据挖掘和优化(DMO),第170 - 165页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
r . Ranawana和诉Palade优化precision-a新的分类器性能评价指标,”2006年IEEE国际会议上进化计算2261年,页2254 - 2006 BC,加拿大,温哥华。
视图: 出版商的网站 | 谷歌学术搜索
s·w·威尔逊,“矿业与xc斜数据”国际研讨会学习分类器系统施普林格,页158 - 174年,2000年。
视图: 谷歌学术搜索
m·巴克兰和f .相当的查全率和查准率之间的关系,“美国信息科学学会杂志》上,45卷,不。1,19,1994页。
视图: 出版商的网站 | 谷歌学术搜索
t . Kohonen自组织映射,卷30施普林格科学与商业媒体,2012年。
d . j . r . j .直到,手”一个简单的概括的ROC曲线下的面积多类分类问题,“机器学习,45卷,不。2、171 - 186年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
m . Hossin和m . n . Sulaiman”回顾评价指标数据分类评估,”国际期刊的数据挖掘和知识管理过程,5卷,不。2,01-11,2015页。
视图: 出版商的网站 | 谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上》16卷,第357 - 321页,2002年。
视图: 出版商的网站 | 谷歌学术搜索
诉Ganganwar”不平衡数据集的分类算法,概述”国际期刊的新兴技术和先进的工程,卷2,不。4,42-47,2012页。
视图: 谷歌学术搜索
x, z . f . Gellad c·马瑟三世et al .,“设计动态旷课的风险预测模型在不同专业和诊所,“美国医学协会杂志》上,25卷,不。8,924 - 930年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
黄y和d . a . Hanauer“病人失约预测模型开发有效使用多个数据源进行超额预定的方法,”应用临床信息学,5卷,不。3、836 - 860年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
y黄和p·祖尼加有效的取消政策减少病人失约的负面影响,”运筹学学会》杂志上,卷65,不。5,605 - 615年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
大肠Kaplan-Lewis和s . Percac-Lima“失约初级护理约会,”初级保健和社区卫生杂志》上,4卷,不。4、251 - 255年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
j . Denney、美国科因和s . Rafiqi“机器学习预测失约任命的初级保健设置,“SMU数据科学评论,卷2,不。1,p。2, 2019。
视图: 谷歌学术搜索
j·s·克莱默逻辑回归的起源Tinbergen研究所,2002年。
拿身份证Dinov”方法论的挑战和大医疗数据分析建模和解释的机会,“Gigascience,5卷,不。1,2016。
视图: 出版商的网站 | 谷歌学术搜索
我优秀”,朴素贝叶斯分类器的一个实证研究,”在人工智能中IJCAI 2001研讨会上展出的实证方法美国西雅图,页41-46,2001。
视图: 谷歌学术搜索
j·h·弗里德曼“随机梯度推进”,计算统计和数据分析,38卷,不。4、367 - 378年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
v . f . Rodriguez-Galiano b . Ghimire j·罗根,m . Chica-Olmo和j.p. Rigol-Sanchez”评估的有效性随机森林分类器对土地覆盖分类,“ISPRS《摄影测量与遥感卷,67年,第104 - 93页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
s . AlMuhaideb o . Alswailem n . Alsubaie Ferwana,和a . Alnajem”通过人工智能算法预测医院失约约会,”沙特医学年鉴,39卷,不。6,373 - 381年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
穆罕默迪,h·吴,a . Turkcan t . Toscos和b . n . Doebbeling”数据分析和建模的任命失约社区卫生中心,“初级保健和社区卫生杂志》上,9卷,2018年。
视图: 出版商的网站 | 谷歌学术搜索
t . Daghistani h . AlGhamdi r . Alshammari, r·h·AlHazme“预测门诊失约:大数据分析使用Apache火花”,《大数据,7卷,不。1,2020。
视图: 出版商的网站 | 谷歌学术搜索
w·w·科恩,“快速有效的规则归纳”第十二学报》国际会议上机器学习太浩,页115 - 123,城市,加利福尼亚,1995年。
视图: 谷歌学术搜索
g . Hulten l·斯宾塞,p·多明戈,“挖掘数据流,图示”第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,知识发现(KDD) 01,页97 - 106年,旧金山,加利福尼亚,美国,2001年。
视图: 出版商的网站 | 谷歌学术搜索
t·r·Baitharu和s . k . Pani”分析医疗数据挖掘技术的决策支持系统使用肝障碍的数据集,”Procedia计算机科学卷,85年,第870 - 862页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
m . Zięba s . k . Tomczak, j . m . Tomczak”合奏了树木与合成特性生成应用程序破产预测,“专家系统与应用程序58卷,第101 - 93页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
b . Azhagusundari和a . s . Thanamani“基于信息增益特征选择,”国际创新技术和探索工程杂志》上,卷2,不。2、21页,2013页。
视图: 谷歌学术搜索
h . Uguz”,一个两阶段的文本分类特征选择方法通过使用信息增益,主成分分析和遗传算法,”以知识为基础的系统,24卷,不。7,1024 - 1032年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
c . Stachniss g . Grisetti, w . Burgard gain-based勘探rao-blackwellized粒子过滤器使用的信息,“机器人:科学和系统,2卷,第72 - 65页,2005年。
视图: 谷歌学术搜索
j·d·尼尔森,”贝叶斯诊断,发现有用的问题:概率的影响,和信息增益,”心理评估,卷112,不。4、979 - 999年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
h .他b, e·a·加西亚和美国,“ADASYN:自适应抽样方法合成不平衡学习,”2008年IEEE国际神经网络联合会议(IEEE计算智能世界大会),页1322 - 1328,香港,中国,2008。
视图: 出版商的网站 | 谷歌学术搜索
c·德拉蒙德和r . c . Holte”C4。5、类不平衡和成本敏感性:为什么under-sampling胜over-sampling,”学习研讨会不平衡数据集,页1 - 8,华盛顿,美国,2003年。
视图: 谷歌学术搜索
c·塞弗特t . m . Khoshgoftaar j . Van Hulse和a . Folleco”的实证研究学习者在不平衡的分类性能和嘈杂的软件质量数据,”信息科学卷,259年,第595 - 571页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
m·w·加德纳和美国道灵”,人工神经网络(多层感知器)——回顾应用程序在大气科学,”大气环境,32卷,不。14日至15日,第2636 - 2627页,1998年。
视图: 出版商的网站 | 谷歌学术搜索
g . Biau和大肠Scornet随机森林导游。”测试,25卷,不。2、197 - 227年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
中锋p·w·s·k·贝弗里奇,p·a·埃森曼·d·l·沃森b·b·舒尔茨和l·b·兰斯德尔”量化通过pedometry小学体育教育,体育活动”医学和科学在运动和锻炼,35卷,不。6,1065 - 1071年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
c·j·威尔默特和k .松”优势的平均绝对误差(MAE)的均方根误差(RMSE)在评估平均模型的性能,”气候研究,30卷,不。1,第82 - 79页,2005。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1312年

下载

833年

引用