研究文章|开放获取
阿明Golabpour Peyman Almasinejad, Mohammad Reza Mollakhalili Meybodi, Kamal Mirzaie, Ahmad Khosravi, ”将丢失的医疗数据的动态模型:多目标粒子群优化算法”,医疗保健工程, 卷。2021年, 文章的ID1203726, 9 页面, 2021年。 https://doi.org/10.1155/2021/1203726
将丢失的医疗数据的动态模型:多目标粒子群优化算法
文摘
缺失的数据出现在所有的研究中,特别是在医学研究。缺失数据的情况下,部分研究数据还没有被报道。这将导致样品的不相容和人口和错误的结论。丢失的数据通常在研究,它将决定如何误解的程度的结论。所有方法的参数估计和预测模型都是基于假设数据是完整的。广泛缺失的数据将导致错误的预测和增加偏见。在目前的研究中,提出了一个新颖的方法的归责医疗缺失的数据。方法决定了算法适用于缺失数据的归责。为此,使用了一个多目标粒子群优化算法。算法背景缺失的数据,如果预测模型应用于数据,将优化的特异性和灵敏度。 Our proposed model was evaluated using real data of gastric cancer and acute T-cell leukemia (ATLL). First, the model was then used to impute the missing data. Then, the missing data were imputed using deletion, average, expectation maximization, MICE, and missForest methods. Finally, the prediction model was applied for both imputed datasets. The accuracy of the prediction model for the first and the second imputation methods was 0.5 and 16.5, respectively. The novel imputation method was more accurate than similar algorithms like expectation maximization and MICE.
1。介绍
疾病治疗密切相关的医学观察和数据解释。医疗数据收集和解释的基础医疗卫生数据以来极大地影响决策。事实上,所有卫生保健措施与医疗数据收集,解释和应用程序(1]。
缺失数据的值没有被记录为一个变量,是一个挑战在医学科学数据预处理。缺少医疗数据不同的原因和结果的发生通过数据挖掘提取信息(质量差2]。因此,污名和删除丢失的数据预处理和数据清洗是必要的方法来改善数据质量(3- - - - - -5]。数据删除将会消除所有的信息记录和结果在一个低质量的解释。然而,数据归责与合适的值会导致高质量的解释和知识(3,6,7]。
近年来,提出了几种方法来解决这个问题。然而,这些方法将减少医疗数据的质量,因为他们介绍的偏见。大多数的模型通常只提高准确性,特异性、敏感性和不能同时提高他们所有人。
2。背景
的一个问题在数据收集缺失或不报告一些数据依赖和独立变量。缺失的数据存在的几种机制:(i)失踪完全随机(MCAR),(2)随机缺失(MAR), (iii)失踪不是随机(MNAR)和(iv) nonignorable missingness (NIM)。了解这些机制中发挥着重要作用的选择一个合适的分析和解释方法(8,9]。
小和罗宾所描述的失踪完全随机(MCAR)”如果一个解决方案的概率是不与观测值和缺失值,可以收集,缺失值MCAR”(7)。MCAR定义如下:
换句话说,如果丢失的概率Y不是与观测值的Y但有关待定参数( ),这些值MCAR。在这种情况下,缺失值可以替换为一个随机子样品的完整数据。例如,考虑变量X和Y分别年龄和收入,有缺失值的收入。如果收入被记录/错过了同样为所有人不管他们的年龄或收入,缺失值MCAR [3,10]。
随机缺失(MAR)假设陈述如下: 这意味着失踪的条件概率Y,考虑到两个Y失踪和Y观察到的的条件概率,等于错过了Y值给定的观察Y值。换句话说,失踪一个观察的概率可能与观测值但不缺失值本身。例如,考虑变量X和Y分别年龄和收入,有缺失值的收入。如果错过的值被观察到在一个特定的年龄段,错过了值类型是3月3月不到的局限性MCAR。因此,MCAR 3月是一个特殊的(3,10]。
失踪不是随机(MNAR)时错过了数据的类型变量本身是缺失数据的原因。在上面的年龄和收入的例子中,假设有遗漏值的收入。如果错过的值被观察到在一个特定的收入范围,错过了值类型是MNAR [3,11]。
某些类型的缺失数据影响分析超过其他类型。因此,当遇到缺失值,最重要的措施是确定丢失的数据的类型(12,13]。
在这项研究中,提出了基于多目标粒子群优化模型和数据挖掘算法。模型可以提高特异性、敏感性和医疗数据的准确性,可以用于连续和离散数据。
3所示。材料和方法
主要有两种方法来转嫁缺失的数据。(我)丢失的数据是精确计算。这种方法并不适用于医学科学,因为小归责误差将影响所有的计算,和医生不能依赖分析。(2)丢失的数据估算是基于另一个参数,如人口”的意思是,“这不是相关缺失值本身。该方法适用于医学科学(14]。
第二种方法已被用于我们的模型推导出缺失的数据。(图的模型有五个步骤1)。
步骤1。升序排序的数据。然后,定义了预测模型基于变量的数量,包括缺失的数据如下: 缺失数据的变量x1基于预测估算吗1模型和x2变量。然后,缺失数据的变量x2基于预测估算吗2模型和x1变量。因此,所有缺失值x1和x2变量是估算。随后,缺失数据的变量x3基于预测估算吗3模型和x1和x2变量。这个过程将持续到最后一个变量的缺失数据是估算的。为此,我们使用一个学习系统基于多目标粒子群优化算法为归责找到最好的预测方法。例如,再邻居(资讯)预测模型比其他模型预测缺失可能会表现得更好x2数据使用x1和支持向量机(SVM)预测模型可能比其他方法来预测缺失表现得更好x3数据使用x1和x2。优化算法用于确定哪些模型性能更好(15]。
步骤2。数据分为两组:(i)记录没有缺失数据和观测数据和(2)记录缺失的数据。最小数量的观测数据应至少有50%的所有数据。如果这些记录的数量小于50%,缺失数据的记录是由链方程估算使用多元归责(老鼠)获得至少50%的数据。然后,算法处理进行分析。
步骤3。缺失数据的类型,也就是说,MCAR, 3月和MNAR,应该确定。要做到这一点,首先使用小测试(16),缺失的数据模式确定为MCAR与否。第二,如果不是MCAR模式和有信息的数据确定失踪的类型,这种类型将被分析的基础。否则,被认为是MNAR模式。最后,缺失数据的生成是基于观测数据。例如,30%的变量1是失踪。因此,30%的观测数据中变量1消除基于缺失数据的类型。
图2显示数据划分到观察的过程中,失踪,模拟。
步骤4。最好的算法应该确定为每个预测(方程(3)使用多目标粒子群优化算法。之后,数据分为(i)观测数据没有丢失数据,(2)观测数据与模拟缺失的数据,和(3)数据包含真正的丢失的数据。
观测数据,不包含缺失的数据是用来确定归责模式。观测数据与模拟数据是用来评估和优化模型。优化后的算法背景缺失的数据。在我们的模型中,提出了一种预测模型对于任何功能,有缺失的数据,以便预测模型可以更准确地归咎于丢失的数据。
预测模型是离散的或连续的。前者是用于输入变量是连续的和离散的独立,和因变量是离散的。后者时使用的输入变量是连续的和离散的独立,因变量是连续的。表1显示了连续和离散算法,用于我们的模型。注意,组合算法可以用来强化模型。
最好的方法是评估所有可能的数据归责方法,然后确定最佳归咎为每个特征算法。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4所示。使用多目标粒子群优化算法解决问题
在该模型中,多目标粒子群优化算法(17)发现最好的归责算法每个特性的缺失的数据。根据不同的特性,可以使用连续/离散算法。
4.1。粒子结构
每个粒子表示该模型中使用的算法。粒子的横坐标是含有缺失数据的独立变量的数量,和粒子是连续的值在0和1之间。因为我们需要选择一种算法基于算法在算法的行号表,我们面临一个离散状态。因此,连续区间[0,1]应该转化为离散区间[1,n]。方程(4)显示了这种转变。事实上,多目标粒子群优化算法从连续区间转化为离散间隔使用“f”功能(方程(5))。”n”是18 - 9连续和离散变量,分别。“f”功能给一个整数。例如,如果第一个索引的结果的粒子,其变量是离散的,14(基于方程(6)),应该使用9-NN算法预测第一个失踪张包含特征。同样地,如果粒子的第二索引的结果,其变量是连续的,是6(基于方程(5)),应该使用6-NN算法预测第一个失踪张包含特征。图3显示了结构的多目标粒子群优化算法。粒子横坐标是“n”,这是功能,含有缺失数据的数量,和“n“是一个连续参数在0和1之间。
4.2。一代的第一人
首先,100个粒子使用均匀分布生成如下(18];0和1之间的数字是随机分配到每一个:
4.3。适应度函数
每个粒子的适应度函数决定合适的归责算法相应的功能。首先,观测数据进行分类和评估模型的准确性。然后,故意创建缺失的数据观测数据(图1)。之后,创建缺失的数据估算使用确定算法。数据再次分类,评估模型的灵敏度和准确性。最后,两者之间的差异的敏感性和特异性标准模型评价模式,包括使用完整的数据和数据与人工缺失值,计算。这个过程被重复了100次,平均的差异被认为是作为适应度函数。这个值越低,越合适的粒子。图4显示了适应度函数的结构。
4.4。速度的预防
的一个重要方面确定优化算法的精度是“探索”和“利用”特性。“探索”是一种算法的搜索能力优化的价值。“利用”是执行集中搜索能力的可能区域找到最好的解决方案。因此,一个优化的解决方案是创建这两种对立的因素之间通过更新的速度算法如下(19,20.]: 在哪里是粒子的最大速度表和列的数量。这个参数非常重要,因为这个参数的搜索速度是有限的。如果是一个大数目,增加算法的探索能力。相反,如果很小,利用能力增强。如果太小,蜂群可能无法搜索当地的最适条件。此外,蜂群可能被困在当地的最适条件,算法不能退出。大的值增加的机会失去最优区域。群可能跳的优化解决方案和搜索最优区域。因此,大结果距离的算法从最优区域19]。
应该创建一个平衡计算,完成如下:(1)快或慢运动(2)探索和利用能力
被认为是每个维度的一小部分如下:
起初,δ= 1;其值的变化每一代基于以下方程。注意,δ在每一代比上一代少90%。
4.5。终止
算法终止取决于群直径,规范化直径接近0。年代是主要的直径群空间,R马克斯最大直径,计算使用以下方程(21]:
4.6。最终输出
由于算法是目标和它的输出是一组值,精度最高的粒子被选中。这样做,所有的最终输出算法计算,精度最高的一个选择。如果几个输出生成相同的精度,一个是随机选择的。
第5步。后多目标粒子群优化算法确定归责算法,根据描述每个算法运行步骤,直到所有缺失的数据是估算的。
5。评价
该算法使用数据评估胃癌和成人t细胞白血病/淋巴瘤(ATLL)患者。这两个数据集包含缺失的数据,不能分类。因此,缺失的数据应该估算。
5.1。归责的胃癌数据基于该算法
胃癌是最普遍和威胁生命的癌症之一。它是在男性比女性更普遍。成千上万的人每年在伊朗是受疾病影响的。这项研究是生存的一项研究,277个人,他们承认Jahad Daneshgahi研究中心从2008年到2015年,都包括在内。197年从277年承认患者的数据被排除在外,因为没有生存数据。因此,80年的数据集包含数据胃癌患者。有15个独立的和1个因变量。表2显示变量的类型。8有缺失数据变量从5%提高到88%,和整体缺失的数据为29.5%(表3)。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
50%以上的变量缺失的数据被排除在外。我们估算缺失的数据使用模型以及其他五个归责算法包括删除、平均EM, missFrost,多元归责链方程(老鼠)。遗传和逻辑回归算法被用来设计该模型(22,23使用MATLAB软件来预测存活时间。图5显示了模型的结构。十倍的方法被用来将数据分为训练和测试组在所有六个归责方法。这两种模型进行了10000次,和计算的准确性。平均精度被认为是模型的准确性。图6显示了所有的结果归责方法(24]。该模型的准确性为72.57%,这是最高的。
5.2。基于该算法的归责ATLL数据
ATLL是一种先进的成年人的T细胞的恶性肿瘤和感染是htlv 1的结果25,26]。25 ATLL病人,他们承认Jahad Daneshgahi研究中心从2016年到2018年,都包括在内。有35个独立变量和因变量,中位总生存时间(表4)。十二个独立变量包含缺失的数据,其中空腹血糖(的边后卫)缺失数据最高(48%)。总的来说,有18.47%的缺失的数据。50%以上的变量缺失的数据被排除在研究之外。我们估算缺失的数据使用模型以及5其他归责算法包括删除、平均EM, missFrost,多元归责链方程。遗传和逻辑回归算法被用来设计该模型使用MATLAB软件来预测存活时间。30 - 70方法被用来将数据分为训练和测试团队在所有六个方法。模型进行了10000次,平均精度被认为是模型的准确性。表5显示了模型的结构。如图所示,该模型表现好于其他方法,也就是说,它改善了与其他归责方法相比精度16.52%。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6。讨论
缺失的数据已经在各种统计分析引起了人们的关注。大多数研究人员遇到的缺失数据在数据分析。几个原因导致数据丢失。例如,当研究人员使用问卷,参与者可能不愿意回答一些问题,因为缺乏时间或个人问题。因此,研究人员需要恰当地归咎于缺失的数据能够分析数据。
低质量的数据导致的低质量的结论。因此,预处理和数据清洗应用来提高数据的质量。缺失的数据,需要转嫁造型(之前丢失的数据使用一个合适的方法5,27]。数据是错过了由于各种原因,和研究人员必须确定丢失的数据的类型2,28,29日]。原因是归责方法的选择基于缺失数据的类型是不同的。有三种类型的缺失数据:(i) MCAR,不依赖于其他变量,(ii) 3月,依赖于观测数据的状态,和(3)MNAR取决于缺失数据的状态。我们已经表明,缺失数据的类型影响归罪算法的准确性。
恩德斯表示,如果MCAR缺失的数据,丢失的数据可以被排除在外30.]。然而,我们表明,扣除MCAR缺失数据降低分类的准确性。事实上,我们的模型选择最好的归责特定类型的缺失数据的算法。我们18岁和9个变量分类算法用于离散和连续变量,分别。这时,一个训练算法确定最好的算法。培训模式进行了使用多目标粒子群优化算法。改进模型,适应度函数是调整基于敏感性和特异性。
评估模型中,胃癌的数据集和ATLL患者使用。在胃癌的数据,存活时间预测的模型。包含29.5%的数据缺失的数据,估算的模型。结果表明,该模型提高了准确性6.43%相比,多元归责链方程。ATLL数据同时,生存时间的预测模型。包含18.47%的数据缺失的数据。结果表明,该模型精度提高了16.52%。
该模型比其他方法有几个优点:(i)在提出的模型中,缺失数据仿真是基于数据的一部分,没有失踪。因此,该算法使用相同的结构缺失的数据归责non-missing数据。(2)大多数算法使用一个单一的归责方法来转嫁缺失的数据。该模型是灵活的,也就是说,它决定最好的归责算法缺失数据基于缺失数据的类型。提出的模型,然而,有几个缺点:(i)是缓慢的多目标粒子群优化算法和(2)它取决于变量而不是记录。因此,我们建议开发一个动态算法背景缺失的数据基于记录。
数据可用性
的数据支持本研究的发现可以从相应的作者在合理的请求。
同意
不适用。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
概念是由p Almasinejad和a . Golabpour;方法是由p . Almasinejad a . Golabpour和m . r . Mollakhalili;软件是由p . Almasinejad和a . Golabpour;验证是由p . Almasinejad a . Golabpour和k . Mirzaie;最初的草案是由p . Almasinejad a . Golabpour m . r . Mollakhalili k . Mirzaie和a . Khosravi;审查和编辑是由p . Almasinejad a . Golabpour m . r . Mollakhalili k . Mirzaie和a . Khosravi;和项目管理是由a Golabpour。所有作者已阅读及同意发布版本的手稿。
引用
- e·h·Shortliffe和j·j·西米诺生物医学信息学:计算机应用在卫生保健和生物医学德国海德堡,激飞伦敦,柏林/ 2013。
- d·g·奥尔特曼和j . m .乏味,”缺失的数据,”BMJ,卷334,不。7590,424年,页2007。视图:出版商的网站|谷歌学术搜索
- 周x h, c, d .卢伊和x叮,健康科学应用缺失的数据分析美国新泽西州霍博肯市威利,2014年。
- 彭译葶。公元前,江和c c。王”,评价机器学习分类使用排序缺失比例技术基于缺失数据,”应用科学,10卷,不。14,4920年,页2020。视图:出版商的网站|谷歌学术搜索
- 郭w·邓,y, y . Li j . Liu d . Liu和l .朱”缺少电力数据填补方法改进的随机森林算法的基础上,“中国电气工程期刊》上,5卷,不。4,33-39,2019页。视图:出版商的网站|谷歌学术搜索
- d . a . Guastella g . Marcillaud和c·瓦伦蒂,“Edge-based归罪在大规模环境中丢失的数据,”信息,12卷,不。5,195年,页2021。视图:出版商的网站|谷歌学术搜索
- a . Kocian总裁g . Carmassi, f . Cela l . Incrocci p . Milazzo s Chessa,”贝叶斯sigmoid-type与缺失的数据时间序列预测温室作物,”传感器,20卷,不。11,3246年,页2020。视图:出版商的网站|谷歌学术搜索
- p . Amitha v . s . Binu, b . Seena”空间数据缺失值估计总水平,”临床流行病学和全球健康9卷,第309 - 304页,2021年。视图:出版商的网站|谷歌学术搜索
- c . g . Tzanis a Alimissis, Koutsogiannis,“解决缺少环境数据通过机器学习计划,”大气,12卷,不。4 p。499年,2021年。视图:出版商的网站|谷歌学术搜索
- y邓,汉族,j .郭和l .太阳,“时间和空间基于最近邻的价值观缺失的数据归责在无线传感器网络中,“传感器,21卷,不。5,1782年,页2021。视图:出版商的网站|谷歌学术搜索
- a . r . Alsaber和j·a·潘”,使用随机森林方法处理复杂的缺失数据的空气质量监测数据集:一个案例研究科威特环境数据(2012 - 2018),“国际环境研究和公共卫生杂志》上,18卷,不。3,p。1333年,2021年。视图:出版商的网站|谷歌学术搜索
- r . j . a, d·b·鲁宾缺失的数据统计分析美国新泽西州霍博肯市威利,2019年。
- w·杨和d·朱SAR图像形成方法基于RELAX算法与方位定期缺失的数据,”传感器,21卷,不。1,49页,2021年。视图:出版商的网站|谷歌学术搜索
- 学术界。刘,张炳扬。蔡,K.-L。苏,硕士。黄”,对缺失值特征选择影响归责的医疗数据集,“应用科学,10卷,不。7,2344年,页2020。视图:出版商的网站|谷歌学术搜索
- 即Eldiyana、大肠Nurlaelah和n . Herrhyanto”Estimasi缺失数据dengan metode多元归责由链方程(老鼠)为她membentuk persamaan regresi线性berganda,”Jurnal EurekaMatika,8卷,不。1,第107 - 97页,2020。视图:谷歌学术搜索
- c·李,“小的失踪完全随机试验,”占据杂志:促进通信统计和占据,13卷,不。4、795 - 809年,2013页。视图:出版商的网站|谷歌学术搜索
- c . c . Coello和m . s . Lechuga MOPSO:多目标粒子群优化的建议,”学报2002年国会进化计算。CEC 02(猫。02 th8600)IEEE,页1051 - 1056年,火奴鲁鲁,嗨,美国,2002年5月12日。视图:谷歌学术搜索
- l . Kuipers和h . Niederreiter均匀分布的序列,快递公司,米尼奥拉,纽约州,美国,2012年。
- 张h . f . Wang, A .周”mixed-variable优化问题的粒子群优化算法,”群与进化计算,60卷,ID 100808条,2021年。视图:出版商的网站|谷歌学术搜索
- c, h·高,l·高和w·张,“粒子群优化(PSO)算法,”计算机应用研究》12卷,7 - 11,2003页。视图:谷歌学术搜索
- m·a . Montes de亚奥理事会t . Stutzle m . Birattari和m .多日,“弗兰肯斯坦的算法:复合粒子群优化算法,”IEEE进化计算,13卷,不。5,1120 - 1132年,2009页。视图:出版商的网站|谷歌学术搜索
- j·g·易卜拉欣·h·朱,n .唐”模型选择标准使用EM算法对缺失数据问题,“美国统计协会杂志》上,卷103,不。484年,第1658 - 1648页,2008年。视图:出版商的网站|谷歌学术搜索
- d . j . Stekhoven和p . Buhlmann MissForest-non-parametric缺失值归咎为混合型数据,”生物信息学,28卷,不。1,第118 - 112页,2012。视图:出版商的网站|谷歌学术搜索
- h·杨,数据预处理Citeseer,宾夕法尼亚州立大学,2018。
- m . m . Akbarin a . Shirdel a .巴里et al .,“评价税收的作用,HBZ htlv 1前病毒的负载ATLL患者的生存率,”血液研究,52卷,不。2,p。106年,2017年。视图:出版商的网站|谷歌学术搜索
- d·o·平托艾尔·谢里夫,g . Mensah et Al。“细胞外囊泡从htlv 1感染细胞调节靶细胞和病毒的蔓延,“Retrovirology,18卷,不。1,1-27,2021页。视图:出版商的网站|谷歌学术搜索
- k . Sanjar o . Bekhzod a . Paul j . Kim和j·金”缺失的数据归责geolocation-based价格预测使用KNN-mcf方法,”ISPRS国际信息杂志》上,9卷,不。4 p。227年,2020年。视图:出版商的网站|谷歌学术搜索
- 罗西,d . Pedreschi d·a·克利夫顿,d . Morelli“超短心率变异性的误差估计参数:缺失的数据由运动构件的影响,“传感器,20卷,不。24,7122年,页2020。视图:出版商的网站|谷歌学术搜索
- h·陈,”数据和因果推论,“论文和学位论文,2020年,https://scholar.smu.edu/cgi/viewcontent.cgi?article=1013&context=hum_sci_statisticalscience_etds。视图:谷歌学术搜索
- c·k·恩德斯应用缺失的数据分析,吉尔福德出版社,纽约,2010年。
版权
版权©2021 Peyman Almasinejad等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。