缺失的数据插值的阿尔茨海默病基于Column-by-Column混合模式

文摘

研究阿尔茨海默病的临床数据集可以预测和发展早期干预治疗。在医学研究缺失的数据是一种常见的问题。故障处理缺失数据会降低测试的效率,导致信息丢失和结果偏差。解决这些问题,本文设计并实现了缺失数据插值方法,根据列混合插值相结合的四个方法意味着插值,回归插值,支持向量机(SVM)插值,和多个插值。通过比较的影响混合插值法与上述四种插值方法和比较结果,实验结果表明,混合插值法在不同的数据缺失率有更好的性能的均方根误差(RMSE),平均绝对误差(MSE)和错误率,证明插值机制的有效性。不同变量的特点可能导致不同的插值策略选择,和column-by-column混合插值可以动态地选择最好的方法根据不同的特性。在某种程度上,它选择最好的方法适合每个特性,提高整个数据集的插值效果,这有利于阿尔茨海默病的临床研究。此外,在缺失数据的处理,采用删除法和插值法的结合,参照专家的知识。与直接插值法相比,该方法获得的数据集更准确。

1。介绍

阿尔茨海默病(AD)是一种高发病率和不可逆转的进行性中枢神经退行性疾病,主要发生在老年人超过65岁,和阴险的发病原因不明(1]。疾病的早期记忆障碍的主要临床表现,认知功能障碍和精神损害,随着时间的流逝,会逐渐恶化,以及最后的性能对心理健康和记忆丧失,语言和行动,如能力(2]。这严重影响老年人的身心健康和生活,工作和社会生活,家庭和社会造成沉重的负担。根据相关研究报告,AD患者的数量在世界上有望达到1.32亿到2050年,平均每85人中有一个人患有广告(3]。中国是世界上人口最多的国家,老年人的数量接近3亿。老年人超过65岁的患病率是5%,和老年人超过85岁的患病率是20%,所以广告的国家正面临一个严峻的挑战4]。因此,研究广告的辅助诊断和疾病预测是越来越重要。

与机器学习在医学领域的应用和相关研究的进一步发展,研究计算机辅助诊断模型吸引了广泛关注,取得了显著成绩(5- - - - - -7]。然而,由于临床数据的复杂性,有相对较少的成果可以应用在临床实践和临床医学专家可以提供有效的协助在疾病诊断8]。当前对阿尔茨海默氏症的研究主要是采用数据集完成和精度高,没有关注临床数据的复杂性和不完全性。因此,考虑到实际的临床数据,具有重要意义,建立辅助诊断系统从数据预处理。

缺失值指的是人为过失造成的损失的数据内容,机器故障,以及缺乏数据源数据收集和整理的过程中,导致了不完整的数据集,如图1。数据缺失的存在于各行各业,如临床和医学数据收集,报告数据统计,和实验数据记录9),而直接使用数据挖掘的数据缺失的数据会影响建模的结果,甚至导致错误。另外,大多数现有的数据挖掘算法不能直接应用于数据集包含缺失的数据和有强烈的敏感性在数据集缺失数据的比例。缺失数据的处理是一个非常重要的步骤来实现数据的完整性需要数据挖掘中,以提高数据的质量和满足需求的挖掘。

(一)

(b)

合理处理缺失数据的数据集可以有效改善数据质量,提高后续建模的准确性。目前,有三种主要处理缺失数据的方法:删除方法,无知方法,插值法。

广告数据集作为研究目标,本文使用不同的方法来插入不同的特性,选择最合适的方法,并将该方法与直接删除处理缺失数据的方法。这种方法弥补了单一处理方法和插值方法的缺点,使完整的数据获得了较高的精度,最大限度地保留了数据的完整性。

本文的结构如下。部分2描述了缺失数据处理的研究现状。部分3介绍了缺失数据插值的相关技术和column-by-column混合插值的过程。部分4进行缺失值处理数据集不同的错过率和分析了插值结果根据RMSE和MSE。部分5给出了结论和未来的工作。

2。文献综述

与数据挖掘在各个行业的普及和应用,数据预处理技术已被学者广泛关注国内外各界,及其相关技术也在迅速发展。

缺失的数据主要有两种处理方法:删除数据含有缺失数据和插值缺失的数据(10]。删除方法是删除实例样本数据包含缺失数据在数据集获得剩下的完整的数据集进行后续分析。该方法简单可行,但其优点和缺点是相当明显的。当丢失的数据的比例很小,特别是当数据样本包含多个缺失的数据,删除数据含有缺失数据的总体影响是小的。然而,它也可能导致样本不平衡和丢失的重要数据信息。与缺失数据的比例的增加,删除丢失的数据后,将剩余的数据很难反映真实的信息,特别是在非随机缺失数据的情况下(11]。因此,当前的研究主要集中在插值缺失的数据。

数据挖掘是最常用的方法来填补缺失数据的行数据集。这种方法的填充思想是我有用的相关信息从当前数据集,建立模型根据挖掘信息,然后预测和估计的最终价值缺失的数据通过这个模型12]。这项研究在13)改善SNI算法的基础上,然而算法,及其在灌装精度实验数据集的混合比,然而算法。与此同时,作者还提出了一种新的NIIA填充方法,这是一个迭代的任务计划。缺失的数据不断迭代分配,所有丢失的数据先后直到收敛。虽然这个方法最后灌装精度高,它的速度是非常缓慢的,很难适用于大型数据集。

在文献[14),六种不同的方法,意思是,k最近的邻居(资讯),模糊k——(FKM)、奇异值分解),贝叶斯主成分分析(BPCA)和链方程多个正常化的假设下(老鼠)比较完整的随机删除,和贝叶斯主成分分析和模糊k插值则被认为有更好的效果。这项研究在15],基于纵向数据与“没有人数据”方法、“基线数据+共”方法、“数据”方法和“之前和之后的数据”方法,估计缺失值,均方根误差、平均绝对偏差,偏差和相对方差作为比较四种插值方法的评价标准。这项研究在16使用朴素贝叶斯和多重插补过程的数据丢失阿尔茨海默病的成本分析,调整了估计规则利用丢失的信息,和改进单估计技术的使用,以获得更准确的成本估算。这项研究在17)提出了一种数据驱动的缺失值估计方法,该方法估计缺失值为每个特性使用五个方法,包括全球平均/模式,文章的意思是/模型,先前的观察结转,前一个和后一个观察相结合,k最近的邻居。最好的估计方法是根据特性,选择和插值结果评估下独立的分类器,分类器的依赖。上面的文献主要是选择适当的插值方法通过多种插值方法的比较。上述缺失值插补方法是所有应用程序的原始方法。一些方法只适用于纵向数据,并不适用于混合数据的缺失值插补。

基于文献[18),主成分分析方法,构建的平衡不同维度的影响当所有缺失值的连续变量和分类预测是基于个体之间的相似性和变量之间的关系,该方法的分类变量赋值和高度连续变量之间的线性关系表现出更好的性能。在文献[19基于相关性最大化),一个新的方法用于估计缺失的数据。首先,选择一套基础从完整的例子,然后基本设置和其他完整的例子是用于生成数据段,并有很强的相关性。最后,一个线性模型应用于发现数据段计算每一个缺失值。这项研究在20.)输入数字和分类缺失值通过猜测基于记录类似缺失值。当确定一组类似的记录,根据这组做出猜测,模糊聚类方法和一种新的模糊期望最大化算法是应用。文献[21]提出的四种不同方法结合案例选择和缺失值估计和比较数据分类。这项研究在22]研究了分层的基于相关缺失值估计方法k邻居和选择了最近邻当你考虑关系,根据每个记录中的遗漏值的数量依次输入不完整的记录,在还原的过程中,完整记录通过计算相关系数,将更新相关记录和减少完整的合并系数。提高数据利用率,属性相关的更准确,更合适的选择最近的邻居。这项研究在23]提出了缺失数据插值方案结合进化计算技术第一次和这个计划将不同算法相结合的显示不同的效果。上述文献都采用一个缺失值估计方法来插入缺失的数据,和上面的缺失数据插值算法和计划把所有数据集的特征作为一个整体,而不考虑插值过程的差异特性。

近年来,缺失值插补技术已应用于各个领域。在文献[24),根据钢结构的长期监测数据的杭州奥林匹克中心体育场,测点的应力变化之间的相关性研究,和一个失踪的压力数据的插值法。数据插值的日间和夜间分别安装。这项研究在25]介绍了工业过程软测量监测、控制和优化。前应用于工程系统、信号(能量)转换和数据采样通常是必需的,和采样数据需要处理。这项研究在26)开发了一个面向关键绩效指标的故障检测工具箱(DB-Kit)基于MATLAB工具箱数据和提供缺陷的评估结果数据集的关键性能指标的预测和诊断系统。在文献[27),一本小说ST-correlated近似缺失的数据归责模式提出了分析物联网数据的缺失值。上述文献在不同的场景中所有处理缺失值。这项研究在28)提出了一个新颖的潜在表示学习方法为基础的多峰性广告诊断;他们不仅用完整的多峰性数据样本学习常见的潜在的表示,但也使用样本数据不完整的多峰性学习独立modality-specific潜在的表征。这项研究在29日)提出了一个Auto-Encoder-based视点缺失的数据完成框架(AEMVC)学习广告诊断常见的表示。该方法首先将原始的完整视图映射到一个潜在的空间使用autoencoder网络框架。然后,潜在表征测量统计依赖从完整的视图是用于补充不完整的核矩阵视图在内核空间中。这项研究在30.)提出了一个完整的统一的“二级”学习模式为源数据和扩展不完整的数据,这可以避免估计缺失的数据并提供性能优越。这项研究在31日)提出了一种view-aligned超图学习(VAHL)方法来显式地模拟之间的一致性意见。原始数据分为几个视图根据可能的模式组合,并基于稀疏表示的超图构建过程进行的每个视图,每个视图对应于一个特定的模式或几个的组合模式。这项研究在32)提出了一个完整的多峰性潜在空间(cml)学习完整的多峰性数据模型也是一个不完整的多峰性潜在空间(iml)不完整的多峰性数据的学习模式。文献[33)提出了一种高阶拉普拉斯算子的正则化低秩表示痴呆诊断方法使用基于块丢失的多通道数据。这项研究在34)提出了一个multi-hypergraph学习方法来处理不完整的多峰性数据。具体地说,我们首先构造多个超图来表示高阶对象之间的关系通过将这些产品分为几组,根据他们的数据模式的可用性。这项研究在35]提出了一种空间受限的费舍尔表示大脑疾病诊断框架基于不完整的多通道神经图像,使用混合对抗网络估计失踪宠物根据相应的MRI扫描图像。上述文献中使用不同的方法来处理缺失值的阿尔茨海默病的临床资料。然而,单一方法会导致各种问题,比如减少数据变化的差异,使局部插值结果极端值和收敛速度慢,如果部分缺失值预测模型无关的其他属性值,预测结果是毫无意义的。

这项研究在36GP-KNN]提出了一种新的回归计算方法,这是一个混合的方法。采用两个概念的遗传规划(GPI)和减少k最近的邻居(资讯)。GP-KNN认为特性和相关性。人工神经网络的基础上,研究在37)提出一个赋值方法的多层感知器训练不同的学习规则,和一个多值赋值方法基于多层感知器的组合k最近的邻居。其中,k最近邻居算法是一种基于距离计算的插值方法。该算法的精度非常高,但其缺点也显而易见。当丢失的数据占总数的很大一部分数据,其灌装精度将大大降低。在这项研究中,一个新的column-by-column混合插值方法提出了基于数据驱动的。首先,使用不同的插值方法来估计缺失值的每个特性的数据集,和每个特性的插值方法排序根据平均误差,然后插值法和最小误差是选为最合适的插值方法。

3所示。缺失的数据插值

现有的插值方法缺失的数据主要分为单一插值和多个插值,单一的不同插值包括意味着插值,最大期望插值,回归插值和决策树插值。有三个主要多种插值方法:回归预测方法,倾向评分方法,获得的。自阿尔茨海默病的删除模式任意删除数据,本文采用获得多种插值方法和三种常见的单一插值精度高意味着插值方法,多元线性回归插值,支持向量机插值形成一种新的插值方法。

3.1。相关技术

3.1.1。意味着插值

意味着插值替换丢失的数据与均值有效值的功能属性,缺失数据的位置。平均插值法计算如下:

在这里,n_我是样品的数量的数据,λ_我是否我样品在这个属性值,1代表存在,0表示不存在。

一些特征属性的插值结果通过这个方法是一致的,这将导致样品失真,所以分层插值是常用的。分层插值是指作为分层的数据集的属性变量插值,然后插值之前每一层的样本的平均值: 在H是数据的层数,n_h代表样本中包含的数量h层,代表样本的均值包含真正的一个属性的值h层。

3.1.2。回归插值

缺失数据的插值回归方法以缺失数据的特征属性作为因变量和其他功能属性的数据集作为独立变量,建立回归模型,利用独立变量和因变量之间的关系,并使用该模型来预测缺失的数据,完成缺失数据的插值。其插补值计算如下: 在哪里y_k预测的结果吗k缺失的数据,α_我模型的回归系数,x_我是辅助变量。根据这个公式,当辅助变量x_我是一样的,预测插值的结果是一样的意思是插值;也就是说,所有丢失的数据的预测价值是相同的。因此,在回归插值过程中,有必要构建一个随机残余项和预测结果添加到表格最后插补值,以避免样品失真。把方程(3)如下: 在哪里e_我代表的残差构造数据集。

3.1.3。多重插补

多个插值是一种基于重复缺失数据插值方法模拟思想首次提出1978年鲁宾(38]。这个想法是来自贝叶斯推理,包括米(米> 1)。插值向量插值价值观的缺失数据替换每个缺失的数据,然后米完整的数据集是根据插值构造向量。的米根据统计分析获得的数据集标准。最后,分析结果的综合评价进行了获取最终的目标变量的估计。总之,多种插值方法主要包括三个步骤:缺失的数据插值,整体分析和评价和合并。

多个插值可以保持变量的原始数据集之间的关系,可以提供大量的信息不确定性的估计结果。

让我们说Y是纳米矩阵米变量。现有的数据部分Y是Y₀,缺失的部分Y_米,然后Y= (Y₀,Y_米),Y遵循多维正态分布µ= (µ₁,µ₂、……µ_米),ε= (δ_JM)。插值方法如下:(1)选择任意一个向量θ^∗从参数向量θ估计。(2)Y^∗我(m)的条件分布P (Y)^∗我(m) / Y^∗我(o),θ^∗)。(3)假设的参数估计α,然后α=α(Y)=α(哟,Y^∗米)从构建完整的数据集可以获得θ。插入之间的方差U=var(α)。(4)重复上面的三个步骤米次获得α_(j),你_(j),在那里j= 1、2、3…米。结合上面的分析和推导结果,多重插补参数的估计值α插值内部方差、interinterpolation方差和总方差,如以下公式所示,分别为: (5)F0 = (α_(j)− )^TU^−1/2(α_(j)− ):如果丢失的数据参数α包含相同的信息,然后的分布F₀接近的分布F。95%置信区间估计的参数α接近t分布。表达的参数如下: (6)估计λ信息缺失的参数α可以得到: 在哪里Ƴ代表产生的方差增量缺失的数据,这可以表示为

3.1.4。支持向量机插值

支持向量机(SVM)是一种基于统计的分类方法和结构风险最小理论学习。插值和缺失数据的应用程序的想法是类似于支持向量机功能(39]。线性回归问题,首先从数据集获得数据集,然后模型训练和学习。数据拟合的线性回归的方法,最后回归函数误差拟合后得到和条件约束:

α_我拉格朗日因子。最后,数据集D_小姐包含缺失的数据纳入训练模型来预测最后的插值结果。

3.2。缺失的数据插值

从每个特性的数据集,本文实现每个功能一个接一个的插值,提出了根据列混合插值法。流程图如图2:(我)从数据集包含缺失数据在实际应用程序中,记录功能R_我含有缺失数据的数据集R包含缺失数据和排序R₁,R₂,R₃……在一个升序排序根据缺失的数据的数量。(2)删除单个样本的缺失数据的数据集R获得完整的数据集R”。(3)选择相应的R_我特征属性的数据集R′,空白的R_我特征属性的数据集R′根据缺失的数据的比例R_我功能属性在原始数据集R′生成一个新的数据集R”。(iv)平均插值方法,多元线性回归插值方法,支持向量机插值方法和马尔可夫链蒙特卡罗多种插值方法用于插入数据集R”,每个方法的插值结果习的与原来的比较准确的价值呢X_我,选择最佳插值效果的插值方法特征属性。(v)使用插值方法在4插入相应的决定R_我特征属性的数据集R。(vi)遍历所有丢失的特性R₁,R₂,R₃,....重复步骤3,4,5,直到数据集R就完成了。

可能会有高比例的缺失的数据,或者分散在原始数据缺失的数据集,并可能失去平衡或获得的样本数据的数据量可能是太小了。因此,有必要选择是否扩大的数据根据实际情况数据集。

column-by-column混合插值法的基础上,本文提出了一种缺失数据处理流程通过结合广告数据直接删除的方法缺失数据和专家知识领域的阿尔茨海默病药,如图3:(我)首先,每个样本数据的缺失率数据集包含缺失的数据统计,然后删除一些样本变量的设置的阈值缺失的样本数据。(2)删除一些样本变量的基础上,每个特征变量的数据缺失率计算,并选择要删除的特征变量根据缺失的特征变量的阈值集。(3)的基础上选择特征变量删除,删除一些特征变量根据专家的意见。(iv)的基础上删除一些样本变量和特征变量,插值的缺失数据进行获取一个完整的数据集。

4所示。实验分析

4.1。缺失数据的处理

在这个实验中是使用的数据源ADNIMERGE数据集从安迪数据库(40]。总共有15个相关特性提取完整的数据集,包括DX,年龄,ADAS13, MMSE,形成边缘,R。学习,R.p。忘记,LDEL FAQ,河马,WBrain嗅,MidTemp、加州和τ。共有11087个样本数据被包括在内。提取的完整ADNIMERGE数据集训练数据随机分为90%和10%的测试数据。

现有的研究结果表明,当数据集的数据缺失率高于60%,利用价值的数据集基本上是零,不管采用什么处理方法在这个时间;它是无用的。因此,损失率将50%的数据,一般数据处理数据集缺失率限制,和数据损失率30%以上,处理后的准确性的数据集,将是一个严重下降;在此基础上,本文缺乏随机模型下,分别缺失的数据率为5%,10%,20%,30%,和40%,缺乏数据收集,和缺乏实验分析在不同的速率下不同插值方法的影响。

4.2。插值方法的比较数据缺失率为5%

根据特征变量的完整的数据集,缺少数据集生成含有缺失数据的5%。图4显示缺失数据的分布在丢失的数据集。

如图4,左边部分是缺失的数据的比例中包含的每个特性在总样本。从图可以看出,每个特性变量的缺失率约为5%,表明缺失的数据分布随机变量和大约一致在所有的特性。在右半边,绿色(多数)代表完整的数据样本,红色代表样本和丢失的数据。平均差插值,多元线性插值,支持向量机插值,多个插值,和基于列的混合插值提出了用于插入上述缺失的数据集,分别和定性和定量数据的插值结果分析特点,分别。表1显示RMSE和梅值量化数据由五种插值方法插值结果。


评价	中值插值	回归插值	支持向量机插值	多重插补	混合插值

RMSE	0.647	0.632	0.631	0.638	0.628
美	0.612	0.621	0.617	0.624	0.611

从表中可以看出,当数据缺失率为5%,意味着插值和混合插值的美价值很小;精度高,而多个插值的精度相对较低,效果是最差的。虽然混合插值和平均插值的精度和相对较高的类似,意味着插值的RMSE值较高;即分散度之间的插值结果数据和真实数据更高。

图5显示了梅的箱线图值从50实验五种插值方法获得损失率低于5%的数据,和图框线分布。上限和下限的框,分别代表的最大和最小值插值结果,中线是插值结果的中值。根据图,美价值意味着插值和混合插值是最低的,但是混合插值的偏差范围相对较小;插值结果更准确。

图6是禁区边线分布RMSE值对应于图的图吗5。从图可以看出,这个盒子高度多种插值方法是最小的,代表最低的分散度的插值结果和最稳定的,但它的RMSE值高。其中,混合的RMSE值插值结果是最低的,和相对的盒子高度较低;也就是说,该方法的插值效果最佳。

表2显示了五个插值方法的误分类率定性变量的插值的结果。错过率是5%,多个插值和混合插值的误分类率很低,而其他三种方法的高;即插值结果是贫穷。


评价	中值插值	回归插值	支持向量机插值	多重插补	混合插值

出错率	31.37	32.56	31.24	29.57	28.49

考虑五种插值方法的插值效果定性数据和定量数据,当数据缺失率为5%,插值结果并不明显不同,但混合插值方法的插值效果最好与其他四个方法。

4.3。插值方法的比较为10%,20%,30%,和40%的数据缺失率

完整的数据集,丢失的数据集缺失率为10%,20%,30%,和40%分别生成。如图7缺失的数据分布图表的数据集不同的缺失率,分别生成。根据图,没有明显的功能缺失的数据之间的依赖,和每个特性的数据丢失速率大约是整个数据集的缺失率;丢失的数据是随机和近似均匀分布在16个独立变量的数据特征。

(一)

(b)

(c)

(d)

五种插值方法用于插入缺失的数据用不同的数据缺失率四个数据集。美价值,RMSE值,miss-division率插值结果如表所示3- - - - - -5,分别。


数据缺失率(%)	中值插值	回归插值	支持向量机插值	多重插补	混合插值

10	0.668	0.649	0.641	0.662	0.632
20.	0.692	0.656	0.649	0.676	0.643
30.	0.721	0.682	0.679	0.685	0.661
40	0.787	0.732	0.711	0.704	0.691


数据缺失率(%)	中值插值	回归插值	支持向量机插值	多重插补	混合插值

10	0.697	0.679	0.668	0.671	0.661
20.	0.752	0.708	0.697	0.696	0.683
30.	0.791	0.746	0.721	0.714	0.701
40	0.869	0.812	0.784	0.776	0.758


数据缺失率(%)	中值插值	回归插值	支持向量机插值	多重插补	混合插值

10	32.58	33.49	31.34	31.38	30.32
20.	35.92	35.78	33.74	34.82	33.57
30.	39.44	37.43	36.91	36.01	35.21
40	46.83	42.37	40.16	38.15	37.16

根据表中的数据3错过率10%和20%时,梅的价值回归插值的结果,支持向量机插值,和混合插值获得的显著低于意味着插值和多个插值,表明插值效果就越好。混合插值法的美价值略低于回归插值法和支持向量机的插值方法,这表明混合插值法绝对精度最高。当数据缺失率为30%,混合插值法的美价值明显低于其他四个方法;也就是说,插值结果的绝对精度是最高的。当数据缺失率达到40%,混合插值和多个插值的美价值低于其他三种插值方法,和混合插值的美价值略低于多种插值,但这并不重要。结合上面的结果,当数据缺失率不超过40%,插值结果的绝对精度的混合插值法比其他方法;即插值结果最准确。

表4显示的RMSE值通过五种插值方法插值结果亏损率对应表在不同的数据3。表中的数据显示,在相同的数据损失率,混合插值法比其他四个方法。结果表明,离散化插值的结果和实际数据之间是最低的,和插值的效果是最好的。

表5五种插值方法在不同数据损失率定性变量插值结果故障率,并可以看出混合插值法在缺失数据率为10%,20%,30%,和40%的混合插值方法插值结果的错分率与其他四种方法相比有一定程度的下降;这表明,在插入损失定性变量的缺失数据在数据收集、混合插值方法的插值效果是最好的。

4.4。变化下的插值方法和比较不同的数据缺失率

如图8五种插值方法的插值结果在不同数据损失率美价值,数据丢失率较低(5%),和中值插值法和混合插值方法插值结果的绝对误差是最小的。然而,随着数据损失率上升,平均误差值插值方法明显上升,完全是高于其他四种插值方法。然而,混合插值法的美价值低于其他四种方法在不同的数据缺失率,从5%到30%,这个方法的优点逐渐增加与其他四个方法。当数据缺失率达到40%,该方法的优势减少,但梅仍然比其他方法低。

图9显示的RMSE值五种插值方法的插值结果在不同的数据丢失。当数据损失率约为30%或更少,权值的插值方法基本上呈现增加的趋势与损失程度的增加,和支持向量机(SVM)插值法和混合插值法的RMSE值低于其他方式,但RMSE值的混合插值方法的改变往往是更稳定。

图10展示了五种插值方法的误码率缺失数据插值的结果定性变量在不同数据率损失。混合插值法的结果总体错误率低于其他方式。范围在5%到40%的数据缺失率,混合插值法的错误率为定性变量基本上是小于或等于最小值的其他四个方法在数据缺失率,证明该方法是最好的填补缺失数据的定性变量。

5。结论和未来的工作

首先,基于平均插值插值混合机制,回归插值,支持向量机(SVM)插值,提出了多种插值,插值效果在不同数据损失率比较四种插值方法。实验表明,混合插值的列可以有效改善插值结果的准确性。其次,形成更合理的缺失数据处理方法的基础上,提出了混合插值机制由列和丢失的数据删除方法。

缺失数据的数据集,提出了一种基于特征的混合插值机理差异。在这种插值机制、有效的插值,回归插值,支持向量机(SVM)插值,选择和混合插值的基本方法。在缺失数据的插值,包含缺失数据的每个特性的模拟,优化方法选择相应的状态完成缺失数据插值。在这篇文章中,插值结果的准确性,这种插值机制在不同数据缺失率进行了分析。实验结果表明,在一定范围内,这种插值机制获得的插值结果优于其他插值方法,和数据缺失率越高,优势越明显。此外,缺失数据的删除方法和插值方法结合本文和专家知识的约束添加到使数据更加准确和科学。

仍有许多工作要做在缺失数据的处理:(1)考虑到数据的非随机缺失模型在未来的学习和研究;(2)考虑研究阿尔茨海默病的相同的纵向数据在一段时间内;(3)考虑更多的影响基本column-by-column混合插值方法插值方法。我们将进一步研究阿尔茨海默病数据的缺失值的处理方法,为临床诊断提供更准确的帮助。

数据可用性

本文的数据用于制备得到的阿尔茨海默病的神经影像学(ADNl)数据库(adni.loni.usc.edu)。因此,调查人员在ADNl导致ADNl的设计和实现,提供数据,但没有参与的分析或写报告。一个完整的清单ADNI调查人员可以找到的http://adni.loni.usc.edu。

的利益冲突

作者宣称他们没有关于本研究的利益冲突。

确认

这项研究是由中国国家自然科学基金青年基金项目(71701056)和黑龙江省博士后资助项目(LBH-Z15100)。

补充材料

在数据可用性部分,我们提供一个简短的补充数据描述。数据集提供下数据和表部分由于更大的文件大小。(补充材料)

引用

k·哈恩:迈尔斯,s Prigarin et al .,“选择性和脑功能网络的逐步破坏结构连接在阿尔茨海默氏症——揭示了小说框架来分析网络的边缘分布检测中断,并有很强的统计证据,”科学杂志,卷81,不。5,96 - 109年,2013页。视图:出版商的网站|谷歌学术搜索
k·d·m . Liu Cheng王,y,“多模级联卷积神经网络对阿尔茨海默病诊断,”Neuroinformatics,16卷,不。3 - 4、295 - 308年,2018页。视图:出版商的网站|谷歌学术搜索
彭译葶。凌晨,P.-T。狂吠,d . Zhang et al .,“识别MCI个人使用结构和功能连接网络,”科学杂志卷,59号3、2045 - 2056年,2012页。视图:出版商的网站|谷歌学术搜索
y y, m, l . Liu, j·王,“临床大数据和深度学习:应用程序,挑战,和未来的前景,”大数据挖掘和分析,卷2,不。4、288 - 305年,2019页。视图:出版商的网站|谷歌学术搜索
h . Zetterberg t Skillback:马特et al .,”协会脑脊液神经丝低浓度与阿尔茨海默病的发展,“JAMA神经学,卷73,不。1、60 - 67、2016页。视图:出版商的网站|谷歌学术搜索
c·d·雷曼r·d·Wellman d s m . Buist博士k . Kerlikowske a . n . a . Tosteson和d . l . Miglioretti”数字筛查性乳房x光检查和诊断准确性没有计算机辅助检测,”JAMA内科,卷175,不。11日,第1837 - 1828页,2015年。视图:出版商的网站|谷歌学术搜索
大肠,s . s . m . cheng w . Lu和x顾,“Birads features-oriented semi-supervised深度学习的乳房超声检查计算机辅助诊断,”物理学在医学和生物学,卷65,不。12日,2019年。视图:出版商的网站|谷歌学术搜索
h . Ramshini a . Ebrahim-Habibi s Aryanejad, a . Rad”效应的樟属verum母鸡形成淀粉样蛋白溶菌酶提取,在阿尔茨海默病研究的可能作用,”基础和临床神经科学》第六卷,没有。1,29-37,2015页。视图:谷歌学术搜索
即Ezzine和l . Benhlima”研究为大数据处理缺失数据的方法,”美国国会2018年IEEE第五国际信息科技(石柜)2018年10月,IEEE,马拉喀什,摩洛哥,。视图:出版商的网站|谷歌学术搜索
t . Iliou c n Anagnostopoulos说道,m . Nerantzaki”一种新的机器学习数据预处理方法,提高分类算法的性能,”学报》第16届国际会议上的工程应用神经网络(旅馆),页1 - 5,哈尔基季基上,希腊,2015年9月。视图:出版商的网站|谷歌学术搜索
萨瓦尔,z Ul-Qayyum, a . Kaleem“基于机器学习的智能数据预处理、框架”阿拉伯国际信息技术杂志》上,15卷,不。6,1010 - 1015年,2018页。视图:谷歌学术搜索
p . j . Garcia-Laencina J.-L。Sancho-Gomez, a . r . Figueiras-Vidal”缺失的数据模式分类:审查”,神经计算与应用,19卷,不。2、263 - 282年,2010页。视图:出版商的网站|谷歌学术搜索
张,“Shell-neighbor方法及其应用在缺失数据归责,“应用智能,35卷,不。1,第133 - 123页,2011。视图:出版商的网站|谷歌学术搜索
p·施密特,j·曼德尔和m . Guedj”的六个方法比较缺失的数据归责,“生物统计学和生物统计学杂志》上》第六卷,没有。1,2015。视图:出版商的网站|谷歌学术搜索
j .恩格斯和p . Diehr案中的理由,”污名失踪的纵向数据:比较的方法,”临床流行病学杂志卷,56号10日,968 - 976年,2003页。视图:出版商的网站|谷歌学术搜索
m .米色j·m·哈罗德·c·里德et al .,“如何处理丢失的纵向数据在阿尔茨海默氏症的疾病分析成本disease-suggestions从基拉观察性研究中,“BMC医学研究方法,16卷,不。1,p。83年,2016。视图:出版商的网站|谷歌学术搜索
c . Ribero和A . Freitas“数据驱动的缺失值归责方法纵向的数据集,”人工智能审查,2021年。视图:出版商的网站|谷歌学术搜索
诉Audigier、f·胡森和j . Josse”主成分方法推导出缺失值混合数据,”先进的数据分析和分类,10卷,不。1,5-26,2016页。视图:出版商的网站|谷歌学术搜索
a . MSefidian和n . Daneshpour”估计缺失的数据使用基于小说相关性最大化的方法,”应用软计算杂志,卷91,不。2、2020。视图:出版商的网站|谷歌学术搜索
m z伊斯兰教和m·g·拉赫曼”缺失值归责使用基于模糊聚类的EM方法,”知识和信息系统,46卷,不。822年,第422 - 389页,2016年。视图:出版商的网站|谷歌学术搜索
t . Chih-Fong f . y . Chang,“结合实例选择更好的缺失值归责。”系统和软件杂志》上,卷122,不。8,63 - 71年,2016页。视图:谷歌学术搜索
x, x c .赖,l .张”层次结构缺失值归责方法correlation-based再邻居,”智能系统和应用程序卷,1037年,页468 - 496。视图:出版商的网站|谷歌学术搜索
f . Lobato c销售,即Araujo et al .,“多目标遗传算法对缺失的数据归责,“模式识别的字母,卷68,不。8,126 - 131年,2015页。视图:出版商的网站|谷歌学术搜索
z张和y罗,”缺失的数据恢复方法基于相关性,空间结构应力监测”机械系统和信号处理卷,91年,第277 - 266页,2017年。视图:出版商的网站|谷歌学术搜索
江y . c, s .阴j . d .董和k . n . Okyay”回顾软传感器监测、控制和优化的工业过程,”IEEE传感器杂志,21卷,不。11日,第12881 - 12868页,2010年。视图:出版商的网站|谷歌学术搜索
江y和s .阴,“最近的进步关键绩效指标的预后和诊断MATLAB工具箱:db-kit,”IEEE工业信息,15卷,不。5,2849 - 2858年,2019页。视图:出版商的网站|谷歌学术搜索
i s p·玛丽和l . Arockiam”将丢失的数据很多基于时空相关性,”《IEEE国际会议上当前的趋势在先进的计算(ICCTAC),班加罗尔,印度,2017。视图:谷歌学术搜索
周t . m . Liu K.-H。Thung, d .沈,“潜伏表示学习阿尔茨海默病诊断与不完整的多模神经影像学和基因数据,”IEEE医学成像,38卷,不。10日,2411 - 2422年,2019页。视图:出版商的网站|谷歌学术搜索
l . x y . b . Liu粉丝,c .问:张先生,和t .周,“不完整的多模式表示为阿尔茨海默病诊断、学习”医学图像分析,69卷,2021年。视图:出版商的网站|谷歌学术搜索
美国,l .元,w .粉丝,y . Wang p·m·汤普森和j .你们,“双层的多源异构基于块学习缺失的数据,”科学杂志卷,102年,第206 - 192页,2014年。视图:出版商的网站|谷歌学术搜索
j . m . Liu, P.-T。废话,d .沈,“阿尔茨海默病的诊断使用view-aligned超图学习与多模不完整数据,”医学影像计算和计算机辅助干预- MICCAI 2016卷,9900年,第316 - 308页,2016年。视图:出版商的网站|谷歌学术搜索
t·周k h . Thung m . Liu f·史,张c, d .沈,“综合潜在空间诱导合奏SVM分类器为早期痴呆诊断神经影像数据,”医学图像分析,60卷,p。101630年,2020年。视图:出版商的网站|谷歌学术搜索
a . m .董李振国李,d . g .沈m . l . Wang和m . x刘”高阶拉普拉斯算子的多通道DementiaDiagnosis正规化低秩表示,“神经科学前沿15卷,2021。视图:出版商的网站|谷歌学术搜索
y . m . Liu高,P.-T。狂吠,d .沈,“Multi-hypergraph学习不完整的多峰性数据,”IEEE生物医学和卫生信息学杂志》上,22卷,不。4、1197 - 1208年,2018页。视图:出版商的网站|谷歌学术搜索
丽安,y, m . Liu y夏,d .沈,“Spatially-constrained费舍尔表示大脑疾病识别不完整的综合实验,”IEEE医学成像,39卷,不。9日,第2975 - 2965页,2020年。视图:出版商的网站|谷歌学术搜索
A . h . Baligh问:陈,雪,和m . j .,“混合GP-KNN归咎为符号回归缺失值,“人工智能的发展,卷11320,不。2、345 - 357年,2018页。视图:出版商的网站|谷歌学术搜索
e . Lsilva下午Rafae, l·c·曼纽尔”单一的归责与多层感知器和多个归责结合多层感知器和再邻居的单调模式,”应用软计算卷,29号9日,页。65 - 74。视图:出版商的网站|谷歌学术搜索
h . h . y . Wang, j.y.沈,“一种新型混合分形interpolation-SVM模型预测股票价格指数”分形,27卷,不。4、2019。视图:出版商的网站|谷歌学术搜索
m .斯库台湖、c . Vitolo和a·塔克”学习贝叶斯网络与贪婪搜索:大数据计算复杂度和高效的实现,“统计和计算卷,29号5,1095 - 1108年,2019页。视图:出版商的网站|谷歌学术搜索
http://adni.loni.usc.edu/。