文摘
脉冲指标对孤立点检测的饱和是一个流行的方法在时间序列建模中,它优于至少修剪广场(LTS), M-estimator, MM-estimator。然而,使用IIS横断面分析异常值检测方法仍然未知。在本文中,我们调查的可行性IIS横截面数据的方法。同时,我们感兴趣的预测性能和协变量选择在异常值的存在。IIS方法使用Autometrics技术来估计协变量和离群值作为协变量的数量 观察。除了Autometrics,正则化技术是一个众所周知的方法在高维协变量选择和预测分析。然而,IIS正则化技术方法的效率仍然未知。为此,我们探索正则化技术的效率样本外预测异常值的存在有6和4个标准差(SD)和正交协变量。仿真结果表明,竹荚鱼,MCP表现在预测和协变量选择4 SD Autometrics相比异常值(20%和5%)。然而,反是套索和AdaLASSO选择比竹荚鱼和MCP拥有更高的RMSE。总的来说,正则化技术拥有至少比Autometrics RMSE Autometrics拥有最少的平均指标的成本至少平均效能。我们使用COVID-19横断面收集的数据从2021年7月1日到2021年9月30日为实际数据分析。竹荚鱼和MCP选择c反应蛋白水平、性别和其他并发症住院的一个重要预测因子与最小的样本外的RMSE 7.45和7.50,分别。
1。介绍
普通最小二乘法(OLS)方法是一个广泛的选择可用的众多方法中回归分析的技术,因为它是计算简单,具有最佳线性无偏估计。然而,它具有很强的假设错误的分布( )称为 ( ),这通常是违反了在处理实际数据分析。失真的主要原因是局外人,违背了正常的假设剩余工资。边远的数据依赖和回归量变量构成的风险最小二乘回归,因为他们可能会产生负面影响估计,如果他们没有被报道。甚至横断面数据高质量包含异常值;然而,它是罕见的在经济时间序列数据(由于差分变量)(1]。
使用鲁棒回归技术显著异常的文学存在。朗格弗德和刘易斯(2)定义良好的离群值作为数据点,看起来与其余的数据不一致。这样有影响力的点经常隐藏从用户,因为他们并不总是出现在标准最小二乘残差图(3]。Zaman et al。1)表明,OLS残差在发现异常值是无效的和大样本量小,而Rousseeuw和勒罗伊(4]演示一些真实数据集的OLS残差小姐发现任何异常值,尽管重要的异常值。然而,提出了新的统计程序,不太容易受到异常值;Rousseeuw [5]介绍了主要可行健壮的回归估计(最小值广场(LMS),至少修剪广场(LTS)和变化)执行正确,即使大量的异常值。Huber M估计,MM估计,最小绝对值法(洗手间),和S估计是健壮的方法的例子(6- - - - - -8]。一个引人注目的技术是建立在胡贝尔M-estimators,提供位置参数的鲁棒性。遗憾的是,概括回归模型错过马克完成鲁棒性。作为Rousseeuw [5)所示,回归M-estimators同样有0%的故障值。MM-estimators同样不能达到大部分的概括分解值。直接稳健回归方法是使用LTS在巨大的残差分析。LTS分析丢弃边远的观察,然后可以运行一个标准的OLS回归,提出了Rousseeuw [5]。然而,去除过多的数据点在太多的离群值的情况下观察最终回归模型的风险并不是反映了计量经济学家协会想评估(1]。
相反,Doornik [9和约翰森和尼尔森10]说明饱和脉冲指标(IIS)作为一个健壮的估计量。同样,约翰森和尼尔森(10描述和证明一个split-sample indicator-saturated回归模型的估计量是一个迭代一步M-estimator两次。Doornik [9说明robustified最小二乘和饱和度指标比至少修剪广场更有效。当协变量是静态的,只离群值发生在因变量的数据,M估计很有效。脉冲指标饱和方法最初设计用于检测数量不明的异常值不定大小不确定点在示例中,一起开始和结束的观察(11]。然而,一步饱和度指标(SIS)方法是一个修改版的IIS多个中断检测的技术。饱和度指标(是)作为边界项检测离群值(通过IIS)和多个打破转变(通过SIS)同时估计底层建模(9- - - - - -13]。
作为候选人的数量是方法具有回归量数据点的数量,多OLS估计无法估计的模型。然而,Autometrics有效处理这种现象无论候选人解释变量超过观测的数量;由于这个原因,通过Autometrics估计方法是可行的。Autometrics使用扩展和收缩多路径搜索算法通过模型选择与指定的重要性水平的过程。然而,显著性水平的选择之间的权衡是无关紧要的和相关的假指标或解释变量,用严格的显著性水平(0.001)显著变量遗漏而最终模型,与0.05显著性水平,模型由无关的解释变量(13- - - - - -15]。
除了Autometrics,正则化技术是新兴技术当协变量的数量excel数据点的数量(观察);一些流行的技术绝对最小子集选择算子(套索)适应性套索,顺利剪绝对偏差(竹荚鱼),和极大极小凹点球(MCP) [16- - - - - -19]。然而,每隔几个研究比较Autometrics的计算效率与正则化技术(20.][21- - - - - -23为协变量选择和预测在常态下的假设。他们不考虑异常值与IIS设置。因为它是具有挑战性的选择意义的水平在Autometrics蓬勃发展的模型,可以使用正则化技术作为一种替代方法模型选择方法在这种情况下。最新的,主流的研究不比较正则化技术的计算效率和Autometrics横断面分析IIS设置例外。本研究旨在分析正则化技术的计算效率与IIS设置在横断面的现象。这些方法的计算能力和效能评估,评估,和样本外均方根误差(RMSE)仿真实验。仿真实验的数据生成过程(文章),我们选择与正交的解释和拥有三个场景5%,10%,20%外围观察4和6标准偏差(SD)。与此同时,在文章,为此我们摄入的正交情况下我们使用一些著名的正则化正交技术像套索,适应性套索,顺利剪绝对偏差(竹荚鱼)和极大极小凹点球(MCP) [16- - - - - -19]。
异常检测是一个飞速发展过程在医疗保健和医疗数据行业,关注的一个重要来源。Hauskrecht et al。24)研究数据驱动outlier-based监测和预警系统,利用数据前病人的病例。威尔逊et al。25)使用低血糖患者安全的异常识别方法,计算一个天赋异常值在一年之内,阈值比较器组和糖化血红蛋白在考虑风险的人口比例。Jyothi et al。26异常值检测用于医疗数据,关注医疗保险公司的一个主要来源。监督的异常检测方法的发展进行医疗索赔(SODAC)和两个部分。诺玛et al。27)为网络分析模型与遗失提供最佳效果的措施和适当的自由度的调整结果。IIS的真实数据应用横断面分析方法在医学及卫生保健与异常值不存在在当前文献[24- - - - - -30.]。探针IIS的疗效方法估计通过正则化技术真实数据技术,我们使用COVID-19横向监测数据,收集从2021年7月到2021年9月30日隔离医院和传染病治疗中心(IHITC)伊斯兰堡。我们的目标是分析因素与延长COVID-19患者的住院时间在首都伊斯兰堡的领土。
2。异常值检测和模型选择技术
2.1。饱和脉冲指标
冲动的孤立点检测的饱和度指标是一个流行的方法就像它已经占据支配地位的现有的离群值选择技术至少修剪广场(LTS), M-estimator, MM-estimator [9,10]。通常,在多元回归,我们假设误差正态分布,这通常是违反了在真实的数据分析。在下面的方程中,我们假设错误通常并不是不信任和的拦截模型,是连续的因变量,是正交的解释,在哪里 正交解释变量和的数量 观察。
在方程(1),错误不是正态分布,由于一个异类的存在;在这种情况下,IIS方法引入了一个脉冲仿真指示器的每个数据点,和上面的方程
在哪里
在这里,是一个单位矩阵的每个相应的观察在上面的方程。 , ,和 。OLS估计是不可行的估计上述广义无限制模型(口香糖)。估计上述方程是有可能的,因为Autometrics (general-to-specific上创建建模)是用于检测异常值和估算模型瞬间。general-to-specific方法,每个观测将有一个哑变量,可以认为额外的外生变量可能遇险因变量(10,12]。
2.2。模型选择方法
主要有两个领域的模型选择方法时则反是高于数据点的数量:正则化技术和古典(general-to-specific Autometrics)的方法。经典的方法(Autometrics)是由饱和模型,并使用多路径搜索过程消除协变量无关紧要。模型的选择主要依赖于预设阈值的意义。另一方面,稀疏适用于的正则化方法 - - - - - -维向量的参数,导致无数的协变量的参数等于零。这种方法解决了出现的问题,高维度。我们通过这些方法更进一步;然而,我们只看到了正交的正则化方法。
2.2.1。Autometrics
general-to-specific模型过程中,由胡佛et al。31日),结合几个组件Krolzig和亨德利(32]。PcGets是第二代general-to-specific方法的扩展;它延伸并澄清胡佛和佩雷斯的方法(32,33]。修改现有的技术,Doornik [9]介绍了Autometrics基于相同的一般专业(变得)建模的概念。Autometrics第三代算法基于同一PcGets的概念。
Autometrics采用树路径搜索,包括多步简化沿着几个途径。口香糖包含所有反是起初使用OLS估计他们技术,消除统计协变量无关紧要;紧凑的模型的可靠性测试在每个阶段保证一致性的测试诊断。Autometrics雇佣了一个树路径探索策略,涉及多个多步简化。最终的模型构造,用树路径方法和评估使用筛选过程;参数会自动消除,如果参数估计在统计上是无关紧要的。Autometrics工会重新测试一次大量的终端模型被发现。形成一种新型口香糖“幸存”终端模型合并后,允许另一个树路径搜索重复。整个搜索过程完成后,重新审视终端模式及其合并。如果大量的模型通过所有的测试,最后的决定是由指定的信息标准。
测试诊断被用于确保简单模型,而包容的测试是用来解决几个终端模型。mr Epprecht et al。20.)认为Autometrics是一种黑盒技术。在开发建模技术,用户可以选择在1-cut和紧凑的显著性水平和名义上的显著性水平。Autometrics标识多个中断/异常值的多路径技术更有效地降低了估计量方差(34]。多路技术消除了路径依赖采用树结构,都逐步向后顺序,得到包的一个积分函数R软件(15]。
2.2.2。正则化技术
除了Autometrics,正则化方法处理饱和模型无关的变量即使解释变量的数量excel数据点的数量(观察),减少无关的参数几乎为零的偏差估计。绝对最小的收缩和选择算子(套索),Tibshirani推出了17]。它是一个标准的评估方法在线性回归框架由于其降低了计算成本。套索不持有一个oracle财产;邹(19提出了自适应套索。正规化点球中定义
在上面的方程中,是一个连续的因变量,是一个正交协变量,是离群值的脉冲假。下面的正则化技术为罚函数考虑不同的选择,这是总结表1。
“惩罚”套索估计是随后的术语在前面的方程,它启动一个稀疏的解决方案非常精确的参数完全相当于零通过一个特定的偏见。的选择确定的数量减少,它不同 。
邹(19)透露,套索方法违反了oracle属性,提出了自适应套索温和而有效的选择。另一方面,套索的系数是完全处罚同样在“点球。“然而,AdaLASSO方法,个别参数分配自己的体重。邹(19]表明,如果正确视数据和设置权重,AdaLASSO可能最好的结果和展览甲骨文属性。
, ,和是一个初步的参数估计。相关参数的权重方法无穷随着样本的增加,而相关参数的方法一个有限的常数。邹(19)建议使用OLS估计技术 。另一方面,OLS方法不工作就候选人的数量解释变量excel数据点的数量(观察)。岭估计可能被用作初步估计在这个场景中。
风扇和李16]介绍了一种新的方法,满足无偏的条件,稀疏,和连续性称为顺利剪绝对偏差(许多)。
不同的套索,竹荚鱼使用了两个调优参数和 ; 许多方法被称为折叠凹点球这取决于nonmultiplicative方式;因此, 。此外,调优参数影响刑罚的凹面。目标函数的增强是由和 , 通过交叉验证和被选中固定等于3.7 [16]。
张(18)提出了极大极小凹点球(MCP),非凸正则化方法,使用备件区指定的阈值的选择来产生无偏估计。
MCP雇佣的 正则化的途径,这是建在一个家庭通过两个凸惩罚函数的调优参数和 ,而是恒定的,通过交叉验证选择。的调优参数调节点球萎缩的程度和凹性。因为最大凹度最小化,MCP最小化备件在更大程度上的凸性(18]。竹荚鱼和MCP估计以来折叠凹点球的家庭罚函数既不凸或凹。
2.2.3。选择标准的调优参数
调优参数的选择至关重要,因为它决定了选择模型的并发症。选择合适的调优参数的结果在一个紧凑的模型准确预测性能。为了实现预测最优性,调优参数通常选择交叉验证技术。目的是获取主稀疏协变量的集合。协变量的选择通常需要更多实质性的惩罚参数最优预测(35]。标准的信息如Akaike信息标准(AIC)或贝叶斯信息准则(BIC)作为惩罚的可能性的另一种方法通过拟合模型的自由度。自由度经常用来测量模型的复杂性,我们可以使用它们来决定利用多少正规化。同时,协变量的选择和样本外预测,WLAdaLASSO BIC-based调优参数具有最佳的结果(23,36]。
而 和说明拟合模型的自由度。BIC-based调优参数,另一方面,优越为协变量选择交叉验证,虽然没有理论依据(35]。从今以后,BIC-based调优参数用于异常值和协变量选择模拟和实际数据分析。
2.3。理论评估
这项研究的目的是评估的样本外预测性能正则化方法的局外人在IIS设置。然而,样本外RMSE以外,我们还强调平均指标和效力仿真研究。计的定义是多么微不足道的经验零保留频率变量/异常值保留,而能力是正确确定为协变量/离群值识别。正则化方法和自动化的评估是评估通过准确识别作为力量和不当0识别表示计(37]。如果适当地考虑技术分类模型,随后参数的评估应该预期:(1)计是接近显著性水平(0.05)或紧显著性水平(0.01或0.001) (2)当估算技术被用来估计的模型有效,效力方法1
对于样本外RMSE,我们随机训练模型观测的90%,和10%的观察被丢弃的测试模型的准确性的RMSE [23]。的RMSE正则化技术,即使在一个异类,预计将比Autometrics小。然而,套索会保留更多的回归量比许多变量,MCP, Autometrics。
3所示。数据生成过程和仿真实验结果
数据生成过程(DG)在这一节中选择[9]无关的模型由解释变量和离群值。我们认为文章还分散在5%,10%,和20%的观察,这是不同于Doornik [9),因为它已经说明20%最后离群值的观察与系数等于6级静态文章,文章可以被定义为的地方
在哪里 而等于10,其余其他的β系数等于零,然后呢 与 观察。的解释变量 和 ,而偏远的观察等于5%,10%,20%和6 SD 4 SD的误差项。估计上面的文章中,我们使用广义无限制模型(牙龈),介绍一种脉冲模拟为每个模型中观察指标。实验重复1000次。
3.1。仿真实验结果
比较下评估场景为5%,10%和20%分散与6 SD和4 SD异常值。glmnet包R软件用于估计套索和AdaLASSO。MCP和竹荚鱼估计,我们使用R的ncvreg包;ncvreg包使用坐标下降算法,而对于Autometrics我们使用了包r达到我们的研究目的,我们使用一个静态的文章还从Doornik正交协变量和假饱和指标选择9]。它提供了一个方便的基础比较正则化技术和Autometrics异常值的存在。模拟场景中获得的结果表2。表2说明了平均指标和效力Autometrics和正则化技术;然而,RMSE样本外预测误差提出了如下。我们使用汽车作为Autometrics的缩略词表和数据,以及计算效率Autometrics与0.05和0.01显著性水平评估。
表2演示了正则化方法的结果与Autometrics协变量选择和孤立点检测在效力和衡量。结果表明,20%和6 SD例外,Autometrics平均所有现有技术力量表现较差。相反,套索拥有最高计和正则化技术之间的效力。与此同时,竹荚鱼和MCP完成类似的性能平均指标和效力。仿真结果指定为离群值比例降低至10%,考虑方法的性能增加平均效能。然而,竹荚鱼,MCP的性能改进与评估和效力。5%的外围观察,认为技术进一步提高。竹荚鱼和MCP估计保留60%的平均力量平均指数等于5%。
在表3,结果表明,20%和4 SD异常值,Autometrics执行更糟糕的是所有现有技术中平均效能;然而,竹荚鱼的平均力量和MCP和6 SD异常值相比大大增加。平均效能的同时,显著提高正则化技术与4 SD离群值一直在观察6 SD,而平均指标的性能是一样的在这两个老年人。相反,套索拥有最高的测量和效力在正则化技术,类似与6 SD异常值。套索和竹荚鱼相比,大幅MCP执行计等于0.095和0.114的竹荚鱼离群值5%。仿真结果表明,随着离群值比例降低至10%,考虑正则化方法的性能降低平均效力,而平均指标仍类似于20%离群值。
总体而言,仿真结果表明,与4 SD和离群值5%外围观察正则化技术执行比6 SD异常值的平均力量,而正规化的平均测量技术与6 SD低于4 SD离群值。Autometrics拥有最少的平均指标在所有情况下(5%、10%和20%,6 SD和4 SD)最小的平均的速度力量在所有被认为是技术。相比之下,套索具有最高的效力和衡量其他方法。
数据1- - - - - -3代表的样本外预测性能考虑的方法。图表说明套索的RMSE平均误差20%和10%离群值观察至少在所有被认为是技术。结果与现有文献套索拥有最少的预测误差和选择一个更无关紧要的回归量(可以观察到从表1)[38]。然而,不到5%的离群值的观察,竹荚鱼,MCP拥有最少的RMSE 3.03比所有其他技术,甚至不到Autometrics。我们发现Autometrics异常值具有至少5%计,但保留RMSE高于竹荚鱼和MCP。Autometrics 0.05显著性水准具有最少的RMSE比0.01水平的意义,这一事实与0.01显著性水准省略了相关解释变量Autometrics从而增加平均均方根误差。
有明显改善,平均RMSE 4 SD异常值与5%和20%相比,6 SD异常值与5%和20%。这种差异可以合理的5%和4 SD异常值,平均效能高(意味着方法正确识别正确的变量/仿真指示器)相比6 SD,最终影响样本外RMSE,和相同的模式可以观察到20%的异常值和6 SD平均效力至少是由于这个原因样本外RMSE增加。然而,20%的平均力量异常值与4 SD接近1正则化技术;由于样本外,RMSE正则化技术相比,至少6 SD,如图3。相反,正如4 SD和10%和6 10%和SD异常值,平均效力的性能考虑的方法是一致的,因此,平均RMSE几乎类似的观察图2。
4所示。实际数据分析
冠状病毒疾病2019 (COVID-19)是一个全球疫情引发的冠状病毒2,起源严重急性呼吸道疾病(SARS-CoV-2)。世界卫生组织宣布2020年3月COVID-19流感大流行。与此同时,报告确诊病例数在全球范围内已经504079039年,2022年4月20日和6204155人死亡(https://covid19.who.int)。然而,巴基斯坦不是在列国中数量最的COVID-19病例和死亡人数。该最初病例的COVID-19在巴基斯坦被确认在2月25日,2020年。2022年4月20日,1527411 COVID病例被报道,有30364人死亡(https://covid19.who.int/region/emro/country/pk)。
冠状病毒肺炎(COVID-19)是一个全球卫生紧急状态,因为它的快速传输和高死亡率(39]。SARS-CoV-2的临床和生理特征,以及诊断方法,研究了世界各地的(40]。这大流行期间,科学家和医生在病人护理面临全球性挑战和合适的处理技术,包括创建一个有效的疫苗。不同诊断指标诊断中发挥了重要作用和控制SARS-CoV-2病人的状态(41]。c反应蛋白(CRP)水平可以作为生物标志物来帮助诊断肺炎早期,和个人有严重肺部感染增加了c反应蛋白水平(42]。COVID-19有更高的患者血清c反应蛋白(CRP)水平,用于帮助分类,诊断,疾病的预后(43]。这个分析的目的是调查住院时间之间的关系和CRP水平,性别、年龄、糖尿病、病人放电状态和其他并发症与医院有关部门许可和同意,患者的隐私。数据搜集自隔离医院和传染病治疗中心(IHITC)从2021年7月至2021年9月30日在伊斯兰堡。共有275名患者同意加入在7月和9月之间的研究。所有的病人承认他们属于拉瓦尔品第和伊斯兰堡的地区。为每个单独的我们提取信息,包括年龄、性别、糖尿病状态、并发症、住院时间、c反应蛋白水平,病人放电状态。图4说明了考虑变量的关联图;这表明之间的正相关住院和CRP水平相关性= 0.2和-0.1负相关和其他并发症。然而,病人的生存和年龄与住院时间呈正相关,相关性等于0.2和0.1,分别。图5说明了住院的箱线图。它表明,住院= 1的最小长度和最大41岁,住院是因变量,包含一个异类,如图5。此外,线性回归的残余阴谋呈现在图6证实了异常值的残差模型。对于样本外预测,我们随机训练模型90%的观察(233)和验证10%的观察(26)23,44,45]。
确认后的离群值的数据集,估计模型与IIS方法定义
表4表明竹荚鱼和MCP执行同样的协变量选择、性别、c反应蛋白水平,和其他并发症是重要的变量增加住院时间。然而,许多选择28异常值,MCP选择31略高于竹荚鱼。
真正的数据分析证实,套索估计更多的协变量和离群值比其他正则化技术,符合我们的仿真结果。套索选择四个超过选择通过竹荚鱼和MCP反是。Autometrics协变量意义选择两个5%和14离群值。AdaLASSO Autometrics和1%的意义不选择任何协变量,只保留离群值。总的来说,真实的数据分析表明,性别、c反应蛋白水平,协变量和其他并发症意义重大。这些指标假人可以解释为个人的观测到的异质性,延长住院时间长度。我们报告的RMSE正则化技术在图7。
上面的图表明,竹荚鱼和MCP超越样本外RMSE相比其他技术。正如所料,套索选择假人更多的指标和留存RMSE高于竹荚鱼和MCP。0.01(的意义),Autometrics拥有最高的RMSE相比,所有其他技术因为它下降相关协变量模拟发现与现有的研究(20.,23]。Autometrics严格意义水平省略了相关变量由于RMSE增加(如从仿真图形观察和表)。相比之下,名义上的显著性水平(0.05),RMSE Autometrics拥有高于正则化技术。
5。结论
在横截面数据分析,异常发生最频繁的时间序列分析,虽然在医疗和孤立点检测是一个快速操作医疗数据,这是关心的一个重要原因。整体分析表明,正则化技术执行更重要比Autometrics样本外预测和协变量选择在模拟和实际数据分析。然而,IIS方法估计通过竹荚鱼和MCP妥协有前途的协变量选择和预测结果在正则化技术。正则化技术有20%和4 SD异常值具有更高的平均指标和6 SD 20%。相反,5%和4 SD离群值的正则化技术具有更高的平均计5%和4 SD离群值。总的来说,4 SD异常值,样本外RMSE比6 SD是最优的。
相反,套索估计更多的异常值和协变量比其他正则化模拟实验和真实的数据分析技术。真正的数据分析证实了仿真发现,竹荚鱼,MCP拥有最小样本外RMSE Autometrics和套索。真正的数据分析表明,竹荚鱼,MCP选择三协变量,性别、c反应蛋白水平,和其他并发症,具有至少RMSE。真正的结果与仿真结果一致竹荚鱼和MCP保留最高效力和RMSE Autometrics相比。相比之下,套索拥有最高的计模拟研究相比,认为技术;实分析的发现是一致的,因为它保留了最高的离群值。的概念是孤立点检测的方法在横断面分析将有助于保护未被注意的异质性在横断面的分析中,也同时下降的RMSE估计模型。我们的研究证明了IIS孤立点检测和协变量选择方法估计通过竹荚鱼和MCP给出更精确的结果比Autometrics正交协变量和离群值存在。
数据可用性
可以根据要求提供数据。
的利益冲突
作者宣称没有利益冲突。