应用计算智能和软计算

在这一页上

文摘介绍相关工作结论引用版权相关文章

研究文章|开放获取

体积2016年| 文章的ID7658207| https://doi.org/10.1155/2016/7658207

预测有缺陷的软件模块使用类不平衡学习

迪夫喝 ¹ 和Sonali阿加瓦尔¹

学术编辑器: 张艺谋

收到了 2015年11月17日

接受 2016年1月19日

发表 07年2月2016年

文摘

软件缺陷预测是有用的保持有效高质量的软件产品。有缺陷的早期预测软件模块可以帮助软件开发人员分配可用的资源交付高质量的软件产品。软件缺陷预测系统的目的是为了发现尽可能多的缺陷软件模块而不影响总体性能。学习过程的软件缺陷预测是困难的因为不平衡分布的软件模块之间的缺陷和无缺陷的类。误分类有缺陷的软件模块的成本通常比良品的误分类会带来更高的成本。因此,在考虑误分类的成本问题,我们开发了一个软件缺陷预测系统使用加权最小二乘法双子支持向量机(WLSTSVM)。这个系统分配更高的误分类代价缺陷类的数据样本和更低的成本数据样本的无缺陷的类。实验八软件缺陷预测数据集已经证明了提出的缺陷预测系统的有效性。结果的意义已经测试通过使用非参数统计分析由魏克森讯号等级测试。

1。介绍

软件开发生命周期(SDLC)包括五个阶段:分析、设计、实现、测试和维护阶段。这些阶段应该有效地经营,以提供bug和高质量的软件产品的最终用户。开发一个软件产品没有缺陷是一个非常具有挑战性的任务由于发生未知错误或不可预见的缺陷即使所有仔细遵循软件项目开发的指导方针。有缺陷的早期预测软件模块帮助软件项目经理有效地利用资源,如人,时间,预算开发高质量的软件(1- - - - - -4]。确定有缺陷的软件模块是软件行业的一个主要关注的问题,进一步促进软件进化和维护。软件项目经理、质量经理、软件开发人员监控,检测,并修正软件缺陷在软件开发生命周期的所有阶段,以提供高质量的软件,并在预算之内。一个软件产品的质量与缺失或存在高度相关的缺陷5,6]。软件缺陷是发生错误或缺陷的软件过程由于不正确的编程逻辑,沟通的需求,缺乏编程经验,可怜的软件测试技能,等等。有缺陷的软件模块生成错误的输出质量差,导致软件产品进而增加开发和维护成本,负责客户的不满1,2]。在近二十年来研究人员专注于软件缺陷预测问题通过应用一些统计和机器学习技术。软件缺陷数据遭受类不平衡问题的偏态分布缺陷和无缺陷的软件模块7- - - - - -11]。主要是机器学习算法考虑相同分布的数据样本在每个类和假设每个类的误分类代价同样重要。然而,少数类样本数据的误分类代价高于多数类的样本数据在大多数情况下(12]。软件缺陷预测,预测缺陷的软件模块作为良品可以增加维护成本的和相反的情况下,无缺陷的模块被认为是缺陷包括不必要的测试活动。但后者比前者通常更容易接受。因此,本研究工作的目的是考虑到不同误分类的每个类成本的有效预测有缺陷的软件模块。

软件缺陷预测问题需要一个二进制分类器,因为它是一个两级分类的问题。近年来,许多非平行超平面支持向量机(SVM)分类器被研究者提出的二元分类(13- - - - - -15]。例如,Mangasarian和野生提出了一个广义特征值近端支持向量机(GEPSVM),这是第一个不平行超平面分类器,它的目标是找到一双不平行超平面,这样每一个超平面最近的两个类和尽可能从其他类(16]。GEPSVM显示性能优良和几个基准数据集尤其是“Cross-Planes”数据集。之后,利用传统的SVM和GEPSVM的概念,Jayadeva等人提出了一种基于非平行超平面的新颖的二元分类器,称为TWSVM [13]。TWSVM已经显示出更好的性能比支持向量机(SVM)和其他分类器不仅预测准确性方面还的时间13,14]。均匀分布的类,TWSVM的训练过程是支持向量机的四倍,因为它解决了两个较小的二次规划问题(QPPs)而不是一个复杂的QPP SVM。TWSVM寻求两个非平行超平面一个用于每一个类,这样每一个超平面内仍密切关联的相应的类时尽可能从其他类。尽管TWSVM分类器比传统的支持向量机,但它需要解决的两个QPPs这是一个复杂的过程。因此,Arun Kumar和Gopal提出了一个二元分类器被称为最小二乘双子支持向量机(LSTSVM),解决了两个线性方程而不是两QPPs TWSVM [17]。它是双胞胎的变异最小平方支持向量机(TWSVM)。LSTSVM显示其有效性在TWSVM而言更好的泛化能力和较小的计算时间。因此,本研究采用了LSTSVM分类器在软件缺陷预测模块。本研究以误分类考虑成本问题,提出了一种加权最小二乘双子支持向量机分类器来开发一个软件缺陷预测系统,认为误分类代价为每个类。实验八软件缺陷预测数据集来自承诺库证明我们提出系统的优越性在现有方法,包括支持向量机(SVM),敏感的神经网络(CBNN),加权朴素贝叶斯(NB),随机森林(RF),逻辑回归(LR),最近的邻居(神经网络),贝叶斯信念网络(BBN), C4.5决策树,最小二乘双子支持向量机(LSTSVM)。提出了软件缺陷预测系统的有效性也被进行了分析通过使用非参数魏克森讯号等级假设测试。统计推断是由观察到的不同几何平均数。

本文分为五个部分。部分2总结了相关工作领域的软件缺陷预测和类不平衡学习。部分3讨论了拟议的软件缺陷预测方法。提出了实验的结果和讨论部分4并在部分得出结论5。

2.1。类不平衡学习

在数据分布不平衡,一个类包含大量的数据样本(多数类)比其他类(少数类)。传统分类算法假设之间均衡分布样本数据类。失衡的程度不同的问题领域到另一个和正确的类的预测数据样本在一个不同寻常的阶级比相反的情况更重要。在软件缺陷预测问题的情况下有缺陷的软件模块与无缺陷的软件模块。这种类型的问题,软件开发人员更加关注于正确的识别有缺陷的软件模块。未能识别出有缺陷的软件模块可以降低软件质量。因此,一个软件缺陷预测可能是有益的,如果它正确地认识到有缺陷的软件模块。

类不平衡学习是学习的过程不平衡数据集(18]。不平衡数据学习的挑战是不寻常的类不能平等注意学习算法相比,大多数类。不平衡数据集的学习算法生成特定的或失踪的分类规则不寻常的类(18- - - - - -20.]。这些规则对看不见的数据不能很好地推广,因此不适合未来的预测。

各种解决方案推荐的人员来处理类不平衡问题数据级别,算法层面上,和降低成本的解决方案。在数据层面的解决方案,培训数据操作类间平衡的分布数据为目的的整流类失衡的影响通过使用不同重采样技术,如随机采样过密,随机采样,击杀,告知欠采样,基于集群抽样20.- - - - - -27]。数据级解决方案更通用的性质,因为它们是独立的学习算法。在算法级解决方案,客观的学习算法修改他们的培训机制来实现更好的准确性少数类。看到下面成了一个学习方法如雷和开膛手是用来预测少数类的样本数据(28]。集成学习方法已经被研究人员使用不平衡数据的处理。在这种方法中,一组分类器被用于学习和他们的输出相结合,以预测新数据样本的类。增加,随机森林,演算法。数控,SMOTEBoost等等是集成学习方法的例子(29日]。厂商学习方法考虑不同误分类代价为不同的类,这样少数类样本数据的重要性。厂商厂商厂商决策树,神经网络,提高Adacost等方法研究人员提出的一些方法来处理类不平衡学习问题(30.- - - - - -33]。成本函数也被结合支持向量机和贝叶斯分类器。

2.2。软件缺陷预测

研究者极大的兴趣在使用统计软件缺陷预测问题和机器学习算法,如神经网络,支持向量机,朴素贝叶斯、随机森林,基于案例推理、逻辑回归,关联规则挖掘34- - - - - -40]。k . o .所知和m . o .所知研究支持向量机预测的能力有缺陷的软件模块和分析其性能对一些统计和机器学习方法四NASA的数据集37]。Czibula等人开发了一个系统来识别缺陷的软件模块使用关系的关联规则挖掘关联规则的延伸(38]。关联规则是用来确定不同类型的缺陷预测指标之间的关系。Challagulla等人有各种机器学习方法的性能进行了评价和统计模型在四个软件缺陷预测数据集来自NASA库预测软件质量(41]。从实验中,分析了1法则相结合的分类和基于实例学习公司一致性子集评价方法实现最高的缺陷预测精度比其他方法。郭等人提出了随机森林,这是决策树的延伸,对于识别缺陷的软件模块(39]。他们表现实验五个案例研究基于NASA的数据集,将他们提出的方法的性能与WEKA的统计和机器学习方法和机器学习See5包。他们得出的结论是,随机森林算法产生了更高的缺陷预测率比其他方法。Moeyersoms等人使用数据挖掘方法如随机森林,支持向量回归,C4.5和回归树(42]。他们有执行规则提取技术应用于提高精度方面的规则集,忠诚,和回忆。Okutan和Yıldız开发了一个软件缺陷预测模型,利用贝叶斯网络(43]。这个模型决定了软件度量的概率有影响力的关系与defect-prone软件模块。贝叶斯网络是一种应用最广泛的方法来分析面向对象度量的缺陷数量的影响(43- - - - - -48]。Pai和Dugan KC1实验项目执行从NASA库使用贝叶斯网络(47]。芬顿等人使用贝叶斯网络预测缺陷,软件系统的质量和风险(48]。他们分析了影响信息的变量,比如测试有效性和缺陷出现在目标变量缺陷检测。Catal和Diri调查数据集大小的影响,指标和特征选择的预测上有缺陷的软件模块(49]。他们已经进行了五个数据集实验和分析,随机森林(RF)的算法获得了更好的性能在大型数据集朴素贝叶斯的表现要好于小数据集相比,RF。再次他们利用人工免疫系统(AIS)算法分析指标集的影响。人工免疫识别系统(AIRS2Parallel)表现得更好的方法级指标Immunos2算法与类级指标显示了更好的结果。他们发现软件缺陷预测的算法组件更重要比度量套件。除了这些基本的分类方法,一些优化方法,如遗传算法、粒子群优化(PSO),和蚁群优化(ACO)也被应用到软件缺陷预测问题50- - - - - -52]。

不平衡分布的缺陷和无缺陷的软件模块导致表现不佳的机器学习方法。类之间的平衡数据样本的分布,不同的解决方案,比如过采样和采样方法已被研究人员应用。asrar和厂商提出了一种基于神经网络的缺陷预测系统与客观处理类不平衡问题(53]。人工蜂群算法用于寻找最优权重。他们一直在调查他们的建议的方法的性能五公开可用的数据集来自NASA库。郑认为不同误分类代价和厂商开发了一个软件缺陷预测模型通过提高神经网络(8]。Khoshgoftaar和高数据采样和特征选择的影响研究软件缺陷预测数据集(10,54]。他们使用基于包装器的特征选择方法选择相关特性和随机采样,减少负面影响的不平衡数据软件缺陷预测模型的性能。小王和姚明进行不平衡数据的影响学习软件缺陷预测模型(7]。他们在十公开可用的身上进行实验数据集从承诺库与不同类型的类不平衡重采样等学习方法,整体的方法,和阈值。从实验中,发现演算法。数控显示比其他方法更好的性能。京等人使用字典学习方法,提出了一个敏感的区别的字典学习(CDDL)为基础的软件缺陷预测模型。他们的性能分析模型在十NASA数据集(55]。

除了这些研究,各种研究已经完成使用数据挖掘技术在预测软件缺陷。研究人员还分析了指标识别defect-prone软件模块的影响。他们关注的是相关的度量标准的选择这是有用的缺陷预测(52,56- - - - - -62年]。从文学,我们分析了数据挖掘在预测软件缺陷中扮演着至关重要的作用。用于缺陷预测的数据集是高度不平衡在本质上是有缺陷的软件模块的数量通常是低于无缺陷的软件模块。因此,本研究工作的重点是失衡的性质软件缺陷预测数据集以得到有效的结果。

3所示。加权最小二乘双子支持向量机

只有很少有研究认为有缺陷的误分类成本和无缺陷的软件模块。本研究工作使用加权最小二乘法双子支持向量机(WLSTSVM)开发有效的软件缺陷预测模型不同误分类代价或重量分配给每个类根据样本分布。让训练数据集包含”“数据样本,在那里,表示特征向量代表相应的类标签。假设1类和2类的大小和相应的,。让矩阵和包括数据的样本类1和2班,分别。适当的选择考虑的成本是一个重要的问题。每个类的重量或误分类代价决定按照下列公式: 以下的结论可以从上述公式:(1)成本是0到1的范围内,也就是说,这样可以训练分类器融合。(2)成本是归一化不失一般性。(3)降低误分类成本分配给大多数类虽然少数类接收更高的误分类代价。线性和非线性WLSTSVM分类器是制定如下。

3.1。线性WLSTSVM

最小二乘双子支持向量机(LSTSVM), Arun Kumar和Gopal,提出的是一个二元分类器,分类两类的样本数据为每个类生成超平面(17]。超平面构造在这样一种方式,每个类的样本数据在相应的近距离超平面,同时保持清晰的分离超平面。对于每一个新的数据样本,从每一个超平面距离计算和数据样本分配到类位于接近它。加权最小二乘法得到双子支持向量机通过增加体重或误分类代价LSTSVM根据公式(1)。线性WLSTSVM解决以下两个目标函数: 确定以下两个非平行超平面: 在这里,和两个超平面的法向量和吗和是偏见。和代表非负惩罚参数。和1的向量和吗,是松弛变量。和代表了对角矩阵包含数据样本的误分类代价类2类1,分别根据(1)。第一项中所示的目标函数(2)措施的平方之和的距离数据的样本类1。它使的最小化在近距离超平面类1。第二项目标函数最小化的误分类错误的样本数据类2。因此,以这种方式保持超平面附近的样本数据类1和尽可能的从数据样本的类2。相对应的拉格朗日函数(2)是由在这里,是拉格朗日乘数。后Karush-Kuhn-Tucker(马)必要且充分的最优性条件是由微分(5)对,,,: 方程(6)和(7)导致让,,。有了这些符号,(10)可以写成上述方程的解决方案需要逆。然而,有时它是不可能确定它由于坏心肠的矩阵的逆。为了避免这种情况,一个正则化项可以添加到吗。在这里,和是一个单位矩阵的合适的尺寸。方程(11)可以写成拉格朗日乘数是由(8),(9)和(11), 同样,拉格朗日函数(3)获得在这里,是拉格朗日乘数。相对应的超平面参数二班获得了通过求解上述方程(14), 超平面参数获得使用(11)和(15进一步用于确定非平行超平面),每个类。一个类被分配给新的数据样本根据飞机接近它。类评价的决策函数被定义为

算法1。(1)为每个类定义权重矩阵(缺陷或良品)使用(1)。(2)获取矩阵和在矩阵和软件模块组成的缺陷和无缺陷的类,反之亦然。(3)选择惩罚参数验证的基础上。(4)确定超平面参数使用(12)和(15),进一步用于确定每个类的超平面。(5)新软件模块的类(它是有缺陷的或不)是由使用决策函数所提到的(17)。

3.2。非线性WLSTSVM

非线性WLSTSVM获得通过使用内核的把戏。核函数将数据样本映射到高维特征空间,使更容易分离。WLSTSVM分类器生成以下内核空间,而不是超平面的表面: 在这里,””是一个适当的内核函数和选择。非线性WLSTSVM构造分类器让和。内核生成的表面获得的参数这些参数生成内核表面和分配给新的数据样本的类是根据其内核表面的距离。被定义为的决策函数非线性WLSTSVM分类器的算法类似于线性WLSTSVM分类器除了需要选择一个核函数。核函数将样本数据转换为高维特征空间,然后内核生成表面参数计算使用(20.)和(22)。分配给新的数据样本的类是使用(24)。

4所示。数值实验

4.1。数据集描述和性能度量

在这项研究中,我们已经完成了八个实验基准数据集来自承诺库(63年]。这些数据集是NASA MDP的软件项目开发的C / c++语言飞船仪表,卫星飞行控制,科学数据处理和地面数据的存储管理。每个数据集的详细描述在表1。

不平衡比率代表的比例多数类(无缺陷的软件模块)与少数类(有缺陷的软件模块的数量)。很明显,软件缺陷预测数据集在本质上是不平衡的,有缺陷的软件模块的数量少而无缺陷的软件模块的数量。21岁的简要描述常见的基本软件度量从四十指标选择等八个缺陷预测数据集行代码,圈复杂度,体积,困难,还提供了一些操作符和操作数在表2。更详细的描述关于NASA的其他指标或信息数据集可以从[获得63年]。

绩效评估模型,提出了软件缺陷预测系统如图1。

真正的预测(真阳性(TP)或真阴性(TN))是指数量的软件模块正确地预测良品或有缺陷的软件模块。而错误的预测(假阳性(FP)或假阴性(FN))显示软件模块的数量是错误地认为是有缺陷的或无缺陷的软件模块。提出的软件缺陷预测模型的性能评估使用几何平均。几何平均数(提出的意思)是一个绩效评估指标库巴特和Matwin二进制类分类问题(64年]。它通常是用来评估分类器在数据分布不平衡情况下的性能。它措施平衡性能的软件缺陷预测方法。的意思是通过几何平均数计算的敏感性和特异性,如下所示: 敏感性或召回和特异性被定义为我们也提出了软件缺陷的性能相比使用精度和预测定义为测量

4.2。参数选择

拟议中的WLSTSVM标识符用于软件预测有两个点球参数和。在本研究中,我们分析了惩罚参数对性能的影响提出了系统用于问题(13)和(16)。分类器的性能会影响这些参数的选择。本研究利用网格搜索方法为最优参数选择。惩罚参数选择从以下范围:,。图2显示了这些参数的影响意味着KC1提出软件缺陷预测系统,KC2 CM1, PC4数据集。从图中,很明显,该系统显示更好的性能在高价值和参数(,,KC2数据集。CM1数据集,该系统实现了几何平均的最高价值高的价值和低的价值参数(,)。KC1数据集,WLSTSVM收益最高的价值高的几何平均数和参数(,,)。另一方面,对于KC1数据集,提出了缺陷预测得到更好的价值较低的几何平均数和参数(,,)。这是观察到的这些参数的影响意思是不同的每个数据集和适当的选择这些参数可以提高软件缺陷预测系统的性能在很大程度上。因此,有必要适当的结合其他数据集也因此这些参数的软件缺陷预测系统可以实现更好的预测性能。

(一)KC2

(b) CM1

(c) KC1

(d) PC4

4.3。结果比较和讨论

提出了软件缺陷预测的性能与现有方法相比,包括支持向量机(SVM),敏感的神经网络(CBNN),加权朴素贝叶斯(NB),随机森林(RF),逻辑回归(LR),最近的邻居(神经网络),贝叶斯信念网络(BBN), C4.5决策树,最小二乘双子支持向量机(LSTSVM)。所有这些方法都是在MATLAB中实现R2012a Windows 7系统与英特尔酷睿处理器(3.4 GHz)我12 gb RAM。实验是由使用10倍交叉验证方法中,每个数据集随机分为十个相等大小的子集。每次九子集作为训练数据集的学习和剩下的一个子集是用作测试数据评价的缺陷预测系统。这个过程被重复十次,然后每个十子集用于训练和测试数据。最后的缺陷预测系统的性能估计的平均10倍的结果。表3- - - - - -7显示性能比较方面的敏感性,特异性,精度,测量和几何平均(的意思)我们建议的方法与其他现有方法的指标8日软件缺陷预测数据集。

结果包括的敏感性,特异性,精度,测量和几何平均的10倍。在表中3- - - - - -7,我们已经提到了每种方法的最佳性能。大胆的数据显示更好的预测每个数据集的分类器的性能。从表3,很明显,提出基于WLSTSVM软件缺陷预测获得最高灵敏度CM1, PC1, PC4, MC2, KC2数据集。与CM1 WLSTSVM收益最高的精度值,PC1,生物,PC4, MC2数据集。提出的缺陷预测达到最高测量7 8数据如表所示6。从实验结果可以看出该软件缺陷预测获得更好意味着在CM1、KC1 PC1 MC2, KC2, KC3软件缺陷预测数据集。降低成本的提高神经网络收益最高的方案意味着生物软件缺陷预测数据集,而支持向量机显示更好意味着PC4缺陷预测数据集。因此,我们可以得出结论,WLSTSVM预测是一种有效的软件保障,其性能比其他四种方法对6 8数据集在每种情况下。

4.4。软件缺陷预测的统计比较

结果实验结果支持Wilcoxon烧焦的排名是一种非参数统计假设的方法。魏克森讯号等级测试执行成对比较两种方法用于软件缺陷预测和分析他们的表演在每个数据集之间的差异(65年- - - - - -67年]。分配下来的排名是根据他们的绝对差异值从最小到最大和平均排名的关系。魏克森讯号商店排名排在的总和和在哪里存储的数据集的秩和WLSTSVM分类器显示在其他分类器和更好的性能商店的秩和相反。它决定是否一个假设的软件缺陷预测比较可能被拒绝在指定的显著性水平α。的值也比较计算为每个显示意义的最低水平的假设导致拒绝。通过这种方式,它可以确定两个软件缺陷预测显著不同的或相同的。如果不同,这也决定了他们是如何的不同。为了进行魏克森讯号等级测试,我们已经进行两两比较的软件缺陷预测的性能WLSTSVM是相对于其他的方法。排名和值计算。统计推断是由观察到的差异在几何平均数计算的平衡性能分类器在不平衡学习的场景。从魏克森讯号等级获得测试结果如表所示8。从表中观察到的值小于0.05在所有的情况下;即提出软件缺陷预测优于所有高度的信心在每种情况下。

5。结论

类不平衡问题经常发生在软件工程和其他真实世界的应用程序的性能恶化的机器学习方法,因为他们考虑的均等分配数据样本类间和假设每个类的误分类代价同样重要。至关重要的误分类代价合并到软件缺陷预测模型有缺陷的软件模块的错误分类会带来更高的成本比良品的误分类。因此,在这项研究中,我们已经开发了一个软件缺陷预测系统通过使用加权最小二乘法双子支持向量机(WLSTSVM)。在这种方法中误分类成本分配给每个类的软件模块为了补偿不平衡数据的负面影响软件缺陷预测的性能。提出WLSTSVM分类器的性能与九算法相比在八软件缺陷预测数据集。实验结果证明我们的方法的有效性,对软件缺陷预测任务。这项研究还执行的统计分析每个分类器的性能通过魏克森讯号等级测试。测试表明,WLSTSVM之间的区别和比较方法是显著的。

参数的选择是一个重要的问题需要解决在未来,因为他们在一定程度上影响预测结果。选择相关的功能是另一个值得关注的问题,应该执行改善软件缺陷预测系统的性能。

利益冲突

作者宣称他们没有利益冲突有关的出版。

引用

n . Fenton和j . Bieman软件度量:严格的和实用的方法美国佛罗里达州,CRC出版社,波卡拉顿,2014。
n . e . Fenton和m .尼尔”,软件度量:路线图”美国的未来软件工程会议(ICSE ' 00)ACM,页357 - 370年,利默里克,爱尔兰,2000年6月。
视图: 出版商的网站 | 谷歌学术搜索
a·g·Koru h·刘,“建立有效defect-prediction模型在实践中,“IEEE软件,22卷,不。6,23-29,2005页。
视图: 出版商的网站 | 谷歌学术搜索
c . Catal和b . Diri”系统软件故障预测研究”,专家系统与应用程序,36卷,不。4、7346 - 7354年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
t, s . Beecham) d . Bowes d·格雷和s Counsell”系统的文献综述对故障预测性能在软件工程中,“IEEE软件工程,38卷,不。6,1276 - 1304年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
e . Arisholm l . c . Briand, e . b . Johannessen”的方法建立系统、全面的调查和评估故障预测模型,”系统和软件杂志》上,卷83,不。1,2-17,2010页。
视图: 出版商的网站 | 谷歌学术搜索
小王和x么,”使用类不平衡学习软件缺陷预测,“IEEE可靠性,卷62,不。2、434 - 443年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
厂商j .郑”,提高神经网络的软件缺陷预测,“专家系统与应用程序,37卷,不。6,4537 - 4543年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
y龟井静香,a . Monden松本,t . Kakimoto, K.-I。松本”的影响下,容易出错的模块检测抽样,”学报第一经验软件工程国际研讨会和测量整体' 07),第204 - 196页,马德里,西班牙,2007年9月。
视图: 出版商的网站 | 谷歌学术搜索
t . m . Khoshgoftaar高k, n . Seliya”属性选择和不平衡数据:软件缺陷预测中存在的问题,”学报22 IEEE国际会议与人工智能工具(ICTAI 10)IEEE,页137 - 144年,阿拉斯,法国,2010年10月。
视图: 出版商的网站 | 谷歌学术搜索
j·c·里克尔梅r·鲁伊斯d·罗德里格斯和j·莫雷诺,“从高度不平衡数据集,发现有缺陷的模块”找de los高de las jornada de Ingenieria del软件y de拿督基地,卷2,不。1,第74 - 67页,2008。
视图: 谷歌学术搜索
h·e·a·加西亚和他“学习不平衡数据,”IEEE工程知识和数据,21卷,不。9日,第1284 - 1263页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
r . Khemchandani Jayadeva,钱德拉,“双子支持向量机的模式分类,”IEEE模式分析与机器智能卷,29号5,905 - 910年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
桔多淇x, y, z气,和刘x, y Shi "非平行模式分类支持向量机,IEEE控制论,44卷,不。7,1067 - 1079年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
d .喝和阿加瓦尔,”双子支持向量机:回顾从2007年到2014年,“埃及信息学杂志,16卷,不。1,55 - 69、2015页。
视图: 出版商的网站 | 谷歌学术搜索
o . l . Mangasarian和e . w .野生“多面近端通过广义特征值,支持向量机分类”IEEE模式分析与机器智能,28卷,不。1,第74 - 69页,2006。
视图: 出版商的网站 | 谷歌学术搜索
m . Arun Kumar和m . Gopal,“最小二乘双子支持向量机的模式分类,“专家系统与应用程序,36卷,不。4、7535 - 7543年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
y太阳,a . k . c . Wong和m . s .卡迈勒,“不平衡数据的分类:一个评论,”模式识别与人工智能》国际期刊上,23卷,不。4、687 - 719年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
s . Kotsiantis d Kanellopoulos, p . Pintelas“处理不平衡数据集:一个评论,”武功在计算机科学与工程国际交易,30卷,不。1、技能,2006页。
视图: 谷歌学术搜索
g·e·巴蒂斯塔,r . c . Prati和m . c . Monard”研究平衡机的几种方法的行为学习训练数据,”ACM SIGKDD探索通讯》第六卷,没有。1页,2004页。
视图: 出版商的网站 | 谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上》16卷,第357 - 321页,2002年。
视图: 谷歌学术搜索
A·埃斯塔布鲁克·t·乔,n . Japkowicz”多个重采样方法学习不平衡的数据集,”计算智能,20卷,不。1,18-36,2004页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
黄x y . Liu, j . x,, a,“综合抽样结合SVM集合体从不平衡数据集学习,”信息处理和管理卷,47号4、617 - 631年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
X.-Y。刘建,吴,Z.-H。周:“探索性欠采样class-imbalance学习”,IEEE系统,人,控制论,B部分:控制论,39卷,不。2、539 - 550年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
c . Bunkhumpornpat k Sinapiromsaran, c . Lursinsap”Safe-level-smote: safe-level-synthetic少数over-sampling技术处理类不平衡问题,”知识发现和数据挖掘的进步施普林格,页475 - 482年,柏林,德国,2009年。
视图: 谷歌学术搜索
S.-J。日圆和Y.-S。李,“基于集群的under-sampling数据分布不平衡的方法,”专家系统与应用程序,36卷,不。3、5718 - 5727年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
s, g .郭,l·陈,“一个新的基于集群over-sampling方法乐团,”《24日IEEE国际会议上先进信息网络和应用研讨会(WAINA 10)IEEE,页599 - 604年,珀斯,澳大利亚,2010年4月。
视图: 出版商的网站 | 谷歌学术搜索
中东和北非地区和j·l·a·冈萨雷斯“象征性看到下面成了学习不平衡数据集:应用在医学诊断中,“国际期刊《人工智能工具,18卷,不。2、273 - 309年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
王b . x和n . Japkowicz”不平衡数据集,提高支持向量机”知识和信息系统,25卷,不。1,1,2010页。
视图: 出版商的网站 | 谷歌学术搜索
m·a·马卢夫“学习不平衡数据集时,当成本不平等的和未知的,”诉讼的研讨会学习不平衡数据集二世(ICML ' 03),卷2,页1 - 2日,华盛顿特区,2003年美国。
视图: 谷歌学术搜索
m . Kukar和i Kononenko厂商学习神经网络,”学报》13日的欧洲会议上人工智能(ECAI 98),1998年,页445 - 449。
视图: 谷歌学术搜索
w .风扇,s·j·斯多夫,j . Zhang和p . k . Chan“AdaCost:厂商误分类提高”学报》第16届国际会议上机器学习(ICML ' 99)流血,页97 - 105年,斯洛文尼亚,1999年6月。
视图: 谷歌学术搜索
d .喝和阿加瓦尔,”一个有效的多层次加权最小二乘双子支持向量机对不平衡数据分类、”国际期刊的计算智能系统,8卷,不。4、761 - 778年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
s . Kanmani v . r . Uthariaraj诉Sankaranarayanan领导,和p . Thambidurai“面向对象软件使用神经网络故障预测,”信息与软件技术卷,49号5,483 - 492年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
t . m . Khoshgoftaar e·b·艾伦·w·d·琼斯和j.p. Hudepohl”软件质量的分类树模型在多个版本中,”学报第十届国际研讨会软件可靠性工程(ISSRE 99)波卡拉顿,页116 - 125年,佛罗里达州,美国,1999年11月。
视图: 谷歌学术搜索
r·w·塞尔比和a·a·波特,”学习的例子:决策树的生成和评估软件资源分析,“IEEE软件工程,14卷,不。12日,第1757 - 1743页,1988年。
视图: 出版商的网站 | 谷歌学术搜索
k . o .所知和m . o .所知”,使用支持向量机预测defect-prone软件模块,“系统和软件杂志》上,卷81,不。5,649 - 660年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
g . Czibula z玛丽安,即g . Czibula”软件缺陷预测使用关系关联规则挖掘。”信息科学卷,264年,第278 - 260页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
l .郭马y, b . Cukic和h·辛格“fault-proneness的鲁棒预测随机森林,”软件可靠性工程学报》第15届国际研讨会(ISSRE ' 04)圣马洛,页417 - 428年,法国,2004年11月。
视图: 出版商的网站 | 谷歌学术搜索
美国Agarwal, d .喝,Siddhant”,使用双子支持向量机的预测软件缺陷,”学报》国际会议信息系统和计算机网络(ISCON 14)IEEE,页128 - 132年,马图拉,印度,2014年3月。
视图: 出版商的网站 | 谷歌学术搜索
诉美国b . Challagulla f·b·Bastani I.-L。日元,r·a·保罗,”经验的评估基于机器学习的软件缺陷预测技术,”国际期刊《人工智能工具,17卷,不。2、389 - 400年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
j . Moeyersoms大肠垃圾De Fortuny k . Dejaeger b . Baesens和d Martens”理解软件故障和努力预测:数据挖掘的方法,”系统和软件杂志》上卷,100年,第90 - 80页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
a . Okutan和ot Yıldız”,使用贝叶斯网络的软件缺陷预测。”经验软件工程,19卷,不。1,第181 - 154页,2014。
视图: 出版商的网站 | 谷歌学术搜索
高木涉,s . Amasaki y . o .美津浓,t . Kikuno”评估的贝叶斯信念网络故障内容的可能性,”学报14 IEEE软件可靠性工程国际研讨会(ISSRE ' 03)IEEE,页215 - 226年,丹佛,科罗拉多州,美国,2003年11月。
视图: 出版商的网站 | 谷歌学术搜索
比比和Stamelos,“软件过程建模与贝叶斯信念网络,”学报第十届国际研讨会软件度量指标' 04),14卷,p。16日,芝加哥,生病,美国,2004年9月。
视图: 谷歌学术搜索
k . Dejaeger t Verbraken, b . Baesens”对理解软件故障预测模型使用贝叶斯网络分类器,”IEEE软件工程,39卷,不。2、237 - 257年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
g . j . Pai和j·b·杜根“实证分析的软件故障和故障内容倾向使用贝叶斯方法,”IEEE软件工程,33卷,不。10日,675 - 686年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
n . Fenton m·尼尔·d·马尔克斯,“使用贝叶斯网络预测软件缺陷和可靠性,”美国机械工程师学会学报》上,O,卷222,不。4、701 - 712年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
c . Catal和b . Diri”调查数据集大小的影响,指标集,和特征选择技术在软件故障预测问题,“信息科学,卷179,不。8,1040 - 1058年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
m . Evett t . Khoshgoftar p·d·简·e·艾伦,“GP-based软件质量预测,”第三届遗传规划研讨会论文集(GP的98)威斯康星州麦迪逊,页60 - 65,美国1998年7月。
视图: 谷歌学术搜索
卡瓦略·A . b . A .博罗,s . r . Vergilio”一个象征性fault-prediction模型基于多目标粒子群优化,“系统和软件杂志》上,卷83,不。5,868 - 882年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
o . Vandecruys d·马顿斯b . Baesens c .μm . De支持者和r . Haesen”挖掘软件存储库为可理解的软件故障预测模型,”系统和软件杂志》上,卷81,不。5,823 - 839年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
O。asrar和k·f·东印度缎木”,软件缺陷预测使用敏感的神经网络,”应用软计算33卷,第277 - 263页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
t . m . Khoshgoftaar和k .高”特征选择与不平衡数据对软件缺陷预测,”学报》第八届国际会议在机器学习和应用程序(ICMLA ' 09),页235 - 240,迈阿密海滩,佛罗里达州,美国,2009年12月。
视图: 出版商的网站 | 谷歌学术搜索
x y, s, z . w . Zhang和j·刘,s . s . Wu“字典学习基础软件缺陷预测,”美国第36届国际会议ACM,页414 - 423年,海得拉巴,印度,2014年5月。
视图: 出版商的网站 | 谷歌学术搜索
阿加瓦尔和d可以喝”,一个基于特征选择的软件缺陷预测模型,”国际先进的科学和技术杂志》上卷。65年,39-58,2014页。
视图: 出版商的网站 | 谷歌学术搜索
j . c .老李和t . m . Khoshgoftaar,“检测容易出错的程序,”IEEE软件工程,18卷,不。5,423 - 433年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
拉索尔教授和A·古普塔”特征排序的比较研究和特征子集选择改进的故障预测技术”第七届印度软件工程研讨会论文集(“ISEC 14)ACM, p . 7日,钦奈,印度,2014年2月。
视图: 出版商的网站 | 谷歌学术搜索
即拉和k·辛格,”一个自动化的方法使用模糊逻辑错误分类,”《第八届印度软件工程会议ACM,页90 - 99年,班加罗尔,印度,2015年2月。
视图: 出版商的网站 | 谷歌学术搜索
k . Muthukumaran a Rallapalli, n . l .没吃”特征选择技术对缺陷预测模型的影响,”第八届印度软件工程研讨会论文集ACM,页120 - 129年,班加罗尔,印度,2015年2月。
视图: 出版商的网站 | 谷歌学术搜索
m . D 'Ambros m .兰扎,r·罗伯“广泛的错误预测方法比较,”第七届IEEE院刊工作会议在矿业软件存储库(MSR的10)页31-41开普敦,南非,2010年5月。
视图: 出版商的网站 | 谷歌学术搜索
大肠Erturk和e·A·经济特区”,一些软计算方法的比较软件故障预测,“专家系统与应用程序,42卷,不。4、1872 - 1879年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
软件缺陷数据集,保证存储库,2015年5月,http://promise.site.uottawa.ca/SERepository/datasets-page.html。
m·库巴特和美国Matwin解决不平衡的训练集的诅咒:片面的选择,”学报》第14届国际会议上机器学习(ICML ' 97)卷,97年,页179 - 186,班夫,加拿大,1997。
视图: 谷歌学术搜索
a·费尔南德斯诉洛佩兹,m . Galar m . j . Del耶稣和f . Herrera”分析不平衡数据集的分类与多个类:二值化技术和特定方法,”以知识为基础的系统,42卷,第110 - 97页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
j . Demšar”统计比较分类器在多个数据集,“机器学习的研究》杂志上7卷,外墙面,2006页。
视图: 谷歌学术搜索 | MathSciNet
d . Sheskin手册的参数和非参数统计程序查普曼&大厅/ CRC,第二版,2006年版。

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

3465年

下载

1701年

引用