文摘
传统图像分类模型一般采用单一特征向量来表示信息的内容。然而,单一图像特征系统很难提取图像中包含的信息的完整,和传统特征信息的编码方法有一个很大的损失。旨在解决这一问题,本文提出了一个特性fusion-based图像分类模型。该模型结合主成分分析(PCA)算法,加工尺度不变特征变换(P-SIFT)和颜色命名(CN)特性生成因素相互独立的图像表示。在编码阶段的尺度不变特征变换(筛选)特性,bag-of-visual-word模型(BOVW)是用于功能重建。同时,为了引入空间信息提取的特征,介绍了金字塔旋转不变的空间映射方法P-SIFT和CN功能划分和代表性。在特征融合的阶段,我们采用支持向量机和两个内核(SVM-2K)算法,它将培训过程划分为两个阶段,最后学习的知识从相应的内核矩阵分类性能改进。实验表明,该方法能有效地改善图像描述的准确性和图像分类的精度。
1。介绍
图像分类是一个主要的主题领域的图像处理和模式识别1,2]。传统的图像分类方法(3,4)关注一些具体目标,提取有效的特征来表示图像的信息内容。然而,这种方法有明显的缺陷。例如,一些特定的图像特征不能被推广到奇怪的物体。此外,图像信息可能丢失在编码阶段的方法。
最近,图像颜色特征被广泛认为是。传统的颜色特征包括颜色直方图、颜色的时刻,颜色集,向量的颜色一致性,颜色相关图。这些颜色特征(即结合contour-based特性。,Hu invariant moments and histogram of gradient) in the field of image classification and have achieved excellent performance results [5,6]。主要研究关注人类语言学的颜色特征表示颜色名称(CN)。在计算机视觉中,颜色属性包含人类语言标签图像的像素。柏林和凯7]提出语言包括十一个普遍的基本颜色词。根据他们的分析,汗et al。8)提出了利用传统的统计模型学习的知识命名颜色由人类的大脑,和汗等。6)采用这种颜色特性结合梯度直方图的图像特征融合,成功地应用于目标识别。因此,本文利用CN和dimension-reduced尺度不变特征转换为互补融合功能。为了进一步研究和优化图像信息,修改空间金字塔匹配方法(SPM)提出了添加特性的空间位置信息。在这种方法中,图像将会分成补丁的特征提取和编码,以便统一的向量就可以形成空间位置信息。然而,简单的部门在SPM不能保持向量表示旋转后的图像。
旨在解决上述问题,我们提出一个图像分类模型基于一个环形空间金字塔匹配和multifeature融合。考虑成功的筛选功能,我们采用dimension-reduced筛选功能,加快编码的过程。很大一部分的图像信息包含在颜色特征,同时筛选从不考虑这一点。因此,如果颜色信息可以添加到我们的特性融合模型,提出了图像分类系统可以明显改善。此外,一个环形空间金字塔匹配应用于地图旋转不变性的特征提取空间向量表示。由于各种P-SIFT特性从不同的图像中提取,稀疏编码算法是采用统一的生成向量。阶段的特征融合和学习参数的分类算法,支持向量机和两个内核算法(SVM-2K) [9,10)是利用在我们的培训模型标记数据集和预测标记图像。SVM-2K算法是主要的问题,结合核典型相关分析的算法(KCCA) [11,12)和支持向量机分类算法中采用KCCA预处理(P-SIFT和CN)的特性,和两个独立的支持向量机模型的两个特征一起训练。我们方法的新颖性在于我们的小说特征fusion-based图像分类方法,获得令人满意的结果与现有的方法相比,虽然P-SIFT和CN特性可以作为补充的形象描述。
2。特征提取和空间映射
2.1。颜色命名功能
最近,图像特征的研究都集中在目标shape-based当地特性而不是信息丰富的颜色特征。相比与传统的颜色描述符包括色调,OPP,和颜色的时刻,基于词汇的直方图统计特性,颜色名称,用作P-SIFT互补。通过映射RGB颜色通道,CN标签的提取算法在图像的每个像素使用11颜色名称之一:黑色,蓝色,棕色,灰色,绿色,橙色,粉色,紫色,红色,白色和黄色的。该算法还采用直方图和归一化向量表示。CN标签不同形式的相同的颜色到一个特定的颜色名称,CN特性是配备了一个光照不变性。CN算法预测颜色描述人类在本质上为一个特定的颜色。实验在纸5]表明,相比之下,色调和OPP颜色特性,CN描述符更有选择性,已成功应用于图像识别领域。因此,本文利用CN特性来减少空置的颜色图像分类模型。图像的比较有和没有颜色名称如图1。对于一个给定的像素X,这个点的CN描述应该被定义为像素的概率属于11颜色名称之一。 在哪里 代表像素分配到的概率我th标签,概率的映射矩阵决定从一个大数据集。本文利用一个映射矩阵,统计计算的图像数据集11谷歌收集的颜色名称。方程(马克斯颜色名称的概率是1)。上述流动后,图像中的所有像素将被分配一个特定的颜色名称;在那之后,一个 直方图向量就可以形成。
2.2。Dimension-Reduced筛选功能
筛选最初提出的劳(13)是一种局部梯度直方图用于定位目标的形状。算法识别甚至极端点的多尺度图像空间和领域已被广泛应用于图像分类和模式识别。近年来,筛选了各种修改,包括冲浪、PCA-SIFT, HSV-SIFT。然而,筛选 向量,可以用来检测图像特征,即使图像属性,包括规模和图像噪声,都改变了。然而, 筛选描述符的计算和性能有负面影响的重建方法。此外,筛选通常被误认为是重建的精度,本文和图像分类的任务不需要相同的精度水平。因此,dimension-reduced筛选功能从筛选生成使用主成分分析算法(PCA) (14)提出了提取图像的主要信息功能。由于各种不同的图像补丁的筛选,提取的筛选不能用作最后表示。因此,我们在我们的模型中包括了稀疏表示编码图像的筛选功能。
2.3。旋转环形空间金字塔匹配
筛选功能包含相应的位置信息。Lazebnik等(2]介绍了空间金字塔匹配模型(SPM)会分为多尺度图像补丁,以便筛选是一个更有价值的映射编码。SPM模型,筛选功能是首先提取图像和集群获得视觉词典包括K视觉单词。然后每个图像分为三层( , , ),独立和1/4,1/4、1/2给相应的层。最后,筛选功能的补丁进行编码,和系列连接 向量。不幸的是,SPM没有能力处理暴力旋转图像,所以它无法维持的空间位置信息。在目标图像识别和分类通常伴随着巨大的位置变化,模型的矢量将成为最初的筛选向量或CN特性如果SPM集成到我们的模型映射。
充分利用特征的位置信息,我们建议一个环形部门基于旋转空间金字塔匹配模型(R-SPM)地图筛选和CN特性。在这个模型中,如SPM所示,每个图像将环状地分为三层( , ,和 ),附在重量1/8、1/4、1/2,分别(图2)。因为在R-SPM相对较小的图像补丁,功能更有效的位置信息。更大的图像补丁,这个作用被抑制,所以少重量较大的层。最后,所有功能在环形圈补丁将编码,和系列连接 向量。
这样,位置信息在图像补丁会附加到特定位置的矢量表示。无论多目标旋转,圆的向量映射补丁永远不会改变,这样由R-SPM拥有旋转空间矢量表示位置的信息。
3所示。稀疏表示理论
在传统bag-of-visual-words模型(BOVW), k - means算法(15)是用于集群的视觉词典。矢量量化(VQ)方法是采用编码特性,通过计算欧几里得距离特性和视觉单词直方图表示。然而,VQ未能考虑到欧几里得距离不适合(即基于直方图特性。、筛选和猪)。减少的特征信息在编码过程中,矢量量化,而是ScSPM [2)提出了利用稀疏表示算法和产生更多的稀疏和选择性编码向量。稀疏表示的16]是一种软编码算法可以看作是k - means的扩展。
3.1。稀疏表示
稀疏表示的目标(SR)是学习一个ultracomplete字典和使用罕见的原子来重建原始信号的成功提取嵌入的图像信息。稀疏表示具有广泛的研究和实际应用,特别是对于收集、压缩和高维向量的表示。例如,在人脸识别、图像功能是首先提取一个训练集,然后获得ultracomplete字典,生成稀疏表示的训练集的特征提取和稀疏表示的过程。测试图像设置也执行,测试和训练样本进行了比较。稀疏表示的性质是解决凸的问题,但一些具体问题,如低凸程度的稀疏矩阵,不能有效地解决了传统的凸优化算法。稀疏字典是由K-SVD算法(17)同时迭代和再生原子和稀疏的系数。然而,运行一个优化算法所需的时间过多,而对分类性能有很大的负面影响。因此,本文使用了k - means算法+ + (18得到一个稳定的ultracomplete字典,正交匹配追踪(OMP)进行重建系数。稀疏表示的核心问题是解决方程(2)。 在哪里代表功能重建,是固定的字典,然后呢是稀疏的系数。前一项是重建误差,后者是稀疏的控制。
3.2。正交匹配追踪
正交匹配追踪算法(OMP) (19,20.)是一种修改迭代版本的匹配追踪算法(MP)。由于所选的原子的非正交性MP,稀疏系数通常是当地的山峰。过程中原子的选择,OMP是议员的法律,但将选中的原子转化为正交,这降低了迭代最优收敛。同时,OMP算法设置最大迭代数,所以当取得一组值,OMP算法强行停止了。
理想情况下,每个图像会得到一个系数矩阵当所有筛选编码。此外,池算法应该用于池统一的矩阵向量。实验(21,22)表明,当与其他池方法相比,最大池是稀疏向量的生成更有效的表示。因此,我们采取了最大连接池算法。如果我们设置一个给定的图像有M特性(K维)R-SPM模型的映射过程后,系数矩阵 。最大池的方法可以定义在方程(3)。 在哪里 这张图片的是最后的矢量表示。
4所示。双融合内核支持向量机算法
在图像识别领域,选择一个特定的图像特征是由预测目标的特点。没有有效的标准来评估特征选择。为了减轻任何特征选择对图像识别和分类的性能,学习相应的知识从训练图像集通过机器学习算法已被广泛研究。这个特性融合学习算法主要集中在两个要求。首先,分类器直接连接向量的系列学习达到融合的性能特性。第二个要求是,每个图像特性被认为是一个单独的单元来训练自己的模型,给每个模型不同的重量。
以上方法后,研究人员(23,24)与筛选组合保持不变的特性,设计一个图像分类模型,该模型基于特征融合和有一个杰出的性能比基于单一特征的模型。因此,我们提出了两种融合内核的支持向量机算法(SVM-2K)完成任务的图像特征融合和分类。SVM-2K结合核典型相关分析的预处理(KCCA)和支持向量机算法的参数使两个独立的功能和配套描述图像。在SVM-2K算法,两个超平面之间的相似性约束映射为预处理和参数学习的有机结合。
如果有两个完全不同的特性(设置为A和B)相同的数据集后个人内核映射,映射的特性可以设置和 。然后,一个特定的图像可以被描述在方程(4)。
相似性约束定义如下。 在哪里 支持向量机模型的权值和阈值。这个约束引入支持向量机功能进行进一步的优化。
SVM-2K的决定性作用可以表示如下。
在本文中,我们的分类模型采用SVM-2K算法进行特征融合和分类学习P-SIFT和CN更好的性能比单一的基于支持向量机模型。因为SVM-2K算法是一个二元分类器,然而,我们遵循LibSVM的实现(25)利用“一个VS”方法来扩展SVM-2K多级分类任务。“一个VS”方法的训练 二进制SVM-2K模型支持的最终预测结果测试图像。图3显示功能的流程图fusion-based图像分类模型。
5。实验结果和分析
在这篇文章中使用的实验数据集是加州理工学院- 256 (26)和2011年帕斯卡VOC (27]。加州理工学院- 256是计算机视觉领域的一个传统的数据集。它包括256类别图像集和每个组都有不同数量的图像补丁(31 - 800)。帕斯卡VOC 2011是一个基准测试集视觉对象分类提供标准的检测图像检测算法和学习性能。我们随机选择9类别从每个数据集,并把他们分成训练集和测试数据集,这是显示为数字4和5。训练数据集包含50图像,图像的其他部分在每个类别设置为测试数据集。
最初的筛选功能由vl_feat提取函数库(28]。本文的实验都是在MATLAB上实现2013 b平台,和平均精度(美联社)(29日,30.]介绍了图像分类模型的性能进行评估。
5.1。P-SIFT的性能分析
P-SIFT生成通过实现PCA降维算法筛选。为了评估dimension-reduced百分比的影响功能重建的速度和图像分类的性能,我们收集的平均时间(MT)花稀疏编码和AP模型的性能。加州理工学院- 256是利用基线数据集在这一节中。
表1表明,当降维比例增加,意味着通过功能重建的时间缩短,但相应的美联社性能极其缓慢。比例大于0.7时,平均时间相对较短,而且分类模型的性能往往是稳定的。因此,实验全部采用0.7 dimension-reduced百分比。
5.2。R-SPM的性能分析
为了提升R-SPM的转动性能,本节利用飞机形象和实现6种旋转转换,如图6。SPM和R-SPM模型分别用于映射提取的特征进行进一步的稀疏表示。字典的稀疏表示的长度设置为300。每次转换后图像如图6它的向量表示,他们的差异程度(Diff)中定义的值方程(8),结果如表所示2。
在哪里V是原始图像的矢量,代表了矢量的转换。
如表所示2图像的旋转变换,SPM成为更大的不同的程度值。然而,拟议的R-SPM模型没有变化程度,总是保持相对较低的水平支持的想法R-SPM旋转变换的图像有很强的适应性。
为了进一步比较R-SPM SPM在性能方面,我们设计了实验利用SPM和R-SPM模型映射过滤特性和使用支持向量机和学习演算法来识别图像选择从加州理工学院- 256。支持向量机的内核是设置为一个直方图相交的内核。SPM和SVM的组合设置SSVM,虽然SPM的组合并设置为SABT演算法。R-SPM和SVM RSVM, R-SPM并设置为RABT演算法。引用的长度设置为400,和其他参数选为上述实验装置。
它从数据一览无遗7和8平均R-SPM精度高于2 - 3% SPM的分类性能。RSVM的性能的四个模型也是最优的。图像识别精度的同时,每个类别使用R-SPM高于SPM,证实该R-SPM模型可以更好地获得图像,使图像的空间特征向量表示更有选择性和鲁棒性。
5.3。SVM-2K算法的性能
在这一节中还采用BOWSVM实验[31日,32]和KSPM [33,34)是加州理工学院- 256年和2011年帕斯卡VOC上实现与该模型的数据集。本文的特征融合模型设置为SIFT-CN;模型使用P-SIFT和SVM S-SVM设置;和术语使用CN和SVM C-SVM。SVM-2K算法的方法,利用HIK P-SIFT内核,和嫡系的内核是CN的内核。字典的稀疏表示的长度变化从200年到500年获得最优值。提到的性能模型图所示9和10。
如数据所示9和10字典的长度相同,该模型使用P-SIFT和CN特性融合实现最佳性能的分类模型。与其他模型相比,美联社融合模型的结果增加了5 - 10%。很明显,图像分类模型提出了具有更好的识别效果的图像类型。当稀疏字典的长度达到400,SIFT-CN最佳的性能。因此,字典的长度是固定在同一时间BOWSVM, KSPM和SIFT-CN图像分类模型上实现其他的实验。
为了更好地说明图像分类模型的性能,我们遵循最近文献[35,36使用kappa系数(方程()9)作为一个衡量的标准。kappa系数测量的本质之间的协议的解释不同的观察者。当Kappa系数是1,表示负相关,而当Kappa系数是1,它表明,分类结果是完全同意。
表3给每个图像的Kappa性能描述模型400长度的字典。例如,加州理工学院- 256数据集了Kappa SIFT-CN模型的性能结果是0.68,这是最近的列在表1中模型3。它可以得出结论,SIFT-CN模型优于其他分类模型。这表明特征融合模型的结果具有较高的可靠性,换句话说,对应的分类性能是最理想的。在SIFT-CN的内部模型,表3表明,特征融合方法性能优于单一特性,进一步验证该模型的性能优良。
通过一系列的实验,我们可以看到P-SIFT功能修改本文有能力增加的速度特征编码通过降维处理。同时,与传统的SPM模型相比,该R-SPM模型地图P-SIFT和CN特性,具有理想的旋转不变的相位信息。最后,实验比较表明,使用SVM-2K特性融合分类算法明显比使用单一特征分类模型。
6。结论
在本文中,我们提出一个方法的旋转不变的空间金字塔映射和功能fusion-based图像分类模型。在特征提取和表示形式,提出了一种新型P-SIFT特性,即dimension-reduced筛选特征向量提取的主要信息筛选功能加快稀疏表示。同时,CN和融合P-SIFT特性来描述图像。为了探索位置信息的功能,一个环形划分算法空间金字塔模型,提出了使特性不变的旋转空间矢量表示。特征融合阶段,SVM-2K算法训练两个独立的支持向量机模型,最后的结果是得到一个加权投票方法。在实验评估,加州理工学院- 256和VOC帕斯卡图像选择数据库。实验结果表明,与其他单一特征图像分类模型相比,我们的功能fusion-based图像描述模型可以提取图像的特征信息,因此P-SIFT和CN特征可以作为补充描述图像的最后实现令人满意的性能改进。然而,我们承认,在我们调查的特性,本文还有许多其他高级功能需要在我们未来的工作学习,而健壮的应该关注这意味着不同的数据可以被测试。
数据可用性
所使用的图像数据来支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突。
确认
支持这项工作部分是由南京理工大学研究基金项目(没有。ZKJ201907)。