局部图像描述的紧凑型局部方向纹理模式

摘要

本文提出了一种有效的局部图像特征区域描述子CLDTP描述子(Compact local Directional Texture Pattern)，并在图像匹配和目标识别方面进行了应用。CLDTP描述符编码了局部区域的方向信息和对比度信息，因此包含梯度方向信息和梯度大小信息。由于CLDTP直方图的维数远低于LDTP直方图的维数，因此CLDTP描述子具有较高的计算效率，适合于图像匹配。大量的实验验证了所设计的CLDTP描述符的有效性。

1.介绍

局部图像描述子构造是图像分析和模式识别领域的基本问题之一。在图像拼接、图像匹配、目标识别、视觉跟踪、机器人定位、三维重建等应用中得到了广泛的应用。对于理想的图像局部特征，它应该具有较高的分辨力和鲁棒性，以抵抗光照、旋转、缩放、模糊等多种图像变换。此外，它还应该具有较低的计算复杂度[1］．在本文中，我们将重点研究鲁棒和高效的局部图像特征描述子构造及其在图像匹配和目标识别中的应用。

文献中提出了许多构造局部特征描述子的方法，如基于高斯导数的描述子、基于矩不变量的描述子、基于空间频率的描述子、基于像素灰度值分布的描述子、基于像素梯度值分布的描述子等。在这些方法中，使用最广泛的描述子是SIFT (Scale Invariant Feature Transform) [2］．SIFT描述符是一个128维向量，由梯度位置和方向的直方图构建，其中对箱子的贡献由梯度大小和覆盖在区域上的高斯窗口加权。它对图像的比例和旋转是不变的，对仿射失真、3D视点的变化、噪声的添加和光照的变化具有鲁棒性。受到SIFT描述子良好性能的启发，人们对SIFT描述子进行了许多扩展。Ke和Sukthankar在梯度映射上应用PCA构建PCA- sift [3.］．PCA-SIFT描述子的维数为36，匹配速度快。Bay提出SURF (accelerated Up Robust Features)描述符，加速使用积分图像的梯度计算[4］．一些研究者对支持区域划分方法进行了改进，如GLOH (Gradient Location-Orientation Histogram)描述子和RIFT (Rotation-Invariant Feature Transform)描述子[5，6］．对局部图像特征描述子的若干比较研究的实验结果表明，类sift描述子表现最好[5］．

局部二值模式(Local Binary Pattern, LBP)是最常用的纹理特征之一，在人脸识别、背景提取、图像检索等方面得到了广泛的应用。它以局部纹理模式作为纹理原语，已经被证明是一种强大的二维图像纹理分析方法[7］．它具有计算简单、对线性光照不变性等优点，适用于局部特征区域的描述。由于其直方图维数较高，且对平面图像区域不具有鲁棒性，不适合直接构造局部图像特征描述子。为了解决这些问题，提出了CS-LBP(中心对称局部二值模式)描述子，它结合了SIFT描述子的强度和LBP算子[8］．实验结果表明，CS-LBP描述子在图像匹配方面优于SIFT描述子。该算法对单调光照具有鲁棒性，但对非单调光照变化较为敏感。局部三元模式(Local Ternary Pattern, LTP)是LBP的改进，采用两个阈值来描述微模式，比LBP具有更好的鉴别能力和鲁棒性[9］．但是LTP直方图的维数非常高，LTP也不适合直接构造局部图像特征描述子。因此，提出CS-LTP(中心对称局部三元模式)算子来缓解维数问题[10］．然而，基于类筛网格的CS-LTP描述子的维数仍然很高。例如，具有8个相邻像素和4 × 4平方子区域的CS-LTP描述符是一个1296维((16 × 3⁴维向量。最近，Huang等人提出了WOS-LTP (Weighted正交对称局部三元模式)描述子[11]，是CS-LTP描述子的改进，具有抗噪声干扰的鲁棒性和描述纹理结构的鉴别能力。

LDP (Local Directional Pattern)是另一种局部纹理模式，通过比较一个像素在不同方向上的相对边缘响应值来计算[12］．它对噪声和非单调光照变化不敏感，但对旋转敏感，不能描述强度信息的变化。LDTP (Local Directional Texture Pattern)结合了CS-LTP和LDP的优点，同时包含方向信息和强度信息[13］．LDTP直方图对噪声和光照变化具有一致性，维数为72。具有4 × 4平方子区域的类筛网格LDTP描述符是1152维((16 × 72)维)向量。因此，LDTP算子不适合构造局部图像特征描述符进行图像匹配。

在本文中，我们提出了一种新的描述符CLDTP (Compact Local Directional Texture Pattern)，它不仅降低了LDTP描述符的维数，而且保留了LDTP描述符的优点。与LDTP算子类似，CLDTP算子通过分析其主方向和边缘响应对局部区域的方向信息和对比信息进行编码。与LDTP直方图相比，CLDTP直方图的维数得到了有效的降低。具有4 × 4平方子区域的类筛网格CLDTP描述符的维数为320 (16 × 20)。对CLDTP描述子的图像匹配和目标识别性能进行了评价，实验结果表明该描述子具有较强的鲁棒性和显著性。

本文的其余部分组织如下。节2，介绍了LDTP算子和CLDTP算子。部分3.给出了CLDTP描述符的构造方法。进行了图像匹配和目标识别实验，实验结果见本节4．本节列出了一些结束语5．

2.LDTP操作员和CLDTP操作员

2．1．局部定向纹理模式(LDTP)

LDTP算子是一种强大的纹理算子，它从每个邻域的主轴提取纹理信息。与试图容纳所有可用信息的其他操作符相比，LDTP操作符只包含主要信息，而其他操作符有时可能会在代码中引入错误。它已被用于面部表情识别和场景识别，并表现出良好的性能。

得到LDTP码，得到8个绝对边响应值首先利用Kirsch掩模计算每个像素的在哪里是要描述的形象，是Kirsch面具，还有为卷积运算。

然后对响应值进行排序，计算出两个主方向每个像素。每个像素的第一个主方向数由

第二个主要方向数可以用同样的方法确定每个像素的阶数，为第二次最大响应的阶数。

如图所示1，中心像素的灰度值是和吗为其8个邻域像素的灰度值。在每个主方向上，计算邻域灰度值的差值

然后每个差异可以被编码为在哪里为根据(3.)，是用户指定的阈值，和编码值是差值吗．

对于每个像素，LDTP的编码可以通过连接其第一个主方向数的二进制形式来计算，它的第一个方向编码差异，其第二个方向编码差异．由于第一个主方向数有8个可能的值，编码的差值有3个可能的值，LDTP直方图的维数为72 (8 × 3 × 3)。关于LDTP算子的详细描述请参见[12］．

2．2.紧凑局部定向纹理模式(CLDTP)

虽然LDTP算子具有较高的判别能力，但其直方图维数较高;它不适合直接用于图像匹配。为了解决这一问题，我们提出了CLDTP (Compact Local Directional Texture Pattern)算子，该算子可以有效地降低直方图的维数，同时包含方向信息和对比度信息。

与LDTP算子不同，CLDTP算子不使用Kirsch掩模的绝对边缘响应值。这是因为响应值的符号也包含一些独特的方向信息。因此，我们使用响应值直接计算CLDTP代码。首先，我们计算了8条边的响应值使用Kirsch掩模

由于LDTP算子使用绝对边缘响应值来计算主方向，不同纹理模式的局部邻域通常具有相同的主方向。例如，如图所示2，两个样本小区的第一个主要方向数相同。也就是说，LDTP算子的主方向不能区分边缘响应值的符号。为了解决这一问题，我们利用最大绝对响应值的符号和阶数来确定每个像素的第一个主方向数。可以计算为从(6)可以看出，第一个主方向数的范围是从0到15。

受WOS-LTP描述子的启发，我们利用两个正交方向的强度差来构造CLDTP描述子。这两个正交方向是第一主方向及其正交方向。在第一个主方向上，我们计算邻域内相对像素的强度差。也就是说, 在哪里将实数映射到最近整数的底函数是否小于或等于．在第一个主方向的正交方向上，可计算邻域内相对像素的强度差

与LBP二进制编码一样，以上两种强度差异可以编码为在哪里为编码强度差，实际强度差，和为实验定义的阈值。需要注意的是，虽然LTP三元编码比LBP二进制编码具有更好的鉴别能力，但我们仍然使用二进制编码方法。这是因为CLDTP算子的主方向数有16个可能的值，并且已经包含了强度差的正负信息。

例如，考虑图中所示的邻居3.．假设阈值．使用(6)我们可以得到．则可计算第一主方向和第一主方向正交方向的双强度差(7)和(8)．我们可以得到它和．从(9)，我们可以得到编码差异和．

(a)样本邻域

(b)边缘响应值

为了减少CLDTP算子的直方图，我们分别对方向数和差异进行编码。CLDTP操作符可以定义如下:

由于方向数有16个可能值，编码的差值有4个可能值，这里方向数代表图像梯度方向信息，编码的差值代表图像梯度大小信息，因此CLDTP算子可以有效地描述微图案。

3.局部特征描述符构造

3.1。的CLDTP直方图

对于图像局部区域，计算每个像素对应的CLDTP代码后，通过计算每个模式出现的次数得到对应的直方图。CLDTP直方图包括的直方图的直方图，其计算方法如下: 局部图像区域的大小是多少，的最大值是,的最大值是．通过连接直方图，得到最终的CLDTP直方图和柱状图， CLDTP直方图的维数为20(16 + 4)。

３．２．CLDTP描述符的构造

本节介绍CLDTP描述符的构造。首先检测局部特征区域，计算描述子;在本文中，我们使用Hessian-Affine检测器来获得仿射不变区域[14］．然后对检测区域进行归一化处理。如图所示4，椭圆区域旋转，使椭圆的长轴为-轴的图像坐标，它被映射到圆形区域。将所有检测区域归一化到大小相同的圆形区域，得到尺度和仿射不变量[5］．为了将局部图像的空间结构信息整合到描述子中，我们将归一化区域划分为16个利用SIFT描述子的网格划分方法进行子区域划分。对于每个子区域，分别计算每个像素的CLDTP代码，构造对应的直方图。然后将直方图连接在一起，我们可以得到一个320维(维特征向量。

(一)

(b)

(c)

4.实验结果

4．1.图像匹配

在图像匹配实验中，Mikolajczyk数据集[15]用来评价SIFT、LDTP、WOS-LTP和CLDTP描述符的性能。该数据集包括八种不同光照和几何畸变变换的场景图像。这个数据集通过估计的单应性得到了地面真实的匹配。如图所示5，我们从数据集中随机选择每个类别中的一对图像。数据5(一个)和5 (b)显示模糊变换后的图像对，图5 (c)和5 (d)显示与视点变化的图像对，图形5 (e)和5 (f)显示缩放和旋转变换后的图像对，图5 (g)显示了灯光变化后的图像对，图5 (h)显示了JPEG压缩变换后的图像对。

(a)自行车(模糊变化)

(b)树木(模糊变化)

(c)墙(视点变化)

(d)涂鸦(视角改变)

(e)树皮(缩放+旋转变化)

(f)船艇(比例+旋转变化)

(g)鲁汶(光照变化)

(h) Ubc (JPEG压缩)

在实验中，首先使用Hessian-Affine检测器检测仿射不变区域。然后将检测到的区域归一化为圆形区域，并将该区域的灰度值转换为介于0到1之间。描述符是基于归一化区域构造的。最后，以欧几里得距离为相似性度量进行最近邻距离比(NNDR)匹配算法[2，5］．在我们的实验中，归一化图像区域的大小为然后设置参数．SIFT描述子、LDTP描述子和WOS-LTP描述子的参数设置与原始论文相同[2，11，13］．

我们使用Recall-Precision准则来评估匹配结果，该准则与[中使用的准则相似。5］．它是基于一对图像之间正确匹配的数量和错误匹配的数量。正确匹配的数量由重叠误差决定[15］．如果两个区域的描述符之间的距离低于某个阈值，则匹配两个区域．通过改变距离阈值可以得到召回精度曲线．也就是说，曲线上不同的点对应着不同值下的图像对的Recall-Precision结果．一个完美的描述符对于任何精度都会给出等于1的召回。有关召回精度准则的详细说明，请参阅[3.，5］．

测试图像的图像匹配结果如图所示6，对应的图像显示在图中5．数据6(一)和6 (b)显示模糊变化的结果。数字6(一)是结构化场景和图形的结果吗6 (b)用于纹理场景。结果表明，模糊变化对SIFT描述子性能的影响最大。对于结构化场景，LDTP、WOS-LTP和CLDTP描述符的性能是相似的。对于结构化场景，WOS-LTP和CLDTP描述符的性能优于其他描述符。数据6 (c)和6 (d)显示视点更改描述符的性能。数字6 (c)是结构化场景和图形的结果吗6 (d)用于纹理场景。我们可以观察到，结构场景的结果受视点变化的影响较小。SIFT描述符得分最低，CLTDP描述符的性能优于其他描述符。数据6 (e)和6 (f)显示结果，以评估联合图像旋转和缩放变化的描述符。我们可以看到，当1−精度较大时，CLTDP描述符给出的结果最好。LDTP描述符与WOS-LTP描述符的排序相似，SIFT描述符的匹配得分最低。数字6 (g)显示光照变化的结果。我们可以看到CLDTP描述符得到了最好的匹配分数，SIFT描述符得到的结果比其他三个描述符差。数字6 (h)显示结果，以评估JPEG压缩的影响。从图6 (h)我们可以看到，这四种描述符的性能相似，并且它们的性能优于其他情况。基于以上分析，CLDTP描述子在模糊、视点和光照变化等情况下的性能优于现有的SIFT描述子，在纹理场景下的性能优于LDTP描述子和WOS-LTP描述子。值得注意的是，CLDTP描述符的维度比LDTP描述符的维度低得多。

(a)自行车(模糊变化)

(b)树木(模糊变化)

(c)墙(视点变化)

(d)涂鸦(视角改变)

(e)树皮(缩放+旋转变化)

(f)船艇(比例+旋转变化)

(g)鲁汶(光照变化)

(h) Ubc (JPEG压缩)

4．2．对象识别

在本文中，SIMPLIcity数据集[16和Caltech-256数据集[17，用于进行目标识别实验，以进一步评估我们提出的描述符的性能。SIMPLIcity数据集是COREL图像数据库的一个子集，它包含10个不同的类别:非洲人、海滩、建筑、公共汽车、大象、鲜花、食物、马、恐龙和山脉。每个类别有100张图片。在物体识别实验中，随机选取50幅图像进行训练，另外50幅图像进行测试。图中显示了一些示例图像7．Caltech-256数据集包含29780幅图像，分为256个类别，类内变异性和目标位置变异性要高得多。每个类别至少有80张图片。我们分别对每个类别的30幅和45幅训练图像进行识别，并使用每个类别的其余图像进行测试。图中显示了一些示例图像8．

(一)非洲人民

(b)海滩

(c)建筑

(d)总线

(e)象

(f)花

(g)的食物

(h)马

(我)恐龙

(j)山

目标识别的步骤如下。首先，对Hessian-Affine不变区域进行检测和归一化。然后，对每个检测区域建立描述符。每个图像都可以用一组描述符来表示。最后采用稀疏编码空间金字塔匹配(ScSPM)方法和线性支持向量机(SVM)方法对目标进行分类[18］．本文分别使用SIFT、LDTP、WOS-LTP和CLDTP描述子进行目标识别实验。描述子的参数设置与图像匹配实验相同。ScSPM的码本尺寸为256，并使用识别精度进行评估。我们用随机选择的不同训练和测试图像重复实验10次。在本文中，识别正确率是正确分类的测试图像个数与测试图像个数的比值。表1和2分别给出simple数据集和Caltech-256数据集上的目标识别结果。从表1我们可以看到，对于建筑、大象、食物和马的类别，CLDTP描述符给出了最好的结果。所提出的CLDTP描述子的全局识别准确率为87.2%，高于其他描述子。从表2我们可以观察到CLDTP描述符比SIFT描述符高出3%以上，比LDTP和WOS-LTP描述符高出约2%。


精度(%)	筛选	LDTP	WOS-LTP	CLDTP

人	72.0	66.0	74.0	68.0
海滩	72.0	56．0	68.0	70.0
建筑	68.0	80.0	66.0	84.0
公共汽车	96.0	100．0	98.0	100．0
大象	88.0	92.0	94.0	96.0
花	88.0	100．0	98.0	94.0
食物	68.0	78.0	66.0	86.0
马	92.0	98.0	94.0	100．0
恐龙	100．0	98.0	100．0	100．0
山	80.0	74.0	80.0	74.0
全球	82.4	84.2	83.8	87.2


精度(%)	筛选	LDTP	WOS-LTP	CLDTP

30训练图像	34．1	35.8	35.2	37．2
45训练图像	36.9	38.1	37.5	40．2

从图像匹配实验结果和目标识别实验结果可以看出，CLDTP描述子的性能优于LDTP描述子。虽然LDTP描述符的维度比CLDTP描述符的维度高，但是LDTP描述符不能编码更多的信息。这是因为两个描述符都包含梯度方向信息和梯度大小信息，它们之间的区别在于编码方法。所以CLDTP描述符比LDTP描述符更有效。

5.结论

提出了一种新的基于CLDTP算子的图像局部特征描述子构造方法。CLDTP描述符结合了SIFT描述符和LDTP描述符的优点。在此基础上，将第一个方向数的直方图与编码差异的直方图连接起来计算描述符。所构建的CLDTP描述子不仅包含梯度方向信息和梯度大小信息，还包含局部图像的空间结构信息。此外，CLDTP描述符的维度比LDTP描述符低得多。实验结果表明，CLDTP描述符的性能优于其他三个描述符。因此，CLDTP描述子对图像的局部描述是有效的，对图像几何畸变具有更强的鲁棒性。在未来的工作中，我们将在描述符中加入颜色不变信息，以构造更健壮和有区别的描述符。

利益冲突

作者声明本文的发表不存在利益冲突。

致谢

本文由国家自然科学基金资助项目(批准号:。61375010,没有。61175059,没有。北京市高等学校青年英才计划资助项目(批准号:61170116);基金资助:中央高校基本科研业务费资助项目(no. ytp0375);频- tp - 14 - 120 - a2。

参考文献

X.杨和k . t。程涛，“局部差分二进制的超快和显著特征描述”，模式分析与机器智能学报第36卷第2期1，页188-194,2014。视图:出版商的网站|谷歌学术搜索
D. G. Lowe，“来自比例不变关键点的独特图像特征”，国际计算机视觉杂志，第60卷，第2期2，页91-110,2004。视图:出版商的网站|谷歌学术搜索
Y. Ke和R. Sukthankar，“PCA-SIFT:局部图像描述符的更有特色的表示”IEEE计算机学会计算机视觉与模式识别会议论文集(CVPR’04)，页II506-II513, 2004年7月。视图:谷歌学术搜索
H. Bay, T. Tuytelaars，和L. Van Gool，“SURF:加速健壮的功能，”在第九届欧洲计算机视觉会议论文集， vol. 1, pp. 404-417, 2006年5月。视图:谷歌学术搜索
K. Mikolajczyk和C. Schmid，“局部描述符的性能评估”，模式分析与机器智能学报第27卷第2期10, pp. 1615-1630, 2005。视图:出版商的网站|谷歌学术搜索
S. Lazebnik, C. Schmid, J. Ponce，“使用局部仿射区域的稀疏纹理表示”，模式分析与机器智能学报第27卷第2期8，页1265-1278,2005。视图:出版商的网站|谷歌学术搜索
T. Ojala, M. Pietikäinen，和T. Mäenpää，“基于局部二值模式的多分辨率灰度和旋转不变纹理分类”，模式分析与机器智能学报，第24卷，第2期7，页971-987,2002。视图:出版商的网站|谷歌学术搜索
M. Heikkilä， M. Pietikäinen，和C. Schmid，“具有局部二进制模式的兴趣区域描述”，模式识别，第42卷，第2期3, pp. 425-436, 2009。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
X. Tan和B. Triggs，“在光照条件下人脸识别的增强局部纹理特征集”，IEEE图像处理汇刊第19卷第2期6, pp. 1635-1650, 2010。视图:出版商的网站|谷歌学术搜索|MathSciNet
R. Gupta, H. Patil，和A. Mittal，“特征描述的稳健的基于顺序的方法”，在计算机视觉与模式识别，(CVPR’10)，第334-341页，2010年6月。视图:出版商的网站|谷歌学术搜索
Huang m, Z. Mu, H. Zeng, and S. Huang，“基于正交对称局部三元模式的局部图像区域描述”，模式识别的字母， vol. 54, pp. 56-62, 2015。视图:出版商的网站|谷歌学术搜索
T. Jabid, M. H. Kabir，和O. Chae，“使用局部方向模式(LDP)的面部表情识别”第十七届IEEE图像处理国际会议论文集，第1605-1608页，2010年9月。视图:出版商的网站|谷歌学术搜索
A. R. Rivera, J. R. Castillo和O. Chae，“局部定向纹理模式图像描述符”，模式识别的字母第51卷第1期1, pp. 94 - 100,2015。视图:出版商的网站|谷歌学术搜索
K. Mikolajczyk和C. Schmid，“尺度和仿射不变兴趣点检测器”，国际计算机视觉杂志，第60卷，第2期1，页63-86,2004。视图:出版商的网站|谷歌学术搜索
K. Mikolajczyk, T. Tuytelaars, C. Schmid等，“仿射区域探测器的比较”，国际计算机视觉杂志，第65卷，第5期1-2页，43-72,2005。视图:出版商的网站|谷歌学术搜索
王建忠，李军，魏德霍尔德，“简洁性:图库的语义敏感集成匹配”，模式分析与机器智能学报，第23卷，第2期。9，页947-963,2001。视图:出版商的网站|谷歌学术搜索
G. Griffin, A. D. Holub和P. Perona，《加州理工256》加州理工学院的技术报告, 2007年。视图:谷歌学术搜索
杨军，余凯，龚颖，黄涛，“基于稀疏编码的线性空间金字塔匹配算法”IEEE计算机学会计算机视觉与模式识别研讨会论文集(CVPR’09)，第1794-1801页，2009年6月。视图:出版商的网站|谷歌学术搜索

多媒体的发展

摘要