文摘
寻找相似的给定查询图像的图像可以计算不同距离的措施。一般距离的措施之一是挖土机的距离(EMD)。虽然EMD证明它能够检索相似的图像精度平均在95%左右,高的执行时间是其主要缺点。将EMD嵌入l1是牺牲性能的解决方案,解决了这一问题;然而,它生成一个严重跟踪图像的特征向量。我们旨在减少嵌入式EMD的执行时间,提高其性能使用三种降维方法:抽样,草图,尺寸减少嵌入调整尾(发展)。抽样的方法随机选择图像的一小部分功能。另一方面,草图是一个距离估计方法,它是基于特定的汇总统计。最后一个方法,发展,随机选择一个同样分数分布图像的特性。我们在手写的波斯数字图像检测的方法。我们的第一个方法,抽样,以减少执行时间牺牲识别性能。草图法优于抽样的认可,但它记录更高的执行时间。的发展优于采样和草图的执行时间和性能。
1。介绍
一个有趣的问题,从大型数据库数据库社区是图像检索。最根本的问题是如何设计一个相似性度量的方式显示图像相似性的概念,因为选择一个合适的测量对图像检索的应用有相当大的影响。一些相似的措施包括挖土机的距离(EMD),杰弗里的散度,Minkowski-form距离(1]。
EMD是通用和灵活度规,可取的和引人注目的基于内容的图像检索的属性2,3]。这种相似性度量,它适用于加权点集,措施所需的最少的工作将一组转换为另一组按重量运输。EMD的最重要的特征是它量化知觉相似性距离比其他类型的用于图像检索(2]。虽然EMD距离可以测量准确的图像,通过这种方法我们可以从数据库中检索最相似的图像,其执行时间是有问题的,这种相似性测量是非常耗时的。
另一种方法,称为嵌入式EMDl1,提出了解决EMD的问题。该方法将图像矩阵映射到一个l1标准;因此,而不是比较二维矩阵,我们可以比较维向量。虽然这个想法不太耗费时间,但它会产生失真。有时,一个精确的计算可能几乎不可行;在这种情况下,一个近似的解决方案有助于找到确切的结果失真。执行时间和性能都是图像检索的重要因素,我们应该试图尽可能地减少失真。在本文中,我们提出两种方法来提高嵌入EMD的性能。第一种方法,抽样,减少了时间,但会降低性能。在接下来的方法,草图,我们通过牺牲的时间执行提高性能。最后,在最后一个方法,通过求解问题的抽样,我们提高性能,同时减少执行时间。
本文的其余部分组织如下。节2我们将讨论有关以前的工作。节3我们提出的技术描述。部分4提供了我们建议的方法的细节。最后,我们讨论的结果和结论部分5和6。
2。以前的工作
挖土机距离的概念(EMD)是第一个探索(4)来衡量感知形状相似。使用EMD图像之间的相似性计算后提出了(5]。从那时起,EMD已成为一个时髦的相似性在计算机视觉测量;它已经被有效地使用在各种应用程序,包括基于颜色的图像检索系统中,纹理特征(6)、形状匹配(7- - - - - -9),和乐谱匹配(10]。EMD执行很好与其他相似措施相比,如Jeffrey散度和Minkowski-form距离。此外,EMD可以用来测量向量场之间的差异(11]。
一些作者在2相比EMD)与其他相似性检索性能的措施和评估。比较的结果表明EMD比其他措施更健壮的图像检索的目的,因为它匹配相似度比其他距离。
EMD指标背后的主要思想如下。假设每个图像是一组彩色点在二维空间中。最少的工作需要一组转换成另一组被定义为两个设置点的距离。近年来,低失真将EMD的嵌入了(12];实证结果表明,虽然这变形远小于先前估计,嵌入步骤本身降低计算的复杂性两个图像之间的相似性。其他作者(9)报道的时间和空间查询的复杂性的EMD和嵌入式EMD形状相似。在这项工作中,我们演示了如何降低计算的复杂性两个图像之间对应映射到一个通过降维规范。
最类似的工作在这个领域是好莱坞和达雷尔9),显示轮廓匹配算法,快速量化描述地方特色的最小重量之间的匹配集的嵌入挖土机的距离(EMD)赋范空间。他们的方法实现了在四个数量级的速度增加的确切方法代价只减少4%的准确性。
3所示。维数降低
在现代图像检索应用程序中,数据有时不仅非常大的相对于物理内存或者磁盘,而且高度稀疏。因此,计算嵌入在大规模稀疏数据很困难和费时。各种预测方法提出了加快这些计算。降维的规范有很多应用在信息检索。的作者(13)表明,降维的抽样不会产生不良的结果。此外,通过估计距离从随机抽样,原创距离可以恢复。抽样方法变得越来越重要越来越大集合(14]因为我们可以使用相同的一组随机抽样估计两两距离(15),而测量精确两两距离往往是太耗费时间或有时不可行;然而,随机抽样常常当大多数的样本是0(表现不佳13]。此外,在严格的重尾分布数据,估算错误有时是非常大的。
作为另一个选择的随机投影,各种草图算法已经成为流行。一般来说,素描算法优于随机抽样,虽然是更加灵活(随机取样15]。扫描后的草图方法,数据,我们计算具体的摘要统计信息,然后重复这一步骤次了。
3.1。抽样程序和草图
假设我们有一个数据库图片和我们想要比较一个特定的图像数据库。为此,我们需要一个测量;这是当我们使用EMD。考虑到我们有2图像相似度高,例如,在数字1和2苹果在不同位置点。
(一)输入图像
(b) EMD流
在这种情况下,两位的EMD这些图像计算如下。
欧氏距离(我)像素1:,(2)第二个像素:,(3)3像素:,(iv)4像素:。因此,EMD的两个点。
EMD度量,欧几里得距离加权点集之间的最小距离,然后计算每一对点集可以被发现。有不同的方法来解决这种类型的加权匹配问题;在我们的示例中,我们使用“匈牙利”方法(16- - - - - -19]。这种方法找到的最低每对点之间的距离在两个图像点算术运算;因此,典型的EMD非常耗费时间,这对EMD是最大的缺点。另一个缺点是,当两个加权点集不平等的总重量,EMD不是一个合适的指标;然而,它是可取的鲁棒匹配允许点集与不同的总重量和基数(18]。另一方面,近似是一个好主意,因为通常精确计算实际上是不可行的,一个近似的解决方案可以帮助更有效地找到确切的解决方案。
在实现EMD,为了嵌入两套外形特征与不同的总重量,我们模拟平等权重通过消除较大的适当数量的随机点体重组。例如,在图2时,从两幅图像的轮廓点是均匀采样的波斯3号的大小图像像素,第一个124分,而第二个图像131点。因此,第一张照片有13个比第二个点,13点是随机选择从它的轮廓被消除。
下一个应用程序的一部分是实现嵌入式EMDl1。我们正式展示了如何构建嵌入式EMDl1。的边界在任何l1嵌入失真被定义(20.),n是像素的数量宽度或高度的图像(图像的宽度和高度相等)。我们嵌入轮廓的最小重量匹配特性l1通过EMD嵌入的12,21]。嵌入EMD成l1在网格中,我们把位图图像的大小是大于两倍的原始图像和转变电网随机图像。之后,我们新的图像的像素映射(0或1)数组中的元素在一个特殊的方向从工具条中的第一个像素的图像其去年像素right-bottom。其余的数组后应该设置一些计算。例如,在嵌入的形象,G1是第一个网格和它包含256个元素,每一种都有一个边长等于1。第一个256个元素的数组与这些元素集。在下一步中,我们添加了每个4相邻元素G1并将结果在相应的元素G2,这将是下一个64个元素的数组。在第三步中,我们添加了每个4相邻元素G2并将结果在相应的元素G3,这将成为下一个16个元素的数组。我们继续这个过程,直到只有一个元素,G5,这将是最后一个元素的数组。在图3,你可以观察嵌入图像的像素数组l1。
数组的长度是所有网格的长度的总和。所以,在我们的示例中数组的长度是约等于341。因此,嵌入向量的长度。表1显示一个图像的大小之间的关系,边长,每个网格的数量在一个数组的元素。
伪代码1描述了嵌入式EMD技术。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
用这种方法找到两幅图像的EMD的复杂性O (n2),因为映射l1向量的长度O (n2)。因此,找到l1的两个向量,向量一个和B如图4,可以做O (n2),这是比O (n3)在精确的EMD。的l1映射的定义是
注意,确切的EMD的复杂性O (n3),这是实施匈牙利算法的复杂性,并且嵌入EMDl1,计算一个近似代替精确的EMD,降低了复杂性O (n2)。我们提出两种方法来减少EMD的复杂性O (n)通过使用降维l1、抽样和草图。降维技术的概念n预先确定的N维空间是基于线性变换,例如,变换二维矩阵的元素一个一维向量(22]。
抽样是一种选择维度降低任何规范(例如,l1或l2)。事实上,使用这种技术,距离l1或l2从随机样本可以通过一个简单的扩展(估计13,22]。虽然它是一个简单的和流行的方法近似距离,它并不能保证准确性。在这种方法中,如图5,我们随机选择k(D)从图像矩阵列一个和图像矩阵B。我们减去他们并设置结果作为样本向量对应的元素。最后,我们和所有的元素的样本向量和调用结果抽样EMD的两张图片一个和B。
为了得到最好的,或者至少,靠近EEMD方法,我们测试了不同的采样率,比如5%,20%,30%,高于整个向量。最后,我们发现,10%是最好的采样率。因此,我们随机选择元素的10%l1向量,将产生546个元素。
抽样EMD显示在伪代码2。
|
||||||||||||||||||||||||||||||
草图是降维的另一个选择。在这种方法中,扫描数据后,我们把图像的原始数据矩阵一个和图像矩阵B由一个随机矩阵R为每个元素有一个0或1,和由此产生的矩阵形式的减法草图向量的一个元素。我们重复这个步骤k次了。草图向量的所有元素的总和就是我们所说的草图EMD。草图方法见图6。
伪代码3显示了素描的方法。
|
||||||||||||||||||||||||||||||||||||||||||
3.2。程序的发展
基于抽样和草图的实验中,图像的l1向量是严重尾随哪里有很多零元素前网格和非零元素网格。在抽样方法中,我们选择的样本向量和运用EMD样本而不是整个向量;因此,减少了执行时间。然而,问题是,向量的所有元素都以同样的速度采样。
当我们穿过向量,大多数数据在初始部分,如G1和G2与后者相比,包含几乎所有零部分,如G3,G4,G5。我们认为这一事实是一个重尾分布向量。结果,当我们应用抽样方法,向量可能偶然包含几乎所有的0,这是毫无意义的。这就是为什么我们需要创建一个方法,将选择一个相等的部分样本的每个部分网格,而不是从整个随机抽样。
我们称该方法嵌入的降维调整尾(发展),这种方法混合动力车抽样和草图。例如,假设我们想要选择一个向量的10%作为一个样本向量。在最初的采样方法我们随机向量的元素,但是,在发展的方法,我们选择只有10%的每个网格部分的元素,Gn。通过这种方式,我们可以选择相同的向量的所有部分的一部分,不仅在早期的元素有很多零还在后者识别所需的大量元素。
表2显示了比较采样向量元素的数量,素描,和发展方法。在发展的方法,我们选择10%元素从每个网格部分,因为它会产生大量的向量元素的附近产生的采样和素描的方法。因此,通过使用类似的想法调整重尾分布向量,我们使用的草图法并结合抽样法我们可以改善的准确性没有增加运行时间。
这可以用伪代码表示的4。
|
||||||||||||||||||||||||||||||||||||||||||
4所示。实验
在这项工作中,我们测试了5个方法:精确EMD,嵌入式EMD,抽样,素描,和发展。我们的图像数据集包括位图图像从Amirkabir伊朗大学23]。手写的图像扫描波斯字母和数字。数据集包括47类分成两部分。的第一部分数据集包括35类包括图像和信的第二部分包括数字图像数据集包含12类。
在数据集,每个图像被命名为基于类数和运行数量的组合。图像名称的第一部分是它的类数如表中列出3。类数之间的相似性测量通过比较一个测试图像和图像查询。在我们的工作中,我们只使用数据集的第二部分,由12类5319份手写波斯数字图像。在表3,一些数字图像显示。
我们没有使用字母的图片因为波斯在手写的信件非常相似的形状甚至人类读者。一些样本如表所示4信,有两个或三个点与点类似于其他手写的信件。例如在第一个样本表4信“茶”非常类似于字母“Ja”因为信“茶”的点相互坚持,它们看起来就像一个点。同样,字母“咋”类似于字母“咱”在某些情况下。的图像相似度度量方法在这种情况下,会产生失真。因为这不是这个工作的重点,我们排除了所有的信件。
我们将数据集划分为两个部分:参考图像和测试图像。参考组包含100张图片,我们从数据集随机选择和测试剩下的数据集。在其他方面,我们删除这些100参考图像从测试图像的一部分。所以,我们只能找到这些参考图像相似的图像而不是准确的。对于每个引用图片,我们应用5计算方法和EMD。然后我们计算的平均精度(美联社),结果在一个表中。最后,我们计算均值平均精度(MAP) 100为每个方法参考图像;结果如表所示5。
在每个方法中,应该进行一些预处理步骤。第一步,是常见的所有方法,种植的白色边缘图像。在下一步中,图像应该调整到一个特定的大小。预处理的结果,我们有一些相同的图像特征。
确切的EMD在第一种方法,我们需要的是图像的轮廓以及相同数量的点的所有图像。在此方法中,因此,两个额外的步骤是必要的:获得图像的轮廓和删除额外的随机点直到达到相同数量的点,这应该是150点。
然而,对于嵌入式EMD方法,抽样,和草图,我们需要整个图像不仅其轮廓。因此,这些方法预处理步骤仅仅是第二步。预处理的图像见表5。
5。结果
我们计算均值平均精度(MAP)值100不同的方法应用于查询的结果图像。平均精度(美联社)的平均精度值的点,每个相关检索文档。精确的定义是
例如在表6可以清楚地看到,5个中的10个相关文档;因此,美联社计算
信息检索系统经常从他们的意思是平均精度(MAP)。地图是一组的平均精度值的平均值的查询;这是一个衡量信息检索的性能评估。使用这种方法,我们能够获取顶级大多是相关的图片。
我们所有的实验的结果提出了在表7和8。我们计算美联社,这是相关检索图像的平均精度在10个顶级测试图像的图像集。在表7,100年的平均美联社测试图片为每个方法在第二列。列3 - 8中第一个正确识别的百分比显示第一个第六的位置。在最后一列,第一次正确识别的百分比在第七的位置和超越。
在表85的方法的执行时间3随机选择测试图片所示。在第五列我们估计平均执行时间,并在最后一列我们估计100个测试图像为每个方法的执行时间。在这个表中,可以看出确切EMD最高执行时间,和嵌入式EMD减少了一半。这次我们可以减少通过使用我们提出的方法。最后一个方法,发展,达到最低的执行时间。
6。结论
发展是一个方法,混合动力车抽样和草图。在本文中,它显示了它的实用性在稀疏和重尾分布数据的降维。在结果中可以看出,确切的EMD映射值为0.97;映射值之间的平均检索的相关图像上排名前十的图像100张图片。虽然这测量图像相似度的方法是优秀的,它的执行时间是非常高的。通过使用嵌入式EMD,值为0.85时可以实现地图的EMD的一半时间。我们首次提出方法,抽样,减少执行的时间,但它达到最穷的映射值为0.59。我们的第二个方法,素描,提高地图0.87牺牲的执行时间。我们最后的方法、发展、执行时间和最低生产最好的地图的价值观,这是0.91。
总的来说,结果表明,降维技术类似,有助于改善处理时间和匹配。发展,尤其是结合草图和采样,将草图的数据转换成条件随机抽样在估计阶段,样本量是回顾性的决定。EEMD的改进有助于克服严重的问题跟踪特征向量。