研究文章|开放获取
Jun woo - young, Yillbyung Lee, bbmin Jun, "基于多网格图像分割和目标识别的自动图像标注模型",多媒体的发展, 卷。2014, 文章的ID857682, 7 页面, 2014. https://doi.org/10.1155/2014/857682
基于多网格图像分割和目标识别的自动图像标注模型
抽象的
自互联网技术和移动设备的快速增长以来,诸如图像和视频之类的多媒体数据在互联网上爆炸地生长。使用正确的标签管理大规模多媒体数据和注释是非常重要的任务。标签和注释不正确,使其难以管理多媒体数据。多媒体数据的准确标签和注释缓解管理,并提供高质量的检索结果。完全手动图像标记由用户标记的标记将是最准确的标记,当用户标记正确的信息时。尽管如此,大多数用户都不努力造成标记的任务。因此,我们患有许多嘈杂的标签。准确图像标记的最佳解决方案是自动标记图像。许多研究人员提出了强大的自动图像标记模型,这几天仍然是最有趣的研究领域。由于自动图像标记模型中仍有很多限制,因此使用基于多基体的图像分割和特征提取方法提出了高效的自动图像标记模型。 Our model can improve the object descriptions of images and image regions. Our method is tested with Corel dataset and the result showed that our model performance is efficient and effective compared to other models.
1.介绍
如今,我们总是在网上。台式电脑,笔记本电脑,甚至智能手机都可以随时随地联网。在移动设备上分享多媒体数据非常容易,而Facebook、Flickr和Twitter等社交网络服务的爆炸式增长也有助于互联网上多媒体数据的巨大增长。为了管理这些多媒体数据,需要改进可靠的标签和标注信息。如何管理如此大规模的多媒体是当今最著名的话题。标签良好的图像是有效的管理和检索。研究了基于图像分割和特征提取的图像自动标注模型。由于一幅图像在一幅图像上呈现多个目标,因此我们主要研究如何成功地提取多个目标。研究了图像分割技术,提出了一种基于多重网格的图像分割方法。有时一个图像可能包含单个对象,但大多数用户创建的内容在图像中包含多个对象(图1).因此,从整幅图像中提取视觉特征对于标注或注释一幅图像有一定的局限性。冯等人[1还提出了基于网格的方法,其比基本图像分割模型更有效。但它仍然对分段区域中的MultiObject问题有限制。因此,我们提出了一种多重图形图像分割方法,其能够提取呈现在图像中的多元斑的特征。实验结果表明,与其他模型相比,我们的模型呈现了高效,有效,最准确的图像标记结果。
(一种)
(b)
我们在部分呈现相关的研究2并在Section中提出了我们的多网格图像分割模型3..节4我们介绍了基于多版本分割方法的新型自动图像标记模型。我们在部分呈现实验结果5.最后,我们达成了结论和功能6.
2.相关研究
通常有三种类型的图像标记模型。有自动的、手动的和半自动的。手动标签是最准确和可靠的图像标签。然而,手动标记图像需要花费巨大的成本。半自动化模型,如谷歌图像标签是一种非常精确的图像标记方法,但它也有限制,用户必须花时间玩游戏,它可能会导致噪声标签的痛苦。因此,尽管全自动图像标注模型与手动和半自动模型相比性能较差,但仍是目前最值得关注的研究领域。许多研究人员努力提高准确性。
基于学习的自动图像标记模型是最近的研究兴趣。基于关键字的方法,提出了语义关键字方法。最近,对于更有效的图像标记,建立文本功能与视觉功能之间的关系是目前是主题。jeon等。[2]和杨等人。[3.]提出了用语义信息和视觉特征联合概率标记图像的跨媒体模型。他们使用离散特征来标记图像,这可能会失去有用的视觉信息。Carneiro等人[4]提出的SML模型是一种不适合图像分割的半监督学习模型。Wang等[5]结合了全局和局部区域,并且为了提高标记性能,他们使用了上下文特性。Lindstaedt等人[6]建议基于视觉对象组成的自动图像标记,特别是水果和蔬菜。此外,曼哈和李[7]专注于基于自然图像和Divya等人的视觉显着性的小对象分割。[8, Santosh和Shyam [9,帕蒂尔和科卡雷[10]演示了图像分割和自动图像标注模型有助于语义图像检索。
与这些算法不同,我们的模型专注于基于高效且有效的多基线的图像分割模型和对象识别。我们提出了一种基于我们的MultiGrid图像分割方法的图像标记模型(图2).我们提出了基于多重网格的图像分割和目标识别,然后我们提出了高效的自动图像标注模型。
3.图像分割模型
大多数图像区域分割取决于周围的对比度。程等人。[11]所提出的基于格式的基于格法图的区域检测算法。用于图像分割,Felzenszwalb和Huttenlocher [12]提出了基于图的图像分割方法,Xiong等[13提出了分层可变形的人脸检测模型。并计算每个图像区域的颜色对比度。在本文中,我们计算每个区域的权重来进行图像区域分割。
让是图像区域之间的距离和;然后可计算如下: 在哪里是颜色概率在图像区域和是颜色概率在图像区域.之间的距离在地区和在地区 为两个像素之间的距离。由于Lab颜色空间为255,所以整个颜色距离的计算时间比较长3..因此,我们使用了基于直方图的压缩Lab颜色空间。因此,我们可以重新计算如下: 在哪里是色箱在地区和是色箱在地区.为直方图容器的数量。现在我们可以计算如下: 在哪里是垃圾桶的数量和表示区域中的像素数.如果某一颜色的像素多次出现,则表示该像素是某一区域的主色。如果我们直接计算在(3.),然后类似的颜色可能被分配到另一个箱子,特别是当区域很小的时候,它可能是噪声。为了克服这个问题,我们重新定义(3.) 如下: 在哪里相似颜色的数量是否与在直方图中。是距离和相似的颜色.和为归一化因子为线性变换权值。现在我们通过比较其他区域来计算某个区域的权重。我们计算区域重要性如下: 可以用(2).表示区域中的像素数它可以是区域的重量也自(5)与空间关系无关,我们重新计算(5)空间关系如下: 在哪里表示区域之间的空间距离和.是用欧几里得距离度量来计算的。用于控制空间权重。
现在,我们提出了将图像分段为MultiGrid以识别对象的方法。基于多重基于图像分割方法的基于多重数据的段图像。然后我们提取已提到的对象功能。最后,我们从每个分段图像中提取视觉特征。由于我们从MultiGrid分段图像中提取视觉功能,因此我们可以提取图像中的大多数对象。在本文中,我们将图像分成3个步骤。在第一步中,我们从题为映像中提取特征。在第二步中,我们从2个网格分段图像中提取2个特征。在第三步中,我们从3个乘以3个网格分段图像中提取特征。步骤数量增加3乘3个网格; then the well-extracted number of objects (Figure3.)和准确性(图4) 减少。
在第3步中,提取良好的目标数量和它们的精度表现出最好的结果。即图像中较小的目标在该图像中不那么重要,更重要的目标可以被分割到其他区域,这意味着重要的目标特征可能会丢失。
我们可以看到从分割后的图像中提取的目标(图)5).当我们从题为映像中提取特征时,只有一个对象被提取。当我们从2个分段图像中提取2个功能时,我们可以识别更详细的图像中的对象。同时,我们可以在3个分段图像中识别3个更详细的对象。
4.自动图像标记模型
在本节中,我们介绍了我们的自动图像标记模型。我们与我们的MultiScale分段图像相结合3..从每个区域提取的视觉特征是分割区域的单个目标。
对于所有输入图像,被分割成3 * 3的网格。让我们说为分割图像区域的个数。我们提取d维特征向量从每个区域.我们定义了视觉生成概率.我们使用了多重伯努利分布[12]计算视觉一般概率。是未标记的图像和为的特征向量.是标签标签的子集。之间的相似性和.联合产生的过程和如下:(1)选择一个映像从训练集;(2)获取分割后的图像区域;(3)对于每个训练图像,;(4)生成视觉描述通过使用条件概率来区域;(5)为每一个词在标签集中;(6)通过使用多个Bernoulli分布生成标签集;(7)使用(7),计算模型中视觉描述和标签的联合概率: 在(7),图像的概率是多少从训练集。由于没有先验知识,可以假设遵守统一分布: 在哪里是训练图像集的大小。
概率用于估计区域的视觉生成概率。假设区域的视觉特征是3乘3分割的区域;可计算如下: 在哪里是图像区域的数量和吗为视觉特征的维度。方程(9)使用高斯核函数估计视觉描述图像中每个区域的.高斯核由协方差矩阵决定.
是多个Bernoulli分布的组成部分。这意味着标签集的概率由训练图像生成.贝叶斯估计用于每个标签标签,如下所示: 在哪里是标签的数量吗在培训集和是训练图像集的大小。是二进制函数(如果包含标签然后1,else 0)。是重量的参数.
5.实验
为了评价基于多网格图像分割的图像自动标注模型,我们使用Corel数据集与其他模型进行了比较。Corel数据集是自动图像标注领域的一个流行数据集,包含5000多张图像。本节重点介绍如何构建有效的自动图像标记模型。为了便于与其他模型进行比较,我们没有使用一些新的视觉特征。我们使用相同的30维特征,包括9维RGB颜色矩、9维Lab颜色矩和12维Gabor纹理特征。为了评估其他自动图像标注模型,我们使用了精度、召回率和-测量来评估标记结果(图6).此外,我们还计算至少一次被正确标记的标签,表示为反映注释单词的覆盖率水平的NZR。
我们需要确定参数值在(4),根据实验。为直方图中类似箱子的数量。横坐标轴表示直方图中相似颜色容器的比例(图4).当相似颜色盒的比例为20%时,我们可以找到最佳注释结果的最优参数值。注释结果的精度和召回率将下降,如果增加,因为高将减少该区域对比度,然后提取的图像区域将受到一些程度的影响。
为了提高多国内映像分割方法的性能,我们与段中引入的当前方法进行了比较2其中基于全局对比度的显著区域检测方法[11[基于图形的图像分割[12,分层可变形模型[13]。实验结果表明,与其他方法相比,我们的方法显示了每种方法的精度(图7).
同时,我们对该模型与其他图像分割方法的精度、召回率、-measure和NZR(表1).
|
||||||||||||||||||||||||||||||||||||||||
最后,我们介绍了我们的自动图像标记模型性能。我们将我们的模型与一些最先进的模型进行了比较,包括跨媒体关联模型[2,3.多重伯努利关联模型[1,多实例多标签[14]和监督学习模型[4]。我们可以发现我们的模型非常有效,标记结果优于最先进的模型(表2).我们的模型获得了最高的精度0.27,比其他模型至少提高了12%。召回率达到0.29,与有监督学习模型相同,召回率明显高于其他模型。我们模型的-测度达到0.28,比获得最高的监督学习模型高出约8%- 以前的最先进的模型。此外,在反映注释词的覆盖范围的NZR的标准中,我们的模型达到144,它也是所有模型中最高的。
|
|||||||||||||||||||||||||||||||||||||||||||||
我们将我们的模型与MBRM模型进行比较,标记标签的排名以标记概率的降序排序(表3.).如果标签是真实的,我们就用粗体。在这里,我们没有选择模型完美标记的测试图像。我们可以很容易地发现,我们的模型的标记结果显示出比MBRM模型更好的性能。此外,我们还发现,有些标签词在数据集的ground truth标注中没有出现,但有些标签词也可以描述图像的内容。也就是说,一些正确的标签会被用户忽略。这些标签是斜体字的。例如,云,水, 和天空不属于第一图像中的地面真相,但这些标签可用于描述第一图像的内容毫无疑问。此外,其他图像中的一些标签也具有相似的情况。
|
||||||||||||||||||||||||||||||||
6.结论
本文提出了多网格图像分割方法。在此基础上,提出了一种基于多网格图像分割方法的图像自动标注模型。针对分割后的图像可能包含多个目标的问题,提出了多网格图像分割方法。与其他图像分割方法相比,该模型具有较高的分割性能。通过对图像自动标注模型的实验,我们的图像自动标注模型在物体特征提取方面表现出了较好的性能。为了评价我们提出的多网格图像分割方法,我们与其他图像分割方法进行了比较,并对我们的自动图像标注模型进行了评价,我们使用了Corel数据集,并与其他著名模型进行了比较:跨媒体关联模型,多重伯努利关联模型,多实例多标签转换,监督学习模型。我们的模型显示了高效,有效和准确的性能在所有评估函数中精度,召回率,- 饲养和NZR。
由于存在局限性并且许多有关的作品,并且即使在这一刻,多媒体数据也在增长,必须防止更强大,可靠,准确的模型。每时每刻都会创建大量数据,我们还需要专注于实时自动注释模型。
利益冲突
提交人声明没有关于本文的出版物的利益冲突。
参考文献
- S. L. Feng,R.Manmatha和V.Lavrenko,“图像和视频注释的多个伯努利相关模型”IEEE计算机愿景和模式识别会议的诉讼程序,pp。1002-1009,2004。查看在:谷歌学术
- J.Jeon,V.LAVRENOKO和R. Manmatha,“使用跨媒体相关模型的自动图像注释和检索”第26届年度国际ACM Sigir的诉讼程序,pp.119-126,2003。查看在:谷歌学术
- 杨颖,黄志明,马志明,“基于视觉事件检测的鲁棒跨媒体传输”,出版ACM多媒体'12.,pp。1045-1048,2012。查看在:谷歌学术
- G. Carneiro, A. B. Chan, P. J. Moreno,和N. Vasconcelos,“用于图像注释和检索的语义类的监督学习”,模式分析与机器智能学报,卷。29,不。3,pp。394-410,2007。查看在:出版商的网站|谷歌学术
- 王颖,梅婷婷,龚淑珍,张志强。Hua,“结合全球、区域和上下文特征的自动图像标注”模式识别,第42卷,第2期2,页259 - 266,2009。查看在:出版商的网站|谷歌学术
- S. Lindstaedt,R.Mörzinger,R. Sorschag,V.Pammer和G. Thallinger“使用视觉内容和愚蠢的自动图像注释”,多媒体工具和应用程序,第42卷,第2期1, pp. 97-113, 2009。查看在:出版商的网站|谷歌学术
- H. T. Manh和G. Lee,“基于自然图像中视觉显著性的小目标分割”,信息处理系统学报,第9卷,第5期。4, pp. 592-601, 2013。查看在:出版商的网站|谷歌学术
- U. J. Divya, K. Hyunseoul, L. Jun, K. Jee-In,“基于分形的自然环境硬件加速方法”,衔接杂志,第4卷,第4期。3,pp。6-12,2013。查看在:谷歌学术
- K. V. Santosh和K. N. Shyam,“基于内容的索引和检索的颜色定向局部五元模式”,以人为中心的计算和信息科学,第4卷,第4期。6、2014。查看在:出版商的网站|谷歌学术
- P. B. Patil和M. B. Kokare,“交互式语义图像检索”,信息处理系统学报,第9卷,第5期。3, pp. 349-364, 2013。查看在:出版商的网站|谷歌学术
- m m。程,G.-X。张宁杰,黄旭东,张志强。Hu,“基于全局对比度的显著区域检测”IEEE计算机视觉与模式识别会议论文集(CVPR’11),第409-416页,2011年6月。查看在:出版商的网站|谷歌学术
- P. F. Felzenszwalb和D. P. Huttenlocher,“高效的基于图形的图像分割”,国际计算机愿景,卷。59,没有。2,pp。167-181,2004。查看在:出版商的网站|谷歌学术
- 熊永华,“基于可变形模型的低分辨率人脸检测”,《中国生物医学工程学报》,第1期,第2期。衔接杂志,第4卷,第4期。2,pp。11-14,2013。查看在:谷歌学术
- S. feng和D. xu,“使用应用到自动图像注释的转换多实例多算法”,具有应用的专家系统,第37卷,第2期1,页661 - 670,2010。查看在:出版商的网站|谷歌学术
版权
版权所有©2014 Woogyoung Jun等人。这是分布下的开放式访问文章知识共享署名许可协议如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。