文摘

字符的出口情况不稳定,图像很容易改变。因此,在本文中,动画角色的智能分析算法基于SSD目标探测,提出了由数据增强策略训练,调整正负样本的加权因子的优化方法。最后,分析智能分析能力服务应用程序的整个过程的动画人物。测试结果验证了改进算法的有效性,该方法可以优化模型的训练过程,帮助用户更方便地理解各种各样的动画角色,有效地提高了信息传播的效率,并最终有助于推动动画产业的发展。

1。介绍

动画产业的蓬勃发展,出现了大量的优秀作品。这些动画作品越来越多的广泛关注和欢迎,其中动画的角色非常不同年龄的人们的喜爱。动画产业的市场价值已明显增加,和它的竞争正变得越来越激烈。为了在市场上占据一席之地,animation-related制造商不断引入新的动画作品和应用程序在他们自己的产品,为了留住和吸引用户。这将是一个非常新奇和有趣的应用程序将人工智能技术集成到产品(1,2]。作为人工智能的一个重要组成部分和新的增长点,计算机视觉必然存在一个爆炸性的发展态势,并一定会广泛应用于各行各业。

作为计算机视觉的一个重要方向,图像目标检测,人工智能技术的支持下,将会有更多的应用发展空间。动画人物形象的分析目标探测的形式可以帮助用户轻松地理解不熟悉的动画人物和引起用户的兴趣,动画人物和相关作品,使动画产品更有趣和有吸引力3]。目标探测任务包括目标的预测位置坐标和目标类别的分类4]。在前者,主要问题是目标的位置,它主要完成分类预测所有可能的目标,并将目标分配给最可信的类别在预设的类别。常见的目标探测任务可分为通用检测任务和特殊的检测任务。一般的检测任务并没有特别定义的类别检测目标,常常需要检测在日常生活中大量的对象。而特殊的检测任务常常专注于特定的场景,例如行人检测在安全监控、人脸检测在身份验证场景和车辆检测在智能交通场景。Girshick等人提出了R-CNN模型(5]。与传统方法相比,R-CNN使用CNN提取候选区域的图像特征,有效地提高了检测精度。然而,由于选定的候选区域的特征提取和卷积网络分别进行,R-CNN需要反复计算卷积运算,这直接导致了算法的运行速度慢。尽管Fast-R-CNN可以完成特征提取、分类和候选人的回归帧目标探测,它仍然使用传统的地区搜索方法,它大大影响了效率。为了解决这个问题,任(6]添加候选区域的生成卷积网络,和一个完整的端到端框架从候选地区生产以实现目标探测。

近年来,一些研究人员提出的目标检测算法基于锚自由。框架的主要思想是将检测的检测要点,定位目标通过检测目标帧的位置,并确定哪些点属于同一目标通过嵌入特性(7- - - - - -9]。这种算法Cornernet和Centernet的例子。该算法可以实现端到端培训。然而,它更难以检测的点。为了达到良好的检测精度,需要对输入图像处理两次,沙漏网络;此外,由于大量的采样操作,网络参数和计算很大,这就需要高内存和计算能力的训练设备,培训和推理的过程是缓慢的。

王等人。10]介绍了当前视频检测算法从三个技术挑战(改进和优化、维护时空序列的一致性和模型轻量级)。有四种类型:基于运动信息,检测和跟踪,轻量级的视频检测和使用交叉模型相结合(如变压器和视频检测在自然语言处理领域)。周(11)研究了基于时间序列的特征检测方法,结合特征融合和双模型来检测视频逐帧,纠正当前帧的检测结果通过前一帧的反馈,以提高帧之间的连续性,提高检测精度和视频连续性。

基于上述分析,每个动画角色定义为一个类别可以实现动画角色在动画场景的检测。因此,通过部分选择SSD检测模块中,本文提出了一种智能分析算法基于目标探测的动画人物,为了减少检测精度。同时,分析了算法的应用场景,以帮助用户理解各种各样的动画角色更加方便,有效地提高信息传播的效率,最后参与推动动画产业的发展。

2。智能分析算法基于深度学习的动画人物

2.1。SSD的目标检测算法
2.1.1。网络体系结构

SSD的网络结构是由两部分组成:前端网络和辅助网络结构。前端的网络基本SSD是古典VGG16卷积神经网络结构。然后有Conv6 Conv7,从最初的FC6全连接网络层。

在此基础上,SSD网络继续添加Conv8_2 Conv9_2, Convl0_2, Convll_2,前面的Conv6 Conv7形成了辅助网络结构。如图1的宽度和高度,立方体代表特性图的大小,和厚度代表通道的数量。

2.1.2。选择默认的盒子

网络结构设计中基于端到端的深度学习目标检测,生成默认盒子是非常重要的任务,可以通过网络和目标检测的性能。如图2,假设 不同的功能图。功能图网格是指每个小网格特性图,有64和16个网格地图的功能 ,分别。默认框意味着每个网格的特征对应于预设固定大小的盒子,如图2有四个虚线对应于一个小网格。

假设每个特性网格应该k默认的盒子,然后n_label类别信心和4位置偏移量相对于默认的盒子需要预测每个默认的盒子。此外,假设图大小的功能 ,并使用一些小卷积运算 卷积检查功能图形输出(n_label + 4) 预测的值。

特征图与不同深度的网络层有不同的相应的原始图像大小的感觉。假设我们使用m的特征图谱网络层不同深度预测,和默认的盒子大小比公式不同层的特征图如下:

每个默认的盒子有不同的形状,在基地SSD算法。每个默认框的宽度计算如下:

每个默认的盒子的高度计算如下:

虽然动画中动画人物故事在不同的时间还不确定,动画人物的头是最高频率,其中包含的发型和整个动画人物的面部特征。因此,本文选择标签代表动画角色动画人物的头。然而,头部的形状相对单一。在这篇文章中,一套新的默认盒子形状是基于大量的标签头形状。新宽度比高度是{1/2,1,3/2}。

2.1.3。算法流程

在SSD的培训框架,真正的标签盒和默认盒匹配以下列方式:(1)首先,找到默认最大的盒子Jaccard重叠与每个真正的注释框,以确保每个真正的注释框对应一个唯一的默认框。(2)然后试着对其余的缺省盒子没有搭配任何真正的注释框。只要Jaccard重叠两个大于阈值,它被认为是一场比赛。以这种方式,默认框搭配真正的盒子是积极的样品,和默认的框,不是真正的盒子是成对的负样本。

SSD算法的训练是基于文献[10]。总体目标损失函数如下: 在哪里c代表类别的信心, 代表目标预测盒, 代表目标实际标签框,默认值α= 1。

Loc的计算如下:

其中, 代表帧的中心的坐标 ,分别框的宽度和高度, 代表了泡沫, 代表默认的帧, 代表偏移量的预测目标框。

设计是一个典型的Softmax损失函数,如下所示:

2.2。算法的优化

对于SSD算法,一个严重的问题是标签类的不平衡。消极的情况下(基础类)的数量大于正面例子的数量很多。每个培训照片可以产生多达8732个候选帧不同尺度下的前馈网络的过程。因为标签框的数量在一个训练地图通常只有几个甚至一个,即使借据阈值0.5是用于匹配,候选人盒子的数量可以匹配上标盒仍只有一小部分的所有候选框。

动画培训的字符识别深学习模式,背景样本的数量远比积极的样本包括动画人物(12]。因此,模型往往学习“背景”而不是“什么是目标,”在应用程序减少了目标探测的准确性。因为本文是主要的主要应用场景动画人物的图片,没有必要确定小动画角色形象,和下面的字符与分辨率150×150也排除在注释数据。我们可以有选择地保留一些内容和项目在原来的网络,和需要一个检测模块匹配程度高,因此模型训练和推理的效率可以提高不降低精度。

因此,一个重量参数 添加到SSD的信心损失函数。新的信心损失函数如下:

3所示。模型试验

3.1。数据源

首先,需要大量的卡通人物图片,和图片中的人物是显著的。36在11个经典动画人物动画作品需要认同500张照片。此外,不少于30%的训练集样本大小应该准备的测试集,动画角色是JPG图片的格式,分辨率应不低于 ,和图中字符的大小不应小于 像素。的过程中获取训练数据来源如图3:

整个动画作品而言,动画角色的大量图像数据整理本文是相对较小的,和实际动画角色的培训检测模型远远不够。因此,本文增强原动画图像数据。在某种程度上,数据增强可以防止过拟合训练,它假设在过去的一个重要组成部分的应答能力和猜测能力准备模型。其方法如图所示4

3.2。数据标签

准备的源数据图像包含动画人物,注释终端下载的源数据图像注释子系统通过FTP协议,然后标签。特定的标记方法是标记照片中的卡通人物的位置在一个矩形框,即帧字符的位置,和标签的水平和垂直坐标的左上角和右下角的图片。需求如下:(1)用矩形框标签目标卡通人物图片;(2)人物的头部和身体是框架分别和矩形框接近边缘的角色;(3)如果有太少的身体部分的动画人物被诬陷,身体不能选择框选择;(4)所有前面,一边,应该选择的字符帧;(5)当动画角色大小小于 像素,这不是标签;(6)当注释器无法判断和数据丢失之前,动画角色不是标记;(7)尽量避免添加字幕和其他无关信息动画角色;(8)当矩形框的边缘图像,矩形框应该接近边缘。

增强对大规模训练数据生成的数据,动画人物的大小和位置是已知信息的过程中增强,可以直接生成注释信息没有人工注释,可以节省大量的劳动力成本,避免人工注释所造成的误差。

3.3。测试代码

本文所有实验实现咖啡开源框架(13]。改进的SSD的积极损失权重因子3,和训练效果与原来的SSD。实施积极的损失加权法,我们需要添加代码的计算的损失价值Caffe-SSD源代码。

3.4。评价指标

训练集包括大约15000在原始图像动画图像数据和这些数据的增强图像。验证集是随机从原始动画图像,提取共有5000块。训练迭代次数设置为30000,和每次迭代每1000次,验证的结果验证使用意味着平均精度(mAP)作为评价标准。目标检测的任务,每个检测到的目标可以计算其精度和召回。经过多次实验,我们可以得到一个P-R曲线为每个目标类别。美联社的价值曲线下的面积,和地图的价值目标类别的AP值的平均值。映射的值范围是0到1。

4所示。结果与讨论

4.1。数据增强

5是动画图像数据的图像增强地图。其中,红色曲线代表了地图的改变值的验证设置随着迭代次数的增加,原始数据作为训练集,绿色曲线显示地图的变化值的验证设置随着迭代次数的增加在增强的数据作为训练集进行训练。

它可以清楚地看到从图5之前,尽管12500次迭代,地图的价值红色曲线略高于绿色曲线,但在那之后,红色的地图价值曲线的增长往往是平的,而绿色的地图价值曲线继续保持增长趋势,很快超过了红色的地图价值曲线。最后,地图的价值模型训练的原始数据是稳定在0.65,而训练增强的数据稳定在0.72左右,也就是增加了10.7%。可以看出,数据增强可以提高性能。

4.2。模型优化

如图6,纵坐标是地图的结果验证验证组的培训过程。红色的曲线和黄色曲线代表的变化映射值验证了验证设置时 设置为0和3进行训练。

可以清楚地看到,对改进的SSD,地图显示速度最快的增长趋势和稳定在一个较高的值为0.77,而原始的SSD稳定在0.69,相比下降了10.4%。可以看出,适当增加积极的减肥样品可以提高动画品质检测的性能模型。

7显示了比较原始SSD和改进SSD之间的损失函数。

它可以清楚地看到从图相应的收敛曲线的变化趋势随不同的W值随着W的值增加,最终收敛损失函数值相应增长。这表明积极的减肥确实会影响模型的训练样本。

5。应用场景

培训后的动画角色智能识别模型完成后,需要部署为为服务器调用后端服务。这个服务需要部署在服务器支持快进深度学习模型的推导过程,如图8

5.1。移动终端

当观看动画,移动客户端用户将看到不熟悉的动画人物和想知道更多关于动画角色。他们可以用摄影机动画图片在客户端系统或直接读取本地动画图片。他们可以通过使用图像上传图片搜索功能在全球搜索。

5.2。客户端

产品端服务器将存储的图像数据维下载图片服务器,维下载图像服务器返回图像的URL地址到产品服务器;当客户端发送一个请求到智能分析功能服务的动画人物通过服务器产品。后者获得维下载图像的图像源文件服务器通过分析图片的URL地址,分析动画角色的图片,并将处理结果发送给服务器产品。

5.3。产品终端

在产品方面,服务器选择最高的动画角色相关根据处理结果,使用动画角色的名称作为关键字来搜索相关的作品动画角色通过搜索引擎,并推荐相关信息到客户端用户。

6。结论

本文提出了一种智能分析算法基于SSD目标探测的动画人物。通过网络爬虫收集数据库包含36种动画人物,大规模生产和高精度的训练数据的数据增强。SSD提高通过修改分类重量损失函数。结果表明,在不增加模型参数和测试时间,动画字符识别的准确率从69%提高到77%,它提供了一个强大的算法支持动画字符识别的实际应用。通过部署应用程序服务智能分析能力的动画角色,用户可以很容易地理解各种各样的卡通人物和有效地提高信息传播的效率,在促进发展中扮演重要角色的动画产业。

数据可用性

数据集可以在访问请求。

的利益冲突

作者宣称没有利益冲突。