文摘
垃圾分类是一个社会问题与民生和可持续发展,所以让服务机器人自主执行智能垃圾分类具有重要的研究意义。针对复杂系统的问题与数据源和云服务中心数据传输延迟和不合时宜的反应,与此同时,为了实现感知、存储和分析大量多源异构数据,垃圾检测和分类方法提出了基于视觉场景的理解。这种方法使用知识图的存储和模型项目现场的图像、视频、文本和其他多通道形式。ESA的注意机制是添加到骨干网YOLOv5网络的一部分,旨在提高网络的特征提取能力,结合构建多通道知识图形成YOLOv5-Attention-KG模型,并将其部署到服务机器人执行实时感知场景中的物品。最后,协作训练是进行部署的云服务器端和边缘设备方面的原因和分析实时数据。测试结果表明,与原始YOLOv5模型相比,该模型的检测和分类精度较高,和实时性能也能满足实际使用要求。本文提出的模型可以实现智能决策的垃圾分类大数据的场景在一个复杂的系统,具有一定的推广和着陆条件。
1。介绍
近年来,随着全球垃圾生产表明cliff-like增长,我国也出台了一系列政策,。最新修订的《中华人民共和国预防和控制环境污染的固定废物”在2020年要求当地县级以上人民政府应当加快建立国内垃圾处理系统分类发布、回收、运输、和治疗。在这个阶段,垃圾分类主要是集中在固定地方户外公共环境。有问题,如劳动强度高,分选效率低,工作环境差。事实上,垃圾分类在家庭环境真的能从根源上解决这个问题。然而,由于人民的分类意识不强,分类是麻烦,有许多类型的垃圾;人们很少把垃圾分类。近年来,家庭服务机器人吸引了广泛的关注。其中,清扫机器人是第一个产品实现产业化,已经进入了广泛的消费市场。虽然全面的机器人目前市场上有路径规划等基本功能1,2)、自动充电和自动避障,他们的智力还不高。尽管一个简单的路径规划功能添加到清洗过程,清洗过程是盲目的。无论是否有垃圾需要处理的工作路径,将执行清洁操作,工作效率低。此外,它没有能力区分是否项目是垃圾,也不可以把垃圾分类。事实上,根据形状,材料,和其他项目本身的属性,以及与其他项目的关系,比如它的位置,您可以进一步确定它是垃圾,改善其情报,并避免浪费资源;和不同类型的垃圾应按类别排序,以满足环境保护的要求。
为了解决上述问题,一个可行的解决方案是对家庭服务机器人执行智能垃圾分类任务。一方面,家庭服务机器人配备了视觉传感器,使它获得视觉感知功能(3];另一方面,研究有效的感知检测算法旨在实现视觉场景理解的目的,最终引导家庭服务机器人自主执行智能垃圾分类,提高工作效率,减少能源消耗。目前,并没有公开报道工作进行自主垃圾家庭服务机器人的检测和分类。因此,垃圾分类和检测算法的实现对家庭服务机器人具有一定的现实意义。然而,只有使用检测和分类模型只能实现垃圾的识别和定位,和智慧的程度不高。使机器人实现对象的认知能力和歧视的家庭环境和人类一样,例如,人类能理解他们所看到的,场景中的物品可以关联和想象中的基于这些物品,不仅依赖于外观和几何特征的物品,而且还依赖于指导和推理的高级物品的先验知识。
如果你想要服务机器人有能力识别和区分场景中物体像人类一样,也许视觉场景理解可以胜任。视觉场景理解不仅需要理解图像中每一个实体对象的信息,而且实体对象之间的关系。视觉场景理解,称为图像语义描述,是一个热点问题结合机器视觉和自然语言处理4- - - - - -6]。家庭环境信息具有多样性的特点,语义,和相关性。智能决策基于大数据的垃圾分类项目的现场是研究的关键问题。为了实现智能决定项目是否垃圾的家庭环境,提出了一种基于视觉检测和垃圾分类方法场景的理解。本文的主要贡献如下:首先,现场多通道的建设知识图。针对问题的丰富多样的语义项的家庭环境,这是困难模式,知识图是用来统一表示和存储输入的多通道信息;二是提出一个垃圾分类和检测模型YOLOv5-Attention-KG基于视觉场景的理解。结合改进的YOLOv5m检测算法与知识图并将其部署到设备家庭服务机器人,边缘系统有能力类似于人联系起来,这是提高系统的智能垃圾分类的关键。
随后本文的章节安排如下。部分2从对象检测开始,包括传统方法和深度学习,然后导致知识图,最后提到了边缘系统的计算作为一个演示应用程序;它们之间的相互关系,以及如何将它们集成到方法提出了部分所示3;部分4讨论了实验结果的相关分析和验证模型的提出;部分5总结了本文的研究工作以及未来的前景研究工作。
2。相关工作
最传统的目标检测算法都是基于手工设计和提取特征,结合分类器的建设,相对复杂的模型和可怜的鲁棒性等缺点。深入学习是人工智能领域的一个重要突破过去十年。自从多层卷积神经网络可以自动提取和筛选不同层的特点,与传统的目标检测方法相比,检测效果更准确和泛化能力更强。目前,基于深度学习的目标检测方法分为两种类型:单级和两级7,8]。典型的两阶段方法包括提出卷积神经网络(RCNN)方法(9],快速RCNN方法[10),快RCNN方法(11),提出完整的卷积网络(R-FCN)方法(12),和其他改进方法(13]。单程方法的典型代表是YOLOv1 Redmon提出的算法等。14]。自从YOLOv1直接适合位置坐标和置信水平,有明显的缺陷。的基础上YOLOv1, Redmon等人提出YOLOv2 [15),它使用新DarkNet-19基本网络结构,删除全部连接层和最后汇聚层,并使用锚帧预测的边界框。YOLOv3 [16]是最后版本的YOLO方法提出的意思Redmon et al。两年后,阿列克谢等人提出了YOLOv4 [17)方法。为了提高模型的检测准确性和小目标的能力,他们提出了一个更好的基础网络,DarkNet-53,使用一些技术来提高性能。另一种类型的单级检测方法由SSD (18]。近年来,许多研究人员利用深度学习垃圾分类的技术的研究。杨et al。19)创建了一个垃圾分类数据集,建立了垃圾分类模型使用支持向量机和卷积神经网络。毛等。20.)利用遗传算法优化的参数完全连接层DenseNet121网络和训练有素的垃圾分类模型的分类精度为99.60%。文献[21)使用self-encoding网络重建垃圾分类数据集,并使用CNN自动从数据集中提取功能。Zhang et al。22]快RCNN算法用于检测681街9类垃圾目标图片,和检测地图是0.82,但有一个不平衡分类问题。Seredkin et al。23)使用更快RCNN网络执行垃圾分类精度高和有效实现垃圾识别。陈等人。24]快RCNN算法用于检测199垃圾目标系统获得的管道和错过的标识率为3%,假身份率为9%。Abeywickrama et al。25认为垃圾分类是图像分类,使用支持向量机和卷积神经网络识别和分类6类型的垃圾,,取得了83%的识别结果,识别精度。劳斯等。26]组成的数据集产生2561垃圾图片和设计GarbNet模型的准确率87.69%。需求增加的垃圾移动边缘设备的检测和分类,这些场景中使用大多数硬件设备计算能力较弱,和一些较大的检测网络难以部署。YOLOv5 Ultralytics发起2020年具有体积小,速度快,精度高,适用于边缘设备上部署。因此,本文使用YOLOv5作为基本的网络。此外,由于上述研究是基于对象的前提是垃圾,主要依靠大量的带安全标签的数据,以适应大量的参数预测和缺乏先验知识的指导,因此,系统的智力水平需要进一步提高。因此,本文打算添加一个知识图的基础上YOLOv5算法来进一步提高系统的智能化水平。
知识图的目的是描述实体、属性和它们之间的关系,存在于现实世界。一般用三元组的形式表达,因此它是一个有效的方法使用图的知识存储和表示项目本身的属性信息和相关信息。多通道图像丰富的信息类型知识图通过三元组的语义信息和图像中的图像特征信息,提高信息密度和广泛应用于问答系统(27),搜索和推荐系统(28,29日),和其他领域。文献[30.]使用YOLO9000作为对象识别模块,它可以识别9000对象类别训练后,并使用外部知识图来获取对象相关的背景知识。马里诺et al。31日]研究了应用程序的结构化形式的先验知识知识在图像分类图。刘等人。32)提出了三种知识图的集合MMKG(多通道知识图表),包括所有实体的数字特征和图像和知识之间的整体定位图。陈等人。33学习框架知识嵌入)提出了一个表达式。框架首先构建一个知识图基于统计“category-attribute”相关信息;然后它使用一个图网络传播节点信息图上的学习知识表达;最后设计一个封闭的网络知识表达中嵌入到图像特征的学习过程和指导的学习与功能相关的属性。江et al。34)提出了一种混合的知识路由模块来改善模型性能。为了解决传统方法忽略训练集和测试集之间的关系范畴,王et al。35]提出的使用类别语义表达和知识图指导类别之间的信息传播和应用zero-sample学习。陈等人。36]介绍了统计目标对象和先验知识的可能共存约束预测空间的关系,旨在提高模型在样本分类的准确性。王等人。37]介绍了先验知识之间的关联场景中的人物和周围的对象和执行显式的基于知识的推理。吴et al。38)提出了一个视觉问答方法,构造一个文本表示的图像的语义内容和合并的文本信息知识库,针对场景的深入了解。陆et al。39)结合语言模型的视觉特征和先验知识来确定视觉关系和实现多个视觉关系的检测一幅画。形状和颜色等对象属性,Sun et al。40)提出了一个方法来自动提取视觉概念使用类似的文本和视觉集合。
为了测试方法的有效性提出本文考虑部署模型边缘设备进行实验验证。进行大数据分析和管理在复杂系统中,边缘计算,作为一种新的范式,可以沉云计算功能和服务网络边缘设备附近,提供实时数据分析和智能处理,从而有效地解决网络拥塞的问题和网络延迟造成的大量数据的传输和处理。不同于云计算的大规模数据处理中心、通信、计算、存储、和其他资源的边缘设备在移动边缘计算相对有限41]。一方面,当终端用户的任务需求急剧增加,大量的终端用户需要卸载任务边缘设备,这是容易出现问题,如过度的任务负载和处理延迟增加,导致缺乏任务处理的及时性;另一方面,有一个不平衡负荷分配设备,容易出现问题,一些边缘设备超负荷任务和其他边缘设备资源闲置。为了有效应对上述问题,协调多个边缘设备,可以执行计算任务边缘设备之间实现负载平衡,同时保证最终用户的服务需求。因此,multiedge设备协作已经成为必然趋势。最新的研究工作考虑多个边缘设备的协作执行计算任务。文献[42,43)使用匹配策略制定任务卸载策略在多个终端用户和多个边缘设备。文献[44)研究任务卸载的问题在浓密的边缘设备的部署场景。通过联盟博弈理论在多个边缘设备,形成合作联盟,共同完成计算任务的最终用户。文献[45,46)实现任务卸载边缘设备之间通过一个分布式游戏方法,目标是最小化总执行延迟的任务。
3所示。垃圾分类的设计模型
3.1。系统架构
本文设计一个复杂的系统垃圾检测和分类基于视觉场景的理解。系统的整体架构如图1。首先,通过知识图,多通道项目的统一的表示和存储知识的家庭环境是用来形成先验知识库;其中,YOLOv5m-Attention检测算法识别和定位两个场景中的物品图片和视频的形式来获取项目实体类别和位置信息和先验知识基础结合形成一个视觉场景理解模型YOLOv5m-Attention-KG(见图2);其次,云计算作为计算后台形成合作与边缘设备计算。最后,家庭服务机器人是用作实验验证边缘计算设备,支持实时数据处理和分析,完成任务的垃圾分类。
3.2。关键技术和算法
为了实现自主智能垃圾分类家庭服务机器人,提出了一种YOLOv5m-Attention-KG视觉场景理解模型。模型的结构如图2。首先,根据项目的不同形式的家庭环境,采用不同的模型处理,YOLOv5m-Attention检测算法是用于处理视频和图片的两种形式;使用BLSTM-LCRF和PCNN-BLSTM-Attention王等人提出的。47从文本中提取实体和关系模式。开源结构化数据来自互联网和实体关系提取上面形成一个知识的三倍。知识图最终构成一个统一的语义描述的描述和存储信息,属性信息和空间位置信息的项目现场。开源结构化数据从互联网上收集完成项目属性和关系信息的提取;然后形成一个知识与上面的实体关系抽取三;最后的图可以统一表示和存储知识的语义描述,属性和项目现场的相关信息。其次,在家庭环境检测和分类物品时,YOLOv5m-Attention检测算法将执行实时检测获得它的位置和类别信息和查询语义相似度高的实体信息中的类别信息知识图,根据返回的属性和相关信息来确定项目是否垃圾和什么样的垃圾,并进一步智能决策。
3.2.1之上。多通道知识图
互联网技术的不断普及,来自不同数据源的信息,如文本、图像、视频和音频共同描绘了相同或相关内容,提出了复杂、多层次的语义关系,并形成多通道信息。如图3,多通道知识图分为三个部分:信息表示、知识处理、和知识更新。实体提取通常是自动从多通道样本中提取实体的列表。目前,没有特别研究多通道属性的提取方法提取。一般来说,属性被认为是一种实体的概念,和相同的方法用作实体提取。关系多通道样品分为同步关系和层次关系。一般来说,在提取关系时,一般概念的想法比特定的概念被用来提取显得更加频繁通过计算统计的文本和图像特征之间的关系的实体。知识推理的多通道样品可以使用标签传播基于多通道特性。例如,方et al。48)使用相似度矩阵和图像相似度矩阵标签传播;因子图还可以用于推导和学习。因为每一步施工过程的多通道知识图要求所有多通道样品,如果添加新样本,全面更新是必需的。然而,目前没有更相关的论文多通道知识图。知识图包含大量事实性知识,通常是由三元组表示: 代表的实体,t代表了尾巴的实体r代表了两个实体之间的关系。输入多通道信息知识建模为一个三元组的集合。在知识图,节点用来表示实体和边缘用来表示属性或关系。因此,真正的室内场景中的实体和关系可以形成一个巨大的语义网络。图4是知识的图。同样的实体作为饮料瓶子,由于形状的完整性,材料的属性信息,并与其他实体的关系,可以判断是否可回收的垃圾。
3.2.2。改进YOLOv5m-Attention算法设计
3.2.2.1。网络结构。YOLOv5分为4模型、YOLOv5s YOLOv5m, YOLOv5l, YOLOv5x,根据网络的深度和宽度特征映射。在本文中,考虑到精度和速度,YOLOv5m网络选择的模型项检测和分类。YOLOv5m仍然使用v3和v4的总体布局和整个网络结构分为四个部分:输入、骨干,脖子,和输出。从原始网络的不同之处在于,ESA的注意机制添加交叉阶段后局部网络(CSPNet),如高亮显示的模块,如图所示5。输入终端:自适应缩放图片,采用镶嵌数据增强方法,丰富数据,提高小物体的识别能力,并自动计算最佳锚架价值的数据集。包含重点结构和改善CSPNet支柱。重点结构包括4片操作和1与32卷积核卷积运算,将原始图像到一个608×608×304×304×32特征映射。CSPNet模仿Densenet密集的跨层连接的想法,执行部分跨层融合,并使用不同的层的特征信息获取更丰富的功能映射。在图中,n= 1或2,X需要1或者3,代表X剩余组件Res单位,总共Res单元剩余组件。欧洲航天局模块(见图6)计算的重量信息特征映射的通道位置和空间位置,使网络关注有利于分类的特征区域根据重量分布和抑制背景和其他次要信息。脖子包含路径聚合网络(PANet)和空间金字塔池(SPP)模块。PANet骨料高层特征信息与CSP模块的输出特性不同的层从上到下,然后聚合浅特性通过自下而上的路径聚合结构,从而充分融合不同层次的图像特征。SPP模块首先使用4芯执行最大池大小不同的操作,然后执行张量拼接。输出层:本文GIOU之间损失(49和意识丧失50稍微更好的效果),意识丧失最后的损失函数选为回归预测框。因为意识认为损失的规模信息边界框比例相比GIOU损失和措施三个角的重叠区域,中心点的距离,长宽比,使得预测盒回归更好。
借鉴的思想CBAM [51)和ECA注意力机制(52],ESA注意块首先获得渠道和空间注意体重地图根据的输入特性映射模型;然后分别用原始的特征映射到获得权重的空间和通道特征图;最后,并行通道和空间特征图添加获取特征映射,并注意权重。ESA关注结构如图6。
从CBAM关注机制的不同之处在于,ESA的频道关注凸轮注意机制借鉴ECA注意机制。全球平均后池的输入特性,它不改变通道的尺寸和使用规模k快的一维卷积来捕捉每个通道的地方横渡英吉利海峡的特征信息,取代多层MLP块在CBAM频道关注机制,避免减少注意渠道的问题降维造成的延时,同时大大降低了模型的复杂性。ESA的空间注意山姆注意机制执行全球平均池和最大池操作在相同位置的像素值的输入特性在空间位置和地图获得两个空间注意重量,分别。它们合并成一个地图频道维度2声道特性。然后使用卷积层组成的卷积核压缩通道1,得到特征地图大小 ,最后激活它通过s形的函数来获取空间的关注。
3.2.2.2损失函数。损失函数模型是由分类损失,本地化的损失,和对象丧失信心。YOLOv5使用二进制交叉熵计算对象类别的损失概率和损失信心得分。通过实验,损失函数CIOU_Loss公式所示(1)。
在 , , 代表两个中心点之间的欧几里得距离预测框和对象的盒子,和代表的最小边界矩形的对角线距离。 和 ,分别代表各自的纵横比对象框架和预测框架。
3.2.2.3网络培训。整个培训过程的YOLOv5m网络算法1):
|
一些网络参数描述如表所示1。
4所示。实验
4.1。实验配置
摘要实验是建立在Windows环境。CUDA是一个通用并行计算架构由NVIDIA的。CUDNN深层神经网络是一个GPU加速的库。数据是通过合作的两个训练。实验配置如表所示2。
4.2。数据收集
本文中使用的数据集共有15000国内垃圾图片,其中大部分来自于垃圾分类的数据集竞争由阿里云天池和国内作者垃圾收集的一些图片。数据集可以分为四类,即,可回收垃圾,食品垃圾、有害垃圾和其他垃圾。每个类别包含多个对象。其中可回收垃圾:电力银行、袋、洗涤用品、塑料玩具、塑料餐具、塑料衣架、玻璃器皿、金属器皿,快递袋、插线,旧衣服,拉环,枕头,毛绒玩具,鞋,砧板,纸箱,酒瓶,金属食品,五金,锅,食用油桶,喝瓶,和纸质书;有害垃圾:干电池、软膏和过期的药物;其他垃圾:一次性快餐盒,彩色塑料,但是,牙签,花盆,瓷器,筷子,和花纸;10%的每个类别选择总共1500张图片作为验证集,剩下的13500张图片作为训练集,使用LabelImage工具标签训练集,并生成相应的xml文件进行培训。图7显示了一个视觉显示的数据集。图7显示了一个视觉显示的数据集。左边的图片是标签分布地图数据集。各种项目的样本分布清晰可见。有许多小型和大型的样本目标;正确的图片是数据相关性的分布地图。
4.3。实验指标
这个实验的结果的评价标准主要是精度(P),回忆(R),意味着平均精度(MAP),检测速度FPS。其中,精确代表真正的样品比公认的正样本。
P代表总数的比率预测正确积极的样本总数实际积极预测数据集样本,见公式(2): 在哪里R代表正确的类别的概率样本的预测是正确的,见公式(3):
地图是由精确率P和召回率R。的曲线R水平轴和P纵轴是称为公关曲线。公关曲线下的面积是记录为美联社值,见公式(4),所有对象类别的平均精度的平均值是地图的价值,见公式(5):
其中,TP在公式(2)和(3)表明,正确的类是正确预测的数量分类,FP表明消极类别预测正确的类别,数量,FN表明正确的类别预计随着负数量的类别;在公式(5)N是指检测对象类别的总数。
4.4。实验结果和分析
网络参数训练和验证不同的算法按照表2以上,地图和FPS计算如表所示3。图8显示了改进模型的评价指标的一部分。左上角是训练和验证损失函数曲线。你可以直观的看到,后100时代,损失达到最小值和趋于平衡;右上角是混淆矩阵;左下角是公关曲线;右下角是F1价值曲线。
从结果表3与原YOLOv5算法相比,平均准确率YOLOv5m-Attention-KG时增加了0.4%检测速度是相等的。它还表明,该算法具有更低的成本换取额外的传播时间的检测精度。图9是一个部分的视觉比较结果原始YOLOv5和YOLOv5m-Attention-KG算法,数据在哪里9(一个)- - - - - -9 (k)的检测结果是原始YOLOv5算法和数字9 (b)- - - - - -9(左)是YOLOv5m-Attention-KG算法的相应的检测结果。改进算法与数据的比较9(一个)- - - - - -9 (g)和9 (b)- - - - - -9 (h)很明显,准确率有所提高;数据9(我)- - - - - -9 (k)和数字9 (j)- - - - - -9(左)显示YOLOv5m-Attention-KG算法提高了检测率,和准确率已得到改进。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(j)
(k)
(左)
图10显示了应用程序的垃圾分类。它是一样的实体饮料瓶子的标签,因为它有不同的属性和位置关系与其他实体标签可以做出不同的决定。喝瓶和桌子上的两个实体通过识别算法可以获得他们的实体标签,和实体标签是用作关键字查询neo4j图数据库中,和一个聪明的决定将是垃圾。例如,喝瓶图10 ()放置在地板上,因为它的形状变形,材料是塑料,可以得出结论,它是可回收的垃圾,而喝瓶图吗10 (b)放在桌子上,它的形状完整,所以不能确定是垃圾。
(一)
(b)
5。结论和未来的工作
为了在边缘设备上自动完成智能垃圾分类任务,提出了一种基于视觉检测和垃圾分类方法场景的理解。不同于现有的方法,前提下的知觉检测项目是人工违约垃圾,这种方法使用知识图形和视觉算法实现智能决策的项目现场。未来研究方向:第一,提取场景中的物品的属性和其他物品的相关信息需要进一步深入研究;第二,系统现在只有实时感知两种模态的物品的图片和视频,它可以深入声音模态在未来,通过智能与人互动,改善边缘设备的智能度。
数据可用性
使用的数据来支持本研究的发现不适用,因为数据接口暂时无法提供外部访问。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究受到了中国国家重点研发项目(批准号。2019 yfe0122600, 2018 yfb1700200, 2019 qy1604),中国国家自然科学基金(批准号U1836217),中国湖南省重点研发项目(批准号2019 gk2133),湖南省自然科学基金(批准号。2021 jj50050 jj50058 2021和2020 jj6089),湖南省教育部科研项目(批准号19 b147),教育部在湖南省的关键项目(批准号19 a133),为中国包装联合会科研项目(批准号17 zblwt001kt010),开放平台创新基金会湖南省级教育部门(批准号20 k046)和专项资金支持项目的建设创新型省份湖南(2019 gk4009)。