文摘
通过人体运动信息的识别和分析,可以获得人体的实际运动状态。然而,multifeature融合识别的准确性和鲁棒性的人类行为有一定的局限性。结合强化学习,multifeature融合人类行为识别是研究人类行为,我们提出了一个multifeature融合识别算法利用强化学习。首先,选择几种典型人类行为数据集的研究数据基准数据集。在选定的数据集,行为类别包含在每个视频是一样的行为,有类别标记。其次,注意模型。在强化学习网络,小采样区域作为模型的输入。最后,估计下一个视觉区域的相应位置后根据时间序列的信息输入。人类行为识别算法基于深度强化学习multifeature融合完成。结果表明,平均multifeature融合算法的精度约为95%,人类行为识别效果好,识别准确率高达98%,通过摄像机运动影响性能测试和算法的鲁棒性,并且算法的平均时间消费只有12.7,这表明,该算法具有非常广阔的应用前景。
1。介绍
人类行为识别是指识别和使用的人类行为模式和行为类别(1,2]。通过识别和分析人体运动信息,人体的实际运动状态,和各种相关服务可以提供结合其实际需要。国外一些学者已经把人类行为分为三个层次:运动单位,行动,和活动。运动单位是指实际的运动元素组成的运动3]。行动是指根据一定的顺序动作元素的组合,形成一个动作序列的特定类型的运动(4,5]。活动指的是一个更广泛的概念,代表人体的复杂的运动,这是密切相关的对象和周围环境(6]。人类行为的识别通常是结合multifeature融合,及其应用前景非常广泛。它在许多领域被广泛开发,包括智能假肢,年迈的监视和运动检测(7,8]。智能假肢,人类行为可以帮助获得阶段的识别一个人的步态和制定运动控制策略根据不同阶段帮助人体移动。对于老年人的监测,识别人类的行为可以帮助检测和实时问题警报等各种危险行为瀑布和监控各种行动的老年人(9,10]。人类行为的运动检测,识别可以帮助锻炼消耗的卡路里计算行为基于不同的行为的持续时间和运动强度数据11),从而达到实时监控的目的的人类运动(12]。
文献[13)提出基于模糊推理的深入强化学习认识到智能交通灯的控制行为。智能交通系统克服传统运输系统的局限性,已成为智能城市的一个重要组成部分,已被广泛使用。为了提高效率的交通灯控制系统,一个动态的智能交通灯控制系统,以实时交通信息为输入和动态调整的持续时间提出了红绿灯。此外,提出动态和智能交通灯控制系统(DITLCS)在三种模式:公平模式,优先模式,和紧急模式。其中,所有车辆被视为平等的优先级,不同类型的车辆有不同的优先级别,分别和紧急车辆优先级最高。文献[14]提出的研究基于你只看一次当地的光流方法(YOLO)意思在人类行为的认可。通过计算光流模人类目标所在的区域,减少计算量和计算时间保存。则设置一个阈值来完成这个人的行为的身份。通过设计算法的步骤和实验验证,行走,跑步,和人体的状态下降的室内运动视频在现实生活中被识别。实验结果表明,该算法更有利于慢跑行为的识别。文献[15)提出了人类行为识别多视图视频,使用深度学习技术,包括卷积神经网络和long-short-term记忆网络。multiviewpoint框架下构造深度网络学习人类行为的长期相关性识别从视频。使用两个摄像头传感器有效地克服了闭塞和轮廓模糊的问题,提高了多视图框架的准确性。文献[16]提出的应用主成分Analysis-Long-Short-Term内存(PCA-LSTM)模型在人类行为识别、收集和处理表面肌电图(EMG)人类上肢的信号,并将它们到PCA模型进行数据降维。此外,dimensionality-reduced数据放入长期短期记忆(LSTM)神经网络模型对人类行为进行分类,从而计算分类效率和识别率。
上面的方法有一定的局限性在识别的准确性和鲁棒性。深入强化学习相结合来研究multifeature融合人类行为识别问题,和人类行为multifeature融合识别算法提出了基于深度强化学习。本文算法的主要贡献如下:(1)该算法可以实现各种人类行为的识别,取得了良好的识别效果。(2)本文构造了一个强化学习模型,提出了一个特定的结构深度强化学习网络的识别模型(3)该算法可以快速锁定后的字符区域观察,学习能力更显著,整体鲁棒性强。(4)一些索引用于验证该算法的有效性。
2。相关的工作
关于人类行为multifeature融合识别的问题,国外的相关研究进行了很长一段时间,和各种识别算法提出了非接触类型和联系类型(17,18]。其中,非接触型算法包括multifeature融合人类行为识别算法基于视觉检测技术。接触式算法包括multifeature融合人类行为识别算法基于传感器检测等等。虽然在这个问题上国内研究起步较晚,近年来取得了突破性的研究成果,主要用于各种人类行为的识别。文献[19)提出实现液位控制人类行为的深入的强化学习,获取环境的有效表示从高维感官输入,并使用这些经验扩展到新的情况。深问网络是一种新的人工智能训练神经网络。它可以使用端到端强化学习直接从高维感官输入学习成功的战略。文献[20.]提出了使用多尺度深强化学习建立一个大规模的量化图像数据库和集成的初步体验人类行为分析。此外,本文还探讨了全身卷的可行性分析全自动工作流基于深度强化学习的影响以及对比和切片厚度对器官体积的计算。多尺度DRL用于检测全身器官的三维解剖里程碑点体积和三维器官分割。但精度不高。
文献[21)提出了一种人类行为识别算法的基础上,融合图像的多个特征和条件随机场。该算法由三个基本级联模块。首先,循环神经网络构造,然后介绍了特性相似,形成更全面和准确的使用特性相似。最后,图像被公认的人类行为通过使用多个条件随机域的特性,和多个特性的算法处理效果差。文献[22提出了一种基于multifeature融合识别算法。在该算法中,局部二进制模式特性的变化分布投影误差有关。快速和准确的检测,研究从专业的面部表情数据库提取数据。的比较显示了该算法的效率,但识别时间长。文献[23)提出了一种递归神经网络技术,它使用RGB和骨架为人类活动识别序列。识别准确性需要进一步改善。文献[24)提出了一个基于multifeature驾驶助理算法融合,建立一个multifeature融合模型从红外图像的角度,建立了一个时空相关性模型根据模糊集理论,全面分析和实现的算法研究,但它需要很长时间。文献[25构造深度学习网络结构,提取并结合浅和深特性,并使用神经网络对特征加权融合,实现人类行为识别,但是该算法设计是复杂和耗时。文献[26人类运动构造一个多视图映射,提取图像的梯度直方图,使用融合算法生成特征向量,并进一步进行图像特征分离完成人类行为识别,但精度不高。
3所示。人类行为识别算法基于Multifeature融合结合强化学习
3.1。建设人类行为的数据
几种典型选为研究人类行为数据集的数据基准数据集由多个人类行为研究机构发布。首先,研究数据进行聚类分析,利用k - means算法。特定的聚类准则函数如下: 在哪里 ; 是集群的中心 ; 集群的数量,是数据的大小。
在这个算法中,样本根据最小距离原则,分配如下: 在哪里指的是最小距离,是指集中样本,具体公式如下: 在哪里指的是样本。
通过该算法,最终输出聚类如下: 在哪里指的是输出集群。
研究数据,行为类别包含在每个视频所选择的数据集是相同的行为和有类别标记。测试数据集分为训练子集,子集,两者之间没有交集。
与固定的场景,角色扮演数据集测试子集和训练子集必须包含不同的角色。其中,主要用于训练子集参数训练。培训完成后,测试子集用于测试模型,以及模型参数在测试期间不调整,如表所示1。
k共有四个控制场面,25人六个动作:鼓掌,挥舞着,拳击,跑步,慢跑,散步。在原始视频,将采样得到的样本,样本是160×120像素。摄像机是固定的样本时,背景是单身,还有灯光的变化,外观,和服装,以及改变人的规模。
有九个类型的行动包括在魏茨曼,摆动手臂起飞,一跳,双手,单手,搬到一边,飞跳,跳跃、跑步和散步。所有行动都是单人操作,保持背景。有类别标记和相应的轮廓信息的人体数据集。
有14种行为纳入IXMAS。11人完成这14种行为。每个人三次重复同样的动作,修复相机,让光线变化小。视频拍摄于5角,一位视图方向和四个侧面方向(27]。由于拍摄角度大,同样的动作的视觉差异相对较大的数据集,因此相对很难识别。
有两个数据集在好莱坞;第一个被枪杀在一个受控的环境中,和视频数据的数量相对较小。第二个是提取操作从好莱坞电影片段,其中包含十个不同的场景和十二个动作类别。提取的视频中,人物的姿势,衣服,表情有很大的不同,有遮挡等干扰因素,光线的变化,整个场景变化很大,相机也动。因为示例场景是接近真实的场景,这是非常具有挑战性的认识到人类行为(28]。
HMDB51有51个行为类别,包括酗酒、攀爬、打高尔夫球、骑马。大的数据集,有视频和视频类别差异较小的类别差异。既有视频与重要的操作特点和更大的操作范围和视频操作特点和较小的操作范围(不足29日]。因为这在互联网上收集的数据集,规模变化和角色的外观变化很大,和背景也更加复杂,极具挑战性。样品在这个数据集的例子在图所示1。
UCF101主要收集101个人类行为在YouTube网站上。一般来说,这些101年人类行为可以分为五类:演奏乐器,人类活动30.),与对象交互,和人交流,运动。样品在这个数据集的例子在图所示2。
3.2。构造一个注意力模型
为了解决视觉区域和时间序列的选择问题,注意模型;深入强化学习网络中,一个小采样面积作为模型的输入,和未来的愿景是基于时间序列信息输入后(31日,32]。相应的区域的位置估计。首先,构建一个强化学习模型,主要描述了强化学习任务通过马尔可夫决策:智能体不断与外部环境交互获得环境信息。环境信息是环境状态,即知觉环境所描述的代理。代理决定下一步行动的基础上获得的环境信息和环境影响采取的行动。首先,强化学习模型建立,如图3。
在强化学习模型构造图3代理模型的核心。代理不断与外部环境交互来获取环境信息,这是环境的状态(状态),同时获得增强的信息提供的环境(奖励)。代理将决定下一步行动(行动)根据知觉信息通过行动和影响环境。
注意机制是通过构造强化学习模型,实现环境的输入视频序列,表示 ,类别来标示 ,和输入步骤框架表示为 。深入强化学习网络作为一个代理(33]。
第一次奖励函数定义如下: 在哪里指的是功能和奖励指的是增强的时期。
目标函数定义。这是下列公式所示: 在哪里指的是目标函数,是指环境和智能体之间的相互作用,和指的是策略参数。
通过梯度下降法(34),战略的动态参数更新: 在哪里是指战略与更新动力学参数;指之前的策略参数动态更新;指的是动态更新的阈值;指的是改进的阈值。
更新后的实际梯度目标函数如下:
在实际解决方案中,实际的梯度的近似解。这是下列公式所示: 在哪里指的是数学期望的样本数量值估计;指预期的阈值。
该策略概率是扩大。这是下列公式所示: 在哪里是指样本长度;指的是蒙特卡罗阈值。
概率的对数导数策略如下: 在哪里指的是估计价值;是指随机输出值;指的是高斯分布。
策略的概率数据扩张获得最终的目标函数的梯度的表达:
然后估计奖励函数b介绍了。确保更新后的梯度的平滑度(35),更新后的梯度值如下:
最后,更新后的梯度值用作注意力机制。
3.3。建立一个网络识别深层强化学习模型
深层基于强化学习,强化学习网络识别模型和构造模型主要用于multifeature通过3 d卷积网络融合人类行为识别。的具体结构模型如图4。
建设的强化学习网络识别模型,首先分为人类行为形象T单位,然后基于强化学习,人类和环境信息感知和强化学习在每个单元上执行,结合3 d卷积神经网络特性的计算方法,以及融合的复合的特征,使用激活函数(Softmax)特征值转化为一个非线性特性,最后完成功能分类的平均值计算。
3.4。人类行为识别算法集成多个特性
深层强化学习算法训练连接隐藏层和输出层之间的关系,以及人类行为识别算法设计和集成实现multifeature融合人类行为的认可。
算法的隐藏层指的是先进信息技术的深度集成,充分发挥人工智能技术的特点和实现自主决策、自主执行和识别过程中动态优化。算法的输出层指的是深部开采数据值的识别过程实现辅助决策。
人类行为的融合识别算法描述如下:输入:训练样本和测试样本的深度强化学习网络识别模型输出:组织认识到人类行为记录(1)multifeature融合人类行为识别,人工智能系统的操作环境采用三级云平台提供后端服务安全控制基本数据和用户信息。所有的云平台服务器提供现场机房环境和设备的管理和检查。(2)注册和认证所需的入口和出口,这将由一个专门的人在整个过程。网络安全与远程管理必须通过SSLVPN访问云平台,不同的角色分配不同的访问权限,核心设备定期更新密码。公共服务只打开特定的服务、应用程序和端口。(3)基于应用程序和港口管理和控制,防火墙设备是在一个透明的模式下,致力于数据过滤。(4)端口和地址转换是由专用路由器完成。(5)假设指根标记树从人类行为差异特性生成记录,和是指节点和节点一级子树的人类行为识别特征树,和是指相同的符号名称,然后方程(14)是用来区分人类行为相似度高。 (6)假设指的是内容识别人类的行为;的计算公式是 在上面的公式中,是指人体组织认可。
人类行为融合识别算法的操作流程如图5。
4所示。实验分析及结果
4.1。实验环境和数据集
进行了仿真实验设计multifeature融合人类行为识别算法基于强化学习。
运行环境的仿真实验如下:Windows 10系统,CPU 8 GB的内存。实验环境的主要操作工具MAX + PLUSII,它提供了一个接口,可以用于其他行业标准EDA工具软件。这个接口符合EDIF200和EDIF300标准,LPM2.1参数模块库,SDF2.0, VITAL95, Verilog HDL, VHDL1987, VHDL1993标准。其他的EDA工具和软件可以用来设计输入,然后编译和MAX + PLUSII计算机处理。第三方EDA工具还可用于设备和板级仿真。
88年研究的数据集,选择视频模型训练的实验中,选择和37个视频模型试验的实验。实验参数设置完成后,鲁棒性和识别的准确性multifeature融合人类行为识别算法基于深度强化学习测试,以及相机运动对性能的影响也进行测试。
4.2。实验步骤
(一)构建模拟环境和调试操作参数。人类行为(b)收集数据从六个数据集:k,魏茨曼,IXMAS,好莱坞,HMDB51 UCF101,预处理数据的数据源。(c)人类行为识别的效果,这个算法是模拟的,和其他文献选择比较算法模拟,和不同的算法的识别结果。(d)保存仿真结果在固定文件,以避免重复计算。(e)设计的实验指标,测试和分析了算法在不同的数据集,并比较和验证人类行为识别的影响。
4.3。实验标准
在实验中,参数设置的深度强化学习网络识别模型如表所示2。
设置实验参数后,鲁棒性和识别的准确性multifeature融合人类行为识别算法基于深度强化学习测试,和相机运动的影响性能测试。(1)算法的识别精度:为了提高实验结果的比较,现有的算法是用作比较的实验,比较测试项目和实验数据的识别精度也获得和比较。比较实验算法包括multifeature融合人类行为识别算法基于视觉检测技术,传感器检测和射频电子标签。 在上面的方程中,指样本数量的正确认识,是指整个测试样本的大小。(2)算法鲁棒性:multifeature融合人类行为识别算法的鲁棒性测试,基于深度强化学习情况包括初始取样影响性能和摄像机运动情况下影响性能。测试的初始抽样对性能的影响,选择的观察窗的76×76像素,和最初的观察窗是随机选择的,或者字符区域确定最初的观察窗。(3)摄像机运动影响性能:相机运动的性能测试和识别率的变化相机运动后消除。(4)识别耗时:算法的运行时间是反映其性能的重要指标之一。因此,为了验证本文算法的效率,识别时间选为指标。
4.4。结果与讨论
4.1.1。识别精度测试的比较
识别精度的测试结果如图6和7。其中的识别精度的测试结果是上半年的视频在实验视频数据集。
测试结果的识别精度下半年实验视频数据的视频设置如图7。
的最高精度算法在文献[13)、文学(14]和文献[15)不超过80%,明显低于。可以看出,本文采用的深层强化学习技术已经非常高效的计算性能和可以有效改善人类行为识别的准确性。本文识别精度约为98%,最高和识别效果更好。
10/24/11。比较健壮性测试
初始取样影响性能的具体测试结果如表所示3。
根据表3后,识别率更高字符区域确定为最初的观察窗,但改善效果并不显著。这表明该算法可以快速锁定后的字符区域观察,学习能力更显著,整体鲁棒性强。
4.4.3。比较相机运动性能测试
测试相机运动性能的影响时,最初的观察窗是随机选择的。摄像机运动影响性能的具体测试结果如表所示4。
根据表4,识别率略有改进后消除摄像机运动,表明相机运动不会对性能有很大的影响,算法的总体性能是相对强劲。
5。比较认可的时间消耗
不同的算法的人类行为识别时间是六个不同的数据集上测试过。结果如表所示5。
根据人类行为的时间消耗比较结果在表识别不同的算法5,它可以发现算法的平均时间消耗在文献[15)是最高,达到49.3秒,而消费的不同算法的平均时间在文献[13]和文献[14很小,但它们都超过35年代,虽然该算法的平均时间消费只有12.7秒,表明本文算法运行速度更快,更有效率。它在实际应用中具有一定的优势。
6。结论
结合深层强化学习研究人类行为multifeature融合识别的问题,multifeature融合人类行为识别算法基于强化学习设计,达到提高识别的准确性和稳定的鲁棒性。结果表明,该算法的识别精度高于其他四个算法。确定区域的人后,识别率较高,和鲁棒性性能更强的人面积作为最初的观察窗。消除摄像机运动后,识别率略有改善,具有良好的适用性。
Multifeature融合人类行为识别仍处于开发阶段,和各种类型的识别算法逐渐被提出。需要不断优化人类行为识别根据深度强化学习的发展,提供一个基础的集成multifeature人类行为识别真正的和准确的。该算法中使用的数据集比较旧,它将在未来的研究中,更新和算法的识别精度进一步提高。(1)识别的特性,该算法不需要选择合适的预测特性不同的项目。因此,在后续的研究过程中,充分考虑不同特征的识别算法,并执行一个新的测量根据实际发展情况。(2)在识别过程中,通过深入强化学习提高识别精度。然而,从实验的角度来看,研究应该进行multifeature融合后获得的人类行为识别深层强化学习,提高预测效果。
数据可用性
使用的数据来支持本研究的结果包括在本文中。读者可以访问数据支持这项研究的结论从魏茨曼,k, IXMAS,好莱坞,HMDB51, UCF101数据集。
的利益冲突
作者宣称没有利益冲突的任何金融机构关于报告的材料在这个手稿。
确认
这项工作是支持的研究和黑龙江省哲学社会科学规划项目(19 tyc156)。