计算智能和神经科学

在这一页上

文摘介绍相关工作分析的结果结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

4.0人类行为建模在工程管理行业

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID6761857| https://doi.org/10.1155/2022/6761857

人类体育视频内容分析在工程管理包含高层语义识别模型

阮回族 ¹

学术编辑器: 慧华陈

收到了 2021年11月15日

修改后的 2021年12月17日

接受 2021年12月23日

发表 2022年1月12

文摘

本文使用高级语义识别模型来解析人类运动的视频内容在工程管理,和上一层的流形状是嵌入到下一层的卷积运算,这样每一层的卷积神经网络可以有效地保持上一层的流结构,从而获得能反映视频图像特征表示图像最近邻关系和关联特性。方法应用于图像分类,实验结果表明,该方法能更有效地提取图像特征,从而提高功能分类的准确性。因为细粒度操作通常有着很高的相似性在表型和运动模式,只有细微的差别在当地区域,灵感来自于人类的视觉系统,本文提出了将视觉注意力机制集成到细粒度的行动特征提取过程为线索提取特征。以问题为导向,制定运动员的隐性知识管理战略和选择独特的自由式空中技巧国家队作为实证分析的对象,组成一个更科学和组织隐性知识管理程序,实现的成员施加影响,修改形成隐性知识管理实现项目具有一定的推广价值。群体行为可以通过分析确定个人和个人之间交互信息的行为。个人交互可以表示为一组个人陈述,和个人行为之间的关系可以通过建模分析了个体之间的关系表示。不匹配的数据集上的性能改进方法相当多空之间的时间网络基于时间信息和语言识别方法与高层语义嵌入向量,用这两种方法提高12.6%和23.0%,分别比使用原有的模式和方法我向量基线系统基于支持向量机的分类方法和径向基函数,分别与性能提高约10.10%和10.88%。

1。介绍

随着信息技术的不断发展,人们获取和存储大量的视频信息的方式不断向多元化发展,和视频信息逐渐成为主流的多媒体数据载体。在庞大的视频数据资源的背景下,用户面对的挑战是如何有效地检索视频资源根据他们的利益1]。因此,有必要进行分类和组织的大规模视频资源智能方便用户检索根据他们的偏好。视频语义分析技术可以在视频注释和分类重要语义信息,并根据他们喜欢的类别,用户可以检索,提高了用户获取信息的效率。此外,基于主机实现的视频语义分析技术可以取代人工注释工作,减少许多人力资源和提高信息的利用率。视频语义概念分析指的是广义的描述视频内容获取视频序列后,和事件的内容,场景,对象等等是multicategory语义概念中包含的语义信息。大量的视频数据大组内变异同样的操作类,这可能是由于背景杂乱,角度变化,移动速度和风格2]。特别是,深度学习模型生成的特征信息是非常大的。只有当巨大的特征空间中使用的注意机制模型提取更多有效的特性和丢弃无用的信息。高维度和低分辨率的视频进一步增加的难度设计高效和健壮的识别方法。尽管传统的人工注释方法可以实现视频语义概念的理解和描述在某种程度上,人工注释的时间和劳动力成本是巨大的,主观的,并且难以跨越底层特征和语义之间的语义鸿沟对视频数据的理解,及其注释速度不能达到有效的分类和组织视频数据(3]。因此,近年来,研究人员他们的研究集中在如何自动访问视频数据和注释的语义概念,分类,并组织丰富的视频数据。本研究具有重要的学术和应用价值,有助于提高视频管理技术,使它们更完整和更有效率。

视频语义概念分析是一个关键和困难地区领域的机器学习和模式识别,视频数据可以有效地和智能检索和组织的认识和了解的主要事件,场景,视频中的对象。近年来,随着科技的快速发展和硬件设备的计算能力的提高,视频采集的方式已经成为快(4,5]。视频检索视频数据库中找到一个匹配的过程中根据用户的文本描述根据特定的算法和过滤所有视频匹配用户的需要根据一些资格条件。群体行为识别技术可以获得标签人群场景图像能提供线索的图像和视频检索组场景。群体行为识别技术的进步是一个很好的促进人群场景分类,标签,和检索。随着电子设备的普及,特别是移动电子设备如手机、人民生活方式的改变,并记录他们的生产生活的需要,大量的图像和视频数据生成。然而,这不是一个简单的任务管理和利用这些大量的图像和数据6]。一个好的起点不仅可以防止梯度下降算法陷入局部极点也很难跳出但减少时间找到全局最优解,如果初始化点是接近最优解。目前的视频检索技术严重依赖用户提交和分享视频和视频主题描述。这是难以实现实时,很难得到细节,描述具体细节繁琐和耗时,只有基于图像和视频分析技术可以实现实时帧分析。群体行为识别技术感兴趣的人群场景的实时框架水准仪视频分类检索。

分类和检测视频的行为是计算机视觉领域的一个重要的研究课题,它有着非常广泛的应用于智能人机交互、视频监控、远程医疗等领域。传统的行动分析任务的困难主要来自几个方面:起源于相同的动作的差异由不同的人来完成;环境因素的影响,如遮挡、观点的变化,照明差异,和动态背景干扰;和模糊性定义操作的开始和结束点。然而,现有的识别和检测性能仍远不及实际应用的精度要求。这样做的原因是,一方面,现有数据集操作类的数量是有限的,不能覆盖所有的行为在现实的场景中,类的定义是相对较粗,所以模型训练没action类不能够分析越来越细粒度的action类。另一个重要的原因是,在现有数据集通常采用人工操作类和剪裁,导致更重要的情景和运动类之间的差异,而行动的界限在现实场景通常是模糊和不确定,和相似的行为往往很大,通常只有轻微当地不同的行动。在这种情况下,需要更细粒度的行动歧视和检测。因此,我们认为,细粒度的操作分析将有利于进一步突破行动的任务分类和检测,从而促进进步的抽象理论研究在现实实际应用场景。

如何表示视频的行为是行为识别研究的核心问题,这在一定程度上决定了识别性能。存在许多特征表示方法,它可以根据功能的来源分为两类:手工制作的特性和功能从样本(7]。手工制作的特性是基于人类视觉特性研究专家设计的原则。相比之下,功能从样品获得学会事先功能设计,和合适的特征表示训练样本中直接找到了各种类型的学习算法,其中深学习方法已经成为主流方法特征由于其出色的学习性能(8]。指出隐性知识是真实在竞技体育的实践,特别是在运动技能的习得,内隐认知起着重要的作用,和应对策略提出了内隐认知和明确的认知是如何转化为在运动技能学习。大规模的图像检索系统对检索的时间开销一定有很高的要求(9]。性能问题是一个困难的问题,必须解决对检索图像的集合的数以百万计的大小(10]。图像检索的基础在于查询图像和数据库之间的相似性计算图像特征空间。计算每个向量之间的相似度线性遍历是非常耗时的后11]。

如何确保图像检索系统的效率是一个关键领域的研究方向信息检索、机器学习和计算机视觉12]。考虑到图像特征检索不均匀分散在特征空间,但在某些特定的分布格局,有时不需要遍历整个查询空间查询最近邻特征向量。基于这个想法,多种树索引结构提出了缩小查询的检索域向量通过递归分区特征空间。矢量量化的方法,另一方面,在于近似原始的功能使用量化某些代表性的元素(13]。深入学习方法可以学习多层功能层次结构和自动构造原始输入的高层表示。大量数据是用于驱动网络训练和模型优化提取更具代表性的语义特征,从而提高分类性能,使传统的手工设计特征提取方法的局限性很大程度上避免。使用量化方法,图像的全局特征通常是量子化的稀疏存储,和相关的查询功能是只有少量的相关量化点相似度计算中,它对应于图像特征的维数的减少,因此提高检索速度(14]。

隐性知识的测量方法,最相关的结果的层次分析和模糊综合测量方法用于特定的应用程序(15]。近年来,许多学者已开始尝试将离散数学的相关理论与多准则决策描述多个场景的重量信息比较和决策。偏序集理论,作为一种重要的元素在离散数学理论,是一个非常有吸引力的决策支持工具,选项可以通过定性比较和排名权重信息。没有系统的理论体系。许多学者解决非技术因素的影响从心理学和哲学的角度对运动员的表现。有更多讨论内隐学习心理学,异化,从哲学的角度和竞技体育可持续发展。文献将知识管理理论应用到竞技体育领域的实践是偶尔发现更普遍。运动员的基本理论问题的系统研究的隐性知识肯定会弥补缺乏在这方面的研究在一定程度上,促进理论体系的丰富和发展运动员的隐性知识。

3所示。高层语义识别模型体育视频内容分析在工程管理

3.1。高级语义识别模型设计在工程管理

交互信息是一个重要的线索群体行为识别的任务,和矿业个体之间的交互信息识别个体行为和群体行为是至关重要的。群体行为可以通过分析确定个人和个人之间交互信息的行为。个体相互作用在一个集群中可以用个人陈述,分析个体行为之间的关系可以被建模建模个人表示之间的关系(16]。需要提取的外观表示个人、建立个人互动和个人表示之间的关系,分析了行为的个人和群体行为和个人的相互作用的分析模型,并获得团体行为通过分析个人表示,个人行为,个体之间的交互。注意机制用于个人交互信息的融合。在完成索引的建立基于随机分割规则,我们将自动挖掘舞蹈元素输入每个随机树,实现自上而下的匹配过程,找到其最近邻特征空间。通过关注机制,我们意味着模型投入更多的关注的重要信息和分配更多的关注。注意力机制本质上是为了选出最具代表性的信息和丢弃特性用更少的信息。特别是,深度学习所产生的特征信息模型是非常大的,只有通过使用注意机制在很大特征空间模型提取更多有效的特性和丢弃无用的信息。注意力机制可用于不同维度的特征,图像空间注意确定哪些地区的更重要,应该得到关注,时间的关注,以确定哪些时刻时间序列包含更多的信息,和通道注意突出某些渠道的重要作用的特性。实现注意可以做硬性和软性的方式;努力关注的方法是通过完全保留,完全丢弃一些信息。 The soft attention approach generates new states by calculating the weight of information in the new state. Through this form, it is possible to discover the cognitive differences between the two knowledge elements that directly affect the sports performance of the snow sports athletes to provide effective help for coaches to adopt targeted training methods and guidance strategies. 在哪里和代表了我向量的我th培训语言样本和对应的标签,分别和分类超平面的参数是训练。这是一个约束优化问题,因此它可以使用拉格朗日乘子法优化,所以以下函数定义:

事实上,由于误差反向传播算法是搜索状态接近极值在大型数值解状态空间中,一个好的起点既能防止梯度下降算法陷入局部极端很难跳出和减少时间找到全局最优解,如果初始化点是接近最优解。此外,激活函数的响应阈值是有限的,由于非线性因素的模型(17]。一个好的初始化参数可以适当地激活激活函数所以大多数参数参与培训,让大多数神经元参与表达式没有死,如图1。

数据集的数据分布往往是固定的,我们不能改变数据集的数据分布,所以参数的分布直接影响网络的输出响应,如果该地区的范围的响应没有预期的区间,然后模型的损失是巨大的,很难调试。parameter-transformed输出数据不应该出现在一些不常见的区域,这将使它更加难以适应模型和降低其能力。

视频语义的概念分析了更积极的研究方向近年来由于潜在的应用有效的理解人类行为的视频和互动的环境中在不同的领域。完成这个具有挑战性的任务,一些研究领域在多个方面的视频语义建模(情感、关系的态度、行为等)。另一个子集包含所有剩下的视频剪辑的自然数据集的推荐。

在这种背景下,理解底层语义概念在解释复杂的视频事件视频变得至关重要。近年来,深学习方法发挥了重要作用,已广泛应用于计算机视觉任务,如图像分割、检测、识别和检索。领域的视频语义概念分析,如何跨越“语义鸿沟”,底层特征和高层语义之间建立映射关系来提取抽象特性接近高层语义的视频已经成为研究人员解决的核心问题。深度学习的方法可以学习多层功能层次结构和自动构造原始输入的高层表示,使用大量的数据来驱动网络的训练和优化模型的提取更具代表性的语义特征,从而提高分类性能,使传统的手工设计特征提取方法的局限性很大程度上避免。从施工过程的特性是完全自动化的,他们是更普遍。

在我们的实验中,10个视频剪辑的舞蹈类型模拟用户点击的视频,和最终的推荐结果是自动获得根据出土的舞蹈风格的匹配度10输入视频。Locality-sensitive判别分析是一种经典的监督降维算法,考虑判别信息的数据和数据的几何结构。通过构造组内和组内的图,该方法能更好地描述数据的原始地方特色歧管和保存原始类标签的数据具有良好的辨别力。稀疏约束autoencoder使编码学习更好地获得稀疏重建特性表示数据之间的关系通过引入非线性autoencoder SPP-constructed图约束。这个pretraining模型不仅有效地利用了自然有识别力的稀疏表示的力量也很大程度上缓解困难的选择最近邻参数。

在这个框架中,利用图像之间的结构信息,我们希望获得上一层的流信息(可输入或汇聚层)通过构造位置和稀疏图和使用流信息重新设计相邻层之间的映射关系。这些图施工方法使学习特性更加稳定和歧视随着网络深度的加深,进一步加快了收敛性和提高模型的泛化(18]。本地化的目标函数和sparsity-preserving嵌入卷积神经网络的相邻层包含两个组件:重建误差特性图相邻层之间,图正规化。在完成随机分割基于规则的建立索引,我们输入自动挖掘舞蹈元素到每个随机树,实现自上而下的匹配过程,发现他们最近的邻居在特征空间和推荐舞蹈的自然数据集根据累计排名的匹配特性,如图2。

然后这样的差异所带来的影响在语言识别模型的性能是显而易见的。根据选择时空兴趣点的方法,目前的主流方法可分为时空兴趣点的特性和轨迹特征。局部时空特征点的特征检测通常选择通过最大化一个特定的时空定位和规模显著功能,和不同的探测器通常显著差异的类型和稀疏选中的点。特征描述符获取形状和运动功能的社区选择兴趣点使用空间等指标或时空图像梯度光流。

行为事件访谈,进行高和平均运动员雪运动,揭示了知识、素质、能力,冰雪体育运动员必须达到优秀的运动能力,这是通常由面试只有实现研究对象本身。然而,由于体育实践的特殊性质和雪的角色运动运动员,教练和运动员必须花时间在一起,不仅一起训练和比赛,而且每天住在一起,“感觉和战斗”几年或十几年,他们相互接触,和体育实践活动,如培训和竞争由运动员和教练共同完成。

考虑到空间具有较强的互补性流特性和光学流特性,选择合适的融合方法能有效提高视频分类的性能。该方法首先提取视频图像帧图像序列和光学流序列。因此,教练甚至比运动员更了解自己的长处和弱点。根据相关知识信息得到雪体育运动员自己,行为事件访谈他们的教练不仅可以为研究者提供一个基础确认隐性知识的内容元素,但也发现知识元素的认知方面的差异,直接影响运动员的表现雪运动,提供有效帮助教练采取有针对性的培训方法和指导策略。这将帮助教练采取有针对性的培训方法和指导策略。

视频的处理提出了更多的挑战相比静态图像;例如,时间序列对行为识别的视频很重要,但是如何反映时间信息的表示行为仍然需要进一步的研究,以及遮挡等问题,背景噪音,和组内的差异,并进一步改进hand-designed特性和深度学习的特性,以及如何融合多个特性来提高识别速度,需要进一步的研究。

3.2。实验设计的体育视频内容分析

两个隐藏层中的信息可以包含与语言语音段的身份信息和语音段反映的本质;也就是说,它可以被认为是语言学习语音段的标识信息。这个言论表示段比LSTM更多可利用的网络模型。事实上,在传统的语言识别方法中,我向量语言的本身也是一个表示向量经过高度抽象的高层语义信息,这非常类似于嵌入向量的性质。此外,我向量本身假定语言识别的样本分布符合高斯分布,而LSTM网络没有这样类型的假设(19]。因此,如果我向量,这反映了语音段的性质,可以被嵌入向量,然后引入语言识别分类方法可用于分类和得分,从理论上讲,它可以实现更好的结果比我向量的方法。

用于舞蹈风格的子集挖掘包含10个视频片段从每个舞蹈流派;另一个子集包含所有剩下的视频片段的自然数据集推荐。这种不平衡的方法切片数据完全匹配的现实。我们知道用户浏览视频网站上有选择地只选择少数的视频点击,同时建议在网站上的数据量是巨大的。视频推荐系统应该能够有效地选择视频相关的视频内容的用户点击推荐从大量分散的数据。在我们的实验中,每个舞蹈流派10视频剪辑的模拟视频点击的用户,和最终的推荐结果自动获得基于匹配的舞蹈风格开采10输入视频。

其目的是引导空间流更加注重人体的前景区域,降低背景噪音的影响,更好的获得时间和空间特性之间的变化和差异,并改善网络来提取视频特征的合理性。AP17-OLR数据集描述,数据提供者还指出,有一些差异训练数据和测试数据用于实验,而且,在日本,韩国,俄罗斯,直接给出了采样数据集训练集和测试集之间的环境,在安静的环境下和语音段和噪声。同时,数据集的供应商指出,哈萨克斯坦的采样环境,西藏,和维吾尔族是完全不同于其他语言的情况下,有一些差异训练集和测试集。而DNN-like网络(包括LSTMs)更为敏感等问题,这些差异的影响在语言识别模型的性能是显而易见的如果没有好方法通道补偿,或者如果现有通道补偿措施不足以解决这个问题。事实上,在本文的前面部分中描述的模型,有一个显著退化的一些语言的识别精度;以LSTM-1-MFCC网络为例,假排斥和假录取率为每个特定的语言在这个网络如表所示1。

视频语义概念分析任务相比是更丰富和更复杂的认知任务,比如图像分类、背景和复杂的情况,如动态信息干扰,角度转换,在不同的场景和目标可能发生阻塞。尽管卷积神经网络在图像分类和识别任务中都取得了极大的成功,如何建模的时空特性中包含视频和获取时空信息视频仍然是一个迫切需要解决的主要问题,对视频语义概念分析使用深度学习的方法。许多作品设计各种有效的学习和深卷积神经网络提取静态和运动时间信息的视频帧外观信息,如添加一个时间维度的二维卷积核卷积神经网络和扩大到3 d卷积内核提取时空维特性。考虑到空间具有较强的互补性流特性和光学流特性,选择合适的融合方法能有效提高视频分类的性能。因此,几乎100%的识别率。当使用轨迹特性时,捕获的肢体运动的轨迹信息,大大增强了表达的行为。尤其是当使用MBH描述符,拳击和掌声的识别率是增加了超过20%。方法首先提取视频图像帧形成图像序列和光学流序列,然后提取空间流动特性和光学卷积神经网络流量特性,并介绍了光流的注意力从时间流网络空间流网络层通过挖掘最近邻关系和协会之间的信息功能流中嵌入空间流卷积神经网络指导空间流更加关注人类的前景区域,降低背景噪音的影响。因此,变化和时空特性差异更好的获得,如图3。

视觉注意力机制是一个独特的人类大脑的信号处理机制;通过观察全球样品来确定重点区域和感兴趣的领域,与目标密切相关的关键信息将快速访问;注意力机制使人们从五彩缤纷的和复杂的信息,提高信息处理的效率,并引入计算机视觉领域改善计算机来解决图像,视频和其他预测和分析任务。认为光流可用于人类前景的关注直接当适当补偿应用于镜头的运动。我们研究的结合空间流嵌入CNN和时间流CNN形成dual-stream卷积神经网络学习视频功能(20.]。引入光学流注意力的目的层从时间网络空间网络指导空间流更加关注人类的前景区域,降低背景噪音的影响。因此,时空变异和差异特性更好的获得和网络来提取视频特征的合理性得到了改进。注意力是一种机制用于给元素的一个子集,更多的重量和光学流注意力地图指向前景区域,帮助学习的空间流卷积网络分布式特性表征这些地区完成标签预测任务。在dual-stream卷积网络,我们提出一个optical-stream注意层模型两个网络的交互,可以使用随机梯度下降法和反向传播算法训练有素的端到端。

提高用户获取信息的效率。此外,视频语义分析技术基于主机可以代替人工注释工作,减少大量的人力资源,提高信息的利用率。考虑到空间信息的知觉野性,相邻点的范围可以扩大。在构建一个图结构,最极端的情况下,在当前节点可以关联到所有其他节点图,可以通过后续采用注意力机制或传递的信息量。包含所有节点的图,以及所有节点的互连,是一个完全连通图,构成一个完整的图,允许将所有位置的信息被对方。它可以让每个成员有一个足够大的知觉场认识到更大范围的空间模式。

4所示。分析的结果

4.1。性能结果在工程管理的高级语义识别模型

通过改变输入序列的长度从5到10帧,模型的精度提高了0.9%,但随着我们继续输入序列的长度增加到15和20帧,模型的准确性开始减少。这一现象的原因是,视频数据集的大小相对较小,过度拟合发生在输入序列太长。因为每个RGB图像帧对应于10堆叠光学流的相邻帧图像,10-frame输入包含100个连续帧视频的时空信息,这是足以代表视频的主要语义信息。

选择最好的输入序列完成后,二束网络流嵌入参数和信心融合参数集,和实验是首先进行搜索网格的两个参数,并获得最好的流嵌入参数为0.2。流后嵌入参数是固定的,信心的影响融合的实验分析参数的变化对模型性能进行,根据不同的信心和语义概念检测精度融合参数如图4。

有困难,设计一个高效和健壮的识别方法。尽管传统的手工标记方法可以实现视频语义概念的理解和描述在某种程度上,手工标注的时间和劳动力成本是巨大的,主观性强。笛卡儿坐标系统的垂直坐标显示相应的视频语义检测精度参数在不同的信心。视频语义概念检测精度不断提高时,值的区间[0.1,0.7],这证明了基于概率分类器错误的信心最终类别预测有重要贡献。模型预测性能最好的时候是0.7,所以本章选择值为0.7的信心参数dual-stream网络分类器。工程学的性能特征算法IDT保持竞争力;此外,许多方法基于深度学习结合IDT实现更好的结果,但是一些视频语义分析方法与最佳的模型性能深卷积网络算法,和CD方法不具有优于传统方法由于许多模型参数和训练更加困难。基本dual-stream网络模型取得了好的结果通过模仿人类视觉机制和有一个更好的理解的时空信息的视频。听——方法是建立基于dual-stream网络模型,可以有效的学习视频功能建模长时间尺度,结合稀疏采样策略和视频监督方法,并取得了良好的效果。该方法在本文中有0.4%比听——更高的精度。 This shows that the proposed method can better reflect the nearest neighbor relationship between samples and structural features, as well as the complementary relationship between images and optical flow, and the method of confidence fusion classification can effectively obtain video semantic concept features and improve the accuracy of video semantic concept detection, as shown in Figure5。

研究具有重要的学术意义和应用价值,有助于提高视频管理技术水平,使它更完整和更有效率。在优化的过程中学习的视频,样本特性考虑最近邻关系,协会功能,等等来构造流形状约束条件;介绍了光流的注意机制指导空间流动更加关注前台区域,减少背景噪声的影响,而且,为了更好地获取时空特性之间的变化和差异,在收购视频帧序列的上下文信息,介绍了LSTM构造流形状嵌入和基于光流的注意力dual-stream CNN视频语义概念检测模型。该方法能更好地反映样本之间的最近邻关系和结构特点,以及图像和光学流之间的互补关系来获得有效的视频语义概念的特性,和信心融合分类方法分类评分结果二束SoftMax层可以更有效地提高视频语义概念检测的准确性。

4.2。体育视频内容分析的实验结果

如图6,分类精度通过不同的编码和归一化方法相比,使用时空兴趣点特征的主题不同介于10到100之间。随着话题的数量增加,所有编码方法实现显著的性能收益,但是主题的数量是60后,不改变性能。获得的结果之间的差异在使用矢量量化和地方软赋值很小,和不同的归一化方法对识别率的贡献有限,与指数+ l正常化实现最好的分类精度的主题。主题的主要性能改进的数量增加,和最好的性能得到当话题的数量达到了80,然后降低。软任务编码,有一个更重要的分类性能下降与时空兴趣点的结果相比,和性能波动最大的超过15百分点使用不同的归一化方法。两类描述符,软任务编码往往达到最优性能结合l。群体行为识别技术可以获得标记的人群场景图像和可以提供线索检索组场景的图片和视频。群体行为识别技术的进步极大地促进了分类、标识和检索的人群场景。

在图7不同特征下,混淆矩阵,很明显,行走和挥舞着最高识别率在所有情况下,相应地,拳击和鼓掌有最低的识别率。这是符合预期,运动形式而言,拳击和鼓掌专注于上肢运动和有高度的相似性,一边挥舞着,更有区别于其他行为,获得近100%的识别率。使用轨迹特性时,肢体运动的轨迹信息捕获,这大大增强了表示的行为,特别是当MBH描述符使用,增加拳击和鼓掌的识别率在最大20多个百分点。

我们获得了使用时空兴趣点的分类精度为89.63%,导致6-percentage点改进。它是合理的假设和主题分布类似的行为也有类似的特征。描述行为和混合主题概率分布的方法优于相应的主题类的行为。主题模型的一个优点是,主题可以视为中层语义特征,然后用来描述更复杂的行为。不可避免的是,也有类似的形式运动在不同的行为;例如,拳击和鼓掌都有类似的上半身的动作。共享相同的主题,因此,不同的行为和每一个行为都有其分布的主题,增强了歧视的本质特征。

总体而言,主成分分析预处理的原始特性不仅降低了特征维数,从而使它减少对计算资源的要求,但也保留了大部分的区别的主要信息,而对噪声有抑制效应引起的各种原因,和美白还表现在实验中减少之间的关联特性,进一步提高识别的鲁棒性能。的性能的差异由不同的人相同的操作;环境因素的影响,如遮挡、视角变化,照明差异,和动态背景干扰,等等;和操作的开始和结束点模糊。利用主成分分析对原始特征进行预处理对提高识别的性能有重要影响。主成分分析项目的原始功能到功能组件,它客观地在一定程度上抑制了噪声,但与此同时,不可避免地带来损失的信息。这两个效应相互抵消;如果噪声分量很大,该实用程序通过抑制噪音很大,将提高识别率,而信息损失影响较大和相应的性能却降低了。另一方面,密集采样的性能优越,功能和特性要处理的数量在增加,尤其是对视频信号,尤其是计算密集型。如果使用PCA预处理原始特性,特征尺寸的数量显著减少,同时保留大部分的信息,导致分类性能的退化,这将大大减少计算工作量,提高响应速度,需要实时信号处理的应用程序具有重要意义。

5。结论

更好的性能已经达到后引入计算机视觉领域。word-packet框架,表明不同的特征编码方法对性能有重要的影响。灵感,不同的编码方法的影响结合归一化方法的分类性能关注概率隐式语义分析模型,通过实验发现,当地软任务编码结合指数归一化方法显著地提高了识别性能;主成分分析预处理的影响原料特性对性能也检查,含有更多的嘈杂的组件的特性,计算工作量大大减少,而分类识别性能甚至改善当含有更多的嘈杂的组件的特性。然而,语言的融合模型的性能改进识别模型是有限的。此外,本文的想法仍然停留在传统的模式识别任务流的特征extraction-classification识别模型,和两个分离的链接也会影响模型的性能。因此,基于端到端的语言识别模型的方法是一个非常有前途的问题。然后空间流特性和光学流特性是由卷积神经网络提取,和最近邻关系,协会之间的信息功能是由流形状嵌入空间流卷积神经网络,和光学流层关注的时间流网络空间流网络介绍指导空间流动更加关注人类的前景区域,降低背景噪音的影响,变化和时空特征之间的差异可以更好的获得。然后从两个流输入获得的特性以时间顺序学习时间特性,融合,最后,信心进行分类器的结果两个流检测的视频语义概念类别。

数据可用性

使用的数据来支持本研究的发现可以要求作者。

的利益冲突

作者宣称没有已知的金融利益冲突或人际关系可能出现影响工作报告。

确认

这项工作是支持山西大学。

引用

y . r . Pandeya和j·李,“深度上优于后期融合多通道信息的情感分类的音乐视频中,“多媒体工具和应用程序,卷80,不。2、2887 - 2905年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
y Ou、陈z和f . Wu”多通道local-global关注情感网络视频内容分析,“IEEE电路和系统视频技术没有,卷。31日。5,1901 - 1914年,2020页。
视图: 谷歌学术搜索
纳迪姆,a·塔拉和k金,“体育活动的人体姿态估计自动识别与健壮的身体部位检测和熵马尔可夫模型中,“多媒体工具和应用程序,卷80,不。14日,第21498 - 21465页,2021年。
视图: 出版商的网站 | 谷歌学术搜索
l .秦和l .康”应用程序的视频场景语义识别技术在智能视频,”Tehnički Vjesnik,25卷,不。5,1429 - 1436年,2018页。
视图: 谷歌学术搜索
h·c·施”的调查content-aware体育视频分析,“IEEE电路和系统视频技术,28卷,不。5,1212 - 1231年,2017页。
视图: 谷歌学术搜索
j . c . Liu侯,吴x和y,“有识别力的结构性模型联合分割和识别人类的行动,”多媒体工具和应用程序,卷77,不。24日,第31645 - 31627页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
t . Vaisanen诉Heikinheimo、t . Hiippala和t . Toivonen”探索人文的相互作用在国家公园与社交媒体照片和计算机视觉,”保护生物学,35卷,不。2、424 - 436年,2021页。
视图: 谷歌学术搜索
p . Pareek和A·塔迦尔,”一个调查基于视频的人体动作识别:最近的更新,数据集,挑战,和应用程序,”人工智能审查,54卷,不。3、2259 - 2322年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
n . A . Rahmad m·A·'ari, n . f . Ghazali n .日常用品和n·A·j·Sufri“基于视频的动作识别的调查在体育运动中,“印尼的电气工程和计算机科学杂志》上,11卷,不。3、987 - 993年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
l·格列柯,p . Ritrovato和m . Vento”使用语义技术的视频分析,“环境智能和人性化计算杂志》上,12卷,不。1,第587 - 567页,2021。
视图: 出版商的网站 | 谷歌学术搜索
美国后,美国周,w·刘,y,“topicalizing高层语义概念,分类广告视频”多媒体工具和应用程序,卷77,不。19日,25475 - 25511年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
m . Fourati A Jedidi, f . Gargouri“视听文件描述和建模,调查”多媒体工具和应用程序,卷79,不。45岁,33519 - 33546年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
t·辛格和d . k . Vishwakarma”视频人类行为基准数据集:复习一下,”人工智能审查,52卷,不。2、1107 - 1154年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
n . a .你t . Huynh-The k,汗,Y.-K。李,“ML-HDP:层次贝叶斯非参数模型在视频中,认识到人类活动”IEEE电路和系统视频技术卷,29号3、800 - 814年,2018页。
视图: 谷歌学术搜索
h .霁d Hooshyar、k金和h . Lim,“基于语义的视频场景分割使用深层神经网络,”信息科学杂志》,45卷,不。6,833 - 844年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
诉Ellappan和r·拉库马”板球视频分类使用有限状态机,”信息技术和管理的国际期刊,20卷,不。1 - 2、83 - 94年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
a . Prati c .山,k . i . k . Wang”传感器,视觉和网络:从视频监控活动识别和健康监测,“环境智能和智能环境杂志》上,11卷,不。1,5-22,2019页。
视图: 谷歌学术搜索
t·h·刘问:郑z, Li秦,l·朱,“一个高效多功能支持向量机求解复杂事件检测,”多媒体工具和应用程序,卷77,不。3、3509 - 3532年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
m . e . Abdulmunem和e . Hato“基于语义的视频检索系统:调查,”伊拉克科学杂志》卷,59号2、739 - 753年,2018页。
视图: 谷歌学术搜索
g . Bellitto f . Proietto Salanitri,宫殿,f . Rundo d·佐丹奴和c . Spampinato”层次domain-adapted特性学习视频显著预测,“国际计算机视觉杂志》上,卷129,不。12日,第3232 - 3216页,2021年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

321年

下载

642年

引用