深合奏学习人类行为识别的静态图像

文摘

大量的人类活动,如“打电话”、“PlayingGuitar”和“RidingHorse”可以被静态cue-based推断方法即使他们的动作在视频可以考虑一个静态图像可能已经足够解释一个特定的行动。在这个研究中,我们研究人类行为识别的静态图像整体学习和利用深自动分解身体姿势和感知它的背景信息。首先,我们构造一个端到端的NCNN-based模型通过附加非连续性卷积神经网络(NCNN)模块的顶部pretrained模型。非连续性网络拓扑的NCNN可以单独学习空间——与并行分支和channel-wise特性,这有助于提高模型的性能。随后,为了进一步利用非连续性拓扑的优点,提出基于权重优化端到端整体学习深(DELWO)模型。它有助于融合深度信息来源于多个模型自动从数据。最后,我们设计了整体学习深基于投票策略(DELVS)模型一起池多个深度模型和加权系数来获得一个更好的预测。更重要的是,可以减少模型的复杂性减少可训练的参数的数量,从而有效地减轻过度拟合问题的模型在一定程度上在小数据集。我们在李的行动数据集进行实验,uncropped和1.5 x裁剪柳树行动数据集,结果验证了该模型的有效性和鲁棒性在小数据集而言,减轻过度拟合问题。最后,我们开源的代码模型在GitHub (https://github.com/yxchspring/deep_ensemble_learning),以便与社区分享我们的模型。

1。介绍

人类行为识别(1- - - - - -6是计算机视觉中最重要的研究领域之一。尽管认识到人类行为的运动视频可以为分类提供有识别力的线索一个特定的行动,许多人类活动(例如,“打电话”,“InteractingWithComputer,”和“射击”,如图1),可以表示为一个单一的静态图像(2]。特别是,某些操作(例如,“PlayingGuitar”,“RidingHorse,”和“运行”,如图1)可能需要静态cue-based方法是可用的(即使这些运动视频2]。认识到这些人类行为与上述视频的方法(5,6,8)可能是不恰当的,因为他们要轻微的动作变化没有分辨率。它的静态特性自然激励我们解决这些人类行为在静态图像识别任务(2]。人类活动在静态图像分类是一个更有挑战性的任务,尤其是当只有一个单一的图像可用以及扰动和杂乱的背景。

(一)

(b)

越来越多的工作(9- - - - - -14)最近在仍然关注人类行为识别图像。在这个研究中,我们努力调查一个健壮的人类行为模型的静态图像工程不需要手动功能,明确身体姿势估计和推理,或部分原因表示。在这个研究中,我们专注于采用深合奏学会解决这些任务。首先,我们探讨不连续的网络拓扑的应用在静态图像在人类行为识别。具体来说,我们建议附加一个不连续的卷积神经网络(NCNN)模块pretrained模型。NCNN模块有三个独立的分支,每个分支可以学习空间,分别channel-wise特性。然后,端到端NCNN-based模型训练学习小数据集的特定领域的知识。其次,不同类型的模型可能会发现“真理”,所以我们的多个方面进一步研究深度集成学习的好处而言,提高分类性能。我们提出一个端到端的整体学习深基于重量优化(DELWO)模型融合的信息来源于多个深模型来实现更好的性能。DELWO还有一个不连续的网络拓扑和是一个广义多输入模型pretrained模型作为输入。 Besides, we also propose a deep ensemble learning based on voting strategy (DELVS) model to integrate prediction results using different voting strategies to obtain better predictions. Our proposed models can side-step the trivial tasks related to manual feature design, body part-based modeling, and action poselet-based representation, etc.

在实践中,如何缓解过度拟合问题是一个重要的问题在计算机视觉任务当只有很少的数据可用于培训。例如,在李的行动数据集(7)如图1,只有180图像作为训练集。另一个例子,只有208张图片和280年利用图像作为训练集uncropped和1.5 x剪裁柳树行动数据集(2),分别。我们致力于构建深CNN模型可以在小数据集在某种程度上减轻过度拟合问题。我们建议的模型在这个研究的主要特点如下:(1)我们建议NCNN-based模型和DELWO模型都是端到端,可以直接产生一个预测为一个输入,也让批处理操作模型的训练。它可以极大地减少内存消耗,使其可行的训练自己的深度学习模型在一个电脑CPU。(2)我们NCNN-based模型和DELWO模型有一个不连续的网络拓扑。NCNN-based模型的优点如下:首先,它可以自动学习来自不同渠道的信息;第二,它有助于调整顶部层通过优化重量NCNN模块,这样模型的参数可以更胜任一个领域特定的任务。DELWO模型融合深度信息来源于多个模型,然后自动从数据利用每个模型的优点。(3)我们建议深套模型,DELWO DELVS。DELWO可以避免手动指定各种模型权重系数。提前DELVS模型需要确定重量参数,然后多个模型结合池一起使用不同的投票预测策略和努力取得更好的性能。这两种深合奏模型提出了一个领域特定的任务来探索他们的表现。

整个算法阐述了在图的框架2。

图2

整个算法的框架。首先,原始输入(1)转化为规范化输入(2)。然后,我们提出了NCNN模块连接到顶部的pretrained模型(例如,VGG16)。此外,NCNN-based模型训练开展NCNN-based学习(3)。为了利用集成学习,DELWO模型(4)旨在融合多个不同类型的模型直接探索更多的方面的“真理”,最后,DELVS模型(5)集成了多个分类器使用不同的投票策略获得最终的预测。

剩下的纸是组织如下。我们首先回顾人类行为识别的相关工作仍在部分图像2。节3,我们阐明具体方法包括数据处理和模型建设。我们报告的实验结果部分4,这是紧随其后的是一节的结论和未来的工作5。

现有工作主要侧重于工程特性(例如,bag-of-features),身体部分原因建模、或行动poselet-based表示等人类行为的认可。Delaitre et al。2]研究人类行为识别的静态图像使用bag-of-features模型(2]。Qi et al。14]提出构建hint-enhanced CNN框架通过共同学习姿势提示和特征提取。香港et al。15金字塔]提出提取深度运动映射描述符为每个动作其次是分类器的区别的协作表示执行人类行为识别。古普塔et al。16]运用身体姿势作为行动的线索识别。Zhang et al。17)提出了一个前景轨迹提取方法基于卓越抽样策略打算减少减少有效的行动轨迹。Felzenszwalb et al。18)提出了一个结构部分原因模型来表示人类活动。Ko et al。19)提出了一个行动poselet-based方法和一个两层分类模型来推断人类行动。Cai et al。20.)提出了一种改进的CNN进行人类行为识别通过提取深度序列特性使用深度运动以及获得三个投影地图:地图前面,一边,前视图。

深度学习的出色表现在计算机视觉中,这将是一个重要的一步来构造深度学习模型自动分析身体姿势和感知它的背景信息。但是,从头开始培训一个深CNN模型使用一个小数据集常常遭受过度拟合问题。数据增加,一个强大的技术来减轻过度拟合,可以使用随机生成更多的培训数据转换如旋转、转移和剪切。它可以使我们的模型没有看到相同的样本在训练两次,因此使我们模型的接触更多的方面的数据。另一种方法是采用pretrained深层网络(例如,VGG16 [21])作为初始模型来提取深特性,这使得我们的深度学习模型有效,即使只是一个小的数据集是可用的。

传统的CNN模型(例如,LetNet-5 [22]和VGG16 [21])是顺序的,他们有线性成堆的层。在某些情况下这些顺序模型可能是僵化的。提出的《盗梦空间》模块Szegedy et al。23)具有不连续的网络拓扑:之前有向无环图的结构模型。其输入的初始模块是单独处理某些并行分支,后跟一个连接层合并每个分支的输出到一个单一的张量。网络的可训练的参数的数量大大决定了模型过度拟合的程度。林等。24)提出了全球平均映射(GAP)来代替完全连接层将Softmax层CNN紧随其后。差距极大地减少了数量的可训练的参数,使模型更轻,从而缓解过度拟合。多输入模型(25- - - - - -28)是另一种不连续的网络拓扑,它有多个输入层可以充分利用多通道或多种类型的数据。Nickfarjam和Ebrahimpour-Komleh25)采用深层信念与多输入网络拓扑进行shape-based人类行为分类和改进模型的性能。

此外,整体学习(29日,30.)可以一起池不同的模型来实现更好的性能。池不同的分类器,包含了他们的预测通过加权系数或多数选票。它可以利用不同的模型来探索“真相”的许多地方的数据(31日]。

3所示。方法

3.1。数据处理

很少数据的可用性是一种常见的情况,当一个分类模型对图像识别需要训练。为了减轻过度拟合问题,我们采用CNN的数据增强技术来改善性能。数据增加可以通过随机生成更多的培训数据转换训练图像,使公开训练模型的数据分布的更多可能的方面(31日]。随机转换在本研究包含在0 - 90度旋转,宽度变化在0 - 0.2,高度变化在0 - 0.2,在0 - 0.2剪切,放大在0 - 0.2,水平翻转,和垂直翻转。此外,我们进行image-wise集中实现样本归一化。

3.2。不连续的卷积神经网络模型

在本节中,我们提出我们的建议NCNN模块。首先,我们提出NCNN-based模型适用于小数据集。其次,它是一个端到端的模型直接生成的输出为每个输入样本。更重要的是,它可以有助于减少内存消耗的批处理和可以训练我们的模型只有可用的cpu(尽管gpu更好)。相比,添加一个卷积层相同数量的过滤器,它使NCNN-based模型更轻,提高了模型的泛化能力。

图3在这个研究显示VGG16的结构,和VGG16_base模块和分类器模块由缺口层连接。VGG16_base模块是基于VGG16 [21],权重的卷积层初始化pretrained VGG16,和那些层进行模型训练时被冻结。

为了减轻过度拟合,加速模型训练,提高泛化能力,我们构建NCNN-based模型(例如,VGG16_NCNN)。具体来说,VGG16_NCNN包含三个模块,VGG16_base模块,NCNN模块,和分类器模块后层的差距。VGG16_NCNN的整体结构如图4。如图4,NCNN模块有三个分支。分公司拥有一个“conv1 - 128”层,这意味着内核大小是1×1,和过滤器的大小是128 K表示内核大小和F表示“ConvK-F过滤器的大小。“同样,分支卷积B有两层:一个“conv1 - 128 conv3 - 128“层后面跟着一个层。分支C有一个3×3平均池层一层“conv1 - 128”紧随其后。最后一个激活输出的每个分支连接在一起形成的连接层。VGG16一样,三层构造分类器模块后层的差距。

权重的VGG16_base模块初始化pretrained VGG16模型,和NCNN模块的随机初始化。当我们进行模型训练,权重VGG16_base模块的冻结,目的是防止backpropagated错误通过随机初始化层破坏pretrained卷积层。

NCNN模块和间隔层的优势是,它可以有效地减少可训练的参数。因此,我们的模型将更轻,这可以极大地促进模型过度拟合的缓解,促进泛化能力。具体来说,当输入样本的大小是224×224,参数的个数之间的最后一层VGG16_base模块和第一层分类器模块将(7×7×512)×2048 + 2048 = 51,382,272。VGG16,参数的个数之间的差距层和第一层分类器模块将512×2048 + 2048 = 1050624。VGG16_NCNN,参数的个数之间的差距层和第一层分类器模块将384×2048 + 2048 = 788,480。

没有NCNN模块和间隔层,可训练的参数的总数将达到70307655。然而,可训练的总数VGG16参数(参见图4)是5261319,我们的提议VGG16_NCNN模型是5868039。与VGG16相比,虽然总数VGG16_NCNN略大,可训练的参数的有效性VGG16_NCNN增强。换句话说,通过培训NCNN模块的参数,我们可以有效地调整模型(即。红色虚线框,调整层的人物4),使模型更适合我们的领域特定的任务。可训练的数量模型的参数决定了模型的复杂度。一个合理的情况是,数据的大小和复杂性的模型可以有效地匹配。因此,通过添加NCNN模块和一个缺口层模型,在一定程度上可以减轻过度拟合问题。

训练我们的模型,我们需要减少以下分类crossentropy损失函数: 在哪里表示的概率预测的示例我去上课k,N表示样本大小和是真正的标签样品吗我属于类k。

具体来说,当第一个分类器模块的“fc - 2048”被认为是输入,公式(1)可以进一步表示为 “FC1”和“取得”表示第一和第二的“fc - 2048”层分类器模块,表示乙状结肠函数,h表示ReLU激活功能,D和米代表节点的数量分别为“FC1”和“取得”,。

当一个看不见的示例,下面的函数是用来产生一个预测类样本我:

3.3。深合奏学习基于重量优化

不同的深度模型将专注于“真理的不同方面。”因此,为了更好的将更多的信息关于“真理,“我们设计一个端到端的DELWO模型,可以为每个输入样本直接产生输出。如图5训练数据被送入多个深模型与NCNN模块,然后我们从每个模型进行连接的差距形成长层(即。间隙连接模块),连接到分类器模块。在这项研究中,我们定义三种DELWO模型:(1)DELWO1保险丝VGG16 [21],VGG19 [21],ResNet50 [32]在深模型模块,过滤器的大小差距差距串联模块中设置为128(2)DELWO2保险丝VGG16_NCNN、VGG19_NCNN ResNet50_NCNN深陷模型模块,滤波器的大小差距差距串联模块中设置为128(2)DELWO3保险丝VGG16_NCNN、VGG19_NCNN ResNet50_NCNN深陷模型模块,滤波器的大小差距差距串联模块中设置为384

图5阐述了使用DELWO2人类行为分类的具体过程。当模型训练有素,测试数据被送入到生成最终的预测。具体的训练步骤类似于NCNN-based模型。

3.4。深合奏学习基于投票策略

集成学习是一种强大的技术来获得更好的预测结果。我们假设不同模型专注于“真实模型的不同方面。“因此,汇聚不同的模型可以发现许多地区的“真相”。在这个研究中,我们一起池多个深模型使用DELVS,目的是获得更好的预测结果。的预测类样本我估计使用以下三种功能。

3.4.1。努力投票

(即硬投票策略。,米ajority voting) aims to predict the final class label via computing the label majority of all classifiers. And the function is shown in the following equation: 在哪里表示样本我,表示预测的标签jth分类器,模式函数用于计算的多数预测标签,和米表示分类器的数量。

3.4.2。柔软的投票

软投票策略旨在预测最终的类标签通过计算每个类的预测概率的总和所有分类器。标签分配得到了最高的类别概率之和。和函数如下公式所示: 在哪里表示的重量jth分类器,表示的预测概率jth分类器预测样本我成kth类,米表示分类器的数量。值得注意的是,重量设置为1 /米在这个投票策略。

3.4.3。调整重量投票

软投票采用加权平均的策略,它有时并不突出的差异模型的贡献。因此,我们采用网格搜索方法搜索最优权重获得更好的预测。具体来说,重量参数优化设置步长来找到最好的整体精度在特定重量参数范围。相对应的权重系数最好的整体精度最优结果。和函数公式所示(6),这是类似于公式(5): 在哪里最优权重系数为每个分类器和吗。

在这项研究中,我们定义三种DELVS模型,DELVS1相对应,DELVS2, DELVS3:(1)DELVS1集成VGG16[的预测21],VGG19 [21],ResNet50 [32)使用上面提到的三个投票策略获取最终的预测结果(2)DELVS2集成的预测VGG16_NCNN、VGG19_NCNN ResNet50_NCNN使用上面提到的三个投票策略获取最终的预测结果(3)DELVS3集成VGG16[的预测21],VGG19 [21],ResNet50 [32)和VGG16_NCNN、VGG19_NCNN ResNet50_NCNN使用上面提到的三个投票策略获取最终的预测结果

图6阐述了使用DELVS人类行为分类的具体过程。当测试数据被送入米利用分类模型,三种投票策略获得最终的预测,分别。

4所示。结果

在本节中,我们评估的性能提出的模型在以下数据集:李的行动数据集,柳树行动数据集,数据集和1.5 x裁剪柳树行动。我们首先证明特定的实验装置,然后详细的实验结果。

4.1。实验装置

以下4.4.1。数据集

李的行动数据集(李的论文的数据和代码可用https://github.com/lipiji/PG_BOW_DEMO),六个常见的人类行为类别共有240年发布图片,这些行为是“打电话”,“PlayingGuitar”,“RidingBike”,“RidingHorse”,“运行”,和“射击”,分别7]。这些图像都提前出现,每个类别的图片是相同的大小(见图1(一))。我们随机选择30图像训练,10图片验证,剩下的20个图像对每个类进行测试。

为柳树行动数据集(Delaitre的论文的数据和代码可用https://www.di.ens.fr/willow/research/stillactions/收集的),七个人类行为类别Delaitre et al。2911图片,他们是“InteractingWithComputer”,“拍摄”,“PlayingMusic”,“RidingBike”,“RidingHorse”,“运行”,和“行走”,分别。这个数据集包含了更具挑战性的非农消费者照片,自然角度变化,遮挡,现场布局,相关对象的外观变化,人们的服装出现在他们中间2]。此外,不同大小的图像在每个类别。人的位置在每个手工标注边界框的图片在这个数据集。为了评估我们的模型的性能,我们进行实验uncropped(即。原始图像与背景)柳树行动数据集和1.5倍(即出现。,重新调节人类行为的边界框的1.5倍)。培训、验证和测试设备的设置是一致的与Delaitre的工作(2]。

4.1.2。模型参数设置

对于每个模型,我们采用pretrained模型初始化权重,权重的NCNN模块和下面的分类器模块是随机初始化。值得注意的是,所有的卷积pretrained模型的层冻结在训练上。它试图确定权重pretrained卷积层不会被摧毁。否则,backpropagated通过随机初始化错误分类器层将会太大,使得我们的模型火车更加困难。我们在多个pretrained模型进行实验包括VGG16 [21],VGG19 [21],InceptionV3 [23],DenseNet [33],ResNet50 [32],MobileNet [34]。然而,只有VGG16、VGG19 ResNet50在人类行为识别实现良好的性能。因此,我们将对这些模型进行进一步的研究。为了评估我们建议的模型的性能,比较算法包括日后健壮的特性(冲浪)35),bag-of-features(转炉)[36),而金字塔bag-of-features (PBOF) [37使用)。为了比较具有集成学习方法,我们进一步进行比较算法包括bagging-based系综学习(38)(例如,随机森林(RF (39])),增强型合奏的学习(40)(例如,梯度增加机器(本研究)41]),整体学习voting-based [42)中支持向量机(SVM)、射频、GBM分类器。所有具有集成学习的评价方法是基于512 -维要点描述符。同时,依据(43,44)与支持向量机分类器()方法也比较实验。

4.2。实验结果

4.2.1。准备结果不连续的卷积神经网络模型

表1显示了数据集分类性能在李的行动。海浪达到最糟糕的表现。转炉和PBOF取得更好的性能在冲浪,但仍不超过我们提出的模型。具有集成学习方法,只有voting-based方法的性能超过要点,而剩下的射频和GBM实现与要点方法相比更糟糕的结果。VGG16、VGG19 ResNet50表现良好,这揭示了pretrained权重进行人类行为是可行的分类数据集在李的行动。更重要的是,VGG19_NCNN ResNet50_NCNN仍然比基线模型的整体精度和损失。特别是,ResNet50_NCNN模型达到最好的整体精度和最小损失。从表1和图7,我们确信NCNN-based模型作品相同或更好的基准模型尽管损失获得了VGG16_NCNN略高。


算法	为每个类敏感性						整体
算法	打电话	P.Guitar	R.Bike	R.Horse	运行	拍摄	Acc	损失

冲浪	0.45	0.1	0.2	0.2	0.05	0.2	0.2	NA
转炉	0.8	0.6	0.75	0.75	0.6	0.9	0.7333	NA
PBOF	0.95	0.75	0.8	0.8	0.75	0.95	0.8333	NA
要点	0.70	0.75	0.65	0.85	0.70	0.70	0.725	NA
射频	0.70	0.75	0.55	0.75	0.85	0.70	0.7167	NA
“绿带运动”	0.55	0.55	0.75	0.70	0.65	0.60	0.6333	NA
投票	0.85	0.75	0.80	0.85	0.75	0.70	0.7833	NA

VGG16	1	0.95	0.9	1	1	0.85	0.95	0.1564
VGG16_NCNN	1	0.9	0.95	1	1	0.85	0.95	0.1739
VGG19	0.95	0.95	0.9	1	0.8	0.85	0.9083	0.2442
VGG19_NCNN	1	0.95	1	1	0.8	0.95	0.95	0.16
ResNet50	0.9	1	0.8	0.9	1	0.95	0.925	0.2253
ResNet50_NCNN	0.95	1	0.9	1	1	0.95	0.9667	0.0703

(一)

(b)

(c)

表2介绍了使用NCNN-based模型的结果在柳树行动数据集。这是一个更具挑战性的数据集,自然和具有挑战性的障碍发生在图像,包括观点变化、遮挡,现场布局,和相关对象的外观变化和人们的衣服。因此,七个比较算法在分类这些人类活动失败。特别是,具有集成学习方法的性能不超过要点的方法。从表2和图8基本上,我们可以看到NCNN-based模型优于基准模型的整体精度和损失除了VGG19_NCNN的整体精度。


算法	为每个类敏感性							整体
算法	Inter.W.C。	摄影师。	P.Music	R.Bike	R.Horse	运行	走	Acc	损失

冲浪	0.03	0.01	0.01	0.01	0.02	0.02	0.01	0.1908	NA
转炉	0.55	0.43	0.42	0.48	0.40	0.26	0.13	0.3735	NA
PBOF	0.48	0.47	0.38	0.43	0.4	0.36	0.21	0.3795	NA
要点	0.55	0.23	0.41	0.39	0.28	0.28	0.32	0.3434	NA
射频	0.28	0.39	0.35	0.44	0.36	0.28	0.07	0.3153	NA
“绿带运动”	0.45	0.28	0.33	0.41	0.26	0.40	0.17	0.3193	NA
投票	0.52	0.33	0.39	0.38	0.30	0.31	0.21	0.3394	NA

VGG16	0.76	0.69	0.71	0.94	0.84	0.6	0.07	0.6486	1.1642
VGG16_NCNN	0.79	0.52	0.68	0.92	0.9	0.66	0.3	0.6647	1.0545
VGG19	0.9	0.41	0.83	0.93	0.86	0.47	0.32	0.6647	1.0172
VGG19_NCNN	0.83	0.51	0.72	0.86	0.88	0.67	0.23	0.6506	0.9145
ResNet50	0.93	0.39	0.7	0.89	0.78	0.41	0.51	0.6466	0.9598
ResNet50_NCNN	0.79	0.24	0.75	0.92	0.82	0.48	0.55	0.6506	0.9019

(一)

(b)

(c)

除此之外,我们可以看到,所有的模型失败当分类“拍摄”,“运行”,和“行走”的行动。因为这三个操作(参见图是相似的1 (b)),不确定性将会出现当生产他们的预测。如图8行,“拍摄”行动,这是被误诊为“步行”VGG16_NCNN率为0.28,“行走”VGG19_NCNN率为0.38,和“行走”ResNet50_NCNN率为0.16。连续“运行”行动,VGG16_NCNN VGG19_NCNN相比ResNet50_NCNN达到一个更好的分类能力。这表明VGG16_NCNN VGG19_NCNN可以更好的区分“运行”,在一定程度上“行走”。然而,连续“行走”行动,所有的模型不能告诉这个动作之间的差异和“运行”行动。

表3礼物的结果使用NCNN-based模型在1.5 x剪裁柳树行动数据集。从表3和图9,我们可以看到NCNN-based模型优于基准模型的整体精度和损失。类似于表中的结果2,具有集成学习方法的性能不超过要点的方法。值得注意的是,VGG19 VGG19_NCNN表现得更好当分类“运行”行动与其它模型相比,分类和ResNet50_NCNN性能更好的“走”行为与其他模型相比。ResNet50_NCNN达到最好的整体精度和损失在所有模型,并验证了我们建议的NCNN-based方法的有效性。


算法	为每个类敏感性							整体
算法	Inter.W.C。	摄影师。	P.Music	R.Bike	R.Horse	运行	走	Acc	损失

冲浪	0.03	0.01	0.01	0.01	0.02	0.01	0.01	0.1406	NA
转炉	0.46	0.32	0.44	0.44	0.46	0.40	0.44	0.4234	NA
PBOF	0.49	0.34	0.47	0.48	0.58	0.47	0.33	0.4392	NA
要点	0.59	0.36	0.31	0.45	0.49	0.43	0.30	0.3934	NA
射频	0.59	0.32	0.27	0.45	0.39	0.35	0.30	0.3618	NA
“绿带运动”	0.46	0.36	0.30	0.32	0.39	0.37	0.25	0.3270	NA
投票	0.69	0.38	0.32	0.42	0.46	0.31	0.30	0.3791	NA

VGG16	0.62	0.19	0.73	0.88	0.46	0.59	0.41	0.5877	1.2222
VGG16_NCNN	0.74	0.53	0.76	0.82	0.6	0.56	0.33	0.6209	1.1855
VGG19	0.72	0.36	0.7	0.81	0.67	0.7	0.38	0.6209	1.1917
VGG19_NCNN	0.69	0.31	0.79	0.82	0.75	0.64	0.36	0.6272	1.0313
ResNet50	0.87	0.22	0.52	0.81	0.95	0.48	0.5	0.5987	1.1399
ResNet50_NCNN	0.85	0.16	0.67	0.87	0.77	0.23	0.74	0.6288	0.9666

(一)

(b)

(c)

整个十三算法的实验结果,这三个数据集在图所示10。图10表明几乎所有比较方法包括冲浪,转炉,PBOF,要点,和具有集成学习方法包括射频、通用汽车、和投票失败在这个任务中,只有转炉,PBOF,要点,射频,通用,投票方法显示好的结果数据集在李的行动。所有基于深层学习模型的性能优于对比算法。

(一)

(b)

(c)

4.2.2。结果基于重量的整体学习深度优化

表4显示的结果使用DELWO1、DELWO2 DELWO3数据集在李的行动。DELWO1 DELWO3获得最好的整体精度,DELWO2获得最少的损失。与nonensemble模型的性能相比,我们发现所有的模型执行比最好的一个表1。表4给出了具体的实验结果,图11说明了使用DELWO1 ROC曲线、DELWO2 DELWO3,充分体现了DELWO模型的鲁棒性。


算法	为每个类敏感性						整体
算法	打电话	P.Guitar	R.Bike	R.Horse	运行	拍摄	Acc	损失

DELWO1	1	0.95	0.95	1	1	1	0.9833	0.0844
DELWO2	1	1	1	1	0.90	0.95	0.9750	0.0522
DELWO3	1	0.95	1	1	1	0.95	0.9833	0.1035

(一)

(b)

(c)

表5显示的结果使用DELWO1、DELWO2 DELWO3柳树行动数据集。DELWO2获得最好的整体精度,DELWO3获得第二,DELWO1获得最少的损失。相比之下,柳树行动nonensemble模型的性能数据集,DELWO模型提高了近5%。具体表现如表所示5和图12。


算法	为每个类敏感性							整体
算法	Inter.W.C。	摄影师。	P.Music	R.Bike	R.Horse	运行	走	Acc	损失

DELWO1	0.93	0.48	0.77	0.96	0.9	0.5	0.46	0.7028	1.5195
DELWO2	0.83	0.49	0.72	0.97	0.98	0.53	0.52	0.7129	1.8368
DELWO3	0.86	0.55	0.77	0.95	0.92	0.52	0.44	0.7068	1.9005

(一)

(b)

(c)

同样的,表6显示的结果使用DELWO1、DELWO2 DELWO3在1.5 x剪裁柳树行动数据集。DELWO3获得最好的整体精度,DELWO2获得最少的损失。相比的性能nonensemble模型在1.5 x剪裁柳树行动数据集,DELWO模型提高了近6%。尤其是DELWO3识别“运行”行动时表现最佳。详细的性能如表所示6和图13。


算法	为每个类敏感性							整体
算法	Inter.W.C。	摄影师。	P.Music	R.Bike	R.Horse	运行	走	Acc	损失

DELWO1	0.93	0.41	0.81	0.87	0.68	0.62	0.37	0.6509	1.9343
DELWO2	0.9	0.6	0.76	0.88	0.76	0.59	0.3	0.6793	0.6793
DELWO3	0.83	0.52	0.78	0.87	0.78	0.74	0.44	0.6888	1.9068

(一)

(b)

(c)

4.2.3。结果深合奏学习基于投票策略

表7礼物的结果使用DELVS1 DELVS2, DELVS3李的行动数据集。比较表7与表1,我们可以看到DELVS模型的性能优于NCNN-based模型。值得注意的是,DELVS2(优化)和DELVS3(优化)获得更好的结果在DELWO1和DELWO3数据集在李的行动。一般来说,调整重量投票方法将实现最好的结果在这三个投票策略。DELVS模型阐述的详细性能表7和图14。


模型	策略	为每个类敏感性						整体
模型	策略	打电话	P.Guitar	R.Bike	R.Horse	运行	拍摄	Acc

DELVS1	硬	1	0.95	0.9	1	1	0.95	0.9667
	软	1	0.95	0.9	1	1	0.95	0.9667
	调优	1	1	0.9	0.95	1	1	0.975

DELVS2	硬	1	0.95	0.95	1	1	0.95	0.975
	软	1	0.95	0.95	1	1	1	0.9833
	调优	1	1	0.95	1	1	1	0.9917

DELVS3	硬	1	0.95	0.9	1	1	0.95	0.9667
	软	1	0.95	0.9	1	1	1	0.975
	调优	1	1	0.95	1	1	1	0.9917

(一)

(b)

(c)

表8礼物的结果使用DELVS1、DELVS2 DELVS3柳树行动数据集。比较表8与表2,我们可以看到DELVS模型的性能优于NCNN-based模型。值得注意的是,DELVS3(优化)获得更好的结果在柳树行动数据集。和调优权重投票方法取得最好的结果在这三个投票策略。DELVS模型阐述的详细性能表8和图15。


模型	策略	为每个类敏感性							整体
模型	策略	Inter.W.C。	摄影师。	P.Music	R.Bike	R.Horse	运行	走	Acc

DELVS1	硬	0.9	0.57	0.75	0.97	0.88	0.52	0.22	0.6727
	软	0.9	0.61	0.78	0.97	0.88	0.6	0.37	0.7189
	调优	0.93	0.6	0.7890	0.96	0.88	0.59	0.4	0.7229

DELVS2	硬	0.83	0.53	0.75	0.93	0.92	0.64	0.37	0.6968
	软	0.9	0.48	0.73	0.95	0.92	0.62	0.45	0.7048
	调优	0.9	0.45	0.75	0.95	0.94	0.64	0.51	0.7189

DELVS3	硬	0.9	0.59	0.75	0.95	0.94	0.62	0.32	0.7048
	软	0.93	0.56	0.76	0.95	0.92	0.62	0.41	0.7189
	调优	0.9	0.65	0.79	0.95	0.94	0.64	0.39	0.7369

(一)

(b)

(c)

同样,我们可以达到结论调整重量投票方法执行最好的其中三个投票策略。相比的性能nonensemble模型在1.5 x剪裁柳树行动数据集,DELVS模型提高了近5%。然而,性能最好的DELVS2(优化)不超过DELWO3。这表明DELWO模型更有能力在这个数据集。的详细性能DELVS模型在1.5 x剪裁柳树行动数据集是阐述了表9和图16。


模型	策略	为每个类敏感性							整体
模型	策略	Inter.W.C。	摄影师。	P.Music	R.Bike	R.Horse	运行	走	Acc

DELVS1	硬	0.87	0.35	0.69	0.84	0.77	0.62	0.39	0.6351
	软	0.82	0.27	0.72	0.86	0.75	0.65	0.43	0.6414
	调优	0.82	0.3	0.73	0.86	0.74	0.68	0.43	0.6461

DELVS2	硬	0.82	0.45	0.77	0.84	0.75	0.51	0.43	0.6509
	软	0.82	0.40	0.79	0.84	0.79	0.54	0.47	0.6619
	调优	0.85	0.29	0.76	0.86	0.86	0.51	0.61	0.6777

DELVS3	硬	0.85	0.4	0.74	0.85	0.81	0.58	0.4	0.6493
	软	0.85	0.34	0.76	0.84	0.81	0.58	0.46	0.6556
	调优	0.85	0.4	0.79	0.84	0.79	0.59	0.49	0.6746

(一)

(b)

(c)

4.3。实验分析

从图17,我们可以得出这样的结论:整体模型比nonensemble深处的。DELVS模型在李的行动获得最好的结果数据集和柳树行动数据集,当DELWO模型获得最好的结果在1.5 x剪裁柳树行动数据集。这可以完全解释深合奏模型可以更好地发现更多的方面的“真相”,让面临干扰时的鲁棒性。

(一)

(b)

(c)

比较实验结果在1.5 x剪裁柳树行动数据集,我们可以得出另一个结论,所有深模型表现更好的整体精度柳树行动数据集。因此,我们可以推测,每个行动的“背景”信息可以提供有用的信号和信号分类相应的行动。例如,“InteractingWithComputer”行为通常发生在室内,而“RidingBike”,“RidingHorse”等经常发生在户外。“背景”信息通常与特定的行为,所以它是有价值的合并时的“背景”信息分类对应的人类活动。

图18显示了激活的详细类热图使用Grad-CAM [45)对不同深度模型中三个“RidingHorse”行动。NCNN-based模型将检测响应面积超过基线的某种程度上。尽管DELWO模型发现少反应区域,他们保留最核心部分和更紧凑的。我们推测,这可能是为什么DELWO为这些行为分类模型显示更大的鲁棒性。

5。结论

在这个研究中,我们提出了深度集成学习方法来自动执行人类行为在静态图像识别。人类活动如“打电话”、“RidingHorse”和“运行”需要静态cue-based方法由于这些行为的本质。认识到人类活动在静态图像是视频的补充方法。如何缓解过度拟合一直是最具挑战性的任务之一在计算机视觉和机器学习。时变得更加棘手的深度学习模型需要在小数据集训练。因此,如何缓解过度拟合训练时我们的模型是一个重要的问题。

为了解决上述问题,首先,卷积的权重层模块的模型是由pretrained初始化模型的转移学习。此外,我们采用数据增强技术来产生更多的进一步减轻过度拟合训练数据。第二,技巧可以大大缩小的差距可训练的参数的数量。因此,我们的模型更轻和推广以及看不见的数据。此外,它是可行的训练我们的小说模式在一个电脑CPU受益于端到端结构。此外,非连续性网络拓扑促进NCNN-based模型分别学习空间——和channel-wise功能并行分支。DELWO模型,广义不连续的网络拓扑结构,可以融合深度特性在多个模型自动从数据。DELVS模型可以一起池不同分类器产生一个更好的预测。

我们的实验结果显示,“背景”分类信息可能提供有用的信号,暗示人类的行为。将行动和背景信息将我们后续工作的一部分。非连续性网络拓扑结构具有强大的优势传统的连续的拓扑,因此,进一步发展与卷积分离层和多个输入一个不连续的模型将会是另一个我们的后续研究。例如,我们可以利用行动信息和背景信息作为两个独立的输入,共同学习一个不连续的模型。也就是说,非连续性模型可以同时训练利用多种形式的输入,和这个想法将我们的后续研究的重点。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了博士江西科技大学的科学研究基金会(批准号jxxjbs19029),吉林省科技发展计划,中国(批准号20150204007 gx),符号计算与知识工程重点实验室,教育部,吉林省科技发展计划项目(批准号20180520017 jh),吉林省省级教育部门的科技项目(批准号JJKH20170107KJ)。

引用

诉Delaitre,拉普帖夫海,j . Sivic“静态图像识别人类活动:研究bag-of-features和部分原因表示,”学报2010 - 21 BMVC英国机器视觉会议英国阿伯里斯特威斯大学,2010年8月。视图:出版商的网站|谷歌学术搜索
g .姚明,t . Lei, j .钟,“回顾convolutional-neural-network-based动作识别,”模式识别的字母卷。118年,14-22,2019页。视图:出版商的网站|谷歌学术搜索
w·徐z苗,j . Yu,问:,“行动与时空上下文识别和定位,“Neurocomputing卷,333年,第363 - 351页,2019年。视图:出版商的网站|谷歌学术搜索
m . Majd和r . Safabakhsh相关卷积LSTM人类行为的认可。”Neurocomputing,2019年。视图:出版商的网站|谷歌学术搜索
c . Feichtenhofer a Pinz, a . Zisserman“卷积二束网络融合视频动作识别,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页1933 - 1941年,NV,美国,2016年7月。视图:出版商的网站|谷歌学术搜索
h . Bilen b费尔南多,大肠Gavves, a . Vedaldi“动作识别与动态图像网络,”IEEE模式分析与机器智能,40卷,不。12日,第2813 - 2799页,2018年。视图:出版商的网站|谷歌学术搜索
李p . j . Ma,美国高,“行动仍然web图片:可视化、检测和检索”网络时代的国际会议信息管理武汉,页302 - 313年,中国,2011年9月。视图:出版商的网站|谷歌学术搜索
霁,w .徐、m·杨和k . Yu”3 d卷积神经网络对于人类行为的识别,”IEEE模式分析与机器智能,35卷,不。1,第231 - 221页,2013。视图:出版商的网站|谷歌学术搜索
j·j·l . y . Zhang Cheng Wu Cai, m . n, j . Lu,“动作识别与最小静态图像注释的努力,”IEEE图像处理,25卷,不。11日,第5490 - 5479页,2016年。视图:出版商的网站|谷歌学术搜索
f·s·汗·r·穆罕默德出全新,j . Van De Weijer公元Bagdanov, a . m .洛佩兹和m . Felsberg“着色行动在静态图像识别,”国际计算机视觉杂志》上,卷105,不。3、205 - 221年,2013页。视图:出版商的网站|谷歌学术搜索
g .郭和A .赖”调查基于静态图像的人类行为识别,”模式识别卷,47号10日,3343 - 3361年,2014页。视图:出版商的网站|谷歌学术搜索
阿比,m . Piccardi和m·a·威廉姆斯,“行动在静态图像识别潜在的superpixel分类,“2015年,https://arxiv.org/abs/1507.08363。视图:谷歌学术搜索
梁z、x王、黄r和l .林”一个表达深刻的人类行为模型解析从单一形象,”学报2014年IEEE国际会议多媒体和世博会(ICME)IEEE,页1 - 6,成都,中国,2014年7月。视图:出版商的网站|谷歌学术搜索
t . Qi, y, y, y . Wang和h .凌,“基于图像识别使用hint-enhanced深层神经网络,”Neurocomputing卷,267年,第488 - 475页,2017年。视图:出版商的网站|谷歌学术搜索
j .香港、b .赞和m .江“人类行为识别分类器使用深度运动地图金字塔和歧视的协作表示,“电子杂志的成像,27卷,不。第三条ID 033027, 2018。视图:出版商的网站|谷歌学术搜索
a·古普塔a . Kembhavi l·s·戴维斯,“观察人造物的相互作用:使用空间和功能的兼容性进行识别,”IEEE模式分析与机器智能没有,卷。31日。10日,1775 - 1789年,2009页。视图:出版商的网站|谷歌学术搜索
张g .张贾,x, x,“Saliency-based前景轨迹提取使用多尺度混合面具行动识别,”电子杂志的成像,27卷,不。5、文章ID 053049, 2018。视图:出版商的网站|谷歌学术搜索
p . f . Felzenszwalb r . b . Girshick d . McAllester和d . Ramanan”对象检测与区别式模型部分原因,“IEEE模式分析与机器智能,32卷,不。9日,第1645 - 1627页,2010年。视图:出版商的网站|谷歌学术搜索
b . Ko, j .香港,J.-Y。南,“人类行为识别静态图像使用行动poselets和一个两层的分类模型,”杂志的视觉语言和计算28卷,第175 - 163页,2015年。视图:出版商的网站|谷歌学术搜索
f·l·蔡x Liu陈,m .香“健壮的人类行为识别基于深度运动地图和改善卷积神经网络,”电子杂志的成像,27卷,不。5、文章ID 051218, 2018。视图:出版商的网站|谷歌学术搜索
k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”2014年,https://arxiv.org/abs/1409.1556。视图:谷歌学术搜索
y LeCun (b·e·波沙j·s·德克et al .,“手写数字识别与反向传播网络,”先进的神经信息处理系统,2卷,第404 - 396页,1990年。视图:谷歌学术搜索
c . Szegedy w·刘,y贾et al .,“要更深的曲线玲珑,”《IEEE计算机视觉与模式识别会议美国,页1 - 9,波士顿,MA, 2015年6月。视图:出版商的网站|谷歌学术搜索
m·林问:陈,美国严,“网络的网络,”2013年,https://arxiv.org/abs/1312.4400。视图:谷歌学术搜索
a . m . Nickfarjam和h . Ebrahimpour-Komleh Shape-based人类行为识别使用深信仰多输入拓扑网络,”学报》2017年第九届国际会议信息和知识技术(ik ()IEEE,页1 - 4,德黑兰,伊朗,2017年10月。视图:出版商的网站|谷歌学术搜索
o . Oktay w·巴姨,m . Lee et al .,“多输入心脏图像超分辨率使用卷积神经网络,”《医学影像计算和计算机辅助介入的国际会议,页246 - 254年,雅典,希腊,2016年10月。视图:谷歌学术搜索
y阳光、朱l . g . Wang和f .赵,“花分级、多输入卷积神经网络”电气和计算机工程杂志》上卷,2017篇文章ID 9240407、8页,2017。视图:出版商的网站|谷歌学术搜索
y Fujita, r·高岛t的丑行,m . Togami”数据增加使用多输入多输出源分离深基础声学建模、神经网络”《Interspeech,页3818 - 3822年,旧金山,美国,2016年9月。视图:出版商的网站|谷歌学术搜索
l . l . Minku b。杰哈卡胡奇j .伽马和m . Woźniak j . Stefanowski“整体学习数据流分析:一项调查,“信息融合37卷,第156 - 132页,2017年。视图:出版商的网站|谷歌学术搜索
X.-L。张和d·王,“深合奏学习单声道的语音分离的方法,”IEEE / ACM交易音频、语音和语言处理,24卷,不。5,967 - 977年,2016页。视图:出版商的网站|谷歌学术搜索
f . Chollet和j·j·阿莱尔,“先进的深度学习的最佳实践,”深度学习与R,218 - 249卷,曼宁出版物有限公司住所岛,纽约,美国,2018年。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页770 - 778年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
黄g . l . Van Der Maaten z . Liu和k·温伯格,“人口回旋的网络连接,”《IEEE计算机视觉与模式识别会议火奴鲁鲁,页4700 - 4708年,美国,2017年7月,你好。视图:谷歌学术搜索
a·g·霍华德·m·朱b . Chen等人“Mobilenets:高效移动视觉卷积神经网络应用程序,”2017年,https://arxiv.org/abs/1704.04861。视图:谷歌学术搜索
a . h .湾Ess、t . Tuytelaars和l . Van干傻事,“骗补健壮的特性(冲浪),”计算机视觉和图像理解,卷110,不。3、346 - 359年,2008页。视图:出版商的网站|谷歌学术搜索
j . Sivic和a . Zisserman”视频谷歌:文本检索方法在视频对象匹配,”诉讼第九IEEE计算机视觉国际会议2003年10月,IEEE p。1470。视图:谷歌学术搜索
美国Lazebnik、c·施密德和j·庞塞”外袋特征:空间金字塔匹配识别自然场景分类,”学报2006年IEEE计算机协会会议上计算机视觉和模式Recognition-Volume 2 (CVPR 06年)IEEE,页2169 - 2178年,华盛顿特区,2006年美国。视图:出版商的网站|谷歌学术搜索
你们r和p . n . Suganthan“实证比较bagging-based系综分类器,”《2012年15日国际会议信息融合IEEE,页917 - 924年,新加坡,2012年7月。视图:谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:谷歌学术搜索
h·德鲁克c·科尔特斯l . d . Jackel y LeCun(诉Vapnik,“提高和其他集合方法,”神经计算》第六卷,没有。6,1289 - 1301年,1994页。视图:出版商的网站|谷歌学术搜索
a . Natekin和a·诺尔”梯度增加机器,教程”,Neurorobotics前沿p。卷。7日,21日,2013年。视图:出版商的网站|谷歌学术搜索
在r . Polikar“整体学习。整体机器学习施普林格,页猴行者,波士顿,MA,美国,2012。视图:谷歌学术搜索
a·奥利瓦和a . Torralba建模场景:的形状的整体表示空间信封,“国际计算机视觉杂志》上,42卷,不。3、145 - 175年,2001页。视图:谷歌学术搜索
沙,k . Khatri p . Mhasakar r·纳加尔和拉曼,“基于无监督要点的聚类对象定位,”通信学报2019年全国会议(NCC)IEEE,页1 - 6,亚特兰大,乔治亚州,美国,2019年2月。视图:出版商的网站|谷歌学术搜索
r·r·Selvaraju m . Cogswell Das, r . Vedantam d·帕里克说,d·巴特拉”Grad-CAM:视觉解释基于从深层网络通过梯度本地化,”《IEEE计算机视觉国际会议,第626 - 618页,威尼斯,意大利,2017年10月。视图:出版商的网站|谷歌学术搜索