文摘
人类活动识别(HAR)可以利用巨大的利益在许多应用程序中,包括养老、医疗、康复、娱乐、和监控。许多现有的技术,如深度学习,已经发展为特定活动识别,但小的识别之间的转换活动。这项工作提出了一种基于深度学习的计划,可以识别特定的活动和两个不同的活动之间的转换时间短和低频率为医疗保健应用程序。在这项工作中,我们首先建立一个深卷积神经网络(CNN)从收集的数据中提取特征的传感器。然后,长期短期记忆(LTSM)网络是用来捕捉长期两个动作之间的依赖关系,进一步提高HAR识别速度。通过梳理CNN和LSTM,提出了一种基于可穿戴传感器模型,可以准确地识别活动及其转换。实验结果表明,该方法可以帮助提高识别率高达95.87%和转换的识别率高于80%,这比大多数现有的类似模型的开放HAPT数据集。
1。介绍
人类行为识别(HAR)是检测,解释,和人类行为的识别,可以使用智能健康保健,积极协助用户根据他们的需求。人类行为识别具有广阔的应用前景,如在智能家居监控,体育,游戏控制,卫生保健,老年病人护理,坏习惯检测和识别。它在深度研究中起着重要作用1),可以使我们的日常生活中变得更聪明,更安全,更方便。
目前,人类行为可以获得数据在两个方面:一是基于计算机视觉,另一个是基于传感器(2]。行为识别基于计算机视觉研究了很长一段时间,一个成熟的理论基础。然而,在实践中应用的方法有很多局限性。例如,使用一个相机受到各种因素,如光、位置、角度,潜在的障碍,和隐私入侵问题,很难在实际应用被限制。虽然传感器行为识别的研究时间相对较短,微电子和传感器技术的发展和成熟,有各种类型的传感器、加速度计、陀螺仪、磁力计和晴雨表。这些传感器可以集成到手机和可穿戴设备(如手表、手镯、和衣服。此外,先进的可穿戴传感器解决了防磁的场干扰的问题,如(3],它能够准确地估计目前的加速度和角速度的实时运动传感器的磁场干扰。所以这些可穿戴传感器通常规模较小,高灵敏度,抗干扰能力和强大,所以传感器识别方法更适合实际情况。此外,传感器行为识别并不局限于现场或时间,可以更好地反映人类活动的本质。因此,研究和应用基于传感器的人类行为识别越来越有价值的和重要的。
此外,哈尔包括两种类型:基本操作和转换操作。由于过渡运动的发病率低,时间短,有相对较少的研究过渡运动从站着,坐着,站走,所以在研究人类行为的识别4]。然而,过渡运动的研究是一个非常重要的人类行为识别的一部分。为了提高识别率,行为过渡动作识别不是可以忽略不计。过渡作用的区别是各种基本动作频繁交替。过渡动作的准确的部门能够准确地分割流数据在某种程度上,最终提高识别率。此外,行为识别方法基于传统模式有缺点比如手工特征提取。与深度学习在不同领域的应用和发展,深度学习模型还显示了巨大的优势领域的行为识别。
这项工作的主要贡献总结如下:(1)我们提出了一个深度学习模型组成的卷积和长期短期记忆复发性层,可以自动学习本地的特性和模型之间的时间依赖性的特性。(2)我们讨论了深度学习模型中关键参数对性能的影响,最终确定了最佳参数模型。(3)我们分析和比较实验结果与其他模型,采用相同的公共数据集。结果表明,该方法优于其他先进方法。
在这项工作中,我们使用智能手机的加速度传感器和陀螺仪传感器获得数据,并提出了一个CNN-LSTM混合模型识别过渡运动。卷积神经网络(CNN) (5]是一种深度的神经网络用于特征提取器。它特点是当地的依赖,所以它具有良好的性能在提取当地特性。然而,人类活动信息属于长实例,这是由复杂的运动和变化随着时间的推移。因此,CNN模型并不适用于提取时间和功能之间的关系。漫长的短期记忆(LSTM) [6)神经网络是一种递归网络,其中包含一个内存来模拟一个与时间有关的序列的问题。因此,CNN-LSTM的混合物可以准确地识别活动的基本和过渡特性。
本文的其余部分组织如下:部分2回顾了人类活动识别基于深度学习和文献存在的问题;部分3介绍了混合深度学习框架提出了存在的问题;部分4讨论了基于实验数据,分析实验结果。最后,部分5本文总结道。
2。相关的工作
由于广泛应用人机交互、行为检测、和其他技术,人类行为识别已成为一个热点领域(7]。人类行为识别可以被视为一个代表性的模式识别问题。传统的行为模式识别研究使用决策树、支持向量机(SVM),和其他机器学习算法可以获得令人满意的结果,在某些控制实验环境的前提和少量的标记数据。然而,这些方法的准确性取决于人工特征提取的有效性和全面性。此外,这些方法只能提取浅特性。由于这些限制,行为识别方法基于传统模式识别是有限的在分类精度和泛化模型。
近年来,深度学习发展迅速,吸引了许多研究成果,特别是在图像,处理时间系列,自然语言,逻辑推理和其他复杂的数据处理方面,取得了空前的成就8]。与传统的行为识别方法不同,功能设计的深度学习可以减少工作量。此外,可以学到更高级和更有意义的特性通过端到端的神经网络。此外,深层网络结构更适合无人监督的增量学习。此外,深层网络由几层叠加的特性可以用复杂的结构模型数据。总之,哈尔的深度学习是一种理想的方法。
因为深度学习在图像特征提取方面取得了杰出成就,许多研究人员第一次尝试把它应用到行为识别基于视频。在早期时期,泰勒et al。9)使用卷积阈值玻耳兹曼机器识别视频行为数据和提取敏感的特性。霁et al。10)提出了一种三维CNN模型从时间和空间来捕获更多的行动信息。刘等人。11)提出,CNN和条件随机域(crf)联合行动的分割和识别。CNN可以自动学习时空特征,CRF能够捕获输出之间的依赖关系。其他常见的深度学习方法也广泛使用,如递归神经网络(12)和长期短期记忆网络。一方面,它是成功的深度学习在视频行为识别中的应用。另一方面,它也广泛应用于人类行为识别基于传感器。
曾庆红et al。(13)提出将单轴传感器数据视为一维数据的图片然后发给CNN进行识别。江和阴14)结合加速度计和陀螺仪的信号序列为一个积极的形象,使深卷积神经网络(DCNN)自动学习的最佳特性从活动的形象。陈和雪15)修改了CNN卷积内核适应三轴加速度信号的特点。Ronao和赵16)提出了一个事先意识到效率和数据自适应人类行为识别与智能手机的传感器。回旋网不仅利用固有的time-local依赖传感器信号序列,但也提供了一种自适应的方法提取健壮的特性。实验结果表明,该方法可以识别类似的行动,处理困难的传统机器学习。Murad和Pyun17和周et al。18)提出了三个基于LSTM深度递归神经网络结构建立识别模型来捕获时间关系输入序列,可以实现更准确的识别。由于性能优越LSTM在行为识别应用程序中,关、Plotz [19)和Qi et al。20.)提高了LSTM和提出了一个集成模型,将不同LSTM学习者集成到一个集成分类器。通过实验评估标准数据集,它证明了集成系统由LSTM学习者优于单一LSTM网络。Ignatov [21)结合了手动提取的统计特性与特征自动提取的神经网络,实现人类行为识别方法基于用户自主深度学习。其中,CNN提取局部特征,虽然统计特性保存关于全球的信息形式的时间序列。打开数据集实验表明,该模型具有的优势小计算,运行时间短,和良好的性能。Nweke et al。22和王et al。23),分别总结了深学习方法在传感器中的应用行为识别和不仅提出了详细的对现有工作的看法,但也指出了挑战和未来研究的改进方向。
这项工作表明潜在的深层神经网络学习的潜在特性和时间序列特性。然而,现有工作行动识别主要关注的方面基本行为识别,而行为通常被忽略,因为过渡行动之间的过渡时间短。然而,有必要深入研究过渡行动为了提高模型的鲁棒性。精确的分工过渡行动可以准确地分割流数据在某种程度上,最终提高识别率。摘要CNN结合LSTM采用混合模型来提取深和先进的功能,和详尽的描述是由基本和过渡动作,从而实现准确的识别。
3所示。该方法
的整体架构图方法提出了如图1,它包含三个部分。第一部分是原始数据的预处理和转换,将加速和陀螺仪等原始数据到一个类似影像二维数组。第二部分是将合成图像输入到一个三层CNN网络可以自动提取运动特征的活动形象和抽象的特征,然后将它们映射到特征映射。第三部分是输入特征向量到LSTM模型,建立时间和行动序列之间的关系,最后介绍了完整的连接层实现多特征的融合。此外,批正常化(BN)介绍24],BN的规范化数据在每一层最后寄给Softmax行动层分类。
3.1。数据预处理
由于大量的行为通过传感器收集的数据,是不可能将所有数据输入深度模型。因此,滑动窗口分割前应该进行数据输入到模型中。行为识别方法提出了可以识别的基本动作和过渡动作在同一时间。过渡行动持续很短的时间内;有必要选择合适的窗口大小。如果窗口太大,重要的信息将丢失。否则,计算成本将增加。数据分割后,行为收集的数据传感器是一维时间序列不同于图像数据。因此,在应用这些输入数据的深度学习模型,需要输入和适应它们。维度转换进行窗口分割后的数据。 The method of transformation is to splice the sensor data of all axes into a two-dimensional matrix. The advantage of this approach to data processing is that it preserves the correlation between sensors’ axes. Finally, samples similar to pictures are formed and input into the deep learning model. Figure2显示了数据预处理的模型结构。
3.2。功能1 d-cnn为基础的学习
原单轴加速度和陀螺仪数据相当于量纲变换后图像的二维数组。特征图像卷积神经网络的输入,和其结构通常是由卷积层和汇聚层。卷积层输入图像进行卷积操作通过卷积内核获得功能映射。池层提取局部特征从卷积的特征映射层通过采样操作减少神经元的数量和参数的大小。卷积层和池层堆积形成深层结构,它可以自动提取动作特征信息从原始动作数据(5]。
摘要CNN模型结构设计如图3。卷积CNN网络模型包括三个层次和三个池层卷积(每层是紧随其后的是一池层),最后输出的特性映射图像操作特性。表1说明了不同参数的设置为每一个卷积和汇聚层。卷积是通过二维卷积核的卷积和由多个相邻帧图像叠加。卷积核的卷积三层是18岁,36岁,到72年,分别。卷积核的大小是2×8 2×18日和2×36,步长为1。自过滤器可能无法处理数据在一定方向的操作卷积,以避免减少图像边缘的数据,介绍了填充参数设置为“相同”,0是添加到输入图像的边缘矩阵。在卷积层卷积操作后,输出通常会通过一个非线性激活函数,然后形成卷积的输出层。流行的激活功能包括乙状结肠函数,线性整流函数(Rectified Linear Unit)函数和双曲正切函数。其中,线性整流函数(Rectified Linear Unit)函数可以改变数据的负值CNN提取到0,和积极的价值大于0的数据保持不变。非线性处理操作后,积极的价值大于0可以提取的特征表达的更清楚。因此,线性整流函数(Rectified Linear Unit)激活函数的卷积层CNN:
此外,我们有
池层被认为是减少特征映射的数量和参数。流行的池技术包括最大池和平均池。近年来,相关的理论分析和性能评价表明最大池策略的性能优越,广泛应用在深度学习(25,26]。此外,一些研究表明,最大池技术非常适合传感器人类行为识别(27]。因此,所有池层CNN本文利用最大池技术。特定的卷积和池工艺参数设置如表所示2。
3.3。特征融合和行动分类
提高识别率的过渡行为,我们建立后LSTM CNN网络 特征映射的特征序列转换计算的CNN图像原始数据组成。因此,序列 输入LSTM和LSTM的存储单元将产生一个字符序列 。
LSTM以来不同的控制单元、内存等单位输入门,忘记门,和输出门结合学习权重来解决这个问题的梯度消失在普通循环神经网络的反向传播过程。同时,LSTM模型可以按时间的行动和完全捕捉全球功能,以提高识别精度(28]。LSTM细胞内控制流动信息的神经元,这是由忘记门,输入通道和输出通道。此外,LSTM细胞获得的预测价值使用双曲正切函数。
首先,忘记门决定多少信息前一时刻可以累积到当前单元格。如方程所示(3),计算概率值确定的信息可以通过门: 在哪里对应的重量的输入向量,代表了偏见,介绍了神经元的输出在最后一刻,和代表的当前输入神经元。
其次,输入门由更新门和双曲正切层,控制多少可以流到当前单元格的信息。计算过程见方程(4)- (6)。输入的输入和输出门忘记门更新细胞同时,丢弃不需要的信息。然后,当前单位的预测价值是由输出门,和模型的输出,如方程所示7)和(8):
LSTM层的处理后,最终的输出是一组向量包含时间和行动序列相关性,这是输入完整的连接层融合的全球行动的特性。神经网络模型的训练过程变得复杂的统计分布的输入每一层与上一层的参数变化。防止输出数据的分布变化太多,将使用一个较低的学习速率,从而减少了训练速度。来解决这个问题,本文介绍了BN标准化值的每一层LSTM(在最后一刻神经元的输出和输入当前时刻),这和的均值和方差的变化不会改变底层的分布参数和有效分离从其他层每一层的参数。通过这种方式,梯度消失或爆炸是可以预防的,网络的训练速度可以加快。所示的BN算法算法1。
|
在算法1,和的均值和方差是吗通过minibatch获得的。均值和方差是用来正常化示例遵循正态分布。然而,积极的分布并不能够反映出训练样本的分布特点,因此有必要引入比例因子和转移因子 。随着培训的发展,和也学会了反向传播来提高精度。
BN操作后,特征更加明显,所以输入Softmax层提取动作特性和分类时间序列。在这个模型中,输出层使用Softmax归一化指数函数来计算后验概率的不同动作来实现分类。之间的映射神经元的输出值(0,1),它可以被视为行为的预测概率,和最大的一个是分类的结果。然后Softmax输出层输出等类别向量[0,0,0,0,1,0,0,0,0,0,0,0),表明分类结果是一个动作编号5。
3.4。模型实现和培训
这里描述的神经网络实现TensorFlow [29日]。它是一个轻量级库构建和训练神经网络。传统的计算机上运行的模型训练和分类2.4 GHz CPU和16 GB的内存。
模型训练完全监督的方式backpropagate的梯度Softmax一层一层的卷积。网络参数优化利用minibatch梯度下降法和亚当优化器通过最小化cross-loss函数(13]。亚当由于自身的优点被广泛应用在简单的实现中,高效的计算,和低内存需求。与其他类型的随机优化算法相比,亚当有很大优势。本文为了更好的火车模型,在训练数据输入到网络。亚当优化和反向传播算法是用来学习和优化网络参数。同时,叉损失函数是用来计算的总误差,见以下方程: 在哪里是真正的标签吗预测的价值。
提高效率,小批量的数据段大小分段在训练和测试。这些配置,累积后的参数计算梯度每个小批量。权重是随机和正交初始化。作为正则化的一种形式,我们引入一个辍学运营商在每个致密层的输入。这个操作符将激活一个随机选择的单位设置为零在训练。辍学辛顿提出的技术等。30.)是基于随机网络中删除某些节点的原则同时保持输入和输出神经元的完整性,相当于培训许多不同的网络。不同的网络可能overfit以不同的方式,但他们的平均结果可以有效地减少过度拟合。此外,辍学允许神经元学习更强的特性不依赖其他特定的神经元。参数的数量在深神经网络优化的不同取决于层包含的类型。它有一个很大的影响在所需的时间和计算机技能培训网络。具体模型训练参数将反映在实验中最好的选择。
4所示。活动识别
4.1。实验数据
除了常见的基本操作,本文还研究过渡动作。实际上,一些现有的公共数据集包含过渡动作。因此,本文采用国际标准数据集,基于智能手机的人类活动和体位转换数据集(31日,32)进行实验,缩写为HAPT数据集。UCI数据集是一个升级版的人类活动识别使用流行的数据集[8]。它提供了从智能手机的传感器,而不是原始数据预处理的数据。此外,行动范畴已扩大到包括过渡动作。HAPT数据集包含12种动作。首先,它有六个基本动作,包括三种类型的静态行为,如站着,坐着,躺着,走路和三种类型的活动,如散步,下楼和上楼;其次,它有六个可能的任何两个静态运动之间的转换:站着,坐着,坐着,站着,站着躺着,躺着坐着,坐着躺着,躺着,站着。
HAPT数据收集过程如图4。实验包括30名志愿者,他们的年龄从19岁到48岁,各自戴着智能手机的腰。进行数据收集与内置的加速度传感器和陀螺仪,和采样频率是50赫兹。与此同时,视频记录实验过程的为方便后续数据标记。
收集到的数据保存在. txt的形式,和加速度和陀螺仪数据独立存储,分别为60组。如表所示1,标签信息对应于实验的原始数据。其中,第一列是实验ID,第二列是实验者的数字,第三列是行动的标签,第四和第五列的开始和结束行标签对应的传感器数据。标签范围从1到12,代表12种动作。从图可以看出,收集到的数据包含无效数据,第一个250块的数据没有标记,属于无效数据。
原始数据的初步处理后,所有数据没有标签被删除。最后,得到了815614个有效数据。由于低频和短期的过渡作用,以及高频率和长时间的基本动作,有相当大的差异之间的数据量过渡动作和基本动作。六个转变行为的数据量远远低于其他基本动作,只占总数的约8%的数据。表3列出了不同操作的数据量。原始数据分为三个部分,训练集,验证集和测试集,在该训练集用于训练模型,验证设置用于调整参数,测试集是用来测量质量的最终模型。
4.2。参数设置
在深入学习网络,模型参数极大地影响其识别率。因此,神经元的数量的实验分析,学习速率,BN,批量大小和其他参数在LSTM层将在以下部分中进行。
4.2.1。准备LSTM层的神经元数量
为了验证LSTM层的神经元数量的影响识别结果,本文进行了以下实验,如图5。它表明,识别率是当每个LSTM最低层只包含8个神经元。这是因为,因为较少的神经元、网络缺乏必要的学习能力和信息处理能力,导致识别率较低。随着神经元的数目的增加,识别率会增加。当神经元的数量是64,识别率达到95.87%。如果神经元的数量太大,网络结构的复杂性会增加网络的学习速度会慢下来。因此,考虑到网络的训练时间,本文LSTM层神经元的数目是64年初步。
4.2.2。学习速率
实验是在不同的学习速率。如表所示4可以看出,模型的识别率达到95.87%的最大的学习速率是0.002。因此,采用学习速率为0.002。
4.2.3。BN操作
验证改进BN操作的网络模型,比较实验进行第一次有或没有BN层。时代是设置为400,和其他参数保持不变。测试集上的识别的两种方法如表所示5。显然,测试集上的识别率提高4.24% BN层后补充道。
4.2.4。批量大小
批量大小指的是批量样本容量的最大值在训练集的样本总数。当的数据量很小,批处理数据是整个数据集,以便接近极值方向更准确。然而,在实际应用中,深度学习所使用的数据量比较大,和小批处理普遍采用的原则。使用小批处理需要内存和速度训练时间相对较少。在一个适当的范围内,增加批量大小可以更准确地确定方向的梯度下降并导致更少的培训冲击。然而,当批大小增加到一定值,确定下行方向不会改变和修正参数将显著放缓。不同的批量大小的识别结果如表所示6。可以看出,当批大小是150,最大识别率达到95.87%。因此,150年是选为最佳批量大小。
CNN-LSTM模型在本文提出的参数如表所示7。
5。实验结果和分析
人体运动识别,王旭和刘刚33)使用F-measure建议标准测量方法来验证的性能根深蒂固的人类活动识别LSTM网络模型。陆et al。34)演示了模型的优越性在行为识别通过使用精度,预测率和召回率的实验。因此,评估运动识别方法的性能提出了,我们也使用精度的测量方法,召回率、损失率F测量的实验。
根据上述参数,12种不同行为的识别混淆矩阵如表所示8。准确性CNN-LSTM曲线模型如图6。从表可以看出9CNN-LSTM整体识别率高,和CNN-LSTM过渡行动有更好的识别效果。
6。案例研究
non-deep-learning方法,随机森林分类方法(RF)和K最近的邻居(资讯)分类执行在操作分类识别。因此,CNN-LSTM模型提出与RF和资讯的方法。首先,输入HAPT数据集到射频和资讯。然后,部分原始传感器数据和计算均值,方差,协方差,15个功能。最后,分类的基本行为和过渡行为根据聚类结果。分类结果如表所示10。可以看出CNN-LSTM模型的识别率高于射频和资讯的方法基本操作和转换操作。
除了射频与资讯分类器,我们提出的模型也与一个CNN相比,单个LSTM CNN-GRU, CNN-BLSTM深度学习模型。表11显示各种行动五个不同深度的平均精度模型。从表可以看出11,CNN-LSTM不仅承认基本动作略高于其他五个模型,但也有一个更好的识别过渡运动,特别是站着,坐着,坐着躺着,站在撒谎。表12显示了不同的识别利率模型在测试集上。从表中可以看出,这三个模型的平均识别率高于90%,但CNN-LSTM模型的识别效果略优于CNN, LSTM CNN-GRU, CNN-BLSTM。
证明CNN-LSTM深学习模型的有效性,这也是相对于其他深度学习方法使用相同的数据集。旷(35)应用BLSTM构建行为识别模型。哈桑et al。36)使用深度信念网(DBN)对人类行为的认可。我们比较了性能的方法(35,36),结果见表13。它遵循了该CNN-LSTM可以达到最高的平均识别率。
7所示。结论
本文探讨了基于深度学习的识别方法,并设计了基于CNN-LSTM行为识别模型。CNN学习从原始传感器数据,地方特色和LSTM提取时间关系从当地特性和实现局部特性和全局特征的融合,精细的描述基本和过渡运动和准确识别的两种运动模式。
本文确定的行动只包括常见的基本行为和个人转变行为。在下一步中,更多种类的行为可以收集和更复杂的行为可以添加,如饮食和开车。和个人识别可以实现通过考虑不同的用户的行为差异。与此同时,深度学习模型仍然需要优化和改进。研究表明,深度的结合模型和浅模型可以实现更好的性能。深入学习模式具有较强的学习能力,而肤浅的学习模式具有较高的学习效率。两者之间的合作可以实现更精确的和轻量级的识别。
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突。
确认
作者要感谢实验室的支持,大学和政府。这项研究是由国家重点研究发展计划(2017号yfb1402103),中国国家自然科学基金(61971347),陕西省科学研究项目(2018 hjcg-05),西安科技规划和项目基金会(201805037 yd15cg214)。