文摘
基于物联网的智能家居已经得到迅速发展。提高安全、舒适和方便居民生活用最小的成本,日常活动识别目标以非侵入性的方式了解居民的日常活动。日常活动识别的性能很大程度取决于活动功能的解决策略。然而,当前普遍采用基于统计信息的解决策略的个人活动不支持好活动识别。改善公共就业解决策略,一个活动特性提出了基于TF-IDF解决策略。拟议的战略利用统计信息与个人相关的活动,整个活动。两个不同的数据集已经委托,以减轻对任何可能的数据集之间的耦合效应和传感器配置。最后,许多机器学习(ML)技术和深度学习技术评估来评估他们的居民活动识别的性能。
1。介绍
世界人口正在老化,导致不均匀的人口组成。据估计,到2050年,有超过20%的人口将超过64岁和80岁以上的人数将达到近3.79亿,约为5.5倍(6900万)2000年(1,2]。人口老龄化的增加将导致衰老相关疾病的增加,进而将提供额外的医疗负担(2]。人口老龄化,潜在的抚养比率趋于下降。PSR是15 - 64岁的人的数量每一个年长的人年龄在65岁或更老。这个比例描述了劳动人口负担放在(失业率和儿童并不认为这项措施)非工作老年人口。从1950年到2009年,可能比从12个减少到9潜在工人人均65岁或以上(1]。
近年来,基于物联网的智能家居已经迅速发展以提高安全、舒适和方便居民生活用最小的成本。它们主要用于智能视频监控、病人监护系统,人机交互,虚拟现实、智能安全,athlete-assisted培训等等。显然,智能家居的识别用户的基本活动。
环境辅助生活(AAL)的主要目的是支持独立生活,随后缓解与老龄化相关的问题的一部分。它被广泛视为一种有效的方法来解决的一些问题与支持相关的人口老龄化(3,4]。智能家居技术的继续发展,个人,如老人和残疾人,可以提高他们的生活质量,可以独立生活在家里。
活动识别(AR)是光芒四射的重要方式之一。通常基于“增大化现实”技术是一个复杂的过程,可以分为两个类别的类型的传感器,用于监测活动。第一个是称为活动建立识别。这个类别中的方法利用计算机视觉技术,包括特征提取、结构建模、运动分割,提取,和运动跟踪分析观察模式识别。第二个是称为传感器活动识别。传感器数据通过传感器监测主要是时间序列生成的状态改变和/或各种参数值通常由数据融合处理,概率和统计分析方法,正式的知识活动识别的技术。传感器活动识别可以分为两类。第一个是基于可穿戴传感器活动监视,更关心的是在移动计算。第二个是密集的感应,这是更适合支持智能环境的应用程序。
在本文中,我们专注于传感器活动识别。基于传感器活动识别的一个关键步骤是解决活动特性。然而,当前普遍采用基于统计信息的解决策略的个人活动不支持好活动识别。改善公共就业解决策略,一个活动特性提出了基于TF-IDF解决策略。该策略利用更多的统计信息与个人相关的活动,整个活动。
剩下的纸是组织如下。部分2描述了相关工作。部分3描述活动识别的过程。拟议的功能解决策略是解释部分4。部分5描述了实验的实施和评价方法。部分6总结了纸。
2。相关工作
目前,许多的方法来识别活动已经开发出来。根据传感器的类型,可以分为基于视频传感器,基于可穿戴传感器,嵌入式传感器的基础。视频传感器,阿施施哈雷等人提出了一种视频传感器行为识别方法,集成了本地二进制模式(5]。林等人提出了一种新的基于网络的传输(“挪威通讯社”星期六报导)人类活动识别算法在视频6]。然而,用户的隐私是一个巨大的挑战,许多用户不愿如传感器敏感地方间卧室和浴室。和视频传感器也正受到昼夜等因素影响,环境,等等。对可穿戴传感器,凯文·布沙尔等人使用基于rfid被动活动识别系统来检测异常认知障碍(7]。杨等人提出了一个简单的方法识别人类活动基于简单对象信息参与RFID使用活动(8]。安德烈等人提出了一个基于重力感应的卷积网络活动识别(9]。然而,为用户不方便携带,大多数用户不愿意携带的传感器的身体,和收购活动有时取决于因素,如由位置传感器。嵌入式传感器解决了视频传感器和可穿戴传感器带来的问题。嵌入式传感器的优点是有效地保护用户的个人隐私,自由来自周围环境的影响,而不是要求用户携带(10- - - - - -12]。
活动识别在智能家居可以分为知识和数据驱动(13- - - - - -15]。对知识的方法,知识是来自领域专家。在[16),陈等人提出了一种多传感器数据流的实时连续活动识别知识智能家居。此外,本体通常是集成到知识的方法。在[17),Latfi等人提供了一个基于本体的TSH老年活动识别的模型。Salguero等人提出,本体自动生成反诽谤联盟的行为识别分类器的特点(18]。基于本体的方法是清晰和易于理解。知识因此被称为自顶向下的方法,但它很差在处理不确定性和时间信息。
相反,数据驱动的方法从大量的传感器收集数据流,组织形成的数据信息,然后整合和完善相关信息,利用机器学习技术培训和适应形成一个自动化决策模型基于数据(19]。在[20.),一个框架,用于获取和开发不同层次的上下文模型提出了智能环境中。Tapia等人提出一种实时算法来自动识别体育活动(21]。数据驱动也被称为自底向上的方法。能力强,处理不确定性和时间信息。因此,本文使用数据驱动的活动识别。
数据驱动的方法通常分为生成方法和歧视的方法。在生成模式中,帕特森等人提出的多个不同的HMM模型活动识别(22]。为了提高HMM模型识别复杂的活动,提出了一种多层隐马尔科夫模型(HHMM) (23]。维尔等人提出一个新的、有效的特征选择算法m-estimates-based CRF识别最重要的特征行为识别(24]。虽然作品更好的与不确定的或不完整的数据,它需要大量的数据来学习优化模型。随着神经网络的发展,深度学习正逐渐应用到活动的认可。李等人提出了一种BP神经网络用于表示和识别人类活动从传感器观察序列25]。深度信念网(DBN)模型提出识别成功的人类活动(26]。关提出了一个深刻的长期短期记忆(LSTM)网络行为识别(27]。在[28),陈等人使用LSTM复发性神经网络来分析从加速度计和陀螺仪传感器读数识别人类活动和提供position-aware提高识别精度的方法。
活动特征选择和解决活动实例的开始时间和持续时间是常用的时序特性。单个传感器的频繁集传感器和频繁序列传感器常用的空间特性(29日]。空间特性,特性的共同解决策略包括频率、密度、等等,空间功能被激活。因为当前的解决策略只考虑个体活动的统计信息,它不支持好活动识别。
3所示。活动过程的识别
如图1、活动识别过程包括四个阶段。
在第一阶段,原始传感器事件收集的形式流日常活动时发生。在图2,样品的原始传感器事件活动“睡眠”。每天的活动实例启动时,一些传感器将被激活在时间序列有序,直到每日活动实例结束。当一些传感器激活,激活日期,激活时间,名称,和传感器的值存储。例如,第一个激活传感器是“M021”价值”“时间“00:06:32.834414”活动“睡眠”,如图2011-06-152。
在第二阶段,传感器事件序列分为许多子序列。每个子序列对应于整个活动实例。
在第三阶段,日常活动的特征选择和解决。一般来说,功能分为时间特性和空间特性。活动实例的开始时间和持续时间是常见的时间特性。传感器是常见的空间特性。时间特性和空间特性是用来描述日常活动实例。特征选择后,功能可以根据一些解决策略。
在最后阶段,活动识别模型建立。然后,训练数据训练识别模型提供。训练识别模型是用来将一个活动标签分配给每个测试活动实例。
4所示。活动特征选择和解决
4.1。活动特征选择
正如上面提到的,我们的工作着重于活动特征选择和解决。特征选择的任务是确定特性集。通常以前的工作时间特性和空间特性是参与我们的工作(10]。时间特性包括活动实例的开始时间和持续时间。空间特性是解决公式分为两类的特性。第一类的空间特性被命名为起始-结束频率(海基会)特性。每个海基会特性对应一个传感器。第二类叫TF-IDF特性的空间特性。每个TF-IDF特性也对应于一个传感器。
正式,让 是集传感器部署在智能家居。特性集的定义 。 和表示活动实例的开始时间和持续时间,分别。 海基会的特性。 设置TF-IDF特性。
4.2。活动功能解决
4.2.1。准备解决时间活动特征
对于一个活动实例,起始时间和持续时间与的值特征提取和 。在图2的值,和活动实例的“睡眠”“00:06:32”和12717秒,分别。
4.2.2。海基会活动特性解决
海基会活动特性提出了求解过程的算法1。为一个活动实例和一个传感器(k> = 1,k< =n),相应的小子特性值被分配到2如果第一个传感器和最后一个传感器 。相应的小子特性值被分配到1如果第一个传感器或最后一个传感器 。相应的小子特性值指定为0,如果没有第一个传感器和最后一个传感器 。活动实例“睡”在图2,海基会的价值功能被分配到2什么时候是对应于传感器“M021”。
|
||||||||||||||||||||||||||||||||||||||||||||
4.2.3。TF-IDF活动特性解决
(1)TF-IDF。考虑一组术语 和一组文件 ,术语Frequency-Inverse文档频率(TF-IDF)是一种常见的加权公式是用来评估一个术语的重要性 是一个文档 在信息检索领域(30.]。在形式上,TF-IDF被定义为 。 ,在哪里 是这个词多少次出现在文档 。 。
摘要TF-IDF是用来评估重要的传感器是一个活动实例。考虑一组传感器 和一组活动实例 ,TF-IDF 被定义为 。
范围不同的TF-IDF特征值相差很大。规范化TF-IDF特性值,两个优化函数引入TF-IDF特性解决。第一个函数是乙状结肠函数公式所示(1)。它可以映射TF-IDF特性值的区间 。第二个函数是双曲正切函数公式所示(2)。它可以映射TF-IDF特性值的区间 。TF-IDF活动特性提出了求解过程的算法2。
5。评价
5.1。数据可用性
在这项研究中,我们使用两个公共的数据集,“tulum2009”和“开罗”(31日),来说明该方法的适用性。这些数据集已经发表的华盛顿州立大学(31日]。统计信息表中描述的两个数据集1。值列在“传感器”列对应于所涉及的传感器数量和相应的类别。同样,值列在“活动类别”列对应于参与活动的类的数目而列在列“活动实例对应于参与活动实例的数量。值列在“居民”列对应于居民的数量。最后,列在“测量时间”的值对应于时间的数据被收集的数据收集时间。
对于“tulum2009”数据集,以下标识符类型被认为是。(1)标识以“M”开头的名称表明红外运动sensors-M001-M018。(2)标识符的名称从“T”sensors-T001-T002显示温度。
涉及原子活动包括“Cook_Breakfast”(“C_B”)。”Cook_Lunch”(“C_L”)。”Enter_Home”(“E_H”)。”Group_Meeting”(“G_M”)。”Leave_Home”(“L_H”)。”Eat_Breakfast”(“E_B”)。”零食”(“年代”)。”Wash_Dishes”(“W_D”)。”Watch_TV”(“W_T”)。涉及原子活动和互动活动展示在表2。
同样,对于“开罗”数据集,以下标识符类型被认为是。(1)标识以“M”开头的名称表明红外运动sensors-M001-M027。(2)标识符的名称从“T”sensors-T001-T005显示温度。
参与活动包括“床上厕所”(“B_T_T”)。”早餐”(“B”)。”睡眠”(“年代”)。”之后”(“W”)。”在办公室工作”(“W_I_O”)。”晚餐”(“D”)。”洗衣”(“刘”)。”离开家”(“L_H”)。”午餐”(“华尔街日报”)。”晚上游荡”(“N_W”)。”吃药”(“T_M”)。涉及原子活动和互动活动展示在表3。
5.2。实验准备
在这项研究中,提出的方法相比,基于对频率特性解决方法。解决基于频率的活动特点是普遍采用在先前的研究[Liu17]。基于频率的活动特性提出了求解过程如下。为一个活动实例和一个传感器(k> = 1,k< =n),对应的特征值分配的频率被激活。活动实例“睡”在图1特性的值(BATV001 1), (BATV002, 1), (BATV006, 1), (BATV010, 1), (BATV012, 1), (BATV013, 1), (BATV015, 1), (BATV019, 1), (BATV021, 1), (BATV022, 1), (BATV102, 1), (BATV105, 1), (LS013, 2), (M021 14), (MA020 10)特性的值大于零。
这些方法是由相应的绩效评估活动的识别,通过支持向量机(SVM)序列最小优化(SMO)和随机森林(RF)。使用工具集使用Weka 3.9。此外,我们实验在相同的数据集使用最先进的深度学习技术长期短期记忆(LSTM),适用于时间序列数据。LSTM使用由一个输入层,两个隐藏层和输出层。在数据集开罗,神经元在输入的数字,隐藏,和输出层设置为20,40岁,40岁,分别和21。在数据集tulum2009,神经元在输入的数字,隐藏起来,和输出层设置为20,40岁,40岁,分别和37。时代设置为1、5、10和15。10倍交叉验证。考虑评价指标包括准确度、精度和F-measure。
5.3。结果
5.3.1。整个结果
识别精度有关tulum2009数据集描述在表4。TF-IDF准确性使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切远远超过使用支持向量机使用功能FF的SMO。当采用射频精度几乎相等。识别精度有关开罗数据集描述在表5。TF-IDF精度使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切远远超过FF使用支持向量机的使用特性。TF-IDF精度使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切还是有点超过那些使用特性FF使用SMO和射频。
识别精度有关tulum2009数据集描述在表6。精度使用特性TF-IDF TF-IDF + Sigmod,或TF-IDF +双曲正切更少或更多超过使用一个特性FF当雇用所有的三种分类器。识别精度有关开罗数据集描述在表7。TF-IDF分别使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切超过了使用一个特性FF当使用所有三个分类器。
识别F-Measures tulum2009数据集描述在表8。TF-IDF F-Measures使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切少或多个超过,一个使用特性FF使用所有三种分类器。识别F-Measures有关开罗数据集描述在表9。TF-IDF F-Measures使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切超过了使用一个特性FF当使用所有三个分类器。
识别结果使用LSTM tulum2009数据集描述在表10。最好的准确率76.01%,最好的精度80.13%,最好的F-Measure 77.99%时达到5是分配给时代。精度和F-Measures TF-IDF使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切超过最好的对手使用LSTM当采用SVM, SMO和射频。精度使用特性TF-IDF + Sigmod或TF-IDF +双曲正切超过了最好使用LSTM使用SMO。只有最好的精度使用LSTM有点超过了使用功能TF-IDF使用SMO。
识别结果使用LSTM有关开罗数据集描述在表11。最好的精度66.18%,最好的F-Measure时达到10 66.82%分配给时代。15时最好的精度达到58.79%分配给时代。的精度,精度,F-Measures TF-IDF使用特性,TF-IDF + Sigmod或TF-IDF +双曲正切超过最好的对手使用LSTM采用支持向量机的时候,SMO和射频。结果,LSTM有效活动识别是不够的。主要原因是训练数据稀疏和相对更多的神经网络节点导致过度拟合训练集。
5.3.2。个人活动的结果
最好和最差的识别号码的活动是统计的准确性和精度。让 设置活动的类别。让=“FF”、“TF-IDF”、“TF-IDF + Sigmod”、“TF-IDF +双曲正切”被设置的功能类别。为 和 , 和 表示是否得到最好和最差的精度解决功能。 和 表示是否得到最好和最差的精度解决功能。的准确度和精密度,识别的定义是最好的活动 和 。坏的数量被定义为活动的认可 和 。
, , ,和个人活动的数据所示3- - - - - -6对两个数据集。数据集tulum2009, FF在两三个分类器是最严重的 。FF最差在所有三个分类器有关 。FF最好只在射频有关 。FF不是最好的三个分类器有关 。TF-IDF TF-IDF + Sigmod, TF-IDF +双曲正切密切的三个分类器有关和 。TF-IDF是最好的在所有的三个分类器有关 。TF-IDF + Sigmod最好两三个分类器有关 。
数据集开罗,FF最差在所有三个关于在两个分类器和 。FF不是最好的三个关于在两个分类器和 。TF-IDF最好两三个分类器有关 。TF-IDF和TF-IDF + Sigmod最好两三个分类器有关 。TF-IDF和TF-IDF +双曲正切最好两三个分类器有关 。
根据这一研究获得的结果,以下几点必须注意。策略基于TF-IDF特征表现策略基于FF特征在准确性、精密,F-Measure无论整体或个人的活动。
6。结论
介绍了基于TF-IDF策略的活动特性解决关于活动识别应用程序。提出的策略进行评估使用三个分类器在两个不同的数据集,这一研究获得的结果证明能力的策略基于TF-IDF显著提高活动识别系统的性能。
数据可用性
作者采用两个公共数据集“tulum2009”和“开罗”来说明该方法的适用性。这些数据集已经发表的华盛顿州立大学(31日]。url是http://casas.wsu.edu/datasets/。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了中央大学(没有基础研究基金。3132018194)和人工智能的开放项目项目四川省重点实验室(没有。(没有2018 ryj09)和赛尔创新项目。NGII20181203)。