研究文章|开放获取
卡洛斯·e·Galvan-Tejada Jorge Galvan-Tejada, Jose m . Celaya-Padilla j .鲁本Delgado-Contreras拉斐尔Magallanes-Quintanar,玛格丽塔l . Martinez-Fierro Idalia Garza-Veloz, Yamile Lopez-Hernandez, Hamurabi Gamboa-Rosales, ”分析音频特征开发人类活动使用遗传算法识别模型,随机森林,和神经网络”,移动信息系统, 卷。2016年, 文章的ID1784101, 10 页面, 2016年。 https://doi.org/10.1155/2016/1784101
分析音频特征开发人类活动使用遗传算法识别模型,随机森林,和神经网络
文摘
这项工作提出了一种基于音频的人类活动识别(HAR)模型的特性。声音的使用作为一个信息源HAR模型代表一个挑战,因为声波分析生成大量数据。然而,特征选择技术可以减少所需的数据量来表示一个音频信号样本。一些音频特性,分析了包括Mel-frequency cepstral系数(MFCC)。虽然在声音和MFCC常用仪器识别,其效用在哈尔模式尚未得到证实,这验证了他们的应用。此外,统计特征提取的音频样本生成提出了哈尔模型。信息的大小必须符合HAR模型直接影响模型的准确性。这个问题也被解决在目前的工作;我们的结果表明,我们能够认识到人类活动的准确性达85%使用HAR模型。这意味着需要计算成本最低,从而使便携式设备使用音频识别人类活动作为一个信息来源。
1。介绍
认识活动的能力目前由自己或别人固有的行为是一个智能系统,为什么人类活动识别(HAR)是目前相关研究课题(1- - - - - -5]。有一个广泛的领域中,哈尔可以应用,如自动警戒、老年保健、娱乐和住宅活动支持(6- - - - - -11]。
哈尔是主成分,让人们认识到一个高水平的人类行为,因此确认例程和社会互动。结果是,建议使用不同的技术和信息来源之前出版。此外,努力也针对不同的知名技术融合和信息来源,以提高系统的精度和覆盖率。提出了一些分析。
摩尔et al。12名为]提供了一个框架objectspace使用熟悉的面向对象结构类和继承管理对象上下文和允许的分类活动。在说工作表明作者熟悉的和以前看不见的对象可以使用动作识别和上下文信息。然而,有一些限制在这个提议。例如,动作与对象可以减少活动协会认可,即使行动的好域名,因为有时候人们使用不同寻常的对象执行活动。此外,视频是一个复杂的信号,需要摄像机部署环境中,因此需要两个信息来源。
越来越多的便携式设备包含多个传感器,所有记录来自不同数据源的信息的能力。这些设备已经使用在几个分析认识到人类活动。莱斯特的一个et al。13)提出了从不同来源收集的数据使用一个设备和一个修改版的使用自适应增强算法(演)的特征选择。类似的工作提出了使用隐马尔科夫模型(HMM)分类某些活动(14]。
其他方法都是基于社会心理学的方法论和理论,采集音频数据,可以标记为重要的社会互动谓词(ESIP)。莱斯特提出的一个相关的例子,这种技术et al。13),他建立了一个模型命名区别的条件限制了玻耳兹曼机(DCRBM),该模型结合了歧视的方法和条件限制的功能玻耳兹曼机(CRBM)。可操作的组件的模型允许发现从DCRBM ESIP训练模型,并使用它来生成底层数据对应ESIP与高度的准确性。
二进制轮廓也被用来代表不同的人类活动。Uddin等人提出了一种基于广义判别分析的系统增强的独立组件,从二进制轮廓信息获取的特性与隐马尔可夫模型用于训练和识别(15]。同样,主成分分析(PCA) (16- - - - - -18)和独立分量分析(ICA) [19也被用于此目的。
特征提取的过程是用来表示一个信号使用几个派生值或特征信息和nonredundant。这个过程很容易导致非常大的特性,描述一个信号。然而,并不是所有的提取功能将是有用的(即在辨别不同类型的信号。代表不同的活动),信号,特征选择的原因也是必要的。为了确定哪一组特性准确分类不同的活动,特征选择的分析,包括使用遗传算法,提出了选择和反向消除步骤,和一个随机森林(RF)和神经网络(NN)算法实现。
短暂,我们试图确定一组小的特性,可以准确地分类八个不同的活动只使用特性来源于录音。此外,这样一个模型的准确性比较对模型没有大小限制,对模型使用不同的先进的方法获得的。
2。材料和方法
三个主要任务进行生成HAR模型:音频采集、特征提取和特征选择。特征提取和选择进行了使用R (https://www.r-project.org/)。
2.1。数据描述
数据集由七个活动,另外一组没有活动噪音,一般表现在住宅设置:即酿造咖啡,烹饪,使用微波炉,洗澡,洗菜,洗手,刷牙,没有活动的声音。我们从活动生成个人声音收集信息。表1显示了类型和一个简短的描述。值得一提的是,四个活动在自来水类似的背景声音,增加了哈尔的复杂性问题。所有录音都通过AmiDaMi研究小组页面可用http://ingsoftware.reduaz.mx/amidami/。
|
||||||||||||||||||||||||
2.1.1。录音设备
设备用于记录所有的音频剪辑都选择了从麦克风嵌入在这些不同规格。在表2显示系统芯片(SoC)和操作系统的选择手机,知道所涉及的硬件和软件内部的音频录制和预处理过程。
|
|||||||||||||||||||||||||||
2.1.2。空间环境
为了掩护大γ的声音,都记录在不同的房子意味着不同的空间环境中,音频反射和背景声音。另外不同的家庭设施意味着不同的厨具,家用电器,自来水反射。手机附近,正在执行的活动。其中一个例子,如图1,决心为了记录声音尽可能明确。
2.1.3。元数据
音频剪辑与采样率8000赫兹到44100赫兹和单声道和立体声录音完成取决于设备用于记录音频剪辑。采样率的范围保证大多数手机都能够被包括,允许为未来扩展的数据库。在表3摘要显示为每个活动执行在这个数据集的元数据。
|
||||||||||||||||||||||||||||||||||||||||||||||||
2.1.4。数据准备
在这个工作中,所有音频样本没有其他比修剪样品预处理在十秒片段,没有其他音频处理为了简化执行任何设备的实现。
2.2。特征提取
为了获得信息,有可能区分哪个活动被执行,一些特性提取音频剪辑。所示(20.,21),10秒音频片段似乎适合这项任务。然而,一些活动持续了超过十秒钟,收益率超过需要记录样本。这样的录音被修剪到尽可能多的十秒音频剪辑。避免单声道和立体声唱片之间的问题,只有后者的信息从左边通道的使用记录。每10秒片段被转换成一个整数数组,其中每个整数的大小代表声波在那一瞬间的时间。即使所有剪辑有同样的时间,数组的长度代表他们变化从80000年到441000年根据样本采样率的原始记录。
特性,统计描述声波以前被发现是重要的解决类似的问题(22]。因此,下面的列表中列出的16个统计特征提取从每个样本。Mascia等人表明Mel-frequency cepstral系数(MFCC) [23)可以用来识别声学环境声音的描述符(24),因此也从音频中提取样本。为此,每10秒的音频剪辑分成十秒的音频剪辑,从这12 cepstral系数计算,导致120 MFCC /样品。为了避免生成的矩阵中提取MFCC的向量化过程展示了由Mascia et al。24]。
从每个样本统计特征提取峰态概率分布的整数数组,偏态概率分布的整数数组,整数的数组,中位数的整数数组,标准偏差的整数数组,方差的整数数组,概率分布的变异系数(CV)的整数数组逆的简历,1日5日,25日,五十,75,95,和99百分位的概率分布的整数数组,意思是整数数组的底层和顶层削减5%后的元素。
为了避免任何outlier-related问题,特征是rank-normalized中描述(1),是th的价值功能和是th rank-normalized功能的价值。因此,所有功能介于0和1之间,数组的每个元素之间的等距的步骤:
2.3。特征选择
在特征选择过程的第一步,一个叫Galgo遗传算法(25)数据库的大小减少了确定哪些有用的特性有更多的机会。为此,一组随机five-feature模型在200代进化,在突变模型,复制和重组,最终产生一个高度精确的模型。健康定义为模型分类的准确性八之前定义的活动使用nearest-centroid方法和后三倍train-test方法。整个过程重复了300次,导致300高精度five-feature模型。每个特性的次数被发现在这些模型被用来确定一个特性,它描述了每个特性的潜在分类功能。
在此基础上,提出选择和向后进行消除,定义特征被用于特征选择过程的下一阶段。提出选择是一个众所周知的方法用于构建模型在低计算成本。从列表中排名功能,这种方法添加一个特性和评估模型的性能。一旦最后一个特性是添加和所有功能是评估模型,从模型的特性,实现最高精度,剩下的被忽视。向后消除被执行以避免冗余信息和进一步减少特征。这个过程是在一次移除一个特性和评估模型的性能,从远期的最终模型选择过程和删除第一个最频繁的特性在300 Galgo-generated模型。如果消除功能不降低模型的准确性,然后这种特性被撤的最终模型。重复此过程,直到模型稳定。准确性提出选择和反向淘汰过程测量后三倍train-test方法,使用相同的折叠的用于遗传算法。
选择的功能落后淘汰算法被用于生成两个哈尔模型,通过随机森林(RF)实现(26),另一个通过神经网络(NN)。射频是一个健壮的机器学习技术,可以根据装袋处理分类问题和随机特征选择(27,28]。此外,它允许误差的计算模型生成过程中无需将数据分为训练集和测试集。该算法使用一种out-of-bag (OOB)错误,真正的预测误差的无偏估计,在这森林是建立;每棵树可以测试样品中未使用建筑,树。Breiman [29日]表明,估计OOB错误有相同的结果估计错误使用相同大小的测试集作为训练集,得到神经网络模型使用70%的数据训练模型和测试它。该算法进行了分析,因为它可以很容易地实现一个手机,给提议的HAR解决方案无处不在。这些模型比较的RF -和一个NN-based模型包括所有原始功能,射频和一个NN-based模型,包括所有MFCC特征,但没有统计特性,开发的模型和Kabir et al。30.)是评估在三个不同的设置。
3所示。结果
音频采集了64录音和1159年十秒的音频剪辑。表4详细记录和音频剪辑的数量为每个活动获得。自120年每个音频剪辑有16个统计和MFCC特征提取,最后数据库有一个大小为1159×136的元素。
|
|||||||||||||||||||||||||||||||||||||||
图2显示了每一个在200代300 Galgo-generated模型的进化,产生平均精度为0.68。它还可以看到模型实现了稳定;也就是说,不需要有更多的后代。同样,图3显示的频率特性出现在300年模型稳定,至少在30个最频繁的特性。这意味着即使更多模型生成,最常见的秩特征不会改变了。
远期选拔程序选择了35个最频繁的特性,和落后的消除策略删除25。这导致只有9特性与潜在分类力量:修剪均值,标准差,第95百分位,6 MFCC。这些特性,其热度图如图4,被用来生成一个射频和NN-based HAR模型。NN-based HAR模型的权重调整在100年迭代和RF-based HAR模型调整使用5000棵树。
表5显示了分类精度通过每个模型。它可以指出,通过添加更多的功能RF-based HAR模型精度增加。即所有功能的模型精度最高,其次是与所有MFCC特征模型,然后通过模型9特性。相反,NN-based HAR模型降低了它的准确性包括当更多的特性,有其最佳性能时只有9选择特性。尽管如此,两个9特性提出的模型能够比模型Kabir et al .混淆矩阵,描述每个模型分类每个样本如表所示6,7,8,9,10,11。此外,表5表明,独立于场景中,模型基于射频方法胜过所有其他的场景,包括卡比尔等人的。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4所示。讨论和结论
本研究的重点是寻找特征描述高效音频信号的行为,代表活动由人类为了发展一个哈尔模型使用著名的机器学习技术,可用于低功耗和移动设备,提供上下文信息。中给出的结果,部分3,允许我们确定以下几方面回答问题提出部分1:(我)Mel-Frequency Cepstral系数描述更好的音频信号的行为:我们确定了MFCC描述准确的行为一个音频信号用于生成一个哈尔模型。即使在特征选择过程,该模型由9特性,其中6 MFCC描述符。(2)统计特性描述音频信号是很重要的:我们建议使用信号时间演化和第一和第二的统计特征提取,可以计算在低计算成本。这意味着可用于低计算处理器,随着新的便携式嵌入式系统(即。,Arduino and Galileo among others) or low-cost smart phones and in high-end smart phones at low battery cost. In results section we can see that even though several feature selection procedures were carried on, three of them survived until the final features set, meaning that can be used to HAR at low computational cost.(3)选择音频信号的特征可以描述行为失去一些健身比一起的所有特性:特征选择的目的是减少计算成本和最大化健身;然而,所选特征无法描述的行为时使用所有功能。然而,我们考虑到减少的功能需要从信号中提取更重要的是,允许无处不在在未来的工作,考虑到降低计算成本和降低电池消耗处理音频信号。
本研究提出的最强点之一是使用随机森林的人类活动识别目标准实体移动应用程序。提出的方法构建一个随机森林分类说;这个过程是一致的和适应稀疏;其收敛速度只取决于许多强大的功能,而不是有多少存在噪声变量(31日];分类方法的复杂性,在那里特征的数量,实例的数量,树的数量。然而,一旦模型训练和雅致,模型可以被转移到移动应用程序;表示应用程序只能使用随机森林结构和价值观,它不需要重新培训模型在移动设备避免说计算的复杂性。
另外我们发现特定行为的神经网络(NN)只用于描述MFCC音频信号;在这种情况下一个单隐层神经网络不能调整权重有效地引导我们miss-classification最差情况下,这种由MFCC百分等级标准化后往往低标准偏差意味着高相似性会overfit神经网络;然而,使用MFCC结合选定的统计特性产生一个有效的模型。这些观点让我们得出结论,最好的结果是获得使用一个聪明的选择统计和MFCC特征。
未来的工作
作为未来的工作的一部分,我们建议增加更多的活动,通常表现在住宅;此外我们建议添加更多特性提取和切肉刀特征选择进一步减少所需的数据量。提出了未来的工作如下:(我)在住宅研究其他人类活动(2)使用不同的特性和高效的计算成本(3)预测模型的实现在移动应用程序中,现实世界中部署(iv)实现其他特征选择技术进行比较和获得描述性特性
也比较获得的模型与第二组模型获得使用集群化技术来评估可以提供更好的结果在移动应用程序中实现。模型建立和优化后,我们计划为手机实现在应用程序的方法。同样,它的目标是检查这些应用程序是否可以有一个有益的使用在日常生活的各个领域,从个人安全医疗应用程序。
相互竞争的利益
作者宣称没有利益冲突有关出版的手稿。
引用
- n .奥利弗·e·霍维茨和a . Garg“分层表征人类活动识别,”学报》第四届IEEE国际会议上多通道接口IEEE,页3 - 8,宾夕法尼亚州匹兹堡,美国,2002年。视图:出版商的网站|谷歌学术搜索
- e . Kim, s·希拉勒和d·库克“人类活动识别和模式发现,”IEEE普适计算,9卷,不。1,48-53,2010页。视图:出版商的网站|谷歌学术搜索
- h . Kataoka k .桥本,y青木“人类活动特性与随机森林的集成实时识别,”第七届国际会议的程序机器视觉(ICMV 14),国际社会对光学和光子学、米兰、意大利,2014年11月。视图:出版商的网站|谷歌学术搜索
- 张a .此外,k, t . Maekawa”声:人类活动识别环境声音收集游戏,”《信息处理,24卷,不。2、203 - 210年,2016页。视图:出版商的网站|谷歌学术搜索
- m·a·m·谢赫、k . Hirose和m .不能从环境声音识别现实世界的活动提示创建创建人生航志INTECH,的哲理开放,2011年。
- e·a·Mosabbeb r·卡布拉尔f . De la Torre和m . Fathy”多标记歧视weakly-supervised人类活动识别和定位”电脑Vision-ACCV 2014d·克莱莫,里德,h .齐藤,M.-H。杨,Eds。,卷。9007of在计算机科学的课堂讲稿施普林格,页241 - 258年,柏林,德国,2015年。视图:出版商的网站|谷歌学术搜索
- k·詹,美国人造f·拉莫斯,“多尺度条件随机域第一人称活动识别在老人和残疾的病人,”普及和移动计算》16卷,第267 - 251页,2015年。视图:出版商的网站|谷歌学术搜索
- p . Turaga r . Chellappa v . s . Subrahmanian o . Udrea,“机器识别的人类活动:一项调查,”IEEE电路和系统视频技术,18卷,不。11日,第1488 - 1473页,2008年。视图:出版商的网站|谷歌学术搜索
- y詹和t .黑田”,人类活动可穿戴传感器识别从环境背景声音,“环境智能和人性化计算杂志》上,5卷,不。1,第89 - 77页,2014。视图:出版商的网站|谷歌学术搜索
- j . m . Sim y . Lee, o . Kwon”基于声学传感器识别人类活动的智能家居服务在日常生活中,“国际期刊的分布式传感器网络679123卷,2015篇文章ID, 24页,2015。视图:出版商的网站|谷歌学术搜索
- s . Ntalampiras i Potamitis, n . Fakotakis“声学检测人类活动在自然环境中,“音频工程协会杂志》上,60卷,不。9日,第695 - 686页,2012年。视图:谷歌学术搜索
- d·j·摩尔,中情局艾萨,m·h·海斯三世”利用人类行为和对象识别任务的上下文,”学报》第七届IEEE计算机视觉国际会议(99年ICCV”),1卷,页80 - 86,IEEE, 1999年9月。视图:谷歌学术搜索
- j·莱斯特,t . Choudhury n . Kern g .博列洛和b Hannaford”混合歧视/生成方法建模人类活动”19学报》国际联合会议上人工智能(IJCAI 05展出)英国爱丁堡,页766 - 772,,2005年8月。视图:谷歌学术搜索
- l·r·拉宾”教程隐马尔科夫模型和选择在语音识别中的应用,”IEEE学报》,卷77,不。2、257 - 286年,1989页。视图:出版商的网站|谷歌学术搜索
- m . z Uddin D.-H。金,t·s·艾。金”,一个人类活动识别系统使用摘要与GDA增强的独立分量特征,“国际阿拉伯信息技术杂志》上,12卷,不。3、304 - 310年,2015页。视图:谷歌学术搜索
- i t . Jolliffe主成分分析威利的在线图书馆,奇切斯特,英国,2002年。视图:MathSciNet
- 黄k . y . Wang, t . Tan“人类活动识别的基础上ℜ变换,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 07)2007年6月,页1 - 8,IEEE,。视图:出版商的网站|谷歌学术搜索
- z .他和l .金”活动从加速度数据识别基于离散consine变换和支持向量机,”《IEEE国际会议系统,人与控制论(SMC ' 09)IEEE,页5041 - 5044年,圣安东尼奥,德克萨斯州,美国,2009年10月。视图:出版商的网站|谷歌学术搜索
- a . Hyvarinen j . Karhunen,大肠Oja独立分量分析,46卷,约翰威利& Sons,纽约,纽约,美国,2004年。
- j . r . Delgado-Contreras j . p . Garća-Vazquez r·f·Brena c . e . Galvan-Tejada和j . i Galvan-Tejada”特征选择地方分类通过环境的声音,“Procedia计算机科学37卷,40-47,2014页。视图:出版商的网站|谷歌学术搜索
- s . p . Tarzia p . a . Dinda r·p·迪克和g . Memik”演示:室内定位没有基础设施使用声背景光谱,”学报》第九届国际会议在移动系统中,应用程序和服务(MobiSys ' 11)ACM,页385 - 386年,2011年7月。视图:出版商的网站|谷歌学术搜索
- a . Martinez-Torteya诉Trevino-Alvarado, j . Tamez-Pena”提高阿尔茨海默病的多通道生物标志物和轻度认知障碍诊断:ADNI的数据,”2013年美国医学成像:计算机辅助诊断卷,8670学报学报,页86700年代- 86700年代,国际社会对于光学和光子学,光子学,奥兰多,佛罗里达州,美国,2013年2月。视图:出版商的网站|谷歌学术搜索
- o . Mersmann Ligges,美国克雷,s . Schnackenberg调谐器:音乐的分析,2011年。
- m . Mascia a . Canclini f . Antonacci m . Tagliasacchi a . Sarti和s . Tubaro“法医和anti-forensic分析室内/室外的分类器基于声学线索,”学报2015年23日欧洲信号处理会议(EUSIPCO 15)IEEE,页2072 - 2076年,不错,法国,2015年8月。视图:出版商的网站|谷歌学术搜索
- 诉Trevino和f·法尔恰尼,“GALGO: R包多元变量使用遗传算法选择,”生物信息学,22卷,不。9日,第1156 - 1154页,2006年。视图:出版商的网站|谷歌学术搜索
- a . Liaw和m·维纳“randomforest分类和回归,”R新闻,卷2,不。3,在18到22岁,2002页。视图:谷歌学术搜索
- 诉y Kulkarni和p . k . Sinha修剪的随机森林分类器:一项调查和未来方向,”程序的数据科学与工程国际会议(ICDSE 12)科钦,页64 - 68年,印度,2012年7月。视图:出版商的网站|谷歌学术搜索
- c . e . Galvan-Tejada j . p . Garcia-Vazquez e . Garcia-Ceja j . c . Carrasco-Jimenez和r·f·Brena”评价的四个分类器作为室内定位系统的成本函数,“Procedia计算机科学32卷,第460 - 453页,2014年。视图:出版商的网站|谷歌学术搜索
- l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
- m·h·Kabir霍克·m·r·k . Thapa工程学系。杨”,两层隐马尔可夫模型对人类活动识别在家庭环境中,“国际期刊的分布式传感器网络ID 4560365条,卷。12日,2016年。视图:出版商的网站|谷歌学术搜索
- g . Biau“随机森林模型,分析”机器学习研究杂志》上13卷,第1095 - 1063页,2012年。视图:谷歌学术搜索|MathSciNet
版权
版权©2016年卡洛斯·e·Galvan-Tejada等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。