文摘
数据挖掘是指从大量的数据获取信息的过程通过算法,为人们提供接待支持应用数据从简单的问题在数据提取和发现知识。本研究探讨传统的数据挖掘方法和他们的应用程序,以提高数据的及时性和可用性提取算法。通过数据挖掘和识别的运动姿态,给出最准确的算法数据。本研究首先看数据挖掘分类方法和相关算法。然后,使用神经网络,创建了一个运动态度的预测和神经网络是用来测试算法。实验结果表明,神经网络单级和双极型神经网络可以达到平均87.9%的准确性,而对于世贸组织模型,它可以实现平均精度为95.7%。
1。介绍
在一个快速发展的社会,各种信息数据显示爆炸性增长,导致大量积压。数据挖掘技术的出现解决了问题,人们很难找到有用的信息从这些大量的数据。通过整体数据学习,最初的数据变成有用的合适的操作形式和提取数据。最后,通过实施不同的数据挖掘策略创建有用的模式,一个人可以做出预测并获得新的数据样本的信息。改革开放后,在新形势下,国家宪法正面临新的挑战。机的突破算法,运动手势识别技术的准确性越来越高,这使得运动手势识别进入生活的方方面面。
数据库的出现帮助我们存储大量的信息和数据来源,包含了大量的有用的无声的信息,可以作为证明决策的依据。数据挖掘主要用于分类和预测数据来获得有用的规则和标准。运动态度的预测具有广泛的应用前景和巨大的经济价值。使用运动姿势预测不仅可以实现长期有效的监测的关键领域,但也可以识别相关人员参与视频的行为,提供有针对性的警告;人机交互和虚拟现实领域的,它可以分析更复杂的用户操作,提高浸和娱乐设备,并进一步满足用户的需求。
本文的创新在于,(1),描述的数据挖掘是数据挖掘中的分类方法进行了分析,并具体算法分析的算法,以及它们各自的优点和缺点。(2)研究运动和态度的预测提出了基于神经网络和数据挖掘方法是用来使它有一定的自适应能力,它可以发现关键的知识从所有数据对决策有用,可以改善系统的情报。
2。相关工作
数据挖掘技术是一项新技术出现于1980年代,但在1990年代末成熟,已逐渐被广泛应用于许多领域。Buczak和Guven机器学习和数据挖掘的调查网络分析的方法。他指出,阅读和总结论文代表每个方法,讨论了ML / DM用于网络安全挑战,并提供了一些建议。然而,在他的文章有很多冗余1]。许等人以更宽广的视角隐私与数据挖掘相关的问题和研究各种方法,帮助保护敏感信息。他介绍了相关研究主题和评论最先进的方法2]。Kavakiotis等人的研究的目的是提供一个应用程序的系统评价。标题应用程序在他选定的文章强调中提取有价值知识的实用性,从而更深入地理解DM和新假说的进一步研究。然而,他的研究只是在表面3]。Chaurasia和朋友学习不同的分类技术的性能。乳腺癌数据用于测试,使用分类精度。在实验中,他比较了三个分类技术,结果表明,序列最小优化相比有更高的预测精度96.2% IBK和BF树方法。然而,他的比较技术有一定的局限性4]。Emoto等人的研究的目的是阐明冠状动脉疾病患者的肠道微生物群的概要文件。操作分类单位确定为重要通过数据挖掘方法和通用统计比较。然而,数据库在实验中需要改进(5]。Triguero等人提出的第三个主要版本龙骨软件;在这项工作中,他描述了最新的组件添加到龙骨3.0。此外,新接口包含在R合并执行算法。然而,此方法消耗太多,浪费资源(6]。雷等人探索潜在的使用模块化优化社区检测算法识别重要的事故特征。研究结果显示,社区检测算法是非常有效地识别集群识别特征;集群有助于揭示关系仍然隐藏在整个数据集分析和关联规则学习算法用于−190。然而,本文的实验比较了更少的结论(7]。Pourghasemi等人的研究提出了一系列的数据挖掘方法来映射冲沟侵蚀敏感性Aghemam的分水岭。实验数据证明了整体建模的重要作用持续构建准确、通用模型,强调了需要检查的。然而,有太多的独立变量在他的实验和实验结果将有偏见8]。
3所示。在数据挖掘中分类方法
3.1。数据挖掘的基本过程
可以理解,数据必须真实和巨大;接受调查的内容对用户有用的知识(9]。
数据挖掘的前提是明确目标的问题,工作和定义数据提取的目的。明确的基础上提取的目的,进行知识发现的基本步骤。数据提取的整个过程有许多处理阶段,如图1。数据清理:清理不完整,不清楚,很多噪音,和随机数据的实际应用;导出计算补充预选和不完整的数据;和纠正异常数据和删除重复数据。数据集成:选择各种不同的物理或逻辑的数据使用有机集成,它提供了一个很好的准备一系列的后续数据处理。这一步的实现应该解决的差异造成的物理形式的数据不同的数据类型。数据选择:找到并选择相关数据集综合数据集包含大量的数据,导出,并获得相应的对操作挖掘任务,根据工作目标。数据转换:将数据类型转换为数据格式适合采矿。数据转换的重要目的之一是降低数据的维数,也就是说,找到真正有用的特性或变量的数据。数据挖掘:数据挖掘方法目前承担各种形式因为在研发的过程中,来自不同行业的技术和研究成果不断整合到数据挖掘。从统计的角度来看,数据挖掘是目前主要用于统计分析技术:包括回归分析方法,最近序列分析、时间序列分析、非线性分析、线性分析,最近邻算法分析、多元分析、单一分析,变量分析,聚类分析,等。利用这些方法,数据与异常行为可以被探测到,然后解释通过一系列的数学或统计模型,揭示数据背后的基本模式和知识。知识发现技术是数据挖掘技术,从统计分析技术是完全不同的。主要方法是支持向量机、遗传算法、人工神经网络、粗糙集、关联规则、决策树等。模式的评估:使用工具来测量和识别模式通过数据挖掘发现和评估其有效性和可行性发现真正有价值的模式代表知识基于感兴趣的具体措施。知识表示:解读挖掘知识,并将其转变为知识,最终用户可以理解,和知识的方法和表征通过成像技术复制。
3.2。分类算法
决策树分类器的施工方法包括分类和人工智能的方法。根据不同的分类算法的研究方向,它可以分为以下几类:神经网络、贝叶斯分类算法,最近邻K粗糙集算法、决策树分类算法,遗传算法等。10]。统计方法主要包括贝叶斯分类和K最近邻算法。主要是BP算法的神经网络方法。BP算法的模型是由信号的正向传播和误差的反向传播,这是一个非线性连续传递函数。
3.2.1之上。BP神经网络算法
输入层的神经元组成的训练集的特征属性的对象,和输出层的神经元组成的样本对象。每个神经元包含两个元素,第一个方面是输入值的计算,然后,使用激活函数计算得到的值输出。
错误的信息正向传播和反向传播BP算法的学习过程。向前传播经过输入层、隐藏层处理后,然后传送。当实际输出值与预期的结果不一致,应该纠正了反向误差传播。传播了错误是重新分配输入层到隐层的层,然后分发错误所有神经元,接收通过每一层每一层单元的误差信号。正确接收到的误差信号用于每个单元的重量。这是重复的点和不断调整结构。当它在控制范围内。,the error so far is less than a certain value, the loop ends, and is usually called a gradient descent [11]。
在图2,是输入层和是输出层,它构成了BP网络。
我们把三层神经网络输入层、隐藏层和输出层)为例,推导出反向传播算法,如图3。
因为神经元在左边层神经元的输入j,突触的重量相当于偏差的神经元j。
该地区在激活函数的输入j神经元的输入j如下:
是激活函数:
误差反向传播推导过程:和分别的实际输出和期望输出值,然后生成如下:
使函数连续可微,这里的均方根差最小化如下:
添加所有输出层神经元的误差能量得到整个网络,我们得到如下:
在公式(5),所有神经元在集合C。
BP算法最小化通过不断改变重量和使用梯度下降法。然后,计算如下:
的偏导数 代表一个突触权重的敏感性因素寻找合成重量重量空间。
区分两岸的方程(4),我们有
微分方程(两边3)对 ,有
微分方程(两边2)对 ,有
微分方程(两边1)对 ,有
用上述公式方程(6),有
公式中的负号(11)是梯度下降到空间和重量σ是学习速率。这将导致以下:
其中,根据LMS算法定义如下:
同样的,当地的梯度隐层的神经元j可以得到如下:
因此,调整值如下:
即重量修正价值等于学习速率的乘积,当地梯度,神经元的输出信号我。
传统的BP神经网络算法,学习能力优势,也有缺点,比如本文涉及的局部极值问题。从数学的角度来看,传统的BP神经网络是一种局部搜索优化方法,解决一个复杂的非线性问题。网络的权重逐渐调整当地的方向改进,这将导致算法陷入局部极值,重量会收敛到局部最小值点,导致网络训练的失败。
3.2.2。决策树分类算法
决策树在处理大量数据有显著的影响,不需要很多专业知识树的形成。因此,它通常被用于数据挖掘应用程序和获得的知识在生成的树结构直观和容易被人接受12]。
假设训练集S任意样本对象的集合,它包含米对象,并假设(我= 1,2,…米)是米不同的类。让是数据集的组对象,属于类 ,|年代|是数据集的数据对象年代和数据对象的数量吗 。
分类的所有元组,一组的熵D表示如下:
其中, 。
一个包含n不同的对象 ;与此同时,年代分为n分区 ,和所需的信息可以通过加权求和的熵n分区如下:
获得的信息如下:
3.2.3。朴素贝叶斯分类算法
朴素贝叶斯算法的原理是假定存在与否的一个特定的功能是独立于其他功能的存在与否13]。
贝叶斯定理的解释如下:假设K我们是一个数据对象和描述K与n属性值:假设H代表了假设K属于一个特定的类问。P(H)是先验概率P(H)和事件K是相互独立的。
贝叶斯规则如下:
其基本思想可以概括如下:假设一个训练集 与米元素,每个元素Z可以用一个向量 的n维属性。假设 n属性,然后K是n的措施n属性。假设有米样本类 ,朴素贝叶斯算法预测一个对象K的属性类是未知,那么属性类的K后验概率的类吗属于。也就是说,
3.3。比较不同的分类算法
上述三种算法在不同的方面和效率有很大的不同,因此有必要选择一个适当的算法根据不同数据特点和分类的最终目的和获得出色表现的分类模型,时间和空间复杂性,和分类速度。
神经网络分类算法具有分类精度高、学习能力强,可以用于特征提取,但学习的过程是漫长的,过程是不透明的,所以它不能检测和监控过程。决策树分类算法很容易理解并运行较快,但它们很容易过度拟合和处理缺失数据可能会非常棘手。朴素贝叶斯分类算法快,短时间内,并解释结果是简单明了,但其分类器需要足够的数据库支持和阈值的调整(14,15]。
通过算法的比较分析,可以看出,当面对不同的问题,有必要选择挖掘算法来解决这个问题。每个分类算法都有其独特的优点和局限性。与此同时,同样的分类问题,可以有许多不同的分类算法来解决这个问题。相反,神经网络算法具有较强的鲁棒性和容错性嘈杂的数据。与其他算法相比,它有一个强大的处理噪声数据的能力。此外,由于其强大的学习能力,它可以很容易地找到原始数据的分类模式,同时,神经网络可以不断改善自身的性能提高分类精度和预测能力。
4所示。实验和分析预测基于神经网络的运动态度
4.1。大小归一化的输入数据
实验中使用的样本数据的特征值如表所示1,这是一组数据corecomponents的射击效果。这些数据的来源是UCI机器学习库。
BP神经网络算法用于训练和学习燃烧的核心成分,用于预测的核心成分的燃烧效果。一组实验的原始数据没有标准化的按大小分类,和标准化的数据预处理操作是直接执行。另一组实验是规范化的原始数据按大小分类,然后执行规范化数据预处理操作。两组的实验结果观察实验。8的神经网络由输入层节点,隐层节点,4和5个输出层节点,和样品的总数是20。
预测结果与真实值之间的误差值如图4。后统一数据的数量级的范围(0,10),其他常规预处理数据执行的操作。这些预处理过程后,稍后提到的批处理BP神经网络学习算法应用于获得实验结果。
实验结果表明,获得的预测值将BP神经网络算法应用于不使用的实验组数量级规范化操作与实际值有很大的误差。然而,在实验组使用数量级的规范化操作,应用BP神经网络算法获得的误差很小。可以看出数量级规范化操作使得数据挖掘的结果有更高的精度和更好的学习性能。
4.2。实验的智能预测系统运动的态度
根据不同特点的各种竞技体育,一个聪明的运动训练计划系统设计,使用数据库技术、数据挖掘技术、知识工程技术。根据运动训练理论,培训计划精心设计每个培训项目的数据表和设计一个检查和分析部分。培训计划的实施可能的诊断分析的主题培训结果。在此基础上,以知识为基础的系统也是旨在系统地分析不同的教育方法和手段,并提供相应的沉默的知识输入,有利于教练员掌握和学习不同的教育方法和手段(16,17]。
下面是使用的数据集WISDM开源数据集。加速度是采样的硬件加速计智能手机放在裤子口袋里的采样率20 Hz。数据集包含36测试人员和6个类别的运动姿势。因为每个滑动窗口分割包含64数据点,每个数据点对应于数据在三个轴(18]。
本文采用两种评价模式来评估算法的性能:(1)RTO模式:如果一个测试人员的数据用于测试集,其数据将不会再被用于训练。(2)世贸组织模式:如果一个测试人员的数据用于测试集,然后把所有的数据分为两个部分,一个用于测试(1/8的所有数据测试仪),另一个用于培训。实验中,数据从数据集的所有测试人员。对于每一个实验,5的数据测试人员被选为测试数据,其余31个人的数据作为训练数据。RTO和世贸组织模式的唯一区别是,在世贸组织模式,训练数据包含测试主题数据的1/8。为了有效地量化实验结果,本文使用了一个f值来评估算法的效果(19- - - - - -21]。
f值是一个计分公式常用来评估分类模型的性能。在分类模型中,通常有4个分类情况:(1)TP(真阳性):一个正样本准确预测作为一个积极的样本(2)FP(假阳性、假阳性):负样本错误地预测为正样本(3)TN(真阴性):负样本正确预测为负样本(4)FN(假阴性、假阴性):正样本错误地预测为负样本
世贸组织模型主要评估方法对运动数据的影响增大;测试人员的训练数据包含1/8数据包含在测试集(这些数据不再包含在测试集)。单级的智能识别算法的F-scores CNN和RTO的双极型神经网络模式如表所示2和3,这两个算法的计算量比较图5。
此外,手势识别的数据增强算法可以产生更多的人工训练数据,这有助于进一步提高f值。数据6和7的f值单级卷积神经网络的智能识别算法和双相神经网络使用数据增强算法在世贸组织模式。
图7的f值是两级卷积神经网络智能识别算法在世贸组织模式中使用的算法。与两级的f值卷积神经网络智能识别算法在RTO模式没有它,f值明显提升,上下楼梯的两个运动姿势(分别为6.3%和6.0%)。
在单级卷积神经网络智能识别算法在世贸组织模式中,最高的平均值达到93.9,11 - 15号的两级卷积神经网络达到一个高价值94.5 16 - 20次。
4.3。单级卷积神经网络和两级卷积神经网络算法
通过分析表中的数据4,发现RTO的模式,在准确性方面,两级卷积神经网络智能识别算法比单级卷积神经网络智能识别算法。f值而言,两级卷积神经网络智能识别算法是最高和高对于大多数运动姿势(步行除外),尤其是上下楼梯(22]。在世贸组织模式下,两级的准确性和f值卷积神经网络智能识别算法比单级卷积神经网络的智能识别算法。更大的改进也可以取得数据增强算法,该算法结合运动姿势,尤其是对爬楼梯和下行。总的来说,该算法的平均精度的RTO模式和世贸组织模式可以达到87.9%和95.7%,分别。
5。讨论
本文研究了相关的概念和算法的BP神经网络算法和朴素贝叶斯分类算法的数据挖掘技术。与此同时,它还研究智能的组合运动研究和计算机技术和神经网络方法适用于智能动态手势识别系统通过合成或改进。
RTO的两种评价模式和WTO,两级神经网络智能识别算法和数据增强算法详细运动姿态进行了测试和分析,分别,他们展示的影响这两个算法的改进应用程序中的运动姿态智能识别(23]。实验表明,本文算法不仅算法的改进,也奠定了基础为将整个运动姿态智能识别系统嵌入到便携设备。
动态手势识别自诞生以来一直与人类密切相关,通常被用于生活的各个方面,如行为监督,医疗诊断,年迈的监控和智能交互。结合深入学习后,其精度进一步提高,它已经出现在各个领域,为人类的生活带来巨大便利。此外,与深度学习的进一步发展,运动姿态由运动手势识别的类型也更广泛,可以为各个领域提供更复杂和详细的信息。
6。结论
本文研究数据挖掘算法及其应用,重点对当前流行的数据挖掘算法及其应用。体育的研究是一个非常持久的话题,最终目标是促进人们的身体健康。时代的国家体质的特点。不同的时间有不同的因素影响身体健康。同样,在不同的时期,研究水平的发展,研究方法也已更新,体育健康促进的方法也在不断更新。本研究尝试利用现代科技智能体育研究与计算机技术相结合,提出了数据挖掘和智能运动训练模型建设体育态度预测算法研究,并利用发达的网络技术实现软件在线服务,为了促进国家体育。因为它是一个实验研究中,一些研究内容在后续研究中需要进一步加强。
数据可用性
数据共享不适用本文没有创建新数据或分析研究。
的利益冲突
作者宣称没有利益冲突。