文摘

在大学的学生人数持续增长,大学学术管理系统有大量的学生成绩数据。然而,利用这些数据仅仅是局限于简单的查询和统计工作,而且没有先例的使用这些数据为提高英语教学模式。与模糊理论的应用在机器学习和人工智能,模糊决策树算法出生,将模糊集理论与决策树算法。在本文中,我们提出一个方法来获得连续属性聚类的重心K则算法和结合三角模糊数模糊连续数据。此外,分析最近邻距离对分类的影响,引入了高斯加权函数,使不同的投票权重社区根据距离,并建立加权K最近的邻居分类算法。解决分类效率低的问题K最近邻居算法集较大时,本文进一步改进算法,建立了分区加权K最近邻居算法。分类时间从11.39秒缩短到5.22秒,和分类效率大大提高。

1。介绍

众所周知,英语是世界上最广泛的语言,它的重要性不能被夸大1]。在中国,有越来越多的人致力于学习英语(2]。阅读不仅丰富了词汇和语法,提高写作能力,而且开阔了视野,获取信息(3]。提供合适的阅读材料是有效阅读活动的前提和关键4]。因此,如何为学习者提供个性化的阅读材料相匹配的能力水平和满足他们的学习需求已逐渐成为教育技术研究的重点。为了提供学习者提供阅读材料来满足他们的能力水平,第一步是评估难度的阅读材料5]。的困难是唯一的方法来提高学习者的学习效率。教学改进的优化升级是原来的教学模式,以更好地开展相关的教学活动。教学改进的核心是改变原有的单纯接受的学习方式,建立一个学习方式,旨在充分调动和发挥学生的主体性6]。教室的五个元素包括清晰和可衡量的学习目标;足够的时间对学生的独立、合作、探究性学习活动;科学指导学习策略;真实的学习反馈,指出学习目标;和民主平等的学习和积极的反馈(7]。

决策树算法的诞生以来,它一直持续发展,已经被应用在许多领域,效果很好(8- - - - - -11]。通过与模糊理论结合决策树算法,算法的适应性不同的数据集进行了增强。如今,决策树算法在数据挖掘领域的不可替代的地位,及其改进和优化工作从未停止。数据挖掘是挖掘有价值的过程中,可能有意义,从大量的数据和常规信息,而数据是有价值的。数据挖掘的实现过程包括机器学习、模式识别、统计分析、分布式存储、分布式计算、可视化、等,在专业领域的知识也是必需的。换句话说,数据挖掘是一个提取潜在的过程,理解,和有价值的信息从大量的模糊、不完整,使用各种方法和各种类型的随机数据(12]。目前,数据挖掘技术得到关注和重要性从学术和商业社区和在各领域的广泛应用。一般数据挖掘任务可以分为预测任务和描述性的任务。预测任务的目标是预测一个特定的属性的值基于其他属性的值,和描述任务的目标是获得模式(相关性、趋势、集群和异常),总结数据中潜在的连接(13]。数据挖掘是一个矿业信息从数据的过程对用户是有用的。数据挖掘的最终的数据有不同的表情,本质上是数据挖掘结果的外部特征,而对于内部数据挖掘的特点,数据挖掘具有以下表达式,即。潜力,可以理解的,和有价值的14]。数据挖掘的价值是调查数据是否有一个有用的意义和数据挖掘的过程在于发现大量数据。这可能是更加困难比寻找一个小数据集的过程(15]。其中包括许多新的和不可预见的问题中遇到的处理大量的数据,而这些处理大量数据时出现的问题不是出现在小记录(16]。特别是,最终的结果提出了在数据挖掘过程中可能出现的数据而不是数据的性质,或者它可能是一个毫无意义的随机过程(17- - - - - -23]。

通过应用模糊理论在机械学习和人工智能,模糊集理论是集成到决策树算法和模糊决策树算法诞生了。在本文中,我们提出一个方法,连续数据使用的滥用K则算法保持连续属性聚类的重点,结合三角模糊数。此外,分析了影响最近邻距离的分类,介绍了笨拙的权函数,由距离给邻居不同的权重,加权集K下一个邻居分类算法。分类所需的时间从11.39秒减少到5.22秒,和分类效率大大提高。

2。智能模糊决策树建模

2.1。基于模糊理论的智能决策树算法

与经典数学,这是确定的,引入模糊理论数学的学科带进了一个新的领域,而数学应用的范围扩大,将它从具体的空间模糊空间。像所有学科一样,模糊理论诞生于生产和实践的需要。不时地,我们遇到模糊概念在现实生活的许多领域。例如,我们描述时使用快和慢速度,昂贵的和便宜的在描述价格,很难单独的这些形容词和精确的边界。经典数学,是不可能表达的状态”,“客观事物在过渡阶段。随着科学技术的发展,人们追求在各领域的数学表达式,所以追求数学化的模糊概念导致了模糊理论的发展。决策树算法与模糊理论相结合增强算法的适应性不同的数据集。

而古典数学是杰出的精度,在具体的应用场景,模糊性可以胜过精度。例如,对于“的概念非常老了,”75年50岁或更年轻的人可能会考虑在很老的范围,但是90岁的人可能不会考虑一个75岁的人是非常古老的,所以“很老”的概念并不适用于一个精确的时间间隔。因此,有些时候绝对精度不适合实际应用。同时,模糊性与随机性不同,例如,如果我们掷硬币,这要么是反面和正面;他们的发生是随机的和不确定的,但事件本身是肯定的。

同时,模糊表示的不确定性事件本身的定义(例如,美丽和丑陋)。从某种意义上说,计算机技术的发展也促使模糊理论的研究。陈守煜教授热衷于研究的智能系统和电脑之间的冲突,分析之间的差异电脑与人脑相比。他认为,虽然电脑远远优于人类大脑方面的计算速度和存储容量,他们在处理远不如人类,对模糊信息识别、感知、推理。例如,对于用户登录验证码,人眼很容易识别,而计算机识别是很困难的。因此,为了让电脑更聪明和复杂的计算机系统能够主动识别和模糊控制的关键问题是如何将现实世界的模糊性转化为计算可以理解的指令,这是由模糊理论研究的领域。

的独特特征模糊决策树算法的集成模糊理论和经典的决策树算法,扩展了决策树算法的应用领域。经典的决策树算法的模糊化的改进主要包括以下:(1)预处理的连续属性,即。,how to fuzzify continuous attributes: for most fuzzy decision tree algorithms, fuzzification of continuous attributes before modeling is necessary, and a few algorithms fuzzify the data in the process of modeling.(2)选择分裂属性:规则与规则的分裂属性选择明确的决策树,模糊决策树算法扩展了他们适应模糊数据。(3)决策树的匹配规则:模糊决策树,它会给的测试数据是属于某个分类,即:属性关系的反映,而不是一个绝对的分类清晰决策树。

相比之下,清晰决策树算法的决策规则,生成的模糊规则的模糊决策树更现实,和由这些模糊规则集称为模糊规则集,如图1。如果依据分裂属性选择决策树算法统称为清晰的启发式,和模糊决策树被称为模糊启发式,那么这两种算法之间的差异主要是启发式的差异,叶子节点选择标准或分支结束标准,最后生成规则。虽然模糊决策树算法是一种改进的决策树算法,它并不意味着这个模糊算法比清楚算法在所有方面,,应该选择不同的算法根据实际的应用领域。

2.2。英语教学数据采集

在这个工作中,为了找出如何更有效地使用这些数据在大量数据存储在数据库的学术系统在一个大学,它的关键是影响大学英语四考试。所以,我们需要考虑的因素影响的通过大学英语四级考试,以及更有效的方法来预测学生的通过考试。

本文选择360条短信从原始文本的四个英语教材(包括人民币的初中教材版,《古兰经》中学教科书人民币版,第二版的《21世纪大学英语和新视野大学英语教材),包括120条短信在每个初中的三个层次(两个难度水平),《古兰经》中学(两个难度水平),和大学(两个难度水平),和60文本在每个每个级别的难度。每一层都有60文本为每个难度。定义的六个难度水平是初中,上初中,高中,高中,高一的。初中水平的困难是学生在七年级和八年级第一学期;上初中水平的困难是学生第二学期八年级和九年级。上初中水平学生在大二和大三的第二个学期;高一的水平对学生在大三,大一的第二个学期;和大学水平在大学二年级的学生。困难的水平适用于大二,后来招收学员。训练数据集的量化指标是总的话,家庭,PETS1, baseword l, PETS2,平均句子长度和PETS2。 Average sentence length, PETS3 (number of vocabulary in national English proficiency test level 3), number of clauses (number of subordinate clauses), and some data are shown in Table1

2.3。基于改进的决策树数据抓取K最近邻居算法

与模糊集合理论的普遍应用决策树算法,提出了许多优秀的算法一个接一个,和两个代表介绍了模糊决策树算法部分。不管决策树算法,生成决策树的结构通常是相似的,与节点组成的个人属性名称和边组成的模糊子集fuzzified属性值。

为了获得准确、可靠的实验结果完成算法的分析,第一步是选择一个合适的实验数据集;UCI数据集,作为标准测试数据集高频率,已应用于数据挖掘的研究许多专家和学者,和7个数据集被选中作为实验数据。在实际英语教学中,一些学生能够通过大学英语四考试即使他们入学英语考试,得分较低,有的甚至通过大学英语四考试。原因是学生不理解或不注意入学英语考试时,他或她入学,这样他或她进入英语分数较低。决策树算法占有前所未有的位置在数据挖掘领域,不停止的工作改进和优化。

对于这些学生,英语入学考试的分数并不代表他们的真实英语水平。这些数据异常,如果这些数据用于预测和分类,分类的准确性会大大受到影响。为了更有效地使用数据分类和预测,数据样本的得分低于30的入学英语考试被移除。这所大学的学生的英语成绩包括从日常成绩20分。通常情况下,大多数学生有一个完美的或接近完美的分数,和一个非常小的学生人数有不到15分。发现一些学生“英语1”或“英语2”分数低于20因为他们不参加英语考试,所以他们只有常规的年级,没有纸年级。分数没有论文成绩不能反映学生的真实水平,不适合分类预测。因此,“英语分数的数据1”和“英语分数2”得分少于20人从文章删除。

为了更好地利用学生的入学英语成绩,缺失值的入学英语成绩需要填写以便做出更好的预测。常见的方法来填补缺失值如下:如果是有大量的数据集样本和缺失值相对较小,然后用缺失值的样品可以直接删除;如果数据集的特性不是很重要,然后失踪的值可以充满的意思或毁灭性的特性;对一些重要的数据特性,如逻辑回归或随机森林模型可以用来预测功能的缺失值。根据前面的分析,入学英语成绩代表学生的英语基础,这是一个重要的和有用的功能。尽管缺失值较小,它是由统计发现,大多数这些缺失的数据属于学生的分数相同的等级,为了避免影响数据平衡造成的直接删除数据,本文利用随机森林模型预测失踪的入学英语成绩,和其预测过程如下。首先,选择合适的特征作为输入变量。改善学生的英语技能是连续和稳定,没有突然增加或减少在短期内,“英语一个点”之间的关系和“英语两个点”和“入学英语能力”是强大的。此外,根据第三章的分析,性别和学期有强烈影响学生是否能够通过四级考试,所以性别和学期也用作预测输入特性“入学英语成绩。“因此,本文预测所选择的四个特征的缺失值输入英语成绩。

K最近邻居算法,只有数值特征可以用来计算样本之间的距离,因此有必要将分类特性,比如性别,学期,大学,专业。转换的最常见的方法是将每个分类特性的价值领域从多列表示一个多列表示只有真正的价值观。在本文中,我们以学期为一个例子来说明,还有三个学期的值,2,3,4,如表所示2

为了消除数量级的不利影响预测,本文使用标准化方法规范化的分数110分。为了消除数量级的负面影响预测,归一化法用于标准化分数,不同范围的值都在(−1,1)的时间间隔。数据归一化(−1,1)。标准化的数据遵循正态分布均值为0,方差为1。如果原始分数大于均值,标准化分数将大于0,这是一个积极的价值,如果原来的分数小于均值,标准化分数将小于0,这是一个负值。

的预测分类K下一个算法需要相应数量的确定最近的邻居K和选择的重要特性。为了提高分类精度和分类性能更稳定,本文使用迭代的方法来选择K和重要的特征。如图2首先使用所有功能,在下一个邻居减少特性来选择根据预测如果重要特性K值不会改变。最后,一个重要的功能是作为输入变量来确定相应的K价值。

清洁和处理后的数据,2674年的数据元素和结果中包含的所有英语IV测试的数据被确定。功能已被移除。尽管缺失值较小,它是由统计发现,大多数这些缺失的数据属于学生的分数相同的等级,为了避免影响数据平衡造成的直接删除数据,本文利用随机森林模型预测失踪的入学英语成绩,和其预测过程如下。测量污染物浓度变化的结果如表所示3

2.4。评估算法的改进

常用的距离K最近邻居算法闵可夫斯基距离、欧氏距离、绝对距离,等假设X1,X2、…Xn观察点,那么上述之间的距离XXj定义如下:闵可夫斯基距离: 欧洲距离:

绝对距离是绝对值之和的差异组件的两个采样点和闵可夫斯基距离是一个特例 应该指出的是,上述的距离有一个共同的缺点,他们都是容易受到每个组件的大小,也就是说,当每个组件是一个数量的性质不同,距离的大小很大程度上取决于组件的单位,和更大的组件级将贡献更多的比小的组件级。因此,为了使每个组件有同等影响距离,属性值计算距离,前需要处理连续变量和两个常见的处理方法是归一化法和极化法: 在哪里X的平均值Xσ的标准偏差X。为分类变量,需要定义以下功能: 因此它可以用来比较的大小一条记录的属性值,u 是定值,届任期的距离公式可以取代 函数在计算包含分类的欧几里得距离变量。

决策树的生长过程是一个持续的分组训练样本集的过程,和决策树生长的核心算法是决定决策树的分支标准。分支则涉及到两个问题:第一,如何选择一个当前的最佳分组功能从许多输入功能;第二,如何找到一个最优分割点从许多值的分组功能。不同的决策树算法使用不同的策略,共同为决策树ID3和C4.5算法。这两种算法使用信息增益和信息增益率的策略的选择最有价值的特性,分别。

信息熵是衡量一个随机变量的不确定性X。其信息熵的定义是 在哪里x1,x2、…xn随机变量的可能值吗X并指定0日志20 = 0。信息熵越大,随机变量的不确定性就越大。条件熵(Y(X])表示随机变量的不确定性Y有条件的随机变量X和被定义为

信息增益代表信息不确定性的程度减少类y通过学习信息功能x。它被定义为

使用Python编程获得精度,通过,繁殖,F值为上述八个场景情节。分类模型的准确性反映的能力(算法)的预测正确分类。准确反映实际阳性病例的数量预测阳性病例,而生殖率反映正确分类的能力和预测许多阳性病例。在精密图形,如果K很小,越高K,8例的准确性就越高。场景1最高输入函数,但精度图最小预测准确性和只有三个特性,对于场景8,场景8的输入函数,即英语输入分数,最低功能,但平均来说,场景11预测精度最高,误差相对较小。这表明预测的准确性和重现性更受到下一个邻居数量K和特性。8例,8例符合最低,繁殖F值,但8例有相对较高的适合,re-reproduction,F值。我们只有通过入学英语成绩和英语成绩1,考虑到本文的目的,来预测大四学生是否通过考试精度高。四年级学生的考试笔记预计从三个特点:英语1级和2级。准确率是如图3

3所示。结果和分析

数据采用基于特异性方面的数据资料整理。一方面,一些学生通过了大学英语四级考试第一次;尽管这些学生没有把他们所有的大学英语课程,它仍然是不可靠和不合理使用在分析数据和预测未来英语的成绩已经通过了大学英语四级成绩;另一方面,一些学生可能需要几个大学英语四级考试通过。另一方面,一些学生可能需要多次参加大学英语四级考试通过,和时间的四级考试远学习大学英语课的时候,不太有价值的预测研究的大学英语四级考试。考虑上述两个方面,本文只使用最近的两个大学英语四级考试的分数。学生多次参加四级考试,因为他们在不同的学期他们考试时,他们有不同的大学英语成绩从最近的两次四级,这样学生的数据反复把考试被认为是作为独立的数据。

4表明,分类精度,适合准确性、重现性F值,以防8基本上达到最大值K= 15,相对较小的变化,算法精度高和稳定性。自K= 15是可靠的,最近的邻居可以确定的数量K= 15。因此本文包含的数量最近的邻居K= 15,“英语入门级”,“英语1级,”和“英语2级。默认情况下,K相邻算法有助于预测未来的结果K分类的目的。然而,越接近分类样本的方法一个已知分类样本,越高的特点一个已知分类的样本。权重的中心思想是定义权重的非线性函数已知的和分类样本之间的距离。越近的距离越大,重量和更大的分类预测结果的影响。

在本文中,输入与加权特性仍用于分类的目的K隔壁的邻居。下一个邻居数量K被选中。在相同的方式K相邻算法的价值K是由运行18个奇数1、3,…,35 s根据相同的原理与分类精度高。评价指标的权重K下一个算法、加权K下一个算法,K接下来由Python编程算法所示图进行比较和分析。在图5,每个次要情节的水平坐标的数量最近的邻居K和垂直坐标是每个评价指标的得分。

分类曲线的加权K下一个算法比分类曲线平坦K下一个邻居算法。在复制曲线,加权K下一个邻居算法具有更高的再现性比K下一个邻居算法和曲线变化相对较小。加权K-Nachbar繁殖超过K-next算法,算法和曲线变化相对较小。加权的整体精度K下一个算法不一样高K下一个算法,但更稳定。因此,考虑分类的准确性和稳定性,可以使用加权K方法为下一个邻居来预测算法的结果四级考试。

如图6,K最近邻居算法具有较低的分类效果,需要更长的时间来完成分类预测数据集时大。基于某些特性的完整数据集分割成几个特征子集,让样品你分类找到最相似的邻居基于这些特性在相应的特征子集。这会显著减少搜索时间,提高分类和预测效率。

比较三种算法的计算时间时,加权的效率K邻域算法和下一个K邻域算法基本上是相似的,没有明显的变化。split-weighted平均计算时间K下一个算法是6,17秒短。11.39分类时间显著短于未来K类别在11.39和分类效率118%,因此你可以选择partition-weightedK下一个类别,如果你想快速预测一个四年级学生的测试。如图7,partition-weightedK最近邻居算法具有更高的分类精度和更好的稳定性分类的数量在最近的邻居K= 15。原因有很多学生不能正常毕业,但失败的学生人数和多次重复是一个重要的原因。如果不能正常毕业的学生人数之间的规则和早期的补考和重复的数量可以挖掘,学生可以及时发出警告,这样他们就可以避免过多的重复,这可能会影响学业和毕业。为此,本文使用决策树模型来预测学生的毕业考试使用所需的化妆品的数量在前四个学期和所需的重复的数量在第二到五学期作为输入变量和毕业情况(正常毕业,未能正常毕业)作为预测的结果。因为学生的数据集处理平衡并不大,只有8输入功能,所有这些都是整数,决策树与最大深度max_depth = 3“熵”是选择和特征选择标准。具体的分类方法和过程是一样的,和数据集分为训练集和测试集根据7:3,一个用于培训决策树和一个用于毕业预测和评估决策树的分类效果。

4所示。结论

为了提高英语教学模型和预测大学英语四考试的结果,本文首先进行预处理的数据来填充缺失的值入学英语成绩,因式分解分类变量,和规范数值的变量;然后,选择预测输入特性和最近的邻居的数量K根据不同的指标和建立K最近的邻居分类模型和加权K邻居分类模型。

K最近邻居算法和split-weightedK最近邻居算法应用于第四大学英语测试的分类和预测结果,使用统计技术和过滤输入,影响英语IV测试结果的相关因素调查。附近的算法可以获得足够的功能分类和预测。附近的算法及其分类效率大大提高,和分类时间提高了118%。

最后,为了弥补效率低的缺陷Ksplit-weighted隔壁邻居分类模型K隔壁邻居模型实现快速分类第四大学的英语测试结果。本文使用下一个邻居。算法用于预测大学生是否会通过四年级考试。

同时,在未来,我们用来预测学生通过考试的方法更有效地将研究方向和关注决策树算法与模糊理论;算法的适应性不同数据集应该是增强。

数据可用性

数据共享不适用本文没有生成数据集或分析在当前的研究中。

知情同意是获得所有个体参与者包括在这项研究中引用。

的利益冲突

作者宣称没有利益冲突。