文摘

教育数据挖掘(EDM)是一个研究领域,专注于应用程序的数据挖掘、机器学习和统计方法来检测数据在收集大量的教育模式。不同的机器学习技术已经应用在这个领域多年来,但它最近,深度学习在教育领域得到了越来越多的关注。深度学习是一种机器学习方法基于神经网络架构的多层处理单位,已成功地应用于一系列广泛的问题领域的图像识别和自然语言处理。本文调查研究进行深度学习技术应用于电火花,从它的起源到现在的一天。本研究的主要目标是识别EDM任务,得益于深度学习和那些悬而未决的探索,主要描述数据集使用,提供关键概念的概述,主要架构和配置EDM深度学习及其应用,并讨论当前最先进的和未来在这一领域的研究方向。

1。介绍

的研究领域教育数据挖掘(EDM)侧重于应用数据挖掘技术和方法的教育环境。EDM涉及开发、研究和应用机器学习,数据挖掘和统计方法来检测数据在收集大量的教育模式,否则不可能分析(1]。

EDM等利用电子学习平台学习管理系统(LMS),智能辅导系统(它的),在过去的几年,大规模网络公开课(蕴藏),获得丰富的从学生的学习活动和多通道信息教育的设置。例如,这些平台记录当学生访问学习对象,他们访问了多少次,提供了一个练习的答案是否正确与否,或时间阅读文本或观看视频。

所有这些信息可以进行分析,以解决不同的教育问题,如生成的建议,开发适应系统,为学生提供自动分级作业。不同的机器学习技术已经应用在时间去分析这些数据,但近年来,出现了深度学习技术的使用领域的电火花。

的主题深度学习(DL)行业中获得了越来越多的关注和研究领域在过去的十年中,对机器学习领域的感知中,获取最先进的结果图像和语音识别等任务2]。大公司如Google, Facebook、微软、亚马逊和苹果正在大量投资于软件和硬件的发展创新在这一领域,试图利用DL潜在智能产品的生产。

DL是基于神经网络和多层体系结构应用线性和非线性变换的处理单元的输入数据。这些体系结构可以应用于所有类型的数据:图像、音频、文本、数值,或者它们的一些组合。许多研究领域都受益于应用这些技术,EDM并不是一个例外。

在过去的几年里已经有扩散研究电火花加工领域使用DL架构。本文的文献综述了DL技术应用于电火花,从它第一次出现在2015年到现在的一天。本文的主要贡献如下:(我)总结主要EDM任务和分类现有的作品对这些任务应用DL。(2)识别任务,获得了主要关注和那些仍然是未知的。(3)描述和分类的主要公共和私人数据集用来训练和测试DL模型EDM任务。(iv)介绍DL的关键概念和技术,描述的技术和配置最广泛用于电火花和其特定的任务。(v)讨论未来的研究方向在DL用于电火花基于在这项研究中获得的信息。

本文的其余部分组织如下:部分2礼物,比较之前的调查领域的电火花;部分3描述了过程检索论文回顾了在这项研究中,包括论文收集的定量分析;部分4描述了电火花加工的主要任务,确定每个任务的现有文献,并描述了主要的数据集使用领域;部分5介绍了DL的关键概念,主要架构,配置,和框架,总结的特点(DL的技术)电火花工作;部分6提供了一个讨论的信息编译在这检查工作;最后,结论提出了部分7

2。回顾之前的调查

数据挖掘技术的应用到教育环境一直是一个活跃的研究领域在过去的几十年里,获得了大量人气,近年来由于在线数据集和学习系统的可用性。不同的调查发表关于EDM迄今为止,和本节总结了这些作品,并介绍了当前提议之间的关键差异和之前的评论。

第一个EDM调查识别在文献中是在2007年开发的罗梅罗,文图拉(3),2010年进一步提高(4)和2013年(5]。之后,作者分析了超过300项研究进行了2010年之前,确定11个类别在EDM或任务:分析和可视化数据,提供反馈支持教师,为学生建议,预测学生的表现,学生建模检测不良学生的行为,学生分组,社会网络分析,发展概念地图、构建课件,以及规划和调度。提供的调查方法和技术应用于电火花加工领域的每一个类别。

2009年,提出了一种新的电火花调查由贝克和Yacef [6]。本研究探讨在这个社区进行的研究趋势和变化,比较其当前状态和电火花的早期。在这种情况下,作者确定了四个在这个领域的应用程序/任务:提高学生模型,提高域模型,研究学习软件提供的教学支持,和科学研究学习和学习者。最常引用的论文在1995年和2005年之间的电火花上市,讨论影响EDM社区。

Pena-Ayala提议在2014年彻底调查,将数据挖掘技术应用于电火花(超过240篇论文7]。统计和聚类过程的执行教育功能,识别出一套EDM方法的模式,两种模式value-instances描述EDM方法基于描述性和预测模型。不同于以往的文学评论,这项工作主要集中在计算技术而不是EDM应用程序。

最近,两项新研究已经被添加到这个列表的调查。第一个是由Bakhshinategh等人(2018年8]。这项工作研究领域的各种任务和应用程序现有的电火花和分类基于他们的目的。基于提出的十一个类别(4),他们建议13类别的层次结构分为五个主要任务:学生建模、决策支持系统、自适应系统,评估和科学调查。节4.1,这个分类的任务是将其作为基础来分类的当前研究DL电火花。

最后,最近的评论致力于EDM开发了Aldowah et al。92019年)。本研究限制研究应用于高等教育的背景下工作。给出的分析是基于四个维度:计算机支持的学习分析,计算机支持的预测分析,计算机支持的行为分析,和计算机可视化支持。基于之前的研究结果,作者发现特定的电火花技术可以提供的最好方法解决一些学习问题,为教育机构提供student-focused策略和工具。

在这些审查文件有两个方面,还没有研究以系统的方式,和目前的工作打算分析:现有的数据集在EDM和DL的使用技术。首先,为了经验比较不同的方法,有必要知道底层数据集用于实验。本文致力于部分回顾和总结这些资源(见部分4.2)。其次,尽管先前的提议考虑(浅)神经网络方法在文献中,没有一个专门关注DL技术。摘要部分5介绍DL的基础(主要架构、培训流程、hyperparameters和框架),描述这些技术在电火花域和相关论文综述。

3所示。方法

本节描述的方法进行综述和收集的过程中,分析和提取现有的DL应用电火花工作。

为了进行系统回顾,下面的科学存储库访问:ACM数字图书馆(https://dl.acm.org/),谷歌学术搜索(https://scholar.google.es/),和IEEE Xplore (https://ieeexplore.ieee.org/)。这些资源查询与搜索字符串:“深度学习”和“教育数据挖掘”。因此,大量的论文被检索和手动审查过程应用于过滤掉重复和论文无关的话题。的参考书目引用论文最初通过过滤器也回顾了。这使得扩大检索相关论文的数量。最后一组包含41个论文。图1每年总结了出版物的数量。第一个文件应用DL EDM发表四年前,在2015年,出版物的数量明显增加多年来直到2018年。

1总结了在每个出版地点发表的论文数量。他们中的大多数已发表在会议(80%)。的国际会议上教育数据挖掘积累出版物的最大数量(考虑到最后三个版本),共有16。毫不奇怪,这是国会在电火花加工领域的参考。

最后,图2显示了一个等值线图的世界地图显示的密度区域的每个国家参与人员DL应用于电火花,根据他们的信仰。作者是加权的贡献者。例如,在一篇论文 作者,将有助于他们的国家每一个的重量 地图显示,美国是国家在这一领域,越活跃(很远),印度,加拿大和中国。其他国家的研究人员已经促成了这一领域在哪里新西兰、新加坡、日本、阿根廷、澳大利亚和塞尔维亚。

4所示。教育数据挖掘

本节的第一部分展示了分类的任务解决电火花加工系统。作品进行简要描述和分类使用这个分类,以区分DL方法面临的任务,从那些仍然是未知的。第二部分描述中使用的主数据集的一部分,还分组的处理任务。

4.1。任务

在过去的几年内,不同的调查集中在电火花加工系统的不同方面。最近的一项研究中描述(8]。这项工作的一个有趣的方面是在电火花小说分类的发展任务。在这一节中使用这个分类为基础进行分类收集的论文领域的DL应用于电火花。分类由13个任务:(我)预测学生成绩:目标是估计一个值或变量描述学生的性能或学习结果的成就。(2)检测不良学生行为:重点是检测不良学生的行为,如低动机,错误的行为,作弊或辍学。(3)分析和分组学生:其目的是学生根据不同的变量,如知识背景,或使用此信息来组织学生用于各种目的。(iv)社会网络分析:学生的目标是获得一个模型图的形式,显示出它们之间不同的可能关系。(v)提供报告:其目的是发现和强调信息相关课程活动可能使用的教育者和管理者,向他们提供反馈。(vi)为利益相关者创造警报:目标是预测学生特点和检测不必要的行为,作为一个在线工具通知利益相关者或创建实时警报。(七)计划和调度:其目的是帮助利益相关者的任务规划和调度。(八)创建课件:目的是帮助教育者自动创建和发展课程材料使用学生使用信息。(第九)发展概念地图:目标是开发概念地图的各个方面帮助教育者教育定义流程。(x)生成推荐:目标是对任何利益相关者提出建议,虽然主要的重点通常是帮助学生。(十一)自适应系统:这个任务有关的使用智能系统以计算机为基础的学习,系统必须适应用户的行为。(十二)评价:我们的目标是提供一个自动评估工具来帮助教育工作者。(十三)科学探究:主要针对研究人员作为最终用户,但是开发或测试理论可以与不同的利益相关者后来在其他应用程序中使用。

所有的作品分析综述分为四个13类:预测学生成绩,检测不良学生的行为,生成的建议,和评估。其他九个类别仍然是空着的。表2总结这四个任务EDM(第一列),对作品的引用领域(第二列),使用的数据集(第三列),以及数据集的类型(第四列)。最后一列指定如果数据集创建了专门为实验(“具体”)或者如果它是一个通用的数据集用于其他作品(“一般”)。下面的内容将目前的每一项任务和工作相关的更多细节。每篇论文的DL实现的细节描述的部分5

以下4.4.1。预测学生成绩

的一个挑战,在这一领域获得了更多的关注知识跟踪。在这个子任务的目标是预测未来学生的表现基于他们过去的活动。皮耶希et al。10)首先介绍DL技术来解决这一任务,很大程度上优于先前的方法基于传统的机器学习技术。这些了不起的成就导致其他研究人员质疑结果的有效性。一系列的作品被发表之后,是(11- - - - - -13]或[14- - - - - -19摘要]索赔。不同意皮耶希等人的研究试图复制实验和比较的结果与传统的机器学习技术在更加公平的情况下,认为DL和先前的模型之间的差异并不明显。同样在知识的任务跟踪,但远离争议由皮et al .,工作在20.)也提出了DL分类器预测学生是否会失败或通过赋值。

的工作(21]杠杆DL模型来探讨两种不同的上下文在教育领域:学生的写作样本和点击流活动蕴藏。使用单个模型和体系结构强调DL大的灵活性和广泛的适用性,连续的学生数据。

的工作(22)应用DL从基于web的数据集获得数学教师模范学生知识保留,即。保持学生的能力,获得知识。这个提议明显优于基准方法。这种方法后来被用来个性化保留测试。

在[23),作者提出了一个DL分类器预测学生的性能,利用一个相对较大的现实世界学生无标号数据的数据集。系统自动学会了多级表示,实验结果显示了该方法的有效性。在这条线,24)提出了一种方法来预测最终成绩的学生应用DL日志数据存储在一个教育系统。日志数据代表了学习活动的学生使用LMS, e-portfolio系统和电子系统。结果表明,DL优于传统机器学习基线提议。文献[25)提出了一个模型对学生进行分类为高,中等和低,以确定他们的学习能力,帮助他们改善他们的学习方法。DL模型实现提供预测基于特征识别。最后,(26,27]重塑学生成绩预测的问题顺序事件预测问题,提出了一个DL算法,称为GritNet。结果表明,他们的建议超过基准选择,获得大幅增加在几周内准确的预测是最具挑战性的。

4.1.2。检测学生不良行为

作品集中在任务检测不良学生的行为面临着三个不同的子任务:预测蕴藏辍学平台,解决学生参与学习的问题,和评估社会功能

在网络公开课辍学预测的子任务,28]对待这个任务从一个序列标签的角度来看,应用时序模型来解决这个问题。使用DL技术,他们获得了更好的性能比传统的机器学习方法为所有三个辍学的定义:参与最后一周,上周参与,参与下周。参考文献(29日,30.辍学定义为一个二元分类问题。文献[30.)结合不同的DL架构以自下而上的方式,选择三个属性的数据集作为输入。结果表明,该模型可以实现类似的性能工程由专家方法依赖特性。文献[29日)优化联合将函数来表示学生和课程元素嵌入到一个单一的共享空间。结果表明,coembeddings能够捕获所涉及的潜在原因辍学,优于其他分离,而不是嵌入表示。文献[31日)质疑辍学这一事实预测侧重于探索不同特征表示和分类架构,比较标准的辍学的准确性预测架构和点击流特性,分类logistic回归,在各种不同的培训设置为了更好地理解准确性和分类器的实际部署之间的权衡。最后,(32)关注个性化学生干预计算每周个别学生的辍学概率。DL模型用于构建辍学个别学生辍学概率模型,进一步生成。教师可以利用这些信息来为学术高危学生个性化和优先干预。预测结果支持DL的好处和个性化干预设计蕴藏课程数据。

关于如何是学生从事他们的研究学习,在33)学生通过现场观察提要,包括学生的面部视频,学生的目光实时叠加在视频捕捉屏幕,和学生通过耳机麦克风的声音记录。为了这些目的,DL-based对话行为分类器,利用这三个数据源实现。实证结果表明,DL模型,利用游戏跟踪日志和面部动作单元实现了预测精度最高。在[34)的假设是,如果教育视频不迷人,然后学生倾向于在课程内容失去兴趣。作者结合音频和视觉信息来预测视频使用DL的活泼。结果表明显著改善相比,传统的最先进的方法。的工作(35)是关注的目光和姿态确定参与的运动强度在看在线视频的教育课程。作者开发了一个DL框架,接受多个输入特性(统计特征、面部描述符和操作特性)和评估不同的形式表现如何使用这个框架。实验结果证明了该方法的有效性。另一个解决学生参与是由(36]。他们确定不动或不良学生,帮助教师更好地认识他们是否关注正确的事情或正确的学生在教室里。DL-based原型系统开发自动化的眼睛凝视后,为每个人在教室里,估计他们看。该方法可以估计每个人的注视目标位置在图像精度大大优于机会和更高的比其他传统的基本方法。

最后,通过(37)提出了DL模型来评估sociomoral推理成熟,一个关键的社会适应社会功能所必需的能力。这个模型被用在一个严肃的游戏来评估学生,优于传统的机器学习方法在这种情况下。

4.1.3。生成的建议

有两个作品,帮助学生解决学习的建议项。这两项研究关注生成个性化搜索基于他们的偏好和课程计划。

文献[38提出了一种混合推荐系统(称为LeCoRe),推荐学习机会的学生根据他们的偏好(隐式或显式),允许连接通过类似利益的平台。LeCoRe结合基于内容和协同过滤技术的阶段。学习者训练步骤应用传统的协同过滤算法和基于内容的DL算法分别。作者得出结论,该框架能够成功学习者的偏好模型。在另一个工作,39)重点调查了学生的课程规划问题越少,该域提供了一个新颖的方法基于两个组件:一个DL方法顺序建议和推荐系统提供一个个性化的途径使用顺序完成,限制,和上下文参数。

4.1.4。评价

不同的方法面临的挑战提供评估工具,帮助教师在评分过程中。这些方法可以大致分为两个子任务:自动作文评分(AES)和自动简短答案评分(ASAG)。

AES系统用于评估和分数基于给定提示学生写论文。文献[40)提出了一个DL-based自动分级模型。对于每一个可能的得分标准,学生反应分级收集相同的分数和作为评分标准。学会预测评分的DL模型计算学生的反应之间的相关性和评分标准收集。在[41]作者随后DL的方法来确定最好的学习特性表示一篇及其分配分数之间的关系。结果显示改进对其他方法要求工程特性。

ASAG系统自动分类学生回答正确与否,基于前一个正确的答案。文献[42]研究了答案,问题,和学生模型特性,单独和联合,整合不同的机器学习模型。DL获得最佳性能的实验。在[43),作者比较几个特性的分类短的答案,比如语法模型、实体提到和实体嵌入。作者获得有关使用嵌入的好处不确定的结果对传统的字格。

其他特定的子任务相关的评价也面临的DL EDM文学。文献[44]介绍了时序分析隐形评估框架,分析了学生解决问题的策略基于游戏的学习环境。作者使用DL模型的数据集上解决问题的行为,表现优于基准方法对隐形评估预测精度。文献[45]探索如何DL-based文本分析工具可以帮助评估学生如何看待不同的道德方面。相比,模型不是在这种情况下,与传统的机器学习方法。最后,(46)提出了DL方法来帮助评估学生是否达到技能掌握在一组实验中使用a / B测试。这个建议不是相比,传统的机器学习方法。

4.2。数据集

所有这些EDM相关任务需要不同类型的教育数据集,为培训和评估机器学习系统。这些数据集有关学生如何学习(例如,学生的成功开发不同类型的运动)和其他学生如何与数字化学习平台交互(例如,点击流或眼球追踪网络公开课的数据)。本节概述了主要数据集用于电火花审查论文,以及其他针对具体研究开发的数据集。这些数据将与在前面的部分中确定的任务。这些信息总结了最后两列的表2

4.2.1。准备预测学生成绩

为了预测学生的表现是很有必要的一个数据集的练习与答案来自真正的学生在一段时间。这正是援助的目的(https://sites.google.com/site/assistmentsdata/) (47,48]。这个数据集是用在许多论文预测学生成绩10,13,16,18,19,22,29日,46,49,50]。它由一系列的数学练习提出中学生通过援助平台(https://www.assistments.org/),包括信息,如赋值和用户识别,在第一次尝试的答案是否正确或不(二进制标志表示如果学生完成练习正确),学生尝试的数量问题,答案类型,等等。(完整列表的功能是可用的:https://sites.google.com/site/assistmentsdata/home/援助- 2009 - 2010 -数据。平台目前启动并运行,偶尔发布的新的和更新的数据集(见https://sites.google.com/site/assistmentsdata/homehttps://sites.google.com/view/edm-longitudinal-workshop/)。

这个数据集通常是与他人共同使用。例如,[10)结合ASSISTments与另一个两个数据集:2009 - 2010年的样本匿名可汗学院学生使用交互(https://www.khanacademy.org/)(140万练习完成的47495名学生在69个不同的运动)和2000个虚拟数据集学生执行相同的序列50练习来自5个技能。文献[13]也结合ASSISTments 2009 - 2010数据集,与KDD Cup 2010在这种情况下,网络收集的数据集游戏数学系统(https://www.wootmath.com/)。KDD Cup 2010数据集来自EDM挑战2010 (http://pslcdatashop.web.cmu.edu/KDDCup/downloads.jsp),由100年的技能从574名学生。这些数据被从认知代数中提取导师制在2005年和2006年期间(51]。发现数学系统,收集的数据集创业,发展对数学自适应学习环境,包括练习和答案的正确性与否(二进制的结果)。文献[18)也使用ASSISTments 2009 - 2010,加上ASSISTments 2014 - 2015和KDD 2010杯。参考文献(16,50)结合这些数据集和使用除了Knewton收集的数据的自适应学习平台(https://www.knewton.com/)。的工作(49]也结合ASSISTments 2009 - 2010,在这种情况下,奥利工程静力学数据集(https://pslcdatashop.web.cmu.edu/Project?id=48),其中包括大学工程静力学。文献[17)提出了一个大数据集结合不同的资源:ASSISTments 2009 - 2010数据集,开发的合成数据集(10),578726次试验的数据集从182年中学学生练习西班牙语练习(翻译和简单的技能,如动词的词形变化),和一个数据集从大学工程静力学课程由1223年189297次试验练习从333名学生52)(https://pslcdatashop.web.cmu.edu/)。

除了这个流行的数据集之外,还有其他已经编制了具体分析或实验。他们所有的人都从教育平台或智能辅导系统(它)。关于教育平台,26,27)编制几个数据集信息约30000名学生Udacity (https://www.udacity.com)。这个数据代表用户采取特定的行动,比如看一个视频,阅读文本页面,测试,或接收一个年级一个项目在一个特定的时间戳。另一个工作,利用教育平台是(20.),使用学生的学业成绩数据集从Kaggle (https://www.kaggle.com/aljarah/xAPI-Edu-Data)。这个数据集包括500名学生记录收集从一个学习管理系统(Kalboard 360)与16个不同的特征,如性别、国籍、出生地、话题,访问资源,讨论组,家长回答调查,家长满意,和学生缺席的日子。这所使用的资源也25]。

除了教育平台,不同的作品利用其收集数据集。情况就是这样的11]。他们从其提取的信息称为庇里牛斯山。在这种情况下,数据集包含的信息程度的524名学生回答关于概率的一些测试的成功。所有的学生都收到了12个培训问题相同的顺序相同。庇里牛斯山也被用于(15](68740数据点从475名学生)一起与其他数据集收集物理学从自然语言,名叫山脉,教学生介绍大学物理(44323数据点从169名学生)。这些作品中使用另一个其Funtoot (https://www.funtoot.com/)。文献[14利用本系统开发了一个数据集,由知识跟踪在线课程的信息,如问题的范围(例如,主题,主题和复杂性),启动时间、总尝试允许基于学生的表现,时间,尝试了。

最后,其他研究用自己的平台来收集数据。文献[23)收集真实世界数据从100所初中学校。这个数据是一个多层次的代表学生相关信息:人口数据(例如:性别、年龄、健康状况和家庭状况),过去的研究,学校评估数据(例如,学校类型和学校排名),研究数据(例如,中期考试,期终考试,和平均),和个人数据(如人格、注意力和心理学相关的数据)。文献[24)提出了一个特定的数据集预测最后的成绩的学生,包括信息报告,测验的答案,航海日志的讲座信息科学课程的108名学生参加。

总之,单独或与他人相结合,主要数据集用于预测学生成绩是2009 - 2010 ASSITments。其他受欢迎的数据集KDD杯2010和可用的数据集在DataShop库。其余的特定数据集用于个人研究、提取数据(主要是练习用真正的答案)从教育平台或其如汗学院,发现数学,Udacity, Knewton, Funtoot和山脉。

4.2.2。检测学生不良行为

如前一节所示,检测学生不良行为的最重要的任务是学生辍学蕴藏的研究平台。有一组通用的数据集开发解决这个任务。

主数据集KDD Cup 2015竞争(https://biendata.com/competition/kddcup2015/)。所面临的挑战提出了竞争在XuetangX预测学生辍学,在中国最大的蕴藏平台之一。数据集包含等信息,学生招收学生的课程和活动记录39课程。不幸的是,似乎不再可用的数据。这个数据集是用于29日,53]。最大的数据集的分析学生辍学了(31日]。网络公开课这个语料库包含40从HarvardX信息注册参与者和参与者的数量认证。它包括一些附加信息,如点击流数据测试问题的答案,播放/暂停/倒带事件讲座视频,讨论和阅读和写作形式。文献[32学生辍学分析)提出了一个特定的数据集创建从一个主持的项目管理课程蕴藏画布。它包括信息点击(页面,访问来源,等等),论坛的数据,并为每个学生测验分数。

参考文献(12,30.)使用语料库的编程练习(http://code.org/research),其中包含1263360代码提交多个概念,如循环嵌套的if - else语句,语句。重要的是要注意,这个数据集是关注学生的知识(练习和答案),而不是他们的行为中蕴藏的平台。

除了这些数据集关注学生辍学,更具体的任务的其他作品开发了数据集的背景下检测不良学生的行为。多通道交互相关,33)开发了一个数据集内的学生互动基于游戏的虚拟学习环境称为水晶岛。游戏操作和并行捕获传感器数据收集认知和情感特征。这个数据集包括学生在虚拟环境交互的信息,但不是关于学生的知识。文献[34)还开发了一个多媒体语料库分析活泼的教育视频。数据集包括450分钟的视频片段50个不同的教师,10个主要主题工程、各种口音的英语口语,他们多个注释为活泼的注释。文献[35)也提出了一个多媒体数据集参与预测。它包括超过200的视频5分钟长约,约78名受试者(25女,53岁男性)被收集在无约束的环境中包括办公室、酒店、和开放的地面。

为了检测豆荚(特权、压迫、多样性和社会正义)问题在学习环境中,(45)创建了一个特定于域的语料库豆荚话题的简短书面回答学生的学校社会工作。从这个语料库,作者提取一个特定的豆荚词汇。最后,sociomoral推理成熟度的具体分析,37)开发了一个语料库的691年法国专家手工编码的文本,陈述的成熟度水平范围从5(最高)到1(最低)。

4.2.3。生成的建议

论文回顾了下降的两个数据集生成推荐序列的分类学习。第一个是描述在38)和学习者提供了一个数据集的概要信息和课程入学或完成。数据集由5000个不同的学习者和49202独特的课程内容,导致2140476入学。第二个数据集地址课程规划的问题。文献[39)开发了一个语料库与10年的大学学生成绩单记录包括210万年记录的结果,30度,14个专业,400年课程和72000年毕业的记录。在他们的研究中,作者使用了一个包含只有本科工程和学生信息的子集。

4.2.4。评价

就像前面提到的4.1。4,评价的任务由两个主要子任务:自动作文评分和自动答案评分。论文评分子任务需要真正的文章,写的学生和教师评分,为了开发系统能够得分自动文本文章。为此,Kaggle平台被用来获得自动作文评分的数据集。事实上,有一个特定的竞争这个任务称为尽快(https://www.kaggle.com/c/asap-aes)的数据集被用于不同的作品21,40,54]。它包括由学生用英语写的文章从年级7年级(10),包括一个为每一个分数。文章长度是150至550字。文献[21)结合Kaggle尽快与点击流数据从一个数据集BerkeleyX蕴藏于2013年春季。这是一个有趣的数据集,因为它结合了基于内容的资源显示学生知识和对学生行为的数据在一个在线教育平台。

自动简短的回答分级的子任务需要的数据集的问题和答案的学生。文献[42聚集一个语料库的山脉(上面提到的作为预测学生的资源性能)。这个数据集包括16228短答案选自27868对物理学的对话。61.66%的语料库是贴上“正确”,其余的则被贴上“不正确”。文献[43)提出了一个简短的回答问题学生的反应,但在这种情况下课程的主题是人类生物学。具体来说,作者使用了六个问题,学生们将解释或描述过程中获得的知识在自己的文字里。答案是手动评估专家与标签如“正确”,“不正确的”,“不完整”,或“不了解”,等等。最后,(44)提出了一个数据集收集的244中学的学生解决问题的行为相互作用在一个基于游戏的学习环境。这些问题是计算的主题思想。

5。深度学习

DL无疑是最热门的研究领域在人工智能领域。DL是机器学习的一个分支,它利用神经网络架构模型高层抽象的数据。这些架构由多层处理单元(神经元),应用线性和非线性变换的输入数据。不同的DL架构开发并成功地应用于不同的监督和非监督任务的广泛的自然语言处理和计算机视觉领域55]。

DL算法学习多级数据表示,高级特征源于低层次特征组成一个层次结构。例如,DL模型在图像分类任务中,可以输入层中的像素值,并将标签分配给图像中的对象在输出层。这些层之间有一组转换(隐藏的)层构造连续高阶功能不太敏感的条件如照明和对象的位置。

DL的“深度”指的是多个转换层和水平的表示网络之间的输入和输出。没有事实上的标准层的数量,使得神经网络“深”,但这个领域的大部分研究认为必须有两个以上的中间转换层(56]。

许多DL是30年前的概念,和一些他们之前。然而,最重要的成就DL在过去的十年里发生了。虽然有许多因素来解释DL的提高,同意,两个主要的原因是大量的可用性数据和计算能力的进步归功于使用图形处理单元(GPU)。在第一种情况下,大数据促进DL算法来概括。在第二种情况下,gpu允许大规模并行计算训练更大、更深层次的模型。DL一直发展的另一个关键因素的出现像TensorFlow软件框架,Theano, Keras,和PyTorch允许研究集中在模型的结构而不是在底层实现细节部分5.5)。

DL成功的另一个原因是它避免了需求工程过程的特性。在传统的机器学习,工程特性是一个过程,选择最具代表性的特征算法所必需的工作,丢弃noninformative属性。这个过程是困难和耗时的正确的选择特性是系统的性能的基础(57]。戴斯。莱纳姆:执行学习功能自动发现手头的任务所需的表示(58]。

以下部分描述神经网络的基础,训练过程,主要架构,hyperparameter调优,为发展中DL和框架模型。除了提供一个大概的介绍,所有这些主题将EDM域中的特征,相关的论文了。

5.1。神经网络

神经网络计算模型是基于大套简单的人工神经元,试图模仿观察到的行为在人类大脑神经元的轴突。网络中的每个节点都是一个神经元是神经网络的基本处理单元。

的形式简单的神经元是描绘在图3。神经元的组件输入数据( , ,…, ),可另一个神经元的输出网络;偏见( ),一个恒定的值添加到输入神经元的激活函数;每个输入的重量( , , ,…, ),识别相关的神经元模型;和产生的输出( )。神经元的输出计算以下方程:

在哪里 激活函数的神经元。这个函数为神经网络提供的灵活性,允许估计数据,并提供一个复杂的非线性关系正常化影响神经元的输出(例如,边界产生的值在0和1之间),使用最广泛的激活函数乙状结肠,双曲正切(双曲正切),线性整流函数(Rectified Linear Unit)(修正线性单元)。每个神经元连接到其他人和它们之间的联系可以增加或抑制邻近神经元的激活状态。

4显示了神经网络的基本结构。第一层是输入层,用于提供输入数据或功能网络。的输出层提供的预测模型。根据问题,激活函数中使用这一层不同:对于二元分类,输出值是0或1,s形的函数;多级分类,softmax(一个泛化乙状结肠多个类)的运用;对于一个回归问题没有预定义的类别,可以使用一个线性函数。

ReLU激活函数是常用的隐藏层。隐藏层通过级联简单函数可以计算复杂的功能。隐藏层的类型定义了不同的神经网络结构,如CNN, RNN或LSTM(见部分5.3)。隐藏层的数量决定了网络的深度。一般来说,网络有更多的隐藏层可以学习更复杂的功能。在DL架构,通常几十个甚至几百个隐藏层,可以自动学习模型训练数据。

5.2。培训过程

任何机器学习算法试图分配输入(例如,一个图像)目标输出(例如,“猫”的标签)通过观察输入和输出的例子。如前所述,DL这个输入和目标之间的映射输出(即。,what the network is expected to produce) using artificial neural networks composed of a large number of layers forming a hierarchy.

网络学习一些简单的层次结构的初始层,然后将这些信息发送给下一层。这一层就这个简单的信息,将它与更复杂的东西,并将其发送到第三层。这个过程继续下去,每一层构建更复杂的从输入收到前一层。每一层所做的规范输入存储在层的权重。为了使网络学习,有必要找到每一层的权重提供最好的输入实例和相应的目标输出之间的映射。

培训神经网络方法找到合适的参数设置(权重)网络中每个处理单元。问题是,DL网络可能数以百万计的这些参数,找到正确的值都可以是一个非常困难的任务。例如,VGG16 [59),一个流行的神经网络体系结构应用于图像分类,有1.38亿个参数。最初,每个神经元的权重可以随机分配,或遵循一些初始化策略,包括无监督pretraining [60]。

为了控制神经网络的输出的质量,有必要测量距离的获得输出预期的输出。这个任务是由损失函数的网络。此函数接受的预测模型和客观值和计算多远从客观预测输出值。这个函数的结果表明模型指定的工作的例子。一个共同的损失函数均方误差(MSE)措施的平均平方误差的神经网络对所有输入实例。

培训过程的目标是找到减少损失函数的权重。误差计算这个函数是通过网络反馈,通常通过反向传播。此信息用于调整网络中每个连接的权重,以减少误差。这个过程可以由应用非线性优化的一般方法梯度下降法,网络计算损失函数的导数的重量、改变他们的错误减少。量的权重变化是由一个参数学习速率(见部分5.4)。

经过很多训练周期(称为时代)重复这一过程,模型通常会收敛于一个状态误差很小,网络被认为已经学会了目标函数。

5.3。体系结构

根据类型的输入(图像、文本、音频等)有不同的神经网络结构更适合信息的过程。数量的架构和算法用于DL是广泛和多样的。在本节中,最受欢迎的架构,他们共同的任务和使用电火花将被描述。表3本文总结了在电火花工作研究(第一列),实现的架构(第二列),基线方法(第三列),评价措施用于比较DL方法和基准方法(第四),和性能通过DL方法比较(第五)。

中长期规划架构包括(多层感知器),LSTM短期记忆(长),我们(字嵌入),美国有线电视新闻网(卷积神经网络)和变异(VGG16和AlexNet),模糊神经网络(前馈神经网络),RNN(复发性神经网络),autoencoder, BLSTM(双向LSTM)和MN(内存网络)。

基线方法计算(奇异值分解),坡度,事例(再邻居),多数类,射频(随机森林),SVM(支持向量机),字格,随机猜测,LinReg(线性回归),DT(决策树),NB(朴素贝叶斯)LogReg(逻辑回归),嗯(隐马尔科夫模型),IOHMM(输入输出嗯),支架(贝叶斯跟踪知识),IBKT(干预支架),PFA(主因素分析),多数投票,CRF(计算随机字段),LSA(潜在语义分析),LDA(潜在狄利克雷分配),SVR(支持向量回归),BLRR(贝叶斯线性脊回归),演算法,GTB(梯度树增加),GNB(高斯朴素贝叶斯),红外热成像(项目反应理论),TIRT(颞红外热成像)和赫特(分层红外热成像)。

最后,评价措施包括美(平均绝对误差),均方根误差(均方根误差),精度,精度,还记得,F-measure, AUC(曲线下的面积),Krippendorffα,日志损失(对数损失), ,基尼,MPCE(平均每个类错误),和QWK(二次加权k)。这个表的最后一列显示是否在实验中进行,DL方法优于基准方法(“>”),表现(“<”),或获得了类似的结果,与高绩效的评估和低性能在其他(" = ")。象征“−”表示方法不比较DL和传统的机器学习技术。相反,他们现在比较不同的DL架构(19,29日,35,45,50),比较不同的hyperparameters同样的DL架构(31日,46),或提议没有评估39]。

5.3.1。前馈神经网络

模糊神经网络表示神经网络的第一代。在这些网络节点并不会形成循环,即。,的information propagates always forward in a single direction, from the input nodes to the output nodes [61年]。这种类型的网络的主要代表感知器多层感知器(MLP)。

感知器是最简单的一种神经网络(62年]。它们包括一个输出层节点,直接输入发送到输出通过一系列的权重。每个节点计算的和产品的重量和输入。如果结果阈值以上,神经元激活;否则它将释放价值。单层感知器只具有学习能力的线性可分模式。网络没有隐藏层安静局限在他们可以学习的模式,并引入更多的线性单元的层不克服这种限制。因此有必要引入多层非线性隐藏的单位。延时是由多层的神经元,每个神经元在一层直接联系下面层的神经元。在许多应用程序中,乙状结肠函数作为激活函数在这些神经元。

模糊神经网络适用于许多经典的机器学习技术已经应用的领域,虽然在计算机视觉(取得了重大成功63年)和语音识别应用程序(64年]。模糊神经网络主要用于监督学习任务输入数据的顺序和时间,提供良好的效果层数时,神经元和训练数据是足够大的。这个体系结构的主要问题之一是结束的可能性在一个局部最小值的损失函数,得到一个次优的解决问题的办法。

在电火花加工领域,模糊神经网络用于预测学生的表现(20.,22)和基于他们的偏好的学习机会推荐给学生(38]。

另一种类型的模糊神经网络autoencoders(65年]。这种架构类似于中长期规划,但在这种情况下,输出层有相同数量的神经元作为输入层。目标是重建自己的输入,而不是预测目标的价值。这是一个无监督学习的例子,因为不需要带安全标签的数据。Autoencoders(及其变体堆放,稀疏的去噪)通常用于学习的紧凑表示数据(66年]。这种架构的另一个应用程序是pretraining深网络:堆叠autoencoder训练在一个无监督的方法和权重。这个重量可以用于深层网络(使用相同的配置隐藏层,每个层的神经数量,等等)作为一个更好的选择,而不是使用随机初始化权重(67年]。聚焦在电火花,工作(23)使用稀疏autoencoder预测学生的任务的性能。他们pretrained隐藏层的功能使用的无监督稀疏autoencoder无标号数据,然后使用监督培训调整网络的参数。

5.3.2。卷积神经网络

cnn是多层神经网络在图像处理应用程序(尤其有用68年]。在此体系结构中,第一层图像识别简单的特性(例如,边缘)和最后一层将这些最初的特性结合到更高级别的抽象(如识别人脸)。cnn类似于模糊神经网络在不同的方面:他们是由神经元,偏见和权重是需要学习的,每个神经元都有一些输入,执行点积,并应用一个激活功能,有一个损失函数在过去(完全连接)层措施预测和期望值之间的差异。

一般来说,美国有线电视新闻网是由一个包含三种不同类型的结构层:一个卷积层提取特征从输入(通常是一个图像);减少()层,通过采样下来减少提取的特征的维数,同时保留最重要的信息(通常是马克斯池应用(69年]);和一个完全连接分类层,它提供了最终结果的网络。使用的深层,卷积,池和分类,促进了CNN的新的应用程序的出现。除了图像处理(70年),这种类型的网络被应用到视频识别(71年,玩游戏72年),和不同的自然语言处理任务73年]。

cnn的主要优势是他们的准确性在模式识别任务,如图像识别、参数要求大大少于模糊神经网络。在消极的一面,他们有缺点比如计算成本高,需要大量的训练数据,和所需的工作正确初始化网络根据问题解决。

领域的电火花,cnn已经用于检测不良学生行为使用VGG16 [59]和AlexNet [70年)视频分析架构(36),使用也为音频和视频分析VGG16和AlexNet架构(34),执行文本分类(37),和预测学生辍学30.]。

5.3.3。复发性神经网络

模糊神经网络的一个独特的特征是他们不提供持久性机制。RNNs解决这个问题通过实现一个反馈循环,允许持续的信息(74年]。而不是完全前馈连接,RNNs可能连接反馈之前或同一层。这个反馈允许RNNs保持记忆过去的输入。

RNNs可以认为随着网络的多个副本,在每一个将消息传递给它的继任者。这种结构使他们方便处理序列和列表,因此他们的一个常见用途是建模的文本。RNNs已经成功地应用于各种各样的问题,如语音识别(75年],语言建模[76年),和机器翻译77年]。RNNs的主要缺点之一是梯度消失的问题,在梯度的大小(神经网络权重值用于更新)得到指数较小(消失)作为网络传播,导致一个非常缓慢的学习RNN的较低的层的权重。这使得培训过程困难的在几个方面:这个架构不能堆放到很深的模型,不能长期依赖项的跟踪。RNNs的另一个问题是他们需要一个高性能的硬件培训和运行模式。

在电火花的背景下,这种类型的网络被用于预测学生辍学的任务(28,30.,32),在预测学生学习获得的性能预测的任务(11)和能力评估(50]。

有不同RNN架构(参见下一节LSTM)。关键的区别是网络内的反馈机制,可以体现在一个隐藏层,在输出层或它们的组合。RNNs可以与标准的反向传播训练或通过使用一种称为反向传播的变异(BPTT) [78年]。

5.3.4。长期短期记忆网络

LSTMs RNN的特殊类型,近年来越来越受欢迎79年]。此体系结构中引入了存储单元的概念,它允许学习长期依赖关系。记忆细胞保留它的值在一段时间内作为一个函数的输入和包含三个门,控制进出细胞的信息流:输入门定义当新的信息可以流到内存中;的忘记门控制存储的信息忘记时,允许细胞来存储新的数据;的输出门决定当信息存储在电池中使用的输出。

存储单元中的每个门也是由权重。训练算法(如BPTT)优化这些权重基于生成的网络输出误差。最近,一个简化LSTM叫封闭的复发性单元(格勒乌)引入了80年]。这种周期性单元参数比LSTMs少,因为它有两个门,而不是3、缺乏一个输出通道。

作为一个类型的复发性网络,LSTMs尤其适合处理序列问题。多个任务可以被添加到任务列表前面提到RNNs:文本生成(81年],问答[82年)和动作识别的视频序列(83年),等等。结合cnn, LSTMs已经用于生产形象(84年)和视频(85年字幕:CNN实现图像/视频处理而LSTM CNN输出转换成自然语言。LSTMs的主要优点之一,RNNs相比,是内存的扩展,它允许这种架构记住他们的输入在很长一段时间。与LSTMs, RNN可能遗漏重要的信息从一开始就在试图预测过程一段文本。还LSTMs克服的问题为RNNs上述梯度消失。最后,这个架构相比,LSTMs减少所需的训练数据来建立模型。

在本文的研究工作,LSTM一直是最广泛使用的建筑。事实上,它已经应用到所有EDM任务由DL方法:预测学生的表现(21,24,53];检测学生不良行为预测学生辍学(28徒[],预测对话33),学生行为建模在学习平台(29日),并预测接触强度(35];生成的建议(39];通过隐形的评估和评价(44),提高休闲估计从A / B测试46),和自动化论文评分(41]。

正如前面提到的部分4.1。1,之间有争议的研究,预测学生的任务性能下降,侧重于知识的跟踪,即。建模的知识,学生与课程互动。出版后出现的争议深入了解跟踪(DKT) [10),一个LSTM-based模型明显优于先前的方法,用支架和PFA。一系列的作品被发表之后,是(11- - - - - -13,19]或[14- - - - - -18摘要]索赔。所有这些研究使用LSTM DKT的实现,尽管他们中的一些人介绍自己的变异。

5.3.5。其他体系结构

除了架构已经描述,其他网络结构曾在文献综述了DL应用于电火花。这些架构之一深度信念网络(DBN),用于评估的任务(42]。这种类型的神经网络用于图像识别,信息检索和自然语言理解等其他任务。DBN的多层网络,是每一对连接层限制了玻耳兹曼机(元)86年]。培训DBN发生在两个步骤:无监督pretraining和后续监督微调。在无人监督的阶段,每个组织遏制训练来重建其输入使用前面的隐层输出(87年]。

内存网络(MN)也被用于评估的任务(40]。锰是一种新的模型旨在解决这一问题的学习顺序数据的长期依赖,包括一个长期记忆组件,可以读取和写入提供的外显记忆表示序列中的每个令牌(88年]。

最后,双向LSTM(BLSTM)是用于预测学生成绩的工作开发任务(26,27]。区别与传统LSTMs是这些网络从过去只保存信息,而BLSTMs输入运行在两个方面:一个从过去到未来和其他未来的过去,从未来保存信息落后来看(89年]。

5.4。Hyperparameters调优

DL模型包括hyperparameters之前设置的变量优化模型的参数(重量和偏见)。Hyperparameters可以手工设置,选择搜索算法(如网格搜索和随机搜索),或优化的应用基于模型的方法90年]。

本节描述hyperparameters通常发现在构建神经网络。他们被分为两种类型:那些相关的培训流程和相关模型本身。虽然并不是所有的研究分析在这篇文章中提供的细节hyperparameters使用,可用时提供参考。

5.4.1之前。培训

这里描述的hyperparameters影响训练的过程是学习速率,批量大小,动量,重量更新和停止标准。

学习速率。的学习速率控制多少调整网络的权值对损失梯度。值越低,越慢算法遍历向下的斜坡。这有助于避免丢失的局部最小值,但缺点是需要很长时间才能收敛和到达最好的模型的精度。

使用的学习速率的研究范围从最低0.000134,36)到0.1 (31日与其他价值观如0.00025 [],23)和0.01 (19,29日,35,41]。

批量大小。的批量大小定义训练实例的数量,通过神经网络进行传播。例如,一组1000个训练样本可以分成了10批100个样本。使用批处理大小低于所有样本的数量有一些好处,比如要求更少的内存(网络训练使用较少的样本在每个传播)和培训快每次传播后更新(权重)。使用一个批处理代替所有样本的缺点是,批量大小越小,越不精确估计的梯度。

批量大小作品中使用的审查包括10 [31日,38),32 (19,27,33,41),48 (25),10010,11,18),50037),512 (23]。

动力动力是一个流行的反向传播的延伸,有助于防止网络陷入局部最小值。这种技术增加了前面的一小部分重量更新当前的体重。当梯度不断指向同一个方向,这增加的大小采取最低。当梯度不断改变方向,动力会消除差异。

只有三篇论文在EDM明确动力的使用,都是一个值为0.9 (23,35,36]。

重量更新。DL模型通常采用随机梯度下降法(SGD)在训练阶段。虽然这是一个容易实现的方法,很难优化和并行化,使它具有挑战性的调试和扩展DL网络。有更复杂的优化方法等内存有限Broyden-Fletcher-Goldfarb-Shanno(L-BFGS)和共轭梯度(CG),可以加快训练DL算法的过程(91年]。

使用的大多数论文回顾了SGD在训练阶段(10,18- - - - - -20.,22,27,31日- - - - - -33,36,40,41,49,50]。其他作品使用亚当(25,38),一个有效的梯度下降算法(92年]。最后,作为替代反向传播训练过程中,一些研究利用BPTT火车RNNs [28,29日,34]。

停止条件。有不同的方法来确定数量的时代用来训练算法。如果训练和验证错误很高,系统可能是underfitting(它既不能模型训练数据也不能推广到新的数据),和时代的数量可以增加。早期停止是一种形式或正规化用来避免过度拟合。更新网络,使它更好地适应每个迭代的训练数据,改善模型性能的验证数据集。在一定程度上,提高模型适合训练数据泛化误差增加。早期停止规则提供一个指南来识别进行了多少次迭代可以运行之前过度拟合。

大部分的研究工作建立了一个固定数量的时代训练算法:22 (22],50 [20.,38,41,49,6035),10011),15021),250 (37]。在[25]作者雇佣了50000时代,但是考虑到一个非常有限的输入特性。文献[36)一套验证用于早期停止,而[33)定义了一个战略组成在停止训练,如果没有改善在过去15时代(最大100时代)。

5.4.2。模型

hyperparameters列在这里,相关模型体系结构,网络的深度和宽度,初始权重,辍学。

深度和宽度。这些hyperparameters指隐藏层的数量(深度)和隐藏的数量单位(宽度)网络。没有分析方法设置这两个参数和选择最好的配置任务有时是尝试和错误的问题。而浅神经网络(单隐层)可以在理论上近似函数(根据通用逼近定理(93年)许多实证结果在不同的任务和域证明添加更多的隐藏层提高了网络的性能。这一现象的一个可能的解释是单位的数量在一个浅网络指数级增长任务的复杂性,需要更多的神经元比深网络来达到相同的性能2]。

因为这是两个网络架构的关键元素,大部分的论文审查提供的深度和宽度信息实施。关于层数,大部分实现范围从1到6层:1隐层[10,13,14,17- - - - - -19,24,32,49,50,53),2个隐藏层(11,15,20.,21,34,44),3个隐藏层(22),4个隐藏层(23,26,27,37,40,415),隐藏层(25,31日),和6隐藏层(30.,38]。在[35]作者设置2隐藏层为每个形态特征(例如,眼睛凝视和头部姿势),添加8隐藏层。的工作(36)定义16(因为它雇佣了VGG16架构)。文献[33实现一个LSTM 64层(获得更好的结果,而不是32层)。最后,(29日尝试了不同的配置的层:20、50、100和200。

对每个隐层单元的数量,论文回顾了最常见的值是20010,11,14,15,17- - - - - -19,49),紧随其后的是10022,40,50),6433,35),12821,27),256 (26,34]。其他配置包括5 (31日),15 (44,2028,4037),300 (20.]。一些作品在实施测试不同范围的宽度值:10 - 20013,50到30041),和64年到512年36]。

最初的重量。分配给网络的权重的初始值中扮演重要角色找到成本函数的全局最小值在深神经网络(94年]。这样做初始化的一个方法是分配随机值,虽然这种方法可能会导致两个问题:消失的梯度(小重量更新和优化的损失函数是缓慢)和爆炸梯度(振荡在最小值)。这里还有更复杂的方法,如使用非监督堆叠遏制这些重量选择。

论文综述了最常见的初始化过程是随机选择初始权重:与零均值高斯分布和小方差(19),统一的重量范围内 (20.,28,44),而统一的重量范围内 (13]。一个稀疏autoencoder用于pretraining (23]。转移学习(95年]在[36)来初始化cnn与权重pretrained ImageNet。最后,(31日)使用Net2Net,一种技术来加速学习从先前的网络转移到一个新的(96年]。

辍学辍学是一种正则化技术用于神经网络以防止过度拟合。这种方法的核心是随机选择神经元将被忽略(“辍学”)在培训过程中。他们的贡献在下一层神经元的激活是暂时移除前进传球和重量更新并不应用于神经元向后传递(97年]。神经元是随机退出训练期间,其他神经元必须处理所需的表示为失踪的单位作出预测。结果是神经网络不太敏感的特定神经元的权重实现更好的泛化。

一些研究报道辍学工作价值观在他们的网络配置。最重复的值是0.211,27,34)和0.5 (19,23,41),紧随其后的是0.329日,36]。其他值报告0.25 (50),0.4 (49),0.6 (13),和0.7 (33]。辍学有三个作品用于网络但没有报道这个hyperparameter的特定值(10,18,38]。

5.5。框架

现在有大量的框架可用于快速原型DL模型,可以有效地利用GPU的并行运行的基础设施。通过这种方法,研究人员可以专注于模型的体系结构和忽视底层的细节。本节介绍了框架中使用的DL EDM文学,包括一些额外的流行框架尚未用于这一领域。请注意,并不是所有的论文评审提供实现细节。

Keras (https://keras.io/)是最受欢迎的文章的框架。它被用于实施11,14,17,25,31日,38,41,44]。Keras Python提供了一个接口,便于不同深层神经网络的快速原型,如cnn和RNNs,可以执行的其他更复杂的框架,如TensorFlow和Theano(见下文)。生成的代码使用cpu和gpu Keras无缝地运行。

TensorFlow (https://www.tensorflow.org/)是第二个最流行的框架在此列表中。可以在桌面和移动应用程序,并支持发展中DL模型使用Python等语言,c++和r框架包括TensorBoard,可视化数据建模和网络性能的一个工具。它支持Google和大型社区的开发人员提供了大量的文档、教程和导游。在电火花工作使用这个框架(13,18- - - - - -20.,25,29日,49]。

列表中的第三Theano (http://deeplearning.net/software/theano/)。它是使用最广泛的图书馆为DL Tensorflow等其他竞争对手的到来之前,咖啡,PyTorch。它是一个底层库支持两个CPU和GPU计算。发布版本1.0的发布后,宣布这个工具的开发和支持将会停止。的作品(23,30.,50使用这个框架。

咖啡(http://caffe.berkeleyvision.org/)是一个用c++写的库,包括Python接口。它是专业发展的cnn图像处理任务。使用这个库的一个最大的好处是能够访问的开箱即用pretrained网络从咖啡模型动物园(http://caffe.berkeleyvision.org/model_zoo.html)。它被36)自动眼睛凝视后在教室里。

火炬(http://torch.ch/)是一个相对较老的机器学习库,因为它第一次发布15年前。主要的编程语言是Lua,尽管在c,它包含有一个实现DL和其他传统的机器学习算法,支持CUDA并行计算。它被10,12)来开发他们的DL模型使用Lua知识的任务跟踪。Python有一个开源的机器学习库基于火炬,叫做PyTorch (https://pytorch.org/),已得到了越来越多的注意力从DL社区自2016年上映。这个库是用于工作35]。

其他相关框架DL,不用于任何提交的作品,是Caffe2 (https://caffe2.ai/), Deeplearning4j (https://deeplearning4j.org/), MXNet (urlhttps: / /mxnet.apache.org/),微软认知工具包(https://www.microsoft.com/en-us/cognitive-toolkit/),链(https://chainer.org/)。

本文中描述的一些作品使用字嵌入减少输入空间的维数。词使用嵌入在自然语言处理领域的词(或短语)映射到向量的实数。这种映射可以通过使用神经网络方法(98年]。他们的目标是识别单词根据他们之间的语义相似性与其他话语在大样本文本共存。这个任务的框架选择word2vec (EDM字段29日,45和手套(https://nlp.stanford.edu/projects/glove/)40,43]。其他流行的框架与字嵌入fastText (https://fasttext.cc/),虽然这里描述的作品用它的实现。

6。讨论

分析在这一节的第一个问题是电火花加工任务的当前状态对DL的使用模型。基于电火花的分类应用程序定义的(8),论文综述了目前研究分类根据问题解决。这种分类显示,只有4的13个任务中定义,分类面临使用DL方法:预测学生的性能,检测不良学生的行为,产生推荐,和自动评价。其他9个任务仍为契机为该领域的研究人员探索DL的应用技术。

在任务预测学生成绩,论文的大样本分析被用于比较支架的性能(概率)和DKT(深度学习)模型,导致传统之间的一个有趣的讨论和深度学习方法(见部分5.3。4)。而DKT通常获得更好的性能,其预测的支架提供了更好的解释。由于DL是一个非常活跃的研究课题,它预计DL的进步将提供在以后的理论理解和生成模型的可解释性,这些发现将受益所有领域应用DL,包括电火花。

辍学的预测蕴藏平台的子任务在检测行为不良的学生获得了更多的关注。这些研究大部分集中在预测学生的辍学在给定的时间点上。这些研究进行视频分析识别的内容失去兴趣,提取特征,如学生的目光。包括多通道特性训练DL模型,如行为特征(例如,在教室里寻求帮助或作弊测试),未来可能会从中受益这一任务的方法。

第三个任务研究,产生推荐,两篇论文的目标,专注于生成个性化搜索根据学生的喜好和课程计划。开放的挑战未来的研究学习资源的建议是在非正式场合。问题在这种情况下是不可能手动结构带来的大量的数据来源如专家社区和教育博客。

最后,在评价任务不同框架建立帮助教师在评分过程中,主要侧重于自动作文评分和简短的回答打分。使用基于游戏的环境和A / B测试表明其好处作为自动评估工具,并为未来的工作将是一个有趣的研究。

第二个相关方面的工作是研究现有的DL模型在教育环境中使用的数据集。如部分所示4.2,几个数据集已经开发了学生成绩预测和学生行为在网络平台。尽管只有其中一些可用(例如,援助和知识发现(KDD)杯2010年预测学生的表现,和知识发现(KDD)杯2015年预测学生辍学),有很多在线学习平台,网络公开课,能提供大量信息的同期培训电火花加工系统。

基于文献回顾,似乎有必要开发特定的数据集有两个任务:教育推荐系统基于数据挖掘和自动作文评分。第一个任务的主要问题是没有一个“正确”的序列学习项目推荐给学生,这很大程度上取决于推荐背景知识,学习者的能力,和目标。出于这个原因,它是必要的学习不仅与连贯序列数据集(如序列,可以找到蕴藏),而且还知道哪些序列是适合每个学生的档案。第二个任务,自动作文评分,是一个困难的挑战,需要深厚的语言分析来实现文本的自动评估。虽然有成功的基于机器学习的自然语言处理工具,自动作文评分需要罚款和深层语义分析来确定文章的主题,主要的想法,支持和反对,,一般来说,推理过程由学生来完成。不幸的是,今天没有可用的数据集,包括这种类型的复杂的语言信息,将有利于DL方法在这个任务中。

最后,最后一点研究综述不同的DL模型和配置用于电火花文学。关于DL架构,LSTMs最常用的方法,无论是使用频率(59%)使用的文件和各种不同的任务,因为它应用于四EDM任务解决的分析工作。原则上,这可能被认为是一个很好的起点,开发一个系统的任务。在其他体系结构的情况下,香草RNNs被用于预测学生的性能和检测不良学生行为,模糊神经网络预测学生的性能受到限制和cnn探测行为不良的学生。其它建议考虑使用延时,DBN, MN和autoencoders。

的主要hyperparameters DL模型也回顾了在前一节中。鉴于DL的经验性质的开发过程模型,没有放之四海而皆准的解决方案来设置最佳配置为一个特定的体系结构,以及hyperparameters选择将取决于可用的输入数据和手头的任务。在这些分析,学习速率,批量大小,停止标准(时代)被认为是对模型的性能至关重要。理论上,更大的批量大小意味着更稳定的梯度,促进高等教育率。批处理大小更大也更计算效率,随着样本数量的增加在每个迭代中处理。然而,一般建议与深层神经网络是许多小步骤(小批量大小和学习速率)而不是更大的更少,虽然这是一个设计的权衡,需要实验。第三hyperparameter提到的,时代的数量,也必须适当调整,以避免过度拟合的问题。另一个方面是考虑到网络的大小。添加更多的层(深度)和神经元(宽度)会导致更强大的模型,但这些架构也容易overfit。一个模型也有大量的参数需要大量的样本实现泛化。 In this respect, more training data means almost always better DL models.

手动选择这些hyperparameters耗时且容易出错。随着模型的变化,以前可能不再是最好的选择。为了避免这个缺点,有很多技术来自动选择最佳hyperparameters(如网格搜索)。中提供的总结部分5.4可以给一个提示的起点和适用范围值为这些hyperparameters发展的新架构。在这方面,最常用的配置值:0.0001和0.01学习速率;32和100批大小;0.9的动力;SGD权重更新;50时代停止标准;1或2隐藏层深度;100年或200年隐藏单元每层宽度;体重随机初始化;和0.2的辍学生。

应该注意的是,数量有限的隐藏层在这些作品中,以79%的实现使用5或更少的隐藏层。事实上,根据(56),54%的工作回顾了神经网络可以被视为“浅”,因为他们只包括1或2隐藏层的架构。这表明有运用更复杂和深度的空间架构领域的电火花。流行的技术和架构,如转移学习,强化学习,生成对抗的网络,和统一的框架,在电火花加工领域几乎是未知的。

对DL的性能技术在这些作品中,除了论文不提供比较DL和传统的机器学习技术,67%的工作报道,DL优于现有的基线,27%不确定的结果(DL只表现更好一些的实验),只有6%的业绩较低的DL技术。这些数字并不令人惊讶的成功的结果DL技术在许多不同的领域。然而,这些结果并不免除争议。电火花加工领域,有反对者声称DL模型生成的内在机制非常复杂,研究人员通常无法解释为什么一个模型产生一个特定的输出从一组输入。这个争议也出现电火花,赞成和反对上述理由DKT和支架。

考虑当前的DL技术应用于电火花,有许多开放的路径探索这一领域的新方法,比如使用或转让学习神经网络的初始化(只用于36]),利用强化学习(99年),一个有前途的学习技术,减少了对训练数据的需要,和应用程序架构,如锰、DBN,生成对抗的网络(甘),需要在语言或图像生成的任务(One hundred.]。

7所示。结论

本研究综述了DL应用电火花的出现,这一趋势开始于2015年3论文发表,目前每年增加它的存在与17论文发表于2018年。系统的搜索之后,41作品被检索。值得一提的是这些方法的存在等相关EDM论坛年度国际会议在教育数据挖掘与7篇论文发表在《最后一版(总共16在过去三年)。

基于电火花的分类应用程序定义的(8),只有4的13个任务提出了研究解决了DL技术。这表明有许多开放的机会使用DL未知的EDM任务,而且考虑到承诺这些模型结果的审核工作(67%的人报告说,DL超过他们所有的“传统的”机器学习基线实验)。

这项研究还包括进行修订的主要数据集用于电火花任务了。和其他研究领域,其中一些是科学界的公开,使实验的重现性,而另一些特别的为特定的研究。在电火花加工领域,存在一个额外的问题,使数据集免费提供敏感信息的存在有关(未成年)的学生。这个问题可以用适当的数据匿名化被克服。

DL技术的深入研究也提供了这项工作,开始介绍,DL架构中使用的类型的分析每一个任务,回顾最常见的hyperparameter配置,和现有的框架列表帮助DL的发展模式。自定义一个DL架构继电器主要在实证过程中,提供的信息在这个研究可以作为基础开始在EDM DL应用的发展前景。

鉴于EDM DL技术应用的普及,这一工作可以为研究提供有价值的参考和一个起点在DL和EDM字段,希望利用这些技术在教育领域的潜力。

的利益冲突

作者宣称没有利益冲突有关的出版。