文摘
近年来,大规模网络公开课网络公开课()非常受大学生的欢迎,对学术机构有一个强大的影响。网络公开课的环境,知识发现和知识分享是非常重要的,目前通常是通过本体技术来实现。在构建本体,自动提取技术是至关重要的。因为文本挖掘算法的一般方法对在线课程没有明显的影响,我们设计了分(AECKP)课程知识的自动获取算法在线课程。它包括文档分类、中文分词和词类为每个文档。向量空间模型(VSM)用于计算相似度和设计重量优化TF-IDF算法输出值,和更高的分数将被选为知识要点。课程文件选择“C编程语言”的实验研究中。结果表明,该方法可以达到满意的准确率和召回率。
1。介绍
网络公开课大规模网络公开课()发挥了伟大的作用在建设学习型社会的过程中(1]。十多年的快速发展的在线学习,在线学习资源已经严重超载,这是一个学习者很难找到合适的学习资源为自己的学习资源(2]。因此,如何实现网络公开课的知识共享和知识发现时代引起了教育领域的专家的关注。本体技术是一种有效的方法来解决知识共享和知识发现,网络公开课越来越多的学者将其应用于近年来,和本体建设已成为一个研究热点。目前,大多数的领域本体建设必须手动完成,使用普通的文档编辑器或本体编辑工具(如门生,俯冲,Ontolingua OntoEdit)手动添加一个接一个。门徒是一个非常受欢迎的和有用的工具3,4]。显然,这种方法不仅耗时,容易出错,难以更新,还需要该领域的专家的参与。最重要的方面是,手动本体建设效率低下,很难普及。本体学习通常使用本体工程、机器学习技术,统计和许多其他学科的原则自动或半自动地实现建筑本体的5]。通过本体学习、概念和分类可以从各种nonstructured提取文档(6]。自动构建本体将大大提高语义本体的开发过程和容易实现知识发现和知识共享。它提供的可能性当然本体推理和个性化学习的必要条件。在教育领域,知识是最基本的元素和它们之间的关系的基础。因此,自动提取知识本体学习的关键(7]。
一般来说,有三种方法自动提取知识领域的教育:语言学方法、统计方法、混合方法(8]。有以下几个优势语言方法精度高,少量的计算,而不依赖于语料库,提取低频点知识的能力,但可移植性较差,很难保持语言的规则。甚至不依赖句法和语义知识基础和能力来处理不完整的句子或短语正确没有不同语言的限制,计算统计方法承担巨大的缺点和困难提取multimeaning知识分和低频点知识。混合法是结合统计知识与语言知识(语法和语义信息),利用这两种方法的9]。考虑到网络课程的特殊性,我们使用混合方法,使用语言的方法来处理中国的分词和词类,并使用统计方法来处理评分方法的特点。
为了构建教育领域本体的自动,自动提取知识的点是一个非常重要的工作。首先,它把文档,然后为每个文档使得中文分词和词类,它使用向量空间模型(VSM)来计算相似度和设计重量值优化TF-IDF算法值为每个特性的得分值,然后这些特征序列的评级。最后,知识分选择更高的分数。实验结果表明,该自动提取知识具有较高的准确率和召回率高,打下坚实的基础为未来自动建筑当然本体。
本文安排如下七个部分。部分1是研究背景的介绍;部分2相关文献综述;部分3阐述了方法和技术以及TF-IDF算法,相似度计算,和归一化法;部分4讨论了建模和设计框架点课程知识的自动获取;部分5系统地说明了流程和算法;部分6是关于“c编程语言”课程的实证分析文档;和表达的结论和讨论部分7。
2。相关的研究
信息文本的排序资源不能意识到没有文本挖掘技术。图1是典型的文本挖掘流图。
从图1可以看出,第一步是要从文本中提取适当的特性,使文本转化为数字计算机能够理解的形式。根据需要处理的速度和准确性,可以选择文本和优化的功能。然后,各种各样的文本挖掘方法将用于发现隐藏的知识模式,最终的输出满足用户的评价标准也会形成有用的知识来指导人们的实践(10]。文本挖掘的本质是对文本分类和特征提取技术。文本分类的发展经历了两个阶段的基于规则的系统和机器学习。自2000年以来,机器学习方法已广泛应用于文本分类,当几个训练样本与手工标注类别设计,基于机器学习的系统可以构造自动文本分类模型,提高分类的效率和性能。但不管在哪个阶段的文本分类、专家的知识领域起着非常重要的作用;例如,训练样本时应手动标记使用基于机器学习的分类方法[11]。因此,在文本分类的设计过程中,专家的知识在这一领域是作为系统的一个重要组成部分。
一般来说,教学文档是半结构式或非结构化数据;知识可以自动提取利用文本挖掘。研究在其他国家成熟,提出了许多富有成效的方法,基于英语语言的研究。Missikoff本体工程的方法使用一个迭代过程,包括与OntoLearn[自动概念学习12]。Navigli等人用它来自动多字术语翻译从英语到意大利13]。文本挖掘文本知识的结构化分析产生一个比简单的词搜索,可以提供强大的工具(14- - - - - -16]。个性化的本体模型提出了知识表示和推理在用户配置文件(17]。作为英语和汉语有很大的区别,有更少的研究领域的自动提取在中国汉语。杜等人提出了一个术语提取算法结合统计数据方法和基于规则的方法(18]。郑陆和提出了一个方法,结合非线性函数和“配对比较法”,认为单词的位置和频率,给候选词的权重,实现了自动提取关键字(19]。陈等人提出的自动采集现场的话从一个大标记语料库的使用引导机器学习技术(20.]。刘提出的方法自动提取webontLearn在web页面(21]。在他的研究中,他研究了语义概念之间的关系从web页面中的数据以及如何自动提取同一应用程序的web本体通过分析领域的web页面集。
的概念提取、统计方法主要是采用,这也是当前的主流技术。基于规则的方法也适用于解决困难的关键领域相关的概念。通过计算概念的频率之间的比率概念的特定字段的文档和频率在正常文档、相关的概念可以确定。如果这个比率大于指定的阈值,这意味着这个概念经常出现在特定领域和在其他领域并不经常使用。
3所示。方法和技术
3.1。概念的过滤器
领域概念出现在语料库的领域比它更频繁出现在一般的语料库。如果一个概念领域的语料库比它更频繁出现在一般的语料库,它被认为是相关领域(22,23]。区域的概念有以下两个特点。(1)这句话出现在字段比其他地区更频繁。(2)概念领域的普遍认可,因此被广泛使用。
可以测量这两个特征,分别由域相关和域的概念一致(24]。
3.1.1。域相关的
域相关性的概念在域给出如下: 在哪里是在。根据概率理论的许多定理,在大样本的前提下具有相同的基础,样本的频率接近的概率值,因此,最大似然估计的条件概率值的频率等于””领域的出现,有一个方程
3.1.2。域的共识
域概念”的共识“在域给出如下: 在哪里文件在的概率,估计如下:
3.1.3。概念的过滤器
资格的概念域相关和域的共识后,每个候选人的重要性程度的概念”“域可以定义如下: 在上面的方程中,。
3.2。TF-IDF
术语Frequency-Inverse文档频率数值统计,旨在反映是多么重要的一个字一个文档集合。通常用作一个权重因子在信息检索和文本挖掘。一个单词的重要性突出显示时代越来越多的出现在一个文件,但重要性却降低了语料库中出现的频率的平方成反比。如果一个词或短语熊高频时的一篇文章中非常低的频率在其他的文章中,词或短语通常是作为关键字区分的能力。
3.2.1之上。计算特遣部队
TF代表一个单词出现在文档的数量。因为文件有不同的长度,使用TF标准化促进不同文档的比较:
3.2.2。计算IDF
以色列国防军是衡量一个常见的词的重要性。IDF的主要观点如下:如果文档包含更少的条目,IDF变得更大;进入熊的能力区分类别。
3.2.3。计算TF-IDF
特遣部队和IDF在一起可以形成TF-IDF测量:
如您所见,TF-IDF的价值成正比的频率一词的出现在这个文件中,但这个词的频率成反比的出现在整个语料库。
3.3。相似度算法
每个单词被认为是一个向量:
很多相似性算法被提出并被广泛应用于相似性计算,如余弦相似性、Jaccard系数、皮尔森相关系数。不同的相似性措施的细节描述如下。
(我)余弦相似性。余弦相似度是衡量两个向量之间的相似度,衡量夹角的余弦值(25]。0°的余弦是1,小于1其他角度。距离测量相比,余弦相似度更多的关注方向的两个向量之间的差异,而不是距离或长度。公式如下:
(2)Jaccard系数。Jaccard系数的措施相似的十字路口除以联盟对象。Jaccard系数主要用于计算度量象征或布尔相似个体属性,因为个人象征度量或者一个布尔值指标因此无法衡量特定值的差异,只会是一样的结果,Jaccard系数只关心个人的共同特征是符合这个问题(26]。公式如下:
Jaccard系数范围之间。余弦相似度可能扩展到收益率Jaccard系数的二元属性。
(3)皮尔森相关系数。在统计学中,皮尔森相关系数是用来衡量两个变量之间的关系和(线性)的范围。皮尔森相关系数是广泛应用于学术研究来衡量两个变量的线性相关性(27]。公式如下:
代表的协方差和,代表的方差,代表的方差。
3.4。归一化法
归一化方法是数据挖掘的基本任务;不同的评价指标往往有不同的维度和维度单位;这种情况会影响数据分析的结果。为了消除指标之间的尺寸效应,归一化法是常用的。数据标准化处理后各项指标的原始数据在同一水平,适合评价的综合比较。数据映射到间隔数据归一化方法包括:Min-Max正常化,对数函数,函数,每股和零均值归一化。我们在本文中使用Min-Max正常化;公式如下:
4所示。框架和流程
有大的区别对课程知识的提取,提取文档一般特性共同之处。一般特性的提取是研究和分析质量文件,找出特征可以代表一个字段值,常用的文档分类、文档聚类,信息提取,关系分析,等等。以下是特征提取方法(评价):文档频率(称为DF),信息增益(称为搞笑),互信息(称为MI),期望交叉熵,重量的证据文件,比值比,等等。实验结果表明,DF和搞笑的结果(28]。有很多研究特征选择。杨等人,冯等人指出,课程知识的提取是提取知识自动从课程教学文件、教学内容、数据库,利用中国和其他文件分割和文本挖掘技术,结构或者语义结构化文档的后续研究工作的知识共享和知识发现(29日,30.]。因为它是在一个特定的环境和文档之间有很强的相关性和知识分在线课程,所以使用VSM模型将大大降低特征维度。同时,通过增加“knowledge-Document”矩阵设计重量算法和优化文档频率法,改善课程知识的提取效果。课程框架自动提取知识点如图2。
整个过程包括七个步骤,如下所示。
4.1。文档的预处理
在线课程的课程资源丰富;课程的内容和风格是多种多样的,他们通常包括教学文件、教学内容、练习、案例基础、问题库,视频库等等。第一步是分类文件,采取以下三种类型的文档,这是非常重要的在几乎每一个课程:教学文件、教学内容,练习。教学文件是一个纲领性文件,有大的和全面的内容;教学内容包括细节每一章的内容;本课程的练习是衡量教学质量。上述三个文件包含所有课程的知识要点。其次,考虑到文档的类型的多样化显示PDF, HTML, XML, Excel,本文档和其他不同的格式,需要统一成一个普通的文档文件格式(. txt) [31日]。
4.2。中文分词和词类
中文是一句一句地读,这不同于英语单词,所以我们需要对中国文档进行分割。中文分词的过程将书面文本划分为有意义的单位,如中国的话说,中国的句子,或者中国的话题。软件ICTCLAS用于把句子分为文字和标记词。因为将句子分成词语属于语言学的范畴,不同的因素会导致不同的结果(32]。例如,中国成语“程序设计基础”可以分为“计划”,“设计”和“基础”或被分成“程序设计”和“基础”或被其他方式划分。因此,字典时应指句子分为词;一些关键词字段和对应的频率应该添加到字典。考虑到本研究的背景,教育领域的字典,字典在计算机科学领域,以及在课程领域词典应该组成。
4.3。候选人的知识分
处理分割结果,VSM模型用于计算TF-IDF算法使用TF-IDF值的特点,然后候选人课程知识测序获得的点。因为大部分的知识点名称和动词(很多知识是一个动词,如“循环”是一个非常重要的知识,但在中国,它是指一个动词),为了减少无用的形容词和副词,文章可以大大减少维度和改善时间复杂度VSM模型。然后,计算其频率和文件频率为每个特性。因为提取知识点之间的关系,每个候选人的属性点应该包含课程知识,包括文档的位置、文档大小的字节,段落的位置,句子的位置和其他候选人知识相同的句子。
4.4。相似度计算
因为有夫妻的表达同样的知识;例如,“分支结构”在“C语言程序设计”也可以称为“条件结构,”“单分支,”或“多分支。“所以知识的similarity-value点需要计算。知识分轴承类似similarity-value可以合并。
4.5。重量计算和归一化
使用“knowledge-document”矩阵计算的重量候选人知识要点。因为所有的文档的在线课程,有强大的知识和文档之间的关系。考虑教学内容文档的特殊性质和练习每一章,“knowledge-document”矩阵可以计算每个知识点的重量,然后归一化权重。
4.6。对知识提取点
的频率和相关候选点是用于分析重量和知识熵权和重新计算候选知识的频率点。然后,选择课程知识点根据上述计算结果的顺序。
4.7。专家评价
专家确定知识点根据课程领域的特点然后比较他们的知识分自动提取并分析差异的原因。
5。算法设计
认为在线课程的显著特征;自动提取课程知识点(AECKP)设计在本文中提取某些课程知识分自动包括TF-IDF,相似性,重量算法,改进TF-IDF算法。
5.1。TF-IDF计算
TF-IDF的关键点(术语frequency-inverse文档频率)是知识,如果一个点具有较高的频率在特定的文档很少出现在其他类型的文件,这种知识的点熊高容量区分类别,因而具有高度的重要性(33]。
TF频率(频率)是指一个单词出现在一个文档中。方程(14)意味着kp的频率(知识)的文档;意味着所有候选人的知识要点:
IDF逆文档的主要观点包括文档包含的知识越少点和IDF越高,这意味着知识是非常重要的。方程(15)代表IDF的频率在整个文档集合,和意味着文件的总数文档集合:
方程(16)是关于TF-IDF模型;它是计算的价值TF-IDF为每个点根据特遣部队和idf知识。意味着文档排序在文档集合,意味着文件的总数文档集合:
而判断文档的重要性,TF-IDF认为不仅知识的频率点文档(词频)但也IDF的知识在各种各样的文件。
5.2。相似度计算
提取特征向量的两个候选人在任何领域知识的概念,分别,然后使用余弦计算它们之间的语义相似度的方法。方程所示
在(17),和代表两个知识要点,和代表特征向量,代表的数量特征向量。
5.3。重量计算和归一化
计算文档TF-IDF大规模文本挖掘;对于这种特殊环境的在线课程,效果并不理想。本文采用“知识point-document”矩阵来计算每个知识点的重量值。根据上面的分类,“知识point-teaching文件,”“point-teaching知识内容,”和“知识point-exercises”矩阵建立了。“知识教学内容”矩阵如表所示1。
考虑
在(18),代表知识的教学文件的重量,代表了教学文件收集、代表总数的教学文件收集、代表知识的重量在教学内容收集、代表了教学内容收集、表示教学内容收集的总数,代表知识锻炼点图书馆的重量,代表文档集合中的练习,文档中代表总数的练习。
Min-Max归一化法用于正常体重所示
5.4。改进TF-IDF算法
摘要TF-IDF算法与体重增加形成改进TF-IDF,名叫I-TF-IDF:
在(20.),代表了编号的文档集合,TF代表KP的频率,以色列国防军代表KP的逆文档频率,表示文档编号的正常化重量。
本文计算出的加权词频价值观I-TF-IDF算法,正常化和测序。我们选择80年作为知识的阈值在1级200分和2级的阈值的知识要点;知识计算结果大于阈值的点作为课程知识点自动提取。
6。实验
本实验采用c#语言和SQL2005编写程序并使用SharpICTCLAS使分词和词类。SharpICTCLAS是分词系统,这是由中国科学院提供的。
摘要“C编程语言”被选为实验中,关于“C语言”的68年的研究文档下载从8个学院和大学网络公开课的平台。分词和词类的结果“c编程语言”文档,如图3。
课程知识点使用AECKP算法自动提取;精确率、召回率和分析和比较与知识的专家(34]:
在(21),“正确”代表的正确知识点自动提取,“所有”代表了所有知识的整数点自动提取,“ExpertsMark”是指由专家知识点标记的数量。
课程专家让知识层次注释“C语言程序设计”的知识分分为两个层次。有66个1级知识要点;有258点2级的知识。有1953个候选人知识通过AECKP点提取算法,包括48分在第一级和193年知识分在第二个层次。准确率两层知识分的结果如表所示2。
从表2,我们可以看到,没有密切关系的数量由专家知识提取的点和点的知识提取的准确性。
在我们的经验中,我们选择不同的阈值在1级和2知识的点,和最好的不同阈值如图4和5。
从图4,我们可以找到80是最好的阈值。从图5可以看出,250年是最好的阈值。然后,课程知识分1知识大于80分和2知识大于250点是选为候选点知识。
研究结果如表所示3。
从表3可以看出,一旦增加知识专家注释点的数量,精确,回忆和测试值会明显增加。主要原因是候选点的数量并没有改变知识专家注释的数量增加了,所以相对选择的可能性将会增加。此外,它可以从表3与TF-IDF算法相比,精度和召回率AECKP点提取算法在课程知识在一定程度上改善,同时效率低知识的提取点也有所改善。
在我们的研究中,我们使用AECKP算法提取C语言课程知识要点,然后使用Jena自动生成本体,C编程的部分教育本体如图6。
7所示。讨论
自动提取的必要性分分析了本体学习课程知识,和疲软的特征提取算法通常用于提取常见的文档在线课程总结。
自动本体建设包括从输入和提取本体元素从他们(构建本体35]。它旨在从一个给定的文本语料库构建本体半自动地或自动地与人类发挥有限。我们通常定义自动本体建设的方法和技术用于从头构建本体半自动的方式和使用几个来源丰富或适应现有本体(36]。自动本体建设使用方法从不同光谱的字段,字段是不同的机器学习、知识获取、自然语言处理、信息检索、人工智能、和推理数据库管理(37,38]。
此外,教育领域的特点考虑,AECKP算法细节包括算法框架,过程,和算法设计,及其性能测试实验的结果显示高的精度和召回率。由于所选“C语言程序设计”课程既包含英语和汉语知识分,而分词模块只能处理汉字,因此,英语知识分统计过程中被忽略。
点自动提取课程知识只是一个课程本体学习的一部分。在未来的研究中,知识点之间的关系,包括序列关系和包含关系将集中提取知识之间的关系分自动从课程知识本体的教学文档自动建设将实现本体学习研究在一个更好的方法。此外,学习者的兴趣以及他们的情绪反应可能被认为是一个功能点与课程相关的知识通过智能行为数据挖掘39),演讲者对声音信号的识别和情感计算从学习者的历史在线学习40,41]。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持部分由中国国家自然科学基金(没有。41174007)和研究生创新基金项目(没有。cxjj - 2013 - 440,也没有。cxjj - 2013 - 445),上海财经大学,中国。