文摘

跨语言交流提出了更高的要求,信息挖掘英语翻译课程。针对的问题频繁模式在当前数字挖掘算法产生大量的模式和规则,执行时间,提出了一种数字挖掘算法基于数字双技术英语翻译课程信息。根据词语切分和标注的结果,英语翻译文本提取的特征的话,和文本的跨语言映射是使用数字双技术建立的。估计的概率最大化文本翻译的对应关系。文本信息转化为文本向量,文本的语义相似度计算和匹配是评判翻译的程度。基于这个数据维度,频繁序列由前缀后缀序列转换成序列,和数字挖掘算法设计。实例分析的结果表明,数字挖掘算法的执行时间明显短于基于数字双技术,基于先验的和地图减少,和矿业准确率达到80%以上,在处理大规模数据具有良好的性能。

1。介绍

开放高校翻译专业,越来越多的英语专业和nonforeign语言专业提供翻译课程,和翻译教学逐渐被关注。然而,仍然有许多问题在高校培养翻译人才的教师,教学时间和教学模式。信息技术的发展空间带来了高校翻译教学改革,提供了无限的可能性翻译教学的良性和可持续发展。同时,教育信息的背景下,学生的信息素养和计算机和智能手机操作能力不断提高,并且他们有能力的信息收集、加工、应用程序和已使用的学习方法”点击,搜索和碎片。“所有这些条件为学生提供帮助摆脱翻译教学的桎梏,实现个性化学习翻译。因此,深入研究英语翻译课程的信息可以促进翻译教学的发展,在一定程度上提高学生的翻译水平。实际的翻译、歧义和多义的词的语义是关键和困难的问题。因此,有必要找到翻译信息准确、全面,并迅速从大量的信息数据,这需要更高的要求翻译课程的信息处理技术。关键是要准确衡量翻译单词的语义相似度。通过英语翻译课程的数字化矿山信息,信息匹配的双语语义水平可以实现,从而提供更准确和容易跨语言交流的过程1]。

数字双技术也成为数字图像,通过数字技术的特点描述形成一个数字模型(2]。在建模过程中,模型的性能和行为的一致性是保证,从而实现智能操作,实现优化管理的目的。数字双技术的帮助下,自然语言可以与计算机通信。在计算机技术的支持下,在语言信息可以进行定量研究。同时,语言描述一起使用计算机和计算机之间可以提供(3]。通过构建知识库的人工智能推理、语义分析和智能推理完成,提供方便的访问和处理服务英语翻译课程。数字采矿过程中英语翻译课程的信息,我们需要理解翻译语义映射的定义,实现跨语言,相似度计算,数据挖掘的最终聚类算法(4]。因此,本文基于数字双技术,设计一个数字为英语翻译课程信息挖掘算法。通过集成的不确定性翻译和检索、跨语言信息检索之间的差距和单语信息检索可以缩小。为了确保语义的完整性和消除歧义在翻译的过程中,本文提供了一个参考的英语翻译教学。

2。英语翻译课程信息的数字挖掘算法基于数字双技术

2.1。从英文翻译文本中提取功能词

为了准确地获取所需的数据信息英文翻译,单词是首先提取文本特征。为了提取中文关键字,分词是第一步。分词是文本中的每个句子划分为命令词段根据既定的方式(5]。我们都知道,中文文本是由单词组成的。因此,词是中文文本的组件。分词是关键词提取的第一步。汉语和英语之间的区别是,在英语,单词之间有空格,而在中国,没有空间。尽管中国的句子包含标点符号,单词之间没有分离。中国可以由一个或更多的单词来表达不同的意思。词的划分取决于语言环境和语言知识积累在人们的日常生活。这是一个复杂的过程。不同的部门和不同的语言环境会导致不同的句子和单词的意思。 Because of this feature, Chinese word segmentation is more complicated than English word segmentation. This paper uses the thulac word segmentation software to segment and label the text. After word segmentation, the text will contain a large number of stop words. Stop words belong to redundant data in text analysis, which do not have the ability to express the theme of the article, and often have the characteristics of high frequency and meaninglessness [6]。通过删除这些话,可以减少关键词提取的干扰因素。在这个过程中,我们需要注意编码问题和确保TXT文本中的内容以utf - 8格式保存。关键字引用这句话,可以反映文章的总体内容或主题,他们往往代表。本文关键字作为目标特征的话,这可以有效地提高特征提取的影响。乘以这个词的频率和antidocument频率、重量值越大,越高的概率这个词作为特征的词。单词频率的计算公式如下:

在公式(1), 代表了词频,词在文档中出现的频率; 是文章中单词出现的次数; 是单词的总数。的频率antidocument反映了这个词的分类能力。计算公式如下:

在公式(2), antidocument的频率; 是文档的总数; 是包含这个词的文档的数量。通过分析信息内容的特点,我们可以看到,它的标题往往是非常普遍的。如果一个词出现在标题,它通常是更重要的比其他的单词。字的位置在一定程度上能体现词汇的重要性。通过分析关键词的一部分,发现关键字通常是名词或名词短语的构成,其次是动词,最后数字,副词和其他修饰符。因此,考虑词性特征可以有效地避免传统语言学方法的缺陷。基于词频和antidocument频率、位置特性和词性特征引入体重计算综合权重计算每个单词(7]。重量计算公式如下:

在公式(3), 代表了综合权重; 词频的重量; 代表antidocument频率重量; 表示位置的重量因素,根据分配的位置提取单词在文章中; 表示词性的重量因素,这是分配根据提取词的不同词性(8]。根据重量的顺序,确定文本功能的话,这对数字矿山奠定了基础。

2.2。跨语言映射基于数字双技术的英文翻译

句子加工的目的是确定相对应的内容立即原文单词翻译转换过程中集中在建立文本功能词。在我们的认知中,一个词在源语言的单词对应一个翻译语言,和机器翻译不能决定选择哪一个词作为输出,所以它将输出所有可能的选择。语言和程序不把语法规则和程序算法。英语翻译的过程基于数字双技术被认为是一个信息传递的过程,和信道模型是用来解释英语翻译9]。具体方法是把翻译作为解码过程和转换原文翻译通过模型。因此,翻译可分为下列问题:模型问题,培训问题,和解码问题。最重要的事情是解决问题找到目标语言的翻译概率最高的任何输入源语言句子(10]。英语翻译的跨语言映射基于数字双技术如图1

根据跨语言映射,在英语翻译必须解决三个关键问题:估计的概率语言模型,估计翻译概率,并找到一个快速和有效的搜索算法最大化产品上面的两个概率(11]。中译英时,良好的文本空间映射可以确保不会丢失信息,方便计算。在本文中,我们定义了三个代表跨语言的映射模型。具体的表达式如下:

在公式(4), 代表跨语言映射; 代表中国词汇; 代表词汇的英语翻译,一对多的关系与中国语言; 是跨语言的规则映射。从双语短语对提取,词对的概率估计,最大似然估计。公式如下:

在公式(5), 翻译短语配对概率; 代表汉语词汇; 代表英语翻译词汇; 最大似然估计; 极大似然估计量。通过跨语言映射模型,这句话是重新排序。自从之间存在一对多的映射关系中文和英文翻译,相应的映射关系建立与关键字索引根据不同类型的关键字。首先,创建一个空的元素集。通过编辑相应的关键字和条目对象的声明,所有的关键值对关键词添加到空集(12,13]。通常,关键字的值可以是空的,和相应的关键字的值可以根据后续添加条件。翻译信息数据保存时,输入的数据是保存在文本文件命名的关键词,所以它是更方便建立元素集合。总元素直接本地存储和读取到内存中,方便下一个步骤。挖掘的文本信息,好的文档映射表示良好的前提文本聚类(14]。基于建立跨语言映射数字双技术的英文翻译,文本信息进一步转化成文本向量评估文本向量的相似性和类别。

2.3。计算翻译词语的语义相似度

数据分析和数据挖掘的过程中,我们需要知道之间的差异信息,然后评估信息的相似性和类别。用定量方法量化的事物,我们必须使用定量的方法来描述事物之间的相似性。相似性是两件事之间亲密关系的指标。两件事,越接近越相似。相反,更遥远的两件事的意义,他们越不相似的(15]。目前,相似性度量方法的多样性和适应性,因此他们通常选择根据实际问题。常用的相似性度量方法如下:相关系数(测量变量)之间的距离和相似系数(测量样本间的距离)。如果样品给定性数据,然后测量样本之间的距离,用匹配系数和提供样品的一致性。词汇是描述和定义的含义,意思是义素的核心。因此,某种意义上是由计算的相似义素相似。所有的词的意义层次树结构表示根据上下文,所以原语的相似性可以计算原始树中的节点之间的关系(16]。一个字可以包含一个或多个感官,所以相似的单词可以直接转化成计算相似的感觉。首先,词汇是矢量化的文本。在某种程度上,词向量可以用来描述词语之间的语义距离(17]。一群好文本向量可以给更好的文本空间的映射,以便计算机可以计算更精确的结果。在本文中,我们使用CBOW模型实现向量化这个词。CBOW的想法是输入一个特定的词的上下文词向量,输出是这个词向量对应一个特定的词。目标函数是对数似然函数。计算公式如下:

在公式(6), 表示目标函数; 代表这个词在文本向量; 是文本向量; 代表了矩阵和向量。的输入层投影CBOW采用累积求和的方法,成功地省略了矩阵和向量的计算最初集中隐层和输出层之间的和将softmax规范化操作的输出层,所以最终的输出层变成了霍夫曼树并直接输出结果(18]。本文向量化后,矢量的语义相似度。有两种方法。一是组织相关词汇的概念在一个树结构通过网络或真实语义词典。另一种是使用统计模型来解决这个问题通过上下文信息。同时,我们认为词距离和相似度是不同的表达式相同关系的特性。余弦相似度是用来获取语义相似度。公式如下:

在公式(7), 代表词汇向量的余弦相似性; 词向量的总数; 表示两个词汇向量; 在向量元素的总量。通过计算相似翻译单词,翻译句子之间的匹配程度决定,以确保信息数字挖掘的分析效果。

2.4。设计的数字英语翻译课程信息的挖掘算法

后信息的定义和处理英语翻译课程的相关数据,数据分组条件和相关维度定义。然后,数字挖掘算法的目的是提取有价值的和有意义的信息。关联规则有两个重要的属性,从而使关联规则,支持和信心19]。支持用于确定一个给定的频率词汇表的数据集。信心是用于确定一组词项的发生的频率在一组包含另一个。首先,给出最小支持和最低可靠性确定关联规则。词项集有一个重要的性质,也就是说,包含一组特定的事务数量的项目,被称为支持计数。数学上,支持计数的词项集可以由以下公式表示:

在公式(8), 代表词项集的支持; 表示词项组; 代表先行词的规则集; 代表规则的子集。因为英语翻译信息包含复杂的数据,只有项目集是不足以表达,所以有必要定义序列。一组序列与一个元组的集合ID。项目在项目集中最多只能出现一次,但他们可以出现在不同的序列。如果序列 的一个子集序列吗 ,然后的支持 的数量是 元组,可以当上下文是清楚的。给定一个正整数的最小支持度阈值,当大于或等于阈值的支持,它被认为是频繁的,这被称为序列模式(20.]。因为频繁模式挖掘会产生大量的模式和规则,这阻碍了采矿工作,本文设计了序列模式挖掘算法,提高算法的效率。在本文中,我们使用后缀序列前缀序列构造频繁序列,下面详细解释。首先,扫描数据库的频繁序列模式1的长度,并形成相应的前缀组子集。可以获得此类子集通过构造相应的投影数据库和挖掘每个序列模式的子集递归(21,22]。以序列模式前缀< p >为例,投影数据库收集的所有子序列与< p >前缀。例如,序列中的< p (pqr) (rw) >, < (pqr) (rw) >是计算(_)在< (_)r (pt) > p表示前缀但在项目集匹配。投影数据库的< p > < (pqr) (rw) >, < (_) r (pt) >,和< (_w) q >。同样,通过扫描投影< p >的数据库,所有序列模式与前缀长度N < p >将发现,(<公关>:N)。同样,序列模式前缀与<公关> < (_w) >和< (pf) >,并执行相同的操作其他频繁序列模式的长度是1。这样,我们继续探索递归,最后找出所有频繁序列模式,如表所示1

在此设置中,频繁序列可以保证单调。最特别的模式序列检索所有的基础模式序列。通过这种方式,挖掘序列模式的问题减少到只有找到最特别的模式序列,可以显著降低采矿的复杂性。到目前为止,英语翻译课程信息的数字挖掘算法基于数字双技术设计。

3所示。实例分析

3.1。数据准备

这个案例研究需要英文翻译文本为研究对象,挖掘分析。这些数据的首要任务是实现规范化和标准化的数据信息并应用到Hadoop平台进行处理。首先,我们需要对复杂的数据集进行预处理和标准化的和明确的数据信息通过数据过滤和清洁,以便获得隐藏的和有意义的相关信息从大量的课程信息。在这个案例研究中,我们收集了在中文和英文双语新闻文本数据通过爬虫从香港新闻网站,包括标题和文本内容。原始网页主题爬虫获取的信息是保存在本地磁盘。通过观察其Web数据的内容和组成,根据以下内容进行提取标记。正则表达式是用来提取文本信息在特定的标签。中国英语新闻文本数据集作为实验数据。除了285单文档没有比较,总共有4082个双语文档,包括金融、城市生活和环境。当地的汉语词汇的词汇表数据库比较丰富。 The original web page is analyzed, and the method of extracting content based on specific tags is formulated to extract and integrate the English vocabulary, so as to make the visualization results more neat. The results of the whole process provide a good database for the digital mining of text vocabulary. The test data is provided by the original dataset and the expanded dataset. The original dataset contains 10-20 item sets. Each phase set consists of random numbers between 1000 and 15000. The expanded datasets are 2-5 times of the original datasets. The original dataset and the expanded dataset are marked as U0-U4, respectively. Frequent patterns in digital mining algorithms become increasingly complex as the amount of data grows. The more complex the frequent patterns, the longer the execution time, so the amount of data is a key factor affecting the processing time. The research goal of this paper is to reduce the execution time of the digital mining algorithm, so in order to test whether this method achieves the research goal, set different size datasets to compare the execution time of this method and other algorithms.

3.2。结果分析

本文比较了数字挖掘算法基于数字双技术与数字挖掘算法基于先验的和地图减少并通过数据验证了该算法的应用效果。U0-U4选择不同大小的数据集作为测试数据集。上述三种算法在不同的数据集,依次执行。在算法的主要功能,我们调用currentTimeMillis方法获取系统时间之前和之后的执行算法和记录两个时间差异的总执行时间的算法。测试结果如图2

根据图的结果2当测试集原始数据集情况,数据规模小,三种算法的执行时间接近。当测试集扩展数据集U1,数据扩展到原始数据的两倍大小,和三个算法的执行时间开始落后。当测试集U2-U4扩展数据集,数据是原始数据规模扩大到3 - 5倍。与数据集大小的增加,三种算法的执行时间差距增加。数字挖掘算法的执行时间明显短于基于数字双技术基于先验的和地图减少。这是因为本文中的算法设计优化在频繁模式挖掘的项目集。通过构造频繁项目序列集,提高查询速度和执行时间缩短。因此,算法的性能优于两个比较算法在处理相同的数据集的大小。因此,该算法设计可以减少算法的时间复杂度,充分发挥数字矿山的优势。

新闻文本扩展测试集的数据与数据挖掘的三个算法测试三个挖掘算法的准确性。测试结果如图3

根据图的结果3,从原始数据集和最小的数据大小情况,其他两种方法的准确性达到90%以上。随着数据扩张规模的增加,三种算法的执行精度下降,但数字挖掘算法的执行精度基于数字双技术保持基本稳定,几乎没有下降,而其他两个算法的准确性大大降低。最后,数字挖掘算法基于数字双技术设计的准确率在80%以上,明显高于基于先验的和地图减少。这是因为该算法使用数字双技术建立一个跨语言文本映射模型,计算文本的语义相似度,法官翻译匹配的程度,确保最大的文本翻译信件,和缩小之间的差距跨语言信息检索和单语信息检索;尽量消除了歧义的语义描述,所以挖掘数据更准确。

4所示。结论

本文设计了一种数字挖掘算法基于数字双技术英语翻译课程信息。实例分析表明,该算法可以有效的降低时间复杂度,执行时间,和挖掘精度仍然高于80%,这在处理大量数据有一定的优势。功能词的提取和重量计算,本文只使用单词的反向频率方法计算文本特征的重量的话,不考虑词语之间的语义关联。此外,虽然该方法大大降低了数字挖掘算法的执行时间,仍有改善的空间挖掘精度。未来的研究可以使用分析方法充分提取和获取功能词的权重,使用双语语义聚类方法来获得更多的信息来提高算法的精度。

数据可用性

和/或使用的数据集分析在当前研究可从相应的作者以合理的要求。

的利益冲突

这是本文作者宣称是免费的利益冲突。