文摘

为了提高相互的影响中国和韩国文学的翻译,本文结合了语义分析技术来分析中国和韩国的相互翻译文学。此外,本文还探讨了中国和韩国的文学分析相互翻译通过智能语义分析方法,分析了紧密连接网络的理论基础基于语义分析和验证方法紧密连接网络和多层的注意。最后,本文实现了紧密连接BiLSTM结构和语义匹配验证通过添加一个多层的注意机制网络更好地与句子来获取句子的语义关系。仿真分析表明,中国和韩国文学相互翻译系统基于语义分析本文提出良好的翻译效果,可以有效地促进中朝文学交流。

1。介绍

自中国和韩国建立外交关系,两国之间的交流与合作领域的政治、经济、贸易、外交和文化一直在加深。中国和韩国都深受儒家文化遗产和共享许多相似之处,也有许多类似的规则和技术在中国和韩国的翻译实践。

传统翻译研究重点单词和句子的比较原文和译文之间太多注意形态和句法方面的分析,未能处理文本大于句子的翻译和转换,这是文本翻译问题。然而,文本语言学的建立和发展对翻译研究产生巨大影响。翻译的过程是指将一个国家的语言和人物的意义到另一个国家的语言和文字,以便读者能准确理解原作的内涵。翻译注重“忠诚、口才和优雅”,其中,“忠实”是翻译的最关键部分。应遵循三个原则在翻译中国和韩国的作品。一个人必须忠实于原文。具体地说,它是准确翻译的事情,现象,真理,和作者的思想和情感描述的原创作品。第二,语言应该流利和清晰,避免死板的翻译;否则,它将导致混乱的意思翻译,不会一帆风顺。三是尽可能地保持原来的风格。 Therefore, in the process of translation, translators must consider many factors, not only to understand the literal meaning of words, but also to consider the cultural environment and situation in which the text information is located.

在引入西方文体理论进入中国之前,中国人民“风格”的理解是相对简单的。风格主要是指“散文流派”(四分位数:诗歌、小说、戏剧和散文)。与此同时,它也指的是一个相对稳定的和独特的作品风格不同的系统和风格,这是一种文学体裁本身的规定。在1980年代中期之后,西方文体理论被引进到中国,和外语学者常用文体,风格,和注册为同义概念。的三个含义“流派”、“规范”和“风格”包含在韩国词的风格集中在“风格”这个词。这样,“温风格”一词的含义在中国有了很多。目前,在现代文学理论中,风格通常有三个层次的含义:一个是类型的工作;另一个是语言形式的工作;第三是作家的风格或流派的特点。

近年来,“风格”一词已成为一样的关键概念,如“结构”和“形式”,有各种各样的含义:有时候指的是风格,文体规范,写作风格。文学风格是一个系统,建立了根据一定的规则和灵活性一定集体审美情趣,和它的生成和演化的审美选择和社会心态,直接点。从表面上看,风格是语言秩序和风格的工作;从深层角度来看,风格也有社会的文化精神和作者的人格内涵与社会和文化精神。一般来说,文体学翻译研究是一个极为重要的方面,尤其是文体学的发展促进了文学翻译研究的发展基于文体学。当讨论小说文学文体学和翻译之间的关系,它被认为是复杂的。但不幸的是,真正的文体学和翻译研究只会逐渐出现在1980年代早期,且仅在中国和韩国语言的比较研究领域,相关的研究成果还很少见。

本研究分析了中国和韩国的相互翻译文学结合语义分析技术,探讨了中国和韩国的文学分析相互翻译通过智能语义分析方法,并提高中国和韩国文学相互翻译的影响。

基于字符匹配的相似性计算方法确定两个文本的相似程度,相似的因素,如词性和桌子的表面形式的文本(1]。文献[2)使用最小编辑距离来衡量文本的相似度。文献[3)使用Jaccard距离来表示出现的次数k单词在文本和的比例相应的单词在文本中。文本之间的相似程度,,k的大小吗n克(n克)窗口使用。文本相似度计算的方法不能达到简单的字符串匹配的程度。由于中国的多样和复杂的语义表示,基于表面的相似性计算字符串不能解决实际问题。有必要实现文本基于语义相似度的水平。匹配涉及语义的矿业和如何表示的问题4]。现有算法主要考虑两个方向的统计方法和语义规则。文本相似度算法用于统计自然语言处理;这种相似性算法完全依赖于语料库和计算文本的相似度根据关键词的词频的文本(5]。在乐此不疲的文本相似度算法可以分为三种模式根据不同形式的构造向量:向量空间模型中,主题模型,神经网络模型。向量空间模型(VSM)代表了文本作为一个独立的特性向量组(p1,p2、……pn)和分配特定的权重根据它对文本中的语义的影响的重要性。和权向量组结合到一个文本向量空间的对应坐标的值,和文本相似度计算通过计算两个向量之间的矢量角(6]。VSM需要大规模的高质量完成语料库,但不可能涵盖所有全集在现实中,所以会有一个高维矩阵稀疏的问题(7]。

主题模型认为,每个文本都有自己的话题,这个话题是核心关键字和文本之间的联系,和主题可以代表文本的潜在语义信息,所以这两个文本的相似度不仅取决于表面的词频文本。词形式和其他信息,挖掘隐藏的语义关联的文本是关键8]。拟议的LSA(潜在语义分析)模型组织和总结了在大规模语料库,产生一个矩阵组成的条款和文件,并使用奇异值分解为减少文本过滤掉无用的奇异值。噪音可以解决高维稀疏的问题,然后再转换到低维空间的向量距离来表示文本相似度(9]。另一个常见的话题模型,LDA(潜在狄利克雷分布)模型,主要模型离散数据主题信息和可以识别主题信息语料库和大规模文本集。LDA计算概率分布的主题挖掘文本的代表词,和获得的文本文本相似度计算相应的主题概率分布,这使得LDA只适合长文本的文本相似度计算。代表单词的数量小,LDA不能达到良好的预期结果在主题挖掘的短的文本(10]。文献[11)使用隐式狄利克雷分布建立文本的主题空间的提高矢量化表示文本。隐式狄利克雷分布模型文档的主题和保留文本的主题信息,可以代表文本的语义。它有一个良好的效果在处理大型文档集。随着深度学习的发展方法和近年来大幅提高计算机的计算性能,神经网络模型在文本相似度计算中也得到了广泛的关注。基于语言规则的文本相似度算法主要采用人工构造的语义知识库来计算文本相似度。不同的语义知识库可以使用不同的组织形式的概念词的功能项进行相似度计算。各种组织形式包括hyponymous概念之间的关系,同义、反义的关系,每个的树状层次结构的概念。元素(如节点之间的路径长度、网络密度、树中的一个节点的深度图,一个节点包含的信息量,等等)(12]。

无监督学习从无标号数据哈希函数,散列算法的目标是保持学习哈希码尽可能接近原始数据(13]。Locality-sensitive散列(激光冲徊化)14)将原始数据映射到一个紧凑的散列码,选择一个哈希函数,以满足位置敏感性,这大大减少了数据的维数,并计算之间的距离紧凑的哈希码。加快查询,查询的示例。散列算法基于图结构(15)学习合适的散列码通过发现固有的社区结构。为了加快计算、锚图是用于获得一个容易处理的低秩邻接矩阵,最后多个哈希码。迭代量化算法(ITQ) (16)首先从高维数据中提取特征向量,保留之前的特征向量特征值,然后将这些dimensionality-reduced特征向量映射到超立方体的顶点和最小化误差的映射,通过重复上面的操作执行散列学习。

3所示。语义分析技术的算法

为了提高语义匹配的准确性,文学翻译文本数据形成根据文学翻译,和数据处理。

文学翻译术语是一种特殊的语言系统。在整理数据之前,有必要分析文学翻译的特点,以澄清的特征数据,以便做出准确的判断数据的处理方法。在文学翻译的过程中,中国和韩国的语言需要按照严格的标准执行。此外,两党必须确保准确和明确的语言,不能使用同义词代替标准词汇表。根据文学翻译的标准,所有关键指令需要阅读在文学翻译的过程中,不正确的和不完整的阅读将翻译结果产生影响。

文学内容的文本数据转换后,需要组织和标签的文本数据。根据文学翻译标准,文学翻译的内容主要包括三种类型的对话:command-recitation, command-response和请求-响应。recitation-type对话中的错误可以分为彩排中的错误信息和缺乏背诵的内容,和错误的问答对话可分为不规则的语言和不完整的答案。其中,失踪的习题课和不完整的答案属于信息缺失的问题,所以它们是统一标记为不完整的内容。最后,文学翻译数据分为四个部分,这是贴上正确的,错误的习题课,不规则的术语,内容不完整。每个类型的数据的标签规格如下(17]:

3.1。正确的

数据的指令是一致的响应消息和措辞符合标准的标记为正确的。

3.2。背诵错误

与回读信息不一致的数据标记为回读错误,如高度的回读错误,标题,呼号,跑道数量。

3.3。不规则的术语

不规则单词的使用导致模棱两可的信息,或包含的响应内容无关的指令,这些数据被标记为不规则的词语。

3.4。不完整的内容

它指的是不完整的响应内容所需的指令,和这种类型的数据被标记为不完整。

根据标签规范、双标记方法用于数据标签。如果两个标签的结果是相同的,它被认为是有效的,带安全标签的数据都存储在数据库中。如果两个标签的结果是不同的,它将由专业的空中交通管制员判断来确定标签类型,以确保数据的准确性标签。

标记完成后,每个样本数据集包含的指令句子,背诵句子,和标签。标签所代表的数字,0,1,2和3显示标签的含义是正确的,错误的习题课,内容不完整,分别和不规则的。

深层网络是自然语言处理的一个重要分析方法。此外,深层网络有更好的能力来捕获语义匹配和不匹配的关系,但随着网络层数的增加,参数过剩和过度拟合的问题也将随之而来。通过深层网络的研究,因此,本章提出了利用多层密集连接网络和多层关注实现文学翻译的语义分析。如图1,网络由四个部分组成。首先,句子向量表示获得的输入映射层。然后,序列是语义提取使用密集连接网络,和一个注意力机制被添加到网络互动使句子。最后,获得语义向量进行操作,比如池,和一个完全连接的网络是用来实现语义匹配的验证。

引入丰富的信息在输入能促进随后的语义分析,并使用组合词的句子表示的向量和特征信号。通过输入层,矢量表示 指令的句子和向量表示 回答的句子。其中, 表示的向量表示j单词教学, 表示的向量表示jth单词回复,n代表句子长度的指令和应答,分别为(18]。

的叠加多层RNN网络是使用前一层的输出序列作为输入的下一层,这将导致梯度爆炸和梯度消失的问题,使多层网络难以火车。然而,密集的连接方法可以获得更好的通过重用的特性表示的语义信息。自从BiLSTM适合加工序列,一个多层BiLSTM结构用于密集的网络层,和语义编码序列的拼接。网络结构如图2

使用密集连接网络不仅阻碍信息的传播,而且还保留了原始信息,这第一层的输出值也可以有效地传输到最后一层,避免了梯度消失等问题。网络中隐藏的状态显示在公式(1)和(2): 在哪里HBiLSTM结构和吗 代表网络的层数。后获得的序列输入层由致密的网络编码,语义向量 的指令和语义向量 可以得到的答复。

为了获取句子的语义匹配特性,注意机制是添加到模型中,注意机制的计算方法见公式(3)- (5)[19]: 在哪里F(·)代表了前馈神经网络 代表了每个单词的相对权重矩阵。

使用两种连接方法的关注机制。第一个是连接一层的注意,这是句子向量提取通过密集的连接网络中提取语义特征,然后由密集的特征向量输出连接网络是用来计算体重的关注。最后,计算结果是拼接紧密连接网络的输出向量。

第二种方法是将多层的关注在人口连接网络。拼接的方法是注意体重的输出值BiLSTM后每个单词的重量分布相反的句子是通过关注计算获得的。此外,它需要包含匹配关系的语义向量作为输入的下一层。添加关注机制之后,紧密连接网络的隐层所示公式(6)和(7)[20.]: 在哪里H是BiLSTM结构,l是网络的层数, 是第一层的输入序列在时间吗t。这时,输入的l层在时间序列t是通过拼接三个部分, 代表输入、输出和注意力上一层的重量在同一时间。

自紧密连接网络将导致过度的问题参数随着网络的深化,这将导致过度的压力最终完全连接层。因此,添加一个年底auto-encoder网络压缩尺寸可以压缩密集连接网络,获得的巨大的向量表示,同时保持原始信息。添加多层注意力和维压缩后的网络结构层如图3

语义特征分析层是处理和分析前一层的输出,提取语义匹配特性,并获得语义匹配的验证向量。方法采用模型执行最大池和平均池操作语义向量获得的上一层。然后,它使用一个协会战略后池,以确保获得的向量特征信息可以保存的完整性而改变的特性。语义特征分析的结构层如图4

首先,语义向量hch处理的指令和响应的平均池和最大池。计算方法如公式所示(8)- (13):

汇集语义特征向量表示的命令和可以得到回答 ,分别。为了确保特征信息的完整性和转换功能明确,协会的一个策略是用于表示特征语义,这是矢量拼接的结果,参数,参数和减法拼接在一起。计算方法如下公式所示:

语义匹配验证层的任务是判断语义匹配结果的说明和响应。在模型中,一个两层的完全连接神经网络用于完整的语义匹配验证工作。目的是为了输入匹配向量 我到隐藏层进一步指令之间的匹配信息和回复获得深度匹配特性。首先,语义匹配特性计算通过一个两层的完全连接网络。计算方法如下公式所示: 在哪里 代表权重矩阵的完全的隐藏层和输出层连接的神经网络,分别。 代表的偏见隐藏层和输出层,分别α代表了激活功能,ReLU函数。

匹配得分是通过将softmax函数归一化得到一个概率向量,输入样本的概率确定的模型属于每个数据类别。计算方法如下公式所示: 在哪里 代表了样本的概率是歧视属于一类N(= 1,2,3,4)。

在模型训练过程中,每个训练实例是一个样本,也就是说,一组对话组成的指令和响应。熵函数选为优化目标的模型训练。通过反向传播梯度下降算法,通过多次迭代调整网络的参数,所以熵函数的值最小化。熵函数如下公式所示: 在哪里 代表真正的标签th输入样本和p()代表预测的标签。

在模型训练过程中,使用优化算法是亚当,因为它具有效率高、简单的参数调整,和有伟大的优势相对于其他类型的随机优化算法。亚当算法能够适应不稳定计算一阶矩估计和目标函数的二阶矩估计的梯度,并可以为不同的参数设计独立的自适应学习速率。亚当算法的优点结合均方根传播算法和自适应梯度算法,也可以解决梯度系数和噪声问题。

为了评估模型分类的结果,测试精度均匀作为评价指标。计算方法如下公式所示: 在哪里N代表在测试集样本的总数,和 代表的样品在测试样本数量的语义歧视结果符合真实的标签。

4所示。中国和韩国文学的相互翻译的分析系统基于语义分析

根据平台的需求,本文设计了一种新的翻译业务管理平台的技术架构基于SOA概念,如图5

根据平台的需要,一些功能发布为web服务,以便扩张和调用外部系统。一些方法函数声明为在特定类web服务和web方法和包装的形式发表在web服务,如图6

构建一个平衡的数据集的基础上,介绍了集成学习的方法。综合考虑多个基本分类器的分类结果,负类样本的分类精度不降低尽可能同时确保积极类样本的分类精度。这个词识别模型如图7

总体架构设计图如图8

第一部分:1。词库加载:当字典开始,系统将查询本地词库是否存在,如果数据库启动的第一次,同义词典文件将被加载。2。进入系统界面:如果不是第一次启动和数据库加载词典文件,直接跳过同义词典的加载过程和启动程序界面。第二部分:在进入程序功能界面,系统的主要功能是词查询:系统本地词查询功能如下:(1)输入单词或短语。(2)这个词查询系统自动搜索和比较输入内容与本地词库和显示下拉列表中相关匹配的单词。(3)它将显示查询结果。在点击这个词翻译成下拉列表,程序进入结果显示界面并显示这个词的词性和定义存储在本地。

上述构造了一个基于语义分析朝鲜族文学翻译系统。接下来,本研究评估系统的影响,分析了影响中国和韩国共同翻译的文学作品,通过MATLAB仿真平台,模拟它,得到结果如表所示1和图9

从上面的分析,可以看出,朝鲜族文学相互翻译系统基于语义分析本文提出良好的翻译效果,可以有效地促进中朝文学交流。

5。结论

当代语言学与翻译研究人员已经突破了传统的翻译研究方法使用单词分析词汇和句子的句子,然后扩大翻译单元的话语水平。翻译研究不再局限于研究的源语言和目标语言句子,但视野扩大到语境和语言的交际功能。例如,话语分析将文本视为交际活动而不是一套刻板的文本结构,而语用学研究语言的使用,而不是语言作为一个抽象的系统。可以看出,语言的交流和上下文进行话语分析与翻译密切相关。知识和语篇分析的研究不仅可以帮助我们正确理解原文,但也为选择合适的翻译提供了理论依据。本研究结合语义分析技术来分析中国和韩国的相互翻译文学和探索分析中国和韩国文学相互翻译通过智能语义分析方法。仿真分析结果表明,朝鲜族文学相互翻译系统基于语义分析本文提出良好的翻译效果,可以有效地促进朝鲜族文学交流。

数据可用性

标签数据集用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

本研究由建国大学赞助。