文摘
短语识别机器翻译在医学英语中起着重要的作用。然而,医学英语的短语是复杂的内部结构和语义关系,阻碍了识别的机器翻译的准确性,从而影响翻译结果。,目的是突破的瓶颈机器翻译在医学领域,本文设计了一种基于优化的广义似然比机器翻译模型(GLR)算法。具体地说,问题的模型建立了一个250000个英语医学词语料库和280000年中国话说,应用符号映射函数的识别词的词性,并采用multioutput分析表结构的句法功能的结构歧义识别正确的词性,最终获得最终的识别结果。根据全面验证,雇佣的翻译模型优化GLR算法提高速度,准确性,机器翻译和更新性能,被认为是更适合机器翻译在医学领域,因此提供一个新的视角的就业医疗机器翻译。
1。介绍
肆虐的世界各地的新型冠状病毒的影响,医学英语翻译已经成为一个活跃和重要的交流媒介在对抗流行的国家之一。近年来,机器翻译应用程序的数量已经见证了繁荣因为教育和科技发展最快的速度,我们所见过的1]。然而,这些应用主要集中在文化交流等领域的翻译,经济,政治和学术文献。少看到是注意的特殊领域,例如,医学英语翻译的问题。此外,现有的机器翻译技术表现出一些缺点当应用于医学领域的翻译。例如,医学术语代表类别和概念,在这些短语的语义关系复杂,目前机器翻译的短语识别问题。因此,识别在机器翻译的准确性不能满足医学翻译的标准。我们都知道,短语识别在机器翻译中扮演着关键角色。值得注意的是,当前的英汉机器翻译的困难之一是短语模棱两可的决议(2]。此外,医学术语通常显示一个高程度的模糊性在英语和汉语的语言,这使得机器翻译极其复杂的语法分析。但这模棱两可,在很大程度上,只能通过短语识别需要解决,因此,机器翻译从短语识别是分不开的。沿着这条线的考虑,影响机器翻译的质量的核心问题是机器的性能来处理歧义基于雇佣合适的短语识别。具体而言,结构歧义是最复杂的,和以前的研究人员研究了这一现象从多个角度和短语识别提出了各种方法和消歧3]。
Joty et al。4)基于规则的算法应用于短语识别通过调用规则问题获得正确的标签,试图建立一套完整、准确的标识规则。该算法可以准确地描述某些词性搭配之间的现象。然而,这不是视为一个令人满意的解决方案的结构歧义短语因为规则的语言覆盖范围有限,巨大的规则库的编译和维护是压倒性的,和优先规则之间的冲突并不容易解决。
Banik et al。5统计算法用于短语识别。收集语言描述的算法通过统计方法训练语料库中的信息。具体而言,语言的信息在统计算法作为自动“总结”的语言现象,是应用于测试语料库获取正确的词性标注(6- - - - - -9]。显然,该算法考虑了词类之间的依赖从宏观的角度来看,这是覆盖大多数语言现象,因此拥有一个总体精度高和稳定性。比较,统计算法的精度描述的现象确定词性搭配不如基于规则的算法。
混合算法还采用短语识别的研究人员。混合法,顾名思义,是指基于规则的算法和统计算法的结合。即它的词性标注模型的两种算法相结合,被认为是最有效的标记方法基于统计算法标记模式通过基于规则的算法。然而,混合算法仍然不能在很大程度上解决结构歧义。总之,在这些短语自动识别算法,一些结构非常简单的人工翻译不可能准确地确定。
检查上面的文献后,不难发现智能识别短语识别和总结的短语句子,来纪念他们的词性和语法,并自动对语料库,结合并将其最终获得相应的翻译结果。显然,现在,有很多英语翻译模型的设计,其中大多数是设计基于词义消歧和语义角色标注。在某种程度上,他们可以一定程度上满足用户的需求。然而,医学翻译不同于其他一般的翻译活动。它具有较高的准确性和专业性的要求。因此,常见的词性识别技术很难满足医学英语翻译的要求。
如前述章节中所述,智能短语识别被认为是医学英语翻译的核心,因为它可以促进翻译样本的选择和精确对齐的平行语料库。此外,使用短语智能识别技术可以有效地消除结构歧义。沿着这条线的考虑,本文利用机器翻译模型的基础上,优化的似然比(GLR)算法(10]。具体而言,问题的算法构建了一个医学词语料库大约250000英语和280000中国文字标记,使短语搜索。这些短语,如词汇,具有分类等功能,形态、语义和其他特征。实际上,这些特性主要是由中央反映词的短语。因此,词性识别结果是获得而认识到短的句法结构,在词性和英汉歧义的结构鉴定是依法纠正语法解析线性表的函数。最后,获得了公认的内容和实际翻译的短语的位置决定。因此,基于模型的一个优化GLR被假定为减轻结构歧义在当前医学翻译在一定程度上,提高短语识别的准确性。
2。基于优化的GLR智能模式
2.1。建设智能医学英语翻译模型
机器翻译模型基于双语语料库使其通过识别短语翻译更准确,从而造成更多的帮助翻译。因此,语料库,尤其是双语语料库,日益得到关注和应用程序在当前的智能翻译模型。具体而言,准确地标记英汉双语语料库并将其存储在语料库,在很大程度上,提高准确性和效率的短语识别算法在机器翻译的过程中,这将作为一个有效的辅助工具翻译提高翻译质量和效率(11- - - - - -13]。语料库,然而,是一个multiangle、多层次和多畴的研究工具的分类复杂,似乎仍是一个悬而未决的问题。尽管如此,医疗短语英汉双语语料库是同质的,也就是说,它只收集相同类型的内容。因此,这种类型的语料库更准确和专业应用于机器翻译在特定的领域,与此同时,在语义歧义识别的概率也会减少。
值得注意的是,以下三个方面被认为是在英汉双语医疗语料库的建设问题。首先是语料库的领域。医学领域被认为是一个重要的机器翻译应用程序之一。沟通在医学,正如我们所知,通常在医院进行,公司和个人使用不同的语言,特别是英语和其他语言。因此,一个特定的机器翻译需求无法避免在这样一个信息爆炸的时代。从语言学的角度来看,医学英语是独特的文体特征,即。,obvious syntactic and morphological features, such as rich terminology, rigorous long sentence structure, and standardized wording. Moreover, its written medical tests are stylized. Thus, these features make it more suitable for the research and application of machine translation. Second are the size, the genre, and the style of the corpus. Due to the limited time and manpower, the scale of the English-Chinese bilingual medical phrase corpus in this paper was positioned at 15,000 sentence pairs, with the genre of the corpus being medical language and with the style being written and spoken language. Third is the collection and the sorting of corpus. The collection and arrangement of corpus was composed of five processes: corpus collection, clauses, English-Chinese alignment, deduplication, and proofreading, separately. To be specific, the source of the corpus was from publicly issued books and electronic journals, and the corpus itself was in terms of sentence-level parallel. Moreover, the original corpus collected initially was paragraphs, and then, the phrases of which were divided into sentences. The division of sentences, however, was mainly in terms of English ones. Furthermore, in the English-Chinese alignment stage, Chinese sentences were matched to their English counterparts, and after the alignment of English and Chinese, the duplicates were removed. Therefore, there were no repeated English sentences in the corpus. Furthermore, the final process was proofreading, while other aspects remained the original appearance of the corpus. Thus, the authenticity of the corpus was assured.
因此,医学翻译模型的短语语料库构建本文包含250000个英语单词和280000中国同行,可以满足建设的需要10000 5000句子和短语。如表所示1,医学词语料库是均匀,主要集中在医疗专业术语,可以翻译英语和汉语之间在各种医学等领域临床、制药、和成像。具体而言,英语短语语料库和中国分别标记,同时区分不同的时态词语料库。显然,语料库处理方法是由三部分组成:数据级别,和处理模式,分别。具体来说,数据的类型是文本格式,词性和对齐。此外,人类和机器之间的直接交互采用的处理方法,进行一系列的操作的翻译和促进短语翻译语料库的真实性和准确性。特定的语料库信息如表所示1。
2.2。模型中采用优化算法
如前述章节中所述,短语级语法分析是机器翻译的智能识别算法的核心,而词性的GLR算法是一种常用的算法识别(14]。具体而言,该算法是通过分析确定上下文无关语言的“行动”和“goto表。“此外,每个表条目包含多个变化或减少操作中的每个条目,每个堆栈的出口存在的国家象征。然而,当进步和法律之间有歧义,GLR算法将应用图结构分析堆栈,堆栈技术复制允许每个分析堆栈分析表中完成一个动作,同时保留多个可能性来生成多个识别结果。然后,一个独立的分析是进行这些识别结果。特别是,当一个错误发生在栈的一个分析,这种分析堆栈被丢弃和其他分析结果输出(15,16]。
因此,当一个机器翻译模型使用GLR算法应用在医学翻译,下面会出现问题。首先,识别结果的数量由GLR算法是不确定的,并会有重叠的数据识别结果,影响识别结果的准确性,从而阻碍了翻译的质量。第二,在GLR算法的结果,每个块都没有见过彼此兼容,也就是说,短语,词汇的不同,没有语义,形态,和子类别特征。最后,语法结构的中心词中没有指定GLR算法的结果。
为了避免上述问题,本文使用GLR算法,扩展和优化。具体来说,该算法在问题系统中采用上下文无关语法形式和扩大了开始的象征和生产配方 。此外,它通过短语,短语的结构分析,有效地减少了重叠的数据点的概率。其算法的形式是一个四元数,如图所示
在方程(1),代表一个非终结符号集,这是一个非空的有限集合;代表一组终端符号,同样一个非空的有限,和元素和没有重叠。站开始符号集,一个元素 ,和一个语法识别短语符号集。代表作品的集合。假设在任何行动和 ,生产(2)可以得到:
在方程(2), , , ,和代表正确的符号串,中心象征,约束条件,分别和目标行动的转换模式。其中,和属于两个和 ,和可能属于和 。改进的GLR算法规定的最高象征的线性表识别结果是一致的 ,的约束条件应该是真的,和中心的象征吗应该是一个数值,而不是null值。只有满足上述三个标准的识别结果词性短语识别的结果。
2.3。算法设计的过程模型
在当前英汉机器翻译算法,语料库这个词的词性识别结果输出通常是作为翻译的最终结果,主要依靠的词性分析语料库。然而,识别问题没有改善英语和汉语之间的结构歧义的语言,因此,它阻碍了翻译结果的准确性。因此,很难满足医学英语翻译的高精度和高精度的要求。
沿着这条线的考虑,正确识别的结果至关重要,在机器翻译的过程17- - - - - -19]。因此,本文进一步考虑校正结果的识别和确定词的行为通过分析线性表的过程中执行词性分析与优化GLR算法。此外,错误的识别是通过分析等指针进步,规范,验收,终止,错误,校正由于分析线性表也拥有句法识别的功能。终于要纠正这些错误通过搜索短语语料库的标注内容。详细的短语校正算法流程如图1。
在图1,有6行动参与整个算法,即进步,法令,接受,终结者,错误,和修正。此外,进步和法律之间的关系可以明显观察到的相似和本质区别。一方面,相似的是,这两个函数是类似这两个替代的位置分析线性表中的终结者。另一方面,它们之间的区别是,发展指给堆栈和当前状态和符号分析指针向下移动。然而,法规指利用规则的约束条件函数检查条件。如果条件满足,每个节点将出现从符号栈形成一个非终结符语法结构树。同时,中心词的识别指针是指向相应的中央,最终生成翻译当前的非终结符字符按照翻译模式。相反,如果条件不满足,终结者指针直接放置。具体来说,《终结者》更换意味着如果终结者指针没有放置,当前系统终结者是映射到分析表终结者通过符号映射函数;如果终止指针进入,当前系统终结者直接映射到分析表终结者。
应该指出,在《终结者》替换指针的类型是需要确定的优化和扩展GLR算法。具体而言,假设这是一个法律的指针,然后约束函数的指针是否属于这个词语料库应该检查;如果没有,直接被终止指针。终结者一般出现在备份点和结构歧义。因此,查询时,短语结构树将形成,和中央符号将检查它是否被正确的句子结构。如果它是不正确的,那么问题的算法将打电话给错误指针指向正确的词性的识别结果。如图,有多个短语识别输出整个调整过程的算法,和一个接受指针只输出一个识别结果。然而,当同时出现多个识别结果,校正过程会将它们写入到相同的短语结构树的节点,然后接收指针就会自动把它当作一个识别结果。
3所示。模型设计验证
为了检测的实际影响医学英汉翻译模型的基础上,优化GLR算法,相关的评估进行了研究。此外,评价的主要性能指标包括翻译结果的准确性,翻译速度,分别和更新能力,。具体来说,实验的评估小组由5英汉翻译机,5专业医学翻译,专业的得分手。其中,5英汉翻译机器选择基于规则的算法,统计算法,混合算法,GLR算法和优化GLR算法,分别。此外,5个专业医学翻译拥有超过10年的经验在医学翻译和一起工作作为一个团队,谈判,并形成唯一版本的测试材料。
在我们的论文中,5英汉机器翻译翻译指定70医学术语和70随机选择医学英语句子在评估过程。同样,专业医学翻译翻译相同的70短语和70随机选择句子。然后,得分将得分机器翻译的结果,分别按照一定的规则。具体来说,分数会根据这些规则翻译准确性,翻译速度,和更新性能。具体地说,翻译准确度得分是基于翻译的清晰度和准确性,总分是100分。此外,翻译速度是基于总识别时间乘以重量,然后,总和除以短语识别的数量。然而,更新功能依赖于总更新时间乘以重量,然后,总和除以短语识别的数量。此外,每个的重量分数是0.6的翻译的准确性,翻译的速度是0.2,0.2的更新性能。
4所示。结果与讨论
从图中的结果2,机器翻译的基础上优化GLR算法被认为是最好的翻译准确性而言,翻译速度,和更新性能。此外,综合评价结果显示在图3排名优化GLR算法以94.4的得分最高,而统计算法以79.4的得分排名最低的。然而,混合算法优化GLR算法没多大区别在最后的测试成绩。两者之间的主要差距是集中在比分更新性能。结合数据2和3,很明显,优化GLR算法有明显的性能优于其他算法,被认为是更适合医学翻译。
为了测试删除结构歧义的性能在不同的算法在实际情况下,本文还采用中国医学相关的句子。“Toutong zhīqian de zhengzhuang yǒu kěneng史你danǎo bufen qūyu gōngxiěshunjiān jiǎnshǎo suǒdǎozhi de”被选为翻译,结果是在翻译模型基于规则的算法相比,统计算法,混合算法,GLR算法,优化GLR算法和人工翻译。结果如表所示2。
它可以从表中找到2翻译基于统计算法,基于规则的算法,混合算法,从语法的角度和GLR算法基本上是正确的,但是从语义的角度来看,他们不是很完整。特别是,统计算法的翻译结果是模棱两可的,翻译结果不是很准确。此外,5算法的四个字没有翻译中国“郑壮族,”症状,译成英语。显然,只有优化GLR算法翻译成英文。从翻译的语义的比较结果,只有机器翻译的基础上优化GLR算法是最接近人工翻译。因此,与其他的机器翻译算法相比,可以清楚地看到,机器翻译的结果优化GLR算法在词性识别更准确,翻译结果最接近人工的结果,和识别精度达到了超过96人。这表明,优化的GLR算法更适合于机器翻译。
5。结论
为了提高机器翻译在医学领域的性能,本文设计了一种智能医学英语翻译通过扩大和优化传统GLR算法模型,被认为是能够把英语和汉语的结构歧义的医学术语。问题的算法构造的短语结构通过短语中心点,赋予一个短语词的语义特征,形态、和子类别,从而提高短语识别的准确性。特别是,当该算法应用于机器翻译在医学、校正指针识别过程中添加。因此,当遇到结构性模棱两可,解析线性表的语法功能是用于正确的英语和汉语结构歧义在词性识别的结果。值得注意的是,该算法在很大程度上改变了词性短语识别的低精度在传统算法和改进机器翻译的准确性在医学上的表现。评估结果表明,与其他算法相比,翻译模型的基础上,优化GLR算法在识别更准确,翻译速度快,更新性能更强。因此,它被认为是更适合机器翻译医学英语。基于深度的智能医学英语翻译模型学习算法(20.- - - - - -22可能在未来实现开发。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。