文摘

本文着重研究人工代理(机器翻译)的影响对人类代理(posteditor)使用方法,提出基于语言复杂性措施,POS标签,频繁集,关联规则,他们的总结。我们从的角度分析这种影响语言词和句子结构的复杂性。通过提出的方法,我们分析了24 733标记的斯洛伐克语英语翻译技术文本,对应两个太系统的输出(谷歌翻译和欧盟委员会(European Commission)的MT工具)。我们使用手动(充足率和流畅性)和半自动(ht度量)太评估措施有效性的标准。我们表明,该方法是有效的基于频繁集的评价和规则的输出由谷歌翻译或欧盟委员会(European Commission)的MT工具,并且都算后编辑太(PEMT)输出使用基线的方法。我们的研究结果也表明PEMT输出由谷歌翻译的特点是更频繁集如情态动词的不定式的动词相比,它太输出,特点是男性化的,无生命的名词表示位置的奇异。太输出,由欧洲委员会太工具,最频繁集是动词不定式相比其算后编辑太输出,在命令式和第二人称复数动词。这些发现也获得的使用提出了MT的评估方法。提出了方法论的贡献是一个识别系统的随机误差。此外,该研究还可以作为优化信息使用事后编辑翻译过程。

1。介绍

任务在人类行为或性能起到至关重要的作用。刘和李([1],p . 553)指出,人类行为和/或性能取决于之间的交互任务特征(如复杂性,这对人类行为和预测性能有重大影响),任务执行者特征(如演员的能力),和环境特征。翻译任务时,特别是机器翻译(MT)或事后编辑的输出(PE),基本任务的特点之一是一个复杂的输出或算后编辑太输出(PEMT)。复杂性是一个内在属性(定性)的翻译任务,由内部提供的文本结构和代表一个任务的客观特征([2),刘和李([p。2)。1],p . 559)任务复杂性定义为任何内在的聚合任务特征影响的性能(翻译)。复杂性([3),40页)可以被理解为(a)主要是一种心理体验(纯粹主观的心理方法),(b)之间的交互任务和个人特征(任务或多或少的复杂相对于个人的能力执行任务),和(c)目标任务的函数特征(目标任务的品质)。

复杂的任务特点是(3,4](a)的未知或不确定的选择操作(不仅有一个替代的翻译;多个结果),(b)不准确或未知means-ends连接(有很多方法来表达同样的意思翻译;多个潜在的方式),(c)由一系列子任务的存在,可能是也可能不是很容易考虑到近独立的部分(分析的源文本和目标文本分析intratextual和extratextual因素;冲突的方法结果间的相互依存,也不确定或概率之间的联系方式和结果)。这些目标任务导致的复杂性将高品质要求译者posteditor也。语言的复杂性不仅有助于解决单词问题困难也很难翻译任务([5],p . 1)。有许多因素被单词的复杂性(如模式、语法结构、词汇或物理的情况下在给定的语言);因此,没有语言复杂性的一般定义。马和王([6],p。3)状态的定性特征语言复杂性等不确定性、不完整性,对初始条件的敏感性、动态性、非线性、不稳定、路径依赖,开放,和自适应性,而核心语言的复杂性是非线性的。非线性的不平衡,出现和交互性功能([6],p . 5),这意味着语言表达模式或其组合偏离线性([7],p . 53-54)。除了语言复杂性的定性特征,也有定量的特点组织深度特性高,因为质量和数量是一对相互依存的矛盾([6],p。13)。语言系统而言,高组织深度指的是多层次的,这是一个重要的组织复杂系统(8,9]。语言是用来理解语言复杂性水平以口头或书面形式(10]。马和王([6),26页),语言的复杂性越高,信息的最小描述长度越长,和更大的资源/成本消耗。

只有利用计算机编程技术,例如,口头或书面语料,分析和研究语言的复杂性将帮助提高语言处理的能力11]。复杂的文本可以使用基于语料库以词或字面意思methods-readability或lexico-grammatical特点:词性的单词/句子长度和频率(12]。

文本的复杂性特征总是意味着独立变量,即。,textual elements (word-level, sentence-level, and discourse-level variables) that can be examined and analyzed ([13],p . 236)。基于文本元素的复杂性(单词、语法和语篇结构),我们可以检查性能,如翻译或PE的任务。

1.1。评价的体系

神经的发明机器翻译(NMT)给翻译行业带来了一些根本性的变化,从的角度来看,翻译过程或任务(14和业务模型的15]。当前NMT系统提供流利的翻译质量相当不错的16),但通常,这个流畅的准确性或可解性(17]。NMT和它的前身,统计太(SMT),是常用的不仅供个人使用,也降低成本的翻译在翻译行业多年。NMT和SMT操作在统计的基础上使用一个基于语料库的方法太NMT的向前迈出了一大步sequence-to-sequence模型首次引入时(18]。到目前为止,它已经取得了出色的表现在一个伟大的翻译从英语到法语12,19)以及英译德(20.]。太系统乡音的句子翻译成他们的标准语言形式可以大有好处Farhan et al。18)显示。翻译技术已经成为不可分割的一部分,翻译的工作,所以很重要知道机器可以,相反,他们不能充分翻译。他们还提醒用户,错误发生在太21]。

太系统是一个复杂的自然语言处理系统由大量的异构模块(22]。太系统,像语言一样,可以被认为是一个复杂的自适应系统,包括多个代理(包括自然和人工)相互作用来实现一个共同的目标翻译任务([23],p . 261)。由于自然语言不是静态的,而是动态的,也就是说。,previous behaviour influences the current and future behaviour of natural language, it can be considered as a complex adaptive system [23]。复杂系统已经从简化的分析转移零部件(代理)和简单线性变化的研究相互关联的元素([24),2页)。

代理在语言系统的行为是受几个元素在不同的水平,是否内部或外部(言内言外,言后行为)。如果我们添加一个翻译任务的通信,它带来了一个新的水平的complexity-a元级。增加系统的复杂性和翻译错误,至少从两种语言被认为在翻译过程中源语言和目标语言。系统可能不同于彼此不是因为差异特性,但由于这些特性取决于差异及相互影响([25),2页)。Siegenfeld和拐点25)把它比作蒸汽和冰,两者都是由相同的水分子,但有不同的属性由于分子之间的相互作用的差异,像太输出及其算后编辑太输出(PEMT)。两个翻译来自相同的原始,但由于相互作用的差异,它们有不同的属性,即。,不同的翻译质量。

在MT系统中,在语言行为层面,创建一个源文本的语言模型使用一个神经网络,即。的神经网络训练大量的源文本数据。它创建模式和识别语法结构和词汇能够分配相应的模式在目标语言,同样是在目标语言,而另一个神经网络训练。太背后的关键概念是获取语言知识所涉及的语言的言内水平通过翻译对跨语言([链接结构23],p . 269)。语内表现行为的层面在于转移本身,从源到目标语言。在言语表达效果的层面,它是太太系统的输出的质量,在给定的交流中扮演着重要角色。

进步太依赖的结果评价的质量。NMT,作为一个指标来评估人工智能的发展,起着至关重要的作用在当前自然语言处理(NLP)社区(26]。许多专家(27,28]寻求各种方式来评估太质量,无论是在手册的形式评价、自动评价或两个,一个框架的形式(例如,动态质量框架或多维度量)。

太输出可以进行手动或自动内在和外在方法应用(29日]。Castilho et al。30.)区分手动方法根据六个标准:(1)充分性和流畅;(2)可读性和可理解性;(3)可接受性;(4)排名;(5)可用性和性能;(6)评估。充分性和流畅性是翻译中最常用的措施评估(31日]。与流畅性和充分性的标准的标准,一些研究人员专注于研究文本的语言特征,具体差异的识别原始文本和不同翻译输出,即。人工翻译(HT)、太输出或PEMT输出(32- - - - - -34]。方法通常是基于语言(例如,词频)和语言以外的特性(格式)30.]。Vanmassenhove et al。34]显示(directions-English翻译成法语或西班牙语)太文本包含较小的词汇种类比源英语文本或比人类翻译法语或者西班牙语。Loock [12)表明,从英语到法语太文本的语言特点不同于原始的法语文本。

内在的方法包括比较太输出和参考之间的翻译质量(高质量的HT)或一组固定的引用。手动通过人类内在措施确定MT质量流畅性和充分性等主观的判断。手动固有方法面临最大的问题是他们的主体性和nonreproducibility,除了价格和及时性。自动内在的措施,比如排名,计算句子相似度太输出和一组固定的参考生产排名太系统(35]。与内在的措施,重点是准确性和文本连贯性,外在的方法集中在有效性或可用性的输出的特定任务,如PE (36- - - - - -38]。体育作为一个特定的任务直接评估的太输出所需要的时间和精力太正确。它提供了信息困难,但它不提供足够的信息任务语言复杂性等特点。PE是MT的语言复杂性的结果输出,这是有关posteditor-task交互。比时间仔细衡量,这是有关语言的复杂性,是编辑距离(误码率)。它代表了许多句子内的变化包括插入、删除、替换,或转变,这需要一些修正的太输出。

可用性的参考翻译不仅允许我们使用人工评价方法也自动评估评估翻译质量的措施(28]。自动太上翻译质量评估措施提供快速的反馈,但这只是一个分数反馈。根据词法一致性的标准,我们把它们分成自动度量的准确性和度量的错误率(39]。度量的准确性是基于太亲密的输出/假说(h)引用(r)的n克。他们计算词汇重叠(一个)常见单词的数量(hr),(B)长度(词)的输出,和(C)长度(词)的参考。这些指标的值越高,翻译质量越高(40]。基于编辑距离度量的错误率。他们计算Levenshtein距离一个太输出/假说(h)和一个参考/人工翻译(r)。这些指标的值越高,翻译质量越低(39]。

自动的措施是一个很好的客观指标如何提高系统性能和价格低廉,实现手动相比更一致的结果。然而,他们的主要缺点是不能充分评估翻译的句法和语义等价(语言复杂性)。我们不能执行一个更深层次的语言分析。除了总体得分,这是有用的附加信息,例如系统的优点和缺点或类型的太错误(28]。自动测量的另一个问题是,其指标操作主要在句子/段级别而不是在文档级别,他们不考虑上下文在评估翻译质量(30.]。

1.2。误差分析的NLP和评估

根据Popović[28),误差分析和分类提供了依据确定什么类型的错误产生的系统,是否以及如何消除它们。不仅可进行分类和标注的错误的单词,还通过分析单词或词性(POS)。在翻译行业,评价通常依靠误差分析(30.,41]。误差分析提供了大量的改善系统的答案,更好的理解人类或人工代理行为或性能翻译或体育等任务。然而,它是耗时,需要大量的注释器(s)的知识。冯et al。26)表明,核磁测井仪的性能系统得益于POS标签信息的目标语言(汉英和德国英语翻译数据集)。POS标签比组合信息简洁范畴的语法(20)supertag [42]。Loock [12]表明语料库的语言分析的文本也可以用于翻译教育。Hladek et al。43)针对当前选择的任务形态标记和关注斯洛伐克。他们提出了一个基于规则的系统利用专家知识。系统根据一定的规则生成一个结果标记选择的匹配集。他们总结整个决策过程分为三个阶段(匹配、最大化和最小化)。使用创建的规则学习过程,然后修剪了更具体的规则提供更好的精度。他们比较形态学算法的薄铁片HunPos [44]。拉基et al。45)提出了一种新颖的普遍形态特征模式作为一组特征表达的屈折形态在语言。他们检查的可变性屈折形态学通过比较多个翻译相同的源(《圣经》)。结果表明,模式提供了NLP的潜在益处和太通过促进直接meaning-to-meaning语言对之间的翻译,无论与表单相关的差异。

它激励我们应用POS标记来确定错误率和语言的复杂性。正如词和句子,POS标签实现在文本分析中,它也可以用来比较两个文本(太输出和PEMT输出)或确定语言复杂性的质量太输出,PEMT输出,或HT。

1.3。研究目标

可替换主体行为动机的研究我们在我们的研究中,我们关注代理机器翻译的影响人类的行为agent-posteditor在一个复杂的自适应系统。换句话说,我们确定的行为代理机器翻译使用的词类和关联规则发现,然后确定其影响的行为agent-human posteditor,其任务是实现自然语言的言语表达效果的水平,即。,算后编辑太输出既流利又足够了。我们专注于研究行为和/或性能的人工代理和人类的代理,这取决于之间的交互任务特点和任务表现特征的观点的语言的复杂性。我们通过语言调查翻译任务复杂性,由频繁集的定义和规则。

这项研究的目的是提出一种新的评价方法的质量和随后验证提出了MT评价方法。提出的方法是基于评价太频繁,PEMT集和频繁的POS集和规则总结。目标包含两个连续的目标。

第一个目标包括三个任务。首先是分析太从两个太系统输出:谷歌翻译和欧盟委员会的MT工具以及他们算后编辑太输出基于POS标签的任务特征和语言复杂性词,字面意思。第二个是检查个人标签和标记集之间的关系在四个检查翻译(如部分所述3所示。1)。翻译质量的最后任务主要集中在比较的基础上,总结的发生率频繁集和规则(如部分所述3所示。2)。

我们检查的程度太质量的语言复杂性PEMT版本基于相同的频率集和规则。

在这项研究中,我们已经设置为零的假设:H01:频繁集的发病率并不取决于翻译的方法(机器翻译比事后编辑)H02:提取规则的发病率并不取决于翻译的方法(机器翻译比事后编辑)

第二个研究目标是验证提出方法的评估使用基线的方法。我们使用手动和半自动太评估措施有效性的标准(如部分所述3所示。3)。

1.4。影响和限制

这项研究提供了新的见解的评价太质量。研究的结果和发现提供一个关键的理论贡献和两个实践贡献领域的复杂的自适应系统,包括太评估。

的理论贡献在于小说的设计和验证方法评价太屈折的上下文中语言质量。提出和验证方法是独一无二的,结合使用内在和外在两种方法的优点,重点翻译成屈折性语言,特点是一个丰富的形态和免费的词序。分析并比较了翻译质量,基于文本的复杂性,即。,based on the frequent tags and rules and their quantitative evaluation—summarizing the frequent tags and rules incidence. The proposed methodology allows us to identify the complexity of MT outputs, especially errors that are systematic and not random. The principle of the proposed methodology is applicable to any language pair as well as translation directions, but it is necessary to take into account the character of the target language when determining tags and/or part-of-speech tagging. For instance, declension is typical for inflectional languages such as Slovak but not for analytical languages like English, i.e., Slovak uses suffixes for grammatical cases, in contrast to English, in which cases are expressed by prepositions.主格:汽车(SK) -一辆车(EN)所有格:auta(SK) -从一辆车(EN)配:autu(SK) -来一辆车(EN)宾格:汽车(SK) -一辆车(EN)表示位置的:aute(SK) -对一辆车(EN)仪器:奥特曼(SK) -用一辆车(EN)

我们研究的启发,Conforti et al。46)专注于机器翻译形态丰富的语言使用的词类。我们采用类似的方法来评估的质量太输出但使用文本复杂性从单词和句子结构的角度。凯里森et al。47]或Popović[28,48,49]表明,指标基于POS分析关联与人类评价很好。Popović[50质量]提供了一个有用的方法估计基于词素和POS标签。拟议的方法也可以用来评估学生的翻译表现在他们的翻译教育或在语言学习。

从实用的角度,研究结果提供进一步的理解文本的复杂性太输出,即。,他们允许我们显示太文本的语言特征分析人工语言。第二个实际贡献,延续了第一,包括识别的“机器翻译腔”(12),什么样的翻译任务的机器可以和给定的方向不能正确翻译和文本的类型。

方面的研究也有一定的局限性(a)检查文本并不广泛,来自一个流派(技术文件),以及posteditor本人,主观对文本中的错误。然而,在评估,具体地说,当评估充足率和MT的流畅和随后事后编辑太输出时,需要大量的手工工作。在我们的例子中,它是由学生和翻译在一天。人类评估时间labour-consuming,但它被认为是高度可靠。出于这个原因,有时有一个较小的数据集,但更可靠的数据。我们正在扩大的数据集,但我们面临的问题评估的一致性,因为并不是所有的参与者想继续研究(重复相同的过程与不同类型或不同的源语言和翻译方向)。(b)我们只关注一个人工的影响代理人的行为(MT系统)在人类代理人的行为(PE)使用一个单词和句子的复杂性。我们并不认为人类的影响代理人的行为(预先编辑)人工代理的行为(MT系统),随后对人类的影响代理人的行为(PE)。出于这个原因,我们想我们未来的工作集中在文本体积以及体裁的多样性,posteditors的一致性,并预先编辑。

论文的结构如下。部分2描述了研究方法,后续部分的重点是基于关联规则分析的研究成果,旨在提出了MT方法的验证评估。倒数第二节提供了一个讨论的结果。最后一节包含研究的结论。

2。材料和方法

我们检查了非结构化的文本数据,即技术texts-consisting 606句(超过6 000标签)。源文本(ST)用英语写被译成斯洛伐克两个太系统/ engines-Google (GT)和翻译(电子邮件保护)

对我们的研究,最重要的一步是标记,分析后完成句子对齐,因为我们两个太引擎(MT系统)。我们还TreeTagger工具用于标记,由施密德[51- - - - - -53]。它支持形态斯洛伐克语语言的注释和自动注释斯洛伐克文本的词类和引理信息(54]。

2.1。建议的方法

应用方法包括以下阶段(在图1):(1)收购非结构化文本数据:源文本(技术文本)(2)数据准备:它包含多个任务:(一)机器翻译:翻译的源文本使用太引擎(b)句子对齐:生成的MT输出与源文本基于一对一的原则(c)事后编辑:太输出算后编辑的专业翻译人员和学生硕士学位(d)两个太输出的评价:每个句子太都是评估参与者使用流利的规模和充分性(刻度范围从1到5)(e)词类:太产出和PEMT输出分别标记,生成标记和注释的前题一致的话(见补充表1为更多的细节在斯洛伐克POS标签)(3)数据分析包括搜索频繁POS标签(集)的输出((电子邮件保护)_MT或检查GT_MT)和PEMT输出文本。结果是由使用STATISTICA序列关联规则分析,处理协会&链接分析算法的实现使用先验的算法与树形结构过程,只需要通过一个数据。支持一个集是由一定比例的记录事务集的数据集,即。,集(一个),支持可以计算如下: 电梯的规则同样可以计算。基于支持和信心,提振规则可以定义和计算(一个集,C集) 在哪里 我们专注于频繁集提取最低10%的支持。(4)数据理解基于关联规则分析的结果。(5)比较研究发现规则和频繁集的翻译。

我们将验证提出方法的评估,根据评估的太频繁,PEMT集,通过手动和半自动太评估。

2.2。手动和半自动太措施

充分性、手动太标准,代表了翻译转移的程度源文本的意义到目标语言。流利、手动太标准,代表了翻译遵循的程度目标语言的规范。两个措施评估翻译每一部分用五点李克特量表,其中1表示“没有(充足)/难以理解(流利),“2意味着“毫无意义/我们想当然斯洛伐克,3表示“意义/非本地的斯洛伐克,”4意味着“最意义/良好的斯洛伐克,”和5是“所有意义(充足)/完美的斯洛伐克(流利)。”

ht (human-targeted翻译出错率)55)是一个更复杂的半自动MT测量;人类不得分直接翻译,而是生成一个新的参考翻译(PEMT)接近太输出但保留原文的流畅性和意义参考([56],p . 259)。具体来说,ht = #编辑(替换+插入+删除+转移)/ #参考。

2.3。数据集

体育任务和评估(流畅性和充分性)进行OSTPERE系统(57]。太输出算后编辑的专业翻译人员和学生的翻译研究硕士学位水平(外在方法)。翻译人员还评估每个句子太使用充足率和流畅的规模(内在的方法)。由于时间和费力的人工翻译质量评估的复杂性,我们的数据集不是广泛但专业在一个文本类型。可能提供的数据进行更精确的分析(例如,语言分析)为一个特定的领域。数据获得为期一天的研讨会期间为了保持posteditors和评价者的一致性(平均翻译翻译每天最多10个标准页)。

最后一个数据集包括24 733标签:太输出(由GT和翻译(电子邮件保护))和相应的PEMT输出。随后,我们创建了一个项目,使用c#,计算每个句子太ht分数。基于源句子ID,相应的ht分数和分数的充分性和流畅性是合并成一个单一的数据矩阵。数据矩阵被用来创建一个基线进行分析。

每个句子被TreeTagger注释工具。断了四个文件(GT_MT GT_PEMT,(电子邮件保护)_MT,(电子邮件保护)_PEMT)包含注释标记。每个文件的构成(GT_MT GT_PEMT,(电子邮件保护)_MT,(电子邮件保护)_PEMT)是基于两种功能类型(表描述1),每个文件由大约6000个标签(包括标点)。之前有必要调整文件合并成一个单一的数据矩阵,因为我们想要记录的每个句子(ID)和工具只能用文本文件。对于这个任务,创建一个简单的JAVA程序。这使我们能够创建一个数据矩阵合并所有四个文件也相应的标签和两个译本进行比较。一个事务/序列模型(58)是用于文本表示。结果处理的关联规则分析。由科克伦发现规则和频繁集进行了综述测试和使用多个比较。

3所示。结果

部分结果分为两个部分:第一个描述了确定集之间的关系,第二个代表他们量化总结。

3.1。识别标记集之间的关系

关联规则分析是一个不连续的数据分析方法。我们不会分析序列但交易,所以我们将不包括标签顺序分析。在我们的例子中,一个事务代表一组标记观察太句子。

web图表(图23)描述句子的发现关联规则,即节点的大小代表了支持标签,线的厚度代表统治对标签的支持,和黑暗的颜色代表一个规则的提升。

在GT_MT输出(在图2(一个),参见补充表2(一个)详细分析)、标签(O),连接词,属于中发病率最高的标签文本几乎50%的支持和标签(%),外文引文,的概率超过35%。其他非常频繁的标签,在连词和外语引文(翻译或驯化),用更少的概率发生率(20%左右)(VMdpb +),即。,verb in imperative, perfective aspect, second person of plural in the affirmative (stlačte/press, pripojte/connect, vyberte/select, použite/use), and (Eu4),即。,nonvocalized preposition in accusative (na/on, to/k, pre/for), which were tied with substantive in accusative whether in the masculine, inanimate gender (SSns4),或中性(SSis4)。此外,动词不定式(视频+)观察(spojiť/连接)。确定的其他标签(不是图中描述2(一个),请参见补充表2(一个))不符合最低支持,即。,the likelihood of occurrence in the identified sentences (transactions) is less than 10% (see Supplementary Table2)。最发现双(在图2(一个),参见补充表2(一个)),一对标记的句子是(O,VMdpb +),(O,VKepb +)和(%,O超过17%的支持,即,conjunctions with verbs in imperative or present, in plural, and in affirmative. Subsequently, conjunctions with foreign language citations (použite kábel HDMI alebo ultra HD) use the cord HDMI or ultra HD.

另一大群对的概率在15%左右,(SSis4,O)——在无生命的阳性名词或中性,奇异,与连词也对(宾格O,视频+)连接词与动词不定式或不定式动词,复数的第二个人(možete poškodiť模块凸轮televizor /你会损坏模块凸轮和电视,zvoľte一stlačte tlačidlo /选择并按下按钮)。标签不是在分析不符合最低10%的支持和信心;这些标签,标识在句子的概率不到10%(图2)。

最大程度正相关(电梯= 5.11)是确定的(SSis6, Eu6)对(在图2(一个),参见补充表2(一个))。电梯,以防(SSis6 Eu6),显示一定的规则,即。,substantives in the inanimate masculine gender in singular, locative case are tied with nonvocalized prepositions in locative (v prípade/in case, na televízore/on TV), less in case (SSis4, Eu4), where substantives in inanimate masculine or neuter gender in singular, accusative case are tied with nonvocalized prepositions in accusative (na nastavenie/for setting, pre vstup/to enter). Similarly, a greater degree of positive correlation (lift = 3.5) was reached for the pairs (从视频+,VKepb+)。,verbs in imperative are tied with verbs in the present, in the second person of plural (móžete pripojiť/ you can connect). Tag pairs (SSns4, Eu4),(SSis4, Eu4)和(VKepb + O)也达到正相关(电梯=2)。剩下的对,除了两人(%,O),实现电梯程度高于1(见补充表2)。

(电子邮件保护)_MT输出(在图2 (b),参见补充表2 (b)),标签(O),连接词,被确认为标签与发病率最高的句子支持的45%。类似于GT_MT输出时,标记(%),外文引文出现在一个句子的概率超过30%。标签,超过10%的概率,是(视频+)肯定的动词,不定式(pozrieť/看到poslať/发送),(W)的缩写(DVD、高清),(Eu4宾格)介词,表示位置的(na / v /),是很有趣的,(SSfs2)在女性名词单数属格情况下(potreby /需要)。其他标签没有再次满足最低支持为10%(见补充表2)。(电子邮件保护)_MT输出(在图2 (b),参见补充表2 (b)),的概率在15%左右,主要包含以下组合(W O),(O, VId +)和(O, VMdpb +),即。,abbreviations with conjunctions (DVD a/DVD and), and conjunctions with imperative or with imperative in the second person of plural (zaznamenať/to record, použite/use). It is most unexpected that nouns are not represented here. The rest of tag pairs (%,),(O, Dx),(Eu4, SSns4),(O, Eu4)和(阿,SSfs2)被确定的概率超过10%。标签与支持不到10%(在图2 (b),参见补充表2 (b))。两人(SSns4, Eu4),在中性性别、实质性的奇异,在宾格宾格的介词,最大程度正相关(电梯=被发现(图3.12)2 (b),参见补充表2 (b))。稍微不那么正相关(电梯(达成= 1.8)VMdpb + O),必须在第二人称复数和介词(vyberte /选择和)。剩余的标签对,除了两人(%,O),实现电梯程度高于1(见补充表2)。

对于PEMT输出,都是非常相似的,因为他们是相同的源文本的翻译无论太系统的使用。起着关键作用的唯一因素是posteditor,即。,the extent of his/her intervention and his/her lexical and stylistic preferences in postediting. The evidence lies in the very similar rules found in the PEMT outputs (in Figures3(一个)3 (b),参见补充表3)。

标签(O),连词,也属于最高的标签出现的概率为50%。标签(%),(VMdpb +),和(SSns4)是复数的规则在第二人,发生在句子的支持下25%左右。成对的标签(O, VMdpb +),(O, VKepb +)和(O, SSns4)被确定支持20%左右的GT_PEMT输出(在图3(一个),参见补充表3(一个))。在的情况下(电子邮件保护)_PEMT输出(在图3 (b),参见补充表3 (b)),(O, VMdpb +)超过20%的支持和(O, VKepb +)或(O, SSns4)约15%被发现的概率。

根据电梯,我们可以声称PEMT输出的特点是更频繁的对(VId + VKepb +)动词和情态动词不定式(možete použiť/可以使用)或一个动词本身(použite /使用)。发现规则的兴趣度最高的一对标签(VKepb + VId +) GT_PEMT和电梯= 3.74(电子邮件保护)_PEMT同样的搭配提升= 3.87(见补充表2)。

3.2。摘要频繁集和规则

基于测试结果(表23),零假设,这原因频繁集的发病率并不取决于翻译(任务)的一种方式,被拒绝在0.001显著性水平。最常见的标记集(近85%)被确定(电子邮件保护)_PEMT最低(53%)(电子邮件保护)_MT(表4)。

从多个比较(表4),两个同质组((电子邮件保护)_MT)和(GT_PEMT GT_MT,(电子邮件保护)_PEMT)被确定的平均发病率方面发现频繁集。统计上显著的差异被证明在0.05显著性水平的平均发生率频繁集发现之间(电子邮件保护)_MT输出等。

基于测试结果(表3),零假设,这原因,提取规则的发病率并不取决于翻译(任务)的一种方式,被拒绝在0.001显著性水平。在翻译中最提取规则被发现(电子邮件保护)_PEMT输出(92%),最低的(电子邮件保护)_MT输出(近34%)(表5)。

从多个比较(表5),三个同质组((电子邮件保护)_MT), (GT_PEMT GT_MT), ((电子邮件保护)_PEMT)确定提取规则的平均发生率。统计上显著的差异被证明在0.05显著性水平的平均发病率之间发现规则(电子邮件保护)_MT输出和其他人之间以及翻译(电子邮件保护)_PEMT输出等。另一方面,在这两种情况下(表45),一个显著区别GT_MT产出和GT_PEMT输出未找到。

3.3。验证所提出的方法

我们已经验证了提出太评价方法评价的基础上频繁POS标签(集)的输出((电子邮件保护)_MT或GT_MT)和PEMT输出使用基线的方法。我们使用两个,手动和半自动太评价措施有效性的标准。对于手动评价,有效性的标准是流利的分数(F)和充分性(一个)。在半自动评估的情况下,我们应用ht度量。由于偏离正常测试因变量之间的差异,我们使用(表6)Wilcoxon配对测试。

被证明在统计上有显著差异的情况下手动太评估。零假设被拒绝在0.001显著性水平。我们可以看到(在图4(一)充足的)差异太输出支持GT_MT输出。差异可以看到在四分位范围50%的核心价值观,为GT_MT输出,来自范围(2、5)相反(电子邮件保护)_MT输出,核心价值观的50%(2、4)范围。同样,在流畅的情况下的输出(在图4 (b)),有差异的GT_MT输出。在中值的差异可以看出,中央值的估计是3 GT_MT输出和2.5(电子邮件保护)_MT输出。两吨的输出,翻译人员使用范围的整个范围内(从1到5)评估个体的句子,这表示的异构质量检查太句子充足率和流畅性。

也显示在统计上有显著差异的情况下半自动的评价太,H0被拒绝在0.001显著性水平。我们可以看到(在图5(一个)ht)差异分数赞成GT_MT输出。基于与相应的PEMTs MTs的比较,显著降低错误率的输出由GT与翻译(电子邮件保护)_MT输出。

类似于手动评估,在个别句子的半自动评价,实现ht指标实现整个范围的值[0,1],指的异构质量检查太太输出部分。

后拒绝零假设,我们太感兴趣领域最高的错误率差异(ht)的使用太引擎((电子邮件保护)或GT)。识别部分,我们使用来自残留分析方法(59,60]。我们使用这种方法比较的结果半自动太评估之间的错误率(电子邮件保护)_MT和GT_MT输出(段的段)。分析的目的是确定的部分(句子)的得分显著差异被发现ht的输出((电子邮件保护)和GT)从英语到斯洛伐克 在哪里是一个数量的检查部分(句子)的数据集。

确定极端值(在图5 (b)),我们使用一个规则 ,即。,residual values outside the interval we consider as extreme values

5 (b)可视化太输出残差((电子邮件保护)_MT和GT_MT)。剩余价值高于平均残差表示的错误率高于平均水平的输出所产生的(电子邮件保护)对MT输出由GT;剩余价值低于平均残差表示GT_MT输出的出错率高于平均水平(电子邮件保护)_MT输出。它能够识别部分显著差异的地方错误率之间的评价(电子邮件保护)_MT产出和GT_MT输出存在。在的情况下(电子邮件保护)_MT输出(在图5 (b)),我们发现了28个部分显示一个重要错误率与GT_MT输出。相比GT_MT输出(在图5 (b)),只有15段显示显著的错误率(电子邮件保护)_MT输出。确定段随后被手动分析,导致测定整个太过程的主要问题从英语到斯洛伐克。预测的困难包括一个不正确的决心(主语、动词和对象)导致误译或不正确的翻译,语法或语义(不同的词类与不正确的词尾变化)。这些发现也证实的结果提出了MT评价方法((电子邮件保护)和GT)是基于频繁集的评价。

4所示。讨论

我们同意催眠师等。13),必须理解文本的复杂性增加知识之间的交互文本特点,翻译,或者posteditor,翻译或PE等任务。理解文本的复杂性的最好的方法是通过分析的话,句子和话语10]。出于这个原因,在讨论中,我们将重点放在单词和它们之间的关系的分析。

在GT,对称测量电梯(最高价值的电梯= 5.11)是一对达到实质性的无生命的阳性单数表示位置的情况表示位置的介词。在分析使用不对称测量的信心,这对我们遇到的差异值(见补充表4(一))。规则,SSis6 = = > Eu6信心值是1.00,但是规则,Eu6 = = > SSis6信心只有0.58,这意味着更多的人(100%)表示位置的介词的出现在段(事务)包含实质性的无生命的阳性单数表示位置的,实质性的无生命的阳性单数表示位置的情况下段(事务),只包含在表示位置的介词(58.47%)。信心衡量点我们在文本这一事实,介词与名词,但在一个句子中名词也可以发现主体或客体,它不需要介词的存在。

通过(电子邮件保护),这是实质性的中性性别、奇异的宾格宾格的介词。GT的情况下,高升力值并不能保证相同的两个方向的条件概率规则(见补充表4 (b))。即使在的情况下(电子邮件保护),如果这个句子包含一个名词在中性性别,在奇异宾格的情况下,有70%的信心,它还包含介词的宾格。然而,名词的发病率在中性性别和奇异宾格的情况下只有49.26%如果句子包含一个介词的宾格在句子。稍微少命令之间的正相关关系发生第二人称复数和连词(vyberte /选择和),这意味着如果句子必须包含复数的第二人,然后有81.55%的信心,这个句子包含连词,但必要的发病率在第二个复数句子中只有31.46%的人如果有连词。再次,信心值指出,连接词与名词或动词在技术文献。

我们可以声称GT_MT产出高质量的关于检查语言的规则和原则。太输出已经到了一个更大的一致性在性别、数量,对于一个给定的语言。的(电子邮件保护)引擎,而翻译词词,没有重点短语和语言的关系。它字面上的翻译从英语(EN)斯洛伐克(SK)后源语言的语法和规则(EN)而不是目标语言(SK)。也证实了半自动的评估,即通过识别特定部分(# 554,# 640,# 1455),错误率超过平均水平的(电子邮件保护)_MT输出对GT_MT输出被确认。这些标识部分指向特定错误对应于一般(系统)仅通过频繁集的分析错误。

每吨由GT翻译或输出(电子邮件保护)被翻译人员算后编辑。体育的目的是找出这程度上有必要做体育获得翻译出版质量和是否从头PE比翻译更有效。我们将太输出的质量与质量PEMT输出基于语言的复杂性,即。,来what extent the tagsets and rules summarization for MT output and PEMT output are similar as well as the relation among tagsets that characterize language complexity.

太引擎(GT)是相对准确的(在图3(一个),参见补充表3(一个))只有5%的连词插入太输出(文本)。深入的分析后,我们发现有很多连词等,,,,然后,,之前,如果。连词与复合句或多个句子元素(动词和对象)。这也是信心的高价值衡量所示(见补充表S5 (a)),尽管规则VKepb + = = > O和VId + = = > O没有达到最高的电梯值(1.69;1.59),到达最高的信心(84.38%;79.46%)。其他GT_MT输出和GT_PEMT输出之间的显著差异主要posteditors必须正确或完整的男性无生命的单数名词属格一起案件属格的介词(pomocou kabla /使用电缆)以及情态动词(možete /你可以)。这个校正与目标语言的弯曲密切相关。斯洛伐克由4范式的名词(年代,F, U4),性别(f m, n),2号(s, p),7例(1 - 7)。太输出相比,posteditors不得不主要由翻译单词,完成翻译没有翻译。主要指在中性性别名词,在奇异宾格的情况下,即,足够的对象失踪了。

根据电梯,我们可以声称GT_PEMT输出的特点是更频繁phrase-verb与情态动词不定式(možete použiť/可以使用)或一个动词本身(použite /使用),然而相比之下GT_MT产出的价值提升,最常见的短语是一个男性化的,无生命的名词表示位置的奇异。这意味着posteditors主要是正确的对象,即。、词形变化和性别名词(SSis6SSns4SSfs4)协议对应的介词(Eu6Eu4)。

在的情况下(电子邮件保护),我们得到了不同的结果。在(电子邮件保护)_MT输出,最常见的改性是动词不定式(视频+),但在(电子邮件保护)_PEMT输出,第二人称复数(有规则VMdpb +)。我们推断出posteditors不仅nontranslated翻译(尤其是动词和名词的主题),也在很大程度上修饰动词(太引擎没有接受斯洛伐克语语法的规则,它保留了源语言的语法,而且它只需要考虑的基本形式)。相比(电子邮件保护)_MT输出,差异发生在combination-conjunction和动词不定式的动词改变了命令式(从视频+VMdpb +),以及一个名词,已经从无生命的男性女性化,而保存情况和数量(SSis4SSfs4)。同样的规则也在(电子邮件保护)_PEMT输出,即。,如果the sentence is not simple, then it is a copulative or conditional sentence, without agent expression, expressing only verb and object (VMdpb + SSfs4)或多个句子元素(VMdpb + O),也单音节介词与名词的宾格(Eu4, SSns4)。误差分析的结果也证实的信心值(电子邮件保护)_MT输出及其算后编辑的版本,即。,the highest confidence (81.55%) for machine translation was achieved for the rule VMdpb + ==> O and for its postedited version, and the highest confidence (82.93%) was achieved for the rule VKepb+ = => O (see Supplementary Table4 (b)和表5 (b))。

5。结论

我们专注于调查的影响人工代理(MT)人类代理(posteditor)使用该方法,基于POS标签,频繁集,关联规则,他们的总结。我们从的角度考察了这种影响言语表达效果的行为,其中包括机器翻译的评价。我们已经表明,复杂系统的自适应性的特点需要人工代理。通过人工干预,在我们的例子中,PE、MT系统也可以包含自适应性的特点。

我们提出了一种新的方法自动太评估使用POS标签和关联规则(在图1)。我们比较两个不同的太engines-Google翻译(电子邮件保护)(欧洲委员会太引擎)。我们检查技术文本,因为他们是最常见的翻译文本。基于分析的结果,发现规则,我们不仅能够描述文本质量也是文本的微观结构(morpho-syntactic关系)。

此外,我们验证了提出方法的评估使用手动和半自动方法的评价(表6)。结果可以被认为是有效的。提出了方法论的贡献是一个识别系统,不是随机的错误。此外,拟议的方法考虑morpho-syntactic关系很重要在评估分析和屈曲的语言之间的翻译。鉴于此,我们在四个不同的ways-GT_MT 4翻译进行检查,(电子邮件保护)_MT GT_PEMT,(电子邮件保护)_PEMT,我们调查是否有差异的发生频繁集。基于测试结果(= 18.38298;df= 3; ),我们发现有不同方法翻译(翻译过程)的方法对标签的出现。使用多个比较,我们发现两个同质组((电子邮件保护)_MT)和(GT_PEMT GT_MT,(电子邮件保护)_PEMT),即。,there is a statistically significant difference between MT output translated by(电子邮件保护)和其他人。换句话说,GT_MT输出非常类似于PEMT翻译引擎是否GT或(电子邮件保护)发现规则的条款,也证明(基于统计上的显著差异的结果测试(= 39.90476;df= 3; )并从多个之间的比较)(电子邮件保护)_MT和(电子邮件保护)_PEMT以及两者之间(电子邮件保护)_MT和其他人之间(电子邮件保护)_PEMT GT_MT或GT_PEMT输出。GT_PEMT GT_MT输出非常相似的输出。posteditors同样算后编辑都太输出,但在很大程度上(显著),进行了修正的(电子邮件保护)_MT输出。

总结我们的研究结果,我们可以等技术文本手册、MT系统生成一个输出质量的一个可接受的水平。GT_MT输出之间的统计上的显著差异和GT_PEMT输出的意义或语法并不证明。最后但并非最不重要,回答这个问题关于如何评估太质量或使用哪个方法,我们展示了一个原始和以前未使用的独特的方法使用文本复杂性的措施。在我们看来,这是一个客观评价的统计输出,NLP和机器学习方法。它也可以用来自动识别的错误在屈折性语言(如斯洛伐克)。

拟议的方法可以作为一个替代当前,使用手动评估指标,并不仅是时间还labour-consuming,而且使用标准的自动评价指标如蓝色。我们看到的使用方法本身不仅在教学质量评估太也太和体育学习课程的翻译研究。

另一个跨学科的贡献或未来的工作在于提供信息集中在体育过程中,终于可以提高译者的性能是由今天的市场预期。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的斯洛伐克研发机构根据合同没有。apvv - 18 - 0473。这项研究是由欧洲委员会在伊拉斯谟+项目,KA2,格兰特号:2021 - 1 - sk01 ka220 hed - 000032095“未来的人工智能,IT专业人员教育”教育部的斯洛伐克,批准号004 ukf-2-1/2021”准备和英语教学课程的发展重点是人工智能形式的指导员来,“和斯洛伐克,教育部授予数量:2020/8148:34-A1101“支持发展的实践技能的UKF学生尼特拉。”

补充材料

补充表1:POS斯洛伐克形态注释标记。补充表2:太输出标签确认表》由谷歌翻译(a)和翻译(电子邮件保护)(b)。补充表3:制表的标签中标识PEMT输出由谷歌翻译(a)和翻译(电子邮件保护)(b)。补充表4:制表的规则的信心太输出由谷歌翻译(a)和翻译(电子邮件保护)(b)补充表5:制表的规则的信心PEMT输出由谷歌翻译(a)和翻译(电子邮件保护)(b)。(补充材料)