设计和开发的大型跨语言剽窃语料库Urdu-English语言

文摘

跨语言剽窃发生在源(或原始)文本(s)是一种语言和抄袭的文字是用另一种语言。近年来,跨语言剽窃检测吸引了科研界的注意,因为大量的数字文本是方便的在许多语言中通过在线数字存储库和现成的机器翻译系统,使其更容易执行跨语言剽窃和难以检测。开发和评估跨语言剽窃检测系统、标准评价资源是必要的。大多数早期的研究已经开发出跨语言为英语和其他欧洲语言对剽窃全集。然而,对于Urdu-English语言,跨语言剽窃检测的问题尚未进行过彻底的探索虽然大量的数字文本是现成的乌尔都语和口语在世界上的许多国家(特别是在巴基斯坦、印度和孟加拉国)。实现这种差距,本文提出一种大型基准跨语言语料库Urdu-English语言对。该语料库包含2395 source-suspicious文档对(540是自动翻译,539人为转述,508人手动改写,和808年nonplagiarized)。此外,我们提出了语料库包含三种类型的跨语言的例子包括人工(自动翻译和人工转述),模拟(手动改写),和真实(nonplagiarized),以前没有报道跨语言语料库的发展。我们提出的主体进行了详细分析 - - - - - -克重叠和最长公共子序列的方法。使用单词unigrams,意味着相似性得分为1.00,0.68,0.52,和0.22是自动翻译,获得人工转述,手动改写,分别和nonplagiarized文档。这些结果表明文档提出了语料库的创建使用不同的模糊技术,使数据更加现实和挑战。我们认为,语料库在这项研究将有助于促进研究开发一种underresourced语言乌尔都语和有用的开发,跨语言的比较和评估Urdu-English语言对剽窃检测系统。我们建议的语料库是自由和公开为研究目的。

1。介绍

在跨语言剽窃,一段文字(或源)语言翻译成另一种语言(或目标),既不改变语义和内容也提到原点(1,2]。跨语言的剽窃检测是一项具有挑战性的研究问题由于各种原因。首先,网上机器翻译系统是免费的,如谷歌翻译(https://translate.google.com/)将一种语言翻译成另一种语言编写的文档。其次,网络已成为一个中心的多语言资源。例如,维基百科文章包含超过200种语言在同一主题(http://en.wikipedia.org/wiki/wikipedia上次访问10-02-2019)。第三,人们通常会想写在另一个不同于母语的语言。因此,所有这些因素都会影响的环境中,这使得它更容易进行跨语言剽窃,很难发现它。

剽窃的任务可以大致分为两类(3):(1)内在剽窃分析和(2)外在剽窃行为分析。在前一种情况中,一个文档检查识别抄袭的作者(年代)变化的写作风格。片段(s)的文本文档中明显不同于其他片段是剽窃的触发器。大部分stylometric-based特性建模来检测这种剽窃。在后一种情况下,我们提供了一份文件,被怀疑含有剽窃(可疑文件)和源集合。目的是识别的文本片段(s)在可疑文件,剽窃及其对应的源代码片段从源集合。外在剽窃可以进一步分为(1)monolingual-both源和剽窃文本在同一个语言和(2)跨语言plagiarism-source和剽窃文本在不同的语言。在跨语言剽窃的情况下,源文本可以自动或手动翻译,翻译后,它可以是逐字或重写用于剽窃(4]。

开发和评估跨语言剽窃检测(CLPD)方法,标准评价资源是必要的。多数CLPD全集开发英语,欧洲,和其他一些语言(http://www.webis.de/research/corpora -去年访问了10 - 02 - 2019)。此外,没有一个现有的跨语言语料库包含人工、模拟和真实的例子,这是必要的现实和具有挑战性的语料库。CLPD的问题还没有彻底的探索等南亚语言乌尔都语,这是一个广泛使用的大量世界各地的人们。乌尔都语是全世界大约有1.75亿人的第一语言,尤其是在巴基斯坦、印度、孟加拉国、南非和尼泊尔(http://www.ethnologue.com/language/urd上次访问:20-02-2019)。它从右向左写像阿拉伯脚本。乌尔都语语言通常伴随着Nastalique写作风格(5]。然而,乌尔都语是一种underresourced语言方面的计算和评估资源。

这项研究的主要目标是3倍:(1)开发一个大型基准跨语言语料库Urdu-English语言,它包含人工、模拟,和真实的例子,(2)进行语言分析的语料库来洞察编辑操作用于跨语言剽窃,和(3)拟议的语料库进行详细的实证分析n蟋蟀重叠和最长公共子序列的方法探讨语料库中的文档是否使用不同的模糊技术创建。总有2398 source-suspicious文档对我们提出的语料库。源文档是乌尔都语语言,可疑的是英语。source-suspicious文档对分为两大类:(1)剽窃(1588对文档)和(2)nonplagiarized文档(810对)。剽窃文档创建使用三个模糊策略:(1)自动翻译文档(540对),(2)人工解释文档(540对),和(3)手动改写(508对文档)。我们提出了语料库的文件来自各种领域包括计算机科学、管理科学、电气工程、物理学、心理学、国家,巴基斯坦研究,一般的话题,动物学,和生物学,使语料库更现实的和具有挑战性的。我们还进行了语言和我们提出了语料库的实证分析。

我们提出语料库将是有益的(1)培育和促进研究的资源language-Urdu低,(2)使我们能够做一个直接比较的现有的和新的CLPD Urdu-English语言对的方法,(3)开发和评估新方法为CLPD Urdu-English语言配对,和(4)发展中双语Urdu-English字典使用我们提出的语料库。此外,我们提出了语料库是自由和公开为研究目的。

本文的其余部分组织如下:部分2总结了相关工作在现有CLPD全集。部分3描述了语料库生成过程,包括源文件收集、水平的重写,创建可疑文件和标准化的语料库。部分4介绍了我们提出的语言分析语料库。部分5提出了一种更深层次的实证分析的语料库。最后,部分6总结了纸。

在文献中,一直在努力开发基准CLPD全集。突出的努力之一是锅的系列(http://pan.webis.de/上次访问:20-02-2019)(一个论坛的科学事件和共享任务数字文本法医)比赛。一些研究者提出的跨语言剽窃评估框架也对这个论坛6,7]。这些比赛的主要结果是一组基准全集mono -和跨语言剽窃检测。大部分的剽窃的情况下,在这些全集,单语(90%),剩下的10%是跨语言如English-Persian English-Arabic和其他语言对。几乎80%的跨语言剽窃的情况下,在这些全集,生成使用自动翻译,其余的都是使用手动生成翻译。潘跨语言语料库对已经开发了两个语言:英English-German。

数量的相关文献提出了一种基准CLPD全集等语言Indonesian-English [8],Arabic-English [9],Persian-English [10],English-Hindi [11]。开发这样一个资源尤其是语言资源不足是一个活跃的研究领域12,13]。平行语料库也被开发并用于(14在跨语言自动翻译目的域。CLPD系统基于这些语料和其他方法也提出了在文献[15]。大多数这些方法使用syntax-based剽窃检测方法,但与此同时,基于语义的剽窃检测方法也被应用为目的。Savador等人使用语义剽窃检测方法使用图表分析方法进行跨语言剽窃检测。它是一个独立于语言的剽窃检测模型应用于西班牙英语和德国英语域(16]。

跨语言印度文本重用(CLITR)任务设计结合论坛(火)检测跨语言信息检索评价剽窃English-Hindi语言。语料库分为训练集和测试部分的源文档都是英文的和可疑的文件在印地语。

训练和测试源文件收集包括5032年在英语培训和190年198个可疑文件可疑文件在印地语(http://www.uni-weimar.de/medien/webis/events/panfire-11/panfire11-web/上次访问:20-08-2018)。全集也为绩效评估开发的跨语言信息检索(思想)系统(17),而Kishida [18)提出了这一领域的技术问题。此外,不同的剽窃检测任务文本对齐方式和检索的设计是基于这些语料的来源,和这些任务的概述一致(每年)发表PAN@谱号论坛(19,20.]。

JRC-Acquis多语言平行语料库已经被Potthast et al .,应用CLPD方法。多达23564平行语料库中构造文档提取从欧盟的法律文件21,22]。22种语言的法律文件收集,只有5包括法国,德国,波兰,荷兰,西班牙选择生成source-suspicious文档对作为源语言(英语)。类似维基百科语料库是另一个数据集用于CLPD方法的评价。语料库包含45984个文档。

基准跨语言语料库已经开发使用两种方法:(1)自动翻译和(2)手动翻译。锅全集是英使用两种方法创建和English-German语言对。然而,大多数的跨语言情况下生成使用自动翻译,其中只有少数生成使用手工翻译。

CLITR使用自动和手动生成语料库翻译:附近复制/精确复制文档创建使用自动翻译,而重修订(人力资源)文档是使用手动创建套用自动翻译的源文本。这语料库只包含388个可疑文件,并创建English-Hindi语言。

两个跨语言语料库中使用剽窃检测任务(1)JRC-EU语料库和(2)童话语料库[21,22]。JRC-EU跨语言语料库由随机抽取400份文件从欧盟立法的报告,其中包括200个英语源文档和200年捷克文档。英文童话语料库包含54个文档:27日和27日在捷克。Ceska等人也用这些CLPD任务的主体之一23]。

在先前的研究中,我们开发了一个语料库锅2015文本对齐任务(我们将其命名为线索语料库)[24]。语料库,总有1000文档(500是源文档和500是可疑的文件)。在可疑的集合中,270个文档使用90个source-plagiarized片段对剽窃,而剩下的230 nonplagiarized可疑文件。注意,这个语料库包含模拟剽窃的情况下,插入到可疑的文档生成剽窃文档。线索语料库可以用于开发和评估CLPD English-Urdu语言对系统描述的文本对齐任务只有当潘组织者。

最后,相关文献介绍了多数CLPD语料库对英语和其他欧洲语言。此外,这些主要是使用类似的文件,创建并行文件,和自动翻译,这对跨语言剽窃是不现实的例子。本研究贡献一个大型基准语料库(包含2398个source-suspicious文档对)CLPD Urdu-English语言领域。注意,使用的270个片段对语料库的发展线索也包含在这个语料库。

3所示。语料库的一代

本节描述基准语料库的建设过程CLPD Urdu-English语言对(以下称为CLPD-UE-19语料库)包括源文本的集合,水平的重写用于创建可疑文件,创建可疑文件,和标准化的语料库和语料库的特点。

3.1。源文本的集合

乌尔都语是一种underresourced语言库一样大的数字文本的语言为研究目的不是现成的。乌尔都语报纸在巴基斯坦主要发布新闻图片格式不适合文本处理。因此,收集真实、优质和多样化来源文章生成CLPD-UE-19语料库,我们选择维基百科¹作为一个源。维基百科是一个自由和公开,multitopic和多语言资源。最初,维基百科包含一篇文章在多种语言可以被视为一个可比语料库。AJ主管调查的潜在使用维基百科学术搜索的学生25]。马丁内斯也调查了情况下,维基百科主要用于复制和粘贴剽窃案例(26]。维基百科的文章作为原始凭证生成跨语言的剽窃检测Hindi-English语言语料库对(27]。

剽窃是一个严重的问题,特别是在高等教育机构(28- - - - - -31日]。因此,CLPD-UE-19语料库关注抄袭情况下生成的大学生。表1显示了维基百科的域(http://ur.wikipedia.org/wiki/urdu)文章来源收集生成CLPD-UE-19语料库。,270年source-suspicious文档对被用于线索语料库的创建(24]。


域	主要的话题

计算机科学	免费软件,二进制数字,开源的,数据库规范化、机器人、人工智能、MSN,谷歌,雅虎,WhatsApp, Android, Facebook, Twitter, RUBY语言,每天运动,HTML,移动应用,Gmail, Skype等等
一般的话题	资本主义全球化,穆罕默德伊克巴尔、全球变暖、清真寺,图书销售,巴基斯坦空军,板球,时尚,拉合尔堡垒,资本主义,巴德夏希清真寺,康科迪亚理论
电气工程	电、磁、和导电材料
管理科学	贸易和金融
物理	原子和科学家
心理学	神经、精神疾病和启迪
国家	不同国家的政治和贸易(主要是非洲)
巴基斯坦的研究	巴基斯坦和印巴分治的历史
动物学	动物、食物、和生活风格
生物学	自然生物、活细胞和DNA

这些领域包括计算机科学、管理科学、电气工程、物理学、心理学、国家,巴基斯坦研究,一般的话题,动物学,生物学。可以注意到,这些产品都是在一个广泛的话题,这使得CLPD-UE-19语料库更现实的和具有挑战性的。

文本重用创建剽窃文档的数量可能会有所不同从一个短语,句子,段落整个文档。也可能隐藏剽窃,剽窃者可能重用来自不同来源的不同大小的文本。因此,源文件的大小是不同的。源文本的长度可以分为三类:(1)小(1-50的话),(2)介质(50 - 100个单词),和(3)大(100 - 200字)。

3.2。水平的重写

该语料库包含两种类型的可疑文件:(1)和(2)nonplagiarized剽窃。这些的细节如下。

3.2.1之上。剽窃的文档

剽窃的文档在CLPD-UE-19语料库分为三个类别之一:(1)自动翻译,(2)人为转述复制,和(3)手动改写副本。创建剽窃文档的原因有三个不同级别的改写是抄袭者可能使用的三个上述方法创建一个剽窃文档使用现有的文档(s)为跨语言设置。

(一)自动翻译。使用这种方法,剽窃文件(英文)是由源文本自动翻译(乌尔都语)使用谷歌翻译(https://translate.google.com/上次访问:20-02-2019)。注意,谷歌翻译已有效地应用于早些时候的研究(32,33]。

(b)人为转述副本。这种方法旨在创建人为转述的跨语言剽窃两个步骤。源文本(乌尔都语)是自动翻译成英文用谷歌翻译的第一步。之后,一个自动文本重写工具用于解释翻译文本,从而导致人为转述原文的副本。在这项研究中,我们探索各种自由和公开的文本重写工具。可用的工具中,我们发现其中两个每日有最高的游客数量:(1)Spinbot文本重写工具(http://www.spinbot.net/),平均每天26 k的游客数量和(2)文章改写文本重写工具(http://articlerewritertool.com/),平均每日45 k游客数量报告的Alexa排名(这是系统设定的alexa.com(的子公司amazon.com),基本上审计,使公共访问的频率等各种网站)比其他工具http://paraphrasing-tool.com/等。

(c)手动改写副本。使用这种方法,剽窃的文档是由手动翻译和改写原文。

3.2.2。Nonplagiarized

维基百科是一个可比语料库和包含多种语言的一篇文章。值得注意的是,这些文章不是翻译。生成nonplagiarized情况下,类似的文本片段是手动确定从英语和乌尔都语维基百科关于同一主题的文章。

假设是,虽然英语和乌尔都语维基百科文章都是写在同一主题,它们分别由两个不同的作者写的。因此,类似的碎片English-Urdu文本可以作为独立写对跨语言文档。

据我们所知,该方法用于创建跨语言剽窃的人为转述剽窃和Nonplagiarism先前没有被用来创建跨语言抄袭情况下在任何其他语言。

3.3。代的可疑短信

众包是一个执行任务的过程中合作大量人们通常做远程用户。这是可以做到的一群人,小团队或者个人。生成一个大型基准CLPD语料库并不是一件容易的事情。因此,我们使用众包的方式来生成可疑的文本有四个级别的重写。手动改写的例子复制和nonplagiarized是由参与者(志愿者),那些大学生研究生(硕士和M菲尔)。所有的参与者是乌尔都语的母语。随着大学和大学英语教学中,学生有一个高水平的精通英语。

大多数的参与者来自英语系,因此深知套用技术。

然而,对于更好的质量,他们提供套用的例子。剽窃文件由志愿者手动检查,和低质量的文档被丢弃。

3.4。跨语言的例子从CLPD-UE-19语料库剽窃案件

图1从CLPD-UE-19礼物source-plagiarized文档的一个例子对语料库使用自动翻译方法创建。可以指出,翻译文本不是一个精确复制的原始。可能的原因是乌尔都语是一种underresourced语言,和Urdu-English语言对机器翻译系统不成熟与其他语言相比对。因此,翻译文本似乎接近原始文本的副本,而不是一个精确的拷贝。此外,它还可以观察到从谷歌的翻译后的文档,对于几句翻译没有找到任何相应的英语单词,它仅仅替换这个词的发音与英语同音异义词,例如,تمدن被替换为战区导弹防御系统和مثلأئ被替换为女士。最后,谷歌翻译的总体质量似乎好考虑复杂性在乌尔都语翻译文本的英语。

图2显示了一个示例的剽窃文档自动翻译的源文档是进一步改变自动重写工具让人为剽窃源文档的副本。从这个例子可以观察到,自动文本重写工具取代了通过适当的同义词(斜体是同义词的单词呈现原始字)。然而,文本重写工具并不改变文本的顺序。翻译文本的变更是由重写工具进而增加水平的重写和很难识别source-plagiarized文本之间的相似度对。

剽窃示例文档生成使用手动改写复制方法如图3转述的内容,这是一个很好。应用了不同的文本重写操作的参与者套用原文包括同义词替换、句子合并/分裂,插入/删除的文本,重新排序。因此,source-plagiarized文本对语义相似但不同的表面层次,使CLPD更具挑战性的任务。

一个nonplagiarized source-suspicious文档对CLPD-UE-19语料库如图4。课文相关话题,但独立写。包含更多的介绍性的句子和最后一句话反映了两种文本都写在不同的上下文中。

3.5。语料库的特点

表2介绍了该语料库的详细统计数据。在这张桌子,APC, MPC和NP代表自动翻译,人为地转述复制,手动改写复制,和nonplagiarized分别。总有2398 source-suspicious文档对语料库,810是nonplagiarized和1588是剽窃。剽窃文档中对,540会自动翻译,508 540人为转述,手动改写。以上数据显示,语料库包含大量的文档剽窃和nonplagiarized病例。此外,文档提出的四种不同水平的重写语料库几乎是平衡的。CLPD-UE-19语料库是标准化的XML格式的和公开的研究目的(CLPD-UE-19语料库分布根据创意常见的归因4.0国际许可和可以从以下链接下载:https://www.dropbox.com/sh/p9e00rxjj9r7cbk/AACj3gtVEy5T74rfP58_BtP6a?dl=0)。


大小的单词(统计)	级别名称/剽窃和nonplagiarized /剽窃版本(总数)			主题域
大小的单词(统计)	级别名称/剽窃和nonplagiarized /剽窃版本(总数)			CS	GT	体育	生物	EE	Zol	小组	PS	女士

≤50	(小)	NP: 450		One hundred.	50	75年				25
		剽窃	在(300)	One hundred.	50	99年				51
			美联社(300)	One hundred.	50	99年				51
			议员(290)	One hundred.	50	90年				50

> 50和≤100	段(中)	NP: 225		50	25			20.	75年		15	40
		剽窃	在(150)	50	25			15			10	50
			美联社(150)	50	25			15			10	50
			议员(148)	50	25			15			10	48

≥100,≤200	论文(大)	NP: 135		30.	15				33		57
		剽窃	在(90)	30.	15		45
			美联社(90)	30.	15		45
			议员(70)	30.	15		25
			总	720年	360年	363年	115年	65年	108年	177年	102年	188年

CS:计算机科学,GT:一般的话题,体育:物理,生物:生物学,EE:电气工程,Zol:动物学,小组:心理学、PS:Pak研究,女士:管理科学(200 nonplagiarized文档从国家域)。

4所示。CLPD-UE-19语料库的语言分析

本节介绍了CLPD-UE-19语料库的语言分析。在报道34,35),不同的编辑操作是对源文本进行创建剽窃文本,尤其是在源文本是转述剽窃的重用。下面我们讨论不同的编辑操作,我们观察到在进行语言分析的一个子集CLPD-UE-19语料库(注意,我们使用了50 source-suspicious文档对在这一节中给出的语言分析)(数据5- - - - - -9)。

4.1。替换代词和名词

在这些编辑操作,一个代词代替实际名称或亦然在源和可疑文件,例如:

4.2。订单更改和添加/删除的话

这也是一个常见的方法用于编辑操作。在这种方法中,后期的源文本引用第一个可疑的文本,反之亦然。

4.3。持续的句子:添加单词

结合两个句子用另一个词是最常用的方法重写文本,例如。

4.4。完成日期

这是另一种方法,一个事件源文本重写在上下文的事件日期和地点在可疑的文件。

4.5。总结

在这个类别,一个抽象的描述改写文本可疑文件用于长源文档中叙述。

语料库包含许多的例子秩序变化和变化的主动,被动和直接,间接,反之亦然。这样的例子反映了源文本编辑操作改变不是逐字的情况。它不是一件容易的剽窃检测。

5。翻译+单语CLPD-UE-19语料库的分析

为方便起见,本节进一步分为三个部分:从实验设置,接下来的两部分描述了语料库的详细和全面的分析。

5.1。实验装置

分析人为的质量和手工转述重写水平情况下,我们应用翻译+单语对我们提出的语料库分析方法。使用这种方法,我们自动翻译源文件(乌尔都语)使用谷歌翻译成英文。现在,源和可疑的文件都是在相同的语言,即。,英语。之后,我们计算平均相似度得分source-suspicious文档对所有四个类别(自动翻译复制,人为地转述复制,手动改写复制,和nonplagiarized)使用n -克重叠和最长公共子序列的方法。

计算之间的相似性得分source-suspicious文档对我们应用容器相似性测量(36(方程(1))。使用n蟋蟀重叠方法,source-suspicious文档之间的相似度得分计算通过计算常见n克两个文档之间的数量除以n克在两个或者任何一个文件。如果年代(X,n),年代(Y,n)表示词n克的长度n分别在源和可疑文件,然后使用容器相似性度量计算它们之间的相似之处如下:

我们使用另一个简单的和受欢迎的相似性评估模型,LCS (LCS),计算平均相似度得分四层CLPD-UE-19语料库的重写。使用LCS方法,对于一个给定的一对source-suspicious文本(X和Y),我们首先计算LCS source-suspicious字符串之间,然后把LCS得分与较小的文档的长度归一化分数在0和1之间(方程(2))。注意,LCS方法是保序,LCS分数是影响编辑操作源文本生成剽窃文本:

5.2。部分(Domainwise)分析

这个维度提供了我们一个机会为微级和size-oriented域分析。尺寸的大小是一个重写。为此,来自不同领域的一些样本文档被随机选择。自动翻译源文档的副本(ATC)相比,人工和手动改写版本相同的文档。Bi、三/四分被应用到识别单词的句子之间相似程度不同级别的重写文本。基于实证分析进行了相关文档的所有领域,但只有只有三个域的结果在这里列出了所有大小的文档。几乎所有的结果显示n蟋蟀之间的相似性水平的重写值逐渐降低n增加。

5.2.1。讨论

可以看出总体平均单词n她们相似的小型手动改写的副本文件小于大型和中型病例相似。这也反映出,套用小型文本使用不同的编辑操作更转述相比其他尺寸的可疑文件,因此很难发现。

在表中3- - - - - -5和图10,值得注意的是4克价值甚至3-gram价值在大部分的情况下接近为零。它反映了一个源文档的能力已逐渐被改变在APC和MPC重写整个语料库的水平。只有一些文档这样的大型语料库之间的相似性高价值来源和MPC水平因为剽窃没有使用任何主要套用改写源文本的技术。但是,在这样一个大型语料库的超过2300份文件,这些是只有少数此类案件。


	货币政策委员会			APC
	2克	3-gram	4克	2克	3-gram	4克

txt文件0002.	0.153	0.042	0	0.625	0.521	0.457
txt文件0005.	0.110	0.049	0.025	0.659	0.519	0.388
txt文件0006.	0.143	0.040	0.008	0.587	0.448	0.347
txt文件0009.	0.114	0.023	0	0.466	0.322	0.209
txt文件0011.	0.210	0.066	0	0.387	0.262	0.167


	货币政策委员会			APC
	2克	3-gram	4克	2克	3-gram	4克

- 0041. - txt文件	0.111	0.038	0	0.370	0.231	0.120
- 0042. - txt文件	0.120	0.042	0	0.280	0.042	0
- 0087. - txt文件	0.324	0.182	0.063	0.588	0.515	0.469
- 0094. - txt文件	0.455	0.286	0.150	0.364	0.190	0.050
- 0095. - txt文件	0.381	0.250	0.105	0.429	0.250	0.053


	货币政策委员会			APC
	2克	3-gram	4克	2克	3-gram	4克

- 0066. - txt文件	0.113	0.025	0	0.463	0.329	0.231
- 0068. - txt文件	0.103	0.026	0	0.449	0.234	0.105
- 0070. - txt文件	0.218	0.091	0.066	0.487	0.338	0.211
- 0072. - txt文件	0.121	0.031	0	0.803	0.708	0.609
- 0075. - txt文件	0.133	0.068	0.014	0.547	0.419	0.329

有更好的视图重写的水平,我们应用APC, MPC-wise平均水平n克方法还,结果展示在表6。按图11,APC的相似比在大多数情况下高于MPC病例。它还表明,人工套用技术仍略不一样精确释义源文本相比手工工作。


文件/重写水平	货币政策委员会	APC

- 0002. - txt文件	0.017	0.374
- 0005. - txt文件	0.215	0.198
- 0006. - txt文件	0.146	0.41
- 0008. - txt文件	0.056	0.369
- 0010. - txt文件	0.227	0.588

5.3。完成(基于语料库)分析

表7显示了平均相似性分数获得使用n的重叠和蟋蟀LCS的方法。指的是自动翻译,APC指人工转述复制,MPC是指手动改写复制和NP是指nonplagiarized。掉落指的意思是相似分数使用生成的n蟋蟀重叠的方法,在哪里(即。,unigram). Similarly, 2-gram refers to mean similarity scores generated usingn蟋蟀重叠的方法,在哪里(即。,bigram) and so on. Mean similarity scores obtained using LCS approach are referred as LCS. Note that mean similarity score for AT is 1.00 for all methods. The reason is that we used Google Translator for both creating AT cases of plagiarism (Section3.2)和M +助教分析(本节中给出)。因此,两个翻译是完全相同的生成一个相似度得分为1.00分。


方法\重写水平	在	APC	货币政策委员会	NP

掉落	1.00	0.68	0.52	0.22
2克	1.00	0.44	0.21	0.01
3-gram	1.00	0.31	0.11	0.00
4克	1.00	0.22	0.07	0
5克	1.00	0.16	0.04	0
LCS	1.00	0.20	0.15	0.05

正如所料,相似性得分下降随着重写的水平增加(NP)。这表明很难检测剽窃当重写的水平增加。这也表明,CLPD-UE-19语料库的可疑文件使用不同的模糊策略生成。为n蟋蟀重叠的方法,意思是相似分数下降的长度n增加,表明很难找到长source-suspicious文档中精确匹配对。LCS的方法,分数很低而掉落的方法。这突显出一个事实:在源文本的顺序和可疑文件对已明显不同,很难找到匹配。

6。结论

本研究的主要目的是开发一个大型基准语料库的跨语言例剽窃Urdu-English语言对四级改写包括自动翻译、人工套用,手工套用,nonplagiarized。总有2398个文档对我们建议的语料库:1588是nonplagiarized剽窃和810。剽窃文档是使用三个模糊策略:创建自动翻译(540个文档),人工套用(540个文档),和手动改写(508个文档)。维基百科作为源文本和分为小型、中型和大型文档。众包的方法被应用到创建我们的语料库。我们也进行语言分析和翻译+单语分析我们提出的语料库。我们的实证分析表明,有一个明确的区分四个等级的重写在计划的语料库,这使得语料库更现实的和具有挑战性的。作为一个新兴的研究领域(37),在未来,我们打算运用跨语言剽窃检测技术对我们提出的语料库。

数据可用性

作者声明的数据将提供和讨论本文所提到的,如果需要的话。

的利益冲突

作者宣称没有利益冲突。

确认

作者感谢所有的志愿者CLPD-UE-19语料库建设的宝贵贡献。

引用

a . Barron-Cedeno p·罗索、大肠Agirre和g . Labaka“在遥远的语言对剽窃检测,”23日计算语言学国际会议协会的程序计算语言学,页37-45,北京,中国,2010年8月。视图:谷歌学术搜索
a . Barron-Cedeno p·古普塔,p .罗索,“跨语言剽窃检测方法,”以知识为基础的系统,50卷,第217 - 211页,2013年。视图:出版商的网站|谷歌学术搜索
b·斯坦和s . m .祖茂堂Eissen“内在剽窃分析元学习”2007年《锅p。276年,荷兰阿姆斯特丹,2007年7月。视图:谷歌学术搜索
b·马丁“剽窃:错位的强调,“期刊的信息伦理,3卷,不。2,p。1994。视图:谷歌学术搜索
侯赛因,“亚洲书写系统的复杂性:一个案例研究的Nafees青年'leeq乌尔都语,”学报》第12氨的年会E-Worlds:政府、企业和公民社会,亚洲媒体信息中心,新加坡,2003年6月。视图:谷歌学术搜索
m . Potthast b . Stein a . Barron-Cedeno p·罗索,“剽窃检测的评价框架,”23日计算语言学国际会议:计算语言学协会,第1005 - 997页,北京,中国,2010年8月。视图:谷歌学术搜索
c·h·李·c·h·吴,h·c·杨,“一个平台框架跨语言文本相似度评价和剽窃检测”第三届国际会议上创新学报》计算信息和控制ICICIC 08年p。303年,大连,中国,2008年6月。视图:谷歌学术搜索
z . f . Alfikri和a . Purwarianti”建设Indonesian-English交叉语言剽窃检测系统利用指纹识别技术,“Jurnal Ilmu Komputer丹Informasi,5卷,不。1,16-23,2012页。视图:出版商的网站|谷歌学术搜索
a . Aljohani和m·穆罕默德”Arabic-English跨语言剽窃检测使用筛选算法,”信息技术杂志,13卷,不。14日,第2355 - 2349页,2014年。视图:出版商的网站|谷歌学术搜索
h . Asghari k . Khoshnava o .法特米,h . Faili”发展中使用句子对齐的双语语料库剽窃检测平行语料库,”2015年《谱号2015年9月,图卢兹,法国,。视图:谷歌学术搜索
r . Kothwal诉Varma,“跨语言文本重用检测基于关键词提取和相似性等措施,”多语种信息访问南亚语言施普林格,页71 - 78年,柏林,德国,2013年。视图:谷歌学术搜索
·m·伊尔,Kruschwitz和c·福克斯,“创建语言资源资源不足的语言:方法和实验与阿拉伯语,“语言资源和评价卷,49号3、549 - 580年,2015页。视图:出版商的网站|谷歌学术搜索
j .费列罗f·艾格尼丝、l . Besacier和d·施瓦布“多语言、风格和多粒度数据集对跨语言文本相似度检测,”学报》第十版的语言资源和评估会议、Portorož斯洛文尼亚,2016年5月。视图:谷歌学术搜索
p·e·科恩,“平行语料库统计机器翻译,”美国太峰会5卷,第86 - 79页,普吉岛,泰国,2005年9月。视图:谷歌学术搜索
c·k·肯特和n .萨利姆“剽窃检测、基于Web的交叉语言”学报第二次国际会议上计算智能建模与仿真(CIMSIM),页199 - 204,巴厘岛,印度尼西亚,2010年9月。视图:谷歌学术搜索
m . Franco-Salvador p·罗索,m . Montes-y-Gomez”知识图分析的系统研究跨语言剽窃检测”信息处理与管理,52卷,不。4、550 - 570年,2016页。视图:出版商的网站|谷歌学术搜索
s t·杜·m·l·利特曼,t . k .蓝”自动跨语言信息检索利用潜在语义索引”跨语言信息检索51 - 62页。Springer,波士顿,MA,美国,1998年。视图:谷歌学术搜索
k . Kishida“跨语言信息检索的技术问题:审查,”信息处理与管理第41卷。。3、433 - 455年,2005页。视图:出版商的网站|谷歌学术搜索
m·哈根m . Potthast b·斯坦,”源检索的剽窃检测大型web全集:最近的方法”2015年《谱号2015年9月,图卢兹,法国,。视图:谷歌学术搜索
e . Stamatatos m . Potthast f·兰格,p .罗索和b·斯坦”的概述PAN /谱号2015评价实验室”国际会议的程序跨语言评价欧洲语言的论坛图卢兹,页518 - 538年,法国,2015年9月。视图:谷歌学术搜索
m . Potthast a . Barron-Cedeno b·斯坦和p .罗索,“跨语言剽窃检测”语言资源和评价,45卷,不。1,45 - 62年,2011页。视图:出版商的网站|谷歌学术搜索
r·斯坦伯格b .利康a Widiger et al .,“JRC-Acquis:多语种对齐的平行语料库和20 +语言”https://arxiv.org/abs/cs/0609058。视图:谷歌学术搜索
z Ceska、m .托曼和k . Jezek“多语种剽窃检测”人工智能:方法论、系统和应用程序施普林格,页83 - 92年,柏林,德国,2008年。视图:谷歌学术搜索
哈尼夫,r·m·a .英国人a . Arbab h .贾姆希美国Riaz来说,欧盟姆尼尔,“跨语言Urdu-english(线索)文本对齐语料库”2015年《谱号2015年9月,图卢兹,法国,。视图:谷歌学术搜索
a . j .头部和m·b·艾森伯格,“今天的大学生使用维基百科学术研究”第一个星期一,15卷,不。3,2010。视图:出版商的网站|谷歌学术搜索
Martınez,“维基百科使用的墨西哥学生。不断使用复制和粘贴”2009年美国媒体国际布宜诺斯艾利斯,阿根廷,2009年8月。视图:谷歌学术搜索
a . Barron-Cedeno p·罗索,s l·戴维·克劳夫和m·史蒂文森,“Pana火:概述印度跨语言文本重用检测竞争,”多语种信息访问南亚语言施普林格,页59 - 70年,柏林,德国,2013年。视图:谷歌学术搜索
g .法官“剽窃:一起将经济学和教育(帮助一下),“计算机在高等教育经济评论(虚拟版)卷,20,第21到26 2008页。视图:谷歌学术搜索
d·l·麦凯布”,学院和大学学生中作弊:北美的角度来看,“国际教育期刊的完整性,1卷,不。1,2005。视图:谷歌学术搜索
c .公园”(人民)的话说:剽窃大学students-literature和教训,”高等教育评估和评价,28卷,不。5,471 - 488年,2003页。视图:出版商的网站|谷歌学术搜索
p·克劳夫m·史蒂文森,“开发一个语料库的抄袭短答案,“语言资源和评价,45卷,不。1,5-24,2011页。视图:出版商的网站|谷歌学术搜索
j . Nair, k . Krishnan, r . Deetha”一个高效的英语,印地语使用混合动力机器翻译系统机制,”诉讼的进展国际会议上计算、通信和信息(ICACCI)斋浦尔,页2109 - 2113年,印度,2016年9月。视图:谷歌学术搜索
e . m .犹豫m .钟m . l . Chen t . a . Trikalinos和l . k . w . Chang”评估谷歌翻译的准确性,允许从试验数据提取发表在英语语言中,“卫生保健研究和质量(美国),罗克维尔市,医学博士,美国,2013年,报告没有:12 (13)-EHC145-EF。视图:谷歌学术搜索
m·维拉·m·a·马蒂·h·罗德里格斯:“这是一个解释吗?什么样?释义边界和类型学”,开放的现代语言学的杂志,4卷,不。1,第218 - 205页,2014。视图:出版商的网站|谷歌学术搜索
m . Sharjeel r·m·a .英国人,p . Rayson”计数器:乌尔都语新闻语料库文本重用”,语言资源和评价,51卷,不。3、777 - 803年,2017页。视图:出版商的网站|谷歌学术搜索
r·m·a .英国人“Mono-lingual改写文本重用和剽窃检测,”谢菲尔德大学,谢菲尔德,英格兰,2012年博士论文。视图:谷歌学术搜索
s . Sameen m . Sharjeel r·m·a .英国人p . Rayson i Muneer,“测量乌尔都语语言的简短文本重用。”IEEE访问》第六卷,第7421 - 7412页,2018年。视图:出版商的网站|谷歌学术搜索

科学的规划