TY - JOUR A2 - García-Díaz, Vicente AU - Haneef, Israr AU - Adeel Nawab, Rao Muhammad AU - Munir, Ehsan Ullah AU - Bajwa,伊姆兰萨瓦尔PY - 2019 DA - 2019/03/17 TI -设计和开发的大型跨语言剽窃Urdu-English语言语料库对SP - 2962040六世- 2019 AB -跨语言剽窃发生在源(或原始)文本(s)是一种语言和抄袭的文字是用另一种语言。近年来,跨语言剽窃检测引起了研究团体的注意,因为通过在线数字资源库和机器翻译系统,可以很容易地获得多种语言的大量数字文本,使跨语言剽窃更容易,更难发现它。为了开发和评价跨语言抄袭检测系统,需要标准的评价资源。早期的研究大多为英语和其他欧洲语言对开发了跨语言剽窃语料库。然而,对于乌尔都语-英语语言对,虽然有大量的数字文本是现成的乌尔都语,并在世界上许多国家使用(特别是在巴基斯坦,印度和孟加拉国)跨语言剽窃检测的问题没有得到彻底的探索。为了填补这一空白,本文提出了一个大型的乌尔都语-英语语言对基准跨语言语料库。提出的语料库包含2,395对可疑源文档对(540对自动翻译,539对人工释义,508对人工释义,808对非抄袭)。此外,我们提出的语料库包含三种类型的跨语言示例,包括人工(自动翻译和人工释义)、模拟(人工释义)和真实(非抄袭),这在跨语言语料库的开发中尚未见报道。 Detailed analysis of our proposed corpus was carried out using n -gram重叠和最长公共子序列方法。使用Word组合图,自动翻译、人工改写、人工改写和非抄袭文档的平均相似度得分分别为1.00、0.68、0.52和0.22。这些结果表明,提出的语料库中的文档使用不同的模糊技术创建,使数据集更加真实和具有挑战性。我们相信,本研究开发的语料库将有助于促进对乌尔都语这一资源不足的语言的研究,并将有助于开发、比较和评价乌尔都语-英语语言对跨语言剽窃检测系统。我们提议的语料库是免费的,可公开用于研究目的。JF -科学编程PB - Hindawi KW - ER -