文摘

混合脚本识别是自动自然语言处理系统的障碍。不同语言的混合草书是一个挑战,因为NLP的词类和词义消歧方法受到嘈杂的文本。本研究解决的挑战混合脚本识别为混合代码数据集组成的罗马乌尔都语,印地语,Saraiki,孟加拉语和英语。语言识别模型训练使用词向量化和RNN变体。此外,通过实验调查,不同的体系结构进行了优化相关的任务久短期记忆(LSTM),双向LSTM,封闭的复发性单元(格勒乌)和双向封闭的复发性单元(Bi-GRU)。实验取得的最高精度90.17 Bi-GRU,应用学到的字类特性随着嵌入手套。此外,本研究解决相关问题的多语言环境,如罗马词与英文字母合并,生成拼写和语音输入。

1。介绍

计算所被定义为“语言的嵌入组件(如短语,单词,和词位从一种语言到另一种语言的表达。“计算所是指语言单位的使用来自不同语言的单词、短语、从句在句子层面。一个或多个语言结合起来形成一个理解新的语言。这种混合的语言被称为熔融收。“代码转换”被认为是不受监管的选择由语言学家,也被称为“语言混合,”或“融合收”在这种情况下,语法是刚性的。

两个或两个以上的语言之间的转换语言盛行的地方,从两种语言在句子可能变得普遍。而不是转换代码在语义或sociolinguistically重要点,这个计算所没有特定值的直接环境。因为他们是完全grammaticalized,融合各种收允许低于混合语言因为他们的语义和语用。融合选确定哪些所谓的语法部分可能包含在融合。它是观察在非正式场合,就像一般的社交媒体。丰富的社交媒体平台可供人们沟通,code-mixed数据提供给我们的配额是巨大的。社交媒体的内容共享的讨论通常是混合风格和拼写错误的原始版本的单词。词类和命名实体识别因吵闹的输入。此外,社交媒体用户经常利用混合脚本的罗马文本。

罗马脚本的使用导致了一代的非正式的混合语言融合两种或两种以上的语言。这种现象是观察在社交媒体上。多语言用户使用罗马与英文字母脚本,从母语冷漠和解释特定的视图。例如,“Rahat吃咽峡炎和丽塔玩。”这里的“绞痛”一词意味着葡萄用英语借用印地语和英文字符的修改。这种情况下复杂的处理和被认为是噪声数据在NLP系统(1]。

本研究解决发展中问题的文本分类器的功能是检测多个混合脚本独立的域和语言。成功的文本分类,各种基本文本转换,特性,权重参数,和四个深学习分类器分类编排在一起成一个单一的系统。metaheuristic用于搜索空间,其中包含所有可能的组合不同的文本转换功能,具有各自的参数和参数加权过程找到配置生产高效混合脚本识别。这个模型选择过程采用在这项研究中被描述为hyperparameter优化。

看着小文本片段从各种语言是决定语言的关键。混合脚本的工作,包括像Hindi-English-Bengali草书和正常,罗马乌尔都语,Saraiki,是由使用递归神经网络(RNN) variants-based方法使用手套的嵌入和词类的功能。具体来说,我们培训了300名维全球向量和增强mixed-script句子code-mixed数据从其他来源增加训练字嵌入的鲁棒性。这两个特性相结合的技术工程(CFE)作曲手套和赢得特性被训练和测试系统。工作语言使用CFE code-mixed文本识别是一个新颖的方法识别复杂的脚本的情况下也能进行文字是用罗马字母书写。工作的动机在语言识别code-mixed文本使用CFE是一种新颖的方法来识别混合脚本的情况下也能进行文字是用罗马字母书写。因此,数据集组成的五种不同的语言(3草书和2 noncursive)是选择有效的验证方法

本研究是探讨的意义(1)两种字嵌入;(2)四个分类器(LSTM Bi-LSTM,格勒乌和Bi-GRU);(3)各种深层神经网络架构;(4)不同hyperparameters找到的最优值的最佳语言检测mixed-script数据集组成的罗马乌尔都语,英语,Saraiki,北印度语和孟加拉语的语言。在参数优化过程,结构和款hyperparameter值自动调整。

本文组织如下。部分2是关于混合脚本识别的相关工作。复发性神经网络混合脚本的优化架构识别提出了部分3。节4,实验和结果描述。部分5包括讨论。和部分6本文的结论。

字嵌入和神经网络方法对各种code-mixed语言分类任务取得了令人印象深刻的成果(2]。字嵌入已经流行在理解词语在实值多维向量空间。它指的是给定的向量表示数据捕获数据中的词之间的语义关系。流行词嵌入功能,如手套用于代表每个单词,而复发性神经网络及其变体(3- - - - - -6)神经网络的自然延伸加工顺序(或部分序列)的数据,如自然语言。个人意见表达社交媒体作为一种沟通的手段使用混合在写代码。因为很难切换不同的键盘接口,这个计算所是用相同的字眼写脚本的多数。

英语和印地语之间的计算所在Facebook上的帖子进行了分析研究[7]。他们分析了罗马脚本识别的难度。机器学习算法提出了解决问题的标签文字与语言标识符在最近一段时间。语言识别工具(比如langid。py (8)解决这个问题,并使用不同的分类算法在句子层面上解决问题。许多方法被使用在9- - - - - -12)处理的问题分类计算所通过使用不同的框架,如n克(13),Malayalam-English Bi-LSTM和Hindi-English资讯用于(14,15),词类(POS) [16在多种语言对,隐马尔可夫模型(17),结合支持向量机和控2等)应用于code-mixed语言对西班牙英语(18],Dutch-Turkish [19],Maltese-English [20.),仙摩洛哥(Darija)阿拉伯语,法语21[],现有标准Egyptian-Arabic方言22],English-Mandarin [23,24],English-Malay [25]。Balazevic等人在26)提出了特定于用户的信息的集成增强Twitter数据集的识别在16种语言。此外,(27]在Hindi-English-Bengali表现语言检测。他们与线性SVM使用内核使用词的上下文特征,minimum-edit基于距离权重,基于字典的重量、n克的重量。该系统提出了(28];语码转换在西班牙语英语和尼泊尔英语标识。这些特性包括单词长度、大写字母字符n3、上下文信息和基于字典的功能。

深度学习是基于神经网络如复发性神经网络(RNN)及其变种像长短期记忆(LSTM)和双向LSTM用于code-mixed语言的识别提出了(26]。工作English-Hindi和英code-mixed文本基于微博使用Bi-LSTM word-characterizing快速文本。通过条件随机域分类(crf)提出(29日]。一个LSTM(长期短期记忆)提出的神经网络与CRF (30.]因为语言检测代码转换转换字符的特征n克和形态。另一个实验中使用格勒乌和LSTM多语种文本识别与机器学习模型和实现更好的性能使用格勒乌[31日]。因此,努力赢得相关功能集中在重复相同的字符替换一个字符(32]。另一个工作(33]深上优于架构代码作者识别系统(DL-CAIS)提出了34)协助大规模language-oblivious,使用与RNN TF-IDF识别。不同的来回转换度量的多语种语言识别进行了探讨(35]。嵌入式特征与文本相关的语义信息进行调查。字嵌入用于识别的程度积极的文本,包括提取和编码。为此,手套向量是利用(36)提取的向量表示。另一个工作,信息检索系统(37),专注于基于英语和汉语的双语code-mixed搜索查询数据集。利用Word2vec由[38)通过pretrained嵌入递归神经网络模型与英,English-Nepali code-mixed语言。

完成的工作(39)取得了可靠的精度在许多技术和报道不同的多语种语言识别神经网络中存在的问题,如词序、生成拼写,语音打字。要解决这些问题,优化学习算法通过字嵌入使用手套和赢得特性是利用。不同的功能组合然后送入架构找到一个递归神经网络的分类模型进行了优化。我们最好的知识,可以处理顺序递归神经网络的信息和长期依赖性其次是手套和词类特征有效地实现所需的结果。

3所示。语料收集和数据统计

在这项研究中使用的数据集是一个复杂的数据集有一个很好的混合草书(印地语,孟加拉语,Saraiki)和noncursive脚本(英语和罗马乌尔都语)表所示12。从不同的社会媒体平台获得的数据集(Twitter, Facebook, Whatsapp)。不同的Facebook帖子收集使用Facebook API创建一个基于java的应用程序时对Twitter的API集合的tweet来自Twitter从指定账户在当地语言。为此,Tweepy是用于读取Twitter流应用适当的过滤器后标签和地区。Saraiki和罗马乌尔都语等语言,数据收集方法随机Whatsapp组和Facebook群组。English-Hindi English-Bengali收集以同样的方式。收集后的语料库,数据是使用手动标记化的Java开发的编译器。本手册记号赋予器的修改版本CMU记号赋予器(40]。CMU记号赋予器开发的英语。然而,修改为使用罗马乌尔都语,印地语,Saraiki。之后,令牌手动标记与各自的语言使用两种不同的注释器。冲突的语言学标签从数据集,最后在以下描述数据集的统计数据。

3.1。组合框架混合脚本识别
3.1.1。测试数据清理

在这项研究中,文本数据的无标号数据从各种来源收集效率有嘈杂的数据验证框架。因此,在不同的步骤通过删除标签文本预处理,HTML标记,变音符号和其他不重要的迹象。这些都是测试数据进行清洗。此外,执行预处理对主要的文本和HTML标记。一个单独的模块开发的基于自然语言工具包(NLTK)和Sci-Kit学习功能。正则表达式是用来清洁提到对象和标签在解析给定正则表达式并以结构化的形式排列。然后分为预处理数据集特征和标签集利用SCI-KIT学习。不同算法的性能评估预处理和未经加工的噪声数据。

3.2。方法

的性质和结构数据集(在部分3)允许使用监督机器学习(41)方法该方法的训练和测试。提出的问题是multilabel文本分类问题制定如下:

对于一个给定的数据集D组成的不同实例(d1,d2,d3、…dn}与定义在一组不同的类标签l= {l1,l2,l3、…ln}。每个实例d与一个类标签吗l。因此,关系D一对一的关系了吗l导致单标牌分类。目标是深入学习分类器训练数据集D找到准确的标签l其中每个d对应于l完全一次。不同的词的分类器实现款嵌入的探索结果,找到一种有效的技术。嵌入的核心问题是正确的选择方案,向量类型、分类算法、神经网络的架构,hyperparameter值。因此,实验集中在以下几点:(我)字类特性和全球向量化(手套)组成的非正式的测试输入n蟋蟀向量。它可以处理也拼错的单词和消歧问题。(2)LSTM [42],Bi-LSTM [43],格勒乌[44],Bi-GRU [45]研究了分类器与一维卷积(层)。这些分类器可以处理连续数据来克服递归神经网络的短期记忆问题。因此,消失梯度RNN的问题解决在这些分类器。LSTM和Bi-LSTM遵循文本处理的同时向前流,向后流。因此,文本在当前时刻的影响文本语料库与准确性被这两个分类算法。(3)格勒乌没有细胞状态LSTM因此寻求影响力的词序列(n克)。另一方面,Bi-GRU包含两个封闭的复发性单位。一个处理顺序输入的转发,而另一个是落后的方式。(iv)深层神经网络架构如图1,由不同的参数值如下:(一)隐藏层数(简单LSTM / Bi-LSTM或堆叠LSTM / Bi-LSTM](b)计数的神经元网络结构(100 - 400)(c)辍学参数(通常+ 0和+ 1之间)(d)的激活函数(softmax ReLU)(e)不同的优化器(亚当,AdaGrad)(f)批处理大小(通常16、24、32和64)(g)时代计数(10 - 50)因此,可用的选项调整准确的神经网络结构成为巨大的。专家就难以依靠其预定的知识选择的参数。参数调优执行使用Hperas库(46自动)。以下两个算法迭代寻找优化值的100倍。(h)Parzen估计量(47)是用来调整hyperparameters状的方式。通过提出命令调用估计量。Parzen估计迭代遵循贝叶斯建模方法确定参数的值在一个预定义的分布。(我)一个随机估计量(随机显示)是用于调优参数随机给定组hyperparameters上。(j)两种算法实现使用Keras [48]和TensorFlow [49在python中。

3.2.1之上。递归神经网络的体系结构

本节解释的框架提出了混合脚本识别RNN架构。它包括数据预处理、词向量表示利用手套一起赢得特性,和递归神经网络。完成了其变异LSTM Bi-LSTM,格勒乌,Bi-GRU。(我)数据预处理是第一阶段,其中包括使用手套和词类特征向量表示。(2)表示为分类如图RNN架构2

3.2.2。词以赢得特征向量表示

使用短语嵌入一个典型的模式是利用手套训练模型和生成正确嵌入向量表示。这些短语都是通过手套(36],pretrained嵌入,包括2 b tweet, 27 b令牌,1.2词汇,外露的,200维向量code-mixed语料库。手套是一个全球性的日志双线性回归模型的无监督学习单词表示。该模型遵循全球word-word共生的计数统计。一个单词出现在一个上下文的次数计算。对于每一个感兴趣的特定上下文中,全球同现概率计算。产生一个有意义的模型的帮助下词向量空间及其子结构的结果。手套提供更好的表示在其他无监督算法有更好的准确性而类比测试词,词相似,尼珥(36)情绪分析(50]。后来,我们归一化单词通过赢得特性(32]。此功能确保采取类似的结构。它存在于同一个类(例如,单词包含AAAAaaaa字符)。随后,赢得功能取代了重复字符转换成一个字符为Aa。这个特性健全人架构改进更好的表示。此外,它可以从语料库中提取有意义的单词。这种能力增强的性能评价指标相关code-mixed语言识别的任务。

3.2.3。递归神经网络

递归神经网络(RNN)的人工神经网络是一个类,在节点之间的联系形成一个有向图和时间集合。它构建在一个非线性和复杂的编码器版本,可以存储大量的信息。不同的前馈神经网络,RNNs可以使用他们的记忆输入的序列。RNN已用于多个语言处理应用程序,像问答51),语音识别(52],谈话建模[53),手写识别(54],语言建模[55),和机器翻译56]。尽管RNN更好的顺序信息,但它忽视了词序。RNN也被用于不同的领域,比如数学(57,58]。此外,RNN影响消失和梯度爆炸的问题59),导致模型的缓慢的学习和培训。这些问题得到解决,通过考虑它的变体,如LSTM封闭的工作机制。通过这些门,LSTM可以持有长期依赖和克服训练的问题。更多的变化在标准LSTM如Bi-LST [60],格勒乌[5],Bi-GRU [61年]发现足以解决提到的问题。

多空词记忆。长期短期记忆(LSTM)网络是一种适合学习请求依赖连续预测问题RNN的不同变体。LSTM是一个RNN网络反向传播算法训练的帮助下与梯度消失时间和解决问题59]。LSTM处理内存块与层。每一个块都有记忆的新序列和盖茨维护块状态和输出。控制块的条件有三门,如输入,忘了,应用于输入和输出序列通过与乙状结肠激活。

LSTM给输入通过隐藏状态/层和计算结果3)在以下表达式: 在哪里,f,o是输入,忘记和输出门,c是这些门的一个细胞。用的s形的函数 , 对于一个给定的输入 是一个隐藏的状态。

双向多空词记忆。双向多空词记忆LSTM (Bi-LSTM)是一种先进的类。LSTM Bi-LSTM也作用于相同的方法和识别工作的内容分组问题。多空词记忆(LSTM)在一个序列或前进的方向。根据(4,45,62年],Bi-LSTM可以捕获或计算两个方向的情况下,如即将到来的和以前的隐藏层。

逆向层:

转发层: 在哪里 是一个落后的隐藏状态, 隐藏的状态,和 结合以下(63年)向后和向前的Bi-LSTM层到一个层的结果。

封闭的复发性单元。一个封闭的复发性单元(格勒乌)关节LSTM变体,输入,和忘记门到一个更新门,它是基于纯LSTM相比LSTM和提供了一个更好的模型。格勒乌包含两个盖茨:第一个门是输入,第二个门格勒乌叫做忘记门(5]。

封闭的复发性单元(格勒乌)也关节细胞状态与隐藏状态由于其他变化。

在这里,r是重启门,u更新门, 是一个逻辑函数, 为隐藏状态,元素乘法用

双向封闭的复发性单元。的架构是一个双向格勒乌多空词记忆,尽管Bi-GRU比LSTM快,BI-LSTM,格勒乌和捕获能力的长期依赖。双向格勒乌保存的序列信息的能力增加双方的方向,像即将到来的和以前的6]。

在这里, 输出状态, 一个落后的, 在相反的方向。

此外,反向传播算法通过时间(BPTT)已经被用于神经网络的训练。在BPTT,错误处理重复连接后主要通过链式法则和误差反向传播(64年]。反向传播通过时间增加,召回数据很容易调用,它驻留在隐藏层和罕见的步骤。BPTT也计算可控最后得到梯度(65年]。

3.2.4。分类层

最后一层是分类层有一个逻辑回归函数的应用。这个函数将数据基于code-mixed语言。代表最小化的破坏性的对数概率,随机梯度下降法是利用66年]。在我们的工作中,输入被推的令牌作为基本层RNN变体LSTM, BI-LSTM,格勒乌,Bi-GRU字嵌入。它可以得到当前令牌信息作为初始和前面的即将到来。后获得的输出RNN的变异,它被发送到分类层语言识别计算所。

4所示。实验和结果

4.1。实验装置

在我们的模型中特征向量建筑是我们选定的数据集的分析。它需要测试的最佳参数在不同情况下的连续性。实验研究中对嵌入维数的分析,批量大小;时代,学习速率、过滤窗口,和这些最佳参数的辍学率集成中提到的表3。在允许和减少大型数据集分解成更小的部分在不同的训练场景,我们可以训练minibatches迅速在一个神经网络。

4.2。实验

所有的数据集分为训练集和测试集的两个师的培训LSTM网络。数据被分为80% -20%的比例同时训练和测试的目的。因为数据集从社交媒体网站获得具。因此,预处理前进行培训的目的。降维预处理期间执行。最后,输入和目标数组生成用于训练目的。在一个训练的例子,一个数组包含192个字符长度的向量。目标数组由目标语言标签。分类器构建、培训和测试进行的帮助下Keras图书馆。默认LSTM顺序根据给定的类被修改模型的不同的层。 Different classification algorithms are investigated with GloVe embedding with a two-parameter tuning algorithm.

均方误差函数定义了其学习性能和影响结果如图3。减少误差对于系统的效率是必要的。计算均方误差作为期望输出与实际输出之间的区别。在此系统中,所需的输出中所描述的数学模型,而实际的输出被定义为这两个变量的差别,计算均方误差。此外,在训练阶段,训练误差也观察到确认分类的性能。均方误差(MSE)是一个代表的培训和测试错误。MSE价值代表了不同的错误在训练和测试中使用的数据集的子集。

在实验期间,均方误差值观察下降迭代进步和MSE的最终价值被观察到的是0.01985,这是解释为一个好的价值估计的准确性。在表4提到的训练错误率,观察到减少作为其学习迭代系统的进展。

5描述和比较结果LSTM网络的性能。均方误差(RMSE)是衡量回归健康的数据集和计算残差的标准差。归一化均方误差(nRMSE)有助于模型不考虑单位的比较。测量nRMSE RMSE有关的数据。平均绝对误差(MAE)表示之间的平均误差预测和实际的估计。描述了MBE平均预测,帮助找到模型是否适合或underfits数据。R2是一个度量来描述实际和预测结果之间的相关强度。的值为1R2代表最强大的关系,0表示没有关系。更多的改善表示词,我们包括预定义赢得特性定义词的校正识别与手套。架构获得数据和执行数据集词词分析和提要表示成LSTM Bi-LSTM,格勒乌,Bi-GRU。之后,它被发送到分类层识别的语言,所有的结果都显示在上面的表。

结果显示在表中5- - - - - -8,手套实现与bi-GRU取得最高最大的精确度与随机估计量。最高的精度(即实现了。,0.825 for Saraiki-Roman Urdu mixed scripts). On the other hand, for the Parzen estimator, highest accuracy is achieved by Bi-GRU implemented on top of GloVe for Eng-Bengali scripts. It is observed that for the complex mixed scripts data (i.e., Eng-Hindi-Bengali-Roman Urdu-Saraiki with language count = 5) the accuracy achieved by all algorithms is lower than other scripts (for language count<5). Therefore, it is assumed that with the increase in language count, the accuracy of identification is adversely affected.

每个数据集的分析结果提出不同的模型。GloVe-WCF-LSTM模型达到最大精度Saraiki-Roman乌尔都语数据集,在图77.2%4模型结果与最小精度(即。,46。2forEnglish-Bengali-Saraiki-Hindi-Roman Urdu mix dataset). Figure5GloVe-WCF-Bi-LSTM模型描述结果,最大精度为英语Roman-Urdu数据集达到而English-Bengali-Saraiki-Hindi-Roman乌尔都语混合数据集达到最低69%的准确性。GloVe-WCF-GRU模型图的结果6描述,达到最大精度(89%)为Saraiki-Roman乌尔都语数据集而English-Bengali-Saraiki-Hindi-Roman乌尔都语混合数据集最小精度(即实现。,78.3%)。最大平均精度是通过GloVe-WCF-Bi-GRU模型,90.41%为Saraiki-Hindi数据集,为English-Bengali-Saraiki-Hindi-Roman乌尔都语混合数据集时,最小精度(即观察到。,85%在图7)。

5。讨论

不同的模型评估不同mixed-script数据集上找到一个优化模型款mixed-script文本数据的识别。这些模型实现与手套和赢得特性评估。可以看出培训G1oVe mixed-script数据集是最好的特别是当语料库包含多个草书脚本。通过使用手套向量和赢得特性,该模型可以有效地搜索和识别单词。手套与词的特性和功能训练在句子层面上表示。然后这些特性给出RNN变体顺序输入的顺序。此外,我们注意到,等评价指标模型的准确性不仅依赖于分类器还等众多因素特征提取器,梯度消失,尤其是语料库的大小,因为它增强了模型的整体性能。

我们所知,我们是第一个赢得那些使用功能与G1oVe正确识别单词的好处写在多语言方面。这种组合的特性,识别的单词有错误的拼写也处理超过两种语言组成的数据集。

在本文中,我们提出了优化达到最大款为mixed-script数据集语言识别的准确性。精度是比较preannotated测试数据集和计算结果输出。如果系统的输出(即。,detected language of text token by system) matches the preannotated language label in test dataset, the classification is considered as an accurate classification.

优化hyperparameter架构呈现在图1。训练数据集划分(80%)和培训。达到最高的优化模型(准确性)是测试数据集上实验评估。最高的平均精度达到GloVe-WCF-Bi-GRU模型的优化方法是呈现在图7。然而,并不是所有hyperparameters可以提出和策划。一些重要hyperparameters报告模型。Conv1层后,SELU激活函数。而致密层后,Softmax激活函数。与纳丹优化器优化批量大小是64和0.462辍学率。

关于RNN的总体时间复杂度变体LSTM时激活低噪音,Bi LSTM格勒乌,Bi-GRU用于保存和捕捉词序的远程通过手套当配备学习。此外,我们贡献赢得特性的有效表示文本。我们有我们的模型的另一个方面出现的相关的语料库作为嵌入这个词训练大全集(表现更好36]。然而,在我们的案例中,增强了分类性能微调数据的一个子集。通常,在神经网络中,大量的语料库的培训将提高模型执行特定于域的语料库相比在我们的例子中,从根本上提高单词的工作嵌入对培训有实质性的影响。另一方面,训练大全集要求额外的训练时间,这是一个可能的障碍限制性能。

此外,深度学习相当受到hyperparameters的配置。hyperparameters的设置的成本是昂贵的,当数据集很大。我们使用建议和随机显示算法优化hyperparameters Keras库。此外,还观察到,随机显示具有更好的优化结果相比,建议。并给出了性能结果表5,线性描述了评估拟议的架构。结果在表5表明,该结构可以有效地用于mixed-script的任务语言识别精度。

6。结论

提到的结果,与其他方法相比在表5中,6、7和8帮助评估的平均精度优化方法评估款混合脚本数据在多个模型。这是观察到的数量增加混合草书脚本语言的数据集,精度降低。而对于数据集与不同的草书脚本模式混合,更多的精度达到优化建筑款。例如,混合脚本数据集Hindi-Saraiki语言实现更多的准确性与Bengali-Hindi数据集相比增强的功能。同样,Roman-Urdu——Saraiki数据集达到更多的准确性与Saraiki-Bengali相比,Bengali-Hindi数据集。这种现象可能是由于不同的草书模式。此外,混合数据集组成的类似款的草书模式更难学习模型。这项工作是多语种脚本处理正在进行的研究的一部分。在未来,我们的目标是在进一步处理中使用这个工作多语种音译等多语种情感检测、识别和客户评论。

数据可用性

作者收集了Facebook帖子来自不同页;组使用IDM捕获器工具,创建一个基于java的应用程序在Twitter API的集合从Twitter微博从指定账户在当地语言。Urdu-Eng FB的尊重学生的文章收集GCUF Layyah校园1,ASR-Eng FB帖子来自Islamia巴哈瓦尔布尔大学(主校区)官员IUBianz Updates2, facebook帖子HIN-Eng3和BEN4。WhatsApp消息也被收集的数据集。Twitter微博收集包括@MamataOfficial、@imrankhanoffical @sujoy_g, @rituparnas11, @shahmehmoodqurashioffical, @virendersehwag,通过基于java的Twitter API5。他们还收集了罗马从Kaggle.com6 Urdu-Eng数据集。这些链接提供了这些语句。所有的链接都给如下:(1)https://www.facebook.com/groups/169698994948802;(2)https://www.facebook.com/groups/251190693255235;(3)http://www.facebook.com/Confessions.IITB;(4)https://www.facebook.com/JU-Confessions-1609256459297929/;(5)http://twitter4j.org/;(6)https://www.kaggle.com/smat26/roman-urdu-dataset

的利益冲突

没有利益冲突的出版本研究在所有的学者参与了这项研究。

确认

本研究支持的中国丝绸之路为外国学生奖学金项目。此外,作者要感谢尊敬的院长“任小姐”和老师的国际教育学院(SIE)以及中国丝绸之路奖学金考虑博士候选人和资金。提供的资金支持的研究是信息科学与技术学院,西北大学,西安,陕西、中国。资金包括运营成本和实验设置下丝绸为外国学生奖学金和陕西省重点研发项目:关键技术研究和开发数字博物馆和原型演示兵马俑博物馆(2019 zdlsf07-02)和马智慧以及陕西戏曲艺术表演技术集成系统开发和应用(2019 zdlgy10-01)。

补充材料

补充材料(例如,数据集或结果结果图)的形式从不同阶段提供的手稿。图形包括系统培训、验证和测试的结果所有RNN变体都包含在补充材料。(补充材料)