自适应语言处理基于云计算平台的深度学习

文摘

随着技术的不断进步,信息和知识传播的数量每天都在互联网上发展了好几次。与此同时,大量的双语数据还在现实世界中产生。这些数据为统计机器翻译研究无疑是一个伟大的资产。基于语料库dual-sentence质量检查,两个语料库筛查策略提出了首先,基于double-sentence一对长度比值法和基于定位信息的方法。这两个方法的创新是没有额外的语言资源,如双语词典和语法分析器需要作为辅助。不需要人工干预,质量差的句子配对可以自动选择并可以应用于任何语言。其次,提出了一种基于大规模语料库域自适应方法。基于大规模语料库的方法利用大规模语料库机制进行多畴的自动迁移模型。在这个域,每个域独立学习intradomain模型,和不同的域共享相同的一般模型。通过大规模语料库的方法,这些模型可以组合和调整,使模型更准确的学习。 Finally, the adaptive method of massive corpus filtering and statistical machine translation based on cloud platform is verified. Experiments show that both methods have good effects and can effectively improve the translation quality of statistical machines.

1。介绍

目前,基于语料库翻译系统依赖于大规模双语平行语料库,使用翻译模型来估计概率,并选择最终的翻译结果基于翻译概率。基于语料库的翻译方法的优势在基于规则的翻译方法,它不需要太多的人力和物质参与的建设模式。研究人员本身不需要掌握的语言专家水平的掌握两种语言。门槛不是很高,更感兴趣的学者和研究人员可以投资。根据具体的翻译策略,基于语料库的机器翻译可以分为statistical-based机器翻译和基于实例的机器翻译。statistical-based方法是当前机器翻译的主流方法。

统计机器翻译发展的早期阶段仅使用粗粒度的一些特性,如双向短语翻译概率(1- - - - - -3),双向词汇翻译概率(4)、词汇长度惩罚(5],短语的长度、惩罚[6,语言模型7),和序列模式8- - - - - -10]。许多系统只使用这些10 - 20特性完成翻译过程和使用最小错误率的培训(莫特)方法(11- - - - - -13体重调整)来执行功能。统计翻译模型的开发和广泛使用的大量的数据,研究人员发现,使用细粒度特性(14)可以进一步提高翻译系统的准确性。然而,使用大量的细粒度特性构成了巨大的挑战权重的调整功能。传统的莫特方法只能调整权重的许多特性但不能做任何事翻译系统与成千上万的特性。参考文献(15- - - - - -17)提出了一个基于max-violation感知器训练算法,并迫使解码(18),它可以用来翻译系统通过使用双语培训所有数据,大规模的区别的培训和支持数以千万计的稀疏特性。莫特和专业方法相比,这种方法可以带来非常显著的性能改进19,20.),并进一步最大化感知机训练方法的使用。层次短语翻译系统也取得了良好的结果。传统的统计机器翻译领域自适应方法通常为单个域迁移模型。例如,新闻语料库训练数据和测试数据是网络语料库。然而,大多数实际应用场景,需要同时对多个域执行模型迁移。例如,对于在线翻译服务,用户的输入通常是文本从各个领域,需要统计机器翻译模型自动根据实际输入过程。深度学习翻译的领域自适应的研究还相对较少,和现有的工作一直没有给出明确域标签。然而,实际的科技文献翻译经常面临多个专业领域,利用现有的知识来组织信息,如论文的关键词,科技词系统,和其他知识获得更清晰的语义标签,帮助把语料库更精细。

针对这个问题,本文主要研究了多畴的自适应基于大规模语料库的统计机器翻译方法在云计算平台。首先,提出了两个语料库筛选策略,基于double-sentence一对长度比方法和基于词对齐信息的方法。这两个方法的创新是没有额外的语言资源,如双语词典和语法分析器需要作为辅助。不需要人工干预,可以自动选择质量差的句子配对,并可以应用于任何语言。其次,提出了一种基于大规模语料库域自适应方法。基于大规模语料库的方法利用大规模语料库机制进行多畴的自动迁移模型。在这个域,每个域独立学习intradomain模型,和不同的域共享相同的一般模型。通过大规模语料库的方法,这些模型可以组合和调整,使模型更准确的学习。最后,大规模语料库滤波的自适应方法和基于云平台的统计机器翻译验证。实验表明,这两种方法都有很好的效果,可以有效地提高统计机器翻译质量。

2。大规模语料库筛查策略下的云计算平台

2.1。云计算平台框架

Hadoop分布式文件系统(HDFS)可以部署在大量廉价的机器储存tb和pb级的数据在一个高度容错和可靠的方式。它结合了MapReduce提供高通量数据访问模型。DFS的结构如图1。

我们可以看到在图1一个HDFS集群,由多个datanode NameNode,进行了讨论。DataNode的元数据和实际的数据。应用程序访问NameNode文件的元数据,和实际的I / O操作直接与DataNode交互。NameNode是主要的控制服务器负责管理文件系统的命名空间和协调应用程序访问文件,记录对名称空间的任何更改或修改它们的属性。DataNode负责存储管理的物理节点上的文件位置。HDFS是数据的特点是“编写一次,读过很多次了。“HDFS的文件通常是根据特定大小分为不同的数据块,每个数据块分散到不同的datanode尽可能多。除了完成文件的名称空间操作系统,NameNode还决定DataNode的数据块的映射。

2.2。大规模语料库筛查策略

统计机器翻译系统,直观的理解是,增加训练数据的大小可以帮助改善系统性能。大量的数据更容易获得比以往任何时候都在今天的信息环境。学者建立了知识库,如平行句子对由爬行双语和双语词典网页(21]。越来越多的语料来源,从多语言网站,类似的双语语料库,人工翻译文本,等等。平行语料库建设的规模已经很大,它可以用于统计机器翻译系统培训。太多的错误必须影响统计机器翻译系统,依赖于数据质量。针对这一事实没有质变在当前统计模型,有必要获得模型特性通过训练语料库。因此,为了培养一个高性能的统计机器翻译系统,有必要过程和屏幕的训练数据。在这篇文章中,两种方法用于过滤噪音句子对双语平行语料库:基于句子的方法对长度比和基于定位信息的方法。

2.2.1。基于句子长度比的方法

一般来说,一条语句翻译的长度应该与一定比例成正比。然而,大多数平行语料库包含不匹配的句子对长度的比例。这些句子对语料库通常是噪音。噪音现象引起的长度比包括单语错误,定位错误,包含未知的标记(html标签等)。这些现象被观察到,许多噪音句子对长度的比率不符合规律在实验语料库。表中列出一些示例1。


句子的例子	错误

(企业、事业单位等)转移到另一个系统	句子水平对齐方式是不正确的
法尔科壶或是胸罩;迟钝的猎鹰刃;	来源未知的标签
c & w就是;c和w就是;乡村音乐	未知的标签
1。(液体)结算,2。清晰;透明的	句子水平对齐方式是不正确的
受理	不正确的内容

为了消除这种对错误的句子,我们设定一个规则定义的长度比长度在哪里f是句子,e是目标句子,然后呢和在源和目标后的字数的句子。

基于长度的方法比通常是基于语言知识,和人为设置长度低于上限和下限。本文假定噪声句子在语料库是低于正常的句子配对;也就是说,存在一个连续范围的比率,这是大多数正常的句子对在这个范围内。因此,根据设置的阈值的统计分布特征长度比例;即句子对其长度小于总数过滤掉。这样做的优势在于阈值可以设置不同的语言对不需要特定的语言知识。

2.2.2。基于词对齐方法

这个词对齐的问题是寻找文字的对齐的任务在一个给定的两对。它是统计机器翻译的关键一步。这个词对齐模型研究了很长一段时间,人们用不同的方法对双语词对齐。从两个方向运行IBM模型和合并两个字对齐的结果。一般来说,十字路口包含相对可靠的校准点;即对齐点高度准确但不包含所有可靠的校准点;和组装包含大部分所需的对齐点;即召回率很高,但引入了额外的错误。善其对齐点附近其他对齐点。因此,该算法从调整的十字路口。 In the expansion step, adjacent alignment points located in the union but not in the intersection are added, and finally points that are not aligned in both directions are added. The pseudocode for this algorithm is given in Table2。

成长DIAG-AND-FINAL (e2ffle):

邻近= ((−1,0)、(0,−1),(1,0)、(0,1),

(−1−1),(−1,1),(1−1),(1,1))

对齐=相交(e2f f2e);

GROW-DIAGQ;最后(e2);最后(f2);

DIAL-ANDQ成长:

迭代,直到没有新的点补充道

英语单词e = 0、1、2…

对外国字f = 0, 1、2…跳频

如果(e与f)

为每一个邻近点(新生,对新):

如果(新生不一致或对新不一致)

(新生对新)在联盟(e2f f2e))

对新添加校准点(新生)

最后(a):

为英语单词新生= 0,1、2…

对新= 0…fn对外国字

如果(新生不一致或对新不一致)

(新生对新)在联盟(e2f f2e))

对新添加校准点(新生)

两个句子在语料库的位置是相邻的。噪音的发生这种情况的自动提取技术平行的句子,因为它是无法判断正确的句子对齐一对(正确的句子对齐对应< discountedant意见、不和谐的意见>,和< discondant意见>表中的第二句)。类似的情况已经发生很多次了在我们使用的语料库。

图2显示了两组句子的一致性矩阵对。如图2,它显示了两个单向比对的结果在英语和汉语,和右边的双向一致性矩阵grow-diag-and-final获得的算法。可以看出,两个单向排列的交集只有自由裁量权,不整合;也就是说,当grow-diag-and-final扩展被执行时,只有一个对齐结果,最初被认为是可靠的。扩张后,明显的错误定位的结果。这个错误不仅会影响的对齐质量本身,而且会影响规则提取的结果翻译系统。例如,在短语系统,上面的句子对提取的规则识别,不一致。这种翻译解码规则不发挥任何作用;即使译码器选择规则,它只会降低翻译质量。因此,类似的问题应该尽可能避免提高翻译的质量或减少规则集的大小。

为此,我们提出一个基于grow-diag-and-final扩展sentence-pair过滤方法的方法。我们考虑扩大数量的对齐结果EC和对齐结果的交叉定位IC。当扩展对齐结果超过一定量交叉排列的结果,我们认为对齐的结果是不可靠的。我们设置了过滤规则基于词对齐的扩展和使用的后判断这个词对齐结果是否可靠:

3所示。基于大规模语料库的统计机器翻译的适应

3.1。统计机器翻译的适应

本节介绍一个域自适应方法基于大规模语料库。我们的模型的主要想法是,培训主要分为三个步骤:首先,选择中的数据域是根据预先定义的域;第二,培训领域模型和通用模型构造的统计机器翻译系统;第三,使用大规模语料库技术使联合调整多个域名系统。

根据上述,这项工作的第一步是选择在域双语控制数据的双语翻译训练数据训练模型。因为单语数据在一个特定的领域可以获得大量,我们利用双语横截面数据选择的方法(22获得双语数据字段:

这个双语cross-entropy-based则倾向于选择一对句子更类似于域中的数据分布,但不同于一般的数据分布。因此,该方法认为句子搭配大叉差异应该被选中。

在第二步中,我们使用训练数据在选定的领域构建一个基于混合模型的统计机器翻译系统。具体来说,我们采用了混合模型的建立N机器翻译系统N预定义的字段;每一个都是一个对数线性模型。每个系统的最佳翻译结果f是由

对于每一个机器翻译系统,包括两个翻译模型和两种语言模型。特定字段的翻译模型是由选择的双语数据训练数据选择在前一节中介绍的方法,和一般的翻译模型域使用双语所有数据训练。语言模型,我们重用特定领域的特定语言和一般语言模型训练数据选择在前面的部分中。相比一个翻译系统,不做域迁移,这个系统与混合模型可以更好地平衡一般翻译知识和特定领域的翻译知识和可以受益于两个方面。

在第三个步骤中,需要调整不同的机器翻译系统的特征权重。安排的传统方法通常是针对一个单一的系统。本节中描述的方法作为翻译系统在不同的领域相关的翻译任务,和关节的框架下协调大规模的语料库。使用大规模语料库有两个原因:(1)特定领域的翻译系统同样的一般领域翻译模型和语言模型,和大规模的语料库机制可以更好地利用常见的翻译翻译任务在不同领域的知识。(2)通过迫使通用领域翻译模型和语言模型的行为相同的在不同领域,大规模语料库提供了一个规范化的机制以防止模型过度拟合。形式上,利用大量的语料库来调整参数的目标函数由以下公式表示:

为了能够有效地协调参数,我们提高了异步随机梯度下降算法来优化和借来的成对排名的想法用感知器算法更新特征权重。

我们第一次使用机器翻译系统生成N最佳翻译结果候选人(N最好),重新排序和组合成双的得分与光滑的蓝色句子水平。具体来说,类似于异步梯度下降算法,我们把N最佳翻译结果候选人分成三部分:最好的10%(高),中间的80%(中间),最差的10%(低)。这三个部分的翻译结果候选人用于二二排序,我们选择“高”,“中一个低”和“高一个低”结合成双,但不会选择两个相同的部分候选人组合配对。以这种方式构建样本的基本思想是,算法可以更好的辨别力区分高质量和低质量的翻译结果。

3.2。深神经网络融合模型

该算法基于领域知识使用显式离散领域知识的特点,和深度标记算法使用隐藏的深度学习的连续特性。句子域概率向量通过这两种方法是不同的。

基于领域知识的结合域标记算法和域贴标签机深度学习的基础上,基于顶层设计的多层感知器的深度融合的神经网络模型。架构如图3。句子的预处理标记主要是分词和篡改的过滤。预处理结果的输入知识域薄铁片和深度上优于域尾随者获得域知识深度学习的概率向量和概率向量。顶级深神经网络融合模型是一个两层感知器,和隐藏层是两个接收四维向量。神经元的激活函数,设置为ReLU(修正线性单元)的功能。

深混合神经模型通过这种融合将结合显性和隐形知识,结合离散特性和连续的优点特性,并使每个句子的概率向量和决策分类更准确。因此,在机器翻译领域的适应问题是更好的改善,以及翻译的数据在一个特定的领域,输出将会获得更高质量的翻译。

4所示。实验和结果

4.1。大规模语料库筛选实验验证

本文的实验部分运行在一个单独的服务器。特定的软件和硬件配置如表所示3。因为Hadoop安装一个独立的模式,实验结果的比较和分析关注的影响翻译质量的方法。


CPU	RAM (GB)	操作系统

英特尔(R)至强(R) 11 2.93赫兹	96年	Ubuntu 12.04.1

根据云翻译平台,双语平行语料库是一个广泛的来源,如翻译手稿完成翻译,正式出版双语材料,和多语言的自动提取网页。语料库的质量参差不齐。因此,为了测试方法是否有效,所选择的训练语料库主要从网络。它包含1937289年双语平行的句子作为训练集,它综合了多个字段的内容。英语语言模型使用新华社LDC2007T07的一部分,测试集,并开发集。测试集包含cwmt2011英国新闻审查,和nist02 nist08。表中列出的数据集是特别4。


语料库类型	语料库的名字	语料库的大小

训练集	web.ch-en	1937289句对

测试集	cwmt2011	1006句对
	nist02	878句对
	nist03	919句对
	nist04	1788句对
	nist05	1082句对
	nist06	1664句对
	nist08	1357句对
	LDC2007T07	9685593句对

在实验中使用的工具包括开源词对齐工具吉萨10 +,摩西开源统计机器翻译系统,开源irstlm语言模型训练工具,和中国ictclas分词工具。使用的翻译模型是短语模型,和摩西的参数使用标准的设置。

首先,我们计算长度的分布比率英汉句子的训练集,结果如图4。纵坐标表示句子的数量对,横坐标表示句子的长度的比值之间的英语和中文。我们可以找到句子的长度比一定的分布规律。当比率是1.0,这句话是最数量,有297341对的句子。图显示的最高点比(1.0)也相对较大数量的句子。验证我们的假设,两种语言的长度比例符合一个连续范围的法律。

如上面图所示,句子出现在语料库的对比价值0.1 - -66.0是由于噪声和域的影响差异。我们使用训练语料库用于统计。%的比较值。06% falls within the range of 0.4–3.8. Even in the range of 0.5–4.5, there is still 90.11% of the sentence pairs. To this end, we screened the corpus training comparison system for the different ratio ranges of more than 90% of the total corpus and compared the BLEU scores of the systems on the test set. As shown in Table5总数的百分比的统计分布语料库对在不同的比率范围上市。第一行代表使用的语料库,剩下的线表示句子的数量对包含在不同的比率范围和语料库的百分比。表5显示句子对留存的数量和总数的比例语料库当ER过滤器不同对句子。得分越高,更好的词对齐的效果,我们认为结果更可靠。基于词对齐信息筛选语料库的方法,我们考虑两种情况:使用过滤后的句子对齐单词再培训,然后让翻译模型;直接使用过滤后的句子配对和训练翻译模型对齐信息。在第一种情况下,过滤噪音信息可能影响这个词对齐概率的计算迭代过程中字对齐。重新过滤后可以改善这个词对齐质量和提高翻译的效果。在第二种情况下,我们使用ER保留词对齐,被认为是可靠的,所以重述对齐或不同的对齐结果可能发生由于词对齐概率的变化,以及在这些结果可能存在不可靠的校准结果。实验结果如表所示6。


t	率范围	数量的句子	百分比(%)

0.000	03 - 2.0	1911491年	One hundred.
0.004	0.4 - -2.0	1876177年	98.15
0.005	0.4 - -1.8	1867066年	97.68
0.010	0.4 - -1.7	1837419年	96.12
0.012	0.5 - -1.7	1814507年	94.93
0.014	0.5 -i.b	1791698年	93.73
0.020	0.5 -i.5	1764233年	92.30
0.022		1722475年	90.11


呃	cwmt	nist	nist	nist	nist	nist	nist
呃	2011年	02	03	04	05年	06	08年

	22.87	30.11	28.31	29.44	27.93	24.02	18.87
>−0.5	23.00	30.03	27.87	29.53	27.59	24.30	19.06
>−0.4	22.94	30.43	28.05	29.37	27.65	24.35	19.02
>−0.3	23.21	30.64	28.41	29.52	27.47	24.09	19.20
>−0.2	23.11	30.36	28.16	29.45	27.64	24.08	19.40
>−0.1	23.56	29.59	28.21	29.93	27.14	24.42	19.91

从实验结果可以看出,蓝色的每个测试组在这两种情况下改进。整体效果而言,最好是不要再培训一词对齐。然而,在这两种情况下,改善影响nist03和nist05测试集不是很明显,重述的影响比对nist03上略优于后者,nist45正相反。使用ER来确定是否可靠这个词对齐。ER低于给定的阈值时,我们认为句子的词对齐结果对总体上是不可靠的。我们将过滤掉的句子,即句子配对。所有校准信息被删除。事实上,在句子的词对齐结果,会有一些正确的词对齐信息;也就是说,正确的词对齐信息也同时删除错误对齐信息删除。尽管错误的信息不是有用的翻译任务,正确的信息被删除可能有利于翻译任务。 Therefore, there is also the possibility of reducing the BLEU score.

如图5从过滤后的句子,我们发现一个实例来说明。厚的实线的图是两个一致的方向的十字路口,细实线是正确的扩展对齐的结果,和虚线扩展对齐的结果是错误的。这句话在图4是正确的,但其定位信息是不正确的;只有部分对齐是正确的,它的ER值−0.22;可以看出有一些正确的词对齐信息,这部分信息可以提取。一个规则促进了翻译。因为ER价值低于给定的阈值,所有的句子对齐信息对过滤掉,但正确的信息过滤掉,所以有一个翻译质量退化的问题。

4.2。自适应实验验证基于大规模语料库的统计机器翻译

我们比较不同搜索文档和隐层长度的影响翻译系统的准确性。结果如图所示6。

如图6,我们发现,对于大多数的结果,获得了最佳的翻译准确性当检索文档的数量N= 10。这个结果证实了扩展源语言输入的信息检索确定主题信息很有帮助。它扮演着一个重要的角色在翻译的选择规则。然而,在实验中,当N例如,大N= _50翻译性能大大降低。这是因为随着检索文档数量的进一步增加,topic-independent文件的引入到神经网络将介绍,无关的和无关紧要的文件将带来真正的单词,从而影响神经网络学习的性能。

在图7可以看出,当l很小,翻译系统相对准确。事实上,在的情况下l< 600年翻译性能的差异很小。然而,当l= 1000,翻译准确度比其他情况下。主要原因是神经网络参数的数量是如此巨大,以至于不能深入研究。我们知道,当l= 1000,有100000×1000参数之间的线性和非线性层网络。当前训练数据规模并不足以支持这个网络参数水平培训,所以该模型可能会陷入局部最优和不可接受的话题表示信息。

如图8,我们发现主题相似性特征在源语言方面略比目标语言区系统的相似特性,以及他们带来的增强可以累积,这意味着基于双语数据的神经网络训练可以帮助统计机器翻译系统翻译结果候选人执行更好的消歧。此外,基于相似特征,翻译的话题敏感性特征规则可以带来更多的性能改进,因为特定主题的翻译规则通常更敏感,当相似是相似的。系统倾向于选择特定主题的翻译规则而不是一般的翻译规则。最后,我们看到我们的方法执行最佳使用所有相关话题特性时,平均为0.39高于LDA-based蓝色点方法。

如图9,我们使用信息检索的方法来扩展原始输入,从而避免限制双语章节。我们用神经网络建模技术话题。该算法更为实用和具有良好的可伸缩性。深度学习的框架下,我们的方法直接优化双语主题相似,所以学习主题表示可以很容易地集成到统计机器翻译。

4.3。域标签的性能

使用的数据集的数据域垂下物;1%是随机选择的测试数据域标签性能实验。选择的训练数据训练深度学习从剩下的数据集的大小的99%。同时,域贴标签机基于领域知识和训练有素的深度学习领域贴标签机用于标签测试数据获取类别和概率向量,然后只是线性融合的结果。最高的类别选择概率的概率向量作为最终判断类别,这判断类别作为统计依据准确率和召回率F1的值。四个subexperiments执行。结果如表所示7。结果表明,仅使用领域知识薄铁片会导致判断错误和遗漏由于缺少自建领域知识库功能的话,分数不高,但判断效率高;只使用深度学习领域薄铁片需要大量的训练数据属于挖掘隐性知识和连续的特性,但训练是缓慢而不结合先验知识;简单线性融合模型线性化的概率向量前两个等等。


	领域知识	深度学习	简单的线性融合模型	深度融合模型

精度	0.85	0.9185	0.898	0.947
回忆	0.76	0.95	0.886	0.9345
F1值	0.7633	0.9531	0.8936	0.942

比例加权结合显性和隐性知识,但这个简单的融合是很难提高的大部分误判和错失的判断并没有大大提高;最后的神经网络深度融合模型是通过多层神经网络加深。集成,充分发挥两者的优势,极大地减少了错误和遗漏的现象,显著提高。

5。结论

当训练语料库很小,一些对训练句子相关测试文本可能过滤掉,这将影响到翻译的质量。但是,当训练数据是足够大的,这样的问题不会发生。除了学习领域模型为每个域独立,不同的领域共享相同的一般模型。通过大规模语料库的方法,这些模型可以学习相结合,使模型更加准确。实验结果表明,该方法可以显著提高翻译的准确性多个字段在大型机器翻译任务。此外,这个关节的性能调优方法比独立模式迁移。同时,这个结果可以很容易地应用到在线翻译系统,培训不同模型预定数量的字段,确定域根据输入源语言文本,并选择相应的域模型或一般的翻译模式。实验结果还表明,当不存在这样的问题,本文的方法可以有效地提高统计机器翻译系统的翻译质量。

在这项研究中需要改进的工作如下。(1)考虑的领域自适应机制是放置在人类神经机器翻译的架构。计算不同域向量,改善注意力机制,使域自适应。(2)如何集成深度学习方法和先验知识来提高系统的性能将研究在自然语言处理的各个方面。稍后,我们将尝试不同的方法在神经机器翻译中国和加拿大先验知识领域为不同领域提高翻译质量。如何集成深度学习方法和先验知识来提高系统的性能将是未来需要研究的问题。在那之后,我们将尝试添加神经机器翻译领域的先验知识以不同的方式来提高不同领域的翻译质量。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

引用

c . m . y . Liu疯人,p . k . Wong“极端的学习机器的巨大的假设评估统计机器翻译,“认知计算,9卷,不。2、285 - 294年,2017页。视图:出版商的网站|谷歌学术搜索
杨朱,y,麻省理工学院,x,和l .王”基于双语语料库选择Uyghur-Chinese机器翻译句子报道,“中国科技大学杂志》上卷,47号4、283 - 289年,2017页。视图:谷歌学术搜索
k金,E.-J。公园,黄永发。Shin O.-W。Kwon, Y.-K。金,“Divergence-based好修剪phrase-based统计翻译模型,”电脑语音和语言41卷,第160 - 146页,2017年。视图:出版商的网站|谷歌学术搜索
美国香肠、m . Shamsfard和s . Khadivi Phrase-boundary模型统计机器翻译,“电脑语音和语言卷,38 13-27,2016页。视图:出版商的网站|谷歌学术搜索
j . j .商j . Liu孟et al .,“自动挖掘从大规模文本语料,”IEEE知识&数据工程,30卷,不。10日,页1 - 15,2018。视图:出版商的网站|谷歌学术搜索
f·s . Al-Dohuki y Wu Kamw et al .,“SemanticTraj:新方法与大规模出租车轨迹,互动”IEEE可视化和计算机图形学,23卷,不。1、11日至20日,2017页。视图:出版商的网站|谷歌学术搜索
f·s·Al-Anzi和d . Abuzeina”向一个增强的阿拉伯语使用余弦相似性和潜在语义索引的文本分类,“沙特国王大学计算机与信息科学杂志》上卷,29号2,34-45,2017页。视图:出版商的网站|谷歌学术搜索
m . c .情郎和j·m·科尔,”ChemDataExtractor:工具箱进行自动提取从科学文献的化学信息,“《化学信息和建模卷,56号10日,1894 - 1904年,2016页。视图:出版商的网站|谷歌学术搜索
瞿y,问:姚明,和h,“VISTopic:视觉分析系统进行的大型文档集合使用分层主题建模、”视觉信息,1卷,不。1,45-57,2017页。视图:出版商的网站|谷歌学术搜索
j·p·a·埃尼迪斯,正把“再现性战争:成功,不成功,无法翻译的准确,概念,三角,有争议的复制,“临床化学,卷63,不。5,943 - 945年,2017页。视图:出版商的网站|谷歌学术搜索
m . Rahnemoonfar g·c·福克斯·m·雅里和j .派登“自动冰表面和底部边界估计在雷达图像基于水平集方法中,“IEEE地球科学和遥感,55卷,不。9日,1 - 8,2017页。视图:出版商的网站|谷歌学术搜索
j·托马斯和a . Zaytseva”映射复杂/人类知识作为一个复杂的自适应系统,”复杂性,21卷,不。S2, 207 - 234年,2016页。视图:出版商的网站|谷歌学术搜索
f . Baertling b . Alhaddad a Seibt et al .,“新生儿encephalocardiomyopathy由突变引起的VARS2”,大脑代谢疾病,32卷,不。1、1 - 4,2016页。视图:出版商的网站|谷歌学术搜索
m·a·Raquet g . j . Measey和j·m·Exbrayat”年度Boulengerula卵巢结构的变异taitana (Loveridge 1935),肯尼亚蚓螈,”非洲爬虫学杂志》,卷64,不。2、116 - 134年,2016页。视图:出版商的网站|谷歌学术搜索
c . Hedbergoldfors n .达林和a . Oldfors肌肉病理Vici syndrome-a案例研究小说的突变EPG5文献的摘要,“神经肌肉疾病,27卷,不。8,840 - 858年,2017页。视图:出版商的网站|谷歌学术搜索
e . x方,m·d·李,约旦,h·刘,“挖掘大量基因组数据:半参数主题建模方法,”美国统计协会杂志》上,卷112,不。519年,页1 - 15,2017。视图:出版商的网站|谷歌学术搜索
m·奈特”被告进入法庭:高科技的谋杀案,”杂志媒体实践,18卷,不。2 - 3,1-26,2017页。视图:出版商的网站|谷歌学术搜索
k . Hortnagel Krageloh-Mann, a Bornemann et al .,”第二个报告一个新的hypomyelinating疾病由于VPS11基因缺陷披露大量溶酶体介入,”遗传性代谢疾病杂志》上,39卷,不。6,849 - 857年,2016页。视图:出版商的网站|谷歌学术搜索
高木涉,a . h .小泽一郎,m .冲电气h .昭k .锅岛窑瓷器和n .中村”幽门螺杆菌嗜酸性粒细胞-晚期胃癌与大规模”内科医学卷,57号12日,第1718 - 1715页,2018年。视图:出版商的网站|谷歌学术搜索
w .小岛和k Hayashi的变化axo-glial路口cuprizone-treated视神经的老鼠,”组织化学和细胞生物学,卷149,不。5,页1 - 8,2018。视图:出版商的网站|谷歌学术搜索
m·卡拉·m·v·谢赫和m . Nivsarkar”平衡抗氧化剂和活性氧:对卵母细胞的发展和成熟,“生殖医学和生物学,16卷,不。1,28-35,2017页。视图:出版商的网站|谷歌学术搜索
m . Betanzos m . r . Costa-jussa, l . Belanche”Tradares:人类翻译质量的自动评价的工具在一个蕴藏的环境,”应用人工智能没有,卷。31日。1、1 - 10,2017页。视图:出版商的网站|谷歌学术搜索

复杂性

复杂性问题由先进的计算机仿真技术在智能城市2020人

文摘