文摘
我们研究和远程多短字长相关性的发展在中国叙事文本。结果表明,对于短程字长相关性,发现无显著线性的进化趋势。但对于远程相关性,两种不同的机制有两种相反的倾向:小规模的赫斯特指数(盒子的大小范围从10到100)字长相关性下降随着时间的推移,和大规模的指数(盒大小范围从101年至1000年)显示了一个增加的趋势。单词长度的增加被证实是一个重要的词演化规律在中国写的。进一步的分析表明,一个重要的相关系数是获得了小规模的赫斯特指数之间的相关性在时间和平均单词长度。这些表明,字长相关性进化过程具有不同的自适应机制的不同尺度的单词之间的距离。我们推测,字长和句子长度的增加在中国写也许可以解释这一现象,在社会文化方面和语言结构的自适应特性。
1。介绍
人类进化的结果,1,2语言是人类身体的进化密切相关,对有效沟通的日益增长的需求3]。许多研究表明,语言可以有效地描述为一个复杂的系统4- - - - - -7),与组织层次结构的句法(8,9),从语素、词、短语和句子。在每一个层面上,语言是不断发展的适应人类的需求和约束。
词是语言的基本单位,安排和结构化,根据语法原则,形成短语,句子,和文本8]。甚至依赖语法单词作为唯一的关键单元的句子,联系在一起,形成大小不同的句法结构(10]。因此,词汇特征不仅可以反映语言属性的话说,还照亮短语和句子层面的句法模式。一个词法特性引来众多关注单词长度,已进行了广泛的研究,尤其是定量语言学(11- - - - - -13]。Piantadosi et al。(2011)报道,单词长度密切相关的信息文字传输;加西亚et al。14]发现长单词更容易表达抽象的东西。科勒(15)指出,字长units-words可能反映了属性的基本语言。许多最近的研究一直致力于单词长度分布在文献[16,17),如著名的Zipf定律单词长度分布。然而他们中的大多数关心的是单词本身。只有最近组合维度被注意。也就是说,字长词的序列已被调查,不是单词15,18]。有几种方法来调查单词长度的序列,包括字长熵(19,20.](Papadimitriou, 2010;Grotjahn, 1979年),字长相关性(21,22),字长重复(23),和最新的字长图案15,18,24]。
在最近的一项研究中,陈和梁24探索单词长度的进化图案在写中文,和结果表明,有一种倾向,分布更集中在某些主题模式。在这项研究中,我们打算且探索的模式在中国写的字长相关性叙事文本,这可能在描述的进化不仅单词,而且结构组织的话说,即句法模式。中国适合这样一个历时探索25,26),因为它是最古老的生活语言之一,有许多连续的书面记录(27]。
然后,字长相关性是什么?如果单词序列在文本映射到单词长度(以音节)序列,序列的模式可能会发现单词长度,由单词长度反映相关性(28]。此外,模式涉及单词长度序列之间的自相似性,可以通过字长相关性估计和解释为分形和级联效应在叙事文本21]。
在一份书面文本,有段短之间的时间相关性和长距离(29日,30.]。这些相关性可以发现在字长系列中,词频系列,unicode(字/字符)系列,等等。使用自然可见性图表法,Guzman-Vargas et al。29日]研究了大型文本中单词长度的相关性从30电子书英语从古腾堡计划。远程相关性的存在也被Montemurro探索和普瑞(31日)和Bhan et al。32在英语和韩语文字使用赫斯特指数。因此,在这项研究中,我们定义了短程相关性作为词之间的距离不超过10和远程距离大于10,显示的部分2在下面。
字长相关性可能反映了人类通信,一些基本的和普遍的特性密切相关的结构模式通信(31日]。然而,当地单词长度的字长模式相关性(19)没有表现出明显的普遍性要求Montemurro提出和Zanette [33]。熵的测量提供了一种严格的秩序度(特别是在短程)符号序列(Lesne,布兰科和Pezard, 2009);(19]。例如,Grotjahn(1979)探讨字长在歌德的“Erlkonig熵。“分配一个值的问题的熵语言激发了香农(自开创性工作的研究34]。至于远程字长相关性,去趋势波动分析(DFA)是经常使用的35]。
然而,字长相关性是迄今为止未知的历时变化,特别是对中国人,这就是本文致力于。具体地说,在这项研究中我们将探讨以下问题。
问题1。单词长度分布和Zipfian怎么样克字长块分布随时间推移而发展在中国书面叙事文本吗?
问题2。如何短程字长相关性(通过相对熵计算吗在这项研究中)和远程字长相关性(通过去趋势波动分析计算)随时间演变?
问题3。的含义是什么单词长度的进化相关性,如果是相关单词长度分布的结构模式?测试这些,皮尔森分析将被用来检测是否有重要的进化意味着单词长度之间的相关性和字长相关性的参数值。
本文的其余部分组织如下。部分2描述了本研究中使用的材料和方法;部分3给历时调查的结果和讨论。部分4有结论。预计,这项研究可能给我们一个更深入的理解书面汉语单词长度排序模式。
2。材料和方法
2.1。材料
我们的历时研究包括六个历史时期,先秦时代,南北朝时期,宋代、明代、清代和现代时期。在每个时间段有10000个汉字(平均单词:7568),和语料库的细节表1。
由于没有可靠的古代汉语分词工具,我们必须手动段中国古代文献。2008年当代文本我们使用ICTCLAS段的单词。手动分割的关键问题是分标准,尤其是标准区分单词和短语。为了保持一致性,我们使用了现代的标记标准当我们遇到这类问题在手动分割。例如,为了处理中国古代文献的准确,我们提到很多关于中国古代历史语言作品词典,如韩愈Da Cidian(中国)的大字典。分词后,我们编写一个java软件提取统计有关单词长度的频率分布。我们使用MATLAB来测试如果单词长度分布和平均频率之间的关系遵循权力的法律。
2.2。单词长度分布和Zipfian语法单词长度分布
我们构建单词长度的时间序列的每个文本映射到一个数字序列 , ,每一个数字代表各自的单词的长度。产生的序列包含的整数,最小是1,最大的长度最长的单词在特定语言语料库。这个序列图所示的一个例子1(这句话是用空格分割)。
可以看到,文本到时间序列的映射是通过更换每一个字的长度。字长序列然后研究获得频率分布,n -克熵如下定义,去趋势波动分析,这将在下一节中介绍。
2.3。N -克字长熵和短程字长相关性
字长熵的指标数据的一致性(36]。人们普遍认为熵越大,数据越均匀。例如,如果所有四个字长类(例如,字长类1意味着所有的单词,单词的长度是1,等等)在中国写(通常有4个字长类在中国)具有相同数量的单词(类型或令牌),然后字长熵最大的2。数学上,字长熵不能超过2。
香农字长熵(WLE)可以用以下公式计算: 在哪里是指单词长度类和指的是单词单词长度类的概率 。的蟋蟀本文中定义的字长熵块熵,在这个定义扩展(19]。字长熵的确切定义如下。
单词长度的序列 , ,我们设置 和定义克, 在哪里 。的香农熵的计算公式 在哪里 表示每一个的概率蟋蟀 ,计算的 (参见[19])
在这里我们把句子在图1作为一个例子。有12 2克序列长度序列”这个词2 1 2 1 1 1 2 1 1 3 1 1。“他们的频率和概率分布如表所示2。和香农熵2克可以计算为
的基础上蟋蟀序列或块,我们可以估计短程字长相关性。自蟋蟀 字长熵包含句子中的单词长度排序信息文本,我们打乱单词在文本和获得了重组字长熵(使用上面的方法)。根据定义,打乱的单词序列长度应该有更多的制服她们体内分布和更大的熵。因此,字长序列的短程相关性可以被定义为 ,数量熵的减少是由于单词的顺序(参见[19])。
2.4。去趋势波动分析和概括的赫斯特指数
去趋势波动分析提出了彭et al。37]分析统计自相关时间序列可能跨越漫长的记忆。获得的幂律指数类似于赫斯特指数,除了DFA可能也适用于信号的基本数据(如均值和方差)或动态不稳定。计算过程如下。
字长时间序列,他的长度是 ,首先,累计金额或概要计算: 在哪里指示词的长度在时间序列th词和的中值时间序列中的所有单词长度,用以下公式计算:
然后,这个词长度时间序列分为米不重叠的块的长度 ,在哪里 (圆形)。然后当地的最小二乘直线拟合计算的每个时间间隔内的最小平方误差最小化。让是一系列的直线。
接下来,均方根偏差的趋势,波动,计算:
把句子在图1例如,序列长度”一词2 1 2 1 1 1 2 1 1 3 1 1”: 。
我们设置了块大小 ;然后 (圆形)= 3;三块(2 1 2 1)(1 1 2 1)(1 1 3)。
在第一块,(2 1 2 1), 。
然后当地的最小二乘直线拟合计算通过最小化在每一块最小平方误差。 。
在第二块, ,然后 , , , 。
第三块, , , , , 。
最后, + + + + 。
上面的计算在所有时间尺度(即重复。,块大小);因此之间的关系 ,平均波动,盒子尺寸的函数 ,可以获得。然后在这一条直线双对数统计自相关图显示表示为 。的标度指数α像一条直线的斜率计算适合双对数图的对使用最小二乘法。指数是一个泛化的赫斯特指数。指数在0和1之间时,结果是分数布朗运动,与精确值给系列自相关信息: 意味着anticorrelated, 意思是不相关的, 意味着相关;此外,值越接近于1的相关性就越大。
3所示。结果与讨论
短期/长期字长相关性的结果在这一节中。单词长度的进化相关的单词长度密切相关。因此,本节首先单词长度分布和Zipfian的进化蟋蟀单词长度分布。
3.1。单词长度分布和演变指标
单词长度分布的演变(基于单词标记)显示在图中2。应该注意,因为单词超过4(时间5和6)有一个非常小(小于分享 ),我们汇集的数据更好地对比不同时期。
从图可以看出3,长度的单词的频率是1稳步下降,和单词的长度超过1的频率增加了。表3显示静态平均单词长度(SMWL计算词的数量的基础上类型)和动态平均单词长度(DMWL,计算的基础上字令牌)的数量在不同的时期。
(一)
(b)
(c)
(d)
图3显示了四个措施的分布如图2:熵(a)、(b)标准差,(c)偏态和峰态(d)。
第一个措施是熵。我们可以看到在图3(一个),历时变化的熵增加单词长度频率分布的均匀性。
第二个测量标准偏差,量化数据的变异或分散。从图可以看出3 (b)动态单词长度分布的标准偏差且减少,这意味着增加分布的均匀性。
第三个措施是偏态,这描述的不对称分布。如果偏态的值是零,分布是完全对称的。否则,正偏态值大说明与长尾分布的右侧平均值,和大负的偏态表示与长尾分布均值的左边。从图可以看出3 (c)偏度值有且减少,这意味着随着时间的推移变得更加对称分布,或者相反,已经有越来越多的长单词。
最后,峰度是用来测量的数据聚合程度的中心,这是相关的尖峰和tailedness分布。大值(峰度> 3)显示高的分布,陡峭的山峰,和长又粗的尾巴19]。正态分布的峰度系数为0;积极的峰度系数表明,观测数据集中有一个长尾比正态分布;负峰态系数表明,数据集中有一个短尾巴比正态分布。我们可以看到在图3 (d),有一个高和陡峭的峰期的分布1。在其他时期的分布,可以看出,峰度值有所下降,这表明越来越多的分布。
从图我们可以得出这样的结论3,且有越来越在中国使用multicharacter词,词的分布和不同长度随着时间的推移变得更加均匀。
一般来说,我们可以看到一个历时更多的复杂性在词汇层面的趋势。起初,单音节的字占优势。但这主导地位已经下降无情地在整个6期,bisyllabic单词迅速增加。与此同时,我们可以看到,3或更多音节的单词的频率也略有增加。这些变化导致整平机单词长度的分布。语言通常演变成更符合人类需求的复杂性。在词汇层面,它显然是反映在增加单词长度。单音节词词的数量是足够的在非常早期的阶段。然而,随着文明的发展,一直不断对新单词的需求。单音节词词不能创造,因为,一方面,中国是表意的,另一方面,biphoneme组合是有限的。 So the easiest way out is to combine two monosyllable words into a single bisyllable word, which have rapidly increased to become the most frequent in the second period. Theoretically, the frequently used monosyllable words in Chinese may provide more than forty million different bisyllable words, which probably suffice the needs for complex communication. However, according to our statistics of Lancaster Corpus of Mandarin Chinese (http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474) [38),只有0.2294%的潜在bisyllable的话是有效的,也就是说,实际使用。当然,语言的用户有不同的需求和约束条件,不是简单的任务信息编码,因此,长的话也略有增加(39]。然而,很明显,单词3或更多音节的增加远远低于bisyllable的话说,这可能与沟通的日益复杂。单音节词词的频率和长词的增加,特别是bisyllable的话,自然会导致整平机单词长度的分布。
我们的研究结果表明,单词长度的增加是一个重要的在写中国的字演化规律。Bochkarev et al。40)声称,社会文化因素可能影响平均单词长度的变化在一个相对短的时间内。我们的研究结果表明,平均单词长度的增加也可以是初级单词长期进化的结果。中文的双音节的趋势进化是强调在先前的研究中,例如,帕卡德(39]。然而,20世纪初的中国现代白话运动改变了这种语言在某种程度上,导致简化在语法和欧洲化的句子27,41]。欧洲化的简化和汉语语法可能占,在相当大的程度上,为什么在TP平均单词长度5略有减少。所显示Bochkarev et al。40),社会文化因素可能影响平均单词长度的变化在一个相对短的时间内;因此,这一现象可能被解读为中国现代白话运动的结果。
尽管中国文字演变的影响,在某种程度上,在社会文化方面,似乎有一种持续的趋势演变为单词长度增加。所提出的许多研究中,主要的原因可能是,与社会发展,单词长度的增加是不可避免的,因为它是更有效的通过结合存在的单词来表达新的含义比硬币新的。这个结果证实了“误差限度”理论提出的诺瓦克et al。42],它声称,新概念的增加导致长单词。
总的来说,单词长度的增加增加了伟大的词汇系统冗余:只有0.2294%潜在bisyllable的话是有效的。因此,词汇系统中,随着单词长度的增加,音调和人物都成为平衡的简化41]。简化汉字是连续的、系统的尽管一些字符可能会变得复杂,如:“王上,“可区别于“二玉,“尤其是当他们现在手写的。汉语词汇系统的变化表明Zipf“最小努力原则”和“误差限度”理论起到了至关重要的作用在人类的通信。
3.2。的进化蟋蟀字长熵和短程字长相关性
在以上部分,我们发现单词长度分布的六个主要时期不同的尾巴,长词的分布。在本节中,我们不仅注重单词的长度分布,但也的分布克字长序列的句子。
图4显示的Zipfian分布n克字长序列在六期。
从图可以看出4的差异n蟋蟀单词长度的不同时期也躺在高排名,他们随着时间的推移逐渐发展。然而,对于低等级,他们的共同点是最常见的n克在所有六个时期是“11”,“111”和“1111”。
的克字长熵六期以及分歧慢吞吞的表中可以看到4。应该注意到,所有的值都是标准化的 。
从表4,我们可以看到,2克、3-gram和4克写中国的字长熵增加了随着时间的推移,这意味着发行版的克字长序列往往是一致的。这种趋势表明单词长度搭配多样化的序列,这可能在历时的单词长度增长在中国27]。
相对熵的变化在6期呈现在图5。
我们可以看到从图5没有明显的线性相关性和不同时期。此外,皮尔逊相关分析是用来检查是否有关系和SMWL但结果无显著相关性。
3.3。赫斯特指数和远程字长相关性的进化
在随机过程中,混沌理论和时间序列分析,去趋势波动分析(DFA)是一种方法来分析时间序列的长程相关性。DFA的一个优点是,它可以有效地过滤掉的趋势序列和适合远程幂律的非平稳时间序列的相关分析。六个时期的指数的块大小n分别从10到1000人,0.5950,0.5837,0.5646,0.5449,0.5662,和0.5828,没有明显的线性趋势可以被检测出来。
幂律分布 ,远程字长相关性,当范围从10到100年,从分布时有所不同从101年到1000年不等。分布可以看到在图6。小规模的远程(从10到100)字长序列相关性大致反映在句子或段落层次的相关性;大规模远程(从101年到1000年)字长序列相关性大致对应于相关性水平的一段或一段。
图6表明幂律分布在所有六个时期,相当高 。6期,两个政权的赫斯特指数在0.5 ~ 0.7之间,表明,尽管不同时期,远程字长相关性弱,但稳定。我们符合线性函数的指数两个政权,这是呈现在图7。
我们可以看到在图7,小规模、远程相关性似乎降低了随着时间的推移,而大规模而言,它似乎已经增加了。这可能与进化的趋势更复杂的语言。中国增加了且句子长度,通常超过20或30。换句话说,小块有时可能不包括一个完整的句子,这可能且越来越频繁越来越复杂的句子。然而,大规模的街区正常可以包括完整的句子。字长与句法属性的话,多用于常规的语法模式。这样的模式可以在句子的层面上。所以重复模式将更有可能出现在块包含完整的句子。这可能是两种趋势图中观察到的一个原因7。
同样的,我们测试如果赫斯特指数(两个政权,即。斜率为1,坡在远程相关性在图2)7与SMWL。再次采用皮尔逊相关分析,获得一个重要的相关系数在0.01级(−0.957,2-tailed)斜率为1和SMWL但坡2和SMWL之间没有显著的一个。这表明字长进化可能更多影响小政权规模第一。
4所示。结论
在本文中,我们调查单词长度的历时变化相关性在中国叙事文本。的历时变化熵、标准方差、偏态和峰态表明中国单词长度一直稳步增长,multisyllable(字符)话说一直增加。所提出的许多研究中,主要的原因可能是随着社会的发展,单词长度的增加是不可避免的,因为它是更有效的通过结合符号来表达新的含义,而不是创建新的迹象。新概念的增加导致了单词,也证实了“误差限度”理论。
此外,增加的克字长熵意味着均匀分布的不同n克字长序列,即单词长度搭配的多元化模式,这可能对中国历时单词长度的增加。此外,我们观察到(在克)变得更大的值也会增加,这意味着单词长度相关性与单词之间的距离增加。
然而,的克字长序列,指数不存在一致的增加或减少短程字长相关性。相比之下,发现了两种相反的倾向在远程字长相关性:小规模的指数(块大小范围从10到100)字长相关性似乎已经减少了随着时间的推移,而大规模的指数(块大小范围从101年至1000年)似乎已经随着时间的增加。这种现象可能与进化倾向长而复杂的句子。然而,大规模的指数大于同行除了时间1。陈等人。27)测试表明,有两个跳跃单词长度的进化过程:一个是TP从1到2 TP,另一种是TP 2 TP 6。我们推测,TP 1中的句子长度和最短的单词长度可能占例外。在TP 1中,基本上,一个字符/音节对应于一个单词和句子是极短27]。
最后,平均单词长度之间的关系和短程字长相关性,皮尔逊相关分析表明,它们之间没有显著相关性。然而,两个政权的长程相关性,发现两种截然相反的情况:获得一个重要的相关系数在0.01级的斜率为1(小规模)和SMWL,但没有明显的坡2(大规模)和SMWL之间。因此,我们推测,字长进化可能影响字长相关性小政权规模第一。在一个即将发表的论文(43),我们发现词汇词同现(即。,2蟋蟀words) network in written Chinese evolves to be greater in global level. And the connections of words in microlevel are continually weakening; the number of words in mesolevel communities increased significantly. This means that more and more words tend to be connected to the medium-central words and form different communities. These indicate that the connections of words among sentences or larger levels are expanding. Nevertheless, the deep interrelationships between them still need investigating.
本研究也有未来改进的余地。在这项研究中,使用不同的方法来衡量短期和长期字长相关性,这使得它很难直接比较它们之间的值。此外,未来还需要进一步的研究来澄清如果在这个研究结果可以推广到其他语言用不同的词汇系统,如果结果可能受到边界条件等体裁,寄存器和文本。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
本文作者感谢徐Chunshan抛光。本研究在一定程度上支持的国家社会科学基金(批准号17 ayy021批准号12 &zd224),教育部工程中心的语言学及应用语言学,广东外语外贸大学和中央大学的基础研究基金(大数据计划+语言共性和认知,浙江大学)。