语言作为一个自组织系统至关重要

文摘

自然语言(由文本生成的母语)被认为是一个复杂的系统,和自然语言所属的类型确定。即作者假设语言是一种自组织的关键系统,文本语言的“雪崩”流动其词同现图。各自的分布统计特征的文本的字数英语和俄语语言计算;样本的基础上构造全集的文学文本和社会媒体信息的一组(一个替换口语)。分析发现,在文本的字数服从幂律分布。

1。介绍

因为自然语言逐渐被视为复杂系统,来研究语言的过程从描述性的形式分析方法旨在构建数学模型的运作和发展的语言变化的原因和影响的“语言”(这个词是由于[1])。

在这种方法的框架,可以追求调查的两种主要途径:第一个是旨在构建一个自然语言语法理论(2]。第二个语言统计特征与分析:主要强调,从开创性研究Zipf [3),对单独的书面语言(词汇分布4- - - - - -8和各种图表反映了语言特性9]。这些研究的主要结果是一类分布描述自然语言特性(10];类包括权力(heavy-tail)分布与各种指数的值:权力法律语言表现在词的频率(3),在句法网络(5- - - - - -7,11),字母序列的频率在词汇表8),等等。

同时,转变XX世纪哲学(类似于哥白尼天文学革命)建议考虑语言作为一体:“一个人只是一个地方一种语言说话本身”(12]。因此,由于高于一切是一个统一的语言交际工具来传达的意义和它的文本(文学作品或推特)通常是有意义的,完整的信息,这种分析的文本变成一个基本单位。

作者假设自然语言是一个自组织临界系统(SOC) (13,14),一种语言的文本“雪崩”(Bak定义的)流动这个词同现图各自的语言;巨大的雪崩对应文学作品,而较小的从社交媒体与信息相关联。值得注意的是,自组织临界系统常规功能(13,14](1)空间的元素能够在两个州,主动和被动,连同一套规则来描述改变一个元素的状态如何影响其他的,(2)的“雪崩”链式反应的空间元素的状态改变的变化引发的其他元素,(3)幂律分布管理雪崩大小。

语言系统、语义空间中空间的一部分问题,和规则减少各自的语言的语法和语义规则。在目前研究的空间是形式化的同现画出作者意识到语义空间和词汇之间的一一对应,但他们认为后者接近前。图的顶点对应词和优势当且仅当存在相关的词汇的顶点事件同时发生在同一文本所涉及的样本,一次或更多。如上所示,雪崩,在这种背景下,是一种语言的文本,雪崩服从幂律分布的假设大小形成本研究的主题。应该提到现实世界(随着时间的推移演变)SOC-systems通常表现为长时间的缓慢进化而不是短期快速进化的系统空间急剧变化时;据报道,类似现象发生发展的语言系统。

另一个感兴趣的点是一个巨大数量的信息反映的出现,在本质上,口语(根据Saussurean假释与语言术语(15),(二)口头表达和读写能力16])社交网络中,用户发布的文本的,(Facebook, Reddit,等等);这使得它可以探索这一领域的人类交流。在这种情况下,主要的问题是比较统计特征计算通过文学文本的语料库,一方面,通过一组文本写的社交网络的用户。如果这些特征似乎统计相等,这可能给证明语言的概念统一为一个复杂的系统;如果是这样,书面和口语仅仅是不同的这一复杂系统的内部动态预测(共时语言的统一)。另一方面,不同时期的特征计算问题(一个是被限制在这种情况下分析书面语言)进行比较,以验证的统一语言系统在时间中展开(历时的统一语言)。目前的工作主要是研究和比较的统计特征的文本集英语和俄语语言共时和历时两个方面考虑。

第一篇论文引用率分布(主要是幂律分布)最近的研究中观察到的口头和书面语言是一位杰出的审查(17]。这里,研究对象是一个特定的文本,其基本单元是一个词或一个sentence-distributions这些对象的特征形式绝大多数论文的主题这一调查(18]。例如,Font-Clos et al。19)检查依赖文本长度与词出现的统计特性;作者表明,分布服从的力量和调查关系Zipf和成堆的(Herdan)法律(原州词汇增长作为文本的长度)的幂函数(20.]。

另一个产生幂律分布的研究对象是代表语言的语义和语法关系使用各种离散结构:语义网(17),全球句法依赖树(21,22),同现图(18),和其他人。这两种传统方法,旨在探索这些结构复杂网络(23)和随机漫步在这些结构导致幂律分布17,21,22,24,25]。基本单位是同样一个词或一个句子。

本文的主题是语言作为一个整体;文本(语义“雪崩”)被认为是它的基本单位。剩下的纸是组织如下。第二部分概述的方法用来估计分布参数;第三为英语和俄语语言提供结果。第四部分讨论结果;最后,最后一节给出结论。

2。方法

语言的选择决定,除了大量的语料的可用性的文本(书面和口语),由他们的质的区别在语法结构:俄罗斯是屈折语,而在英语屈折变化是相当罕见;俄罗斯的特点是灵活的词序在一个句子,而在英语词序是严格,和罕见的例外是受到严格的规则26,27]。

我们使用两种不同的方法来测试统计假设的问题。第一个利用数据崩溃的概念被认为是更详细地在专著Pruessner [14];第二个(基于Kolmogorov-Smirnov (KS)标准)提出了源(28]。这两种方法不仅评估指数,也切断了样本的最小元素,通常不符合幂律。第一个方法也切断了nonfitting最大的元素。值得注意的是,这种现象(锋利的区别最大(最小)元素和所有其他)似乎是一个真实的数据遵循幂律分布的显著特征(13,14]。

我们住在短暂的第一种方法是使用数据崩溃的概念14]。它假设生成数据分布概率密度函数如下: 与可以是连续的或离散的随机变量,度量因素和 ,系统的特征维度 ,尺度函数 ,和扩展指数和。遵循修改中幂律分布区间上下有界的和。扩展功能(区分从正则幂律分布)适合许多实际系统服从heavy-tail分布(14]。的数量决定了特色上截止。

原始数据是以前被扔进垃圾箱,也就是说,组合在一起,平均观测属于同一组;我们使用了指数的装箱是否适合这类型的数据14]。

如果样品的零假设(在研究产生的分布方程(1)是正确的,那么策划与 ,在那里 ,给了相同的功能对各种 ,在哪里经验概率密度函数,力量指数的真正价值。这一现象给出数据崩溃的称号。因此,对于给定数据产生的幂律分布,(的函数)绘制各种是相互叠加。

因此,幂律分布的拟合优度检验各自包括以下步骤:(1)装箱的原始数据(2)策划对对各种使用“明显的指数”(粗略的估计)——一块由nonhorizontal直线和非线性特征曲线,其极值被称为里程碑式的(代表它的坐标)(3)值的改进最小二乘法应用于就业的地标。

结果,块合并成一个单一的水平直线的部分定义的域幂律适用(上下之间的短裤)。

第二种方法(28适用于幂律分布没有扩展函数: 与归一化常数 ,在那里广义(赫维茨)ζ函数。的方法意味着所有可行的值较低的截止被认为是;为每一个力量指数的估计(记住最大似然原理)计算参见[28];为每一个Kolmogorov-Smirnov统计 (累积分布函数(CDF)和估计的价值吗和是计算经验CDF)。最终的估计最小化。真实数据的功能拥有,通常情况下,一些局部最小值;通常不合理选择全球最低,但最近的局部最小值 ,域的下边界的定义,提供了一个值的统计不显著不同,在全球最低。

3所示。英语和俄语的幂律分布的语言

测试问题的零假设(在文本的字数服从幂律分布;(1)是用于验证数据崩溃,而基于KS统计使用的方法(2),(3),两个样本的基础上生成语料库为这些语言和文学文本的一组Reddit消息(或其俄罗斯总统Pikabu)。英语产生的样本大小为9820(文学作品),5016 (Reddit)和14836年(联合样本);俄语他们12683(文学作品),6005 (Pikabu)和18688(联合样本)。基于数据崩溃的概念的方法,词汇量的大小用来生成文本作为特征维度的一个系统。获得各种样品 ,一个重新取样初始样本随机删除从完整的词汇的单词,然后从所有的文本使用。这带来的生成新的样本对应的特征维度。

图1提出了一种依赖的字数的文本的文本在双对数尺度等级样本;也就是说,数据1(一),1 (b),1 (c)对应于联合样本,样本构建文学作品的基础上,并为英语诗歌作品,分别;数据1 (d),1 (e),1 (f)分别表现出相同的对俄罗斯的依赖;冲在每个subfigure直线对应功率分布与指数估计使用数据崩溃。

(一)

(b)

(c)

(d)

(e)

(f)

图2(坐标( , ),是一个具有里程碑意义的坐标)显示了联合样本数据崩溃英语(图2(一))和俄罗斯(图2(d))的语言。原始数据与本扔进垃圾箱指数大小 ( 和 )。红色(光盘)代表的完整的词汇(大小),灰色的颜色(广场)0.9是词汇量的大小 ,蓝色(钻石)是0.8 ,黑色(三角形)是0.7 ,橙色(仰着三角形)是0.6,,最后,紫色的色彩(圆圈)为0.5 ;曲线相距拖一点为了能够区分它们叠加由于数据崩溃。数据2(b)和2(e)存在相同的依赖样本用文学文本的语料库构建英语(图2(b))和俄罗斯(图2(e)的语言。数据2(c)和2(f)演示数据崩溃诗歌为英语和俄语语言样本,分别。

图2

倒塌的分布。(一)英语文本,联合样本,(b)英语文学作品,(c)英语诗歌,(d)俄罗斯文本,联合样本,俄罗斯文学作品(e),和(f)俄罗斯诗歌。红色(光盘)代表的完整的词汇(大小),灰色的颜色(广场)0.9是词汇量的大小 ,蓝色(钻石)是0.8 ,黑色(三角形)是0.7 ,橙色(仰着三角形)为0.6 ,最后,紫色的颜色(圈)是0.5;曲线相距人为拖一点为了能够区分他们叠加由于数据崩溃。与 ; 是一个具有里程碑意义的坐标。

使用这两种方法获得的结果展示在表1;表包括结果样本构造的基础上,文学作品和社会媒体的消息,联合两种语言的示例一样。每个单元包含幂指数的估计和较低的截止(在括号中) 。上述结果表明两种语言共时统一,因为估计的一个很好的协议的权力指数,降低达标计算对文学作品和社会媒体信息。


样本类型	英语				俄罗斯
	估计基于数据崩溃		估计基于KS标准		估计基于数据崩溃		估计基于KS标准

	(西北)	(dl)	(西北)	(dl)	(西北)	(dl)	(西北)	(dl)

文学作品	114年	1.30	55	1.29	72年	1.78	56	1.97
诗歌作品	125年	1.91	109年	1.89	112年	2.61	98年	2.63
社交媒体	111年	2.65	124年	2.63	183年	2.10	151年	2.15
联合样本	109年	1.39	42	1.34	85年	1.82	62年	1.95

西北:单词的数量;dl:无量纲。

为了处理语言的历时团结的问题,作者把自己局限在文学作品的基础上生成的样本之前创建20世纪和20世纪的英语和俄语语言(各自的样本大小数量为英语7179年和2641年,5758年和6925年对俄罗斯语言)。表2展示各自的结果。


时间限制	英语				俄罗斯
	估计基于数据崩溃		估计基于KS标准		估计基于数据崩溃		估计基于KS标准

	(西北)	(dl)	(西北)	(dl)	(西北)	(dl)	(西北)	(dl)

十九世纪下半期和早期	118年	1.37	75年	1.37	91年	1.71	53	1.87
XX世纪	121年	1.19	54	1.21	74年	1.75	53	2.03

西北:单词的数量;dl:无量纲。

4所示。讨论

数据崩溃意味着如果服从幂律分布,分布有一个间隔与水平线和一致在这个区间。对于现实世界的数据,间隔内的线可能不是那么直接,但是巧合必须发生如图2显示(一个应该考虑的曲线是人为地拖分开一点为了能够区分它们叠加由于数据崩溃)。类似地,结果产生的方法,利用KS的统计数据也包括支持假设的幂律分布。

我们想强调,我们认为这种假设是合理的假设之前;前面几节的结果参数支持的情况下,而不是最终结果。在我们看来非常重要,确保全球可见性的假设。我们强烈希望其他报纸关于这个假设会发生,与更广泛的数据集和,也许,更严格的统计方法。相当不错的协议(对这类分布)为参数独立分布的文学作品在20世纪和20世纪(表2)表明,(至少书面语言)的语言是一个系统且。

我们想住在同现图作为语义空间进行更详细的反对,而受欢迎的全球句法依赖树和类似的结构。在本文中,文本被认为是语言的基本单位;因此一个句子是一个意味着打破(而不是任意)的这个语义“雪崩”。全球句法依赖树是一个伟大的工具来探索这个本地雪崩,但就一般未能揭示cross-sentence语义依赖关系,这似乎并不是最好的工具来检查整个雪崩。因此同现图是一种自然的选择;优势属于这张图如果单词(对应于它的顶点)属于同一文本。一般来说,底层结构似乎没有考虑的主要问题。

在我们看来,这允许一个区分当前的工作成果和全球句法依赖那些树和同现图随机漫步的就业(24,25,29日,30.]。我们探索真实的语义“雪崩”由一个特定的语言,而用随机漫步算法产生人工“雪崩”的就业图符合自然语言。特别是,(理论上)永远运动下去,而雪崩认为本文的有限大小,明确定义的作者各自的文本。为了强调基本这些方法之间的区别,我们可以得出以下的类比:摘要的方法和相关的随机漫步相关随机变量联合分布的研究和产品分布的变量。然而,这项研究的结果可能会是有用的为switcher-random-walks模型(30.)来估计实际开关时间。

我们也想强调经典Zipf定律之间的差异和分布考虑摘要:Zipf研究了法律代表信息的方式,当我们试图探索语义流和规律,此外,语义语言作为一个整体的流动。

5。结论

由于以上分析几个结论可能达到英语和俄语语言的语言系统。语言系统(由文本生成的框架)是一个自组织临界系统上定义其词同现图。文本语言的“雪崩”流动这个图表;巨大的雪崩对应文学作品,而较小的与口语相关联。为单独的一个很好的协议参数分布的文学作品和社交媒体提供了一个清晰的视图同步每个语言系统的统一;另一方面,一个类似的比较文学作品的发行版XIXth(前)和第几世纪之前建议历时统一的系统。诗歌分布出现接近正则幂律,因此诗歌可能被视为一种语言的支持列。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者感谢弗拉基米尔•马尔琴科先生和小姐维多利亚Ankudinova手稿校对和language-editing。

引用

r·m·罗蒂语言:最近的论文哲学方法芝加哥,芝加哥大学出版社,生病,美国,1967年。
n . a .乔姆斯基极简主义计划美国剑桥,麻省理工学院出版社,质量,1995年。
g·k . Zipf人类行为和最小努力原则:介绍人类生态学美国,addison - wesley,波士顿,质量,1949年。
科恩,r . n . Mantegna和s . Havlin”数值分析的频率在人工和自然语言文本,“分形,5卷,不。1,第104 - 95页,1997。视图:出版商的网站|谷歌学术搜索
r f i Cancho,“当语言打破成碎片之间的冲突通过隔离信号和语言沟通,“生物系统,卷84,不。3、242 - 253年,2006页。视图:出版商的网站|谷歌学术搜索
r·费雷尔我Cancho”,从交际相变Zipf定律”,欧洲物理期刊B-Condensed物质和复杂的系统卷,47号3、449 - 457年,2005页。视图:出版商的网站|谷歌学术搜索
r·费雷尔我Cancho r . v .鞋底,r·科勒”模式在语法的依赖网络,物理评论E:统计、非线性和软物质物理学,卷69,不。5、文章ID 051915, 2004。视图:出版商的网站|谷歌学术搜索
c . t . Kello和公元前相关”,无标度网络语音和词汇拼写单词形式,”语音复杂性方法,德Gruyter羊皮,柏林,德国,2009年。视图:谷歌学术搜索
r . v .唯一b . Corominas-Murtra瓦尔韦德,和l .钢”语言网络:它们的结构、功能和演化,“复杂性,15卷,不。6,20-26,2010页。视图:出版商的网站|谷歌学术搜索
c . t . Kello g . d . a .布朗,r . Ferrer-i-Cancho et al .,“缩放法律认知科学。”认知科学趋势,14卷,不。5,223 - 232年,2010页。视图:出版商的网站|谷歌学术搜索
p .麦地那e·高尔r . Zarama,黎加,“自组织社会:Sakoda的社会互动模式,”复杂性卷,2017篇文章ID 3548591, 16页,2017年。视图:出版商的网站|谷歌学术搜索|MathSciNet
美国生态,La Struttura Assente1980年,Tascabili Bompiani。
p•贝克大自然是如何工作的:自组织临界性的科学吗哥白尼的出版物,哥廷根,德国,1996年。视图:出版商的网站|MathSciNet
g . Pruessner自组织临界性英国剑桥,剑桥大学出版社,2012年。视图:出版商的网站
f·德·索绪尔,普通语言学课程,公开法庭,第3版,1986年。
w·j·Ong口头表达和读写能力:这个词的技术化劳特利奇,阿宾顿,英国,第二版,2002年版。
a . Baronchelli r . Ferrer-i-Cancho r . Pastor-Satorras n .蔡特·m·h·克里斯琴森,“网络在认知科学,”认知科学趋势,17卷,不。7,348 - 360年,2013页。视图:出版商的网站|谷歌学术搜索
s . t . Piantadosi”Zipf词频法在自然语言:评论和未来的发展方向,”心理环境通报与评论,21卷,不。5,1112 - 1130年,2014页。视图:出版商的网站|谷歌学术搜索
f . Font-Clos g . Boleda,。畜栏”,标度律之外Zipf定律及其与堆的关系的法律,”新物理学杂志,15卷,不。9日,2013年。视图:出版商的网站|谷歌学术搜索
r·h·Baayen词的频率分布18卷文本、语音和语言技术2001年荷兰多德雷赫特,Kluwer学术。视图:出版商的网站|MathSciNet
r·费雷尔我Cancho r . v .鞋底,r·科勒”模式在语法的依赖网络,物理评论。E、统计、非线性和软物质物理学,卷69,不。5,051915年,页2004。视图:出版商的网站|谷歌学术搜索
r·费雷尔我Cancho a Capocci, g . Caldarelli”类集群单词相同的光谱方法在句法依赖网络,”国际期刊的分歧和混乱,17卷,不。7,2453 - 2463年,2007页。视图:出版商的网站|谷歌学术搜索
a . Barrat m·巴特尔米和a . Vespignani复杂网络上的动力学过程英国剑桥,剑桥大学出版社,2008年。视图:出版商的网站
j·d·o·能剧和h Rieger“随机漫步在复杂网络,”物理评论快报,卷92,不。11,118701年,页2004。视图:出版商的网站|谷歌学术搜索
p . Allegrini、p . Grigolini和l . Palatella“间歇性和无标度网络:人类语言的动态模型的复杂性,“混乱,孤波和分形,20卷,不。1,第105 - 95页,2004。视图:出版商的网站|谷歌学术搜索
d .接到使用俄罗斯:当代用法指南英国剑桥,剑桥大学出版社,1996年。
t . Shopen语言类型学和句法描述第三卷语言类型学和句法描述英国剑桥,剑桥大学出版社,2007年。视图:出版商的网站
a . Clauset c . r . Shalizi, m·e·纽曼“幂律分布在经验数据,”暹罗审查,51卷,不。4、661 - 703年,2009页。视图:出版商的网站|谷歌学术搜索|MathSciNet
j . a .队长j . Borge-Holthoefer s戈麦斯et al .,“基于本地语义导航信息的网络表示,“《公共科学图书馆•综合》,7卷,不。8篇文章ID e43694 2012。视图:出版商的网站|谷歌学术搜索
j . n .戈尼Martincorena, b . Corominas-Murtra g . Arrondo s Ardanza-Trevijano和p . Villoslada”Switcher-random-walks: cognitive-inspired机制网络探索。”国际期刊的分歧和混乱,20卷,不。3、913 - 922年,2010页。视图:出版商的网站|谷歌学术搜索|MathSciNet

复杂性