自然语言(由文本生成的母语)被认为是一个复杂的系统,和自然语言所属的类型确定。即作者假设语言是一种自组织的关键系统,文本语言的“雪崩”流动其词同现图。各自的分布统计特征的文本的字数英语和俄语语言计算;样本的基础上构造全集的文学文本和社会媒体信息的一组(一个替换口语)。分析发现,在文本的字数服从幂律分布。
因为自然语言逐渐被视为复杂系统,来研究语言的过程从描述性的形式分析方法旨在构建数学模型的运作和发展的语言变化的原因和影响的“语言”(这个词是由于[
在这种方法的框架,可以追求调查的两种主要途径:第一个是旨在构建一个自然语言语法理论(
同时,转变XX世纪哲学(类似于哥白尼天文学革命)建议考虑语言作为一体:“一个人只是一个地方一种语言说话本身”(
作者假设自然语言是一个自组织临界系统(SOC) (
空间的元素能够在两个州,主动和被动,连同一套规则来描述改变一个元素的状态如何影响其他的,
语言系统、语义空间中空间的一部分问题,和规则减少各自的语言的语法和语义规则。在目前研究的空间是形式化的同现画出作者意识到语义空间和词汇之间的一一对应,但他们认为后者接近前。图的顶点对应词和优势当且仅当存在相关的词汇的顶点事件同时发生在同一文本所涉及的样本,一次或更多。如上所示,雪崩,在这种背景下,是一种语言的文本,雪崩服从幂律分布的假设大小形成本研究的主题。应该提到现实世界(随着时间的推移演变)SOC-systems通常表现为长时间的缓慢进化而不是短期快速进化的系统空间急剧变化时;据报道,类似现象发生发展的语言系统。
另一个感兴趣的点是一个巨大数量的信息反映的出现,在本质上,口语(根据Saussurean假释与语言术语(
第一篇论文引用率分布(主要是幂律分布)最近的研究中观察到的口头和书面语言是一位杰出的审查(
另一个产生幂律分布的研究对象是代表语言的语义和语法关系使用各种离散结构:语义网(
本文的主题是语言作为一个整体;文本(语义“雪崩”)被认为是它的基本单位。剩下的纸是组织如下。第二部分概述的方法用来估计分布参数;第三为英语和俄语语言提供结果。第四部分讨论结果;最后,最后一节给出结论。
语言的选择决定,除了大量的语料的可用性的文本(书面和口语),由他们的质的区别在语法结构:俄罗斯是屈折语,而在英语屈折变化是相当罕见;俄罗斯的特点是灵活的词序在一个句子,而在英语词序是严格,和罕见的例外是受到严格的规则
我们使用两种不同的方法来测试统计假设的问题。第一个利用数据崩溃的概念被认为是更详细地在专著Pruessner [
我们住在短暂的第一种方法是使用数据崩溃的概念 原始数据是以前被扔进垃圾箱,也就是说,组合在一起,平均观测属于同一组;我们使用了指数的装箱是否适合这类型的数据 如果样品的零假设(在研究产生的分布方程( 因此,幂律分布的拟合优度检验各自包括以下步骤: 装箱的原始数据
结果,块合并成一个单一的水平直线的部分定义的域幂律适用(上下之间的短裤)。
第二种方法(
测试问题的零假设(在文本的字数服从幂律分布;(
图
图 倒塌的分布。(一)英语文本,联合样本,(b)英语文学作品,(c)英语诗歌,(d)俄罗斯文本,联合样本,俄罗斯文学作品(e),和(f)俄罗斯诗歌。红色(光盘)代表的完整的词汇(大小<我nline-formula>
使用这两种方法获得的结果展示在表 估计分布的幂律指数和较低的被切断的单词在文本的文学作品和社会媒体。
西北:单词的数量;dl:无量纲。
样本类型
估计基于数据崩溃
估计基于KS标准
估计基于数据崩溃
估计基于KS标准
(西北)
(dl)
(西北)
(dl)
(西北)
(dl)
(西北)
(dl)
文学作品
114年
1.30
55
1.29
72年
1.78
56
1.97
诗歌作品
125年
1.91
109年
1.89
112年
2.61
98年
2.63
社交媒体
111年
2.65
124年
2.63
183年
2.10
151年
2.15
联合样本
109年
1.39
42
1.34
85年
1.82
62年
1.95
为了处理语言的历时团结的问题,作者把自己局限在文学作品的基础上生成的样本之前创建20世纪和20世纪的英语和俄语语言(各自的样本大小数量为英语7179年和2641年,5758年和6925年对俄罗斯语言)。表 估计分布的幂律指数和较低的被切断的话语在文本的文学作品XIXth(前)和第几世纪之前。
西北:单词的数量;dl:无量纲。
时间限制
估计基于数据崩溃
估计基于KS标准
估计基于数据崩溃
估计基于KS标准
(西北)
(dl)
(西北)
(dl)
(西北)
(dl)
(西北)
(dl)
十九世纪下半期和早期
118年
1.37
75年
1.37
91年
1.71
53
1.87
XX世纪
121年
1.19
54
1.21
74年
1.75
53
2.03
数据崩溃意味着如果服从幂律分布,分布有一个间隔与水平线和一致在这个区间。对于现实世界的数据,间隔内的线可能不是那么直接,但是巧合必须发生如图
我们想强调,我们认为这种假设是合理的假设之前;前面几节的结果参数支持的情况下,而不是最终结果。在我们看来非常重要,确保全球可见性的假设。我们强烈希望其他报纸关于这个假设会发生,与更广泛的数据集和,也许,更严格的统计方法。相当不错的协议(对这类分布)为参数独立分布的文学作品在20世纪和20世纪(表
我们想住在同现图作为语义空间进行更详细的反对,而受欢迎的全球句法依赖树和类似的结构。在本文中,文本被认为是语言的基本单位;因此一个句子是一个意味着打破(而不是任意)的这个语义“雪崩”。全球句法依赖树是一个伟大的工具来探索这个本地雪崩,但就一般未能揭示cross-sentence语义依赖关系,这似乎并不是最好的工具来检查整个雪崩。因此同现图是一种自然的选择;优势属于这张图如果单词(对应于它的顶点)属于同一文本。一般来说,底层结构似乎没有考虑的主要问题。
在我们看来,这允许一个区分当前的工作成果和全球句法依赖那些树和同现图随机漫步的就业(
我们也想强调经典Zipf定律之间的差异和分布考虑摘要:Zipf研究了法律代表信息的方式,当我们试图探索语义流和规律,此外,语义语言作为一个整体的流动。
由于以上分析几个结论可能达到英语和俄语语言的语言系统。语言系统(由文本生成的框架)是一个自组织临界系统上定义其词同现图。文本语言的“雪崩”流动这个图表;巨大的雪崩对应文学作品,而较小的与口语相关联。为单独的一个很好的协议参数分布的文学作品和社交媒体提供了一个清晰的视图同步每个语言系统的统一;另一方面,一个类似的比较文学作品的发行版XIXth(前)和第几世纪之前建议历时统一的系统。诗歌分布出现接近正则幂律,因此诗歌可能被视为一种语言的支持列。
作者宣称没有利益冲突有关的出版。
作者感谢弗拉基米尔•马尔琴科先生和小姐维多利亚Ankudinova手稿校对和language-editing。