文摘
探讨单词长度的分布特征在红楼梦(DRC),测量的音节或字符的数量。结果表明,不同长度的单词的频率分布在刚果民主共和国遵守扩展对数分布模型。比较第一个四十,四十,最后四十章显示单词长度的分布没有显著差异,在这三个部分,揭示了小说的作者。
1。介绍
被认为是中国古典小说的巅峰,红楼梦(刚果民主共和国,也被称为石头的故事),长期以来一直是最喜欢讨论的话题。小说讲述一个强大的中国家庭的衰落,生动地描绘了中国文化帝国主义。全面感知和观察生活和社会的18岁th世纪以来,它一直被认为是中国封建的百科全书,吸引众多研究者们的注意1- - - - - -9]。
近几十年来,定量研究这部小说吸引了太多的关注。许多研究人员使用统计方法来比较前八十章剩下的四十,调查是同一个作者是否由他们或者有两种不同的东西。这一直是一个有争议的问题。例如,Karlgren [10]相比32语法和词法现象的发生在头八十剩下的四十章和得出的结论是,他们有一个作者。陈(11)计算这两个部分之间的相互关系,这个词包括名词、动词、形容词、副词、虚词,达到了相似的结论。李,李12副词在刚果民主共和国)进行了统计分析,还认为支持单一的作者。
然而,许多研究人员声称,这两个部分是由两个或两个以上的不同作者(13- - - - - -18]。李(13),例如,计算了47个虚词的频率在每一章进行了聚类分析,揭示这部小说甚至两个以上的作者。王(14]研究了超过一百个单词,发现清晰发音差异两部分,声称一个以上的作者被涉及。最近,朱et al。19)进行了主成分分析在小说的散文部分,确认two-author索赔。
尽管许多定量研究已经发表在刚果民主共和国,这些研究都集中在特定单词的考试和他们的频率,如虚词和高频词。对整个字长分布在刚果民主共和国。一些研究人员认为,不同长度的单词频率分布可能阐明作者的问题。林业局(20.]莎士比亚的作品相比,培根,马洛,发现单词长度的分布模式在莎士比亚的工作一直与培根的不同。他声称,这是难以置信的,培根归因于他的作品更多的当代著名。然而,威廉姆斯(21认为文学表现上的差异,也就是说,一个流派的区别,可以解释单词长度分布的差异由林业局发现的。从那时起,字长分布已经吸引了越来越多的学者的关注。
多的研究已经在元数分布(世界)在不同的语言中22- - - - - -28]。词的频率分布与不同长度不会混乱但遵循特定规则。此外,泊松分布模型的两个家庭和二项,可以适应大多数先前研究人类语言(29日]。虽然花费的墨水已经够多的主题之一,大部分的工作了印欧语系的语言。有更少的关注中国,除了王最近的研究(30.陈],[31日),陈和刘29日),等等。
虽然世界能否可以区分不同的作者,许多研究人员认为,这主要是受边界条件的影响,如作者、语言、风格,文字的大小和时间的出现(见,例如,32])。因此,可以假设如果语言,流派,文字的大小,和时间创造充分控制,作者很可能负责的差异的因素之一。换句话说,八十年第一章节和刚果民主共和国的剩余的四十章,类型和创建时间是一致的,如果我们选择文本长度相同的,世界的差异可以归因于不同的作者。
根据上面的分析,我们的研究问题如下:(我)问题1:哪种模式最适合字长分布在刚果民主共和国?(2)问题2:之间有显著差异的字长分布前八十章,剩下的四十章?
本文基于统计分析解决这些问题的分布频率的单词每一章和三组不同长度的章(1 - 40、41 - 80和81 - 120年)。本文的组织如下:部分2描述了在这项研究中使用的数据和方法。部分3介绍了结果。部分4论述了作者基于结果的归因。部分5总结了纸。
2。数据和方法
许多先前的研究后(19,33,34),当前的研究的数据是来自刚果民主共和国Yuanze大学提供的文本(https://cls.hs.yzu.edu.tw/hlm/),因为这个版本被认为是最接近原文。获得均匀的文本样本,我们连续体中提取的文本从每一章2000字。后王(30.)和邓和冯35),我们测量一个单词字符的数量而言,中国基本上是等于音节的数量。我们做了样本选择和单词长度的计算使用Python脚本编程。最后,120示例文本被保留,每2000个单词组成的。为了调查是否有显著差异在前八十年,剩下的四十章之间,甚至120年的示例文本被分成三个部分,即第一部分第1 - 40(文本),第二部分(41 - 80条短信),第三部分文本(81 - 120)。
Altmann-Fitter 3.1软件应用适合从这120个样本文本获得的数据来确定最佳拟合概率分布模型。Altmann-Fitter,广泛用于定量语言学36),包含超过200个个体的概率分布,可以自动选择最佳拟合模型。使用卡方拟合优度的检验测试或差异系数 。如果 ,或在长文本的情况下, ,结果是令人满意的(32,37]。此外,决定系数也用于分析拟合结果。这些参数值可以很容易地获得Altmann-Fitter。此外,使用SPSS进行差异的显著性检验。
3所示。结果
3.1。字长分布在刚果民主共和国
回答的研究问题之一,即哪种模式最适合字长分布在刚果民主共和国,概率分布都是安装在120年使用Altmann-Fitter示例文本。基于的值 ,最好的结果是提供的扩展的对数 ,99的120个样本文本显示令人满意的拟合结果,其中81条短信显示很好的拟合的结果吗 和18文本提供了一个可以接受的结果 。模型的拟合结果字长分布在六个样本文本(120年随机选择从我们的示例文本)如表所示1和图1。
上文所述的六个样品,只有文本40 -拟合结果, ,尽管的值和确定系数是好的。进一步的详细勘探表1和图1显示,在刚果民主共和国主要由音节或字母数字,单词长度测量范围从1到4,大多数词由一个或两个字符。
3.2。字长分布在刚果民主共和国的不同部分
为了调查是否有显著差异的前八十年,剩下的四十章元数分布(研究问题2)和进一步研究作者的问题,我们将120年样本文本分成三个相等的部分。我们从两个角度比较:平均单词长度和概率分布模型。
3.2.1之上。平均单词长度
动态和静态的意思是单词长度计算,基于令牌和类型,分别按照下列公式。
动态平均单词长度:
静态平均单词长度:
在这里,我这个词指的是长度类,n指单词长度类的数目;X我类的长度是我,F我类的数量的令牌我;和类型的类的数量吗我。
表2显示的动态和静态平均单词长度略长于最后一部分的其他两个部分。此外,T测试表明,动态平均单词长度而言,之间有显著差异,第一部分和第二部分之间以及第二和第三部分( 和 ,分别)。我和第三部分之间不存在显著差异。然而,静态平均单词长度,第二和第三部分之间有显著差异 并没有发现显著差异。第一部分和第二部分之间 或者我和第三部分 。
3.2.2。单词长度概率分布的三个部分
我们检查了静态(基于类型)和动态(基于令牌)字长分布这三个部分,并没有发现显著差异。使用Altmann-Fitter,我们发现八款车型产生很好的配件时被认为是静态的元数分布,如表所示3。
考虑到的值和和参数的数量,延长对数(θ,α)是最合适的模型来捕捉我们的数据部分,II, III。其他研究人员指出,根据奥卡姆剃刀,用更少的参数模型是更可取的31日,35]。这个拟合结果对应的部分3所示。1的基础上,得到了单个样本文本。表4和图2显示扩展的对数模型的拟合效果刚果民主共和国的三个部分。
此外,当动态字长分布考虑,十二个模型显示很好的配件,以0.9992为确定系数的最小值和1.0000为最高,为表中可以看到5。
相关的值和参数的数量,如前所述,扩展对数(θ,α)提出了最佳拟合的结果,这与之前的分析是一致的,如表中所示6和图3。
方差分析(方差分析)是使用SPSS执行测试的意义区别每个群成对观测数据,包括静态和动态分布数据,已经表所示4和6,分别。重要性程度通常是判断使用价值。通常情况下, 被认为是一个统计上显著的结果, 被认为是一个统计上非常重要的结果。在我们的测试中,值( 对所有病例)进一步显示三个部分之间没有显著差异的字长分布数据。
4所示。讨论
上面的分析使我们能够获得一个字长分布在刚果民主共和国的概述。基于个人的拟合结果示例文本(部分3所示。1)和组样本文本(部分3所示。2),字长分布在刚果民主共和国的最佳拟合模型,测量的音节或字符,将扩展对数(θ,α)。这一发现不一致与一些先前的研究[31日,38),这表明,混合泊松提供了书面汉语的拟合结果。不一致的可能是由于使用不同的度量单位,在他们的研究中,研究人员将组件作为计量单位,虽然在目前的研究中,我们以音节/字符为计量单位。陈和刘29日)指出,最合适的测量单位写中国人组件。”字符的组件是建设单位有一个以上的中风”(29日:10)。在他们的研究中,测量写中国基于字符没有产生令人满意的结果。当前的研究表明,定义汉字的字符也可以适当。此外,这项研究表明,可能没有一个统一的书面汉语字长分布的最佳拟合模型,因为他们应该。换句话说,是由不同的作者可能符合不同的模型。
如部分所示3所示。2刚果民主共和国,三部分之间的差异产生了有趣的结果。我们已经注意到一些这些部分之间的平均单词长度的差异,而没有发现显著差异在元数分布。
如前所述,意见有分歧单词长度属性是否可以识别不同的作者。数学家和逻辑学家德摩根认为如此(见,例如,36])。相信如果两个文本不同的作者写的,即使是在类似的话题,平均单词长度的区别将比两个更重要的文本由一个作家写的,即使话题是不同的(见,例如,36])。如前所述,林业局(20.]发现经验证据的上述索赔基于字长分布的分析模式在莎士比亚的作品中,培根,马洛。其他研究人员质疑这一说法21,39,40]。的作者(41):12认为“不仅单词长度不需要,或者,或者根本就不主要,是作者个人的风格特点,字长,和字长频率可能依赖于其他因素,风格就是其中之一”(参见[39,42])。
在这项研究中,最常讨论边界条件,如语言,流派,时间构成的文本,文本样本大小的控制。因此,我们可以认为重要的单词长度的差异主要是由于不同的作者。节3所示。2,我们检查平均单词长度和频率分布和不同长度的三个部分的刚果民主共和国。
节3.2。1第二和第三部分,我们显示显著差异之间的静态平均单词长度(基于类型的频率),但是没有发现显著差异,第一部分和第二部分和第三部分我和。如果上面的假设是正确的,统计数据会导致一个结论,即部分I和II,以及我和第三部分,由一个作家写的,而第二和第三部分是由不同的作者,这是矛盾的。反过来,这表明,静态平均单词长度高度不是单个作家的风格特点,符合研究的魏et al。41]。至于动态平均单词长度(基于令牌的频率),我们发现,第一部分和第二部分之间的显著差异,第二和第三部分,但是有我和第三部分之间没有显著差异。这导致了不可能的结论和第三部分是同一个作者写的,和第二部分由不同的作者,因为人们普遍认为是曹雪芹写的。第一部分和第二部分根据我们的计算结果,我们可以得出这样的结论:平均单词长度不是身份的象征。
然而,对于元数分布模式,三个部分呈现相同的规律。最佳拟合模型来描述扩展对数,并没有发现显著差异。如果字长分布的署名权,我们以为,我们可以得出结论,刚果民主共和国是同一个作者写的。
此外,加强上述要求,我们做了一个额外的实验检查单词长度分布的作品长期相似和共享相同的风格,但由不同的作者。我们随机选择5个样本文本从指挥部,现代书面汉语语料库。示例文本的体裁是小说,每个文本的数量大约是2000。除此之外,他们都同时由不同的作者。我们计算每个单词长度的文本和检查使用Altmann-Fitter分布模型。这是发现,四个,五个文本适当的分布模型和它们之间有差异,如表所示7。
这个实验进一步显示,当出现时间和文本的风格充分控制,字长分布的差异很可能是一个不同的署名权、支持我们的假设,即相同的字长分布可能归因于相同的作者。
5。结论
字长分布在刚果民主共和国的统计特性是主要从两个角度进行:探索基于120个样本的拟合模型的文本从120章2000字,比较平均单词长度和三组元数分布模式的示例文本,即第一部分第1 - 40(),第二部分(41 - 80),第三部分(81 - 120)。
扩展的对数 被发现是最充足的理论分布模型拟合元数分布在刚果民主共和国,在单个样本文本和文本组。结果表明,一个音节或字符可以接受的计量单位写中文。
此外,刚果民主共和国的不同部分之间的显著差异被发现平均单词长度,但矛盾或难以置信的结论可能出现如果作者归因判断基于平均单词长度的差异。反过来,这证明了平均单词长度不是身份的象征。
此外,没有发现显著差异元数分布在刚果民主共和国的不同部分之间,根据模型拟合结果和方差分析测试。它表明,刚果民主共和国可能由一个作家写的。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者在合理的请求。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由2021 BJTU基金为教学改革和中央大学的基础研究基金(批准号FRF-BR-20-06B)。