研究文章

太的上下文中评价语言的复杂性

表1

数据集组成。

功能类型 功能名称 GT_MT GT_PEMT MT@EC_MT MT@EC_PEMT

可读性 平均句子长度(单词) 8.45 8.81 7.82 8.75
平均单词长度(字符) 5.51 5.89 5.70 5.89
短句子的数量(n< 10) 63.37% 56.44% 67.49% 58.35%
长句的数量(n≥10) 36.63% 43.56% 32.51% 41.65%

Lexico-grammatical 频率的名词 32.81% 36.82% 31.25% 36.23%
形容词的频率 8.22% 9.00% 11.81% 9.05%
频率副词 3.16% 2.70% 3.11% 2.73%
动词的频率 16.57% 16.11% 15.00% 15.87%
代词的频率 3.13% 3.03% 3.02% 3.27%
分词的频率 1.63% 1.89% 1.62% 1.97%
词素频率 1.45% 1.32% 1.34% 1.36%
频率的缩写 3.01% 2.40% 3.94% 2.44%
频率的数字 3.87% 3.65% 4.32% 3.53%
频率不确定的彼得 0.29% 0.23% 1.06% 0.34%
外来词的频率 6.98% 4.84% 6.02% 5.14%
感叹词的频率 0.02% 0.02% 0.02% 0.02%
频率的数字 0.75% 0.49% 0.70% 0.42%
频率的介词和连词 18.10% 17.49% 16.80% 17.63%