文摘
解析与CCG中文非常困难,因为架构和20的假设与事实不适合中国。概念的基础上提出的“实现”朱Dexi(1920 - 1992),本研究揭示了在20之间的差异和中国的语法和中国组合性提出了一种改进模式。的数据支持的讨论中国CCGbank (CASS)。此外,通过激活基于函数的分类设置和一个名词/动词解释清楚标签机制,我们开发一个基于规则的mini-Chinese 20解析器没有深度学习。中国新的NVN解析器超过现有20解析器C&C解析效果(低频85.9与低频74.6)部分PCTB 6.0测试集的500句。
1。介绍
组合范畴的语法句法推导是一个温和的上下文敏感的语法形式,链接的语义成分最接近可能的关系(1,2]。通过发展有效和准确的覆盖面广的解析器(3- - - - - -5),20已经成为应用最广泛的基于语法的形式计算语言学领域的。然而,对中国20解析能找到一些工作。只有一个试图训练20解析器对中国CCGbank迄今为止(6可能因为中国not-so-well-understood自然的语法。
为了识别的挑战中国在20解析、谢霆锋和Curran操作解析器体系结构和注释的决定固定语料库,发现中国CCGbanks崩溃范畴的区别,像裸/ nonbare NP和NP /定位器,可以产生更少的模棱两可的语料,从而提高分析精度(6]。然而,主要的挑战中国一般解析7,8),名词/动词歧义和argument-drop(我们采用“argument-drop”在当前的工作,而不是“pro-drop”(6- - - - - -8因为我们不想做任何承诺在生殖意义上的参数是同意代词或者NPs下降。中国没有协议,它允许参数在几乎所有的职位。下降的参数更容易的话题)。特别是,仍然挥之不去。值得注意的是,解析模棱两可调用任意label-rewriting选择20派生(NP是改写成S / S图吗1)。
在图1的NP类topicalized成分不符合句子的句法功能premodifier (S / S),因此执行一个类别转换通过一元短语结构规则NP⟶S / S。采取这样的一元运算规则是一种有效的方法来防止overgenerations论元的区别造成的(9),这一现象独特的和实质性的中国20解析。
中国男人和邹计算中使用的规则CCGBank (CASS) (https://www.ccgbank.net/),发现一元规则所占的比例十分惊人,即使数量组成规则的三组(组合、type-raising和替换)在总10]。虽然并不陌生,form-function-distinction-caused标签错误是主要挑战中国解析6- - - - - -8),没有人探索背后的原因。
根据朱“实现”的想法11)中文理解论的关键区别,本文努力探索的利基在20和中国语法假设表面结构,希望揭示汉英解析差距的本质。然后提出了一种基于规则的20解析器,它集成了一个名词/动词解释清楚标记机制和syntactic-function-based类别设置,使高低频得分为85.9。新的解析器超过C&C解析器使用supertagger [(74.6)6与潜力,大大节省supertagger培训的成本。
2。有结合力的范畴的语法
CCG演绎系统包含两个组件:其范畴的词汇和一套组合规则。
2.1。两个组件
范畴的词汇定义语言的词法项三胞胎的形式σ| - - - - - -ϕ:λ,在那里σ是语音形式,ϕ是语法类别,λ其语义公式,如(1)所示:(1)约翰| - NP: j′;去北极| - S \ NP:λx go_arctic′(x)吃| - (S \ NP) / NP:λxλy.eat′xy;苹果| - NP:一个′
20是原子的类别(例如,NP名词短语句子和S)或功能(例如,年代\ NP为不及物动词和(S \ NP) / NP传递)。功能类别,在20使用符号的范围分类的结果总是似乎削减的左边和右边的参数类别(1,2]。因此,类别(S \ NP) / NP "吃"指定的,这只会导致一个语法的句子年代当它第一次同事一个NP(削减)的方向,获得一个年代\ NP类别,然后另一个NP离开。
第二个组件组合规则结合函数和参数以及函数和函数。功能应用程序(F)(2)的核心规则的基本范畴的语法(BCG) Ajdukiewicz-Bar-Hillel传统(12,13]。他们可以把功能类别与参数类别20派生的“约翰吃苹果”,表现出图2:(2)提出了应用程序(>):A / B:λx。外汇B:⟶:英足总落后的应用程序(<):B: \ B:λx。外汇⟶答:英足总
箭头>和<记忆的表明采用哪个版本的功能应用程序指向它的参数组合的方向性。突显出的范畴的推导,再加上语义解释,表明通过组合两个功能应用程序规则,首先产生的不及物动词“吃苹果”副总裁,然后整个句子(协议值等对今天的目的将被忽略。它不会被用于我们的目标语言的情况下中国因为其缺乏形态学特征)。
除了F, 20包括type-raising (T)成分(B),和替换(S)到BCG(我们称之为20规则以下),增加表现力温和的上下文敏感的同时保留syntax-semantic透明度同时([14](p。74))。规则的三组不同F,他们可以操作功能类别。(3)提出type-raising (T >): X:x⟶T / (T \ X):λf.fx向后type-raising (< T): X:x⟶T \ (T /X):λf.fx(4)提出作文(> B): X / Y:λx。外汇Y /Z:λx。gx⟶X /Z:λ范(gx)落后的成分(< B): Y \ Z:λx。gx X、Y:λx。外汇⟶X \ Z:λ范(gx)提出了作文(>×B): X / Y:λx。外汇Y \ Z:λx。gx⟶X \ Z:λ范(gx)向后交叉组合(<×B): Y /Z:λx。gx X、Y:λx。外汇⟶X /Z:λ范(gx)(5)提出替换(>):(X / Y) /Z:λxλy。fxy Y /Z:λx。gx⟶X /Z:λx.fx (gx)提出了替代(>年代×):\ Z (X / Y):λxλy。fxy Y \ Z:λx。gx⟶X \ Z:λx.fx (gx)向后替换(<):Y \ Z:λx。gx (X、Y) \ Z:λxλy。fxy⟶X \ Z:λx.fx (gx)向后交叉置换(<年代×):Y /Z:λx。gx (X、Y) /Z:λxλy。fxy⟶X /Z:λx.fx (gx)
20遵循传统范畴的实践在假设类别简称类别的词类([12,13,15)等)。具体,它假设有足够的词类(pos)描述,类别和类别之间有一个一对一的对应关系和pos。因此,我们可以通过现有的研究对中国pos穿透,或字类在许多作品,揭示背后的神秘和挑战中国在20推导。
2.2。一些见解
在继续讨论之前在并发症的中国语法,一些种类和成分的见解规则可以帮助我们定位差异在20的假设和假设在中国语法的研究。
当类别参与句法推导代替词项的分配,预计类别的句法功能对应的pos应该打在句法结构。让我们立即通知系统映射假定在20类别(图/ pos和语法功能3)。有一个函数集的类别或pos的句法功能,取缔一对多的映射pos的句法功能,意义,例如,一个动词不能玩任何句法角色除了一个谓词。
20的另一个关键的假设是所有的语法规则在20 syntactization组合子的组合逻辑16,17]。他们基本上是功能展现表述语义依赖可以观测到句法派生类别的成分之一。句法语义透明度是明确的组合类型透明的原则(6):(6)所有句法组合规则是type-transparent版本的一个少数简单的语义操作的功能。(2]。
Bozşahin [18]总结(6)的狭窄声称在20自然语法结合的泛型类型,属性表现在三个方面同时被一个组成部分,是可诱导的,立即解释。这是整洁的。然而,它应该明白背后的整洁依赖三个默认设置:。(7)(a)句法范畴揭示了句法成分之间的依赖关系(或语法关系)(b)一个句法类别将所需的语法功能如图3当参与句法派生(c)所有语法规则组成在弗雷格的意义上,他们脚手架part-to-whole派生语法的方式表现出图4
(7)在三个条款,违反(b)将导致论元的区别,这可能反过来影响(c)派生的方法。考虑到这三个步骤,中国语法呈现一幅比数据更复杂3和4。一节中,我们将概述更多复杂范畴的机制的研究由中国语法学家。我们将认为那些看得见的表面结构的中国告诉一个不同的故事,和中国语法的并发症可以占一个论元统一策略称为“实现”和精制的分化“成分”和“实现”。
3所示。并发症20镜头下的中国语法
3.1。类别模棱两可:Pos和句法功能之间的故事
类别模棱两可的故事始于中国pos的奥秘。谢霆锋和伦6),以及其他中国解析工作7,8),发现pos模棱两可(尤其是动词或名词歧义),一种独特的英文错误类型罕见的解析。它指示的一个语言元素在中国不同的词类之间通常是模糊的,在这种情况下,元素的实际pos决定只有当它进入一个实际施工。这个过程被称为“实现”朱([11](p。74 - 5))。
不及物动词短语”去北极”(去北极)作为一个例子。在中国,可以形成一个大的副总裁与另一个不及物动词(“探险”)和(8)或一个完整的句子的谓语(9),其语言自然是保存:(8)“去北极和探索”(9)我可以去北极
然而,这样一个动词词组也可以一个主题,一个修饰词德建设,甚至独立作为一个个体的答案(10)-(12)所示。轴承没有形态变化。似乎相同的语言短语能够采取的功能通常由名词,形容词和句子。因此,pos不承担一个一对一的对应关系在汉语句法功能。根据朱,副总裁的过程函数作为一个谓词,名义上的修饰词,或一个句子是一个过程被称为“实现”,一个特定的词或短语词性意识到建立成一个句子的一部分(甚至是一个独立的句子):(10)(11)“去北极是我的梦想”(12)“那些去北极是勇敢的去北极的
为了解释困境,朱之间构造一个多对多映射在中国(图pos和句法功能5),与形态学的映射语言如英语(图4),这是一对一的。
映射显示在图5之间没有一一对应,pos和句法功能。我们被困在这里,因为承认一个元素属于一个pos,例如名词,将导致句法功能元素的灵活性可以当它发生在主体/客体以外的其他职位,而支持uni-functionality一定pos,例如认为名词只能作为主体/客体,将产生一个灵活的pos系统因为动词和形容词也应该是名词时表现为主体/客体([19,20.)等)。这就是中国pos获得名声的灵活,以及如何在20时论的区别。
同样,分类歧义是不可避免的在20的时候,对任何元素,其在词汇与语法不同的类别分配函数预计在一个实际的推导。的情况(10)例如,“去北极”的年代\ NP类别预计是一个NP在主语的位置,导致名词/动词歧义的一个范围的版本:(13)[去北极:S \ NP)∗NP(是我的梦想)年代\ NP
为了保持传统的pos系统的强度进行句法分析,朱提出“实现”的想法来拯救pos-based句法结构。
3.2。两种推导
3.2.1之上。构成与实现
朱区别在11)两种不同的操作,即作文和实现中国,利用推导的句子。根据朱,推导的中文句子是由两个阶段(图6),字组成词组和短语意识到句子,与推导在20成分在两个阶段。根据朱,实现与成分的不同之处在于,它不提供一个更大的整体,但只有桥梁抽象句法结构与实际输出时使用一个真正的话语。
3.2.2。朱改进模型的组合
朱的设计是富有洞察力的但很粗糙,受制于缺乏务实的研究在1970年代。它被主流观点,一种语言的表层结构是命题,主谓的区别是基本的二元结构。然而,中国展示了。通常是非常艰难的锚定的主题在中国因为语前的成分并不总是代理的谓语动词,例如,“台”上(14)和“一锅饭”(15),有时他们不承担一定的语义关系谓词,如“不下雨”(16):(14)在舞台上,坐在主席团的(15)“一锅米饭可以养活十个人”(16)这已经三个月没有下雨了
与中国几十年的热烈的讨论在主谓的区别,一个共识是达到了表面结构的中国展示了一个信息结构(是)基于topic-comment区别,,然而,不抓住句子的predicate-argument (PA)的结构与形态语言做(21- - - - - -25]。因此,它是话语,而不是句子或分句,我们看到的表面结构。一个话语更比一个句子在结构允许的宽容。PA结构化的句子可以实现topic-comment (TC)结构化的话语,在这种情况下,一个话语PA结构化。当一个词(或者甚至一个字如果有具体意义)作为实现话语的一部分(主题/评论),而不是形成PA结构首先,使得TC结构可能不符合PA结构(cf (17)。同样,一个短语(或内容的词),朱所指出的,可以独立作为一个话语本身(cf (13))。因此,一个话语,但不一定可以通过结构的函数。因此,我们提炼中国组合成图7。
相比之下,图6,图7仔细皮话语从句子/条款和满了推导的细节。在中国,我们看到和听到最右边的话语,而不是工具条句子或分句,依赖于PA结构。流程在左框中显示一个话语是如何推导出在中国设置。
所有的箭所传递,所以图7展览机制与话语推导不同的路径。我们在这里可以得到多路模式,因为中国,作为一个语言没有案件或其他形式的形态,放松谓语动词的语义限制强加于他们的论点。因此,而不是移动组合成一个句子,词或短语可以直接右转和实现部分的话语,然后组成一个更大的整体,只要两个成分轴承“性”关系。这提供了一个更好的解释PA结构和结构的差异在中国。
此外,我们把下标C, 1和2组成和实现区分他们从组成和实现。根据我们在3.1节讨论、写作C没有承诺的功能,语言的元素。这两个函数,语法和务实的,分别由realization1 aretaken照顾和realization2。用另一种方式,对于任何语言项目,这样的语法确实将pos的角色和功能在实际话语、语法或务实。因此,提供了一个理论基础来这样的论元实现统一生效的一元的形式规则。
这一节的最后部分,我们将从中国CCGbank访问数据(CASS)。统计数据将支持我们度过我们的讨论的两个结论部分3.1和3.2:(1)类别在中国ambiguate三个角色,即类别的pos、句法功能、实用功能;(2)实现中国在20推导并不是一个偶然的现象,而是一种必要的方法来消除这种差异的类别模棱两可。
3.3。中国CCGbank (CASS)数据
中国CCGbank (CASS)自动转换中国潘树图资料库(PCTB) 6.0的算法(26]。派生的语料库包含20派生的25946个句子和词汇46085单词加上他们的语法范畴。它继承了原始类别(表71从PCTB)。
总共2483 20规则应用的577668倍(这个数字小于在网站上显示的频率(722492次)因为数量包括punctuation-absorbing规则和协调规则,两者都是消除目前用途,前者是技术操作轴承与句法关系连接,而后者可以减少应用程序在两个步骤)(表2)成功解析。整体中正在使用的所有规则、功能应用率先近92%,剩下的8%是划分几乎同样在20规则(B, T, S完全)和non-CCG规则(NCR)。事实上,NCR的数量在20规则,虽然轻微,表明中国在20推导NCR的意义。
NCR subcategorized可以进一步分为四个类型(表3)。最高频率的规则在每个子类型中实例化表4期间,他们使用派生数据所示8- - - - - -11。我们尤其感兴趣的是一元的总数的90% NCR的使用不仅因为他们杰出的地位在中国20推导也对应朱的实现(虽然一元规则也可以发现在建设CCGbank与英语和其他语言(特别是主题化),它们覆盖范围在中国(4亚型)是广泛的,和更高的比例(m . Steedman个人沟通,4月21日,2019))。
如前所述(6,9,27],一元规则CCGbank运输类别的内涵从左边的类别的pos终端操作的一类函数在右边。例如,在图8的年代\ NP类topic-drop成分被重定向到一个独立的句子(年代);在图10的NP类topicalized组成成一个句子premodifier (S / S)(类似于图1),在图11的年代\ NP类动词短语变成名词修饰语(NP / NP)合法大NP用于另一个条款作为一个对象。然而,微妙的差异出现在输出端尚未分化,一些输出类别代表句法功能(本地依赖图所示11)和其他语用功能(相关话题现象如图8和10),相应的实现1和实现2分别。
3.4。一些人认为
总而言之,中国语法假设20的不同在两个组件:一个,类别在中国不平等的pos的类别,它们也可能是类别的句法和语用功能;两个,推导在中国不仅功能成分也实现。情况进一步复杂化的多路径推导话语,中国表面的结构表明因为话语表达的信息结构由词序操纵,从而扮演双重角色在决定类别组成。应该意识到,我们看到中国是一个平面结构,三明治组成和实现派生的左框如图7。
根据讨论在本节中,我们提出两个建议中国在20解析器的设计:(1)放弃类别划分基于pos和激活一个简单的基于函数的分类系统将在(28,29日)为了解决中国20论区别独特的推导(部分4.2对细节);(2)锚定结构导致动词错误的标签,因为名词/动词歧义的挑战和中国解析argument-drop(以及中国在20解析)本质上是语言。两个挑战可能诉诸于实现1从短语推导接管,因此是construction-restricted,而argument-drop也可能发生在实现2当删除一个谓词的主题也是话语的主题。对于后一种情况,我们包括谢霆锋(30.]1号战略argument-drop-adding s / NP类词汇,所显示的条款(4 d)在表5。现在剩下的问题是结构导致汉语动词标签模棱两可。因此,我们的任务是在部分4探讨导致动词标签的结构歧义的第一件事。
4所示。一些假设关于中国在20解析
4.1。结构与不正确的动词标签
我们选择500句随机从PCTB 6.0,解析C&C解析器(6]。把所有动词在一个句子是否正确标记为基本标准,我们最终挑出89句108错误的地方解析错误与动词的关系。表6介绍了结构与这些动词解析错误。我们在每个建设数据实例化一个案例12- - - - - -16。在每个图中,左边的派生树是不正确的C&C解析结构,和正确的解析假说。
上面的五个C&C解析树中,三个五个(数字12- - - - - -14)否认自己的最终身份类别的句子(如果我们忽略的句子和话语范畴的区别)。图12认为整个结构topicalized组成的一类S / (S \ NP)在实际的谓语动词“非常重视“解析的论点的PP、人物15错误地识别sentence-initial名词短语“对外开放”作为控制动词,和图16主体条款“抢滩高科技市场”被分成两半,一半的语言“抢滩”充当谓语动词和名义一半”高科技市场”的头postverbal参数结构,最终导致一个不及物副总裁。尽管其他两个数字(数字13和14)幸运的是获得句子类别年代最后,两个识别错谓语动词。
当调查这些解析树,应该注意到,由于作品点出所有标签错误出现在特定的结构,其组成和实现通常决定谓语动词之前完成。最有特色的是前三种(PP、德构建和协调)表6因为它们包含语法标记来帮助识别那些结构语法。灵感来自观察上图,我们提出一个“最大投影动态的词类”机制(MP薄铁片)标签三种最大投影结构先锚定谓词在类似的精神Stanojević和Steedman的增量解析算法31日,32]。在继续之前的工作假说MP尾随者,我们需要准备与另一个分类系统适合中国的需要。
4.2。简单的分类
传统pos区别遇到巨大挑战时用于分析中国因为无处不在的论元的差别。因此,中国语法学家提出实质性的- - - - - -predicates-auxiliaries区别基于功能的话可以玩21,28,29日]。Substantives函数对象和对象;谓词,顾名思义,谓词的结构;和辅机伞其余不使谓词或参数对结构的贡献。曹国伟和朱的讨论之后三方的区别在21,29日),我们精心设计的表7词的三个函数类类,曹国伟和朱列表在每一个人(注意,这里的文字类熊一些不同于传统pos因为他们是常用的在中国研究),以及相应的20类的原始分类表1。
我们提出一个简单的分类系统在20连接符合三方相应的区别(表8)。除了三个基本类别SC(实质性的组件),VC(表语组件),和AC(辅助组件)对应于实质性、谓词和辅助,分别演绎的系统包括一个额外的U类别的目的,站在最后的话语。VC和交流可以演绎由SC和U (17)。(17)(a) VC∈{(U \ SC) / SC, U \ SC, U / SC}(b)交流∈{SC / SC, VC1/风险投资1,风投2/风险投资2,风投3/风险投资3,风投1\风投1,风投2\风投2,风投3\风投3(风投1/风险投资1)/ SC (VC2/风险投资2)/ SC (VC1\风投1)/风险投资1(风投2\风投2)/风险投资2(风投3\风投3)/风险投资3},风投1= (U \ SC) / SC, VC2= U \ SC和VC2= U / SC
从表可以看出8(17),我们稍微修改风险投资的内涵相对于谓词在两个方面。首先,形容词被排除在VC交流因为形容词主要是名义上的修饰词,毫无贡献PA结构根据我们计算在500 -句子测试集(500句,207包含形容词,其中189是谓词修饰符和18)。形容词是谓词的一些情况可以照顾规则13 (AC转换为VC) 4解析过程如表所示5。第二,U / SC类别(1号的方法30.)包含在VC topic-drop处理主体地位。从解析的角度来看,我们进行句子分割Jieba分割工具专为中国开发的由中国科学院(可用https://github.com/fxsjy/jieba)。24字类采用Jieba第四列的表中列出8,大约与第二列匹配。下院议员薄铁片然后标签标记的一个简单的类别Jieba词类属于从而能够解析中国没有深度学习的句子。这是我们的创意解析时要考虑功能和结构要求。
4.3。议员薄铁片
议员尾随者标签的动词在一个话语的过程如下:(18)(一)马克所有动词的词类的VC在第一轮(b)认识到国会议员的句法标记结构(PP、德建设、协调、NP内部,并接受条款如表6)和VCs在议员结构转换成数控或交流(c)确定独特的风险(d)确定主谓语根据谓词的规则(19)当议员结构解析器无法识别(19)谓词规则:句子的谓语是最左边的动词的句子。
在议员结构与句法标记(PP、德建设和协调),词类的PP和内部组件德施工后可以立即定位标记。的情况下,建筑的类别是固定的(德结构是一个SC),或其内部成分的类别是固定的(参数在PP总是一个SC)。因为协调可以协调SCs,风投,ACs,甚至,我们还需要依赖周围的词类分布协调确定pos的协调。
至于NP内部和主题条款不具有固定的语法标记,不容易识别结构nonstatistical方法。我们提出“左边的动词”战略(19)协助处理在NP内部基于我们的调查在100句PCTB 6.0中,我们发现73%的句子的主要动词是最左侧的。现在,主题条款仍是否在我们的机制。
合成我们的倒影MP结构,简单的分类,和MP薄铁片,然后设计一个NVN解析器专为中国在20解析没有深度学习模型。
5。基于像素的标记NVN解析器
5.1。NVN解析器
对中国NVN解析器提供了一个基于规则的解析模型。解析的核心思想是基于我们的议员薄铁片和进一步实现简单的类别和16 phrase-structural(表的计算规则9)。与同期相比20解析器,主要是中华商务(6),NVN解析器可以更合理地解决解析错误的名词/动词歧义和argument-drop。解析过程一般包括4个步骤(图17):步骤1:段句子与Jieba分割标记工具,然后标签类别SC,简单的令牌VC或交流根据Jieba-simple类别对应表8步骤2:获得较大的SCs和ACs第三步:处理可能的议员与句法结构标记步骤4:解析结构没有语法标记从左到右,直到只剩下一个VC
5.2。NVN解析过程
解析的细节如表所示5在一起(表的规则9)用于每个步骤或分步。步骤1:标记和简单的分类任务。我们先将句子分割到令牌Jieba分割工具,然后标签类别SC,简单的令牌VC或交流根据pos他们从Jieba据表8。第2步:实现较大的SC和交流。我们解析器吸收邻近ACs和邻近的SCs根据规则1和2。AC吸收规则1表5允许交流组件不是在三个典型的议员结构吸收其相邻的交流,形成一个更大的交流分量。例如,令牌“非常”吸收令牌“好”当两cooccur形成更大的交流令牌“很好”。同样,SC吸收规则2可以实现更大的名词短语,有些专有名词不是由分词识别。第三步:处理像素结构。有三个议员结构治疗——在这一步德建设、协调、PP、句法标记的“的”(“德”),“和”(“和”)”或“(”和“),“在”(“的”),“比”(“与”),“宁”可(宁愿)等解析器首先检测上述句法标记。如果没有检测到句法标记,解析器将直接跳过步骤3。
如果检测到句法标记,解析应该确定议员的范围根据表结构和解析10。
我们应用6位数组”选择“记录附近的pos分布协调,使用3位数组“,”“正确”德建设,3位数组“正确”来记录页的右pos分布。在这些数组,我们纪念null元素−1,交流与0,SC, VC和2,德3、配合4的句法标记。电动阀门是“存在的其他动词以外的数组。“这将是采用消歧上面列出失败时:步骤4:从左到右的解析。在这一步中,解析器处理所有结构没有语法标记:决定一个形容词谓语为4;如果形容词谓语、解析NP VC做内部包含4 b和吸收其他ACs U 4 c和生成规则14 - 16;否则,解析NP-internals和对象条款,吸收所有ACs,生成U。
5.3。评价
我们采用一个现成的测试模型在20 parsers-dependency tuple-proposed克拉克et al。(33]。后来的标准(4)是相似的。我们测试现有的C&C解析器和NVN解析器在500句随机选择从PCTB 6.0,计算这两个解析器对无标号的f值依赖关系(超滤),f值超过标签依赖(低频),覆盖和五个议员的低频结构通过手动候选结果与金标准的比较,如表所示11。
我们的评估偏离(33],它需要块,相反的话,最小单位,因为这两个解析器不能用语言相比有两个原因。,NVN解析器不依赖关系的传统在20解析由于采用简单的类别。2、NVN解析器与一组较小的标签比C&C解析器更容易达到正确的标签如果都在正确的依赖。这些问题可以避免通过计算超滤\低频块,因为它只关心整个块的标签没有窥视到它的内部结构。我们选择谓词作为第一个词汇块,左第二主体组件,组件的对象在其第三,其他成分在配件上。超滤、低频和其他指标计算了依存元组与三块。可以看出NVN解析器在两个指标超越A和B,证明“最大投影动态的词类”在某种程度上。然而,指标C找到NVN解析器的缺陷/主题条款,它只出现在15个句子。这是很严重,但没有造成整个低频的毁灭性的打击。
6。结论和局限性
中国解析一直令人费解,因为它灵活的pos和缺乏严格的词形变化。分析中国语法假设不同的产品种类和组合规则,通过20,清晰的展现在我们面前的是帮助解释了为什么以及如何pos模棱两可的挑战中国解析与中国在20和解析。我们提出一个简单的分类系统,它是基于超早期提出的句法功能,朱,Lv和设计一个NVN解析器使用简单的类别和议员尾随者。诚然,尽管它的高低频和佛罗里达大学的分数与终极动员令解析器相比,NVN克服解析器仍有一些缺点:首先,简单的类别标签可能是过于简单化的住在明确pos取向的传统在20类别;其次,合理的方式学习机制需要解析介词MP, NP内部,主题条款,以及不对称协调;第三,大规模数据集测量尚未开展。目前的工作是在中国首次尝试思考从理论角度解析。我们希望它可以揭示更多的作品在中国和在20解析。
数据可用性
用于支持的数据分析的研究可从第一作者和通讯作者在合理的请求。
的利益冲突
作者宣称没有利益冲突。
确认
本研究的主要项目是由国家社会科学基金(批准号17 zda027)和基础研究基金为中央大学,拍摄(批准号FRF-BR-20-13BA)。