文摘
脏话代词构成重大挑战语言研究和中文自然语言处理。基于汉语语料库的数据中心的北京大学汉语语言学(CCL),探讨脏话的自动依赖解析错误助教(“它/他”)和相对结构和提供了一个详细的定量分析结构的特点。研究结果不仅提供了证据表明,即使在激进pro-drop等语言普通话,会发生重复的对象和主体地位还提供中文自然语言处理的重要见解。
1。介绍
脏话代词没有前期或参照,也叫“虚”,“空”,或“nonreferential”代词在文学和最近几十年收到了相当多的注意力从语言研究(见[1- - - - - -4];Rothstein [5- - - - - -8];吴和马修斯(9])。第三人称单数代词助教(“他/它/她”)用普通话为例(口语中文,第三人称代词助教不区分女性和男性;在写中文,可以正字法分化成三种形式,即它(它的),他(“他”),和她(她的)),这是正规的解释为参照,anaphorically或cataphorically奇异名义相关元素前或以下的话语。如果使用脏话,它既没有一个前期也没有参照,如(1)和(2)所示。(1)一个。我们姚明haohao水ta san-tian。我想要好好睡它三天(英语词词翻译)我想要睡三天的(英语翻译)b。他ta gegou。喝足够分类器(CL)“喝的满意度。”(2)倪詹从、pao从关ta谢谢你美。你站起来跑不管它有鞋没有鞋“只是站起来并运行,无论你是否穿鞋。”
在上面的例子中,助教不参考任何实体在真实世界;换句话说,脏话助教语音学上实现,而它在语义上是空的。这form-meaning不匹配也不可避免地带来重大挑战语言研究和自然语言处理。
虽然大量的研究了脏话助教从定性的角度,对其句法和语义属性提出了有争议的问题,它已经从一个数据驱动的方法研究更少。语言研究的一个核心变化是它要求刘定量研究方法(10)指出。他说,数据驱动的研究符合现代人工智能基于深度学习。Zhang et al。11)强调理解语言的本质和组织规则为自然语言处理提供了重要的见解。因此,本文提供了一个全面和细粒度的定量调查中国的脏话助教和相对结构基于真实数据的提取从中国北京大学中国中心的语料库语言学(CCL)。本研究的贡献是双重的:首先,它是希望提供一个详细的脏话的特点和客观的分析助教结构;其次,一些见解依赖将解析的结构问题。
本文组织如下。部分2提出了一个关键的回顾以前的研究在中国的脏话助教和相对结构。部分3介绍了当前的研究中采用的数据和方法。部分4介绍了研究成果。部分5讨论了我们的发现。最后,部分6提供了一个结论。
2。之前的研究在普通话脏话助教
我们复习两个领域相关的研究设计和实现的研究:研究语法属性和语义约束的脏话助教从传统语言学的角度和研究代词决议从计算语言学的角度。
2.1。研究从传统语言学的角度
现有的研究脏话助教主要是关心建筑如水ta san-tian(“睡了三天”),如例(1)中所示,大量的笔墨都用的语法性质助教。一些研究人员认为,建设问题是一个double对象建设或pseudo-dual-object建设、和助教作为对象或pseudo-object ([1- - - - - -3,12)和其他很多),而元(13)指出,求解施工建设、和助教结合前面的动词,合在一起形成了一个双音节词的词。同样,Ōta [14林,和张8)认为,助教是动词encliticised根,语法演变成一个附着的。相比之下,Lei和胡15)认为,助教接近这个词之后。例如,他们相信助教(“他”)通用电气(CL)已经发展成为一个复合词他的助教通用电气郭台铭(“喝的满意度”)。
动词的语义约束助教也吸引了很多注意力。一些研究人员观察到动词等结构水ta san-tian('睡了三天')是意志的动词,不能采用标记(完成的方面3,16]。其他研究人员认为,问题的结构可以根据自己的直觉采用标记完成的方面(例如,王先生和王17])。
如我们所见,许多研究已经做了脏话助教结构类似于结构示例(1),但上述问题仍不清楚,主要是因为到目前为止讨论的研究大多是基于研究者的定性和个人语言知识和语言的直觉。此外,对建筑等关ta youxie meixie(“不管是否一个穿鞋”)如例(2),在那里关理解为是一个连词的意思“不管怎样”或“不管”,助教占据主体地位的条件条款(陆18),不同的特征(1)等结构的例子。
2.2。助教在计算语言学的角度
代词加工一直是自然语言处理的一个关键问题,关注搞笑决议,即确定代词的实体可以匹配(见,例如,19])。以中国代词决议为例,许多研究人员已经研究了各种方法来增加引用解析效果,包括深学习方法([20.];陈等人。21树]),内核方法(22),和语义和规则的组合方法19]。
尽管先前的研究已经在很大程度上造成了中国文字的信息处理和挖掘,现有的方法关注的处理参照代词和旨在筛选出正确的指示物。自然结果是nonreferential(脏话)代词相对被忽视。Nonreferential代词,我们假设,对待同样参照代词,名词短语或其他类型的元素是错误地分配给他们指示物。
在这项研究中,我们以自动依赖解析为例探索nonreferential代词的挑战助教对中文信息处理,希望一个更完整和细粒度定量探索脏话助教和相对后者部分结构可能阐明这些问题。
3所示。数据和方法
3.1。数据源
真实的语言数据的脏话助教从中国语言学中心的北京大学语料库(CCL)分部。CCL(分部http://ccl.pku.edu.cn: 8080 / ccl_corpu)是一个综合语料库设计代表中国古典和现代汉语,它包含大约7亿个汉字与中国的口语和书面样本。它由各种类型的文本,如报纸、杂志、文学、实用文本,电视脚本,电影脚本,自然对话,电视采访,和翻译文本。许多类型的语言类型一起代表一个好的用法在现代汉语的多样性。因此,脏话的研究助教基于CCL语料库分部被认为是令人信服的。
3.2。数据收集
我们收集了2758189的实例他(“他”),423213它(“它”),和779885年的她(“她”)使用开源统计软件PowerGREP(乔伊斯23自代词])助教有三个正字法的形式。只为了获得潜在的脏话助教令牌,与一个明显的例子引用被排除在解释结果。
例如,情况助教用于组合词,如复数代词吗tamen(“他们”)和所有格代名词四氨基二苯醚(他/她/它的)被排除在外。随后,其余数据手动检查和复查,最终提取1346年实例中助教有一个nonreferential阅读。如表所示1脏话,有617个实例助教(“他”)和729年的助教(它的),而没有脏话助教(“她”)。
3.3。依赖性解析
依赖性解析的脏话助教和相对结构是建立在依赖语法(24- - - - - -28]。依赖性解析目前中国语法分析的主流方法,特别是在自然语言处理领域,由于简单的形式,坚持人类语言的直觉,易于应用和能力对于语序结构灵活性(刘、张29日])。根据依赖语法、句子的句法结构由各个单词之间的依赖关系。语法有很多属性的依赖关系:(一)这是一个两个语言单位之间的二元关系。(b)通常是不对称和指示,其中一个单位作为头部,另一个是相关的。(c)标记,通常是表示依赖关系的类型使用一个标签上的弧连接这两个单位(30.:1568)。
图1提供了一个示例。头的定向图中弧线依赖显示不对称两个单位之间的关系。弧上的标签代表依赖类型或语法功能和显示了头和依赖之间的依赖关系。例如,弧上的标签从“有”到“苹果”是“obj”,这意味着“苹果”作为动词”的对象。“依赖分析可以被视为所有依赖项的集合一个句子中去。
本研究主要关注相关脏话的依赖关系助教,包括头部和依赖不对称关系和相应的依赖关系,由斯坦福大学自动处理解析器(陈和曼宁[31日])。
3.4。自动解析
首次使用软件实现分词和词性标注ICTCLA(由中国科学院)之前手动校正。随后,标记的数据是由斯坦福大学的解析器处理,自动解析工具,进行依赖项解析。根据刘、张(一个实证研究29日),斯坦福解析器自动句法分析的准确性的中国目前解析器中是最高的。他们报告精度的依赖性对中国文学和nonliterary文本解析器由斯坦福大学高达82.16%和85.82%,分别。
3.5。定量分析
手动自动解析后,我们检查了结果,关注相关脏话的依赖关系助教。然后,我们仔细看看原始数据提取的进一步探索结构的特性问题,提供了一个完整的和细粒度结构的定量分析,以期阐明脏话的语法解析助教结构。
4所示。发现和结果
4.1。自动解析结果
以下4.4.1。自动解析精度低
我们首先检查依赖关系对脏话的准确率助教,包括head-dependent关系和依赖关系。结果表明,依赖解析特殊结构精度远低于82.16%的平均精度为文学或85.82% nonliterary文本(刘、张29日])。在当前的研究中脏话助教head-dependent关系的建设,只有29.3%被正确识别,和依赖关系都是不正确的注释,如表中所示2。
4.1.2。各种虚假的依赖关系
接下来,我们审查相关脏话的依赖关系助教并发现一些依赖关系被错误地认识,如表所示3。
如表所示3dobj(直接宾语),神经网络(名词复合修饰符)和nsubj(名义主题)是最常见的假依赖关系,表明脏话助教在这些实例中被错误地解释为参考。我们可以看到,自动句法分析的特殊结构,如脏话助教建筑,是远不能令人满意。
许多实证研究证明,语言知识可以有效改善的性能依赖解析([11和其他人)。在下一节中,我们提出一个客观定量分析的脏话助教结构,试图提供语言知识语法解析这些结构。
4.2。脏话的特点助教和相对结构
4.2.1。准备依赖性:间接宾语(iobj)和附加的主题(expl)
CCL基于数据,我们手动检查分配属性和语义约束的脏话助教结构进一步澄清这些结构的特点。首先,主要有两种类型的结构,允许脏话助教:V +助教+ NP”结构和条件条款,通常引入的连词关(“不管怎样”/“不管”),如表所示4。
值得注意的是,虽然助教发生在postverbal位置,即对象的位置V+助教+NP建设,它不作为直接宾语的动词由斯坦福大学自动解析的解析器。在生成语法中,一般假定对象通常由动词和subcategorized因此theta-marked。因此,脏话代词不能出现在theta-marked位置,因为它们在语义上是空的。在传统语法中,正如前面提到的,这种结构视为双重对象结构,和脏话助教被认为是pseudo-object或间接宾语(2,3,12]。
此外,在一个条件等条款关ta youxie meixie(“不管是否一个穿鞋”),脏话助教占据主体地位。在这里,助教不指一个实体。和条件条款通常是引入的(bu)关(“不管怎样”),这是一个结合(见也陆18:523)。因此,助教无法解析的直接宾语(bu)关错误地解析,斯坦福的解析器。
4.2.2。的特征V +助教+ NP结构
(1)动词V +助教+ NP意志动词。的动词V+助教+NP结构通常是意志(3]。我们收集了974的实例V+助教+NP建设,有280个动词,其中只有21个典型nonvolitional动词断章取义,表中列出5。
值得一提的是,nonvolitional动词一样可以使用上面列出的意志动词时先于脏话助教(是在马32),一些nonvolitional动词可以作为意志的时候发生在一个irrealis上下文),如例(3),动词如果(“死”)不同助教,如果(“他已经死了”)因为前者意味着“去死”,这是意志。换句话说,大部分的动词V+助教+NP结构nonstative(因为状态动词nonvolitional;参见[32,33])。(3)如果助教通用电气guangrong。死它CL荣耀“死的荣耀。”
此外,动词往往是单音节的。只有少数双音节词词,如表所示6。
(2)高频动词V +助教+ NP。一般而言,及物动词和不及物动词可以填补的助教作为一个间接用普通话(伪)对象,如表所示7,列出了十大高频词。
从表可以看出7,这些主要是常规的及物动词(十之八九最常用的动词都是常规的及物动词),等达(“打”),氮化镓(“做”)沙(“杀死”)。然而,不及物动词也会发生,如以下示例所示:(4)一个。我们湘夏瞿香港朱ta戟天。我想要去香港去住几天我想去香港,呆几天b。Ku ta通用电气tian-hun-di-an。哭它CL天空黑暗地球黑暗“有一个很好的哭了。”
断章取义,动词等朱('生活')ku('哭')subcategorized为不及物动词,因为他们不确定一个对象。然而,在上述情况下,动词词素以一个NP作为它的补充,如时间表达式戟天“几天”示例(4)表示结果的名义通用电气tian-hun-di-an“一个阴暗的天空黑暗地球”的例子(4 b)。出于这个原因,NPs被视为“quasi-object NPs”相关文献(2,3,13]。时间表达式或表示结果的表达式,虽然通常作为兼职教授,似乎函数作为补充比作为动词修饰词在某种意义上,他们的发生是必须的,因此模糊参数,兼职在一定程度上的区别。
(3)NP在V +助教+ NP结构:修改分类器通用电气或一个数字。重要的是,NPV+助教+NP建筑似乎是无限期特异性的表达也被观察到在马3林),(4,34),和人民币(13]。这在某种程度上解释了一个神经网络(名词复合修饰符)关系通常是由斯坦福大学的解析器自动解析过程中检测到错误。
具体地说,非特异性不定NP完全由分类器通用电气或数字(这里的数字包括这个词霁“几”和禁止“一半”;表示实体的数量)。
从表可以看出8,百分之四十的NPs的分类器通用电气的出现使名词化后助教元素。百分之六十的NPs等数字开始易(' 1 '),圣(“三个”),施(“十”)钱(“千”)。裸露的NPs或明确的NPs不发生。的问题上,为什么只允许非特异性不定NPs陆(35)做了一个猜测:当NP是具体的或明确的,代词的形式解释为参考,如任助教na-ge窦(“那家伙,他是非常有趣的”),在哪里助教作为一个属性的明确的NPna-ge任(“那家伙”)。
(4)V +助教+ NP Irrealis上下文结构。一般认为脏话助教只能发生在一个irrealis上下文(见,例如,(35- - - - - -37]),动词前助教不能把一个方面标记等勒或郭(见[3,8,38])。我们发现上面的描述是正确的,如表所示9。然而,我们也注意到,有几个例外,它允许标记的发生方面。
4.2.3。条件从句的特征
(1)(bu)关连词。在有条件的条款,脏话助教之后与意义“无论如何,”和最常用的连词(bu)关,如表所示10。中国古典的结合(bu)关是一个动词。根据吴44),连接词的使用bu-guan(“不管怎样”)在唐五代所开发的。王(2008)确定了15个连接使用的例子关脏话主题之前助教在诸子之一Yulei”朱熹的机密谈话“经典(宋代)。他建议关一定经历了语法化过程允许同现的脏话主题助教。关是语义漂白。此外,关位于sentence-initial位置,“语法化”的首选轨迹过程(奥尔45],p . 297)。
(2)三个类别的谓词条件条款。如表所示11包含脏话的谓词条件条款助教统计上可以分为三类:包含一个疑问词组成,协调组成(a和b或“a不a”),和一个空的形式。
有趣的是,疑问词组成的句子,如shenme(“什么”),水(“谁”),怎麽(“如何”)、上海(“什么”),和duoshao(“/有多少”)不表达疑问含义。相反,他们有一个noninterrogative不定解释,或者更准确地说,一个通用量化解释(5)所示的例子(李46)指出,条件允许无限期Wh自由)。(5),赛shenme“什么竞争”(这是词词翻译)意味着“任何比赛,”而不是质疑这比赛。(5)关ta赛shenme nimen de huoshi cha buliao。无论什么你德餐差不竞争无论你参加什么比赛,用餐不会差。”
在协调组成,协调元素提供替代条件可供选择。如果我们把A和B结构作为一个例子,如例(6)所示,A和B是坐标形式在一般的意义。(6)的元素施youpai你们郝(是正确的)和元素B你们zuopai郝(“是左”)提供两种截然相反的条件可供选择,而无论在该条件下,结果在主要条款将保持不变。(6)Ruguo zhishi她danchun de“生活刘德华,如果只活简单DE日常生活关ta史youpai ye-hao, zuopai yehao,酒后驾车不管它是右边和左边我们laishuo genben魅友shenme chabie我完全没有什么不同对于日常生活,不管我是什么,右边或左边,它不产生任何影响。”
此外,除了上述类别,有一些谓词零形式(大约27.6%),如例(7)所示,一些习惯表达法等san-qi-ershiyi(“3 * 7 = 21”)(约2.3%),和一小部分条款的谓词(正如已经指出在曹国伟(1),子句的谓语是普遍的。(7)攒dezui任哆啦,关ta。我们得罪的人许多粒子(PAR)不管它标准我们得罪了很多人,但谁在乎。
5。讨论
如前所述,脏话的语法属性和语义约束助教现有的文献中仍有争议,主要是因为学者进行定性研究和只关注脏话的某些方面助教和相对结构。当前的数据驱动的研究表明,一些观察传统语法学家基本上是正确的,而另一些则不是。部分4显示,动词V+助教+NP建筑大多是意志的动词和单音节的单词和脏话助教往往发生在irrealis上下文,这是符合马的3和许多其他人的观察。然而,我们也显示,有少数例外,如双音节词词汇和realis上下文标记,使方面勒或哲,林的观点相反,张(8和其他人。此外,我们发现的NPV+助教+NP建筑可以无限期名义短语修改分类器通用电气,或者通过一个数字,呈现Lei和胡锦涛的站不住脚的15)声称,助教通用电气是一个复合词。然而,在上面描述的属性部分倾向而不是刚性约束。
附加的元素提出了重要的语法和语义之间的接口问题,特别是语法次范畴化和theta-role分配之间的关系,和主谓关系的性质(见[39- - - - - -41])。鉴于动词的次范畴化属性和theta-role作业能力,它假定对象位置总是theta-marked,这就排除了non-theta-marked语义的发生空洞的咒骂。这种假设领导Rothstein [5- - - - - -7声称“不可能有所谓的对象重复的“基于预测的结构理论。中央要求的结构预测的观点是“预测是一个独立的句法关系theta-role分配持有谓词和nonpredicate(“主题”)”(6]。她指出,句法成分如non-theta-marked最大预测(如VPs, APs、PPs和其他XPs,包括一些NPs)谓词。预计的主题句法谓词语法根据预测情况(所有语法谓词必须有一个主题),而不是主题。节4,我们表明,Rothstein结构理论的预测是有问题的在考虑普通话数据以来72.4%的脏话的实例助教发生在postverbal立场,即间接宾语的位置。
理论上,咒骂的发生在主体地位是满足扩展的投影原理,即每个句子都有一个主题或预测条件下,这要求所有语法谓词必须科目。因此,在pro-drop语言,如汉语中主题NPs很容易下降,脏话主题相当意外,所假设的吴和曹37]。主题这一事实咒骂pro-drop语言(如汉语的存在表明,他们的出现不仅是由于句法要求而且务实的因素有时可能会发挥重要作用。曹国伟(1)已经指出,脏话的出现助教使句子更生动。
如部分所示4.1,脏话助教创造了重大挑战自动句法分析的所有实例吗助教被斯坦福解析器错误地解释为参考注释和虚假的依赖关系。后的结构的特点详细分析问题,如部分所示4.2预计工作,进一步提高通过实现基于规则的自动句法分析的准确性,概率,或结合的方法。几个可能的解决方案可以测试在未来的研究来识别脏话助教,如形式化规则根据Vs和NPs的语言知识V+助教+NP广义的建筑和丰富知识库信息处理的现代汉语虚词(Zan出版社。(42张)和出版社。(43]),考虑到一起部(关)在有条件的条款。
6。结论
我们首先提取1346年普通话脏话的实例助教建筑创新领导力和调查了这些结构的自动依赖解析结果,表明含有附加的所有实例助教作为参考,misrecognized各种依赖关系。
然后,我们进行了一个详细的研究这些结构,以期阐明自动句法分析。基于定量探索,我们划定的特点V+助教+NP结构和(bu)关助教条件条款。我们表明,动词V+助教+NP建筑大多是意志和单音节的,NPs是特异性的无限期NPs修改通过分类器通用电气(CL)或计算。从语义上说,脏话助教基本上是限于一个irrealis上下文。此外,在有条件的条款引入了(bu)关(“不管怎样”),脏话助教占据了主体地位,和协调的谓词通常由选民或疑问元素或一个空表单。值得注意的是,这些特性是倾向而非刚体约束数据库中因为有一些例外。一个实验后测试的自动句法分析性能使用上述语言知识的脏话助教建设预计将在我们未来的工作。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者在合理的请求。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由国家社会科学基金资助(批准号19 byy107)。