研究文章|开放获取
石云宇,单建芳,刘翔,夏永祥, "基于先验知识的中文文本事件网络",国际数字多媒体广播杂志, 卷。2017, 文章的ID8594863, 5 页面, 2017. https://doi.org/10.1155/2017/8594863
基于先验知识的中文文本事件网络
摘要
文本表示是文本信息处理的基本问题,事件在文本理解中起着重要作用;两者都引起了学者们的注意。事件网络隐藏了事件中的词汇关系,其边缘表达了文档中事件之间的逻辑关系。然而,事件和关系是从带事件注释的文本中提取的,这使得大规模文本自动处理困难。本文通过扩大CEC(中国事件语料库)作为数据源,先验知识的表现规则的事件和关系为导向,提出基于知识规则的事件抽取方法的事件表现,实现自动事件网络的建设和提高文本处理性能。
1.介绍
文本表示是信息检索、文本分类等自然语言处理中的一个重要问题。适当的表示不仅可以反映文本的语义、主题和结构,而且可以提高计算效率。近年来,在文本信息处理领域,出现了一种使用更丰富的文本表示的趋势,而不仅仅是基于关键词和概念的文本表示。
起源于认知科学的事件经常出现在哲学文献、认知科学文献、语言学文献和人工智能文献中。它在计算语言学、信息检索和各种自然语言处理应用中得到了广泛的应用,在理解文本语义方面发挥着特殊而重要的作用。它不仅包含了一组文本元素之间的特定关联,而且还表明了事物之间的逻辑依赖关系,越来越受到研究者的关注。认知科学家认为,事件不仅是人类认知和理解客观世界的基本单位,也是命题记忆的存储单元[1].当前的自然语言处理技术大多偏重于语法结构理论,而忽略了语义理解,特别是事件语义理解的重要性[2].基于事件的文本表示符合人类认知和自然语言理解的规律。
从目前我们查阅的基于事件的文本表示的文献来看,主要存在以下问题:(1)基于事件的文本表示研究还处于起步阶段;事件网络的思想刚刚开始萌芽,有必要进一步探索。(2)事件网络的运行和应用有待进一步的研究和提高。
针对目前传统文本表示方法的不足,本文将事件作为文本的特征项,提出了一种基于事件的文本表示方法。事件被视为语篇的语义单位,语篇中的事件通过某种类型的关系联系在一起,这些事件通过使语言单位(词、概念、句子等)成为事件的某些要素,暗示着语篇中的语言单位之间的相互关系。它不再将文本视为独立单词的集合;从而解决了经典文本表示中的“一袋单词”问题。事件网络不仅保留了文本的语义信息,呈现事件和事件之间的关系,而且反映了事件的重要性和动态行为。与传统的文本表示相比,事件网络可以表达更高粒度的语义意义,更贴近现实,更便于计算机模拟人类对文本的理解和记忆。这将为基于语义的文本信息处理提供新的技术和方法。
论文组织如下2介绍了相关工作。部分3.建构汉语文本在突发事件领域的事件网络。部分4评估事件网络的代表效果。在部分5,通过对事件网络实例的归纳和抽象,概括了中文文本事件网络模型的形式化定义,并分析了该模型的优点。最后,对全文进行了总结,并对未来的研究进行了展望。
2.相关工作
2.1.传统文本表示的不足
在信息检索和自然语言处理的字段中,传统文本表示模型主要包括以下内容:布尔模型[3.],VSM(矢量空间模型)[4,5, BOW(词汇袋)[6,潜在语义索引[7, LDA(潜在狄利克雷分配)[8],概率检索模型[8, N-gram模型[9]和语言模型[10].
文本的语义信息由两部分组成:文本组成项(词、概念、句子等)和项之间的关系。传统文本表示忽略组件的秩序和人际关系的价值角度对语义表达和假定是独立的,而事实上,文本的语义相关不仅组件术语及其频率,而且装配规则和条款的顺序,这意味着词与词、句与句的关系对文本语义有影响。相同频率的术语可能表达不同的语义,例如下面两个文本片段“Tom送给Mary一本书作为生日礼物”和“Mary送给Tom一本书作为生日礼物”;传统的文本表示方式无法表达它们之间的差异[11].基于词单元或概念单元的文本表示会丢失术语之间的关系信息,从而丢失文本的语义意义,导致不能反映更高层次的语义信息。从事件语义理解的角度来看,以上两个文本片段表达了两个不同的事件。
在各种文本中,例如包含许多事件的新颖,歌剧,传记和新闻报道,传统文本表示没有足够的注意事件或适当地代表事件和关系。从语义理解的角度来看,语言学家认为文本不仅是一组属性和概念,而且是一系列更高粒度的一系列事件的描述者;根据思考,这些文本应该被视为一些关系相关的一组事件,这与人类认知和理解的法律更接近。从形成文本的形成,小学语言单位(Word,Concept,句子等)的形式句子由某些语言规则和句子形成一系列句子或段落,然后形成文本并表达一些语义含义和主题。将事件作为文本和文本组件的语义单位,作为事件元素只解决“一袋单词”问题,但也表达了更高的语义信息。
2.2.面向事件的文本表示
(虽然不同的应用对事件的定义并不统一,但大多强调两种事件属性,即动作(动词或动名词)和动作特征(参与者、地点、时间等),所以大多数研究都集中在动词和动词属性上。本文将事件的属性简称为事件元素或元素。)从我们目前所查阅的文献来看,很少有人对面向事件的文本表示进行研究;相关工作主要包括以下几个方面。
冯(12]提出用事件线来代表句子层次的英语新闻报道。描述真实世界中发生的事件的文本被合并到新闻事件中,事件通过预定义类型的依赖关系在事件线程中组织。然而,它在代表中国文本方面表现不佳。
Glavaš和Šnajder [13]提出了一种基于事件的文本表示;但它只有时间关系。赵曼和宗 - 田[14]提出了基于概念格的事件格来表示叙事文本。在格中,文本是对象,事件是属性,用二元关系来判断事件是否属于文本。格虽然具有精确的数学性质,但其描述能力较弱,缺乏表达丰富关系的能力。显然,事件格对一个文本没有意义。它更适合表示一组文本和事件之间的包含,而不是文本中事件之间的关系。
建方和云宇[15]在《面向事件的文本表示研究》一文中阐述了基于事件的文本表示思想。本文从文本体裁和文本排列的角度探讨了基于事件的文本表示在中文新闻报道中的可行性和适应性。但是,它过于简化了事件之间的关系,导致了它的代表力量薄弱。因此,仍有许多问题需要进一步研究。
事件提取是基于事件的文本表示中最重要的内容。提取事件的三种主要方法是数据驱动[16知识(),17和hybrid [18].根据ACE(自动含量提取),准确度约为70%。本文采用了先验知识引导的方法。
3.突发事件领域中文文本事件网络的构建
我们的实验语料库CEC (Chinese Event Corpus)来自互联网,根据突发事件新闻报道的分类体系,其文本可分为地震、火灾、交通事故、恐怖袭击和食物中毒五类[19].到目前为止,《中国历史文献汇编》共有500篇文献,其中有300篇是人类对事件和关系的注解。利用挖掘技术发现了一些基于标注的规则。在CEC上构建了事件表现规则知识库KBR-EM。
动词在语义理解中起着重要作用;这也是事件的核心。只要有动词,就会涉及到动作的创造者和/或接受者,动作与所涉及的实体之间就会建立一定的规则搭配关系;在此基础上,语言会形成各种基本的句法结构,然后解释语句的构造和词汇的关系等等。通过在CEC上注释事件,我们发现事件对应于动词或动名词,这些动词或动名词中有83%涉及一个或两个实体,不同文本类型的安排会影响事件的布局。语篇中事件之间的关系有以下几种:有的包含在动词或句子中,有的通过连词表达(许多语篇连词实际上表现了事件之间的非分类关系,如“因为,因此”表示因果关系),有的隐含在事件的顺序中(如下列关系);实验表明,在现实生活中,如果两个事件之间存在联系,那么它们在文本中会以较大的概率连续出现。我们的实验表明,符合上述发现的事件和关系可以覆盖整个文本的85%。其中,跟随关系和因果关系的数量最多,占总关系的81%。注释统计信息如表所示1,其中文本的覆盖率是包含事件的句子占总句子的比例。由此可见,基于事件的文本表示将恰当地表达文本信息。
|
||||||||||||
KBR-EM的指导修改了现有的NLP工具(如标记器、词性标记器、语法分析器和HowNet),所有的程序都是用Java实现的。对文本进行分词和词性标注,句法分析和语法成分标注,识别句子和句子成分,以及与事件或事件成分相对应的句子或句子成分,以动词和动名词作为事件的触发器。不要使用那些停止使用的动词,比如高频动词be, do, have等,以及主观性动词feel, believe等。这些事件属于由停止使用动词触发的停止使用事件;此外,停止使用事件还包括由将来时和否定式动词触发的将来事件和否定式事件。停止使用事件不应包括在事件网络的文本。与触发相关的动作主要成分是事件的其他元素(时间、地点、主语/谓语-参与者等)。
对于已识别的事件,使用电子词典和本体,将事件的触发器映射为概念后进行概念攀爬。对事件进行聚类,并根据以上结果聚类生成事件层次,识别事件之间的分类关系。根据提取事件的句子的连词和其他句法成分,参考上述关系的发现,确定事件之间的非分类关系。
在识别事件和关系之后,事件网络构造如下。文本中的事件以特殊的指导图形排列。来自事件A到事件B的命名边缘意味着它们在文本中存在关系,分类学(A是B,形成多继承允许的继承图)或非遗传(A),例如因果(导致发生)b),遵循(在时间之前的B),组成(A是b的一部分)。如果事件A和事件B之间存在多个关系,则一个关系链接到一个边缘。
4.表征效果的实验与评价
表示效果可以衡量一种文本表示方法是否能够恰当、恰当地表示原始文本的信息。本文用事件召回率(ER)、事件召回率(EP)、关系召回率(RR)和关系召回率(RP)来评价事件网络的表示效果。
为了比较事件和关系,本文规定了以下规则:(1)如果且仅当相应的事件元素是相同的,则两个事件是相同的。(2)当且仅当包含在单个关系元组中的对应项相同时,两个关系是相同的。为分类关系,在那里是渗透或大事,是次事件或次事件。对于直接的非分类学关系和无向非法译员关系,在那里是关系的名称,和两个事件是由关系联系在一起的吗
对突发事件领域文本事件网络的事件集进行评价,如图所示1,平均查全率和正确率分别为82%和88%。关系集的评估如图所示2;平均召回率和正确率分别为76%和85%。与以前的方法比较[15],该方法从带有事件、因果关系和后续关系的标记语料库中构建事件网络,生成的事件网络添加了另一个相邻关系和事件元素共享关系。其事件查全率和查准率更高,事件网络中包含的事件在理论上可以看作是完整和正确的。根据本节所述的调查结果3.,非分类关系召回率应至少为81%。但在相邻关系和事件元素共享关系中存在大量冗余和误差;例如,相邻关系实际上可能在后面,或者没有任何有意义的关系,而事件-元素-共享关系太过一般化,无法指定关系。因此,该方法的关联准确率远低于本文。
事件线程(12]在表示预处理的分组英语新闻文本方面表现良好;但是,与事件网络相比,它不太适合中文文本。对两种表示方法的评估如表所示2.
|
||||||||||||||||||||||||||||||||||||||||||
5.中文文本事件网络模型
事件网络包含由关系连接的一个或多个事件。网络中的事件布置在图形中,并且两个事件通过一个或多个定向/无向边缘直接连接(边缘的数量取决于两个事件之间的关系数量)并具有一些关系。文本表示方法称为事件网络。虽然构建大量文本的事件网络,但我们发现事件网络与一般指示的数字不同。存在有关其每个节点和每个边缘的信息,并且在两个节点之间可能存在多个边缘。通过概括和抽象事件网络的实例定义了正式的事件网络模型。
定义1(事件网络)。的元组被称为符合以下条件的事件网络:(1) 是非空节点集,称为事件集。(2) 是边集,称为关系集。 包括分类关系和nontaxonomic关系.分类关系形成允许多继承的继承关系图,其中superevent和子事件。形成特殊的图形结构,包括有向的和无向,事件之间的关系和被命名为.
事件网络可以看成是有向图。它既保留了文本的语义信息,又表示了事件和事件之间的关系,还反映了事件的重要性、动态行为和状态变化。与VSM等传统文本表示方法相比,事件网络的显著优势在于它隐含了文本在其事件中的语言单位之间的相关性,既解决了“一袋词”的问题,又体现了语义的更高粒度。同时,关系将事件联系在一起,能够表达事物的逻辑依存关系,反映事件的发生和发展过程。
事件网络是一个具有节点和边信息的有向图。利用所有的信息,通过考虑有向图的一些性质,可以对其进行各种计算;例如,可以根据事件的相似度对事件网络进行聚类,将事件网络划分为具有不同阈值的层次结构,并根据事件的重要性进行降低或保留一些其他性质。文本的相似度可以根据其个体事件网络的匹配来计算;通过挖掘多个事件网络中频繁且同时发生的事件元素,可以获得一些知识。这些计算不仅要满足图的性质,还要满足事件网络节点和边缘信息的意义,因此需要研究事件网络的独特性质和特殊计算模型。在事件网络上建立抽象的操作,通过数学方法解决一些问题,这是一种很好的语义计算形式,可以支持基于事件的文本信息处理。
6.结论与未来工作
本文介绍了基于事件的文本表示的需求。通过抽取CEC文本事件网络实例,定义了中文文本正式事件网络模型。事件网络与传统文本表示的区别在于,事件网络保留了文本的语义信息,不再将文本视为独立词的集合,解决了“词袋”问题。此外,它还反映了事件之间的关系、事件的重要性和事件的动态行为。实验证明了事件网络作为文本表示方法的可行性、适应性和优越性。
在未来的工作中,考虑到模型的特殊性,我们将研究事件网络上的计算计算,群集。以这种方式,将通过数学方法解决文本的各种应用。基于语义含义的本文信息处理的理论模型和方法支持。
利益冲突
作者声明他们没有利益冲突。
致谢
文化部科技创新项目(no . 2015KJCXXM19);上海市高校青年教师基金资助项目(no . ZZGCD15002)。关键词:边坡,边坡稳定性,边坡稳定性
参考文献
- 云和p,耿w,“智能计算导向的记忆理论导论”,计算机研究与发展杂志, 1999年第31卷,第37-42页。视图:谷歌学者
- l .钟提出了基本平衡管理理论,研究了自然语言理解的实现,华东师范大学2004年。
- R. Baeza-Yates和B. Ribeiro-Neto,现代信息检索, Addison-Wesley-Longman,第一版,1999。
- 杨志强,“基于向量空间的自动标引模型”,《计算机自动化》,第1卷第1期。ACM的通信第18卷第2期第11页,第613-620页,1975。视图:出版商的网站|谷歌学者
- [d] . D. Lewis,“文本分类任务中短语和聚类表征的评价[a]”第十五届信息检索研究与发展国际ACM SIGIR年会论文集页37-50,1992。视图:谷歌学者
- Bag-of-words模型(DB / OL),http://en.wikipedia.org/wiki/Bag_of_words_model.
- 兰道尔和利特曼,“使用潜在语义索引的全自动跨语言文档检索”,发表于华盛顿大学新牛津英语词典和文本研究中心第六届年会论文集,第31-38页,安大略省滑铁卢,1990年,http://www.es.duke.edu/~mlittman/docs/x-lang.ps.视图:谷歌学者
- M. David和Y. Blei Andrew,《潜在狄利克雷分配》机器学习研究杂志,第3卷,第993-1022页,2003。视图:谷歌学者
- 赵晖等。基于N-Gram算法的文档图像文本检索,http://citeseer.nj.nec.com/400555.html.
- J.Ponte和W. Croft,“语言建模方法检索方法”Sigir1998的诉讼程序, 275 - 281页。视图:谷歌学者
- 肯尼迪。山,Z.-T。刘,肯尼迪。傅,Z.-M。钟,“基于小世界模型的中文文档重要事件抽取”智能计算与智能系统学报,2009,页146-150,中国,2009年11月。视图:出版商的网站|谷歌学者
- a .冯事件穿线马萨诸塞大学,2008年。
- G. Glavaš和J. Šnajder,“用于信息检索和多文档摘要的事件图”,专家系统与应用号,第41卷。15, pp. 6904-6916, 2014。视图:出版商的网站|谷歌学者
- 赵满,李宗田,“基于事件的文本相似度计算”,广西师范大学学报(自然科学版)第27卷第2期1,页149-152,2009。视图:谷歌学者
- 石建芳、石云宇,“汉语文本事件网络研究”,载《中国语文研究》信息技术融合国际研讨会论文集,ISITC2016, pp. 473-482,中国上海,2016。视图:谷歌学者
- M. Okamoto和M. Kikuchi,“发现您邻居的挥发性活动:博客条目的本地主题提取”计算机科学课堂讲稿(包括人工智能和生物信息学的子系列课堂讲稿),卷。5839,pp.181-192,2009。视图:出版商的网站|谷歌学者
- E. Minkov,“事件提取使用结构化学习和丰富的域知识:跨域跨域的应用程序和数据来源,”美国计算机学会智能系统与技术汇刊,第7卷,第5期2,货号。16日,2015年。视图:出版商的网站|谷歌学者
- S. Kuptabut和P. Netisopakul,“使用本体导向语义语法的事件提取”,信息科学与工程学报,第32卷,第2期1, pp. 79-96, 2016。视图:谷歌学者
- 李丽英,李洪娟,张永奎,《突发事件新闻语料库分类体系研究》,载中国信息学会第25届学术年会论文集,中文信息处理前沿,清华大学出版社,2006。视图:谷歌学者
版权
版权所有©2017石云宇等。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。