IJDMB
国际期刊的数字多媒体广播
1687 - 7586
1687 - 7578
Hindawi
10.1155 / 2017/8594863
8594863
研究文章
之前的以知识为基础的网络事件对中国文字
http://orcid.org/0000 - 0002 - 8834 - 9463
史
云雨
1
http://orcid.org/0000 - 0001 - 6160 - 8122
山
交流
2
刘
香
1
http://orcid.org/0000 - 0002 - 2352 - 1293
夏
您所想
1
李
Hyo-Jong
1
电子与电气工程学院
上海工程技术大学
龙腾路333号
松江区
上海
中国
sues.edu.cn
2
学校的信息
齐鲁大学的技术
3501年大学路
长庆地区
济南
中国
qlu.edu.cn
2017年
4
6
2017年
2017年
13
01
2017年
07年
05年
2017年
4
6
2017年
2017年
版权©2017云雨史等。
这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。
文本表示是文本信息处理的基本问题和事件中扮演一个重要的角色在文本的理解;吸引学者们的注意。事件,事件网络隐藏词汇关系及其边缘表达文档事件之间的逻辑关系。然而,事件和从event-annotated文本提取的关系,这使得它很难大规模文本自动处理。本文通过扩大CEC(中国事件语料库)作为数据源,先验知识的表现规则的事件和关系为导向,提出基于知识规则的事件抽取方法的事件表现,实现自动事件网络的建设和提高文本处理性能。
中国文化部科技创新项目
2015年kjcxxm19
上海大学青年教师的基础
ZZGCD15002
1。介绍
文本表示是自然语言处理的一个重要问题,如信息检索和文本分类。适当的表现不仅可以反映文本语义,主题和结构还可以提高计算效率。近年来,有一种倾向,将使用富文本表示只是keywords-based concepts-based的领域的文本信息处理。
事件源于认知科学经常出现在文学的哲学,认知科学、语言学、和人工智能。它已广泛应用于计算语言学以及信息检索和各种NLP的应用程序,它起着特殊而重要的作用在理解文本的语义。它不仅包含特定一组文本元素之间的相关性也表示逻辑依赖关系的东西,吸引了越来越多研究人员的关注。认知科学家认为事件不仅是人类认知的基本单位和理解客观世界还主张记忆的存储单元(
1 ]。大多数当前的自然语言处理技术偏重理论的语法结构,而忽视语义理解的重要性,尤其是事件语义理解(
2 ]。基于事件的文本表示符合人类认知和自然语言理解的规则。
从目前的文献基于事件的文本表示我们有咨询,主要有以下问题:
(1)
对基于事件的文本表示的研究仍处于初级阶段;考虑事件网络刚刚开始开花,有必要进一步的探讨。
(2)
的操作和应用程序在网络事件需要提高和进一步的研究。
针对当前传统的文本表示的缺点,本文以事件作为文本的特征项,提出一个基于事件的文本表示方法。事件被认为是语义单位的文本和某些类型的事件连接关系在文本,和这些事件意味着相关性文本的语言单位的语言单位(词、概念的句子,等等)的某些元素的事件。它不再作为文本独立的词的聚合;因此,“一袋字”的问题在经典文本表示是解决。事件网络不仅使文本的语义信息,提出了事件和事件之间的关系,还反映了事件的重要性和动态行为。相比传统的文本表示,事件网络可以表达的语义粒度越高,接近现实和计算机模拟文本更容易理解和记忆的人。它将提供基于语义的文本信息处理的新技术和方法。
本文的组织结构如下:部分
2 介绍了相关的工作。部分
3 构造事件的中国网络文本领域的突发事件。部分
4 评估事件的代表影响网络。节
5 事件的正式定义网络模型对中国文字是广义通过诱导和抽象事件网络的实例,然后分析了模型的优点。最后,我们总结了纸和未来研究的展望。
2。相关工作
2.1。传统的文本表示的缺点
在信息检索和自然语言处理领域,传统的文本表示模型主要包括以下:布尔模型(
3 ],VSM(向量空间模型)[
4 ,
5 ),弓(袋)
6 ),潜在语义索引(LSI) (
7 ),LDA(潜在狄利克雷分配)
8 ),概率检索模型(
8 )、语法模式
9 ),和语言模型
10 ]。
语义信息的文本是由两部分组成:文本组件术语(词、概念的句子,等等)和条件之间的关系。传统文本表示忽略组件的秩序和人际关系的价值角度对语义表达和假定是独立的,而事实上,文本的语义相关不仅组件术语及其频率,而且装配规则和秩序的条款,这意味着一个词到一个词、一句话到另一句话影响文本语义的关系。相同的条款相同频率可能表达不同的语义,如后两个文本片段”汤姆给玛丽一本书作为生日礼物”和“玛丽给汤姆一本书作为生日礼物”;传统的文本表示不能表达它们之间的差异(
11 ]。基于词的文本表示单位或概念单位将错过的信息条件之间的关系,将文本的语义损失,导致未能反映出更高层次的语义信息。从事件语义的角度理解,上述两个文本片段表达两种不同的事件。
在不同的文本,如小说,歌剧,传记,和新闻报道,包含许多事件,传统的文本表示没有足够的关注事件或代表事件和适当的关系。从语义的角度理解,语言学家认为文本不仅是一组属性和概念也是一种制图者的一系列事件在一个更高的粒度;根据思维,这些文本应当被视为一组相关事件的一些关系,这更接近于人类认知和理解的法律。从文本形成的角度来看,基本语言单位(词、概念的句子,等等)由某些语言规则形式的句子和句子组成一个序列的句子或段落,然后形成文本和表达一些语义和主题。以事件为语义单位的文本和文本组件事件元素任期只有解决问题的“一袋的话”,但也表达了更高层次的语义信息。
2.2。面向事件的文本表示
(尽管事件的定义不统一在不同的应用程序,其中大多数强调两种事件属性,动作(动词或动名词)和行动的特点(参与者、位置、时间等),所以大多数研究集中在动词和动词的属性。摘要属性的事件被称为事件元素或元素。)从目前的文献咨询,目前还没有做过任何研究面向事件的文本表示;主要包括以下相关工作。
冯(
12 ]提出事件线程代表英语新闻报道在句子层面。文本描述发生的一个真实的合并成一个新闻事件发生,事件和事件被组织在一个线程通过预定义类型的依赖关系。然而,它并不在代表中国文字。
Glavaš和Šnajder
13 提出了一个基于事件的文本表示;但是它只有时间关系。赵一曼和Zong-Tian
14 ]提出事件点阵来表示基于概念格的叙事文本。在晶格中,文本对象,事件属性,和二元关系是用来判断一个事件属于一个文本。尽管晶格有精确的数学性质,其描述力量薄弱,缺乏表达华丽的关系的能力。显然事件晶格没有一个文本的意义。它更适合代表一组文本之间包容和事件比事件在文本之间的关系。
方剑和Yun-yu
15 ]阐述了基于事件的文本表示的思考本文命名为“研究面向事件的文本表示。“这篇论文讨论了基于事件的文本表示的可行性和适应性为中国新闻报道的文本类型和安排。然而它过于简单化的事件之间的关系,导致其代表力量薄弱的事实。因此,仍有许多问题需要进一步研究。
提取事件最重要的事情是基于事件的文本表示。的三个主要方法提取事件数据驱动(
16 知识(),
17 ),和混合
18 ]。据ACE精度约为70%(自动内容抽取)。本文使用之前knowledge-guided方法。
3所示。构造事件的网络中文文本领域的突发事件
我们实验语料,CEC(中国事件语料库),收集于互联网,课文可以分为五类:地震、火灾、交通事故,恐怖袭击,据新闻的分类系统和食物中毒报告紧急事件(
19 ]。到目前为止,有500条短信CEC, 300的都是人类的带注释的事件和关系。一些规则被发现使用采矿技术基于注释。KBR-EM(知识库规则的事件表现)CEC上建造。
动词在语义理解中起着重要的作用;这也是事件的核心。只要有动词,它将包括制造商和/或行动的接收器,和某些常规行动和相关实体之间的搭配关系建立;在此基础上,语言形式各种基本句法配置,然后解释语句和词汇的关系建设,等等。注释事件在CEC,我们发现事件对应于动词或动名词,和83%的这些动词或动名词涉及一个或两个实体,并安排不同的文本类型学可能影响事件的布局。事件文本之间的关系如下:中包含一些动词的句子,有些表达的结合(很多连词的文字几乎显示nontaxonomic关系的事件,如“因为,因此“表明因果关系),和一些隐含的事件(如以下关系);实验表明,两个事件将先后出现在文本的概率如果有关系在现实中。我们的实验表明,事件和关系会议上面的结果可以覆盖85%的整个文本。此外,关系和因果关系都是最多的,占总额的81%的关系。注释显示在表的统计信息
1 ,报道的文本的比例是event-contained句子的句子。由此可见,基于事件的文本表示将适当地表达文本信息。
表1
统计数据的注释文本。
文本
300年
事件
3977年
关系
2023年
报道的文本
85%
KBR-EM的指导修改现有的NLP的工具(比如编译器,词性薄铁片,语法分析器,和知网),和所有的程序是用Java实现的。处理文本分词和词类的语法分析和语法组件标记,识别句子和句子成分,和相应的句子或句子成分的事件或事件的元素,对动词和动名词作为触发的事件。和删除停止使用动词,如高频动词(,,,等等)和主观动词(感觉,相信,等等)。这类事件属于停止使用事件引发的停止使用动词;此外,停止使用事件还包括未来事件和负面事件所引发的将来时态动词否定形式,分别。停止使用事件不应包括在事件的网络文本。Trigger-associated主要组件的作用是其它元素(时间、地点、主题/ predicate-participant,等等)的事件。
确定事件,使用电子词典和本体,使concept-climbing后将触发的事件映射到概念。集群事件并生成事件等级结果通过集群基于上面爬,和分类关系的事件将被识别。根据连词和其他句法成分的句子提取事件,咨询上述发现关系并确定nontaxonomic事件之间的关系。
后确定事件和关系,事件网络构造如下。事件在文本中被安排在一个特殊的有向图。命名边缘从事件到事件B意味着它们在文本之间的关系,要么分类(A是B,形成multi-inheritance-allowed继承图)或nontaxonomic,如因果关系(A导致B)的发生,(时间先于B)后,和组成(B)的一部分。如果有多个事件和事件之间的关系B,然后一个关系与一个边缘。
4所示。实验和评估代表效果
代表效应可以测量一个文本表示方法是否能够代表原始文本适当和正确的信息。本文评估代表事件与事件召回率的影响(ER),事件精确率(EP),召回率(RR)的关系,精确率(RP)的关系。
事件和之间的比较关系,指定一些规则如下:
(1)
两个事件都是相同的,当且仅当相应的事件元素是相同的,是包含在个人事件。
(2)
两个关系当且仅当相应的项目是相同的元组中包含的个人关系。为分类关系
我
年代
- - - - - -
一个
(
e
u
,
e
l
)
,在那里
e
u
superevent或upper-event,
e
l
子事件或lower-event。为导演nontaxonomic关系
r
e
1
,
e
2
和无向nontaxonomic关系
r
(
e
1
,
e
2
)
,在那里
r
是名字的关系,
e
1
和
e
2
是连接两个事件的关系
评估事件的事件网络紧急的文本字段,如图
1 ,平均召回率和精确率分别为82%和88%,分别。评价关系设置如图
2 ;平均召回率和精确率分别为76%和85%,分别。与以往方法相比(
15 ),标记的方法构造事件网络语料库与事件,因果关系,和关系后,产生的事件添加另一个相邻关系和event-element-shared关系网络。事件召回事件和精确率会更高,和事件中包含事件网络可以看作是完整和正确的理论。根据调查结果中描述的部分
3 召回率,nontaxonomic关系应该至少81%。然而,有大量的冗余和错误在邻近event-element-shared关系;例如,相邻关系或者没有意义的关系,之后可以和event-element-shared关系太一般,指定一个关系。所以该方法的精确率的关系远不如。
图1
评估的事件集。
图2
评价关系集。
事件线程(
12 ]在代表预处理分组英语新闻文本;然而,它不太适合中文文本比事件网络。评估两种表示方法如表所示
2 。
表2
比较网络事件和事件线程。
呃
EP
事件
F
_measure
RR
RP
关系
F
_measure
活动网络
82%
88%
84%
76%
85%
80%
事件的线程
41%
98%
58%
18%
92%
30%
5。活动网络模型对中国文字
一个事件所连接的网络包含一个或多个事件的关系。事件在网络被安排在一个图表,和两个事件直接连接一个或多个指示/无向边(边的数量取决于两个事件之间的关系),有一些关系。文本表示方法叫做事件网络。虽然构造事件的大量的网络文本,我们发现事件网络不同于一般有向图。有信息在其每个节点和每条边,和两个节点之间可能存在多个边缘。正式活动网络模型被定义为以下概括和抽象事件网络的实例。
定义1(事件网络)。
的元组
E
N
=
(
E
,
R
⋄
(
R
T
,
R
N
T
)
)
被称为事件网络满足下列条件:
(1)
E
=
e
非空的节点集,称为事件集。
(2)
R
⋄
(
R
T
,
R
N
T
)
边集,称为关系集。
R
包括分类关系
R
T
和nontaxonomic关系
R
N
T
。分类关系
R
T
=
我
年代
- - - - - -
一个
e
u
,
e
l
∣
e
u
∈
E
,
e
l
∈
E
形式multi-inheritance-allowed继承图,
e
u
superevent和
e
l
子事件。
R
N
T
形式特殊的图结构,包括导演
R
N
T
=
r
e
1
,
e
2
∣
e
u
∈
E
,
e
l
∈
E
和无向
R
N
T
=
r
e
1
,
e
2
∣
e
u
∈
E
,
e
l
∈
E
,事件之间的关系
e
1
和
e
2
被命名为
r
。
事件网络可以看作是有向图。它不仅是文本的语义信息和代表事件和事件之间的关系,但也反映了重要性,动态行为和状态变化的事件。与传统的文本表示如扫描仪相比,突出事件网络的优点在于它意味着文本的语言单位之间的相关性的事件,这不仅解决了的问题“一袋的话”,但也改变了更高的语义粒度。与此同时事件关系联系在一起,可以表达逻辑依赖关系的事情,反映事件的发生和发展过程。
事件与信息网络是一个有向图的节点和边。使用的所有信息,可以进行各种计算,考虑有向图的一些性质;例如,一个事件网络集群事件的相似性,可以与不同的阈值划分为层次结构,减少根据事件或可以保留一些其他属性的重要性。计算文本的相似度可以根据个人事件的匹配网络;一些知识可以通过挖掘频繁,同时在多个事件网络事件元素。这些计算必须符合不仅图的属性还信息节点和边的事件的意义网络,所以独特的属性和特殊事件网络需要的计算模型研究。建立抽象操作事件网络,将通过数学方法来解决一些问题,这是一种好的形式语义计算和将支持基于事件的文本信息处理。
6。结论和未来的工作
摘要介绍了基于事件的文本表示的要求。中国文字的正式活动网络模型被定义为抽象事件网络CEC文本的实例。事件的区别网络和传统文本表示,事件网络保持文本的语义信息,不再认为文本是一个聚合的独立的单词,和解决问题的“一袋的话。“此外,它反映了事件之间的关系的重要性,和动态行为的事件。我们的实验证明了可行性、适应性和事件网络作为文本表示方法的优势。
在未来的工作中,我们将研究计算事件网络利用图论、集群、形式概念分析、粒度计算、等等,考虑模型的特殊性。通过这种方式,各种应用程序的文本将通过数学方法来解决。理论模型和方法支持现在将提供基于语义的文本信息处理。
的利益冲突
作者宣称没有利益冲突。
确认
工作是由中国文化部科技创新项目(2015 kjcxxm19)和上海大学青年教师基金(ZZGCD15002)。
[
]1
Yun-he
P。
耿
W。
介绍面向智能计算的记忆理论
计算机研究与发展》杂志上
1999年
31日
37
42
[
]2
钟
l
BSCM理论的提出和实现自然语言理解的研究
2004年
华东师范大学
[
]3
Baeza-Yates
R。
Ribeiro-Neto
B。
现代信息检索
1999年
1日
朗文出版社
[
]4
索尔顿海
G。
黄
一个。
杨
c·S。
向量空间模型自动索引
ACM的通信
1975年
18
11
613年
620年
2 - s2.0 - 0016572913
10.1145/361219.361220
[
]5
刘易斯
D D。
评价短语和集群表示的文本分类任务(一)
学报》第十五届国际市立图书馆会议在信息检索的研究与开发
1992年
37
50
[
]6
Bag-of-words模型(DB / OL)
http://en.wikipedia.org/wiki/Bag_of_words_model
[
]7
蓝道
t·K。
利特曼
m . L。
全自动crosslanguage文档检索利用潜在语义索引
美国威斯康辛大学第六届会议中心新牛津英语词典和文本研究
1990年
安大略省滑铁卢
31日
38
http://www.es.duke.edu/ mlittman / docs / x-lang.ps
[
]8
大卫
M。
安德鲁·布莱
Y。
潜在狄利克雷分配
机器学习研究杂志》上
2003年
3
993年
1022年
[
]9
咀嚼Lim
T。
唱元
年代。
朝晖
Y。
文本检索的文档图像基于n元算法
http://citeseer.nj.nec.com/400555.html
[
]10
桥
J。
克罗夫特
W。
信息检索语言的建模方法
学报SIGIR1998”
275年
281年
[
]11
山
肯尼迪。
刘
Z.-T。
傅
肯尼迪。
钟
Z.-M。
重要的事件中国文档基于小世界模型的提取
学报2009年IEEE国际智能计算和智能会议系统,2009年艾多酷
2009年11月
中文
146年
150年
2 - s2.0 - 77949627493
10.1109 / ICICISYS.2009.5357919
[
]12
冯
一个。
事件的线程
2008年
马萨诸塞大学
[
]13
Glavaš
G。
Šnajder
J。
活动图表信息检索和多文档摘要
专家系统与应用程序
2014年
41
15
6904年
6916年
10.1016 / j.eswa.2014.04.004
2 - s2.0 - 84903187527
[
]14
赵一曼
Z。
Zong-Tian
l
基于事件的文本相似度计算
广西师范大学学报(自然科学版)
2009年
27
1
149年
152年
[
]15
方剑
Sh。
Yun-yu
Sh。
研究网络事件对中国文字
进行的国际研讨会上信息技术融合,ISITC2016
2016年
中国上海
473年
482年
[
]16
冈本
M。
菊池
M。
发现不稳定的事件在你的社区里:局域网从博客条目中提取主题
课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学)
2009年
5839年
181年
192年
2 - s2.0 - 70649100341
10.1007 / 978 - 3 - 642 - 04769 - 5 - _16
[
]17
Minkov
E。
事件提取使用结构化的学习和丰富的领域知识:应用程序跨领域和数据来源
ACM智能交易系统和技术
2015年
7
2,货号。16
2 - s2.0 - 84952946870
10.1145 / 2801131
[
]18
Kuptabut
年代。
Netisopakul
P。
事件提取使用本体语义语法
信息科学与工程》杂志上
2016年
32
1
79年
96年
2 - s2.0 - 84954113900
[
]19
李英
Y。
Hong-juan
l
Yong-kui
Z。
研究分类系统的紧急新闻语料库
进行的专著25日中国信息协会的学术年会,中文信息处理的前沿
2006年
清华大学出版社,北京