文摘
网络技术的快速发展和互联网的普及使人们越来越依赖于网络信息的交流与共享,并从网上获取信息关于人的需求逐渐增加,但大量的网络数据使人们分散和混乱,信息和现有画像工作主要集中在提取人的属性。在本文中,我们研究《呼啸山庄》的艺术建筑和特征的基础上品尝的书,目的是展现“疏离的个性”隐藏在深处的人物的意识和表现作者的独特的创意艺术通过对主题的分析思想,使用时间的元素,和跟踪的创建人物的原始形式。性格方面的社会关系提取,首先,扩大种子字典的方法通过同义词词林词典是用来建立一个角色关系,避免了手工收集词汇造成的效率低下;第二,人物关系提取算法基于规则匹配和句法树的组合,提出了有效地克服缺点的规则匹配,造成低召回率和平均f值实验算法该算法达到82.61%的平均达到82.61%的f值在实验中,这是一个显著的优于其他方法。
1。介绍
艾米莉。勃朗特的小说《呼啸山庄》死于抑郁和低的一致好评,直到20世纪初,当她的声誉越来越深,小说被认为是一个“完整而深刻的洞察人性和生命。“这部小说是一个独特的艺术建筑,基于两代人之间的爱恨交加的关系和扭曲的人性的生活异常的英国社会。本文探索和研究《呼啸山庄》的艺术建筑和描述从一个品酒师的角度来看1,2]。
主题明确。故事发生在18世纪的约克郡,《呼啸山庄》讲述了希刺克厉夫,由恩萧收养孤儿男孩,老别墅的主人,和被羞辱后出去挣钱,失去他的爱。当他变得有钱了,他回来报复地主林顿和他的孩子,他有女友凯瑟琳结婚。希刺克厉夫的转换从一个孤儿到复仇者是反常的反映社会的时间(3]。希刺克厉夫是社会歧视的他描述,这是引发激烈的反抗。他疯狂的报复呼啸山庄,画山是一个无情的社会的控诉(4]。
字符信息的组织时,传统方法通常使用手工编辑和整理,可以实现高精确度的但是是低效的,和用户都渴望得到全球的信息目标字符在一个简单和快速搜索。如果全球信息可以自动提取和整理人分散在网络上的数据,和分散,分散的数据可以在一起形成一个人的画像和存储在一个结构化的方式,这将大大提高用户的效率获得全球人们的信息和促进人类的工作和生活5]。
当然,除了搜索引擎,用户也可以获得人们通过特定的信息搜索系统。最成熟的人在市场今天优酷搜索引擎(https://www.ucloo.com/),雅虎搜索的人(https://people.yahoo.com/),微软人多维数据集(https://renlifang.msra.cn/)等(6]。这些人的搜索引擎为人们的基本信息主要是偏向人的性别,年龄,和原产地,不存在人的活动的轨迹,即:《呼啸山庄》事件,报道所涉及的人在互联网上。一般来说,当人们学习一个角色对象,他们不仅想要基本信息对象但更渴望得到信息的时间和地点与角色参与什么事件,人物的情感评价在互联网上的大小人物的暑热,掌握信息字符作为一个整体。
在本文中,我们研究了人物肖像为代表的文本数据挖掘技术通过《呼啸山庄》,聚焦于三个方面:提取字符的人物的社会关系,跟踪参与事件,分析人物的暑热和情绪。首先,文本数据分为词汇和词汇注释提取字符实体,并在句子层面上,社会关系的字符提取使用浅层句法分析;第二,单个文本的特征提取根据相应的特征提取算法和聚类算法用于实现类似事件的聚合,以人物和时间为线索,形成一个基于时间的人物事件活动;最后,结合《呼啸山庄》的报道。暑热价值和情感倾向的字符计算结合各种因素如报道的数量、评论、阅读、和呼啸山庄的时间跨度。上述分析结果组合起来形成一个人物肖像,以及研究成果可以应用于字符搜索系统,具体的目标跟踪和在线名人检测。
1.1。相关工作
1.1.1。个性信息提取
在字符信息组织,现有的研究把重点放在了传记和字符搜索领域。后的作者(7]提出了传记的概念,许多学者在这一领域工作,导致各种传记的提取方法,主要包括方法基于multidocument总结技术、基于本体和character-tracking-oriented。的作者(8)实现了使用多文档摘要技术提取传记。结合了语言知识和统计理论的方法提取对象的基本信息,包括姓名、性别、教育、等,从多个文件组成一个传记文本。的作者(9]multidocument传记总结系统实现,主要使用分类的想法把句子分成相应的簇类,首先制定一个分类关于传记的句子:社会关系,教育背景,原产地,工作,等等,然后利用分类算法来获得最好的句子描述这个人的特点,最终结合形成的传记。的作者(10)提出“meta-events”的概念和应用特征信息提取领域,在“meta-events”行为组成的三个命名实体:人,时间,和地点。的作者(11)为人们提出了构建本体的事件,通过本体描述语言意识到这一点。
个人信息提取另一方面是个人搜索引擎的研究工作起步较晚。ArnetMiner系统(12)由(13)主要目标在学术领域的专家和矿山的个人信息从他们的个人主页,发表论文,社交网络和其他数据。的作者(14)提出了一个个人信息挖掘工具去和Facebook等社交媒体。的作者(15)提出了一个基于规则的算法提取个人信息,重点总结规则如原产地、出生日期、和政治外观和开发了一种个人信息提取系统。的作者(16]提出一个人基于触发词信息提取,实现从百度百科全书的人属性的提取信息网页,首先开发一个触发字列表通过语言分析,其次通过自动发现候选规则基于词场周围的人的名字使用统计原则。的作者(17)信息提取领域的教师,第一次使用SVM分类网页爬下来,选择那些包含个人信息,第二发达人属性提取的规则库,最后使用规则来实现计算机老师在大学的信息提取。的作者(18)提出了一种基于双层级联文本分类方法从简历中提取个人信息。的作者(19)提取个人信息从个人主页和CVs基于触发词的方法和规则。的作者(7)提出了一个基于语义上下文分析,个人信息提取算法,结合隐马尔可夫模型理论,语义分析、自然语言处理和信息提取。
1.2。组织字符事件
目前个人信息组织的研究主要集中在个人信息的提取,并仍有需要进一步到活动的跟踪事件或字符事件。在的工作2),提出了“个人跟踪”的概念,这话题识别与跟踪适用于提取个人事件,并提出个人的事件包括三个要素:时间,地点和事件描述。的作者(3]提出了single-pass-based话题识别算法,简单快速,但最大的缺点是它是敏感的文本的到来;的作者(4)提出了一个有凝聚力的层次聚类算法来解决这个问题层次化话题检测的情况,可能存在多个主题在文本(即。文本在不同层次之间,可能会有交叉)。的作者(5]使用K - means聚类算法实现局部识别、集群K点在文本的中心类集群和将所有文本划分为最近的类簇,然后通过不断的迭代。
解决单程算法的缺点,这是对文本的输入顺序敏感,批处理的概念介绍提高聚类算法的准确性,首先聚集一批到达文本,然后比较它与现有的类和引入调整和“复活的过程。“研究(3),自动预测集群的数量调查解决k - means的缺点,这就需要事先确定集群的数量和噪声点和初始点敏感。的作者(8)提出了一种新的治疗初始质心的决心。
2。主要描述
2.1。希刺克厉夫偏执和残酷
希刺克厉夫很强硬,粗鲁和叛逆,但一个男人对爱的热情。他是凯瑟琳的童年的朋友,但老恩萧死后,希刺克厉夫Sindre被减少到一个仆人,剥夺受教育的,有机会成为一个文明的人。然而,希刺克厉夫对凯瑟琳的爱会让他忍受辛德雷的任何痛苦,这是一般人很难做。希刺克厉夫,丹尼的家庭背景卑微在物欲横流的社会,充满了深深的抑郁和自卑,敏锐地意识到的不平等待遇差距带来的地位和金钱。他对Sindre仇恨,上层阶级的一员,如此之大,他只能忍受它当他无法报复,但内心深处,他已经开发了报复的想法和意图。诚然,从排斥到复仇者角色的变化表明,他不是天生的,而是因为Sindre的奴役和虐待和爱情的失望12]。画山时,凯瑟琳嫁给了林顿,他是完全被强大的心里爱的缺失。面对一个尴尬的情况,他的性格开始表面的阴暗面和他离开愤怒和仇恨。他回来几年后,丰富而燃起复仇之火,相信从一开始,他将满意过去的痛苦,只要他能在他的复仇成功。不难解释他随后绝望的尝试获取两大地产和他庞大的家族财富。
3所示。凯瑟琳自私和野生
野生和野性,凯瑟琳和希刺克厉夫是一个匹配的天上人间。凯瑟琳在呼啸山庄是唯一的人谁给希刺克厉夫一种精神安慰,和年轻都是自发的,勇敢,和强烈的爱的方式。然而,当他们闯入呼啸山庄,凯瑟琳开始动摇之间赤裸裸的真爱和富人和贵族现实,秘密比较丰富,温柔,林惇、文明和穷人,粗鲁,希刺克厉夫和原始。结婚后,凯瑟琳也试图成为一个优雅,礼貌的女士,为林惇创造真爱的错觉,但这不可避免地涉及隐藏和压抑自己,从林惇藏不同的精神世界。长期分离造成的精神和身体否则活泼、精力充沛的凯瑟琳受苦,花她天抑郁。
4所示。林惇主流和世俗
凯瑟琳的丈夫,林惇,是一个富有的,温柔,和慷慨的人,一个典型的维多利亚时代的小说中英雄人物。他绅士的举止和独特的魅力吸引了凯瑟琳,和他的上层阶级的财富,使希刺克厉夫礼貌和优雅,嫉妒。向凯瑟琳·林惇是乐于助人,有礼貌,有爱心。他对待他的亲戚和仆人一样善良和人性,文风。他是社会的主流价值观的体现,《卫报》的世俗道德秩序,并世代文明秩序和正派的人。他还弱,性格内向的,虚伪的。
5。无情的懦弱Sindre
由于他父亲的爱的意外拨款,Sindre变得冰冷,残酷,甚至是自私的。没有他父亲的爱是辛德雷的起源的仇恨,和希刺克厉夫的到来给他一个讨厌的对象。父亲死后,他利用一切手段滥用和虐待希斯克利夫,这是整个小说的关键。
6。无辜无助的第二代
辛德雷的儿子Harington可能在主流社会一直是一个绅士,但他的母亲去世后不久,他的出生,没有母亲照顾他从无辜的和甜蜜的男孩的叛逆,不听话的顽童。此外,所有这些改变之际,希刺克厉夫的手中,那些痛苦和企图迫害Harington辛德雷迫害自己以同样的方式。幸运的是,他对年轻的凯瑟琳的爱使Harington意识到自己的缺点,唤醒他的自尊和良好的性质,最终,通过自己的努力,他变成了一个英俊的、文明的年轻人。
整个复仇行为由希刺克厉夫,涉及人类不同程度的畸变,每个人在不同的场合,也是一个真正的和客观的反映了人性的扭曲和斗争的社会环境中工作。
7所示。人物关系提取基于规则匹配和句法树
这个部分处理社会关系的自动提取文本的字符。人物的社会关系是相互关系的一般术语由人类在他们共同生活的物质条件,例如,“父亲”“女儿”“朋友”“同事”等。“术语“关系”或“角色关系”是后来用来指人们的社会关系。作为人们在一个大型社区,他们不可避免地与别人以各种方式,如果关系可以自动从呼啸山庄中提取报告在互联网上关于人物,这个人物的刻画是至关重要的。短语描述人物关系往往是支离破碎的,如果这个角色关系隐含在句子可以提取通过语法分析,这将有助于改善关系提取的有效性。
提出了一个角色关系提取算法基于规则的组合匹配和句法树,大致包括以下步骤:(1)数据预处理:首先,文本分为词汇和词汇注释;第二,个人姓名和关系词的确定,最后,候选句子与可能的人际关系是过滤掉的句子。(2)matching-based个人关系提取规则:首先,建立规则库,第二,使用规则匹配数据预处理步骤中获得的候选句子实现人际关系的第一提取。(3)人物关系提取基于句法树:句法分析是对候选人进行句子不满足规则,构建语法树,第二个提取人物关系是通过执行路径之间的距离关系词汇和语法树中的两个字符实体。(4)人物关系的决心:在获得两个字符之间的所有关系词的提取大规模语料库,关系词权重最高的选择最终的角色关系的决心通过合并同义词的关系。
角色关系的具体流程图提取算法的基础上,结合规则匹配和句法树如图1,这些部分的细节描述如下。
8。数据预处理
在继续之前后续关系提取算法,数据首先需要预处理,包括分离和个人识别。第二,随后基于规则匹配和句法树关系提取方法都是基于句子。因为大量的句子在文本不包含人的关系,有必要首先执行句子分离(句子分开根据汉语语法的句子分隔符),然后执行句子筛查,并选择有效的句子作为输入用于随后的算法。这可以过滤大量无关的语句,提高算法的效率。数据预处理的流程图如图2。
8.1。基于规则匹配的字符提取的关系
候选句子的人关系都是通过数据预处理阶段,这一阶段将详细说明关系的提取使用规则匹配候选句子的人的关系,这部分的工作主要是提高准确率和准备后提取的人关系基于句法树。基于规则的匹配方法的第一步是开发一个完整的和准确的规则库。人们之间的社会关系相对固定的方式描述文本,本文采用手工收集的方法发展的规则库,它可以确保规则的准确性。
候选句子的人物关系分裂分别匹配使用规则库中的每一个正则表达式,最高到最低的顺序规则出现的频率相匹配时,将扮演一个角色在提高算法的精度,同时减少的数量无关的句子匹配。如果一个句子不能匹配规则,作为输入用于随后的句法树为下一步提取算法。
9。语法树提取人物关系
基于句法树的人关系提取包括三个步骤如下:(1)构建一个语法句法分析树的人关系的候选人;(2)句法树修剪,消除大量的非点形成包含树的最短路径树(SPT);(3)计算每个词的关系基于路径的重量的话,两人之间的距离关系,在SPT树,最后确定词最能代表两人的关系,用关系词的重量。
基于句法树的角色关系提取的流程图如图3。
论文使用斯坦福解析器的语法解析器语法树建设,基于概率统计的上下文无关语法解析器在Java开发的NLP斯坦福大学研究小组,这是完全开源,支持英语、汉语、德语和法语。斯坦福解析器可以获得组件之间的依赖关系在一个句子和句子的语法树。处理的中国人来说,斯坦福解析器提供五个培训模型。
在本文中,我们专注于简化的处理文本,因此使用大陆新华社语料库。在模型选择方面,分解和PCFG相比在时间和空间方面的消费在处理不同长度的句子。3.5.2.1斯坦福解析器版本是用于比较20.]。
一旦取得SPT树,SPT需要解析树的结构来确定最好的关系词来形容这个角色对 。在这种情况下,有必要获得每一对关系每个字符的距离。距离越小,越相关关系是描述人物之间的关系对。给出下面的定义:
定义一个SPT树的节点对应的人是 ,节点对应关系是 ,和最近的公共父和是根,那么距离 的关系对人定义如下,在哪里d表示的最短路径长度回到根。
定义的距离的关系的性格, 由以下定义:
在SPT树如图4,最近的公共父节点的对应关系的“爸爸”,这个角色“李平”是“NP”图中节点编号1,那么最短路径的字符“李平”到最近的公共父节点 ,即。,d是(Dad, Li Ping) = 3, and similarly dis (Dad, Li Jiantao) = 1. Therefore, using the definition, the distance dis (Dad, Li Jiantao) is for the character pair Li Ping and Li Jiantao. The distance of dis (Dad, Li Ping, Li Jiantao) = 4.
SPT的过程基于树的人关系提取算法如下:我们的关系在一个人关系候选句子的年代 的人的名字 ;首先,距离 之间的关系词 和每个人的名字 计算,第二,重量 话的人的关系计算, 大小按升序排列,最后描述的人的关系,以最小的距离和关系词适合选择阈值的关系描述的人 。如果一个关系已经确定为关系的描述一对字符(21),它不会被用作其他角色对句子的关系描述。提取的字符流,关系如图5。
10。提取的实验结果和分析性格的关系
为了验证个人关系提取算法的性能,10000年的实验数据被分成句子和候选人的个人关系(即。、句子至少含有两个名字和关系词)被选为算法的输入。4685句个人关系的候选人,其中2437包含人际关系和2248不包含个人关系。
10.1。阈值的选择实验路径
在语法树提取角色关系,路径的选择阈值对算法结果至关重要;因此,本节首先选择不同的道路阈值实验和比较结果选择最佳阈值比较结果和最佳阈值被选中。本文首先选择200关系4685个候选句子作为训练数据,并手动注释107关系和93关系没有关系22,23]。使用基于句法树关系提取算法,阈值不同的路径= 2,3,…,14个选择。,14和the accuracy, recall, and F-value for each threshold are shown in Table1。
图6显示了准确性、召回和f值语法树的建立个人关系提取算法阈值对不同路径。从图可以看出,召回率增加而增加,但准确率下降,达到最大值78.19% = 6。在随后的实验中,本文选择= 6作为阈值的路径。
10.2。准确性和人物关系抽取结果的性能比较
提取的特征关系,论文首先执行角色关系的第一步提取候选句子的规则匹配。如果规则匹配不成功,句法树构建和执行的第二步是句法树建立个人关系。提取的第二步是由句法树字符提取算法之间的关系。规则匹配算法产生一个非常高的准确率,但低召回率。语法树的方法是能够获得更高的召回,但相应的精度低(24,25]。两者的结合可以提供相对较好的结果。以下的规则匹配,句法树,结合的方法研究了不同的数据集。以下实验比较基于规则匹配的精度和性能,基于句法树匹配和两种方法的结合。三种算法的结果展示在表2。
实验结果基于规则匹配字符提取算法的关系与不同的数据集如表所示2。
语法树角色关系的实验结果与不同的数据集提取算法如表所示3。
个人关系提取算法的实验结果基于规则匹配和句法树图的组合7对不同的数据集如表所示4。
数据7- - - - - -9显示的结果的比较三种算法的准确性,回忆,和f值在不同的数据集,分别。从以上三个数据,可以看出基于规则匹配算法能够获得较高的准确率,但相对较低的召回率,和语法树算法能够获得高召回率,但准确率很低。算法基于规则匹配和句法树的组合能够实现准确性和回忆之间的妥协和能够获得高f值,表明本文的算法是有效的。
图10显示了一个比较的时间消耗的三种方法在不同的数据集。句法分析的过程包括句子成分分析,组件之间的关系和建设一个句法树,而规则匹配的是一个简单的字符串比较,语法分析消耗很高的时间,而基于规则匹配算法是非常快。相结合的算法规则和语法树,作为候选人的性格关系的句子,可以匹配的规则已经提取的第一步,没有必要建立一个句法树,所以有一些改善时间消费相比,基于句法树的方法,但消耗的时间也远远超过基于规则的方法。
10.3。与其他方法相比
论文的最终结果是平均从不同的数据集的实验结果与其他方法相比,在文献中与其他文献中的方法相比,如表所示5。文献[53]使用一种基于字符的特征提取算法注释。文献[54]分类特征关系分为六类,选择角色对上下文特征,距离特性,和句法特征作为特征向量,最后用支持向量机分类方法识别的关系。文献[55]使用卷积树核函数来提取特征的关系。与其他方法进行比较表明,该方法提出了基于卷积树核的理论和方法在准确性方面没有明显的优势,但他们都有显著改善的回忆与其他三种方法相比,最后,综合评价指数f值高于其余的三种方法。因此,人物关系提取算法的基础上,结合规则匹配和句法树提出了论文在一定程度上可以改善开采效果的关系。正确使用时间元素。呼啸山庄凝结的所有元素丰富而严谨的场景,和作者艾米丽呈现出复杂和详细年表文本时间和故事时间的一个聪明的方式,展开情节在一个惊人的逆转的时间和高亮显示表5年表的主题在一个复杂的交织。天气和季节的描述将小说的人物的情绪和行为,使场景更加生动和戏剧性,大大提高这个激动人心的和原始的活泼自然和神秘小说。
11。结论
本文主要描述了算法的人关系提取基于规则匹配和句法树的结合,这是分为四个部分:第一部分是数据预处理,为基本准备部分,首先,它描述了使用ICTCALS词分离和知名度,随后给出了相关定义使用;它描述了人关系提取基于规则匹配,包括建立规则库,正则表达式。人物关系的算法提取提出了基于句法树。首先,语法树是用斯坦福构建解析器,第二,语法树转换成一个SPT树修剪出非点,然后根据提取的角色关系是SPT树。
数据可用性
原始数据支持了本文的结论将由作者提供,没有过度的预订。
的利益冲突
作者声明,关于这项工作他们没有利益冲突。