文摘

为了缩短时间为用户查询新闻在互联网上,本文研究和设计了网络新闻数据提取技术,可以获得主要的新闻信息通过新闻文本关键词的提取。首先,TF-IDF关键词提取算法,TextRank关键词提取算法,和LDA关键词提取算法分析理解关键字提取工艺,并通过Zipf TF-IDF算法优化定律。通过引入模型融合的理念,五个方案基于瀑布融合融合设计和并行组合,和五个方案的影响验证实验。发现设计提取技术对网络新闻数据提取具有良好的效果。新闻关键字提取有很大的应用前景,它可以提供的基础研究领域的新闻关键短语,新闻摘要,等等。

1。介绍

随着互联网技术的发展,在线新闻是呈指数级增长,用户可以获得国内外的最新消息实时通过手机和其他移动终端(1]。但在互联网上,新闻内容是不均匀的,有很多诱发内容,缺乏新闻真实性,用户很难准确地找到内容的实际需要在大规模网络新闻。在这个时候,一种网络新闻数据提取技术的基于文本关键字设计,它可以帮助用户准确地找到有价值的新闻2]。关键词在文本关键词指的是一种精确的术语表以获取信息。传统的手工关键字提取工作不能满足大数据的需要新闻文本在这个阶段,和自动文本关键字提取技术是必要的3]。在线新闻文本自动提取关键技术可以节省用户的阅读时间,与此同时,协助用户屏蔽垃圾新闻,并迅速获得新闻内容(4]。针对这一点,本研究将开发一种网络新闻文本数据提取技术基于文本关键字,以提高质量的新闻阅读,节省用户的时间。

为了减少Web文本关键词提取的依赖在大注释文本语料库,坎波斯等人设计了一个无监督自动关键词提取方法从一个文档中提取关键词通过多个地方特色(5]。李和其他学者提出了推断主题分布偏差标签的主题模型算法和构造一个加权图通过使用随机游走算法,引入抵消散列随机漫步在一个加权图,并提取文本关键词结合标签(6]。Kolokas和其他研究人员设计了一个文本关键词提取方法基于递归神经网络。网络模型可以将文本关键字序列映射到整个文本和执行连续re-representation关键词,有关键字提取效果好(7]。俄南和其他学者研究最常用的关键词提取方法,如基于测量的关键字提取方法,基于词frequency-inverse句子频率关键词提取方法,同现基于统计信息的关键词提取方法,古怪的关键词提取方法,TextRank算法。之后,他们提出了基于关键字的文本文档表示的组合和整体学习,可以显著提高关键词提取的效率和改善文本分类方案的预测性能扩展性能(8]。与科技水平的不断提高,汽车导航等车载应用的数量增加,和汽车的的社会数据量急剧增加。基于云的车辆数据处理方法已经出现。为了保护被访问的数据,杨等人提出了一个关键字提取基于特定的文本空间分布测量方法,通过提取请求访问关键字索引,从而达到数据加密保护(9]。

数字技术从根本上影响了社会的进步。霍夫曼和其他研究人员整合文本来自不同信息源的数据通过文本挖掘技术,处理成一个分析和可读性之间关系网络技术,然后研究相关技术的动态系统(10]。Sapozhnikova和其他学者使用卷积神经网络分类网络信息门户的新闻信息文本,实现文本的语义预处理通过开放word2vec模型。在网络新闻数据提取,分类精度达到84% (11]。随着社交媒体的普及,用户的旅游偏好可以获得用户的移动社交媒体记录历史。温等人设计了一个代表旅行路径框架基于关键字的看法,从用户的移动记录历史,提取知识和成功完成了旅行路线推荐实验(12]。野生动物和普拉萨德使用语义关键字和BPlion文本自动分类的神经网络算法。通过实验数据,结果表明,文本分类的精度可以达到90.9%13]。在大数据时代,网络数字资源的快速增长,短的文本资源显示强大的生命力。小王和他的团队分析了中文短文本的分类在低粒度特性(关键词)通过比较不同中国碎片的分类能力14]。

这些方法已经取得了很大的进步在关键字提取、文本分类、检索等等,但缺乏相关研究网络新闻数据提取技术。尽管许多研究人员设计不同类型的文本关键词提取方法,该方法具有较强的针对性,不能直接用于新闻数据提取。为了节省时间用户得到这个消息,本文设计一种网络新闻的基于文本关键字的数据提取技术的基础上,考虑到网络新闻的特点。

2。网络新闻数据提取技术的设计

2.1。网络新闻文本的关键词提取方案

随着搜索引擎和社交网络的普及,人们获取信息的方式已经改变,互联网已经成为信息共享的一个重要的位置。主要新闻门户网站发布新闻移动客户,导致在线新闻数据的激增15]。

从图可以看出1,移动互联网新闻用户的数量已经从3.6651亿年的2013人增加到6.602亿年的2019;截至2019年6月,中国网络新闻用户的数量已经达到6.86亿,较2018年底增加1114万。通过用户行为日志的分析,推断出用户的阅读偏好,然后推动网络新闻不同的用户,这样用户粘性新闻客户端。如何准确地提取网络新闻数据,实现“精密,准确”新闻推送是一个强大的工具,节省用户的时间,提高用户的阅读质量,并提高用户粘性的新闻客户端(16]。

网络新闻通常侧重于报道一些社会事件。一般来说,只有少数关键字需要让用户了解新闻的主要内容。因此,网络新闻数据的提取可以概括为网络新闻文本中提取关键字(17]。关键词提取方法提取分为监督和非监督提取训练样本是否需要。本文主要研究无人监督的提取方法,包括术语frequency-inverse文档频率(TF-IDF)提取算法,TextRank算法,和LDA(晚狄利克雷分配)主题模型算法(18]:

公式(1)是一项频率的计算公式(TF), 指词和文本分别对应词;nij指的是这个词的次数出现在文本J;单词的总数在文本J是由Nj:

公式(2)是逆文档频率的计算公式(IDF),文本的总数N,总数量的文本语料库中包含我n:

公式(3)是TF-IDF的计算公式。可以看出TF-IDF值越大的词是,越有可能成为一个关键字的文本j。TextRank算法将文本划分为几个单词组成和构造图模型。以汽车网络新闻为例;参见图2获取详细信息。

根据网络图如图2连接词与词之间是探索的程度,单词是得分,关键词排名获得分数。设置构建词图模型 ,这是一组顶点和边,所以所有顶点的集合,所有网络图的边的集合GVE反过来。任何顶点的顶点集 指的是 ,点与其他点的集合 , :

方程(4)是顶点的计分标准 加权图,d阻尼系数,d0.85:

方程(5)是计分公式有两个顶点之间的固定重量, 之间的重量是 ,d阻尼系数,d是0.85。LDA主题模型算法结合词汇和话题不直接相关的文件适合词文本主题的分布。

原TF-IDF算法提取效率低的缺点,可怜的提取精度。本文提出了引入Zipf定律和卡方检验来提高原始TF-IDF算法,其中Zipf定律负责获得不同频率的权重,和卡方检验用于关键字提取。当有话说在长文本j,字多次出现在第一时间和单词用更少的时间出现在第二位。排名的词排名数(字排名)r。当单词的数量n,有 ,C是一个常数围绕一个固定值波动。大多数的在线新闻简短文本的形式,和频率相同的词在一个单一的文本j不超过5次。频率相同的单词按最大排序方法(19,20.]:

公式(6)的公式计算的字数n使用相同的频率,和的值rn是这个词。当数量的词语n≤5 , ,在哪里 ,n词频。每个单词频率的比例在同一个文本可以计算 , 是产品的等级和近似常量n

从表可以看出1的增加n的价值, 减少。因为低频话语在短新闻文本的重要性很低,提取网络新闻数据时,我们可以先判断每个词的词频大于1,如果是这样的话,计算IDF值:

方程(7)是x平方分布检验的表达 (偏差度)非常小,它是判断错误,一个E实际参考价值和理论价值,分别为:

方程(8)是基于的原则Zipf定律和卡方检验(tf-idf-k),还有一个卡方值

如图3,首先通过Jieba预处理新闻文本分词,然后过滤停止词,统计每个单词出现的次数,把单词与单词频率的计算TF-IDF价值和卡方值K、乘获得tf-idf-k值,并安排他们在降序排列。最热门词汇输出结果,也就是说,关键字的文本。

2.2。基于模型融合网络新闻数据提取方案

模型融合可以显著提高网络新闻数据的准确性。两种模型提出了融合方案:第一种是瀑布融合和第二平行组合融合。

如图4、瀑布融合在级联多个算法模型的形式,使用不同的算法进行滤波,得到最终结果。瀑布融合的过程中,之前的活动是作为输入,结果过滤前算法被下一个作为输入过滤算法,和候选人结果不断筛选,获得最终结果以更少的数量和高质量(21]。

从图可以看出5、并行组合融合从原始文档中提取关键词通过几组的算法,然后成绩关键字的平行投票,以选择最优的结果。三种提取算法中描述部分2。1都有缺陷。TF-IDF严重依赖IDF语料库及其精度的影响;TextRank算法计算复杂度过高;和LDA算法不能反馈准确的文档主题。结合不同的融合模型的特点,两种瀑布融合网络新闻关键字提取方案。

6(一)方案1:首先,TF-IDF算法,然后TextRank算法。分词和停止词去除后,词性过滤和词频n是统计。TF-IDF值计算和排序根据TF-IDF每个词的价值。当的次数大于50,重新排序;当的次数不大于50,计算TextRank值,排序,并输出关键字根据每个单词的序号。图6 (b)方案2:第一,TF-IDF算法,然后LDA主题模型算法。

三个设计方案图7不考虑顺序。方案1的图7(一)是TF-IDF算法的并行组合和TextRank算法;方案2的图7 (b)是TF-IDF算法和LDA算法的并行组合;方案3在图7 (c)LDA算法的并行组合,TextRank算法。三个方案的一般过程可以概括如下:输入网络新闻文本,处理文本分词,停止词删除,这个词词性过滤和计数频率n。这两个并行算法排序的单词同时,候选关键字列表,输出最终的关键词通过使用并行融合方法,并完成网络新闻的关键信息提取(22]。在这项研究中,准确率、召回率,和F1值是用来评估在线新闻关键词提取的影响。准确的表达所示

公式(10)和(11)召回率和F1值的表达式,TP指的情况的标签是一个正样本和预测是一个正样本;FN指的情况的标签是一个正样本但预测是一个负样本;FP是指情况标签是一个负样本但预测是一个正样本;TN指的情况的标签是一个负样本和预测是一个负样本。

3所示。网络新闻数据提取技术的应用效果和讨论

3.1。网络新闻数据提取技术的实际应用效果

为了验证网络新闻数据提取技术的应用效果在这项研究中,提出下一阶段的实验分析不同的方案。在实验中,选择windows 10系统作为实验操作系统,使用i7处理器,和记忆是16 g;pychar + python3.6选为开发工具;和100年网络新闻10个类别的选择进行实验。

在瀑布聚变实验设计、方案1使用TF-IDF算法通过TextRank算法提取关键词;方案2还使用TF-IDF算法来提取关键字通过LDA主题模型。具体实验结果如表所示2

在表2”几个私人幼儿园在韩国参与腐败:挪用营业费用购买有价值的珠宝”选为提取对象的在线新闻。和新闻重要的信息提取,通过两个方案可以看出,与标准关键词相比,很明显,网络新闻关键词提取方案1更接近黄金标准比方案2中提取的;也就是说,方案1更好的网络新闻信息提取性能。选择100网络新闻文本的十类,发现所有网络新闻关键词通过方案1和方案2,分别和记录所消耗的时间这两个方案中提取关键信息时相同的网络新闻,如图8

8显示了这两个方案的时间提取不同类型的网络新闻关键词。从时间的分析提取关键信息(关键字)10种网络新闻,方案1中提取关键词的整体时间远小于方案2;方案1中提取关键词的平均时间是43.87秒,在方案2是138.74秒。上述结果表明,方案1有明显优势的时间消耗网络新闻的关键信息提取。选择10个类别的100在线新闻作为实验对象比较的回忆和准确性两个瀑布融合算法。具体结果见图9

9(一个)显示了两个瀑布的回忆比较结果融合算法。总的来说,方案1的召回率高于方案2;方案1的平均召回率是0.47,方案2是0.34的,0.13低于方案1。图9 (b)显示了两个瀑布的准确性比较结果融合算法。总的来说,方案1的准确性高于方案2;方案1和方案2的平均精度是0.38和0.31,分别,方案1的平均精度为0.07高于方案2。上述结构显示关键信息(关键字)收购方案1的性能优于方案2。

在表3在线新闻标题为“日本大学生聚集导致的崩溃公寓地板上,30人受伤”选为实验对象,采用三种不同的并行组合融合算法提取关键信息的消息。与标准关键词相比,方案1 (TF-IDF并行算法和TextRank算法结合)比方案2和方案3中提取关键信息的在线新闻。然后,三种不同的并行组合融合方案用于提取关键词从10组不同类别的100在线新闻,特定的时间被不同方案中提取关键信息的不同类别的在线新闻数,并计算平均值。参见图10获取详细信息。

10显示的平均时间消耗方案2 (LDA主题模型的算法和并行组合TF-IDF算法)中提取关键信息的在线新闻是92.19秒;方案3 (TextRank算法和LDA主题算法的并行组合)中提取关键信息的在线新闻是140.78秒;方案1 (TF-IDF并行算法和TextRank算法结合)提取关键信息的网络新闻,关键信息提取的平均时间只有44.77秒。接下来,比较三个平行的召回率和准确率关键字提取,组合融合方案,实现融合的质量比较分析三种不同的并行组合方案,如图11

根据图(11日)方案2的平均召回率(LDA主题模型的算法和并行组合TF-IDF算法)是0.34;方案3 (TextRank算法和LDA主题算法的并行组合)是0.22;方案1 (TF-IDF算法和TextRank算法的并行组合)是0.54。从大局的召回率,方案1的召回率优于方案2和方案3。图11 (b)表明,方案2的平均精度为0.29,方案3是0.21,方案1是0.35。

在图12,“热”是指流行的推荐方法,” ”和“ “参考方法基于瀑布融合方案和方法基于并行组合融合方案,分别。从图可以看出12的影响,受欢迎的建议是最糟糕的。这是因为受欢迎推荐方法只发现受欢迎的新闻列表根据前一天的新闻浏览数据,过滤新闻列表,用户没有浏览,并直接推荐。

3.2。讨论实验结果

新闻关键字提取可以帮助用户快速区分垃圾新闻,新闻内容,它具有很大的应用前景。模型融合是一种高性能的多个分类器组成的分类器(23]。研究采用并行组合融合技术和设计网络新闻数据提取技术,这不仅可以实现准确提取关键词,还大大缩短手术时间,减少预算的复杂性。并行组合融合提取的实验结果,需要从三个方面进行:直观的比较分析,比较分析,质量比较分析。其中,直观的比较分析是指实验结果的比较分析,黄金标准;时间比较分析指的是时间的比较分析,从三个方案中提取网络新闻关键词;质量比较分析是指各自标准的三个方案。准确率和召回率进行了比较和分析。

从分析网络新闻的关键信息提取时间,LDA的平均耗时的话题模型算法和TF-IDF算法并行组合是92.19秒;的平均耗时TF-IDF算法和TextRank算法并行组合只有44.77秒。换句话说,TF-IDF算法和TextRank算法有更好的时间效率在网络新闻数据提取。与TF-IDF算法相比,TextRank算法,和LDA主题模型算法,该算法的时间消耗在关键信息的在线新闻是显著降低。LDA的平均精度的并行组合使用主题模型算法和TF-IDF算法0.29;的平均精度TextRank算法和LDA主题算法的并行组合是0.21;的平均精度TF-IDF算法和TextRank算法的并行组合是0.35。可以看出TF-IDF算法的准确性和TextRank算法并行组合是最好的,建议研究人员可以从这种组合,进一步优化网络新闻的关键信息提取技术(24]。

除了考虑提取时间和准确性,提取的信息是否符合用户的需求也是非常重要的。为了比较该方案的应用效果在网络新闻数据提取,研究计划将基于上述两个优势:第一,瀑布TF-IDF算法然后TextRank算法融合方案,TF-IDF算法,TextRank融合算法并行组合方案。提取的网络新闻关键字结合的分析不同用户的历史浏览行为轨迹,和相应的用户分析建议性新闻。并通过推荐竞赛平台评分推荐效果,比较受欢迎的新闻推荐效果的建议方法,方法基于瀑布融合方案,方法基于并行组合融合方案,然后评估网络新闻数据提取的影响在不同的方法。从实验结果中,我们可以看到,受欢迎的建议缺乏网络新闻关键词的提取方法,和内容向用户推荐新闻时缺乏针对性。其次,基于瀑布融合方案,该方法可以迅速掌握关键信息包含在消息通过提取网络新闻关键词,提高新闻的针对性建议,有效地缩短过程中的能源消耗和运行时间的新闻推荐。然而,新闻的影响的建议基于瀑布融合方案略比基于并行组合融合方案。这是因为在并行组合融合方案,这两个算法(TF-IDF算法和TextRank算法)不是,和相应的召回率很高。提取关键词越符合新闻的实际内容,更推荐的新闻很容易被用作阅读兴趣。

4所示。结论

网络新闻的快速发展,新闻内容提供了一个不均匀的现象,媒体恶意夸大报道,吸引流量的现象是很常见的,它是困难的为用户快速获得所需的大规模网络新闻的新闻内容。网络新闻数据提取技术基于新闻文本关键字提取已经成为一种有效的工具来解决这个问题。针对这一点,这个实验开始于无监督关键字提取方法和提高三个算法基于TF-IDF算法的分析,TextRank算法和LDA主题模型算法。TF-IDF算法提高了yuzipf定律和卡方检验,和五个不同的关键信息提取方案设计通过使用瀑布融合算法和并行组合融合算法结合上述三个无监督关键字提取算法。为了验证不同方案的关键信息提取的影响,本文选择100网络新闻的十类关键词提取对象,验证网络新闻的关键信息提取效果的视觉比较分析,从三个方面比较分析,质量比较分析。最后,通过新闻推荐竞赛,本文比较了网络新闻的关键信息提取效果设计在这项研究中从侧面。设计结果表明,萃取技术对网络新闻数据提取有很好的影响,和关键字提取模型融合的性能高于传统的提取方法。虽然取得了一些成绩在这项研究中,Jieba分词直接用于关键字预处理步骤,和每个算法模型的优点最大化。在将来,投票机制将被引入,以最大化每个算法模型的优点,从而充分发挥每个算法模型的优点。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。