本文使用数据库作为数据源,利用文献计量学和视觉分析方法,统计分析有关文件发表在文本分类领域在过去的十年里,阐明发展背景和文本分类领域的研究现状,并预测在文本分类领域的研究重点和研究前沿。基于深入研究的背景、研究现状、相关理论,和在线新闻文本分类的发展,本文分析了年度出版趋势,学科分布、期刊分布、机构分布、作者分布、高被引文献分析和研究热点。前沿等方面阐明发展背景和文本分类领域的研究现状,为进一步发展提供一个理论参考的文本分类领域。然后,在文本分类系统的研究的基础上,深度学习,和新闻文本分类理论,基于深度学习网络新闻文本分类模型,并详细介绍了每个模块的功能,这将有助于未来的新闻文本分类应用和改进提供理论依据。前辈的基础上,本文分别研究并改进了基于卷积神经网络,神经网络模型循环神经网络,和注意力机制,将三个模型合并为一个模型,可以获得当地的相关特性和上下文特征和突出关键字的作用。最后,实验是用来验证模型的有效性提出了与传统文本分类和比较来证明的优越性网络新闻文本分类基于深度学习在本文提出。本文旨在研究的内在联系,新闻评论和投票的数量受新闻评论,并通过该模型,选票的数量为新闻评论可以预测。
与互联网技术和移动通信技术的迅速发展,网络新闻已成为一个重要的信息来源对人们的日常生活,学习,和工作 然而,面对庞大而混乱的网络新闻信息,用户面临的问题不再是如何找到新闻资源,但是如何有效地、准确地获取信息,能够满足自己的需要从大量的新闻资源 本文主要从两个方面进行研究:文本特征表示和文本特征选择在网络新闻文本分类。传统的文本分类方法有很多难以解决的问题。针对高维稀疏的传统的文本表示方法在自然语言中,嵌入层将文本数据转换为密度低维向量,避免造成的维度灾难高维输入。同时,通过使用词向量,分词错误影响文本分类任务的准确性得以避免,并改善分类器的性能。特征提取的过程需要人工参与,这将影响最终的文本特征提取的准确性;使用向量空间模型的文本表示将忽略的词序和语义的文本。信息影响文本分类的性能;面对高的纬度和数据稀疏问题,尽管特征选择方法可以用来降低维度,这将进一步加剧文本功能丧失的问题,使整个文本分类过程更加困难。为了解决上述问题,本文透过传统的在线新闻文本分类过程基于在线新闻文本分类的研究和使用深度学习方法作为理论依据来重建过程的在线新闻文本分类使用深度学习相关理论和模型来实现传统文本分类的目的是解决问题,提高文本分类的效果。
一些相关研究文本分类可以追溯到20世纪。Abdi et al。
与文本信息资源的快速增长在互联网上,文本分类方法得到了前所未有的关注。然而,基于知识工程的文本分类技术已经完全不能满足需求,已逐渐取代了新兴乐此不疲机器学习的文本分类方法,并迅速成为新的主流领域的文本分类方法,它仍然是许多学者研究的焦点。基于统计机器学习的文本分类方法学习已知类别的样本数据。Girgis et al。 文本分类技术的发展,不仅引起了许多研究者的注意,大学,研究机构,和各级企业在中国也非常关注文本分类技术的研究,不仅相关研究人员和学者研究文本分类技术。许多基金的大力支持,越来越多的论文相关的文本分类,促进文本分类研究的快速发展。中国科学院、北京大学、哈尔滨工业大学、清华大学、上海交通大学和其他大学和研究机构开展了很多研究领域的文本分类。经过不断的探索和研究人员,我的国家取得了丰硕的研究成果在中文文本分类领域。典型代表系统包括Zhiduoxing中文文本分类器的计算技术研究所、复旦大学文本分类、文本分类的北京大学。他们中的一些已经成功地推广和应用(
特征选择是选择最具代表性的一些特性的文本内容从原始特征空间用于文本分类而不影响原始特征空间的性质。特征选择的基本原理是将原文单词序列的评价函数。通过选择一些相对高分特征作为最后的文本功能,文本特征空间的维数降低,从而提高中国语言领域的在线新闻。
针对贫困问题的网络新闻文本分类等缺陷引起的向量纬度高,稀疏数据,以及缺乏语义在传统机器学习新闻文本分类方法,向量法一词用于表示新闻文本词序列,可以有效的解决这些问题。在优化过程中,动量的引入可以加快收敛,减少无意义的振荡。当梯度点实际的移动方向,增加动量项;当梯度与实际相反方向移动,它会减少。这将确保优化的方向总是向最小值点,减少不必要的更新,提高了优化的效果,同时减少计算开销。这个词向量的主要思想是将每个单词映射到低纬度空间。在新的低纬度特征空间映射后,这个词向量之间的位置关系对应不同的功能词代表它们之间的语义。水平上的协会可以解决向量稀疏和语义缺失的问题。假设任何一件在线新闻文本在实验数据集<我t一个lic>
k
本文中使用的卷积神经网络利用金的论文的模型设计,和具体结构如图
在回旋的层,新闻文本输入到卷积神经网络的形式一个二维矩阵,<我t一个lic>
u
其中,<我t一个lic>
c 在新闻文本功能是通过卷积操作,如果这些特征直接用于分类,因为还有很多特性数据,计算量将会非常大,培训过程将是缓慢的。在保留有用的特性的前提下,简化卷积神经网络参数的数量和降低计算复杂性,有必要使用池操作压缩和合并新闻文本语义相似的特性,可以在二次提取中发挥作用的特性。自适应时刻估计可以自动选择合适的学习速率。这个算法存储使用的指数衰减梯度的优化,在优化过程中,动量方法相似。池运行卷积神经网络所示公式( 为了防止过度拟合的卷积神经网络在训练过程中,辍学的策略是采用;,一些隐藏节点丢弃有一定概率模型训练过程中,这是不可能的训练复杂的通过所有隐藏节点的联合行动。输出层将产生CLASS_NUM概率值,分别代表该文档属于当前类的概率。每个培训的网络模型是不同的,这提高了网络模型的泛化能力,从而有效地防止过度拟合现象。在最后的输出层,所有的新闻文本特性映射到类别信息根据公式(
首先,大量的新闻文本过滤特殊字符的正则表达式,使信息的纯文本格式;作为最基本的语义单位,词汇需要用来表示文本在新闻文本的特征分类。
对于每个新闻文本中的词汇,使用Word2Vec,一个词向量开源工具基于深度学习谷歌发起培训并生成新闻文本向量和新闻文本特性转换成密集的词向量的具体尺寸适合卷积神经网络处理。它表明,训练语料库来自1.02 GB全网发布的新闻文本数据包(SogouCA)搜狗实验室。可变长度的文本。的方法表达文本数字或向量计算机可以运行这个词通常被称为嵌入方法。字嵌入将可变长度的文本转换成固定长度的空间,这是文本分类的第一步。在这篇文章中,新闻文本的词向量维度设置为50,100年,150年,200年,250年和300年,分别选择最佳实验参数。新闻文本词向量的每个维度由Word2Vec训练和生成。 目前,常用的特征选择方法包括文档频率、卡方统计数据(<我t一个lic>
χ
进行比较的实验之前,我们首先训练和调整相关参数的卷积神经网络训练集和验证集上的实验,让最后一个测试消息文本分类的效果在测试集。参数主要包括新闻文本输入的词向量维卷积神经网络,大小的卷积核的卷积神经网络, 这表明尽管嵌入向量可以捕获这个词的句法和语义规则在某种程度上,一个高层次的特征提取方法是必要的,如果更好的事件线提取性能。由于频繁的迭代计算和参数更新,随机梯度下降法最终会陷入某些局部最小值和波动在这个最小值。同时,实验证明,当我们慢慢地减少学习速率<我t一个lic>
问
在这篇文章中,网络新闻的文本分类方法的分类效果基于深度学习实验验证。以新浪新闻为例,实验<我t一个lic>
c 共40个凸字是通过计算获得。可以清楚地看到,突出价值的三大关键词卷积神经网络,深入学习,单词向量。属性约简的显著值文档频率,特征降维,粗糙集,遗传算法,主题模型,自然语言处理,情绪分析,word2vec,等,和词向量是关键词和高声望值在最近三年。因此,当前的研究领域在文本分类领域主要包括文本分类模型,文本分类应用中,词向量文本表示方法和基于深度学习的文本特征的提取。
从图
辍学的影响参数变化对新闻文本分类的准确性是图所示 这也表明,文本分类技术在各领域的应用价值并没有反映。当前文本分类领域的研究主要是基于理论研究。因此,更多的科研院所和企事业单位需要更多地投资于文本分类领域。研究能源促进转化率和应用程序的文本分类领域的研究结果。
新闻文本的词向量维度的影响在新闻文本分类的准确性是如图 从图可以看出 平均消息文本分类方法的精度和召回率约为97%,基于深度学习,平均精度和传统新闻文本分类方法的平均召回率约为84%。与传统新闻文本分类方法相比,分类方法有一个很大的改善精度和召回。的F1值体育、金融、房地产、教育、技术、游戏和娱乐大大增加,而F1值家具、时尚和时事增加相对较少。基于深度学习新闻的文本分类方法与传统新闻文本。分类方法提高了平均F1值13%。 从图可以看出 文本分类的效果是很好的训练集和验证集。它可以从数量上的数据的论文在核心期刊上,计算机科学期刊是主流期刊发表在文本分类领域。值得注意的是,5前16的期刊出版卷属于图书馆和信息领域,如数据分析和知识发现、信息科学、图书馆和信息工作,信息杂志,和信息理论和实践。出版物的数量是63。章38岁,37岁,31日和27日表明,图书馆和信息领域的文本分类研究的第二个来源,它扮演了一个重要角色在促进理论发展和实际应用的文本分类领域。 因此,如果相关学者研究需要进行文本分类,他们可以专注于选择文本分类的相关文件发表在这些大容量期刊,这将帮助研究人员快速、准确地获得该领域的研究现状和最新研究动态。然后改变单一模型参数和仿真3次重复精度的平均值,召回和综合价值的模型。参数的最大平均值是最好的参数。可以看出,准确性,记得,CNN和综合价值模型达到99.55%,可有效识别公共事件新闻和紧急新闻,为下一步奠定基础的文本分类的紧急消息。
模型主要由四个部分组成,即新闻文本预处理、基于矢量的新闻文本表示,新闻文本特征提取和分类,文本分类结果评估。在实验过程中,致密Word2Vec词新闻文本的向量表示最初是通过学习获得的,以解决问题的纬度高,稀疏数据,缺乏传统文本表示的语义。然后,新闻文本词向量作为输入,和卷积神经网络新闻文本功能是自动学习和提取,从而避免了费时,费力,误差累积的缺点传统新闻文本分类方法手动参与特征提取。实验结果表明,该方法可以有效地提高网络新闻文本分类的效率,使用词向量。解决问题的纬度高,数据稀疏,在传统新闻文本表示和缺乏语义,深度学习的卷积神经网络模型自动提取新闻文本的特性和分类,可以避免手工的问题在传统的特征提取方法。它与传统新闻文本分类方法分析。选择召回率、精确率和F1值作为评价指标。最后,我们提出了一个混合模型,将上述三个模型的功能结构模块到相同的模型,并使用一个共享的嵌入层和线性层,集三种模式的优点,同时减少计算开销。实验结果表明,基于深度学习的网络新闻文本分类方法具有更好的综合性能比传统的新闻文本分类方法和促进更有效的实现信息组织和管理在新闻领域。网络新闻的文本分类模型基于深度学习proposd本文是可行的,可以为用户提供更好的新闻信息服务,并提供了一定参考价值网络新闻文本分类技术的发展。
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。