文摘
如今,丰富的数量的信息在网上提供使客户很难检测必要的信息。编程技术是可取的有效过滤和搜索有用的数据网络。传说的文本摘要的目的是获得满意内容处理信息。文档摘要的主要因素是提取特性中受益。在本文中,我们提取特性在三组称为重要的单词。同时,我们提取句子功能根据提取的单词。随着知识在互联网上,这是一个非常费时,疲惫和乏味的任务阅读整个内容和论文并得到精确的主题相关的信息
1。介绍
通过增加知识在互联网上,这是一个非常耗时且乏味的阅读和论文整体内容和任务获得精确的主题相关的信息。内容摘要被认为是一个关键问题,因为它会生成编程数据的发布会上。摘要文本可以被定义为一个缩写版本生成的文本从几个文档没有原始文件的核心内容或印象,富有表现力的总结一定的手稿通过覆盖最大的命令式的一部分内容,从不同的贡献最小的冗余资源。有各种类型的内容总结根据输入源的复发速度,生成的技术总结,总结的目的,总结过程的输入和输出语言。
最近,neutrosophic逻辑的理论和集引入了。Florentin [1,2]介绍了neutrosophic逻辑。这是一个决定,每一个命题价值有三个等级,如真理的年级(T),一个年级的不确定性(我),虚假的成绩(F)。neutrosophic组被定义为一组,每个组件的宇宙有一个等级的真理,不确定性,虚伪,分别位于[0,1]之间 ,这是不标准的单位时间(3- - - - - -5]。有各种各样的应用程序使用neutrosophic逻辑(6,7]。
在本文中,我们提出neutrosophic逻辑集中multidocument总结过程来创建nonredundant总结汇报重要的句子。投影的方法是大专文凭萃取主要建立了通用的报告系统,并概述这件事预计工作大纲的上下文中创建的一个或多个消息连接文档。
本文结构如下。节2,我们给文本摘要系统上的一些基本概念。部分3介绍了提出总结技术。的基本面neutrosophic集介绍了部分4。使用neutrosophic集基于信息检索的基本知识介绍部分5。部分6致力于提供我们的方法来记录总结使用neutrosophic集之间的距离。给出论文的结论部分7。
2。文本摘要
如前所说,文本总结文档的压缩版本,保留原始材料的主要观点和想法。总结系统的目的是提供一个简洁和流体的概述一个给定的文本通过处理材料的最重要的部分同时最小化冗余各种就地来源。
存在一个文本摘要的分类范围(8- - - - - -12支持输入源的频率,轮廓生成的方式,大纲的目的,和语言的输入源。
有两种算法对不同的作品印刷文本摘要。他们采用总结和abstraction-based总结。
采用的技术是通过从文档中提取句子。没有任何格式的压缩在这个技术。它只是一种记忆句子为了创建一个更紧凑的轮廓。
Abstraction-based报告,另一方面,是有效的。除了记忆最重要的句子,它改变了文本组织方式。检索的文本是再生。这是归类为一个文档或multidocument报告根据输入源的数量考虑生成轮廓。一旦文档作为输入提供一个文本报告,它被称为一个文档报告,而multidocument报告使用的论文集合作为输入创建轮廓。
特定于领域的轮廓使用特定领域的数据生成报告,而域自由报告的大纲(通用)生成使用通用的替代品。特定领域的报告方法已经成为受欢迎的学术界。
在这个研究中,我们提供了一个基于neutrosophic逻辑文档摘要系统中提取相关的句子和生成一个摘要。计划的方法是采用通用的报告系统,和大纲计划工作是一个问题概述创建从一个或多个新闻相关的论文。
3所示。该文档摘要技术
总结是不足以产生词汇和短语,理解源文档。总结还必须准确和流利的阅读作为一种新的单独的文档。摘要文本(3,13- - - - - -15是创建一个简单的义务和流利的总结,同时保持整体意义和信息内容。总结的过程需要一些步骤:首先是数据的预处理;二是功能词提取;第三是句子特征提取;最后一步是组织生产总结文档的集合。在最后一步中,我们使用neutrosophic逻辑,说明。
3.1。输入预处理
一些预处理活动所需的原始文件才可以进入技术计划。(我)单词应该避免或删除:最常用的术语,如“,”“,”和“,”没有任何语言学相关数据文本区域单位。所有的停止词已经预编的,保存在一个单独的文件中。(2)阻止。这是所有单词转换的过程,通过消除根类型前缀和后缀。对于抑制过程,我们采用波特抽梗机。(3)删除特殊字符。房子字符删除所有特殊字符输入文档的集合,包括标点符号、审讯和感叹。(iv)分割过程。这是一个独立从文档中提取每个句子的方法。所有的句子从文档检索和保存在这种方式。(v)分割一个句子时,标记过程适用于所有的句子。这是一个技术孤立单词的句子。它是用来定义字符结构,如日期、时间,标点符号,和数量。
3.2。特征提取
执行一个有效的文档总结,我们考虑到特征提取。特征提取不仅是对句子的单词也有限。下面我们举例说明的方法来提取和不同层次的力量。同时,句子提取特性取决于单词。
预处理的知识在词用于看到句子得分在特征提取阶段。不同的句子的有效性评价方法是由文本的类型,类型的文本,文本语言,结构的贡献。主要信仰是完全不同的主题会享受不同的特征,它可以区分由多种可能性。
所有的文本选择分为两类:单词和句子水平水平选择。我们运行测试的各种组合浅文本选择在不同的数据集来找到最优的混合选项,将会带来最大的结果方面的报道和新闻领域的相关性。计划策略中使用的选项下面列出。
3.2.1之上。词的功能
前面的文本摘要方法依赖于文字信息在整个文档。另一种方式,我们可以通过使用单词没有提取功能,识别主题阅读整个文档。例如,“算法”一词可以表示文档字段“计算机科学”;这个词的出现在任何句子的意思,这句话也很重要。
“文档字段”一词指的是基本的人类交流和互信息是有用的。
一树的可视化表示文档的关系。域树的叶节点是平行的终端领域,super-fields连接到根节点,其他节点中间字段。文本框可以有效地清除如果有许多重要的字,如果频率高。因此,我们可以定义三个级别的重要词语(IM-W)将比使用完整的文档作为传统的方法更有效。IM-W定义如下的三个层次:(IM-W) 1。这个标题的文档和出现在终端领域,我们可以计算如下:根的晚餐F,孩子字段F/c;下面的公式是用于证明是否这个词(IM-W) 1。 (IM-W) 2。这似乎与多个终端领域在一个媒介。(IM-W) 3。这只出现一个媒介。
3.2.2。句子功能
句子功能是最重要的建设总结。两个句子识别的特点:首先是句子包含IM-W第二个句子长度,和短句子不给任何重要信息,所以不推荐短句子。句子长度计算得分如下:
3.3。总结过程
总结过程(16- - - - - -18是用三个步骤来完成。首先,所有的句子排列从最高到最低分数使用neutrosophic方法实现。句子选择基于相似度的其他句子总结。我们使用以下公式来确定句子相似度:欧式距离两套neutrosophic部分中解释6。第二步是优化过程;在这一步中,我们删除重复句子和删除类似的句子包含最多的类似的单词。第三步是句子安排。句子组织在最后总结的顺序出现在文档的基础。我们有了某些指导你,如下:(1)句子的重要性递减顺序排列(2)如果两个句子在同一文档中有相同的分数和在相同的位置,这句话在前面的文档在其他句子为主
4所示。Neutrosophic集
neutrosophic集是一个有影响力的一般框架,最近提出的F。Smarandache (1,2]。他提出不确定性的年级(我)作为一个独立的组件。在这一点上,真理的尺度,不确定性,虚伪对应的任何元素neutrosophic设定在一个普通的单位区间[0,1]。
Neutrosophic集定义:让是一套通用,一组单值neutrosophic是一项 这是由三个隶属函数分类。 是一个truth-membership函数, 是一个indeterminacy-membership函数, 是一个falsity-membership函数。总金额 的任何元素 欺骗在闭区间[0,3]。
5。信息检索基于Neutrosophic集N
埃尔(19使用neutrosophic集]讨论了信息检索的基本原理如下。
让D是一套有限的文档, 。W是一组单词, ;neutrosophic集N在D被认为是由truth-membership函数 ,一个indeterminacy-membership函数 ,和一个falsity-membership函数 ,无论 是功能和 。考虑一个neutrosophic N单值的元素。
neutrosophic单值(8- - - - - -12,20.)设置N在一个有限的宇宙 特点是如下: 在哪里 , 在哪里出现的单词的数量吗在文档中 , 出现的单词的数量吗在一组 ,和出现的单词的数量吗的子集 。
6。文档摘要基于Neutrosophic集
我们使用两个Neutrosophic集之间的距离21,22)来创建一个总结相关和密切相关的句子。单值neutrosophic集(18,23]是一种neutrosophic集,是出于实用的参数,可以使用在实际应用科学和工程。距离和相似度是重要的概念在不同的领域,包括心理学、语言学、计算机智能。
6.1。Neutrosophic总结技术使用两套Neutrosophic之间欧式距离
我们引入两个句子作为一个单值neutrosophic之间的距离。
让集和被定义在有限的宇宙 ,,让两个单值neutrosophic集 。然后,之间的距离如下:
之间的欧式距离和定义如下:
标准化欧式距离和定义如下:
例1。在这个例子中,我们解释了整个方法在一个文档,让我们有一个主题叫“计算机和数学,”,这一主题认为一个字段和一部分字段树如图1。
我们把一篇文章的领域下一篇文章标题“计算机科学,环境的影响计算和绿色计算的未来。“假设
从文档中提取的是一组句子,一组重要的单词是
{环境、影响,计算,未来,绿色计算},N是句子的一个子集
。他们选择根据关键词的集合W的发生
一定程度的“强烈发生重要的话说,一定程度的不确定性的重要单词,和一定程度的贫困发生的重要的单词,分别。下面的步骤是确定两个句子之间的欧氏距离年代1和年代2:
文件中出现的关键词如下:环境“7”影响“6”计算“6”未来“3”绿色“4”和计算”13。“单个值neutrosophic设置表中给出了N1。
7所示。结论和未来的工作
我们工作的目的是研究另一个基于neutrosophic集文本摘要方法。使用neutrosophic集的好处是,它们用作文档总结一个好的数学工具通过两个neutrosophic集之间的距离。
预期的未来为我们的论文工作文档总结的比较该方法与其他方法如模糊逻辑和模糊本体。
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突。