文摘
为了获得普通足球比赛的现场信息更全面,算法收集现场信息的普通足球比赛提出了基于web文档。常用T-graph网络爬虫模型是用于收集样本节点特定主题的足球比赛现场信息,然后收集足球比赛现场信息的边缘文档信息主题网络爬虫的爬行阶段后。使用特征项提取算法的语义分析,根据项目的相似特性,足球比赛现场信息的特征项提取web文档。通过构建一个复杂的网络,介绍当地的贡献和重叠社区发现系数特征选择算法,选择web文档的特性实现足球比赛现场信息的收集。实验结果表明,该算法具有较高的主题收集功能和较低的计算成本,平衡总是约98%的平均精度,而且具有较强的量化为web爬虫和社区功能。
1。介绍
与足球和现代科学技术的不断发展,体育科学和技术人员进行了一些统计数据,分析和评价在体育。现场信息收集的主要任务一般足球比赛是收集来自各种渠道的信息。由于不同的研究内容和目的,在足球比赛现场信息有明显的差异(1]。需要专业人员的实时足球比赛和实时信息需要足球的现场信息采集算法普遍,操作方便,实时。然而,作为一个科学的理解和使用信息,信息科学发展提供一种新的思维方式和方法在足球比赛现场信息收集。与此同时,智能计算研究旨在把情报,推理,感知、信息收集和分析计算机系统(2- - - - - -4]。它提供了一种新的思维方式对足球比赛现场信息收集。信息方法是一种研究方法,以实现其目的通过收购、传输、加工、处理信息的5]。
随着互联网的快速发展,网络正深刻地改变我们的生活。万维网(World Wide Web),在互联网上最迅速发展的技术,已逐渐成为最重要的信息发布和传播方式在互联网上以其直观、使用方便和丰富的表达能力(6]。随着信息时代的发展,信息在网络上迅速增长。截至2015年1月,网页在互联网上的数量已经超过21亿。互联网用户的数量已经超过3亿,web页面的数量仍然是每天增加700万。这为人们的生活提供了丰富的资源。然而,网络信息的迅速扩张,同时提供丰富的足球比赛信息,使人们面临着巨大的挑战在有效使用7]。一方面,在线足球比赛信息是丰富多彩的,但另一方面用户无法找到他们需要的足球比赛信息。因此,收集、发布及相关信息处理基于WWW的网上信息越来越成为焦点。作为web信息收集中发挥着重要的作用,除了深化应用和技术的发展,越来越多的应用于各种各样的服务和研究,如网站结构分析,页面有效性分析,网络进化图,内容安全检测、用户兴趣挖掘和个性化的信息采集。简而言之,网络信息收集的过程是指自动从网上获取页面信息通过网页之间的链接关系和不断扩大到所需的web页面的链接(8]。
传统的web信息收集的目标是收集尽可能多的信息页,甚至整个网络上的资源。这个过程并不在意的顺序收集和收集的相关主题页面。这种方法的优点之一是,它可以专注于收购的速度和数量,并实现起来相对简单。例如,一个自适应跟踪算法对竞争移动物体是由马和Yu(设计9]。运动目标跟踪是计算机视觉领域的核心技术。软件和硬件的实现具有重要意义,促进视频和图像处理。以足球比赛为例,针对许多实时和移动目标的高精度跟踪任务,该算法只能提取实时游戏信息。不过,它不能从web页面收集相关信息,这在实际应用是片面的。一个轻量级模型检索算法Web3D周提出的基于SVM的学习框架和贾10]。该算法是基于草图检索模型。轻量级的算法处理的3 d模型和选择最佳的3 d模型的角度提出了基于支持向量机。近年来提出了一些基于深度学习的方法(11,12];他们使用一个端到端解决对象跟踪和人群计数问题。文献[11)提出了一种高分辨率网络视觉识别问题。优越的结果在一个广泛的视觉识别问题表明,提出的模型(11视觉识别)是一个强大的支柱。穷人的支持向量机导致信息采集的准确性较低,不能满足信息收集需要在实际的足球比赛。目前,国外普遍使用谷歌收集系统收集关于足球比赛的信息。这种传统收集方法也有许多缺陷。传统的基于整个网络信息收集需要收集很多页面,需要消耗大量的系统资源和网络资源,以及这些资源的消费不会导致更高的利用率收集页面。
要有效地提高其利用效率,我们需要找到一种新的方式来开发一个场景信息的收集算法一般足球游戏基于web文档,突破原有的传统模式,设计一个更有效的现场信息收集算法的足球比赛。现场信息收集算法的足球比赛提出了基于web文档获取现场信息一般足球比赛更全面。通过一个复杂的网络建设,引进当地贡献和重叠社区发现系数特征选择算法,选择web文档特性实现现场信息的收集在足球比赛。优越的结果在一个广泛的视觉识别问题表明,我们提出了视觉识别模型是一个强大的支柱。
本文的其余部分组织如下。我们提出了系统的框架和技术细节描述的部分2。节3现在,我们广泛的实验结果说明了模型的有效性。最后,我们结束我们的工作4。
2。一个信息集合的算法一般基于Web文档的足球比赛
2.1。网络爬虫基于T-Graph建设
2.1.1。构建T-Graph Web爬虫模型
采样节点的特定主题在足球比赛现场信息收集,与水平。层目标页面的位置是零层,该层连接第一层目标页面,等等。重复这个过程,直到建立了相当数量的节点。最高水平的节点可以直接链接到目标页面的最低水平。同级节点之间没有联系。至少有一个链接的任何级别节点指向其级别较低的节点上。T-graph中有一些特殊的节点,所以找不到目标页面通过计算相似度。后指向路径找不到目标页面。这样一个节点被称为死亡节点,因此它需要避免在构建T-graph死亡节点。T-graph的性能测试与一个已知的文档。 If the expected standard is not met, the model needs to be built repeatedly. A schematic diagram of T-graph structure is shown in Figure1。
2.1.2。网络爬虫的爬行阶段
图2显示了基于T-graph爬虫算法的过程。爬虫抓取网页的事件序列基于T-graph如下:(1)爬虫从爬行队列选择优先级高的链接并发送请求下载相应的web页面到web网络。(2)爬虫获取相应的足球赛从web网页的信息。(3)爬虫抓取网页存储在响应队列。(4)从响应队列中提取的链接和T-graph计算节点的相似性。(5)如果web页面中的链接的节点匹配T-graph, web页面将下载到的仓库存储。(6)提取网页中的链接并把它们放在爬行队列根据优先顺序。(7)履带选择优先级高的链接爬行抓取队列的优先级。
响应队列存储网页爬虫爬的HTTP响应。如果捕获的网页不能下载由于网络中断或旧链接,系统仍然保持当前的HTTP响应的细节和执行相似度计算9,10]。如果没有匹配的节点在T-graph链接的网页,网页中的链接仍然是放入队列,爬行,但链接给出一个较低的优先级。在某种程度上,这种方法可以避免丢弃前驱节点都与足球比赛话题但与目标页面的信息,提高了回忆。
2.1.3。主题集合的边缘在足球比赛现场文件信息
摘要ICTCLAS3.0分词系统用于足球比赛的现场信息文档划分为关键词。因为每个字都有一个或多个概念,每个关键词对应于一个或多个场景的信息在足球比赛和对应于一个或多个点的二维坐标(13]。图3节目主题边缘提取的原理图。
图中圆圈点对应的关键词锚文档,和三角点对应于其他文档的关键字。这种现象被称为星系(14]。银河系中关键字对应的点被称为主题边缘候选人文件链接。
2.1.4。信息基于词义相似度计算分析
考虑到重量的文件在不同的位置,使用基于语义分析的特征提取算法提取特征。1 SH的相似性,SH, MH,直流计算和记录 , , ,和 ,分别给出了不同的位置权重根据他们的位置在web页面。候选链接(CL)的相似度计算公式如下: 在哪里 , , ,和可用于计划的相关权重文档在不同的位置,然后呢 。通过增加一定的重量,在相应位置文件的重要性可以增加(15),从而影响要抓取的页面数量。1的四个属性SH、SH、MH,和DC可以区分主题,集 ,这意味着给同样重量的主要标题,节标题、副标题和数据组件。T-graph节点的四个属性都是由文档。文档分割和特征项提取TD-IDF算法和映射到VSM(向量空间模型)。文档向量形成P。抓取网页是分解结构,候选人的四个属性提取链接。相同的步骤后,文档向量T就形成了。P和的相似度计算公式T如下:
上面的公式是一个机械匹配的文档关键字,它有一定的语义偏差和影响相似度的准确性。在此基础上,利用维基百科的相关知识,介绍了关键字语义计算和义素计算语义相似度的候选人从语义级别的关键词链接。概念可以分解为有限的词和词语的操作可以转化成词的操作16]。假设文档P特征项,表示为 - - - - - -维向量。通过计算特征项的重量W,特殊效果的向量表示的文档转换成向量表示义素,和每个特征项的权重给自己的义位,代表年代。添加相同的重量义素集之后,义素的相似性计算通过计算项目的相似性特征。计算公式如下:
其中,W代表一个多维矢量值,K代表一个重量值。
2.2。文档分类方法基于社区发现算法
在中国现场信息的分类文档在足球比赛中,词往往被视为最小的语言单位,和中国在足球比赛现场信息条目的数量非常大,这使得各种分类算法的特征空间的维数很高。因此,根据复杂网络的定义,系统中的每个元素都被视为一个节点,而每个元素之间的关系表示为优势,也就是说,一个链接,形成一个复杂的关系网络。这个想法利用复杂网络的小世界特征提取关键特征项为文档特征选择提供了一个新的想法。通过复杂网络社区结构的讨论,一方面,我们可以更好地理解和解释社会网络。另一方面,我们可以应用复杂网络社区结构理论的具体集合在足球比赛现场信息,有助于更好地设计实际的网络功能(13]。这个概念的基础上,提出了一个以社区为基础的文档特征选择算法。社区的过程中发现相同的类别,重点的文档提取是提取足球比赛场景的信息和培训能力强的人来区分类别的文档集。
2.2.1。社区发现算法和复杂的网络建设
由于社区发现算法的不确定性和面对大量的节点,没有必要进行非常严格的部门。本文使用基于中间性的社区发现算法,即GN算法,部分社区通过消除边缘最高的中间状态。算法如下:(1)计算网络中所有的边介数(2)删除边最高的中间状态(3)重新计算所有边缘中间性的中间状态(4)重复(2),直到所有的边都被删除了
GN算法需要在每一个计算,分析整个网络和社区因为没有定量的定义,很难把社区。因此,为了提高社会的效率发现,社区部门定义如下:
复杂网络的模块化程度是衡量(4),是连接边缘社区的比例和在边缘的总数,边的比例下降的区别是在这样的社区和期望值相同数量的边缘是随机联系。它是用来测量复杂网络的模块化。基于模块化的快速算法的主要思想如下:假设初始状态的节点形式社区。在上面的公式中,计算如下:
使用贪婪算法,节点属于同样的社区的不断融合与社区相连价值增长或减少最快最慢(17]。Radicchi等人2003年改进GN算法,提出了一个方法来量化社区的定义。让表示整个网络是邻接矩阵;节点的计算公式度如下:
考虑到子图 ,对于任何 ,总节点度可以分为两个部分。公式如下: 的内部变量在哪里与节点是由和外部变量的与节点是由 。计算公式如下:
因此,强大的社区和弱社区的定义。
定义1。子图满足强大的社区的定义。当且仅当 ,这表明社区内的边缘连接的节点数量大于边缘连接的节点以外的社区。
定义2。子图满足弱势社区的定义。当且仅当 ,这意味着连接边数的和社区中的所有节点和节点之间在社区大于数量之和之外的所有节点和节点之间的连接边缘社区。(1)选择一个方式来定义一个定量的社区。(2)计算所有边缘的中间状态和删除最大边缘的中间状态。(3)消除边缘后,如果网络不是分成两部分,重复(2)。(4)如果删除网络可分为边缘,判断至少有两个子网会议定量的定义社区选择在步骤(1)。如果是这样,在图上标记相应的部分。(5)返回到步骤(2);所有子网继续执行,直到没有在网络边缘。通过不断消除边缘构造社区和量化社区,社区划分更为合理。
2.2.2。足球比赛现场信息的特征选择算法
对GN算法,当节点的数目超过数千人,计算复杂度会变得非常高,没有定量的定义社区。如果我们直接使用同一类别的合计项目快速算法,精度难以保证。因此,基于考虑时间复杂度和精度,介绍了当地的贡献和重叠系数的概念,即基于社区发现的特征选择算法。首先,根据社区的定义,定义的值是不同的。公式如下:
它代表了不同边的数量一个节点之间的连接和社区的内部节点和边的数量通过外部连接节点的社区。算法的主要思想可以描述如下:在每个类别的初始预先分级,社区功能节点在复杂网络,满足每个类别选择社区的定义(18]。具体的算法如下:(1)复杂网络图构造了基于训练文本集。(2)初始化社区:集合中的元素 由专家是预定义的,每个社区代表一个类别。社区是由一小部分功能节点(一般10 - 20,20在这一节中)的每个类别区分分类能力强。每个功能节点,除了功能节点在预定义的社区,构成社区网络中设置。一组表达式如下: (3)为每个社区在一组 ,的的值和分别计算,值按降序排列。前10和合并成一个社区。如果第一个10有值小于0,和大于0的合并,合并后的节点从组中删除 ,和新添加的节点在每个预定义的社区被记录。(5)几个步骤之后,新节点添加到每个预定义的社区检查根据强大的社区的定义,不符合条件的节点删除。节点删除第一次不是永久删除但是很使用的下一个社区。如果相同的节点被删除,第二次节点永久删除。(6)返回到步骤(3);节点的数量在每一个预定义的社会应该满足的数量特征选择,或节点的小于或等于0,可以加入一个预定义的社区。
在这项实验中,发现有一个分区的重叠现象边缘和中间点。因此,算法如下:
改进(1):根据当地的贡献程度,程度(中央节点)是最大的节点作为初始社区,然后邻居点(前邻居分分化较强)的最大贡献社区依次添加。当贡献程度达到极值,可以形成一个社区。如果有多个边界节点与大贡献,他们被添加到多个社区共享。提取后的社区,社区的节点和边不从网络中删除促进边缘的矿业介质(19]。
改善(2):通过限制重叠系数,如果重叠系数和在任何两个社区大于阈值T合并后的社区成为一个整体(T摘要作为0.7)。此时,当地的贡献计算公式如下: 在(11),代表在社区内链接的数量,代表社区外链接的数量,就越大值越大,对社会的贡献。全球的贡献程度代表当前最大的贡献程度在采矿过程中,初始化为0,用于判断当前社区已经达到最佳状态20.]。重叠系数计算如下: 在上面的公式中,分子代表社区的共同节点的数量和 ,分母表示所有节点的数量和 ,和相邻的点的集合被标记为。的实现基础场景信息的特征选择算法在足球比赛中复杂的语义网络图,基于社区发现算法的阈值是0.7。划分社区时,阈值大于0.7时,两个重叠社区合并。算法的具体流程如图4。
3所示。实验分析
我们选择现场信息一般在2015 - 2019年足球比赛作为测试的主题,收集50信息主题网站的足球比赛,并增加了100个不相关的网站形式测试集,其中包含超过80000页。测量指数是利用综合评估算法的主题收集效率。本文使用一个GPU进行实验(GeForce GTX 1050 Ti)和英特尔酷睿i7 16 GB的RAM系统。我们增加了硬件活性化在修订后的手稿。
采集的准确性是定义如下:主题相关的页面收集页面的数量/收集所有页面的数量。
资源发现率定义如下:收集相关主题页面的页面数/所有主题相关的页面数量。
我们使用同一组足球比赛现场信息收集数据。有效地得到准确的效果的方法,我们暂停了页面和主题相关性测定模块的实验。在实验中,页面的数量和状态,当采集页面的数量是1000,2000,3000,……,10000, respectively, are recorded, and the collection accuracy and resource discovery rate are calculated in time. When calculating the collection accuracy and resource discovery rate, we must know how many pages are related to the topic. Although the accuracy of this method is not as accurate as that of the manual method, the automatic determination of the machine saves a lot of time. In this paper, the algorithms in [9- - - - - -11)是用来测试采集精度和资源发现率。结果如表所示1。该算法在9)代表竞争移动对象的自适应跟踪算法,提出了一种新的基于特征融合的自适应目标跟踪算法和粒子滤波。该算法基于图像处理单元的硬件平台设计。该算法在10]研究相关技术基于草图的三维模型检索的轻量级的处理算法,提出了3 d模型和最优的观点选择算法的基于支持向量机的三维模型。文献[11)提出了一种高分辨率网络视觉识别问题。优越的结果在一个广泛的视觉识别问题表明,提出的模型(11视觉识别)是一个强大的支柱。
分析表1表明,随着数据量的增加,三种算法的资源获取的准确性和资源发现率也降低。资源获取的衰落文本算法的准确性和资源发现率较低的算法(9)和算法(10]。当数据量是10000,资源获取本文算法的精度高于7.7%和10.41%的算法(9)和算法(10),分别。相比之下,本文算法的资源发现率为15.52%,高于19.13%的算法(9)和算法(10分别),平均资源采集的准确性和资源本文算法的发现率分别为97.46%和97.68%,分别。算法的平均资源获取的准确性和资源发现率(9)分别为94.11%和83.93%,分别。算法的平均资源获取的准确性和资源发现率(10)分别为91.44%和83.98%,分别。综合比较表明,本文算法具有很高的能力收集话题。
算法的成本和采集精度的三个算法进行比较,结果如表所示2。
定性比较表2显示以下:至于成本,本文算法的成本是最小的,相当于不做任何相似性计算和比较。然而,该算法在9]和[10)只在每个链接,因为比较扩展元数据扩展元数据的信息量是最小的,,时间和空间成本最小。不过,比这更复杂的算法。的算法(9)和算法(10),当发现重要页面的特点,首先关键页面收集,收集精度在一定程度上增加。当页面的质量不是太高,采集精度降低。因此,本文算法有一个小的计算成本和低影响精度。
意味着平均精度(地图)是用来衡量算法的性能。某些类别的平均精度(美联社)是精度不同的回忆测试点的总和除以回忆测试点的数量。对整个数据集,地图是APs的总和除以所有分类的类别。爬虫可以识别足球比赛的相对优先链接网站信息在测试并可以获得相应的网站信息从web网页的足球比赛。如果识别误差小于0.3年代,认为认识是正确的。8000年美联社计算的过程中,信息的网页足球比赛作为测试点计算召回率和精度,进一步计算平衡精度平均图,计算帧率的三种算法。计算结果如图所示5。
(一)
(b)
它可以看到从图的分析5(一个),随着网页数量的增加,地图上的三个算法提出了一种下行趋势。本文算法的映射略有减少,地图是始终保持在98%左右。相比之下,映射的算法(9]和[10)大大降低。当web页面的数目是8000,这两个算法的映射是63%和69%,分别,这是完全不同于本文的算法。它可以看到从图的分析5 (b)计算网页的过程中,帧速率波动的数量在一定程度上。帧率的数量计算的算法在本文中总是很高,仍是35到40之间。相比之下,算法(9]和[10波动很大,帧速率计算跨度很大的数量范围。综合分析的图5表明,本文算法具有较高的平均精度和计算速度快。
web爬行能力的三个算法测试。web爬行条件设置如下:一个web页面的更新周期是10分钟/次,5次每三小时,连续爬行10个小时。每爬在足球比赛只保留了有效的场景信息。如果拍摄现场足球比赛中的信息已经保存在仓库,web页面将被丢弃。三种算法的结果如图所示6。
如图6,本文算法在爬行大约58000在第一次爬行周期的web页面,因为在这个阶段,web页面是第一次爬,所以大部分web页面被保留。爬行的第二峰值发生3小时后(因为爬行的时间间隔3个小时),和大约15000个网页是捡起。之后,web页面的数量每天爬往往是平的。一个爬行周期后,访问页面可以基本上认可与关注捕捉数据和相关链接。同时,算法的峰值(9]和[10不明显,web页面的数量很小。因此,本文算法有很强的能力来捕获web页面。
在测试中,丢失的数据包的数量发送数据组的数量丢包率。丢包率密切相关的数据包长度和包传输频率。这三种算法的计算结果如图所示7。
对图的分析7表明,随着网页数量的增加,三种算法的丢包率也逐渐增加。当web页面的数量是8000,本文算法的丢包率仅为3%,低于3%和5%的算法(9]和[10),分别与被相对较大的差异。
足球比赛中的8000页的场景信息分为8个社区。三个算法用于计算中间状态,和他们的社区量化能力测试。结果如图所示8。
它可以看到从图的分析8,虽然边介数的计算波动与社区的数量的增加,边缘中间性的价值计算的算法在本文中是最大的。边介数计算的算法(9)类似于计算的算法在本文社区的数量是2。然而,随着社区的数量的增加,边缘计算中间状态的算法(10)大大降低。计算边缘中间性总是低,因此本文算法有很强的社区量化能力。
的数据收集能力测试三种计算方法。每小时5次,执行数据收集和现场信息收集的足球比赛的三个算法在连续12期。结果如表所示3。
据的分析表3,在足球比赛现场信息收集的摘要算法是48682,这是高于算法(9]、[10),(11),分别。当收集周期是3、5、8、10,移动目标自适应跟踪算法提出了(9)有更好的收集号码,因为该算法具有良好的自适应能力,它只是一段时间。然而,收藏的数量在整个12个周期,本文的方法具有显著的优势。可以看出,本文算法具有较强的信息收集能力。
4所示。结论
网络服务类型和质量持续改进的要求,出现了新的数据收集的想法。出于这个原因,我们建议一个信息收集算法对于一般基于web文档的足球比赛。web文档的介绍目标信息预测和收集有助于实现个性化的智能服务。个性化主动信息收集服务已成为一个热点,人们越来越多的关注,这是一个收集服务未来的发展趋势。的持续改进其功能、精度和情报,个性化的预测集合模式基于用户将发挥更重要的作用,更好地满足用户的需求。基于T-graph主题爬虫策略,通过分析候选人的边缘文本主题链接,预测和主题之间的相关性联系,全面考虑了页面内容和链接分析和改善质量的主题爬行。实验结果表明,该方法比实际应用的基线。一般来说,算法是成功和满足预期要求现场信息收集的足球比赛。然而,这仍然是一个缺乏合理的理论分析方法。在未来的工作中,我们将讨论分析的模型和方法以理论的方式(21- - - - - -25]。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
作者感谢国家社会科学提供的赠款。