文摘
目前,大数据相关技术的迅速发展,大公司提供大数据分析服务。然而,大数据分析系统形成的组合方法不能相互感觉,缺乏合作,造成一定的浪费资源的大数据分析系统。为了找到数据分析系统的关键技术,开展媒体数据的深入分析,提出了一种基于人工智能(AI)的调度算法来实现任务调度和逻辑数据块迁移。通过分析实验结果,我们知道拉斯维加斯的性能(Logistic-Block亲和力调度器)提高了23.97%,16.11%,和10.56%,分别比其他三种算法。新媒体基于真实数据,分析媒体在深度数据和用户行为的内容通过大数据分析方法。与其它方法相比,本文算法模型优化热门话题提取的准确性,这对媒体数据挖掘有重要意义。此外,情感特征的分析结果,获得的受众特征、和热门话题的沟通特性的研究也有实用价值。这种方法可以提高召回率和F值5%和4.7%,分别F情感的价值判断是88.9%左右。
1。介绍
在大数据领域,许多优秀的产品测试。通过这些产品的组合,就可以形成各种各样的大数据分析系统。然而,在现有的大数据分析系统,并行处理层和数据存储层缺乏合作,不能保证任务的位置,使系统负载不平衡,最终使系统资源利用率低。在现有的大数据分析系统,并行处理层和数据存储层缺乏合作。最主要的原因是,大数据环境的背景下,有一个大的数据量扩张和碰撞系统的CPU的数据处理能力。数据处理是完整的,但大量数据被加载,从而影响当前正在处理的处理任务,从而导致不平衡的系统负载。
人工智能是研究使计算机来模拟人类的某些思维过程和智能行为(如学习、推理、思考、规划等)。主要包括计算机实现智能的原理、制造计算机类似于人类大脑情报,使计算机实现更高层次的应用。
深度数据分析系统是一个相结合的计算机,通信和控制。刘等人认为,液压系统被认为是不可或缺的支撑结构在重型机床。静压轴承的计算和分析总是费力(1]。李等人认为高压加氢换热器是一种重要的炼油设备,但它暴露了铵盐腐蚀引起的渗漏问题。因此,它是非常重要的评估加氢换热器的操作状态。为了提高评价的传统方法的操作状态加氢换热器,他们提出了一种新的方法来评估的操作状态加氢换热器基于大数据。针对噪声数据无处不在,他们提出了一个自动噪声间隔检测算法。针对问题,传感器参数有巨大的和不相关的维度,一个关键参数检测算法提出了基于皮尔逊相关系数。最后,基于一个系统的健康评分算法提出了基于PCA(主成分分析),帮助运营商领域评价换热器加氢的健康(2]。野口勇等人认为,随着2020年的临近,日本的旅游业预计将增加。在每一个可能的情况下,人们需要获得稳定的运输和通讯服务和其他社会基础设施。NTT研发解决方案来满足这些需求通过使用大数据技术。在他们的文章中,介绍了一个这样的先进、高性能大数据技术和现场试验的结果描述(福冈测试)的服务提供给游客访问日本(3]。静压轴承的计算和分析总是费力。诊断评估系统可以评估不同产品的原材料和能源消耗公司避免损失不匹配造成的原材料在生产过程和流程。
尽管有许多解决方案大数据分析系统,当前大数据分析系统也面临着许多挑战。其中一个是关于系统负载均衡的问题。大规模的大数据分析系统是由几十个甚至几百个服务器。是非常重要的提供有效的数据分析服务。
近年来,人工智能(AI)已成为经济增长的关键在欧洲和美国等发达国家和发展中国家如中国和印度(4]。神经科学和人工智能领域的有一个漫长而交织在一起的历史(5]。在[6],作者在医疗研究人工智能应用程序的当前状态,并讨论其未来。使用人工智能工具的主要疾病领域包括癌症、神经学和心脏病。在[7),作者着重于分散的事件检测、传感器节点使用人工智能、数据融合和分布式模式识别执行当地的WSN协作检测事件。在[8],作者强调最基本的5 g时代的革命性技术的特点并讨论了人工智能和候选技术之间的关系在5 g蜂窝网络。在[9),作者开发了人工智能的理论替代工作,规定四个智能方法所需服务任务:机械、分析、直观、善解人意。在[10),作者提供了实际的案例研究和资源链接AI教育者,以及具体建议如何AI伦理融入一般人工智能课程和如何教独立AI道德课程。在[11),作者引入了一个新的人工智能(AI)洪水灵敏度模型映射。结果表明,该模型优于所有这些模型,该模型可用于洪水易发地区的可持续管理12]。在[13,14),作者评估人工智能平台的使用移动设备来测量在中风患者药物依从性抗凝治疗。在[15,16),作者给出了一个应用程序的全面审查的技术在提高光学通信系统和网络的性能并审核应用程序相关的光学网络控制和管理。在[17,18),作者探讨了高等教育教学中使用人工智能的现象来预测未来高等教育的本质在一个人工智能的世界是我们大学建筑的一部分。
基于大数据深入分析系统的分析,提出了一种基于人工智能(AI)的调度算法,使用任务调度和逻辑数据块迁移实现方法并通过实验验证该算法和分析验证(19,20.]。新媒体基于真实数据,分析媒体在深度数据和用户行为的内容通过大数据分析方法。本文中的算法模型优化热门话题提取的准确性和对媒体数据挖掘具有重要的影响。此外,情感特征的分析结果,获得的受众特征、和热门话题的沟通特性的研究也有实用价值。
2。深入分析方法基于人工智能的媒体数据
2.1。理论基础深入分析大数据背景下的媒体数据
2.1.1。大数据的深入分析
大数据分析通常是一个复杂的过程,包含了一种和非结构化数据进行用户行为分析和决策支持21]。大数据几乎是无处不在。作为一种重要的资产对企业的生存是非常必要的节省大量的生产数据。但传统技术无法处理如此庞大的数据集,所以经常使用人工智能来处理这些数据。毫升的帮助下机器学习和人工智能(人工智能),复杂的分析任务完成大数据比人类想象的更快。人工智能在数据分析这样的优秀的工作能力,这是人工智能的主要原因和大数据现在分不开的。人工智能、机器学习和深度学习学习每个数据输入和使用这些输入来生成新规则为未来业务分析(22]。
2.1.2。Hadoop数据库
Hadoop数据库是用于分布式数据库具有高可靠性、高性能、和水平可伸缩性,所有依靠HDFS;HBase也可以提供数据支持多个并行处理框架,如MapReduce和火花。一个数据单元(单元)在HBase包含一个数据纪录;每个数据单元是独一无二的,是被RowKey的组合,列族,列预选赛,时间戳。行键是每行的唯一标识符的数据,列族是分工的数据属性。列修饰符代表列数据的描述。列族和列修饰词一起构成的数据列,和时间戳代表数据插入时间23]。每个单元唯一地标识单元中存储的数据通过一个键组成的行键,列族,列预选赛,时间戳和对数据执行CRUD操作(24]。
2.2。亲和力设计调度算法基于大数据深入分析系统
2.2.1。大数据分析系统模型
为了描述之间的关系的工作内容中的每个组件,每个组件大数据分析系统更清楚,本文运用数据模型来模拟整个系统。对于大数据分析系统,提出了一种离散时间模型(25]。假设整个大数据分析系统组成n虚拟机,虚拟机的设置 。系统中的数据分析任务提交到系统运行在不同的时间,然后分为多个子任务提交给不同的工作节点运行。在这里,一个工作节点指的是一组虚拟机和虚拟机 。在时间t的设置米大数据分析系统运行的任务来标示 。对于任何任务 在一组, 是用来表示p我阶段的任务。
大数据的存储模型分析系统选择HBase存储结构建模的目标。整个数据库组成k数据表, 。让 表示问我逻辑数据块组成T我表,逻辑数据块 包含物理数据块(26]。
2.2.2。JLQ算法设计(加入本地队列)
的任务JLQ加入本地队列调度算法是为执行子任务分发给相应的执行人,为了简化模型的复杂性。在JLQ模型中,假设每个工人节点配置为一个CPU;也就是说,一次只能执行一个子任务。大数据分析系统n任务执行节点,JLQ生成一组组成的n队列,问我代表我th队列的集合,对应于子任务分配给职工节点集年代我。在时间t、矢量 代表系统中所有子任务的当前状态。向量问(t发行)更新内部数据当两个子任务和子任务已经完成27]。
在这篇文章中,f我(t)代表节点的执行状态我当前的任务,如上面所示的公式。时的值f我(t)−1,这意味着节点我在空闲状态的时间吗t和可以执行的任务。如果节点我是执行任务,的价值f我(t)j表明当前节点执行的任务jth队列。
2.2.3。拉斯维加斯算法设计(Logistic-Block亲和力调度器)
拉斯维加斯(Logistic-Block亲和力调度器)调度算法是一个独立的模块在大数据分析系统(28]。的主要任务是确定节点的热点探测系统中的每个工作节点的状态,并根据测定结果,分析是否需要迁移的逻辑数据块以确保程序的局部性或减少热点的可能性。在拉斯维加斯算法集 用于表示的负载状态n在当前系统时间节点工作,h我(t)代表节点的负载状态我在时间t。的价值h我(t)如下所示。时的值h我(t)= 0,它表明,节点处于轻载状态,和的值h我(t1)代表工作节点我处于热状态(29日]。
为了清楚地代表子任务之间的关系和逻辑数据块的大数据分析系统,集 是用拉斯维加斯算法模型。在时间t,有总计米逻辑数据块的分布式存储系统。U我(t)模型表示逻辑数据块t数量我,在那里 和n代表总数的工作节点集群中,每个加数U我(t),代表逻辑数据块的数量我用于工作节点j在时间t。
2.3。深入分析模型的媒体数据基于情感判断和数据特征
数据分析模型意味着如何构造一个结构在数据分析过程中具体的实现和建立,包括数据收集,内容提取作为分析的基础,分析方法,算法,以及统计项目需要更合适。分析现在的结果数据协会或变化趋势明显乍一看,从而更清楚地显示了数据发展趋势和逻辑关联;您还可以使用该报告总结方法现在需要突出显示的数据项,如统计求和,意思是,比例,排名,最好的价值,等等,这清楚地表明协会统计,和变化的数据。他们添加颜色数据,迅速传递信息,更准确地显示之间的关系数据,突出要点。
2.3.1。模型推理
首先,隐藏变量的更新规则Ze,例如公式
象征“−我“这意味着计数变量值排除这个词的索引号我在用户语料库。符号说明主题的数量条款k从用户生成的文档de除了当前的分配。象征表明主体词的次数生成的主题k。接下来,样本隐藏变量le用户的信心指数根据以下公式:
符号表明情感词的次数年代产生的情感指数吗le=米除了当前的任务。象征显示的次数,这种情绪词的信心指数在用户文档de是米。符号表示用户文档中出现的所有单词的总数 。一系列的吉布斯抽样后,用户的值document-topic分布、用户topic-word分布,和用户topic-emotional分布可以根据获得的近似计算参数。具体计算方法见下面的三个公式:
2.3.2。情感得分的收购
模型可以用来计算每个情感词的情感价值(−1和1之间)。这个词的人气值越接近1,越有可能是一个积极的词汇;否则它更可能是一个负面词汇。根据这个模型,情绪得分为每个主题的公式所示 和的情绪得分是一个特定的词。代表情绪词得分,表示文本词得分。E代表一个主题的整体情感取向。
3所示。实验数据和评价方法
3.1。收购的媒体数据集
本文使用两个部分的数据。收集的数据主要来自媒体数据,主要用来测量附近活动的比例。还有朋友社交媒体用户的信息数据。这部分的数据将成为衡量一个数据源之间的连接目标用户和当地人民。通过使用数据的两个部分,我们可以收集我们需要的信息。媒体数据集包含以下属性:推特,推特文本、时间戳、姓名和电话号码的位置和位置的经度和纬度。对于Twitter用户,数据集包含以下属性:用户ID、用户名、用户描述,用户位置,朋友的数量,数量的tweet。数据集包含2345万条,总共有819000用户。最早的微博数据集发送7月11日,2018年,最后推特发布12月1日,2019年。因此,案例研究数据集使用的总时间间隔是505天。
表1显示了原始数据的数据源特征集和示例数据集。示例数据集包含304000条总计10000用户,和大约12%的tweet坐标。和微博的平均数量,比例协调的tweet,时间间隔在样本数据集中每个用户基本上是符合原始数据集。
3.2。深度数据分析系统的实验环境
摘要分布式环境组成的火花,HBase用作大数据分析系统用于实验。整个系统部署在阿里巴巴云ECS服务器。使用主节点与4从节点。拉斯维加斯模块放置在主节点上运行,并且没有单独的虚拟机的设置。虚拟机硬件设置如表所示2和软件版本显示在表中3在整个实验过程。
每个部分在大数据分析系统使用CentOS 6.5虚拟机的操作系统,如表所示2。物理机器的CPU模型主节点和从节点位置是相同的。五个节点都使用基于CPU和8 GB内存配置。区别在于,除了使用的40 GB硬盘系统,主节点安装额外的50 GB的硬盘,并且每个奴隶节点安装额外的200 GB硬盘环境部署和实验数据存储。实验中使用的软件环境如表所示3。整个系统采用的稳定版本结合Hadoop 2.6.0, HBase 1.0.3,和火花1.4.0大数据分析系统用于实验测试,和基本的操作环境是1.8.0 JDK版本。
3.3。评价指标数据的深度分析系统
3.3.1。评价指标的数据分布
为了比较不同算法的性能试验在相同的环境中,提出了一个重要的数据分布评价指标:分布偏差。分布偏差表示λ,价值区间[0,1],代表之间的平衡的分布数据库中的所有逻辑数据块和火花的数据分析任务。
为了计算的价值λ,我们首先需要引入三个重要的矩阵:一个,B,D。以下公式的矩阵一个表达,n代表n系统中节点工作,k代表k在HBase表。暂时的表达式C我,j,l指示是否一个逻辑数据块l在HBase属于表j和工人的节点分布我。
矩阵B表达式如下公式所示。的k矩阵的值具有相同的意义一个,米代表米系统中数据分析程序。暂时的表达式E我,j,l指示是否lth阶段的数据分析任务在系统需要访问数据表中我所示的公式。因此,每个元素b我,j在矩阵B代表了数据访问表编号之间的关系我和表编号j在系统中。更大的价值b我,j,越接近数据依赖。
矩阵D是矩阵的产物吗一个和矩阵B;参见下面的公式。矩阵D代表之间的连接集群中的数据分析程序和数据分布在每个节点上。
3.3.2。算法的评价指标
在实验中,三个选择调度算法比较实验:JSQ-MAX重量,LTF HFS中。实验分析过程中,为了更直观地完成比较算法之间的性能比较和逻辑数据块亲和力调度算法,本文使用查询执行时间(QET)作为一种重要的比较条件比较实验。QET表示程序执行延迟,也就是说,从一开始的时间发送数据请求的所有数据的采集,如以下公式所示。QET其他代表比较算法的查询时,QET拉斯维加斯代表了亲和力调度算法的查询时间。如果Imp(其他)大于0,这意味着逻辑数据块亲和力调度算法的效率高于比较算法。否则,它意味着效率低于比较算法。
4所示。结果和讨论
4.1。媒体数据查询和分析结果的比较大数据背景下的基于人工智能
以下4.4.1。简单的SQL查询
本文选择Q12作为一个比较简单的SQL查询操作的用例。12个查询描述如下:年,月,和类别的媒体数据,找出所有用户搜索指定类别的媒体数据的网站,使用这种类型的媒体数据在接下来的三个月。
12个不同的执行时间数据分布条件和不同的算法如图1。它可以看到从图的比较和分析1,在简单的SQL查询操作,比如Q12,分布偏差λ对操作有一定的影响时间和算法的执行时间。的三个比较算法,数据查询的时间变得更长时间的增加分布偏差λ,这表明原始数据的分布状态将影响这三个比较算法的执行效率。该算法的执行时间不受分布偏差的影响λ和小于三个算法的执行时间。它证明了,在一个简单的SQL查询程序,该算法的性能明显改善。
4.1.2。分布式SQL查询和分析
选择Q2作为比较的例子分布式SQL查询和分析。Q2的查询描述如下:给定一个类型的媒体数据,找到产品和媒体经常浏览在线数据和页面浏览量排名前30名,和用户会话超时设置为60分钟。
Q2的查询时间在每个算法如图2。从图可以看出2JSQ-MaxWeight算法,各种算法,一般最长执行分布式SQL查询和分析操作,有大型数据波动。HFS算法和LTF算法与分布偏差逐渐增加λ,查询时间是相似的。仍然存在的价值分布偏差的情况λ变大,算法执行时间就长了。实验结果的逻辑数据块亲和力调度算法是相对稳定的;也就是说,当分布偏差λ值为0,那么数据查询和处理时间与其他三种算法。然而,随着分布偏差λ变得更大,执行时间之前和之后的多段线相对平稳。每个数据分布的执行时间最短的四个算法。
4.1.3。数据分析通过自定义函数实现
Q1是一个典型的数据分析由一个自定义函数实现。查询关于Q1描述如下:找出100种媒体经常浏览的数据在指定的媒体数据。
Q1的执行时间在每个算法如图3。它可以看到从图的分析3期间的峰值出现在折线图的变化分布偏差λ在这三个比较算法。当分布偏差λ值为0.5到0.6,三个比较算法的程序执行时间大大延长,JSQ-MaxWeight算法的结果波动很大。四种算法,数据亲和力调度算法是相对稳定的,由数据分布影响较小,最好的改善效果。
4.2。媒体数据测试和适应性分析结果比较大数据背景下的基于人工智能
媒体数据集使用的数据格式和收集时间的表划分方案,代表所有的数据收集在5月29日,2019年。事实上,任务X1, X2, X3执行的数据集都是相同的数据分析程序,但仅用于数据分析上执行不同的日期,和数据访问是无关紧要的。媒体数据的测试结果大数据背景下的基于人工智能的图所示4分别测试结果的媒体数据集和多段线的比较结果。通过计算,拉斯维加斯算法的性能比HSF算法高出23.97%,比JSQ-MAX算法高出16.11%,10.56%高于LTF算法。从图表可以看出分析大数据分析系统的多任务执行,各种算法在一定程度上波动分布偏差λ从0到1的变化。一般来说,更大的值分布偏差λ,程序执行时间越长。当分布偏差λ是0,逻辑数据块亲和力的影响调度算法和LTF算法几乎是相同的,但随着分布偏差λ变大,逻辑数据块亲和力调度算法在执行时间小于LTF算法。算法和LTF算法比HFS JSQ-MaxWeight算法。HFS算法程序具有最长执行时间和亲和力调度算法程序的最短执行时间。调度的结果是最好的在所有算法,和大数据分析系统的性能是充分的利用。
媒体数据深入分析系统的测试结果如图所示5。通过以上分析,可以看出逻辑数据块亲和力调度算法具有良好的性能优势在大型数据分析系统中多个数据查询操作和多个应用程序共存。当分布偏差λ值为0,逻辑数据块之间的亲和力调度算法和最优算法的三个比较算法在执行时间几乎没有差别。然而,随着分布偏差的增加λ,这三个比较算法的执行时间明显增加或波动。关联的数据调度算法有一个小变化区间在单个应用程序的执行,有一定程度的增加,当多个应用程序是平行的,但相对变化不大。当分布偏差λ值为0,这意味着每个表在HBase单位表中满足负载均衡;当分布偏差λ值为1,这意味着所有表对应相同的节点上的任务。从上面的分析,可以看出,影响数据的关联数据时调度算法在最好的分布状态是没多大区别的火花HFS中默认调度算法。但它是适用于数据分布相对不均匀的情况。
4.3。深入分析结果的媒体数据大数据背景下的基于人工智能
4.3.1。情感的判断
图6比较结果的模型和基本方法。计算后,在新媒体内容的情感特征的判断,本文方法的准确率是87.7%对积极情绪的判断,负面情绪的判断,为91.1%和88.1%中性情绪的判断。情绪判断的总体准确率约为89.0%,准确率也增加了4%。积极情绪的判断召回率是88.1%,负面情绪判断的召回率是88.4%,召回率为中性情绪的判断是89.8%,总体情感判断大约是88.8%,召回率和召回率增加了5%。的F积极情绪的判断值为88.0%,F负面情绪的判断值为89.7%,F价值中立的情感判断是88.9%,和整体F情感价值判断大约是88.9%,比上年增长4.7%。测试后,我们的模型基于情感判断和数据特征比其他研究结果有更好的判断结果,提高判断的准确性,召回率,和F价值,可以满足相关要求的应用程序。
(一)
(b)
图7反映了文章的情感倾向的分配比今天的头条Yidian Toutiao平台、信息平台。从图7,我们可以看到,近34%的文章标题的信息平台显示的负面情绪,表现中性的情绪几乎46%,近20%显示积极的情绪。今天的Toutiao平台的文章标题有32%的负面情绪,44%中性情绪,24%的积极的情感。它可以从这个,虽然今天的标题条的情绪跨度Toutiao平台很大,情绪分布更分散。但总的来说,今天的头条新闻的标题更积极。
4.3.2。数据的特点
图8反映了丰富的计算结果,每个新媒体平台的内容。我们安排两个平台上的计算结果的文章在降序排列,使用本文序列号作为水平轴和内容丰富性作为纵轴的价值。当内容丰富计算结果大于1,内容丰富是高于平均水平;当内容丰富计算结果小于1,内容丰富比平均水平低。从图可以看出8今天的头条新闻的内容丰富性和小信息平台的文章符合平均分布。大约37%的文章内容属于相对丰富的内容,剩下的63%的文章内容属于相对丰富的内容。同时,比较两条曲线的分布在图中,我们可以发现当今Toutiao平台的内容丰富的文章将略高于一点信息。
图9反映了用户参与计算的结果为每个新媒体平台的内容。我们安排了两个平台的用户参与的计算结果在降序排列,使用本文序列号作为水平轴和用户参与作为纵轴的价值。当用户参与计算结果大于1,内容的用户参与程度高于平均水平;当用户参与计算结果小于1,用户参与程度的内容都是低于平均水平。
我们可以看到从图9用户参与今天的头条新闻和信息平台的文章符合长尾分布。大约20%的文章的内容属于用户参与度高的内容,他们往往能吸引80%的用户评论和用户交互。其余80%的文章的内容属于内容较低的用户参与,他们倾向于把剩余20%的评论数量和交互水平。这种分析的结论是符合法律的实践。更受欢迎评论和互动的文章会吸引更多的人来评论互动,话题很容易发酵。同时,比较两条曲线的分布在图中,我们可以发现Toutiao平台的用户参与今天是接近的信息平台。
5。结论
基于大数据深入分析系统的分析,提出了一种基于人工智能(AI)的调度算法,使用任务调度和逻辑数据块迁移实现方法并通过实验验证该算法和分析验证。进行多组实验在现有的大数据集实验结果进行了分析。拉斯维加斯算法的性能比HSF算法高出23.97%,比JSQ-MAX算法高出16.11%,10.56%高于LTF算法。获得调度算法来提高程序的执行时间在单一任务执行多任务并行化,分别找到适用的场景调度算法的分析结果在多个程序的操作。
新媒体基于真实数据,分析媒体在深度数据和用户行为的内容通过大数据分析方法。相比之下,情绪分析基于字典的基本情绪,分析精度优化。与其它方法相比,本文算法模型优化热门话题提取的准确性,这对媒体数据挖掘有重要意义。此外,情感特征的分析结果,获得的受众特征、和热门话题的沟通特性的研究也有实用价值。这种方法可以提高召回率和F值5%和4.7%,分别F情感的价值判断是88.9%左右。
数据可用性
没有数据被用来支持本研究。
的利益冲突
本文作者指出,没有利益冲突。
确认
作者没有得到金融支持研究,本文的作者,和/或出版。