文摘

基于云计算和统计理论,提出了一种合理的分析方法对大数据的电影和电视。方法选择开源云平台为基础,结合了MapReduce分布式编程模型和HDFS分布式文件存储系统和其他云计算关键技术。为了应对不同的数据处理需求的电影和电视产业,关联分析、聚类分析,因子分析,K意味着+关联分析算法训练模型被应用到模型、过程,分析电影和电视剧的全部数据。根据电影类型、生产者、生产地区,投资,票房,收视率,网络得分,观众组织,和其他因素,电影和电视近年来的数据进行了分析和研究。基于研究的每个属性的影响电影票房的电影和电视剧和电视收视率,它致力于影视行业的预测,不断验证和改进算法模型。

1。介绍

新时期以来,互联网产业的快速发展对传统媒体带来了巨大的影响,打破了大众媒体沟通渠道的垄断地位。各种媒体技术如微博的兴起,社交网络和移动应用程序打开了量化和交互式电子传导渠道属于公众。近年来,新兴媒体逐渐突破“传统媒体”的限制使电影和电视产业开始关注互联网元素对收视率的影响。大数据为电影和电视关注网络信息平台,指质量数据信息生成创建,传输和接受的影视作品,以及系统的存储、处理和显示这些信息的1- - - - - -4]。与传统产业相比,大数据的挖掘基于互联网的电影和电视有以下特点:第一,有很多类型和大量的数据;第二,有短的及时性;第三,技术正在迅速3]。然而,传统的大数据处理方法和功能在电影和电视不再能满足需求。因此,它是非常需要建立一个有效的大数据智能分析平台的电影和电视。聚类分析是一个过程类似或相同分类的对象为多个类别,正如谚语说,“对象”收集类似的数据集进行分类。因此,K——在本文算法中使用的聚类分析算法的相似性分析高分电影在不同的电影类型。聚合成一系列的样品k不同类别(k是模型的类别的数量),其实际的目标。函数是类之间的差异的总和。的目的K聚类则是减少方差和初始的类。K类中心类的中心点。通过反复迭代,得到满足的需求模型,迭代的终止条件是获得最大迭代次数和收敛值。

本文主要讨论了一套大数据的智能分析系统基于Hadoop的电影和电视。系统评级数据集电视连续剧,电影票房数据,电视节目编辑和广播序列数据,和其他基本信息。通过数据挖掘算法和大数据分析方法,它能够提供详细的数据参考电视台或电影和电视的投资者。系统是基于Hadoop及其分布的想法可以实现大规模的计算和存储数据。Hadoop的HDFS, MapReduce, HBase蜂巢,动物园管理员,其中最基本的和重要的元素是MapReduce引擎,这是底层文件系统HDFS (Hadoop分布式文件系统)用于存储文件中的所有存储节点集群执行MapReduce程序。与其他计算平台相比,Hadoop具有效率高的特点,高可靠性、高可伸缩性和高容错(4- - - - - -6]。大规模数据的分布式计算构建一个分布式机器学习计算图基于大数据平台通过重建底层基本代码(2,3]。存储计算系统具有高可靠性、高并发性和高可伸缩性可以通过底层序列化实现极其高效的查询模式和压缩格式,可以实现大规模机器学习算法在大数据环境。

本文的其余部分组织如下:相关章节中讨论工作2。节3电影和电视,大数据分析系统。节4基于影视大数据集合,进行实验设计和分析。部分5总结了整个论文。

在互联网时代,大数据的出现提供了新的动力影视行业的发展。近年来,大量的研究(6- - - - - -8成就了其数据分析方法。2013年被称为“大数据”年的影视行业,和谷歌表示,其数据模型可以预测好莱坞电影的首映周末票房提前一个月有94%的准确度(9]。同年,Netflix,流媒体的主要网站在北美,成为全球打击白手起家的戏剧的卡片。戏剧是由Netflix基于庞大的数据库基于观众的选择3000万用户,400万条评论,300万年主题搜索,大量的版权,以及准确的分析用户的使用数据的网站功能。

两个的成功让人们意识到网络技术可以参与影视艺术的产生在某种程度上,因此引发的繁荣大数据的应用在电影和电视。在这种趋势下,中国的电影和电视行业也开始探索新的工业建筑模型由于大数据的应用。然而,大数据研究电影和电视在中国仍处于探索阶段。根据现有的研究[10,11),电影和电视大数据应用程序侧重于电影和电视制作,传输和接收;主要集中在应用程序的一个特定阶段或大数据的具体实例。大数据的应用系统在整个影视产业尚未形成,也未能形成理论研究的指导意义。

Mutlu [9]提出的大数据应用施工方法基于扎根理论的电影和电视之间的互动关系模型,建立了电影和电视产业和影视大数据。NVIVO11-plus被用来分析电影和电视的核心范畴之间的相关性大数据应用和节点的概念范畴,和重量值影响的影视大数据的概念范畴。冈瑟et al。12)提出了一个协同推荐算法基于深度学习的电影和电视节目。与传统的算法相比,不使用卷积神经网络处理信息,该模型取得了更好的结果在改善评分数据的预测能力和准确性。阴et al。13)研究,结合影视系统的协同过滤算法实现耦合对象的相似性进一步提高个性化推荐的准确性和解决冷启动和稀疏等问题。然而,他们中的大多数人关注大数据的应用程序的特定链接影视行业或特定案例的分析,没有形成一个系统的了解应用程序的整个影视行业的大数据和理论研究与指导意义14]。

3所示。聪明的电影和电视信息分析平台

3.1。制度建设

大数据分析系统为电影和电视大数据的智能分析系统是一套基于Hadoop的电影和电视。Hadoop已经成为最受欢迎的大数据基础设施目前软件程序,它是一个开源,可以分发文件系统和运行时处理基础设施运行在大型集群擅长建立在廉价的机器。大量的数据(结构化和非结构化)存储和离线在集群上进行处理。它有点大规模使用。并行计算编程模型的数据集可以方便程序员分布式系统上运行各种各样的程序。然而,在语言,通常是一个词或短语表示有多个概念和语义消歧的文本,利用自然语言处理技术来确定实际的概念和语义的词或短语自动抓取web程序的资源;它访问互联网网页和相关资源。及其技术框架如图1

它运行如下。首先,数据是通过Python和从各种网站获得存储在MongoDB,然后数据预处理。基本的数据库的数据来自互联网或手动导入。数据包括导演、戏剧、广告、生产商和其他基本数据。数据管理平台进行数据清理,数据结构转换,并通过ETL处理的基本数据和其他批处理技术,最后形成了详细的数据模型处理,即以文件的形式存储在HDFS分布式文件系统。使用Hadoop生态组件完成的计算和存储数据。使用猪组件实现SQL数据处理,然后使用Mahout MLLib图书馆学习学习模型数据和沉淀;完整的计算和处理业务数据通过火花和MapReduce;将计算数据结果到列数据仓库数据库HBase和蜂巢。Hadoop的混合架构+ MPP数据采用和Hadoop中指定的数据集可以实时获得MongoDB-Hadoop连接器插件。 Finally, the data analysis platform based on Hadoop framework and reporting tools analyzes the relevance and attributes of the data and transforms them into a multidimensional visual data display.

具体的过程如图2

3.2。数据预处理

使用Python Web获得视频数据和用户数据包括标题、发布日期、类型、生产现场,导演,演员,投资市场,著名小说,制片人、电影类型、票房,人气,和网络评级,共有387300个数据。通常,在网络上的数据量是巨大的,和有太多的数据源。很容易产生很多不可靠的数据。低质量的数据将导致数据的不可靠性分析,并与实际数据有很大的差距。此外,因为来自不同数据源的数据通常有不同的维度和维度单位,这将影响到影视的处理数据。因此,有必要分析数据和收集的数据预处理。数据预处理包括数据清理、数据重复删除、数据集成和数据标准化。在特定的数据预处理,它需要根据实际情况不断调整,占用了60%的时间在整个数据分析。

具体的处理流程如下:(1)使用均值和方差来消除异常数据;例如,明显的分数过高或过低的数据消除重复数据。 在哪里Z代表收集到的数据值;O是无量纲值。(2)数据标准化,以消除不同的空间差异特征评价指标,和最大和最小标准化方法用于各种特性的范围限制在[0,1]。 在哪里年代代表收集到的数据值;D代表了规范化的价值。(3)预处理的数据存储在HDFS。

3.3。数据处理策略
3.3.1。关联分析算法

协会分析指的是对象之间的各种联系和因果结构查询和项目集在数据事务和相关数据和一些信息15]。算法步骤如下:(1)确定分析的序列。(2)Nondimensionalize变量。(3)计算相关系数。 在哪里l分辨率系数,其值之间的间隔(0,1)。当分辨率系数η≤0.5463,该决议是最好的,l通常是0.5 [16]。(4)计算关联度。 (5)等级的关联度。

3.3.2。聚类分析算法

聚类分析是一种统计对象的分类分析和多元统计方法(17]。分类应根据样品的特点,使个人同一类别的同质性,而类别之间的异质性以便应尽可能高的宏观分布的发现看似不规则的数据集和属性数据属性之间的关系。

在这篇文章中,K算法的聚类分析算法则是用来分析电影和电视中存在的相似性数据。算法流程图如图3。的目的K聚类则是在所有类方差之和最小化。K类中心初始化类的中心点。通过反复迭代,模型可以满足要求。

3.3.3。因子分析算法

因子分析的基本目的就是用几个因素来描述许多指标或因素之间的关系(18- - - - - -21]。基于变量的依赖,因子分析采用多元统计分析方法把一些变量与复杂关系分成几个综合因素。主要步骤如下:分析和确认原始变量的可行性因素分析;构造因子变量;为了确保因素变量的可解释性,旋转方法是一种常见的方法。最后一步是计算分数。计算过程如下:原始数据标准化;数据的相关系数矩阵计算。相关矩阵的特征值和特征向量计算。计算方差的贡献率和累积方差矩阵。(1)计算的因素。如果F1,F2,《外交政策》P因素:如果因素超过总数的80%数据信息,第一个因素可以确定和用于反映最初的评价指标。(2)旋转因子。由原始指标的线性组合,每个因素的分数计算。巴特利特和汤姆森估计方法被用来计算每个因子的得分。(3)综合得分。综合得分,重量是每个因子的方差贡献率,函数是评价指标的线性组合得到的这些因素。

其中,WI主要指因子的方差贡献率。

4所示。实验设计和结果分析

4.1。影视协会分析数据

作为电影的关键指标评价、电影票房和网络评级并不是独立的行为,需要建立的基础上,比较和分析大量的数据。本文以电影标题、类型、生产地区,投资,票房,著名的小说,漫画改编,网络等级、类型的电影观众,持续时间、流行,和其他关键字,进行相关分析处理数据,分析哪些因素是主要影响电影票房和网络的评级。关联分析是寻求法律相关事务之间的大规模数据集,和导演和演员有无数的关系在电影和电视作品。因此,协会算法应用于电影票房之间的关系,分析网络评分和标题、类型、生产区域、导演和演员。

关系分析算法模型是建立在Python之间的关系来分析电影的票房和其他因素。

票房和网络评级是电影评价的关键指标。本文以电影标题、类型、生产地区,投资,票房,著名的小说,漫画改编,网络等级、类型的电影观众,持续时间、流行,等是关键字,进行关联算法分析处理数据,以便分析主要影响电影票房的因素和网络评级。图4(一)展示了各种因素的影响在电影的票房和分数。可以看出,电影的影响类型和演员在电影的票房和分数是31.1%和32.8%,分别;也就是说,电影的票房和分数主要是受到电影类型和演员的吸引力和影响力。

作为电视剧评价的关键指标,收视率和网络收视率并不是独立的行为,但都是基于大量数据的比较和分析。本文标题、类型、生产地区,投资者,电视时间,著名的小说,漫画改编,网络评级,看电影类型的人员、时间、流行,和其他关键字用来进行相关分析的数据处理和分析的主要影响因素是收视率和网络评级。关联分析是寻找有关事务之间的规则在大规模数据集。因此,关联算法是用于分析之间的关系网络评级电视剧评级和评价标题、类型、生产地区,导演,演员,电视剧持续时间。

此外,相关算法是用于分析网络评级和电视剧评级之间的关系,评价、标题、类型、生产地区,导演,演员,电视剧持续时间。参见图4 (b)。从上面的结果可以看出,各因素的影响比电视上的评级,评级是40.5%的演员、导演为29.4%,18.1%,电视类型,7.4%投资,生产面积为4.2%,0.3%,持续时间。可以看出,电视收视率、随需应变的演员和导演的吸引力有更大的影响。

4.2。电影和电视数据的聚类分析

在这篇文章中,K则算法的聚类分析算法是用于分析高分电影的相似度在不同的电影类型。由于大量的数据,以便于计算和显示,数据应该首先处理;也就是说,5点之间的平均数据,5 - 6点,6 - 7点,7 - 8点,8 - 9点,分别计算以上9点应该。

电影的受欢迎程度之间的关系,流派,和电影的分数可以通过聚类分析,如图5。水平轴代表了电影评分,纵轴代表的流行电影,这部电影流派,从上到下,科幻小说,家庭,爱情,和行动。从这可以看出,四大钻石形状,分别聚类中心的科幻小说,家庭,爱情,和行动。虽然科幻电影有很高的人气,他们的评级是两极分化。尽管公众热情很高很酷的特效,不满意的内容也将拖累电影的评级。

聚类分析算法是用于分析不同类型的电视剧之间的关系。参见图6。电视广播的类型和数量之间的关系和三大钻石偶像在聚类分析的过程中,衣服,和爱,是一种聚类中心,包括绿色图标,红色古装,和蓝色的爱;可以看出,尽管偶像戏剧的热量很高,但是分数是两极分化,各种新鲜的肉,虽然大部分童话有很高的热情,但是穷人也可以低收视率的内容,近年来,古代服装GongDou热偶像戏剧之后,良好的生产和有一个好成绩。

在日常工作中,需要很长时间来计算成千上万的影视资料,所以我们希望计算它。计算能力更有效率和更准确的预测模型。因此,它被认为是使用聚类方法进入前的数据相关性分析。行分类处理(减少数据的纬度),然后选择数十组数据接近集群中心的相关性。经过反复实验,参数调整和建立了一种新的模式。

K——+建立关联分析算法训练模型,如图7。蓝色代表了实际结果,红色代表测试结果。可以看出,叠加算法获得的测试结果非常类似于实际的结果,所以这种方法建立的模型可以有效地预测未来电影市场。

就像电影、电视剧的测试结果数据模型也与实际结果高度一致,如图8。结果表明,该模型可以挑选特征数据更加符合实际情况,预测在未来电视剧的发展趋势。

4.3。电影和电视数据的因子分析

电影的关键词标题、类型、生产地区,投资,票房,无论是改编自著名的小说或漫画,网络评级,和类型的电影观众,Python web爬虫是用来收集数据的电影在电影院。使用SPSS软件进行因子分析标准化的数据。提取第一个四个常见因素后,累积方差达到90.042%,可反映原始变量的大部分信息。后获得的因素模型,正交旋转与Kaiser标准化方法用于执行旋转。旋转聚合3迭代后,旋转空间的组成图,如图9

为电视连续剧,标题、类型、生产地区,投资,和票房,改编自著名的小说或漫画,是否网络评级,和看电影类型人员,如关键字。使用SPSS软件进行因子分析标准化的数据处理和旋转图10

以票房和收视率为因变量和其他因素后标准化作为独立变量,建立了多元统计模型,如公式(1)和(2)。SPSS软件用于计算,获得相关参数。

结果表明,中国大陆票房收入是最大的影响因素为生产区域,第二是它改编自著名小说,漫画,等等。到目前为止,仍有一定差距国内电影和外国的生产水平,导致票房的空白。由于电影作品之间的交互和其他形式,经典电影在票房上更有优势。

最积极的两个影响因素从2016年到2020年国内电视剧的收视率是无论他们是改编自著名网络小说和评级。此外,它可以看到不一定是有积极的评级和投资之间的关系,以及电视剧的收视率与大型投资可能不是很好。目前,基于经典小说和电视剧收视率的好口碑是至关重要的。

目前,电视剧点播在新兴媒体平台(优酷网、iQIYI、腾讯视频等)已经成为常态。商业视频网站已经形成了大量的在线视频资源,通过采购、合作生产、自给自足,和其他方法,其中电影和电视剧是由用户最关注的项目。

4.4。趋势分析的电影和电视节目

如图11,从2010年到2018年,中国电影的总票房从101.72亿元上升到600亿元,显示一个线性增长趋势。拟合函数的票房收入(Z)和时间(t)是利用线性回归获得。

据预测,中国票房收入将在2021年达到649.72亿元,2025年将超过1000亿元大关。

电视剧生产和平均数量之间的关系的事件也在这个图。的平均数量的统计数据可以计算每个电视剧的生产和情节的中国电视剧数量从2010年到2018年。可以看出,电视剧的生产在中国近年来在一定程度上减少了,但是每个电视剧集的数量也在增加,从2010年的平均34集近2018年43集。事实上,近年来最受欢迎的电视剧有大量的事件,包括与50多个城市戏剧情节和超过60集古装电影。他们中的许多人是“淹没。“这表明国内电视剧的生产是逐年增加的势头,但是结构上的差异越来越明显。

使用数据从互联网上可追溯到1890年,电影的数量是10年来聚合,和高分数测量,如图12。从这可以看出,生产高分电影发展迅速随着时间的推移,特别是从1990年到2020年。从起源的角度来看,电影来自美国、日本和英国的更容易获得高收视率和高票房。

5。结论

基于云计算和统计理论,大数据的合理分析方法提出了电影和电视。方法是基于Hadoop开源云平台,结合MapReduce分布式编程模型和HDFS分布式文件存储系统和其他云计算关键技术。关联分析、聚类分析、因子分析和K意味着+相关分析算法被用来训练模型,以模型、过程,分析整个电影和电视数据。该系统可以实现不同维度的影视大数据分析;与先前的研究相比,该系统可以实现视频数据的预测和行业的发展趋势和以下结论:通过电影和电视大数据建模和分析,我们可以预测,到2021年,整个国内电影票房约649.72亿元,2025年,国内总票房收入将超过1000亿元。国内电视剧的产量在下降,但每个电视剧集的总数是在上升。在2016 - 18日,一部电影的票房收入影响最大的因素是电影,紧随其后的是他们是否改编自著名的小说和漫画。最积极的两个因素影响电视剧的收视率是改编自一本著名的小说和网络评级。数据挖掘是非常重要的影视产业实现有效的预测。在未来,更要注意大数据智能平台的开发和维护。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。

确认

这项工作是支持的重要国家社会科学基金项目支持的中国:数字档案,设置的创造性智能平台和全球通信的中国非物质文化遗产,19 zda336。