文摘

随着微博的兴起、社交网络、移动应用程序,基于位置的服务,和其他技术,全球数据激增。大数据的数据挖掘和分析,提供了丰富的来源,结果采自会变得更有意义,甚至充满惊喜。在本文中,通过处理电影和电视数据中存在的问题,建立相应的模型来处理相应的问题。根据大数据处理的相关技术和模型的滤波算法,提出的处理策略和方法。中间还介绍了大数据挖掘方法。最后,根据不同的数据特点和不同的数据处理需求的电影和电视数据的智能分析系统,电影作品和电视剧的比较数据,实验结果表明,基于大数据模型,图片和文字在电影作品和电视剧都是分不开的,不可或缺的。在后来的研究中,我们选择合适的数据处理方案设计和实现数据处理流程,并成功地运用影视大数据处理策略和方法提出了实践中,它提供了可靠的数据支持,影视作品的内容分析。基于模型的滤波算法计算图像和文本之间的关系,把点变成node-to-meta路径的概率公式,并以近似价值实现有效的学习模式。

1。介绍

我们提出一个“数据使用质量模型”来填补这一缺口,有不同的数据质量模型来评估质量的常规数据,但是没有一个适合大数据。这个模型包括三个数据质量特点和可以集成到任何类型的大数据项目,因为它是独立于任何先决条件或技术(1]。本文介绍了推荐系统的大数据模型基于社交网络数据,其中包含因素相关的社交网络,可以应用于信息推荐各种社会行为,从而提高推荐信息的可靠性(2]。论述了网络化医疗的作用和移动云计算和大数据分析的实现,提出了网络化医疗应用程序和系统的发展势头,并得出使用大数据和移动云计算技术来设计网络医疗系统(3]。本文开发了大数据分析基于实践的转换模型视图,这揭示了因果关系在大型数据分析功能,支持转换实践,利益维度,和业务价值。模型还提供了一个大数据分析的战略眼光和务实的真知灼见,给经理(4]。通过研究大数据分析模型,本文建立了一个大数据管理体系结构模型适合未来的管道系统,说明了大数据的重要性在管道工业的发展5]。本文提出了一种新的方法,挖掘大数据使用云模型,这是一个著名的人工智能理论的不确定。实际数据集上实验结果显示了这种方法的有效性(6]。基于会计本质从大数据和云计算的角度,本文研究了多元回归模型的建设与管理会计有关。最后预测模型结构的组合直线和曲线预测模型结构(7]。为了促进文化软实力通过建立一个良好的国家形象,本文首先研究什么是中国的国家形象;其次,它强调武术文化和提倡和平与和谐;最后,规范武术影视市场的措施提出(8]。今天,随着经济和科技的快速发展,中国的影视产业已经取得了很大的进步,但中国电影和电视作品的海外市场仍然落后。因此,本文将提出一些策略来解决存在的问题在国际分销中国影视作品的9]。本文主要研究虚拟表达影视动画艺术,分析了虚拟技术在影视作品的各个方面,并进一步研究了虚拟的动画艺术美学方面的图片和场景,人物形象设计,和设计方法10]。本文的基础是Oracle数据库与GIS相结合研究影视文件的分布特征。在数据库方面的功能,系统应用程序测试可以满足需求的数据库检索和地理位置检索快速定位区域影视文学形式(11]。本文首先调查国内观众的态度对外国影视作品,结果表明,观众也困难,缺乏主动理解外国电影和电视作品。其次,它描述了外国影视作品的影响,在文化和语言教学,最后提出了有效实用的策略(12]。框架使用激进的改变,本研究认为文本约定和读者对文本的预期都增加。本研究认为学生之间的关系个人文本特征,尤其是他们从学校图书馆选择的特性。这些证明关系应该帮助合法化包含更多的图像叙事文本格式在学校图书馆集合13]。摘要提出了一种基于云计算的概念框架,并讨论了其未来发展基于按需服务和决策支持系统。结合信息技术与数据库的战略高度,我们可以设计一个科学视角更广泛的受众,从而提供新的知识服务科学(14]。本文总结的内容、范围、样本、方法,优点,和大数据的挑战,并讨论了其隐私问题(15]。

2.1。大数据

所谓的大数据指的是数据的特点是数据量巨大,数据速度快,各种数据类型和数据值密度低。由于信息技术的快速发展,通过手机,电脑,和其他媒体,数据源的增长率增加了。大数据有三个特点:多样性、数量大,速度快。数据采集技术,因为要确保其准确性和有效性,它仍然面临着巨大的挑战。

2.2。电视的特征数据

根据电视的特点分析数据,收视率是受许多因素的影响。一些媒体认为,有两个主要因素,即媒体和观众的因素。进入科技时代,互联网行业的快速发展给传统媒体行业带来了巨大的压力,导致大众媒体被默认为“传统媒体。“它打破了垄断地位的传统媒体在信息传播和发布各种电子通讯渠道,适用于公众和可以相互影响。近年来,新媒体已经慢慢地打破了“传统媒体的局限性。“让电视台开始考虑互联网元素对评级的影响,如演员的粉丝和搜索微博等平台,讨论微博的数量,这个项目的关注,通过搜索引擎,搜索的数量和点击的数量主要视频网站。相比传统的影视产业和预测,评级的数据挖掘具有以下特点:多种数据,数量巨大,短时间,和快速的技术更新。

2.3。数据挖掘

数据挖掘领域的一个热点问题是人工智能和数据库。所谓的数据挖掘是指非平凡过程揭示隐藏的,未知的,和潜在的有价值的信息从大量的数据库数据。数据挖掘是一种决策支持过程,它可以自动地分析企业的数据,做出归纳推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

2.4。数据挖掘方法
2.4.1。聚类分析

集群是一种多元统计分析方法分类。分类后他们根据他们的特点,个人具有相同特征分为同一组,每组应该有不同的特点而不影响对方。集群可以找到看似不规则的数据集可能有直接的关系。

2.4.2。分类

分类是数据挖掘领域的关键技术。数据分类的目的是实现快速区分不同类型的数据。每个记录是由一定的测试计算方法,实现数量的预测类别。

2.4.3。序列模式

时间序列模式可以得到法律的事情的变化。时间序列挖掘被应用于许多行业。例如,太阳黑子数的变化随着时间的增加或减少。通过收集太阳黑子数的历史变化曲线,我们可以预测预期的黑子的数量在下次一定程度上。还有一个客流的分析等等。作为数据挖掘的一个重要分支,时间序列模式发挥着越来越重要的作用在社会科学和其他领域。

2.4.4。偏差分析

发现数据之间的偏差是指明显不一致,前面的数据或正常数据。当确认偏差不是由观察错误引起的,可以获得很多有用的信息通过分析这些偏差。

3所示。基于模型的滤波算法

3.1。模型描述

在模型中,每个节点 有两个身份,源和环境,这是由向量 ,分别。给定一个metapath P, meta-path实例从节点 到节点 被定义为一个有序节点对吗 采样得到的基于两个节点的距离下metapath p通过邻近度,节点的发生的概率 预测的节点 条件下的P计算如公式所示(1),(2)和(3): 在哪里 是一个节点集,需要学会代表。表达向量学习的过程可以转化为最小化经验分布和估计分布的KL分歧。这里获得的经验分布是由邻近基于metapath正常化。KL散度有两个主要特性:不对称和non-negativity。简化后的公式(4)和公式(5)得到:

上面的优化目标函数是困难的,因为公式的分母部分(1)需要遍历整个 设置和计算内积求和。负采样技术是首次提出学习算法在字(词)表示,这是一个特例的噪音对比评估在本质上和广泛用于学习的优化表示。目标函数转化为公式(6)和公式(7): 在哪里K抽样数量的负样本,负样本的采样率设置为 , 这里metapath实例的数量从一个特定的节点诉负采样的本质是选择一个特定的方法来调整抽样分布。

3.2。模型的学习

要花很多的时间来测量距离通过计算metapath实例和遍历整个组在同一时间获得确切的分布值,这是不可行的。随机测试是用来计算近似经验分布值,独立和N个节点是随机抽样从沿着给定metapath节点集P与节点 为出发点,这样经验分布可以近似表示为公式(8):

与上面的估算方法,我们可以设计有效地学习策略学习模型。学习常用的模型优化算法主要包括梯度下降法,牛顿法、拟牛顿法、DFP算法,bfg算法和改进的迭代方法。

计算过程如下:

简化后,它是

具体地说,让命令节点对的数量 从节点采样 沿着metapath P,改写全球目标函数

有两个步骤在尝试学习模型。首先,该节点 从节点集获得抽样,遵循相同的分布,负样本中定义。最后,节点 通过使用随机游走模型抽样。这条路的概率抽样随机漫步的指导下P在步骤n如下:

除了检查路径实例的存在,上述公式还使用一个加权函数来处理边带加权的情况下,定义如下:

因为边的权重可能大错误,0和1之间的功能增加了一个内容权重的初始值。

3.3。文本表示学习标签嵌入

现在,你应该已经有了一组标记,和用户需要选择几个标签的索引文档的重要信息。如果你认为作为链接的索引,一个特定的标签不应该直接联系文本,但更可能与一个上下文,指一个固定长度的序列的文本。在两种极端情况下,它是一个词或一个完整的文档。让由发生的概率t ,和条件独立,

初的这一段,针对标签的猜想,我们认为标签是上下文相关的,所以我们应该适当简化它,只保留标签具有最高程度的相关性。公式(8)是畸形的

函数的计算在上面的公式需要遍历整个文本和标签集合,这是不可取的效率。因此,负采样用于降低复杂性。我们转换公式(16)为对数形式,如公式(17):

分析问题的两个文档之间的相似度来分析图片和文字之间的关系。让D1D2两个文档,X1X2是表示向量对应标题;然后,文本相似度的一般定义如下:

在这里,我们使用学习型方案计算图片和文字。具体地说,让年代包含固定数量的单词量,定义在公式(19):

其中,x文本的向量表示吗 ,的频率和频率函数可以计算文本中出现的文本集。

3.4。从文本表示文档表示

首先得到文本的表示,然后得到文档的表示。算法由光滑逆频率加权过程和一个共同的组件删除过程。与其他权重方案相比,该算法有更好的性能,甚至接近连续神经网络处理一些实验的结果。让年代是一个句子, 是一个句子中出现的单词, 这个词的分布概率 在整个文档集合,然后的概率 出现在年代可以被定义为

可以看出,这两个术语的右边公式(20.)是针对两个影响因素,分别,然后句子出现的概率是获得从词出现的概率公式(21):

现在,我们需要上面的概率最大化,这可以通过使用最大似然估计。公式(22)获得通过的对数公式(21):

估计结果可以近似表示为公式(23):

上述近似结果表明,高频的单词将抑制句子修改后的信息。表示句子的信息,需要删除的部分 ,也就是说,来估计的方向 这可以通过计算获得第一主成分 对应的一组句子。因为短句子的数量通常是非常小的,本文直接替换相应的句子表示文档表示和使用上述算法计算文档表示。的基础上建立一个大的数据模型,本文研究了图片和文本之间的关系从话语和文本之间的关系,这是相关的,和滤波算法基于模型可以挖掘更深层次的内容。

4.1。中国电影票房的分析

大数据显示,电影和电视产业发展迅速,结果如表所示1

看表1,我们可以看到,票房收入逐年增加,而间接地表明,影视作品的质量逐步提高。

据票房收入的增长曲线在图1,票房收入近年来显示一个线性增长趋势,以及票房收入和时间之间的拟合函数是线性回归拟合得到的。

4.2。的输出和数字分析中国电视剧的情节

大数据显示,电视剧在中国生产的数量是14685年2010年和17703年2012年,发作而达到顶峰。之后,中国电视剧的产量下降,并在2018年,只有13310集,如表所示2

从分析可以看出,近年来,中国电视剧的总输出减少,但它在某些电视剧正在增加。事实上,近年来,有许多热门电视剧,与50多个城市电视剧集和超过60集古装电影,和许多戏剧”注水。结果显示在图2

查看图2,我们可以看到电视剧的产量从2010年到2018年下降,但每个电视剧集的数量逐渐增加,这反映了电视剧和电影之间的激烈的竞争在最近几年工作。国内电影作品开始出现并成为越来越受观众欢迎,他们都是不断发展和增长。

4.3。高分电影的电影产量增长和分布

在开发国内电影市场,我们应该密切关注海外电影行业的发展趋势和借鉴他人的成功经验。基于网络数据自1960年以来,本文总结了电影的数量在10年内,使统计高分电影的类型和地理分布,如图3- - - - - -5

3表明从1960年到1990年,中国电影生产增长缓慢,这与当时国家经济形势;从1990年到2010年,电影制作开始迅速发展。在这个时候,中国的经济开始迅速发展,也导致了电影产业的发展,无论是从投资或演员和其他方面的培训。其次,为了扩大和国际化中国电影市场,有必要保留国内电影的高质量的传统文化。从增长速度图的输出3,我们可以看到,电影发展比电视剧,但电视剧的产量也增加。

目前,中国媒体行业是一个非常复杂的环境中,国际竞争压力和国内多元化纠纷。通过分析图4,近年来,纪录片已经成为越来越受观众的欢迎,可能是因为纪录片有强烈的现实和经验,虽然动作电影和科幻电影的质量,这是受欢迎的在前几年,开始下降并逐渐脱离高分电影。

5显示的比例和控制高分电影在中国大陆需要改进,和国内电影必须有相应的应对机制复杂的环境,以确保中国电影有一个激烈的国际竞争环境下的地方。面对整个国际竞争,我们必须整合视频资源,提高我们的竞争力,突出我们的优势。它还可以将电影的边界,结合其他强大的国内媒体跨越国界,形成一个强大的联盟集团应对全球竞争压力。此外,我们应该出国团结与电影和电视公司在其他国家,建立跨国媒体与我们的大型电影公司为核心,并采取公平风险的原则一起抵制竞争压力。

4.4。电影的因素分析

电影投资,观众喜好,网络小说和漫画,在线评分,和类型的人看电影作为关键词,在互联网上收集相关数据,及相关软件使用过程搜索数据。这同伴球形检验的概率是0.00,小于0.05的显著性水平。计算结果表明,因子分析可以应用,以及分析结果如表所示3

3表明,影响中国大陆的票房收入最大的因素是生产区域,其次是是否图形内容改编自著名的小说和漫画。目前,国内电影的质量不如国外,导致票房持续下降的结果。因为相互影响的电影和其他的作品,电影改编自著名的作品非常有利的效果。t代表的初始特征值方差,团体代表的最后一个特征值归一化系数。

4.5。因子分析的电视剧

同样,考虑到投资等因素,评级,情节,改编自著名的小说,是否网络收视率、观众类型,等等,进行标准化因子分析处理数据通过使用软件,以及随之而来的球形检验的概率为0.007,这是小于显著水平(0.05)。计算结果表明,它可以应用到因子分析,分析结果如表所示4

结果在表4显示两个积极因素对国内电视剧的收视率影响最大的是他们真的来自在线小说或在互联网上得分。此外,它可以看出评级并不一定正相关的生产,事实上,作品的声誉成本太多的早期阶段不是很好,和电视剧的收视率与大型投资并不一定好。目前的情况是,电视剧改编自网络小说的高度赞扬和高评级。

6比较的错误评级的标准系数和sig值电影作品和电视剧。结果表明,电视剧的流行是略高于近年来的电影。的一个主要因素可能是改编的电影内容符合观众的利益。目前,随需应变的电视剧在新兴媒体平台已经开始习惯它。网络基站使用多种方式来获取视频资源,所以有多数在线视频,大规模多用户观看电影和电视的视频。图中的纵坐标6代表了评级标准的错误值系数电影作品和电视剧。

5。结论

如今,电影和电视行业的竞争越来越激烈,所以我们要求改善的缺点当前电影行业为了实现一个好的前景。改革开放增加需求的科学和技术,它是符合国际标准迫在眉睫。基于大数据分析,中国的影视作品改编自著名的小说或漫画。图片和文本之间的关系在电影内容尤其重要。图片和文本之间的竞争与合作在图像时代对文学活动有一个全面的影响。作为重要载体的艺术符号,文学有着悠久的历史,一个相对完整的机制的创建、传播、接受和娱乐,和一个固定的创意群体和接受群体。更重要的国际空间站,语言符号都有自己的独特的领域,它不能取代其他符号。图表和文字不能互相取代,缝合。这种关系一定会成为电影工业的优良传统。在未来的发展,两个会变得越来越近,,共同促进影视产业的发展,和中华民族的文化瑰宝也将去世界四面八方。 Although this study has realized the application of model learning and made clear the relationship between images and words in a long time, it is not deep enough in the field of model mining. In order to make film and television works more perfect, it is necessary to conduct in-depth research on the methods based on the big data model in the later period.

数据可用性

使用的实验数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称,关于这项工作他们没有利益冲突。

确认

江苏大学的哲学和社会科学研究项目:建设国家形象在电影的影响大学生思想政治教育工作(没有:2020 sjb1215)。