数字时代电影消费影响因素与票房预测研究——基于机器学习与模型集成的视角

摘要

电影产业是数字创意产业的核心产业之一，对数字创意经济具有较大的正外部性。电影票房收入是衡量电影消费市场价值实现的重要指标，也是电影产业可持续发展的基本保证。本文依托猫眼电影市场的专业数据库，运用Python软件收集2017 - 2019年共830个国内电影相关消费特征数据。在本研究中，机器学习集成算法中的叠加方法结合了基于分布式随机森林、极随机树和广义线性模型的五重交叉折叠训练方法。该模型擅长处理不同的数据类型。在特征挖掘和模型构建方面具有较高的拟合和建模精度，从而有效掌握影响电影消费的相关特征因素，准确预测未来电影票房。基于模型融合的创新设计方法，利用提取的特征向量，通过五重交叉折叠训练方法进行叠加，构建更准确的电影票房预测模型。旨在打开数字时代影响电影内容消费市场价值实现的黑盒子，并提出相应的对策和建议。

1.介绍

随着数字技术的不断发展，以人工智能为特征的数字转型[1- - - - - -3.]和大数据应用推动创意经济和产业发展的内涵、边界和形式不断演进。增强国家竞争力、促进产业融合发展、引导新模式、新业态的作用日益深化，对社会发展的影响越来越深刻。大力推动数字消费成为推动中国构建以国内周期为核心、以国内和国际双周期为核心的新发展模式的重要动力。

电影产业充分体现了人文与艺术的融合与科技创新的融合，传统媒体与数字媒体的融合，生产者与消费者的融合。在不同国家和地区的文化创意产业和数字内容产业的规划和分类中，它一直处于核心范畴，对数字经济具有很大的正外部性。电影产品是发展创意文化产品和数字内容的典型代表。电影票房收入是衡量电影产业消费市场价值实现的重要指标。截至2019年,中国电影业已经跳第二次在世界上的地位而言,市场规模和作出了重要贡献的经济效益和社会影响国内数字内容产业,虽然发展的新皇冠2020年流行在一定程度上影响了离线电影行业。但与此同时，数字转型对电影产业的重塑已经渗透到整个产业链，深刻改变了电影产业的格局和生态。科技与创意深度融合的运作逻辑深深根植于人们的内心。随着大数据和人工智能的逐步发展，数字技术已经渗透到电影产业的制作、发行、销售的整个产业链，包括算法策略为电影在线发行打开视听流媒体的技术支持，以及开放人工智能系统对电影制作管理的干预，如票房预测和观众定位[4］．自2020年以来，包括好莱坞巨头华纳兄弟在内的许多影视集团都建立了自己的人工智能项目管理系统，试图逐步使用人工智能相关技术来评估内容和主要创作的价值，以协助电影发行策略的决策参考[5］．

然而，数字经济时代的电影产品消费受到多种因素的影响，其票房预测更具挑战性。虽然以往的研究利用统计分析方法和相关指标进行了一系列的实证分析，但仅仅使用统计分析模型，还不足以解构新模式下电影消费的复杂特征和结构关系。目前，还没有一种方法能够综合考虑数字转型背景下电影消费的综合特征，进行深入系统的研究，这对于准确把握影响数字内容创意消费的因素特征，解读和预测未来票房价值是不够的。因此，本文在原有研究的基础上，依托猫眼电影市场的专业数据库，系统分析了数字时代影响电影消费的多维因素，并综合运用大数据和机器学习的研究方法，提取并构建相关消费影响因素的特征。通过模型融合训练创新增强的预测模型，试图构建数字转型背景下电影消费影响因素的研究框架，打开影响电影票房的黑箱。本研究的主要任务如下:(1）数据收集和预处理。本研究的数据来源主要来自著名专业电影网站猫眼专业数据库、新浪微博、IMDB专业数据库、微信公众号平台。对这些平台提供的数据进行了单元错误和文本错误的人工筛选，并对数据传输过程中的错误数据、冗余数据和缺失数据进行了数据清理。总共有830部电影被编入了索引（2）机器学习集成算法中的叠加方法结合了基于分布式随机森林、极随机树和广义线性模型的五重交叉折叠训练方法。该模型擅长处理不同的数据类型。该方法在特征挖掘和模型构建方面具有较高的拟合和建模精度，从而有效掌握影响电影消费的相关特征因素，准确预测未来电影票房

2．1．电影票房影响因素研究

对电影票房影响因素的研究由来已久。这可以追溯到20世纪40年代。早期研究主要集中在研究技术上[6］．盖洛普(Gallup) [7和韩德尔[8[]系统梳理演员、营销、故事、评价等电影票房的影响因素，预测票房收入。随后的学者在这个研究框架下进行了深入的研究。一般来说,一部电影的票房成功主要是基于三个维度:电影的特点(如导演、明星、编剧和类型),营销策略的力量(主要是通过广告预算、屏幕,拖车,等等),和评论(从评论家和电影观众,等等)。从电影产品的供给和需求两个方面研究电影票房的影响因素。研究人员探索了许多潜在的影响因素，包括电影来源、电影成本、时间表、导演影响力、获奖影响力、专业评级、口碑、类型、名人影响力、电影内容、评论、文化熟悉度和消费者因素。其中，名人影响力、评论、口碑三大因素受到了广泛关注[9］．此外，鉴于电影续集产品对电影产业的巨大经济影响，学者们开始研究这一因素的影响[10］．随着数字技术的爆炸式增长和发展，电影消费者可以跨时空表达对产品的看法或态度。因此，近年来，以网络评论形式出现的电子口碑(eom)呈指数级增长[11］．许多研究者研究口碑指标对票房表现的影响。随着大数据技术的发展，越来越多的学者将社交媒体和数字营销活动作为票房预测的影响因素[12］．总体而言，传统的票房预测研究使用预算、演员、导演、制片人、故事地点、编剧、放映时间、音乐、放映地点、目标观众、续集等因素作为变量。基于数字化转型背景的研究将影响因素扩展到社会化媒体话题、搜索引擎、营销活动等具有数字化消费内涵特征的变量。

2．2.票房预测模型研究

早期的票房预测方法是基于观众调查。自Litman等人(1989)通过回归分析提出影响电影票房收入因素和电影租金收入的模型以来[13]，电影票房预测模型方法的研究也在不断推进。Scott Sochay(1994)在上述模型的基础上进行了改进[14］．代表性学者de Vany和Walls(2004)采用了OLS模型，Deuchert等人(2005)提出了两阶段模型[15］．其他研究者在此基础上进行了广泛的线性回归研究。Ramesh等(2006)首次提出了采用神经网络方法的票房预测模型，开启了数字时代票房预测模型创新方法的研究[16］．基于大数据和机器学习技术，进一步提高了票房预测模型的准确性。Choudhery等人(2017)通过提取聊天数据分析用户情绪等三种方法构建了票房预测的多项式回归模型[17］．虽然与前两种预测模型相比，神经网络模型的准确率有所提高，但结果仍不令人满意。

综上所述，电影消费影响因素和票房预测模型研究基础扎实，主要创作团队、电影特色、营销推广、口碑评价等影响因素评价体系框架基本形成。在研究方法上，市场调查问卷访谈、线性回归等统计测量模型的研究方法逐渐扩展到大数据背景下的神经网络、机器学习、数据融合等领域。然而，在以往的研究中，不同的研究方法只考虑了一些因素对票房预测的线性影响，而在充分考虑数字时代影响因素的复杂性和综合性的基础上，利用机器学习和模型融合的票房预测模型的实证研究相对较少。这为本研究从影响因素到研究方法的改进奠定了一定的理论基础。

3.数字经济时代电影票房影响因素特征指标体系设计

本研究基于国内外电影产品属性特征选择的成熟经验，结合消费者的个性化特征和审美偏好，重点研究数字化转型背景下数字环境元素对消费逻辑的影响;探讨了消费者、电影产品和数字环境对数字时代电影消费产生重大影响的三维特征因素;并构建了指标体系。为了保证评价的全面性的特点,在数字时代电影产品消费的影响因素,首先,根据电影消费的个人影响因素一般在现有文献中提到,这些指标的性别、年龄、教育水平、活跃的区域,选择偏好类型，反映个人电影消费特征、审美和偏好的基本信息，以及从众氛围的影响。第二，充分考虑电影主要创作团队的决定因素和电影产品的特点。将核心创意题材导演、编剧和主要演员的文化意识，如口碑、票房吸引力、电影数量、上映计划、3D、IMAX等因素加入到电影产品特征评价指标中。以此来衡量与电影产品特性相关的原始价值、艺术价值、体验和情感象征价值、文化认同。第三，聚焦数字经济时代影响下电影消费最重要的变化，如网络社会支持、社会营销活动、数字意见领袖等。包括营销活动在数字时代的环境特征,公众舆论的普及,宣传配售数量的影响下网络口碑,这个平台,广播,网络媒体的舆论评价和普及,网络口碑的分数, and the schedule and other factors. Based on the above reasons and the availability of data, the evaluation index system for the influencing factors of film consumption characteristics in the digital era set in this study, that is, the follow-up characteristic data collection system setting, is shown in Table1．


一级指标	二级索引	三级指标	相关指标说明

个人消费特征	基本信息美学和偏好从众心理	性别	消费者性别分布信息
		年龄	消费者年龄分布信息
		教育水平	消费者教育程度分布信息
		活动区域	消费者活跃区域分布信息
		喜欢的电影类型	过去消费者最喜欢的电影类型
电影产品特点	核心文化价值体验与情感价值文化意识	电影奖项或提名	指该影片在各大电影节上获得的所有有效奖项
		电影类型	根据不同的主题或技术而形成的电影类别、类型或形式，包括动作片、科幻片和喜剧片等13个类别
		视觉效果	无论是3D、IMAX还是大屏幕
		是否改编自IP	电影是否改编自经典名著、畅销小说、动画作品、游戏作品等。
		是否续集	这部电影是某个系列电影的续集吗
		导演的票房号召力	导演累积的历史票房
		主演票房吸引力	十大主要演员在各自的累积历史票房
		编剧的票房吸引力	排名前三的编剧都有他们的累积历史票房
		主任专题讨论卷	总监网上专题讨论次数
		主导话题讨论卷	在各自的网络话题讨论中排名前十的演员
		大量的剧本写作主题	排名前三的编剧在网上讨论各自的话题
		公司生产的杰作数量	主要制作公司的作品累计数量
		公司生产的杰作数量	各大制作公司作品累计数量
数字环境特征	营销活动民意的普及网络口碑	公司发行的代表作品数量	主要发行公司累计杰作数量
		拖车运行时间	拖车网络运行
		播放的预告片总数	预告片累计播放量
		销售平台	拖车配送平台的分布
		微博累计人气	相关热微博讨论次数
		累积微博互动	微博互动次数
		微博话题讨论量	微博上讨论的话题数量
		官方账号累计文章数	相关公众账号文章数量
		累积的文章阅读	相关公众账号文章累计阅读量
		猫眼睛的分数	猫眼电影网站口碑评分
		IMDB得分	IMDB口碑得分
		筛选时间/计划	影片首轮放映时间表

4.机器学习融合预测模型的构建与演示

4．1.数据收集与处理

本研究的数据来源主要来自国内知名专业电影网站猫眼专业数据库、新浪微博、IMDB专业数据库、微信公众号平台。相关专业数据库主要为国内外电影行业从业人员提供及时、准确、专业的电影创作和票房数据分析。其中猫眼数据库全面开放了网络电影信息库，更适合研究国内电影消费的影响因素。主要使用新浪微博和微信作为数字环境特征采集的来源。为了充分反映环境变化的影响,在数字经济时代电影消费的特点,考虑到数据的全面性和连续性,样本收集间隔相关的索引信息消费特征的国内电影从2017年到2019年。初步的数据收集使用Python完成数据捕获和分析。首先,收集每个电影消费者的个人特征的信息显示在网站,其次,收集文化,经验,和认知信息的电影,比如公司的主要创造者和局部讨论社交媒体,历史票房,代表作品和电影奖,IP信息、类型和续集。此外，收集相关发行推广、电影发行公司代表性工作等外部环境要素信息，识别该公司的能力，以及专业大众社交媒体的宣传材料数量、数量、平台、话题级别等。舆论人气指标，以及电影档期周期的影响。 Subsequently, manual screening of units and text errors, as well as data cleaning of erroneous data, redundant data, and missing data due to the data transmission process, was carried out, totaling all the index information of 830 movies. In the future, new feature construction will be carried out according to research needs and specific scenarios. In view of the different data types having their own characteristics, different processing methods will be used to fit the research model.

4．2．研究方法的选择

近年来利用机器学习方法进行电影票房预测已经取得了一些研究成果，但大多数研究只是将票房预测从一个回归问题转化为一个分类问题。但是，使用分类方法预测票房会丢失很多特征信息，这可能会对预测结果的使用造成一定的限制。特征工程方法可以提取核心特征，核心特征对预测模型的准确性有着至关重要的影响[18］．通过机器学习特征工程和多元数据处理回归模型的创新融合，更有利于准确评估数字时代电影消费的影响因素和票房预期。因此，本研究首先使用Python计算机程序设计语言相关的数据定向爬虫( ）完成对数字电影图书馆产品消费者的个人特征、产品特征以及数字环境下网络交互行为特征的分析。通过人工筛选、数据清洗和预处理，结合机器学习领域的特征工程研究方法，使用Scikit-learn进行特征提取和特征构建。然后，根据数据类型的多样性对电影相关影响因素进行分析。本创新采用机器学习集成算法中的叠加方法，基于分布式随机森林(分布式随机森林)、极随机树(极随机树)、以及擅长处理不同数据类型的广义线性模型。在特征挖掘和模型构建方面具有较高的拟合和模型精度，从而更有效地掌握影响电影消费的相关特征因素，更准确地预测未来的电影票房。

4．3．研究概念设计

本研究基于对数据特征的探索性结构和深度洞察，创新性地采用模型融合视角进行机器学习应用。研究思路的设计如图所示1．首先，全面的前期调研和文献研究，结合影响因素指标体系的设计和准确的数据收集，是构建特征工程模型的基本保证。良好的数据预处理可以探索模型训练的方向和准确性。第二，进行数据清理和筛选，保留有效信息。然后，将反映电影不同影响因素的有效数据输入到不同的特征学习模型中，提取对应电影的特征，并尝试构建新的特征。由于本研究中不同类型的变量规模非常大，探索性统计分析发现累计票房、首周票房、明星累计票房等数据均呈指数分布，因此对这些特征进行对数变换可以构建新的特征。最后，选择叠加模型融合方法构建票房预测模型，通过设计特征向量五重交叉折叠训练方法学习并融合三个基本模型，构建更准确的预测模型。这样可以更准确地识别出符合数字时代电影消费的特征向量，揭示电影票房收入的来源。

高维复杂数据的处理是机器学习中的一个难点。传统的分类算法在实际应用中难以解决精度低、过拟合等问题。叠加模型本质上是一种层次化的结构，擅长处理模型融合问题，尤其适合处理多维复杂因素的模型训练和学习。融合通过对不同类型模型的拟合和学习，构建了更符合数据特点的创新融合模型。非常适合本研究涉及的复杂多元的影响特征变量类型，以及准确预测票房的实际需求。数字2给出了该方法的基本流程结构。

4．4.模型构建与实证分析

利用机器学习的特征工程构建方法，分析、收集和构建特征，确定哪些消费特征是最重要的，对预测模型的性能起作用。它有助于避免传统统计计量模型在人为因素判断方面的误差和惯性问题，有助于获得更具解释性的特征变量系统。根据影响因素指标体系的数据特征，分别采用以下三类经典模型进行拟合，并采用叠加模型融合方法对不同模型进行五重交叉折叠训练，构建新的融合模型。这使得融合模型具有更强的融合和泛化能力，形成了更适合于数字时代电影消费影响因素识别和票房预测的模型结构。

4.1.1。分布式随机树预测模型实验

Bernard等人提出随机森林是集成学习算法中最经典的数据处理模型之一。利用集成思维为用户提供合理有效的分类标签信息，从而提供可靠有效的数据信息推荐[19］．Fernández-Delgado等通过比较179种分类算法的分类性能，发现随机森林算法的分类性能最好[20.］．Lizhi等人发现Spark中的分布式随机森林算法更适合二维变量的特征学习[21］．数据采集符合数字时代电影消费要素的数据结构和特征。实证研究也显示出良好的拟合效果。表格2结果表明，该模型拟合优度达到94.12%左右，预测误差RMSE达到19.9%。


DRF:分布式随机森林

模型	DRF_1_AutoML_20200707_105158
框架	automl_training_Key_Frame__movie_r2.hex
描述	外带训练样本的度量报告
Model_category	回归
均方误差	0.039718
RMSE	0.199295
r2	0.941232
Mean_residual_deviance	0.039718
美	0.134591
rmsle	0.023422

10/24/11。极端随机树预测模型实验

Geurts等人提出的极端随机树算法[22]非常类似于随机森林算法，但极端随机树特征是随机选取的。选择具有指定阈值的最优划分特征作为最优划分属性，既保证了训练样本的利用率，又降低了最终的预测偏差，在一定程度上优于随机森林的结果。因此，也将其作为预测模型的方法进行实验。本文得到的结果也符合较高的拟合优度，基本达到94.46%左右，RMSE预测误差达到19.3%，如表所示3.．


ERT:极其随机化的树

模型	ERT_1_AutoML_20200707_105158
框架	automl_training_Key_Frame__movie_r2.hex
描述	外带训练样本的度量报告
Model_category	回归
均方误差	0.037427
RMSE	0.193462
r2	0.944621
Mean_residual_deviance	0.037427
美	0.132382
rmsle	0.022773

4.4.3。广义线性预测模型的实验

广义线性模型是一般线性模型的推广。通过连接函数建立响应变量的期望值与线性组合的预测变量之间的关系。它的特点是不强制改变数据的自然度量。数据可能具有非线性和非常数方差结构，也可能是目前最流行的机器学习算法。本研究还根据数据指标的结构特点，采用该算法进行拟合。分析结果与数据特征相对一致，拟合较好，为92.41%，但RMSE预测误差高达22.63%(见表)4)．


GLM:广义线性模型

模型	GLM_1_AutoML_20200707_105158
框架	automl_training_Key_Frame__movie_r2.hex
描述	·
Model_category	回归
均方误差	0.051241
RMSE	0.226365
r2	0.924182
Mean_residual_deviance	0.051241
美	0.16952
rmsle	0.027431

4.4.4。三模型融合五倍交叉实验

用以上三个模型拟合电影消费特征的数据可以发现，第一，初始指标体系的选择更加有效，使得代表电影消费的这些基本特征更加规律。同时，三种算法均具有90%以上的拟合精度和较强的解释力，但预测精度仍有进一步提高的空间。为了进一步探索消费特性，采用叠加模型融合方法对三种模型进行五次交叉折叠训练，得到了更准确的模型。拟合优度达到99.18%，RMSE为7.4%，RMSLE显著低于前三种经典模型仅为0.8%的分类预测误差。这充分说明了从该模型中学习提取的特征与数据库的特征和实际结果非常一致。该模型具有较强的泛化能力，基本吻合当前影响电影消费因素的特征结构(见表)5)．


叠系综

模型	StackedEnsemble_AllModels_AutoML_20200707_105158
框架	automl_training_Key_Frame__movie_r2.hex
描述	·
Model_category	回归
均方误差	0.005488
RMSE	0.074081
r2	0.99188
Mean_residual_deviance	0.005488
美	0.050961
rmsle	0.008718

将该融合模型的结果通过上述三种模型算法进行集成，其组合系数如表所示6．


的名字	系数	Standardized_coefficients

拦截	-0.1308	7.6077
XRT_1_AutoML_20200707_195606	0.9967	0.7847
DRF_1_AutoML_20200707_195606	0.0043	0.0033
GLM_1_AutoML_20200707_195606	0.0166	0.0129

4.5。结果与讨论

根据以上模型学习结果可以发现，通过创新的模型融合训练，拟合优度比单一预测模型高，预测偏差小。在数字经济时代，电影消费影响因素的提取更加准确，能够提供更加有效的票房预测模型方案。在分析结果的基础上，进一步讨论和分析哪些提取特征更能体现数字时代电影消费的解释性和影响力。通过不同的模型进行特征提取和学习。数字电影消费影响特征变量中的重要指标如图所示3.．

因此，可以发现最具影响力的特征是明星作家在核心内容创造者主体的累积历史票房，这充分体现了当前市场对核心内容的重要性。首先，作者是当前数字内容产品创意源的核心创造者，也是IP核心故事的来源。过去的票房代表了作者的创作能力，作品的文化艺术价值和市场的对接能力，突出了内容为王的意义。

第二，数字营销已经成为影响电影消费的重要因素。数字时代的电影营销推广形式发生了本质的变化。营销材料在互联网上的播放已经成为影响电影消费的一个重要特征。数字时代的电影消费有着更广泛的受众。在数字内容产品的市场中，社交媒体的声音和影响力扮演着重要的角色。基于互联网平台的精准配送机制有助于实现数字化营销效果。第三，明星创作者的历史票房累积表明，明星创作者过去的艺术表现和认可度非常重要，明星仍然是内容产品的核心价值创造者。第四，电影类型仍有重要影响。虽然这一因素已被许多研究证明与电影消费密切相关，但爱情、动作、科幻等特殊类型仍然成为引发电影消费共鸣、激发市场活力的重要因素。第五，舆论热点成为影响电影消费的重要变量，包括不同类型的自媒体评论和口碑传播讨论，如微信公众号和微博话题讨论。

5.结论

根据这些影响电影消费的因素的实证结果，对未来如何提高数字内容消费提出以下建议:

首先，高度重视并加大对高质量文化内容的创意题材的资金投入，谨慎对待流动效应。随着数字内容形式的不断创新，给消费者带来了更加愉悦的消费体验，也改变了人们传统的消费习惯和消费观念。其次，进一步规范网络环境，加强网络生态治理。数字内容产品消费最重要的影响因素是网络舆论的引导和评价。进一步规范网络环境;各大影视网站要做好相关管理工作，重点抓好有恶意评分记录的“僵尸”账号，整顿网络滋生的黑色产业链。第三，鼓励构建多元化的数字内容价值评价体系。对于文化创意消费者来说，互联网上的大数据只是大概率事件的展示和预测，只能作为参考。数字内容产品本质上是文化创意产品。它的文化价值和审美体验不能仅仅通过一系列的数据来体现。 Finally, encourage content providers such as digital content creative subject, production producer, and dissemination subject to adhere to the original intention of content creation. Make good use of digital diffusion channels and create a win-win situation between content providers and consumers by using “big data.” However, the prediction model used in this article is sensitive to noise, and the prediction accuracy needs to be further improved. These two shortcomings are also the direction for future work.

数据可用性

用于支持这项研究结果的数据包括在文章中。

的利益冲突

所有作者没有任何可能的利益冲突。

致谢

基金资助:国家自然科学基金(No. 71704102)。

参考文献

M. Zhao, A. Jha, Q. Liu et al.，“更快的均值转移:基于余弦嵌入的gpu加速聚类算法的细胞分割和跟踪”，医学图像分析， 2021年第71卷，第102048条。视图:出版商的网站|谷歌学者
胡敏，“一种新型的机器人抓握检测方法”，ASP物联网交易， vol. 1, no. 11，页19-29,2021。视图:出版商的网站|谷歌学者
Zhao M.， Q. Liu, A. Jha et al.，“基于深度学习的体素嵌入三维实例分割与跟踪”，2017，https://arxiv.org/abs/2106.11480．视图:谷歌学者
王文，“机器绿灯系统”和“算法矩阵电影”——人工智能对电影制作行业的影响，”当代电影，第12卷，第30-36页，2020。视图:谷歌学者
西格尔和w兄弟，签约ai驱动的电影管理系统,没有。《好莱坞记者报》，2020。
R. Handel等，好莱坞如何理解观众，中文出版社，2014。
B. Ayoub，《好莱坞的乔治·盖洛普》太平洋的历史回顾第77期4，第693-695页，2008。视图:谷歌学者
l·a·汉德尔好莱坞看它的观众。电影观众研究报告，伊利诺伊大学出版社，伊利诺斯州厄巴纳，1950。
彭飞，康磊，安华，李昕，《明星影响力与票房收入:来自中国的证据》文化经济学杂志号，第43卷。2, pp. 247-278, 2019。视图:出版商的网站|谷歌学者
B. Belvaux和R. Mencarelli，《预告模型与续集票房结果的实证检验》商业研究杂志号，第130卷。1，第38-48页，2021年。视图:出版商的网站|谷歌学者
H. Ma, J. M. Kim, E. Lee，《分析动态评论操纵及其对电影票房收入的影响》电子商务研究与应用(一)2019年第35卷第100840条视图:出版商的网站|谷歌学者
“基于大数据的电影票房收入预测与排名”，王志军，张建军，纪思聪，C.孟，李涛，郑亚东，“基于大数据的电影票房收入预测与排名”，信息融合，第60卷，第25-40页，2020。视图:出版商的网站|谷歌学者
B. R. Litman和L. S. Kohl，《预测电影的经济成功:80年代的经验》，媒介经济学杂志,没有。2，第35-50页，1989。视图:出版商的网站|谷歌学者
S. Sochay，“预测电影的表现”，媒介经济学杂志，第7卷，第5期4,页1 - 20。视图:出版商的网站|谷歌学者
a·德瓦尼(A. de Vany)和w·d·沃尔斯(W. D. Walls)，《电影行业的不确定性:明星影响力会减少票房的恐惧吗?》文化经济学杂志，第23卷，第2期。4，第285-318页，1999。视图:出版商的网站|谷歌学者
S. Ramesh和D. Delen，《用神经网络预测电影票房的成功》，专家系统与应用，第30卷，第2期2，页243-254,2006。视图:出版商的网站|谷歌学者
D. Choudhery和C. K. Leung，《社交媒体挖掘:票房收入预测第21届国际数据库工程与应用研讨会论文集,2017年。视图:出版商的网站|谷歌学者
李斌，柴静，刘杰，“基于深度学习的电影票房预测模型，”中国传媒大学学报:自然科学版第26卷第2期1, pp. 30-35, 2019。视图:谷歌学者
S. Bernard, S. Adam, L. Heutte，《动态随机森林》模式识别的字母第33卷第3期12, pp. 1580-1586, 2012。视图:出版商的网站|谷歌学者
M. Fernández-Delgado, E. Cernadas, S. Barro和D. Amorim，“我们需要几百个分类器来解决现实世界的分类问题吗?”机器学习研究杂志， vol. 15, pp. 3133-3181, 2014。视图:谷歌学者
李志明，“基于Spark和随机森林的乳腺癌风险预测分析”，计算机技术与发展，第29卷，第2期第8页，142-146页，2019。视图:谷歌学者
P. Geurts, D. Ernst，和L. Wehenkel，《极其随机的树》机器学习，第63卷，第2期1，第3-42页，2006。视图:出版商的网站|谷歌学者

无线通信和移动计算

工业4.0时代复杂数据分析的深度和迁移学习方法

数字时代电影消费影响因素与票房预测研究——基于机器学习与模型集成的视角

摘要

1.介绍

2．1．电影票房影响因素研究

2．2.票房预测模型研究

3.数字经济时代电影票房影响因素特征指标体系设计

4.机器学习融合预测模型的构建与演示

4．1.数据收集与处理

4．2．研究方法的选择

4．3．研究概念设计

4．4.模型构建与实证分析

4.1.1。分布式随机树预测模型实验

10/24/11。极端随机树预测模型实验

4.4.3。广义线性预测模型的实验

4.4.4。三模型融合五倍交叉实验

4.5。结果与讨论

5.结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章

无线通信和移动计算

工业4.0时代复杂数据分析的深度和迁移学习方法

数字时代电影消费影响因素与票房预测研究——基于机器学习与模型集成的视角

摘要

1.介绍

2.相关研究

2．1．电影票房影响因素研究

2．2.票房预测模型研究

3.数字经济时代电影票房影响因素特征指标体系设计

4.机器学习融合预测模型的构建与演示

4．1.数据收集与处理

4．2．研究方法的选择

4．3．研究概念设计

4．4.模型构建与实证分析

4.1.1。分布式随机树预测模型实验

10/24/11。极端随机树预测模型实验

4.4.3。广义线性预测模型的实验

4.4.4。三模型融合五倍交叉实验

4.5。结果与讨论

5.结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章