电影产业的核心产业之一数字创意产业,数字创意经济具有巨大的正外部性。电影票房收入是一个重要的指标来衡量电影消费的市场价值的实现,也是可持续发展的基本保证的电影业。本文依靠Maoyan电影市场的专业数据库使用Python软件收集830国内约翰逊说近来电影相关的消费特点销售数据从2017年到2019年。在这项研究中,叠加方法在机器学习整体算法结合了五倍crossfolding训练方法基于分布式随机森林,非常随机树,广义线性模型。模型是擅长处理不同的数据类型。它具有较高的拟合精度和模型特征采矿和模型建设,以有效地掌握相关特性影响因素的电影消费和准确地预测未来电影票房。基于模型融合的创新设计方法,提取的特征向量用于建立一个更精确的电影票房预测模型通过叠加五倍crossfolding训练方法。旨在打开黑盒子,影响电影内容的价值的实现在数字时代消费市场并提出相应的对策和建议。
随着数字技术的不断发展,数字转换为人工智能(
电影行业充分体现人文和艺术和技术的集成创新,整合传统媒体和数字媒体,生产者和消费者的集成。文化和创意产业的规划和分类和数字内容产业在不同国家和地区,一直是在核心范畴,数字经济具有巨大的正外部性。电影产品的典型代表的发展创意文化产品和数字内容。电影票房收入是一个重要的指标来衡量消费者的实现市场价值的电影产业。截至2019年,中国电影业已经跳第二次在世界上的地位而言,市场规模和作出了重要贡献的经济效益和社会影响国内数字内容产业,虽然发展的新皇冠2020年流行在一定程度上影响了离线电影行业。但与此同时,电影行业的重塑数字转换贯穿整个产业链,深刻改变了格式和电影产业生态系统。深的操作逻辑集成的技术和创造力深深植根于人民的心。大数据的逐步发展和人工智能,数字技术已经渗透到整个产业链的生产,分配,和电影行业的销售,包括算法策略打开技术支持视听在线分销的流媒体电影,以及开放的人工智能系统的介入电影票房预测和受众定位等生产管理(
然而,在数字经济时代电影产品的消费是受到多种因素的影响,及其票房预测更具挑战性。尽管先前的研究已经进行了一系列的实证分析使用统计分析方法和相关指标,统计分析模型的简单的使用是不够的解构的复杂特征和结构关系的电影消费新模式。目前,仍然没有方法,全面考虑电影消费的综合特征的背景下,数字转换进行深入系统的研究,为准确把握不足的特点,影响因素数字内容创意消费和解释和预测未来的票房价值。因此,基于原始研究,本文系统地分析了多维因素影响电影消费在数字时代,依靠Maoyan电影市场的专业数据库,全面使用大数据和机器学习的研究方法来提取,构建相关的消费影响因素的特点。通过模型融合培训一个创新和增强预测模型,它试图建立一个电影消费影响因素的研究框架的背景下,数字转换和打开黑盒子影响电影票房。本研究的主要任务如下:
数据收集和预处理。这个研究主要的数据源来自著名的专业电影网站Maoyan专业数据库,新浪微博,IMDB专业数据库,和微信官方账户平台。这些平台提供的数据手动筛选了单位和文字错误,以及数据清洗的错误数据、冗余数据,在数据传输过程中丢失的数据。共有830部电影被索引
叠加方法在机器学习整体算法结合了五倍crossfolding训练方法基于分布式随机森林,非常随机树,广义线性模型。模型是擅长处理不同的数据类型。该方法具有较高的拟合精度和模型特征采矿和模型建设,以有效地掌握相关特性影响因素的电影消费和准确地预测未来电影票房
影响电影票房的因素的研究有着悠久的历史。它可以追溯到1940年代。早期的研究主要集中在研究技术(
早期票房预测方法是基于受众调查。自利特曼et al .(1989)提出了这位模型影响电影票房收入因素和电影租赁收入通过回归分析(
总之,有一个坚实的研究基础电影消费的影响因素和票房预测模型,以及影响因素评价体系的框架包括主要的创意团队,电影的特点,营销推广,口碑评论已基本形成。在研究方法方面,统计测量模型的研究方法,如市场调查问卷访谈和线性回归已逐渐扩展到神经网络,机器学习和数据融合在大数据的上下文中。然而,在以往的研究,不同研究方法只考虑一些因素的线性影响票房预测,票房预测模型和实证研究使用机器学习和模式融合的基础上,充分考虑到数字时代和全面的影响因素比较复杂是相对缺乏。这为本研究奠定了一定的理论基础从影响因素研究方法的改进。
成熟经验的基础上,国内外电影产品属性特征选择,结合消费者的个性化特征和审美喜好,本研究着重于数字环境因素对消费的影响逻辑的背景下数字转换;探索消费者的三维特性因素、电影产品,和数字环境中,有一个伟大的影响在数字时代电影消费;和构造一个指标体系。为了保证评价的全面性的特点,在数字时代电影产品消费的影响因素,首先,根据电影消费的个人影响因素一般在现有文献中提到,这些指标的性别、年龄、教育水平、活跃的区域,选择和偏好类型的基本信息,以反映个人特征的电影消费、审美偏好、群体氛围的影响。其次,充分考虑电影的决定因素的主要创意团队和电影产品的特点。文化意识的核心创意主题导演、编剧,和主要演员,如人气口碑、票房吸引力,许多电影,释放时间表,3 d和IMAX因素,添加到电影产品特性评价指标。通过这种方式,原始价值、艺术价值,体验和情感的象征意义和文化识别相关电影产品测量的特点。第三,它专注于最重要的变化在电影消费数字经济时代的影响下,如在线社会支持、社会营销活动,和数字意见领袖。包括营销活动在数字时代的环境特征,公众舆论的普及,宣传配售数量的影响下网络口碑,这个平台,广播,网络媒体的舆论评价和普及,网络口碑的分数,时间表和其他因素。基于上述原因,数据的可用性,影响因素的评价指标体系在数字时代电影消费的特点设置在这项研究中,也就是说,后续特征数据采集系统设置,如表所示
设置特征影响因素指标体系的电影票房在数字时代。
| 一级指标 | 二级索引 | 三级指标 | 解释相关的指标 |
|---|---|---|---|
| 个人消费特征 | 基本信息 |
性别 | 消费者性别分布信息 |
| 年龄 | 消费者的年龄分布信息 | ||
| 教育水平 | 消费者教育水平分布信息 | ||
| 活动区域 | 消费活动区域分布信息 | ||
| 喜欢的电影类型 | 消费者最喜欢的电影类型 | ||
| 电影产品的特点 | 核心文化价值 |
电影金像奖提名或 | 奥斯卡奖是指所有有效的电影主要电影节 |
| 电影类型 | 类别、类型或形式的电影形成了由于不同的主题或技术,包括13个类别,如动作,科幻,喜剧 | ||
| 视觉效果 | 它是否属于3 d IMAX,或大屏幕上 | ||
| 改编自IP是否 | 这部电影是改编自经典的经典,是否畅销小说,动画作品,游戏作品,等等。 | ||
| 是否续集 | 这部电影属于某个系列的续集的电影吗 | ||
| 导演的票房吸引力 | 导演的历史票房累计 | ||
| 主演的票房吸引力 | 十大主要演员在各自历史票房累计 | ||
| 编剧票房吸引力 | 三大编剧的历史票房累计 | ||
| 导演话题讨论体积 | 导演的在线主题讨论 | ||
| 主要话题讨论体积 | 十大主要演员在各自的网络话题的讨论 | ||
| 电影剧本创作主题的体积 | 三大编剧讨论各自的在线主题 | ||
| 数量由公司生产的杰作 | 公司主要生产累积的杰作 | ||
| 数量由公司生产的杰作 | 主要生产公司的累积量的杰作 | ||
| 数字环境特征 | 营销活动 |
许多代表签发的公司工作 | 累积的主要发行公司的杰作 |
| 拖车运行时间 | 拖车网络运行 | ||
| 拖车的总数 | 累计播放预告片的体积 | ||
| 销售平台 | 拖车交付平台的分布 | ||
| 累积的数量受欢迎的微博 | 数字相关的热门微博的讨论 | ||
| 累积微博互动 | 的微博互动 | ||
| 微博话题讨论体积 | 在微博上的话题讨论 | ||
| 累积的官方账户数量的文章 | 相关的公共账户的文章数量 | ||
| 累积的文章阅读 | 累计阅读卷相关的公共账户的文章 | ||
| 猫眼睛的分数 | 口碑的Maoyan电影网站 | ||
| IMDB得分 | IMDB口碑得分 | ||
| 筛选时间/计划 | 电影第一轮筛选 |
这个研究主要的数据源来自Maoyan的专业数据库,一个著名的专业电影网站在中国,新浪微博,IMDB专业数据库,和微信官方账户平台。相关专业数据库主要提供及时、准确、专业的电影创作和票房数据分析在国内外电影产业从业者。其中,Maoyan数据库完全打开在线电影信息数据库,这是更适合研究国内电影消费的影响因素。新浪微博和微信的来源主要是用作数字环境特征集合。为了充分反映环境变化的影响,在数字经济时代电影消费的特点,考虑到数据的全面性和连续性,样本收集间隔相关的索引信息消费特征的国内电影从2017年到2019年。初步数据收集使用Python来完成数据采集和分析。首先,收集每个电影消费者的个人特征的信息显示在网站,其次,收集文化,经验,和认知信息的电影,比如公司的主要创造者和局部讨论社交媒体,历史票房,代表作品和电影奖,IP信息,类型,续集。此外,收集信息等外部环境要素相关的分销和促销和电影发行公司的代表工作来确定公司的能力,以及宣传材料的数量,数量、平台、主题的专业质量社会媒体,舆论流行指标,以及电影时间表的计划周期的影响。随后,手动检查单位和文字错误,错误数据以及数据清洗,冗余数据,和丢失的数据,由于数据传输过程,进行,总计830部电影的所有索引信息。在未来,新功能建筑将根据研究的需要和特定的场景。 In view of the different data types having their own characteristics, different processing methods will be used to fit the research model.
使用机器学习的方法对电影票房预测近年来取得了一些研究成果,但大多数的研究只票房预测回归问题转化为分类问题。然而,分类方法的使用预测票房将失去很多特征信息,这可能会导致某些限制使用的预测结果。特性工程方法可以提取核心特性,产生重要影响的准确性预测模型(
本研究是基于探索性的数据结构和深刻理解特点和创新采用机器学习应用程序模型融合的角度。研究的设计思想如图
机器学习的研究流程图和模型融合的基础上,分析在数字时代电影消费的影响因素。
高维复杂数据的处理是机器学习中的一个难点。在传统的分类算法,很难处理的实际应用中存在的问题,提出问题,如低精度和过度拟合。叠加模型本质上是一种层次结构,善于处理模型融合问题,也特别适合模型训练和学习,处理多维复杂的因素。通过拟合和学习不同类型的模型,构建一个融合创新的融合模型,更符合数据的特征。非常适合复杂而多元的影响特征变量类型的研究和准确的票房预测的实际需要。图
堆垛过程模型结构图。
机器学习的特性工程施工方法用于分析,收集和构造特征,并确定哪些消费特征是最重要的,这有助于预测模型的性能。它有助于避免错误在人为因素的判断和一些惯性问题,传统的统计测量模型,有助于获得更多的解释变量系统特征。根据数据特征的影响因素指标体系,以下三种类型的经典模型是用于拟合,分别和叠加模型融合方法用于执行5倍crossfolding培训不同的模型来构造一个新的融合模式。这使得融合模型在融合和泛化和形成一个模型结构更适合电影消费的影响因素的识别和票房预测在数字时代。
伯纳德等人提出,随机森林是一种最经典的数据处理模型集成学习算法。它为用户提供了合理有效的分类标签信息通过使用集成的思想,从而提供可靠和有效的数据信息推荐(
分布式随机树森林模型的拟合效果分析。
| DRF:分布式随机森林 | |
|---|---|
| 模型 | DRF_1_AutoML_20200707_105158 |
| 框架 | automl_training_Key_Frame__movie_r2.hex |
| 描述 | 度量报告out-of-bag训练样本 |
| Model_category | 回归 |
| 均方误差 | 0.039718 |
| RMSE | 0.199295 |
| r2 | 0.941232 |
| Mean_residual_deviance | 0.039718 |
| 美 | 0.134591 |
| rmsle | 0.023422 |
吉尔茨极端随机树算法提出的et al。
极端随机树模型的拟合效果分析。
| 导:非常随机树 | |
|---|---|
| 模型 | ERT_1_AutoML_20200707_105158 |
| 框架 | automl_training_Key_Frame__movie_r2.hex |
| 描述 | 度量报告out-of-bag训练样本 |
| Model_category | 回归 |
| 均方误差 | 0.037427 |
| RMSE | 0.193462 |
| r2 | 0.944621 |
| Mean_residual_deviance | 0.037427 |
| 美 | 0.132382 |
| rmsle | 0.022773 |
广义线性模型是一个扩展的一般线性模型。它的期望值之间的关系建立了响应变量和预测变量的线性组合,通过连接功能。它的特点是不强行改变自然数据的措施。数据可能会有非线性和非常数的方差结构,或者它可能是目前最受欢迎的机器学习算法。本研究也使用该算法适合根据数据的结构特征指标。分析的结果是相对一致的数据特点,达到92.41%的适合,但RMSE预测误差高达22.63%(见表
分析的广义线性模型的拟合效果。
| 全球语言监测机构:广义线性模型 | |
|---|---|
| 模型 | GLM_1_AutoML_20200707_105158 |
| 框架 | automl_training_Key_Frame__movie_r2.hex |
| 描述 | · |
| Model_category | 回归 |
| 均方误差 | 0.051241 |
| RMSE | 0.226365 |
| r2 | 0.924182 |
| Mean_residual_deviance | 0.051241 |
| 美 | 0.16952 |
| rmsle | 0.027431 |
合适的电影消费的数据特点和上述三个模型,我们可以发现,首先,初始指标体系的选择更有效,使这些基本特征代表电影消费更多的常规。同时,这三个算法拟合精度超过90%和强大的解释力,但仍有进一步改善的空间预测精度。为了进一步探索消费特点、叠加模型融合方法用于火车crossfolding五倍的三种模式,和一个更精确的模型。拟合优度达到99.18%,而均方根误差为7.4%,和RMSLE明显低于前三个经典模型的分类预测误差仅为0.8%。这充分说明,学习从这个模型提取的特性非常符合数据库的特点和实际结果。模型有更多的泛化能力和基本的功能结构相匹配当前电影消费影响因素(见表
分析拟合效果的5倍crossfolding训练融合三个模型。
| 叠系综 | |
|---|---|
| 模型 | StackedEnsemble_AllModels_AutoML_20200707_105158 |
| 框架 | automl_training_Key_Frame__movie_r2.hex |
| 描述 | · |
| Model_category | 回归 |
| 均方误差 | 0.005488 |
| RMSE | 0.074081 |
| r2 | 0.99188 |
| Mean_residual_deviance | 0.005488 |
| 美 | 0.050961 |
| rmsle | 0.008718 |
这种融合模型的结果由上述三个模型算法集成,以及他们的组合系数如表所示
分析融合组合因素五倍crossfolding培训有三个模型。
| 的名字 | 系数 | Standardized_coefficients |
|---|---|---|
| 拦截 | -0.1308 | 7.6077 |
| XRT_1_AutoML_20200707_195606 | 0.9967 | 0.7847 |
| DRF_1_AutoML_20200707_195606 | 0.0043 | 0.0033 |
| GLM_1_AutoML_20200707_195606 | 0.0166 | 0.0129 |
基于上述模型的学习结果,可以发现,通过创新模型融合训练,拟合优度比较高和预测偏差低于单个预测模型。在数字经济时代,电影消费的影响因素的提取更准确,可以提供更有效的票房预测模型方案。根据分析结果,本研究进一步探讨和分析提取的特征可以更好地反映电影消费的解释性和影响力在数字时代。通过不同的模型进行特征提取和学习。重要的指标数字电影消费的影响特征变量在图所示
特征提取的影响因素在数字时代电影消费的特征。
因此,它可以发现,最具影响力的特性是累积的历史票房明星作家主体的核心内容创造者,这充分反映了当前市场上的核心内容的重要性。首先,作者是核心的创造者当前数字内容产品的创意来源,也是IP核心故事的来源。过去的票房代表了作者的创新能力,文化和艺术价值的工作和市场的对接能力,强调内容的重要性作王。
其次,数字营销已成为一个重要的电影消费的影响因素。至关重要的变化发生了在数字时代电影营销推广的形式。广播在互联网上的营销材料已成为影响电影消费的一个重要特征。在数字时代电影消费更多的观众。数字内容产品的市场中,社交媒体的话语权和影响力发挥重要作用。精确的交货和分配机制基于互联网平台可以帮助实现数字营销的效果。第三,累积的历史票房明星创造者显示过去的艺术表现和认可的明星创造者是非常重要的,和明星还是内容产品的核心价值的创造者。第四,电影还有一个重要的类型的影响。虽然这个因素,许多研究已证明是密切相关的电影消费,特殊类型如爱情,动作,科幻小说仍然成为一个重要因素,触发共鸣的电影消费和刺激市场活力。第五,热点舆论已经成为影响电影消费的重要变量,包括不同类型的self-media评论和口碑沟通和讨论,如Weixin公共号码和微博话题讨论。
基于这些电影消费影响因素的实证结果,给出以下建议如何提高消费数字内容有关的未来:
首先,高度重视和增加资本投资创意学科高质量的文化内容和治疗小心流效应。随着数字内容形式的不断创新,给消费者带来更愉快的消费体验但也改变人们传统的消费习惯和消费的概念。其次,进一步规范网络环境,加强网络生态治理。最重要的影响因素消费数字内容产品的网络舆论的指导和评价。网络环境应进一步标准化;主要影视网站应该做一份好工作在相关的管理,关注“僵尸”号和账户恶意评分记录,和纠正的黑色产业链网络品种。第三,鼓励多样化的数字内容价值评价体系的建设。文化创意的消费者,大数据在互联网上只意味着大概率事件的显示和预测,只能用作参考。数字内容产品本质上是文化创意产品。其文化价值和审美体验不能苍白,浅只由一系列的数据。 Finally, encourage content providers such as digital content creative subject, production producer, and dissemination subject to adhere to the original intention of content creation. Make good use of digital diffusion channels and create a win-win situation between content providers and consumers by using “big data.” However, the prediction model used in this article is sensitive to noise, and the prediction accuracy needs to be further improved. These two shortcomings are also the direction for future work.
使用的数据来支持本研究的结果包括在本文中。
所有的作者没有任何可能的利益冲突。
这项工作是由中国国家自然科学基金(批准号71704102)。