复杂性

PDF
复杂性/2020年/文章
特殊的问题

人工智能的智能系统仿真

把这个特殊的问题

研究文章|开放获取

体积 2020年 |文章的ID 6689304 | https://doi.org/10.1155/2020/6689304

Kaicheng冯,Xiaobing刘, 自适应关注消费者对电影票房预测的前哨”,复杂性, 卷。2020年, 文章的ID6689304, 9 页面, 2020年 https://doi.org/10.1155/2020/6689304

自适应关注消费者对电影票房预测的前哨

学术编辑器:Abd e . I。baset Hassanien
收到了 2020年11月04
修改后的 2020年11月14日
接受 2020年11月19日
发表 2020年12月07

文摘

提高电影票房预测精度,本文提出了一种自适应的关注与消费者前哨(LSTM-AACS)电影票房预测。首先,电影票房的影响因素进行了分析。解决问题的忽视消费者团体在现有的预测模型,我们添加消费者特性,然后定量分析和规范化票房影响因素。其次,我们建立一个LSTM(长短期记忆)票房预测模型和注射的注意机制来构造一个自适应注意消费者对电影票房预测的前哨。最后,10398块电影票房数据集用于Kaggle竞争与LSTM-AACS模型预测结果进行比较,LSTM-Attention模型,LSTM模型。结果表明,LSTM-AACS预测的相对误差是6.58%,低于其他模型用于实验。

1。介绍

电影票房,作为电影发展水平的指标,已经吸引了各行各业的极大关注。目前,电影票房的预测已经成为最热门的研究学者之一1]。线性回归和非线性回归模型用于构建社会媒体电影票房预测模型提出了(2]。一种新的电影票房预测方法提出了基于两级和两次代理变量(3],它可以预测ʼ第一周票房通过使用一些preindicators电影之前获得释放。一个影响电影票房的因素主要是分析(4]。他们分析了名人影响票房的影响。他们认为名人的影响是正相关的票房。竞争因素具有类似电影释放时间标准回归测试框架,和更简化的实证模型提出了(5]。BRP反馈神经网络提出了解决电影票房预测和分类问题(6]。使用BP神经网络的预测模型有以下的缺点。(1)模型的离散化中使用二进制量化各种影响因素的电影票房7]。这些变量不是根据实际情况处理,和之间的差异不同的影响因素不能完全表达。(2)使用BP神经网络进行训练时,很容易陷入局部极值的问题(8]。

LSTM [9)是一个递归神经网络的时间。电影票房预测提出了基于LSTM模型(10]。这个模型可以解决BP神经网络只使用简单的布尔系数值。它可以映射尽可能多的电影票房影响因素的输入和输出。然而,它的电影销售影响因素分析不全面,预测结果仍有较大的相对误差。

解决目前电影票房预测问题,本文提出了一种自适应的注意力LSTM模型与消费者的前哨。与传统LSTM相比,该模型提出了一种关注消费者的前哨。一方面,它可以充分考虑电影消费者信息对电影票房的影响和改进模型的输入。另一方面,自适应的关注可以捕获输入更积极地情感信息,从而进一步提高预测精度。具体地说,该模型是基于LSTM模型(AAM)注入自适应注意消费者的前哨。消费者可以识别的影响电影票房的影响因素从更多的维度和解决长期存在的问题在票房预测无视消费者的信息。使用LSTM考虑随机波动和长期的电影票房。LSTM还记得很长一段时间的信息预测电影票房。注射一种自适应的关注可以捕捉情感输入信息,它提供了一个保证电影票房预测结果的准确性。该模型为电影提供了一定的参考价值投资者在电影风险控制,它可以有一定的电影发布时间表和计划值具有实际应用前景。 The contribution of this paper can be summarized as follows. (1) To improve the movie box office prediction accuracy, this paper proposes an LSTM model with an AAM and consumer sentinel (LSTM-AACS). It can better capture consumer characteristics, thereby improving prediction accuracy. (2) The LSTM-AACS model is applied to the prediction of the movie box office and achieves good results. The results show that the relative error of LSTM-AACS prediction is 6.58%, which is lower than other models used in the experiment.

2。文献综述

有许多因素包括投资、导演、演员,续集和扮演一个角色在促进和指导这部电影票房ʼ年代。在[11),6个独立变量的电影投资选择;电影质量、导演、演员、电影续集,和盗版。他们建立了一个线性回归模型对影响因素和电影票房。提出了一种半参数方法来处理非参数的随机效应(12]。比较电影评论家的评论的例子使用相邻的logit模型类别和logit模型相关的基线类别。虽然这种方法消除极端数据的影响,这也使得数据信息不足的使用。

上述研究提供了重要的参考当选择影响电影票房的因素。然后,他们使用了Sawhney Eliashberg模型预测的累积数量的观众的电影几周后发布(13]。其现实意义是,在电影上映的生命周期,电影院可以动态地调整投影策略。例如,电影制作人可以扩大或减少影院的数量显示电影,改变投射期间,等等。然而,这种方法有以下的缺点。(1)当使用多元线性回归算法来预测累计观众在第一周,一些电影影响因素(电影拷贝,用户评分、剧院,和观众年龄)被认为是,它没有考虑电影的特殊属性来吸引观众。这导致了一个特别大的第一周的预测误差。(2)这种误差会累积在扩散模型用来预测观众的数量在未来几周内,这将影响最终的预测精度。

基于多层神经网络算法,多影响票房的电影属性组合(14]。他们提出了一个电影票房分类模型和使用分类精度为主要指标来评估模型的分类性能。他们取得了良好的分类结果。然而,这种方法使用二进制离散数字量化各种影响因素的电影票房,这显然是一个模糊的处理方法。这些变量不是量化的根据实际情况,所以他们不能充分反映不同变量的影响因素。此外,电影票房的分类预测模型的输出层也含糊不清,使每部电影票房的分类级别太大。这种分类的相关性值电影投资者和电影院的电影制作成本控制和筛选。多通道深神经网络提出了电影票房收入预测(15]。CNN建于从电影海报中提取特征的。然后,多通道深神经网络建立了利用电影海报的特性和其他约翰逊说近来电影相关的数据对电影票房收入的销售预测。此外,美国有线电视新闻网从电影海报的特点进行了分析。然而,这项研究并没有专注于建造更多的多模款,也没有合并音频和视频数据与电影有关。在[16),混合社会推荐系统利用深autoencoder网络介绍。该方法采用协作和基于内容的过滤,以及用户的社会影响。计算每个用户的社会影响是基于他/她的社会特征和行为在Twitter上。评价目的,所需的数据收集从MovieTweetings和开放的电影数据库。然而,在这项研究中使用的数据集是不够全面,可能限制在预测精度。

LSTM-AACS模型用于本文使用基于自适应LSTM模型的关注。很多工作LSTM模型提出了基于注意力。的引起LSTM模型提出了金融时间序列预测15),模型预测可以通过关注直觉地理解向量。此外,他们的关注时间和因素使人们更容易理解为什么某些给定时间序列趋势预测当访问表。他们也修改了损失函数的使用加权分类crossentropy注意力模型。然而,有一个缺点,长期预测的误差很小,和短期预测的性能并不理想,高的错误。开幕式预测框架建立了预测股票的价格(16]。他们通过小波变换处理股票数据,使用一种引起LSTM神经网络来预测股票开盘价,具有优良的结果。然而,仅仅考虑到历史数据对价格趋势的影响过于单一,不能全面、准确地预测价格在给定的一天。一种引起长期短期记忆网络aspect-level情绪分类提出了(17]。注意机制可以专注于一个句子在不同方面的不同部分被作为输入。然而,它的缺陷在于,分别输入不同方面,同时,它没有意识到建模的多个方面的注意机制。一种引起LSTM网络提出了跨语言情绪分类(18]。他们使用双语双向LSTM模型的序列词在源语言和目标语言。基于情绪分类任务的特殊性,他们提出了一个层次化的关注与LSTM共同训练网络模型。基准数据集上的模型取得了可喜的成果与中国作为源语言和英语作为目标语言。然而,问题是,模型中不涉及更多的性能数据和更多的语言对。一种引起LSTM模型提出了标签推荐的任务(19]。他们采用的架构LSTM避免手工的特性。他们的模型包含主题建模到LSTM架构通过注意机制和接管的优点。通过评估运行在大型数据集从Twitter,他们已经表明,该方法优于竞争基准方法有效。然而,目前的工作没有考虑使用其他类型的数据在微博标签推荐(20.]。

上述主要问题如下。(1)它在短期预测表现良好,但长期预测的效果并不理想。(2)模型的输入数据不全面,导致预测结果只在一个特定的数据集达到较高的预测精度。(3)结果的影响因素在预测问题不考虑全面,如忽略用户信息,导致预测精度较低。基于上述问题,我们提出一个麦电影票房预测消费者的前哨。与消费者前哨,它可以解决忽视消费者团体的问题在之前的预测。麦可以捕获有效输入信息。最后,基于上述两种算法LSTM模型用于预测电影票房和与其他模型进行比较。实验表明,预测精度的麦电影票房预测模型与消费者哨兵比其他模型用于实验。

3所示。自适应的注意机制与消费者的前哨

3.1。框架设计

框架如图1。可以看出,本文将消费者信息添加到之前的电影票房影响因素和注入一个麦LSTM神经网络(其结构所示蓝色的盒子,和消费者哨兵是输入到模型作为特征,然后结合机制的关注训练LSTM模型)。这提高了预测精度。

3.2。确定影响因素
3.2.1之上。电影的因素

本文运用历史盒电影办公室数据的统计分析在中国电影市场的实际情况相结合。本文选择导演、演员、电影流派,国家,和发布数据作为电影的影响因素(如电影ʼ年代信息输入)。本文然后向每个因素分配不同的权重。计算方法将详细解释4.1

3.2.2。消费者团体

基于考虑电影ʼ年代的影响因素中提到的部分3.2。1,本文增加了电影的消费群体的年龄信息。这是因为每个电影必须有它的观众。例如,军事主题更适合青少年和上面观看,而漫画有更多孩子的观众。一般来说,老年人很少去电影院看电影等等。消费者的年龄信息作为输入信息,权重分配,共同预测最后的电影的票房。

3.3。长期和短期记忆网络层

LSTM是一种改进RNN(递归神经网络)模型解决问题的梯度爆炸或梯度消失在RNN培训。不同于单一的双曲正切循环结构标准RNN LSTM是一种特殊的网络有三个“盖茨”[21,22]。他们忘记门,输入通道和输出通道。忘记门口负责选择忘记过去无效信息。输入门负责确定有用的新信息存储在细胞状态。门的输出决定了输出信息。进程的内存模块状态更新和信息输出如下:(1)LSTM的核心是细胞:细胞状态是整个模块的内存传输带,随着时间的变化。传送带本身不能控制哪些信息是记住了。忘记门、输入通道和输出通道发挥控制作用。(2)忘记状态信息:选择输入 在当前时刻和内存单元状态信息 前一刻,然后使用 函数输出值[0,1]来表示的程度需要保留历史信息: (3)更新状态信息和有用的新信息存储在细胞状态。首先,计算输入的值。输入通道的功能是控制当前的数据输入如何影响内存单元的状态值。然后,计算候选内存单元信息 在当前时间t,其中包含要添加新的信息。最后,合并旧的细胞状态 (用于忘记)与新候选人的信息 确定更新信息: (4)输出信息:首先确定哪些国家将输出的一部分。最后,获取内存单元的输出信息在当前时间之后的值输出门和状态信息的内存单元进行双曲正切变换:

3.4。自适应的注意机制层

本文增加了麦层(22)的方法,该方法能够更好地捕捉情感信息在电影票房数据,掌握核心数据信息。它克服了问题的标准LSTM模式使用相同的状态向量的每一步预测,其结果无法完全了解序列编码的详细信息在预测。特定的扩展方法是基于原始LSTM模型,添加两个公式: 在哪里 输入LSTM和吗 是随后的模型需要的参数矩阵的火车。 是一个存储单元,称为哨兵门。它类似于输入门,忘记门,门在LSTM输出。公式的结构类似于(4)。向量 在麦可表示如下: 在哪里 可以被看作是一个哨兵门真正意义上的控制模型关注的程度 的表示 如下:

同时,注意分配 K地区的麦也被扩展到 拼接的方法是一个元素 : 在哪里 k+ 1的元素,和的表达 如下:

最后,矩阵的概率分布可以表示如下: 在哪里 是随后的模型需要的参数矩阵的火车。输出变量 最后通过一个完全连接层和softmax分类器,从而总结电影票房的预测。

4所示。实验和讨论

4.1。标准化的影响因素

本节将详细说明影响电影票房的因素并给出了相应的定义。与此同时,每个属性的量化过程将电影的票房数据LSTM-AACS训练集的建设做准备。

以下4.4.1。导演

定义电影票房导演的影响指数为 在哪里意味着董事数量,j代表了j电影拍摄的导演,k表示本周的版本,意味着电影最接近的释放时间与当前时间在所有导演的电影拍摄, 代表的票房k最新的j电影。此外,票房影响体重DirectorWeight由导演执导的电影可以得到如下: 在哪里 在哪里代表董事的数目和Diri代表的影响导演。

4.1.2。演员

定义票房的影响演员指数为 在哪里意味着演员数量,j代表了j电影拍摄的演员,k表示本周的版本,意味着电影最接近的释放时间与当前时间在所有演员的电影拍摄, 代表的票房k最新的jth电影, 参与系数jth电影演员最近参加了,定义如下: 在哪里n是一个正整数,表示订单的男演员吗j电影。此外,体重ActorWeight票房的影响影片的导演演员可以得到如下: 在哪里 在哪里代表了演员和的数量一个代表的影响演员。

4.1.3。电影流派

定义电影票房的电影流派的影响指数为 在哪里意味着类型号码(= 1,2,…,9),k表示本周的版本,代表本周筛选的类型,j代表了j属于类型的电影, 代表的票房j电影的内容类型k它的发布。体重GenreWeight票房的影响电影的风格可以得到如下: 在哪里

4.1.4。国家

定义票房电影的影响指数为 在哪里意味着国家数量(≤1≤5)的价值从1到5对应于欧洲,美国,日本,韩国,香港,台湾,中国大陆,和其他地区,k表示本周的版本,代表了电影的数量分布的国家属于区域,j代表了j在分配国家电影, 代表的票房k的释放j在分配国家电影。体重NationWeight票房的影响影片的导演的国家可以得到如下: 在哪里代表发行区域的序列号, 代表发行区域的影响, 代表签发的重量影响区域j

4.1.5。数据

定义票房发布数据的影响指数为 在哪里意味着数据数量(≤1≤4)的价值从1到4对应的农历新年文件,第51文件,夏天文件,最后文件。k表示本周的版本,代表总数的电影上映日期的时间表,j代表了j电影属于数据, 代表了票房在生成的数据k的发布日期j电影上映日期的安排。重量DataWeight措施类型电影的票房影响归因于该类型: 在哪里 在哪里代表数据的序列号D代表数据的影响

4.1.6。消费者团体

本文分为4年龄:18岁以下,18-45,46 - 69年,69岁以上的老人。定义票房电影的影响指数为 在哪里意味着年龄组人数(≤1≤4)的价值范围从1到4对应于年龄在18岁以下(不含18岁),18-45岁,46 - 69岁和69岁以上(包括69岁),k表示本周的版本,代表电影年龄组的总数,j代表了j电影在分销时代, 代表的票房k的释放j电影在分销时代。体重AgeWeight票房的影响这部电影被年龄组可以得到如下: 在哪里 在哪里代表了序列号的年龄和年龄代表了年龄的影响

4.2。模型参数

在LSTM-AACS模型中,我们设置了辍学率至0.5。培训期间,一小批随机梯度下降法用于减少培训损失,minibatch是设置为64。在分析预测结果,使用相对误差进行分析。本文使用电影票房预测数据集Kaggle竞争。在获得电影票房预测数据,预测结果的相对误差计算公式如下:

4.3。实验结果的比较和分析
4.3.1。错误的比较

在实验中,crossvalidation的结果进行了分析。本文随机拿出第一个3000块的数据从10398年数据作为训练集,最后7398块的数据作为测试集。学习时做30次训练模型,然后应用十crossvalidation轮。最后,这两个模型的平均相对误差如表所示1


方法 平均相对误差(%)

LSTM 28.54
LSTM-attention 11.45
LSTM-AACS 6.58

从表可以看出1LSTM时间序列的平均相对误差和LSTM-Attention,使用十crossvalidation,高于模型的相对误差提出了。这表明LSTM-AACS模型比LSTM模型和一般LSTM模型与关注电影票房预测。

随机选择从测试集预测结果的几个电影,人物2显示部分的相对误差的比较两个模型在训练集。

从七个随机选择的电影,可以看出LSTM-AACS模型预测的相对误差的测试集低于LSTM模型预测的相对误差和LSTM-Attention模型。LSTM-AACS模型的预测结果相对更准确,性能得到了改进。

4.3.2。结果比较

为了使模型都有长期和短期预测能力,我们比较长期LSTM-AACS模型的预测能力,LSTM-Attention模型和LSTM时间序列模型。我们也比较和分析电影票房数据Kaggle竞争。此外,我们选择Maoyan电影的票房数据来预测短期内票房。考虑到前几年的经典电影,本文选择Dangal;我的人,我的国家;狼战士二世和速度与激情7电影来预测他们的累计票房。使用这些电影,本文比较了实际价值,预测价值,绝对不同,分别和三个模型的相对误差。具体结果如表所示2


电影的名字 真正的(1亿) LSTM LSTM-attention LSTM-AACS
预测(1亿) 绝对误差(1亿) 相对误差(%) 预测(1亿) 绝对误差(1亿) 相对误差(%) 预测(1亿) 绝对误差(1亿) 相对误差(%)

Dangal 12.99 14.31 1.32 10.16 13.98 0.99 7.62 13.18 0.19 1.46
我的人,我的国家 31.71 35.42 3.71 11.70 33.67 1.96 6.18 32.59 0.88 2.78
狼战士二世 56.92 60.21 3.29 5.78 58.66 3.10 5.45 58.34 0.52 0.91
速度与激情7 24.27 27.66 3.39 14.00 25.78 1.51 6.22 25.57 1.3 5.36

从表可以看出2LSTM-AACS模型在预测的相对误差的累积票房上述四个电影低于LSTM模型的预测结果的相对误差和LSTM-Attention模型。这证明了可行性LSTM-AACS模型的提出在预测电影票房。这也证明了LSTM-AACS模型可以更好地评估投资者对电影的影响。

5。结论

解决问题的忽视消费者因素和较低的电影票房预测的预测精度,本文提出了一种自适应的关注电影票房预测模型与消费者的前哨。消费者数据的实验结果表明,引入到预测模型可以提高预测精度的基础上电影的影响因素。相比单一LSTM模型和一个LSTM模型关注机制,与麦LSTM模型具有更好的预测能力对电影票房预测。在未来,该模型可以进一步优化丰富专家经验的特点,引入更多的消费特点,并添加影评作为一个影响因素。

数据可用性

使用的数据来支持这个研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

  1. p . Nagamma h·r·Pruthvi k . k .尼莎和n . h . Shwetha”一种改进的在线电影评论的情感分析基于集群票房预测”学报》国际会议计算、通信和自动化诺伊达,页933 - 937年,印度,2015年5月。视图:谷歌学术搜索
  2. 陈x t . Liu叮,y, h . Chen和m .郭”预测电影票房收入利用大规模社交媒体内容,“多媒体工具和应用程序,卷75,不。3、1509 - 1528年,2016页。视图:出版商的网站|谷歌学术搜索
  3. f·w·德里克:A . Williams和c·e·斯科特,“一个两级代理变量方法估计电影票房收入,”文化经济学杂志,38卷,不。2、173 - 189年,2014页。视图:出版商的网站|谷歌学术搜索
  4. r·a·尼尔森和r . Glotfelty电影明星和票房收入:一个实证分析,“文化经济学杂志,36卷,不。2、141 - 166年,2012页。视图:出版商的网站|谷歌学术搜索
  5. j . Prieto-Rodriguez f . Gutierrez-Navratil,诉Ateca-Amestoy”剧院分配作为一个经销商ʼs战略变量/电影,”文化经济学杂志,39卷,不。1,第83 - 65页,2015。视图:出版商的网站|谷歌学术搜索
  6. j . Du h .徐、黄x”票房预测基于微博,“专家系统与应用程序第41卷。。4、1680 - 1689年,2014页。视图:出版商的网站|谷歌学术搜索
  7. l . Zhang, j·罗和s .杨”预测和BP神经网络的电影票房收入,”专家系统与应用程序,36卷,不。3、6580 - 6587年,2009页。视图:出版商的网站|谷歌学术搜索
  8. k·Greff, r·k·斯利瓦斯塔瓦j . Koutnik b . r . Steunebrink,的和j。施密德胡贝尔表示“LSTM:搜索太空漫游”,IEEE神经网络和学习系统,28卷,不。10日,2222 - 2232年,2016页。视图:谷歌学术搜索
  9. m . Sundermeyer r . Schluter h·奈伊,“LSTM神经网络语言建模”《第13届国际言语交际协会会议2012年9月,波特兰,或美国。视图:谷歌学术搜索
  10. c·杨,w .江,d .邵”电影票房预测算法基于LSTM模型,”数据通信,5卷,p。9日,2019年。视图:谷歌学术搜索
  11. p·马歇尔,m . Dockendorff Ibanez说,“电影上座率的预报系统,”商业研究杂志》,卷66,不。10日,1800 - 1806年,2013页。视图:出版商的网站|谷歌学术搜索
  12. j . Hartzel a Agresti, b . Caffo“多项logit随机效应模型,”统计模型:一个国际期刊,1卷,不。2、81 - 102年,2001页。视图:出版商的网站|谷歌学术搜索
  13. d .酒吧间招待员:Chowdhury, r·k啤酒”来预测可能的利润/亏损电影推出使用MLP与反向传播学习。”《2012年国际会议上沟通,设备和智能系统(CODIS)所用,页322 - 325,加尔各答,印度,2012年12月。视图:谷歌学术搜索
  14. r . Sharda和d . Delen”,与神经网络,预测电影票房成功”专家系统与应用程序,30卷,不。2、243 - 254年,2006页。视图:出版商的网站|谷歌学术搜索
  15. 张周y l ., z,“使用深层神经网络预测电影票房收入,”神经计算和应用没有,卷。31日。6,1855 - 1865年,2019页。视图:出版商的网站|谷歌学术搜索
  16. h·塔玛色比r . Ravanmehr, r . Mohamadrezaei”社会的电影推荐系统基于深autoencoder网络使用Twitter数据,”神经计算和应用,1卷,2020页。视图:谷歌学术搜索
  17. 金和m .康”系列金融LSTM预测使用的关注,”2019年,http://arxiv.org/abs//1902.10877视图:谷歌学术搜索
  18. j·李,美国x, l·黄和朱x,“基于机器学习的方法,预测客户的行为,”Tehnicki Vjesnik-Technical公报,26卷,不。6,1670 - 1676年,2019页。视图:谷歌学术搜索
  19. x z l . Wang,汉族,r·周“引力理论基础亲和力传播聚类算法及其应用,”Tehnicki Vjesnik-Technical公报,25卷,不。4、1125 - 1135年,2018页。视图:谷歌学术搜索
  20. j . Niresh:医生,g .阿南德•拉杰”使用MOPSO线性被动悬架系统的优化和设计人工神经网络的预测工具,”在信息学的研究和控制,28卷,不。1,第110 - 105页,2019。视图:出版商的网站|谷歌学术搜索
  21. x粉丝,h·林,杨l . et al .,“语音学和歧义理解的关注网络幽默承认,“复杂性卷,2020篇文章ID 2509018, 2020。视图:出版商的网站|谷歌学术搜索
  22. l . n . Wang, y郑,x Cai, x梅,和h·戴“tri-attention神经网络模型的建议,”复杂性卷,2020篇文章ID 3857871, 2020。视图:出版商的网站|谷歌学术搜索

版权©2020 Kaicheng Xiaobing刘冯和。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

对本文没有相关内容可用。
PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点274年
下载417年
引用

相关文章

对本文没有相关内容可用。

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读