文摘
电子商务提供了各种商品的销售和采购交易和商品流动频繁。准确预测客户需求和优化分配的商品需要降低成本。现有的解决方案有重大错误和不适合解决仓库的需求和分配。这就是为什么企业不能及时响应客户的需求,他们需要准确和可靠的需求预测。因此,本文提出了空间特征融合和基于多通道数据分组策略和构建e-commodity需求的神经网络预测模型。设计模型提取顺序序列功能,消费者的情感特征,价值和面部特征从多通道数据从电子商务产品。然后,双向长短期记忆网络——(BiLSTM)提出了基于分组策略。该策略充分学习时间序列数据的上下文语义同时减少其他特性的影响在集团的地方特色。多通道数据的输出特性是高度空间相关,和本文采用空间维度融合特征融合的策略。这个策略有效地获得深度空间之间的关系通过集成多通道数据的特点,每一列每组在空间维度。 Finally, the proposed model’s prediction effect is tested using e-commerce dataset. The experimental results demonstrate the proposed algorithm’s effectiveness and superiority.
1。介绍
电子商务平台提供了大量的商品,购买频繁,交易,和商品流动。动态和复杂的商业环境为业务决策提出了重大挑战。因此,供应链库存管理变得更加复杂,成本稳步上升(1,2]。同时,供应链系统,其中包括企业、上游供应商和下游客户,正变得越来越复杂。物流(3,4)和市场相互连接并逐渐融入这个日益复杂的系统,满足客户营销活动的最终目标,因此,把客户放在第一位,利用信息技术以充分发挥其潜力,和准确预测消费者需求5- - - - - -8]。消费者对商品的需求是企业供应链流程的关键环节。电子商务商品需求预测的准确性决定了其价值,特别可靠的商品需求预测,这是电子商务的关键。错误的或不准确的预测可以显著影响产品分配和分布、破坏电子商务公司的决策效率和资源分配。更好地理解消费者的需求,企业可以创造更好的库存计划和具有竞争力的价格和及时的促销计划。它可以提高客户的满意度和服务质量,降低供应链成本,增加企业利润和品牌价值。然而,许多因素会影响商品需求预测,特别是对客户在不同地区,许多不确定的影响因素会导致需求的变化。此外,时间序列分析(9- - - - - -12在传统的销售预测技术(常用)13,14]。只有历史销售数据作为信息的来源。这些技术可以用于产品一致的或季节性的销售模式。然而,电子商务平台通常有许多非线性,非结构化多通道数据,使得传统的分析和预测困难。
幸运的是,移动互联网的兴起,低成本的传感器,和低成本的存储使得更容易获得大量的数据。我们可以收集许多其他电子商务产品的日志数据随着时间的推移,除了历史销售数据。它包括消费者评论,消费者肖像,页面浏览量(PV),搜索页面视图(SPV)、用户视图(UV)、搜索用户视图(SUV),销售价格(支付),用户位置(UL)和总商品销售(GMV)。它提供了一个广阔的应用空间与廉价的计算能力,结合时神经网络尤其是GPU性能的大幅增加。根据上述的观察,提出了空间特性基于多通道数据融合和分组策略和构建电子商务商品需求的神经网络预测模型。最初,我们认为电子商务产品的多通道数据(如历史订单,消费者评论,和消费者画像),提取不同的特征。这些特性是顺序序列功能,消费者的情感特征,价值和面部特征。最后,我们提出了一种分组策略基于双向长期、短期记忆网络(BiLSTM)。网络完全学习时间序列数据的上下文语义的影响,同时降低其他功能的地方特色。
本文的主要创新如下:(1)本文认为数值数据,如历史订单和文本和图像数据,如消费者的评论和肖像。因为非线性数据如文本和图像变得越来越重要在电子商务预测任务,分析价值增加。我们可以直观地了解客户的愿望购买特定产品使用语义情绪分析消费者的评论。我们可以描述消费者肖像和理解消费者的偏好通过计算出现水平的消费者肖像,这是有用的为提高预测模型的性能。(2)本文提出了一种新颖的分组策略考虑依赖长途和短途序列数据的依赖。递归神经网络地址的问题只是注重序列数据的长距离依赖。由于短途的依赖,当一个重要的距离分开两组特征,它们的连接较弱,和更少的信息被保留。(3)本文提出了一种新颖的空间维度融合策略。它有效地获得深度空间之间的关系通过集成多通道数据每一列在空间维度的特性。(4)该模型的预测效果验证使用一个数据集由一个电子商务平台。实验结果证明算法的有效性和优越性。
剩下的纸是组织如下。节2,相关的研究工作。节3给出的方法。节4结果和讨论解释说,其次是结论部分5。
2。相关工作
本节讨论相关工作,从各个方面了解本文中讨论的问题。
2.1。预期的对大宗商品的需求
需求预测(15,16)是一个重要的组成部分,电子商务供应链和商品库存管理。提高预测结果的准确性通过研究影响需求的因素是至关重要的。公司的补充策略和库存成本降低严重依赖于准确的预测结果。学者预测方法分为基于预测的定性和定量预测。然而,本文的研究只是看着定量预测。定量预测方法主要可以分为传统的时间序列预测,组合预测(17- - - - - -19,当前流行的深层神经网络方法。(1)传统的时间序列预测:时间序列预测方法是基于连续发展客观规律的事情。它是用来进一步推测未来发展趋势使用历史数据和统计分析。时间序列预测模型t已经广泛应用于经济领域包括增长率、移动平均、指数平滑法、随机时间序列模型、灰色模型、混沌和分形。蔡et al。20.)提出了一种基于特征选择方法的混合时间序列模型来预测股票价格的主导产业。结果表明,该模型具有更好的精度比其他模型和上市提供了令人信服的投资指导。穆斯塔法和Yumusak21)使用季节性时间序列方法预测天然气需求Sakarya省,土耳其,并获得相当大的预测结果,平均绝对百分比误差为15%。最近,Maleki et al。22)使用一个两件套混合正态分布自回归时间序列模型(称为TP-SMN-AR模型)预测证实和治愈COVID-19病例,平均绝对百分比误差为1.6%。结果是有用的疾病控制和资源配置计划。传统的时间序列预测方法已被证明是简单和有效的在处理相对简单线性数据。他们广泛应用于各行各业23,24]。然而,数据的误差相对较大的一个复杂的结构。(2)组合预测:一个单一的预测方法很难管理对于一些相对复杂和富有挑战性的预测任务。可以提高其预测的准确性通过结合合理数量的不同的方法以科学的方式。一些学者研究了组合预测方法广泛由于j·n·贝茨和c·w·j·格兰杰发表在1870年代“组合预测”。Huard et al。25)构建电子商务销售额预测模型基于霍尔特指数平滑法和线性趋势的方法。他们证明了模型的有效性Cdiscount销售数据集提供的电子商务公司。为了获得更准确的销售预测在价格战,谢长廷et al。15)调整季节性指数通过使用一个简单的移动平均线,销量的季节性指数,然后用了前一个月的数据进行回归分析。最后,获得更准确的销售预测的价格战。鲍恩et al。26)使用两个独立的ARIMA-BP非线性组合模型来预测销售在未来5天。他们建立了均方误差模型的拟合和预测结果重两个预测,可以更好地处理电子商务商品销售预测问题。组合预测模型中,一般来说,有明显的优势。例如,它可以处理一些相对复杂和困难预测任务。组合预测方法比单一方法基于传统的时间序列模型。还不如一个方法基于传统的时间序列模型。复杂的非结构化的多通道数据,然而,组合预测方法仍难以使用。(3)基于深度学习预测模型:移动互联网的蓬勃发展和大数据的到来,电子商务平台的业务变得更加复杂和庞大的数据。非线性和非结构化数据已成为最有价值的数据。传统的时间序列预测方法和组合预测方法无法应对电子商务的日益复杂和富有挑战性的任务需求预测。非线性和非结构化数据的开采和加工也有自然的缺点。幸运的是,计算机处理能力的提高和深度学习的兴起27- - - - - -29日给了我们新的方法来解决这个难题。Suchacka和Stemplewski30.)提出了一个反向传播神经网络模型来预测在网上商店购买活跃用户。神经网络的训练和评估执行使用用户数据从服务器日志数据重建。提出了深层神经网络可以实现99.6%和87.8%的召回率,并是有效和准确的预测结果。Giri et al。31日]服装图像转换成特征向量,结合历史销售数据。他们应用反向传播神经网络来预测新产品的销售。结果表明,该模型表现良好,尽管小数据集。森和林32)结合LSTM方法与情绪分析消费者的评论。在训练阶段,“淘宝”的销售数据和评论了预处理。评论的情感层面分析了“积极”的“负面”和“信心”来构建一个模型来预测短期大宗商品需求的电子商务环境。结果表明,消费者的情绪分析评论对预测结果有很大的影响。
根据审查,上述深度学习预测模型与传统的线性数值数据,如订单销售、图像、文本语义理解和其他非结构化的多通道数据。它在电子商务行业正变得越来越重要。因此,使用深度学习技术来创建相关预测模型在电子商务行业已经成为司空见惯的事了。
3所示。方法
图1是一个的整体架构算法的流程图。多通道数据的特征提取方法如下:首先,历史订单数据上执行功能工程获得所需的数据组合预测。第二,购买欲望的体重计算使用自然语言处理技术对文本情感分析消费者评估数据。消费者的面值的画像计算匹配的产品类型。我们使用n套BiLSTM深特征提取在上面的三个特征序列和传统和空间特征融合策略获得特征空间关系。最后,我们获得电子商务商品需求的预测输出通过FC层。
3.1。工程特性
特性工程是一个关键的步骤,数据预处理阶段确保最好的特性数据预测任务。本文首先执行功能建设、特征选择、特征提取和特征处理在历史订单数据。
功能建设:选择的基本功能和派生功能特性的两个主要部分施工。下面是具体的选拔程序:
提取的基本特性,首先,选择影响商品需求的基本特征,如商品本身的属性、销售量、商品市场表现,和时间。一般来说,现成的nonattribute所需特性数据的研究可以提取统计在选择基本特性。每个商品ID拥有20个基本特性,计算并提取。
本文获得的显著因素包括各种各样的商品属性,价格,市场表现,商品销售,和其他特征数据。我们使用时间滑动窗口方法处理每周大宗商品的需求和特点。一周(7天)是作为一个窗口,在其中每个商品的需求在不同的地区被称为标签。滑动窗口方法的工作原理如图2。
本文使用扩展方法来处理连续数值特性数据,因为一些历史有大量电子商务交易数据特性值,如视图和最爱的数量。另一方面,一些人相对较小的值和一个广泛的特性值范围通常不是有利于算法的收敛速度。因此,本文使用扩展方法来处理这种类型的数据生成一个意味着方差值0和1,此外,提高学习速率,然后增加模型的速度训练。因此,我们规范所有功能。标准化公式如下:
这是一个炎热的属性或类别数据的编码和分布式表示。因为这样的特征值是离散的,而不是连续的,并且没有顺序区分类别,使用的是一个炎热的编码。特征数据的维数可以减少,可以减少数据稀疏特征值的一个炎热的编码。
3.2。情绪分析
3.2.1之上。数据收集
在这个实验中,文本情感分析是用来分析评论护肤品,来自一个电子商务平台,如图3。在这个图中,一个业务平台是用于货物数据的优点是每个评论文本都有相应的明星发表评论。每个文本对应的星代表的情感倾向;我们可以把一个星期的言论的负面趋势数据和五星级的评论是一个积极的趋势数据,所以情绪分析可以进一步帮助。
每个评论都有评论明星的内容审查,产品审核,评审时间,如图3。我们可以爬评审内容和星评级从语料库和标签等相关电子商务平台。然而,每个产品的评论数据特征是正面评价的数据超过负面评论的数据。如果一个产品有负面评论,它应该被避免。当一个产品收到超过积极反馈,它将被删除从货架上撤了下来。为了解决这个问题,我们爬一个产品的所有负面评论数据,然后爬相应的正面评价。本文爬10000积极审查文本,其中大部分集中在日常护肤产品。电子商务评论文本的主要特点,如表所示1短的文本长度。这些人的产品意见,通常只有几个短句子长。这是一个严重的colloquialization。人们不重视语法时发表评论。他们写更多的随意和不遵守严格的语法和句法规则。情感语义很难把握。文本的上下文有时相对较高,因为文本是短暂的,包含大量的情感信息。有可能是一个或两个单词可以确定整个文本的情感基调,很难评估文本的情感基调。
因为麦田种植园行图像的分割是一个二进制分类任务,向量的数量在初级帽和数字大写都设置为2。胶囊的数量数字上限也设置为2。此外,本文使用ReLU函数作为激活函数网络和使用乙状结肠函数的分类。
3.2.2。分词
现有的中文分词工具JIEBA本文用于完成中文分词的任务。它使用一个标准的概率语言模型分词方法。它可以执行各种任务,包括从文本数据中提取词词性标注和关键字。的停止词和文本向量化将更容易具有良好的分词。
图4显示了一个直方图相应数量的文本基于文本的长度我们接收。可以看出,大多数的电子商务评论文本不到300字,只有几个超过200字。
3.2.3。文本向量化
word2vec模型词汇映射到高维空间效率高。该模型主要利用文本数据的上下文信息在一个更高的水平。它使用神经网络将所有文本数据映射到低维,实用,而且密集的实数矩阵。skip-gram模型如图5本文中使用,它由三层组成:输入、隐藏和输出。输入输入层的模型是在炎热的形式的词 。隐藏层cbow模型是不一样的。它没有其他用途比传输数据,输出层的目的是转移概率。最高的语言的输出向量,计算模型的结果规范化。
在图5,输入向量代表了中国的一个炎热的编码单词和相应的输出向量 。的权重矩阵的行输入与隐层代表的重量我th词的词汇。skip-gram模型的目标函数
最后,层是用来制造最后情绪分析分类的决定。的输出代表之间的相对概率不同的情感类别。假设情绪标签 ,还有总共值,这代表情绪类别。为样本 ,条件概率的计算公式如下: 在哪里代表的权向量 - - - - - -情绪类别。
3.3。票面价值计算
面部使用值计算来确定消费者的皮肤类型。就知道,皮肤有五种类型,即正常,干、油性、混合,敏感皮肤。本文构建一个CNN模型来评估面部外观,给皮肤质量分类结果。
如图6这里的网络模型是VGG16,相应的pretraining模型。的K倍交叉验证方法是在培训过程中使用。具体的想法是将数据集划分为K部分,其中之一是作为验证集,剩下的K−1部分作为训练集,重复交叉验证K次了。每一块数据将成为一个验证集。最后,平均价值将被视为准确率。
3.4。分组策略
递归神经网络的最重要的特征是使预测结合当前和以前的特征信息。目标是为了更好的保护特性之间的信息序列当我们只需要考虑最近的信息的一部分。当一个更大的距离分开两组特征,它们之间的联系是弱的,因此保留的信息更少。这种情况不仅降低了最终的预测精度,而且还增加了模型的计算复杂度。因此,GBL(分组策略是创建序列。以下是分组策略的计算公式: 在哪里代表总体特征序列,代表当地的特征序列,代表群体的数量。
提取的特征序列 , ,和从多通道数据,计算公式如下: 在哪里代表历史订单数据的提取特征序列,代表消费者评论情感,提取的特征序列代表了面部的特征序列中提取价值和皮肤类型。
提取特征的三组序列 , ,和分组削弱之间的上下文信息功能较弱的关系,加强与强大的功能之间的上下文信息的关系。基于分组策略,我们介绍了BiLSTM网络,其目的是充分获得特性之间的上下文信息在每个组序列。同时,BiLSTM网络可以更好地获取上下文信息在一定序列的一步。的计算公式基于BiLSTM网络的分组策略如下: 在哪里 代表输入的地方,新功能序列; 代表当地的新特性输出序列;代表每一组的序列号;和代表了向前和向后LSTM特征融合策略。
3.5。空间特征融合
通过分组策略在前面的小节中,我们已经完全获得了每组的局部上下文信息。然而,以确保上下文信息的完整性的整个多通道数据的特点,我们使用传统多尺度卷积和多尺度卷积腔。其目的是实现空间维度融合不同的特性。为了更直观地理解空间维度融合之间的区别和传统的融合,通过图我们已经做了一个详细的解释7。
(一)
(b)
图7(一)代表了传统特征融合策略。代表当地特色的上下文信息由第一组通过BiLSTM网络特性。后面直接拼接 ,而是背后的拼接 ,等等。新功能序列后生成拼接包括整个特征序列的上下文信息的完整性。然后,开采深度特性通过卷积和孔卷积。计算公式如下: 在哪里代表多尺度卷积的操作结果。代表多尺度卷积扩张的操作结果。代表样本的特征。代表了 - - - - - -特性的示例。代表了权重系数;代表偏见;卷积核的大小;卷积核的数量;卷积代表扩张的规模扩张;和代表的数量扩张卷积相呼应。
图7 (b)显示了空间维度的特征融合策略。这个策略集每一列的特点在每组空间维度。我们融合的第一特征第一个特征直到第一个特性 。同时,我们使用传统的卷积和扩张卷积和我相同的空间维度的特点生成深层空间维度的特点。计算公式如下: 在哪里代表地方特色的每个组的长度;代表了空间维度的多尺度卷积操作结果;和代表多尺度的操作结果扩张空间维度的卷积。
4所示。实验和结果
4.1。数据集
本文使用数据集的历史销售数据,消费者评论数据,消费者肖像护肤产品电子商务平台采集的数据。数据集包含历史信息的200种产品在一年多的时间,总共超过20000块的数据信息。通过数据清洗和工程特性,本文构造训练集和测试集,可用于神经网络。
4.2。Hyperparameter设置
的主要参数如表所示2:意味着学习速率为0.01;意味着的指数衰减率一阶矩估计是0.9;指的是二阶的时刻。估计指数衰减率是0.999。ε是设置为 。衰变表明学习速率衰减值在每个参数更新。实验的所有算法进行计算机配备一个NVIDIA GTX1080 GPU (8 GB)。
4.3。评估标准
预测问题,有必要建立预测绩效评估指标来验证预测模型的可行性和准确性,考虑到电子商务商品需求预测通常是购买和库存补给的电子商务公司。的预测误差对销售更多的商品的需求有更大的影响比销售商品后在同类错误。因此本文错误选择应该考虑预测值和真实值之间的误差,考虑误差之间的比例和真正的价值。
均方误差(MSE):这个指标是区别真正的数量和的平方,然后总结和平均的预测数量。计算公式如下:
均方根误差(RMSE):这个指标是计算平方根的平方和的比值之间的区别真正的数量和预测量观测的数量。这是用来测量之间的偏差预测数量和实际数量。计算公式如下:
平均绝对误差(MAE):该指标用于平均绝对误差。这个值更准确地反映当前状态的预测误差,即,实际的数量和预测之间的区别。下面是计算公式:
平均绝对百分比误差(日军):这个指标考虑预测和实际值之间的差别。它还计算预测误差之间的比例和在同一时间的真正价值。以下是计算方程: TP是真的阳性(小麦像素的数量正确检测到),FP是假阳性(错误的检测像素是小麦的数量),和FN假阴性(小麦像素的数量是错误的检测)。
4.4。实验结果
由于模型的最终的输出是一个概率分布,为了能够获取每个测试产品的预测价值,本文使用抽样方法输出预测值。它选择对应于最大的产品的预测输出值,测试产品需求的一部分。量的预测结果如图8。
(一)
(b)
(c)
(d)
(e)
(f)
从图可以看出8本文的模型之间有一个良好的适合的预测价值电子商务商品短期需求和实际价值。预测的值非常接近实际值。为了证明我们的模型的有效性,我们随机选择8产品在8周的测试集预测测试并使用RMSE和日军定量评估错误结果。结果如表所示3。
从表可以看出36个随机选择的商品Good_ID,预测均方根误差在2.03和3.48之间波动,日军在1.27%和1.62%之间波动。RMSE的平均值是2.6891,日军的平均值为1.41%,表明预测错误6随机选择商品的预测结果是相对稳定的,这也充分证明了本文模型的有效性。
4.5。多通道数据的烧蚀实验
在本节中,我们进行了一次消融实验多通道数据的分割。我们结合数据的三个形态观察每个部分对实验结果的影响。代表历史订单数据,代表消费者评估数据,代表消费者肖像数据。实验结果如表所示4。
如表所示4和图9同时,当考虑三种类型的多通道数据,预测模型达到最好的预测结果。其次,它也可以发现,数据误差考虑任何两种模式低于单模数据。因此,这证明了同时使用三种模式的数据的有效性。
(一)
(b)
(c)
(d)
4.6。烧蚀实验的特征融合策略
自本文模型采用传统特征融合和空间特征融合策略,深入分析了上述两种策略对实验结果的影响,特征融合进行烧蚀实验。我们假设代表传统的特性融合测量,代表了空间特征融合。实验结果如表所示5。
从表可以看出5传统的组合特征融合和空间特征融合策略达到最佳的预测效果。与此同时,也发现空间特征融合策略优于传统之一。因此,它证明了空间特征融合策略的有效性。
4.7。比较实验
进一步验证该模型的有效性和优越性,本节适用于其他预测方法的验证和比较相同的数据集。比较模型主要选择ARIMA和MLP-LSTM。
从表6和7,我们可以综合比较三种模型的性能对大宗商品需求预测任务6。我们发现这三个模型对不同的商品有不同的表演的RMSE和日军。然而,从整体的角度,预测误差的波动6测试商品在这个模型是小于ARIMA模型和MLP-LSTM,表明它具有更好的精度。
5。结论
对于电子商务企业来说,准确和可靠的电子商务商品需求预测是至关重要的。空间特性提出了一种基于多通道数据融合和分组策略。它建立了一个神经网络预测模型,以电子商务商品需求。首先,消融实验证明多通道数据预测任务的积极影响。这表明,消费者评论和消费者肖像是需求预测的重要影响因素。此外,我们还发现,该特性三个模态数据之间的关系并不是独立的。然而,有密切相关的关系,我们称之为空间关系。空间特征融合的优越性是通过消融实验证明的。最后,电子商务产品数据集生成的电子商务平台是用来测试该模型的预测效果。实验结果证明算法的有效性和优越性。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
所有的作者没有任何可能的利益冲突。