文摘
随着计算机技术的发展和人工智能时代的到来,用户需求偏好的分析对电子商务平台的操作优化具有重要意义。结合CS域信号数据,PS的IP包数据域,和客户CRM运营商提供的数据,本研究研究每个维度指数运营商用户画像,之后,操作员用户画像平台分为个别子单元,然后相应的数据挖掘技术进行学习每个单元的实现方案。系统可以处理我的多维数据运营商的用户,形成用户画像的基础上用户数据聚合。最后,基于操作员用户画像平台研究,操作员用户数据分析从用户的手机使用行为和用户消费行为。此外,本研究的应用价值的精确营销和个性化服务运营商。
1。介绍
移动通信和互联网的结合创造了当前移动互联网的时代。移动互联网的发展和增长,生成操作数据的大型电子商务平台(1]。通信业务运营商位于中心的信息交换和发射器的各种数据。他们可以使用便利的条件来获得大量的数据。因此,许多运营商有初步的了解大数据的应用价值,并试图用它来自己使用和创造效益。例如,一些运营商网络状态进行动态分析的业务平台和终端设备通过信号数据的状态,以便调整通信网络的结构和沟通价值最大化。一些运营商利用云技术我用户的个人特点,把握用户的主要需求和消费偏好准确,和不同的用户进行更精确的营销2- - - - - -4]。
然而,经过深入调查,运营商还没有完全挖掘和分析通信数据和标签显示不够精确的用户行为,只有少数有影响力的产品被开发出来。运营商更广泛的数据覆盖比互联网公司或其他公司。不过,运营商的业务主要在通信领域的多年来,这使得运营商积累的数据也与消费有关的通信费用,和有一定的限制的应用这些数据(5]。同时,运营商没有考虑数据的重要性开始他们的业务,在过去,当存储设备昂贵,运营商清理大量的数据,他们认为不重要但实际上有很大的价值。从一开始,建立运营商的业务主要集中在移动宽带和其他方面,和用户交互主要是宽带收费并提供服务。因此,运营商不能完全理解的社会和其他方面的数据不能找到好的应用场景(6- - - - - -8]。因此,运营商小noncommunication数据积累,给运营商带来了巨大的不便扩大其他服务。以及如何挖掘有用的信息包含在操作数据和优化电子商务平台的精准营销策略是一个具有挑战性的工作9- - - - - -12]。
本文的贡献是设计一种改进的客户细分的电子商务平台基于RFM模型体系。在此基础上,k——方法用于电子商务平台的进一步细分客户群,和精确的电子商务平台营销策略制定根据细分客户群的结果。此外,本文研究的电子商务平台营销策略精准营销的角度来看,和相关研究尚未涉及。
本文由五个部分组成。第一和第二部分的研究背景和相关工作。第三部分是方法和初步的。第四部分展示了数据采集和分析平台。本文的实验结果与有关比较算法进行了介绍和比较,分析了在第五部分。最后,给出本文的结论在第六部分。本文的研究给了运营商的用户画像系统,给出了实现精准营销。本文可以完成分析功能根据运营商提供的数据形式用户画像,这显示了运营商的精确营销的应用价值。
2。相关的工作
如今,许多学者研究了电子商务平台的精确营销策略优化。你们和冯13)显示,大数据在电子商务的影响精度的营销策略并讨论了电子商务行业可以准确确定消费者的消费需求和习惯。黄(14]分析了移动营销的概念,考虑到传统的伊利乳制品品牌现状地区企业,取得了一些重要的结论。Erdmann和Ponzoa15]研究食品电子商务的cost-outcome关系店内营销行为。本文研究的策略是基于应用多尔夫曼和斯坦纳的最优广告预算模型,应用于数字营销和证明的实证统计分析方法。结果表明,取决于格式和国家的区别。朱和高(16)宣布,数字营销模式的背景下,传统的零售行业正面临着前所未有的冲击,传统营销的竞争优势正在消失。因此,数字营销模型的基础上,本文进行了全面的探索和分析精度的零售营销策略并显示它们之间的差别。由于人工智能(AI)扮演着越来越重要的作用在市场分析领域,赵和壮族(17)开发了一个omni-channel chatbot相结合iOS, Android和Web组件。设计的聊天机器人是将卷积神经网络(cnn)个性化服务和精确营销。一个案例研究,共享厨房是用来说明新方法的优点,可以应用于其他消费者个性化服务等应用场景和服装的选择。
很多先进的科学技术逐渐进入电子商务平台的营销策略优化领域。例如,电子商务平台不仅可以建立他们的区块链anticounterfeiting追溯平台与第三方区块链还打球anticounterfeiting追溯平台(18,19]。郭et al。20.)开发了微分博弈模型在四种情况下,和销售模式的选择之间的关系和anticounterfeiting跟踪服务策略进行了探讨。实验结果表明,供应商的利润会受到很多方面的影响,表现出不同的效果。Shahrel et al。21)设计了一个Web应用程序称为价格警察帮助客户监控产品定价,这有助于用户计划之前购买。建立价格预测模型采用线性回归技术。LR通常用于判断预后和预测(22]。最小二乘支持向量机(LSSVM)的准确性评估通过人工蜂群(ABC)。LSSVM-ABC最初提出预测股票市场价格。戈文达拉扬和Chandrasekaran23]提出再(资讯)分类器执行比较交叉验证对现有的再分类描述。该方法的可行性和优越性显示在电子商务平台。最近,克里et al。24)回顾了销售预测的线性回归算法和资讯。
从上面的分析,在资讯的应用,现有的基于资讯的聚类方法有很多缺陷和不足;例如,他们不能优化电子商务平台的精确营销策略;没有电子商务数据的整合和分析,这将影响营销策略的建议和优化。
3所示。方法和初步
3.1。精准营销的概念
精准营销是指产品和服务营销模式,准确定位客户需求的基础上建立客户关系系统通过信息技术,有别于传统的概念,不仅可以有效降低企业的成本,还有效改善同行竞争力(25,26]。精准营销的核心在于掌握目标客户的消费水平和偏好,这需要企业充分了解客户,建立客户信息数据库的情况下最合适的条件,推动产品和服务为客户在分析和预测他们的消费偏好。大数据技术的日益成熟,越来越多的企业已经重建他们的客户关系管理模式通过精确营销方法和进一步升级他们的营销思维为核心客户群体(27- - - - - -29日]。基于现有的研究成果在学术圈和经济发展的现状,本文初步探讨了精准营销的概念,也就是说,前提是企业清楚地把握市场趋势和客户需求,他们通过大数据构建差异化和其他科技手段。精确的客户产品服务机制和客户关系管理系统进一步降低企业的营销成本,促进业务的快速、有效的发展。
3.2。k - means聚类方法
数据挖掘技术中常用的分析方法,聚类分析是将样本数据分析划分为几个不同的组织根据一定的原则,使组中的每个数据点的相似度尽可能大,不同群体之间的样本数据点的相似性尽可能小(30.,31日]。有很多种聚类算法。例如,常见的算法包括基于层次分析方法、基于密度的分析方法,分析方法基于部门,等等。许多聚类算法、k - means算法是一种最基本的和广泛使用的聚类算法。k - means聚类算法的主要内涵是每个样本数据点划分为不同的群体通过反复迭代。通过比较样本之间的距离数据点的质心,每个样本点之间的距离在同一组和不同群体的样本数据点之间的距离是最小和不同群体的样本数据点之间的距离是最大的。在k - means聚类算法,欧几里得距离通常是用来测量数据采样点之间的距离;假设输入数据集
上面的训练集样本的特征向量,样本的类别,是包含输入样本的特征空间。根据给定的距离测量,发现k点接近X在训练集T的社区X包含这些k点被称为N(k)。不要担心这里附近是什么。简而言之,社区的域设置X点。在N(k),类别Y的X决定根据分类决策规则(如多数投票),和它的公式如下:
k - means聚类算法中,一般采用以下指标来衡量数据采样点之间的距离: 在哪里代表的价值我数据点的维度变量和代表的价值我数据点的维度变量 。当 ,欧几里得距离的距离。当 ,是曼哈顿距离的距离。
当 ,是每个坐标的最大距离的距离。
资讯的分类决策规则算法通常是大多数投票规则;即多数类的K邻训练输入类的实例确定输入的类别类;它们之间的关系可以解释这样,当0 - 1分类损失函数,公式(6)分类的概率是:
错误分类的概率如下:
假设有k点最近的训练实例组成一组N(x),那么出错率给出如下:
一般来说,k - means聚类算法的应用过程包括以下四个步骤。
首先,样本数据点被分为K组,每一个都代表一个不同的类别。
第二,不同群体的初始中心是根据样本之间的欧氏距离最小的原则确定数据点。
第三,新的重心的确定。确定不同群体的初始中心后,持续优化是必要的,以确保初始中心更为合理和可靠的。样本数据点之间的欧氏距离计算,和新的质心与欧氏距离的平均值。
第四,重复步骤2和3的反复迭代,所有组术后的质心和边界的边缘团体不再明显变化;也就是说,k - means聚类分析的结果是相对稳定的,即聚类分析过程完成,最终聚类结果如图1。
4所示。数据采集和分析
4.1。数据来源分析
在分析和处理数据之前,您必须知道要处理的数据,具体的数据结构。运营商提供的原始数据主要包括三个部分:(1)CRM(客户关系管理)的数据包含基本的个人用户属性信息包括基本个人信息,身份证信息、地址信息、联系人信息、消费信息、计划信息和终端信息。(2)信号电路开关(CS)中的数据域包括电话记录,短信发送记录,和交互终端和网络之间的记录。(3)IP数据包中的数据信息包交换(年代域主要包含数据包记录在控制平面和用户平面当用户使用网络,如身份验证、授权、和会计(AAA)身份验证数据包,分组数据协议(PDP),删除和更新。用户数据主要是由网络上的用户使用。
鉴于上述数据,有必要筛选数据进一步处理之前,获得有用的信息。运营商提供的数据,这些数据的收集需要有效的数据采集单元的设计。
收集模块的总体结构如图2。Oracle数据库HDFS和水槽CRM是安装在大数据处理服务器。CRM数据收集直接通过SQL开发Oracle数据库。信号数据CS域PS和IP数据包数据域,多通道水槽采用Spooldir并行收集用户数据。代理将开始在每个节点监控目录FTP上传。当新的数据上传,源将首先格式捕获的数据,然后将它推向通道缓冲区,然后通道将数据转移到水槽。下沉的最后每个节点将数据上传到Agent3节点,将合成数据和提交HDFS实现并发用户数量的数据收集。
4.2。数据预处理和分析
4.2.1。准备IP数据包数据提取
目前,最常见的文本类别分析技术包括LDA(潜在狄利克雷分配)算法。LDA语义分析模型通过聚类是一种无监督算法实现。在培训过程中,K需要指定集群类的价值。如果K值选择不当,结果会造成不利影响。multiclassification算法是一个监督机器学习算法,它需要大量的训练数据训练模型和大量的人力来标记类别的文本数据,和最后的精度是不保证的。通过许多的比较实验,本文选择一个文本分类方案基于TF-IDF(词频率逆文档频率)算法。通过TF-IDF文本内容的关键字提取,TF-IDF的公式如下: 在哪里是这个词的频率,代表给定单词的频率出现在一个文档中。的变量代表了逆文档频率指数可以描述如下: 在哪里语料库和文件的总数吗 文件包含的数量吗 ;这个关键字比词频提取方法更具代表性和准确提取。
4.2.2。数据清理
聚类的准确性,数据清洗所需的数据之前进行分析数据聚类分析。这项工作主要讨论了数值转换的数据和统计奇点的处理和标准化。本文从IP域提取的信号数据数据包和数据在用户CRM数据清洗和过滤获得有用的数据信息,如图3。
具体的处理流程如下。
首先,从分布式存储系统读取的数据包括IP域报文分类信息并处理过的IP报文分类,在CS域信号数据,原始用户CRM数据。
之后,读取数据是数值转换和数据列分为三类进行处理。第一类的列最初是数值类型,包括声音、电话费用,交通、年龄、短信条数,网络,和其他信息,可以直接在下一步处理。第二类是列代表类别数据,包括信息,如性别和地区分类,需要映射之间的类别和数量。第三类是列的其他信息,主要包括地址信息、兴趣和爱好,可以根据标签编码处理。
用户的使用信息,在过去的两年里采取统计分析,和期望值的计算方法是根据月、周、天,分别进行后续处理。
数据标准化操作,由于语音流量的选择和电话费用数据,有数据范围相对较大的差距;例如,声音范围通常是几十到几百分钟,和交通使用可能对成千上万的字节,所以有必要进行数据标准化操作。摘要标准化方法选择偏差标准化,及其实现描述如下:
5。实验结果和分析
5.1。用户的营销分析
分析用户的消费行为的主要目的是促进语音数据的准确制定计划为特定用户提供个性化的服务。用户消费行为主要是基于用户消费的历史记录,在IP数据包流量使用情况记录,和语音通话记录从CS域信号中提取数据。下面描述了用户流量的聚类分析。数据流和电话的使用费用由聚类分析,和几个不同的K值选择实验。数据4- - - - - -7当显示集群效应K值为2、4、5、6,分别。X设在代表每月电话时间(单位:分钟),Y设在代表每月流量使用情况(单位:MB),和Z设在代表每月电话费用(单位:元)。
正如你所看到的数字增加K值,聚类效果会更详细。在这里,集群内的误差的平方和(SSE)是必要的选择K价值。图7显示了SSE-K曲线从0到20K价值,脓肿代表的价值K和纵坐标代表误差的平方和在集群(SSE)。也就是说,K被选中的经验。
从图可以看出8的增加K值,在集群中的误差平方和呈现一个下降的趋势。当K值小于6,SSE迅速降低;当K值为6,上交所慢慢减少。因此,K值被选为6。当K值设置为6,6点可以选择中部,每个中心点的坐标分析和人群特征信息标记如表所示1。基于这些消费数据,语音流量使用趋势和消费的用户可以计算出来,并将这些功能添加到用户标签系统能够促进运营商开发个性化用户包。
从表可以看出1基本调用费用可分为六大类根据用户的调用时间消费水平和交通使用标签。这六个类别可以作为用户的消费类别作为一级标签来代表用户。根据特定用户可以更准确地标记调用消费水平交通和其他标签来实现用户画像的精细描述和促进更准确的营销。
在这里,由于少量的选定的数据,很少有分类。在有大量数据时,选择的K值应该是根据具体情况而有所不同。本节进行聚类分析的三维声音交通和电话费用信息和获得分析结果,证实了可行性的选择中的k - means + +聚类分析方法研究这一主题的过程。
5.2。分析基于移动电话的使用行为
分析用户的手机使用行为可以优化运营商的服务在以下方面:(1)通过分析用户的在线时间,数据流量使用的高峰期可以清点加强操作优化(2)通过分析用户的浏览偏好和购物偏好,个性化的产品可以为用户开发和合理推向用户(3)通过分析用户的共同位置信息,基站信息可以合理的布局优化
用户的手机使用行为主要是分析数据生成用户的手机使用,期间获得的主要是基于IP的上网记录信息域包信息。基于用户的各种维度的分析特点,本文将用户兴趣分布图对准确产品制定和推动。用户兴趣分布的阶段分析用户兴趣和偏好的维度。它的重量值计算用户偏好根据用户访问的长度和时间的产品类别,并将其存储在数据库中,从而形成了用户兴趣分布。图9描述用户兴趣的用户浏览偏好两个方面(左)和购物偏好(右)。值得注意的是,浏览偏好和购物偏好是主要的用户感兴趣的两个方面。
6。结论
这项工作调查的具体应用情况下用户画像系统基于大数据技术的精准营销领域的运营商,分析集群用户画像的研究现状研究资讯,并澄清这个意义和研究的焦点。
分析处理结果的用户画像的平台,为了方便的显示结果,本文设计了用户画像的结果显示平台,进行数据的分析结果。最后,应用场景的用户画像的精确营销运营商从两个方面分析了用户的手机使用行为和用户的消费行为。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有利益冲突或者人际关系可能出现影响工作报告。