文摘

传统的电子商务体系结构数据管理需要适应新的和更复杂的环境,这需要提供大规模数据管理、兼容不同类型的数据,更好的用户体验。云计算技术是并行的合成,分布式计算和网格计算,是未来信息技术发展的方向。在本文中,我们使用云计算数据管理技术来研究电子商务的数据管理。希望目前的电子商务数据管理的帮助下可以提高云计算技术。本文从分析当前电子商务代表Taobao.com和京东商城发现这两个企业的数据特点,分析现有的数据问题,并找到可以改进的方面。我们使用这个开源云计算实现的解决方案,解决大文件的存储问题和非结构化小文件的电子商务系统。

1。介绍

信息技术发展异常迅速在新世纪的第一个十年,它不仅渗透到各个领域,而且也深刻影响传统社会生产和生活1]。

在21世纪,互联网的受欢迎的应用程序是现代商业的另一个革命,带来了一个新的贸易方式,电子商务(2- - - - - -4]。为个人,个人电子商务也降低了交易成本,扩展了选择,节省时间。使用网上购物,网上支付,网上银行是33.8%,30.5%,和29.1%,分别和用户规模达到1.42亿,1.28亿年和1.22亿年,分别半年增长了31.4%,36.2%,和29.9%,分别排名前三名在所有类型的在线应用程序的增长率(5]。

电子商务大致可以分为三种类型:B2B、B2C、C2C。

阿里巴巴在业内占据了绝对优势,覆盖数以百万计的中国中小企业商人。从2008年开始,B2B电子商务的追随者由Dunhuang.com和Jinyindao表现出快速发展的趋势6]。这些电子商务平台不仅完整显示企业信息流的作用但也意识到统一的三个物流和现金流。B2B电子商务企业追随者强调盈利能力和潜在价值,以及电子商务的集成的应用程序(7]。以Dunhuang.com为例,这是核心的在线交易,交易佣金为主要收入的经营模式发展。

第一阵营是市场领导者,由Dangdang.com和Excel.com (8,9]。卓越和当当是第一个建立在早期的时候没有在中国的电子商务市场。好的技术的优势、物流、支付、和受欢迎程度,他们预计将成为强有力的市场挑战者。第二阵营包括京东商城,北斗移动,新蛋,McCallum.com, InteractivePublishing.com, Qicai山谷,等等,以及一些产品的直销企业,如戴尔、分,等。这些网站在每个产品领域领先的网站和处于稳定增长状态;第三阵营是其他市场参与者和长尾网站,比如大量的个人或车间B2C网站或一些当地B2C网站(9]。这些网站有很多,但是他们的影响当前B2C电子商务在中国的市场份额是有限的。

C2C市场,淘宝是主导者,以85%的市场份额。托斯卡纳的拍拍位居第二,百度Youya位居第三。

从上面的分析,可以看出,电子商务发展迅速,最终会发展成为我们购物的方式。我们还可以看到,电子商务网站正面临着快速增长的用户群,和自己的集成功能变得越来越复杂;例如,Taobao.com开始进军B2C领域,成为整个电子商务的综合网站个人消费领域。这些都意味着电子商务网站后台数据管理面临着巨大的压力。

在21世纪的第一个十年,特别是2007年以来,出现了一种新的商业模式,这是“云计算。“这是google的供应商提出的一个概念,可以视为一个分布式计算的发展,并行计算,网格计算,或者这些计算机科学概念的商业实现10]。这不仅仅是网格技术的升级11),但云计算,一个新的网络架构模型,分配计算任务在一个资源池组成的大量的电脑,使不同的应用程序访问的计算能力,存储空间和各种软件服务。通过云计算,在未来,只需要一台笔记本电脑或手机通过网络服务来实现我们需要的一切,甚至超级计算等任务。对中小企业而言,他们可以利用信息技术为自己服务,像电力、需求,这将极大地促进企业的发展12]。

这将是一个颠覆性的概念;巨大的“云”的支持下,任何可以上网的设备相当于一台超级计算机。这是互联网发展的下一个司机,也将成为企业信息技术的驱动力(13,14]。

目前,谷歌,雅虎,微软,太阳,和许多其他公司都积极参与这一领域。谷歌努力提供api来实现的平台发展,所谓的Paas,也提供了一些在线文本编辑应用程序。微软公司为用户提供了一个统一的服务平台。在SAAS空间,Salsesforce CRM系统取得了市值超过10亿美元。在IaaS领域,亚马逊S3服务提供数据管理、和雅虎和微软提供类似的数据管理服务,分别为(15]。除了这些知名公司,许多大量的应用程序生成。

云计算是一个创新的现有技术和介质转换技术和应用程序会在互联网的各个领域产生深远影响。在这种背景下,本文试图解决大规模数据管理问题,电子商务网站需要通过云计算技术。

2.1。云计算

云计算的实现依赖于硬件和软件平台,使虚拟化、自动负载均衡,并随需应变性能。供应商在这方面主要是传统的主要硬件和软件制造商,如EMC的VMware, Red Hat、Oracle、IBM、惠普、英特尔等等。这些公司的产品的主要特点是灵活的和稳定的集群解决方案和标准化,便宜的硬件产品。

EMC (16)2009年与英特尔合作开发低功耗版本的大气压云存储系统,而美国电话电报公司的服务是建立突触,并提出建立一个统一的云架构。Red Hat (17)提供了一个纯软件云计算解决方案(支持任何行业标准硬件);4-tier云计算解决方案;通过虚拟化整合、共享和资源配置;按需在线扩展资源使用和按需支付;和Red Hat为亚马逊提供了一个云计算平台和正与Verizon的业务部署云计算服务解决方案。

谷歌是第一家提供一个开源的云存储API接口,定义了一个大规模的数据库管理系统,BigTable [18),并提供MapReduce (19分布式编程环境,不仅用于Google自己的云服务,也为云存储应用程序开发人员开发开发自己的云存储服务和云应用程序服务。谷歌开发GFS (20.](Google文件系统、集群文件系统基于SAN架构),它有一个良好的性能、可伸缩性、可用性和可靠性。

IBM的蓝色的云(21)结合了与圣GFS集群文件系统,基于块存储区域网络,SAN提供块设备接口,GFS分布式文件系统选择在这些块设备接口。为了能够安排其他文件系统修改系统同时,蓝色云使用GFS,可以策划世界各地的Linux文件系统。

2.2。云管理

Google文件系统,目前云计算数据管理的关键技术,是GFS的开发者。在干什么切割,另一个云计算研究领域的先驱,是Hadoop的创造者,目前工作在云计算发展雅虎。其他学者如Chaudhary和苏瑞(5]在网格和云计算的比较研究;王等人,李et al。21,22专注于云计算的市场和学习评价方法;刘等人。23)正在调查评价研究云计算的;盾(24)研究数据处理问题,在云计算架构;赫特和威尔默特(25专注于云计算的安全问题。刘等人。26),另一方面,研究提出了一个HDFS的修改基于一些现有系统的特点与很多小文件。

必应等人,Gani Faroque [27,28]也并行处理和分布式计算系统的专家,他们进行了认真的分析和比较研究国内外现有的云计算系统,也从事云计算数据管理系统的设计。裴et al。29日)也相对早期的研究者在云计算在中国,他们提出了网格计算池的概念早在促进云计算,现在非常活跃。在中国也有很多学者弗朗索瓦和基恩和Yu(等30.,31日),引入云计算的各种技术和正在研究这些技术的组合和影响不同的学科。也有一些学者使用现有的开源架构的发展系统。在图书馆领域的情报,学者正在研究云计算技术,目前在云计算的应用程序和库,如使用云计算技术来构建图书馆基础设施和提高服务的质量。

在云数据管理方面,除了蓝鲸分布式集群文件系统由国内学者在早期,以及一些研究蓝鲸系统,如物理资源管理、网络容错、负载平衡问题在分布式文件系统中,元数据和隔离技术,Brechtel和奥特曼6剖析当前云数据管理技术和提出未来的研究方向。也有一些学者从事云数据管理的研究(7,8]。

3所示。介绍云计算

云计算最重要的特征是高可靠性、高可伸缩性和低成本。当前云计算实现技术是基于充分利用现有的资源,可以在便宜的电脑上运行,使以前高数据处理成本低。此外,云计算系统的可靠性和可伸缩性非常高,由于广泛的采用虚拟化和最初的考虑不可靠的节点。

目前,有三个公开承认云计算服务模型:IaaS, PaaS和SaaS,电子商务平台框架。

我们首先分析一下Taobao.com[的结构7]:Taobao.com的构成大致可以分为产品模块,购物助理,用户管理模块,社区,信息模块,服务模块、支付模块、订单模块、等等,如图1

其中,然后分为深度,产品模块包括商品陈列和商品管理;商品展示部分分为淘宝详细,包括普通卖家的商品显示、淘宝商城、淘宝电动城市,彩票,淘宝旅行、和保险,如图2。在这里,普通买家商品显示部分是C2C的形式,完全的个人卖家,个人买家交易。

购物助手为用户购物是一种方便的工具,包括一个搜索模块,购物车,试衣间,看看图片购买,如图3

用户管理模块包括账户管理、我的淘宝,我的淘宝收藏下,会员俱乐部,等等,如图4

社区模块的主要成分是淘江湖,可认为是淘宝的SNS,你可以看到每个人的购物产品通过”道,“团购”周素卿霜”,通过“钱壮族和交换。“你可以看到每个人的购物产品通过“厦门份额,“使集团购买通过“Juchang”和交换他们通过“Qianzhuang。“你也可以在这里交朋友,加入主题团体——“帮派”,如图5

信息模块主要是指信息化引入不同的产品,以及购物指南信息。它还包括门户的新功能,更类似于大型门户网站。

服务模块是指为买家和卖家提供的各种服务的正常交易产品,包括厦门、厦门大学,和客户服务包括退款管理、信访、版权管理(图6)。

订单模块和订单数据可以被认为是淘宝的核心数据网站,但淘宝没有自己的物流配送;它将提供这些订单数据通过接口第三方物流提供商。订单模块是区别于买家和买家,买家:购买商品、订单查询、评价、和相应的卖家:销售商品、订单信息查询,物流设置,和评估,如图7

淘宝,支付模块依赖于支付宝网站来完成整个支付过程。通过绑定淘宝账户的支付宝账户,它无缝地连接两个网站一起完成整个事务。Taobao.com传输用户的订单信息通过一个接口来完成订单支付宝。支付宝是一个独立的在线支付网站有自己的各种组件,我们不打算在这里讨论太多。

以上这些是淘宝的近似整体结构,和一些地区不参与,产品推广等模块,然后上面这些模块是相互交叉,而不是独立的。

在下面,我们分析京东商城的结构(8]。

京东商城是一个代表性的B2C网站,这意味着京东商城作为一个卖家,所有的用户都是买家。其结构简单和淘宝相比,提供了基本的模块实现网上购物,包括产品展示、用户管理、社区服务、订单管理,和支付,如图8

产品显示的部分是类似于Taobao.com的淘宝商城和京东商城统一管理,目录分类方法也相似。

类似于淘宝的用户管理模块,实现基本的个人信息管理:密码修改、个人数据,点,优惠券,等等;个人应用管理:消息、收藏和地址管理;事务管理:订单中心、交易记录、评价等;和服务中心:咨询、退款请求,投诉等,这是连接在用户管理服务模块的实现。

这里的社区模块主要是各种主题的一个论坛,根据商品分类,允许买家发布和交换。

京东商城的支付是用支付宝的帮助来实现,杯的平台,邮局汇款,也提供货到付款服务。

管理订单,因为京东商城采用自建物流对商品交货,订单信息实现用户查询、修改和评估产品。

通过这两个网站的分析,我们可以看到,不同形式的电子商务的网站有一些共同的结构,既包括产品展示模块、用户管理、订单处理、支付模块,模块和用户交流社区。在下一节中,我们将分析数据从这些模块组成,分别为。

4所示。电子商务数据管理模型的详细设计

在本节中,我们将提供一个详细的数据管理模式在技术实现方面。

4.1。模型框架描述

提出的模型在这一节中使用多级结构,使用前端页面缓存鱿鱼,多个web服务器、页面片段缓存,硬顶存储系统,数据接口层(DAL)、Memcached分布式缓存,split-bank策略;为了实现这个框架,我们把它大致分为四层,如图9

这个电子商务数据管理模型解决的几个问题提出了部分3,对应于以下:首先,对于一个电子商务网站,pv值将高达数百万,京东商城和Taobao.com超过六百万,我们还需要建立一个前端代理服务器通过鱿鱼和ESI缓存一些片段来达到高响应性的用户访问,在ESI可以存储不同页面的重复部分相同模块提出的问题分析。

大量的用户和其他结构化数据,我们首先需要一个主从分布式数据库来存储这些结构化数据。

当用户访问这些数据,为了得到更好的用户体验和高效的系统响应,使用分布式缓存Memcached的数据库系统来改善系统响应。

模型存储结构化数据,如用户数据不同,订单数据,和评论;在这个数据库,所以一个功能部门的数据库是必需的,所以我们需要一个统一的数据接口层木豆。

然后,对于大规模非结构化数据的问题,如网络数据和图像,我们必须使用当前云计算实现技术Hadoop系统来解决这个问题,包括分布式数据库和分布式文件系统在这部分。因为谷歌的Hadoop系统本身是一个开源实现的应用系统,是非常有效的大规模数据和索引等大文件。有效处理小文件,如图片,修改到Hadoop系统是必需的。

最后,因为我们的整个系统可以看作是一个分布式系统,不同数量的服务器可以设置相应的根据用户的位置,和云计算技术的特点之一就是可伸缩性好,也可以很满意。

4.2。前端页面缓存

我们的电子商务数据管理模型必须满足的需要处理大量的数据和快速响应,这要求我们必须使用不同的缓存技术,和用户请求,第一个到达的是前端页面缓存。在该模型框架中,我们使用鱿鱼技术来实现。

现在许多大型门户网站如新浪使用鱿鱼反向代理技术来加速访问他们的网站,不同的URL请求分发给不同的WEB服务器在后台,而互联网用户只能看到反向代理服务器的地址,提高访问网站的安全性。

反向代理服务器,也称为web加速服务器位于前端的web服务器和充当web服务器缓存的内容。反向代理服务器设置为WEB服务器、WEB服务器和后端是透明的互联网用户,他们只能看到反向代理服务器的地址,并没有意识到后端WEB服务器是如何组织的13]。

还考虑到网站的负载平衡,我们使用DNS轮询技术的实现结构,如图10

4.3。分布式缓存

虽然我们已经建立了一个使用鱿鱼和ESI页面缓存系统,对于一个大型的电子商务网站,一个好的分布式缓存系统对后端数据库的高效运行至关重要。我们选择开源Memcached作为分布式缓存系统。

我们已经介绍了Memcached,高性能内存分布式缓存系统,使用键/值值和散列映射算法来确定存储位置。许多大公司在业内目前使用它来构建自己的系统。它已经被证明是非常可靠和易于使用。Memcached分布式缓存是一个辅助设备数据库。

根据算法的结果,它提出了存储的服务器节点在它应该在的地方,然后查找服务器获取数据。

Memcached分为服务器端和客户端,和在我们的模型中,客户端是Apache服务器端。

在服务器端,运行

# / memcached - d - m 2048 -l10.0.0.40 - p 11211

这将启动一个进程占用2 g的内存,打开11211端口接收请求。因为32位系统只能处理4 g内存寻址,一个32位服务器超过4 g内存使用PAE可以运行2 - 3过程和监听不同的端口。

4.3.1。Memcached-Client一边

包括一个类来描述客户端后在应用服务器端,它非常简单直接使用它。

5。实验

5.1。木豆和Sub-Banking策略

在我们的建模框架,电子商务网站设置结构化数据存储在数据库中,结构化数据包括用户信息、生成订单数据和信息在社区等,用户发布的短消息和评论其他用户。

是不实际存储在同一个数据库中所有这些不同的信息。京东商城拥有1000万用户,更不用说淘宝。为了提供一个有效的数据库实现,有必要采用一种split-database策略来实现。也就是说,根据不同的应用程序和数据库应该划分用户键值,然后使用数据库服务器集群来实现这一目标,如图11。在图11,XY轴,分别代表(单位:米)的距离,所以每个红场在图11代表了淘宝的销售模块的坐标。

如图12,x设在距离和y的长度是设在这个职位。年代是一个高性能的KV数据库和在多种语言提供的api。复述,也有明显的缺点,较弱的处理事务和不能做太复杂的模型在关系数据库中。

复述,支持存储数量相对较大的值类型,典型的字符串,列表链接表,组集,Zset命令集(排序),和哈希散列的类型,所有的支持推动和流行,添加和删除,以及更复杂的操作,比如十字路口,连接,和差集。因为这些操作都是原子的,最重要的是复述,支持各种不同的排序方式。

如图13,因为我们要考虑不同地理分布的用户在电子商务网站,我们采用的策略把数据库根据用户ID和应用程序协调。的xy轴在图13代表物理空间距离。采用这些策略之后,我们不得不面对一个不同的数据库的问题,用不同的应用程序接口,存在。因此,我们采用数据访问层(DAL)来封装所有的操作添加、删除和阅读到数据库和web服务器上提供一个统一的接口。因此,复述的出现很大程度上弥补的缺点KV存储Memcahed和是一个很好的补充关系数据库在某些情况下。

6。结论

电子商务数据管理模型的描述。网络信息被组织成三层,根据不同类型的数据在电子商务的分类,电子商务的构成一个逻辑模型,这个模型也分类的层次结构化的描述,大小的文档。在本文中,我们从分析当前电子商务代表Taobao.com和京东商城发现这两个企业的数据特点,分析数据问题,找到可以改进的方面。使用这个开源云计算实现的解决方案,大文件的存储问题和非结构化小文件的电子商务系统解决。我们分担负担的主要服务器的原始Hadoop系统添加一个真正的主服务器和修改文件格式来提高阅读效率的小文件。

数据可用性

本文中使用的数据集可以从相应的作者。

的利益冲突

作者声明,关于这项工作他们没有利益冲突。