电子商务数据分析技术研究.docx
- 文档编号:9785556
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:22
- 大小:113.87KB
电子商务数据分析技术研究.docx
《电子商务数据分析技术研究.docx》由会员分享,可在线阅读,更多相关《电子商务数据分析技术研究.docx(22页珍藏版)》请在冰豆网上搜索。
电子商务数据分析技术研究
毕业设计(论文)中文摘要
电子商务数据分析技术研究
摘要:
电子商务网站中会通过消费者的购买需求、购买时间、商品数量和价格,支付手段等数据,基于这些运营数据对他们的网站分析交易来估算每个客户的价值,针对价值的大小制定不同的客户营销策略。
网络团购,指的是互相不认识的消费者在特定的时间内在同一网站上共同购买同一种商品,以求得最优价格的一种网络购物方式.现如今,作为平台方的团购网站在面对大量报名参加团购的商品,审核过程中需要介入大量人力,对经验过于依赖。
本文主要以团购为例,对各种数据进行分析.利用决策树算法,对影响团购商品销量水平的变量进行分析,生成可读的决策树,用以辅助决策,筛选出优质的商品。
关键词:
电子商务数据分析Matlab决策树C4.5
TitleResearchontheanalysistechniquesofelectroniccommercedata
Abstract
E-commercesiteswillbethroughthepurchaseofconsumerdemand,thetimeofpurchase,thepriceandquantityofthecommodity,meansofpaymentandotherdata,ontheirsiteanalysistoestimatethevalueofeachcustomertransactiondatabasedontheseoperations,makecustomermarketingstrategyinthedifferentvalue.Thispapermainlyinthegrouppurchaseastheexample,thevariousdataanalysis.Networkgrouppurchase,referstotheconsumersdonotknoweachotherataspecifictimeinthesamesitetogethertobuythesamegoods,tofindawaytoshoponlineoptimalprice.Nowadays,asthegrouppurchasewebsiteplatforminthefaceofalargenumberofenrolledingrouppurchasegoods,needalotofhumaninterventionduringtheauditprocess,istoodependentonexperience.Usingdecisiontreealgorithm,theeffectofgrouppurchasemerchandisesaleslevelvariablesanalysis,decisiontreeandreadable,isusedforauxiliarydecision-making,selectedhigh-qualitygoods.
Keywords:
Electronic,commerce,dataanalysis,Matlab,C4.5
目次
1绪论1
1.1电子商务1
1.2电子商务发展趋势2
1.3国内外发展现状3
1.4论文主要工作内容4
2决策树的基本理论及C4.5使用方法5
2.1决策树5
2.2C4.5算法5
3建立预测分析模型及规则7
3.1数据准备和预处理7
3.2决策树的生成10
3.3分类规则解读12
3.4模型正确性评估14
4结语15
致谢17
1绪论
当消费者用户在电子商务网站上进行购买后,用户的购买行为给电子商务网站带来重要的数据支持。
在电子商务网站中就会记录下一些信息,这些信息包括客户的购买需求、购买时间、商品数量和价格,支付手段等,使我们的客户可以基于这些运营数据对他们的网站分析交易来估算每个客户的价值,针对价值的大小制定不同的客户营销策略。
电子商务相对于传统零售业,最大的特点是,一切都可以被监控,并通过数字化改进。
你可以看到用户通过数据从哪里来,如何组织产品可以实现很好的转化率,广告等等的效率如何。
根据不断变化的电子商务数据,来不断地完善营销策略,所以电子商务数据的分析处理对于电子商务企业至关重要。
1.1电子商务
电子商务(ElectronicCommerce,简称EC)是指:
在全球范围内通过网络技术手段和其他营销方式组成的一种对实体商品进行销售的方式,这个方式中可以通过电话、广播、电视信息作为宣传,从而实现商业价值。
各项业务活动进行了基于计算机网络,包括谁提供商品和服务的各方的行为,广告商,消费者,中介机构等相结合。
电子商务在实际应用中主要具备普遍性、方便性和团体性的特征,其中普遍性主要是指电子商务的一种大众化,将企业、消费者和经销商通过网络技术的手段联系到一起;方便性主要是指由于电子商务购物方式的出现,人们不必再去为了购买想要的商品去超市选购,也不必担心跨地区购买的不便,只需要在电子商务平台上选购就可以,支付过程会由银行自动处理,大大提升了购买效率;团体性主要是指购买者在购买过程中不仅可以自己独自购买,还可以根据电子商务平台中所促销的活动和别人团体性购买,这样也就可以在价格上获得优惠,还提高了购买速度。
1.2电子商务发展趋势
自从改革开放以后,我国对于经济发展放宽了一系列政策,加之网络技术的兴起,这就使我国的网络购物市场开启了一个新起点,随着这些年人们对于网络的熟悉越来越多的购物者都开始使用网购这种方式,这也就大大促进了网络购物市场的发展。
同时网络购物市场的兴起也伴随着电子商务销售数据的来临,这也是商家能迅速占领市场的关键。
电子商务企业需要对这些数据进行深入分析和挖掘,寻找客户的需求和爱好,然后通过挖掘出的信息进行下一步发展的营销策略,从而能为自己的产品吸引更多地客户。
但是对于营销策略的审核是十分麻烦的,要经过专业人士的审查分析,对于数据产生的影响因素进行考虑,研究客户的内心需求,只有将这些都考虑进去才能使电子商务平台得到更好地保障,才能留住客源,使电子商务企业更好地发展壮大
1.电子商务交易的快速增长。
据相关数据调查显示我国的电子商务购物的人群在2005年已经突破了2500万,这个数据要比2004年人数增长38.6%左右,同时营业总额也创下了新记录,大概营业额为13.505十亿人民币。
电子商务购物交易总额在2007年的统计数据中达到了21239亿元,要比2006年的交易总额高出65.9%,运营商获得的利润得到显著提高,比2006年高出49.1%左右。
在2008年对电子商务交易整体数据统计中,网络购物的用户增长了36.4%,人数达到了6329万,大大小小地电子商务企业也在不断增加,据统计全年大约有近270十亿网络交易。
据中国电子商务研究中心在2010年对电子商务市场进行的调查数据显示,我国国内已成立的网店大概有1200万家,再过半年时间也许就能突破1300万家,将会提供130万个就业岗位,市场交易总额将能达到22500亿元,给我国经济发展带来不小的促进作用。
2.快速消费群体的发展步伐。
由于我国经济的快速发展,互联网技术已经被越来越多的人所熟知,很多中小企业也开始运用网络技术制定营销策略,网络技术已经在逐渐改变着我们的生活观念和消费模式。
大多数年轻人在购买商品时都会选择在网上查看,根据对淘宝成立以来的交易数据进行调查,淘宝商城到2007年已经卖出有大概55万顶蚊帐。
而且就目前数据来看,我国每天大概有900万人都在通过电子商务平台购买产品,这些所购买的产品总价值相当于全球著名实体超市的营业额。
这个数据已经说明了中国的网购市场在不断扩大,网购人数在2009年统计时已经达到1.08亿,这要比2008年网购人数增加了46%,人口增长速度令人吃惊。
3.电子商务销售产品范围不断增加。
由于我国经济的快速发展,对于各类产品的需求也在不断扩大,电子商务在销售产品上也进行了改革,不再是单一的生活日需品和电子产品等几个方面,开始将产品范围拓展到金融、贸易、能源和大型制造产业还有虚拟产业等多个方面,已经可以满足我们日常生产多需的各类产品。
同时对于一些大型的传统产品企业,也摆脱了固有的经营模式,开始涉及到网站建设,将传统产品与网络技术结合,迅速占领网络市场,增加产品销售渠道。
在此同时电子商务企业也纷纷建立了各自的网站门户,推出了一系列的促销政策,其中较为出名的就是阿里巴巴网站、美团网、淘宝网等,这些网站都是网络购物者经常光顾的网络市场。
对此我国政府部门也在积极鼓励政府招标采购信息网络化,建立了政府专门的采购网站,改变了传统政府工程采购模式。
4.电子商务模式也在不断增加,市场日趋成熟。
随着互联网技术的推广,在我国互联网技术的应用越来越成熟,电子商务企业将网络技术和传统营销手段相结合,不再局限于传统企业的营销模式,创建了成本低廉、消费者容易接受的网络营销平台,也就是我们所说的B2C买卖模式,这种买卖模式减少了中间多个销售环节,实现了生产企业直接面向消费者。
而且企业针对不同的消费者,会将营销平台中的购买数据进行分析统计,从中找出消费者购买商品的主要心理需求和接受价位,有了这些数据就可以针对不同的消费者制定不同的营销策略,实现了消费和消费者之间的电子商务C2C模式,同时企业间更为注重的将是合作,与互联网企业的合作可以帮助电商企业在营销模式上实现突破,面临着4G时代的来临,这也将是电子商务企业和互联网企业合作的又一个高潮,将会带给消费者不一样的消费体验。
1.3国内外发展现状
对于全球电子商务市场的发展现状,美国高科技市场研究机构ForresterResearch陈对此作出了较为详细的分析介绍,全球电子商务市场正在以惊人的速度持续增长,在2009年全球电子商务交易总额已经达到了161357亿美元,这比2008年全球电子商务交易总额要高出25%,在2010年全球电子商务交易总额已经达到了194697亿美元,这比2009年全球电子商务交易总额要高出20.7%左右,这些数据正说明全球电子商务交易总额在不断上升。
在全球电子商务发展趋势呈现了城市化,在2009年全球电子商务城市化发展中全球有三个城市位于世界前列,分别是洛杉矶、新加坡、纽约,这三个国际化城市电子商务的发展一直很平稳,但是在电子商务交易总额上却十分突出。
洛杉矶在2009年电子商务交易总额数据是8970亿美元,新加坡在2009年电子商务交易总额数据是7890亿美元,纽约在2009年电子商务交易总额数据是2087亿美元,而且B2B电子商务交易规模和B2C电子交易规模也在不断增长。
随着互联网技术在我国的不断推广应用,我国电子商务企业也逐渐形成,市场需求的不断增加导致电子商务交易总额也不断上涨,电子商务企业由单一的产品结构到今天多元化的产品结构,实现了由量到质的转变,同时也获得了大多数购买者的支持。
电子商务已经成为我们日常生活中紧密相关的一部分,促进了我国经济的发展。
随着电子商务市场的不断增加,也就带动了其他产业链的形成,与之配套的就是快递物流行业和金融银行业的发展,电子商务交易量的增多导致这些业务的增加,也就为我国提供了更多的就业岗位。
由于电子商务交易的发展,各个产业链的形成,这也就形成了电子商务服务业,电子商务交易的好坏直接影响着电子商务服务的发展。
1.4论文主要工作内容
论文的主要研究方向是电子商务数据分析技术研究,根据任务要求,本论文设计的主要章节安排如下:
第一章主要通过阐述电子商务的定义、介绍了电子商务行业的由来,以及目前国外电子商务业和我国电子商务业的发展状况,同时对论文的撰写进行了详细规划。
第二章介绍了电子商务中的决策树基本理论,同时还介绍了C4.5方法使用方法。
第三章针利用决策树&C4.5方法建立销售预测模型进行数据分析。
最后,结论部分总结全文内容,提出了本课题有待于进一步深入钻研的题目,并瞻望该范畴的钻研发展趋势。
2决策树的基本理论及C4.5使用方法
2.1决策树
对于决策树的分类方法在电子商务中至关重要,必须要有指导性的分类预测,同时在这个过程中还要求有参与建模的变量,这些变量主要是作为输入角色的输入变量和作为输出角色的输出变量。
其实这个分类预测建模可以形象地认为是一个递归过程,主要的算法重点其实要集中在对于分支准则的确认。
由于影响目标变量的因素有很多,这样形成的分类规则也就不相同,这时就需要寻找一种较为简单、分类容易的表达方法,这必要界说分别的怀抱。
目前在电子商务中已经有信息增益、Gini系数等度量方式。
传统度量方式在决策树基础理论中不适用,信息观察不明确,所以决策树的方式在度量过程中占据着绝对优势,可以极为直观地观察到每一个叶节点的路径转化模式,了解IF-THEN情势的分类法则,使工作人员更容易理解和运用。
那么决策树的数据操作算法步骤主要是:
题目的提出:
1.首先要明白本课题研究的对象,要将研究题目所需的方针找出来;2.数据的提取、清洗、整理;3.模型建立:
根据数据的需求,选择合理的决策树算法,并在计算过程中不断进修;4.模型评估;5.成果诠释:
对于分类得到的结果进行进一步评价,同时也要根据实际情况对所得结果进行诠释。
对于这些步骤的开展是极为繁琐的,需要很长时间才能完成。
在本文中就采用C4.5算法对实例进行分析。
2.2C4.5算法
对于C4.5算法的产生究其根源要说起ID3算法了,在电子商务实例分析过程中ID3算法操纵信息增益值最大的属性分别训练样本,使体系值最小,但是ID3算法在实际应用中还是存在着许多缺陷的,在应用中智能处置分离值属性,而且分类方向取值较多。
然而技术人员针对ID3算法的这些缺陷进行了分析研究,在ID3算法的基础上创建了C4.5算法,不仅可以有选择性的测试属性,还可以处置持续值属性,改变了原有ID3算法存在的缺陷。
从理论上来看,C4.5算法对于那些不相关的数据会自动解除,但是在数据稀少的情况下,决策树可能会对数据算法产生干扰,导致数据结论出现偏差。
所以在对输入属性确定前,仍是要做相关性阐发。
C4.5算法的主要处理过程为:
设S是一个样本集合,目标变量C有k个分类.freq(C,S)i表示S中属于iC类的样本数,S表示样本集合S的样本数.则集合S的信息熵定义为:
如果某属性变量T,有n个分类,则属性变量T引入后的条件熵定义为:
n
属性变量T带来的信息增益为:
此时,属性变量T带来的信息增益率为:
其中SplitInfo(T)为
其实在C4.5算法中最大的选择值属性就是分裂节点,如果节点中的所有样本都属于决策树中的某一分支,这种情况下如果节点样本在分支中的个数小于一个固定阀值,那么节点样本就会停止分裂,而每个节点都可以被看作是一片树叶,节点分裂的增多就伴随着节点覆盖的范围越大,这样发展下去就会形成决策树。
根据C4.5算法形成的决策树信息数据会十分复杂而庞大,这样就会导致一些“过拟合”的问题。
决策树如果被“过拟合”了,那样在算法中出现错误的几率就会变高,所以对于初始决策树进行有用的安慰是必要的。
C4.5算法采用了后安慰(post—pruning)算法,用叶节点替换一个或多个子树,然后再对呈现几率高的叶节点进行种别分类。
步骤主要是在决策树运算过程中查找呈现盼望错误率最高的子树,对每一个子树的分分枝进行重新评估,减少盼望错误率。
若是剪去该节点致使较高的盼望错误率,则保存该子树;不然剪去该子树,末了获得具备最小盼望错误率的决策树。
3建立预测分析模型及规则
3.1数据准备和预处理
在2014年我国相关部门对某个团购网站进行了数据统计,主要针对的是该团购网站一个季度的原始数据进行分类,其中商品数据表主要有商品ID、商品价格、商品类型、团购时间、快递方式、原件、入仓、历史团购销量、网页历史浏览数量等多个字段,而商家数据表主要有卖家ID、卖家名称、店铺注册时间、店铺评价等多个字段,还有些数据不适合再深入挖掘,通过对商品数据表和商家数据表进行分析制作了一个新的宽表,在这个表格中对于这些原始数据会再次进行分析处理,然后根据商品需求和价格将选取出符合分析条件的850挑服饰箱包鞋类项目的数据。
①合并数据表:
通过对卖家数据进行整合分析,然后将商品ID作为主键再次制作了表1。
②相关性分析:
相关性分析包括:
输入变量和输出变量之间的关联与分析,输入变量之间的相关联分析。
第一要对与输出结果没有多大关系的属性进行数据删除,然后对相关数据进行整合分析,对输出结果小于0.3的数据进行删除。
紧接着要只保留一个属性,将那些相关性很高的属性删除。
表1团购商品数据实例(部分)
商品
ID
是否
入仓
是否
包邮
一级
类目
上线时间
折扣
团购价
购买性别
...
...
...
...
...
...
...
...
...
...
1540
N
N
女装
2014/3/15
4.5
96
女性
...
1618
Y
Y
女装
2014/3/15
2.8
69
男性
...
1474
N
N
男装
2014/3/16
4.2
59
男性
...
1623
Y
Y
女装
2014/3/15
3
45
女性
...
1627
N
Y
女装
2014/3/15
6
112
女性
...
1629
Y
N
女装
2014/3/15
4.5
98
女性
...
1756
N
Y
男装
2014/3/16
6
101
男性
...
1759
Y
Y
男装
2014/3/16
3
45
男性
...
1778
Y
N
男装
2014/3/16
3.5
66
男性
...
1779
N
N
女装
2014/3/16
4.5
70
女性
...
1790
N
N
男装
2014/3/17
6
66
男性
...
1801
Y
N
女装
2014/3/17
4.5
55
女性
...
1806
N
N
女装
2014/3/17
3.5
45
男性
...
1809
Y
Y
女装
2014/3/18
5
70
女性
...
1812
Y
N
女装
2014/3/18
5
93
女性
...
1834
N
Y
男装
2014/3/18
3
34
男性
...
1878
N
N
女装
2014/3/18
4.5
76
女性
...
1878
Y
Y
男装
2014/3/19
3
45
男性
...
1889
N
N
女装
2014/3/19
4
99
女性
...
1890
N
N
女装
2014/3/19
3
59
女性
...
1900
Y
Y
男装
2014/3/20
4.5
78
男性
...
1901
N
Y
女装
2014/3/20
4
99
女性
...
1908
Y
N
女装
2014/3/21
3.5
79
男性
...
1999
Y
Y
女装
2014/3/22
5
88
女性
...
...
...
...
...
...
...
...
...
...
③分类的属性能够代替连续性的属性:
连续性的数据在商品中广泛存在,在进行决策树分析的时候,通过对数据进行分散处理,能够加快数据处理的速度,所以对于数据进行分离是一种必须的情况,在这上边可以举一个例子,在进行收藏数量的统计时:
通过两个小组进行分析,:
<=1000的情况是比较小的收藏数量,而>1000则表示收藏量是比较大短期情况,在对一些基础的属性进行分析以后,就能够对畅销和不畅销进行分类,比如<=3500属于非长效的情况,而>3500表示畅销的情况,在对数据的分析之后就能够得到表2的情况,在表中可以看书,目标属性和输入属性分别是1和9,在对商品的折扣以及团购价格进行分析,并对原价计算,通过对收藏量、是否包邮以及卖家的等级和好评等多方面进行分析之后,定义了畅销和非畅销的概念。
表2待挖掘数据(部分)
折扣
团购价
原价
是否包邮
是否入仓
开店时间
卖家等级
好评率
收藏量
销售情况
...
...
...
...
...
...
...
...
...
...
4.4
89
391.6
Y
N
716
高级
99.60%
小
非畅销
5
85
425
Y
Y
419
高级
100%
小
畅销
5
268
1340
Y
N
371
高级
93.90%
大
非畅销
3.5
112
392
Y
N
716
高级
92.60%
小
非畅销
3
77
231
Y
Y
565
高级
100%
小
畅销
6
45
270
Y
N
479
高级
98.63%
大
非畅销
6
121
726
Y
N
112
高级
94.63%
大
非畅销
6
45
270
Y
Y
875
高级
100%
大
畅销
3
88
264
Y
N
453
高级
98.60%
大
非畅销
3.5
99
346.5
Y
N
648
高级
99.60%
小
非畅销
4
49
196
Y
Y
134
高级
100%
大
畅销
6
169
1014
Y
N
980
高级
100%
大
畅销
4
48
192
Y
Y
2321
高级
100%
小
畅销
5
96
480
Y
N
497
高级
96.88%
大
非畅销
3.5
33
115.5
Y
N
555
高级
99.60%
小
非畅销
4.5
78
351
Y
Y
345
高级
99.60%
大
非畅销
3
99
297
Y
N
339
高级
98.89%
小
非畅销
5.5
38
209
Y
N
980
高级
93.59%
大
非畅销
6
112
672
Y
Y
345
高级
98.60%
小
非畅销
4
49
196
Y
N
989
高级
99.60%
大
非畅销
6
40
240
Y
N
564
高级
100%
小
畅销
5.5
128
704
Y
Y
452
高级
98.60%
小
非畅销
5
66
330
Y
N
1123
高级
99.60%
大
非畅销
5
35
175
Y
N
987
高级
99.59%
大
非畅销
4
75
300
Y
Y
789
高级
9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子商务 数据 分析 技术研究