统计建模论文网店曝光率价格好评与店铺销量的关系模型.docx
- 文档编号:30304583
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:25
- 大小:505.25KB
统计建模论文网店曝光率价格好评与店铺销量的关系模型.docx
《统计建模论文网店曝光率价格好评与店铺销量的关系模型.docx》由会员分享,可在线阅读,更多相关《统计建模论文网店曝光率价格好评与店铺销量的关系模型.docx(25页珍藏版)》请在冰豆网上搜索。
统计建模论文网店曝光率价格好评与店铺销量的关系模型
网店曝光率、价格、好评与店铺销量的关系模型
摘要
一、问题分析
(一)问题描述
(二)研究对象选取
(三)指标选择
二、数据采集与信度分析
(一)数据采集结果
(二)信度分析
三、模型假设与符号说明
四、模型的建立与求解
五、模型的验证与优缺点分析
(一)模型的验证,适用范围以及可靠性
(二)模型的优点
(三)模型的缺点与改进
①综合好评的单向分析
②物流速度、描述与服务质量和销量的关系
③综合排序名次高低对曝光率的影响
结论
参考书目
附录
表格和插图清单
图1gtx960显卡的价格分布图3
图2电风扇的价格与销量分布4
图3电风扇的销售组与商品数4
图4电风扇的价格组与组内销售5
图5gxt960模型模拟图15
图6gtx970模型模拟图17
图7销量与综合排名次序图20
表1爬虫后原始数据7
表2修改少数好评率后的数据8
表3统计结果8
表4Cronbach'sAlpha系数9
表5研究的变量9
表6好评与三变量之间的主成分分析12
表7主成分分析12
表8销售与好评的关系13
表9销售与价格的关系14
表10销售与曝光率的关系14
表11gxt970的数据16
表12收藏数对销量的影响16
表13物流、描述、服务态度对销量的影响18
表14“店铺比较值”表19
表15综合排序表19
公式1Cronbach'sAlpha系数的计算公式9
摘要
由于近年来互联网行业的蓬勃发展,越来越多的人把电子商务看成一棵“摇钱树”,而如何提高销量便成为了盈利的根本。
本文以gtx960显卡作为代表,进行了网店曝光率、商品价格以及好评率与商品销量之间关系的研究。
`
首先我们查阅了相关资料,确定了店铺销量与曝光率、价格、好评之间的定性关系,并探讨了它们的组成因素。
随后我们设计了爬虫程序,从淘宝上直接获取数据并对其进行了信度分析以确保数据的可靠性,然后再初步分析数据。
最后我们建立了模型,先用因子分析来研究好评这一因素,再分析销量与曝光率、价格、好评之间的定量确定了大体的公式。
这个分析中我们是将淘宝上所有关于该商品的数据都用程序扒下来,没有采取随机分析法(即抽样调查)的方法。
虽然数据量并没有达到几十万这样的数量级,但是分析的方法和对大数据的分析是一样的。
关键词:
电子商务淘宝网因子分析回归分析
一、问题分析
(一)问题描述
近年来随着互联网的发展,使用网络进行购物逐渐成为大家生活的常态,越来越多的人涌入电子商务领域。
如何才能在激烈的竞争当中脱颖而出,提高店铺的销量,获取更多的利润,成为了网店店主最为关心的问题。
通过观察我们发现,一家店铺的曝光率、商品的价格以及好评率与其销量有着紧密的联系。
那么店铺的销售量与这三大因素究竟有怎样的关系,便是一个值得探究的问题。
`
(二)研究对象选取
在本次研究中,我们选择了gtx960显卡这款产品来进行分析。
由于其价格相对昂贵,可模仿性几乎为零,所以质量在价格上的反应比较真实,可以在较大程度上排除以次充好、恶意压价以提高销量、恶性竞争的商家。
因此,相比其他产品而言,我们发现gtx960显卡的价格分布比较均衡。
图1gtx960显卡的价格分布图(横坐标为编号,纵坐标为价格)
而对于一些相对廉价,易于模仿的产品,它的价格分布就很不均衡,不同品牌的产品之间价格相差极大。
从以下电风扇的例子就可看出。
图2电风扇的价格与销量分布
(H:
价格/V:
销量)
图3电风扇的销售组与商品数
(H:
销量组/V:
商品数)
图3中对“销量”这组数据进行了简单处理——以500条数据中销量的最大值为100,将销量等分为100组,统计每组的商品数量,即样本数。
图4电风扇的价格组与组内销售
(H:
价格组/V:
组内销量)
图4中对“价格”进行处理——将500条数据中价格最高的定为100,最低的定为0,然后等分为100组,将组内商品的销量累加即为本组价格对应销量。
因此,gtx960显卡可以作为一个典型来进行分析。
(三)指标选择
现在常见的网店有c2c,c2b,b2c,b2b等模式,本文仅研究访问量较大、使用最普遍的c2c模式下的淘宝网店。
首先,根据常识我们可以知道:
在竞争产品条件相似的情况下,一件商品的销售量与价格呈负相关,与曝光率、好评呈正相关。
对于网店这一规律也成立。
除了自变量(网店曝光率、价格、好评)和因变量(店铺销量)之间存在关系之外,我们认为,各个自变量之间也相互影响,并非是互不相关的因素。
因此,我们将使用PCA(PrincipalComponentAnalysis主成分分析)技术将原先众多的具有一定相关性的变量重新组合为一组互不相关的综合变量,同时降低了维数,使得函数更加简便,从而降低问题的复杂性,便于进一步的分析。
在网店曝光率、价格、好评三个变量当中,价格与好评的含义十分明确,因此我们可以直接设计爬虫程序抓取电商网站上的商品价格和店铺好评情况。
而网店曝光率与众多因素有关。
曝光率,在广告学上的定义是单位时间内展示的次数;而其结果就体现在被曝光的产品是否为公众所知晓。
对于网店而言,浏览量是最具代表性的因素。
网店,由于其曝光渠道的多元性与灵活性,若是具体考虑影响其曝光率的因素,则过于繁琐且无法量化。
譬如:
网店的商品在电商平台的搜索排序、网店店主本身是否是名人、网店在线上和线下进行的广告宣传活动、网店本身的商品数量(商品数量越多,那么相当于通过搜索商品进入网店的渠道越多)……而如果换个思路,不看过程而是直接研究结果,则会简单很多。
当然,曝光有正面有负面,但两者对浏览量起到的都是正向作用,因此我们最后的公式不仅仅只用浏览量表示。
然而在实际操作过程中我们发现,大多数网店的浏览量数据是不公开的,所以我们需要选取另一项数据来代表浏览量。
我们注意到,各大电商平台都有一个收藏系统,可以收藏店铺,添加某店铺为常用店铺或者将他推荐给朋友。
所以一个店铺的收藏人数应当与其浏览量呈正比,其比例系数就是浏览后收藏的转化率;当样本够大时,各类店铺的收藏转化率应该都是接近的。
因此,我们最终选用店铺收藏人数来作为网店曝光率中的一个比较重要的组成部分。
选用店铺收藏人数主要为了简化问题,使“曝光率”与销量成正比关系。
举个例子,譬如电视或者网络上曝光了某家店铺的负面消息,如商品质量有问题等,那么这种负面的曝光也会带来店铺浏览量的提升,然而这种浏览量反应在销量上的结果却是销量的下降。
如果选用店铺收藏人数作为考察指标,那么负面曝光消息就会反应为收藏人数的减少,与销量的变化就是一致的了。
所以在这一方面,店铺收藏人数比浏览量更具有作为曝光率“代表”以分析其对销量影响的研究价值。
因此,我们同样设计了爬虫程序来抓取店铺收藏人数的数据。
当然,淘宝对于搜索结果的排序也是影响曝光率的一个重要部分,因为排在后面自然不容易被人知晓。
我们把它作为一个浮动性因素。
所以我们所用的曝光率是一个综合得分,由浏览量、收藏人数、搜索结果排序、新闻以及店主等因素综合计算而成。
二、数据采集与信度分析
(一)数据采集结果
我们通过爬虫程序爬取了gtx960显卡在淘宝上的相关数据。
首先,这个商品总共有110件,但由于很多店铺不仅销量为0收藏数也是0,所以不作为有效数据。
随后我们剔除了部分假货,因为显卡的芯片是有固定成本的,我们认为低于平均价700的均是假货,所以我们去掉了5组数据。
最后,我们选取了55组数据,部分数据是这样的:
表1爬虫后原始数据
可以看到还有一些条目的好评率无法求值(为NaN),但是销量又不为零。
这是由于在实际的网购中,有些用户购买商品以后也不会写评价,所以会出现总评价数为零的情况。
而在计算好评率(好评数%总评价数=好评率)时分母为零,无法进行运算。
为此我们按照惯例,用平均数来代替这些无法求值的空项。
又因为缺失项是好评,而好评在整体的模型当中作用很有限(因为网店好评率都很高)所以这么做基本不会降低数据可信度。
表2修改少数好评率后的数据
我们对数据用spss进行初步分析,得到的结果如下图:
表3统计结果
可以看到算术平均(即描述相关、服务态度、物流服务三项的平均值)以及好评的标准差相对于整体而言很小,这说明各个商品的好评以及三个评论之间差距的确很小。
而价格差别还是较大的,这是因为显卡不同品牌之间差距较大,即使是同一型号显卡还有公版非公版之分。
(二)信度分析
信度(reliability)是指测量结果具有一致性或稳定性的程度。
对于同一个人在不同时间,以相同的测量工具进行测量,如果两次测量结果一致,表明测量结果具有稳定性、可靠性。
信度主要检测所收集数据的可靠性。
因为淘宝店的价格很可能在变,所以如果能在两个不同的时间段内收集数据进行分析可以减小误差。
信度分为外在信度和内在信度。
由于外在信度比较难测量,一般情况下选择测量内在信度。
测量方法一般计算测量指标的Cronbach'sAlpha系数。
这种方法将测量工具中任一条目结果同其他所有条目比较,对测量指标内部一致性估计更为慎重,弥补了折半信度的不足。
因此本文将用Cronbach'sAlpha系数测量各维度的信度。
Cronbach'sAlpha系数的计算公式为:
(1)
Cronbach'sAlpha系数越接近于1,信度越高。
一般来说,Cronbach'sAlpha>0.7时,属于高信度;0.35<Cronbach'sAlpha<0.7时,属于尚可;Cronbach'sAlpha<0.35则为低信度。
表4Cronbach'sAlpha系数
我们所选取的55组的数据的系数达到了0.735,属于高信度,证明了我们的数据是十分可靠的。
对于题目中我们要研究的四个变量,我们采取以下的数据
表5研究的变量
价格
销售页面的一口价
元
从店铺直接获得
好评
店铺得分
分
从店铺直接获得
曝光率
综合得分,由浏览量关注人数等决定
分
经过公式得出
销量
成交次数
次
从店铺直接获得
三、模型假设与符号说明
忽略店铺不在价格中反映的优惠(即包邮等,因为研究对象价格较贵,包邮的优惠不明显)
忽略店主是名人这种偶发性因素,只认为所有店铺的曝光率只和收藏有关。
假设这几个月销量平稳,没有出现大的波动7
不考虑不可量化因素(如首页推荐出现几率以及其他平台推广的因素)
这个模型只适用于价格较贵的电子产品(而非廉价的电子产品如u盘)
s:
各个店铺的销量
p:
这个商品所标的价格
p0:
合理价位(这个商品去除价格异常值以后的均价)
e:
曝光度
r:
好评
p1:
1/|p-p0|
下面是我们的思考过程。
我们首先探讨了一下曝光率该如何计算。
我们认为,因为浏览量不可直接获得,经过讨论我们认为浏览量=k*收藏人数+商品数量*商品浏览量
收藏人数是浏览量中最重要的一点,因为收藏者即使没有在此店进行过购买也是知道这家店的,收藏者也会接收到所收藏的店铺的推送,所以收藏人数的多少的确能反映该店铺的曝光率。
其次,商品数量、排序、店主人气等也很重要,我把他们设为e1、e2等作为一个待讨论的因素。
但因为没有量化的数据,所以我们在建模时不会把这些作为关键因素。
通过我们得到的数据,直观地看,价格低的销量未必高,这是因为当价格过低时,消费者会担心服务质量有所下降或者商品质量有问题,从而放弃购买。
因此在价格因素当中,只有价格适中的才最有优势。
由此,我假设每个商品都有一个适中的价格p0,并推测出p和p0的差的绝对值与销量呈负相关。
我们又观察到,由于店铺的好评数量过于接近,且存在一些成交量少,靠着刷好评上位的店铺,所以好评对结果影响最小。
但是从仅有的几个好评不足的店铺来看,好评与销量的正相关关系还是成立的。
在前期的问题分析中,我们得出了曝光率与销量呈正相关的结论,并拟定了涵盖诸多因素的曝光率公式。
但经过进一步的讨论分析,我们发现,淘宝自身的收藏指标可以更有效、更简洁地反映出店铺的曝光率。
因此,我们设销量为s,曝光率为e,价格为p,中间价为p0,好评为r,
设1/|p-p0|=P1,大P即为偏离价格。
用控制变量,选取好评价格一样的几组数据进行分析。
为何不用价格的中位数或者众数作为中间价:
这里有一个问题,因为负相关包括反比,如果说s和1/|p-p0|有关,那么当p=p0时这个就没有意义了,我后来有想到在分母上加上一个常数c,但是c的取值并不明确,所以后来我们决定把中间价p0定为在去除异常价格后的价格的平均数。
四、模型的建立与求解
首先我们对好评和三个变量进行了主成份分析,结果如下
表6好评与三变量之间的主成分分析
表7主成分分析
因为大部分相关系数都比较高,线性关系很强所以可以提取公因子,比较适合进行主成份分析。
因为只提取了一个变量,所以没有旋转成分也没有kmo,可以从图中得到成分1即好评率可以解释百分之75.876。
丢失的信息较少,并且降低了四维,对于建模有很大帮助。
协方差矩阵因为只提取了一个变量,所以是1。
那么我们现在把模型中的好评因素构成从5个变成了1个,用好评去替代了原来五个。
曝光率我们就用收藏数来表示。
价格的处理我们采用和平均价格之间的差的绝对值来表示,体现了价格偏离合理价格的程度(尤其是去除了假货等异常值之后平均价格就更为合理了)。
(以下均用控制变量的方法来进行)
所以经过以上的几组数据我们可以发现销量和好评是正相关,但是体现不明显。
表8销售与好评的关系
好评这里显示均为1,但其实是有小数的这里不没有显示。
销量和|p-p0|是负相关。
表9销量与价格的关系
偏离合理价格较少的销量相对于其他的是增加的,
然后在同一价格好评区间内销量和曝光度也是有正相关的关系。
表10销量与曝光率的关系
所以说可以从上面的几组数据中得出好评每提高0.01个单位,销量可以提高0.54件
但是这个对于大多数店铺来说都很难,因为在好评都很高的情况下提高好评显然是一件难事。
收藏数对于销量的提升也很明显,收藏数每提高1次,销量可以提高0.24件,收藏很多时候取决于店铺的大小,例如我在浏览这家店铺的某个商品的时候会点进这家店铺的其它商品,如果我喜欢就会收藏,以后可能会来拔草,说明店铺如果想提高自己某个产品的销量应该尽可能把自己的店铺做大。
对于这一组数据每偏离合理价格1块钱,销量就会降低0.08件。
这说明在网上购物价格并不再是人们最关注的,人们最关心的是服务质量(尤其是比较贵重的商品),偏离合理价格太多的普遍被认为是有问题的,所以店铺应当使自己的价格更加合理,而非一味的降价或者抬高价格。
类似的,我们分析了其他价位组的gtx960,得出了一个初步结论
s=3.02*e*r-0.08*|p-p0|+c
其中c是一个常数,对每个商品来说并不一样,是一个浮动因素,与排序,广告,首页推荐和人气等不能量化的因素有关。
这个结论是通过几组分析以后得到的,控制变量方法只能得到单个因子和销量的关系是线性的,即其他元素都不变的情况下单个商品的s=kx+b但是经过我的仔细分析以后发现好评和曝光度之间也有一个关系,即好评和曝光度有相互促进的关系。
所以我选择了他们之间不是简单的线性关系而是乘法关系。
我们把模型和实际进行了一检验,在相同的好评下
作出s=3.02*e*r-0.08*|p-p0|的图,结果如下
图5gxt960模型模拟图
但是这个结论略有点瑕疵,这个模型对于不同的商品,前面的系数(即3.02和-0.08)都在改变,另外一个就是对于销量较高的(例如我们所获的数据中销量第一且甩开第二几倍的)这个模型有误差,用模型算出的结果和实际比往往变小了一点。
这个引起了我们组的兴趣。
五、模型的验证与优缺点分析
(一)模型的验证,适用范围以及可靠性
因为我们用的是gtx960显卡来做的分析,那么我用同一代的gtx970来验证我的模型是否适用于其他高端电子产品,gtx970的有效数据适中,大约有30组。
以下是数据:
表11gtx970的数据
这次收藏数普遍较多,但成交数量普遍较少,主要是因为gtx970属于高端显卡(当年的),价格昂贵,大家可能并不会去购买这样的一个产品。
这一组属于1999元的是价格适中公道的一组。
表12收藏数对销量的影响
在这一组中有几家价格一样,好评也几乎一样,分别是4.83和4.80,是绝佳的控制变量的对象。
在分别相差了几百的销量下可以得出收藏数每提高1可以增加0.31(好评为4.83的结果)的销量和0.26(好评为4.80的结果)虽然和之前做出来的0.24略有差距,但这个差距不是数量级上的差距。
经过我们讨论认为我们之前的结论是可靠的。
同样我们对偏离价格的分析,结果和之前差的不多。
我们验证出了每偏离1块钱,销量相差0.13,0.11件销量等结果,所以结论对于gtx970也是基本可靠。
图6gtx970模型模拟图
(二)模型的优点:
我们的分析是基于同一种类的商品以及较多的数据,并且数据经过了信度分析的确认,因而结果是可靠的。
在模型中我们还打破了价格越低销量越高这一生活直觉,提出了商品是有一个合理价格区间的,过低或过高都会使销量降低。
(三)模型的缺点与改进:
①综合好评的单项分析
在模型中,我们分析得出好评率可以代替服务态度、物流速度、描述相符这三个变量。
但是商家无疑想要知道提升销量应该具体从哪一方面着手,单单分析出好评率的作用可能不够实用。
因此我们将在这一方面做一改进。
由于服务态度、物流速度、描述相符是同一维度上的三个因素,因此我采用多元线性回归分析建立销量与这三个因素的关系。
运用多元回归进行相关因素分析时,基本思路就是利用统计数据建立多元线性回归方程,然后检验回归系数的显著性,通过对各个因素进行逻辑检验和相关性检验,决定各个因素的取舍,逐步筛选出对因变量最有影响的因素。
运用spss进行多元线性回归分析,得到结果如下:
表13物流、描述、服务态度对销量的影响
从分析过程中可以看出,对于销量影响最显著的因素是物流服务,其次是描述相符,最后是服务态度。
因此我们建议商家,如果想要提高自己店铺的销量,首先要注重提高物流速度。
在快节奏的现代社会中,商家需要提高发货速度并选择优质的快递公司,这对于销量提升最有帮助。
其次,描述相符这一要素提醒商家要保持信誉,不能夸大其词。
②物流速度、描述与服务质量和销量的关系
在模型中,我们经过因子分析后用好评率代替了服务态度、物流速度、描述相符这三个变量。
上面的改进得出了这三个变量的重要程度,依次是:
物流速度>描述相符>服务质量。
现在我们改进这三个数据以获得它们和销量的关系。
我们注意到,在浏览淘宝和天猫时,服务态度、物流速度、描述相符这三项数据虽然都十分接近,但是在页面上还会显示店铺的这三项数据是低于行业平均、高于行业平均还是与行业平均持平,并且用了不同颜色强调。
我们认为,相比具体的数值,买家可能对于这样定性的比较更加敏感。
因此我们再次抓取了gtx960的这一数据,并将其量化为一个“店铺比较值”,量化方法为:
高于行业平均+1,与行业平均持平+0,低于行业平均-1,得出一个区间在-3到3的数据指标。
部分结果如下(最后一列):
表14“店铺比较值”表
我们再一次采用控制变量进行比较的方法,在其他数据相近的情况下,我们分析了销量与店铺比较值的关系,得到了:
店铺比较值每上升1,销量提高1.5件。
对于gtx960这样价格较高的电子产品而言,1.5件的提升效果已经比较明显了。
因此我们建议商家,相比绝对的数值而言,你的三项评价与行业平均相比的结果更为重要,尽量使你的数据高于行业平均,至于高出多少则不是那么重要。
③综合排序名次高低对曝光率的影响
之前我们提到了店铺的曝光率是一个十分复杂的因素,在分析中我们主要用商品的收藏数来代表店铺的曝光率。
事实上分析也证明了收藏数对于销量的影响确实是显著的。
但曝光率显然还有其他的影响因素。
当我们进入淘宝有目标地购买一个商品时,我们常常使用淘宝的搜索功能来搜索该商品,商品的排序越高则越容易被人看到并信任,因此排序可以认为是曝光率的一个重要组成部分。
淘宝默认的排序是综合排序,我们在“gtx960显卡”这一关键词下抓取了数据,部分数据如下:
表15综合排序表
对数据进行拟合之后,我们得到了销量与排序差值之间的关系图:
图7销量与综合排名次序图
纵坐标为销量,横坐标为排序差值。
可以看到,排序差值越小(即排名越高),销量就越高。
部分异常值则是由于收藏等其他数据的干扰。
我们拟合成三次多项式后看到,图中的曲线整体是递减的,但两头的递减尤为明显。
整体上看,排序每上升1位,销量大约提高0.2件。
从曲线中也能够看出,之前的模型对于销量较高的商品有误差是因为销量较高与较低时曲线的斜率产生了显著变化,而我们的模型是对于整体变化的估计,因而对于销量较高的商品产生了低于实际结果的估计。
结论
对于淘宝店而言,销售量与价格、曝光度、好评率的关系如下:
s=k*e*r-l*|p-p0|+c
s:
各个店铺的销量
p:
这个商品所标的价格
p0:
合理价位(这个商品去除价格异常值以后的均价)
e:
曝光度
r:
好评
k,l:
系数
c:
其它不能量化因素
参考书目
秦盛:
《声誉和价格关系研究--基于淘宝网同质商品的数据》[D]:
[硕士学位论文].四川:
西南财经大学2012
周黎:
《电子商务经济效益影响因素分析》,《科技与管理》,2005,7
(1):
145-146
牛晴:
《消费者选择网上店铺的影响因素研究》,华南理工大学,2011
时文静,朱文倩,王美玲,刘晓华:
影响网络购物商品销量的因素研究——基于SEM的淘宝网数据分析2015
附录
本文中使用的程序并不是严格意义上的爬虫,它利用了淘宝网自带的智能搜索功能,通过输入关键字,并设置按照人气、销量、价格等的排名方式,与其他部分一起构成搜索界面的动态网页网址。
这些界面都是ajax动态加载的,所以首先使用基于rhino的htmlunit包的WebClient类模拟浏览器打开界面并自动加载源码中的javascript。
然后通过Jsoup对得到的response进行解析,生成具有特定格式的Document类,基于regex提取出搜索界面的每一个商品信息,包括名称、价格、网址,然后使用htmlcomponent包中的HttpClient类模拟浏览器,因为它不自动执行网页中的js,所以它的下载速度远远快于WebClient。
HttpClient通过设置request得到单个商品的网页,并直接通过正则表达式得到网页中的店铺网址,sibUrl,counterApi,dataCommonApi等api。
首先得到店铺网址,使用HttpClient得到网页源码,补正成标
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 建模 论文网 曝光 价格 好评 店铺 销量 关系 模型