京东热销手机评论中的 数据分析及简单挖掘.docx
- 文档编号:9090630
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:28
- 大小:316.88KB
京东热销手机评论中的 数据分析及简单挖掘.docx
《京东热销手机评论中的 数据分析及简单挖掘.docx》由会员分享,可在线阅读,更多相关《京东热销手机评论中的 数据分析及简单挖掘.docx(28页珍藏版)》请在冰豆网上搜索。
京东热销手机评论中的数据分析及简单挖掘
毕业设计(论文)
题目
京东热销手机评论中的
数据分析及简单挖掘
学生姓名:
指导教师:
理
学院
数学与应用数学
专业
101
班
京东热销手机评论中的
数据分析及简单挖掘
Analysisofdataandsimplemining
Jingdongsellingmobilephoneincomments
学生姓名:
所在专业:
数学与应用数学
班级:
101
指导教师:
申请学位:
理学学士
论文提交日期:
2013-05-20
论文答辩日期:
2013-06-16
学位授予单位:
摘要
手机已然成为人们生活中的必需品,正因为存在着广阔的市场需求,手机的种类也越来越多。
如何在这繁多的手机中选择出一部适合于自己的,自然成为即将购买手机用户的一个绕不过去的话题。
由此,本文将对所采集的京东的14部热销手机的评论进行数据分析和数据的简单挖掘。
考虑到对手机评价的直观印象是依赖于star字段,所以本文先取出每部手机所有的star字段。
由于事先并不知道star的分布情况,先求出基本统计量,如均值、峰度、偏度等,接下来对其进行探索性分析,通过Kolmogorov-Smirnov检验计算出数据不呈正态分布,然后通过Kruskal-Wallis检验得出手机间存在显著性差异,可是这并不知道每两部手机间的具体情况,所以又对数据进行Nemenyi检验,即多独立样本间均值的两两比较检验,从而得出每两部手机间的具体差异情况。
最后,通过计算每个分值在所有得分中的占比来衡量手机间的得分情况,得出id编号为982040的手机得分情况最好,858025和1005766两部手机得分情况最差。
并且,所得结果与前文所作检验得到的结果也相一致。
接下来我们考察每部手机从开始到2014年4月24日为止的每天的销售情况。
我们发现,在2013年6月18日之前就开始销售的五部手机,在6月18日这一天销售量都有所增长,经查阅新闻可知,这是三星和华为那几日的相关活动或新闻所导致。
另外,在2013年11月11日,销量相对于平常也有所提升。
这是因为在“双十一”那天,各电商企业进行大规模打折促销活动,在一定程度上刺激了手机的销售。
最后,通过考察每部手机销售情况的序列图,我们发现国外品牌的手机及两部国产手机销售初期的状况并不好,而另外四部国产手机一开始就取得了良好的销售战绩。
主要原因有两点:
一、国外手机在国内的一次发行量远不及国产手机在国内的发行量多;二、手机正式销售前是否召开发布会,对手机的销售也有很大影响,召开发布会,扩大知名度,从而刺激销售量的提升。
关键词:
热销手机评论、Excel、R、Nemenyi检验、序列图
ABSTRACT
Mobilephonehasbecomenecessaryinpeople’slife,andbecausethereisabroadmarketdemand,thetypesofmobilephonescomeoutinvarieties.Howtoselectasuitableonefromallkindsofphoneshasnaturallybecomeanimperativetopicforthosewhowanttobuyphones.Asaresult,thispaperwillbecollectedfortheanalysisandsimpleminingof14typesofhotphonesinJingdong.
Consideringthattheintuitiveimpressionofmobileevaluationisdependentonthestarfield,thisarticlefirsttakesoutallstarfieldofeachphone.Becausethedistributionofstarisn’tknowninadvance,peopleshouldfindoutthebasicstatisticsfirst,suchasmean,kurtosis,andskewness,andthencarryontheexploratoryanalysis.PeopleneedcalculateabnormallydistributeddatabyKolmogorov-Smirnovtesting,thentesttheapparentdifferenceamongphonesthroughnonparametricKruskal-Wallistest,throughwhicheveryspecificconditionbetweeneachtwocellphonesisnotknown.SoNemenyitestiscarriedoutonthedata,whichispaired-comparisonstestonmeanvalueofmanyindependentsamples,toconcludethedifferencesbetweeneachtwophones.Finally,bycalculatingthepercentofeachscoretomeasurethescorepointsamongphones.Itisconcludedthatidnumber982040winsthebestscore,phoneswhoseidnumbersare858025and1005766gettheworstscores.Inaddition,theresultisconsistentwiththetestresultsmentionedbefore.
NextweinspectthedailysalesstatusofeachphonefromthebeginningtoApril24,2014.WefindthatthesalesvolumeoffivemobilephonessoldbeforeJune18,2013increasedonJune18.ItisknownfromthenewsthatthisiscausedbyactivitiesofSamsungandHuaweiduringthosedays.Inaddition,onNovember11,2013,thesalesalsoincreasedbycomparingwithusualsituation.Thisisbecauseon“doubleeleventh”,variouselectricenterpriseshavemassivediscountpromotions,toacertainextent,stimulatingthesalesofmobilephones.
Finally,byobservingthesalesconditionsequencediagramofeachphone,wefindthatsalesconditionofforeignphonesandtwodomesticonesisnotgood,buttheotherfourdomesticphonesachievegoodsalesrecordfromthebeginning.Therearetwomainreasons:
firstly,thedomesticcirculationofforeignphonesisfarlessthanthatofdomesticmobilephones;secondly,whethertoholdaconferencebeforetheofficialmobilephonesaleshasagreatinfluenceonthesales.Peoplecanholdaconferenceandexpandthereputationtostimulatesales.
KEYWOEDS:
HotCellPhoneReviews、Excel、R、Nemenyitest、SequenceDiagram
第一章
背景
随着智能手机在日常生活中的分布越来越广泛,同时,由于网上购物给大家带来诸多方便,譬如网购可节约时间、可购买当地实体店中很难找到的商品、商品信息公开,可选性强、可避开商店里拥挤的人群等等,所以,在网上购买手机必将成为大多数用户的首要选择。
但是,网上购买手机给大家带来方面的同时,另一方面也给大家带来了一定的麻烦。
途中的运送带来了一定的受损害风险,虽然可以选择换货或退货,但终究还是带来了一定的麻烦;尤其是当我们面对网页上呈现的诸多商品时,虽然可选性大大增强,但是面对这么多的信息,我们会经常感到无从下手,在需要做决定的时候,很难做出一个最佳的选择。
基于此,我采集了14部在京东商城上热销手机自发布以来所有的评论信息,对所采集信息进行一系列、多角度分析,最终为不同用户提供购买手机时的最佳选择。
第二章数据采集
2.1数据来源
本次分析所用数据来源于数据堂。
数据所在页面:
2.2数据堂简介
数据堂是国内专业的科研数据共享服务平台,致力于为国内外高等院校、科研机构、研发企业及相关科研人员提供科研数据支持。
本着支撑科学研究,助力企业研发的宗旨,数据堂在严格遵守知识产权的相关规定的前提下,始终以“专业、权威、开放、共赢”作为科研数据服务的核心。
在国家科技部的大力支持下,数据堂与国内著名科研机构、高等院校、科研组织通力合作,凭借数据堂专业、高效的数据管理和分析团队,对分散在各个领域的数据进行收集、加工、整理,积累了丰富的数据资源,通过统一的平台提供服务,使得科研机构、企业、高校和个人之间实现充分的数据共享,满足用户在论文写作、科学实验、实验教学、项目及产品研发过程中对各种数据的需求,使得各类科研数据的使用价值发挥到最大。
第三章数据的处理和分析
我们知道,刚采集的原始数据一般都比较乱,需要经过处理一番,才可进行分析,另外,由于所采集的原始数据保存格式为txt文件,而在这种格式下的文件是不能够进行数据分析的。
所以,先通过Excel打开原始数据,打开后,可清楚地看见评论信息主要分为14个字段,分别是:
表1
No
uname
ulevel
uaddress
star
Commentdate
标签
优点
不足
心得
晒单
购买日期
尺码
颜色
其中,No为评论信息的编号,uname为评论人在京东商城的注册名,ulevel为评论人在京东商城的会员级别,其他字段都可根据字面意思来理解。
此外,考虑到后续问题,还添加了两个字段:
数量和价格,即每部手机评论者的数量和每部手机的价格。
在这里,为有利于问题的解决,我们进行初步分析,将所有字段分为两组,分别是有效字段和无效字段。
有效字段为star、购买日期、数量、价格,其余暂皆视为无效字段。
同时,考虑到在分析过程中需要用到SPSS软件,我们首先将这些有效字段用英文表示:
表2
Commentdate
Star
购买日期
数量
价格
Commentdate
Star
Buydate
quantity
Prize
至此,数据的初步处理基本完毕。
具体的相应的处理,我们将在下文再做具体描述。
3.1总体评价
在这所有的有效字段中,我们可从star中直观看出买家对购买的手机的整个过程的满意情况。
表3
Star
满意程度
1
很不满意
2
不满意
3
一般
4
满意
5
非常满意
如表所示,评分越高,买家对整个购买过程的满意度也就越强,包括手机本身、手机在运送过程中的保护程度、运送的时间等等。
同时,由原始数据可得到每部手机评论者的数量,如下表所示:
表4
id编号
数量
手机
656206
26521
三星GalaxyS3I93083G手机(云石白)TD-SCDMA/GSM
760695
19451
三星GalaxyNoteIIN71083G手机(云石白)TD-SCDMA/GSM
849740
11645
华为AscendMate3G手机(白色)TD-SCDMA/GSM2GRAM
858025
13125
三星I85523G手机(白色)WCDMA/GSM双卡双待
862534
19643
三星GalaxyS4I95083G手机(皓月白)TD-SCDMA/GSM
981821
32056
苹果(APPLE)iPhone4S8G版3G手机(白色)WCDMA/GSM
981822
15632
苹果(APPLE)iPhone4S8G版3G手机(黑色)WCDMA/GSM
982040
14653
苹果(APPLE)iPhone5s16G版3G手机(金色)WCDMA/GSM
992304
21426
华为G610-T113G手机(白)TD-SCDMA/GSM双卡双待
1005766
11980
魅族MX316G3G手机(前黑后白)TD-SCDMA/GSM
1013281
48659
努比亚(nubia)小牛2Z5Smini3G手机(前黑后白)WCDMA/TD-SCDMA/EVDO
1041190
15152
努比亚(nubia)小牛2Z5Smini3G手机(全黑)WCDMA/TD-SCDMA/EVDO
1041685
14340
华为麦芒B199电信3G手机(白色)CDMA2000/GSM双模双待双通
1057746
5435
苹果(APPLE)iPhone5S16G版4G手机(金色)TD-LTE/TD-SCDMA/WCDMA/GSM
id即为每部手机对应的id编号,quantity即为每部手机评论者的数量,手机即为个id编号对应的手机名称。
3.2手机得分的基本统计量比较
考虑到每部手机的得分情况并不清楚,也不知道其分布形式,因此我们先从数据本身下手,先求出每组数据的平均数、众数等基本统计量。
如表所示:
表5
Statistics
656206.
760695.
849740.
858025.
862534.
981821.
981822.
N
Valid
26521
19451
11645
13125
19643
32056
15632
Missing
22138
29208
37014
35534
29016
16603
33027
Mean
4.64
4.70
4.65
4.59
4.61
4.64
4.66
Mode
5
5
5
5
5
5
5
Variance
.640
.569
.628
.727
.720
.721
.654
Skewness
-2.903
-3.269
-2.930
-2.627
-2.779
-2.962
-3.017
Kurtosis
9.062
11.659
9.330
7.184
7.986
8.868
9.570
Statistics
982040.
992304.
1005766.
1013281.
1041190.
1041685.
1057746.
N
Valid
14653
21426
11980
48659
15152
14340
5435
Missing
34006
27233
36679
0
33507
34319
43224
Mean
4.80
4.66
4.58
4.62
4.63
4.71
4.76
Mode
5
5
5
5
5
5
5
Variance
.446
.528
.774
.659
.634
.531
.564
Skewness
-4.184
-2.897
-2.599
-2.753
-2.751
-3.327
-3.786
Kurtosis
18.857
9.827
6.833
8.143
8.292
12.282
14.718
由上表可得,所有手机中得分平均值最小的为4.58,最大的为4.80,另外,极大多数手机的评论量都达到10000以上,有的甚至达到近50000,只有id为1057746的手机的评论信息少于10000条,但考虑到该手机从上架到采集该信息时间还不到三个月,并且相对于一般手机而言时,销量还是比较乐观的。
这里将评论数近似等于销量数。
可见总体而言,不管是这14部手机的得分情况还是销量情况,都验证了这14部手机为热销手机。
另外,通过观察每组数据得分的峰度skewness和偏度kurtosis,它们都不能看做近似等于0,基本可以大概得出这14组数据都不呈正态分布。
但这些数据究竟是否呈正态分布,还得靠具体数据来说明。
3.3手机得分的探索性分析
由于原始数据并未向我们说明各组数据呈什么分布,并且尽管每组的评论数量很大,但是不外乎1、2、3、4、5这五种选择,所以我们应选择非参数检验方法。
在非参数检验法中,一般有两种,分别是Kolmogorov-Smirnov检验(D检验)和Shapiro-Wilk检验(W检验)。
这两种检验,当样本量>2000时,一般用D检验来检验其正态性;当样本量<2000时,一般用W检验来检验其正态性。
由此可知,这里本应该用W检验的,但已安装的SPSS软件只能进行D检验,所以此处我们选择D检验。
结果如下表所示:
表6
TestsofNormality
Kolmogorov-Smirnova
Statistic
Df
Sig.
656206.
.440
26521
.000
a.LillieforsSignificanceCorrection
其他的检验结果见附录一,这里P=0.000<0.05,其他各组检验结果亦是如此,可见各组数据是不呈正态分布的。
3.4手机得分的差异性比较
3.4.1方差齐性检验
下表是方差齐性检验表,结果显示Levene统计量为212.545,由于P值小于显著性水平0.05,所以可认为不同手机id编号的得分情况不具有方差齐性特点,故不能对其进行方差分析。
于是可以考虑采用非参数检验中的多独立样本均值检验方法。
表7
TestofHomogeneityofVariances
得分
LeveneStatistic
df1
df2
Sig.
212.545
13
269704
.000
3.4.2非参数检验
本均值检验的非参数方法具体有三种检验方法,分别是Kruskal-Wallis检验、中位数检验以及Jonckheere-Terpstra检验。
Kruskal-Wallis检验是Wilcoxon秩和检验在多于两个样本时的推广,基本思想为:
如果检验假设成立,则各组的秩和应较接近,H值不应该太大;若各组的秩和相差过大,H值就会超出理论界值,这时就有理由拒绝H
。
中位数检验是通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显著差异。
其原假设是:
多个独立样本来自的多个总体的中位数无显著差异。
基本思想是:
如果多个总体的中位数无显著差异,或者说多个总体有共同的中位数,那么这个共同的中位数应在各样本组中均处在中间位置上。
那么,每组样本中大于该中位数或小于该中位数的样本数目应大致相同。
与Kruskal-WallisH检验和中位数检验相似,Jonckheere-Terpstra检验可以确定k组样本是否来自同一个总体,它仅仅需要假定这k个样本有相似的连续分布,而且所有的观测值在样本内和样本之间都是独立的。
此外,还可以检验多个独立样本的位置参数是否持续上升和下降。
在本次数据的分析过程中,我们将采用应用最广泛的Kruskal-WallisH检验法。
这里,我们将采用开源软件R进行统计分析,分析之前,先将数据另存为表格数据的文本文件,即csv格式,运行结果如表所示:
Kruskal-Wallisranksumtest
data:
starbyid
Kruskal-Wallischi-squared=1736.975,df=13,p-value<2.2e-16
由运行结果p-value<2.2e-16可得,这14组数据间是存在显著性差异的,所以我们还要做进一步的检验,即检验每两组之间是否存在显著性差异。
用统计学的语言说,就是多独立样本均值的两两比较显著性检验,考虑到数据本身不满足正态分布,我们将用Nemenyi检验来判别,运行结果见附录。
由结果可得:
656206与849740、862534、981822、992304以及1041190无显著性差异;
760695与981821、981822、1041685无显著性差异;
849740与862534、981821、981822、992304、1013281、1041190无显著性差异;
858025与862534、1005766、1013281、1041190无显著性差异;
862534与992304、1005766、1013281、1041190无显著性差异;
981821与981822无显著性差异;
982040与1057746无显著性差异;
992304与1013281、1041190无显著性差异;
1005766与1013281、1041190无显著性差异;
1013281与1041190无显著性差异。
由各id编号对应的手机可知,981821和981822都是iPhone4S8G版3G手机,只是颜色不同;982040与1057746都是iPhone5S16G版金色手机,虽然是移动通信技术上的区别,但两者的区别对于广大用户而言,并没有实质上的影响;而1013281与1041190都是努比亚(nubia)小牛2Z5Smini3G手机,也只是颜色上有所不同而已。
可见数据分析的结果很好地说明了这一点。
3.4.3手机得分的差异
得分并不呈某种具体的分布,所以无法通过相应的均值来比较彼此间的差异,同时众数、中位数等都5,也不具有比较性。
于是,我们考察各部手机的各个得分在所有得分中的所占
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 京东热销手机评论中的 数据分析及简单挖掘 热销 手机 评论 中的 数据 分析 简单 挖掘