服装营销数据分析.docx
- 文档编号:26305245
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:39
- 大小:642.23KB
服装营销数据分析.docx
《服装营销数据分析.docx》由会员分享,可在线阅读,更多相关《服装营销数据分析.docx(39页珍藏版)》请在冰豆网上搜索。
服装营销数据分析
第四章数据统计描述
第一节数据分析中常用的统计量及其分布
一、描述总体集中趋势的统计量
二、描述总体离散程度的统计量
三、描述数据分布特征的统计量
四、常用统计量的分布函数
五、常用的检验统计量
第二节频数变量数据特征描述
一、频数、频率及频数变量的涵义
二、频数表和频率图
三、多选题频数和频率
四、频数图表中的数据分析方法
第三节综述变量数据特征的描述
一、综述变量数据特征的图描述
二、综述变量的统计参数描述
三、SPSS统计分析提供的各种参数
四、spss输出结果的引用
第四节数据分析过程的记录与重现
一、引例
二、spss中常用的语法
三、spss语法文件的保存与调用
第四章数据统计描述
数据分析建立在统计分析基础上,统计参数是表达数据分析结果的基本指标,也是描述数据属性的特征值,数据分析的过程,实际上就是挖掘数据中隐含的具有统计意义的统计参数,从而揭示数据变化的内在规律。
第一节数据分析中常用的统计量及其分布
企业内部产生的销售数据或通过市场调查产生的调查数据通常是一些没有明显规律的数据,为了分析数据对象的总体规律,通常要对这些原始数据进行整理计算,得出反映总体某些特征的参数。
在统计学中,将通过样本构造出来的这些参数统称为统计量。
由于样本数据的随机性,由此计算的统计量也是一个随机变量,因此统计量是一个不含未知参数的样本函数,可记为F(X1,X2,X3,…Xn)。
如样本平均值、样本方差与标准差等,这些变量的值都可由样本的观察值(observed)计算得到,都是典型的统计量。
一、描述总体集中趋势的统计量
描述总体的集中趋势(CentralTendency)的指标主要有以下几个:
1、算术平均值及汇总值(MeanOfValues&Sum)
该组参数是数据分析中最常用的统计量,通常用于描述连续型、综述型变量的集中趋势,但均值容易受到最大值与最小值的影响,在描述集中趋势时不够稳健。
如描述销售价格的平均值,描述某类产品的销售汇总值等。
2、中位数(Median)
指一组按大小排列的数据中处于中间位置的数据,它可将一组观测数据分为二半,通常用来反映一组观测数据的中间水平。
如果样本个数为奇数,中位数为中间位置对应的数据;如果样本个数为偶数,中位数取中间两位数的平均值。
由于中位数是根据一组升序或降序数据的位置确定的,不会受到极端值影响,比较稳健。
在数据分析中,如果以中位数作为参考线,可以观测数据的波动或分布情况。
3、分位数特征描述(PercentileValues)
通常将变量按其值的升序从小到大排列,然后求个案数占一定比例(分位数)所对应的变量值,分位数一般用来描述数据取值在一定范围的的概率或频率。
上面所提到的中位数,实际上就是将数据等分为两个部分,如果再将中位数与最大值或最小值之间再等分为两个部分,就得到了两个四分位数。
上四分位数表示约有25%的数据比该值大,下四分位数表示约有25%的数据比该值小。
如数据序列:
1,2,3,4,5,6,7,8,9,共有9个数,中位数为5,上四分位为7,下四分位为3,分别表示,大于或小于5的数据各占50%,小于3的数据占25%,大于7的数据占25%,3到7的数据占50%。
4、众数(Mode)
指一组按大小排列的数据中出现次数最多的数值或有明显集中趋势的点所对应的某一个数值,通常用来反映一组观测数据中分布最高点所对应的数值。
对于类别数据,众数就是频数最大的组别,而对于分组数据,众数是频数最大组别中的某一个值,通过计算得到。
众数也是一种位置指标,应用比较少。
如数据序列:
1,2,2,2,3,4,4,5,6,6,7,7,8,9,共有14个数,中位数为(4+5)/2=4.5,上四分位为7,下四分位为2,众数为2。
5、最大值与最小值(Maximum&Minimum)
该参数可反映某一变量的取值范围。
在数据分析中,可用来分析一组观测数据是否在预计的取值范围,并判断观测数据是否有差错。
6、频数及频率(Frequencies&Percentage)
频数指频数变量各个分类值的个案数,频率指频数变量各个分类值的个案数据所总体数的百分比,该参数通常用于描述频数变量的特征。
在数据的统计分析中,均值、汇总值、频数、频率用的比较多,而其他指标作为辅助性指标,描述数据的位置规律或数据的变化范围。
二、描述总体离散程度的统计量
总体的离散程度(Dispersion)与总体集中趋势是一对统计变量,共同构成对总体数据特征的描述。
描述总体离散程度的指标包括以下几个:
1、极差(Range)
又称为全距,指一组数据中最大值与最小值的差,反映一组数据的最大变化幅度。
主要提供一组观测数据两端极值的信息,不受中间数据的影响。
一般极差越大,表示数据分散程度越高。
2、方差和标准差(Variance&Std.Deviation)
方差是指一组数据中各个个案数据与该组数据平均值的差的平方和的平均值,标准差或均方差则是方差的开方。
在数据分析过程中,方差和标准差是最常用的一个参数。
它既可反映一组数据的内部差异,也可代表该组数据的特征。
3、平均抽样误差(S.E.Mean)
每一个总体都存在若干样本,每个样本的平均值可能不同,平均抽样误差就是用来描述样本平均值的差异。
在一定可靠程度下,平均抽样误差决定了估计值的误差范围。
在抽样过程中,平均抽样误差是不可避免的,但可以控制,减少平均抽样误差的方法是扩大样本容量。
4、协方差(covariance)和相关系数(coefficientofcorrelation)
协方差用来描述二维随机变量X、Y之间相互关系的数字特征,当协方差不为0时,表示两个变量之间存在相互关系,其相关程度用相关系数表示。
协方差分析常用于多元统计分析中,用来排除已知的非实验因素对实验结果的影响。
如研究消费者满意度水平与消费水平之间的关系时,消费者的收入为非研究因素,但它可能对研究结果产生影响,该变量称为协变量,通过协方差分析可以消除该因素对分析结果产生的影响。
三、描述数据分布特征的统计量
数据的分布(Distribution)特征可从以下两个方面描述:
一是偏度(Skewness),显示数据不对称性的参数,标准正态分布的偏度为0。
二是峰度(Kurtosis),显示数据分布密度的平坦程度,标准正态分布的峰度为0。
四、常用统计量的分布函数
在实际数据分析过程中,会搜集一系列原始数据,这些数据只是分析总体的一个子样本,他们的特征和变异都表现在数据的分布上。
通常用数据的图或表的形式来描述数据的分布情况,如频数表、频数图、直方图等,如果将这些图表用数学函数描述出来,就成为样本的分布函数F(Y)。
样本分布函数是用来描述样本取值与概率密度之间关系的函数,用该函数可计算样本数据落在一定区间的概率。
由于统计量是样本的函数,因此样本分布函数又称为统计量分布函数。
在数据分析过程中,常用的分布函数有以下几个:
1、正态分布(normaldistributionl)
正态分布基本特点是数据分布具有良好的对称性,呈现两头小,中间大。
一般的正态分布函数由数学期望值(expectedvalue)和均方差stdv确定,正态分布可简记为n(u,δ2),当μ=0,δ2=1时,称为标准正态分布,其特点是均值为0,标准差为1,偏度与峰度均为0,如图4-1所示。
图4-1标准正态分布
根据统计原理,如果将若干服从正态分布的样本通过线性叠加所形成的样本,也服从正态分布。
理论研究证明,只要抽取的样本足够大,大量的自然现象或社会现象均服从正态分布。
在统计计算中,一个正态总体或二个正态总体均值变异的检验均使用了这一规律。
如检验两个地区调查结果是否相同,或前后两次调查结果是否相同,通常需要从统计的角度分析差异的显著性,并做出判断。
2、c2-分布(chi-square)
若随机变量X服从标准正态分布,X1,X2…为X的样本,构造一个统计量c2=X12+X22+…,称该统计量服从c2-分布,即简记为c2(N),N为自由度Df。
该分布的特点是其均值为N,其方差为2n,数据分布是偏态的,其偏度与峰度由该统计量的自由度决定,该分布通常用来构造假设检验的统计量。
在统计计算中,主要用来进行一个正态总体方差的变异检验及独立样本的非参数检验。
如检验对某地区调查结果与往年相比,其方差是否发生显著性的变化。
3、T-分布
若随机变量X服从N(0,1),Y服从c2(N)分布,构造一个统计量T,其表达式为:
称T服从自由度为N的T分布,简记为T(N),N为自由度Df。
其特点是具有对称性,其自由度等于c2-分布的自由度,偏度与峰值与统计变量的自由度有关,当自由度很大时,其分布可近似为标准正态分布,因此正态分布是该分布的一个特例。
在统计计算中,该统计量主要用来构造检验变量,用来检验一个方差未知的正态总体均值是否等于某一期望值、两个方差齐性总体的均值是否相同,对于两个方差不具有齐性的总体均值检验采用正态分布统计量进行检验。
4、F-分布:
若随机变量U和V分别服从c2(N)、c2(M)分布,构造一个统计量F,其表达式为:
称F服从F分布,记为F(N,M)。
该分布的特点是偏度与峰度由两个c2-分布的样本的各自的自由度共同决定,该统计量主要用来构造检验变量,用来检验两个正态总体的方差是否具有齐性EqualityOfVariances或相同,检验回归方程的显著性等。
5、二项分布(binomial)
又称0-1分布,其特点是变量的取值只有0或1,即是或不是。
在市场调查中许多问题属于这种分布,如对品牌形象的评价,可能有四个备选答案,每个答案都服从0-1分布。
此外,分析某类个体占总体的比例,也可用0-1分布来描述,记为B(1,P),表示属于该类的个体所占的百分比为P,不属于该类个体所占的百分比为1-P,记为B(0,1-P)。
0-1分布的特点是:
其均值等于P,其方差等于P(1-P)。
二项分布主要用于非参数检验,如想分析不同地区的被访者对该品牌形象的评价是否有差异,属于非参数检验(NonparametricTests),可采用二项分布对每个答案进行检验。
如果对该问题的变量设计没有分解为0-1分布的变量,在分析前,要对原数据进行转换。
五、常用的检验统计量
假设总体X是服从正态总体N(μ,δ2)分布的,X1,X2…为总体X的样本,在进行统计分析中常用的统计量如下:
1、样本均值统计量
,该统计量表示一个正态总体的样本均值
服从正态分布,且与总体均值u相等,但样本方差只为总体方差δ2的1/N。
2、µ检验统计量
,该统计量用来检验样本均值
与总体均值u是否相等,即均值检验。
3、c2检验统计量
该统计量检验样本方差s2与总体方差δ2是否相等,即方差检验。
4、T检验统计量
,该统计量用于在总体方差未知的情况下,样本均值
与总体均值u是否相等的检验,实际上是用小样本的方差取代总体方差进行均值检验。
5、F检验统计量
,该统计量用于检验来自两个总体的样本方差齐性。
以上这些统计量被广泛应用于SPSS提供的各种检验功能中。
第二节频数变量数据特征描述
在对服装企业的营销数据分析时,可分成二个层面,一个层面是销售数据的分析,另一个层面是市场调查数据分析。
通常情况下,前者主要应用一些数据报表对数据进行分类汇总,向管理当局提供经营管理的成果分析,关注的是数据值的具体变化,而后者较多使用频数分析的方法,关注的是数值出现的频率及其变化,也就是数值的分布规律。
事实上,任何类型的数据都可采用频数分析的方法来了解数据的变化规律。
一、频数、频率及频数变量的涵义
频数(frequency)是指在观察的数据序列中,某一个值出现的次数,频率指某一个值出现的次数占所观察的数据序列的总个案的百分比(percentage)。
频数变量是指可以用频数或频率来描述其数据特征的变量。
对于顺序变量和类别变量,频数与频率是最有效的分析工具。
但对于连续型的等比变量,由于数据是连续变化的,不可能通过频数统计来了解其变化规律。
但是如果通过数据分组,将连续型的等比变量转化为分组的类别变量,也可进行频数与频率的分析。
如观察某一地区,某一产品在各个店铺中的价格,得到一组价格数据。
通过对价格数据分组,可能了解到,某一区间的价格被大多数店铺所接受,这一价格区间就成为主流的价格区间。
显然如果经营者只关心某一价格水平,是很难发现价格数据在市场中的变化规律的。
二、频数表和频率图
频数表是用来反映频数变量的各个类别在观察数据中出现的次数和频率的表格。
频率图是利用频数表中的数据绘制而成的,在条形图中,横轴代表类别,纵轴代表频率。
在饼图中,以各类频率的大小对饼进行切割,形成不同面积的块,面积有大小代表频率的大小。
频数表能精确地记录频数,而频率图则能直观地反映各类数据的大小。
例:
打开练习库中的数据文件\practice\服装市场调查数据库.sav,生成休闲服年消费额变量“q4_1_1”频数表和频率图,操作过程如下:
1)打开“服装市场调查数据库.sav”。
2)点击“analyze→descriptivestatistics→frequencies”,如图4-2(a)所示,显示频数图表对话框,输入内容如图4-2(b)窗口所示。
图4-2(a)频数表功能菜单
图4-2(b)频数表输入窗口
3)指定需要计算频数的变量“q4_1_1”,指定图(charts)选项中的条形图(bar)和百分比(percentage),统计参数(statistics)及输出格式(format)使用系统默认值。
4)确认【ok】,分析结果输出到“output”中,内容包括:
a、统计参数表,如表4-1所示。
系统默认输出个案数及缺失数,如果选择了其他参数,则会输出相应的参数。
一般做频数分析,此表意义不大。
b、频数统计表,如表4-2所示。
这是做频数分析的关键表格,包括频数、百分比及累计百分比,在该表格中有两组数据,一组是包含缺少值的统计,一组是不包含缺少值的统计。
在进行数据分析时,通常使用不包含缺少值的统计结果。
c、频率条图,如图4-3所示。
与频数表配合,直观反映频数分布规律。
在生成频数表和频数图时,有以下几点需要注意:
5)输入进行频数统计的变量时,可同时输入多个变量,同时对多个变量进行频数统计,但统计结果分别输出。
6)统计参数(statistics)一般采用系统默认值,不输出此项。
如果一定要输出,可选择的项目包括以下四项:
a、分位数(percentilevalues):
通常选用四分位quartiles。
b、集中趋势(centraltendency):
对比率型变量,通常选用均值(mean)和汇总值(sum)。
分类变量,此值意义不大。
c、离散度(dispersion):
通常选用标准差(std).
d、分布特征参数(distribution):
包括偏度(skewness)和峰度(kurtosis)两个。
7)选择输出图(chart)。
由于系统默认不输出此项,如要输出图,必须做出选择。
选择图的类型,包括条形图(barcharts)、饼图(piecharts)、直方图(histograms),并指定输出值,包括频数输出与百分比输出两种选项。
直方图通常用来生成连续型等比变量的频率图。
三、多选题频数和频率
在市场问卷调查中,总会设计一些多选问题,对于这类问题的频数统计,spss提供了专门的多选题频数统计分析功能。
例:
打开练习库中的数据文件\practice\服装市场调查数据库.sav,统计贵宾卡的持有情况,该问题是一个多选题,对应的变量为“q5_1、q5_2、q5_3、q5_4、q5_5、q5_6”,采用二分法对调查数据编码。
对该问题的统计操作过程如下:
1)打开“服装市场调查数据库.sav”。
2)点击“analyze→multipleresponse→definesets”,显示多选题设置对话框,如图4-4所示。
3)指定多选题的变量“q5_1、q5_2、q5_3、q5_4、q5_5、q5_6”,指定多选题的编码方式:
选择默认的二分法(dichotomiescountedvalue),输入1(表示1代表被选中),给多选题设一个变量名称为qq5,点击【add】,添加到多选设置框中,关闭该窗口。
4)点击“analyze→multipleresponse→frequencies”,输入刚定义的多选题变量“qq5”。
5)确认【ok】,分析结果输出到“output”中,是一个文本文件,如表4-3所示。
从表中可以看出,该表给出了多选题各个选项的频数统计值(count),百分比有两个,一个是应答数比例(pctofresponses),表示对该问题的肯定回答占全部肯定回答的比例。
该指标可直观反映在全部的选项中,某一选项被选中的人数占全部选中人数的百分比。
另一个是被访者比例(pctofcases),表示有多少被访者做出了肯定的回答。
该指标反映了某一项被选中的人数占被访者人数的比例,能直观反映被选项的普及率。
图4-4多选题设置窗口
表4-3多选题频数分析表
Group$QQ5
(Valuetabulated=1)
PctofPctof
DichotomylabelNameCountResponsesCases
班尼路VIPQ5_14306.78.5
真维斯VIPQ5_2492676.897.2
佐丹奴VIPQ5_34577.19.0
堡狮龙VIPQ5_42714.25.3
苹果VIPQ5_51923.03.8
U2VIPQ5_61392.22.7
-----------------
Totalresponses6415100.0126.6
171missingcases;5,066validcases
四、频数图表中的数据分析方法
应用频数图表将原始数据进行整理之后,接下来要做的是如何解释这些数据。
对频数图表中的数据可从以下几个层面进行:
1、表内数据的对比分析
在频数足够大时,主要关注频率最高的和频率最低的组别,这实际上是一种众数分析的思想。
频率较高组别的累计频率也有一定的意义,如果较少的几个组别累计频率达到较高的水平,这几个组别就成为重点的关注对象,反之亦然。
2、不同期数据的对比分析
主要关注数据的变化是否显著,这种变化是否有利,这是提出分析建议的重要依据。
当然这种分析的前提是要有可用来对比的历史数据。
3、竞争对手数据的对比分析
主要关注竞争对手数据与本企业数据之间的差异,以此判断竞争实力或差距。
当然这种分析的前提是要有可用来对比的竞争对手的数据。
第三节综述变量数据特征的描述
对于等比变量,通常用均值、总值、方差等统计量来描述其数据特征,而不用变量不同取值的频数来描述其数据特征,此类变量称为综述变量。
一般来讲综述变量不能直接用频数来描述其特征,在进行数据变异检验时,这类变量的检验称为参数检验。
一、综述变量数据特征的图描述
综述变量的图描述主要是用频数图来揭示数据的分布规律,常用的综述变量特征描述图包括直方图、线图、茎叶图等。
1、直方图(histogram)
直方图是用来描述综述变量数值分布规律的工具。
其横轴代表数据的等距分类,各组之间无间隔(这是与条图最大的区别),纵轴代表各组数据出现的频数。
例:
打开练习库中的数据文件\practice\产品评分数据库(宽型).sav,绘制某一产品评分的直方图,操作过程如下:
1)打开数据文件“产品评分数据库(宽型).sav”。
2)点击“graphs→histogram”,显示直方图对话框,如图4-5所示。
图4-5直方图窗口
3)指定绘图变量“score1”,选入到右边“variable”框中,选择绘制参考正态曲线(displaynormalcurve)。
4)确认【ok】,生成的直方图输出到“output”中,如图4-6(a)所示。
图4-6(a)直方图
通过观察直方图,可以大致了解综述变量的数据分布规律:
如均匀分布、正态分布、偏态分布等。
可以看出,spss系统能自动根据变量的最大值和最小值将变量数据进行等距离分组。
如果认为自动分组太多,可直接对直方图进行编辑。
具体操作是:
双击图形,进入图编辑窗口,再双击横轴,进入横轴编辑窗口,选择自定义间距(interval)选项“custom”,定义分类多少,如图4-6(b)所示。
图4-6(a)直方图间距调整
2、线图
线图是将描述综述变量的各种特征数据用点或折线连接起来,反映综述变量特征的变化变化趋势,线图和条图在原理上比较接近,只是外观上有差别,因此两种图形可以转换。
如果数据较多,或者需要观察两个连续变量之间的关系时,只能用线图来表达。
例:
打开练习库中的数据文件\practice\产品评分数据库(宽型).sav,绘制其中两类产品评分的线图,操作过程如下:
1)打开数据文件“产品评分数据库(宽型).sav”。
2)点击“graphs→line”,显示线图对话框,如图4-7(a)所示,选择多线图(multiple)和个案值(valuesofindividualcases)绘图法。
图4-7(a)绘制线图窗口图4-7(b)绘制线图窗口
3)点击【define】按钮,指定绘图变量“score1、scor2”,分类轴(categorylabels)指定变量“code”,其他使用系统默认值,如图4-7(b)所示。
4)确认【ok】,生成的线图输出到“output”中,如图4-8所示。
可以看出,该图反映了两类产品专家评分,从图中大致可判断平均水平及专家评分的波动情况。
图4-8多线图
3、茎叶图(stem-and-leafplot)
茎叶图也是用来揭示综述变量数据的频率分布情况的有效手段。
茎叶的定义如下:
先将原数表示为科学计数法,x=x*10k,不过x的整数位可以超过1位,称为茎(茎的数字乘以10k还原为原数据的对应整数位),其宽度为k,小数位只取一位,称为叶,显然,一条茎后面可能会有0-9的数字作为叶,每个数字也可能出现多次,叶的个数代表频数。
在SPSS中没有专门绘制茎叶图的功能,在“analyze”中的子菜单“descriptivestatistics”的“explore”功能中可绘制茎叶图。
表4-4是利用上述功能,打开练习库中的数据文件\practice\产品评分数据库(宽型).sav,绘制的某类产品评分的茎叶图,具体的含义如下:
表4-4茎叶图
SCORE.1:
得分Stem-and-LeafPlot
FrequencyStem&Leaf
3.00Extremes(=<65)
11.007.00000000000
.007.
23.007.55555555555555555555555
.007.
.007.
16.008.0000000000000000
.008.
9.008.555555555
1.00Extremes(>=90)
Stemwidth:
10.0
Eachleaf:
1case(s)
1)第一行记录了分析变量“score1”。
2)第二行以下分三列,其中:
第一列为频数(Frequency),记录所对应的茎叶的频数。
第二列为茎(Stem),表示变量“score1”值的整数,这里整数位按小于65,70-79,80-89,90以上分了四类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服装 营销 数据 分析