管理类商务分析课程SPSS基本概念解释文档格式.docx
- 文档编号:20544139
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:17
- 大小:160.52KB
管理类商务分析课程SPSS基本概念解释文档格式.docx
《管理类商务分析课程SPSS基本概念解释文档格式.docx》由会员分享,可在线阅读,更多相关《管理类商务分析课程SPSS基本概念解释文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
但是不能判断这些相对位置之间的绝对距离
适用的统计方法:
频数分析、交互分析、中位数、百分位数、秩相关系数
3、定距变量(Interval)如果所提的问答题的答案可以表示绝对数值的大小,那么对应的变量就叫做定距变量。
定距变量的取值用数字形式表示。
X=“喜欢程度得分”X2=1(很不喜欢),X2=2(不太喜欢),X2=3(一般),X2=4(比较喜欢),X2=5(非常喜欢)
不但可以指出被访者在评价时给出的相对位置
还能判断这些相对位置之间的绝对距离
零点位置不是固定的
不涉及比值计算的所有统计方法
4、定比变量(Ratio)如果所提的问答题的答案可以表示绝对数值的大小,而且零点也是有意义的话,那么对应的变量就叫做定距变量。
X1=“收入”:
X1=1200(元),X1=800(元),等
X2=“上网时间”:
X2=90(分),X2=60(分),X2=0(分),等
具有定类、定序和定距量表的所有性质
除此之外,还具有绝对的零点
所有的统计方法,都适用于定比变量。
尺度
基本特性
普通实例
营销实例
允许的统计
描述性
推论性
定类
数字用于对物体的识别和分类。
学号、组号、身份证号等
品牌号、商店类型、性别
百分比、众数
卡方、二项式检验
定序
数字代表物体的相对位置,但没有指明差距的大小。
成绩排名、比赛排名
偏好排序、市场地位、社会阶层
百分位数、中位数
序列相关、方差分析
定距
物体之间可比较的差距,零点是任意的
温度(华氏、摄氏)
态度、观点、指数
全距、平均数、标准差
简单相关、T检验、方差、回归、因子分析
定比
零点是固定的,可以计算尺度值的比
长度、重量
年龄、收入、成本、销售额、市场份额
几何平均数、调和平均数
均适用
3:
随机抽样技术分为哪几种?
如何应用?
(第5章)
随机抽样(也称概率抽样probabilitysampling)按照随机原则抽取样本。
特点:
能有效避免主观选样带来的倾向性误差,计算和控制抽样误差,说明估计结果的可靠程度。
(一)简单随机抽样
优点:
方法简单直观,尤其是总体名单完整时局限:
局限:
采用简单随机抽样,必须对总体各单位编号;
某些事物无法适用,如:
对连续不断生产的大量产品进行质量检验,就不能对全部产品进行编号抽样;
当总体的标志变异程度(方差)较大时,简单随机抽样的代表性不如分层抽样的代表性高;
适用于总体单位不太庞大以及总体分布比较均匀的情况。
(二)等距抽样
含义:
systematicsampling------系统抽样,先将总体各单位按一定的顺序(标志)排列起来,然后按一定间隔来抽取样本单位。
单位排列顺序的方式:
(1)排列顺序与调查项目无关。
住户调查,选择住户所在街区的门牌号码排队。
(2)按与调查项目有关标志排队。
住户调查,选择住户平均月收入排队。
抽样距离=总体数(N)/样本数(n)例:
从600名大学生中抽取50名大学生进行调查。
步骤:
1.编号-----利用学校现有名册按顺序编号排队,从第001号编至600号,
2.计算抽样距离抽样距离=600/50=12
3.确定起抽号数-----从第一个12人中用简单随机抽样方式,抽取一个样本单位。
8号,
4.确定被抽取单位-----从起抽号开始,按照抽距离选择样本,依次抽出的20号、32、44…….
与简单随机抽样相比,等距抽样可使中选单位比较均匀分布在总体中,尤其当被研究现象的标志变异程度较大,而又不可能抽选更多样本单位时,它更有效。
等距抽样,是市场调查中应用最广的一种抽样方式。
局限:
当抽选距离和被调查对象本身的节奏性(循环周期)重合时,会影响调查的精度等距抽样的抽样误差计算较为复杂
(三)分层随机抽样
Stratifiedsampling------类型抽样,先将总体所有单位按某些重要标志进行分类(层)1,然后在各类(层)中采用简单随机抽样或等距抽样方式抽取样本单位2的一种抽样方式。
分层的原则
1:
各层之间要有明显差异2:
分层的数目不宜太多3:
每个层次内每个个体应保持一致性。
分层的具体方式
1.等比例抽样
要求各类样本单位数的分配与总体单位在各类的分配比例一致,即,nI/n=NI/N
例:
某地居民100户,按经济收入高低分类,其中,高收入居民为20户,中收入60户,低收入20户。
要从总体中抽取20户,则名层应抽取的样本单位数。
(4,12,4)
方法简便,分配合理,适用于各类型之间差异不大的分类抽样调查。
2.非等比例抽样
分层最佳抽样法,适用于各层的单位数相差悬殊,或层内方差相关较大的情形。
如按分层标准差大小调整各层单位数
计算公式:
式中:
ni---------各类型应抽取的样本单位数n----------样本单位总数Ni----------各类型的调查单位数
Si-----------各类型调查单位平均数(成数)的样本标准差
与简单随机抽样和等距抽样相比,更为准确,高效,特别是当总体较大、内部结构复杂时,分层抽样效果更好。
同时,分层抽样在对总体推断的同时,还能获得对每层的推断。
(四)分群抽样
clustersampling-----先把调查总体区分为若干个群体,然后采用等概率抽样(例如简单随机抽样),也可以采用不等概率抽样,以群为单位进行抽样,对抽中的群内的所有单位进行调查。
居民家计调查人口抽样调查。
方便,以群为单位;
样本单位集中在某些群体,样本单位在总体中的分布不够均匀;
抽样误差取决于群之间的差异,群间差异愈大,样本代表性愈差。
应用:
当群内各单位间的差异较大,而各群之间差异较小时,考虑使用,就抽取更多的单位。
(五)多阶段抽样
multistagesampling-----即先抽大的调查单元,在大单元中抽小单元,再在小单元中抽更小的单元。
我国的城市职工家计调查,采用三阶段抽样,先城市-基层单位-调查户。
在复杂、大规模的市场调查中。
4:
随机抽样误差的影响因素有哪些?
(第5章)
1.含义:
抽样造成的误差,即用样本估计总体而产生的误差,是由随机因素引起的代表性误差(非随机因素引起的样本代表性不足引起的误差------系统性误差),不包括非抽样误差。
2.影响因素:
被研究总体各单位标志值的变异程度(方差)
抽取的样本量
抽查调查的组织方式(不重复抽样比重复抽样误差要小)
5样本容量如何确定(第5章)
经验法,成本约束法,抽样误差控制法
(一)经验法任意方法也许基于经验,如5%规则,具有主观性
容易确定,简单易行缺点:
无效率、不经济
(二)成本约束法
将成本作为确定样本容量的基础,对于成本基础法的区别很大;
通常会忽视调查结果对管理决策的价值;
(三)抽样误差控制法
(一)抽样误差的确定
3.抽样平均误差
抽样平均数(或抽样成数)的标准差。
它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。
定理:
若总体平均数μ和方差σ2有限,当样本数量充分大时,无论总体分布形式如何,样本平均数近似服从正态分布N(μ,σ2/n)
计算公式
平均数的重复抽样平均误差
--------抽样平均误差---------总体方差n------样本单位数
平均数的不重复抽样平均误差
其中,N-------总体单位数
(二)抽样数目的确定
必要的抽样数目------是在事先给定的抽样误差范围内所确定的能够反映总体特征的样本单位数。
影响因素
⏹总体中各单位间的标志值变异程度
⏹允许的误差的大小
抽样极限误差,指在一定概率下抽样误差的范围。
⏹抽样方法
抽样数目的计算公式
⏹估计总体均值时样本容量的计算
⏹估计总体成数(比例)时样本容量的计算(图2,3)
6问卷如何编码(第3章)
编码也是调查问卷中的一个组成部分。
它是指对问卷中的问题(题目)与答案用数字所表示的代码SPSS的问卷分析中一份问卷是一个案,首先要根据问卷问题的不同定义变量。
定义变量值得注意的两点:
一:
区分变量的度量,Measure的值,其中Scale是定量、Ordinal是定序、Nominal是指定类;
二:
注意定义不同的数据类型Type各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同。
1.单选题的编码
单选题:
答案只能有一个选项
例1当前贵组织机构是否设有面向组织的职业生涯规划系统?
A有B正在开创C没有D曾经有过但已中断
编码:
只定义一个变量,Value值1、2、3、4分别代表A、B、C、D四个选项。
录入:
录入选项对应值,如选C则录入3
2.多选题的编码
多选题:
答案可以有多个选项,其中又有项数不定多选和项数定多选。
(1)方法1(二分法):
例2贵企业的职业生涯规划系统工作涵盖哪些组群?
画钩时请把所有提示考虑在内。
A月薪员工B日薪员工C钟点工
把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:
“0”未选,“1”选。
被调查者选了的选项录入1、没选录入0,如选择被调查者选AC,则三个变量分别录入为1、0、1。
(2)方法2:
例3你认为开展保持党员先进性教育活动的最重要的目标是那三项:
1()2()3()
A、提高党员素质B、加强基层组织C、坚持发扬民主
D、激发创业热情E、服务人民群众F、促进各项工作
定义三个变量分别代表题目中的1、2、3三个括号,三个变量Value值均同样的以对应的选项定义,即:
“1”A,“2”B,“3”C,“4”D,“5”E,“6”F
录入的数值1、2、3、4、5、6分别代表选项ABCDEF,相应录入到每个括号对应的变量下。
如被调查者三个括号分别选ACF,则在三个变量下分别录入1、3、6。
注:
能用方法2编码的多选题也能用方法1编码,但是项数不定的多选只能用二分法,即方法一是多选题一般处理方法。
3.排序题编码
例4您购买商品时在①品牌②流行③质量④实用⑤价格中对它们的关注程度先后顺序是(请填代号重新排列)
第一位第二位第三位第四位第五位
定义五个变量,分别可以代表第一位第五位,每个变量的Value都做如下定义:
“1”品牌,“2”流行,“3”质量,“4”实用,“5”价格
录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。
4.选择排序题编码
例5把例3中的问题改为:
“你认为开展保持党员先进性教育活动的最重的目标是那三项,并按重要性从高到低排序”,选项不变。
以ABCDEF6个选项分别对应定义6个变量,每个变量的Value都做同样的如下定义:
“1”未选,“2”排第一,“3”排第二,“4”排第三。
以变量的Value值录入。
比如三个括号里分别选的是ECF,则该题的6个变量的值应该分别录入:
1(代表A选项未选)、1、3(代表C选项排在第二)、1、2、4。
5.开放性数值题和量表题编码
例6你的年龄(实岁):
______
一个变量,不定义Value值
即录入被调查者实际填入的数值。
6.开放性文字题编码
如果可能的话可以按照含义相似的答案进行编码,转换成为封闭式选项进行分析。
如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。
7.缺失值编码
如果选项占了2个栏位则“99”或“00”,三个则用“999”或“000”……,缺失值要用特定的、研究者自己能识别的数字表示,且每个题都用一致的数字。
7什么是问卷的信度和效度?
如何评估?
信度:
即可靠性,是指采取同样的方法对同一对象重复进行测量时,其所得的结果相一致的程度。
信度分为:
再测,复本,折半。
内部一致性评价
评价测量指标之间的同质性
方法包括:
折半信度、库李信度、Cronbach’s系数
折半信度:
将测量题项分成两半,计算两组得分的相关性
库李信度(KR21):
针对是非选择题,很少使用。
Cronbach’s系数,针对Likert量表开发的;
一般要求该系数在0.7以上,信度可以接受
效度:
指测量工具或测量手段能够准确测出所要测量的构念的程度,或者说能够准确、真实地度量事物属性的程度。
效度分为:
内容,准则,构念。
内容效度:
是指测验内容在多大程度上反映或代表了所要测量的构念
准则效度:
同一概念可能有多种测量方法﹐假如其中一种成为准则,另外一种就可以与之比较而判断其效度。
构念效度:
测量工具是否反映了构念的内部结构;
通过因子分析来检验构念效度
信度与效度的关系:
缺乏信度肯定无效度;
有信度不一定有效度。
8李克特量表如何编制(第2章)
也叫做累加量表(Summativescale)
最常用的定距量表
常用于测量观念、态度或意见
由一系列能够表达所研究的概念是肯定还是否定态度的陈述(statement)所构成。
被访者要求回答每一种陈述同意或不同意的程度,常用5级记分的方式来测量同意的程度:
“非常同意”、“同意”、“说不准”、“不同意”、“很不同意”
最后,将这些分数加总,测定被访者的态度。
构造李克量表的主要步骤:
收集和编写大量围绕研究问题的陈述或说法
各种陈述和说法应当比较分散,以覆盖所研究问题的一个足够宽的范围
应当有一定的把握使大部分被访者不至于只选中间点
有些说法是正向表述的,有些是负向的;
在需要计算累加的态度总分时,需要对负向说法的得分作逆向处理
随机地抽取一个小样本进行试调查
根据试调查的数据进行量表的信度和效度分析
根据分析的结果,去除影响信度和效度的陈述或说法,
从而得到有较高信度和效度的李克量表
9相关系数分为哪几类,如何应用(第10章)
1积差相关
积差相关,又称积矩相关,是英国统计学家皮尔逊于20世纪初提出的一种计算相关的方法,因而也称皮尔逊相关,是求直线相关的基本方法。
适用条件:
1、两列变量都是连续变量;
2、两列变量总体都为正态分布;
3、两列变量之间的关系是直线性的。
2斯皮尔曼等级相关
斯皮尔曼等级相关是等级相关的一种,常用符号rR表示。
两列变量属于定序变量,对总体分布形态无要求,样本量也可以小于30。
精确度比积差相关系数差,所以凡符合计算积差相关系数的数据应计算积差相关系数。
3肯德尔等级相关
肯德尔W系数(和谐系数)
适用资料:
多列等级变量求相关。
这种资料的获得一般采用等级评定的方法,即让K个评价者对N件事物进行等级评定。
SPSS中三种相关系数的选择
计算积距pearson相关系数,连续性变量才可采用;
计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的定距或定比数据;
计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的定距或定比数据。
如何选择合适的相关系数,选择计算相关系数方法要考虑的因素:
1、要处理的数据的性质类别;
2、某一相关系数需要满足的假设条件。
相关系数值的解释
相关系数大小与样本量有关,只有通过统计检验才能说明含义。
两个变量之间的相关系数大小有时会受到其他变量的影响。
相关不等于因果。
10相关关系和因果关系的区别和联系
相关关系即两类现象在发展变化的方向与大小方面存在一定的联系。
因果关系一种现象是另一种现象的原因,而另一种现象是结果。
变量X与变量Y没有因果关系时,仍可能有相关关系;
有因果关系时,仍可能没有相关关系。
所以说,因果关系与相关关系不是完全对应的,我们不能依据其中的一个关系的有与没有推断另一个关系的有与无。
而已知有无因果关系,甚至已知因果关系的条件是什么,也不能使我们推知有无相关关系及相关关系的强弱。
11回归模型的拟合度如何评价(第11-1.31章)
拟合优度检验:
对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:
判定系数(可决系数)R2
1、总离差平方和的分解
Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:
一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。
•在给定样本中,TSS不变,
•如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此
•拟合优度:
回归平方和ESS/Y的总离差TSS
2、可决系数R2统计量,称R2为(样本)可决系数/判定系数
可决系数的取值范围:
[0,1]
R2越接近1,说明实际观测点离样本线越近,拟合优度越高。
12回归模型要进行那些统计检验(第11-1章)
一、拟合优度检验
二、回归方程的显著性检验
三、变量的显著性检验
13什么是多重共线性?
如何识别和处理?
(第11-2章.35)
对于模型Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。
判别:
1、发现系数估计值的符号不对;
2、某些重要的解释变量t值低,而R方不低3、当一不太重要的解释变量被删除后,回归结果显著变化;
检验;
1、相关性分析,相关系数高于0.8,表明存在多重共线性;
但相关系数低,并不能表示不存在多重共线性;
2、vif检验;
3、条件系数检验;
解决方法:
1、增加数据;
2、对模型施加某些约束条件;
3、删除一个或几个共线变量;
4、将模型适当变形;
5、主成分回归
处理多重共线性的原则:
1、
多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;
2、
严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。
如影响系数符号,重要的解释变量t值很低。
要根据不同情况采取必要措施。
3、
如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果;
14主成分分析和因子分析有何区别(第13.14章)
主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。
这些综合指标就称为主成分。
因子分析(factoranalysis)是一种数据简化的技术。
它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。
这几个假想变量能够反映原来众多变量的主要信息。
原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
主成分分析:
原始变量的线性组合表示新的综合变量,即主成分;
因子分析:
潜在的假想变量和随机影响变量的线性组合表示原始变量。
15聚类分析的常用方法有哪些(第12章)
事先要确定分多少类:
k-均值聚类
●前面说过,聚类可以走着瞧,不一定事先确定有多少类;
但是这里的k-均值聚类(k-meanscluster,也叫快速聚类,quickcluster)却要求你先说好要分多少类。
看起来有些主观,是吧!
●假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);
也就是说,把这3个点作为三类中每一类的基石。
●然后,根据和这三个点的距离远近,把所有点分成三类。
再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。
●如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。
显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。
下面用饮料例的数据来做k-均值聚类。
事先不用确定分多少类:
分层聚类
开始时,有多少点就是多少类。
它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;
这样下去,每次都少一类,直到最后只有一大类为止。
越是后来合并的类,距离就越远。
16什么是方差分析?
原理是什么?
(第9章)
1.检验多个总体均值是否相等
▪通过分析数据的离差判断各总体均值是否相等
2.研究分类型自变量对数值型因变量的影响
▪一个或多个分类尺度的自变量
⏹两个或多个(k个)处理水平或分类
▪一个间隔或比率尺度的因变量
3.有单因素方差分析和双因素方差分析
▪单因素
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理 商务 分析 课程 SPSS 基本概念 解释