SPSS实验报告.docx
- 文档编号:28746924
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:21
- 大小:228.33KB
SPSS实验报告.docx
《SPSS实验报告.docx》由会员分享,可在线阅读,更多相关《SPSS实验报告.docx(21页珍藏版)》请在冰豆网上搜索。
SPSS实验报告
SPSS实验报告
统计分析与SPSS的应用
实验报告
组员:
高琴200900701005
闭玉媚200900701006
吴辉萍200900701007
黄艳秋200900701008
覃茜茜200900701009
案例2-1数据组织方式示例--住房状况调查表:
已定义好的SPSS数据结构示例如下:
案例2-4横向合并数据文件
合并了奖金数据后的职工基本情况:
案例3-1数据的排序--职工数据
案例4-1频数分析的应用举例
案例4-3计算基本描述统计量的应用举例
本市户口和外地户口家庭人均住房面积的基本描述统计量
DescriptiveStatistics
户口状况
本市户口外地户口
有效的N:
列表有效的N:
列表
人均面积状态:
人均面积状态:
N统计量28252825168168
全距统计量112.6097.67
极小值统计量2.403.33
极大值统计量115.00101.00
均值统计量21.725826.7165
标准差统计量12.1753918.96748
偏度统计量2.1811.429
标准误.046.187
峰度统计量8.3112.121
标准误.092.373
结果分析:
上表表明本市户口家庭的人均住房面积的平均值(21.7平方米)低于外地户口家庭(26.7平方米),但外地户口的标准差却高于本市户口。
无论本市户口还是外地户口,人均住房面积的分布均呈一定的右偏分布(两个偏度统计量分别为2.18和1.43),且本市户口的偏斜程度更大些;同时,本市户口和外地户口家庭的人均住房面积均呈尖峰分布(两个峰度统计量分别为8.3和2.1),且本市更尖峰。
由此可见,本市户口和外地户口中的大部分家庭的人均住房面积都低于各自的平均水平,此时,仅用均值刻画住房状况是不准确的。
案例4-5交叉分组下的频数分析应用举例
表4-9本市户口和外地户口家庭对“未来三年是否打算买房”看法的列联表
户口状况*未来三年交叉制表
未来三年
不买购买合计
户口状况外地户口计数10959168
户口状况中的%64.9%35.1%100.0%
未来三年中的%5.0%8.2%5.8%
总数的%3.8%2.0%5.8%
标准残差-1.52.6
本市户口计数20526602712
户口状况中的%75.7%24.3%100.0%
未来三年中的%95.0%91.8%94.2%
总数的%71.3%22.9%94.2%
标准残差.4-.7
合计计数21617192880
户口状况中的%75.0%25.0%100.0%
未来三年中的%100.0%100.0%100.0%
总数的%75.0%25.0%100.0%
结果分析
表4-9表明:
首先,在所调查的2880样本中(有113个样本因缺失值而被剔除),2712户为本市户口,168户为外地户口,分别占总样本的94.2%和5.8%,可见本市户口占多数;未来三年不准备买房、准备买房的样本数分别为2161和719,各占总样本的75%和25%,不准备买房的占较大比例。
其次,对不同户口状况进行分析。
在本市户口(2712)中,未来三年不打算买房和打算买房的样本数分别为2052和660,各占总样本(2712)的75.7%和24.3%,不打算买房的仍占较大比例,但打算买房的比例低于总体比例(25%);在外地户口(168)中,未来三年不打算买房和打算买房的样本数分别为109和59,各占总样本(168)的64.9%和35.1%,未来三年不打算买房的仍占较大比例,但打算买房的比例高于总体比例(25%)。
最后,对不同看法进行分析。
在未来三年不打算买房的样本(2161)中,本市户口和外地户口的家庭数是2052和109,分别占总样本(2161)的95.0%和5.0%,比例相差较为悬殊;在未来三年打算买房的样本(719)中,本市户口和外地户口家庭数分别为660和59,分别占总样本(719)的91.8%和8.2%,比例差距仍较大。
但应注意的是,由于本市户口和外地户口的样本量本身存在较大悬殊,因此这里的分析是存在一定问题的。
这些分析可在图4-12中得到直观印证。
表4-10本市户口和外地户口家庭对“未来三年是否打算买房”看法的一致性检验结果
卡方检验
渐进Sig.(双精确Sig.(双精确Sig.(单值df侧)侧)侧)
aPearson卡方9.8191.002
b连续校正9.2521.002
似然比9.1481.002
Fisher的精确检验.002.002
线性和线性组合9.8161.002
有效案例中的N2880
a.0单元格(.0%)的期望计数少于5。
最小期望计数为41.94。
b.仅对2x2表计算
结果分析:
表4-10中,第一列为统计量名称,第二列是各检验统计量的观测值,第三列是自由度,第四列是大于等于各检验统计量观测值的概率P-值。
其中,第一行是卡方检验的结果。
根据上述卡方检验的基本步骤和决策方式可知,本检验的原假设是:
本市户口与外地户口对未来三年是否买房的看法是一致的。
如果显著性水平α设为0.05,由于卡方的概率P-值小于α,因此应拒绝原假设,认为本市户口与外地户口对未来三年是否买房的看法是不一致的。
这种不一致主要体现在打算买房的比例在本市户口中低于总体比例,而外地户口则高于总体比例。
脚注b表明,该分析中期望频数小于0的单元格数为0,最小的期望频数为41.94,适合作卡方检验。
另外表4-10中还输出了似然比卡方和线性相关卡方。
本例中,线性相关卡方的概率P-值小于显著性水平α,应拒绝原假设,认为行列变量具有线性相关性,但由于户口状况为定类变量,因而不宜采用该检验。
图4-12本市户口和外地户口对是否打算买房看法的分布条形图
案例4-8比率分析的应用举例
保险业务的分组描述结果
CaseProcessingSummary
计数百分比
地区标志直辖市411.1%
省份2261.1%
自治区513.9%
城市513.9%
总数36100.0%
排除的0
总计36
结果分析:
上表表明,36个地区中,有4个直辖市、22个省份、5个自治区和5个城市,比例分别是11.1%,61.1%,13.9%,13.9%。
财产业务的比率分析结果
RatioStatisticsfor财产保险费收入/全部保险费收入
方差系数帄均数绝对值偏组均值离散系数差均值居中中值居中
直辖市.349.045.12714.9%14.8%
省份.406.040.09812.7%12.6%
自治区.527.129.31450.3%71.5%
城市.445.028.0668.6%10.3%
总数.422.054.13126.5%27.1%
结果分析:
(1)总体来说,36个地区的财产保险保费收入占全部保费收入的比率的均值为0.422,也就是说,全国各地平均保费收入中的42.2%为财产保险收入,但直辖市的平均比例(34.9%)较低,自治区的平均比例(52.7%)高于全国平均水平。
)AAD平均绝对离差和COD离散系数全国总的情况为0.054和0.131,基于均值(2
和中位数的变异系数分别为26.5%和27.1%。
相比较,自治区AAD和COD都远高于全国水平,即离散程度高,从变异系数上也同样可以证明这点。
直辖市和省市的离散程度大致相同。
总之,在各自治区中,财产险的收入所占的比例较高(高于全国平均水平),但其发展水平差异较大(离散程度高于全国平均水平)。
案例5-1单样本t检验
表一:
人均住房面积的基本描述统计量
单个样本统计量
均值标准差均值的标准误N
人均面积299322.006012.70106.23216
表二:
人均住房面积的单样本t检验结果
单个样本检验
检验值=20
差分的95%置信区间
Sig.(双侧)均值差值下限上限tdf
人均面积8.6402992.0002.005961.55082.4612
结果分析:
由表一可知,2993个家庭的人均住房面积的平均值为22平方米,标准差为12.7平方米,均值标准误差(S/n的开平方)为0.23。
表二中,第二列是t统计量的观测值为8.64;第三列是自由度为2992(即n-1=2993-1);第四列是t统计量观测值的双尾概率P-值;第五列是样本均值与检验值的差,即t统计量的分子部分,它除以表一中的均值标准差(0.23)后得到t统计量的观测值(8.64);第六列和第七列是总体均值与原假设值差的95%的置信区间,为(1.55,2.46),由此计算出总体均值的95%的置信区间为(21.55,22.46)平方米。
该问题应采用双尾检验,因此比较a/2和p/2,也就是比较a和p。
如果a取0.05,由于p小于a,因此应拒绝原假设,认为家庭人均住房面积的平均值与20平方米有显著差异。
95%的置信区间告诉我们有95%的把握认为家庭人均住房面积的均值在21.55~22.46平方米之间,20平方米没有包含在置信区间内,也证实了上述推断。
案例5-2单样本t检验
表一:
保险公司具有高等教育水平员工比例的基本描述统计量
单个样本统计量
均值标准差均值的标准误N
受高等教育比例19.7448.16734.03839
表二:
保险公司具有高等教育水平员工比例的单样本t检验结果
单个样本检验
检验值=0.8
差分的95%置信区间
Sig.(双侧)均值差值下限上限tdf
受高等教育比例-1.43718.168-.05515-.1358.0255
结果分析:
由表一和表二可知,被调查的有效的19家保险公司中,具有高等教育水平员工比例的平均值为0.745,标准差为0.167;单样本t检验中t统计量的双尾概率P-值为0.168,比例总体均值的95%置信区间为(0.6642,0.8255)。
如果显著性水平a为0.05,由于应进行单尾检验且0.168/2大于显著性水平a,因此不应拒绝原假设,不能认为保险公司具有高等教育水平员工比例的平均值不显著高于0.8。
同时0.8大于95%的置信区间的下限值,也从另一角度证实了这个结论。
表三:
保险公司年轻人比例的基本描述统计量
单个样本统计量
均值标准差均值的标准误N
年轻人比例26.7139.15068.02955
表四:
保险公司年轻人比例的单样本t检验结果
单个样本检验
检验值=0.5
差分的95%置信区间
Sig.(双侧)均值差值下限上限tdf
年轻人比例7.23725.000.21388.1530.2747
结果分析:
由表三和表四可知,被调查的26家保险公司中,年轻人比例的平均值为0.714,标准差为0.151;单样本t检验中t统计量的双尾概率P-值接近于0,比例总体均值的95%置信区间为(0.6530,0.7747)。
如果显著性水平a为0.05,由于概率P-值小于显著性水平a,因此应拒绝原假设,认为保险公司年轻人的比例与0.5存在显著差异,同时0.5不在相应的置信区间内,也证实了上述结论。
案例5-3两个独立样本t检验的目的
表一:
本地户口和外地户口家庭人均住房面积的基本描述统计量
组统计量
户口状况均值标准差均值的标准误N
人均面积本市户口282521.725812.17539.22907
外地户口16826.716518.967481.46337
结果分析:
由表一可以看出,本地户口和外地户口的家庭人均住房面积的样本平均值有一定差距。
通过检验应推断这种差异是由抽样误差造成的还是系统性的。
表二:
本地户口和外地户口家庭人均住房面积的两独立样本t检验结果
独立样本检验
人均面积
假设方差相等假设方差不相等
方差方程的Levene检验F65.469
Sig..000均值方程的t检验t-4.968-3.369
df2991175.278
Sig.(双侧).000.001
均值差值-4.99069-4.99069
标准误差值1.004661.48119
差分的95%置信区间下限-6.96057-7.91396
上限-3.02080-2.06742
结果分析:
表二是本地户口和外地户口家庭人均住房面积的均值检验结果。
分析结论应通过两步完成:
第一步,两总体方差是否相等的F检验。
这里,该检验的F统计量的观察值为65.469,对应的概率P-值为0.00。
如果显著性水平a为0.05,由于概率P-值小于0.05,可以认为两总体的方差有显著差异。
第二步,两总体均值的检验。
在第一步中,由于两总体方差有显著差异,因此应看第三列t检验的结果。
其中,t统计量的观测值为-3.369,对应的双尾概率P-值为0.001。
如果显著性水平a为0.05,由于概率P-值小于0.05,可以认为两总体的均值有显著差异,即本地户口和外地户口的家庭人均住房面积的平均值存在显著差异。
表二中的第七列和第八列分别为t统计量的分子和分母;第九列和第十列为两总体均值差的95%置信区间的上限和下限。
由于该置信区间不跨零,因此也从另一个角度证实了上述推断。
案例5-4两个独立样本t检验
GroupStatistics
公司类别NMeanStd.DeviationStd.ErrorMean受高等教育比例全国性公司80.66570.169570.05995
外资和中外合资100.82570.131780.04167
IndependentSamplesTest
Levene'sTest
forEqualityof
Variancest-testforEqualityofMeans
95%Confidence
Intervalofthe
DifferenceSig.MeanStd.Error
FSig.tdf(2-tailed)DifferenceDifferenceLowerUpper受Equal
高variances0.9120.354-2.256160.038-0.160000.07091-0.31033-0.00968等assumed
教Equal
育variances-2.19113.0320.047-0.160000.07301-0.31770-0.00231比not
例assumed
结果分析:
上两个表的意义:
全国性公司、外资和中外资公司中,外资和中外资合资公司具有高等教育水平的员工比例要高等全国性公司。
表5-4(b)的分析结论应通过两步完成:
1、两总体方差是否相等的f检验。
这里,该检验的f统计量的观测值为0.912,对应的概率为p值为0.354。
如果显著性水平a为0.05,由于概率p值大于0.05,可以认为两总体的方差无显著差异。
2、两总体的均值的检验。
在第一步中,由于两总体方差无显著差异,因此应看第二列t检验的结果。
其中,t统计量的观测值为-2.256,对应的双尾概率p值为0.038.如果显著性水平a为0.05,由于概率p值小于0.05,可以认为两总体的均值存在显著差异,即全国性公司与外资和中外资合资公司中具有高等教育水平员工比列的均值存在显著差异。
案例5-5
PairedSamplesStatistics
MeanNStd.DeviationStd.ErrorMean
喝茶前体重Pair189.2571355.33767.90223
喝后体重70.0286355.66457.95749
PairedSamplesCorrelations
NCorrelationSig.
喝茶前体重&喝后体重Pair135-.052.768
PairedSamplesTest
PairedDifferences
95%ConfidenceIntervalof
theDifferenceSig.Std.Std.Error
tdf(2-tailed)MeanDeviationMeanLowerUpper
喝茶前体Pair
重-喝后11.92286E17.981911.3491916.4866921.9704514.25234.000
体重
结果分析:
具有显著的减肥效果上列表的意义:
喝茶前与喝茶后样本的平均值有较大差异。
喝茶后的平均体重低于喝茶前的平均体重。
在显著水平a为0.05时,肥胖志愿者服用减肥茶前后的体重并没有明显的线性变化,喝茶前和喝茶后体重的线性相关程度较弱。
如果显著性水平a为0.05,由于概率p值小于显著性水平0.05,应拒绝原假设,即认为总体上体重差的平均值与0有显著不同,意味着喝茶前和喝茶后的体重平均值存在显著差异,可以认为该减肥茶。
第五章练习题1
结果分析:
上表中,第二列t统计量的观测值为-0.442,第三列是自由度为10,第四列是t统计量观测值的双尾概率P-值0.668,第五列是样本均值与检验值的差,即t统计量的分子部分,它除以均值标准误差后得到t统计量的观测值-1.273,第六列与第七列是总体均值与原假设值差的95%的置信区间,为(-7.69,5.14),由此计算出总体均值的95%的置信区间为(67.31,80.14)分。
而平均分为75分包含在置信区间内,因此该经理的宣称是可信的。
案例6-1单因素差方分析
表6-1(a)广告形式对销售额的单因素方差分析结果
ANOVA
销售额
帄方和df均方F显著性
组间5866.08331955.36113.483.000
组内20303.222140145.023
总数26169.306143
结果分析:
表6-1(a)是广告形式对销售额的单因素方差分析结果。
可以看到:
观测变量销售额的离差平方总和为26169.306;如果仅考虑广告形式单个因素的影响,则销售额总变差中,不同广告形式可解释的变差为5866.083,抽样误差引起的变差为20303.222,它们的方差分别为1955.361和145.023,相除所得的F统计量的观测值为13.483,对应的概率P-值近似为0。
如果显著性水平α为0.05,由于概率P-值小于显著性水平α,则应拒绝原假设,认为不同广告形式对销售额产生了影响,不同广告形式对销售额的影响效应不全为0。
表6-1(b)地区对销售额的单因素方差分析结果
ANOVA
销售额
帄方和df均方F显著性
组间9265.30617545.0184.062.000
组内16904.000126134.159
总数26169.306143
结果分析:
同理,表6-1(b)是地区对销售额的单因素方差分析结果。
可以看到:
如果仅考虑地区单个因素的影响,则销售额总变差(26169.306)中不同地区可解释的变差为16904.000,它们的方差分别为545.018和134.159,相除所得的F统计量的观测值为4.062,对应的概率P-值近似为0。
如果显著性水平α为0.05,由于概率P-值小于显著性水平α,则应拒绝原假设,认为不同地区对销售额产生了影响,不同地区对销售额的影响效应不全为0。
对比表6-1(a)和表6-1(b)容易发现:
如果从单因素的角度考虑,广告形式对销售额的影响较地区有更明显的作用。
案例6-3多因素方差分析
表6-7销售额多因素方差分析
主体间效应的检验
因变量:
销售额
源III型帄方和df均方FSig.
a校正模型20094.30671283.0183.354.000截距642936.6941642936.6947619.990.000x15866.08331955.36123.175.000x29265.30617545.0186.459.000x1*x24962.9175197.3121.153.286
误差6075.0007284.375
总计669106.000144
校正的总计26169.306143
a.R方=.768:
调整R方=.539:
表6-7中,第一列是对观测变量总变差分解的说明;第二列是观测变量变差分解的结果;第三列是自由度;第四列是方差;第五列F检验统计量的观测值;第七列是检验统计量的概率P-值。
可以看到:
观测变量的总变差SST为26169.306,它被分解为四个部分,分别是:
由广告形式(X1)不同引起的变差(5866.083),由地区(X2)差异引起的变差(9265.306),由广告形式和地区交互作用(X1*X2)引起的变差(4962.917),由随机因素引起的变差(Error6075.000)。
这些变差除以各自的自由度后,得到各自的方差,并可计算出各F检验统计量的观测值和在一定自由度下的概率P-值。
F,F,F的概率P-值分X1X2X1*X2别为0.00,0.00和0.286。
如果显著性水平α为0.05,由于F,F概率P-值小于X1X2显著性水平α,所以应拒绝原假设,可以认为不同广告形式、地区下的销售额总体均值存在显著差异,对销售额的效应不同时为0,各自不同的销售水平给销售额带来了显著影响。
该结论与单因素方差分析是一致的。
同时,由于F的概X1*X2率P-值大于显著性水平α,因此不应拒绝原假设,可以认为不同广告形式和地区没有对销售额产生显著的交互作用,不同地区采用哪种形式的广告对销售额都将不产生显著影响。
另外,在表6-7中,CorrectedModel对应的变差(20094.306)是X1,X2,X1*X2对应变差相加的结果(20094.306=5866.083+9265.306+4962.917)是线性模型整体对观测变量变差解释的部分,其对应的F检验统计量和概率P-值说明,观测变量变动主要是由控制变量总体的不同水平引起的,控制变量能够较好地反映观测变量的变动,模型对观测变量有一定的解释能力;Intercept对应的总变差(642936.649)是观测变量与0的总离差平方和与SST的差。
22表6-7中的R(Rsquared:
0.768)和调整R(AdjustedRsquared:
0.539)反映的是多因素方差模型对观测数据的总体拟合程度,它们越接近1说明拟合程度越高。
在该问题中有两个控制变量,所以应参考调整R方,可以看到该模型对数据的拟合程度并不很理想,从另一个角度说明了销售额还受到除广告形式和地区以外的其他因素的影响
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 实验 报告
![提示](https://static.bdocx.com/images/bang_tan.gif)