数据的基本统计与非参数检验.docx
- 文档编号:27326222
- 上传时间:2023-06-29
- 格式:DOCX
- 页数:15
- 大小:20.68KB
数据的基本统计与非参数检验.docx
《数据的基本统计与非参数检验.docx》由会员分享,可在线阅读,更多相关《数据的基本统计与非参数检验.docx(15页珍藏版)》请在冰豆网上搜索。
数据的基本统计与非参数检验
北京建筑大学
理学院信息与计算科学专业实验报告
课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423日期2016.3.17
姓名班级学号指导教师成绩
【实验目的】
(1)熟悉数据的基本统计与非参数检验分析方法;
(2)熟悉撰写数据分析报告的方法;
(3)熟悉常用的数据分析软件SPSS。
【实验要求】
根据各个题目的具体要求,完成实验报告
【实验内容】
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显着影响,撰写相应的分析报告。
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显着差异,撰写相应的分析报告。
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显着影响,撰写相应的分析报告。
根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显着影响,撰写相应的分析报告。
【分析报告】
1.
表一家庭收入和现住面积的基本描述统计量
家庭收入
现住面积
N
有效
2993
2993
缺失
0
0
均值
均值的标准误
.47349
中值
众数
标准差
方差
偏度
.910
偏度的标准误
.045
.045
峰度
峰度的标准误
.089
.089
百分位数
25
50
75
表一说明,
家庭收入方面:
被调查者中家庭收入的均值为元,中值为15000元,普遍收入为10000元;
家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;
偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布;
由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下;
现住面积方面:
被调查者中现住面积的均值为平方米,中值为60平方米,普遍面积为60平方米;
现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;
偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;
由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。
图一:
家庭收入直方图
该图表明,家庭收入分布存在一定的右偏。
图二:
现住面积直方图
该图形象的展示了现住面积的数据分布比标准正态分布更陡峭。
表二:
学历与现住面积的交叉表
new
总计
文化程度
初中及以下
计数
796
8
1
0
0
805
预期计数
文化程度内的%
%
%
%
%
%
%
new内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
标准残差
.6
高中(中专)
计数
1240
17
1
0
0
1258
预期计数
文化程度内的%
%
%
%
%
%
%
new内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
标准残差
.6
大学(专、本科)
计数
832
51
5
4
4
896
预期计数
文化程度内的%
%
%
%
%
%
%
new内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
标准残差
研究生及以上
计数
29
3
1
0
1
34
预期计数
.9
.1
.0
.1
文化程度内的%
%
%
%
%
%
%
new内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
.9
.0
.9
标准残差
总计
计数
2897
79
8
4
5
2993
预期计数
文化程度内的%
%
%
%
%
%
%
new内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
图三:
学历与家庭收入直方图
表二表明:
首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的%,42%,%,和%,可见高中学历居多;收入为0~5w,5w~10w,10w~15w,15w~20w,20w~25w的样本量分别为2897,79,8,4,5,各占样本的%,%,%,%,%,收入在0~5w的占较大比例。
其次,对不同学历进行分析。
在初中及以下学历中,%的家庭收入在5万以下,1%的家庭收入在5w~10w之间;在高中学历中%的家庭收入在5万以下,%的家庭收入在5w~10w之间;在大学学历中%的家庭收入在5万以下,%的在5w~10w之间;在研究生及以上学历中%的家庭收入在5万以下,%的家庭收入在5w~10w,%的家庭收入在10w~15w之间。
最后,对家庭收入进行分析。
在家庭收入为5w(2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,大学学历的占大多数。
由此可以得出,学历与家庭收入有一定的联系。
但是,样本中的各学历的样本量存在一定的悬殊。
这些结论从图中可以直观的展现出来。
表三:
不同学历的家庭收入的一致性检验结果
数值
df
渐近显着性(2端)
皮尔森(Pearson)卡方
12
.000
概似比
12
.000
线性对线性关联
1
.000
有效观察值个数
2993
a.13资料格%)预期计数小於5。
预期的计数下限为.05。
本检验的原假设是:
不同学历对家庭收入是否有显着影响。
如果显着性水平a设为,由于卡方的概率p-值小于a,因此应拒绝假设,认为不同学历与家庭收入是否无显着影响。
这种无影响主要体现在家庭收入低的比例在低学历中低于总体比例,而家庭收入高的在比例在低学历中高于总体比例
表四:
学历与现住面积交叉表
square
总计
文化程度
初中及以下
计数
473
307
24
0
1
805
预期计数
.5
.3
文化程度内的%
%
%
%
%
%
%
square内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
.7
标准残差
高中(中专)
计数
658
574
25
1
0
1258
预期计数
.8
.4
文化程度内的%
%
%
%
%
%
%
square内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
.2
标准残差
.2
大学(专、本科)
计数
273
573
49
1
0
896
预期计数
.6
.3
文化程度内的%
%
%
%
%
%
%
square内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
.4
标准残差
.5
研究生及以上
计数
9
24
1
0
0
34
预期计数
.0
.0
文化程度内的%
%
%
%
%
%
%
square内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
残差
.0
.0
标准残差
总计
计数
1413
1478
99
2
1
2993
预期计数
文化程度内的%
%
%
%
%
%
%
square内的%
%
%
%
%
%
%
占总计的百分比
%
%
%
%
%
%
图四:
不同学历与现住面积的直方图
表四表明:
首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的%,42%,%,和%,可见高中学历居多;现住面积为0~60m2,60~120m2,120~180m2,180~240m2,240~300m2的样本量分别为1413,1478,99,2,1,各占样本的%,%,%,%,%,现住面积在第一和第二种情况下居多。
其次,对不同学历进行分析。
在初中及以下学历中,%的现住面积为60m2以下,%的现住面积在60~120m2之间,3%的现住面积在120~180m2之间;在高中学历中,%的现住面积为60m2以下,%的现住面积在60~120m2之间,2%的现住面积在120~180m2之间;在大学学历中,%的现住面积为60m2以下,64%的现住面积在60~120m2之间,%的现住面积在120~180m2之间;在研究生及以上学历中,%的现住面积为60m2以下,%的现住面积在60~120m2之间,%的现住面积在120~180m2之间。
最后,对家庭收入进行分析。
在现住面积为60m2以下及60~120m2的样本中,学历为高中的占大多数;在现住面积120~180m2的样本中,大学学历的占大多数。
由此可以得出,学历与家庭收入有一定的联系。
但是,样本中的各学历的样本量存在一定的悬殊。
这些结论从图四中可以直观的展现出来。
表四:
不同学历的现住面积的一致性检验结果
数值
df
渐近显着性(2端)
皮尔森(Pearson)卡方
12
.000
概似比
12
.000
线性对线性关联
1
.000
有效观察值个数
2993
a.9资料格%)预期计数小於5。
预期的计数下限为.01。
本检验的原假设是:
不同学历对现住面积是否有显着影响。
如果显着性水平a设为,由于卡方的概率p-值小于a,因此应拒绝假设,认为现住面积与家庭收入是否无显着影响。
这种无影响主要体现在现住面积小的比例在低学历中低于总体比例,而现住面积大的在比例在低学历中高于总体比例。
3.
表五:
家庭收入的统计资料
N
平均数
标准偏差
标准错误平均值
家庭收入
2993
表六:
家庭收入的检定
检定值=10000
T
df
显着性(双尾)
平均差异
95%差异数的信赖区间
下限
上限
家庭收入
2992
.000
由表五可知,2993个家庭的家庭收入的平均值为17696元,标准差为元,均值标准误差为。
由表六可知,,第二列t统计量的观测值为;第三列的自由度为2992;第四列的t统计量的观测值的双尾概率P-值为0;第六列和第七列是总体均值与原假设值差的95%的置信区间(,),由此计算出总体均值的95%的置信区间为(,)元。
该问题应采用双尾检验,因此比较a/2与p/2,也就是比较a与p。
如果a取,由于p小于,因此拒绝假设,认为家庭收入的平均值与10000元有显着的差异。
95%的置信区间告诉我们有95%的把握人为家庭收入的均值在~元之间,10000元没有包含在置信区间内,也证实了上述推断。
4.
表七:
婚姻状况的统计量
婚姻
N
均值
标准差
均值的标准误
现住面积
已婚
2685
.49946
否
308
表八:
婚姻状况与家庭收入显着性的检验
方差方程的Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
差分的95%置信区间
下限
上限
现住面积
假设方差相等
.410
.522
2991
.015
.74510
假设方差不相等
.015
.73468
表八是已婚和未婚家庭现住面积的均值检验结果。
第一步,该检验的F统计量为,对应的概率为.如果显着水平a为,由于概率P值大于,可以认为两总体的方差无显着差异。
第二步,由于两样本方差无显着差异,因此应看第三行t检验的结果。
其中,t统计量的观测值为,对应的双尾概率P值为.如果显着性水平a为,由于概率P小于,可以认为两总体样本有显着差异,即已婚与未婚家庭的家庭收入的平均值有显着差异。
5.
表九:
喝茶前后体重的统计量
均值
N
标准差
均值的标准误
对1
喝茶前体重
45
喝后体重
45
表十:
喝茶前后体重相关系数
N
相关系数
Sig.
对1
喝茶前体重&喝后体重
45
.674
.000
表十一:
喝茶前后体重的检验
成对差分
t
df
Sig.(双侧)
均值
标准差
均值的标准误
差分的95%置信区间
下限
上限
对1
喝茶前体重-喝后体重
44
.000
表九表明,喝茶前和喝茶后样本的平均值有较大的差异。
喝茶后的平均体重低于喝茶前的平均体重。
表十表明,在显着性水平为时,肥胖志愿者服用减肥茶前后的体重有明显的线性变化,喝茶前和核查后体重的线性相关程度较强
表十一,第二列是喝茶前后体重的平均差异,相差了公斤;第三列是差值样本的标准差;第四列是差值样本均值抽样分布的标准差;第五列是差值95%的置信区间的下限和上限;第七列是t检验统计量的观测值;第八列示t分布的自由度;第九咧是t检验统计量观测值对应的双尾概率P值,接近零。
如果显着性水平a为,由于概率P值小于显着性水平,应拒绝原假设,即认为总体上体重差的平均值与0无显着不同,意味着喝茶前和喝茶后的体重平均值无显着差异,可以认为该减肥茶无显着的减肥效果。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 基本 统计 参数 检验