K134合集数据统计分析数据资料分析勘误论文范文.docx
- 文档编号:7454203
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:51
- 大小:233.82KB
K134合集数据统计分析数据资料分析勘误论文范文.docx
《K134合集数据统计分析数据资料分析勘误论文范文.docx》由会员分享,可在线阅读,更多相关《K134合集数据统计分析数据资料分析勘误论文范文.docx(51页珍藏版)》请在冰豆网上搜索。
K134合集数据统计分析数据资料分析勘误论文范文
收集了大量的数据资料,这些资料都来源于实地调查,而非模拟资料。
根据这些资料,可以编制了大量的社会统计分析个案,适宜进行狭义或广义的数据分析。
I.教学常用规范化个案
①某企业人事工资资料统计分析
②1993年美国社会调查基础资料分析
③1995年世界各国社会经济情况分析
④2000年中国人口普查资料分析
⑤2000年中国2868个县区基本社会经济文化资料分析
⑥2005年大学生能力调查资料分析
⑦2007年江苏各县市基本社会经济文化资料分析
⑧1990年某省劳动力数量及质量分析
II.狭义数据分析个案
分析个案之2——1993年美国社会调查基础资料分析
打开1993年美国社会调查问卷文件GSS93subset.sav(GeneralSocialSurvey),样本量为1500人,已知这批人的平均年龄(age)为46.23岁、问他们的年龄众数、中位数和年龄标准差、标准误。
平均
中位数
年龄众数
年龄标准差
年龄标准误
1。
将年龄变量(AGE)进行重新分组。
分组标准:
24岁以下,25-29,30-34,35-39,40-44,45-49,50-54,55-59,60-64,65+,命名为AGE2,并对变量值进行重新编码,求出现频数。
2。
选择女性育龄妇女(15-49岁女性),问不同年龄(AGE2)下育龄妇女的婚姻状态,求Chisquare值,问年龄与育龄妇女婚姻有无关系。
未婚
已婚
离婚
丧偶
分居
合计
24-
25-29
30-34
35-39
40-44
45-49
合计
Chisquare值=
年龄与育龄妇女婚姻关系,主要原因是:
3。
恢复选择全体人口,假定影响家庭子女数(CHILD)的因素,有本人年龄(AGE)初婚年龄(AGEWED),性别(SEX),本人受教育年限(EDUC),父亲最高学位(PADEG),母亲最高学位(MADEG),理想子女数(CHILDIDEL),家庭经济收入(INCOME91),本人经济收入(RINCOM91)。
求他们之间的相关关系,问这种相关关系是否显著?
AGE
SEX
AGEWED
EDUC
PADEG
MADEG
CHILDIDEL
INCOME91
RINCOM91
CHILD
4。
将家庭子女数(CHILD)作为因变量,将本人年龄(AGE)初婚年龄(AGEWED),性别(SEX),本人受教育年限(EDUC),父亲最高学位(PADEG),母亲最高学位(MADEG),理想子女数(CHILDIDEL),家庭经济收入(INCOME91),本人经济收入(RINCOM91)等作为自变量,用逐步回归方法建立方程,并求复相关系数R,问何种因素最为重要,为什么?
Y=
5。
计算本人受教育年限(educ)与父亲受教育程度(padeg)、母亲受教育程度(madeg)、个人经济收入(rincome91)、家庭兄弟姐妹数(sibs)、生育子女数(childs)、本人年龄(age)和(sex)的相关系数,添入下表,并建立逐步回归方程(变量可用英文表示),给出主要参数,问哪两个因素影响最大,主要根据是什么。
r
父受教育
母受教育
个人经济收入
弟妹数
生育子女数
年龄
性别
受教育
Y(educ)=
复相关系数R=相关(回归)是否显著?
影响生育率最大的因素是其次是;
主要依据是
6。
用T检验,检验本人最高学位(DEGREE),父亲最高学位(PADEG)和母亲最高学位(MADEG)是否一致,没有显著性差异。
7。
用95%的置信区间估计家庭平均子女数(CHILD)。
8.选择女性人口,以95%的置信区间估计,不同文化程度(degree)下平均结婚(agewed)年龄(点估计)和平均结婚的区间(区间估计)。
(20%)
15-49岁妇女文化程度
高中以下
LessthanHS
高中
HighSchool
大专
JuniorCollege
本科
Bachelor
研究生
Graduate
平均结婚的点估计
平均结婚的估计区间
-
-
-
-
-
样本量
个案之5——某省实际普查资料的分析
“人口.sav”是某省1990年第四次人口普查的万分之二抽样调查数据资料,内含13580个样本(人)22个调查变量(问题),现要求:
1)根据实际人口数和调查人口数进行数据加权
2)计算各种行业、各种职业的劳动年龄人口数量的地区分布
3)计算各种行业、各种职业的劳动力的各种受教育程度和平均受教育年限
4)计算各地人口的年龄(5岁一组)性别分布
5)计算各种行业、各种职业劳动力的婚姻状态
7)统计各种无业人员的基本构成(在校学生、料理家务、待升学、市镇待业、离退休、丧失劳动能力、其他)
8)计算全省市镇待业人员的年龄性别构成(挑选市镇待业人员)
9)计算全省市镇待业人员的各种受教育程度和平均受教育年限
II.广义数据分析个案——大学生能力调查资料分析
一、调查设计、问卷数据编码、数据输入练习
二、新变量的构建、变量选择、样本选择、指标体系的重构
三、数据整理、汇总、分析
四、论文的组织与撰写
1、目的:
考察同学组织协作能力和数据综合分析的能力。
2、分析原则:
实事求是、综合分析、协作研究。
数据采用2005年南京师范大学“能力建设”实地调查数据,内含样本(被调查资料)3993个人,问题(指标)83个。
3、具体方法:
全班学生分为9个不同组,进行组内合作、讨论。
每组产生报告人一人,经过1-2周准备,报告人用PPT形式向全班报告主要研究结论,本组其他人补充,报告时间为6-8分钟。
各组的分数由各组学生代表9人和任课老师共10人,根据各组报告状态给出。
均分85分1组(优),80分3组(良),75分3组(中),70分2组(及格)。
4、用随机方法决定各组选择的课题如下:
1)不同性别对于学生能力的影响
2)家庭经济状态对于学生能力差异的影响
3)父母受教育程度对于学生能力差异的影响
4)学生学习基础对于学生能力差异的影响
5)家庭所在地区对于学生能力差异的影响
6)父母职业对于学生能力差异的影响
7)本人志向对于学生能力差异的影响
8)学生来源地(城、镇、乡)对于学生能力差异的影响
9)不同学院对于学生能力差异的影响
5、每组具体讨论的问题:
1)学生能力的理论定义,实际可操作定义和计算方法
2)问题的因变量、自变量分别是什么?
3)本问题的主要方法(频数、交叉表、相关、回归分析)为什么?
4)近期研究进展(上网搜索)。
5)可能的影响因素有哪些?
(事实、证据、原因、解释可能性)
6)主要表现事实是什么?
7)能够证明的影响因素有哪些?
他人工作有何旁证(上网搜索)?
8)尚待进一步研究的问题有哪些?
III.狭义数据分析个案——某省实际普查资料的分析
18.1打开1993年美国社会调查问卷文件GSS93subset.sav(GeneralSocialSurvey),样本量为1500人,问他们的平均年龄(age)、年龄众数、中位数和年龄标准差、标准误。
平均年龄
年龄中位数
年龄众数
年龄标准差
年龄标准误
男性
女性
合计
18.2将年龄变量(AGE)进行重新分组。
分组标准:
24岁以下,25-29,30-34,35-39,40-44,45-49,50-54,55-59,60-64,65+,命名为AGE2,并对变量值进行重新编码,求出现频数。
18.3选择女性育龄妇女(15-49岁女性),问不同年龄(AGE2)下育龄妇女的婚姻状态,求Chisquare值,问年龄与育龄妇女婚姻有无关系。
未婚
已婚
离婚
丧偶
分居
合计
24以下
25-29
30-34
35-39
40-44
45-49
合计
Chisquare值=
年龄与育龄妇女婚姻关系,主要原因是:
18.4恢复选择全体人口,假定影响家庭子女数(CHILD)的因素,有本人年龄(AGE)初婚年龄(AGEWED),性别(SEX),本人受教育年限(EDUC),父亲最高学位(PADEG),母亲最高学位(MADEG),理想子女数(CHILDIDEL),家庭经济收入(INCOME91),本人经济收入(RINCOM91)。
求他们之间的相关关系,问这种相关关系是否显著?
AGE
SEX
AGEWED
EDUC
PADEG
MADEG
CHILDIDEL
INCOME91
RINCOM91
CHILD
18.5将家庭子女数(CHILD)作为因变量,将本人年龄(AGE)初婚年龄(AGEWED),性别(SEX),本人受教育年限(EDUC),父亲最高学位(PADEG),母亲最高学位(MADEG),理想子女数(CHILDIDEL),家庭经济收入(INCOME91),本人经济收入(RINCOM91)等作为自变量,用向前回归方法(forward)建立方程,并求复相关系数R,问何种因素最为重要,为什么?
Y=
复相关系数R=相关(回归)是否显著?
影响生育率最大的因素是其次是;
主要依据是
18.6计算本人受教育年限(educ)与父亲受教育程度(padeg)、母亲受教育程度(madeg)、个人经济收入(rincome91)、家庭兄弟姐妹数(sibs)、生育子女数(childs)、本人年龄(age)和(sex)的相关系数,添入下表,并建立逐步回归方程(变量可用英文表示),给出主要参数,问哪两个因素影响最大,主要根据是什么。
r
父受教育
母受教育
个人经济收入
弟妹数
生育子女数
年龄
性别
受教育
Y(educ)=
复相关系数R=相关(回归)是否显著?
影响本人受教育年限最大的因素是其次是;
主要依据是
18.7用T检验,检验本人最高学位(DEGREE)和父亲最高学位(PADEG),本人最高学位(DEGREE)和母亲最高学位(MADEG)是否一致,没有显著性差异。
具体采用—————方法,T计算值为:
————;说明—————。
18.8用95%的置信区间估计家庭平均子女数(CHILD)。
18.9选择女性人口,以95%的置信区间估计,不同文化程度(degree)下平均结婚(agewed)年龄(点估计)和平均结婚的区间(区间估计)。
15-49岁妇
女文化程度
高中以下
LessthanHS
高中
High
School
大专
Junior
College
本科
Bachelor
研究生
Graduate
平均结婚的
点估计
平均结婚
的估计区间
-
-
-
-
-
样本量
打开1991年美国社会调查问卷文件“1991U.S.GeneralSocialSurvey.sav”,样本量为1517人。
1.要求分别写出参加的调查5个男性、5个女性最高、最低年龄人的地址码及相应年龄?
解:
可分如下4步骤实现:
1)打开文件“1991U.S.GeneralSocialSurvey.sav”,查总样本量;
2)Analyze→DescriptiveStatistics→Explore打开相应对话框;
3)在DependentList框中输入age,在FactorList框中输入sex,即年龄按性别进行分组;若在FactorList框中不输入sex,得不分性别的年龄分组。
4)打开Statistics对话框,选择Outliers,按Continue键,再按OK键,即得第二张ExtremeValues表格中相应结果如表14.1。
表18.1极端年龄值输出
大→小
男性
女性
小→大
男性
女性
编码
数值
编码
数值
编码
数值
编码
数值
+1
620
89
295
89
-1
188
18
1120
18
+2
1211
89
312
89
-2
498
19
679
18
+3
308
87
346
89
-3
335
19
1053
19
+4
979
85
569
89
-4
1202
20
1029
19
+5
271
84
828
89(*)
-5
1086
20(*)
978
19(*)
*相同数值的样本有多个。
2.求1517个人的分性别平均年龄、中位数、年龄标准差和标准误。
解:
可分如下3步骤实现:
1)从上面输出的第一张Descriptives表中,不难找到Means,方差(Median),标准差(StdDeviation);但是年龄标准误没有,并且男女性合计值没有。
实际上可以用更加方便的方法来处理。
2)可以利用OLAPcubes功能,依次按Analyze→Report→OLAPCubes,在SummaryVariable(s)选择项中输入age,在GroupingVariable(s)选
表18.2OLAPCubes
Respondent'sSex:
Total
Mean
Std.Deviation
Median
Std.ErrorofMean
AgeofRespondent
45.63
17.808
41.00
.458
择项中输入Sex,按Statistics键,打开对话框,分别用箭头将Mean、StandardDeviation,Median,StdErrorofMean输入右边的CellStatistics,按Continue和OK键。
输出如表18.2。
3)用鼠标右键单击表格,出现一提示图,在SPSS
pivotTableObject的Edit处用左键单击,于是出现PivotingTrays1图形(图18.1),该图形左边、左下方及右边分别有三个小方块,将鼠标对准左边一方块,按住往下拖到下面方图18.1PivotingTrays1
形右边,相应表格就呈现男女性各项年龄指标。
于是可得表14.3。
表18.3分性别平均年龄、年龄中位数
平均年龄
年龄中位数
年龄标准差
年龄标准误
男性
44.18
41.0
17.03
0.675
女性
46.67
42.0
18.29
0.617
合计
45.63
41.00
17.81
0.458
3.计算男女性平均受教育年限分别为多少年?
以90%的可靠性估计男女性平均受教育年限的区间。
解:
首先确定因变量是平均受教育年限,分组变量(自变量)是性别,
1)依次按键Analyze→DescriptiveStatistics→Explore打开相应对话框;
2)在DependentList框中输入educ;在FactorList框中输入sex;打开Statistics对话框,在ConfidenceIntervalformean内,将数值由95改为90;就可得受教育年限按性别进行分组;如在FactorList框中不输入sex,就可得平均受教育年限、及其上下限
表18.4分性别受教育年限
平均受教育年限
受教育年限下限
受教育年限上限
男性
13.23
13.03
13.44
女性
12.63
12.47
12.79
合计
12.88
12.76
13.01
4.问男女性平均受教育年限是否存在明显的差异(设显著性水平为0.05)?
解:
这是平均数检验问题,男女性平均数显然是不在某个案内,而是分别在不同个例中,于是应采用独立样本t检验。
1)依次按键Analyze→Comparemeans→Independent-SamplesTTest,打开相应对话框;
2)TestVariable(s)输入变量educ,在GroupingVariable对话框中输入变量sex,并单击sex(?
,?
)字符,则DefineGroup亮化为可用。
单击该对话框,有两种选择,若使用UseSpecifiedValues时,可在第一组、第二组分别输入1、2;若使用CutPoint时,可输入其中间值1.5。
然后按Continue退出,按OK执行,即得表18.5和表18.6。
表18.5给出了男女性人数、平均受教育年限、及其标准差、标准误,结果与前相同。
表18.5GroupStatistics
Respondent's
Sex
N
Mean
Std.
Deviation
Std.ErrorMean
HighestYearofSchoolCompleted
>=2
877
12.63
2.839
.096
<2
633
13.23
3.143
.125
表18.6给出了统计分析结果。
首先,对男女性方差是否相等进行检验,F=11.226,显著性水平为0.001,表示推翻原假设,原假设为虚无假设,即两个方差相等、无差异;于是看下面一行数字,下面一行数字告诉我们,t=-3.824,显著性水平为0.000,表示推翻原假设(原假设为男女性受教育年限相等),说明男女性受教育年限不等,或以95%的把握说女性受教育年数比男性少0.293到0.911年,女性受教育年限明显偏少。
表18.6独立样本检验(IndependentSamplesTest)
5.将人口年龄按5岁组进行重新编码,24岁以下;25-29;30-34;35-39岁;……;60岁以上,并命名为该变量为age5。
建立年龄性别交叉表并添入下表。
并求Chi-square值,问人口年龄与性别有无关系,为什么?
解:
1)依次按键Transform→Recode→IntoDifferentVariables,打开相应对话框;原年龄变量age通过箭头移入到中间方框中,在Name下输入新变量名age5,按Change按钮也移到中间对话框。
2)打开OldandNewValues对话框(图18.2),将旧值和新值分别输入
图18.2数据转换中的新旧码转变
到计算机。
按Comtinue返回后,再按OK就计算产生一新变量age5。
3)对新变量Age5贴标签,具体是分别按VariableView键,在age5和Values交叉格间用鼠标右键点一下。
在ValueLabels的第一个Value输入变量值1,在第二个Value输入变量值的标签“24岁以下”,按add键,再在第一个Value输入变量值2,在第二个Value输入变量值2的标签“25-29岁”,按add键,……。
4)依次按键Analyze→DescriptiveStatistics→Crosstabs,打开对话框,在Row(s)中输入变量Sex,在Column(s)中输入变量age5,打开Statistics按钮,选择chi-square,分别按Continue和OK键,就能获得表14.7。
在第二张表中得到pearsonchi-aquare为12.827,其近似两尾显著性水平为0.118,说明不能推翻原假设,年龄与性别相互独立无关。
表18.7年龄性别交叉表
24岁-
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60岁+
合计
男性
75
65
76
82
77
53
41
27
140
636
女性
80
85
111
113
90
60
46
51
245
881
合计
155
150
187
195
167
113
87
78
385
1517
6.问本人受教育年限(educ)与父亲受教育年限(paeduc)、母亲受教育年限(maeduc)、及配偶受教育年限(speduc)是否相关,是否显著?
解:
这几个变量都是数值变量,应该计算Pearson相关系数。
依次按键Analyze→Correlate→Bivariate,打开对话框,将相关变量educ、paeduc、maeduc,和speduc移入右面Variables下,CorrelationCoefficience选择Pearson方法,TestofSignificance选择Two-tailed。
按OK键即可输出结果。
由表18.8可见,本人受教育年限与父亲受教育年限、母亲受教育年限、及配偶受教育年限密切相关,这种相关程度高达99.9%。
表18.8两变量线性相关系数
父亲受教育年限
母亲受教育年限
配偶受教育年限
本人受教育年限
0.463**
0.419**
0.619**
7.问本人受教育年限是否明显高于父亲受教育年限;本人受教育年限是否明显高于母亲受教育年限(95%的置信水平)。
解:
本人受教育年限与父亲受教育年限,本人受教育年限与母亲受教育年限都在一个样本以内,因此选择配对样本检验。
1)依次按键Analyze→Comparemeans→Paired-SamplesTTest,打开相应对话框;
2)将Educ-paeduc,以及Educ-maeduc同时成对输入到pairedVariables对话框。
按OK键,即可得到输出结果。
3)计算表明本人受教育年限与父亲受教育年限平均差2.55年,统计量t的计算值为22.044,显著性水平Sig为0.000,推翻原假设,即本人受教育年限与父亲受教育年限有明显不同;类似,本人受教育年限比母亲受教育年限平均高2.51年,统计量t的计算值为25.687,显著性水平Sig为0.000,推翻原假设,即本人受教育年限与母亲受教育年限有明显不同。
8.计算本人受教育年限与父亲受教育年限、母亲受教育年限、配偶受教育年限、家庭兄弟姐妹数(sibs)、生育子女数(childs)、本人年龄(age)和(sex)的相关系数,并建立逐步回归方程(变量可用英文表示),给出主要参数,问哪两个因素影响最大,主要根据是什么。
解:
1)用类似的方法,可以求得两变量间线性相关系数。
r
父受教育
母受教育
配偶受教育
弟妹数
生育子女数
年龄
性别
本人
0.463
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- K134 集数 据统计 分析 数据资料 勘误 论文范文