数据分析大作业讲解.docx
- 文档编号:619646
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:46
- 大小:72.08KB
数据分析大作业讲解.docx
《数据分析大作业讲解.docx》由会员分享,可在线阅读,更多相关《数据分析大作业讲解.docx(46页珍藏版)》请在冰豆网上搜索。
数据分析大作业讲解
第一章数据描述分析
(一)目的与要求:
掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。
掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。
理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。
(二)重点与难点:
掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。
区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。
掌握多元数据的数字特征及相关性的判断,并会应用程序结果。
1.1某小学60名11岁学生的身高(单位:
cm)数据如下:
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下和上四分位数、四分位极差、三均值;
(3)作出直方图;
(4)作出茎叶图;
(5)进行正态W检验();
(6)进行经验分布函数的检验。
126149143141127123137132135134146142
135141150137144137134139148144142137
147138140132149131139142138145147137
135142151146129120143145142136147128
142132138139147128139146139131138149
1.21949-1980年全国历年人口(单位:
亿人)如下:
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下、上四分位数、四分位极差、三均值;
(3)作出直方图;
(4)作出茎叶图;
(5)找出异常值。
(6)进行正态W检验();
(7)进行经验分布函数的检验。
5.41675.51965.63005.74825.87966.0266
6.14656.28286.46536.59946.72076.6207
6.58596.72956.91727.04997.25387.4542
7.63687.85348.06718.29928.52298.7177
8.92119.08599.24209.37179.49749.6259
9.75429.870510.007210.154110.2495
10.347510.4532
1.31978年至1999年我国居民消费数据如表1.3所示
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下、上四分位数、四分位极差、三均值;
(3)作出直方图;
(4)作出茎叶图;
(5)找出异常值。
1978184138405
1979207158434
1980236178496
1981262199562
1982284221576
1983311246603
1984354283662
1985437347802
1986485376920
19875504171089
19886935081431
19897625531568
19908035711686
19918966211925
199210707182356
199313318553027
1994174611183891
1995233614344874
1996264117685430
1997283418765796
1998297218956217
1999318019736651
1.42002年11月以及1至11月全国各省、市、区财政预算收入数据如下:
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下、上四分位数、四分位极差;
(3)作出直方图;
(4)作出经验分布函数图;
(5)X1和X2的观测值的pearson相关系数与spearman相关系数。
北京35.22499.80
天津10.41161.37
河北17.22273.29
山西10.70134.79
内蒙古10.2990.92
辽宁18.66348.99
吉林4.41106.89
黑龙江6.24196.44
上海49.72656.95
江苏47.70580.70
浙江36.55518.10
安徽14.85179.41
福建19.46250.16
江西10.93122.06
山东40.26552.74
河南19.82268.20
湖北19.49221.43
湖南16.01197.68
广东99.321080.26
广西14.77160.60
海南3.9639.51
重庆10.49111.76
四川21.71250.09
贵州13.0695.87
云南20.34183.62
西藏0.776.08
陜西11.38133.50
甘肃3.6664.86
青海1.2118.30
宁夏2.3123.81
新疆3.24103.81
1.5对某民族的21人测量其血液4种成分的含量,观测数据如下:
求总体均值向量及总体协方差矩阵的估计。
18.828.15.135.1
17.425.64.933.9
16.027.45.032.2
19.329.51.729.1
17.427.44.535.6
15.325.33.632.2
16.725.84.433.0
17.426.74.433.0
16.225.72.333.9
16.726.76.435.0
18.228.03.229.7
16.726.72.134.9
18.126.74.331.5
16.726.03.032.7
18.130.27.034.9
20.230.54.834.4
20.229.55.536.2
21.531.55.836.5
18.830.65.435.4
21.627.85.434.1
21.329.55.835.8
1.7一组人体的胸部、腹部、手臂部分皮肤的有关数据如下:
(1)计算观测数据均值向量和中位数向量;
(2)计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。
9.012.03.0
8.515.03.0
13.019.03.0
10.07.04.0
7.013.02.5
15.528.55.0
22.520.04.5
5.58.53.0
25.035.06.5
15.019.04.0
12.520.03.0
17.019.55.0
16.017.56.0
20.020.07.5
12.017.04.0
22.020.06.0
17.028.05.5
16.018.03.0
21.027.56.0
13.014.04.0
21.013.09.0
21.06.03.5
13.56.53.5
5.07.53.5
16.020.05.5
14.514.54.0
10.023.06.0
11.013.06.0
10.512.03.5
15.015.53.0
9.012.55.0
23.024.06.5
14.021.06.5
16.011.03.0
16.517.04.0
16.015.03.0
12.015.53.5
9.04.02.0
12.06.05.0
5.014.03.0
17.015.04.5
16.011.03.0
17.518.03.0
11.515.03.0
4.03.02.0
17.515.04.5
9.511.52.5
26.038.04.0
15.013.04.5
19.012.03.0
第二章线性回归分析
(一)目的与要求:
掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。
(二)重点与难点:
会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。
2.4某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:
箱)与该城市中适合使用该化妆品的人数X1(单位:
千人)以及他们人均月收入X2(单位:
元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:
(1)求回归系数的最小二乘估计和误差方差的估计,写出回归方程并对回归系数作解释;
(2)求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方的值并解释其意义;
(3)分别求和的置信度为95%的置信区间;
(4)对,分别检验人数X1及收入X2对销量Y的影响是否显著,利用与回归系数有关的一般假设方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著;
(5)该公司欲在一个适宜使用该化妆品的人数X01=200,人均月收入X02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;
(6)求Y的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?
作出各种残差图,分析模型有关假定的合理性。
1622742450
1201803254
2233753802
1312052838
67862347
1692653782
81983008
1923302450
1161952137
55532560
2524304020
2323724427
1442362660
1031572088
2123702605
2.5下面的数据是由特定模型产生的20组模拟数据
(1)首先拟合Y关于X的线性回归模型,结果如何?
通过残差分析(尤其是残差图分析)并参考Y与X的散点图,选择你认为合理的回归函数形式,拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性,最后,将你所拟合的回归方程与真实模型()比较,你是否给出了正确的模型形式。
(2)如果对因变量作BOX-COX变换,求变换参数的值,拟合变换后的变量关于X的简单线性回归模型,结果如何?
你对BOX-COX变换有何新的认识?
0.055.9421
0.155.4691
0.255.8724
0.355.1815
0.455.1955
0.555.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 作业 讲解
![提示](https://static.bdocx.com/images/bang_tan.gif)