数据分析实验二.docx
- 文档编号:4171940
- 上传时间:2022-11-28
- 格式:DOCX
- 页数:12
- 大小:147.33KB
数据分析实验二.docx
《数据分析实验二.docx》由会员分享,可在线阅读,更多相关《数据分析实验二.docx(12页珍藏版)》请在冰豆网上搜索。
数据分析实验二
实验课程:
数据分析
专业:
信息与计算科学
班级:
13080241
学号:
1308024121
姓名:
徐可
中北大学理学院
实验二 上市公司的数据分析
【实验目的】通过使用SAS软件对实验数据进行描述性分析和回归分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】表2是一组上市公司在2001年的每股收益(eps)、流通盘(scale)的规模以及2001年最后一个交易日的收盘价(price).
表2某上市公司的数据表
代码
流通盘
每股收益
股票价格
000096
8500
0.059
13.27
000099
6000
0.028
14.2
000150
12600
-0.003
7.12
000151
10500
0.026
10.08
000153
2500
0.056
22.75
000155
13000
-0.009
6.85
000156
3600
0.033
14.95
000157
10000
0.06
12.65
000158
10000
0.018
8.38
000159
7000
0.008
12.15
000301
15365
0.04
7.31
000488
7700
0.101
13.26
000725
6000
0.044
12.33
000835
1338
0.07
22.58
000869
3200
0.194
18.29
000877
7800
-0.084
12.55
000885
6000
-0.073
12.48
000890
16934
0.031
9.12
000892
12000
0.031
7.88
000897
14166
0.002
6.91
000900
21423
0.058
8.59
000901
4800
0.005
27.95
000902
6500
-0.031
10.92
000903
6000
0.109
11.79
000905
9500
0.046
9.29
000906
6650
0.007
14.47
000908
8988
0.006
8.28
000909
6000
0.002
9.99
000910
8000
0.036
8.9
000911
7280
0.067
9.01
000912
15000
0.112
8.06
000913
8450
0.062
11.86
000915
4599
0.001
14.4
000916
34000
0.038
5.15
000917
11800
0.086
16.23
000918
6000
-0.045
10.12
1、对股票价格
1)计算均值、方差、标准差、变异系数、偏度、峰度;
2)计算中位数,上、下四分位数,四分位极差,三均值;
3)作出直方图;
4)作出茎叶图;
5)进行正态性检验(正态W检验);
6)计算协方差矩阵,Pearson相关矩阵;
7)计算Spearman相关矩阵;
8)分析各指标间的相关性。
2、1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;
2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;
3)拟合残差关于拟合值
的残差图及残差的正态QQ图。
分析这些残差,并予以评述。
【实验所使用的仪器设备与软件平台】
SAS软件计算机
【实验方法与步骤】(阐述实验的原理、方案、方法及完成实验的具体步骤等,附上自己编写的程序)
dataprices;
inputnumscaleepsprice;
cards;
00009685000.05913.27
00009960000.02814.2
00015012600-0.0037.12
000151105000.02610.08
00015325000.05622.75
00015513000-0.0096.85
00015636000.03314.95
000157100000.0612.65
000158100000.0188.38
00015970000.00812.15
000301153650.047.31
00048877000.10113.26
00072560000.04412.33
00083513380.0722.58
00086932000.19418.29
0008777800-0.08412.55
0008856000-0.07312.48
000890169340.0319.12
000892120000.0317.88
000897141660.0026.91
000900214230.0588.59
00090148000.00527.95
0009026500-0.03110.92
00090360000.10911.79
00090595000.0469.29
00090666500.00714.47
00090889880.0068.28
00090960000.0029.99
00091080000.0368.9
00091172800.0679.01
000912150000.1128.06
00091384500.06211.86
00091545990.00114.4
000916340000.0385.15
000917118000.08616.23
0009186000-0.04510.12
run;
PROCPRINTDATA=prices;
run;
procmeansdata=pricesmeanvarstdskewnesskurtosiscv;
varprice;
outputout=result;
run;
procunivariatedata=pricesplotfreqnormal;
varprice;
outputout=result2;
run;
proccapabilitydata=pricesgraphicsnoprint;
histogramprice/normal;
run;
proccorrdata=pricespearsonspearmancovnosimple;
varpriceepsscale;
withpriceepsscale;
run;
procregdata=prices;
modelprice=scaleeps/selection=backwardnointpr;
outputout=pricesp=pr=r;
procprintdata=prices;
run;
procgplotdata=prices;
plotscale*r=1eps*r=2price*r=3;
run;
proccapabilitydata=pricesgraphics;
qqplotr/noemal;
run;
【实验结果】
1.
1)计算均值、方差、标准差、变异系数、偏度、峰度;
2)计算中位数,上、下四分位数,四分位极差,三均值
3)作出直方图
4)作出茎叶图;
5)进行正态性检验(正态W检验);
由上图可知W=0.872266
正态性检验(一般取
)
1.W检验:
故拒绝原假设认为样本数据不是来自正态总体。
2.Kolmogorov-Smirnov检验:
故拒绝原假设认为样本数据不是来自正态总体。
3.Anderson-Darling检验:
故拒绝原假设认为样本数据不是来自正态总体。
4.Cramer-von检验:
故拒绝原假设认为样本数据不是来自正态总体。
6)计算协方差矩阵,Pearson相关矩阵;
协方差矩阵:
Pearson相关矩阵:
7)计算Spearman相关矩阵;
8)分析各指标间的相关性
通过Pearson相关矩阵,Spearman相关矩阵的结果可以看出price与eps,eps于scale不相关。
2.
1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;
参数估计值如图;其中r列为残差
2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;
从图中可以看出
1.流通盘(scale)
拒绝原假设认为股票价格(price)与流通盘(scale)之间存在显著的显著回归关系
2.每股收益(eps)
拒绝原假设认为股票价格(price)与每股收益(eps)之间存在显著的显著回归关系
3)拟合残差关于拟合值
的残差图及残差的正态QQ图。
分析这些残差,并予以评述。
正态QQ图:
从图中可以得出:
1.正态QQ图中散点图是弯曲的,在一条直线的下方,可认为数据不是来自正态分布总体,且样本的偏度为正。
2.残差图中数据偏离0轴的距离比较大,数据比较分散。
【实验原理】
1.preason相关系数
当
时,称变量X,Y的观测数据是不相关的,当
时,称变量X,Y的观测数据是线性正相关的,当
时,称变量X,Y的观测数据是线性负相关的。
当
时,称变量X,Y的观测数据是完全线性相关的。
2.为了检验
之间是否存在显著的线性回归关系,即检验假设
我们构造了检验统计量。
通过SAS系统PROC REG过程得到检验结果,通过方差分析结果中的P值来拒绝原假设(即在显著性水平
下,认为
之间存在显著的线性回归关系)或者接受原假设(即在显著性水平
下,认为
之间线性回归关系不显著)
【结果分析与讨论】
通过此次的实验,我学会了使用SAS的基本操作,对实验操作也越来越熟练,此次试验,通过线性回归分析,我们可以得出每股收益,流通盘和收盘价三者之间存在线性回归关系,但是通过正态检验和正态QQ可以知道样本数据不是来自正态总体的,数据的偏度为正,数据整体是偏向右边的,峰度为正可得出样本总体分布中极端数值分布范围较广,又通过学生化残差可知残差较大的可疑点所占的比例不大,所以通过线性回归建立的模型是可行的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 实验