实验报告五SAS方差分析Word下载.docx
- 文档编号:20363516
- 上传时间:2023-01-22
- 格式:DOCX
- 页数:30
- 大小:270.57KB
实验报告五SAS方差分析Word下载.docx
《实验报告五SAS方差分析Word下载.docx》由会员分享,可在线阅读,更多相关《实验报告五SAS方差分析Word下载.docx(30页珍藏版)》请在冰豆网上搜索。
0.26%
4.28%
5.15%
用单因子方分析检验这三个项目的收益率是否存在明显的差异。
【解答】
利用data数据步实现题目数据:
libnameLmf"
E:
\sashomework\lmf"
;
dataLmf.p51;
inputYieldProject$@@;
cards;
5.731
13.491
0.221
2.081
0.491
0.261
1.512
13.272
6.112
3.682
2.462
4.282
8.953
14.383
12.953
0.683
3.293
5.153
run;
利用INSIGHT模块实现单因素方差分析:
步骤如下:
结果:
表5.1:
Yield
=
Project
ResponseDistribution:
Normal
LinkFunction:
Identity
由表5.1拟合模型的信息知,这个分析是以Yield为响应变量、Project为自变量的线性模型;
相应变量的分布(ResponseDistribution)为正态分布(Normal);
关联函数(LinkFunction)是恒等函数(Identity)。
表5.2NominalVariableInformation
Level
1
2
3
由表5.2列名型变量信息(NominalVariableInformation)得知列名型变量项目(Project)下有三个水平分别为1、2、3。
表5.3ParameterInformation
Parameter
Variable
Intercept
4
由表5.3参数信息(ParameterInformation)知,P_2、P_3、P_4分别为项目1、2、3的标识变量(哑变量)。
表5.3ModelEquation
0.0757
-
0.0386
P_2
0.0235
P_3
由表5.3模型方程(ModelEquation)得知响应变量均值关于自变量Project的模型方程:
(其中y表示收益率(Yield),x表示项目(Project)。
)
其中,标识变量取值:
表5.4SummaryofFit
MeanofResponse
0.0550
R-Square
0.1075
RootMSE
0.0501
AdjR-Sq
0.0000
由表5.4拟合的汇总信息(SummaryofFit)得知,相应变量的均值(MeanofResponse)为0.055,拟合优度(判别系数)R2为0.1075,自变量所能描述的变化(模型平方和)在全部变差平方和中的比例为10.75%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。
均方残差平方根(RootMSE)为0.0501,为误差项的标准差的估计值。
表5.5AnalysisofVariance
Source
DF
SumofSquares
MeanSquare
FStat
Pr>
F
Model
0.0045
0.0023
0.90
0.4261
Error
15
0.0376
0.0025
.
CTotal
17
0.0421
由表5.5方差分析(AnalysisofVariance)得出,p值较大,因此不拒绝原假设,即不同的项目的收益率无显著差异。
表5.6TypeIIITests
由表5.6Ⅲ类检验(TypeIIITests)得知,对于单因素,该表与表5.5方差分析表第一行相同。
表5.7ParameterEstimates
Estimate
StdError
tStat
|t|
Tolerance
VarInflation
0.0204
3.70
0.0021
-0.0386
0.0289
-1.33
0.2022
0.7500
1.3333
-0.0235
-0.81
0.4292
由表5.7参数估计(ParameterEstimates)知,Intercept后的估计(Estimate)0.0757是项目3的收益率的均值的估计值,其后的t检验是检验这一均值是否为0,因对应的p值为0.0021<
0.05,因此拒绝项目3的收益率的均值为0的原假设,因此显著非0。
Project1后的估计(Estimat)为-0.0386,是项目1与项目3的效益率的均值之差的估计值,其后的t检验是检验这一均值之差是否为0,因p=0.2022>
0.05,因此不拒绝均值之差为0的原假设,因此项目1、3的效益率无显著差异。
Project2后的估计(Estimat)为-0.0235,是项目2与项目3的效益率的均值之差的估计值,其后的t检验是检验这一均值之差是否为0,因p=0.4292>
0.05,因此不拒绝均值之差为0的原假设,因此项目2、3的效益率无显著差异。
图5.1Residual-Predict散点图
图5.1残差预测值的散点图可以帮助校验模型的假定。
从图中看出,残差有大体相同的散布,它表明等方差的假设没有问题。
为了验证残差为正态分布的假定,回到数据窗口。
下面利用INSIGHT模块进行残差的正态性检验:
表5.8TestsforDistribution
Curve
Distribution
Mean/Theta
Sigma
KolmogorovD
D
-0.0000
0.0470
0.1902
0.0841
由表5.8残差的正态性检验(TestsforDistribution)得知,p值为0.0841>
0.05,因此不拒绝残差是正态分布的原假设。
综上,用单因子方分析检验这三个项目的收益率不存在明显的差异。
【练习5-2】2某房地产开发商为研究购房者的背景特征与购房者对房价的看法之间的关系,专门设计了问查调卷,获得了购房者的一些基本资料以及他们对房产的看法,其中一项要求受访购房者为房价的高低打分,从1到100分,如果觉得价格高则打分也高,表是不同学历购房者对放假的打分情况。
Middle
High
College
Bachelor
57
51
6
34
75
65
73
99
60
10
35
40
21
68
24
48
22
20
请用单因子方差分析检验不同学历的购房者是否对房价有一致的看法。
利用data数据步实现题目数据:
dataLmf.p52;
inputscoredegree$@@;
1Middle
6Middle
51Middle
60Middle
21Middle
48Middle
4High
34High
17High
10High
3High
22High
57College
75College
73College
35College
68College
48College
51Bachelor
65Bachelor
99Bachelor
40Bachelor
24Bachelor
20Bachelor
利用“分析家”实现单因素方差分析:
TheANOVAProcedure
表5.9ClassLevelInformation
Class
Levels
Values
degree
BachelorCollegeHighMiddle
由表5.9因素水平信息(ClassLevelInformation)得知变量学历(degree)下由4个水平,分别为大学学历(Bachelor)、大专学历(College)、高中学历(High)、初中学历(Middle)。
表5.10:
FValue
Pr>
F
7008.33333
2336.11111
4.97
0.0097
9395.00000
469.75000
CorrectedTotal
23
16403.33333
由表5.10方差分析表可知,经过F检验,F统计量的值为4.97,对应的p值为0.0097<
0.05,因此拒绝不同学历对房价的打分无差异的原假设。
表5.11:
CoeffVar
ScoreMean
0.427251
55.81215
21.67372
38.83333
由表5.11得出基本信息,拟合优度(判别系数)R2为0.427251,自变量所能描述的变化(模型平方和)在全部变差平方和中的比例为42.7251%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。
均方残差平方根(RootMSE)为21.67372,为误差项的标准差的估计值。
表5.12:
AnovaSS
7008.333333
2336.111111
由表5.12Ⅲ类检验得出对于单因素,该表与表5.5方差分析表第一行相同。
表5.13方差齐性的检验结果
Levene'
sTestforHomogeneityofscoreVariance
ANOVAofSquaredDeviationsfromGroupMeans
Pr
>
1402928
467643
1.92
0.1585
4865542
243277
由表5.13得知,使用Levene'
s检验法的p值为0.1585,所以不同水平下观测结果的方差无显著差异。
表5.14:
Levelof
N
score
Mean
StdDev
49.8333333
29.3354166
59.3333333
15.7056253
15.0000000
11.8659176
31.1666667
25.1190499
由表5.14得知本科、大专、高中、初中学历打分的均值分别为49.8333333、59.3333333、15.0000000、31.1666667;
标准差分别为29.3354166、15.7056253、11.8659176、25.1190499。
图5.2各水平盒形图
由图5.2看出,从左到右依次为本科、初中、大专、高中的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。
综上,利用单因子方差分析,不同学历的购房者对房价不是有一致的看法。
【练习5-3】工厂订单的多少直接反映了工厂生产的产品的畅销程度,因此工厂订单数目的增减是经营者所关心的。
经营者为了研究产品的外形设计及销售地区对月订单数目的影响,记录了一个月中不同外形设计的该类产品在不同地区的订单数据。
District
Design
700
450
560
397
357
420
697
552
720
543
302
515
试用双因子方差分析检验该产品的外形设计与销售地区是否对订单的数量有所影响。
dataLmf.p53;
doDistrict=1to4;
doDesign=1to3;
inputOrder@@;
output;
end;
end;
700450560
397357420
697552720
543302515
利用procglm过程步实现无交互作用的双因素方差分析:
procglmdata=Lmf.p53;
classDesignDistrict;
modelOrder=DesignDistrict;
TheGLMProcedure
表5.15ClassLevelInformation
123
1234
由表5.15多因素水平信息得知因素设计(Design)由三个水平,地区(District)有四个水平。
表5.16AnalysisofVariance
5
191096.2500
38219.2500
11.54
0.0049
19872.0000
3312.0000
11
210968.2500
由表5.16方差分析得知,F统计量的值为11.54,对应的p值为0.0049<
0.05,因此拒绝两因素外形设计(Design)与销售地区(District)对订单的数量无影响的原假设。
表5.17Summaryoffit
Order
0.905806
11.11540
57.54998
517.7500
由表5.17信息汇总得知,拟合优度R2为0.905806,自变量所能描述的变化(模型平方和)在全部变差平方和中的比例为90.5806%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。
均方残差平方根(RootMSE)为57.54998,为误差项的标准差的估计值。
表5.18TypeIIITests
TypeIIISS
64898.0000
32449.0000
9.80
0.0129
126198.2500
42066.0833
12.70
0.0052
由表5.18Ⅲ类检查(TypeIIITests)得知经过F检验,F统计量的值为9.80,对应的p值为0.0129<
综上,根据双因子方差分析得知该产品的外形设计与销售地区对订单的数量有影响。
【练习5-4】北京市房地产开发商想要了解本市商品房各类房型及户型在各地区的销售情况,搜集了房屋的销售量的数据,如表所示。
地区
月份
三室两厅
两室两厅
复式房型
其它
朝阳区
1月份
652
521
67
486
2月份
711
548
59
338
海淀区
481
50
391
509
425
55
348
大兴区
561
28
147
314
570
184
通州区
157
138
8
96
164
194
217
499
145
492
108
试用有交互作用的双因子方差分析检验地区与房型之间是否存在交互作用。
dataLmf.p54;
doDist=1to5;
doMonth=1to2;
doType=1to4;
inputSale@@;
end;
65252167486
71154859338
48152150391
50942555348
39756128147
31457024184
157138896
164194557
2174995147
1454928108
利用“分析家”实现存在交互作用的双因素方差分析:
表5.19ClassLevelInformation
Dist
12345
Type
由表5.19多因素水平信息得知地区(Dist)有5个水平,房型(Type)有四个水平。
图5.3双因素不同水平下因变量均值差异的连线图
由图5.3得出,在因素地区(Dist)的5个水平位置上(朝阳区、海淀区、大兴区、通州区、其他)有5条竖线,对应于因素房型(Type)的四个水平(三室两厅、两室两厅、复式房型、其他)有4条不同颜色的连线。
每条连线与竖线的交点纵坐标是在两因素相应水平下因变量销量(Sale)的均值。
从因素房型(Type)的四个水平对应的连线可以看出:
复式房型的销售量最低,且与所在地区关系不大;
两室两厅的销售量比较均衡,需求量较多;
三室两厅与其它房型的销量则与所在地区密切相关,在朝阳区、海淀区的销量较高,在大兴、通州及其他地区的销量则较低。
从因素地区(Dist)来看,通州区各种房型的销量都较低。
在市区销量最好的房型为三室两厅,在郊区销量最好的房型是两室两厅。
从两室两厅的连线与其他三条连线的交叉可直观地看出地区(Dist)与房型(Type)有交互作用。
表5.20AnalysisofVariance
19
1789228.275
94169.909
65.07
<
.0001
28942.500
1447.125
39
1818170.775
由表5.20方差分析得知,双因素考虑交互作用的方差分析模型是显著的,其中F统计量的值为65.07,对应的p值小于0.0001。
表5.21Summaryoffit
Sale
0.984082
14.05416
38.04110
270.6750
由表5.21信息汇总得知,拟合优度R2为0.984082,自变量所能描述的变化(模型平方和)在全部变差平方和中的比例为98.4082%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。
均方残差平方根(RootMSE)为38.04110,为误差项的标准差的估计值。
表5.22TypeIIITests
496320.650
124080.163
85.74
1010067.275
336689.092
232.66
Dist*Type
12
282840.350
23570.029
16.29
由表5.22Ⅲ类检查(TypeIIITests)得知经过F检验,F统计量对应的p值均小于0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 报告 SAS 方差分析