书签分享收藏举报版权申诉 / 12

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 药学 > SAS实验报告.docx

SAS实验报告.docx

文档编号：4043612
上传时间：2022-11-27
格式：DOCX
页数：12
大小：105.70KB

SAS实验报告.docx

《SAS实验报告.docx》由会员分享，可在线阅读，更多相关《SAS实验报告.docx（12页珍藏版）》请在冰豆网上搜索。

SAS实验报告.docx

SAS实验报告

实验目的：

探讨农产量、农村人口、播种面积、受灾面积、农村机械总动力的关联性。

数据来源：

国家统计数据库http:

//219.235.129.58/reportYearBrowse.do

导入数据：

农产量（万吨）

农村人口（万人）

播种面积（千公顷）

受灾面积（千公顷）

农业机械总动力（万千瓦）

北京市

124.77

263

226.29

14.6

271.54

天津市

156.29

270

306.64

58.533333

595

河北省

2910.17

4009

6216.5

2627.5

9861.12

山西省

942

1851

3146.67

1786.5

2655.0425

内蒙古自治区

1981.7

1129

5424

4770.363333

2891.64

辽宁省

1591

1712

3124.1

2171.786667

2142.93

吉林省

2460

1279

4427.7

2670.63

2001.13

黑龙江省

4353.01

1703

11391.03

7393.7

3401.27

上海市

121.68

219

193.27

16.3

99.2258

江苏省

3230.1

3430

5272.04

1202.6

3810.57

浙江省

789.15

2181

1290.09

463.313333

2384.03

安徽省

3069.872484

3550

6605.568384

2101.32

5108.85

福建省

666.861112

1763

1231.012133

265.693333

1175.0092

江西省

2002.56

2518

3604.6

1351.676667

3358.93

山东省

4316.3

4894

7030.09

2341.87

11080.66

河南省

5389

5910

9683.61

2987.353333

9817.843

湖北省

2309.1

3089

4012.53

1827.1

3057.24

湖南省

2902.7

3639

4799.1

1824.87

4352.39

广东省

1314.5

3528

2538.5

643.3

2190.177

广西壮族自治区

1463.2

2952

3067.5

1109.61

2550.9337

海南省

187.604049

440

430.433876

119.9

396.07

重庆市

1137.2

1384

2229.49

495.1

967.41

四川省

3194.6

5017

6419.4

1598.763333

2952.66

贵州省

1168.27

2663

2984.73

779.866667

1606.4196

云南省

1576.92

3017

4200.13

1667.523333

2159.402

西藏自治区

90.53

221

169.43

53.04

358.44

陕西省

1131.4

2131

3133.973333

1220.666667

1832.9785

甘肃省

906.2

1775

2740.03

1880.796667

1822.65

青海省

102.69

324

275.72

159.58

388.68

宁夏回族自治区

340.7

337

826.88

365.533333

702.55

新疆维吾尔自治区

1152

1299

1984.7

1244.3

1503.31

全国

53082.077645

68497

108985.7577

47213.689999

87496.1013

实验过程：

①生成数据集

（以下均为2009年数据，number为各个省、直辖市、自治区代号，y为农产量（单位：

万吨），x1为农村人口（单位：

万人），x2为播种面积（单位：

千公顷），x3为受灾面积（单位：

千公顷），x4为农业机械总动力（单位：

万千瓦））：

dataexperiment;

inputnumberyx1x2x3x4@@;

cards;

1124.77263226.2914.6271.54

2156.29270306.6458.53595

32910.1740096216.52627.59861.12

494218513146.671786.52655.04

51981.7112954244770.362891.64

6159117123124.12171.792142.93

7246012794427.72670.632001.13

84353.01170311391.037393.73401.27

9121.68219193.2716.399.23

103230.134305272.041202.63810.57

11789.1521811290.09463.312384.03

123069.8735506605.572101.325108.85

13666.8617631231.01265.691175.01

142002.5625183604.61351.683358.93

154316.348947030.092341.8711080.66

16538959109683.612987.359817.84

172309.130894012.531827.13057.24

182902.736394799.11824.874352.39

191314.535282538.5643.32190.18

201463.229523067.51109.612550.93

21187.6440430.43119.9396.07

221137.213842229.49495.1967.41

233194.650176419.41598.762952.66

241168.2726632984.73779.871606.42

251576.9230174200.131667.522159.40

2690.53221169.4353.04358.44

271131.421313133.971220.671832.98

28906.217752740.031880.791822.65

29102.69324275.72159.58388.68

30340.7337826.88365.53702.55

31115212991984.71244.31503.31

;

run;

②基本统计量分析:

procunivariatedata=experiment;

varyx1x2x3x4;

run;

结果：

各地区农产量均值为1712.32万吨，标准差为1404.26；

各地区农村人口均值为2209.58万人，标准差为1544.86；

各地区播种面积均值为3515.67千公顷，标准差为2797.99；

各地区受灾面积均值为1523.02千公顷，标准差为1539.50；

各地区农业机械总动力均值为2822.46万千瓦，标准差为2773.71。

结果分析：

从各个变量的标准差来看，各地区的各项数据波动很大（标准差很大）。

③由于前面生成的数据集仅有2009年一年各地区的农产量，对于显著性差别分析数据不充分，所以添加2007年和2008年各地区的农产量数据进行分析：

dataabc;

doi=1to3;

donumber=1to31;

inputy@@;output;

end;end;

cards;

102.07147.152841.551007.051810.6918352453.77613462.94109.23132.24728.64

2901.4635.06093719044148.765245.222185.442692.21284.71396.600383177.51088

3027.00491100.860261460.7193.861067.91048824106.18415323.52867.04125.45

148.932905.8110282131.31860.328404225115.673175.49775.553023.3652.328336

1958.14260.55365.482227.2328051243.441394.7183.47741153.2314011581518.59

95.031111888.5101.8329.24930.5124.77156.292910.179421981.715912460

4353.01121.683230.1789.153069.872484666.8611122002.564316.353892309.1

2902.71314.51463.2187.6040491137.23194.61168.271576.9290.531131.4906.2

102.69340.71152

;

procnpar1waydata=abcWilcoxon;

classnumber;

vary;

run;

结果：

结果分析：

由结果得到Pr>Chi-Square的值小于0.0001，远小于临界概率值0.05，所以结论为在5%显著性水平下全国各地区的年农产量有显著性差异。

思考：

为什么全国各地区的年农产量会有显著性差异呢？

是否与农村人口数、播种面积、受灾面积、农业机械总动力等因素有关呢？

④回归分析：

procregdata=experiment;

modely=x1x2x3x4;

run;

结果：

结果分析：

从结果看出Pr>F的值小于0.0001，所以回归方程是显著的，而各自变量的Pr>|t|值中X1的为0.9454>0.05，X2、X3、X4的均小于0.05，所以变量X1对农产量y影响不显著，变量X2、X3、X4对农产量y影响显著。

然而选择哪些变量进行回归分析才能建立“最优”回归方程呢？

实验选用逐步回归的方法继续进行分析：

procregdata=experiment;

modely=x1x2x3x4/selection=stepwise;

run;

结果：

结果分析：

从输出结果来看，变量X2、X3、X4对农产量y影响显著，用其能建立“最优”回归方程。

建立“最优”回归方程：

procregdata=experiment;

modely=x2x3x4;

run;

结果：

结果分析：

由于结果中常数项Pr>|t|的值为0.7948，大于0.05，所以不显著，故消去常数项。

程序为：

procregdata=experiment;

modely=x2x3x4/noint;

run;

结果输出：

回归方程：

y=0.53197*x2–0.25023*x3+0.08213*x4

思考：

一次线性回归已达“最优”，但回归中是否可能含二次项呢？

画残差图分析。

procregdata=experiment;

modely=x2x3x4/p;

plotresidual.*x2='*';

run;

结果：

结果分析：

残差图接近正常的残差图，可认为回归方程不含二次项。

⑤聚类判别：

procclusterdata=experimentmethod=wardstdpesudocccouttree=aaa;

varx2x3x4;

idnumber;

proctreedata=aaahorizontalgraphicsn=4out=bbb;

copyx2-x4;

run;

procsortdata=bbb;

bycluster;

procmeansdata=bbb;

bycluster;

varx2x3x4;

run;

结果输出：

R2准则支持分为两类、三类和四类；伪F统计量支持分为六类、五类和四类；伪t2统计量支持分为三类、两类和四类。

综合分析，认为用离差平方和法分为四类比较合适。

分类结果为：

G1={北京市，西藏自治区，上海市，天津市，海南省，青海省，浙江省，福建省，宁夏回族自治区}，G2={山西省，湖北省，江西省，云南省，辽宁省，甘肃省，吉林省，广东省，贵州省，重庆市，广西壮族自治区，陕西省，新疆维吾尔自治区，内蒙古自治区，江苏省，湖南省，四川省，安徽省}，G3={河北省，山东省，河南省}，G4={黑龙江省}。

由此看出，根据播种面积、受灾面积和农业机械总动力三个条件进行分类的结果与根据农产量分类的结果基本一致。

实验结论：

2009年各地区农产量均与播种面积、受灾面积和农业机械总动力有密切的关联性，与农村人口无关。

另外，全国31个省市自治区可根据农产量分为4类。