回归分析论文.docx
- 文档编号:30133180
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:23
- 大小:313.03KB
回归分析论文.docx
《回归分析论文.docx》由会员分享,可在线阅读,更多相关《回归分析论文.docx(23页珍藏版)》请在冰豆网上搜索。
回归分析论文
回归分析论文
合肥学院
2015-2016第二学期
《多元统计分析》课程论文
论文题目回归分析
姓名陈毅
学号1307021036
专业数学与应用数学
(1)
成绩
2015.5
一元线性回归分析及其应用
摘要应用一元线性回归分析南极站CAPETOWN68816从1901年到1960年这60年一月份的温度,根据最小二乘法的原理,采用SAS统计软件进行数据的处理,拟合出年份与温度间的线性关系。
分析软件运算的结果,最终得到实际的一元线性关系。
关键词温度与年份一元线性回归t检验
一、线性回归理论
(1)一元线性回归模型
其中
,
为模型参数,
为随机误差项,X是自变量,Y是因变量。
对(X,Y)进行观察,得到n组样本观测值
,则有
,其中
为x对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征,
为随机干扰:
各种偶然因素、观察误差和其他被忽视因素的影响。
(2)最小二乘估计
参数
的最小二乘估计量
使误差平方和
达到最小,即
其中
正规方程:
,若
可逆,
经验回归方程:
回归拟合值和残差:
回归拟合值:
拟合向量:
残差值:
残差向量:
(3)最小二乘估计的性质
(4)回归方程的显著性检验
复相关系数:
决定系数
:
:
即修正的
线性模型回归的检验:
方差来源
平方和
自由度
F值
回归
误差
总计
RSS
ESS
TSS
p
n-p-1
n-1
回归系数检验:
二、问题提出与分析
下表为南极南部海洋站CAPETOWN68816从1901年到1960年这60年一月份的温度,建立建立SAS数据文件,探讨年份与温度的关系。
年份
温度
年份
温度
1901
19.6
1931
23.6
1902
19.3
1932
20.5
1903
19.9
1933
21.3
1904
20.7
1934
22.2
1905
20.8
1935
22.1
1906
19.9
1936
19.4
1907
20.7
1937
21.7
1908
19.8
1938
21.1
1909
21.3
1939
21.8
1910
21.4
1940
22.2
1911
21.1
1941
22.2
1912
20.9
1942
21.4
1913
22.8
1943
20.3
1914
20.4
1944
21.8
1915
22.9
1945
21.2
1916
21.4
1946
20.7
1917
21.6
1947
21.1
1918
21.6
1948
21.8
1919
20.5
1949
21.7
1920
22.7
1950
21.6
1921
20.0
1951
20.5
1922
20.3
1952
21.7
1923
21.0
1953
22.7
1924
22.1
1954
21.4
1925
20.9
1955
22.2
1926
21.8
1956
22.0
1927
22.3
1957
22.3
1928
21.7
1958
21.7
1929
22.5
1959
20.7
1930
21.2
1960
21.9
数据来源:
三、模型建立
设温度为因变量Y,年份为自变量X,建立一元线性回归模型如下:
其中
,
为模型参数,
为随机误差项。
做出这组数据的散点图如下:
从图中可以看出,因变量与自变量在带状区域内呈线性关系,且因变量随着自变量的增大而增大,所以可以预测这组数据可以用某条直线来拟合,且在回归模型中,
。
(1)程序
(1):
datach;
inputwendunianfen@@;
cards;
19.61901
19.31902
19.91903
20.71904
20.81905
19.91906
20.71907
19.81908
21.31909
21.41910
21.11911
20.91912
22.81913
20.41914
22.91915
21.41916
21.61917
21.61918
20.51919
22.71920
20.01921
20.31922
21.01923
22.11924
20.91925
21.81926
22.31927
21.71928
22.51929
21.21930
23.61931
20.51932
21.31933
22.21934
22.11935
19.41936
21.71937
21.11938
21.81939
22.21940
22.21941
21.41942
20.31943
21.81944
21.21945
20.71946
21.11947
21.81948
21.71949
21.61950
20.51951
21.71952
22.71953
21.41954
22.21955
22.01956
22.31957
21.71958
20.71959
21.91960
;
procreg;
modelwendu=nianfen;
printcli;
plotwendu*nianfenp.*nianfenl95.*nianfenu95.*nianfen/overlay;
symbol1c=blackv=triangle;
symbol2c=bluev=circle;
symbol3c=greenv=square;
symbol4c=redv=star;
run;
程序
(2):
datach;
inputwendunianfen@@;
cards;
19.61901
19.31902
19.91903
20.71904
20.81905
19.91906
20.71907
19.81908
21.31909
21.41910
21.11911
20.91912
22.81913
20.41914
22.91915
21.41916
21.61917
21.61918
20.51919
22.71920
20.01921
20.31922
21.01923
22.11924
20.91925
21.81926
22.31927
21.71928
22.51929
21.21930
;
procreg;
modelwendu=nianfen;
printcli;
plotwendu*nianfenp.*nianfenl95.*nianfenu95.*nianfen/overlay;
symbol1c=blackv=triangle;
symbol2c=bluev=circle;
symbol3c=greenv=square;
symbol4c=redv=star;
run;
程序(3):
datach;
inputwendunianfen@@;
cards;
23.61931
20.51932
21.31933
22.21934
22.11935
19.41936
21.71937
21.11938
21.81939
22.21940
22.21941
21.41942
20.31943
21.81944
21.21945
20.71946
21.11947
21.81948
21.71949
21.61950
20.51951
21.71952
22.71953
21.41954
22.21955
22.01956
22.31957
21.71958
20.71959
21.91960
;
procreg;
modelwendu=nianfen;
printcli;
plotwendu*nianfenp.*nianfenl95.*nianfenu95.*nianfen/overlay;
symbol1c=blackv=triangle;
symbol2c=bluev=circle;
symbol3c=greenv=square;
symbol4c=redv=star;
run;
(2)程序说明
首先利用DATA补建立数据集ch,INPUT语句中的wendu表示温度,nianfen表示年份。
REG过程中的MODEL语句,nianfen作为回归变量或自变量,而把wendu作为相应变量或因变量。
Printcli可以得到预测值、95%预测上限与下限、残差。
Plot选项可以制出数据点、回归直线和预测界限的图形。
四、模型的检验与分析
(1)程序
(1)输出结果:
程序
(2)输出结果一:
(2)输出结果二:
REG过程
模型:
MODEL1
因变量:
wendu
输出统计量
观测
因
变量
预测
值
预测均值
标准误差
95%置信限预测
残差
1
19.6000
20.2140
0.2971
18.4005
22.0275
-0.6140
2
19.3000
20.2753
0.2821
18.4719
22.0787
-0.9753
3
19.9000
20.3366
0.2675
18.5426
22.1307
-0.4366
4
20.7000
20.3980
0.2532
18.6127
22.1833
0.3020
5
20.8000
20.4593
0.2394
18.6820
22.2366
0.3407
6
19.9000
20.5207
0.2261
18.7507
22.2906
-0.6207
7
20.7000
20.5820
0.2134
18.8186
22.3454
0.1180
8
19.8000
20.6433
0.2015
18.8858
22.4008
-0.8433
9
21.3000
20.7047
0.1904
18.9524
22.4570
0.5953
10
21.4000
20.7660
0.1804
19.0181
22.5138
0.6340
11
21.1000
20.8273
0.1716
19.0832
22.5715
0.2727
12
20.9000
20.8887
0.1642
19.1475
22.6298
0.0113
13
22.8000
20.9500
0.1585
19.2111
22.6889
1.8500
14
20.4000
21.0113
0.1545
19.2739
22.7487
-0.6113
15
22.9000
21.0727
0.1525
19.3360
22.8093
1.8273
16
21.4000
21.1340
0.1525
19.3973
22.8707
0.2660
17
21.6000
21.1953
0.1545
19.4579
22.9327
0.4047
18
21.6000
21.2567
0.1585
19.5178
22.9956
0.3433
19
20.5000
21.3180
0.1642
19.5769
23.0591
-0.8180
20
22.7000
21.3793
0.1716
19.6352
23.1235
1.3207
21
20.0000
21.4407
0.1804
19.6928
23.1885
-1.4407
22
20.3000
21.5020
0.1904
19.7497
23.2543
-1.2020
23
21.0000
21.5633
0.2015
19.8059
23.3208
-0.5633
24
22.1000
21.6247
0.2134
19.8613
23.3881
0.4753
25
20.9000
21.6860
0.2261
19.9160
23.4560
-0.7860
26
21.8000
21.7473
0.2394
19.9700
23.5247
0.0527
27
22.3000
21.8087
0.2532
20.0234
23.5940
0.4913
28
21.7000
21.8700
0.2675
20.0760
23.6641
-0.1700
29
22.5000
21.9314
0.2821
20.1279
23.7348
0.5686
30
21.2000
21.9927
0.2971
20.1792
23.8062
-0.7927
残差和
0
残差平方和
19.47466
预测残差SS(PRESS)
21.83816
(3)输出结果三:
程序(3)输出结果:
(4)运行结果分析
以程序
(2)为例:
输出结果1给出了由REG过程得到的方差分析与参数估计。
方差分析给出了直线拟合的这组数据的效果的信息。
其中Source项表示用于识别这组数据中方差的来源,DF项表示用于识别这组数据中相应的自由度,总方差用CorrectedTotal标记,DF为样本容量减1(DF=30-1=29)。
这个模型解释的偏差标记为Model,相应的自由度为1.Error的自由度是两个自由度的差(28=29-1).
SumofSquares表示平方和,这组数据的总偏差平方和可分解为模型平方和和误差平方和两个部分,及有一般形式:
TotalSS=ModelSS+ErrorSS。
容易看出总偏差平方和、模型平方和和误差平方和分别为27.92967、19.47466、8.45500。
MeanSquare表示均方(MS),均方等于平方和除以自由度。
ErrorMS=19.47466/28=0.69552,它是模型中误差方差的估计。
FValue和Pr>F项给出了检验统计量的F值及相应的P值。
F值等于MMS(模型均方)除以EMS(误差均方),它用于检验这样的假设:
该回归模型是显著的。
对于这组数据拟合后F值等于12.16,相应的P值小于0.0016,说明拟合的模型解释了这组数据总偏差的主要部分。
R-Square(R平方)和AdjR-Sq(调整后的R平方):
它们评价模型优劣的量,R平方等于ModelSS除以TotalSS。
因为TotalSS=ModelSS+ErrorSS,所以R平方是TotalSS中由ModelSS构成的比值。
换句话说,R平方是总偏差中有模型中那些变量引起的百分率。
R平方的取值范围为0到1;它越接近1,表示该模型越能解释这组数据的偏差。
改组数据拟合后的R平方等于0.3027,调整后的R平方等于0.2778,说明拟合的模型不太好,原因可能是某些数据有误,导致结果的不完美。
在参数估计(ParameterEstimates)输出的部分主要给出了回归模型的系数以及系数是否显著地不为零。
下面给出具体解释。
Variable(变量)和Parameter为0,标记Variable的列给出了直线拟合的方程式中这些系数相应的变量。
标记为ParameterEstimate(参数估计)的列给出了这些系数的参数估计值。
截距在Variable列用INTERCEPT标识。
斜率在Variable列中用变量名标识。
故简单的回归模型为:
wendu=-96.38351+0.06133nianfen
Standard是这些参数估计的标准误差,它可用来构造参数估计的置信区间。
tValue给出了检验参数为0的原假设的t值。
该值等于参数估计除以相应的标准误差。
例如:
-96.38351/33.69711=-2.86。
Pr>|t|给出了t值相应的P值,由于原假设的P值为0.0079<0.05,故认为模型中的截距显著不为0,不可以在模型中去掉。
因此随着nianfen的增加wendu也适当增加。
参数域的区间估计公式为:
参数估计值
分为点
标准误差。
例如,参数的置信水平位95%的区间估计为
(0.061-2.18
0.018,0.061+2.18
0.018)=(0.02176,0.10024)
输出结果2给出了年份的预测值及95%的置信限等信息。
Obs表示序号观测值,DependentVarible(因变量)给出了温度的原始数据,PredictedValue(预测值)给出了温度的预测值,StdErrorMeanPredict(预测的标准误差)给出了预测的标准误差。
95%CLPredict(95%的置信限)给出了预测值的95%的置信限,共有2列,左边是预测值的95%置信下限,右边是预测值的95%置信上限,最后一列Residual给出了残差,它是实际值与预测值之间的差。
输出结果3中,一个观测数据点用一个“△”表示,拟合直线用一系列的“○”构成,预测下界用“□”,上界用“*”表示。
五、总结
根据以上讨论得到:
前30年温度与年份之间的关系的回归方程为:
wendu=-96.38351+0.06133nianfen
后30年温度与年份之间的关系的回归方程为:
wendu=12.904+0.0044nianfen
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 论文