概率论与数理统计课程设计_一元线性回归分析Word文档下载推荐.doc
- 文档编号:13188033
- 上传时间:2022-10-07
- 格式:DOC
- 页数:18
- 大小:385.50KB
概率论与数理统计课程设计_一元线性回归分析Word文档下载推荐.doc
《概率论与数理统计课程设计_一元线性回归分析Word文档下载推荐.doc》由会员分享,可在线阅读,更多相关《概率论与数理统计课程设计_一元线性回归分析Word文档下载推荐.doc(18页珍藏版)》请在冰豆网上搜索。
一.设计目的
了解一元回归方程,回归系数的检验方法及应用一元回归方程进行预测的方法;
学会应用MATLAB软件进行一元回归实验的分析方法。
同时更好的了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合Excel对数据的处理解决实际问题。
本设计是利用一元线性回归理论对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,并用Excel分析工具库中的回归分析软件进行解算。
二.设计问题
用切削机床进行金属加工时,为了适当地调节机床,需要测定刀具的磨损速度。
在一定时间(例如每隔一小时)测量刀具的厚度,得到数据如下:
切削时间
刀具厚度
30.0
15
24.8
1
29.1
16
24.0
2
28.4
17
23.7
3
28.1
18
23.1
4
28.0
19
22.9
5
27.7
20
22.6
6
27.5
21
22.3
7
27.2
22
22.1
8
27.0
23
21.7
9
26.8
24
21.5
10
26.5
25
21.3
11
26.3
26
21.0
12
26.1
27
20.6
13
25.7
28
20.3
14
25.3
29
20.1
由此,我们利用这些数据做出刀具厚度关于时间的线性回归方程。
三.设计原理
在实际问题中,经常会出现两个变量之间的相关关系不是线性的(即直线型),而是非线性的(即曲线型)。
设其中有两个变量与,我们可以用一个确定函数关系式:
大致的描述与之间的相关关系,函数称为关于的回归函数,方程称为关于的回归方程。
一元线性回归处理的是两个变量与之间的线性关系,可以设想的值由两部分构成:
一部分由自变量的线性影响所致,表示的线性函数;
另一部分则由众多其他因素,包括随机因素的影响所致,这一部分可以视为随机误差项,记为。
可得一元线性回归模型
(1)
式中,自变量是可以控制的随机变量,成为回归变量;
固定的未知参数a,b成为回归系数;
称为响应变量或因变量。
由于是随机误差,根据中心极限定理,通常假定,是未知参数。
确定与之间的关系前,可根据专业知识或散点图,选择适当的曲线回归方程,而这些方程往往可以化为线性方程或者就是线性方程,因此我们可以用线性方程:
大致描述变量与之间的关系;
1)模型回归系数的估计
为了估计回归系数,假定试验得到两个变量与的个数据对我们将这对观测值代入式
(1),得
这里互独立的随机变量,均服从正态分布,即
回归系数估计的方法有多种,其中使用最广泛的是最小二乘法,即要求选取的,,的值使得述随机误差ε的平方和达到最小,即求使得函数
取得最小值的,。
由于是,的二元函数,利用微积分中的函数存在极值的必要条件,分别对求,偏导数,并令其为0,构成二元一次方程组
,
化简后得到如下正规方程组
a
解方程组得到总体参数估计量
这里,均已有的观测数据。
由此得到回归方程
带入观测,得到值称为回归预测值。
方程的直线称为回归直线。
2)回归方程显著性检验
建立一元线性回归方程当且仅当变量之间存在线性相关关系时才是有意义的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。
我们首先引入几个概念:
(1),称为总偏差平方和,它表示观测值总的分散程度;
(2),称为回归平方和,它是由回归变量的变化引起的,放映了回归变量对变量线性关系的密切程度;
(3),称为残差(剩余)平方和,它是由观测误差等其他因素起误差,它的值越小说明回归方程与原数据拟合越好。
可以证明下列关系成立
即=+
我们主要考虑回归平方和在总偏差和中所占的比重,记。
(0<
=R<
=1
),称R为复相关系数,用R的大小来评价模型的有效性,R越大,则反映回归变量与相应变量之间的线性函数关系越密切。
引入F统计量。
定义,可知F~F(1,n-2).对于给定的显著水平a(一般这里取0.05或0.01),查表可得临界值F(1,n-2)
如果F>
F(1,n-2),则认为y与x之间的线性关系显著;
如果F<
=F(1,n-2),则认为y与x之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过F对应的概率P<
来说明y与x之间的线性相关性显著。
3)回归系数的置信区间
回归方程
(1)的回归系统,是一个点估计值,给定置信水平1-后,可得到他们对应的置信区间,并且回归区间越短越好,如果摸个回归系数的置信区间包含0点,则说明该回归变量的影响不显著,需要进一步地修改回归方程,尽量是每个回归系数的置信区间都不包含0点。
4)利用模型预测
在对所建立的回归模型进行相关程度检验与分析之后,如果预测变量y与相关变量x的每一个给定值x,带入回归模型,就可以求得一个相对应的回归预测值,称为模型的点估计值。
四.方法实现
(1)输入数据,并输入作散点图命令:
>
y=[3029.128.428.128.027.727.527.227.026.826.526.326.125.725.324.824.023.723.122.922.622.322.121.721.521.321.020.620.320.1];
x=[01234567891011121314151617181920212223242526272829];
plot(x,y,'
*'
)
生成图
(1),可以看出x和y大体成线性关系。
图1散点图(横轴:
X纵轴Y)
(2)作一元回归分析,输入:
n=length(y);
X=[ones(n,1),x'
];
[b,bint,r,rint,s]=regress(y'
X);
b,bint,s
b=
29.5501
-0.3329
bint=
29.332629.7676
-0.3458-0.3200
s=
1.0e+003*
0.00102.801900.0001
这个结果可整理成表1的形式。
回归系数
回归系数估计值
回归系数置信区间
29.5501
[29.3326,29.7676]
-0.3329
[-0.3458,-0.3200]
表1MATLAB回归分析结果表
一元回归方程为:
从几个方面都可以检验模型是有效的:
检验-接近于0;
的置信区间不含零点;
;
用MATLAB命令finv(0.95,1,28)计算得到,F为统计量观测值,所以X与Y的相关性显著。
残差及其置信区间作图代码输入:
rcoplot(r,rint)
结果如图2所示:
图2残差图(横轴:
削磨时间纵轴:
残差分析值)
所谓残差是指实际观察值与回归估计值的差,残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。
从残差图可以看出,数据的残差离零点较近,且残差的置信区间均包含零点,这说明回归模型能很好的符合原始数据。
(3)讲上面的回归系数估计值,带入回归方程,刀具磨损速度的测试中,对时间间隔为30/h的刀具厚度进行预测,得到。
在,刀具的厚度预测区间简化为,输入计算指令:
t1=19.5631-norminv(0.0975,0,1)*sqrt(sum(r.^2)/16)
t1=
20.0742
t2=19.5631+norminv(0.0975,0,1)*sqrt(sum(r.^2)/16)
t2=
19.0520
即时间间隔为30/h的刀具磨损速度测试中,刀具厚度的置信度为0.95的预测区间为。
也可以用命令:
polytool(x,y,1,0.05)
作出散点图及拟合曲线,并对时的y进行预报,结果如图3所示。
图3散点图及拟合曲线
如图3所示,红线表示为数据离合区间,蓝色“+”表示为数据散点分布,绿色表示为拟合曲线。
(4)下面用Excel“分析工具库”提供的“回归”工具,找出线性回归方程,并检验其显著性。
1、具体步骤如下:
1>
在【工具】菜单中选中【数据分析】,则会弹出【数据分析】对话框,然后“分析工具”中选择“回归”选项,如图二所示。
单击【确定】后,则弹出【回归】对话框,如图<
5>
所示。
2>
填写【回归】对话框。
如图<
6>
所示,该对话框的内容较多,可以根据需要,选择相关项目。
在“X值输入区域”内输入队因变量数据区域的引用,该区域必须有单列数据组成,如本题中组分B;
在“Y只输入区域”输入对自变量数据区域的引用,如本题中组分C。
“标志”:
如果输入区域的第一行中包含标志项,则选中此复选框,本题中的输入区域包含标志项;
如果在输入区域中没有标志项,则应清楚此复选框,Excel将在输出表中生成合适的数据标志。
“置信度”:
如果需要在汇总输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率论 数理统计 课程设计 一元 线性 回归 分析
