王向东数学实验课本313.docx
- 文档编号:28716590
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:26
- 大小:75.41KB
王向东数学实验课本313.docx
《王向东数学实验课本313.docx》由会员分享,可在线阅读,更多相关《王向东数学实验课本313.docx(26页珍藏版)》请在冰豆网上搜索。
王向东数学实验课本313
3-13
王向东数学实验课本
实验十三商品需求量的预测
【实验目的】
1.了解回归分析的基本原理和方法。
2.学习用回归分析的方法解决问题,初步掌握对变量进行预测和控制。
3.学习掌握用MATLAB命令求解回归分析问题。
【实验内容】现有某种商品的需求量、消费者的平均收入、商品价格的统计数据如表1所示,试用所提供的数据预测消费者平均收入为1000、商品价格为6时的商品需求量。
需求量=
100
75
80
70
50
65
90
100
110
60
收入
1000
600
1200
500
300
400
1300
1100
1300
300
价格
5
7
6
6
8
7
5
4x11
3
9
【实验准备】206
现实生活中,一切事物都是相互关联、相互制约的。
我们将变化的事物看作变量,那么变量之间的相互关系,可以分为两大类:
一类是确定性
关系,也叫作函数关系,其特征是一个变量随着其它变量的确定而确定,如矩形的面积由长宽确定;另一类关系叫相关关系,其特征是变量之间很难用一种精确的方法表示出来,如商品销量与售价之间有一定的关联,但由售价我们不能精确地计算出销量。
不过,确定性关系与相关关系之间没有一道不可逾越的鸿沟,由于存在实际误差等原因,确定性关系在实际问题中往往通过相关关系来体现;另一方面,当对事物内部规律了解得更加深刻时,相关关系也可能转化为确定性关系。
1.回归分析的基本概念
回归分析就是处理变量之间的相关关系的一种数学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺化等问题。
由相关关系函数确定形式的不同,回归分析一般分为线性回归、非线性回归和逐步回归,在这里我们着重介绍线性回归,它是比较简单的一类回归分析,在实际问题的处理中也是应用得较多的一类。
207
回归分析中最简单的形式是为标+(、=+?
?
?
yyxx011)量)(称自变量固定的未知参数,称为回归系数,?
?
x
01是均值为零的随机变量,它是其为回归变量,?
的影响,是不可观察的,我们称他随机因素对y是为一元线性回归。
它的一个自然推广是
(1)x多元变量,形如+++…+=?
?
?
xxymm0112)(?
我们称为多元线性回归,或者更有一般地≥2,m++=+…?
?
)xf(y011(3)+?
?
)f(xmm)是=(其中,…,),,…,=1()xf(xxjmxjm1(也叫曲线或曲面回称为非线性回归已知函数,作变量替换,一般能。
不难看出,对自变量归)x)的形)转化为线性回归(2够将非线性回归(3所以我们着重讨论线性回归的式进行求解分析,内容。
对
(2)式两边同时取数学期望得,=0(+=?
?
?
?
DEYX=))(42?
其中…1x1my1………X208
=…Y…1xxnm1nynT,)=(,,…,?
?
?
?
m01T
),,…,=(?
?
?
?
n12)式称为线性回归方程。
线性回归分析所要4(考虑的主要任务是:
用试验值(样本值)对未知同时对估计值作假设检验,作点估计,参数和2?
?
=从而确立与,…,之间的数量关系;在xxxym01作)处对值作预测与控制,即对(,…,xxyy0m01这里我们均假设样本容量大于变量个区间估计。
+>1。
数,即mn2.模型的参数估计和假设检验
用最小二乘法估计模型(4)中的参数,作离差平方和
n==?
2?
Qi1i?
n(5)?
2?
?
?
)x?
?
.....y(x?
?
imi01mi11i?
求使得达到最小。
根据微积分学中求极值的?
Q方法,只需求关于,,…,一阶导数为0?
?
?
Qm01的真值,,…,的方程组的解,此解不是,?
?
?
m01,…,的最小二乘估计值,我们用,而是?
?
?
?
1m0表示=T?
1T?
YXX)X()(6)将4,的估计值代入回归方程(,…,?
?
?
?
1m0209
得到的估计值y=++…+?
?
?
xxy1m1m0)(7的可作为随机误差拟合误差=-称为残差,?
eyy
估计,而nn==?
?
22y)?
e(yQiiii?
1i?
1(8)
。
为残差平方和(或剩余平方和),即?
)Q(在实际问题中,事先我们并不知道或者不能断定随机变量与一组变量,…,之间有线性关xxym1往往只+)式=++…+系,如(2?
?
?
?
xxymm011还须是一种假设,因此在求出线性回归方程后,对求出的线性回归方程同实际观测数据拟合效果进行检验,可提出以下原假设:
=…=:
==0?
?
?
H0m01(9)检验法(详细内容在数理统计采用检验法或RF,,拒绝类书籍中均可查到,此处不再赘述)H0之间显著地有线性关系;否则认为,…,与xxym1之间线性关系不则就接受与,…,,认为Hxxy0m1显著。
3.变量的预测与控制
可由给当回归模型和系数通过了假设检验后,是随机的,,…,=(定的,)预测出yyxxx0m00010)知道,其预测值(点估计)7显然由回归方程(为210
=++…+?
?
?
yxx1m0001m010()的预测区间对于给定的显著水平,可以算出ya0接近较大且(区间估计),结果较复杂,但当xn
i0平均值,的预测区间可简化为yx0i[-,+]yysusu00aa?
?
1122)(11a分位数。
-是标准正态分布的1其中ua2?
12对于的区间估计方法可用于给出已知随y0的置信区间,-服从均值为机数据的残差=eeyy的置信区间不包括零的正态分布,所以若某个ei零点,则认为这个数据是异常的,可予以剔除。
MATLAB统计工具箱中的回归分析命令4.多元线性回归模型(4)可采用命令regress,此命令也可用于求解一元线性回归,其格式如下所示:
b=regress(y,x)确定回归系数的点估?
计值;
[b,bint,r,rint,stats]=regress(y,x,
alpha)求回归系数的点估计和区间估计,y,x的定义见(4),b为回归系数的点估计值,?
见(6);alpha为显著性水平(缺省时为0.05);bint为回归系数的区间估计;r和rint分别为残差-及其置信区间;yystats:
1×3检验统计量,第一值是回归方
211
说明回归方程越显著;程的置信度,越接近1)1-k->FF(k,n第二值是F统计量,a1-越大说明回归方程越显著;第F时拒绝H,0时a,p<三个是与F统计量相对应的概率p线性回归,说明回归方程系数不为0,拒绝H0方程模型成立;命令求得的regress对用rcoplot(r,rint)当残差离零点的数残差和残差置信区间作图,据数目比较多时,可认为回归方程显著性越可以视为异对于置信区间不包括零点的,大,常点;
,格式如下:
多元二项式回归用命令rstool
,'xname''model'y,,alpharstool(x,
矩阵×m,y分别为n'yname')输入数据x为显著性水平(缺省时维列向量;alpha和n轴轴和y'xname','yname'分别是x为0.05);个模型中4的标签,可省略;'model'由下列:
选择1个(缺省为线性)+…+:
=+linear(线性)?
?
?
xxymm011+…=+purequadratic(纯二次):
?
?
xy011n++?
2?
?
xxjjjmm1?
j++…++(交叉):
=interaction?
?
?
xxymm011n?
?
xxkjjkmj?
1?
?
k
212
+…+=:
+quadratic(完全二次)?
?
xy011n+?
?
?
xxxkjkjmmmk?
?
j,1每个图m个图形的交互画面,rstool产生有y个变量固定)与m-1给出独立变量x(另iMATLAB菜单向的拟合曲线;图中Export菜单对上Model工作区输送回归系数等参数;其中剩余标准差最模型比较剩余标准差,述4的模型最好。
接近0
对于非线性回归模型的求解命令我们也一来,nlpredcinlintool并给出,可用命令nlinfit,实现,其格式如下:
[beta,r,J]=nlinfit(x,y,'FUN',beta0)
为事'FUN'矩阵和n维列向量;mx,y为n×为回归系beta0先用M-定义的非线性函数;估计预测误差用;的初值;J数beta其nlintool(x,y,'FUN',beta0,alpha)
rstool命令类似;输出画面与[ypred,delta]=nlpredci('FUN',x,beta,
所得的回归函数在nlintool求nlinfit或r,J)
alpha-1x处的预测值ypred及显著水平为delta。
ypred±置信区间11010090807060501300120011007006008009001000500300400
【实验方法与步骤】213
.引例问题的分析求解1
商我们可以初步判断,由问题提供的数据,
品的需求量与消费者的平均收入和商品价格之
具体的函数关系式我们还间存在某种相关关系,我们先独立分析商品需不清楚。
输入三组数据,商品需求量与价格之间求量与消费者平均收入,存在何种关系:
110040013001200500300>>x1=[1000600
消费者的平均收入1300300]';%
商品价格>>x2=[5766875439]';%
商>>y=[10075807050659010011060]';%品的需求量以消费者的平均收入和商>>plot(x1,y,'+')%品的需求量所对应的离散点作图>>plot(x2,y,'+')%以商品的价格和商品的需求量所对应的离散点作图
214
120
10080
60409783456由上面两图我们看到商品的需求量随着消费者平均收入增加呈线性递增的趋势,而随着商品的价格增加呈线性递减趋势,这样我们可初步判断商品需求量与消费者平均收入和商品价格之间存在某种线性相关的关系。
接下来用多元线性回归来进行分析检验:
>>x=[ones(10,1)x1x2];
>>[b,bint,r,rint,stats]=regress(y,x)
b=
111.69180.0143-7.1882
bint=
56.0503167.3334
-0.01200.0406
-13.2306-1.1458
stats=
0.894429.65330.0004
可知回归系数=111.6918,=0.0143,=?
?
?
012215
均包含了回归bint,-7.1882,它们的置信区间为第三0.8944,系数的估计值,stats第一个分量为,说明回归方,拒绝H0.0004<0.05p个分量=00,线性回归方程模型程系数不为
-0.0143=111.6918+xy112)(7.1882x2成立。
继续对残差进行分析,作残差图:
>>rcoplot(r,rint)
3020100-10-2012345678910大多数数据的残差离零从残差图可以看出,
点较近,且残差的置信区间全部包含零点,这进一步说明回归模型(12)能近似地符合原始数据。
现利用线性回归方程对引例问题的要求作出预测,=1000,=6
xx12>>z=111.6918+0.0143*1000-7.1882*6
z=
82.8626
得到结果,当消费者平均收入为1000、商品价格为6时的商品需求量大约为82.8626。
【结果分析】216
stats利用线性回归分析所得结果,我们看到
,且部1第一个分量为0.8944,它并不十分接近分残差离零点较远,这说明回归模型还存在缺
我陷,几个随机变量之间的线性关系有待改进,们不妨用多元二项式回归来试验:
>>x=[x1,x2];
>>rstool(x,y,'purequadratic')
140120100
80
6040204006008001000120045678
得到一交互式画面,左图是x2固定时曲线y(x1)及置信区间,右图是x1固定时曲线y(x2)
及置信区间。
在x1,x2指示框中分别输入1000和6,即预测到平均收入为1000、价格为6时商品需求量为88.4791。
在下拉列表框Export中选择“all”,把beta(回归系数)、rmse(剩余标准差)和residuals(残差)传送到MATLAB工作区,在命令框中输入
>>beta,rmse,residuals
217
即可得beta、rmse、residuals的数值
beta=
110.5313
0.1464-26.5709
1.8475-0.0001
rmse=
4.5362
、linear下拉列表菜单对在Model模型比purequadratic、interaction、quadratic4型的剩余标较剩余标准差,其中purequadratic个模型的剩余标准差最准差4.5362相比其它3,故此回归模型的显著性较好。
我们用接近于0纯二次回归模型所得的残差与前面线性回归模型所得的残差列表进行比较
纯二次
5.2724
-0.7162
-4.5158
-1.9390
-3.3315
3.4566
3.4843
-3.4452
-0.0976
1.8320
线性
9.9523
5.0477
-5.7188
-5.7109
-8.4750
-2.0929
-4.3368
1.3344
1.2867
8.7133
显然由二元纯二次多项式所得残差绝大多数要比由线性回归模型所得残差更接近零点,由最小二乘法原理我们可以相信,改进后的回归模型
=110.5313+0.1464-xy11.8475+26.5709-0.000122xxx212218
能够更好地近似原始数据。
【练习与思考】.电影院调查电视广告费用和报纸广告费用对1
建立回归模得到下面的数据,每周收入的影响,型并进行检验,诊断是否有异常点。
每周收9690959295959494入电视广1.52.01.52.53.32.34.22.5告费用报纸广5.02.04.02.53.03.52.53.0
告费用
2.由成年女子身高与裤长的样本,研究成年女子身高与裤长的潜在关系。
制定服装标准时,抽样测量了15个成年女子身高与裤长的数据如下表(单位:
cm)
身高
143
145
146
147
149
150
153
154
155
156
158
159
160
162
164
裤长
88
85
88
91
92
93
93
95
96
98
97
96
98
99
100
219
试研究这些数据之间的潜在关系,并预测身高170(cm)的成年女子裤长为多少。
3.某建材实验室在作陶粒混凝土实验,考察每
立方混凝土的水泥用量(kg)对于28天后抗压2)影响,测试所得数据如下:
强度(kg/cm
水泥用量
150
160
170
180
190
200
210
220
230
240
250
260
抗压强度
56.9
58.3
61.6
64.5
68.1
71.3
74.1
77.4
80.2
82.6
86.4
89.7
试求抗压强度关系水泥用量的回归函数,相关系数,对于=225(kg)时,预测抗压强度,并xyr且给出的置信度为95%的预测区间。
y
220
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 向东 数学 实验 课本 313