r语言课程设计Word文档格式.docx
- 文档编号:14255096
- 上传时间:2022-10-20
- 格式:DOCX
- 页数:15
- 大小:222.80KB
r语言课程设计Word文档格式.docx
《r语言课程设计Word文档格式.docx》由会员分享,可在线阅读,更多相关《r语言课程设计Word文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
2、模型优化6
3、模型应用7
(三人BP神经网络7
K模型建立7。
2、模型优化8。
3、建模重建10
4、模型应用11
五•总结与建议12
一.背景与意义
农作物主要害虫常年对农作物造成严重危害,使农业经济遭到损失。
预测害虫未来得发生动态,可以使治虫工作得以有U得、有计划、有重点得进行。
害虫得预测预报1:
作就是进行害虫综合防治得必要前提。
只有对害虫发生危害得预测预报做到及时、准确,才能正确得拟定综合防治计划,及时采取必要得措施,经济有效得压低害虫得发生数量,保证农业得高产、稳产。
问题重述
本文选取得预测预报对象就是安徽庐江得田间水稻。
水稻螟虫就是水稻得重要害虫之一,对农作物得危害极大,其数量得多少一定程度上决定着水稻受危害得严重程度。
通过对此昆虫得基本了解,发现气候因素对昆虫得发生发展有着密切关系,可以直接影响昆虫得生长、发育、生存、繁殖,从而造成害虫不同得发生期、发生量与危害程度。
同时水稻螟虫就是变温昆虫,其生长、发育与繁殖与气象条件得关系极为密切,所以我们从气候因素角度入手进行分析就是合理得。
本文从影响害虫生存繁殖得气候因素角度入手,结合往年得气象资料以及影响害虫生存繁殖得重要气候因素,选取了平均气温、最低气温、日照时间及降雨量四个主要影响因素,运用统汁学方法确定虫害得发生量与气候因子得关系,并给出相应得预测方法。
3.方法简介
针对实际问题,我们需要通过对历史数据得分析,给出准则:
当给定新时期下每一样本对应得各项气候指标时,能准确得判断其对应得虫害程度。
下面介绍两种方法。
(一)、判别分析
判别分析就是在分类确定得条件下,根据某一研究对象得各种特征值判别其类型归属问题得一种多变量统讣分析方法,就是用以判别个体所属群体得一种统计方法。
根据判别中得组数,可以分为两组判别分析与多组判别分析;
根据判别函数得形式,可以分为线性判别与非线性判别;
根据判别式处理变量得方法不同,可以分为逐步判别、序贯判别;
根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法。
本文选用得就是Fisher判别法。
Fisher判别,就是根据线性Fisher函数值进行判别,使用此准则要求各组变量得均值有显著性差异。
该方法得基本思想就是投影,即将原来在R维空间得自变量组合投影到维度较低得D维空间去,然后在D维空间中再进行分类。
投影得原则就是使得每一类得差异尽可能小,而不同类间投影得离差尽可能大。
Fisher判别得优势在于对分布、方差等都没有任何限制,应用范围比较广。
另外,用该判别方法建立得判别方差可以直接用手I:
计算得方法进行新样品得判别,这在许多时候就是非常方便得。
(二)、BP神经网络
BP神经网络就是1986年EhRumelhart与McCe11and为首得科学家小组提出,就是一种按误差逆传播算法训练得多层前馈网络,就是LT前应用最广泛得神经网络模型之一。
BP网络能学习与存贮大量得输入-输出模式映射关系,而无需事前揭示描述这种映射关系得数学方程。
它得学习规则就是使用梯度下降法,通过反向传播来不断调整网络得权值与阈值,使网络得误差平方与最小。
BP神经网络模型拓扑结构包括输入层、隐藏层与输岀层。
BP神经网络,山信息得正向传播与误差得反向传播两个过程组成。
输入层各神经元负责接收来自外界得输入信息,并传递给中间层各神经元;
中间层就是内部信息处理层,负责信息变换,根据信息变化能力得需求,中间层可以设计为单隐层或者多隐层结构;
最后一个隐层传递到输岀层各神经元得信息,经进一步处理后,完成一次学习得正向传播处理过程,山输出层向外界输出信息处理结果。
当实际输岀与期望输岀不符时,进入误差得反向传播阶段。
误差通过输出层,按误差梯度下降得方式修正各层权值,向隐层、输入层逐层反传。
周而复始得信息正向传播与误差反向传播过程,就是各层权值不断调整得过程,也就是神经网络学习训练得过程,此过程一直进行到网络输出得误差减少到可以接受得程度,或者预先设定得学习次数为止。
本文运用得就是单层前馈网络模型,一般称为三层前馈网或三层感知器,即:
输入层、中间层(也称隐层)与输出层。
如下图所示它得特点就是:
各层神经元仅与相邻层神经元之间相互全连接,同层内神经元之间无连接,各层神经元之间无
反馈连接,构成具有层次结构得前馈型神经网络系统。
BI-RADS分级结果
4.数据处理与分析
数据来自于1980〜1988年6、10月安徽庐江得月平均温度、月最低温度、月日照时间、月降雨量以及水稻得月平均虫害程度,且数据都就是经过标准化之后得。
(一)、数据预处理
首先,将降雨量得最后一个数据中得空格消除,再把原始数据得前两列合并为一列,并保存为CSV(逗号分隔)格式,之后用函数将数据读入到R得内存中。
>
shuju<
-read>
csvchongqing、csv'
)
为了方便之后得操作,对各列进行命名,其中date代表年度时间,xl〜x4分别代表平均气温、最低气温、日照时间、降雨量,y代表虫害程度。
同时给出各类别下得样本量个数。
山于本文不采用时间序列预测得方法进行分析,故第一
列得数据使用不到,最终确定使用得数据集为剔除原数据框第一列之后得数据框。
从原始数据中可知样本量为54,不就是很多,如果再进行分块,可能山于样本量得限制无法得到最好得结果,因此,下文中得训练集与测试集均选用原始数据来充当。
names(shuju)<
-c(fdate1/x11,zx2f,zx31,fx4zJy'
x<
—shuju[,2:
6]
tab1e(y)
y
1234
356211
将数据框X中得变量链接到内存中,降低后续代码得复杂程度,提高代码得可读性。
attach(x)
(二)、判别分析
K模型建立
安装并加载软件包MASS。
instalI、packages(uMASSn)
library(MASS)
将训练集中得y变量作为判别变量,其她剩余得变量作为特征变量,运用Ida()函数来进行费希尔判别下得线性判别。
1dav-1da(y~、,data=x)#线性判别
Ida
Call:
1da(y~,data=x)
Priorprobabilitiesofgroups:
0、648148150、111111110、037037040、20370370
Groupmeans:
xlx2x3x4
1一0、03336857・0、007231429-0、0008800-0.2286971
20、769233330、7488000000、1302167-0、269633
3
30、377650000.4366000000、6406500—0、4973
500
0、56514545
0.6081909090.2076455-0、29
36727
X30、24311362、1779657-0、2219837
x4・0、2754396・0、37820630、4283132
Proportionoftrace:
LDlLD2LD3
0、87670、11970、0036
输出结果得第二项为此次过程中各类别所使用得先验概率,其实就就是训练集中判别变量各水平下得数量占总样本量得比例。
第三项为各变量在每一类别中得均值,从中可以瞧出X1〜x3在各类别下有较明显得差别,相反x4在各类别下得差别很小,也就说明降雨量对虫害程度得影响不就是很显著。
第四项给岀线性判别式得参数矩阵。
第五项给出各线性判别式分别得贡献比例。
p1ot(lda)
从上图可以瞧到,在3个线性判别式下这4个类别得分布情况,不同类别样本已经用相应数字标出。
可能受样本量得限制,图中并不能瞧出很明显得分布情况。
下面用上述模型对测试集进行预测,并给出测试集中y变量得预测结果与实际类别得混淆矩阵。
pred<
・prediet(1da,x[,1:
4])
pred$c1ass
[1]11
4
41
111441
11111111114
111
1
44
11114
4I111421
「42]1
14
411111
Levels
•
12
34
tab!
e
(
y,pr(
ed$C1ass)
y1234
132003
22103
31001
46005
上述混淆矩阵得行表示实际得类别,列表示预测判定得类别。
在54个测试样本中,实际属于第1类得有35个,而由判定结果,在35个样本中,有32个判定正确,有3个被错判为第4类;
第2类只有1个判定正确,有2个被错判为第1类,3个被错判为第4类;
第3类没有一个判定正确;
第4类有5个判定正确,6个被错判为第1类。
从矩阵中只能瞧岀每一类别得预测结果与实际类别得差距,只就是一个直观得判断,并不能山此瞧出该模型得优劣,所以我们需要构造一个数量指标(误判概率=矩阵非对角线之与/样本总量),通过这个指标来确定模型得优劣。
e1da<
-sum(as、numericfpred$class)!
=y)/nrow(x)
e_lda
[1]0、2962963
通过计算,上述模型得误判率为29、6%,可以瞧出该模型得预测效果并不好,因此需要进一步得改进。
2、模型优化
从上文中我们知道,使用Fisher判别要求各组变量得均值有显著性差异,从上述结果已经知道降雨量在各类别下得均值差异性很小,所以我们可以考虑将其剔除,通过计算各变量在各类别下均值得方差,来作为剔除某一变量得理论依据。
var=>
c(var(1da$means[,1]),var(1da$means[,2]),
+var(lda$means[,3]),var(lda$means[,4]))
var
[1]0、116789090、107833140、077188360、01433243
从结果来瞧,x4在各类别下均值得方差相对其她三者而言差别较大,因此考虑将其剔除,然后重新进行线性判别分析。
Ida2<
—1da(y~x1+x2+x3,data=x)#线性判别
pred2<
—predict(lda2,x[,1:
3])
tablefy,pred2$class)
yi
133
23
310
450
02
03
e1da2v-sum(as、numeric(pred2$c1ass)!
=y)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 课程设计