缺失数据地补充及异常数据地修正修订稿.docx
- 文档编号:4428660
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:36
- 大小:168.25KB
缺失数据地补充及异常数据地修正修订稿.docx
《缺失数据地补充及异常数据地修正修订稿.docx》由会员分享,可在线阅读,更多相关《缺失数据地补充及异常数据地修正修订稿.docx(36页珍藏版)》请在冰豆网上搜索。
缺失数据地补充及异常数据地修正修订稿
WEIHUAsystemofficeroom【WEIHUA16H-WEIHUAWEIHUA8Q8-WEIHUA1688】
缺失数据地补充及异常数据地修正
数模培训作业
论文题目缺失数据地补充及异常数据地修正
缺失数据地补充及异常数据地修正
摘要
数据处理贯穿于社会生产和社会生活的各个领域。
数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。
数据补充,异常数据的鉴别及修正,在各个领域也起到了重要作用。
针对第一问,我们采用了两种模型。
第一种是一元多项式回归模型,适用于只有一种自变量的情况。
利用我们找到的数据,首先作出散点图,观察其形状,决定拟合多项式的次数,得出拟合曲线与拟合多项式。
之后算出均方根误差验证拟合效果,均方根误差较小,说明拟合曲线与源数据吻合得较好。
若x1=,x2=,x3=时,y的数据缺失,将x1、x2、x3的值带入拟合多项式,算出缺失值y1=,y2=,y3=,即可补充缺失数据。
第二种是多元线性回归模型,适用于有多个自变量的情况。
利用我们找到的数据,首先作出散点图,之后作多元回归,求出多元线性回归多项式,以及置信区间。
作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。
若x1=,x2=时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=。
类似地,若x1=,x2=时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=,即可补充缺失数据。
针对第二问,我们使用了异常值检验中标准差未知的t检验法。
首先绘制火柴棒图观察可疑测定值,可得到可疑值为第6,9,13,23,26,29,35,36,45,53行的数据。
将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正态分布。
由这些测定值计算平均值
与标准差s,而将可疑值分别当做一个样本容量为1的特殊总体。
如果可疑值与其余测定值同属于一个总体,则它与其余测定值之间不应有显着性差异。
检测统计量为:
,假设可由标准差s替代
来进行检验,则检测统计量可视为:
。
若统计量值大于相应置信度
下的t检验法的临界值
(该临界值通过查表法得出),则将可疑值判为异常值。
通过计算我们发现,上述可疑值都是异常值。
针对第三问,我们采用了分段线性插值、三次样条函数插值以及分段三次Hermite插值法来修正数据异常。
同时也需利用外插法修正最后一个数据的异常。
之后利用第二问中的t检验判断修正后的值是否仍为异常值。
检验结果显示:
分段线性插值、三次样条函数插值所修正的第7个和第9个数据仍为异常值,而分段三次Hermite插值所得到的修正值全都不是异常值。
所以运用分段三次Hermite插值得到的结果较准确。
关键词:
一元多项式回归、多元线性回归、t检验法、分段线性插值法、三次样条函数插值、分段三次Hermite插值
一、问题重述
1、关于数据缺失时应该怎样地把缺失数据补充上来?
2、数据完整,但是数据出现异常,如何给出模型找出异常数据?
3、异常数据如何修正?
2、模型假设
1、假设只有因变量存在数据缺失,而自变量不存在缺失。
2、利用t检验法时,将除可疑测定值
以外的其余测定值当做一个总体,并假设该总体服从正态分布。
3、假设可由样本值计算标准差s替代
来进行检验。
3、符号说明
符号
含义
RMSE
均方根误差
样本平均值
s
样本标准差
可疑测定值
总体标准差
k
检测统计量
置信度
置信度
下的t检验法临界值
n
样本容量
4、对问题一的分析和处理
一元多项式回归模型[1]
当有缺失的一组数据只有一个自变量时,可以考虑使用一元多项式回归模型。
我们采用的数据如下表:
表1
首先使用matlab作出散点图,观察其形状,决定拟合多项式的次数,运用matlab编程(matlab程序见附录一)得出拟合曲线与拟合多项式为:
z=**x+。
拟合曲线如下图所示:
图1拟合曲线
之后算出均方根误差RMSE验证拟合效果,均方根误差RMSE=较小,说明拟合曲线与源数据吻合得较好。
若x1=,x2=,x3=时,y的数据缺失,将x1、x2、x3的值带入拟合多项式,算出缺失值y1=,y2=,y3=
,即可补充缺失数据。
多元线性回归模型[1]
当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。
我们将(见附表一)中的数据[5]导入matlab(该模型matlab程序见附录二)。
首先作出散点图,设定y(PM10)与x1(SO2)、x2(NO2)的关系为二元线性回归模型,即y=b0+b1x1+b2x2。
之后作多元回归,求出系数b0=,b1=,b2=,所以多元线性回归多项式为:
Y=。
且b0、b1、b2在置信度为%95的情况下的置信区间分别为[,],[,],[,]。
再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。
若x1=,x2=时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=。
类似地,若x1=,x2=时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=,即可补充缺失数据。
散点图如下:
图2散点图
残差分析图如下:
图3残差分析图
五、对问题二的分析和处理
异常值t检验法原理
对于问题二,在数据完整但出现异常的情况下,可以考虑使用异常值检验中标准差未知的t检验法。
将除可疑测定值
以外的其余测定值当做一个总体,并假设该总体服从正态分布。
由这些测定值计算平均值
与标准差s,而将可疑值
当做一个样本容量为1的特殊总体。
如果
与其余测定值同属于一个总体,则它与其余测定值之间不应有显着性差异。
检测统计量为:
,假设可由标准差s替代
来进行检验,则检测统计量可视为:
。
若统计量值大于相应置信度
下的t检验法的临界值
(该临界值通过查表法得出),则将
判为异常值[2]。
举例建模找出异常值
我们将(见附表二)中的数据[5]导入matlab,首先利用matlab绘制火柴棒图(该模型程序见附录三)观察可疑数据,火柴棒图如下:
图4火柴棒图
通过观察上图,得到可疑值为第6,9,13,23,26,29,35,36,45,53行的数据。
剔除这些数据后,用剩余数据计算平均值
与标准差s。
检测统计量为:
。
置信度
=%95,样本容量n=44时,利用查表法易得t检验法的临界值
=。
部分t分布表[3]如下:
表2t分布表
n
α=
41
42
43
44
45
若统计量值大于临界值
,则将
判为异常值,根据程序结果,第6,9,13,23,26,29,35,36,45,53行的数据都是异常值。
6、对问题三的分析和处理
对于问题三,我们采用了分段线性插值、三次样条函数插值以及分段三次Hermite插值法来修正数据异常。
同时也需利用外插法修正最后一个数据的异常。
本问题使用的是问题二中剔除异常点的数据(数据见附表三)。
原理简介
(1)分段线性插值[4]
将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作
,它满足
,且
在每个小区间
上是线性函数
。
可以表示为
有良好的收敛性,即对于
有,
用
计算x点的插值时,只用到x左右的两个节点,计算量与节点个数n无关。
但n越大,分段越多,插值误差越小。
实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用的概率分布表等。
(2)三次样条函数插值[4]
数学上将具有一定光滑性的分段多项式称为样条函数。
三次样条函数为:
对于
上的分划
:
=b,则,
利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。
(3)分段三次Hermite插值[4]
如果对插值函数,不仅要求它在节点处与函数同值,而且要求它与函数有相同的一阶、二阶甚至更高阶的导数值,这就是Hermite插值问题。
Hermite插值多项式为:
模型求解
利用matlab编程(程序见附录四),可作出利用三种插值法修正异常值的图。
图如下:
图5分段线性插值图图6三次样条函数插值图
图7分段三次Hermite插值图
根据程序运行结果,可得到分段线性插值的修正结果如表3:
表3分段线性插值修正结果
行号
6
9
13
23
26
29
36
45
53
修正
结果
三次样条函数插值的修正结果如表4:
表4三次样条函数插值修正结果
行号
6
9
13
23
26
29
36
45
53
修正
结果
之后利用第二问中的t检验判断修正后的值是否仍为异常值(matlab程序见附录五)。
检验结果显示:
分段线性插值和三次样条函数插值所修正的数据中,第36行的数据和仍为异常值,第53行的数据和也仍为异常值。
分段三次Hermite插值的修正结果如表5:
表5分段三次Hermite插值修正结果
行号
6
9
13
23
26
29
36
45
53
修正结果
经过t检验,分段三次Hermite插值所得到的修正值全都不是异常值。
所以运用分段三次Hermite插值得到的结果较准确。
七、模型评价和推广
问题一采用的一元多项式回归和多元线性回归能够较好地解决补充缺失数据的问题,并且该两种模型兼顾了只有一个自变量和有多个自变量的情况。
一元多项式回归均方根误差较小,说明拟合曲线与源数据吻合得较好,故补充的缺失数据准确度也较高。
多元线性回归残差较小,说明回归多项式与源数据吻合得较好,故补充的缺失数据是可信的。
问题二采用的异常值检验中标准差未知的t检验法能够较准确地判断出异常值。
但如果样本容量太小,由标准差s替代σ来进行检验,可能会产生误差。
问题三采用的分段三次Hermite插值能够较好地修正异常数据。
并且我们把经过修正的数据采用问题二的方法进行检验,证明所得到的修正值全都不是异常值。
因此,修正后的值是较可信的。
缺失数据地补充及异常数据地修正在很多问题中都是必不可少的和基础的,不作这些数据处理就无法解决问题。
本文中的模型可以运用到许多需要补充缺失数据或修正异常数据的问题中去。
同时,也可利用该模型算法拓展模型在其他方面的适用范围。
8、参考文献
[1]李柏年,MATLAB数据分析方法,北京:
机械工业出版社,2012年。
[2]何正风,MATLAB概率与数理统计分析,北京:
机械工业出版社,2012年。
[3]盛骤,概率论与数理统计,北京:
高等教育出版社,2001年。
[4]司守奎,数学建模算法与程序,北京:
国防工业出版社,2007年。
[5]郑向东,中国大气本底观测元数据,年7月21
日。
9、附录
附录一(一元多项式回归模型matlab程序):
clear;
x=[,,,,,,,,,,,,];
y=[,,,,,,,,,,,,];
plot(x,y,'r*')
holdon
p=polyfit(x,y,2);
z=polyval(p,x);
plot(x,z,'g-');
xlabel('x');ylabel('y');
legend('实际散点图','拟合曲线');
RMSE1=(z-y).^2;
RMSE=sqrt(sum(RMSE1,2)/13);
text,,'拟合曲线为:
z=*x^*x+');
text,,'均方根误差为:
RMSE=');
holdoff
%若x1=,x2=,x3=时,y的数据缺失,则可用得得出的拟合曲线来计算z=*x^*x+
x1=,x2=,x3=;
z1=*x1^*x1+;
z2=*x2^*x2+;
z3=*x3^*x3+;
%计算可得到z1=,z2=,z3=.此例说明数据缺失时可先观察数据,拟合出多项式曲线,再求出缺失的数据。
附录二(多元线性回归模型matlab程序):
clear;
data1=xlsread('H:
\');
%做出散点图
figure
(1)
scatter3(data1(:
6),data1(:
7),data1(:
8),'r.');
x=[ones(262,1),data1(:
6),data1(:
7)];
y=data1(:
8);
[b,bint,r,rint,stats]=regress(y,x);
xlabel('SO2(X1)');
ylabel('NO2(X2)');
zlabel('PM10(Y)');
text,,,'回归关系式为:
Y=','color','b');
title('PM10(Y)和SO2(X1)、NO2(X2)的关系','color','m');
%做残差分析图
figure
(2)
rcoplot(r,rint);
xlabel('数据');ylabel('残差');
title('残差绘制图');
%补缺失数据
x1=[1];
y1=x1*b;
x2=[1];
y2=x2*b;
%y1=;y2=.
附录三(t检验法matlab程序):
clear;
loadH:
\;
loadH:
\;
s=sum(data(:
7),1)/53;
alpha=;n=44;T=;y=1;a=1;
stem(data(:
7));%观察异常值.
%观察异常值.可得到异常值为第6,9,13,23,26,29,35,36,45,53行.
%把不是异常的个体看成一个整体data1,异常个体看成data2
data2=[;;;;;;;;];
aver=sum(data1(:
7),1)/44;
s=sqrt(sum((data1(:
7)-aver).^2,1)/44);
fory=1:
9
K(y,1)=abs(data2(y,1)-aver)./s;
if(K(y,1)>T)
H(a,1)=y;
a=a+1;
end
end
附录四(三种插值法修正异常值程序):
clear;
loadH:
\;
x0=[1,2,3,4,5,7,8,10,11,12,14,15,16,17,18,19,20,21,22,24,25,...
27,28,30,31,32,33,34,35,37,38,39,40,41,42,43,44,46,47,48,49,50,51,52];
y0=[...
...
...
...
];
x=0:
:
52;
y1=interp1(x0,y0,x);
y2=interp1(x0,y0,x,'spline');
pp1=csape(x0,y0);y3=ppval(pp1,x);
y6=interp1(x0,y0,x,'pchip');
y5=interp1(x0,y0,53,'spline','extrap');
y4=interp1(x0,y0,53,'linear','extrap');
y7=interp1(x0,y0,53,'pchip','extrap');
subplot(2,2,1),plot(x0,y0,'+',x,y1),title('Piecewiselinear');
subplot(2,2,2),plot(x0,y0,'+',x,y2),title('Spline');
subplot(2,2,3),plot(x0,y0,'+',x,y6),title('pchip');
y1=y1';
y2=y2';
y3=y3';
y6=y6';
%x=53时,y4=,y5=,y7=
附录五(修正后的值作t检验的程序):
clear;
loadH:
\;
alpha=;n=44;T=;y=1;a=1;
%观察异常值.可得到异常值为第6,9,13,23,26,29,36,45,53行.
%把不是异常的个体看成一个整体data1,异常个体看成data3
%用线性插值
data3=[;;;;;;;;];
aver=sum(data1(:
7),1)/44;
s=sqrt(sum((data1(:
7)-aver).^2,1)/44);
fory=1:
9
K1(y,1)=abs(data3(y,1)-aver)./s;
if(K1(y,1)>T)
H1(a,1)=y;
a=a+1;
end
end
%用三次样条插值
b=1;
data4=[;;;;;;;;];
fory=1:
9
K2(y,1)=abs(data4(y,1)-aver)./s;
if(K2(y,1)>T)
H2(b,1)=y;
b=b+1;
end
end
%用分段三次Hermite插值
c=1;
data5=[;;;;;;;;];
fory=1:
9
K3(y,1)=abs(data5(y,1)-aver)./s;
if(K3(y,1)>T)
H3(c,1)=y;
c=c+1;
end
end
附表一(多元线性回归模型使用的数据):
城市名称
年
月
日
点位代码
点位名称
SO2
NO2
PM10
A城
2004
1
2
101
1
A城
2004
1
3
101
1
A城
2004
1
4
101
1
A城
2004
1
5
101
1
A城
2004
1
6
101
1
A城
2004
1
7
101
1
A城
2004
1
8
101
1
A城
2004
1
9
101
1
A城
2004
1
11
101
1
A城
2004
1
12
101
1
A城
2004
1
14
101
1
A城
2004
1
15
101
1
A城
2004
1
16
101
1
A城
2004
1
17
101
1
A城
2004
1
18
101
1
A城
2004
1
20
101
1
A城
2004
1
21
101
1
A城
2004
1
22
101
1
A城
2004
1
23
101
1
A城
2004
1
24
101
1
A城
2004
1
25
101
1
A城
2004
1
26
101
1
A城
2004
1
31
101
1
A城
2004
2
1
101
1
A城
2004
2
2
101
1
A城
2004
2
3
101
1
A城
2004
2
6
101
1
A城
2004
2
7
101
1
A城
2004
2
8
101
1
A城
2004
2
11
101
1
A城
2004
2
12
101
1
A城
2004
2
14
101
1
A城
2004
2
15
101
1
A城
2004
2
17
101
1
A城
2004
2
18
101
1
A城
2004
2
19
101
1
A城
2004
2
20
101
1
A城
2004
2
21
101
1
A城
2004
2
22
101
1
A城
2004
2
23
101
1
A城
2004
2
25
101
1
A城
2004
2
26
101
1
A城
2004
2
27
101
1
A城
2004
2
28
101
1
A城
2004
2
29
101
1
A城
2004
3
1
101
1
A城
2004
3
2
101
1
A城
2004
3
3
101
1
A城
2004
3
5
101
1
A城
2004
3
6
101
1
A城
2004
3
7
101
1
A城
2004
3
11
101
1
A城
2004
3
12
101
1
A城
2004
3
16
101
1
A城
2004
3
17
101
1
A城
2004
3
18
101
1
A城
2004
3
19
101
1
A城
2004
3
20
101
1
A城
2004
3
21
101
1
A城
2004
3
22
101
1
A城
2004
3
23
101
1
A城
2004
3
24
101
1
A城
2004
3
25
101
1
A城
2004
3
26
101
1
A城
2004
3
27
101
1
A城
2004
3
28
101
1
A城
2004
3
31
101
1
A城
2004
4
2
101
1
A城
2004
4
3
101
1
A城
2004
4
4
101
1
A城
2004
4
5
101
1
A城
2004
4
6
101
1
A城
2004
4
7
101
1
A城
2004
4
8
101
1
A城
2004
4
9
101
1
A城
2004
4
11
101
1
A城
2004
4
12
101
1
A城
2004
4
13
101
1
A城
2004
4
14
101
1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 缺失 数据 补充 异常 修正 修订稿