非参数统计课程论文基于符号检验的葡萄酒评分差异性检验.docx
- 文档编号:23364032
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:21
- 大小:173.86KB
非参数统计课程论文基于符号检验的葡萄酒评分差异性检验.docx
《非参数统计课程论文基于符号检验的葡萄酒评分差异性检验.docx》由会员分享,可在线阅读,更多相关《非参数统计课程论文基于符号检验的葡萄酒评分差异性检验.docx(21页珍藏版)》请在冰豆网上搜索。
非参数统计课程论文基于符号检验的葡萄酒评分差异性检验
-
2016-2017学年第1学期
非参数统计课程论文
题目:
基于符号检验的葡萄酒
评分差异性检验
姓名:
学号:
班级:
授课教师:
完成时间:
2016年10月29日
摘要
本文主要讨论了葡萄酒评酒员的评酒结果是否存在显著性差异的研究。
本文利用评酒员品酒的评分进行求和,得出每位评酒员对于每一种葡萄酒样品的总评分,然后将每组的十位评酒员分别对于每一种葡萄酒样品的总评分进行汇总求平均值,得出每组评酒员对于每一种样品葡萄酒的总评分的平均值。
最后对各组平均值的差值进行分析。
本文利用SAS编程得到位置检验以及正态性检验相关图,利用符号检验、Wilcoxon符号秩检验、W检验以及K-S检验知道,这两种葡萄酒的评分检验存在显著性差异。
但是白葡萄酒的评分差值服从正态分布。
引言
葡萄酒是以新鲜葡萄汁或葡萄为原料,经过发酵而成的含有多种营养成分的饮料酒,是世界上公认的对人体有益的健康酒精饮品。
在葡萄酒酿出来之时,需要确定葡萄酒的质量,在这时一般需要聘请一批有资质的评酒员进行品评。
在每个评酒员评分之前制定打分的标准,然后每个评酒员在对葡萄酒进行品尝后按照评分的标准进行打分。
然后对其评分求和,并做出平均数,从而确定葡萄酒的质量的好坏。
但是由于主观误差的存在,使得这种方法产生的结果有较大的差异性。
所以就评酒员的评分结果进行检验,判断数据有误显著性差异。
文章采用的数据来自2012年“高教社杯”全国大学生数学建模竞赛的题目,其中题目给出两组评酒员分别对27种红葡萄酒样品和28种白葡萄酒样品的品尝评分。
文章将基于符号检验对两组红葡萄酒评分差异性进行检验,同时基于Wilcoxon符号秩检验对两组白葡萄酒评分差异性进行检验。
1方法介绍及步骤
1.1检验方法简介
符号检验(signtest)是非参数统计中最古老的检验方法之一,是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。
具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。
需要特别指出的是符号检验与参数检验中相关样本显著性t检验是相对应的,当数据分布不满足参数检验的要求时,可以采用此方法来检验两个相关样本的差异显著性。
符号检验除了可以检验成对样本,还可以分析判断两个总体之间是否存在显著性差异,还可以用于检验一个样本是否来自某个总体。
结合文章所给数据,易知文章采用符号检验的目的是检验两个相关样本的差异显著性。
符号检验的步骤:
(1)设置假设(判别中心位置是否为中位数M0)。
H0:
Me=MH1:
Me≠M
(2)构建检验统计量
S+:
表示大于M0的数据的个数
S-:
表示小于M0的数据的个数
则
则
(3)在显著性水平为a前提下求出拒绝域,或求出检验P值。
1.2Wilcoxon符号秩检验简介
在Wilcoxon符号秩检验中,它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。
它适用于参数检验中t检验的成对比较,但并不要求成对数据之差服从正态分布,只要求服从对称分布即可。
检验成对观测数据之差是否来自均值为0的总体(产生数据的总体是否具有相同的均值)。
Wilcoxon符号秩检验过程。
假设样本点X1,X2,···,XX,来自连续对称总体分布,则总体的中位数等于均值。
Wilcoxon符号秩检验的步骤如下:
(1)对i=1,2,···,n,计算|Xi-M0|;它们表示这样样本点到M0的距离。
(2)将上面n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩。
(3)令W+等于Xi-M0>0的|Xi-M0|的秩的和,W-等于Xi-M0<0的|Xi-M0|的秩的和。
(4)对双边检验H0:
M=M0<=>H1:
M≠M0,在零假设下,W+和W-应差不多。
因而,当其中之一,很小时,应怀疑零假设。
在此,取检验统计量W=min{W+,W-}。
(5)根据得到的W值,利用统计软件或查Wilcoxon符号秩检验的分布表以得到在零假设下的p值。
如果n很大要用正态近似:
得到一个与W有关的正态随机变量Z的值,再用软件或查正态分布表得到p值。
(6)如果p值较小(比如小于或等于给定的显著性水平,譬如0.05)则可以拒绝零假设。
如果p值较大则没有充分的证据来拒绝零假设,但不意味着接受零假设。
1.3符号检验与符号秩检验区别
符号检验利用了观测值和零假设的中心位置之差的符号进行检验,但是它并没有利用这些差的大小(体现于差的绝对值大小)所包含的信息。
因此,在符号检验中,每个观测值点相应的正号或负号仅仅代表了该点在中心位置的哪一边,而并没有表明该点距离中心的远近。
如果把各观测值距离中心远近的信息考虑进去,自然比仅仅利用符号要更有效。
而在Wilcoxon符号秩检验中则考虑到了各个差值距离中心位置的远近问题,使得结果更加的准确些。
1.4W检验和K-S检验简介
W检验全称Shapiro-Wilk检验,是一种基于相关性的算法。
当样本容量在8≤n≤50时,W检验可以检验样本是否符合正态分布。
通过计算可得到一个相关系数,它越接近1就越表明数据和正态分布拟合得越好。
计算公式为:
其检验步骤如下:
①将数据按数值大小重新排列,使X1≤X2≤···≤Xn;
②计算上式分母;
③计算a值,可查表得出;
④计算检验统计量W;
⑤若W值小于判断界限值Wα(可通过查表求得),按表上行写明的显著性水平α舍弃正态性假设;若W>Wα,接受正态性假设。
K-S检验全称Kolmogorov-Smirnov检验,它是用来检验单一样本是否来自某一特定分布。
这一检验方法是以样本数据的累计频数分布于特定理论分布比较,若两者的差距很小,则推论该样本取自某特定分布族。
假设问题如下:
H0:
样本所来自的总体分布服从某特定分布
H1:
样本所来自的总体分布服不从某特定分布
本文则主要是用其检验一组数据是否为正态分布,即Kolmogorov-Smirnov正态性检验。
2实证分析
2.1数据的选取
文章的数据来源2012年“高教社杯”全国大学生数学建模竞赛的题目。
题目列出两组评酒员分别对28种白葡萄酒样品和27种红葡萄酒样品的各项分类指标的评分,其中每组都由十名评酒员组成。
2.2数据的预处理
(1)将每位评酒员分别对27种红葡萄酒样品、28种白葡萄酒样品的分类指标评分进行求和,得出每位评酒员对于每一种葡萄酒样品的总评分。
(2)将每组的十位评酒员分别对于每一种葡萄酒样品的总评分进行汇总求平均值,得出每组评酒员对于每一种葡萄酒的总评分的平均值。
(3)对得到的相关数据进行整理,使用Excel编制表格如下:
白酒与红酒分类汇总的平均值
baijiu
one
two
hongjiu
first
second
1
82
77.9
1
62.7
68.1
2
74.2
75.8
2
80.3
74
3
85.3
75.6
3
80.4
74.6
4
79.4
76.9
4
68.6
71.2
5
71
81.5
5
73.3
72.1
6
68.4
75.5
6
72.2
66.3
7
77.5
74.2
7
71.5
65.3
8
71.4
72.3
8
72.3
66
9
72.9
80.4
9
81.5
78.2
10
74.3
79.8
10
74.2
68.8
11
72.3
71.4
11
70.1
61.6
12
63.3
72.4
12
53.9
68.3
13
65.9
73.9
13
74.6
68.8
14
72
77.1
14
73
72.6
15
72.4
78.4
15
58.7
65.7
16
74
67.3
16
74.9
69.9
17
78.8
80.3
17
79.3
74.5
18
73.1
76.7
18
59.9
65.4
19
72.2
76.4
19
78.6
72.6
20
77.8
76.6
20
78.6
75.8
21
76.4
79.2
21
77.1
72.2
22
71
79.4
22
77.2
71.6
23
75.9
77.4
23
85.6
77.1
24
73.3
76.1
24
78
71.5
25
77.1
79.5
25
69.2
68.2
26
81.3
74.3
26
73.8
72
27
64.8
77
27
73
71.5
28
81.3
79.6
注:
①表中1~28指葡萄酒样品的编号,其中“hongjiu”是指红葡萄酒,“baijiu”是指白葡萄酒。
②one是指第一组评酒员,two是指第二组评酒员。
并且它们下面的数值是每组评酒员对于每一种葡萄酒的总评分的平均值。
2.3分析过程
本文主要使用SAS9.2软件对符号检验与和符号秩检验进行编程,运行程序后得到相关结果,并进行相应分析。
2.3.1两种葡萄酒样品评分提出假设
假设检验问题:
(设定显著性水平为α=0.05)
H0:
两组红葡萄酒样品评分无显著性差异
H1:
两组红葡萄酒样品评分存在显著性差异
H0:
两组白葡萄酒样品评分无显著性差异
H1:
两组白葡萄酒样品评分存在显著性差异
2.3.2两种葡萄酒的评分数据编程
依据整理好的数据,编程如下:
编程[2]一为白葡萄差值、正态检验、位置检验
DataX;
inputbaijiuonetwo;
diff=one-two;
cards;
18277.9
274.275.8
385.375.6
479.476.9
57181.5
668.475.5
777.574.2
871.472.3
972.980.4
1074.379.8
1172.371.4
1263.372.4
1365.973.9
147277.1
1572.478.4
167467.3
1778.880.3
1873.176.7
1972.276.4
2077.876.6
2176.479.2
227179.4
2375.977.4
2473.376.1
2577.179.5
2681.374.3
2764.877
2881.379.6
;
run;
procunivariatedata=Xnormal;
vardiff;
run;
编程[2]二为红葡萄差值、正态检验、位置检验
dataY;
inputhongjiuonetwo;
diff=one-two;
cards;
162.768.1
280.374
380.474.6
468.671.2
573.372.1
672.266.3
771.565.3
872.366
981.578.2
1074.268.8
1170.161.6
1253.968.3
1374.668.8
147372.6
1558.765.7
1674.969.9
1779.374.5
1859.965.4
1978.672.6
2078.675.8
2177.172.2
2277.271.6
2385.677.1
247871.5
2569.268.2
2673.872
277371.5
;
run;
procunivariatedata=Ynormal;
vardiff;
run;
2.3.3两种葡萄酒的评分差值分析
根据上述的编程运行程序,得表如下:
表1两组红葡萄酒样品评分差值
由表1的diff一列,易知第一组的大部分评分相比第二组的要较高一些,所以差值为正数较多,但是不易观测出两组整体评分差异大小,至于是否有显著性差异需要进一步分析。
表2两组白葡萄酒样品评分差值
由表2的diff一列,易知第二组的大部分评分相比第一组要较大一些,所以存在较多的负值,但是不易观测出两组整体评分差异大小,至于是否有显著性差异需要进一步分析。
(3)对红葡萄酒和白葡萄酒样品评分差值分析
2.3.4两种葡萄酒的评分差值的直方图分析
图1红葡萄酒样品评分差值直方图
由图1红葡萄酒样品评分差值直方图,可以明显看出评分差值既不服从正态分布,也不服从单峰对称分布,因此选择符号检验是比较合适的。
图2白葡萄酒样品评分差值直方图
根据图1白葡萄酒样品评分差值直方图,易知该分布是单峰对称分布,同时也近似服从正态分布。
在对其进行检验时,可以选择符号检验和符号秩检验,但结合两种检验的优缺点,为了取得更好的检验效果应选择符号秩检验。
2.3.5两种葡萄酒的评分差值的正太QQ图分析
图3红葡萄酒样品评分差值正太QQ图
由图3红葡萄酒样品评分差值正态QQ图,可以明显看出QQ图上的点并没有近似地分布在一条直线附近,由此得出评分差值不服从正态分布。
图4白葡萄酒样品评分差值正太QQ图
由图4白葡萄酒样品评分差值正态QQ图,可以明显看出QQ图上的点近似地分布在一条直线附近,由此得出评分差值近似服从正态分布。
2.3.6两种葡萄酒的评分差值的位置检验及正太性检验分析
图6白葡萄酒样品评分差值位置检验及正态性检验图
由图6白葡萄酒样品评分差值的位置检验[1],在符号秩检验的p值为0.0345,其小于显著性水平α=0.05,因此得出拒绝原假设,接受备择假设的结论,即两组白葡萄酒样品评分存在显著性差异。
同时,我们观测Student检验的p值,可以发现其与符号秩检验的p值很接近。
前者为0.0378,后者为0.0345,这从侧面证明数据近似服从正态分布。
至于观测符号检验得其p=0.0872>α=0.05,而这将得出与符号秩检验截然相反的结论——接受原假设,拒绝备择假设。
由此可见,在对单峰对称分布进行检验时,符号秩检验效果优于符号检验。
由图6白葡萄酒样品评分差值的正态性检验[1],可知,W检验的p值0.9276远远大于显著性水平α=0.05,且K-S检验的p值大于0.1500,更大于α=0.05,从而得出白葡萄酒样品评分差值所来自的总体分布服从正态分布。
图7红葡萄酒样品评分差值位置检验及正态性检验图
由图7红葡萄酒样品评分差值位置检验[1],符号检验的p值为0.0015,其小于显著性水平α=0.05,因此拒绝原假设,接受备择假设,即两组红葡萄酒样品评分存在显著性差异。
至于Studentt检验和符号秩检验因其不符合本例适用条件,故相应结果不予考虑。
由图7红葡萄酒样品评分差值正态性检验可知,W检验的p值0.0004小于α=0.05,且K-S检验的p值小于0.01,即也小于α=0.05,从而得出红葡萄酒样品评分差值所来自的总体分布不服从正态分布。
2.4小结
通过对两组评酒员对28种白葡萄酒样品和27种红葡萄酒样品的评分根据数据的差异,我们分别进行符号秩检验和符号检验,得出了两组评酒员对白葡萄酒样品评分的检验存在着显著性的差异性,但是这两组白葡萄酒的样品评分差值的总体服从正态分布,而红葡萄酒样品评分检验也存在着显著性差异,而这两组红葡萄酒样品评分差值的总体分布不服从正态分布。
由此可知,两组评酒员对于红白两种葡萄酒的评分结果都有显著性差异。
参考文献
[1]刘荣.SAS统计分析与应用事例[M].北京.电子工业出版社。
[2]王星.非参数统计[M].中国人民出版社。
[3]贾俊平.何晓群.金勇进.统计学[M].中国人民大学出版社。
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100.
101.
102.
103.
104.
105.
106.
107.
108.
109.
110.
111.
112.
113.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计 课程 论文 基于 符号 检验 葡萄酒 评分 差异性