数据分析实验指导书.docx
- 文档编号:9831063
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:71
- 大小:770.13KB
数据分析实验指导书.docx
《数据分析实验指导书.docx》由会员分享,可在线阅读,更多相关《数据分析实验指导书.docx(71页珍藏版)》请在冰豆网上搜索。
数据分析实验指导书
实验一描述性分析
实验二正态总体的均值检验
实验三非参数检验
实验四方差分析
实验五回归分析
实验六判别、聚类分析
实验七主成分分析
实验八因子分析
实验一描述性分析
【实验目的】
1.掌握数字特征的计算(A);
2.掌握相关矩阵计算(A)。
【实验原理】
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用;是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
要对数据进行分析,当然要分析数据中包含的主要信息,即要分析数据的主要特征,也就是说,要研究数据的数字特征。
对于数据的数字特征,要分析数据的集中位置、分散程度。
数据的分布是正态的还是偏态等。
对于多元数据,还要分析多元数据的各个分量之间的相关性等。
【实验项目设计】
1.给定一组单变量数据,分组计算均值、方差、Q1、Q3、偏度、峰度。
2.给定一组多变量数据,计算相关矩阵。
【实验内容】
一、单样本的数字特征计算
(习题1.4)从某商店的营业日中随机抽取12天,得日营业额数据为(单位:
万元):
12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7
试求样本均值、样本方差、样本变异系数、样本中位数、上样本四分位数、下样本四分位数、样本四分位数间距和极差。
1.建数据集
Datad4;
Inputx@@;
Cards;
12.517.29.125.431.22018.922.821.117.825.127.7
;
Run;
2.使用“SAS/分析家”菜单
(1)打开“分析家”界面。
选择SAS界面的级联菜单:
“解决方案”“分析”“分析家”。
(2)调出数据文件Work.D4。
在界面的空白处,右键弹出菜单,选择级联菜单:
“文件”“按SAS名称打开”。
依次选择逻辑库和文件对象,分别为“Work”、“D4”,单击“确定”按钮。
(3)确定分析方法。
选择界面上的级联菜单:
“统计”“描述性统计”“分布”
(4)输送变量。
首先选中变量“x”,然后单击“Analyst”按钮。
即完成变量的输送,确定变量“x”作为分析变量。
单击“OK”。
(5)得到输出结果
上述使用“分析家”的调用过程等价于程序调用univariate过程:
procunivariatedata=d4;
Varx;
Run;
3.解答
样本均值mean=
样本方差Variance=
样本变异系数CoeffVariation=
样本上四分位数75%Q3=
样本中位数Median=
样本下四分位数25%Q1=
极差Range=
样本四分位数间距InterquartileRange=
二、相关矩阵计算
(例3.2.3)今对31个人进行人体测试,考察或测试的七个指标是:
年龄(x1)、体重(x2)、肺活量(x3)、1.5英里跑的时间(x4)、休息时的脉搏(x5)、跑步时的脉搏(x6)和跑步时记录的最大脉搏(x7)。
数据列于表3.2.1。
现欲对这些指标作一些相关分析。
1.对于给定EXCEL数据文件,导入数据建数据集e323.sas7bdat
2.使用SAS/INSIGHT菜单
3.输出
实验二正态总体的均值检验
【实验目的】
1.掌握单正态总体样本的均值检验(B);
2.掌握两独立组样本(服从正态总体)进行均值比较(A);
3.掌握两对照组样本(服从正态总体)进行均值比较(A);
4.了解两组样本均值差的置信区间计算(C)。
【实验原理】
1.单样本总体均值的t检验
2.两独立组样本总体的方差比较
【实验项目设计】
1.单个正态总体的均值检验;
2.两独立组样本(服从正态总体)进行均值比较检验;
3.两对照组样本(服从正态总体)进行均值比较检验。
【实验内容】
一、单个正态总体的均值检验
(习题1.4)从某商店的营业日中随机抽取12天,得日营业额数据为(单位:
万元):
12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7
试检验:
μ0=10。
1.建数据集
Datad4;
Inputx@@;
Cards;
12.517.29.125.431.22018.922.821.117.825.127.7
;
Run;
2.使用“SAS/分析家”菜单
(1)打开“分析家”界面。
(2)调出数据文件Work.D4。
(3)确定分析方法。
选择界面上的级联菜单:
“统计”“假设检验”“均值的单样本T检验”
(4)输送变量。
确定变量“x”为分析变量。
(5)得到输出结果
3.解答
H0:
μ0=10H1:
μ0≠10
检验方法:
t检验
统计量取值:
t=____
检验p值=_______
结论:
拒绝/接受H0.
二、两独立组样本(服从正态总体)进行均值比较
(习题1.22)为比较甲、乙两种安眠药的疗效,将20名患者分成两组,每组10人,假定服药后延长的睡眠时间都近似服从正态分布且方差相等,测得其数据如下:
1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.4
0.7,-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0,2
试问在显著性水平a=0.05下检验两种安眠药的疗效有无显著性差异,p值是多少?
1.建数据集
前面的“分析家”界面不要关闭,切换到程序编辑窗口,输入程序。
Datad22;
Inputxy;
Cards;
1.90.7
0.8-1.6
1.1-0.2
0.1-1.2
-0.1-0.1
4.43.4
5.53.7
1.60.8
4.60
3.42
;
Run;
2.使用“SAS/分析家”菜单
(1)回到“分析家”界面,调出数据文件work.d22
(2)确定分析方法。
选择级联菜单:
“统计”“假设检验”“均值的双样本T检验”
(3)设置数据集work.d22中,各样本分组数据对应的变量个数:
“Twovariables”。
(4)输送变量。
将变量“x”输送给“group1”,“y”输送给“group2”,单击“OK”
(5)输出结果如下
(6)涉及到两独立组的方差,继续检验两组方差是否相等。
回到“分析家”界面上,选择级联菜单“统计”“假设检验”“方差的双样本T检验”
(7)输送变量。
将变量“x”输送给“group1”,“y”输送给“group2”,单击“OK”。
(8)输出结果如下
3.解答
H0:
σ1=σ2H1:
σ1≠σ2
检验方法:
F检验
统计量取值:
F=____
检验p值=_______
结论:
拒绝/接受H0.两独立组的方差是/否相等。
H0:
μ1=μ2H1:
μ1≠μ2
检验方法:
t检验
统计量取值:
t=____
检验p值=_______
结论:
拒绝/接受H0.两种安眠药的疗效有/无显著性差异
三、两对照组样本(服从正态总体)进行均值比较
(习题1.24)甲、乙两种稻种分别播种在10块试验田中,每块试验田甲、乙稻种各种一半。
假设同一块田中两种作物的产量之差服从正态分布。
现获10块田的成对产量如下表所示(单位:
公斤),试问两种稻种产量有无显著性差异(a=0.05),p值是多少?
1
2
3
4
5
6
7
8
9
10
甲种
140
137
136
140
145
148
140
135
144
141
乙种
135
138
125
140
128
131
130
140
131
125
1.建数据集
Datad24;
Inputxy@@;
Cards;
140135137138136125140140145128
148131140130135140144131141125
;
Run;
2.使用“SAS/分析家”菜单
(1)回到“分析家”界面,调出数据文件work.d24
(2)确定分析方法。
选择级联菜单:
“统计”“假设检验”“均值的双样本成对T检验”
(3)输送变量。
设置各分组数据对应的变量个数:
“Twovariables”,并输送变量“x”“y”,单击“OK”,得到输出结果如下:
3.解答
H0:
μ1=μ2H1:
μ1≠μ2
检验方法:
t检验
统计量取值:
t=____
检验p值=_______
结论:
拒绝/接受H0,两种稻种产量有/无显著性差异.
实验三非参数检验
【实验目的】
1.掌握卡方检验(A);
2.熟悉符合检验、符号秩和检验、秩和检验。
【实验原理】
非参数统计是统计分析的重要组成部分。
可是与之很不相称的是它的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。
在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,使用SAS的“分析家”系统可以方便地进行界面操作。
【实验项目设计】
1.对列联表,检验行变量与列变量的关联性;
2.给定一组未知总体的样本数据,检验μ=μ0;
3.给定两组未知总体的样本数据,检验μ1=μ2。
【实验内容】
一、对列联表,检验行变量与列变量的关联性
(习题4.7)下表为某药治疗感冒效果的3x3列表。
疗效\年龄儿童成年老年合计
显著583832128
一般284445117
较差23181455
合计10910091300
试问:
疗效与年龄是否关联(a=0.05)?
1.建数据集
Datad0407;
Doeffect='显著','一般','较差';
Doage='儿童','成年','老年';
inputnum@@;
output;
end;
end;
Cards;
583832
284445
231814
;
Run;
2.使用“SAS/分析家”菜单
(6)打开“分析家”界面。
(7)调出数据文件Work.D0407。
(8)确定分析方法。
选择界面上的级联菜单:
“统计”“表分析”
得到列联表的空白界面。
(9)输送变量。
选中变量“effect”,单击“Row”按钮;选中变量“age”,单击“Column”按钮;选中变量“num”,单击“CellCounts”按钮。
完成变量输送。
显示如下。
(10)选择附加的统计方法。
在列联表分析(TableAnalysis)界面的右边下角,点击“statistics”按钮,打开选项设置页。
勾选“chi-squarestatistics”。
如图所示。
单击“OK”按钮。
值得一提的是,卡方检验默认使用近似计算,目的是为了节省时间。
当然也可以勾选中间的“Exacttest”选项卡,来指定精确检验,只是某些时候的运行时间无法控制。
(11)得到输出结果
3.解答
H0:
疗效与年龄独立。
检验统计量及其分布:
统计量=
检验p值=
结论:
二、对未知总体的一组样本数据,进行均值的非参数检验(H0:
μ=μ0)
(习题4.9)从某企业中随机抽取12名职工,调查他们的年抽入,数据如下(单位:
万元):
5.425.655.645.134.695.134.814.375.826.314.785.52
试用符号检验对该企业职工年收入的中位数是否显著超过了5万元进行符号检验(a=0.05)。
1.建数据集
前面的“分析家”界面不要关闭,切换到程序窗口,运行以下程序。
Datad0409;
inputincome@@;
d=income-5;
cards;
5.425.655.645.134.695.13
4.814.375.826.314.785.52
;
run;
2.使用“SAS/分析家”菜单
(1)在未关闭的“分析家”界面中,调出数据文件Work.D0409。
(2)打开对应于univariate程序功能的菜单分析界面。
选择界面上的级联菜单:
“统计”“描述性统计”“分布”
(3)输送差值变量“d”。
选中差值变量“d”,单击Analysis框。
单击“OK”。
(4)得到输出结果。
3.解答
H0:
m=5H1:
m>5
①符号检验
检验统计量及其分布:
统计量s+=2+E(S+)=8
检验p值=0.3877/2=0.194(单边检验,故概率除以2)
结论:
接受H0。
②符号秩检验(前提:
假定总体的分布式对称的)
检验统计量
代表差值变量d中取值为正的数据项秩总和。
统计量T+=19+E(T+)=19+12(12+1)/4=19+39=58,
检验p值=0.1455/2=0.073(单边检验,故概率除以2)
结论:
接受H0。
三、两组未知总体的样本数据,非参数检验总体均值
(习题4.12)在甲、乙两台同型梳棉机上,进行纤维转移率试验,除机台外其他工艺条件都相同,经试验得两个容量不同的纤维转移率样本数据如下表:
甲
8.635
9.071
9.231
8.797
9.87
10.325
乙
7.342
7.436
8.03
8.946
9.131
6.823
8.965
8.696
8.345
试用秩和检验,对纤维转移率而言,这两台机器是否存在显著的机台差异(a=0.05).
1.建数据集
前面的“分析家”界面不要关闭,切换到程序窗口,运行以下程序。
datad04012;
inputxclass$;
cards;
8.635甲
9.071甲
9.231甲
8.797甲
9.87甲
10.325甲
7.342乙
7.436乙
8.03乙
8.946乙
9.131乙
6.823乙
8.965乙
8.696乙
8.345乙
;
run;
2.运行npar1way过程
procnpar1waydata=d04012wilcoxon;
classc;
varx;
run;
3.得到输出结果
4.解答
H0:
两台机器没有显著的差异(即μ1=μ2)H1:
两台机器存在显著的差异(即μ1≠μ2)
T=67,(统计量T代表甲台机器的样本数据在混合数据中的秩和),
检验p值=0.0292(双边检验,故选用z检验的“Two–sidedPr>|Z|”),
拒绝H0,
认为两台机器存在显著差异。
【思考题】
问题1说出非参数检验和参数检验的区别。
问题2说出非参数检验中,都有哪几类问题有需要以引入差值变量d。
实验四方差分析
【实验目的】
3.掌握单因素方差分析、多重比较(A);
4.掌握两因素方差分析算(A)。
【实验原理】
方差分析(analysisofvariance,简称ANOVA)是用来对多个总体的均值作比较检验的统计方法。
在进行单因素方差分析时,如果检验拒绝了原假设,则我们有时还需进一步检验到底哪些均值之间存在差异,把同时比较任意两个水平下的总体均值有无显著差异的问题称为多重比较问题。
常用的有费希尔LSD法和邦弗伦尼法。
【实验项目设计】
1.进行单变量方差分析;
2.考虑交互作用进行双因素方差分析;
3.不考虑交互作用进行双因素方差分析。
【实验内容】
一、单因素方差分析&多重比较
(例5.1.1)为检验甲、乙、丙三种型号的机器混合一批原料所需平均时间是否相同,某管理人员得到了混合原料所需时间的如表5.1.1所示的数据。
机器所需时间
甲212522262322
乙272325242726
丙192221252120
(例5.2.1)在例5.1.1中,k=3,n1=n2=n3=6,n=18,并假定在三个水平下的总体分布皆为正态,且方差相等。
试给出方差分析表(参考教材124页)并进行多重比较。
1.建数据集
/*引入组别变量a和数值变量x,建数据集c0501*/
Datac0501;
inputx@@;
if_n_<7thena=’甲’;
elseif_n_<13thena=’乙’;
elsea=’丙’;
cards;
212522262322
272325242726
192221252120
;
run;
2.使用“SAS/分析家”菜单
(1)打开“分析家”界面,调出数据文件Work.C0501。
(2)打开单因素方差分析界面。
/*SAS\ANALYST菜单:
“统计”“方差分析(A)”“单向方差分析(O)”*/
(3)输送变量。
(4)得到输出结果。
验证:
SST=SSA+SSE
3.进行多重比较
(1)打开单因素方差分析界面
/*SAS\ANALYST菜单:
“统计”“方差分析(A)”“单向方差分析(O)”*/
(2)单击界面上的“Means”按钮
单击选项卡“ComparisonMethod”右侧的黑色下箭头,弹出的列表中选择合适的方法。
(3)使用Fisher’sLSD法的多重比较结果(参考教材126页)
(4)使用邦弗伦尼法的多重比较结果(参考教材127页)
二、考虑交互作用的双因素方差分析
(例5.3.1)为研究影响合成纤维抗断强度的因素,表5.3.1记录了三位操作员用同一批产品的纤维在四台生产机器上试验的数据。
机器甲乙丙丁
操作员
1109,110110,115108,109110,108
2110,112110,111111,109114,112
3116,114112,115114,119120,117
(例5.3.2)在例5.3.1中,a=3,b=4,r=2,并假定在12个水平组合下的总体分布皆为正态,且方差相等。
试给出方差分析表(参考教材136页)
1.建数据集
/*引入因素变量A、B和数值变量x,建数据集c0502*/
Datac0502;
DoA='p1','p2','p3';
DoB='甲','乙','丙','丁';
Dor=1,2;
Inputx@@;
Output;
End;end;end;
cards;
109110110115108109110108
110112110111111109114112
116114112115114119120117
;
Run;
2.使用“SAS/分析家”菜单
(1)打开“分析家”界面,调出数据文件Work.C0502。
(2)打开双因素方差分析界面。
/*SAS\ANALYST菜单:
“统计”“方差分析(A)”“因子方差分析(O)”*/
(3)输送双因素变量A、B和数值变量x。
保留窗口。
(4)输送交互因素A×B。
单击Model按钮,弹出如下页面。
同时选中左侧变量A、B,单击cross按钮,完成交互因素的添加。
单击“OK”按钮。
(5)得到输出结果。
三、不考虑交互作用的双因素方差分析
(例5.3.3)为了考察压强与温度对某种粘合剂抗剪强度的影响,选定压强(单位:
10−5牛顿/毫米2)的四个水平和温度(单位:
℃)的三个水平作试验,每个水平组合下作一次试验,结果见表5.3.6。
假定这两个因素无交互作用,且在各水平组合下粘合剂的抗剪强度均服从方差相同的正态分布,试检验两个因素的效应是否显著(α=0.05)。
温度(B)
130
140
150
yi∙
压强(A)
60
9.60
11.28
9.00
29.88
65
9.69
10.10
9.57
29.36
70
8.43
11.01
9.03
28.47
75
9.98
10.44
9.80
30.22
y∙j
37.7
42.83
37.4
y∙∙=117.93
试给出方差分析表(参考教材136页)
1.建数据集
/*引入因素变量A、B和数值变量x,建数据集c0503*/
Datac0503;
DoA=60,65,70,75;
DoB=130,140,150;
Inputx@@;
Output;
End;end;
cards;
9.6011.289.00
9.6910.109.57
8.4311.019.03
9.9810.449.80
;
Run;
2.使用“SAS/分析家”菜单
同上,只是省去添加交互因素这一步骤。
实验五回归分析
【实验目的】
掌握多元线性回归方程的拟合、检验(A)。
【实验原理】
客观世界中事物之间的关系是各种各样的。
从定量的角度看,主要有两种:
一是确定性关系,如重力加速度,即自由落体的距离与时间:
S=0.5gt2;另一类是不确定性关系,即相关关系。
由于事物的变化常常受多种因素的影响,导致了事物变化的不确定性。
人们常用相关系数来描述事物之间的这种不确定性程度。
但对于如何通过一个事物的值去估计和预测另一个事物的发展变化,相关系数却无能为力。
但是,通过大量的实际调查,可以总结出它们之间的关系,回归分析即是对这种关系的描述。
“回归”一词最早由英国统计学家高尔顿(FrancisGalton)在19世纪末期研究孩子的身高和他们父母身高关系时提出。
研究发现,孩子的身高总是趋于他们父母身高的平均值。
孩子的身高,比身材矮的父母要高,比身材高的父母要矮,这种趋于中间值的趋势称作“回归效应”,而他提出的这种研究两个数值变量关系的方法称作回归分析。
回归分析是借助数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写,即通过一个或几个变量的变化去解释另一变量的变化。
目的在于对相关随机变量进行估计、预测和控制,确定变这些量之间数量关系的可能形式,并用一个数学模型来表示。
回归分析中,自变量(independentvariable)也称为解释变量,给定的或可以控制的、用来解释、预测因变量的变量;因变量(dependentvariable)也称为响应变量,由自变量来解释其变化的变量。
只有一个自
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 实验 指导书