多元统计实验论文.docx
- 文档编号:29700180
- 上传时间:2023-07-26
- 格式:DOCX
- 页数:36
- 大小:206.76KB
多元统计实验论文.docx
《多元统计实验论文.docx》由会员分享,可在线阅读,更多相关《多元统计实验论文.docx(36页珍藏版)》请在冰豆网上搜索。
多元统计实验论文
实验一Matlab软件的简单熟悉1
实验目的:
1
实验内容:
1
实验要求:
2
实验过程:
2
实验体会:
5
实验二统计变量的描述性分析6
实验目的:
6
实验内容:
6
实验过程:
7
实验体会:
12
实验三聚类分析13
实验目的13
实验内容13
实验过程13
实验结果13
实验结果分析14
实验体会14
附录14
实验四判别分析15
实验目的15
实验内容15
实验过程15
实验结果16
实验结果分析17
实验体会17
实验五主成分分析18
实验目的18
实验内容18
实验过程18
实验结果19
实验结果分析19
实验体会19
实验六因子分析20
实验目的20
实验内容20
实验过程20
实验结果22
实验结果分析23
实验体会23
实验七典型相关分析24
实验目的24
实验内容24
实验过程24
实验结果26
实验结果分析27
实验体会27
实验一
MATLAB软件的简单熟悉
一、实验目的:
熟悉在MATLAB中数据的录入、保存和调用方法;
熟悉matlab中关于矩阵运算和函数运算的各种命令。
二、实验内容:
1、矩阵和数组的输入
直接输入:
MATLAB中不用描述矩阵的类型和维数,它们由输入的格式和内容决定。
小矩阵可以用排列各个元素的方法输入,同一行元素用逗号或空格分开,不同行的元素用分号或回车分开。
数组的输入除了像矩阵一样输入以外,还常采用“:
”输入方式。
由语句或函数生成
在M-文件中生成
2、矩阵的运算
MATLAB提供了一下矩阵运算符:
+;-;’;*;^;\;/。
它们要符合矩阵的运算规律,如果矩阵的行列数不符合运算符的要求将产生错误信息。
如果不指定输出变量,MATLAB将回应ans。
3、矩阵的裁剪与拼接
从一个矩阵中去除若干行(列)构成新的矩阵称为裁剪,MATLAB中“:
”是非常重要的裁剪工具。
将几个矩阵接在一起,称为拼接,左右拼接行数要相同,上下拼接列数要相同。
4、变量与函数
MATLAB的变量由字母、数字和下划线组成,最多31个字符,区分大小写字母,第一个字符必须是字母。
当输入一个新变量时,MATLAB自动建立变量并为其分配内存空间。
5、命令和环境窗口
在线帮助可以用命令help主题名
显示在当前工作区中的所有变量名:
>>whos
清除当前工作区中的所有变量:
>>clear
把变量存储在文件中:
>>save文件名
调出文件中的变量:
>>load文件名
三、实验源程序:
>>A=[1,2,3;4,5,6]
>>A=[123;456]
>>t=1:
5%从1到5公差为1的等差数组
>>c=1:
2:
7%从1到7公差为2的等差数组
>>linspace(0,1,9)%从0到1共9个等差数组
>>a=[1113;4126]
>>A+a%MATLAB区分大小写
>>B=A-a
>>A=[25-3;36-2;24-3];
>>b=[314]';
>>X=A\b
>>A(3,:
)
>>A(:
2)
>>E=[A,b]
>>x=linspace(0,2*pi,30);
>>y=sin(x);
>>plot(x,y)
>>a=[52143];
>>b=min(a),c=sum(a),e=sort(a)
>>a=[1113;4126;729];
>>d=det(a),r=rank(a),t=trace(a),e=eig(a)
四、实验结果:
五、实验体会:
通过实验一,我对MATLAB软件的知识有了基本的了解,尤其是数组和矩阵的输入,有多种方法能够实现;对于矩阵的运算,和数学的基本运算大致相同,但又有一些区别;而且还能够利用MATLAB进行一些矩阵运算和数组运算,进行矩阵的拼接与裁剪,同时发现使用MATLAB软件进行数学运算非常方便,很容易得出结果,还能作图分析。
实验二
统计分析的描述性分析
一、实验目的:
熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:
样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。
二、实验内容:
1、频数表和直方图
用hist命令实现频数表和直方图
命令1:
[N,X]=hist(data,k)(数组data的频数表。
它将区间[min(data),max(data)]等分为k分,N返回k个小区间的频数,X返回k个小区间的中点。
)
命令2:
hist(data,k)(数组data的直方图)
2、基本统计量
1)样本均值
语法:
m=mean(x)
若x为向量,返回结果m是x中元素的均值;
若x为矩阵,返回结果m是行向量,它包含x每列数据的均值。
2)样本中位数
语法:
m=median(x)
若x为向量,返回结果m是x中元素的中位数;
若x为矩阵,返回结果m是行向量,它包含x每列数据的中位数。
3)样本标准差
语法:
y=std(x)
若x为向量,返回结果y是x中元素的标准差;
若x为矩阵,返回结果y是行向量,它包含x每列数据的标准差std(x)运用n-1进行标准化处理,n是样本的个数。
4)样本方差
语法:
y=var(x);y=var(x,1)
若x为向量,返回结果y是x中元素的方差;
若x为矩阵,返回结果y是行向量,它包含x每列数据的方差var(x)运用n-1进行标准化处理(满足无偏估计的要求),n是样本的个数。
var(x,1)运用n进行标准化处理,生成关于样本均值的二阶矩。
5)样本的极差(最大之和最小值之差)
语法:
z=range(x)
返回结果z是数组x的极差。
6)样本的偏度
语法:
s=skewness(x)
说明:
偏度反映分布的对称性,s>0称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s接近0则可认为分布是对称的。
7)样本的峰度
语法:
k=kurtosis(x)
说明:
正态分布峰度是3,若k比3大得多,表示分布有沉重的尾巴,即样本中含
有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。
3、几个重要的概率分布
Matlab统计工具箱中有20种概率分布,主要的几种分布命令字符:
norm(正态分布),exp(指数分布),poiss(泊松分布),beta(B分布),weib(威布尔),chi2(c2卡方分布),t(T分布),f(F分布);
对每一种分布都提供了5类函数,其函数命令的字符是:
pdf(概率密度),cdf(概率分布),inv(逆概率分布),stat(均值和方差),rnd(随机数生成);
当需要一种分布的某一类函数时,将以上所列的分布命令字符和函数命令的
字符接起来,并输入自变量和参数就行了。
4、了解EXCEL的假设检验功能
EXCEL:
工具→数据分析→描述统计
5、用EXCEL做出轮廓图,雷达图
打开EXCEL>>输入数据包括变量名和样品名>>选定数据>>点击菜单栏的插
入>>图表>>折线图(轮廓图)>>…
同法,可选雷达图等其他多元数据图示
6、用MATLAB做出调和曲线图
7、做二元正态分布密度函数立体图
三、实验源程序:
>>data=[93887576758666907465827595736981559765];
[N,X]=hist(data,5),hist(data,5)
>>x=-6:
0.01:
6;y=normpdf(x);z=normpdf(x,0,2);
plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)')
>>x=0:
0.01:
20;y=chi2pdf(x,5);z=chi2pdf(x,10);
plot(x,y,x,z),gtext('chi2(5)'),gtext('chi2(10)')
>>x=0:
0.01:
3;y=fpdf(x,10,50);z=fpdf(x,10,5);
plot(x,y,x,z),gtext('F(10,50)'),gtext('F(10,5)')
>>t=-pi:
pi/90:
pi;f1=563.51/2.^(1/2)+227.78*sin(t)+147.76*cos(t)+235.99*sin(2*t)+510.78*cos(2*t);f2=678.92/2.^(1/2)+365.07*sin(t)+112.82*cos(t)+301.46*sin(2*t)+465.88*cos(2*t);f3=237.38/2.^(1/2)+174.48*sin(t)+119.78*cos(t)+141.07*sin(2*t)+245.57*cos(2*t);f4=253.41/2.^(1/2)+156.13*sin(t)+102.96*cos(t)+108.13*sin(2*t)+212.20*cos(2*t);plot(t,f1,'r-',t,f2,'b-',t,f3,'y-',t,f4,'k-');
>>title('四个地区人均消费支出')
>>[x,y]=meshgrid([-2:
0.1:
2]);
z=1/2*pi*exp(-0.5*x.^2-0.5*y^2);plot3(x,y,z);title('(X,Y)~N(0,0,1,1,0)立体图')
gridon
四、实验结果:
五、实验体会:
实验三
聚类分析
一、实验目的:
熟悉在MATLAB中聚类分析命令,并会运用聚类分析方法解决实际分类问题。
二、实验内容:
为了更深入了解我国人口文化程度,现利用1990年全国人口普查数据对全国30个省市进行聚类分析。
分析选用了三个指标:
1)大学以上文化程度的人口占全部人口的比例(DXBL);2)初中文化程度的人口占全部人口的比例(CZBL);3)文盲半文盲的人口占全部人口的比例(WMBL)。
了解如下与聚类分析有关的MATLAB函数
(1)函数pdist()
功能:
计算观察值两两之间的距离
语法:
Y=pdist(X)
说明:
X为m*n矩阵(m个n维样本),返回值是两两对象间的欧氏距离。
Y是长度为(m-1)*m/2的向量。
可以用squareform()将此向量转换为方阵,这样可以使矩阵中的的元素(i,j)对应原始数据集中的对象i,和j的距离。
语法:
Y=pdist(X,’Euclid’)
说明:
X为m*n矩阵(m个n维样本),返回值是两两对象间的欧氏距离。
Y是长度为(m-1)*m/2的向量。
可以用squareform()将此向量转换为方阵,这样可以使矩阵中的的元素(i,j)对应原始数据集中的对象i,和j的距离。
语法:
Y=pdist(X,’SEuclid’)
说明:
由标准欧式距离计算矩阵X中的对象间距离
其中
为对角阵,对角线上的元素为相应变量的方差。
语法:
Y=pdist(X,’Mahal’)
说明:
由马氏距离计算矩阵X中的对象间距离
其中
是样本的协方差
语法:
Y=pdist(X,’CityBlock’)
说明:
由绝对值距离计算矩阵X中的对象间距离
(2)函数squareform()
功能:
将pdist的输出转换为方阵
语法S=squareform(Y)
说明:
将pdist的输出转换为方阵。
(3)函数linkage()
功能:
生成聚类树
语法Z=linkage(Y)
说明:
使用最短距离法生成具有层次结构的聚类树。
输入的矩阵为函数pdist()输出的距离向量。
语法Z=linkage(Y,’method’)
说明:
使用’method’指定的方法生成具有层次结构的聚类树‘method’取值的含义:
‘single’--------------最短距离(可以缺省)
‘complete’----------最大距离
‘average’-----------平均距离
‘centroid’----------重心距离
‘word’--------------离差平方和法
(4)函数dendrogram()
功能:
画聚类树图
语法H=dendrogram(Z)
说明:
生成聚类树Z的系统树图。
Z由函数linkage()产生。
三、实验源程序:
>>X=[9.330.558.7
4.6729.388.92
5.361.252.35
1.253.259.32
25.3212.3645.95
42.871.264.36
1.8520.6612.75]%输入数据X(7*3)的矩阵
Y=pdist(X,'Euclid')%计算观察值两两之间的距离
S=squareform(Y)%将pdist的输出转换为方阵(可略)
Z=linkage(Y,'single')%生成聚类树
H=dendrogram(Z)%画聚类树图
四、实验结果:
Y=
Columns1through9
4.780630.238028.468944.441944.762513.027628.895326.355945.6872
Columns10through18
47.65269.93288.335049.221937.563822.298644.767341.961717.7548
Columns19through21
46.485941.496646.1453
S=
04.780630.238028.468944.441944.762513.0276
4.7806028.895326.355945.687247.65269.9328
30.238028.895308.335049.221937.563822.2986
28.468926.35598.3350044.767341.961717.7548
44.441945.687249.221944.7673046.485941.4966
44.762547.652637.563841.961746.4859046.1453
13.02769.932822.298617.754841.496646.14530
Z=
1.00002.00004.7806
3.00004.00008.3350
7.00008.00009.9328
9.000010.000017.7548
6.000011.000037.5638
5.000012.000041.4966
H=
153.0018
155.0018
156.0018
157.0018
158.0018
159.0018
五、实验结果分析:
六、实验体会:
实验四
判别分析
一、实验目的:
熟悉在MATLAB中判别分析命令,会运用判别分析方法解决实际归类问题。
二、实验内容:
人文发展指数是联合国开发技术署于1990年5月发表的第一份《人类发展报告》中公布的。
该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别采用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。
从1995年世界各国人文发展指数的排序中,选取高发展水平(用1代表)、中等发展水平(用2代表)的国家各五个作为两组样品,另选四个国家作为代判样品作距离判别分析。
数据如下表:
类别
序号
国家名称
出生时的预期
寿命(岁)1992
成人识字率(%)
1992
调整后人均
GDP1992
第一类
(高发展
水平国家)
1
2
3
4
5
美国
日本
瑞士
阿根廷
阿联酋
76
79.5
78
72.1
75.3
99
99
99
95.9
77.7
5374
5359
5372
5242
5370
第二类
(中等发展
水平国家)
6
7
8
9
10
保加利亚
古巴
巴拉圭
格鲁吉亚
南非
71.2
75.3
70
72.8
62.9
93
94.9
91.2
99
80.6
4250
3412
3390
2300
3799
待判样品
11
12
13
14
中国
罗马尼亚
希腊
哥伦比亚
68.5
69.9
77.6
69.3
79.3
96.9
93.8
90.3
1950
2840
5233
5158
1、了解如下与判别分析有关的MATLAB函数
函数classify()
功能:
判别分析
语法:
class=classify(sample,training,group)
说明:
sample数据的每行为一个待判样本,training是训练集,group是training训练集中样本所对应的类别。
函数返回向量class,它与sample具有相同的行数。
Class的每一个元素表示sample中相应元素(对应行)所属类别。
2、可以先聚类再判别。
三、实验源程序:
>>X=[76995374
79.5995359
78995372
72.15.95242
73.877.75370
71.2934250
75.394.93412
7091.23390
72.8992300
62.980.63799];%输入训练样本集X
g=[1111122222]'%输入已分好的类构成的向量
Y=[68.579.31950
69.996.92840
77.693.85233
69.390.35158];%输入待判样品Y
CLASS=CLASSIFY(Y,X,g)%执行判别分析函数命令
附注:
用Fisher判别法对上题进行判别
functionclass=FisherClassify(Y,X1,X2)
%其中Y是待判别样本,X1、X2分别是两总体训练样本
S1=cov(X1);
S2=cov(X2);
[n1,l1]=size(X1);
[n2,l2]=size(X2);
a=1/(n1+n2-2);
S=a*(S1+S2);
Sinv=inv(S);
X1mean=mean(X1);
X2mean=mean(X2);
d=(X1mean-X2mean)';
C=Sinv*d;
y1mean=X1mean*C;
y2mean=X2mean*C;
y0=(n1*y1mean+n2*y2mean)/(n1+n2);
Yc=Y*C;
[n,m]=size(Y);
class=zeros(n,1);
fori=1:
1:
n
ify1mean>y2mean
ifYc(i)>y0
class(i)=1;
else
class(i)=2;
end
else
ifYc(i)>y0
class(i)=2;
else
class(i)=1;
end
end
end
四、实验结果:
五、实验结果分析:
六、实验体会:
实验五
主成分分析
一、实验目的:
熟悉在MATLAB中主成分分析命令,并会运用主成分分析方法解决问题。
二、实验内容:
对全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:
省份
GDP
X1
居民消
费水平
X2
固定资
产投资
X3
职工平
均工资
X4
货物周
转量
X5
居民消费价格水平
X6
商品零售价格指数
X7
工业
总产值
X8
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
上海
江苏
浙江
安徽
福建
江西
山东
河南
湖北
湖南
广东
广西
海南
四川
贵州
云南
西藏
陕西
甘肃
青海
宁夏
新疆
1394.89920.11
2849.52
1092.48
832.88
2793.37
1129.20
2014.53
2462.57
5155.25
3524.79
2003.58
2160.52
1205.11
5002.34
3002.74
2391.42
2195.70
5381.72
1606.15
364.17
3534.00
630.07
1206.68
55.98
1000.03
553.35
165.31
169.75
834.57
2502.00
2720.00
1258.00
1250.00
1387.00
2397.00
1872.00
2334.00
5343.00
1926.00
2249.00
1254.00
2320.00
1182.00
1527.00
1034.00
1527.00
1408.00
2699.00
1314.00
1814.00
1261.00
942.00
1261.00
1110.00
1208.00
1007.00
1445.00
1355.00
1469.00
519.01
345.46
704.87
290.90
250.23
387.99
320.45
435.73
996.48
1434.95
1006.39
474.00
553.97
282.84
1229.55
670.35
571.68
422.61
1639.83
382.59
198.35
822.54
150.84
224.00
17.87
300.27
114.81
47.76
61.98
376.95
8144.00
6501.00
4839.00
4721.00
4134.00
4911.00
4430.00
4145.00
9279.00
5943.00
6619.00
4609.00
5857.00
4211.00
5145.00
4344.00
4685.00
4797.00
8250.00
5105.00
5340.00
4645.00
4475.00
5149.00
7382.00
4396.00
5493.00
5753.00
5079.00
5348.00
373.90
342.80
2033.30
717.30
781.70
1371.10
497.40
824.80
207.40
1025.50
754.40
908.30
609.30
411.70
1196.60
1574.40
849.00
1011.80
656.50
556.00
232.10
902.30
301.10
310.40
4.20
500.90
507.00
61.60
121.80
339.00
117.30
115.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计 实验 论文
![提示](https://static.bdocx.com/images/bang_tan.gif)