实验12概率统计Word格式文档下载.docx
- 文档编号:21468460
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:10
- 大小:163.99KB
实验12概率统计Word格式文档下载.docx
《实验12概率统计Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《实验12概率统计Word格式文档下载.docx(10页珍藏版)》请在冰豆网上搜索。
(1)
,
;
(2)
.
(2)做出[-2.5,3.5]上的概率密度曲线;
解:
算
=0.0227
=
=0.9772
(2)计算正态分布的分位数利用:
=2.23763116875765
(3)函数
做出在[a,b]上的正态密度曲线:
图1.38[-2.5,3.5]上的概率密度曲线
2.数据特征
设
是一个简单随机样本,样本的一组观测值
,函数分析数据特征,如表1.13所示.
表1.13函数
位置特征
MATLAB函数
变异特征
算术平均
mean
极差
range
中位数
median
方差
var
切尾平均
trimmean
标准差
std
几何平均
geomean
四分位极差
iqr
调和平均
harmmean
平均绝对偏差
mad
【例1.111】已知数据:
4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851
计算其数据特征.
>
a=[459,362,…,310,851];
b=a(:
);
mean(b),median(b),trimmean(b,10),geomean(b),harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)
注意:
切尾平均有两个输入,后者为百分数.
结果如表1.14所示.
表1.14结果
计算结果
600
1069
599.5
38663.03
600.64
196.629
559.68
243.5
499.06
150.86
【例1.112】已知数据:
1,1,1,1,1,1,100;
计算其数据特征,由此你有何发现?
x=[1,1,1,1,1,1,100];
y=[mean(x),median(x),geomean(x),harmmean(x),trimmean(x,25);
range(x),var(x),std(x),iqr(x),mad(x)]
计算结果为:
y=
15.14311.93071.16471991400.137.418024.245
如果数据全部为1,则各种平均值都应等于1,所有的变异特征全部为零,由于有一个异常值100,于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是稳健的.
3统计量
计算矩统计量、峰度、偏度和变异系数的函数表1.15所示.
表1.15函数
名称
n阶中心矩
峰度系数
偏度系数
变异系数
命令
moment(x,n)
kurtosis(x)
Skewness(x)
Std(x)/abs(mean(x))
其中,x为数据,n为阶数,若x为矩阵可得矩阵各列的矩、峰度、偏度和变异系数,但是计算变异系数的公式应为:
Std(x)./abs(mean(x))(同维向量应该点除).
偏度系数s等于3阶中心矩与标准差的3次幂的比,用于刻画数据分布的对称性,当s>
0时称正偏,当s<
0时称负偏,当s接近于零时,可以认为分布是对称的.
峰度系数k等于4阶中心矩与标准差的4次幂的比,它反映了分布曲线的陡缓程度,正态分布的峰度为3,若k>
3则表明数据分布有较厚的尾部.
变异系数用于刻画数据的变化大小,不同指标的变异系数常用来计算客观性权重.
【例1.114】表1.16给出了15种资产的收益率ri(%)和风险损失率qi(%),计算峰度与偏度.
表1.16例题
Si
ri(%)
qi(%)
S1
9.6
42
S9
33.6
53.3
S2
18.5
54
S10
36.8
40
S3
49.4
60
S11
11.8
31
S4
23.9
S12
9
5.5
S5
8.1
1.2
S13
35
46
S6
14
39
S14
9.4
5.3
S7
40.7
68
S15
15
23
S8
31.2
33.4
x=[9.6,18.5,49.4,23.9,8.1,14,40.7,31.2,33.6,36.8,11.8,9,35,9.4,15];
y=[42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23];
sx=skewness(x)=0.4624,kx=kurtosis(x)=1.8547,
sy=skewness(y)=-0.4215,ky=kurtosis(y)=2.2506
从计算结果可知:
收益率是正偏,而风险损失率为负偏;
二者峰度都小于3属于平阔峰.
4有丢失数据时的统计量
在解决实际问题时经常遇到有丢失数据的情形,在MATLAB中提供了NAN函数,用于有丢失数据时的统计量.
nanmax%忽略丢失数据NAN的最大值.
nanmean%忽略丢失数据NAN的均值.
nanmedian%忽略丢失数据NAN的中位数.
nanmin%忽略丢失数据NAN的最小值.
nanstd%忽略丢失数据NAN的标准差.
nansum%忽略丢失数据NAN的和.
5大样本数据的处理
通常大样本数据有以下的处理方法.
(1)标准化
将某矩阵的各列(行)元素减去该列(行)的均值,再比上该列的标准差.
【例1.115】将表1.17中的数据标准化.
表1.17各地区“三资”工业企业主要经济效益指标(2001年)
工业增
加值率
总资产
贡献率
资产
负债率
流动资产
周转次数
成本费用
全员劳动
生产率
产品
销售率
(次/年)
利润率
(元/人/年)
全国
26.19
9.83
54.87
1.89
5.85
75913
97.64
北京
22.42
12.23
59.97
2.01
5.63
132887
97.94
天津
23.75
11.17
50.53
8.15
97342
99.01
河北
28.80
8.19
62.90
1.67
5.50
50801
98.07
山西
34.55
4.75
68.80
1.48
0.50
72910
94.50
内蒙古
30.52
8.23
43.41
0.88
7.25
62099
100.88
辽宁
26.70
8.32
50.32
1.91
5.02
82779
96.70
吉林
29.46
25.29
52.29
2.65
13.75
161233
96.52
黑龙江
31.94
6.55
70.18
1.00
3.40
75143
92.41
上海
26.23
10.43
48.39
1.68
7.09
122310
99.16
江苏
25.07
10.06
57.53
2.05
5.23
88883
97.66
浙江
23.80
11.25
55.09
2.00
6.68
56016
97.01
安徽
31.65
9.27
56.43
1.73
5.64
81460
98.97
福建
26.92
7.24
54.60
1.98
3.93
55816
96.79
江西
27.53
58.14
1.60
4.09
52256
98.03
山东
29.63
11.23
57.06
2.04
6.23
63755
97.36
湖南
33.08
9.47
55.59
1.24
8.29
80287
96.43
湖北
35.32
10.47
57.39
1.85
6.50
103638
98.00
河南
29.26
10.83
54.06
1.72
7.11
73090
98.67
广东
25.36
8.88
56.41
2.03
4.99
64161
97.28
广西
30.48
9.64
56.08
1.50
6.73
63371
96.34
海南
25.28
6.44
55.14
1.28
3.10
59593
91.59
重庆
31.38
10.08
45.14
1.52
106491
96.64
四川
31.84
8.61
56.74
6.66
86379
97.13
贵州
30.57
2.17
61.90
0.80
-2.36
35622
98.56
云南
32.10
9.97
48.35
1.30
11.69
86255
96.88
西藏
50.00
NAN
30.00
0.33
5000
150.00
陕西
33.62
12.93
55.83
1.29
13.59
138768
96.99
甘肃
28.57
5.13
63.65
1.11
2.02
67697
99.86
青海
20.96
11.66
50.51
1.88
18.28
94167
95.92
宁夏
33.47
3.62
61.15
1.08
-3.00
61714
91.12
新疆
29.55
6.11
59.39
0.95
7.08
70000
94.25
将数据粘贴到MATLAB的编辑窗口(即建立M文件中).
a=[26.19,9.83,54.87,…,29.55,6.11,59.39,0.95,7.08,…,94.25];
此时,发现有一行数据不全(西藏),为了分析问题的方便,我们可以删除此行(用%),标准化编程如下:
formatlong%此步是为了数据输出的数位比较多
m1=mean(a(2:
31,:
));
%求各列均值(除去第一行元素)
m=m1(ones(30,1),:
);
%30行矩阵各行都是m1
s1=std(a(2:
%求各列标准差(除去第一行元素)
s=s1(ones(30,1),:
%30行矩阵各行都是s1
A=(a(2:
)-m)./s%标准化
(2)都与某一个数据进行比较(比如都与全国的各项指标进行比较)
b1=a(1,:
b=b1(ones(30,1),:
B=(a(2:
)-b)./b
6直方图与概率纸检验函数
为了直观地了解随机变量的分布特征,直方图是广泛使用的方法.
格式:
hist(data,k).
说明:
data是原始数据,该命令将区间(min(data),max(data))分成k等份,并描绘出频数直方图,k的缺省值为10.如果需要事先给出小区间,则将区间的中点存放在向量nb然后用命令:
[n,x]=hist(data),或[n,x]=hist(data,k),或[n,x]=hist(data,nb),其中,n返回k个小区间的频数,x返回小区间的中点.
在MATLAB中的概率纸检验函数.
normplot(data)
%如果数据data服从正态分布,则做出的图形基本上都位于一条直线上.
weibplot(data)
%如果数据data服从威布尔分布,则做出的图形基本上都位于一条直线上,
【例1.116】作出例1.111数据的直方图,该数据服从正态分布还是威布尔分布?
输入命令hist(a(:
),30)得到图1.39.
图1.39直方图
从图1.39所示的直方图发现数据比较接近于正态分布,如何检验这一猜测,我们利用MATLAB命令normplot(a(:
))进行检验.
图1.40例1.111数据的图形
从图1.40中可见数据点基本上都位于直线上,故可认为该数据服从正态分布,由于已经计算出该数据的均值为600,标准差为196.629,所以数据服从
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 12 概率 统计