几种统计算法实例计算.docx
- 文档编号:23743243
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:27
- 大小:275.94KB
几种统计算法实例计算.docx
《几种统计算法实例计算.docx》由会员分享,可在线阅读,更多相关《几种统计算法实例计算.docx(27页珍藏版)》请在冰豆网上搜索。
几种统计算法实例计算
1.Pearson相关系数:
给出一个具体实例,写出计算过程。
皮尔森相关系数(Pearsoncorrelationcoefficient)也称皮尔森积矩相关系数(Pearsonproduct-momentcorrelationcoefficient),是一种线性相关系数。
皮尔森相关系数是用来反映两个变量线性相关程度的统计量。
相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。
r描述的是两个变量间线性相关强弱的程度。
r的绝对值越大表明相关性越强。
样本的简单相关系数一般用r表示,其中n为样本量,分别为两个变量的观测值和均值。
r描述的是两个变量间线性相关强弱的程度。
r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。
r的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。
若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。
利用样本相关系数推断总体中两个变量是否相关,可以用t统计量对总体相关系数为0的原假设进行检验。
若t检验显著,则拒绝原假设,即两个变量是线性相关的;若t检验不显著,则不能拒绝原假设,即两个变量不是线性相关的。
一个具体实例和计算过程(销售额与利润额的pearson相关系数)
销售额
43
58
51
58
62
66
85
90
102
111
利润额
9
10
12
18
13
25
21
24
22
25
=
=
=71.6
=
=
=17.9
=0.825626116
Correlations
销售额
利润额
销售额
PearsonCorrelation
1
.826**
Sig.(2-tailed)
.003
N
10
10
利润额
PearsonCorrelation
.826**
1
Sig.(2-tailed)
.003
N
10
10
**.Correlationissignificantatthe0.01level(2-tailed).
说明销售额与利润额的相关皮尔森相关系数为0.826,sig=0.003<0.01,故满足显著性要求。
2卡方检验:
给出卡方检验的一个具体实例,要求给出卡方统计量的计算过程,以及主要列联强度指标的计算方法。
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
例题一,某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法,结果分为“有关、无关、不好说,,三种答案,图3中县调查得到的数据。
(1)零假设H0:
性别与收入无关。
(2)确定自由度为(3-1)×(2-1)=2,选择显著水平α=0.05。
原数据
性别
有关
无关
不知道
合计
男
120
60
50
230
女
100
110
60
270
合计
220
170
110
500
期望值
性别
有关
无关
不知道
合计
男
101.2
78.2
50.6
230
女
118.8
91.8
59.4
270
合计
220
170
110
500
期望值F(男,有关)=220*230/500=101.2
期望值F(女,有关)=220*270/500=118.8
期望值F(男,无关)=170*230/500=78.2
期期望值F(女,无关)=170*230/500=91.8
期望值F(男,不知道)=110*270/500=50.6
望值F(女,不知道)=110*270/500=59.4
然后分别计算
k(男,有关)=(120-101.2)^2/101.2
k(女,有关)=(100-118.8)^2/118.8
k(男,无关)=(60-78.2)^2/78.2
k(女,无关)=(110-91.8)^2/91.8
k(男,不知道)=(50-50.6)^2/50.6
k(女,不知道)=(60-59.4)^2/59.4
=14.32483402
性别
有关
无关
不知道
合计
男
3.492490119
4.235805627
0.007114625
7.73541037
女
2.975084175
3.608278867
0.006060606
6.589423648
合计
6.467574294
7.844084494
0.013175231
14.32483402
而chiinv(0.05,2)=5.9915<14.32483402,故拒绝原假设。
例题二,在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
处理
发癌数
未发癌数
合计
发癌率
甲组
52
19
71
0.732394366
乙组
39
3
42
0.928571429
合计
91
22
113
0.805309735
同例一一样,得出
期望值
处理
发癌数
未发癌数
合计
发癌率
甲组
57.17699115
13.82300885
71
0.805309735
乙组
33.82300885
8.17699115
42
0.805309735
合计
91
22
113
0.805309735
处理
发癌数
未发癌数
合计
甲组
0.468741653
1.93888593
2.407627584
乙组
0.792396605
3.277640501
4.070037106
合计
1.261138258
5.216526431
6.477664689
=
6.47
>
3.841458821
题三,T检验、方差分析:
T检验:
分别给出单样本、双样本、配对样本t检验的一个具体实例。
T检验,亦称studentt检验(Student'sttest),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
T检验是用于小样本(样本容量小于30,适合正态分布)的两个平均值差异程度的检验方法。
它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
单样本T检验
比较山区成年男子脉动次数样本均数所代表的未知总体均数μ和已知总体均数μ0。
脉搏跳动
75
74
72
74
79
78
76
69
77
76
70
73
76
71
78
77
76
74
79
77
统计量
自由度V=n-1
One-SampleStatistics
N
Mean
Std.Deviation
Std.ErrorMean
脉动次数
20
75.05
2.892
.647
One-SampleTest
TestValue=72
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
脉动次数
4.716
19
.000
3.050
1.70
4.40
从单样本统计表看出,均值为75.05次/分钟,标准差为2.892,标准误差为0.647次/分钟。
从单样本T检验表中看出,T值为4.716,自由度为20-1=19;双侧检验显著性为0<0.05,故拒绝原假设,认为山区成年健康男子的脉动与总体样本存在差异,平均差值为3.050,在95%的置信度的条件下其置信区间为[1.70,4.40]。
多样本T检验
两独立样本t检验就是根据样本数据对两个样本来自的两独立总体的均值是否有显著差异进行推断;进行两独立样本t检验的条件是,两样本的总体相互独立且符合正态分布;
数据
1.0034.00
1.0037.00
1.0028.00
1.0036.00
1.0030.00
2.0043.00
2.0045.00
2.0047.00
2.0049.00
2.0039.00
GroupStatistics
组号
N
Mean
Std.Deviation
Std.ErrorMean
数据
1.00
5
33.0000
3.87298
1.73205
2.00
5
44.6000
3.84708
1.72047
IndependentSamplesTest
Levene'sTestforEqualityofVariances
F
Sig.
数据
Equalvariancesassumed
.077
.788
Equalvariancesnotassumed
从小组统计表中看出,第一组有五个数据,均值为33.0000,标准差为3.87298,标准误差为1.73205。
第二组有五个数据,均值为44.6000,标准差为3.84708,标准误差为1.72047。
IndependentSamplesTest
t-testforEqualityofMeans
t
df
Sig.(2-tailed)
MeanDifference
Std.ErrorDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
-4.752
8
.001
-11.60000
2.44131
-17.22967
-5.97033
-4.752
8.000
.001
-11.60000
2.44131
-17.22972
-5.97028
从F值对应的p=0.788值大于0.05,所以方差是相等的。
由于t=-4.752<15.50731306
且sig均为0.001<0.05,故两样本独立。
配对样本t检验
配对样本是指对同一样本进行两次测试所获得的两组数据,或对两个完全的样本在不同条件下进行测试所得到的两组数据;两独立样本t检验就是根据样本数据对两个配对样本来自的两配对总体的均值是否有显著差异进行推断;两配对样本t检验的前提条件:
两样本是配对的(数量一样,顺序不能变),服从正态分布。
数据
组一组二
3443
3745
2847
3649
3039
配对基本统计
PairedSamplesStatistics
Mean
N
Std.Deviation
Std.ErrorMean
Pair1
组一
33.00
5
3.873
1.732
组二
44.60
5
3.847
1.720
两组数据配对相关系数
PairedSamplesCorrelations
N
Correlation
Sig.
Pair1
组一&组二
5
.302
.621
相关系数为0.302,sig=0.621>0.05,故认为无相关性。
配对样本T检验
PairedSamplesTest
PairedDifferences
Mean
Std.Deviation
Std.ErrorMean
95%ConfidenceIntervaloftheDifference
Lower
Upper
Pair1
组一-组二
-11.600
4.561
2.040
-17.263
-5.937
t
df
Sig.(2-tailed)
-5.687
4
.005
从上表可以看出t=-5.687<9.487729037且sig=0.005<0.05,故认为两配对样本之间存在显著性差异。
方差分析,给出单因素方差分析的一个具体实例,给出方差分析表,及其计算过程
单因素方差分析(one-wayANOVA),用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。
完全随机设计(completelyrandomdesign)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。
在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。
H0:
三种人的转蛋白无差异。
H1:
三种人的转蛋白不完全相同。
以一样本为例,某社区随机抽取糖尿病和IGT患者以及正常人共三十人进行转蛋白测定,观测三种人的转蛋白是否有差异。
其中数据如下:
糖尿病
IGT
正常人
105.2
124.5
117
109.5
105.1
110
96
76.4
109
xij
115.2
95.3
103
95.3
110
123
110
95.2
127
100
99
121
125.6
120
159
111
115
106.5
对其进行求和等一系列操作;
各列求和
1160
921.5
1228
3309.5
总和
个数
11
9
10
30
总和
平均数
105.4545455
102.3888889
122.8
110.3166667
总和
平方和
123509.52
96045.35
153420
372974.87
总和
有三种变异:
总变异
组间变异
组内变异
ss总=
ss组间+
ss组内
v总=
v组间+
v组内
ms总=
ms组间/
ms组内
=372974.87-365093.0083=7881.861667
=
-365093.0083=2384.025505
=7881.861667-2384.025505=5497.836162
=
=365093.0083
=1192.012753
=203.6235615
=
>
结论:
拒绝原假设,认为三种人的转蛋白有明显差异。
因子分析:
掌握因子分析的基本原理,给出一个具体实例
基本原理:
其中i的取值区间为[1,k]而k
变量共同度
越大越能体现表明X对于F每一分量的依赖程度大。
公共因子方差贡献
(1,2,3......k)越大越好,把它计算出来再依次地排好先后顺序。
就可以提炼出最有影响的公共因子。
因子分析(Factoranalysis):
就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
如下数据:
数学
化学
语文
历史
英语
100
100
59
73
67
99
99
53
63
60
87
100
74
81
76
91
100
70
65
76
87
87
68
78
64
85
95
63
76
66
79
83
89
89
79
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.580
Bartlett'sTestofSphericity
Approx.Chi-Square
25.716
df
10
Sig.
.004
巴特利特球度检验统计量观测值为25.726,p为0.004值接近0,显著性差异,可以认为相关系数矩阵与单位阵有显著差异,同时KMO值为0.580,根据Kaiser给出的KMO度量标准可知原有变量适合进行因子分析。
从图中可知
1.首先得出其相关矩阵
CorrelationMatrix
数学
化学
语文
历史
英语
Correlation
数学
1.000
.721
-.844
-.788
-.588
化学
.721
1.000
-.644
-.706
-.181
语文
-.844
-.644
1.000
.797
.860
历史
-.788
-.706
.797
1.000
.526
英语
-.588
-.181
.860
.526
1.000
从图中可以看出语文、英语、历史三科的相关系数较大,其次数学和化学。
这与我们的指标选取有很大的关系。
2.然后初始特征值及贡献
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
dimension0
1
3.704
74.077
74.077
3.704
74.077
74.077
2
.889
17.780
91.856
.889
17.780
91.856
3
.230
4.591
96.448
4
.173
3.454
99.901
5
.005
.099
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
从图中可以看出前面两个因子的方差贡献率就超过90%,因此我们选择两个因子来概括整个指标体系。
从碎石图中也同样可以看出。
RotatedComponentMatrixa
Component
1
2
数学
.765
-.529
化学
.965
-.046
语文
-.594
.791
历史
-.784
.462
英语
-.114
.988
从旋转成分矩阵可以看出:
公因子1得分越高,所有的英语、语文及历史成绩越差,而数学和化学成绩越高,所以公因子1代表的是语言文学类的反向指标及自然科学类的正向指标,可称为“理科能力”。
公因子2得分越高,所有的英语、语文及历史成绩越高,而数学和化学成绩越低,所以公因子2代表的是语言文学类的正向指标及自然科学类的反向指标,可称为“文科能力”。
经过旋转,可以看出公因子有了更合理的解释。
ComponentScoreCoefficientMatrix
Component
1
2
数学
-.250
.114
化学
-.205
.672
语文
.261
.235
历史
.242
-.185
英语
.198
.756
得出因子的回归模型:
F1=-0.25*Z1+0.205*Z2+0.261*Z3+0.242*Z4-0.198*Z5
F2=0.114*Z1+0.672*Z2+0.235*Z3-0.185*Z4-0.756*Z5
信息熵、信息增益:
给出信息增益的一个具体实例。
信息量:
从N个可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识N个事件中特定的一个事件的过程中所需要提问"是或否"的最少次数.
信息熵:
当我们对一问题毫无了解时,对它的认识是不确定的,在对问题的了解过程中,通过各种途径获得信息,逐渐消除了不确定性,获得的信息越多,消除的不确定性也越多。
我们可以用消除不确定性的多少来度量信息量的大小。
1948年,美国数学家、信息论的创始人Shannon在题为“通讯的数学理论”的论文中指出:
“信息是用来消除随机不定性的东西”。
并应用概率论知识和逻辑方法推导出了信息量的计算公式。
由此给出3个公理:
公理1:
信息量是事件发生概率的连续函数;
公理2:
信息量是有限值;
公理3:
如果事件A和事件B的发生是相互独立的,则获知事件A和事件B将同时发生的信息量是单独获知两事件发生的信息量之和。
设事件发生的概率为P,
则满足上述公理的信息量函数为:
其中为应用方便,可取c=1,a=e,单位为奈特(nat);
信息量函数体现不确定的消除;
设
,M代表事件A所包含的基本事件,N代表总的不确定性,M为A事件所包含的不确定性,从而当A事件发生时,共消除不确定性为N-M,分别将变量取对数,并不影响其大小的单调性,这样就可以将事件发生的概率联系起来,将lnN视为总的不确定性,将lnM视为事件A所包含的不确定性,从而获得事件A发生后,共消除不确定性为lnN-lnM=-lnP
例:
会堂有20排、每排20个座位。
找一个人。
甲告诉消息(A):
此人在第10排;
乙告诉消息(B):
此人在第10排、第10座。
总的不确定性:
从上式可以看出,I是P的单调递减函数;
信息熵定义为“加权平均信息量”
其中
;
信息量:
信息熵也即加权平均信息量:
;
举个例子:
假如在一场比赛中A获胜的概率为0.9,B获胜的概率为0.1;
那么其信息熵为
信息增益(实例)
Gain(A)=Entropy(After)-Entropy(before)
我们要建立的决策树的形式类似于“如果天气怎么样,去玩;否则,怎么着怎么着”的树形分叉。
那么问题是用哪个属性(即变量,如天气、温度、湿度和风力)最适合充当这颗树的根节点,在它上面没有其他节点,其他的属性都是它的后续节点。
借用信息论的概念,我们用一个统计量,“信息增益”(InformationGain)来衡量一个属性区分以上数据样本的能力。
信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁,比如说一棵树可以这么读成,如果风力弱,就去玩;风力强,再按天气、温度等分情况讨论,此时用风力作为这棵树的根节点就很有价值。
如果说,风力弱,再又天气晴朗,就去玩;如果风力强,再又怎么怎么分情况讨论,这棵树相比就不够简洁了。
计算信息增益的公式需要用到“熵”(Entropy)。
我们检查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 算法 实例 计算