统计学重点部分归纳.docx
- 文档编号:7917393
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:36
- 大小:659.55KB
统计学重点部分归纳.docx
《统计学重点部分归纳.docx》由会员分享,可在线阅读,更多相关《统计学重点部分归纳.docx(36页珍藏版)》请在冰豆网上搜索。
统计学重点部分归纳
第三章
全距也称极差,是一组数据的最大值与最小值之差。
R=最大值-最小值
组距分组数据可根据最高组上限-最低组下限计算。
四分位数:
数据按大小顺序排序后把分割成四等分的三个分割点上的数值。
SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。
Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3n+1)/4。
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1
反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。
不受极端值的影响。
可以用于衡量中位数的代表性。
方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。
是反映定量数据离散程度的最常用的指标。
离散系数:
标准差与其相应的均值之比,表示为百分数。
特点:
(1)反映了相对于均值的相对离散程度;
(2)可用于比较计量单位不同的数据的离散程度;(3)计
量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义
•对30名经理人员的调查表明年平均收入=5500,000,标准差=$50,000.
•对30名工人的调查表明平均收入二$32,000,标准差=$5,000,
•离散系数:
经理人员:
50000X100%^10%
500000
•虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人°
数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。
峰度:
数据分布的扁平或尖峰程度。
峰度系数:
数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。
箱线图
用于描述数据分布特征的一种图形。
最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:
先根据三个四分位数Q1、Q2、Q3
画岀中间的盒子,然后由盒子两端分别向最大、最小值连线。
在SPSS中标准的箱线图一般是这样绘制的:
先根据三个四分位数Q1、Q2、Q3画岀中间的盒子;
由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部
连线;
处于Q3+1.5*IQR至Q3+3*IQR或者Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标岀;
大于Q3+3*IQR或者小于Q1-3*IQR的用星号标岀。
例子:
数据的Z值也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。
Z值的均值等于0,标
准差等于1
Zi
Xj_x
是对某一个值在一组数据中相对位置的度量
s
z>0说明观测值大于均值。
z<0说明观测值小于均值。
z=1.2说明观测值比均值大1.2倍的标准差
第四章
假设检验
推断统计:
在搜集、整理观测样本数据的基础上,对有关总体作出推断
特点:
随机性的观测样本数据以及问题的条件和假定,对未知事物作出以概率形式表述的推断
参数估计
(1)基本概念:
点估计:
用估计量的数值作为总体参数的估计值。
一个总体参数的估计量可以有多个。
亍(叫-莎
i=i
H—1
例如,在估计总体方差时,
和都可作为估计量
点估计量常用的评价准则:
a无偏性:
估计量的数学期望与总体待估参数的真值相等:
b有效性:
在两个无偏估计量中方差较小的估计量较为有效。
c一致性:
指随着样本容量的增大,估计量越来越接近被估计的总体参数。
置信是什么?
抽样分布:
区间估计的理论基础。
从总体中抽取一个样本量为n的随机样本,我们可以计算岀统计量的一个值如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。
统计量的抽样分布就是这一统计量所有可能值的概率分布。
抽样分布的要点:
抽样分布是统计量的分布而不是总体或样本的分布。
在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。
样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。
中心极限定理:
从均值为卩,方差为;一的一个任意总体中抽取容量为n的样本,当n
b2=10/4=2.5
充分大时,样本均值的抽样分布近似服从均值为□、方差为二2/n的正态分布
X也服从正态分布,X的期望为卩,方差为b2/n。
即x〜N(卩,b2/n)。
简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于cn,这个指标在统计
上称为标准误。
统计软件在对变量进行描述统计时一般会输出这一结果。
简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于
总体均值和比例的区间估计
总体比例的区间估计:
当丿屮V.川1p}Y时总体比例的置信区间可以使用正态分布来进行区间估计。
(样本比例记为",总体比例记为n)
置信区间的补充说明:
P=1-a
置信度含义的说明:
样本均值的抽样分布
a/2
Pxi=M°
在所有的置信区间中,有(1-G)+100%的区间包含总体真实值。
对于计算得到的一个具体区间,“这个区间包含总体真实值粹这一结论有可能呆正确的二
说“总体均值有95%的概率落入某一区间'是不严格的,因为总体均值是非随机的D
必要样本容量的确定:
(1)实际抽样误差:
总体参数估计值与真实值之间的绝对离差称为实际抽样误差,是一个随机变量。
(2)抽样平均误差:
样本均值的标准差,也就是前面说的标准误。
它反映样本均值(或比
例)与总体均值(比例)的平均差异程度。
例如对简单随机抽样中的样
本均值有:
我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。
影响
素:
1.总体内部的差异程度;2.样本容量的大小;3.抽样的方式方法
Z:
严(1-羽
E*1234
(3)最大允许误差:
在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,等于置信区间长度的一半。
置信区间小」E是人为确定的,是调查者在相应的置信度下可以容忍的误差水平。
估计总体均值时样本容量的确定:
上式中的总体方差c可以通过以下方式估计:
根据历史资料确定
通过试验性调查估计
不重复抽样时的必要样本量比重复抽样时的必要样本量要小。
nO是重复抽样时的必要样本
容量。
例子需要多大规模的样本才能在90%的置信水平上保证均值的误差在土5之内?
前期
研究表明总体标准差为45.
95%置信度时,Z;「2/2=1.96,n未知时取为0.5
假设检验:
事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验)。
利用假设检验进行推断的基本原理是:
小概率事件在一次试验中几乎不会发生。
假设检验的步骤:
(1)根据实际问题提出一对假设(零假设和备择假设);
(2)构造某个适当的检验统计量,并确定其在零假设成立时的分布;
(3)根据观测的样本计算检验统计量的值;
(4)根据犯第一类错误的损失规定显着性水平a;
(5)确定决策规则:
根据确定检验统计量的临界值并进而给出拒绝域,或者计算p值等;
下结论:
根据决策规则得出拒绝或不能拒绝零假设的结论。
注意“不能拒绝零假设”不同于“接受零假设”。
零假设和备择假设是互斥的,它们中仅有一个正确;等号必须出现在零假设中;单侧检验时零假设和备择假设的选择
(1)通常把研究者要证明的假设作为备择假设;
(2)将所作出的声明作为原假设;
(3)把现状作为原假设;
结论。
单个总体的假设检验
均值的双边检验
某厂生产的铁丝抗拉力服从正态分布,其平均抗拉力为570kg,标准差为8kg。
由于更换原材料,标准差不会变,但不知其抗拉力是否不变,从中抽取10个样品,得平均抗拉力575kg,能否认为平均抗拉力无显着变化?
(a=0.05)
1、提出零假设和备择假设
2、选择检验统计量:
根据题意
3、检验统计量的观测值
4、显着性水平等于0.05。
确定了零假设和备择假设,就可以确定是什么检验了,c是标准差,s是方差
均值右侧检验问题
平均说来,一个有丈夫和两个孩子的家庭主妇每周用于与家庭有关活动的时间不超过55h。
抽取8个家庭主妇的每周工作时间作为样本,得到数据:
58,52,64,63,59,62,62,55。
有妇联组织认为每周平均工作时间超过55小时,你的结论是什么?
(假设总体为正态分布)
根据题意,
观测到的t统计量的值等于
对于t分布,用表示t统计量的观测值,双侧检验时,p值=FPt^tobs),右侧时,P=P(t^tobs);
左侧P=P(t乞tobs)
描述统计结果
p<14.6H、:
146
p>a=0・05,所以不能拒绝
单牛样本检验
检验值^14.6
t
df
Si乐
(双侧)
均值
差值
差分的95%置信区间
下限
上限
weeks
.670
-^506
.940
-1.88
3.76
双侧检验的p值。
如果需要做单侧检验,相应的p值一般等这一数值除以Z这里做右侧检验,p值等于0,253T因而不能拒绝原假设。
两个总体均值的比较:
检验统计量的选择两个总体方差相等和不相等时,t统计量的计算公式不同。
因此,检验两个总体的均值是否相等时,需要先检验两个总体的方差是否相等!
例:
某农业研究所研制出一种新的化肥,现要研究施肥土地的小麦产量是否比不施肥土地的小麦产量有显着提高,随机抽取几块土地进行试验。
选10快试验田不施肥,结果最后的每
亩产量数据为(单位:
公斤):
172、158、186、214、224、228、196、190、202、170。
另
选8块试验田施肥,结果最后的每亩产量数据为:
252、204、234、246、222、210、244、
212。
试检验施肥和不施肥的平均亩产量有无显着差异(沪0.05)
两个总体均值差异的检验(匹配样本)
如果两个样本是非独立的匹配样本,即两个样本中的数据是对应的,这时对两个总体的均值的比较,
就是对两个样本对应数据之差的检验。
第5章方差分析
t检验的扩展,只比较
方差分析:
主要目的是通过对方差的比较来检验多个均值之间差异的显着性(可看作两个均值时与t检验等价),主要用于研究一个定量因变量与一个或多个定性自变量的关系基本原理:
1.
比较两类误差,以检验均值是否相
2.比较的基础是方差比
3•如果系统(处理)
.误差是由各部分的误差占总误差的比例来测度的
随机误差值=0.582>0.05,不能拒绝方差相等的原假设。
因素的同方差平等时下面下行样输各观果无之间的差异。
比如,同一专业下不同毕业生的起薪是不同的这种差在方差不相等时上面一行影输出称果随效误差
系统误差
因素的不同水平(不同总体)下,各观察值之间的差异。
比如,不同专业之间的毕业生的起薪之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于专业所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差
组内方差(withingroups):
因素的同一水平(同一个总体)下样本数据的方差;比如,专业一的毕业生的起薪的方差;组内方差只包含随机误差
组间方差(betweengroups):
因素的不同水平(不同总体)下各样本之间的方差;比如,四个专业的毕业生的起薪
的方差;组间方差既包括随机误差,也包括系统误差
方差分析中的基本假设
(1)每个总体都应服从正态分布
(2)各个总体的方差必须相同.’
(3)观察值是独立的。
(比如,每个专业毕业生的起薪与其他专业毕业生的起薪相互独立)单因素方差分析:
一个自变量(因/
张三的起薪p值=0.004>0.05,拒绝均值相等的原假设。
二专业1的平均起薪+随机因素—
二总平均起薪+专业1的平均值与总平均值之差
+随机因素带来的影响
P+a+z
iij
,为了消除观察值多少对离差平方和大小的影响,需将其平均,即均方。
计算方法是用离差平方和除以相应的自由度
三个平方和的自由度分别是
SST的自由度为n-1,n为全部观察值的个数
SSA的自由度为r-1,其中r为因素水平的个数
SSE的自由度为n-r
若因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1;反之,该比值就会大于1;当这个比值大到某种程度时,就可以说因素A对结果有显着影响。
~F(r-1,n-r)
F检验
当HO为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即上面公式
方差分析的步骤
1.检验数据是否符合方差分析的假设条件。
2.提岀零假设和备择假设:
零假设:
各总体的均值之间没有显着差异,即
比:
"]二角二…二Ar
也称与总体分布无关的检验特点:
(1)非参数检验不需要严格假设条件,因而比参数检验适用范围广。
(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而
参数检验通常只能用于定量数据的分析。
(3)非参数检验的功效要彳低于参数检验方法(前提:
参数检验和非参数检验都适用)以下情况首选非参数方法:
(1)参数检验中的假设条件不满足,从而无法应用。
例如总体分布为偏态或分布形式未知,且样本为小样本时。
(2)检验中涉及的数据为定类或定序数据
自正态分布等。
(4)对各种资料的初步分析。
拟合优度检验:
在总体分布未知时,根据来自总体的样本,检验关于总体分布的假
设的一种检验方法。
结论:
计算出的卅统计量的值为1L250,自由度为2,相应的p值(渐近显著性)为0.004,小于a=0.05o所以检验的结论是拒绝总体中消费者对3种材料的偏好程度无差异的零假设。
2
为卡方
特别说明:
(1)大样本、每个单元中的期望频数大于等于5时可以使用c2分布。
(2)小样本时应该按照精确方法计算得到的p值得出结论。
(3)c2检验也可以按照同样的思想对正态分布或者任何其他分布进行检验,但主要用于对定性变量的检验。
(4)c2检验也可以用于对两个总体分布的比较。
单样本K-S检验KolmogorovSmirnov
通过对两个分布差异的分析确定能否认为样本的观察值来自所设定的理论分布总体
定义:
若对每一个x值来说,如果经验分布函数与特定分布函数的拟合程度很高,则有理由认为样本数据来自具有该理论分布的总体。
检验统计量:
根据检验统计量的精确分布或渐近分布,我们可以计算出假设检验的p值,从而得出检验的结论。
例子结果分析:
在K-S检验中如果使用的是小样本,则根据渐近分布计算p值的误差会增大。
单样本中位数的符号检验
在数据呈偏态分布的情况下,我们可能对总体的中位数更感兴趣,希望对总体的中位数作出
推断,这时可以使用符号检验(signtest)的方法。
在非正态总体小样本的情况下,如果要对总体分布的位置进行推断,由于t检验不适用,也可使用符号检验的方法。
例子:
在某地区随机调查了60个家庭的月收入(数据文件:
家庭月收入.sav)。
根据样本数据能否认为总体中家庭月收入的中位数等于5000元(显着性水a=0.05)?
步骤:
每个数据都减去零假设中的中位数,记录其差值的符号。
计算正、负符号的个数(差值为0
的不计算在任何一个中),当原假设为真时二者应该很接近;若两者相差太远,就有理由拒绝原假设。
当正号和负号个数之和大于25时,可以按照正态分布进行近似计算。
匹配样本的非参数检验
如果t检验的假设条件不满足,t检验就不适用了。
可以用符号检验或Wilcoxon符号秩检验替代。
用对应的数据相减得到新的序列
匹配样本数据为—「二:
--:
、'•…丄■■--二;
零假设:
差值总体的中位数=0;
备择假设:
差值总体的中位数工0。
对于差值序列中正数的个数和负数的个数,按照符号检验的方法进行假设检验。
Wilcoxon符号秩检验
步骤:
(1)计算差值绝对值的秩
(2)将差值绝对值从小到大排序,其位次就是的秩(rank),等于0值不参与排序秩就是该数据按照升序排列之后,每个观测值的位置。
数据中有相同的数值,称为结。
结中数字的秩为它们所占位置的平均值
(3)分别计算出差值序列中正数的秩和以及负数的秩和。
显然,如果零假设成立,W与W应该比较接近。
如果二者过大或过小,则说明零假设不成立。
(4)将正数的秩和或者负数的秩作为检验统计量,根据其统计分布计算p值,从而得出检验的结论。
符号检验在匹配数据分析应用中只用到差值的符号,而对差值数值的大小未能考虑,因而失去了部分信息。
Wilcoxon符号秩检验既考虑差值的符号,又考虑差值的大小,因此在所需的假设条件满足时其功效比符号检验咼。
Wilcoxon符号秩检验也可以用于单样本中位数的非参数检验,这时只需要将第二个样本的值设为零假设中的数值即可。
JIT刖-JIT后
Z
307自
渐近显著性(双侧)
.759
精确显著性(双侧)
.787
精确显著性(单侧)
.394
点概率
.020
结论:
没有证据表明小于企业在实施JIT前后的资
这里看不懂?
!
两个独立样本的Wlicoxon秩和检验
女口果零假设成立,在样本量相同的情况下两个秩和应该比较接近;样本量不同的情况下平均秩和的平均秩应该比较接近。
否则就说明两个总体的中位数是不相等的。
例子:
已知某企业职工的收入调查中20名本科毕业生和15名研究生的月收入(元)(数据文件:
本科研
究生
收入.sav),试比较本科生和研究生的收入水平(显着性水平a=0.05)。
由于收入一般是右偏分布,因此不适合用t检验进行分析。
我们用Wilcoxon符号秩检验来比较两个
总体的中位数。
检验的零假设和备择假设如下:
H0:
本科和研究生月收入的中位数相等;
H1:
本科和研究生月收入的中位数不相等。
根据精确检验的p值,在显着性水平大于0.002时我们应该拒绝原假设,结论是本科与研究生的收入的中位数不相等。
Kruskal-Wallis检验
也是根据秩和来构造检验统计量的。
Kruskal-Wallis检验是Wlicoxon秩和检验的推广,用来对多个
总体的中位数进行比较。
将所有样本的数据合在一起,从小到大排序得到每个数值的秩,然后计算各样本的秩和以及平均秩。
如果各组没有显着性差异,则各组的平均秩应该趋于相等;如果各组的
平均秩相差较大,则各组中位数有显着性差异的可能性较大。
小结:
非参数检验是与总体分布无关的检验,检验中不
需要对总体分布的具体形式作出严格假设,或者
只需要很弱的假设。
疔检验和K-S检验都可以帮助我们检验能否认为
样本数据来自杲种概率分布口前者一般用于定性
数据,后者用于宦量数据口
符号检验和Wilcoxon符号秩检验都可以用于单样
本中位数检验和两个匹配样本的检验,与正态分
布时单样本的t检验和匹配样本的t检验相对应。
Wlicoxon秩和检验可以用来检验两个独立样本的
中位数的差异,与正态分布时独立样本的t检验相
对应。
Kruskal-Wallis检验是与单因素方差分析相对应的
非参数检验方法,可以用来检验多个总体中位数
的差异。
小样本时,按照渐进方法的计算结果误差会比较
大。
这时应该使用精确检验的方法计算p值。
在一些非参数检验中需要有一些关于总体分布的
假设,如连续对称分布等,在使用中要注意判断。
第七章相关与回归分析
函数关系:
当一个变量取一定数值时,另一个变量有确定值与之相对应。
相关关系:
当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍
按某种规律在一定的范围内变化。
相关分析:
研究变量之间相关的方向和相关的程度,但无法给出变量间相互关系的具体形
式,因而无法从一个变量推测另一个变量。
回归分析:
可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对另一个
变量的影响程度,并根据回归方程进行预测。
(更具体)
散点图是观察两个变量之间的相关程度和类型最直观的方法。
是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得
到的图形。
在散点图中习惯上把因变量绘制在纵轴上。
相关系数是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。
皮尔逊相关系数衡量两个定量变量之间线性相关程度的常用指标。
通常以p表示总体的相关系数,以r表示样本的相关系数。
相关系数r的特征
当r>0时,X与丫为正相关;当rv0时,X与丫为负相关。
没有单位,取值介于-1与1之间。
绝对值越接近1说明关系越密切。
r=1为完全正相关,而r=-1为完全负相关。
注意:
当r=0时,只是表明两个变量之间不存在线性关系,它并不意味着X与丫之间不存在其他类型的相关关系。
线性关系度量说明
样本相关系数r的抽样分布
1.r的抽样分布随总体相关系数和样本容量的大小而变化
当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系p数很小或接近0时,趋于正态分布的趋势非常明显。
而当远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。
2.当p为较大的正值时,r呈现左偏分布;当p为较大的负值时,r呈现右偏分布。
只有当p接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量.
注意:
相关关系工因果关系!
典型的错误推断:
统计分析表明,庆祝生日次数越多的人越长寿。
因此,庆祝生日有利于健康。
调查表明,世界各国人均电视机拥有量与预期寿命存在很强的正相关性。
因此,电视机拥有量越高,预期寿命越长。
对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。
因此,学生穿的鞋越大,他的识字水平就越高。
一元线性回归分析
回归函数描述因变量y如何依赖于自变量x和随机误差项&的方程。
总体回归函数的形式如下:
样本回归函数是对总体回归函数的一个样本估计结果。
样本回归函数与总体回归函数区别
1、总体回归线是未知的,只有一条。
样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。
2、总体回归函数中的30和31是未知的参数,表现为常数。
而样本回归函数中的纟和
冈是随机变量,其具体数值随所抽取的样本观测值不同而变动。
3、总体回归函数中的et是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。
而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出ct的具体数值。
一元线性回归模型的统计假设
在满足一系列假设条件的情况下,最小二乘估计量是方差最小线性无偏估计量。
需要的基本假设条件包括:
最小二乘估计
通过使残差平方和q=M厂时=&MM
达到最小来求得
最小二乘回归直线的性质
最小二乘估计量的有关性质
最小二乘估计量是Y的线性函数。
最小二乘估计量是无偏估计量,它的期望值等于总体的真实值;
最小二
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 重点 部分 归纳