统计学复习资料Word下载.docx
- 文档编号:19487848
- 上传时间:2023-01-06
- 格式:DOCX
- 页数:43
- 大小:49.90KB
统计学复习资料Word下载.docx
《统计学复习资料Word下载.docx》由会员分享,可在线阅读,更多相关《统计学复习资料Word下载.docx(43页珍藏版)》请在冰豆网上搜索。
系统误差和随机误差。
11.可信区间(confidenceinterval,CI):
按一定的概率或可信度(1-α)用一个区间估计总体参数所在范
围,这个范围称作可信度1-α的可信区间,又称置信区间。
12.总体均数的可信区间:
按一定的概率大小估计总体均数所在的范围(CI)。
常用的可信度为95%和
99%,故常用95%和99%的可信区间。
13.变异(variation):
同质事物间的差别。
由于观察单位通常即为观察个体,故变异亦称为个体变异
(individualvariation)。
14.组间变异(variationbetweengroup):
用各组均数与总均数的离均差平方和表示
2
SS组间ni(xx)ν
组间=k-1,k为实验分组数,组间均方为MS
i
组间=SS组间/(k-1)
15.组内变异(variationwithingroup):
22
SS组内(xijx)(n1)s,各组自由度为ni-1,则组内自由度为ν
组内=N-k,组内均ii
iji
方为MS组内=SS组内/(N-k)
16.平均数(average):
也叫平均值,是一组(群)数据典型或有代表性的值。
这个值趋向于落在根据数
据大小排列的数据的中心,包括算术平均数(arithmeticmean)、几何平均数(geometricmean)、中位数
(median)等。
17.中位数(median):
将一组观察值按升序或降序排列,位次居中的数,常用M表示。
适用于偏态
分布资料或不规则分布资料和开口资料。
所谓“开口”资料,是指数据的一端或两端有不确定值。
当n
为奇数时,M=X(n+1)/2;
当n为偶数时,M=[Xn/2+Xn/2+1]/2。
第1页共19页
18.百分位数(percentile):
是一种位置指标,以Px表示,一个百分位数Px将全部观察值分为两个部
分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。
19.变异系数(coefficientofvariance,CV):
亦称离散系数(coefficientofdispersion),为标准差与均数之
比,常用百分数表示。
CVs/X100%,变异系数没有度量衡单位,常用于比较度量单位不同或
均数相差悬殊的两组或多组资料的离散程度。
20.统计表(statisticaltable):
统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项
目分组之间的数量关系。
21.频率(relativefrequency):
在n次随机试验中,事件A发生了m次,则比值
A
m发生的试验次数
f称为事件A在n次试验中出现的频率(relativefrequency)。
m称为出
n试验的总次数
现的频数(frequency)。
在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。
频率是概率的估计值。
22.概率(probability):
在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个
常数p,这个常数p就称为事件A出现的概率(probability),记作P(A)或P。
描述随机事件发生的可能性大小的数值,常用P来表示。
23.统计量(statistic):
由样本所算出的统计指标或特征值。
24.相关系数(correlationcoefficient):
用以说明具有直线关系的两个变量间相关关系的密切程度和相
关方向的指标,称为相关系数,又称为积差相关系数(coefficientofproduct-momentcorrelation),总
体相关系数用希腊字母ρ表示,而样本相关系数用r表示,取值范围均为[-1,1]。
25.回归系数(regressioncoefficient):
直线回归方程Y?
=a+bX的系数b称为回归系数,也就是回归直
线的斜率(slope),表示X每增加一个单位,Y平均改变b个单位。
26.参考值范围(referencerange):
也称为正常值范围(normalrange),医学上常把绝大多数正常人的
某指标值范围称为该指标的正常值范围。
绝大多数:
可以是90%、95%、99%等等,最常用的是95%。
正常人:
不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。
又称参考值
范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
习惯上是确定包括95%的人
的界值。
27.正偏态和负偏态分布:
频数分布可分为对称分布和非对称分布两种类型。
非对称分布又称为偏
态分布,是指观察值偏离中央的分布。
当尾部偏向数轴正侧(或右侧)时,称正偏态(或右偏态)分布,
如人体中一些重金属元素的分布等。
反之,尾部偏向数轴负侧(或左侧)时,则称为负偏态(或左偏态)
分布。
28.统计推断(statisticinference):
从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信
息判断总体的特征,这一过程称为统计推断。
29.标准误(standarderror,SE):
在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差
的大小。
据此,样本均数的标准差
σ称为标准误。
X
30.参数估计(parameterestimation):
由样本信息估计总体参数。
它包括两种:
点估计(pointestimation)
和区间估计(intervalestimation)。
31.点估计(pointestimation):
直接用样本统计量作为对应的总体参数的估计值。
32.区间估计(intervalestimation):
按一定的概率或可信度(1-α用)一个区间估计总体参数所在范围,
这个范围称作可信度1-α的可信区间(confidenceinterval,CI),又称置信区间。
这种估计方法称为区间
估计。
33.95%可信区间含义:
如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信
区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。
第2页共19页
34.Ⅰ类错误(typeⅠerror):
统计学上规定,拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错
误或第一类错误,Ⅰ型错误的概率用α表示。
35.Ⅱ类错误(typeⅡerror):
统计学上规定,不拒绝实际上不成立的H0,这类“存伪”的错误称为Ⅱ型
错误或第二类错误,Ⅱ型错误的概率用β表示。
36.检验效能(powerofatest):
又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。
37.参数检验:
总体分布已知,对其中一些未知参数进行估计或检验。
这类统计推断的方法叫参数
统计或参数检验。
参数检验:
假定比较数据服从某分布,通过参数的估计量(x,s)对比较总体的参数(μ作)检验,统计上
称为参数法检验(parametrictest)。
如t、u检验、方差分析。
38.非参数检验:
适用于任意分布(distributionfree)的统计方法,这种方法称为非参数统计。
这种假
设检验方法,比较的是分布而不是参数,故称为非参数检验。
非参数检验:
是指在统计检验中不需要假定总体分布形式和用参数估计量,直接对比较数据的分布
进行统计检验的方法,称为非参数检验(nonparametrictest).
39.率(rate):
又称频率指标,用以说明某现象发生的频率或强度。
常以百分率(%)、千分率(‰)、万
分率(1/万)、十万分率(1/10万)等表示。
率
实际发生某现象的观察
可能发生某现象的观察
单位数
单位总数
比例基数
(K)
其计算公式为:
40.构成比(proportion):
又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以
百分数表示,其计算公式为:
构成比
某一组成部分的观察单位数
同一事物内各组成部分的观察单位总数
100%
41.比(ratio):
又称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几,它是对
比的最简单形式。
比=A/B。
二、简答题
1.常见的三类误差是什么?
应采取什么措施和方法加以控制?
答:
常见的三类误差是:
(1)系统误差:
在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗
效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。
要尽量查明其原
因,必须克服。
(2)随机测量误差:
在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各
种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。
譬如,实验操作员操作技术不稳
定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。
对于
这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。
一般可以用技术培训、指
定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的
目的。
(3)抽样误差:
即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统
计量)与总体均数(或其它参数)之间仍可能有差异。
这种差异是由抽样引起的,故这种误差叫做
抽样误差,要用统计方法进行正确分析。
2.抽样中要求每一个样本应该具有哪三性?
从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性:
就是要求样本中的每一个个体必须符合总体的规定。
(2)随机性:
就是要保证总体中的每个个体均有相同的几率被抽作样本。
第3页共19页
(3)可靠性:
即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较
大的可信度。
由于个体之间存在差异,只有观察一定数量的个体方能体现出其客观规律性。
每个样
本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。
需要作“样本例数估计”。
42.什么是两个样本之间的可比性?
可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影
响实验结果的因素要求基本齐同,也称为齐同对比原则。
43.标准正态分布(u分布)与t分布有何异同?
相同点:
集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无
限大时)
不同点:
t分布是一簇分布曲线,t分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲
线的形状不变,是固定不变的,因为它的形状参数为1。
44.标准差与标准误有何区别和联系?
区别:
(1)含义不同:
①s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;
反
之变量值越集中,均数的代表性越强。
②标准误是描述样本均数之间的变异度大小,标准误越
大,样本均数与总体均数间差异越大,抽样误差越大;
反之,样本均数越接近总体均数,抽样误差
越小。
(2)与n的关系不同:
n增大时,①s→?
(恒定)。
②标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:
①s表:
示x的变异度大小,计算cv,估计正常值范围,计算标准误等②:
参数估计和假
设检验。
联系:
二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
45.应用相对数时的注意事项有哪些?
①要注意绝对数与相对数结合应用;
②要注意观察单位样本数不宜过小;
③要注意分子分母正确
选用;
④要注意率与比的正确应用;
⑤要注意平均率的计算方法;
⑥要注意资料的可比性;
⑦率
和构成比比较时作假设检验。
46.简述直线回归与直线相关的区别。
(1)资料要求上不同:
直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;
直线相关分析适用于服从双变量正态分布的资料。
(2)两种系数的意义不同:
回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线
越陡峭,表示应变量随自变量变化越快;
相关系数是表明两个变量之间相关的方向和紧密程度的,
相关系数越大,两个变量的关联程度越大。
47.何谓抽样误差?
分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。
总体中的个体间存在变异,在进行抽样研究时,样本的统计量不等于总体参数,这种误差称为
抽样误差。
均数的抽样误差:
常用样本均数的标准差
X(简称标准误)反映均数抽样误差的大小。
σXn(理论值),SXs/n(估计值)。
率的抽样误差:
常用率的标准误
σ/
σ反映率的抽样误
p
差的大小。
σπ(1π)/n
p(理论值),spp(1p)/n(估计值)。
48.假设检验的理论依据是什么?
请简述假设检验的基本步骤。
假设检验的理论依据是小概率事件原理,步骤为:
(1)根据研究目的建立假设,确定检验水准
(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量
(3)确定P值,做出推断结论
49.方差分析的基本思想是什么?
你所知道的其用途有哪些?
方差分析的基本思想就是按研究目的和设计类型,将总变异的离均差平方和SS和自由度v分别
第4页共19页
分解成若干部分,并求得各相应部分的变异;
其中的组内变异或误差主要反映个体差异或抽样误差,
其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并做出推断。
方差分析应用广泛,可用于:
①两个或多个样本均数间的比较;
②分析两个或多个因素间的交互作
用;
③回归方程的线性假设检验;
④多元线性回归分析中偏回归系数的假设检验等。
本章主要介绍
完全随机设计资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分析。
50.完全随机设计的两样本率比较时,如何正确选择统计分析方法(写出相应的计算公式)。
(1)当总例数n≥40且所有格子的T≥5时,用
2检验的基本公式或四格表资料2检验的专用公式;
当P
≈α时,改用四格表资料的Fisher确切概率法。
公式为:
χ
(A
T
T)
,v=(行数-1)(列数-1)
(a
(ad
b)(c
bc)
d)(a
n
c)(b
d)
(2)当n≥40但有1≤T<5时,用四格表资料
2检验的校正公式;
或改用四格表资料的Fisher确切概率
法的连续性校正法:
(AT-0.5)
2,
n(
ad
bc-
n/2)
(3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。
51.什么是医学参考值范围?
估计医学参考值范围如何正确选用统计方法?
医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围,亦称正常值范围。
如95%的参考值范围包括了95%的观察值,而有5%的观察值不在这一范围内。
估计医学参考值范围确定方法:
(1)正态分布法:
适用于正态或近似正态分布的资料
双侧界值
Xuαs;
单侧上界Xuαs;
单侧下界X
XX
uαs
(2)对数正态分布法:
适用于对数正态分布的资料
111
双侧界值lg(X);
单侧上界lg(X);
单侧下界lg()
uαsuαsXuαs
XXX
(3)百分位数法:
用于偏态资料
双侧界值(P2.5,P97.5);
单侧上界P95;
单侧上界P5
52.什么是假设检验中的两类错误?
什么是检验效能?
其大小与哪些因素有关?
假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误,当H0成立时犯第一
类错误的概率等于检验水准α。
假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所
犯的错误,其概率通常用β表示,其大小与抽样误差大小及设定的检验水准α有关。
1-β为假设检
验的检验效能,也就是两个总体确实有差别时检出该差别的能力;
2检验的基本思想是什么?
其用途主要有哪些?
14.
①2检验的基本思想:
其计算公式为
(AT)
2,式中A代表实际频数;
T代表理论频
数;
而反映了某个格子实际频数与理论
2值反映了实际频数与理论频数的吻合程度,其中
频数的吻合程度。
若检验假设H0成立,实际频数与理论频数的差值会小,则
2值也会小;
反之,若
检验假设H0不成立,实际频数与理论频数的差值会大,则
2值也会大。
②
2检验的用途:
a、单样本的拟合优度检验;
b、比较两个独立样本的频率分布是否不同;
c、多
个独立样本的频率分布是否不同;
d、比较配对样本的频率分布;
3.对两个随机变量进行关联性或相关性分析时,如何正确选择统计分析方法(写出相应的公式)?
①两变量为数值变量时:
a、若两变量均为正态随机变量,且其散点图呈直线趋势,则用直线
第5页共19页
相关分析,计算样本相关系数:
r
l
xx
xy
yy
x
xx
y
然后对其进行假设检验:
H0:
ρ=0
H1:
ρ≠0
α=0.05
t
(1r
)/(n
2)
,v=n-2
b、若两变量为非正态分布,则用等级相关分析。
将两变量各自按由小到大的顺序排秩,编上秩次,
求各对数据的秩次之差,记为di。
按下式计算Spearman等级相关系数:
s
1
6
d
当n≤50时,查Spearman等级相关系数界值表;
当n>
50时,按下式计算检验统计量u:
ursn1,根据标准正态分布的概率函数确定P值,作出推断结论。
②两变量为分类变量时:
a、两变量均为无序多分类变量时:
用行×
列表的
两变量无关联
2检验:
两变量有关联
ATA
2,ν行数1列数1
χ1
Tnn
RC
若拒绝H0,接受H1,可计算Pearson关联系数:
P
b、两变量均为有序多分类变量时,可用Spearman等级相关分析,方法同前。
53.简述t检验的具体步骤,如何进行检验结果判断?
步骤:
(1)建立假设和确定检验水准α;
(2)计算统计量;
(3)确定P值;
(4)判断结果。
结果的判断:
P>
α,
接受H0,差异无显著性,可认为差异是由抽样误差所致。
P≤α,拒绝H0,差异有显著性,可认为样
本间存在差异。
4.抽样研究中如何才能控制或减小抽样误差?
合理的抽样设计,增大样本含量。
5.何谓抽样误差?
为什么说抽样误差在抽样研究中是不可避免的?
由抽样造成的样本统计量与样本统计量,样本统计量与总体参数间的差异
因为个体差异是客观存在的,研究对象又是总体的一部分,因此这部分的结果与总体的结果存在差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 复习资料