统计最终版wx.docx
- 文档编号:29695577
- 上传时间:2023-07-26
- 格式:DOCX
- 页数:29
- 大小:126.06KB
统计最终版wx.docx
《统计最终版wx.docx》由会员分享,可在线阅读,更多相关《统计最终版wx.docx(29页珍藏版)》请在冰豆网上搜索。
统计最终版wx
一、选择题(备用)
1.总体:
根据研究目的确定的同质研究对象的全体(集合)。
样本:
从总体中随机抽取部分观察单位,其测量结果的集合称为样本。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本量:
样本中包含的观察单位个数。
2.研究对象具有的相同的状况或属性等共性称同质或同质性;对于同质的各观察单位,其某变量值之间的差异,称为变异。
3.参数:
总体的统计指标,如总体均数、标准差、率,采用希腊字母分别记为μ、σ、π。
统计量:
样本的统计指标,如样本均数、标准差、率,采用拉丁字母分别记为
、S、P。
总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
3.数据类型:
数值资料(计量资料):
对每个观察单位用定量的方法测定某项指标量的大小。
分类资料:
将观察单位的观察结果按某种属性或类别分组。
有序:
等级
无序:
计数
4.实验性研究是对研究对象施加干预的研究。
研究者通过随机分组,对不同处理组的研究对象施加不同的干预,从而比较不同干预措施间的效果。
观察性研究是对研究对象不加任何干预措施,在完全自然状态下观察、记录各研究对象的特征,描述现象的本质,比较不同环境条件下的疾病发生、发展。
5.实验设计的基本要素(医学研究包括3个基本组成部分):
处理因素、实验对象、实验效应
6.抽样误差的大小顺序为:
整群抽样>单纯随机抽样>系统抽样>分层抽样
样本量估算:
第一类错误的概率或可信度;第二类错误的概率或检验效能;容许误差;总体标准差、总体率、单双侧检验与设计类型
样本量的最终确定:
按主要指标最终确定样本量;在计算样本量的基础上增加20%;根据随机化方法调整
6.统计工作的步骤:
设计、收集资料、整理资料、分析资料
7.资料分析包括哪些内容:
统计描述及统计推断。
统计描述:
用图、表、指标来描述样本特征。
统计推断包括:
参数估计及假设检验
7.直方图,又叫频数分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。
纵向条纹之间无间隔(除非数据为0),一般用横轴表示数据类型,纵轴表示分布情况。
8.中位数的计算(N为奇数)(N为偶数)
中位数M定义
9.率的标准化是为了比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成不同而不能直接比较所带来的影响。
10.概率:
描述随机事件发生的可能性大小的数值,记为P(A),0<P(A)<1。
频率:
在相同的条件下,独立重复做n次实验,事件A出现了m次,则比值m/n称为随机事件A在n次实验中出现的频率。
当实验重复很多次时,n越大,m/n越接近概率P(A)
小概率事件:
通常一个事件的发生小于5%,就叫小概率事件。
小概率原理:
一次试验中小概率事件不会发生。
11.
12.二项分布:
二项分布的图形特征:
当π≠0.5时,图形呈偏态,但随n的增大,图形逐渐对称;当π=0.5时,图形对称。
正态近似条件
31.在区间μ±σ上,正态曲线下的面积为68.27%;在区间μ±1.96σ上,正态曲线下的面积为95.00%;在区间μ±2.58σ上,正态曲线下的面积为99.00%。
正态分布的应用:
-制定医学参考值范围(P68):
医学参考时用的是标准差,总体均数的可信区间用的是标准误(P84)。
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。
其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
15.抽样误差:
由于个体差异和抽样造成的样本统计量与总体参数之间的差异。
特点:
有抽样发生抽样误差就不可避免。
16、多个样本均数间的多重比较要先做方差分析,若有统计学意义,则继续做SNK或LSD两两比较。
0258
17.两样本方差的齐性检验:
判断两总体方差是否相等的方法有F检验、Bartlett检验和Levene检验。
F检验、Bartlett检验要求资料服从正态分布;Levene检验不依赖总体分布具体形式,更为稳健。
F检验只适用于两样本方差齐性检验,Bartlett检验和Levene检验既可用于两样本也可用于多样本方差齐性检验。
18、行×列表资料的2检验时:
①单向有序为分组变量时,用2检验;单向有序为结果变量时,用秩和检验②双向无序用2检验③双向有序属性相同用一致性检验,如Kappa检验④双向有序属性不同,若分析差异用秩和检验,若分析相关,用Spearman秩相关,若分析是否存在线性变化趋势,用线性趋势检验。
19.假设检验的两类错误:
假设检验的两类错误
客观实际
假设检验结论
拒绝H0
接受H0
H0为真
Ⅰ型错误(α)
推断正确(α)
H0不真
推断正确(1-β)
Ⅱ型错误(β)
I类错误:
原假设为真而被拒绝的错误,也称假阳性错误、弃真错误,犯I类错误的概率记作α。
II类错误:
原假设不为真而被接受的错误,也称假阴性错误、存伪错误,犯II类错误的概率记作β。
20、决定系数R2为回归平方和与总平方和之比,取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
21、相关系数r是一个没有单位的统计指标,-1≤r≤1,大于0表示正相关,小于0表示负相关,等于0表示不相关。
22.※:
区间范围,并非值的范围,值的范围为:
均数加减1.96倍的标准差!
X±1.96S
23标准误小,说明用样本均数代表总体均数可靠性大 C.标准差大,标准误也大
D.样本含量大,标准误则小 E.标准误常用来估计总计均数可信区间
24常见的非参数检验:
配对样本符号秩检验(Wilcoxonsignedranktest)
两独立样本比较的秩和检验(Wilcoxonranksumtest)
多个独立样本比较的秩和检验(Kruskal-Wallistest)
随机区组设计资料的秩和检验(Friedmantest)
K组秩均值的多重比较
25方差分析的应用条件:
各观察值相互独立,并服从正态分布;
各组资料总体方差相等,即各总体具有方差齐性(homogeneityofvariance);
方差分析应用:
多个样本均数(计量资料)的比较,各样本含量可以不等,但样本含量相等时检验效率高。
均数之间的多重比较:
SNK(Student-Newman-Keuls)法最常用方法之一,其检验统计量为q,故又称为q检验;
Dunnett法其检验统计量为tD,故又称Dunnett-t检验,它适用于k-1个试验组与对照组均数的比较;拉丁方设计可以同时分析3个因素:
一个因素为处理因素,主要是研究因素,两个需要加以控制的非处理因素:
如同时控制体重和窝别两个非处理因素。
拉丁方的优点:
可同时研究3个因素,减少实验次数
从组内变异中不但分离出行区组变异,而且还分离出列区组变异,使误差变异进一步减小
拉丁方的缺点:
要求处理组数与所要控制的两个因素水平数相等,一般实验不容易满足此条件,而且数据缺失会增加统计分析的难度
方差齐性检验(HomogeneityofVarianceTest):
Bartlett检验法:
正态分布资料;
Levene检验法:
非正态分布资料
26卡方检验:
用途广泛,推断两个及以上总体率(或构成比)之间有无差别,两个分类变量间有无关系(关联),频数分布资料拟合优度检验等。
卡方检验注意事项:
为保证正态近似性比较好,一般认为行列表中不宜有20%以上格子的理论频数小于5。
对理论频数太小有以下处理方法:
增加样本含量;
将理论数太小的行或列与相邻的行或列合并;
删除理论数太小的行或列。
当一个或两个分组变量为等级变量时,为提高资料信息的利用率,一般不直接用卡方检验。
当拒绝H0时,只能认为构成比有差异,尚不能认为或断定到底构成比的差异在哪里。
这需要进行卡方分割。
参数检验(parametrictest):
针对总体参数进行的检验。
非参检验(nonparametrictest):
与参数检验不同,非参检验不要求样本所代表总体的分布类型,所以又称为distribution-freetest。
不考虑总体分布型,也不针对总体的参数进行检验。
非参数检验的适用范围:
非参数检验只有在参数检验不能用的时候才用
偏态资料;分布类型不明的资料;等级资料;相互比较的各组变异程度相差悬殊。
优点:
a.不受总体分布的限制,适用范围广;b.可用“等级”或“符号”来评定,收集资料方便。
缺点:
造成信息的丢失,导致检验效率下降。
增加犯第二类错误的概率。
t检验的应用条件和类型(填空)
t检验的应用条件:
要求各样本来自相互独立的正态总体且各总体方差齐。
t检验的类型:
单样本t检验,独立t检验,配对t检验
统计推断的思想(包括参数估计和假设检验)
二、简答题(备用)
P值:
P值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P值反应结果真实程度,一般以P≤0.05认为有统计学意义,P≤0.01认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05或0.01。
P值是:
1)一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2)拒绝原假设的最小显著性水平。
3)观察到的(实例的)显著性水平。
4)表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:
一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
1.实验设计三原则:
对照(对照组的设置:
对等、同步、专设)、随机(抽样随机、分组随机、实验顺序的随机)、重复(结论的重复、用多个实验单位进行重复、同一实验单位的重复观察)。
实验设计的三个基本要素:
实验对象、处理因素、实验效应。
2、方差、标准差与变异系数的区别和应用:
①方差适合描述近似正态分布资料的离散趋势,其描述离散程度优于全距和分位数,但使用起来不方便,故引入标准差的概念②标准差与原变量的度量衡单位相同,使用方便,故常用其描述近似正态分布资料的离散趋势;③变异系数是无量纲指标,(a)可用于比较度量衡单位不同的多组资料的变异度的比较。
例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。
(b)比较均数相差悬殊的多组资料的变异度。
例如,3岁儿童与20岁成年人身高差异的比较。
3、率的标准化的基本思想两人群发病率、死亡率、出生率、病死率等的比较,常考虑人群性别、年龄等构成的影响,需对率进行标准化。
率标准化法的基本思想就是采用统一的标准人口构成,以消除人口构成不同对人群总率的影响,使算得标准化率具有可比性。
4常用的统计图有哪几种?
它们的适用条件是什么?
常用的统计图及适用条件是:
①条图适用于相互独立的资料,以表示其指标大小②百分条图及圆图适用于构成比资料,反映各组成部分的大小③线图适用于连续性资料,反映事物在时间上的发展变化的趋势,或某一现象随另一现象变迁的情况④半对数线图适用于连续性资料,反映事物发展速度(相对比)⑤直方图适用于连续性变量资料,反映连续变量的频数分布⑥散点图:
适用于成对数据,反映散点分布的趋势。
6.II类错误的概率β值的两个规律:
①当样本量一定时,α愈小,则β愈大,反之α愈大,则β愈小;②当α一定时,样本量增加,β减少。
6.假设检验的概念:
指研究者事先根据现有知识对未知总体的分布和未知参数作出某种假定,再通过一次新的实验(观察)结果来推断假定是否成立。
假设检验的主要目的是为新发现、新结论提供统计学依据。
7.假设检验的基本步骤:
①建立假设和确定检验水准,(H0:
无效假设和H1:
备择假设)通常选a=0.05②计算相应的检验统计量:
根据不同的检验方法,使用特定的公式计算;③确定P值并作出统计推断结论:
通过统计量及相应的界值表来确定P值,如果P>a,则不拒绝H0,差别无统计学意义,如果P≤a,则拒绝H0,差别有统计学意义。
8.假设检验基本思想:
先对总体特征作出某种假设H0,如假设总体均数(或总体率)为一定值,两个总体均数(或总体率)相等,然后通过从总体中抽取的样本计算有关检验统计量,最后获得P值,并依据P值的大小作出拒绝或接受假设H0的判断。
9.假设检验和区间估计的关系:
两者都是统计推断的内容。
假设检验用以推断两总体均数有无差别(即质的不同),而可信区间则用于推断总体均数在哪个范围(量的大小)。
这两者回答的问题是不同的,但两者又有联系,表现在可信区间也可以回答假设检验的问题,即根据计算样本信息计算出总体的可信区间,再看H0假设的μ值在不在此区间进行推断。
可信区间不但能说明均数差异有无统计学意义,还能提示差别有无实际意义,而假设检验却不能说明差异有无实际意义。
假设检验可得到P值,可以较精确说明所得结论的可靠性,而可信区间只能说明在a水准上有无统计意义。
因此,只有把区间估计和假设检验结合起来,互相补充,才是完整的分析。
10应用直线回归和相关分析的注意事项:
①作回归或相关分析要有实际意义,不能把毫无关联的两种现象作回归或相关分析,忽视事物现象间的内在联系和规律②在进行直线回归分析之前,应绘制散点图,当散点的分布有直线趋势时,才适宜作直线分析③对于线性回归模型通常采用最小二乘法来估计回归系数,并在此基础上作进一步推断④建立回归方程后,须对回归系数β进行假设检验,只有经过假设检验得出总体回归系数β不为0后,回归方程才有意义⑤直线回归方程的适用范围一般以自变量的取值范围为限,不要随意外延。
11.完全随机设计的单因素方差分析是把总变异的离均差平方和SS及自由度分别分解为组间和组内两部分,即SS总=SS组间+SS组内,V总=V组内+V组间。
离均差平方和除以自由度得均方MS,组间均方MS组间与误差均方MS误差之比为F值。
如果各组的处理效应一样,则F=1;但由于抽样误差,F值不正好等于1,而是接近1;如果F值较大,远离1,说明组间均方大于误差均方,反映各处理组的效应不一样,即各组均数差别有意义,至于F值多大才能认为差别有意义,可查F界值表来确定。
12、参数检验与非参数检验的区别和适用条件:
参数检验是在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、方差等)进行的检验,有时还要求某些总体参数满足一定条件。
如独立样本的T检验和方差分析不仅要求总体符合正态分布,还要求各总体方差齐性。
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的分布不做假设或仅对总体作某些一般性假设进行检验。
非参数检验适用于以下情况:
①样本所代表的的总体分布未知②分布呈非正态或方差不齐而又无适当的的数据转换方法使其达到正态和方差齐③观察指标不能或未加精确测量(如有序分类资料等)④总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下。
13、配对设计、完全随机设计、随机区组设计的编秩要点:
①配对设计编秩要点:
根据差值绝对值大小编秩;差值为0的数据,从分析集中剔除,同时样本量-1;相同差值取平均秩;根据差值的符号给秩次加上相应的符号;分别统计正秩合与负秩合。
②完全随机设计编秩要点:
将两样本合并为一个大样本;根据测量值大小编秩;相同测量值取平均秩;分别统计各组秩合。
③随机区组设计的编秩要点:
每个区组进行编秩;秩次范围为1-处理组数;分别统计各处理组秩合。
14.标准差与标准误
(1)标准差(S)表示单个测量值对其均数(
)的离散程度,标准误(
)表示样本统计量对总体参数的离散程度;
(2)S大,
小;
(3)S用于描述观测值变异范围,
用于推断估计总体参数的可信区间和假设检验;
(4)计算公式:
S=
或S=
,
=S/
或Sp=
。
标准误:
一、用来衡量抽样误差大小,标准误越小,样本均数与总体均数越接近即样本均数的可信度越高;二、结合标准正态分布与t分布曲线下的面积规律,估计总体均数的置信区间;三、用于假设检验。
标准差、标准误的区别和联系:
标准差和标准误都是都是变异指标,但它们之间既有区别,又有联系。
区别:
①概念不同:
标准差是描述观察值(个体值)之间的变异程度,标准误是描述样本均数的抽样误差;②用途不同:
标准差常用于表示变量值对均数波动的大小,与均数结合估计参考值范围,计算变异系数和标准误等;标准误常用于表示样本统计量(样本均数、样本率)对总体参数(总体均数、总体率)的波动情况,用于估计参数的可信区间,进行假设检验等③两者与样本量的关系不同:
当样本量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0.联系:
都是变异指标,如果把样本均数看作一个变量值,则样本均数的标准误可称为样本均数的标准差;当含量不变时,标准误和标准差成反比;两者均可与均数结合运用,但描述的内容各不相同。
15.完全随机设计与随机区组设计
(1)完全随机设计亦称单因素设计或成组设计,是指将同质的受试对象随机分到各处理组中进行实验观察或从不同总体中随机抽样进行对比的方法。
(2)随机区组设计亦称配伍组设计,是指配对设计的扩展,是将几个条件(如性别、种族、年龄、工作环境等)相似的受试对象配成一个区组,然后在个区组内按随机原则分组,每组分别予以不同的处理的方法。
16参考值范围与可信区间区别是什么?
答:
(1)意义不同:
参考值范围是指同质总体中包括一定数量(如95%或99%)个体值的估计范围,如95%参考值范围,意味该数值范围只包括95%的个体值,有5%的个体值不在此范围内。
可信区间是指按一定的可信度来估计总体参数所在范围。
如95%的可信区间,意味着做100次抽样,算得100个可信区间,平均有95个可信区间包括总体参数(估计正确)有5个可信区间不包括总体均数(估计错误)。
(2)计算方法不同:
参考值范围用X±uαS计算。
可信区间用X±tα、νSx或X±uαSx计算;前者用标准差,后者用标准误。
2.假设检验有三个基本步骤:
(1)建立假设和确定检验水准,通常选
(2)选择检验方法和计算检验统计量
(3)确定P值和做出统计推断结论
18假设检验和可信区间的关系:
两者既有联系又有区别
(1)假设检验用以推断总体均数是否相同或不同:
用于推断质的差异;
(2)可信区间则用于估计总体均数所在的范围:
用于说明量的大小即推断总体均数的范围;
(3)可信区间具有假设检验的主要功能:
可根据计算样本信息计算出总体的可信区间,再看H0假设的μ值在不在此区间进行推断.
19线性相关与回归区别与联系
区别:
1.资料类型不同:
相关分析要求两个变量均服从正态分布。
而回归分析则有两种不同的模型:
一是事先规定X值,然后在X的每个值上测定Y值,对应于每个X值的Y值必需服从正态分布,此为Ⅰ型回归;另一类是X和Y都服从正态分布,称为Ⅱ型回归。
2、应用情况不同
3、系数的求法不同
4、对于同一份资料,只能计算一个相关系数,而Ⅱ型回归可以建立由X推Y,或由Y推X的两个不同的回归方程。
5、系数的意义:
-1≤r≤1,没有单位;b的取值没有限制,b有单位。
20正态分布的应用(简答)
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。
其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
1.估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。
2.制定参考值范围
(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法常用于偏态分布的指标。
表3-1中两种方法的单双侧界值都应熟练掌握。
3.质量控制:
为了控制实验中的测量(或实验)误差,常以作为上、下警戒值,以作为上、下控制值。
这样做的依据是:
正常情况下测量(或实验)误差服从正态分布
21t分布的图形特征及其与正态分布的区别(简答)
正态分布的特点:
①正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1,两端与X轴永不相交②正态曲线在X=μ处有最大值,在X=μ±σ处有拐点③正态分布有两个参数μ、σ;μ是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以xμ为对称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,若μ恒定,则σ越大,数据分布越分散,σ越小,数据分布越集中。
σ也称为是正态分布的形状参数,σ越大,曲线越平坦,反之,σ越小,曲线越陡峭。
④一般的正态分布可以经过标准化变换转化为标准正态分布N(0,1)。
t分布的图形特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。
自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
t分布对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。
t分布与正态分布比较的区别
t分布与标准正态分布相比有以下特点:
①都是单峰、对称分布;②t分布峰值较低,而尾部较高;③随自由度增大,t分布趋近与标准正态分布;当ν趋向∞,t分布的极限分布是标准正态分布。
22方差分析的基本思想应用条件(简答)
方差分析(analysisofvariance,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sumofsquaresofdeviationsfrommean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS组间可由处理因素的作用加以解释。
通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对各组均数有无影响。
方差分析的应用条件
(1)各样本是相互独立的随机样本,且来自正态分布总体。
(2)各样本的总体方差相等,即方差齐性(homoscedasticity)。
2、平均数的种类和使用:
算术均数是资料中各观测值的总和除以观测值个数所得的商。
适用于对称分布或偏斜度不大的数值资料,特别是正态分布资料或近似正态分布资料;大多数正常人的生理、生化指标,如身高、体重、胸围、血红蛋折含量、白细胞计数等均适宜用均数来描述其集中趋势。
中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据:
适用于各种分布类型的资料,偏态资料、分布不明资料、一端或两端开口资料(一端或两端无确切数值的资料)。
几何均数是n个变量值连乘积的n次方根,适用于等比资料,对数正态分布资料,即取对数后资料近似呈对称分布的资料,右偏态分布数据。
众数是指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众数。
主要应用于大面积普查研究之中或数值和被观察者没有明显次序时。
3、分类资料的描述指标及应用时的注意事项:
常用的相对数指标:
比(两个相关指标的值之商)、比例(某事物内部各组成部分的观察单位数与所有组成部分的总观察单位数之比)、率(一个具有时期概念的指标,用于说明在某一时段内某现象或事件发生的频率或强度)、相对危险度(同一事件在两种不同情况下的发生率之比)、比数比(一种情况下比数Odds1与另
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 最终版 wx