统计学知识点完整Word格式文档下载.docx
- 文档编号:22179565
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:27
- 大小:31.52KB
统计学知识点完整Word格式文档下载.docx
《统计学知识点完整Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《统计学知识点完整Word格式文档下载.docx(27页珍藏版)》请在冰豆网上搜索。
数的一个范围,计算公式:
Xt/2,SX或Xu/2,SX。
95%CI含义:
从固定样本含量的
已知整体中进行重复抽样试验,依照每个样本可获取一个置信区间,则平均有95%的置信区
间包括了整体参数。
6.假设检验的基本源理:
小概率反证法的思想。
①反证法:
从问题的对峙面(H0)出发间接判断要解决的问题(H1)可否成立。
②小概率事件:
在H0成立的条件下计算检验统计量,依照概率分布确定检验水平下P
值大小,判断可否为小概率事件(平时P≤视为小概率事件,平时取),是则
拒绝H0,接受H1;
否则尚不能够拒绝H0。
7.假设检验一般步骤:
①成立假设(反证法,H0和H1),确定检验水平();
②计算统计
量:
u,t,F;
③确定概率值P,做出推断结论。
8.
t检验需满足的条件:
比较的两个样真相互
独立、均遵从正态分布。
9.
P的含义:
是指从H规定的整体随机抽样,抽得等于及大于
(或/和等于及小于)现有样本
获取的检验统计量(如t、u等)值的概率。
10.Ⅰ型错误(TypeⅠerror):
拒绝了本质上成立的H0,这类“弃真”的错误称为Ⅰ型
错误,Ⅰ型错误的大小为检验水平。
Ⅱ型错误(TypeⅡerror):
接受了本质上不能立
的H0,这类“存伪”的错误称为Ⅱ型错误,Ⅱ型错误的大小用表示,1-表示检验效能。
越小,越大,增大样本量能够同时降低和。
11.置信区间和假设检验的差别和联系:
①能够经过判断置信区间可否包括零假设,判断单
样本均数可否来自已知的整体;
②置信区间不仅能回答差别有无统计学意义,还可提示差别
有无本质意义。
③假设检验可供应置信区间不能够供应的信息,如P值和检验效能等。
第四章方差解析
1.方差解析的基本思想:
依照研究目的和设计种类,把所有测量值的总变异依照办理要素
和水平均分解成两部分(组内变异和组间变异)或更多部分,同时把对自由度相应进行分解,
再进行比较,议论由办理要素引起的变异可否拥有统计学意义。
2.方差解析的应用条件:
各样本是相互独立的随机样本,均来自正态分布的整体,各样本
2
的整体方差相等(拥有方差齐性)。
3.方差解析表:
变异本源
SS
ν
MS
F
P
组间变异
a
g-1
a/(g-1)
/MS
组内
组间
组内变异
b
N-g
b/(N-g)
总变异
a+b
N-1
4.
g=2时,随机区组设计的方差解析与配对设计资料
t检验等价,t
F。
5.
多个样本均数间的多重比较:
①
LSD-t检验,即最小显然差别
t检验,合用于一对或几
对在专业上有特别意义的样本均数间的比较;
②Dunnett-t检验:
合用于g-1个实验组与一
个比较组均数差其他多重比较;
③SNK-q检验:
合用于多个样本均数两两之间的全面比较。
第五章计数资料的统计描述
1.相对数的种类:
强度相对数(率,如死亡率、发病率等);
结构相对数(构成比);
相对
比(如性别比等)
2.应用相对数的注意事项:
①结构相对数不能够代替强度相对数;
②计算相对数应有足够的
数量;
③正确计算合计率;
④注意资料的可比性;
⑤比较不相同时期资料应注意客观条件可否相同;
⑥样本率(或构成比)的抽样误差。
3.标准化率(Standardizationrate):
采用标准化法进行计算,除掉数据内部构成的差别,使标化后的合计率拥有可比性,这类经过标化后的合计率称为标准化率。
4.标准化率的注意事项:
①只合用于内部构成不相同,影响总率的可比性的问题;
②选择的
标准不相同,计算获取的标准化率也不相同,多个标准化率比较时,应选同一标准;
③标准化率
已经不再反响当地的本质水平;
④样本标准化率是样本值,存在抽样误差。
比较两样本标准化率,当样本量较小时,需做假设检验。
第六章几种失散型变量的分布及应用
1.二项分布X~B(n,)的合用条件:
①每次试验只发生两种对峙的可能结果之一;
②每
次试验产生某结果的概率固定不变;
③重复试验是相互独立的。
2.二项分布的性质:
①阳性次数X的整体均数(n)、标准差(n
(1));
3
②样本率p的均数(
p)、标准差(Sp
p(1p),即率的标准误)。
③二项分布的
n
正态近似条件:
np和n(1-p)均大于5。
3.泊松分布X~P(
)的性质:
①整体均数
和整体方差
2相等;
②当n很大,
很小,
且np=
为常数时,二项分布近似泊松分布;
≥20时,泊松分布近似正态分布;
④泊
松分布具备可加性。
第七章2检验
1.2检验的基本思想:
依照2分布特点,经过比较本质频数与理论频数的差别,确定在
成立的条件下该差别由抽样误差造成可否为小概率事件,进而判断差别可否拥有统计学
意义。
值反响了本质频数与理论频数的切合程度。
2.R×
C列联表中的各格子T≥1,并且1≤T<5的格子数不宜高出1/5格子总数,否则可能
产生误差。
办理方法有三种:
①增加样本量,使理论频数增大;
②依照专业知识,删除或合
并行列;
③采用Fisher的确概率法解析。
3.有序分组资料表线性趋势检验:
①双向无序的R×
C列联表:
多个样本率的比较采用
R×
C列联表的
检验;
两个分类变量
的关系性解析则采用
检验和Pearson列联系数进行解析。
②单向有序的R×
行有序而列无序:
R×
2检验;
行无序而列有序,
采用Wilcoxon秩和检验。
③双向有序属性相同的
配对四格表的扩展,采用一致性检验(
Kappa检验)。
④双向有序属性不相同的
样本率的比较采用Wilcoxon
秩和检验;
有关性解析
采用Spearman有关解析;
线性变化趋势解析采用有序分组资料的线性趋势检验或
CMH
检验等。
第八章非参数检验
1.秩和检验的合用范围:
①整体分布偏态的计量资料;
②数据两端有不确定值;
③等级资料;
④各组失散程度相差悬殊,整体方差不齐的资料。
2.非参数检验对整体分布的形状差别不敏感,只对整体分布地址差别敏感;
非参数检验没
有充分利用资料信息,较参数检验的检验效低。
故能用参数检验尽量采用参数检验,不满
4
足参数检验条件才使用非参数检验。
3.不相同数据种类的统计解析路径:
(1)样本均数与整体均数的比较:
正态,样本均数与整体均数的t检验;
非正态,Wilcoxon
符号秩检验。
(2)两样本均数比较:
①独立正态:
两独立样本t检验;
②独立非正态:
两独立样本的
Wilcoxon秩和检验;
③配对设计差值正态,配对t检验;
④配对设计差值非正态,Wilcoxon
(3)多样本均数比较:
①独立正态(方差齐),方差解析;
②独立非正态Kruskal-WailsH
③非独立正态,重复测量资料的方差解析;
④非独立非正态,FriedmanM检验
第九章
双变量回归和有关
1.直线回归应满足的条件:
自变量与因变量呈线性关系、观察值之间相互独立、因变量
Y
?
bX,a
随机正态、对任何X因变量Y的标准差相等。
直线回归方程的一般形式为:
Y
为截距,b为回归系数,回归系数的估计采用
最小二乘法原则(LeastSquares
Method,使
残差平方和最小)进行估计。
2.决定系数(coefficientofdetermination
):
回归平方和与总平方和的比值,
R2=SS回
/SS总。
R2取值0~1之间无单位,其数值大小反响回归贡献的相对程度,即总变异中回归模
型能够讲解的百分比。
3.秩有关的应用合用范围:
(1)不遵从双变量正态分布而不宜作Pearson有关解析;
(2)
整体分布型未知;
(3)等级资料的有关解析。
4.有关与回归的差别与联系差别
(1)差别:
①资料:
回归解析资料要求Y为正态随机变量,X为选定变量;
有关解析资料X、Y遵从双
变量正态分布。
②应用:
回归解析是由一个变量值计算另一个变量值(依存关系);
有关解析只反响两个变
量间的互有关系。
③回归系数b与原胸襟单位有关,而有关系数r没关。
b的绝对值越大,回归直线越陡,
5
即X变化1个单位时Y的平均变化越大;
r的绝对值越大,所有点越趋近于一条直线,两变量的关系越亲近,有关度越高。
(2)联系:
①r与b值可相互换算,rblXXlYY;
②r与b正负号一致;
③r与b的假设检验等价:
关于同一资料tbtr,检验完满等价;
④回归可讲解有关。
有关系数的平方r2(决定系数)是回归平方和与总的离均差平方和之比
(SS回/SS总)。
5.应用直线回归时的注意事项
(1)作回归解析要有本质意义,不能够把毫没关系的两种现象作回归解析,必定对两种现象间的内在联系有所认识。
(2)在进行直线回归解析从前,应绘制散点图,当观察点的分布有直线趋势时,才适合作
直线回归解析,散点图还能够提示资料有无异常点。
异常点的存在常常对方程中的系数(a、b)
的估计产生较大影响。
因此,需对异常点进行复查。
(3)成立直线回归方程后,要对系数进行假设检验,以确定回归方程有没心义。
(4)直线回归方程的合用范围一般以自变量的取值范围为限,防备外延。
获取自变量值的手段也应与成立方程时相同。
否则会产生较大误差。
第十章统计表和统计图
1.统计表的基本要求
(1)标题:
概括表的主要内容(时间、地址、研究内容等),放在表的上方。
表编号与标题
间间隔一个汉字距离;
如整个表指标一致,还应将指标的单位标在标题后边。
(2)标目:
分别用横标目和纵标目说明每行和每列内容或数字的意义,注明指标的单位。
平时描述的对象为横标目,内容(指标)为纵标目,从左向右读能够构成完满的一句话。
(3)线条:
最少用3条线:
顶线、底线和纵标目线。
顶线和底线将表格与文章其他部分分
分开,纵标目线将标目的文字区与表格的数字划分开,还可用横线将合计和两重纵标目分开,其他竖线和斜线一概省去。
顶线和底线线条粗细一般为磅,其他线条一般为磅。
6
(4)数字:
用阿拉伯数字表示。
无数字用“—”表示,缺失数字用“⋯”表示,数
者“0”,不留空。
数字按小数点位数,同一指最好保留相同位数的小数位数。
(5)注:
表中数字区不要插入文字。
必明者表“*”,在表下方以注的形式明。
高级统计方法
第十二章重复测量资料的方差解析
1.重复量与随机区的区:
(1)重复量中“理”是在区(受者)
随机分配,区内的各点是固定的,不能够随机分配;
(2)重复量区内位相互不独立;
2.球称(sphericity):
所有两两点量差的方差相等,即重复量的差的方差正交比后与位矩成比率。
3.重复量料方差解析的料条件:
(1)正性:
理要素的各水平本个体是相互独立的随机本,其体均数遵从正分布(个体独立,个体内不独立);
(2)方差性:
相互比的各理水平的体方差相等,即拥有方差同;
(3)各点成的方差拥有球形性特点。
第十五章多元线性回归解析
1.
偏回系数(partialregressioncoefficient
多元性回模型中自量
Xj的系
数
j,表示在其他自量保持不,
Xj增加或减少一个位是
Y的平均化量。
2.
复有关系数(multiplecorrelationcoefficient
R
R
2,表示因量
Y与多个
自量的性有关程度,也是察Y与估Y?
之的有关程度。
若只有一个自量,
Rr。
3.准化回系数:
数据准化后获取的准化回方程的回系数即准化回系
数,bjbj
Sj
XjY的影响度,在有学意的前提下,
,用来比各个自量
SY
准化回系数的越大明相自量Y的作用越大。
4.多元性回模型(
mXme)足的条件:
①Y与
01X12X2
7
X1,X2,⋯,Xm之拥有性关系;
②各例察Yi相互独立;
③残差e遵从正分布。
5.量(dummyvariable):
在多元性回模型中,当自量多分量(g个水平)
,需要将原来的多分量化(g-1)个量并行,每个量只代表两个
或多个的差别。
用量要注意:
①量同存在,其学意是相
而言的,不能够采用常的逐渐回行量;
②可采用加与不加入量的偏回平
方和F确定量有没心。
6.多重共性(collinearity):
某些自量存在的性关系,使得一个或几个自
量能够由别的的自量的性关系表示,量与别的的自量存在多重共性。
多
重共性可能致回方程不定、参数估准得很大、t不正确、估的
正符号与不符等。
7.交互作用:
当某一自量因量的作用大小与另一自量的取有关,两个自
量有交互作用。
可否考交互作用主要靠知判断。
了两个自量可否拥有交互
作用,宽泛的做法是在模型中加入它的乘(作交互)。
8.性回解析的SAS果解:
(1)性回方程:
Y2.994220.99733x;
(2)性回模型的学果:
模型的方差解析量F=,P=<,明性回
8
归模型拥有统计学意义。
(3)R-Square=的意义:
该线性回归模型能够讲解因变量Y的总变异的%;
(4)回归系数估计值b=的意义:
表示X对Y影响的大小,X每改变一个单位,Y改变个单
位;
其假设检验结果合方差解析结果的联系:
方差解析结果说明X与Y之间存在的线性关系,
t检验结果说明计算获取的回归系数b有统计学意义,在此问题中,二者是等价的,均说明
该回归模型拥有统计学意义。
(5)有关系数及其检验结果并讲解该结果:
r=,对r进行t检验获取P=<,则该有关系数拥有统计学意义,说明X与Y之间拥有中等强度的正有关关系。
第十六章Logistic回归解析
1.logistic
回归模型一般形式:
ln
logit(P)
exp(0
1X1
mXm)。
1P
将某事件的阳性与阴性结果概率之比去自然对数称为
logit
变换,记为logit(
)。
2.回归系数
j采用最大似然估计(maximumlikelihood
estimate,
MLE,使在一次抽样中
获取现有样本的概率最大)获取表示自变量
Xj
改变一个单位时
P的改变量。
多变量
调整后的优势比
ORjexp(
j),表示扣除了其他自变量的影响后危险要素的作用。
j
OR=1,
说明Xj对疾病发生不起作用
ORj>1,说明Xj是一个危险要素;
ORj<1,说明Xj是一个保护
要素,ORj的1
可信区间为:
exp(bj
u/2Sbj
3.logistic
回归模型假设检验的方法:
似然比法(G
2(lnL1
lnL0),适合单个和多个自
bj
或
,适合单个自变量的假设检验)和
计
变量的假设检验)、Wald检验(u
Sbj
Sbj
分检验(适合样本量较小的情况)。
变量精选的方法:
前进法、退后法、逐渐法。
条件logistic
回归:
合用于1:
M配对设计资料,条件似然函数估计的是在
M+1个观察对
象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险要素作用的
j,表
示般配组效应的常数项
0被消去。
有序logistic
回归基于累积概率成立回归模型,
g个类其他因变量Y的有序logistic
回归包括g-1个方程,这些方程的回归系数均相同,差别主要表现在各方程的常数项
0不
9
同。
在对因变量Y赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。
6.多分类logistic回归是二分类logistic回归的扩展,即选择一个参照种类,拟合节余
各样型有关于参照类其他logistic回归模型。
第十七章生计解析
1.生计解析的数据特点:
(1)同时考虑生计时间和生计结局;
(2)平时含有删失数据
(censoring,可能的原因:
①研究截止但终点事件仍未出现;
②失去联系或其他原因以致失访;
③死于其他“事件”);
(3)生计时间的分布平时不遵从正态分布。
2.统计学解析方法:
由于生计时间一般不呈正态分布,且需考虑可否为删失值,因此生计解析有其独到的统计方法。
(1)非参数法:
①生计率的估计采用Kaplan-Meier法、寿命表法(频数表资料);
②两组或多组生计率的比较,常用log-rank检验(时序法,权重i1,对观察后期
差别敏感)和Breslow检验(权重ini,ni为期初人数,随生计时间增大而逐渐减
小,Breslow检验给观察早期差别更大权重,故对观察早期差别敏感)。
(2)半参数法:
多要素生计解析常采用Cox比率风险模型(前提条件:
假设风险比值
h(t)/h0(t)为固定值,即协变量对生计率的影响不随时间的改变而改变。
检验此前提的方法:
①分类协变量每组的K-M生计曲线无交织;
②协变量与生计时间的交互项无统计学意义等。
其参数估计方法为最大似然法)。
(3)参数法:
指数分布法、Weibull分布法等回归模型。
3.多元线性回归、logistic回归和Cox回归的相同点和不相同点
(1)相同点:
①自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必定同时“进”同时“出”;
②自变量间存在较强有关关系时可能以致多重共线性问题;
③自变量间可能存在交互作用,模型中平时采用自变量的乘积作为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 知识点 完整