统计学知识点完整Word文档下载推荐.docx
- 文档编号:21330223
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:14
- 大小:163.69KB
统计学知识点完整Word文档下载推荐.docx
《统计学知识点完整Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《统计学知识点完整Word文档下载推荐.docx(14页珍藏版)》请在冰豆网上搜索。
X±
如凤或乂土%2」,SR.95%6含义:
从固定样本含量的总体中进行重复抽样试验,根据每个样本可得到一个置信区间,那么平均有95%的置信区间包含了总体参数。
6.假设检验的根本原理:
小概率反证法的思想.
1反证法:
从问题的对立面(Ho)出发间接判断要解决的问题(HJ是否成立。
2小概率事件:
在H。
成立的条件下计算检脸统计量,根据概率分布确定检验水准下尸
值大小,判斷是否为小槪率事件(通常斥视为小概率事件,通常取),是則拒
绝H。
,接受出;
否那么尚不能拒绝Ho。
7.假设检验一般步朦:
①建立假设(反证法,Ho和HJ,确定检验水准1〕:
②计算统计董:
St,F;
③确定概率值只做出推斷结论。
8・十检脸需满足的条件:
比拟的两个样木相互独立、均服从正态分布.
9・P的含义:
是指从H。
规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样木获得的检验统计量(如匕〃等〕值的概率。
10.I型错误(Typelerror):
拒绝了实际上成立的H。
,这类“弃真〃的错误称为I型错误,I型错误的大小为检验水准。
II型错误(TypeIIerror):
接受了实际上不成立的H。
,这类“存伪〃的错误称为II型緒误,II型错误的大小用表示,1—表示检验效能。
越小,越大,增大样本董可以同时降低和・
11.置信区间和假设检验的区别和联系:
①可以通过判断置信区间是否包含零假设,判断单样本均数是否来自的总体:
②置信区间不但能答复差异有无统计学意狡,还可提示差别有无实际意狡•③假设检验可提供置信区间不能提供的信息,如P值和检验效能等。
第四章方差分析
1.方差分析的根木思想:
根据研究目的和设计类型,把所有测量值的总变异按照处理因素和水平等分解成两局部(纽内变异和组间变异)或更多局部,同时把对自由度相应进行分解,再进行比拟,评价由处理因素引起的变异是否具有统计学意义。
2.方差分析的应用条件:
各•样本是相互独立的随机样本,均来自正态分布的总体,各样本的总体方差相等(具有方差齐性)。
3.方差分析表:
变异来源
SS
V
MSF
P
组间变异
a
g—1
R(9—1)
MS如
组内变异
b
N-g
b/(N-g)
总变异
a+b
N-1
4og=2时,随机区组设计的方差分析与配对设计资料十检验等价,r=Vro
5.多个样本均数间的多重比拟:
①LSD・t检验,即最小显著差异上检验,适用于一对或几对在专业上有特殊意义的样本均数间的比拟;
②Dunnett-t检验:
适用于g—1个实验组与一个对照组均数差异的多重比拟;
③SNK-q检验:
适用于多个样本均数两两之间的全面比拟。
第五章计数资料的统计描述
1.相对数的类型:
强度相对数(率,如死亡率、发病率等〕;
结构相对数(构成比);
相比照(如性别比等)
2.应用相对数的考前须知:
①结构相对数不能代替强度相对数:
②计算相对数应有足够的数量;
③正确计算合计率;
④注意资料的可比性;
⑤比照不同时期资料应注意客观条件是否相同;
⑥样本率(或构成比)的抽样误差。
3o标准化率(Standardizationrate):
釆用标准化法进行计算,消除数扌松内部构成的差异,使标化后的合计率具有可比性,这种经过标化后的合计率称为标准化率。
4.标准化率的考前须知:
①只适用于内部构成不同,影响总率的可比性的问题:
②选择的标准不同,计算得到的标准化率也不同,多个标准化率比拟时,应选同一标准;
③标准化率己经不再反映当地的实际水平;
④样本标准化率是样本值,存在抽样误差。
比拟两样本标准化率,当样本量较小时,需做假设检验。
第六章几科离散型变量的分布及应用
1.二项分布X~£
(/7,)的适用条件:
①每次试验只发生两种对立的可能结果之一:
②每次试验产生菜结果的概率固定不变;
③重复试脸是相互独立的。
2.二项分布的性质:
①阳性次数X的总体均数(“=“%)、标准差(6=JjflL(匚分):
②样木率p的均数(◎=%〕、标准差(S“二梓牙叵,即率的标准误〕。
③二项分布的正态近似条件:
讨n(1—p)均大于5。
3.泊松分布X〜P的性质:
①总体均数和总体方差2相等;
②当门很大,很小,且力卩二为常数时,二项分布近似泊松分布;
③M20时,泊松分布近似正态分布:
④泊松分布具备可加性。
第七章2检验
1o〃检验的根本思想:
根据?
分布特征,通过比拟实际频数与理论频数的差异,确定在成立的条件下该差异由抽样误差造成是否为小概率事件,进而判断差异是否具有统计学意义。
2值反映了实际频数与理论频数的吻合程度。
2.RXC列联表中的各格子TM1,并且1WTV5的格子数不宜超过1/5格子总数,否那么可能产生偏差.处理方法有三种:
①增加样本量,使理论频数增大:
②根据专业知识,删除或合并行列:
③釆用Fisher确切概率法分析。
3o有序分组资料表线性趁势检验:
1双向无序的RXC列联表:
多个样本率的比拟釆用RXC列联表的?
检验:
两个分类变量的关联性分析那么采用RXC列联表的'
检脸和Peazon列联系数进行分析。
2单向有序的RXC列联表:
行有序而列无序:
RXC列联表的’检验:
行无序而列有序,采用Wileoxon秩和检验。
3双向有序属性相同的RXC列联表:
配对四格表的扩展,釆用一致性检验(Kappa检验〕。
4双向有序属性不同的RXC列联表:
样本率的比拟釆用WiIcoxon秩和检验;
相关性分析采用Spearman相关分析:
线性变化越勢•分析采用有序分组资料的线性趋势检验或CMH2检验等.
第八章非参数检验
1•秩和检验的适用范围:
①总体分布偏态的计量资料;
②数据两端有不确定值:
③等级资料:
④各组离散程度相差悬殊,总体方差不齐的许料.
2.非参数检验对总体分布的形状差异不敏感,只对总体分布位置差异敏感;
非参数检验没有充分利用资料信息,较参数检验的检验效低.故能用矣数检验尽量采用屛数检验,不满足参数检验条件才使用非参数检验。
3.不同数据类型的统计分析路径:
(1〕样本均数与总体均数的比拟:
正态,样本均数与总体均数的十检验;
非正态,Wilcoxon符号秩检验。
(2)两样木均数比拟:
①独立正态:
两独立样木上检验;
②独立非正态:
两独立样本的Wi
Icoxon秩和检验;
③配对设计差值正态,配对十检验;
④配对设计差值非正态,Wilcoxon符号秩检验.
(3)多样木均数比拟:
①独立正态(方差齐),方差分析;
②独立非正态Kruskal-Wai
1sH检验:
③非独立正态,重复测量资料的方差分析;
④非独立非正态,Friedman〃检验
第九章双变量回归和相关
1.直线回归应满足的条件:
自变量与因变量呈线性关系、观察值之间相互独立、因变量卩随机正态、对任何X因变量r的标准差相等。
直线回归方程的一般形式为:
Y二a+bX,Cl为截距,为回归系数,回归系数的估计釆用最小二乘法原那么(LeastSquaresMethod,使残差平方和最小)进行估计。
2o决定系数(coefficientofdetermination):
回归平方和与总平方和的比阻浪二SSVSS总F取值之间无单位,其数值大小反映回归奉献的相对程度,即总变异中回归模型能够解释的百分比。
3.秩相关的应用适用范围:
(1)不服从双变董正态分布而不宜作Pearson相关分析;
(2)总体分布型未知;
(3)等级进料的相关分析。
4.相关与回归的区别与联系区别
(1)区别:
1资料:
回归分析资料要求卩为正态随机变量,X为选定变量:
相关分析资料Kr服从双变量正态分布。
2应用:
回归分析是由一个变量值推算另一个变量值(依存关系):
相关分析只反映两个变量间的相互关系.
3回归系数6与原度量单位有关,而相关系数厂无关。
6的绝对值越大,回归直线越陡,即力变化1个单位吋卩的平均变化越大;
厂的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高。
(2)联系:
1厂与6值可相互换算,丫=bjxxZ•、
2厂与6正负号一致:
(3)厂与6的假设检验等价:
对于同一资料怎二切检验完全等价:
4回归可解释相关.相关系数的平方/(决定系数)是回归平方和与总的离均差平方和之比
(SST/SSQ•
5.应用直线回归时的考前须知
(1)作回归分析要有实际意狡,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识.
(2)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趙势•吋,才适宜作直线回归分析,散点图还能提示资料有无异常点.异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。
因此,需对异常点进行复查。
(3)建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意乂。
(4)直线回归方程的适用范国一般以自变量的取值范围为限,防止外延。
获得自变量值的手段也应与建立方程时相同。
否則会产生较大偏差。
第十章统计表和统计图
1.统计表的根本要求
(1)标题:
概括表的主要内容(时间、地点、研究内容等),放在表的上方。
表编号与标题间间隔一个汉字距离;
如整个表指标统一,还应将指标的单位标在标题后而。
(2)标目:
分别用横标目和纵标目说明每行和毎列内容或数字的意义,标明指标的单位。
通常描述的对象为横标目,内容(指标)为纵标目,从左向右读可以构成完整的一句话.
(3)线条:
至少用3条线:
顶线、底线和纵标目线。
顶线和底线将表格与X幸其他局部分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线舟合计和两重纵标目隔开,其他竖线和斜线一概省去。
顶线和底线线条粗细一般为1。
5磅,其他线条一般为0。
5磅。
(4)数字:
用阿拉伯数字表示。
无数字用“一〃表示,缺失数字用表示,数值为0者记为“0〃,不留空项•数字按小数点位数对齐,同一指标最好保存相同位数的小数位数。
(5)备注:
表中数字区不要插入文字。
必须说明者表在表下方以备注的形式说明.
高级统计方法
第十二章重复测量资料的方差分析
1.重复测量设计与随机区组设计的区别:
(1)重复测董设计中“处理〃是在区组(受试者)间随机分配,区纽内的各时间点是固定的,不能随机分配;
9)莹复测量设计区纽内实验单位彼此不独立:
20球对称(sphericity):
所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经
正交比照变换后与单位矩阵成比例。
3»
重复测量资料方差分析的资料条件:
(1)正态性:
处理因素的各水平样本个体间是相互独立的随机样本,其总体均数服从正态分布(个体间独立,个体内不独立);
(2)方差齐性:
相互比拟的各处理水平的总休方差相等,即具有方差齐同;
(3)各时间点组成的协方差阵具有球形性特征.
第十五章多元线性回归分析
1.偏回归系数(partiaIregressioncoefficient):
多元线性回归模型中自变量;
G的系数
丿,表示在其他自变量保持不变时,尤增加或减少一个单位是卩的平均变化量。
2.复相关系数(multipiecorrelationcoefficient):
7?
=,表示因变董Y
与多个自变莹的线性相关程度,也是观察值丫与估计值/之间的相关程皮。
假设只有一个自变量,水二
Ir|-
3.标准化回归系数:
对数扌松标准化后得到的标准化回归方程的回归系数即为标准化回归系
数,二®
H,用来比拟各个自变量X丿对/的影响强度.在有统计学意狡的前提下,
标准化回归系数的绝对值越大说明相应自变董对丫的作用越大.
4.多元线性回归模型(9=炖+4八+0£
2+・・・+禹北〃+€)应满足的条件:
①丫与
X”X?
...,九之间具有线性关系:
②各例观察值X;
相互独立;
③残差e服从正态分布。
5・哑变量(dummyvariable):
在多元线性回归模型中,当自变量为多分类变量(g个水平)时,需要将原来的多分类变量转化为(g—1)个哑变量并进行编码,每个哑变量只代表两个级别或多个级别间的差异。
应用哑变量时要注意:
①哑变量同时存在,其统计学意狡是相对而言的,不能釆用常规的逐步回归进行变量选择;
②可釆用加与不参加哑变量的偏回归平方和F检验确定哑变量有无意乂。
6.多重共线性(collinearity):
某些自变量间存在较强的线性关系,使得一个或几个自变董可以由另外的自变董的线性关系表示,那么该变量与另外的自变量间存在多重共线性。
多重共线性可能字致回归方程不稳定、参数估计值标准误变得很大、t检验不准确、估计值的正负符号与实际不符等。
7.交互作用:
当某一自变量对因变量的作用大小与另一自变董的取值有关,那么这两个自变量有交互作用。
是否考虑交互作用主要靠专业知识判斷•为了检验两个自变量是否具有交互作用,普遍的做法是在模型中参加它们的乘积项(作为交互项)O
8.
线性回归分析的SAS结果解释:
0.68073
0.0303
(1)线性回归方程:
r=2.99422+0.99733x;
(2)该线性回归模型的统计学检验结果:
模型的方差分析统计量圧6.91,£
0・0303V0.05,说明该线性回归模型具有统计学意狡.
(3)R-Square=Oo46353的意狡:
该线性回归模型可以解释因变量卩的总变异的46.353%:
(4)回归系数估计值6=0.99733的意狡:
表示X对丫影响的大小,X每改变一个单位./改变0.99733个单位;
其假设检验结果合方差分析结果的联系:
方差分析结果说明X与卩之间存在的线性关系,十检验结果说明计算得到的回归系数6有统计学意狡,在此问題中,二者是等价的,均说明该回归模型具有统计学意爻。
(5)相关系数及其检验结果并解释该结果:
Q).68073,对r进行十检验得到P=0.030
3<
0o05,那么该相关系数具有统计学意狡,说明X与卩之间具有中等强度的正相关关系.
第十六章Logistic回归分析
—(P}
logistic回归模型一般形式:
In=logit(P)=exp(/70+0]X]+•••+PJJo
11-P丿
将某爭件的阳性与阴性结果概率之比去自然对数称为logit变换.记为logit(P)o
2.回归系数”采用最大似然估计(maximumIikeIihoodestimate,MLE,使在一次抽样中
获得现有样木的概率爺大)得到表示自变量兀改变一个单位时logitP的改变董。
多变董调整后的优
彷比OR,=cxp(0J,表示扣除了其他自变量的影响后危险因素的作用。
说明;
G对疾病发生不是作用说明尤是一个危险因素;
说明兀是一个保护因素,0&
的1—Q可
信区间为:
exp(/7?
±
ia%)•
3.logistic回归模型假设检验的方法:
似然比法〔G=2(In厶・ln厶〕〕,适合单个和多个
自变董的假设检验)、Wald检验(“=冬或斧=kJ适合单个自变量的假设检验)和
计分检验(适合样木量较小的情况)。
变量强选的方法:
祈进法•后退法、逐步法。
4o条件Iogistic回归:
适用于1:
”配对设计资料,条件似然函数估计的是在M+1个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的
0厂表示匹配组效应的常数项炕被消去。
5.有序Iogistic回归基于累积概率构建回归模型,g个类别的因变量Y的有序logiStiC回归包括g・1个方程,这些方程的回归系数均相同,差异主要表达在各方程的常数项00不同。
在对因变量丫賦值吋,应将专业上最不利的等级賦最小值,灵有利的等级賦就大值。
6.多分类logistic回归是二分类Iogistic回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的Iogistic回归模型。
第十七章生存分析
1.生存分析的数据特点:
〔1)同时考虑生存时间和生存结局;
(2)通常含有删失数据(censoring.可能的原因:
①研究截止但终点爭件仍未出现;
②失去联系或其他原因导致失访:
③死于其他“事件〃);
〔3)生存吋间的分布通常不服从正态分布。
2.统计学分析方法:
由于生存时间一般不呈正态分布,且需考虑是否为删失值,所以生存分析有其
独特的统计方法。
(1)非参数法:
1生存率的估计釆用Kaplan—Meier法、寿命表法(频数表资料);
2两组或多组生存率的比拟,常用log-rank#^序法,权重①■,对观察后
期差异敏感)和BresIow检验(权重卩二气,耳为期初人数,随生存时间增大而逐
渐城小,BresIow检验给观禁早期差异更大权重,故对观察早期差异敏感)。
(2)半秦数法:
多因素生存分析常釆用Cox比例风险模型(前■提条件:
假定风险比值h3/ho(亡)为固定值,即协变量对生存率的影响不随时间的改变而改变。
检验此祈提的方法:
①分类协变量每组的《・M生存曲线无交叉;
②协变量与生存时间的交互项无统计学意艾等。
其参数估计方法为最大似然法)。
(3)参数法:
指数分布法、Weibull分布法等回归模型。
3.多元线.性回归.Iogistic回归和Cox回归的相同点和不同点
(1)相同点:
自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整
,必须同时“进〃同时“岀〃;
自变量间存在较强相关关系时可能导致多重共线性问题:
自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项;
均可釆用逐步回归筛选变量;
均可进行影响因素分析、混杂因素校正.预测分析等。
(2)不同点:
Y元线性回归
logistic回归
Cox回归
应变凤及分如
连续变优正态分布
分类变量二项分沛
两分类变童和生存时间无符定要求
側失
不允许
允许
模利结构
Y=fi>
+邸X,
logit(p)=a+?
BX,
h(r)=/k>
(Ocxp(EftXj)
参数估计
最小二乘法
最大似然法
参数检验
F检验〃检脸
似然比检验!
计分检验’
Wald检峻
似然比检验,卄分检验检弱
参数解释
具他变fit不变条件下,变每堆加一个栄位所引起的Y的平均改变疑
其他变fit不变条件下•变fit
X,每增加一个单位所引起的优势比色逖超数改
其他变虽不变条件下•变量X,毎増加一个单位所引起
的相对危险度朗的自然对
多元线性回归、logistk:
回归和Cox回归的包总
预测指标
变比…
数改变量
第十八.十九章判别分析和聚类分析
1”判别分析(discriminantanaIysis):
根据一批分类明确的样本在假设干指标上的观察值,建立一个关于指标的判别函数和判别准則,然后根据这个判别函数和判别准那么对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。
2.Fisher判别准則:
它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;
Bayes判别准那么:
它使得每一类中的毎个样本都以最大的概率进入该类,适合于多类的判别分析。
30评估判别函数的判别效能:
原始数据的分类要可靠准确:
指标变董对判别函数的作用要显著;
判别函数的回代错判率和爭后概率错误率要小。
40聚类分析(ClusterAnaIysis):
对于总体分类未知的一群事物依照“物以类聚〃思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法.
50聚类分析和判别分析的区别和联系
1聚类分析可以对样本进行分类,也可以对指标进行分类;
而判别分析只能对样本进行分类;
2聚类分析事先不知道事物的类别,也不知道应分几类:
而判别分析必须爭先知道事物的类别,也知道应分几类:
3聚类分析不需要分类的历史资料,能直接对样木进行分类;
而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。
(2)联系:
先釆用聚类分析获得各个个体的类别(classification);
然后釆用判别分析建立判别函数,对新个体进彳亍类型识别((identification)
第二十章主成分分析和因子分析
1.主成分的性质
(1)主成分互不相关;
(2)主成分的奉献率和累积奉献率:
奉献率越大,说明主成分综合原始指标信息的能力越强;
累积奉献率越高,说明前斤个主成分综合原始资料信息的比例越高;
(3)主成分个数的选取:
①以累计奉献率确定:
累积奉献率八70%为宜;
②以特征根值大小确定:
特征根值
(4)因子荷载:
因子荷载反映主成分与原始指标间密切程度与作用方向;
(5)样品的主成分得分:
根据主成分表达式计算样品的主成分值,推斷和评价样品的特性。
2。
因子模型的性质:
(1)公共度:
共性方差於反映全休原始指标尤对所有公因子的依赖程度;
2
(2)因子奉献及因子奉献率:
引的值越大,那么F丿对原始指标的影响越大;
(3)因子荷载及因子荷载矩阵:
因子荷载反映公因子与原始指标间密切程度与作用方向;
2.主成分分析和因子分析的区别和联系
(1)联系:
1都是根扌松变量之间内部相关性来提取主要信息,获得新的变董(公因子变量和主成分变量),到达减少变量个数(降维)的目的;
2主成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 知识点 完整