统计学概念大题.docx
- 文档编号:24067455
- 上传时间:2023-05-23
- 格式:DOCX
- 页数:17
- 大小:1.66MB
统计学概念大题.docx
《统计学概念大题.docx》由会员分享,可在线阅读,更多相关《统计学概念大题.docx(17页珍藏版)》请在冰豆网上搜索。
统计学概念大题
一、绪论
医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断
在研究设计上的错误在数据分析阶段无法更正
结果的表达方式主要是统计指标、统计表和统计图
统计推断实质有样本数据的特征推断总体特征的方法,包括参数估计和假设检验。
参数估计包括点估计和区间估计。
区间估计的重要性在于可以得出估计不准的概率。
假设检验的作用是能够辨别出由随机波动引起差别的概率的大小
同质homogeneity:
根据研究目的确定的观察单位,其性质应大致相同
Variation:
观察同一指标,各观察单位之间由于个体差异,会使测量结果不同,这种差异称为变异,它是同质基础上的个体差异
Variable:
反映观察对象生理生化等特征的指标,变量的观察值称为数据(data)
医学统计学的研究对象是具有不确定性结果的事物
定量数据(计量资料):
用定量的数值大小衡量水平高低,一般有计量单位。
分为连续型(身高、体重)和离散型(脉搏、呼吸)
定性数据(计数资料):
数据是定性的,表现为互不相容的类别或属性。
如生死、男女
有序数据(等级资料):
数据是定性的,但各类别或属性之间存在排序。
如痊愈/好转/有效/无效
population:
根据研究目的确定的所有同质观察对象的全体
sample:
从总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据
error:
观测值与真实值、样本统计量与总体参数间的差别
parameter:
描述总体特征的指标
statistics:
描述样本特征的指标
抽样误差samplingerror:
由于个体变异导致的,由于抽样引起样本统计量与总体参数之间的差异
二、定量数据的统计描述
频数分布表的用途:
代替原始资料,便于进一步分析;观察数据的分布类型;便于发现资料中远离群体的特大或特小值;当样本含量较大时,可用各组段的频率作为概率的估计值
正态分布的数据:
算数平均数(arithmeticmean)
变量取值跨越多个数量级的数据:
几何均数(geometric,G)
同一组观察值的几何均数总是小于算术平均数
偏态数据:
适用中位数和百分位数
以上为集中趋势的统计指标
变异程度的统计指标包括:
方差和极差
极差(range,R):
观测值中最大值和最小值之差
四分位间距(quartilerange,Q):
把所有数据排序后,分成四个数目相等的段落,去掉两端的25%,中间的50%观察值的数据范围即为Q。
方差(variance):
反映个体变异
标准差(standarddeviation,S):
方差的平方根
CV:
主要用于不同量纲的变量间,或均数差别较大的变量间变异程度的比较。
CV越大变异度越大,变异系数(coefficientofvariation,)CV=(S/X)×100%
对于正偏态分布的数据,其均数大于中位数
三、正态分布与医学参考值范围
正态分布的特征:
以X=μ为中心的单峰分布,左右完全对称;以X轴为渐近线,两端与X轴不相交
概率密度函数在X=μ时有最大值,在X=μ±σ时有拐点
μ决定曲线的位置,σ决定曲线的形状
曲线下总面积为1(100%),任意某一区间下的面积与统一区间上的概率相等
Z变换(随机变量的标准化转换)
医学参考值范围:
“正常”人的解剖、生理、生化指标等数据大多数个体值的波动范围,其统计学含义:
从选择的参照总体中获得的所有个体观察值,用统计学方法建立百分位数界限,由此得到个体观察值的波动区间
制定医学参考值范围的注意事项:
确定同质的参照总体(正常人是指排除了对研究指标有影响的疾病或有关因素的同质人群)、选择足够例数的参照样本、控制检测误差、选择单双侧界值、选择适当的百分数范围
百分位数法:
当分析指标例数较大时分布趋于稳定,不满足正态分布时使用。
要求有较大的样本含量,其适用范围广
四、定型数据的统计描述
relativenumber:
两个有关的绝对数之比,相对数的性质取决于其分子分母的意义
rate:
表示一定时间或空间范围内某现象的发生数和可能发生的总数之比,说明某现象的强度或频率。
表示概率大小或可能性
proportion:
表示某事物内部各组分在整体中所占比重,常以百分数表示,表示客观存在。
两者区别在于:
某一部分的构成比的增减会影响其他部分,而率不相互影响。
平均率不能由各率相加后平均求得。
病死率反应疾病的致死严重程度
标准化率:
使内部构成不同的数据间具有可比性而引用的相对数
相对危险度:
表示在两种不同条件下某疾病发生的概率之比
比数比:
病例组和非病例组中的暴露比例和非暴露比例的比值之比。
mortalityrate:
某年某地每千人口中的死亡人数,反映当地居民总的死亡水平,也称粗死亡率
年龄别死亡率age-specificdeathrate:
死因别死亡率:
反映各类疾病对人群健康的威胁程度
死因构成:
构成比,反映全部死亡人数中死于某死因者占总死亡人数的百分比
Incidencerate:
表示一定期间内,一定人群中某病新发生的病例出现的频率,适用于病程短的疾病或传染病,分母为可能发病的人数
Prevalencerate:
表示某一时点某人群中还某病的频率,常用于病程长的疾病。
Casefatalityrate:
表示某一段期间内,某病患者中因该病死亡的频率,表示该疾病的严重程度和医疗水平,多用于急性病
Curerate:
表示接受治疗的病人中治愈的频率、
样本含量小于20,不宜计算相对数
五、统计表与统计图
直方图(histogram):
用直条矩形面积代表各组频数,各矩形面积总和代表各组频数的总和。
它主要用于表示连续变量频数分布情况。
直条图barchart:
用相同宽度的直条长短表示相互独立的某统计指标值的大小。
直条图按直条是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式
使用直方图需注意:
◆纵轴的刻度必须从“0”开始,而横轴的刻度按实际范围制定。
◆各矩形的高度为频数或频率,宽度为组距。
如果各组段的组距不同要调整各矩形的高:
矩形高度=组段频数/组距。
绘制直条图时应注意:
∙一般以横轴为基线,表示各个标志,纵轴表示各标志相应的值;
∙纵轴尺度必须从“0”开始,而且要等距;
∙直条的宽度要相等,直条之间的间隔要等距,通常与直条的宽度相等或略小。
线图:
用线段的升降来表示指标的连续变化趋势,适用于描述一个变量随另一个变量变化的趋势。
横轴和纵轴的刻度都可以不从“0”开始;不应将折线描成光滑曲线;
箱图:
用于比较两组或多组资料的集中趋势和离散趋势,主要适用于偏态分布的资料。
箱子的长度表示四分位数间距,两端分别是P75和P25,箱图最外面两端连线表示最大值和最小值,或P5和P95,异常值另作标记;箱子越长表示数据离散程度越大;箱图的中间横线表示中位数,中间横线若在箱子中心位置,表示数据分布对称,中间横线偏离箱子正中心越远,表示数据分布越偏离中位数。
误差条图:
用于比较多组资料的均数和可信区间;高度表示均值大小,上下端的“工字线”分别代表可信区间的上下限;上下限也可以使用标准误;纵轴从“0”开始;各直条宽度相等
scatterchart:
用点的密集程度和变化趋势来表示两指标之间的相关关系,横轴代表自变量、纵轴代表因变量,两者都可以不从零开始。
piechart是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例
百分比条图(percentagechart)也是一种构成图,用矩形条子的长度表示100%,而用其中分割的各段表示各构成部分的百分比
六、参数估计与假设检验
标准差:
度量样本观察值与样本均数的离散程度,反映个体间差异的大小。
标准误:
度量样本均数(统计量)与总体均数(参数)的离散程度,反映样本间差异的大小。
类似标准正态分布,曲线以0为中心,两边对称。
曲线的变化与自由度ν有关。
自由度ν越小,t值越分散,峰越矮,尾越高;ν增大,t分布逼近标准正态分布,ν趋于∞时,t分布趋向标准正态分布。
t分布的特点:
相同自由度时,|t|值越大,尾部概率越小;相同t值时,双侧尾部概率为单侧尾部概率的两倍
准确度(accuracy):
反映可信度(1-α)的大小,即可信区间包容μ的概率大小,愈接近1愈好。
精确度(precision):
反映在区间的长度,区间长度愈小精确度愈高。
α是检验水准,对于可信区间是指它包含总体均数的可能性为95%,而不包含总体均数的可能性仅为5%。
假设检验的原理:
小概率反证法
对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设的过程,如果目前不(大)可能发生的情况竟然发生了,说明前提不对。
假设检验的基本步骤
1.建立假设和确定检验水准(α取值较小时,有利于提高检验结果的可靠性。
)
2.选择检验方法和统计推断分析:
根据资料类型,选择适当的检验方法,并计算相应的检验统计量
3.确定P值和作出统计推断(P≤α,按α检测水准,拒绝H0,接受H1。
P>α,现有样本信息不足以拒绝H0)
最后的统计推断需结合统计结论和专业结论进行推断。
假设检验的思想:
对所需要比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设,实质:
判断观察到的“差别”是抽样误差引起还是总体上的不同。
目的:
评价两个不同的参数或两种不同处理引起效应不同的证据具有的强度,这种证据的强度用概率P度量和表示。
leveloftest:
α取值较小时,有利于提高检验结果的可靠性,但是精密度下降。
α取值加大时,有利于发现研究总体可能存在的差异,但是其可靠性降低。
七、t检验
单个样本t检验的目的:
推断一个小样本均数所代表的未知总体均数μ与已知总体均数μ0是否有差别。
单样本t检验的适用条件:
◆已知一个总体均数;
◆可得到一个样本均数及其标准误;
◆样本来自正态或近似正态总体。
单样本t检验的适用条件:
◆配对t检验的适用条件
◆配对资料差值的总体需要服从正态分布。
同源配对:
同一受试对象或同一标本的两个部分,随机分配接受两种不同处理
异源配对:
两个同质受试对象配对,分别接受两种处理
方差齐性检验(F检验):
由两个样本的方差推断总体方差是否相同。
要求资料服从正态分布。
拒绝无效假设则方差不齐
方差不齐时进行t’检验,CC法通过对临界值进行校正,satterthwaite法是对自由度进行校正
T检验的注意事项:
1.要有严密的抽样设计
2.选用的检验方法必须符合其适用条件
3.单侧检验和双侧检验
4.正确的理解P值与差别有无统计意义
5.假设检验和可信区间的关系
假设检验和可信区间的关系:
1.置信区间可回答假设检验的问题,并能提供更多信息,但并不意味着置信区间能够完全代替假设检验。
2.因为置信区间只能在预先规定的概率α前提下进行计算,得到差别的大小,而不能提供确切概率。
而假设检验能够获得确切的概率P值,较精确地说明结论不正确的概率。
一类错误:
弃真,即拒绝正确的Ho,称为假阳性错误。
在秩和检验检验其他分布的时候容易犯该错误,此时应该降低α,当进行新药研究时,要避免假阳性错误,适当降低α。
二类错误:
存伪,即接受一个不应该接受的Ho,在多次使用t分布检验多组的资料时容易发生,又称假阴性错误,此时应该降低β,提高检验效能,当方差齐性检验时,可适当降低β
两样本均数之差的标准误反应的是两样本均数之差的标准误
将配对设计的数据进行两独立样本的t检验,容易增加犯二类错误的概率
八、方差分析
ANOVA:
多组样本均数的比较
前提:
独立正态方差齐
方差分析的基本思想就是根据变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用加以解释。
通过比较不同变异来源的均方,借助F分布作出统计推断,从而了解该因素对观测指标有无影响。
完全随机设计的方差分析
随机区组设计的方差分析
◆Bonferoni法:
对检验水准进行调整α’=α/m
多组数据进行方差齐性检验:
Bartlett法
两组数据方差齐性检验:
F检验
对两组资料的比较,方差分析与t检验的关系是完全等价
九、X2检验
适用于分类计数资料的假设检验,检验两个(多个)的总体率或构成比有无差别
卡方检验的基本思想是检验实际频数和理论频数的差别是否由抽样误差引起,检验统计量卡方反映了实际频数于理论频数的吻合程度
卡方检验的校正公式(不记)
配对四格表资料的卡方检验:
其假设检验为mcnemar
多个独立样本比较的之和检验又称H检验或KW检验,当k=3且每组例数小于等于5,查H界值表,当k大于3,或者k=3且最小样本例数大于5时,差卡方界值表
相关系数:
pearson积差相关系数,是说明两个具有直线相关关系的两个变量间相关的密切程度和相关方向的统计量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 概念