医学统计学复习资料最终版.docx
- 文档编号:670399
- 上传时间:2022-10-12
- 格式:DOCX
- 页数:19
- 大小:44.68KB
医学统计学复习资料最终版.docx
《医学统计学复习资料最终版.docx》由会员分享,可在线阅读,更多相关《医学统计学复习资料最终版.docx(19页珍藏版)》请在冰豆网上搜索。
医学统计学复习资料最终版
第1章绪论
医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:
又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:
根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:
从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:
从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:
①计量资料/定量资料/数值变量资料:
表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:
表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:
表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:
t检验、方差分析、相关回归分析等;②可选分析方法有:
χ2检验、z检验等;③可选分析方法有:
秩和检验、分析等。
6.误差:
实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:
是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:
是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:
又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
7.概率(P):
描述随机事件发生可能性大小的值,其取值为0≤P≤1。
其中,1为必然事件,0为不可能事件,0
习惯上将P≤0.05的随机事件称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为可能不发生。
概率与频率的关系:
设在相同条件下,独立重复n次试验,随机事件出现f次,则称为随机事件出现的频率;当n逐渐增大时,始终在一个常数左右作微小摆动,则称该常数为随机事件的概率。
8.医学统计工作的基本步骤:
①设计(是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证);②收集资料(统计报表+经常性工作记录+专题调查或实验研究+统计年鉴和统计数据专辑);③整理资料(是将原始数据净化、系统化和条理化,以便为下一步计算和分析打好基础的过程);④分析资料/统计分析(统计分析包括统计描述和统计推断,统计学的主要任务是进行统计推断,包括参数估计和假设检验)。
第2章计量资料的统计描述
1.频数:
计量资料经分组后清点出的各组例数。
频数分布:
指各组频数的分配情况。
频数分布表:
将分组和各组的频数以及频率编制成的表。
频数分布图:
即直方图,以直方的面积大小表示各组频数的多少,比频数表直观形象。
2.频数分布表:
①对于连续变量,频数分布为n个变量值在各变量值区间内的变量值个数的分配;②对于离散变量,频数分布为n个变量值(或各几个)变量值处的变量值个数的分配。
编制步骤:
①找极值;②求极差(全距),即最大值和最小值之差R;③确定组段数和组距;④根据组距写出组段;⑤分组划记并统计频数;⑥列表并求出频率、累计频数、累计频率。
3.频数分布的用途:
①描述频数分布的类型:
频数分布分为对称分布和偏态分布。
各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。
右侧的组段数多于左侧的组段数,频数向右侧拖尾,称右偏态分布,也称正偏态分布。
左侧的组段数多于右侧的组段数,频数向右侧拖尾,称左偏态分布,也称负偏态分布。
②描述频数分布的特征;③便于发现一些特大或特小的离群值;④便于进一步做统计分析和处理。
4.集中趋势:
统计学用平均数这一指标体系来描述一组变量值的集中位置或平均水平,常用的平均数有算术均数、几何均数和中位数。
算术均数:
简称均数,可用于反映一组呈对称分布的变量值在数量上的平均水平P17。
几何均数:
反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,常适用于免疫学的指标P18,如抗体滴度资料。
中位数:
是将n个变量值从小到大排列,位置居于中间的那个数。
N为奇数时取位次居中的变量值,n为偶数时取位次居中的两个变量值的均数。
适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料P19。
百分位数:
百分位是一种位置指标,用来表示,读作第X百分位数。
一个百分位数将全部变量值分为两部分,在不包含的全部变量值中有的变量值小于或等于它,(100)变量值大于或等于它。
百分位数是一个界值,其重要用途是确定医学参考值范围。
中位数实际上是第50百分位数。
5.离散趋势:
描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差、变异系数。
极差:
即一组变量值的最大值与最小值之差,可用于任何分布资料。
仅用极差来描述数据的变异程度也不全面,且受样本含量n的影响较大。
四分位数间距:
是把全部变量值分为四部分的分位数,即第1四分位数(25)、第2四分位数(50)、第3四分位数(75)。
四分位数间距﹣,一般和中位数一起描述偏态分布资料的分布特征。
方差:
也称均方差,反映一组数据的平均离散水平,总体方差用σ2表示,样本方差记为S2。
标准差:
是方差的正平方根,其单位与原变量值相同,总体标准差用σ表示,样本标准差记为S。
方差和标准差用于描述正态分布计量资料的离散程度。
均数和标准差结合用于全面描述正态分布计量资料的集中趋势与离散趋势。
变异系数:
记为,×100%,是一个相对变异指标,无单位,多用于观察指标单位不同时,或均数相差较大时。
6.正态分布:
德国数学家德莫阿弗尔于1733年提出,德国数学及高斯使正态分布广为人知。
特征:
①在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以μ为对称轴,左右完全对称。
②在μ处f(X)取最大值,其值为f(X)=;X越远离μ,f(X)值越小。
③正态分布有两个参数,即位置参数μ和形态参数σ。
若固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变。
若固定μ,σ越小,曲线越陡峭;反之,σ越大,曲线越平坦。
④正态曲线下的面积分布有一定的规律:
正态分布曲线下面积为1,X±1.96S的面积为95%,X±2.58S的面积为99%。
标准正态分布:
通过(X﹣μ)/σ将(μ,σ2)的正态分布转换为(0,12)的标准正态分布,u称为标准正态变量,P27。
7.医学参考值:
是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。
通常使用的医学参考值范围有90%,95%,99%,最常用的是95%。
医学参考值范围制定方法:
①正态分布法:
数据服从或近似服从正态分布;②百分位数法:
偏态分布资料,样本含量不低于100,P29。
第3章总体均数的估计与假设检验
1.抽样误差:
由个体差异产生的,随机抽样造成的样本统计量之间或样本统计量与总体参数之间的差异,用标准误来衡量,抽样误差是不可避免的,其产生的根本原因是生物个体的变异性,其分布有一定的规律性。
样本均数的抽样分布特点:
①各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布很有规律,围绕总体均数中间多,两边少,左右基本对称,也服从正态分布;④样本均数间相差较小,其变异范围较之原变量的变异范围大大缩小。
2.标准误:
样本统计量的标准差,描述统计量与总体参数的接近程度,是衡量抽样误差大小的指标。
用途:
①表示抽样误差的大小;②估计参数的可信区间;③假设检验。
均数标准误:
样本均数的标准差,反映样本均数间的离散程度,也反映样本均数与相应总体均数间的差异,说明了均数抽样误差的大小。
均数标准误与标准差成正比,与样本含量n的平方根成反比。
若标准差不变,可通过增加样本含量n来减小均数的标准误,从而降低抽样误差。
3.标准差与标准误的区别:
①标准差是衡量观察值离散趋势(即变异程度)的指标,其越大,表示观察值越分散,样本均数的代表性越差;反之样本均数的代表性越好;而标准误是描述样本统计量的变异程度,表示抽样误差的大小,其越大,表示抽样误差越大,样本统计量(样本均数)的可靠性越小,反之样本统计量(样本均数)的可靠性越大。
②标准差可用于描述正态(近似正态)分布资料的频数分布和医学参考值范围的估计;而标准误用于总体均数的区间估计和两个样本统计量(样本均数)间的比较即t检验。
标准差与标准误的联系:
二者都是变异指标,标准误的大小可由标准差的大小来估计。
在样本含量一定时,标准差越大,标准误也越大,即在抽取相同例数的前提下,标准差越大,样本的抽样误差也越大。
4.t分布:
通过(X﹣μ)/σ可以将(μ,σ2)的正态分布转换为(0,12)的标准正态分布,同理样本含量为n的样本均数X可通过(X﹣μ)/σX将N(μ,σX2)的正态分布转化为标准正态分布,但实际工作中,由于σX常常未知,用代替,则(X﹣μ)/不再服从标准正态分布,而是服从t分布。
t分布为抽样分布,参数只有一个即自由度ν﹣1。
特征:
①单峰分布,以0为中心,左右对称;②t分布的曲线形态取决于自由度ν的大小,ν越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近无穷大,逼近σx,t分布逼近u分布,标准正态分布是t分布的特例。
t分布主要用于总体均数的区间估计和t检验。
在相同自由度时,∣t∣值越大,概率P越小;在相同∣t∣值时,同一自由度的双尾概率为单尾概率的两倍。
5.参数估计:
是指用样本统计量推断总体参数,有点(值)估计和区间估计两种方法。
点估计:
用相应样本统计量直接作为其总体参数的估计值。
区间估计:
是按预先给定的概率(1﹣α)所确定的包含未知总体参数的一个范围。
该范围称为参数的可信区间或置信区间;预先给定的概率1﹣α称为可信度或置信度,一般取双侧95%。
6.可信区间:
又称置信区间,通常是两个数值即可信限/置信限构成的一范围,较小值称可信下限,较大值称可信上限。
可信区间的确切含义:
从固定样本含量的已知总体中进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1﹣α(如95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1﹣α。
两个要素:
①准确度:
反映在可信度1﹣α的大小,越接近1越好;②精密度:
反映在区间的宽度,越窄越好。
两者是矛盾的,一般情况下常用95%可信区间。
在可信度确定的情况下,增加样本含量可减小区间宽度。
7.总体均数可信区间的计算:
根据总体标准差σ是否已知,以及样本含量n的大小而异,通常有t分布和u分布两类方法。
①单一总体均数的可信区间:
σ未知按t分布;σ已知或σ未知,但n足够大(如n≥60)时按u分布。
②两总体均数之差的可信区间P41。
8.总体均数可信区间与参考值范围的区别:
区别点
总体均数的可信区间
参考值范围
含义
按预先给定概率所确定的位置参数μ的可能范围。
实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。
但可以说:
当α=0.05时,95估计正确的概率为0.95,估计错误的概率为0.05,即有95%的可能性包含了总体均数
总体均数的可能范围
“正常人”的解剖、生理、生化某项指标的波动范围
个体值的波动范围
计算公式
σ未知:
X±tα/2,ν*
σ已知或σ未知但n>60:
X±uα/2,νσX或X±uα/2,νσX**
正态分布:
X±uα/2,ν
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 复习资料 最终版