医学统计学 重点 终极笔记.docx
- 文档编号:30663016
- 上传时间:2023-08-19
- 格式:DOCX
- 页数:17
- 大小:77.65KB
医学统计学 重点 终极笔记.docx
《医学统计学 重点 终极笔记.docx》由会员分享,可在线阅读,更多相关《医学统计学 重点 终极笔记.docx(17页珍藏版)》请在冰豆网上搜索。
医学统计学重点终极笔记
MedicalStatistics
【Introduction】
医学统计工作的内容
⒈实验设计:
最关键、最重要
⒉收集资料:
最基础
[原始资料]实验数据,现场调查资料,医疗卫生工作记录、报告、报表
质量控制:
精度和偏倚
⒊整理资料:
资料的逻辑、一致性检查,原始数据的加工(频数分布表)
⒋分析资料:
统计描述(表、图、离散趋势、集中趋势)和统计推断
资料的类型
⑴计量资料:
定量方法测定数值大小所得的资料
⑵计数资料:
按性质或类别分组,然后计数
⑶等级分组资料:
具有计数资料的特性,又有半定量的性质(“+,-”表示)
变异:
不同个体在相同环境下,对外界环境因素发生的不同反应,即个体差异
总体:
同质的个体所构成的全体。
[同质性,大量性,差异性]
样本:
从总体中抽取部分个体的过程称为抽样,所抽得的部分是样本。
样本包含的个体数目称为样本含量
样本的特征:
⑴代表性
⑵随机性
⑶可靠性
*抽样的要求:
代表性,随机性,可靠性,可比性
完全随机设计:
将受试对象随机分配到各处理组或对照组中,或分别从不同总体中随机抽样进行研究。
可为两样本或多样本得比较,但样本含量不宜相差太大。
随机区组设计:
也称配伍设计,是配对设计的扩展。
配对设计的每一“对子”中的受试对象分别随机分到两个处理组中,而配伍组设计中的每个“配伍组”,包含多个受试对象,要将它们分别随机分到各处理组中。
误差:
泛指观测值与真实值之差,以及样本统计量与总体参数之差
⑴系统误差:
在收集资料过程中,由于仪器调整、试剂校验、医生对疗效的掌握等因素,造成观察结果倾向性的偏大活偏小。
要尽量查明原因,必须克服。
⑵随机测量误差:
在收集资料过程中,即使系统误差已经避免,由于各种偶然因素的影响造成对同一对象多次测定的结果不完全一致。
譬如操作员技术、电压、环境温度的差异。
没有固定的倾向,时高时低;应采取措施加以控制。
⑶抽样误差:
由抽样不同引起的样本均数与总体均数之间的差异。
原因是个体之间存在变异,抽样时只能抽取总体的一部分作为样本。
不可避免,要用统计方法进行正确分析。
概率:
描写某一事件发生可能性大小的一个度量。
频率:
样本实际发生率
小概率事件:
P<=0.05(差别有统计学意义)或P<=0.01(差别有高度统计意义)的事件
变量:
观察单位的某些特征
变量值:
观察、测定的结果
【集中趋势的统计描述】
频数表(计量资料):
同时列出观察指标的可能取值区间及各区间的频数
集中趋势:
变量值的集中位置
离散趋势:
变量值围绕集中位置的分散情况
平均数:
描述一组观察值集中位置或平均水平的统计指标。
常作为一组数据的代表值用于分析或进行组间比较。
[适用条件]:
对称分布或偏度不大的资料,尤其适合正态分布
算术均数(
):
简称均数,说明一组观察值平均水平或集中趋势(描述计量资料)
几何均数(G):
描述观察值间按倍数关系变化的资料的平均水平,如滴度、浓度、血清效价、细菌计数。
中位数(M):
观察值按从小到大排列时,居于中心位置的数值。
n为奇数时,M=第(n+1)/2项
n为偶数时,M=第n/2项和第(n/2+1)项的平均值
[适用条件]:
分布明显呈偏态;频数分布的一端或两端无确切值
百分位数(P):
在一组数据中找到一个数值Px,全部观察值的x%小于Px。
P25,P75描述资料的离散程度
P2.5,P97.5规定医学95%的参考值范围
【变异程度的统计描述】
极差(R):
即全距,观察值中最大值与最小值之差。
不适用于开口资料
四分位数间距(Q):
一组观察值按大小排序后,分成四个数目相等的段落,每段观察值占总例数的25%,去掉两端含有极端数值的25%,取中间50%的数据范围即为Q。
(适用于偏态分布&开口资料)
[Q=P75-P25]Q越大,则数据变异越大
平均偏差:
各观察值偏离平均数的平均差距。
即各观察值与均数之差的绝对值之和的平均。
离均差平方和:
通过取平方避免正负抵消
方差:
离均差平方和再取平均,分母用自由度v=n-1代替
*自由度(v):
在所有的n个离均差平方项中,只有n-1个是独立的。
标准差(S):
将方差取平方根,还原为与原始观察值单位相同的变异量度
(反映样本值的离散程度)
标准差变异系数(CV):
均数相差较大或单位不同的几组观察值的变异程度的比较
(百分数,可能大于1)
正态分布曲线下的面积
横轴:
f=2.58,1.96,1,0(居中)对应99%,95%,68.3%
单侧,f=2.33,1,645,1,0
正态分布的特征
均数处最高,以均数为中心,两端对称
中心μ对应的f(x)最大;x越远离μ,f(x)越趋近于0,但不会为0
永远不与x轴相交的钟型曲线
有两个参数:
均数——位置参数;标准差——形状(变异度)参数
正态曲线下的面积分布有一定规律
正态分布具有可加性
标准正态分布:
均数μ=0,标准差σ=1的正态分布。
转化公式:
☆适用条件总结:
①样本标准差正态,对数正态
②变异系数单位不同或均数相差较大
③四分位数间距偏态
医学参考范围:
也称正常值范围,正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各数据的波动范围。
(习惯上是包含95%参照总体的范围)
制定方法
[单侧][双侧]
参考范围对应的百分位数(Px=)5,95;1,992.5,97.5;0.5,99.5
参考范围对应的正态分布区间(f=)1.65;2.331.96;2.58
[
]
【抽样误差与假设检验】
抽样误差:
由抽样造成的样本均数和总体均数的差异。
是不可避免的
☆中心极限定理:
在样本含量n很大(>=50)的情况下,无论原始测量变量服从什么分布,
的抽样分布都近似服从正态分布N(μ,
)
标准误:
反映样本均数间变异的标准差。
(反映样本均数间的离散程度,也反映样本均数与总体均数的差异)
理论值
估计值
参数估计:
由样本统计量估计总体参数。
点估计:
使用单一的数值直接作为总体参数的估计值。
如用
估计相应的μ
(未考虑抽样误差的影响)
区间估计:
按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。
可信度:
事先给定的概率1-α(通常取0.95或0.99);计算得到的是可信区间
95%可信区间(
,
)
假设检验:
即显著性检验,是统计推断的重要内容,比较总体参数之间有无差别。
首先对所需比较的总体提出一个无差别假设,然后通过样本数据去推断是否拒绝这一假设。
基本步骤:
⑴建立假设和确定检验水准
⑵选择检验方法和计算检验计量
⑶确定P值,作出统计推断
无效假设:
H0,指需要检验的假设,如**值治疗前后无差别
即H0:
μd=0
通常与我们要验证的结论相反,是计算检验统计量和P值的依据
备择假设:
是在H0成立证据不足的情况下而被接受的假设
即H1:
μd≠0
双侧检验:
无论正或负方向的误差,若显著超出检验水准则拒绝H0
单侧检验:
仅在正方向或负方向误差超出规定的水准时拒绝H0
P值:
假设检验下结论的主要依据,是指在原假设成立的条件下,观察到的样本差别是由于机遇所致的概率。
P>0.05不显著
0.01
P<=0.01非常显著
【t检验】
单样本的t检验
配对样本均数t检验:
受试对象依特征配对,随机分别分配到两个实验组
两独立样本均数t检验:
两总体服从正态分布,且总体方差齐
方差齐性:
两独立样本的总体方差
方差不齐时两样本均数的t’检验
方差齐性检验
(P>0.05,可认为总体方差齐)
t’检验
u检验:
总体标准差已知,或样本量较大时,样本均数与总体均数的比较
t检验中的注意事项
⒈样本资料必须能代表相应总体
⒉t检验以正态分布为基础;非正态数据尝试变换为正态,或用非参数检验
⒊完全随机设计的两样本均数比较,要求两组方差齐
⒋对同一资料作单侧检验更容易获得显著结果
⒌假设检验用于推断总体均数间是否相同;可信区间用于估计总体均数所在范围
☆假设检验中的两类错误
第一类错误:
当
为真时,拒绝
接受
。
又称假阳性错误,,阳性指两者总体参数有差异。
检验水准α是预先规定的犯错概率的最大值
第二类错误:
当
为假时,不拒绝
。
又称假阴性错误。
概率大小用β表示,只取单侧,一般未知。
可证,α越大β越小,α越小β越大。
增大样本含量可同时减小两类错误。
【方差分析】
方差分析:
将全部观测值的总变异按影响因素分为相应的若干部分变异,在此基础上,计算假设检验的统计量F值,实现对总体均数是否有差别的推断。
条件:
来自于正态分布总体,且总体方差相等的k个样本均数的比较(k>=3)
完全随机设计:
又称单因素方差分析,将实验对象随机分配到不同处理组的单因素设计方法。
只考虑一个处理因素
总变异
:
n个观测值的离均差平方和
组间变异
:
组内均值与总均值之差的平方和
组内变异
:
组内各个观测值与本组内均值之差的平方和
(反映各组内样本的随机波动)
完全随机设计的方差分析表(自由度
)
F=
随机区组设计:
又称配伍组设计,先将受试对象按条件相同或相近组成m个区组,每个区组中有k个受试对象,再将其随机地分到k个处理组中。
(属于无重复数据的两因素方差分析)
随机区组设计的方差分析表(自由度
)
【相对数及其应用】
相对数:
比较分析现象间的发展关系。
把基数化作相等,便于比较
*绝对数:
研究事物现象的基本资料
率
构成比
相对比
☆相对数使用的注意事项
⒈构成比只能说明某事物内部各组成部分的比重和分布,不能说明该事物某一部分发生的强度和概率。
⒉分母过小时相对数不稳定
⒊用以比较的资料应是同质的
⒋要考虑存在的抽样误差,对总体进行推断时应作统计学检验
率的标准化:
为了比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成(年龄、性别、工龄、病程长短等)的影响。
标准构成:
⑴选取有代表性、较稳定、数量较大的人群构成为标准
⑵选择相互比较的各组例数合计为标准构成
⑶从比较的各组中任选其一作为标准构成
死亡率:
某地某年每1000人中的死亡率
年龄别死亡率:
某地某年龄组每1000人口中的死亡数
死因别死亡率:
某年每10万人中,由于患某疾病死亡的人数
死因构成:
相对死亡比,某种死因引起的死亡人数占总死亡人数的百分比
发病率:
某一时期内特定人群中患某病新病例的频率
患病率:
某一时点某人群中患某病的频率(可大于100%)
病死率:
某期间内,某病患者因某病死亡的频率
治愈率:
接受治疗的病人中治愈的频率
【
检验】
检验:
英国统计学家Peason提出的一种用途广泛的假设检验方法。
该检验以
分布为理论依据,可以推断两个(或多个)总体率以及构成比之间有无差异。
四格表资料的
检验
理论频数
四格表资料
检验专用公式
四格表
检验校正公式
通常规则:
①n
40且所有的T
5基本公式(或专用公式)
②n
40但有1
T<5校正公式
③n<40,或T<1Fisher确切概率法
配对四格表资料的
检验
观察结果的四种情况:
①A+,B+[a]
②A+,B-[b]
③A-,B+[c]
④A-,B-[d]
公式:
㈠
=1(b+c)
40
㈡
=1(b+c)<40
行
列表资料的
检验
专用公式:
=(行数-1)(列数-1)
条件:
⑴1 ⑵与分类变量的顺序无关 ⑶对于有序的R C表资料不宜用 检验 【非参数检验】 非参数检验: 不考虑总体的参数和总体的分布类型,对总体的分布或分布位置进行检验的方法。 适用于: ⑴总体分布为偏态或分布未知的计量资料 ⑵等级资料 ⑶个别数据偏大,或数据的某一端无确定数值 ⑷各组离散程度相差悬殊,即各总体方差不齐 特点: ⑴适用范围广,不限方差齐性、变量类型、样本量 ⑵损失了部分信息,检验效率低 ⑶极度偏态,犯第二类错误的概率较大 编秩次,求秩和 ①依差值绝对值, ② ③ 两样本比较的秩和检验 WilcoxonMann-Whitneytest △相同资料较多时(等级资料),采用校正公式 多个样本比较的秩和检验 H检验 【线性相关与回归】 相关系数: 说明具有直线关系的两个变量间相关密切程度和相关方向的统计量 lXY表示X与Y的离均差平方和;相关系数r没有测量单位,-1<=r<=1 线性相关分析的注意事项 ⒈首先绘制散点图,若呈直线趋势,再计算相关系数和作假设检验判断相关关系 ⒉两变量都服从正态分布 ⒊相关系数仅是样本相关系数,不能直接估计总体 ⒋相关系数不能描述因果关系 线性回归 回归系数 应用: ①分析两个变量之间是否存在线性依存关系 ②利用回归方程对因变量Y进行估计 ③利用回归方程进行统计控制 线性回归分析的注意事项 ⒈两个内在有联系的变量,回归分析才有意义 ⒉若存在依存因果的关系,则原因变量设为X,结果变量设为Y ⒊因变量是服从正态分布的随机变量;自变量可随机,可给定 ⒋不要把估计范围扩大到建立方程时的自变量取值范围之外 线性相关与回归的区别 ⒈相关系数的计算只适用于两个变量都服从正态分布的情形; 回归分析中,因变量随机,自变量随机(Ⅰ型回归模型,两个变量都服从正态);或是给定的量(Ⅱ型,每个X取值对应的变量Y服从正态分布) ⒉线性相关表示两个变量间的相互关系,是双向的; 回归反映两个变量之间的依存关系,是单向的 线性相关与回归的联系 ⒈同一资料进行相关与回归分析,相关系数r与回归方程中的b正负号相同 ⒉同一样本的r与b的假设检验是等价的 ⒊相关与回归可以互相解释 确定系数: ,越接近1,回归效果越好 * 等级相关(Spearman) 的假设检验 确定P值: ⑴n 50时,由等级相关系数 界值表确定 ⑵n>50时,可查r界值表,自由度 =n-2 【统计表与统计图】 统计表 结构: 标题,标目(横、纵),线条,数字,备注 三横线表: 顶线,中间线,底线(标题,标目,数据) 统计图 结构: 标题,图域,标目,图例,刻度 直条图[纵坐标从0开始] 单式 复式 构成图 百分比条图 线图: 线段的升降表示指标的连续变化趋势。 <变化速度> 适用于描述一个变量随另一个变量的变化趋势 ☆半对数线图: 主要数据随分组变量变化的趋势[相对数指标]<发展趋势> 两组数据相差大时,表示发展速度 直方图: 用直条矩形面积代表各组频数,各矩形面积的总和代表频数之和。 表示连续变量频数分布的情况[纵轴刻度必须从0开始] 箱图: 用于比较两组或多组资料的集中趋势和离散趋势。 中间的横线表示中位数 长度表示四分位数间距 两端分别是P75和P25 散点图: 用点的密集程度和变化趋势来表示两指标之间的直线相关关系。 数值变量: 其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。 如身高(cm)、体重(kg)、血压(mmHgkPa)、脉搏(次/min)和白细胞计数(×109/L)等。 这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学统计学 重点 终极笔记 医学 统计学 终极 笔记