关于生物统计学基本概念及公式.docx
- 文档编号:25741432
- 上传时间:2023-06-12
- 格式:DOCX
- 页数:36
- 大小:116.45KB
关于生物统计学基本概念及公式.docx
《关于生物统计学基本概念及公式.docx》由会员分享,可在线阅读,更多相关《关于生物统计学基本概念及公式.docx(36页珍藏版)》请在冰豆网上搜索。
关于生物统计学基本概念及公式
生物统计学(Biostatistics)是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。
涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、
二、科学研究的基本程序
1提岀一个欲待研究的问题:
2、科学研究设计:
专业设计、统计学设计:
统计学设计(statisticaldesign):
:
是指用统计学原理对研究的全过程所作岀的周密合理的统筹安排,如确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人
力、物力、财力和时间)获取准确可靠的信息资料及可信的结论,使效益最大化。
3、获取试验与观察的资料,又称为搜集资料
4、数据审核与计算机录入
5、分析资料
描述性统计(descriptivestatistics)是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。
统计推断(inferentialstatistics)是通过随机样本信息推断总体特征的过程。
统计推断又包括置信区间
(confideneeinterval)估计与统计学假设检验(hypothesistest)。
统计学分析过程按变量的多寡可分为单变量
分析与多重变量分析。
6、分析结果的合理解释(Explicationofresults):
研究中应注意的问题
1统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。
2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。
3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。
变量variable:
'在总体中,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反映个体
属性变异性特征的指标称为随机变量(Randomvariable)],简称变量;针对不同类型的属性,需采用不同类型的
变量,因而产生不同类型的资料。
总体(Population)与样本(Sample)|:
根据研究目的所确定的具有相同性质的观察单位的集合成为总体(母体)。
从同一总体中通过随机化过程抽取的部分观察单位称为样本(子样)。
抽样(Sampling)从研究总体中通过一定原则获取样本的过程样本含量(Samplesize).样本中所包含的基本研究单位数量同质(Homogeneity):
帀一总体中的每一个体都具有相同性质类别的特征。
变异(Variation):
司一总体中的各个体间的差异性。
随机化(randomization):
能使总体中每一观察单位均能以同等机会(概率)进入样本,或分配到实验组与对照组的过程。
抽样误差(SamplingError)由于总体中各个体间存在变异性,因抽样过程的随机性所至样本的统计量与总体的参数不等,或多个样本的统计量存在差异性称为抽样误差。
概率(Probability)|:
描述随机事件发生的可能性的度量。
随机事件A的发生概率记为P(A)。
概率的取值在0到1之间,若P=1或P=0的事件称为必然事件,若0 概率接近于0 (如PV0.05)的事件称为小概率事件。 分布(distribution): —个随机试验的所有结局事件与对应的概率的排列称为分布。 对应于样本数量值分布称其为频率分布(FrequencyDistributen);对应总体数量值的分布则称其为概率分布 (ProbabilityDistribution)。 参数(Parameter): 描述总体特征的数量称为参数;常用希腊字符表示,女口卩表示总体均数,(T表示总体标 准差,n表示总体率。 统计量(Statistic”: 描述样本特征的数量称为统计量;常用英语字母表示,如X表示样本均数,s表示样本标准 差,p表示样本率。 生物医学数据的组织与表达 变量的类型: 按变量测量的精确程度由低到高,将数据分类为: 名义变量(如性别、婚姻状况)、有序变量(如 疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。 摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量) 1定性变量(QualitativeVariable) (1)名义变量(Nominalvariable)二项分类: 性别分类,如男性为1,女性为0。 多项无序分类: 血型的A、B、AB、O型多项无序分类 (2)有序(等级)变量(Ordinalorrankingvariable)多项有序分类: 疗效观测分为显效、有效、好转及无效4个类别。 2、定量变量(QuantitativeVariable) (1)区间变量(intervalvariable): 或数值变量(numericalvariable)如: 身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。 (一般有度量衡单位,类别间的差别大小有实际意义) (2)比变量(ratiovariable): 以上例子中除体温外(具有真实意义的零点) 连续型变量(Continuousvariable)与离散型变量(Discretevariables) 根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量 频数分布表: *定量数据的频数分布;*(非配对设计)定性数据的频数分布*配对设计定性数据的频数分布 频数(frequency): 将定量数据分类成若干个组段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据岀现个数。 频数表的编制步骤 (1)求极差(range): 即最大值与最小值之差,又称为全距。 R=6.29-2.72=3.57mmol/L (2)决定分组组数、组距: 组距=极差/组数。 (3)列岀组段: (4)划记计数。 (非配对设计)定性数据的频数分布: *一维频数表*二维频数表*高维频数表 统计图形表达: *直方图(Histogram): 用于描述定量变量的数据分布特征。 *概率-概率散点图(p-pplot)又称为p-p图或 百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性;* 分位数-分位数散点图(q-qplot)又称为q-q图,横轴为观察值,纵轴为理论(如正态)分位数,确定样本数据 对于理论分布的一致性绘P—P或Q—Q图的数据*茎叶(Stem-Leaf)图*盒式图(Boxplot)直条图(Bar chart): 用直条反映定性变量不同类别下的某指标大小。 饼图(pieChart): 反映定性变量各个分类的构成情 况。 *散点图*线图*统计地图(statisticalmap) SAS会话窗口界面: 三个基本窗口*Editor编辑窗: 在此编写SAS程序*Log记录窗: 记录程序运行过程中 所做的内容,如所运行的数据情况、所调用的过程步、程序运行时间等(红色…错误绿色…警告兰色 ---正常)*Output结果输岀窗: 统计分析的结果。 *Result窗口*Explorer窗口 单变量综合性描述统计量 常用的中心趋势指标: 算术均数、几何均数、中位数、众数,统称为平均数(average) 算术平均数TheArithmeticmean: 简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量SampleSize)。 反映一组呈对称分布的变量值在数量上的平均水平。 n 'xi (1)直接计算法: 公式: x=丄J (2)加权法: 、‘Xifi i4 X=乙 \fi i4 kfi -xik i-fi i4 组中值=(下限值+上限值) /2 *离均差 均数的特征: *最常用,特别是正态分布资料;*对极值非常敏感,最大值和最小值常将其拉向自己; 的和为0 中位数(median): 是将每个变量值从小到大排列,位置居于中间的那个变量值。 公式: n为奇数时 ~Xn1 (T) 频数表资料的中位数 中位数的特征: 计算时只利用了位置居中的测量值,优点: 对极值不敏感,缺点: 并非考虑到每个观测值;适 用于各种分布类型的资料,特别适合于: 大样本偏态分布资料或者一端或两端无确切数值的资料 百分位数(percentile): 直接计算 设有n个原始数据从小到大排列,第X百分位数的计算公式为: 当nX%为带有小数位时: Px=X阿(nX%)1] 当nX%为整数时: PX=§X(nX%)'X(nX%-1)" 频数表法: 计算方法大致同中位数 几何均数(geometricmean): 可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。 公式: G"X1X2.~Xn (2)加权法: 4瓦flgX G“g(、f) 几何均数的特征 1、几何均数适用于对数正态分布,如药物的效价、抗体的滴度、传染性疾病的潜伏期等资料。 2、变量x服从对数正态分布,即表示变量lg(xi)服从正态分布。 对于lg(xi),具有正态分布的所有特性。 众数(Mode)门一群数据中岀现次数(频数)最多的值。 适用于大样本;较粗糙。 众数的特征: 1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的 众数;3、定性数据可以存在众数;4.众数对于进一步的统计学计算与分析不具备应用价值。 离散与变异性指标: 全距;方差;标准差;变异系数;四分位间距;多样性指数 全距Tang! : 为最大值与最小值之差,也叫极差,即R=Max(x)? Min(x). 方差: (Varianee)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。 样本方差为各变量值到样本均数距离的平方和除以自由度的商值,即 二(xi-口) 总体方差: 2i」 (T N LXi)*12 2 Xi n-1 k k 2 (送fiXi) 近f 2.Xi i-X i八| k i-X 送fi i土 k z fi-1 1 i二 s 标准差: 样本标准差为样本方差的平方根;总体标准差为总体方差的平方根。 样本标准差实用公式 样本标准差的加权公式随机变量xi的标准化: 如果随机变量xi服从正态分布,均数和标准差分别为X和s,则随机变量xi的标准化正态离差值(Standard (或多组)资料的变异 变异系数(coefficientofvariation,CV): 常用于比较度量单位不同或均数相差悬殊的两组 程度。 cv=5汉100%四分位数间距(inter-quartilerange): 用IQR表示: IQR=P75—P25=Q3—Q4 多样性指数(IndicesofDiversity)|: 描述无序分类变量在各各义类别间频数的离散度。 用熵与最大熵之比表达离散度 率、比的均数与方差 在特定条件下,可能发生某现象的总例数中,实际发生某现象的强度或频率。 : 构成比(Proportion,constituentratio): 构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重。 相对比(relativeratio)|是由两个有关联的指标之比。 应用率比指标时的注意事项 1、保证有足够样本含量;2、不要将率和比指标混淆;3、注意平均率的计算;4、率和比指标比较时,要有可 比性(不可比时可采用率标准化);5、不要简单由样本率的差异做出结论。 率比和均数一样都有抽样误差, 需采用假设检验下结论。 随机变量、概率和概率分布 频率frequency: 样本的实际发生率。 设在相同条件下,独立重复进行n次试验,事件A岀现f次,则事件A 出现的频率为f/n。 概率probability"! : 随机事件发生的可能性大小,用大写的P表示;取值[0,1]。 样本空间(samplingspace): 随机试验的所有可能的结果称为样本空间。 A与事件B 事件的独立性: 若事件A的发生不影响事件E的发生,即事件 成光滑的分布曲线。 大多数情况下,可采用一个函数拟合这一光滑曲线。 这种函数称为〜 常用的概率分布: 离散型随机变量分布 则在A的条件下,事件B发生的 条件概率(condition―probability)若关心的事件为B,以事件A为条件,概率为P(B|A) 相互独立,则有P(B|A)=P(B)P(X=xi)的表格、公式或图形。 矩形顶端组成的阶梯型曲线可变 一、二项分布 二、泊松分布 当二项分布中n很大,n很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限 分布。 7X 由二项分布的概率函数可得到泊松分布的概率函数为: P「X=x•;=乞止 x! Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数 Poisson分布概率的计算 Poisson分布的性质 2 1.Poisson分布的均数与方差相等即(T=m 2.Poisson分布的可加性 3.Poisson分布的正态近似: m相当大(》20)时,近似服从正态分布: N(m,m) 4.二项分布的Poisson分布近似 连续型随机变量分布: 变量的取值充满整个数值区间,无法一一列出其每一个可能值。 一般将连续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。 如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。 大多数情况下,可采用一 个函数拟合这一光滑曲线。 这种函数称为概率密度函数(probabilitydensityfunction) 成功次数的概率分布一二项分布: p(x=k)=(;nk(1—n)n」 二项分布的应用 1.二项分布的均数与方差 X〜B(n,n) X的均数口x=nn 2 X的方差: (rX=nn(1-n) X的标准差: crX=.nn(1-n) 岀现阳性次数至多为k的概率: 岀现阳性次数至少为k的概率: 正态分布(NormalDistribution) 1.概率密度函数 2.概率分布函数 正态分布特征 (1)正态分布在横轴上方均数处最高。 (2)? 正态分布以均数卩为中心,左右对称。 (3)正态分布由参数卩和b确定。 卩(总体均数)是位置参数,当(T(总体标准差)不变时,卩越大,则曲 线沿横轴越向右移动;反之,卩越小,曲线沿横轴越向左移动。 b是变异度参数,当卩不变时,b越大,表示 数据越分散,曲线越平坦;b越小,表示数据越集中,曲线越陡峭。 (4)正态分布曲线与X轴所围成的面积为1。 (5)在卩士b的区间内占总面积的68.27%,在卩士1.96b的区间内占总面积的95%;在卩士2.58b的区间内 占总面积的99%。 标准正态分布: X—卩 标准正态离差: Z= ff 此概率密度函数实质上就是正态分布的概率密度函数中卩=0,b=1的情形。 从几何意义上说,此变换实质上 是作了一个坐标轴的平移和尺度变换,使正态分布具有平均数为卩=0,标准差b=1。 这种变换称为标准化正 态变换。 因此将这种具有平均数为卩=0,标准差b=1的正态分布称为标准正态分布,记为N(0,1) 正态分布概率密度曲线在-1〜+1的区间内占总面积的68.27%,在-1.96〜+1.96的区间内占总面积的95%;在 -2.58〜+2.58的区间内占总面积的99%。 标准正态分布 正态分布 面积或概率 -1〜1 □士b 68.27% -1.96~1.96 卩士1.96b 95% -2.58~2.58 卩士2.58b 99% 描述正态分布特征的两个参数: 偏度系数coefficientofskewness: 度量随机变量对称性的参数r1=0为对称,r1>0为正偏态,反之为负偏态。 峰度系数coefficientofkurtosis: 描述随机变量陡峭度的参数,r2=0为正态峰,r2>0分布较正态分布陡峭, 三、F分布 22 令(-..1)和(.2)分别为服从自由度为1和2的 22 对于样本方差3和s,自由度分别为'-1和'2的 2 正态总体,所以有F=s~F12) S2 统计推断 统计推断(Statisticalinference)是采用样本统计量X、s、p、sp对相应总体参数丄、;「、二、二p所做的非确定性的推估。 包括: 1.点估计pointestimation;2.区间估计intervalestimation;3.假设检验hypothesistesting(or 样本总体标准差已知时, Sx二样本总体标准差未知时, (n significaneetesting);4.预测『(prediction) 总体均数的点估计(pointestimation)与区间估计(intervalestimation) 参数的估计: 点估计: 由样本统计量直接估计总体参数 区间估计: 获得一个置信区间(confideneeinterval,CI)由样本数据估计得到的、100(1—a)%可能包含未知 总体参数的一个范围值。 一、置信区间的有关概念: (1—a)或100(1—a)%称为置信度(confideneelevel),常取95%(90%、99%)b已知或s未知但n足够大,按Z分布;s未知,按t分布 (T已知,总体均数双侧100(1—a)%置信区间为: b已知,总体均数单侧100(1—a)%置信区间为: (X-z「)或空(XZO Z0.05/2=1.96双侧 Z0.05=1.645单侧 置信区间通常两个数值即两个置信限(confidencelimit,CL): 较小的称为置信下限(lowerlimit,L),较大的称为置信上限(upperlimit,U), 置信区间的涵义 从同一总体中重复抽取若干个相互独立的样本,将具有100(1-a)%的置信度,所计算的置信区间包括总体均数。 如95%的置信区间表示: 如果从同一总体中重复抽取100个独立样本,那么将可能有95个置信区间包括总体 均数。 (总体均数会落在这样的区间…说法欠妥) 对于一次估计的置信区间,可能有95%的正确率包括总体均数,但仍有5%的置信区间估计错误。 5%是小概率 事件,统计学认为在一次的估计中不发生。 置信区间估计的优劣: 置信度大好,还是小好? 1.置信度1-a(准确度,accuracy),愈接近1愈好,如99%的置信度比95%的置信度要好; 2.区间的宽度(精密度,precision),区间愈窄愈好。 当样本含量为定值时,上述两者互相矛盾。 在置信度确定的情况下,增加样本含量可减小区间宽度。 总体均数置信区间与参考值范围的区别 区别点 总体均数可信区间 参考值范围 含 从冋一总体中重复抽取若干个相互独 “正常人”的解剖,生理,生化某项 义 立的样本,将具有100(1-a)%的置信度,所计算的置信区间包括总体均数。 指标的波动范围。 总体均数的波动范围 个体值的波动范围 计算 味知n较小: 刃士上护,^ 正态分布: ±^/2S 公式 圮知,或味知但n较大: X±Za/2SX 偏态分布: P~P00 用途 总体均数的区间估计 绝大多数(如95%)观察对象某项指标 的分布范围 方差的抽样分布特征 1.样本方差的分布是正偏态分布,样本含量较小时更是如此。 2•随着样本含量的逐渐增大,对称性逐渐改善。 3.理论上可以证明: 若随机变量x服从正态分布,则其相应的样本方差S2的分布服从自由度为n-1的卡方分布。 一一s 4.标准差的标准误6=,2n 总体方差S2的100(1-a)%置信区间: 22 ((n-1)s(n-1)s 2,2 X1_: ./2X/2 由抽样引起的样本率(p)和总体率(n)的差异称为率的抽样误差(samplingerrorofrate),用率的标准误 (standarderrorofrate)度量。 如果总体率n未知,用样本率p估计 I型错误(弃真): 拒绝实际正确的H0,I型错误的概率记为ao(1-a)即置信度: 重复抽样时,样本区间 包含总体参数(m)的百分数。 II型错误(纳伪): 不拒绝实际不正确的HO,II型错误的概率记为B。 (1-B)即把握度(或检验效能) 两总体确有差别,被检出有差别的能力 单个总体均数的假设检验 1.总体方差已知,采用Z检验 2.总体方差未知,采用t检验: 自由度n-1 第七节总体率的假设检验 例数较少时,采用二项分布的概率公式计算 当nn》5,且n(1-n)>5(n大,n不接近0,1)时近似正态分布,可计算Z统计量n0为已知总体均数 检验方法的选择: 假设检验的基本步骤 一•建立检验假设,确定检验水准 二•选择检验方法和计算统计量 三•确定概率P值和作岀统计推断: P值是在H0成立前提下,比样本统计量(Z、t、F值等)更极端的概率。 四、根据统计推断结果,结合相应的专业知识,给岀一个专业的结论。 两总体均数差异性检验 大样本(两组例数均>50例): z近似,t更精确 配对设计资料均数的比较 1.异源配对: 将受试对象按某些混杂因素(如性别、年龄、窝别等)配成对子,然后将每对中的两个个体随机分配给两种处理(如处理组与对照组),对子成对岀现,仅对对子中的两个体进行随机。 2.同源配对(或自身配对): 同一受试对象作两次不同的处理(如甲法、乙法),或一种处理的前后比较。 优点: 配对设计减少了比较对子间的个体差异。 特点: 资料成对(对子编号),利用每对数据间的差值(d)作比较 : =n-1 d-%d-0d =— Sd/ 完全随机设计两总体均数的比较 实验设计: 用完全随机设计(completelyrandomdesign)方法,把受试对象随机分为两组,分别给予不同处理, 然后比较独立的两组样本均数。 各组对象数不必严格相同。 但两组例数相等,可提高检验效能。 两总体均数的Z检验 当总体方差已知时,应使用Z检验 大样本(如两组例数均>50例)情况下,尽管总体方差未知,也可用样本方差取代总体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 生物 统计学 基本概念 公式