书签分享收藏举报版权申诉 / 16

立即下载加入VIP,免费下载

当前位置：首页 > 农林牧渔 > 林学 > 医学统计学笔记12.docx

医学统计学笔记12.docx

文档编号：7429458
上传时间：2023-01-23
格式：DOCX
页数：16
大小：24.75KB

医学统计学笔记12.docx

《医学统计学笔记12.docx》由会员分享，可在线阅读，更多相关《医学统计学笔记12.docx（16页珍藏版）》请在冰豆网上搜索。

医学统计学笔记12.docx

医学统计学笔记12

医学统计学笔记统计学：

是收集、分析、解释与阐述数据资料的一门科学。

通过收集、分类、分析来处理数据变化的科学与艺术，获得可信结果。

医学统计学：

将概率论和数理统计的原理和方法应用于医疗卫生实践和医学科研，研究其数据的搜集、整理与分析的一门科学。

是认识人群健康与疾病数量特征的重要工具，是进行医药卫生科学研究的重要手段。

国外统计学家：

统计学并不能证明事物，但它能进行推断，发现线索，提供信息，使得人们有根据去改善事物。

科研原则：

随机化原则，对照原则，重复原则，齐同原则（均衡原则）。

统计内容：

设计，总体指标估计，假设检验，现象联系关系的分析，多因素分析，健康估计。

统计三大内容：

科研设计，统计描述，统计推断。

变量：

被观察和测量单位的特征。

变量值：

对变量的测量值。

同质：

被研究指标的影响因素相同或具有相同性质的事物。

变异：

在同质的基础上各观察单位之间的差异或同质事物之间的差别。

总体：

根据研究目的确定的同质的研究对象的全体。

（无限总体，有限总体）个体：

是构成总体最基本的观察单位。

样本：

从总体中按照一定的目的随机抽取的有代表性的部分观察单位。

（随机性，可比性，可靠性）。

从总体中按照一定的目的随机抽取的有代表性的部分观察单位。

（随机性，可比性，可靠性）。

样本含量：

样本中包含的个体数。

样本含量要大，越大越具代表性，随机抽。

参数：

刻画总体特征的指标（用希腊字母表示）是常数。

统计量：

样本系统指标（用拉丁字母表示）是变化的。

误差：

统计上所说的误差泛指测量值与真值之差，样本指标与总体指标之差（统计量与参数之差）有三种：

系统误差，随机测量误差，抽样误差。

误差：

统计上所说的误差泛指测量值与真值之差，样本指标与总体指标之差（统计量与参数之差）有三种：

系统误差，随机测量误差，抽样误差。

系统误差：

指数据搜集和测量过程中由于仪器试剂不准确，标准不规范等原因，造成观察结果倾向性的偏大或偏小。

特点：

倾向性（累加性），可避免。

随机测量误差：

由于非人为的偶然因素所致误差，对于同一样本多次测定结果不完全一样，结果有时偏大有时偏小。

特点：

无倾向性，不可避免，多次测量计算平均值可以减少甚至消除。

抽样误差：

在抽样过程中由于个体差异（本质）所致的统计量与参数之间的差异。

特点：

有抽样，抽样误差就不可避免，是客观存在，统计上可以计算并在一定范围内控制抽样误差。

过失误差：

由于操作者的失误造成的误差。

概率：

随机事件发生的可能性大小的数值。

0《P《1必然事件P=0，不可能事件，小概率事件：

，不可能事件，小概率事件：

P《0.05或或P《0.01，小概率原理：

小概率事件并不表示不可能发生，但在某一次试验中，是不会发生的。

在大量观察基础上，频率的稳定值为概率。

，小概率原理：

小概率事件并不表示不可能发生，但在某一次试验中，是不会发生的。

在大量观察基础上，频率的稳定值为概率。

统计资料类型：

计量资料：

描述指标，对每个观察单位用定量的方法测量某项指标量的大小所得的资料，有计量单位。

计数资料：

相对数，将观察单位按性质或类别分类，然后清点各组观察单位的个数所得的资料。

等级资料：

将观察单位按某种属性的不同程度分组，然后清点各组观察单位的个数所得的资料。

新分法：

数值变量（计量），分类变量（用定性的方法得到的资料），二项多类变量（计数），多项分类变量：

有序多项分类变量（等级），无序多项分类变量（计数）。

步骤：

研究设计是指科学研究具体内容，方法的设想和计划安排，主要包括：

调查设计，实验设计，临床试验设计等。

五原则：

随机，对照，重复，类同，盲法原则；目的：

使科研结果符合四性---有用性，创新性，可靠性，经济型。

收集资料任务：

按设计的要求及时取得准确、可靠、完整的原始资料。

资料来源：

第一手资料：

经常性统计资料，工作记录；一时性专题调查，实验或临床试验。

第二手资料：

已公布的资料，如数据银行等。

整理资料目的：

净化资料，使原始数据的条理化、系统化。

所采用手段---检查核对数据---合理分组、目的---实现专业目标质分组：

按事物的属性或性质分组--分类变量量分组：

按数据的大小---数值变量分析资料统计描述：

用统计指标，统计图表对资料的数量特征及分布规律进行测定和描述；统计推断：

用样本推断总体的特征参数估计，假设检验统计学的功能：

收集，分类，分析，解释数据资料。

统计描述：

用适当的统计图表和统计指标来描述资料的分布规律及其数量特征。

数据变量的统计描述：

频数表，集中趋势，离散程度，分布。

直条图表离散型变量连续性变量频数的分布、分组、步骤极差：

R=XmaxXmix步骤：

找出数据的极差，确定组数、组距（i=R/组数）（相对取整，不遵循四舍五入）。

直方图适用于连续性变量频数的表达。

正态分布（钟形曲线）一定是对称分布，但对称分布不一定是正态分布。

频数分布表用途：

使资料系统化、条理化、便于进一步分析；便于观察数据的分型、类型（正态分布，偏态）；便于发现资料中远离群体的特大或特小的可疑值。

平均数：

是描述一组观察值集中趋势或平均水平的统计指标体系。

常作为一组数据的代表值用于分析和进行组间的比较。

均数：

值算术均数。

公式。

。

均数的应用：

对称分布，尤其适用于正态分布（近似正态分布）资料。

几何均数应用：

偏正态分布（轻度偏态分布的资料经对数变换成对称分布资料）；适用于等比基数资料。

不用于：

见零的数据资料；数据中同时有正负数时（负数没有对数）。

中位数：

M，也是平均数的一种，将一组观察值从小到大按顺序排列，位次居中的数值。

M=X（n+1/2）（奇数）；M=1/2（Xn/2+Xn/2+1）（偶数）。

。

应用：

明显偏态分布资料；频数分布的末端无确定数值的资料，理论上可用于任何分布资料。

：

百分位数：

。

可用来描述资料的观察值序列在某百分位置的水平。

众数：

在样本中出现的次数最多的数值；也是总体中出现机会最高的数值。

调和均数：

H，取原数据倒数的算术均数，该算术均数的倒数称。

。

，适用于参差不齐的数据分布资料。

指标意义应用算术均数平均数量水平对称分布，正态分布几何均数对数转换的平均数量水平对数转换的平均数量水平呈倍数关系，对数正态，等比资料中位数位次居中的偏峰分布，分布不明，无末端值众数出现次数最多在一组数据中不少数据重复出现时离散程度指标：

全距R亦称极差优点：

计算简单缺点：

仅考虑了Xmax，Xmix，不能反映组内其它观察值的变异度；样本含量越大，抽到较大或较小观察值的可能性越大，故全距可能越大；样本含量相差悬殊时不宜用全距比较。

四分位数间距：

适用于描述偏态分布以及分布的一端或两端无确切数据资料的离散程度。

公式QuQL优点，不受Xmax，Xmix影响；缺点，未考虑全部观察值得变异度。

平均偏差：

优点，全面考虑观察值的变异程度；缺点，取绝对值。

方差：

记2，总体方差样本方差：

S2优点：

全面考虑观察值的变异情况；缺点，平方后度量衡单位cm--cm2标准差：

用途表示变量值的离散程度，衡量均数的代表性，标准差小，离散程度小，代表性强；用来计算变异系数；用于估计变量值的分布情况；可用于制定医学参考值（正常值）；可用于计算标准误。

表示变量值的离散程度，衡量均数的代表性，标准差小，离散程度小，代表性强；用来计算变异系数；用于估计变量值的分布情况；可用于制定医学参考值（正常值）；可用于计算标准误。

变异系数：

又称相对偏差Rsi，用途：

度量衡单位不同，均数相差悬殊。

特征：

对称性；集中性（集中于中等大小数据附近）；两个参数u--位置参数，总体均数--总体标准差，系统参数；均匀分布，曲线分布呈均匀性；正态曲线在+1S处各有一个拐点；正态曲线下的面积必定等于1，正态分布下的面积分布有一定规律。

1.96---95%2.58---99%用途：

1.用于制定医学参考值；指特定的正常人群（排除了对研究指标有影响的疾病和有关用来特定的同质人群）的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围；样本含量足够大100，分双侧，单侧。

2.利用正态曲线下面积分布规律，估计变量值频数的分布情况。

3.进行误差分析和检查的质量控制。

实验中的测量误差也服从正态分布的。

标准样品：

配制标准曲线的。

质控图判断异常的8种情况：

有一个点超过三个标准差，即在控制线以为；连续有6个点呈稳定的增加或减少；在中心线一侧连续有9个点；连续14个点交替上下；连续3个点中有2个点超过2个标准差，即在警戒线以外；中心线一侧或两侧连续15个点距中心线距离都在1个标准差以内；中心线一侧或两侧连续8个点距中心线距离都超出1个标准差范围。

4.正态分布是许多统计方法的基础。

某些统计量的抽样分布是在正态分布的基础上推导出来的；t分布，二项分布等的极限形式表现为正态分布；对一些偏态分布的资料，有时也可通过变量变换，转换成正态分布，然后按正态分布规律处理。

用小样本用t检验，大样本用u检验。

如何判断资料是否为正态分布：

图示法，频数表法P--P图，Q--Q图；假设检验，w检验（3《n《100），D检验（10《n《2019）。

距法：

动差法，偏度与峰度检验。

抽样误差：

由于抽样与变异造成的统计量与参数，或统计量与统计量之间的差异。

标准误：

反映样本均数抽样误差的大小，反映统计量的离散程度。

说明样本均数的可靠度。

T分布：

是以0为中心，随自由度而变化的一簇左右对称的曲线。

T分布只有一个参数即自由度，V=n1，自由度越大，t分布越接近于正态分布，当自由度比较无穷大时，t分布趋向于标准正态分布。

自由度：

指计算某一统计量时，能够自由取值的变量的个数。

T分布图形特征：

单峰分布，以0为中心，左右对称，类似正态；自由度V越小，则t越大，t值越分散，曲线的峰部越矮，尾部越高；随着V升高，t分布逐渐逼近标准正态分布。

t分布主要用于总体均数的区间估计及t检验。

Ti分布与标准正态分布的比较：

都为单峰，t分布的峰顶比正态分布低，两端高。

总体均数的估计，参数估计用样本统计量估计总体参数；方法：

总估计，可信区间估计，标准误用途：

均数的可靠程度；总体均数的可信区间；用于假设检验。

可信区间两要素：

准确度：

反映在可信度的大小，即可信区间包括总体参数，概率的大小，其概率愈接近1准确度愈高。

精密度：

反映区间的长度，区间长度愈小精度越高，可信区间随样本的不同而变化，而总体均数u是固定参数。

总体参数u有95%的可能性在可信区间内（错误）标准差标准误意义变量离散程度，反映均数的代表性抽样误差的指标衡量均数的代表性衡量均数的可靠程度用途意义；计算变异系数；估计变量值分布情况；去顶医学参考值；可用于计算标准误抽样；估计总体均数的可信区间；假设检验样本含量无穷大时不因样本变大或变小而变大变小，样本含量小时，不稳定，样本大时，趋于稳定加大样本含量，标准误变小，无穷大时，趋于0性质离变量值的离散程度统计量的离散程度联系正比关系离散程度小，标准差小，成正比，二者均表示离散程度，前者表示观察值变量，后者表示样本均数与总体均数（即统计量）的离散程度，标准差不能控制，但标准误可以控制（加大样本含量）大小不能控制大小可控制符号不一样区别与联系标准差标准误意义描述变量值得离散程度，衡量均数的代表性表示统计量抽样误差大小，衡量均数的可靠程度用途医学参考值总体均数的可信区间样本含量趋于衡定趋于稳定性质变量值得离散程度统计量的离散程度联系正比关系假设检验的意义：

判断差别是抽样误差所致还是本质的差别。

为何要做假设检验：

样本均数和样本率比较，它们之间的差别可能有两种原因造成：

它们是来自同一总体，它们之间的差别是由抽样误差所致；并非来自同一总体，其差别不完全由抽样误差的原因而是有本质差别；为了判断原因必须通过假设检验来回答。

假设检验的原理：

首先假设被比较的两个或几个均数（率）分别来自同一个总体，而它们间的差异仅仅是由于抽样误差所致，然后根据资料数据的类型，分布，样本含量的大小和利用科研设计的要求等，选择检验的方法，计算相应的统计量，去推断这种抽样误差的可能性大小，即P值的大小，如果P值较大，则认为他们间的差异是由于抽样误差所致的可能性较大，而实际存在本质差异的可能性较小，故接受假设，否定反之。

如何确定用单侧或双侧一般情况下用双侧，初学者用双侧，除非有足够的理论证明事物是朝一个方向发展的。

第一步：

确定假设检验和检验标准；第二步：

选择方法确定统计量；第三步：

确定P值作出推断。

t检验应用的条件是计量资料，要求样本来自正态分布的总体；两样本均数比较时，还要求量总体方差具有齐性，但实际工作中，只要其分布为单峰呈近似对称分布也可应用。

是否相同，一样，一律用双侧，通过问题来判断，优于，高于，，用单侧。

配对设计：

减少实验的误差和个体差异，提高统计学效率。

同一受试对象身体两个部位的数据；同一受试对象处理（实验或治疗）前后的数据；同一样品用两种方法检验的结果；两种同质受试对象分别接受两种处理。

t检验应用条件，要求计量资料，样本来自正态分布总体，两样本均数比较时要求两总体方差相等。

U检验：

样本含量较大或总体标准差已知时，t分布与标准正态分布较接近，此时宜用u检验。

显著性检验的注意事项：

要有严密的抽样研究设计，保证组间的可比性；选用假设检验方法，应符合其适用条件；正确选择检验水准，确定单、双侧检验（科研设计时）；正确理解差别有无显著性的统计意义；报告结论时写明P值的确切范围；所下值不能绝对化。

。

结论根据P值下的，P值是概率。

不能把P值大小理解为两个均数的大小。

P=0.0380.05错误，统计学上出现三个0时写成P0.001，不要写P=1（为必然事件）写成P0.9或P0.05假设检验与区间的估计可信区间具有假设检验的主要功能（可信区间可以回答假设检验的范围）；可信区间比假设检验可提高更多的信息；变量变换是指将原始数据作某种函数转换。

使各种方差达到齐性；使资料转化为正态分布，以满足某些检验的应用条件；直线化（曲线拟合）。

数据变换平方根正弦报告，样本服从二项分布，但其率偏小（0.3或0.7）时偏离正态，进行平方根反正弦变换，可使资料接近正态，达到方差齐性。

倒数变换数据两端波动大的资料，可使其极端值得影响减小。

第四章多个均数比较，不能用两样本均数比较的t检验。

若用两样本均数比较的t检验进行多重比较，将会加大一类错误（把本无差别的两个总体均数判为有差别）的概率。

方差分析，AnalysisofvarianceANovA方差分析又称变异分析。

R.A.Fisher英国统计学家基本思想是把全部观察值之间的变异（总变异）按设计和需要分为若干部分，每部分都有一定意义，其中至少一部分表示各组均数的变异（组间变异）另一部分表示误差所致的变异，然后计算变异间的比值（F值），可以认为处理因素无作用，否则反之，若F值接近1，。

。

组内变异有随机误差和抽样误差，组间变异有抽样误差，随机及时间等。

应用条件各样本是来自自态分布的总体；各样本是相互独立的随机样本；样本均数所在总体方差具有齐性。

应用范围。

可用于两个或两个以上的均数的假设检验；方差齐性检验；有无交互效应的分析；回归系数的显著性检验。

Duunett法，用于多个实验组与一个对照组化比较，其统计量为dLSD，最小显著性，适用于一对或几对在专业上有特殊意义的样本均数间的比较；SNK--q检验，亦称q检验，适用于多个样本均数两两之间的全面比较。

多个样本方差的齐性检验用Bartlett检验。

多个均数比较方差齐性检验（Bartlett）不齐变量变换齐齐秩和检验应应用统计软件完全随机设计随机区组设计单因素方差分析多因素方差分析有无显著性无分析结果有多个样本均数两两比较多样本均数全面比较多个实验组与一个对照组其中几个均数比较q检验DunnettLSD检验第五章计算资料的统计描述相对数：

两个有关数据的之比；绝对数：

实际观察到的那个数据强度相对数：

率常用相对数的指标：

患病率=患病人数/调查人数xK;发病率=观察期内新发病例数比同期内可能发生该病的平均人数xk；感染率=感染人数比检查人数xK;死亡率=某年内的死亡人数比同年内的平均人口数乘以百分之1000；病死率=死于某病的人数比该病的患病总人数乘以百分之100；漏诊率=未被诊断为某病的病人数比确实为该病的病人数乘以百分之100；误诊率=确实不是某病的人数比被诊断为该病的病人数乘以百分之100.构成比：

又称构成指标，等于某组成部分的观察单位数比各组成部分的观察单位总数乘以100%特点：

总和等于100%或1，不能同时增大或减小。

相对比：

反映指标同一的相对水平，等于甲指标比乙指标。

应用相对数主要事项：

分母不能太小；比与率不能混用；合差率（总率）的计算；可比性，总率比较时需要看内部构成；抽样误差，假设检验。

率的标准化：

意义和基本思想：

当比较两组或多组资料，其内部各小组明显不同，且多小组观察例数的构成比，诸如年龄、性别、工龄、病情轻重、病情长短等也明显不同时，直接比较两个或多个合计率是不合理的，因为其内部构成不同往往影响合计率的大小。

条件：

小组构成影响总率，小组构成各部相同，比较总率。

方法：

直接法，适用条件，各小组率已知标准选用标准人口。

间接法：

只有总发生数和年龄别人口数而缺乏年龄别发生率时，或各年龄组人口数小，年龄别发生率不稳定时，宜用间接法。

由于理论方面的问题，尽量少用间接法，最好不用。

各小组率不清楚时选用，但已知总体，标准选用标准发生率。

作为论文发表一般选用有代表性的。

方法直接法间接法标准组年龄别标准人口Ni，年龄别标准人口构成Ci标准率年龄别阳性率Pi和总体的阳性率P被标准化组各年龄组阳性率Pi各年龄别人口数ni和总的阳性数r计算公式见课本注意事项：

1.标准化率仅适用于几个合计率的比较，而内部构成不同而影响合计率，除上述以外，不用标准化率。

2.概率不能反映实际水平，只能用于比较反映的是相对水平。

3.选用标准不同，概率会改变，但比较结果只有一个，不能改变，因此，在作标准化率比较时，要选用同一个标准物。

4.比较样本标化率也要作显著性检验。

动态数例及其分析指标。

增长速度=发展速度100%或=发展速度1.11/27日离散型变量分布，特点：

重复试验是彼此独立的；每次试验只有两种互斥的结果之一；每次试验产生某种结果的概率是固定的。

应用：

概率估计；总体的可信区间估计；进行显著性检验；样本率与总体率比较（近似正态法）满足近似正态条件时要求P不是太小，nxp和nx（1p）5,可用U检验，U=p-／６ｐ，．．．二项分布，见公式。

。

卡方检验，用途：

单个频数分布的拟合优度检验；完全随机设计两组频数分布Ｘ２检验；多组频数分布的ｘ２检验；配对设计下两组频数分布ｘ２检验；理论数与实际数差别的显著性检验；分析两分类变量（属性现象）之间有无关系的推断。

用于检验两组及两组以上样本率，构成比，理论数与实际数之间差别的显著性检验，用于频数分布拟合优度检验，还可用于分析的。

。

特性：

卡方分布无负值，因各个（Ａ－Ｔ）２／Ｔ均为正值，卡方分布为０无穷大；卡方分布的形状是自由度决定的，因（Ａ－Ｔ）２／Ｔ的个数愈多，卡方值也就愈大，卡方分布的形状是随自由度不同而改变的，随自由度增大其曲线逐渐趋于对称，当自由度大于３０时，则其分布形状近似正态分布。

四格表资料的ｘ２检验：

＋－合计甲乙ａｂａ＋ｂｃ＋ｄｃｄａ＋ｃｂ＋ｄａ＋ｂ＋ｃ＋ｄｎ４０，Ｔ５时，用ｘ２公式，ｎ４０,１Ｔ5时，用校正公式。

n40,或T1时，四格表的确切概率法。

X2=u2，这种关系仅仅适用于四格表而且np和n（1-p）5的情况。

12月4日行X列表资料的X2检验公式：

适用条件：

总样本不能太小至少大于50；理论数不能小于1；理论数在1--5之间不能多于1/5的总格子数。

合并，删除，加大样本含量（最好用）A研究目的为多个样本率的比较，可用行X列表资料的X2检验，必要时进一步分割X2检验，有3个样本率；a=a/N,a=a/N+1,a=a/2（k-1）B行x列表中的试验部分组变量是有序的（如药物浓度），而指标变量是无序的（如染色体损伤类型），此单向有序资料可用行X列表资料的X2检验。

行x列表中试验分组分变量是无序的（如资料方式）而指标变量是有序的（如疗效等），此单向有序资料用秩和检验，如果用x2检验，只能说明构成比不同。

研究目的为分析两个分类变量之间的有无关联性以及密切程度时，可用x2检验及Pearson。

。

双向有序属性相同的行x列表资料，如用两种方法对同一抽样进行测定，但测定结果用3个及以上的等级表示，其研究目的的通常是分析两种方法检出的一致性，此时宜用一致性检验或Kappa检验。

若分析两个双向有序属性分类变量之间是否存在相关关系，可用秩相关。

若分析两个双向有序属性分类变量之间是否有线性变化趋势，宜用有序分组资料的线性趋势检验。

配对资料的X2检验甲法乙法+合计+ab_cd合计（AT）2X2=T=b+c/2一般少用。

T专用公式：

x2=（b+c）2/（b+c）差异性检验：

b+c大于等于40时，用专业公式。

b+c小于40时，x2=（|bc|1）/（b+c）。

P115页Fisher确切概率法：