汕头大学学硕医学统计学期末考历年考点回忆版.docx
- 文档编号:12535698
- 上传时间:2023-04-20
- 格式:DOCX
- 页数:13
- 大小:22.17KB
汕头大学学硕医学统计学期末考历年考点回忆版.docx
《汕头大学学硕医学统计学期末考历年考点回忆版.docx》由会员分享,可在线阅读,更多相关《汕头大学学硕医学统计学期末考历年考点回忆版.docx(13页珍藏版)》请在冰豆网上搜索。
汕头大学学硕医学统计学期末考历年考点回忆版
1、二项分布:
在阳性率为π的总体中随机抽样出许多大小为n的样本,出现的阳性率为x(x=1、2、3....n)的概率分布,这种分布称为二项分布。
2、Poission分布:
在单位时间、单位空间、单位容积内的某罕见事件发生的概率分布称为poission分布。
3、二项分布与poission分布的联系:
当总体的阳性率π很小时,样本数n趋向于无穷大时(n>100时,p小于0.01)二项分布趋向于poission分布。
二项分布和poission分布要求各时间之间相互独立,属于离散型分布。
4、假设检验的基本原理:
小概率事件原理。
假设检验的基本思想:
对总体的参数或分布进行检验假设,例如假设总体的分布服从正态分布,或两个总体的均数相等,再根据样本所获得的信息对总体的参数或分布进行假设检验,得出p值,做出推断结论,拒绝不拒绝检验假设。
5、假设检验的基本步骤:
(1)建立检验假设,确定检验水准:
①无效假设H0:
两总体的均数的差异仅由抽样误差导致,而两总体的均数相等。
从反证法的思想提出的。
②备择假设H1:
两总体的均数差异不仅是有抽样误差导致,而两总体的均数不相等。
确定检验水准,又称为显著性水准。
即拒绝实际上成立的无效假设,认为两总体之间存在差异的概率。
一般设置为0.05或0.01。
(2)计算统计量
(3)得出p值,做出推断结论
6、标准差与标准误的区别:
(1)标准差:
①意义:
描述个体观察值的变异程度的大小。
标准差越小,总体均数对总体的代表性越好。
②应用:
医学参考值范围的估计。
③与n的关系:
n越大,标准差越趋向于稳定。
(2)标准误:
①意义:
描述样本均数变异程度和离散程度大小。
标准误越小,样本均数对于总体均数的代表性越好。
②应用:
置信区间和假设检验。
③与n的关系:
n越大,标准误越小。
7、重复测量:
对同一研究对象在不同的场合(不同的时间、部位)进行多次测量。
8、协方差分析:
将线性回归与方差分析结合起来的,检验两组或多组修正均数之间有无差异的统计分析方法。
消除了其他混杂因素对分析指标的影响。
应用条件:
各组样本都是随机抽样于方差相同的总体,且在总体中的协变量与主要变量之间存在线性回归关系。
9、中位生存时间又称为半数生存期,指的是研究的对象恰好有百分之五十的人数上存活的时间。
优点时:
研究时间短,受到极端值的影响较小。
10、最小二乘法:
各实测的点到达估计的模型方程的纵向距离的平方和最小。
11、生存时间的概念和分类
生存时间是指从某个标准时间(如疾病诊断、确诊、开始治疗等)开始算起到死亡或者是复发为止的时间。
平均生存时间,半数生存时间。
12、直线相关与回归应用的注意事项:
①不能将两个毫无联系的事物或现象进行回归分析
②进行回归分析之前,先绘制散点图,观察两个变量之间是否存在线性趋势,发现异常值,如是错误所致,应予剔除。
③回归模型使用时的取值范围应根据样本取值的范围。
④两变量做回归分析时,自变量x是来自正态总体的随机变量或者是指定变量,应变量y是来自正态总体的随机变量。
13、在流行病学研究中,OR和RR的区别:
OR比值比,实验组中暴露人数与非暴露人数的比除以对照组中暴露人数与非暴露人数的比。
RR相对危险度,暴露组发病率与非暴露组发病率的比,反映暴露与疾病之间的联系。
区别:
OR值适用于病例对照研究,RR值适用于队列研究。
当发病率较低的时候,可以用OR值估计RR值。
14、正态分布:
频数分布以均数为中心,形成一个中间多,两侧逐渐减少的对称分布,越接近均数频数越多,越远离均数频数越少,用N(μ,σ)表示,它的分布位置形状与均数和标准差有关。
15、正态分布的特点:
①分布曲线关于x=μ对称
②当x=μ时,曲线到达最高点
③正态分布有两个参数:
均数、标准差
④正态分布曲线面积规律:
曲线与x轴之间的面积等于该范围内的频数的概率。
16、标准正态分布:
为了方便计算和应用,将正态分布曲线进行变u变换,得到的新变量u称为u分布,也称为标准正态分布,μ=0,σ=1。
17、可信区间与参考值范围的区别和联系:
95%参考值范围:
总体观察值中95%的个体观察值的估计范围。
若总体服从正态分布X±1.96S
95%可信区间:
按照95%的可信度对总体参数的估计。
若总体服从正态分布x+1.96σ
前者计算使用标准差,后者计算使用标准误。
18、重复实验设计的特点:
对同一研究对象进行≥三次的重复测量,获得重复测量数据。
重复测量设计各时间点是固定的,而随机区组设计的各组的处理是随机的。
19、偏回归系数表示当回归模型中的其他的因素固定不变时,所关心的变量x每增加一个单位,因变量y增加β个单位。
且可以根据数据资料具体的赋值情况从偏回归系数的正负号反映两变量之间影响的方向。
20、标准化回归系数,将各变量进行变换后,再进行回归方程的计算,通过标准化过程,消除了各变量的单位和离散程度的不同的影响,因此可以直接用来比较各因素对于总变异回归效应的大小。
21、决定系数R²:
回归平方和与总平方和的比值,反映回归贡献的相对程度,说明回归模型对于总变异解释的百分比。
22、直线回归与线性相关的联系与区别:
区别
(1)相关关系:
直线回归说明的是依存关系。
线性相关说明的是相关关系。
(2)对于资料的要求:
直线回归:
自变量x来自正态总体的随机变量或者是指定变量,因变量y是来自正态总体的随机变量。
线性相关:
自变量和应变量均为来自正态总体的随机变量。
联系:
(1)两变量之间存在相关关系,不一定存在因果关系。
两变量间存在因果关系,一定存在相关关系。
(2)关于同一资料的r和β的正负号是一致的。
(3)关于同一资料的r和β的假设检验是一致的。
23、RR与PAR的概念
RR是相对危险度,暴露组发病率与非暴露组发病率的比,反映暴露与疾病相关密切程度。
PAR是人群归因危险度,暴露组发病率与非暴露组发病率的差,反映发病归因于暴露的相关程度。
以及消除这个暴露因素人群发病率可减少的程度。
24、卡方检验的基本思想是反映实际频数与理论频数的吻合程度。
用途:
①两个或多个样本率或构成比的比较②检验两个变量之间的关联性③频数分布的拟合优度的检验。
25、生存分析统计方法的特点:
①数据分布大多都不服从正态分布
②有删失数据
③数据由随访得到,同时考虑了生存时间和生存结局。
26、t分布曲线的特征:
①t分布是一组单峰对称于x=0的曲线
②t分布曲线的形状与自由度有关,自由度越大,标准差越小,曲线的两侧越低,中间越高;自由度越小,标准差越大,曲线的两侧越高,中间越低。
③当自由度趋向于无穷大时,t分布曲线越趋向于正态分布曲线。
27、双侧、单侧检验:
根据专业知识,当认为μ可能大于或者可能小于μ0时,选择双侧检验;当认为μ可能大于,不可能小于μ0(或者是相反)时,选择单侧检验。
双侧检验永远是正确的。
单侧检验只适用于少数情况。
选择单侧检验还是双侧检验,应事先确定。
单侧检验:
有某种倾向。
双侧检验:
无任何倾向。
28、第一类错误,又称为假阳性错误,即当无效假设正确时,却错误地认为有差别,去真存伪。
统计学上认为的差异有统计学意义,实际上就时允许第一类错误发生的概率。
用α表示。
第二类错误,又称假阴性错误,即当无效假设不正确时,却错误地认为无差别,取伪错误。
用β表示。
其他条件不变时,增大样本量可以较少第二类错误发生的概率。
同时正确的实验设计也可以减少抽样误差,提高检验效能。
29、p值的正确理解:
①p值与实际的资料数值无必然关系。
②p值的大小,要根据事先确定的检验水准α来判断。
③p值是在无效假设的前提下,得到的观察值的概率。
④p值越小,说明无效假设越不可靠。
30、实际差别与统计意义。
当样本量小时,即使是数据的实际差别很大,但可能差别无统计学意义。
当样本量很大时,即使数据的实际差别不大,但是差异有统计学意义。
31、u检验的应用条件:
资料服从正态分布,标准差已知。
①样本均数与总体均数的比较②两大样本均数的比较
t检验的应用条件:
小样本资料,标准差未知。
①样本均数与总体均数的比较②两样本均数的比较③配对设计的资料的比较
配对设计:
两组样本的观察值因为某种联系一一结成对子的情况。
32、常用的配对方式:
①对同一研究对象采用两种不同的处理办法测定的结果比较
②对同一研究对象的两个不同部位测定的结果比较
③对同一研究对象处理前后观察值的比较
④动物配对后随机分配到两个不同的处理组,试验后测定的观察值的比较
33、方差分析的基本思想是检验两个或两个以上样本均数的有无差异的统计检验方法。
方差分析将所有测量值的总变异根据其变异的来源分解为多个部分,然后进行分析,推断各因素引起的变异是否具有统计学意义。
34、拉丁方设计是对两个以上标志,且各个标记具有相同的水平数的资料进行方差分析。
优点:
可以从较少的数据资料信息中得到较多的信息量。
缺点:
①要求资料的各标志具有相同的水平数,在实际应用中有一定的局限性。
②而且各因素之间若存在交互效应也不适用。
35、析因设计:
当有两个或两个以上因素,且各因素有至少两个水平的全面设计。
36、在数据分析阶段控制昏则因素的方法:
采用分层分析,将资料按混杂因素进行分层分组,再进行分析,若各水平分组之间的观察值一致,说明该混杂因素对于变异的影响无统计学意义,若各水平分组之间的观察者不易这时,可通过标准化的方式来调整。
*实验过程中避免混杂因素的方法:
①限制入法:
对实验组和对照组的研究对象的入组条件加以限制
②匹配:
按照可疑的混杂因素进行匹配,使其在各组间同等分配。
③随机:
严格随机化可消除各种影响因素在各组之间分布的差异
37、生存分析产生结尾数据的原因。
在随访收集资料的过程中,只知道病人的死亡时间大于某时间,而不知道病人的确切死亡时间。
①失访-病人失访或是因为其他的原因死亡
②终访-到了研究的终止时间病人尚未死亡
38、与两两比较的t检验相比,方差分析为什么可以保证发生一型错误的概率不变,还可以对多个因素进行分析?
两两比较不宜用t检验,因为这会割裂了实验整体设计,增加了一型错误的概率。
方差分析可将资料的总变异根据其变异的来源分解为多个部分,包括组间和组内或是处理、区组和误差,然后进行分析,分析各因素引起的变异是否具有统计学意义。
*方差分析应用于:
①均数差别的显著性检验②分离各有关因素并估计其对总变异的意义③分析因素间的交互作用④方差齐性检验
39、多个样本比较的kruskal-wallisH检验适用于什么资料的分析?
①等级资料
②不宜进行参数检验的计量资料
40、多从两两比较应注意什么?
(1)先进行等级资料的Kruskal-wallisH检验,p≤0.05,组间差异具有统计学意义,再进行两两比较
(2)多重两两比较采用“两样本的Mann-Whitneytest”,得p值。
(3)但是p值不能根据0.05来判断大小,应对检验水准进行调整,调整的方法:
①各组之间两两进行比较:
α’=0.05/[g(g-1)/2]
②各个实验组与对照组之间多重比较:
α’=0.05/(g-1)
g=组数
根据α’来判断,p≤α’时,差异有统计学意义。
41、应用相对数的注意事项:
①样本量要足够大,即分母不宜过小。
这是因为在医学临床研究中或在流行病学研究中,某些偶然因素会导致结果的较大变化。
②构成比不能代替率。
因为构成比不能说明某现象发生的频率。
③正确计算合计率。
④注意资料的可比性。
如研究对象是否同质,研究方法是否相同。
⑤注意不同时期的客观条件是否不同,如因为医疗的普及,就诊机会增加以及诊疗技术的提高,发病率“升高”。
⑥样本率或构成比比较时,应先对样本率或构成比做假设检验
42、logistic回归分析与卡方检验有何联系?
单因素分析时,影响因素为二分类变量,单因素logistic回归分析与卡方检验的检验结果一致。
但是但多因素分析时,影响因素为多分类变量,卡方检验得到的信息量远没有logistic回归分析得到的信息量大。
卡方检验只反映了该影响因素总体构成比上的差别。
而logistic回归分析不仅反映了该影响因素在总体构成比上的差别,而且可以直接获得该因素的各哑变量水平假设检验的结果。
43、多重共线性,是指线性回归模型中的解释变量之间存在精确相关关系或是是高度相关关系,导致回归模型失真或者难以估计准确。
44、非参数检验的优缺点:
(1)优点:
①对于总体分布形式无具体要求,不涉及总体的参数,检验的是分布,而不是参数。
②便于资料的收集,可以用“等级”或“符号”来记录观察值。
③多数非参数检验的统计方法使用较为简便,易于理解和掌握。
(2)缺点:
损失了资料的原始信息。
适用于参数检验的资料用非参数检验,会减低检验效能。
45、线性回归方程中回归系数的意义
b为斜率或称为回归系数。
当b>0时,说明当其他影响因素的水平固定时,应变量y随着自变量x的增大而增大,随着x的减小而减小;当b<0时,应变量y随着自变量的增大而减少,随着x的减少而增大;当b=0时,说明自变量x与应变量y之间没有线性关系。
46、等级资料:
在医学研究中,尤其是在临床医学研究中,经常会遇到一些定量的指标,比如说疾病的分期,症状严重程度的分级等,对这些资料分成若干个等价,然后分类计数,得到的数据就称为等级资料或者有序资料。
47、等级资料正确的统计方法:
非参数检验的符号秩和检验
Spearman的等级相关分析
线性趋势的卡方检验
有序变量的logistics回归分析
48、中位数检验的意义:
在单样本资料分析中,人们想要检验总体的均数是否等于某个一直的参数。
而在实际应用中,人们往往更为关注的是比较两个总体的未知参数。
例如说两种训练方法哪种更容易出成绩,两种治疗方法哪个效果更好。
49、析因设计:
当研究的处理因素是两个或两个以上,且每个处理因素至少有两个水平的全面组合时称为析因设计。
析因设计主要分析的是:
①单独效应:
指其他处理因素水平固定时,某因素不同水平的差别。
②主效应:
某因素不同水平的平均差别。
③交互效应:
某因素的单独效应随着其他因素的变化而变化时,则这两个因素之间存在交互效应。
50、配对t检验与成组t检验的区别?
(1)成组t检验的随机性更强,而配对t检验的目的性更强、效率更高。
(2)配对t检验是成组t检验的特例,常见的配对t检验的情形:
①配对的两个同质的受试对象随机分配对不同的处理组。
②同一受试对象接受两种不同的处理
③同一受试对象两个不同部位给与不同的处理
④同一受试对象处理前后的观察值的比较
(3)成组t检验也称为两个独立样本的t检验,适用于完全随机设计的两样本资料均数的比较,将受试对象随机分配到两个处理组,两个处理组随机接受一种不同的处理。
51、非参数检验:
当样本来自的总体不服从某一分布的具体形式,或者不知道服从于什么样的分布时,解决这类问题,可以采用非参数检验的方法。
非参数检验不依赖于总体分布的具体形式,不涉及总体参数,它检验的分布,而不是参数。
52、假设检验与区间估计的联系?
(1)区别:
当根据样本统计量推断未知参数时,则这种推断叫参数估计。
当根据样本的统计量推断已知参数时,通过统计量检验已知的参数是否可靠,这种推断叫假设检验。
(2)联系是:
二者都是根据样本得到的统计量来对参数进行推断。
53、同一资料内标准差一定小于平均数吗?
同一资料内标准差与均数之间没有必然联系。
均数是描述一组资料观察值的平均水平。
而标准差是描述单峰对称分布资料离散程度的常用指标。
标准差越大,说明观察值的变异程度越大,即一组观察值分布较为离散。
标准差越小,说明观察值的变异程度越小,即一组观察值分布较为集中。
54、直线回归与多元线性回归的异同点;
(1)相同点:
①都是研究变量之间的线性关系
②都是根据最小二乘法原理
③都是通过计算得到回归系数,进而得出回归方程
④需要结合专业知识背景
(2)不同点:
①变量数:
直线回归研究的是两变量,而多远线性回归研究的是多个影响因素。
②资料的要求:
直线回归要求因变量y服从正态分布,而多元线性回归要求因变量y的残差服从正态分布。
③对于混杂因素的处理:
直线回归未能消除混杂因素,而多元线性回归可消除混杂因素的影响。
54、完全随机设计的两样本率比较时,正确选择统计方法:
①当n≥40,所有的T≥5时,用卡方检验的基本公式、或四格表资料卡方检验的专用公式、或四格表资料的fisher确切概率法。
②当n≥40,但有1≤T<5时,用四格表资料的卡方检验的校正公式或四格表资料的fisher确切概率法。
③当n<40或T<1时,用四格表资料的fisher确切概率法。
*需根据具体各个各自的T值来选择统计方法,如果需要校正而未校正时,可能会得到相反的结果。
55、常见的三类误差是什么?
应采取什么措施控制?
①过失误差:
由于操作不认真,导致测量或记录错误。
提高操作员的技术以及认真的态度。
②系统误差:
由于仪器未校正导致的误差。
在操作前对所有测量仪器统一校正。
③随机测量误差:
对同一研究对象多次测量得到的观察值不同。
由于不同的操作员的技术差异,或者是操作员的技术不稳定导致。
可加强对操作员的培训,或固定某一操作员。
56、抽样中要求每一个样本应具备哪三性?
随机性、代表性、可靠性
57、标准正态分布与t分布有何区别?
(1)相同点:
都是关于x=0对称分布的曲线。
标准正态分布是t分布的特例(当自由度无穷大时)
(2)不同点:
标准正态分布的形态是固定不变的,与自由度无关。
而t分布的形态与自由度有关系,当自由度越低,标准差越大,t分布曲线的两侧越高,中间越低。
当自由度越高,标准差越小,t分布曲线的两侧越低,中间越高。
58、统计图表用途:
统计分析中,用统计图表描述资料在数量方面的大小,变动趋势,分布情况以及相关关系更为直接明了,代替了冗长的文字叙述,便于阅读和理解。
59、t分布与正态分布的不同点:
①正态分布是与自由度无关的一条曲线,而t分布是与自由度有关的一簇曲线
②t分布曲线较与正态分布曲线,中间较低,两侧较高。
③t分布是关于x=o对称的曲线,它的位置固定。
而正态分布是关于x=μ对称的曲线,位置不固定。
60、抽样误差:
由于个体的存在差异,从总体中抽取的样本只包含部分的个体,随机抽取的样本的均数往往不等于总体均数,这种由于抽样引起的误差称为抽样误差。
由于个体之间的差异是客观存在的,因此抽样误差是不可避免的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汕头大学 医学 统计学 期末 历年 考点 回忆