统计学考试要点整理.docx
- 文档编号:9289998
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:20
- 大小:441.54KB
统计学考试要点整理.docx
《统计学考试要点整理.docx》由会员分享,可在线阅读,更多相关《统计学考试要点整理.docx(20页珍藏版)》请在冰豆网上搜索。
统计学考试要点整理
本文档仅供参考,仍有不足,有许多名词没有交待,需自己补充。
本资料与课本,课后习题册搭配使用效果更好,有疑问联系大正
生物统计学整理
第一部分名词解释
1生物统计学:
是一门探讨如何从事生物学实验研究的设计,取样,分析,资料整理与推论的科学.是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。
2总体:
统计学研究的全部对象叫做总体,分为无限总体和有限总体。
3个体:
构成总体的每个成员称为个体。
4样本:
总体的一部分称为样本
5样本含量:
样本内包含的个体数目称为样本含量
6抽样:
从总体中获得样本的过程。
7连续性数据:
与某种标准做比较所得到的数据称为连续型数据,又称为度量数据
8离散型数据:
由记录不同类别个体的数目所得到的数据,称为离散型数据
9变量的方法:
对连续性数据进行分析的方法,通常称为变量的方法
10属性的方法:
对离散型数据进行分析的方法
11对于数据的变异程度,经常使用的度量方法有三中,1范围或称为极差2平均离差3标准离差或称为标准差
12概率论:
研究偶然现象本身规律性的科学
13统计学:
基于实际观测结果,利用概率论得出的规律,揭示偶然性中所寄寓的必然性的科学
14随机实验:
在我们做第一次观测时,并不能准确得知下一次的结果,这样的实验叫做随机实验
随机误差:
试验过程中,由于各种无法控制的随机因素所引起统计量与参数之间的偏差,称之为随机误差。
15基本事件:
试验的每一最基本结果用小写拉丁字母表示
16事件:
基本事件的集合,用大写拉丁字母表示
17样本特征数:
数据集中点的度量~~平均数,数据变异程度的度量---标准差和数据分布的对称程度及陡峭程度的度量----偏斜度和峭度,这些数字是描述样本频率分布特征的,称为数据样本特征或简称为样本特征数
18离差平方和:
将所有离均差都平方,然后相加,所得到的和,成为~
19样本方差s*s:
用样本含量n或者n-1除离差平方和而得到一个平均数,称为~
20偏斜度:
度量数据围绕众数陈不对称得程度即所称的~
21三阶中心矩:
m3=[∑(x-x杠)∧3]/n这个m3矩,因为是三次方二称为三阶;又因为(x-x杠)表示x与平均数的离差,所以称为中心的。
m3的分母是n而不是n-1。
相应地m’3=[∑x∧3]/n称为三阶原点距
二阶见课本16页
22古典概型:
随机试验的全部可能的结果(即本事件数)是有限的,各基本事件间是互不相容且等可能的,这类随机现象的概率类型称为~
23条件概率:
事件B已经发生的条件下,事件A发生的概率,这是的概率称为已知事件B发生的条件下,事件A发生的条件概率
24概率乘法法则:
两事件交的概率,等于其中一事件(概率必须不为0)的概率乘以另一事件在已知前一事件发生条件下的概率
25随机变量:
随机试验中被测定的量
26观测值:
随机变量所取得的值
27离散性随机变量:
如果随机变量可能取得的数值为有限个,或可数无穷个孤立的数值,则称为~
28连续性随机变量:
如果随机变量可取某一(有限或无限)区间内的任何数值,则成为~
29概率函数:
离散型随机变量X,可能取得的数值为有限个或可数无穷个孤立的数值。
因此,对于X的每个值都能得出一个概率值。
可以将随机变量X所取得值x的概率P(X=x)写成x的函数p(x),这样的函数称为随机变量X的概率函数
30密度函数、分布函数字母太麻烦,课本36
31统计量:
x杠和s方、都是从样本数据计算出来的,统称成为~,描述样本特征的数量
32参数:
μ和σ是总体恒定的量,称为参数.,描述总体特征的数量
33总体特征数:
描述概率分布特征的数字称为总体特征数,包括随机变量的数学期望,方差和各阶矩
34数学期望:
所谓X或X的函数的数学期望,即它们的理论平均数
35二项分布课本42
36泊松分布:
在二项分布中,当某事件出现的概率特别小(ᵩ→0),而样本含量又很大(n→∞)且nᵩ=μ时,二项分布就成泊松分布了
37标准正态分布:
μ=0,σ=1的正态分布
38中心极限定理:
58页
39抽样分布:
从一个已知的总体中,独立随机的抽取含量为n的样本,研究所得样本的各种统计量的概率分布,即所谓的~
40样本误差、自由度课本63
41卡方分布64页
42零假设H0:
总体平均数是未知的,为了得到对总体平均数的推断,可以假设总体平均数μ等于某一给定的值μ0(μ=μ0)。
或者说,μ与μ0的差等于零,这样的假设成为~
43备则假设:
与零假设相对立的假设,它是在拒绝H0的情况下,可供选择的假设
44统计假设检验:
总体参数估计课本69页
45显著性检验、显著性水平、检验统计量、拒绝域、临界值课本70页
46单侧检验、上尾检验、下尾检验、Ⅰ错误课本71
47无偏估计量:
如果一个统计量的理论平均数,即它的数学期望等于总体参数,这个统计量就被称为~
48点估计:
由用样本数据所计算出来的单个数值,对总体参数所作的估计称为~
49有效估计量:
在样本含量相同情况下,如果一个统计量的方差小于另一个统计量的方差,则前一个是更有效的估计量
50相容估计量:
若统计量的取值,任意接近于参数值的概率随样本含量n的无限增加而趋于1,则该统计量称为参数的~
51区间估计96页
52置信水平、置信区间97
53拟合优度检验:
用来检验试剂观测数与依照某种假设或模型计算出来的理论书之间的一致性,以便判断该假设或模型是否与观测数相配合。
也包括两种错误,1如果某一模型正确但拒绝了它,就会犯Ⅰ型错误2当某一模型不正确,却错误接受了它,会犯Ⅱ型错误
54列联表:
卡方检验是另一类型的卡方检验,可以用它检验事件间的独立性或者说检验处理之间的差异显著性
55单因素117
56固定效应、随机效应118
57最小显著差数法LSD126页
58方差分析具备的三个条件128页
第二部分简答
1.几种字母的意义
样本各种特征用拉丁字母表示:
¯x~~平均数s方~~~方差s~~标准差¯x~~平均数,s方~~~方差称为统计量
总体各种特征用希腊字母表示:
μ~~~平均数σ方~~~~总体方差σ~总体标准差σ,μ称为参数
2.什么叫总体?
什么叫样本?
为什么要抽样?
怎样抽样?
1)总体:
统计学研究的全部对象叫做总体,分为无限总体和有限总体。
2)样本:
总体的一部分称为样本
3)从总体中获得样本的过程称为抽样,抽样的目的是希望通过对样本的研究,推断其总体。
生物统计学中往往总体数目是无限个,为方便研究总体特征需要抽样。
4)从总体中抽取样本时,总体中的每一个个体被抽中的机会必须都一样,不能带有偏见,我们得到的样本应该是该市总体的一部分,需要进行随机抽样。
随机抽样的方法很多,例如抽签,拈阄等。
最好方法是使用随机数字表进行抽样。
5)随即数字表抽样步骤:
第一步,闭上眼睛用铅笔在随机数字表上任意点上一点,假若点到奇数,就用第一页表;假若点到偶数,就用第二页表。
第二步,在选定的那一页上,在点一次,决定从那个字开始。
决定开始以后进行读书(例如,总体有4728个个体,那就四位数字为一节读下去,不考虑数字间隙。
)可以正读,倒读,横向读,纵向读,也可以沿对角线方向读。
直到读取得数字个数与要取得样本个数相同时才结束。
3.从一个有限总体中,采取放回式抽样和非放回式抽样,所得样本有什么不同?
答:
1)放回式抽样是指:
从总体中抽出一个个体,记下他的特征后,放回总体中,再做第二次抽样。
这样抽样方式可能会重复抽到某一个体。
2)非放回式抽样:
从总体中抽出个体后不再放回。
3)不同:
采用放回式抽样,在各种抽样间是相互独立的;而采用非放回式抽样,在各次抽样间是非独立的。
4)补充:
对无限总体而言,两者无区别。
3.什么是统计假设?
答:
假设总体平均数μ等于某个值μ0(μ=μ0),然后,通过样本数据去推断这个假设是否可以接受。
若果可以接受,样本很可能抽自这个总体,否则,很可能不是抽自这个总体。
这就是统计假设检验。
4.统计假设目的?
答:
有一个样本或一系列样本所得到结果来推断总体的特征。
5.简述统计假设检验中两类错误的定义及其关系。
答:
假设检验中主要有两类错误,I型错误和II型错误。
当零假设H0本来是正确的,但拒绝了H0,这类错误称为I型错误,由于这种错误的概率用α表示,所以又称为α型错误;当零假设H0本来不正确但却又接受了H0,这类错误称为II型错误,这类错误的概率以β表示,因而又叫做β错误。
两类错误的关系:
(1)统计检验中两类错误即α错误和β错误。
两类错误的定义,α错误是弃真错误,又称为Ι型错误,β错误是Ⅱ型错误,又称为取伪错误;
(2)α错误和β错误相互之间的关系是:
α大时,β小;α和β不能同时减少。
6.统计假设有哪几种?
它们的含义是什么?
答:
有零假设和备择假设。
零假设:
假设抽出样本的那个总体之某个参数(如平均数)等于某一给定的值。
备择假设:
在拒绝零假设后可供选择的假设。
7.小概率原理的含义是什么?
它在统计假设检验中起什么作用?
答:
小概率的事件,在一次试验中,几乎是不会发生的。
若根据一定的假设条件,计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而否定假设。
小概率原理是显著性检验的基础,或者说显著性检验是在小概率原理的基础上建立起来的。
8.什么情况下用双侧检验?
什么情况下可用单侧检验?
两种检验比较,哪一种检验的效率更高?
为什么?
答:
以总体平均数为例,在已知μ不可能小于μ0时,则备择假设为HA:
μ>μ0,这时为上尾单侧检验。
在已知μ不可能大于μ0时,则备择假设为HA:
μ<μ0,这时为下尾单侧检验。
在没有关于μ不可能小于μ0或μ不可能大于μ0的任何信息的情况下,其备择假设为HA:
μ≠μ0,这时为双侧检验。
两种检验比较,单侧检验效率更高,因为在单侧检验时,有一侧的信息是已知的,信息量大于双侧检验,因此效率高于双侧检验。
9.显著性水平是一个指数还是一个特定的概率值?
它与小概率原理有什么关系?
常用的显著水平有哪几个?
答:
显著性水平是一个特定的概率值。
在小概率原理的叙述中提到“若根据一定的假设条件,计算出来该事件发生的概率很小”,概率很小要有一个标准,这个标准就是显著水平。
常用的显著水平有两个,5%和1%。
10.配对比较法与成组比较法有何不同?
在什么情况下使用配对法?
如果按成组法设计的实验,能不能把实验材料随机配对,而按配对法计算,为什么?
答:
配对比较法:
将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对实验设计。
成组比较法:
将独立获得的若干实验材料随机分成两组,分别接受不同的处理,这种安排称为成组比较法。
在生物统计学中,只有遗传背景一致的成对材料才能使用配对比较法。
如果按成组比较法设计的实验,不能把实验材料进行随机配对而按配对法计算。
因为这种配对是无依据的,不同配对方式所得结果不同,其结果不能说明任何问题。
11.为什么会产生I型错误?
为什么会产生II型错误?
两者的关系是什么?
为了同时减少犯两种错误的概率,应采取什么措施?
答:
在H0是真实的情况下,由于随机性,仍有一部分样本落在拒绝域内,这时将拒绝H0,但这样的拒绝是错误的。
即,如果假设是正确的,却错误地据绝了它,这时所犯的错误称为I型错误。
当μ≠μ0,而等于其它的值(μ1)时,样本也有可能落在接受域内。
当事实上μ≠μ0,但错误地接受了μ=μ0的假设,这时所犯的错误称为II型错误。
为了同时减少犯两种错误的概率,应当增加样本含量。
12.统计推断的结论是接受H0,接受零假设是不是表明零假设一定是正确的?
为什么?
“接受零假设”的正确表述应当是什么?
答:
统计推断是由样本统计量推断总体参数,推断的正确性是与样本的含量有关的。
以对平均数的推断为例,当样本含量较少时,标准化的样本平均数u值较小,很容易落在接受域内,一旦落在接受域内,所得结论将是接受H0。
如果抽出样本的总体参数μ确实不等于μ0,当增加样本含量之后,这种差异总能被检验出来。
因此接受H0并不表明H0一定是正确的。
接受H0的正确表述应当是:
尚无足够的理由拒绝H0。
尚无足够的理由拒绝H0并不等于接受H0。
13.配对比较法与成组比较法有何不同?
在什么情况下使用配对法?
如果按成组法设计的实验,能不能把实验材料随机配对,而按配对法计算,为什么?
答:
配对比较法:
将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对实验设计。
成组比较法:
将独立获得的若干实验材料随机分成两组,分别接受不同的处理,这种安排称为成组比较法。
在生物统计学中,只有遗传背景一致的成对材料才能使用配对比较法。
如果按成组比较法设计的实验,不能把实验材料进行随机配对而按配对法计算。
因为这种配对是无依据的,不同配对方式所得结果不同,其结果不能说明任何问题。
14.如果一个配对实验设计,在处理数据时使用了成组法计算,后果是什么?
答:
对于一个配对设计,在处理数据时按成组法计算,虽然不能认为是处理错误,但会明显降低处理的敏感性,降低了检验的效率。
15.算术平均数是怎样计算的?
为什么要计算平均数?
答:
算数平均数由下式计算:
,含义为将全部观测值相加再被观测值的个数除,所得之商称为算术平均数。
计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。
16.然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?
答:
标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
17.标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?
答:
变异系数可以说是用平均数标准化了的标准差。
在比较两个平均数不同的样本时所得结果更可靠。
18.完整地描述一组数据需要哪几个特征数?
答:
平均数、标准差、偏斜度和峭度。
19.从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?
为什么?
本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?
答:
不是简单的随机样本。
从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。
应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。
20.生物统计学的作用:
?
答:
1).提供整理、描述数据资料的科学方法并确定其特征。
2).判断试验结果的可靠性。
3).提供由样本推断总体的方法。
4).试验设计的原则
21.连续型随机变量的概率分布
答:
1).连续型随机变量可以取某一区间或整个实数轴上的任意一个值2.它取任何一个特定的值的概率都等于0。
3).不能列出每一个值及其相应的概率4.通常研究它取某一区间值的概率5.用数学函数的形式和分布函数的形式来描述
22.假设检验?
特点?
步骤?
答:
假设检验:
又称显著性检验:
根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断。
如果抽样结果使小概率事件发生,则拒绝假设。
如果抽样结果没有使小概率事件发生,则接受假设
特点:
(1)采用逻辑上的反证法
(2)依据统计学上的小概率原理
生物统计学上,一般认为:
等于或小于0.05或0.01的概率为小概率
在一次试验中,一个几乎不可能发生的事件发生的概率。
假设检验的步骤:
1、提出假设2、确定适当的检验统计量
3、确定显著性水平a4、计算概率5、推断是否接受假设
23.检验与t检验的区别是什么?
并写出t检验的步骤,F检验的步骤。
答:
t检验和F检验均是平均数的差异显著性检验的两种方法,但前种方法仅是两个平均数的差异显著性检验,而后者是多个平均数差异显著性检验。
t检验的步骤是:
1.提出假设
2.构造统计量t
3.查表找出两个小概率的t值
4.判断
F检验的步骤是:
1。
计算平方和与自由度
2.F值的计算
3.多重比较
24.请简述显著性检验的判定标准。
第一步:
提出假设:
H0:
x=x0(没有显著的差异);HA:
x≠x0(间有显著的差异);其中H0为原假设,HA为备选假设。
第二步:
根据题和需要,选取a值(a=0.05或者a=0.01)
第三步:
利用Excel自带公式或数据分析库计算概率值。
第四步:
根据第三的计算结果,对题中的问题进行推断。
2、简述方差分析的基本步骤
F检验均是平均数的差异显著性检验的一种方法,是多个平均数差异显著性检验。
F检验的步骤是:
1。
计算平方和与自由度
2.F值的计算3.多重比较
25.正态分布的特征?
1.当时,f(x)有最大值
2.当的绝对值相等的时候,f(x)值也相等
3.当的绝对值越大,f(x)值就越小,但永远不等于0
4.正态分布曲线完全由函数和来决定
5.正态分布曲线在处各有一个拐点
6.正态分布求和为0
26.标准正态分布的特点?
答:
1)在u=0时,ϕ(u)达到最大值
2)当u不论向那个方向远离0时,e的指数都变成一个绝对值越来越大的负数,因此μ(u)的指都在减小
3)曲线坐标轴两侧对称,即μ(u)=μ(-u)
4)曲线在u=-1,u=1处有两个拐点
5)曲线和横坐标所夹面积等于1
6)对于标准正态曲线的累积分布函数φ(u)的值,有编制好的数指表,从表中可以查出φ(u)值。
其值等于标准曲线与横坐标轴从-∞到u所夹的面积。
该曲线下面积表示随机变量U落入区间(-∞,u)的概率。
7)累计分布函数图形的特点:
曲线从-∞到0平稳上升,它围绕点(0,0.5)对称。
即将φ(u)绕此点,旋转180度,则曲线形状不改变。
对于任意分布函数F(x)来说,如果他的密度函数f(x)是对称的话,则上述情况亦成立。
8)重要数值:
u=-1到u=1面积=0.6827
u=-2到u=2面积=0.9543
u=-3到u=3面积=0.9973
u=-1.960到u=1.960面积=0.9500
u=-2.576到u=2.576面积=0.9900
9)正态分布的偏斜度ϒ1=0,峭度ϒ2=0
第三部分:
小知识点
1.在一个有限总体中要随机抽样应采用放回式抽样方法。
2.在实际抽样工作中,为了减小标准误,最常用的办法就是增大样品容量。
3.已知F分布的上侧临界值F0.05(1,60)=4.00,则左尾概率为0.05,自由度为(60,1)的F分布的临界值为0.25
4.衡量优良估计量的标准有无偏性、有效性和相容性。
5.已知随机变量x服从N(8,4),P(x<4.71)=0.05。
6.变量之间的相关关系主要有两大类:
(因果关系),(平行关系)
7.
8.算术平均数:
是所有观察值的和除以观察的个数
9.中位数:
将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为中位数,以Md表示
10.众数:
在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数,以Mo表示
11.几何平均数:
资料中有n个观测值,其乘积开n次方所得的数值,以G表示。
12.极差(全距):
样本数据资料中最大观测值与最小观测值的差值
13.t分布:
是小样本分布,小样本分布一般是指n<30。
t分布适用于当总体标准差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等
14.
卡方值是度量实际观测值与理论值偏南程度的一个统计量
卡方值越小,表明观测值与理论值越接近
卡方值越大,表明观测值与理论值相差越大
卡方值为0,表明H0严格成立,且它不会有下侧否定区,只能进行右尾检验
15.
16.选择例题
1)、下列数值属于参数的是:
A
A、总体平均数B、自变量C、依变量D、样本平均数
2)、下面一组数据中属于计量资料的是D
A、产品合格数B、抽样的样品数C、病人的治愈数D、产品的合格率
3)、在一组数据中,如果一个变数10的离均差是2,那么该组数据的平均数是C
A、12B、10C、8D、2
4)、变异系数是衡量样本资料A程度的一个统计量。
A、变异B、同一C、集中D、分布
5)、方差分析适合于,A数据资料的均数假设检验。
A、两组以上B、两组C、一组D、任何
6)、在t检验时,如果t=t0、01,此差异是:
B
A、显著水平B、极显著水平C、无显著差异D、没法判断
7)、生物统计中t检验常用来检验A
A、两均数差异比较B、两个数差异比较C、两总体差异比较D、多组数据差异比较
8)、平均数是反映数据资料B性的代表值。
A、变异性B、集中性C、差异性D、独立性
9)、在假设检验中,是以C为前提。
A、肯定假设B、备择假设C、原假设D、有效假设
10)、抽取样本的基本首要原则是B
A、统一性原则B、随机性原则C、完全性原则D、重复性原则
11)、统计学研究的事件属于D事件。
A、不可能事件B、必然事件C、小概率事件D、随机事件
12)、下列属于大样本的是A
A、40B、30C、20D、10
13)、一组数据有9个样本,其样本标准差是0.96,该组数据的标本标准误(差)是D
A、0.11B、8.64C、2.88D、0.32
14)、在假设检验中,计算的统计量与事件发生的概率之间存在的关系是B。
A、正比关系B、反比关系C、加减关系D、没有关系
15)、在方差分析中,已知总自由度是15,组间自由度是3,组内自由度是B
A、18B、12C、10D、5
16)、已知数据资料有10对数据,并呈线性回归关系,它的总自由度、回归自由度和残差自由度分别是A
A、9、1和8B、1、8和9C、8、1和9D、9、8和1
17)、观测、测定中由于偶然因素如微气流、微小的温度变化、仪器的轻微振动等所引起的误差称为D
A、偶然误差B、系统误差C、疏失误差D、统计误差
18)、下列那种措施是减少统计误差的主要方法。
B
A、提高准确度B、提高精确度C、减少样本容量D、增加样本容量
19)、相关系数显著性检验常用的方法是C
A、t-检验和u-检验B、t-检验和X2-检验C、t-检验和F检验D、F检验和X2-检验
20)、判断整体中计数资料多种情况差异是否显著的统计方法是B
A、t-检验B、F-检验C、X2-检验D、u-检验
21、在t检验时,如果t=t0、01,此差异是:
B
A、显著水平B、极显著水平C、无显著差异D、没法判断
22、已知数据资料有10对数据,并呈现线性回归关系,它的总自由度、回归自由度和残差自由度分别是A
A、9、1和8B、1、8和9C、8、1和9D、9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 考试 要点 整理