《统计学》重点归纳0625174335Word文档格式.docx
- 文档编号:13469782
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:12
- 大小:53.85KB
《统计学》重点归纳0625174335Word文档格式.docx
《《统计学》重点归纳0625174335Word文档格式.docx》由会员分享,可在线阅读,更多相关《《统计学》重点归纳0625174335Word文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
数值型变量
(2)性别:
分类变量
(3)汽车产量:
离散型变量
(4)员工对企业某项改革措施的态度(赞成、中立、反对):
顺序变量
(5)购买商品时的支付方式(现金、信用卡、支票):
3.随机抽样(概率抽样)的抽样方式。
(1)简单随机抽样
(2)分层抽样:
就是抽样单位按某种特征或者某种规则划分为不同的层,然后从不同的层中独立、随机地
抽取样本。
将各层的样本结合起来,对总体目标量进行估计。
(3)整群抽样:
(4)系统抽样
(5)多阶段抽样
分层抽样与整群抽样的区别:
分层抽样的层数就是样本容量;
整群抽样的群中单位的个数就是样本容量
4.非概率抽样的几种类型
(1)方便抽样
(2)判断抽样
(3)自愿样本
(4)滚雪球抽样
滚雪球抽样往往用于对稀少群体的调查。
在滚雪球抽样中,首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总特的调查对象,调查人员根据调查线索,进行此后的调查。
这个过程持续下去,就会形成滚雪球效应。
优点:
容易找到那些属于特定群体的被调查者,调查成本也比较低。
(5)配额抽样
比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:
抽样时按一定的概率以随机原则抽取样本。
每个单位别抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。
技术含量和成本都比较高。
如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样:
操作简单,时效快,成本低,而且对于抽样中的统计学专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
它同样使用市场调查中的概念测试(不需要调查结果投影到总体的情况)。
5.数据预处理内容
数据审核(完整性和准确性;
适用性和实效性),数据筛选和数据排序。
6.数据型数据的分组方法和步骤
分组方法:
单变量值分组和组距分组,组距分组又分为等距分组和异距分组。
分组步骤:
(1)确定组数
(2)确定各组组距
3)根据分组整理成频数分布表
7.散点图与饼图的主要用途
饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。
散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。
8.举例说明开口组组中值的计算方法
缺下限开口组组中值=上限-1/2邻组组距
缺上限开口组组中值=下限+1/2邻组组距
9.怎样理解平均数在统计学中的地位?
平均数在统计学中具有重要的地位,是集中趋势的最主要的测度,主要适用于数值型数据,而不适用于分类数据和顺序数据。
10.中位数与众数的区别
众数:
是一组数据中出现次数最多的变量值,用m0表示。
众数主要用于测度分类数据的集中趋势,
当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。
中位数:
是一组数列排序后处于中间位置上的变量值,用Me。
中位数主要用于测度顺序数据的集
中趋势,当然也适用测度数值型数据的集中趋势,但不适用于分类数据。
简述众数、中位数和平均数的特点和应用场合。
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。
众数只有在数据量较多时才有意义,数据量较少时不宜使用。
主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受极端值的影响。
当数据的分布偏斜较大时,使用中位数也许不错。
主要适合作为顺序数据的集中趋势测度值。
平均数对数值型数据计算的,而且利用了全部数据信息,在实际应用中最广泛。
当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。
但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。
11.
(第89页,第96页习题4.8
(1))
标准差系数(离散系数或变异系数)的计算及其应用
为什么要计算离散系数?
方差和标准差是反映数据分散程度的绝对值,一方面其数值大小受原变量值本身水平高低的影响,也就是与变量的平均数大小有关;
另一方面,它们与原变量的计量单位相同,采用不同计量单位的变量值,其离散程度的测度值也就不同。
因此,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
12.
什么是次序统计量
由小到大的排序x
(1)-X
(2)--X(i)一-X(n)中,第i个值X(i)就作为次序统计量X⑴的
序统计量
13.什么是自由度?
自由度:
随机变量所包含的独立变量的个数。
14.偏态系数(SK取值的不同意义
如果一组数据的分布是对称的,则偏态系数等于0;
如果偏态系数明显不等于0,表明分布是非对称的。
若偏态系数大于1或小于-1,成为高度偏态分布;
若偏态系数在0.5-1或-1--0.5之间,被认为是中等偏态分
布;
偏态系数越接近0,偏斜程度就越低。
15.中心极限定理的内容
2_
设从均值"
方差为二的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽
16.评价估计量的标准
(1)无偏性
无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。
设总体参数为9,所选择的估计量为9,
如果E(9)=9,则称9为9的无偏估计量。
(2)有效性
有效性是指对同一整体参数的两个无偏估计量,有更小的标准的估计量更有效。
在无偏估计的条件下,估
计量的方差越小,估计也就越有效。
(3)一致性
一致性是指随着样本量的增大,估计量的指越来越接近被估计总体的参数。
换而言之,一个大样本给岀的
估计量要比一个小样本给出的估计量更接近总体的参数。
17.简述样本量与置信水平、总体方差、估计误差的关系样本量越大置信水平越高,总体方差和边际误差越小
18.
大样本条件下总体均值的区间估计
-CF
X_2.n为置信下限;
XZ2r为置信上限,
-n
为事先确定的一个概率值,也称风险值,是
总体均值"
在「〉置信水平下的置信区间为:
总体均值不包括在置信区间的概率;
1_y为置信水平;
Z2是标准正态分布右侧面积为2时的Z值;
CJ
Z2n是总体均值的估计误差)
_2
(2)大样本条件下,方差'
未知,正态总体或非正态总体
在置信水平下的置信区间为:
-S
X—Z:
2,n
2
(S为样本方差,s为样本标准差)
19.置信区间可靠性与精确性的关系
置信度又称置信水平是对总体参数进行区间估计时构造的随机区间包含参数真值的概率。
精确度是对总体参数进行区间估计时构造的随机区间的平均长度。
置信度和精确度是评价区间估计优劣的两个标准,置信度度和精确度都高则说明区间估计较好,但是
二者是此消彼长的关系,提高置信度必将以降低精确度为代价。
20.假设检验和参数估计有什么相同点和不同点?
参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,然而推断
的角度不同。
参数估计讨论的是用样本统计量估计总体参数的方法,总体参数卩在估计前是未知的。
而在
参数假设检验中,则是先对卩的值提岀一个假设,然后利用样本信息去检验这个假设是否成立。
21.假设检验的种类及假设的正确写法
建设检验的一般流程:
首先提岀原假设和备择假设,分别为:
Ho:
Hi:
匚已知与否,等等。
然后,确定适当的检验统计量,需要考虑样本量的多与少,总体标准差
规定显著性水平
检验统计量的确定:
1若是大样本条件下,采用z统计量,计算公式为:
2若是小样本条件下,采用t统计量,计算公式为
(t统计量的自由度为n-1)
注:
即使是小样本,若c已知,仍可继续使用z统计量
最后,进行统计决策。
0(1-二
n
0)
比例问题的检验,z统计量的计算公式为:
(p为样本比例;
兀0为总体比例n的假设值)
(1)双侧检验
在双侧检验中,只要」或」两者之中有一个成立,就可以拒绝原假设
00
以大样本条件下为例,双侧检验的决策准则为:
若ZVZ2,不拒绝H。
若z>
z“2,拒绝H。
。
(Z的下标〉2表示双侧检验)
不能拒绝h。
不管双侧检验或是单侧检验,若使用P值检验,pvot,拒绝h0;
PX,
(2)单侧检验
1左单侧检验(下限检验)
希望所考查的数值越大越好
2右单侧检验(上限检验)
希望所考查的数值越小越好
22.大样本条件下总体均值的假设检验(192页例题)
5.总体方差假设检验的方法
2(n-1)s
(J
若进行双侧检验,在确定的:
-水平下,拒绝域分布在统计量分布曲线的两边;
若是单侧检验,拒绝域分布在
统计量分布曲线的一边。
具体在左还是在右,需根据原假设和备择假设
的情况而定。
若样本统计量设。
2>
2,则拒绝原假设;
若
0((n_l)
:
(nJ)
则不能拒绝原假
23.假设检验中犯两类错误及其概率之间的关系
假设检验的结果可能是错误的,所犯的错误有两种类型,一类错误是原假设H0为真却被我们拒绝了,
犯这种错误的概率用a表示,所以也称a错误或弃真错误;
另一类错误是原假设为伪我们却没有拒绝,犯
这种错误的概论用B表示,所以也称B错误或取伪错误。
两类错误之间存在什么样的数量关系:
在假设检验中,a与B是此消彼长的关系。
如果减小a错误,
就会增大犯B错误的机会,若减小B错误,也会增大犯a错误的机会。
故,二者是此消彼长的关系。
24.列联表的概念及自由度的确定
列联表是由两个以上的变量进行交叉分类的頻数分布表。
自由度=(R-1)(C-1)
简述列联表的构造与列联表的分布
两个以上的变量进行交叉分类的頻数分布表,包括观察值的分布与期望值的分布。
25.列联表检验的步骤(4个),即计算整统计量步骤
(1)计算f-f
0e
(2)计算f门一f2
(3)计算
fe
26.相关系数的计算及性质
n'
2;
2
-(\x)•My-ry)
肖一、X、y
简述相关系数性质:
(1)r的取值范围为-1到1,
1r=1时,完全正线性相关
2R=-1时,完全负线性相关
3R=0时,不存在线性相关关系
40>
r>
=-1,负线性相关
50<
r<
=1,正线性相关
6R越趋近于+—1,线性相关关系越密切
7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 重点 归纳 0625174335