社会统计学期末复习Word文件下载.docx
- 文档编号:20720008
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:29
- 大小:814.61KB
社会统计学期末复习Word文件下载.docx
《社会统计学期末复习Word文件下载.docx》由会员分享,可在线阅读,更多相关《社会统计学期末复习Word文件下载.docx(29页珍藏版)》请在冰豆网上搜索。
=0.1;
≠0.1
D.
0.1;
≤0.1
8.下面哪一项不是方差分析中的假定()
A.每个总体都服从正态分布
B.观察值是相互独立的
C.各总体的方差相等
D.各总体的方差等于0
9.判断下列哪一个不可能是相关系数(D)
A.-0.9
B.0
C.0.5
D.1.2
10.用于说明回归方程中拟合优度的统计量主要是(C)
A.相关系数
B.离散系数
C.回归系数
D.判定系数
11.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。
这项研究的总体是(C)
A.332.1万户家庭
B.3000户家庭
C.332.1户家庭的年均收入
D.3000户家庭的年均收入
12.下列变量属于数值型变量的是(A)
A.工资收入
B.产品等级
C.学生对考试改革的态度
D.企业的类型
13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形(B)
A.环形图
B.饼图
C.直方图
D.条形图
14.在频数分布表中,频率是指(C)
A.各组频数与上一组频数之比
B.各组频数与下一组频数之比
C.各组频数与总频数之比
D.各组频数与最大一组频数之比
15.两个定类变量之间的相关分析可以使用(C)
A.
系数
B.
系数
C.
D.Gamma系数
16.根据一个样本均值求出的90%的置信区间表明()
A.总体均值一定落入该区间内
B.总体均值有90%的概率不会落入该区间内
C.总体均值有90%的概率会落入该区间内
D.总体均值有10%的概率会落入该区间内
17.已知某单位职工平均每月工资为3000元,标准差为500元。
如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的(B)
A.95%
B.68%
C.89%
D.90%
18.方差分析的目的是(C)
A.比较不同总体的方差是否相等
B.判断总体是否存在方差
C.分析各样本数据之间是否存在显著差异
D.研究各分类自变量对数值型因变量的影响是否显著
19.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间()
A.相关程度越大
B.相关程度越小
C.完全相关
D.完全不相关
20.正态分布中,
值越小,则(A)
A.离散趋势越小
B.离散趋势越大
C.曲线越低平
D.变量值越分散
21.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为(A)
A.简单随机抽样
B.系统抽样
C.整群抽样
D.分层抽样
22.某地区2001-2010年人口总量(单位:
万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据(D)
A.茎叶图
B.环形图
C.饼图
D.线图
23.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值()
A.是平均数的-1.5倍
B.比平均数少1.5
C.等于-1.5倍标准差
D.比平均数低1.5个标准差
24.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是(A)
A.89
B.72
C.88
D.95
25.某班级学生期末英语考试平均成绩为75分,标准差为10分。
如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的()
A.68%
B.89%
C.90%
D.95%
26.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为()
A.700
B.0.2
C.3500
D.175000
27.在假设检验中,不拒绝虚无假设意味着()
A.虚无假设是肯定正确的
B.虚无假设肯定是错误的
C.没有证据证明虚无假设是正确的
D.没有证据证明虚无假设是错误的
28.在因变量的总离差平方和中,如果回归平方和所占的比例越大,则两变量之间()
A.相关程度越高
B.相关程度越低
C.完全相关
D.没有任何关系
29.从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差分别为()
A.234,121
B.117,121
C.234,48.4
D.117,81
30.在回归方程中,若回归系数等于0,这表明(B)
A.因变量y对自变量x的影响是不显著的
B.自变量x对因变量y的影响是不显著的
C.因变量y对自变量x的影响是显著的
D.自变量x对因变量y的影响是显著的
31.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。
这种调查方法属于(C)
B.整群抽样
C.分层抽样
D.系统抽样
32.某企业职工的月收入水平分为以下五组:
1)1500元及以下;
2)1500-2000元;
3)2000-2500元;
4)2500-3000元;
5)3000元及以上,则3000元及以上这一组的组中值近似为()
A.3000元
B.3500元
C.2500元
D.3250元
33.对于右偏分布,平均数、中位数和众数之间的关系是()
A.平均数>
中位数>
众数
B.中位数>
平均数>
C.众数>
平均数
D.众数>
中位数
34.两组数据的平均数不相等,但是标准差相等。
那么()
A.平均数小的,离散程度小
B.平均数大的,离散程度大
C.平均数大的,离散程度小
D.两组数据离散程度相同
35.在假设检验中,如果所计算出的P值越小,那么检验的结果()
A.越显著
B.越不显著
C.越真实
D.越不真实
36.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着()
A.高度相关
B.中度相关
C.低度相关
D.极弱相关
37.回归平方和(SSR)反映了y的总变差中()
A.由于x与y之间的线性关系引起的y的变化部分
B.除了x对y的现有影响之外的其他因素对y变差的影响
C.由于x与y之间的非线性关系引起的y的变化部分
D.由于x与y之间的函数关系引起的y的变化部分
38.根据一个具体的样本求出的总体均值90%的置信区间()
A.以90%的概率包含总体均值
B.绝对包含总体均值
C.10%的可能性包含总体均值
D.绝对不包含总体均值
39.在假设检验中,虚无假设和备择假设()
A.都有可能成立
B.都不可能成立
C.有且只有一个成立
D.备择假设一定成立,虚无假设不一定成立
40.在方差分析中,某一水平下样本数据之间的误差称为(A)
A.组内误差
B.组间误差
C.组内平方
D.组间平方
二、名词解释
1.抽样单位与抽样框:
抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。
若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
好的抽样框应做到:
完整而不重复。
常见的抽样框:
大学学生花名册、城市黄页里的电话列表、工商企业名录、街道派出所里居民户籍册、意向购房人信息册……。
在没有现成的名单的情况下,可由调查人员自己编制。
应该注意的是,在利用现有的名单作为抽样框时,要先对该名录进行检查,避免有重复、遗漏的情况发生。
以提高样本对总体的代表性。
例如:
要从10000名职工中抽出200名组成一个样本,则10000名职工的名册,就是抽样框。
2.普查与抽样调查:
普查是是专门组织的一次性的全面调查。
抽样调查是按随机原则从总体中抽取一部分单位进行调查,根据调查的结果推断总体的一种调查方法。
1.从总体中随机抽取一部分单位(样本)进行调查2.目的是推断总体的未知数字特征;
3.最常用的调查方式;
4.具有经济性、时效性强、适应面广、准确性高等特点。
3.参数与统计量:
4.方差与标准差:
总体各单位标志值与其算术平均数离差平方的算术平均数的平方根,标准差的平方称为方差。
5.独立样本与配对样本:
6.总体与样本:
总体是一个特定研究中所有感兴趣个体集合;
样本是从一个总体中选择出来的个体的集合,通常在研究中被期望代表总体;
必须区分数据是来自总体还是样本。
描述总体的特性被称为参数;
描述样本的特征被称为统计量
参数和统计量是一个值,通常是一个数字值。
可分别从单个测量中得到,或从对总体和样本的一组测量中推导出来;
通常,每个总体参数都与一个样本统计量相对应。
凡是客观存在的并至少具有某一相同性质而结合起来的许多个别事物构成的整体,当它作为统计的研究对象时,就称为总体。
构成统计总体的个别单位称为总体单位。
二者关系:
包含与被包含;
相互转化:
随研究目的变化而变化。
7.抽样分布:
是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。
有了抽样分布对概率分布的具体化,研究者便找到了一种理论与实际相联系的有效途径。
抽样分布特指样本统计量作为随机变量的概率分布。
用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。
8.二维表:
组距数列的编制:
9.相关系数:
是对变量之间关系密切程度的度量。
对两个变量之间线性相关程度的度量称为简单相关系数(简称相关系数)
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
若相关系数是根据样本数据计算的,则称为样本相关系数,记为r
10.组内均方:
11.普查:
是专门组织的一次性的全面调查。
1.为特定目的专门组织的非经常性全面调查;
2.通常是一次性或周期性的;
3.一般需要规定统一的标准调查时间;
4.数据的规范化程度较高;
5.应用范围比较狭窄。
12.误差减少比例:
13.散点图:
各种类型的散点图
在回归分析中,数据点在直角坐系平面上的分布图。
散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
散点图将序列显示为一组点。
值由点在图表中的位置表示。
类别由图表中的不同标记表示。
散点图通常用于比较跨类别的聚合数据。
14.正态分布:
正态分布是最具典型意义的连续型随机变量的概率分布。
一般地讲,若影响某一变量的随机因素很多,而每个因素所起的作用不太大且相互独立,则这个变量服从正态分布。
更为重要的是,不论总体是否服从正态分布,只要样本容量n足够大,样本平均数的抽样分布就趋于正态分布。
它是最重要的概率分布:
(1)许多自然现象和社会现象,都可用正态分布加以叙述;
(2)当样本足够大时,都可用正态近似法解决变量的概率分布问题;
(3)许多统计量的抽样分布呈正态分布。
15.最小二乘法:
又称最小平方法。
是一种数学优化技术。
它通过最小化误差的平方和寻找数据的最佳函数匹配。
利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
最小二乘法还可用于曲线拟合。
其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
它是点估计的常用方法之一。
点估计:
又称定值估计,就是用实际样本指标数值作为总体参数的估计值。
点估计的常用方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。
概率抽样的基本原则是:
样本量越大,抽样误差就越小,而样本量越大,则成本就越高。
16.概率抽样:
又称随机抽样.概率抽样以概率理论为依据,通过随机化的机械操作程序取得样本,所以能避免抽样过程中的人为因素的影响,保证样本的客观性.虽然随机样本一般不会与总体完全一致,但它所依据的是大数定律,而且能计算和控制抽样误差,因此可以正确地说明样本的统计值在多大程度上适合于总体,根据样本调查的结果可以从数量上推断总体,也可在一定程度上说明总体的性质,特征.概率抽样主要分为简单随机抽样,系统抽样,分类抽样,整群抽样,多阶段抽样等类型.现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本.
17.中位数:
一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数,注意:
和众数不同,中位数不一定在这组数据中)。
中位数是一组数据的中间水平。
意义:
反映了一组数的一般情况。
中位数的优缺点:
中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,有时用它代表全体数据的一般水平更合适。
直观印象描述:
一半比“我”小,一半比“我”大。
18.相关系数:
是变量之间相关程度的指标。
样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围为[-1,1]。
|r|值越大,误差Q越小,变量之间的线性相关程度越高;
|r|值越接近1,Q越大,变量之间的线性相关程度越低。
相关系数又称皮(尔生)氏积矩相关系数,说明两个现象之间相关关系密切程度的统计分析指标。
相关系数用希腊字母γ表示,γ值的范围在-1和+1之间。
γ>
0为正相关,γ<
0为负相关。
γ=0表示不相关;
γ的绝对值越大,相关程度越高。
两个现象之间的相关程度,一般划分为四级:
如两者呈正相关,r呈正值,r=1时为完全正相关;
如两者呈负相关则r呈负值,而r=-1时为完全负相关。
完全正相关或负相关时,所有图点都在直线回归线上;
点子的分布在直线回归线上下越离散,r的绝对值越小。
当例数相等时,相关系数的绝对值越接近1,相关越密切;
越接近于0,相关越不密切。
当r=0时,说明X和Y两个变量之间无直线关系。
通常|r|大于0.8时,认为两个变量有很强的线性相关性。
19.区间估计:
以一定的概率保证估计包涵总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。
包涵两个部分:
1)可能范围的大小;
2)总体指标落在这个可能范围的概率。
注:
在其它条件不变的情况下,缩小抽样误差就意味着增加调查费用,因此,在进行抽样调查时,应该根据研究目的和任务以及研究对象的标志变异程度,科学确定允许的误差范围。
区间估计:
计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。
20.中心极限定理:
是概率论中讨论随机变量序列部分和的分布渐近于正态分布的一类定理。
这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。
中心极限定理实际解决了大样本均值的检验问题。
它是概率论中最重要的一类定理,大大拓展了正态分布的适用面,有广泛的实际应用背景。
21.假设检验:
亦称“显著性检验(Testofstatisticalsignificance)”,是假设检验用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。
假设检验的思想是,先假设两者相等,然后用统计的方法来计算验证你的假设是否正确。
用的假设检验有Z检验、T检验、配对检验、比例检验、秩和检验、卡方检验等。
假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。
具体作法是:
根据问题的需要对所研究的总体作某种假设,记作H0;
选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;
由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。
常用的假设检验方法有u—检验法、t—检验法、X2检验法、F—检验法,秩和检验等。
统计检验是指先建立一个关于总体情况的假设,继而抽取一个随机样本,然后以样本的统计量或者统计性质来检定假设。
统计检验的依据是小概率原理:
一是认为小概率事件在一次观察中是极少出现的;
二是如果在一次观察中出现了小概率事件,那么应该否定原有事件具有小概率的说法或者假设。
22.经验法则:
可以准确地估算近似钟形分配量测组的分配型态,如下图“钟形分配”,数据组的相对次数直方图愈接近钟形(bell-sharped)分配,法则愈正确。
钟形分配通常称为常态分配
经验法则被定义为已知量测组近似钟形分配,其区间在
1、(μ+1σ)或(x+1s)将包含约68%的量测值。
2、(μ+2σ)或(x+2s)将包含约95%的量测值。
3、(μ+3σ)或(x+3s)将包含几乎100%的量测值。
三、简答题
1.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。
(1)网络供应商的姓名
(2)每月的网络服务费
(3)每月上网时间
(4)上网的主要目的
(5)上周收到的电子邮件数量
(6)每月用于网上购物的金额
(7)上月网上购物的次数
(8)使用的电脑的品牌
(9)上网是否玩游戏
(10)电脑是否带有光盘刻录机
2.调查方法主要包括哪几种?
简要说明各种方法的优缺点。
答:
(一)普查(census):
1.为特定目的专门组织的非经常性全面调查,如人口普查、工业普查等
2.通常是一次性或周期性的
3.一般需要规定统一的标准调查时间
4.数据的规范化程度较高
5.应用范围比较狭窄,只能调查一些最基本、最一般的现象
(二)抽样调查
1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
2.具有经济性、时效性强、适应面广、准确性高等特点。
(三)重点调查
1.重点调查:
是指在调查对象中,只选择一部分重点单位进行的非全面调查。
2重点单位:
着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。
(四)典型调查
典型调查是一种专门组织的非全面调查。
根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。
有人也认为它是“目的抽样”,以若干具有代表性的单位为样本。
▼注意:
重点调查、典型调查与抽样调查的不同处在于:
1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;
2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。
3.什么是简单一元线性回归分析?
其作用是什么?
什么是回归?
回归是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及其父母的身高时提出来的。
Galton发现身材高的父母,他们的孩子也高。
但这些孩子平均起来并不像他们父母那样高。
比较矮的父母情形也类似:
他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。
Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他给出的研究两个数值变量之间数量关系的方法称为回归分析。
什么是回归分析?
回归分析是对具有相关关系的变量拟合数学方程,通过一个或一些变量的变化解释另一变量变化的方法。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
4.简要说明社会研究过程。
5.按测度水平,变量可分为哪几类?
并举例说明。
6.简要举例说明在分析双变量的关系时,T检验和卡方检验的主要区别。
7.等距分组和不等距分组有什么区别?
请举例说明。
8.举例说明什么是自变量和因变量,二者之间是什么关系?
自变量是被研究者操纵的变量;
因变量是被观察的那个变量,用于评估处理效应;
9.简要说明卡方的拟合优度检验和独立性检验的含义。
10.条形图和直方图有什么区别?
条形图是用宽度相同的条形的高度或长短来表示数据变动的图形;
条形图有单式、复式等形式;
在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率;
绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。
直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。
对于定类变量和定序变量的分组,矩形(或长条)的宽度是没有意义的,各矩形之间要留出一定的空隙;
对于定距变量(和定比变量)的分组,矩形的宽度表示各组组距,各矩形之间一般不留空隙。
在等距分组的条件下,很显然各矩形的面积与其高度成正比。
因此,各矩形的面积同样可以用来表示各组的频数或频率,而且看起来更形象直观。
如果取各矩形的总面积为1,各矩形的面积必定等于各组的相对频数。
直方图是用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。
在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram);
直方图下的总面积等于1。
直方图下的面积之和等于1。
直方图与条形图的区别:
条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。
直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。
直方图的各矩形通常是连续排列,条形图则是分开排列。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会 统计学 期末 复习