社会研究的统计应用复习笔记Word文件下载.docx
- 文档编号:18715271
- 上传时间:2022-12-31
- 格式:DOCX
- 页数:16
- 大小:67.38KB
社会研究的统计应用复习笔记Word文件下载.docx
《社会研究的统计应用复习笔记Word文件下载.docx》由会员分享,可在线阅读,更多相关《社会研究的统计应用复习笔记Word文件下载.docx(16页珍藏版)》请在冰豆网上搜索。
)单峰和对称的特质,因此众值、中位值和均值都是相同的;
(2)X与其均值(
)的差异愈大,其次数会愈少,但不会等于零;
换言之,曲线两端逐渐减降,但不会接触底线。
二、标准正态分布
为什么要用标准正态分布呢?
1、由于不同的变项会用不同的度量单位,即使是同一变项也可能用不同的度量单位,结果形成不同大小和不同形状的正态分布;
2、它们的均值与标准差数值各不相同,其扁平或高耸的程度也各有不同。
如果我们分别计算每一种正态分布各部分面积,就会很麻烦;
3、以标准差为单位的好处,是可以使正态分布标准化,不受变项的度量单位所影响。
由此可知,将正态分布的数值改用标准差为单位是有重要的意义,可以将不同形态的分布归纳为一种分布,简化了统计分析的工作。
这个以标准差为单位的正态分布,一般称为标准正态分布。
如果正态分布是以标准差(S)为单位,则每个变项就变为:
上述的Z称为“标准值”,代表每个X值在标准正态分布上的数值。
标准正态分布的均值是0,标准差是1。
第三章 简化两个变项这分布
第一节 统计相差的性质
1、相关:
一个变项的值与另一个变项的值有连带性。
换言之,如果一个变项的值发生变化,另一个变项的值也有变化。
2、正相关 负相关
第二节 简化相关与消减误差
我们选择测量法的标准:
1、注意变项的测量层次;
2、两个变项之间的关系是对称的还是不对称的;
3、最好选择统计值有意义的相关测量法。
在统计学中有一组相关测量法,其统计值具有消减误差比例的意义,称为PRE测量法。
所谓PRE测量法的意义,就是表示用一个现象来解释另一个现象时能够消减百分之几的错误。
第四章 相关测量法与测量层次
第一节两个定类变项:
Lambda,tau-y
一、Lambda相关测量法:
对称:
不对称:
=X变项下的每个值之下Y变项的众值次数
二、tau-y系数是属于布对称相关测量法
Tau-y=
=Y变项的某个边缘次数
=X变项的某个边缘次数
第二节两个定序变项:
Gamma,dy
一、G系数属于对称相关测量法
二、dy相关测量
第三节两个定距变项:
简单线性回归和积距相关
一、简单线性回归分析
1、它是根据一个方程式,以一个自变项(X)的数值来预测一个依变项(Y)的数值,这个方程式为:
Y’=bX+a
回归法在绘制回归线时所根据的准则是最小平方。
假定我们根据一条直线来以自变项的某个值(Xi)估计依变项的某个值(Yj),所估计的值是Y’j,而实际上该值是Yj,则误差便是e=Yj-Y’j。
原则上,将全部样本个案的各个e相加起来就是误差总数,但这样做会引起正负相抵消的问题。
所以,我们要改为把e的平方值相加起来。
因此,如果回归直线在坐标图中的位置能够使到Σe2最小,就理应是最佳拟合线。
统计学家推算出b与a的数值应是如下:
b= nΣ(XY)-(ΣX)(ΣY)
n(ΣX2)-(ΣX)2
2、回归方程式中的回归系数b具有很重要的意义。
b值的大小,就是表示X对Y的影响有多大,是代表每增加一个单位的X值时,Y值的变化有多大。
即:
b=
如果b=0,表示X对Y没有影响。
b值越大,就表示X变化时所引起的Y变化愈大。
因此,b值是表示自变项对依变面的影响的大小和方向。
它是一个分析不对称关系的统计法。
b值的大小不限于-1到1。
二、积矩相关系数与简单线性回归方程式的关系
1、r(pearson)系数所要表示的,就是以线性回归方程式作为预测工具时所能减少的误差比例。
因此,如果r系数值越大,就表示线性回归方程式的预测能力愈强;
2.R系数与b系数不同的地方,是r系数假定x与y的关系是对称的,而r的统计值是由-1至+1,同时,r的平方值具有消减误差的意义。
3.在社会学研究中,最好是先计算r系数值,然后才决定是否运用简单线性回归分析法来预测。
4.r系数所要表示的,就是以线性回归方程作为预测工具时所能减少的误差比例。
因此,如果r系数值愈大,就表示线性回归方程式的预测能力愈强。
第五章 抽样与统计推论
第一节 抽样的意义与问题
一、抽样的优点:
1、调查费用较低。
当总体包含的研究对象数目较大时,普查所需费用甚巨;
2、速度快。
调查全部研究对象比调查它的一部分要费时得多;
3、应用范围广。
上述两个特点决定抽样调查可广泛用于各个领域,各种课题,而不像普查那样只限于统计部门或政府部门;
4、可获得内容丰富的资料。
为了节约费用,普查一般了解少量项目,而且多是一些行政上的资料,很少关注态度、意见方面的内容;
5、准确度高。
专业素质人员的介入
二、抽样的术语
1、研究总体与调查总体
研究总体是在理论上明确定义的整体,但在实际中很难做到使符合这一定义的一切个体都能有机会被选入样本;
调查总体是研究者从中实际抽取调查样本的个体的集合体,它往往是对研究总体的进一步界定,即对时间、范围做进一步规定。
2、抽样框
又称抽样范畴,是从中抽取样本的抽样单位名单。
3、参数值与统计值
参数值是关于总体中某一变量的综合描述,如全国妇女平均受教育年限;
统计值则是关于调查样本中某一变量的综合描述,如从一个样本中得到的妇女平均受教育年限。
4、抽样误差与非抽样误差
由于样本与总体的差异性,在用样本的统计值推算总体的参数值时会有偏差,这不是抽样误差;
因误抄、计算错误等人为过失和其他一些因违反随机原则而产生的误差,称为非抽样误差。
第二节 抽样的基本程序
1、界定总体 2、搜集全部名单 3、决定样本的大小 4、选取样本个案 5、评估样本之正误
第三节 随机与非随机抽样法
一、随机(概率)抽样
就是使总体中每一个体都有一个已知不为零的被选机会进入样本。
它分为竺概率抽样和不等概率抽样。
1、简单随机抽样(纯随机抽样)
它是最基本的概率抽样,最直观地体现了抽样的基本原理,是其它抽样方法的基础。
它要求每个个案被选取的机会是相同的。
它分为重复抽样(放回)和不重复抽样(不放回)。
常用的抛硬币、抽签等方法都是简单随机抽样,但社会调查中的简单随机抽样通常是使用随机数表进行的。
简单随机抽样是概率抽样的理想类型,没有偏见,简单易行,且从随机样本的抽取到对总体进行推断时,有一套健全的规则。
但当总体数目太多时,会费时费钱。
2、系统随机抽样
又称为系统抽样、等距抽样、机械抽样。
它首先将全部个案排列起来,按抽样比例分成间隔,并在第一个间隔内选取第一个个案,然后每经一个间隔就选取一个个案。
这样选出的个案,就是我们所需的样本。
3、分层抽样
先将总体按一种或几种特征分为几个子总体,每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本。
分层抽样的优点
4、整群抽样
又称为整体抽样、聚类抽样。
是将总体按照某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽取若干子群,将抽出来的子群中所有个体合起来作为总体的样本。
它与分层抽样的比较:
(1)相同:
在第一步都是根据某种标准将总体分为一些小群。
(2)不同:
第一,抽样方式不同。
在分层抽样中,所有子群均要抽取一个子样本,作为总体样本的一部分;
而整群抽样则不然,总体样本分布在部分子群中,有的子群可能抽不到。
第二,划分子群的原则也不同:
分层抽样的划分依据是层之间异质性高,层内同质性高,而整群抽样则是群间异质性低,群内异质性高。
因此,分层抽样适用于界质分明的总体,整群抽样适用于界质不清的总体。
5、多段(级)抽样
在大规模的调查研究中,较为常用的是多段抽样,即先抽取若干集体,然后从所选取的集体中再抽取若干较小的单位。
6、多期抽样
如果要收集大量资料,可用这种从样本中抽取分样本,分期惦念和累积资料的方法。
二、非随机(概率)抽样
1、偶遇抽样
又称方便抽样。
是指研究者将在一定时间、一定环境晨所能遇见或接触到的人均选入样本的方法。
“街头拦人”法即为一例。
方便省力,但样本的代表性差。
2、主观抽样
又称为立意抽样、判断抽样,是根据研究者的主观见解和判断,选取他认为是典型的个案。
这种样本是否具有代表性,要视乎研究员的主观判断是否正确。
3、配额抽样
又称为定额抽样,是根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样本个案。
它与分层抽样都要进行分组,但分层抽样中各层样本是随机抽取的,而定额抽样中各层样本是非随机抽取的。
4、滚雪球抽样
指先从几个适合的调查对象开始,然后通过他们得到更多的调查对象,这样一步步地扩大样本范围。
当调查总体的个体信息不充分时,常采用这种方法。
5、空间抽样
指针对一个变动的总体,如游行队伍集会等进行抽样的方法,这种总体虽然是变动的,但在空间上是有限的。
空间抽样最重要的是要在同一时间对整个总体进行抽样,以防止它的组成经历太大的变化。
第四节 几率与概率分布
抽样分布:
是根据几率的原则而成立的理论性分布,显示由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。
1、二项抽样分布
就是指所研究的变量只有两个值,如是与否、高与低、男与女。
2、均值抽样分布
指从总体中抽取若干个样本,每个样本都有一个均值,由这些均值构成的分布称为均值抽样分布,它具有如下特点:
(1)如果样本相当大(通常指n不可少于30,最好大于100),则抽样分布接近正态分布,因而具有单峰和对称性质,众值、中位值和均值都是相同的;
(2)抽样分布之均值就是总体之均值。
抽样分布的标准差称为标准误差。
(3)抽样分布的均值(M)两旁的面积是可以知道的。
如有95%在M+1.96(SE),有99%在M+2.58(SE)。
第六章 参数值的估计
第一节 点值估计与间距估计
1、参数估计:
就是根据一个随机样本的统计值来估计总体之参数值是多少。
2、点值估计:
以一个最适当的样本统计值来代表总体的参数值。
3、间距估计:
就是以两个数值之间的间距来估计参数值。
间距的大小取决于我们在估计时所要求的可信度。
在样本大小相同的情况下,如果要求的可信度越大,则间距就会越大,通常称为“可信间距”。
第二节 间距估计:
均值、百分率、积距相关
1、均值的间距估计:
95%的可信度:
X+1.96(SE),即X+1.96
99%的可信度:
X+2.58(SE),即X+2.58
2、百分率(或比例)的间距估计:
p+1.96
99%的可信度:
3、积距相关系数:
Z’+1.96(SE),其中,Z’=1.151
SE=
第三节 决定样本的大小
基本原则是:
在能够付出的研究代价的限度内,选取最大的样本。
尚有两个原则可供参考:
1、我们能容忍多少错误(e)?
(2)所研究的个案之间的相互差异有多大(S)?
公式:
95%的可信区间:
e=
第七章 假设检定:
均值与百分率
第一节 基本知识
一、重要概念:
1、假设检定:
指先成立一个关于总体情况的假设,继而抽取一个随机样本,然后以样本的统计值来验证假设。
2、研究假设与虚无假设
科学的假设一般先成立假设,即假定在总体中存在某些情况,如假定绝大多数人同意某项制度或假定X与Y是相关的,这个假设称为研究假设,又称备择假设,通常用H1表示。
虚无假设是指与研究假设相反的假设,通常叙述变项间没有差异没有影响,没有关系,如X与Y是不相关的,用H0表示,又称原假设。
假设检定不是直接检定研究假设,而是首先检定与这个研究假设相对立的虚无假设,而间接地知道研究假设的正确可能性。
3、否定域:
指在假设检验中,在未分析资料以前,我们应该决定在什么情况下否定虚无假设。
这样一个预定的范围,就称为否定域。
确切地说,否定域,是指抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内,则否定虚无假设。
否定域是一端还是两端,要视研究假设的性质而定。
4、显著度:
指否定域在整个抽样分布中所占的比例,也表示样本的统计值落在否定域内的机会。
显著度越小,便越难否定虚无假设。
5、甲种误差与乙种误差
甲种误差,是指否定H0,但实际上H0是对的错误可能性。
这个可能性,就是显著度。
乙种误差,是指不否定H0,但实际上H0是不对的错误可能性。
两种误差是对立的,成反比的。
如果要减少甲种误差,势必增加乙种误差。
要完全消除两种误差的矛盾是不可能的。
但是,我们可以设法在若干程度上同时减少两者的可能性,最简单的办法,就是把样本增大。
6、统计法的检定力
指该统计法能够准确地判断虚无假设的正误之能力。
由于在统计推论之前,已经决定显著度的大小,故检定力的大小其实是指乙种误差的大小:
如果所犯的乙种误差越小,该统计法的检定力就越大。
检定力=1-乙种误差机会
参数检定法的检定力大于非参数检定法。
参数检定法的特点,是要求总体具备某些条件:
(1)定距变量;
(2)随机抽样;
(3)总体呈正态分布
非参数检定法,其特点是不要求总体数值具备特殊的条件。
7、自由度:
简称df,是指有多少个个案的数值可以随意变更。
t的抽样分布形状取决于自由度:
df越小,则t分布越扁平;
df越大,则t分布越高耸而且接近正态分布。
二、假设检定的步骤
1、根据研究假设H1成立与其对立的虚无假设H0
2、选择适当的检定统计法,并要列举其假定或要求
3、确定抽样分布
4、决定显著度,并依据H1的性质选用一端或二端检定,然后从抽样分布中求出否定域的位置和大小
如果在成立H1时可以定出方向,则选用一端检定。
5、根据样本的资料计算检定值,从而做出决策
第二节单均值与均值差异
一、单均值:
要求:
定距变项、随机抽样、总体呈正态分布
1.Z检定法(大样本)
:
总体均值是
2.T检定法(小样本)
T的抽样分布形状取决与自由度
二、两个均值的差异
研究两个随机样本,遇有样本的值存在差异,怎么样判断它们的均值的差异是由抽样误差所引起的,还是表示两个总体均值的确有所差异。
要求:
随机抽样、每个总体是正态分布、两个总体的标准差是相等的
三、多个均值的差异
F检定(方差分析法)
第三节单百分率与百分率差异
一、单百分率(或比例)例如:
某地的工人有多少是满意工作环境的
研究假设:
是总体的一个百分率
Z检定
二、两个百分率的差异
两个样本的百分率在其总体中是否有差异,例如:
一个城镇和一个农村地区的小家庭比例
三、多个百分率的差异
例如:
老、中、青三个随机样本的家庭去想是否有差异
检定
第八章 假设的检定:
两个变项之相关
第一节
检定及其相关测量法
一、如果两个变项(XY)都是定类变项,可用
来推论在总体中两者是否相关。
(非参数检定法)
=
df=(r-1)(c-1)
愈大,就是虚假假设的正确可能性愈小,即愈能否定虚无假设。
二、如果两个变项都是定序变项,可以用G系数来测量相关的程度和方向,但如果所研究的是一个随机样本,就要设法推论总体情况。
可Z检定或t检定。
三、一个定类变项和一个定距变项的关系,可用相关比率(eta平方系数)
F检定(单因方差分析)其目的是要推算在各组总体中的均值是否相等。
参数检定法的一种。
随机样本、一个变项是定距、总体是正态分布和具有相等的方差
基本道理:
将全部的方差分解为两部分:
消减方差和剩余方差,F值越大,越可否否定虚无假设。
表示X与Y在总体中愈可能相关。
四、两个定距变项的关系,可用积距相关系数(r)或b系数
虚无假设:
r=b=0
五、U检定和H检定
U检定适合用于分析一个二分定类变项和一个定序变项的关系,也即分析两个随机样本的等级排序是否有显著差别。
例如:
虚无假设:
大城市与小城镇的空气素质等级上无差别
超过两个样本,用H检定
六、总结
相关测量法:
目的是要理解两个变项在“样本”中的相关强弱
检定假设方法:
1.适用于随机样本
2.其关心的都是总体的情况
3.目的都在了解总体中是否相关,而不是相关的强弱程度。
两变项的测量层次
相关测量法(PRE)
假设检定
定类-定类
tau-y
定类-定序
定序-定序
G,dy
Z或t
定类-定距
E
F或t
定序-定距
定距-定距
r,b
第九章 详析模式与统计控制
一、重要概念
1、详析模式:
是指引入第三变量对两变量关系进行检验,以解释或确定这种关系的过程,被引入的变量中心任务检验因素或控制变量。
它分为因果分析、阐明分析和条件分析三种。
详析模式的一个主要作用是使调查研究可分享实验设计的一些优点,详析模式是一种近似的实验设计。
它可以充分利用调查资料,并将研究引向深入:
它一方面能对变量关系作出描述,另一方面通过引入第三变量,还可以澄清事实真相,包括两变量间关系的真伪,从而使变量关系更具体、更精确可靠。
2、统计控制:
是指在详析模式中,用统计方法来控制变量。
统计控制的基本逻辑,可用分表法来说明,指以第三变量的值将原表拆分几个表,然后在第三变量不变的情况下分析X与Y的关系。
统计控制的结果有三种可能性:
(1)X与Y的关系消失,
(2)维持原状,(3)X与Y的关系虽没消失,但其相关程度减小了。
3、详析分析的一般步骤:
(1)分析X→Y,
(2)分析W→X与W→Y;
(3)控制W,分析X→Y的变化
4、压抑分析:
指在条件分析中,本来没有关系或关系很弱的两个变量X与Y,在标明若干条件以后,X与Y显然有关系或关系强大起来,这种情况称为压抑分析。
5、曲解分析:
指在条件分析中,把原先的负相关变为正相关,或把原先的正相关变为负相关的。
6、因果分析(辨明模式)要检定自变项x与因变项y之间是否确实有因果关系
引进W,控制W以后,在W不变的情况下分析X与Y的关系。
W
XY
研究结果原则上有三种可能:
1、xy关系消失
2.维持原来的关系
3.仍然有关系,但相关程度减弱
7、阐明分析(因果环节)就是要以事实来验证:
X是通过某些因素(如T)对Y产生影响的。
XTY
介入变项:
步骤:
通过建立分表,在每个分表中研究x与y的关系。
每个分表中T变项受到控制,有相同的T.R1=R2=0完全阐明。
R1=R2=R不能阐明
8、条件分析(标明)和互动效果
条件分析就是以第三类变项(C)作为基础来了解X与Y在不同情况下的关系。
依据条件变项的值,将样本分组,然后在每组中分析X与Y的关系。
如果在各组中X与Y的关系大致相同。
则表示,X与Y的关系具有普遍性。
如果不同,说明是C变项产生互动效果。
二、净相关系数
所谓净相关分析,就是以一个系数值来表示在控制第三类变量以后X与Y的相关。
它只能用于因果分析和阐明分析,不适用于条件分析。
变项间是直线关系,并且所有变项必须是定距
净相关系数是由-1至+1,表示在控制第三类变项以后X与Y这两个变项的相关程度和方向,而且其平方值具有消减误差比例的意义。
1、净相关系数的公式
2、净相关系数的F检定
3、部分净相关系数:
它只是从一个变项(X或Y)中消除第三类变项的效果,然后计算剩余误差与另一个变项的关系。
3、其他的净相关测量法
如果X和Y是定序变项,较为常用的是净G系数。
(1)净Gamma系数:
其实是各个分组的G系数的加权均值。
(2)净Lambda或净tau-y值
第十章 多因分析
第一节 复相关
1、复相关:
是一种以一个统计值来简化多个自变量(X1,X2,X3等)与一个依变量(Y)的关系的统计方法。
它是以积矩相关系数(r)为基础的,要求所有变量都是定距变量。
它的统计值(R)的范围在0到1之间。
R的平方值(R2)称为决定系数,具有消减误差比例的意义,它的剩余的误差(1-R2),通常称为疏离系数。
2、多因分析:
指以两个或以上的自变量来预测一个依变量的数值,这个值还可以比较各个自变量的影响力的大小。
3、统计性累赘:
指在多因分析中,如研究X1,X2,X3这三个自变量的相对效果,每个变量的B权数其实都代表在控制其他自变量以后所发生的效果。
倘若其中两个自变量(如X1与X2)的关系特别强,则在相互控制以后就会使得每者的效果减弱,而其他的变量(X3)的效果就会因此而增大。
4、“钓鱼技术”:
在多因分析中,使各个自变量依先后次序进入回归方程式,这就称“钓鱼技术”。
谁先谁后,既可以取决于相对的统计重要性,也可取决于理论的要求。
其目的是从众多的自变量中找出一些最重要的自变量,使研究结果得以简化。
5、虚构变量:
复相关与多因分析都是要求全部变量是定距变量,如果要用来分析定类或定序变量,则要将之变为虚构变量。
方法是将定类或定距变量虚构为一个二分变量,将其中一个给予1分,另一个给予0分,就会成为定距变量。
6、典型相关:
复相关只能分析多个变量与一个变量之间的相关,如果两边都有多个变量,这种分析就称典型相关,用来测量两组变量的最大相关。
二、多因回归分析
以两个以上的自变项来预测一个依变项的数值,另一项比较重要的作用,是比较各个自变项的影响力。
B权数,它的数值的大小与正负号,分别反映了Y受X所影响的大小与方向。
标准化多因线性回归方程式:
比较各个B权数(只看绝对值)可见在相互控制后,不同因素影响的效果强弱。
计算公式:
1、复相关:
是以一个统计值来简化多个自变项与一个因变项的关系的统计方法。
它是以R为基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会 研究 统计 应用 复习 笔记