社会研究的统计应用常考内容.docx
- 文档编号:10753393
- 上传时间:2023-02-22
- 格式:DOCX
- 页数:14
- 大小:23.30KB
社会研究的统计应用常考内容.docx
《社会研究的统计应用常考内容.docx》由会员分享,可在线阅读,更多相关《社会研究的统计应用常考内容.docx(14页珍藏版)》请在冰豆网上搜索。
社会研究的统计应用常考内容
社会研究的统计应用
第一章科学方法与社会研究历程
1、定类测量层次
定类层次是指变项的值只能把研究对象分类,即只能决定研究对象是同类抑或不同类,具有=与≠的数学特质。
定类层次有两个原则,一是互斥性,即类与类之间要互相排斥,每个研究对象只能归入一类;另一个是无遗性,即所有研究对象均有归属,不可遗漏。
适用于简化一个定类变项资料的方法,有次数分布、比例、比率、图示和对比值等。
2、定序测量层次
定序层次是指能确定值的次序,即变项的值能把研究对象排列高低或大小,具有>或<的数学特质。
定序层次包括了定类层次的特质。
3、定距测量层次
定距层次是指能够确定值与值之间的距离,即变项之值与值间的距离是可以知道的,因为具有加与减的数学特质。
定距层次包括了定序与定类层次的特质。
4、定比测量层次
定比测量层次是最高的测量层次,其数值中的零值是绝对的、固定的,因而除了具备分类、排序以及加减的特质外,还具有×与÷的数学特质。
第二章简化一个变项之分布
第一节基本技术
一、定类层次
1、次数分布(f):
变项内每一个值在原资料中出现的次数情况。
2、比例(p):
就是将每类的次数(f)除以总数(N)。
3、比率:
就是把计算比例时的所用的基数变大,使读者容易领会,如可转化为百分率、千分率、万分率等。
4、对比值:
对比值就是将两类数值相除,得到一个比值。
二、定序层次
1、累加次数(cf):
就是把次数逐级相加起来。
分为两种,一种是向上累加,另一种是向下累加。
其作用是使我们容易知道某值以下或以上之次数总和。
2、累加百分率(c%):
就是将各级的百分率逐级相加。
三、定距层次
1、组限:
就是每组的范围,包括上限和下限。
统计表上所标示的组限不是真实的组限。
真实下限=标示下限-0.5;真实上限=标示上限+0.5。
2、组距:
就是每个组的宽度,即组的真实上限与真实下限之差。
3、组中点:
就是真实上限与真实下限的平均数。
4、矩形图:
以一个矩形的面积(长×宽)表示每组数值之次数或百分率的多少。
矩形图的长度与宽度均有意义,而且由于数值具有连续性,各个矩形要相连排列。
绘制矩形图时,通常是以一个坐标的横轴的宽度表示组距,以纵轴的长度表示次数与或百分率,二者的乘积就是该组之次数或百分率。
第二节集中趋势测量法
1、集中趋势测量法
就是找出一个数值来代表变项的资料分布,以反映资料的集结情况。
这种方法的特殊意义在于可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。
使用集中趋势测量法,定类变项最适宜用众值,定序变项最适宜用中位值,定距变项最适宜用均值。
2、众值(简写M0)
就是在样本中出现次数最多之值。
在定类层析变项中,众值最有代表性,故此具有估计或预测的意义,长远来说,以众值作预测所犯的错误总数是最小的。
众值适合于分析定类变项,也可用来分析定序或定距变项的资料。
3、中位值(简写Md)
中位值就是把一组数据按照其大小顺序排列起来,处于中央位置的数值,即高于此值的有50%的研究个案,低于此值的也有50%的研究个案。
长远来说,以中位值去估计定序变项的数值,所犯的错误总数是最小的。
4、均值(Mean)
均值是表明一组数据平均水平的数值。
即将定距资料中的各个数值相加,除以总体单位总数所得到的数值。
长远来说,以均值估计定距变项的资料,错误最小。
第三节离散趋势测量法
1、离散趋势测量法
离中趋势测量法是要求出一个值来表示个案与个案之间的差异情况。
离中趋势测量法与集中趋势测量法具有互相补充的作用。
集中趋势测量法所求出的一个最能代表变项所有资料的值,其代表性的高低要视乎各个个案之间的差异情况,即离散趋势测量法所求出的数值。
如果个案之间的差异很大,则众值、中位值或均值的代表性就就会甚低。
异众比率、四分位差、标准差是分别对众值、中位值、均值的代表性进行检验的离散趋势测量法。
2、离异比率(V)
离异比率是指非众值的次数与全部个案数目的比率。
其公式为v=(n-fmo)/n,这个公式所要求出的是在全部的个案中有多少是偏离众值。
不属于众值的个案所占的比例愈大,就表示众值的代表性愈小,以之作估计或预测时所犯的错误也就愈大。
离异比率的方法虽然道理浅显,且易于计算,但未免过于粗略,因为它将众值以外的其它类别,不加区分地统一计算,忽略了它们之间的差异,存在局限。
3、质异指数(IQV)
质异指数的作用是求出各个类别之间在理论上最多的可能差异中实际出现了多少差异。
4、四分位差(Q)
四分位差是指将个案由低至高排列,然后分为四个等分(即每个等分包括25%的个案)之后,第一个四分位置的值(Q1)和第三个四分位置的值(Q3)的差异。
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中,中位值的代表性愈大,以之作为估计或预测的标准所犯的错误就愈小;其数值越大,说明中间的数据越分散,中位数的代表性愈小,以之作为估计或预测的标准所犯的错误就愈大。
5、标准差(S)
标准差是将各数值与其均值之差的平方和除以全部个案数目,然后取其平方根所得到的数值,是方差的算术平方根。
分析定距变项的离散情况,最常用的方法是标准差,其表示以均值来估计或预测变项值时所犯错误的大小。
标准差愈大,就表示变项数值的离势度愈大,即均值的代表性愈小。
一、离势测量法与集中趋势测量法的关系
1、离势测量法与集中趋势测量法是有互补作用的。
二法并用,就可以一方面知道资料的代表值,有助于估计或预测的工作;另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。
2、离势测量法和集中趋势测量法要选用哪一种方法要视乎变项的测量层次,在定类变项之中,集中趋势选用众值测量,离散趋势则选用质异指数测量;在定序变项中,集中趋势选用中位值测量,离散趋势则选用四分位差测量;在定距变项之中,集中趋势选用均值测量,离散趋势选用标准差测量。
第四节正态分布与标准值
1、正态分布(normalcurve)
正态分布也称“常态分布”,最早由A.棣莫弗在求二项分布的渐近公式中得到,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态分布具有单峰和对称的特质,因此众值、中位值和均值是相同的;正态分布的另一项特质是x值与均值的差异愈大,其次数会愈少,但不会等于零。
以标准差为单位的正态分布,称为标准正态分布,标准正态分布可以将不同形态的正态分布归纳为一种分布,简化了统计分析的工作。
标准正态分布的均值是0,标准差是1。
正态曲线呈钟型,左右对称,两头低,中间高,曲线两端逐渐减降,但不会接触底线。
2、标准值(Z)
标准值代表每个变项值x在标准正态分布上的数值。
标准值是正数时,所表示的面积是在均值右边;标准值是负数是,所表示的面积则是在左边。
第三章简化两个变项之分布
第一节统计相关的性质
1、相关
(1)定义:
相关是指一个变项的值与另一个变项的值具有连带性,即如果一个变项的值发生变化,另一个变项的值也发生变化,则这两个变项就是相关了。
(2)性质:
①变项与变项之间的相关程度有强弱之分,可用统计法予以测量。
大多数统计法是以0代表无相关,以1代表全相关,介于0与1之间的数值愈大,就表示两个变项的相关程度愈强。
②变项与变项之间的相关程度有正负两个方向。
正相关(或称正比)是指一个变项的值增加时,另一个变项的值也增加。
负相关(或称反比)是指一个变项的数值增加时,另一个变项的值减少。
相关方向的分析只限于定序或定距变项,因为这些变项的值有高低或多少之分。
(3)相关的两个变项,不一定有因果之分,可能是共同变化。
若两个变项之间,X影响Y,而Y不会影响X,则称为不对称关系;若不确定或不区分影响的方向,就称为对称关系。
第二节交互分类与百分表
1、列联表(条件次数表)
(1)列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
(2)列联表也称为条件次数表,条件次数表有大小之分,表的大小就是横行数目与纵行数目的乘积(即表的大小=r×c)。
在列联表中,一般将自变项放于表的上端,将因变项放于表的左端。
(3)列联表的优点是精简清晰,可以清楚地看出每个类别的个案的次数,缺点是难于比较不同条件下的次数分布,这是因为作为基数的边缘次数的值各不相同。
2、条件百分表
(1)将条件次数表中的各个条件次数转变为百分率所制成的表格,就是条件百分表。
(2)制定条件百分表时的准则:
①每个表的顶端要有表号和标题;②绘表时所用的线条,要尽可能简洁;③在表上层的自变项每个值之下的%号,表示下列的数值都是百分率;④表下层括弧内的数值,表示在计算百分率是所根据的个案总数;⑤表内百分率数值的小数位要保留多少,视乎研究的需要,但最好有一致性;在绘制条件百分表时,通常是根据自变项的方向来计算百分率;但如果依变项缺乏代表性,就要根据依变项的方向。
(3)条件百分表的优点是资料丰富,缺点是尚未够精简,尤其当表的大小很大是,百分率便会很多,不容易看出两个变项之间是否有关系。
第三节简化相关与消减误差
1、相关测量法
相关测量法就是以一个统计值表示变项与变项之间的关系,这个值,通常称为相关系数。
相关测量法的种类很多,选择何种相关测量法,首先要注意变项的测量层次,是定类、定序还是定距,属于不同测量层次的变项,使用的相关测量法也不同;其次要注意两个变项之间关系是对称的还是不对称的;第三就是最好选用统计值具有消减误差比例的意义的相关测量法。
2、消减误差比例(PRE)
假定不知道X的值,在预测Y值时所会产生的全部误差是E1,知道X的值时,根据X的每个值预测Y值所产生的全部误差是E2,则以X的值来预测Y值时所减少的误差就是:
E1-E2,这个数值与原来的全部误差(E1)相比,就是消减误差比例。
PRE的数值愈大,就表示以X值预测Y值时能够减少的误差所占的比例愈大,即X与Y的关系愈强。
PRE数值在0与1之间,当PRE为1时,表示X与Y全相关,当PRE为0时,表示X与Y无关。
PRE数值的意义就是表示用一个现象来解释另一个现象时能够减除百分之几的错误。
第四章相关测量法与测量层次
第一节两个定类变项:
Lambda,tau-y
1、Lambda相关测量法
其基本逻辑是计算以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测的准则,可以减除多少误差。
Lambda相关测量法适用于分析两个定类变项的关系,也可以用来分析一个定类变项与一个定序变项的关系。
其有两种形式,λ假定是对称形式,λy则假定是不对称形式。
Lambda相关测量法具有消减误差比例的意义,其统计值介于0与1之间。
2、tau-y相关测量法
Tau-y系数属于不对称相关测量法,要求两个定类变项有一个是自变项,另一个是依变项,其适用于分析两个定类变项,或是一个定类变项和一个定序变项的情况。
其系数值介于0与1之间,具有消减误差比例的意义。
这个方法的特色,是在计算系数值时会包括所有的边缘次数和条件次数。
由于该测量法是考虑全部的次数,因此其敏感度高于Lambda测量法。
第二节两个定序变项:
Gamma,dy
1、简化两个定序变项的关系,可应用Gamma系数,也可应用萨默斯的dy系数。
前者适用于分析对称的关系,后者适用于不对称的关系,但两者的系数值都是由-1至+1,既表示相关的程度,也表示相关的方向,且两者都具有消减误差比例的意义。
2、Gamma系数与dy系数可以统称为级序相关法。
级序相关法的基本逻辑是要求出:
根据任何两个个案在某变项上的等级来预测他们在另一个变项上的等级时,可以减少的误差是多少。
换言之,级序相关法是以每对个案之间的相对等级作为预测的准则。
3、
(1)同序对(Ns):
某对个案在两个变项上的相对等级是相同的;异序对(Nd):
某对个案在两个变项上的相对等级是不相同的。
(2)Gamma系数与dy系数就是根据这两个数值来计算两个定序变项的相关程度和相关方向。
两者相差愈大,就表示两个变项的相关愈强,若同序对大于异序对,表示两变项成正比,反之,成反比。
4、肯德尔的tau系数
肯德尔的tau系数有三种形式,分别称为tau-a、tau-b和tau-c,其数值为-1至+1,都适宜于分析对称的关系。
5、斯皮尔曼rho系数
该系数的特点是计算每个个案在两个变项上的等级时,不仅要区分二者的高低差异,而且还要计算二者差异的确切数值。
Rho是对称相关测量法,要求同分情况不多。
其统计值是由-1至+1,表示相关的程度和方向,其平方值具有消减误差比例的意义。
第三节两个定距变项:
简单线性回归与积矩相关
1、简单线性回归分析
要求两个变项都是定距变项,且彼此的关系是不对称的。
简单线性回归分析法是根据一个直线方程式,以一个自变项(X)的数值来预测一个依变项(Y)的数值。
其方程式为Y=bX+a。
回归法在绘制回归线的时候所根据的准则是最小平方。
2、回归系数(b)
b值的大小,就是表示X对Y的影响有多少,b值代表每增加一个单位的X值,Y值的变化有多大。
b值是表示自变项对依变项的影响的大小和方向,它是一个分析不对称关系的统计法。
b值有正负之分,其大小是视乎变项的衡量单位而定。
3、积矩相关测量法
皮尔逊的积矩相关系数是用来测量两个定距变项之间的相关强弱的测量法。
适合于分析两个定距变项的对称关系,统计值是由-1至+1,其平方值r2具有消减误差比例的意义。
除了表示相关的程度与方向之外,r系数值也可表示简单线性回归方程式在预测时的准确程度,r系数值愈大,则准确度愈大。
但r系数是假定两个变项之间具有直线关系。
第四节定类变项与定距变项:
相关比率与非线性相关
1、相关比率
适用于分析一个定类变项与一个定距变项的不对称关系,也适用于分析定序变项与定距变项的关系,还适用于分析两个不具有直线关系的变项的关系。
这种方法的统计值是由0至1,其数值(E2)具有消减误差的意义。
第五章抽样与统计推论
第四节几率与抽样分布
1、抽样分布
抽样分布是根据几率的原则而成立的理论性分布,显示由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。
抽样分布的两种主要分布形式是二项抽样分布与均值抽样分布。
2、均值抽样分布的特征
(1)如果样本相当大(通常是指n不可少于30,最好是n>=100,当然愈大愈好),则抽样分布接近正态分布。
其特点是单峰和对称的,因而众值、中位值和均值都相同。
(2)抽样分布之均值就是总体之均值。
(3)由于均值的抽样分布是正态分布,其面积就是均值的次数,因此任何两值之间的样本均值次数所占比例是可知的。
统计推论一般可以分为两大类:
参数估计与假设检定
3、参数估计
参数估计就是根据一个随机样本的统计值来估计总体之参数值是多少。
是统计推论的一种形式,分为点估计与区间估计两部分。
参数估计具有无偏性、一致性和有效性三个基本特征。
第六章参数值的估计
第一节点值估计与间距估计
1、点值估计
点值估计是参数估计的一种形式,要求样本是以随机方法抽取的,是以一个最适当的样本统计值来代表总体的参数值。
如果样本愈大,且抽样方法愈严谨,但抽样误差是无法避免的,且点值估计所得到的估计值的可信程度较难确定。
2、间距估计
间距估计是以两个数值之间的间距来估计参数值。
至于间距的大小,取决于我们在估计时所要求的可信程度是多少。
在样本大小相同的情况下,如果要求的可信度愈大,则间距就会愈大,这个间距,通常称为“可信间距”。
间距的大小与可信度的高低呈正比。
第七章假设检定:
均值与百分率
第一节基本知识
1、假设检定
假设检定就是先成立一个关于总体情况的假设,继而抽取一个随机样本,然后以样本的统计值来验证假设。
科学的研究一般是先成立假设,即假定在总体中存在某些情况,这个假设,称为研究假设(H1)。
与研究假设相对立的假设,称为虚无假设(H0)。
检定假设的基本原则是直接检定H0,因而间接地检定H1,目的是排除抽样误差的可能性。
2、否定域(CR)
否定域是指抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内,则否定虚无假设。
否定域可以在抽样分布的一端,也可以在抽样分布的两端,视研究假设的性质而定。
否定域的大小,取决于研究的需要(一般是相当小的),但一般是在抽样之前决定。
3、显著度(p)
显著度表示否定域在整个抽样分布中所占的比例,也即表示样本的统计值落在否定域内的机会。
原则上,显著度要在研究之前选定,在当前的社会学研究中,一般是以p<=0.05作为准则。
显著度愈小,便愈难否定虚无假设(H0),也即愈难证明研究假设(H1)是对的。
4、一端与二端检定
如果否定域只在一端(可以在右端,也可在左端),称为一端检定,若在成立H1时可以定出方向,则选用一端检定的方法;如果否定域在两端的位置,则称为二端检定,若在成立假设时H1难以定出方向,则用二端检定。
若所决定的显著度是相同的,则二端检定比一端检定是更难否定H0的。
5、甲种误差与乙种误差
甲种误差是指否定H0,但实际上H0是对的的错误可能性。
这个可能性,就是我们所选定的显著度。
乙种误差是指不否定H0,但实际上H0是不对的的错误可能性。
这种误差的计算方法较为复杂。
在样本量和统计方法确定的前提下,甲种误差与乙种误差是对立的,成反比的,即在研究中要减少甲种误差的可能性,就会不断增加乙种误差的可能性。
要完全消除两种误差的矛盾是不可能的,同时减少两者的可能性的最简单的方法是增大样本。
6、检定力:
参数与非参数法
(1)用作检定假设的推论统计法可分为两大类:
参数检定法与非参数检定法,前者的检定能力较强。
(2)统计法的检定力
统计法的检定力是指该统计法能够准确地判断虚无假设H0的正误的能力。
由于在统计推论之前,已决定显著度(即甲种误差)的大小,故检定力的大小实际上是指乙种误差的大小,若在统计推论时所犯的乙种误差愈小,该统计法的检定力就愈大。
两者的关系为:
检定力=1-乙种误差之机会。
参数检定法的检定力大于非参数检定法,是因为原则上其在检定假设时所犯的乙种误差较小。
(3)参数检定法的特点是,要求总体具备某些条件,如正态分布或标准差相等,一般也要求变项的数值具有定距测量层次的特质。
常见的参数检定法有Z检定、t检定和F检定。
(4)非参数检定法,也称分布自由检定法,其特点是不要求总体数值具备特殊的条件,一般也不要求是定距测量层次,因而适用于推论定类或定序资料。
但是,由于非参数检定法不理会总体的情况,在推论时就较为困难,准确性也会因此而影响。
2检定法是一种常用的非参数检定法。
一、检定假设的步骤
1、根据研究假设H1成立与其对立的虚无假设H0。
明确检定的目的就是要否定H0,从而知道H1是对的的可能性。
2、选择适当的检定统计法,并要列举其假定或要求。
3、确定抽样分布。
所有的检定统计法,都是以抽样分布为基础来检验H0的错误可能性。
4、决定显著度,并根据H1的性质选用一端或二端检定,然后从抽样分布中求出否定域的位置和大小。
需要注意的是:
所要求的显著度愈高,否定域就愈小,也就愈难否定H0,且二端检定比一端检定更难否定H0,因此H1最好是能说清楚方向。
5、根据样本的资料计算检定值,从而做出决策。
倘若检定值在否定域的范围内,则可以否定H0,即H1可能是对的;否则,就不能否定H0,也即H1可能是错误的。
第八章假设的检定:
两个变项之相关
第一节2检定及其相关测量法
如果两个变项都是定类变项,或一个定类变项和一个定序变项,则可用2检定来推论在总体中两者是否相关。
这是非参数检定法的一种。
2愈大,就是H0的正确可能性愈小,也即在总体中X与Y可能是相关的。
2是没有负值的,所以其都是右端检定。
第二节Gamma及其他级序相关的检定
如果两个变项都是定序变项,则可先以Gamma系数来求出样本中X与Y的相关,然后以Z检定法或t检定法来推论在总体中的Gamma是否等于0。
第三节单因方差分析与F检定
1、分析一个定类变项与一个定距变项,一个定序变项与一个定距变项或两个定距变项,都可以用单因方差分析中的F检定,其目的是要推算在各组总体中的均值是否相等。
它是参数检定法的一种,由于F没有负值,因此只能用F分布的右端来检定假设。
2、组际平方和(BSS):
代表被消减的方差;
组内平方和(WSS):
代表剩余的方差;
全部平方和(TSS):
代表原有的全部方差。
3、方差分析的基本道理,就是将全部方差分解为两部分:
消减方差和剩余方差,然后从相互比较中推论X与Y在总体中是否相关。
F比率就是消减方差与剩余方差的对比,如果F值愈大,就表示X与Y在总体中愈可能是相关。
第四节积矩相关与回归系数的检定
积矩相关与回归系数的检定可使用F检定。
第五节非参数检定:
U检定与H检定
第六节总结
1、所有的检定假设方法的共同点
(1)只适用于随机抽样,不能用于分析非随机抽样;
(2)其关心的都是总体的情况,而不是样本的情况;(3)目的都在了解在总体中是否相关,而不是相关的强弱程度。
2、研究报告中表格的规范
(1)最好是条件百分表;
(2)最好在条件百分表内写上相关测量系数,再加上检定值及其显著度;
(3)倘若是不能否定虚无假设H0,也要写在表内,如在检定值的旁边写上:
未达0.05显著度(或p>0.05)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会 研究 统计 应用 内容