统计名词解释.docx
- 文档编号:28186187
- 上传时间:2023-07-09
- 格式:DOCX
- 页数:32
- 大小:206.36KB
统计名词解释.docx
《统计名词解释.docx》由会员分享,可在线阅读,更多相关《统计名词解释.docx(32页珍藏版)》请在冰豆网上搜索。
统计名词解释
统计
第一章
一、心理与教育统计的定义与性质
定义:
在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按照统计学的原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得到结论的一种研究方法。
性质:
应用统计学。
二、心理与教育科学研究数据的特点
(1)数据与结果多用数字呈现
(2)数据具有一定的随机性和变异性
(3)数据具有一定的规律性
(4)通过部分数据来推测总体的特征
三、心理与教育统计学的内容
1、描述统计(descriptivestastics)主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。
包括:
A、数据如何分组、使用统计图表描述一组数据的分布情况;
B、计算一组数据的特征值(集中量数和差异量数),进而描述一组数据的全貌;
C、表示一事物两种或两种以上属性间的相互关系(相关分析)。
2、推论统计(inferentialstatistics)主要研究如何通过局部数据所提供的信息,推论总体的情形。
包括:
A、如何进行假设检验,如z检验、t检验、卡方检验、F检验、回归分析等;
B、总体参数特征值的估计方法;
C、各种非参数检验的统计方法。
3、实验设计(experimentaldesign)主要目的在于研究如何科学地、经济地以及有效地进行实验,它是统计学近几十年发展起来的一部分内容。
四、心理与教育的基础概念
数据类型
1、从数据的观测方法和来源来划分
计数数据(countdata)是指计算个数的数据,如人口数、学校数、男女数等等。
一般取整数形式;
测量数据(measurementdata)是指借用一定的测量工具或具有一定的测量标准而获得的数据,如身高、考试成绩、金钱数额、智力测验等。
2、根据数据的测量水平划分:
称名数据(nominaldata)
顺序数据(ordinaldata)
等距数据(intervaldata)
比率数据(ratiodata)
3、根据数据是否具有连续性划分:
离散数据(discretedata)
连续数据(continuousdata)
5、变量、观测值、随机变量
变量(variables)是指实验、观察、调查中想要获得的数据;
而一旦确定某个值,就称这个值为某一变量的观测值(observation),即为具体的数据;
在统计学中,把取值之前不能预料取到什么值的变量,称之为随机变量。
与变量相反的是常量,它在一定范围内其数值不会随意改变。
6、总体、样本与个体
总体(population)又称母全体、全域,指具体有某种特征的一类事物的全体;
构成总体的每个基本单元称为个体(individual);
从总体中抽取一部分个体,称之为总体的一个样本(sample)。
7、次数、比率、频率与概率
在一项研究中,我们对随机现象进行观察试验,在一定条件下,本质不同的事物可能出现,也可能不出现,这种事情称为随机事件;
次数是指某一事件在某一类别中出现的数目,又称为频数(frequency),用f表示;
两个数的比例称为比率;
频率又称相对次数,即某一事件发生的次数被总的事件数目除,通常用比例或百分数表示;
概率又称机率、或然率(probability)用p表示,表示一事件在无限的观测中所能预料的相对出现的次数,也就是某一事件在总体中出现的比率,通常用比例表示。
8、参数与统计量
在科学研究中,我们探寻的是关于所有事物的说明和解释。
能说明和解释总体特征的那些特性称之为参数(parameter),又称为总体参数;与之相对的是,样本的那些特征值称为统计量(statistics)。
参数是从总体中计算得到;一般是个常量;一般用希腊字母表示;
统计量是从样本中得到;一般随样本的变化而变化,是个变量;一般用英文字母(斜体)表示。
第二章
1、统计图表
统计表和统计图是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。
统计表具有简明、清晰、准确的特点,数据易于比较分析;统计图具有简明、直观、可视化等特点。
在制定统计图表时首先要完成最基本的两步:
a、数据排序(sortororder)是指按照某种标准,对收集到的杂乱无章的数据按照一定的顺序标准进行排序。
升序(ascending)
降序(descending)
b、统计分组是指根据被研究对象的特征,将所得的数据划分到各个组别中去。
步骤:
1)统计分组前的准备(进一步地核对和校检数据、删除受过失影响数据、删除3个标准差之外的数据)
2)统计分组应注意事项(分组要以被研究对象的本质特性为基础;分类标志要明确,既要包含数据的所有范围,同时分类不能重合)
3)分组的标志(性质类别和数量类别)
2、次数分布表
次数分布(frequencydistribution)显示初步整理后一组数据的分布情况。
它主要表示数据在各个分组区间内的散布情况。
简单次数分布表(适用于计数数据)(simplefrequencytable)就是依据每一个分值在一列数据中出现的次数或总计数资料编制成的统计表。
分组次数分布表(重点)(适用于测量数据)当数据量很大时,应该把所有的数据划分若干区间,然后再按数据按其值大小划分到相应的区组内,分别统计各个组别中的个数,再用列表形式呈现出来,就构成了分组次数分布表(groupedfrequencytable)。
具体步骤如下:
A、求全距
全距(range)是指最大值和最小值两个数据之间的差距。
B、决定组距和组数
组距(interval)是指任意一组的起点和终点之间的举例,用符号i表示。
全距除以组距即为组数。
C、列出分组区间
分组区间即一个组的起点值和终点值之间的距离,又叫组限。
起点值称为组下限,终点值称为组上限,组限又可以分为表述组限和精确组限。
D、登记次数
E、计算次数
相对次数分布表
累加次数分布表
双列次数分布表(难点)双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。
编制双列次数分布表的步骤:
首先按照分组次数分布表的编制方法,分布列出各变量的分组区间,将一列变量的分组区间竖列,将另一列变量为横列;
然后再登记、计数。
3、次数分布图
在次数分布表的基础上,若对分布进行粗略分析、动态趋势、差异细节,获得更为直观印象就要绘制次数分布图。
通常使用的主要有:
1、直方图(histogram)也叫等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。
一般用纵轴表示数据的频数,横轴表示数据的等距分组点。
2、次数多边形图(frequencypolygon)是一种连续性随机变量次数分布的线形图。
绘制图时,横坐标是用各分组区间组中值表示的连续变量,纵坐标是数据的频数,连接各点,就成为一条折线。
3、累加次数分布图累加次数分布图可以分为累加直方图和累加曲线。
四、其他常用的统计图表类型
表:
A、简单表B、分组表C、复合表
图:
A、条形图(barcharts)也叫直条图,主要用于表示离散型数据资料,即计数资料。
B、圆形图(circlegraph)又叫饼图(pie),主要用于描述间断性的资料,目的是为了显示各部分在整体中所占有的比重大小,以及各部分之间的比较。
C、线形图(linegraph)更多用于连续性资料,凡欲研究两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随着另一种现象的变化情形,用线性图表示是最后的方法。
同时还可以在图表中画两条线或多条线,用于比较两组或多组数据资料。
D、散点图(scatterplots),它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。
第三章
一、集中趋势(centraltendency)和离中趋势(divergencetendency)是次数分布的两个基本特性。
数据的集中趋势是指数据分布中大量数据向某方向集中的程度;
离中趋势是指数据分布中的数据彼此分散的程度。
这两种趋势分别用集中量数(measuresofcentraltendency)和离中量数(measuresofdivergencetendency)来表示。
一)、算术平均数(arithmeticaverage),一般简称平均数或均值(mean)。
1、平均数的计算方法
(1)未分组数据的计算平均数的方法
(2)用估计平均数技术平均数
(3)计算次数分布表中的平均数
2、平均数的特点
1)一组数据中每个变量与平均数之差(离均差)的总和等于0;
2)在一组数据中,每个数据都加上C,则所得的平均数为原来的平均数加上C;
3)在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以C.
3、平均数的优缺点
优点:
1、反应灵敏;2、计算严密;3、计算简单;4、简明易解;5、适合做进一步的代数运算;6、较少受抽样的影响;
缺点:
1、易受极端数据的影响;2、若出现模糊不清的数据时,无法计算平均数。
4、计算和应用平均数的原则
同质性原则
平均数与个体数值相结合的原则
平均数与标准差、方差相结合的原则
2)、中数(median),又称中点数,符合Md或Mdn,它是指按顺序排列在一起的一族数据中居于中间位置上的数,即在这组数据中,有一半的数据比它大,一半的数据比它小。
中数的优缺点
优点:
计算简单快捷,容易理解,概念简单明白,不受极端值的影响;
缺点:
没有充分利用数据,反应不够灵敏;容易受抽样的影响,不如平均数稳定;不能做进一步的代数运算;
三)、众数(mode)又称范数,密集数,通常数等,用符号Mo表示,它是指在次数分布中出现次数最多的那个数的数值。
1、计算方法
直接观察法
利用公式求
2、意义
众数的概念简单明了,容易理解,但它不稳定,受样本变动的影响,不能进一步做代数运算。
4)、平均数、中数、众数三者之间的关系
在一个正态分布中,平均数、中数、众数三者相等:
M=Md=Mo;
在正偏态数据中,三者之间的关系为:
M>Md>Mo;
在负偏态数据中,三者之间的关系为:
M 在偏态分布中,平均数用于位于尾端,中数位于中间,众数位于首端,三者之间的关系为: M 第四章 差异量数(measuresofdivergencetendency)就是对一组数据的变异性(离中趋势)特点进行度量和描述的统计量。 它反映了次数分布中数据彼此分散的程度。 1、全距 全距(range)又称两极差,用符号R表示,它是说明数据离散程度最简单的统计量。 优点: 计算简便 缺点: 是最粗糙、最不可靠的值,这种差异量数只利用了数据中的极端值,其他数据均未参与运算,因而这种差异量数不可靠、不稳定、也不灵敏,极易受到抽样变动的影响。 2、百分位数与百分位差 百分位数(percentile)又叫百分位点。 它是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。 由于全距容易受极端数值的影响,因此有人提出取消数据两端10%的数据,即用P10与P90之间的差距作为差异量数,即为百分位差。 1、百分位数的计算 2、百分位数与百分等级 反过来,利用百分位数的计算公式,可以求出任意数值在整个数据分布中所处的百分位置,称之为百分等级(percentilerank)。 3、四分位差 四分位差(quartiledeviation)也可以看做百分位差的一种,通常用Q来表示,指在一次数据分配中,中间50%次数的数据的一半。 也就是P75到P25举例的一半。 4、平均差 平均差(averagedeviation)是次数分布中所有原始数据与平均数绝对离差的平均值,一般用符号A.D或M.D表示。 5、方差 方差(variance)也称为变异数、均方,它是用原始数据与平均数的差的平方和。 6、标准差 标准差(standarddeviation)即方差是平方根,用SD或s表示。 7、差异系数 差异系数又称变异系数、相对标准差等,用CV来表示。 8、标准分数 原始量数与其平均数的差数,除以标准差所得的商,称之为标准分数。 又称为Z分数。 第五章 相关系数主要用于描述双变量数据相互之间的关系。 一、事物总是相互联系的,它们之间的关系大致有以下三种情况: a.因果关系: 一种现象是另一种现象的原因,而另一种现象是结果。 b.共变关系: 表面看来有联系的两种事物都与第三种现象有关。 c.相关关系: 两类现象在发展变化的方向与大小方面存在一定的联系,但不是前面两种关系,具有相关关系的两种现象之间的关系是比较复杂的,甚至可能包含有暂时尚未认识的因果关系以及共变关系在内。 2、相关关系与相关分析 相关关系: 事物之间存在联系,但不能直接作出因果关系的解释。 相关: 具有相关关系的不同现象之间的关系程度。 相关分析: 用一些合理的统计指标对相关现象的观测值进行的统计分析。 相关分析用于描述双变量(bivariatedata)数据相互之间的关系。 3、散点图 1、相关散点图: 将具有相关关系的两种现象的成对观测值标在平面直角坐标系中,从而直观地反映出它们的相关情况。 相关散点图是确定变量之间是否存在相关关系以及关系密切程度的简单而又直观的方法。 2、相关系数 相关系数(coefficientofcorrelation): 两列变量间相关程度的数字表现形式,或者是用来表示相关关系强度的数量化指标。 总体参数ρ、样本统计量r 相关系数与平均数和标准差一样,是应用比较广泛的有代表性的统计量。 3、相关系数的取值范围在-1.00和+1.00之间,常用小数形式表示。 相关系数的正负号表示双变量数列之间相关的方向。 r>0表示正相关,r=+1.00表示完全正相关; r<0表示负相关,r=-1.00表示完全负相关; r=0表示零相关。 相关系数的取值大小表示相关的强弱程度;1密切--------0不够密切。 4、相关研究 相关研究提供了一种当人们难以对特定变量进行人为控制时,对彼此间存在联系的事物进行经济的、广泛的研究的方法,是教育与心理研究经常使用的方法之一。 相关分析是许多多元分析的基础。 多元回归分析、因素分析等。 5、积差相关 积差相关: 一种运用较为普遍的计算相关系数的方法;揭示两个变量线性相关方向和程度的最常用、最基本的方法。 6、协方差 1)通常,人们把离均差乘方之和除以N叫做“距”(moment);把X的离均差和Y的离均差的乘积之和除以N,用“积距”(product-moment)表示,又称协方差。 协方差(covariance)是计算积差相关系数的基础,它是两个变量离均差乘积的平均数,能够直观地反映两列变量之间的一致性程度(变化方向和关联程度)。 2)应用条件 ①要求成对的数据: 每个个体都有两种不同的观测值;成对数据的数目不宜少于30(n>30); ②正态双变量: 两列变量各自总体的分布都是正态分布或接近正态的单峰分布(已有研究资料;正态性检验); ③两列数据都是连续性测量数据; ④两列变量之间的关系是线性关系(相关散点图;已有研究结果); 7、计算积差相关系数的基本公式 1)运用标准差与离均差计算 2)用标准分数计算积差相关系数 3)用原始数据计算积差相关系数 8、计算积差相关系数的差法公式 a.减差法 b.加差法 9、相关系数的合并 第一步查表8,适用费舍Z-r转换表,将r值转换为费舍Z分数; 第二步求费舍Z分数的加权平均数; 第三步将Z分数的平均数再转换成r值即可。 10、等级相关 等级相关是以等级次序排列的变量之间的相关,这种相关对变量的总体分布不作要求,故这类相关为非参数相关。 斯皮尔曼等级相关 当两列变量值是以等级次序排列或以等级次序表示时,且两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两列变量之间的相关称为等级相关。 常用符号rR表示。 计算方法: 肯德尔等级相关 肯德尔W系数,又称肯德尔和谐系数,是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。 常用符号W表示。 计算方法: 肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。 它与肯德尔W系数所处理的问题相同,但所处理的资料的获得方法不同,计算的结果也不一样。 计算方法: 11、质量相关 质量相关: 指一列变量为等比或等距的测量变量,另一列变量是按性质划分的变量,求这两个变量之间的直线相关称为质量相关。 它主要包括: 点二列相关: 如果在两个变量中,一个变量是等比或等距的测量变量且其总体为正态,另一变量为“二分”称名变量(如男女、已婚与未婚等),这两个变量之间的直线相关称做点二列相关。 二列相关: 当两个变量为正态连续变量,其中一个变量被人为地划分为二分变量,这两个变量之间的相关称为二列相关。 多系列相关: 两个正态连续变量,其中一个变量被人为地划分成多种类别,如学习成绩被分为优、良、中、差四类,表示这两种变量之间的相关称为多系列相关。 12、品质相关 四分相关 相关: 适用: 两列变量均为真正的二分变量。 列联相关: 系数相关计算 第六章 1、概率 1、随机事件是指在一定条件下可能出现也可能不出现的事件,表明随机事件出现可能性大小的客观指标就是概率。 概率可以分为先验概率和后验概率。 后验概率: 在对随机事件进行n次观测时,其中某一随机事件A出现了m次,则m/n称为事件A出现的频率。 随着试验次数的增加,事件A的频率将稳定在某一常数p,则此常数p就是事件A出现概率的近似值,可表示为: P(A)=m/n 以随机事件A在大量重复试验中出现的稳定频率值作为随机事件A的概率估计值,这种求得的概率叫做后验概率。 先验概率(priorprobability): 先验概率是通过古典概率模型加以定义的,故又称之古典概率。 古典概率要求满足两个条件: ①试验的所有可能结果(即基本事件)是有限的;②每一种基本事件出现的可能性相等。 如果基本事件的总次数为n,事件A包括m个基本事件,则事件A的概率为: P(A)=m/n 先验概率是在特定条件下计算出来的,是随机事件的真实概率,不是由频率估计出来的。 当试验重复次数较多时,后验概率也就接近先验概率。 2、概率的基本性质与定理 A.基本性质 ⑴任一随机事件A的概率取值范围都在0与1之间,即 ⑵必然事件(是指在一定条件下必然发生的事件,记做Ω)的概率等于1,即P(Ω)=1。 ⑶不可能事件(是指在一定条件下必然不发生的事件,记做Φ)的概率等于0,即P(Φ)=0。 3、定理: 加法定理: 两个互不相容事件A、B之和的概率,等于两个事件概率之和。 即: P(A+B)=P(A)+P(B). 乘法定理: 两个独立事件同时都发生的概率,等于这两个事件概率的乘积。 用公式表示: P(AB)=P(A).P(B) 所谓互不相容事件是指在一定试验中,若事件A发生,则事件B就一定不发生。 此定理可推广到有限多个互不相容事件中。 所谓独立事件是指一个事件的出现对另一个事件的出现不发生影响,如果事件A的概率随事件B是否出现而改变,事件B的概率随事件A是否出现而改变,则这两个事件称为相关事件。 4、概率分布(probabilitydistrbution)是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。 离散分布: 随机变量只取孤立的数值时,这种随机变量称之离散型随机变量,离散随机变量的概率分布,简称离散分布。 常见的离散分布是二项分布。 连续分布: 指连续随机变量的概率分布,也就是测量数据的概率分布,它用连续随机变量的分布函数描述其分布规律。 常见的连续随机变量的分布为正态分布。 经验分布(empiricaldistribution): 是指根据观察或试验所获得的数据而编制的次数分布或相对频率分布。 理论分布(theoreticaldistribution): 有两个含义,一是指随机变量的次数函数———数学模型;二是指按照某种数学模型计算出的总体的次数分布。 基本随机变量分布: 是指理论分布中描述总体的基本变量的分布,在教育界统计学中常用的基本随机变量分布有二项分布和正态分布(normaldistribution)。 抽样分布(samplingdistribution): 是样本统计量的理论分布,样本统计量有;平均数、两平均数之差、方差、标准差、相关系数、百分比率等等。 样本统计量是基本随机变量的函数,所以抽样分布又叫随机变量函数的分布。 5、正态分布 概念: 正态分布也称常态分布或常态分配,是连续随机变量概率分布的一种。 有时称正态分布为高斯分布。 特征: 正态曲线在X=μ点取得最大值,即标准正态分布曲线在Z=0点取得最大值,即 ⑵正态曲线关于直线X=μ对称(但对称的不一定是正态的),即随机变量X在μ的对称区间上取值的概率相等。 显然标准正态分布关于直线Z=0对称。 ⑶正态曲线下的面积为1,过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50. 编制与使用 6、测验分数正态化 a.T分数: T分数是从Z分数转换而来的一种正态化的标准分数。 它是将标准分数扩大10倍,再加上50。 即: T=10Z+50 T分数由美国教育测量学家麦柯尔(W.A.Mecall)提出的,其取值范围为[0,100]。 b.T分数的计算步骤: ⑴如果原始分数的分布是一正态分布,由原始分数转换为标准分数; 如果原始分数的分布不是正态分布: 将原始数据整理成次数分布表,计算各分组上限以下的累加次数,计算各组中点以下的累积比率,将各组中点以下累积比率视为正态分布的概率查正态表找出对应的Z值,这个Z值就是正态化的标准分数。 ⑵将Z分数代入公式,计算T分数. 第七章 1、推断统计就是指由样本资料去推测相应总体情况的理论与方法。 也就是由部分推全体,由已知推未知的过程。 推断统计分为参数估计和假设检验两方面。 参数估计是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。 假设检验的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验。 它又为参数检验和非参数检验。 参数检验法在检验时对总体分布和总体参数有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的情况。 点估计是指在进行参数估计时,直接用一个特定点值作为总体参数的估计值。 区间估计是根据样本统计量,利用抽样分布的原理,在一定的可靠程度上,估计出总体参数所在的范围,即以数轴上的一段距离表示未知参数可能落入的范围。 置信区间: 也称置信间距,指在一定可靠程度上,总体参数所在的区域距离或区域长度。 显著性水平: 指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。 有时也称为意义阶段、信任系数等。 置信度(置信水平): 1—α。 区间估计是根据样本分布理论,用样本分布的标准误计算区间长度,解释总体参数落入某置信区间可能的概率。 标准差: 总体平均数估计的计算步骤: ⒈利用抽样的方法抽取样本,计算出样本的平均值和标准差S。 ⒉计算样本平均数的标准误: ①当总体方差已知时,样本平均数的标准误的计算为: ②当总体方差未知时,样本平均数的标准误的计算为: ⒊确定显著性水平和置信水平 ⒋根据样本平均数的抽样分布确定查何种分布表,确定理论值。 ⒌确定置信区间: ⒍解释
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 名词解释