统计学是一组概念.docx
- 文档编号:10491376
- 上传时间:2023-02-13
- 格式:DOCX
- 页数:8
- 大小:19.89KB
统计学是一组概念.docx
《统计学是一组概念.docx》由会员分享,可在线阅读,更多相关《统计学是一组概念.docx(8页珍藏版)》请在冰豆网上搜索。
统计学是一组概念
统计学是一组概念、原则和方法。
用于——
●a收集数据;b分析数据;c由数据得出结论
科学是以方法为特征的,而不是它的研究对象
●心理学之所以成为科学就是因为以了科学的方法研究问题
●统计学是心理学研究结果表达的有效语言
●作为仪式的统计学
●心理学三种类型的研究问题与统计
●类型一:
特征描述
●类型二:
差异比较
●类型三:
关系分析
●总体:
是由具有某些共同特质(characteristic)的元素(element)或个体所组成的群体,是研究人员所要研究观察的对象的全体集合。
●样本:
是由总体中抽取部份元素而组成的集合,是总体的一部份。
●参数:
描述总体情况的一些统计指标,通常基于对样本的观察或测量的推断而获得。
参数是我们想要获取的,是统计的核心。
●例如通过普查得到中国大学生平均身高即为参数;
●统计量:
对样本直接观察或测量所得的数值,通常用来推论参数。
例如用随机方法抽出部分大学生测得的平均身高即为统计量。
样本统计量的总体参数符号
名称
样本
总体
定义
从总体中抽出的部分单位数
研究对象的全部单位总数
特征
统计量
参数
符号
样本容量:
n
样本平均数:
样本比例:
样本标准差:
s
样本方差
总体容量:
N
总体平均数:
μ
总体比例:
p
总体标准差:
σ
总体方差:
●描述统计与推断统计
●描述统计(descriptivestatistics)是来描绘或总结的观察量的基本情况的统计总称。
描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示。
●推断统计(inferentialstatistics)是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
●变量
●总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,该特征称为变量。
如“身高”、“体重”、“性别”、“智商”等。
●变量的测定值或观察值称为变量值或观察值,亦称为数据(data)。
●描述统计与推断统计的关系
●美国统计学家史蒂文斯(S.S.stevens)1968年按照变量的性质和数学运算的功能特点,将变量的统计测量尺度划分为定类尺度、定序尺度、定距尺度和定比尺度四类
●测量尺度
●测量的尺度决定了我们可以从测量数据中得到的回答的类型。
●数据的信息水平。
●称名测量(nominalscales)
●在于表明一件事物不同于另一件事物;
●没有数量的特征;
●E.g.性别(1、2),城乡(1、2
●顺序测量(ordinalscales)
●在于表明一个序列中的位置;
●不能说明两者之间差别多少;
●E.g.比赛排名等,常见的量表
●等距和等比测量(interval&ratioscales)
●有固定的测量单位:
元、分钟等
●等距和等比量表的差异:
零点
●等距:
人为的零点(e.g.温度)
●等比:
绝对零点(时间、金钱etc.)
●
●
●常量与变量
●一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。
●但是,开车后,坐在这节车厢的旅客有多少就没准了。
这有随机性。
该车厢的乘客数为变量(variable)。
●一个学校的注册在校男女生比例是固定的,为常量
●但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。
●自变量和因变量
●IV(independentvariable):
为了解释因变量的差异或变化而操作的变量;
●DV(dependentvariable):
研究者感兴趣的观察或测量的结果,以评估IV的作用。
●数据:
泛指对客观事物的数量、属性、位置及其相互关系的抽象表示。
●信息:
人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关联,信息可以被数字化;作为知识层次中的中间层,
●信息=数据+处理
●知识:
是信息、文化脉络以及经验的组合。
●智慧(Wisdom)-知识的选择,应对的行动方案可能有多种,但选择哪个靠智慧。
●数据的整理
●在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。
表格和图形是整理和反映统计资料的主要工具。
●频数分布
●频数分布(Frequencydistribution):
对一数据集的表格汇总法,显示若干无重叠组别中每一组的项目频数(或个数)。
●相对频数分布(Relativefrequencydistribution):
一数据集的表格汇总法,显示在若干无重叠组别中每一组的项目总数的相对频数,即分数或比例。
●直方图(Histogram):
一种通过在横轴上放置组间隔,在纵轴上放置频数来描述数量数据的频数分布、相对频数分布或百分数频数分布。
●直方图与条形图
●条形图是用宽度相同的条形的高度或长度来表示数据变动的图形。
直方图是用矩形的宽度和高度来表示频数分布的图形。
●直方图中的直方条显示出不能分开、连续的;条形图中的直方条显示是可以分开的。
百分数频数分布(Percentfrequencydistribution):
一数据集的表格汇总法,显示几个无重叠组别中每一组的项目总数的百分率。
●条形图(Bargraph):
一种图形方法,描述在品质数据的频数分布、相对频数据分布或百分数频数分布中表示的信息。
●饼形图(Piechart):
一种描述品质数据汇总的图形方法,建立于把一个圆细分成与每一组的相对频数相对应的扇型的基础上。
●累积频数分布(Cumulativefrequencydistribution):
对数量数据集的表格法汇总,显示数值小于或等于每一组组上限的项目数。
●累积相对频数分布:
对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目分数或比例。
●累积百分数频数分布:
对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目的百分率。
●探索性数据分析技术由简单算术和易画的图形组成,可以用于快速地汇总数据。
●茎叶显示(Stem-and-leafdisplay):
一种同时排列数量数据顺序并提供分布形态的深入信息的探索性数据分析技术。
茎叶图由两部分组成:
茎(stem)与叶(leaf)
●茎:
通常由每组数的高位数值(leadingdigits)形成,按组竖立在左边;
●叶:
通常由每组数的低位数值(lastdigits)形成,按组横排在“茎”的右边。
●坐标轴:
坐标轴最大最小的取值十分有艺术性,想要让数值看起来夸张点,就把最大最小值之间的范围缩小点,反之亦可。
●趋势线:
趋势线是画龙点睛,简直就是专门为了误导别人而设计的。
●1.直线型趋势线,只取头尾两值的连线,中间的忽略不计
●2.移动平均线:
移动平均线的周期的取值会导致图形巨大差异
●颜色:
作为障眼法,
●1.假如有多条线,有一条比较难看,那么就把这条的颜色跟背景设置成类似,这样看起来就不是很明显了。
●2.假如有条线下面很难看,那么可以把背景颜色改成双色,下面的背景颜色跟线接近甚至一样,在多条线的时候效果更好,
●APA统计表规范
●1.整个统计表应以“置中”的方式放在内文的中间。
●2.而标题在表的正中央上方(标题和表之间不空行),标号(如“表1”)和标题的文字之间空一个全型格。
●3.表格的安排,能使读者易于掌握重要的资料
●4.通常文字解释先于图表
●5.APA格式因供期刊论文之用,通常在表格内不画纵向直线,但为求美观,一般学位论文也可画纵向直线。
●
●众数是一组数据分布的峰值,它是一种位置代表值,不受极端值的影响。
缺点是不具有唯一性;
●中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响;
●均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。
缺点是易受极端数据的影响。
●对于偏态分布数据,均值代表性较差。
当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。
●方差与标准差是表示一组数据离散程度的最好指标。
其值越大说明离散程度大,其值小说明数据比较集中。
●反应灵敏。
容易计算;简单明了;适合代数运算;
●受抽样变动的影响小,不同样本的标准差或方差比较稳定;
●具有可加性。
可以把总变异分解为不同来源的变异。
●每个观测值加上相同常数C后,计算得到的标准差不变;
●每个观测值都乘以一个相同常数C后,计算得到的标准差是原来标准差的C倍
●标准差系数(Coefficientofvariation):
衡量数据集相对变异程度的量度,以标准差除以平均数再乘以100得到。
●Z分数(z-Score):
以距平均数的离差( )除以标准差s所得的值。
Z分数是标准化的数值,指数据值xi距离平均数 的标准差的个数。
●z分数经常被称为是标准化分数。
比如,z1=1.2表示x1比样本平均数大1.2个标准差。
z2=-0.5表示x2比样本平均数小0.5个标准差。
●两个不同数据集的项有相同的z分数,则可以说它们有相同的相对位置,因为它们都与平均数的距离有相同个数的标准差。
●切贝谢夫定理(Chebysher’stheorem)
● 在任意一个数据集中,至少有(1-1/z2)的数据项与平均数的距离都在z个标准差之内,其中z是任意大于1的值。
●z=2,3,4个标准差时,这一定理的含义:
●至少0.75,即75%的数据项与平均数的距离在z=2个标准差之内。
●至少0.89,即89%的数据项与平均数的距离在z=3个标准差之内。
●至少0.94,即94%的数据项与平均数的距离在z=4个标准差之内。
●假设100名学生统计学课程考试,平均分数为70,标准差为5,那么有多少学生的分数在60~80之间?
有多少学生的分数在58-82之间?
●对于60-80之间,到60比平均数低两个标准差而80比平均数高两个标准差。
利用切贝谢夫定理,至少有0.75即75%的数据项与平均数的距离在两个标准差之内。
●对于58-82之间,我们由(58-70)/5=-2.4知,58比平均分低2.4个标准差,又由(82-70)/5=2.4知,82比平均分高2.4个标准差。
应用切贝谢夫定理,z=2.4得到:
即至少有82.6%的学生的分数在58~82之间。
●经验法则(Empiricalrule)
●对于钟形或山峰形分布(正态分布)的数据:
●约68%的数据项与平均数的距离在1个标准差之内。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 一组 概念
![提示](https://static.bdocx.com/images/bang_tan.gif)