统计学以Excel为分析工具.docx
- 文档编号:28035457
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:9
- 大小:23.99KB
统计学以Excel为分析工具.docx
《统计学以Excel为分析工具.docx》由会员分享,可在线阅读,更多相关《统计学以Excel为分析工具.docx(9页珍藏版)》请在冰豆网上搜索。
统计学以Excel为分析工具
统计学:
以Excel为分析工具
1、统计总体:
凡是客观存在、在某一共同性质基础上结合起来的许多个别事物的整体。
分类:
有限总体、无限总体;特点:
同质性、大量性、变异性
2、在统计研究过程中,统计研究的目的和任务居于支配和主导地位,是考虑问题的出发点。
3、样本按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体
4、统计总体单位:
构成统计总体的个别单位。
总体和总体单位的关系:
整体同个体、集合同元素的关系,相互依存、相互联系,它们的关系不是一成不变的,随着研究目的的变动,二者可以相互转化
5、标志:
是指说明总体单位特征的名称。
分类:
数量标志、品类标志;不变标志、可变标志
6、指标:
说明现象总体特征的概念或范畴。
分类:
总量指标(绝对数)、相对指标(相对数,两个绝对数之比)、平均指标(平均数、均值)。
设计要求:
(1)要素完整
(2)指标名称必须有科学的理论依据(3)要明确统计指标的计算口径和范围(4)要有科学的计算方法
7、指标和标志:
区别:
标志是说明总体单位特性的,指标是说明总体特征的;标志中的数量标志可以用数值表示,而品质标志不可以用数值表示。
所有的统计指标都是用数值表示。
联系:
有些统计指标的数值是在总体单位的数量标志值基础上直接汇总得到的;在一定条件下,二者可以相互转化。
8、指标体系:
指由若干相互联系的统计指标构成的有机整体。
设计的基本要求:
(1)科学性
(2)目的性(3)全面性(4)统一性(5)可比性(6)核心性(7)可行性(8)互斥性
9、参数:
描述总体特征的概括性数字度量
10、统计量:
描述样本特征的概括性数字度量
11、数据的计量尺度由低到高分层:
(1)名类尺度(品质标志)
(2)顺序尺度(3)区间尺度(4)比尺度
12、数据类型:
(1)按计量尺度分
(2)按数据的收集方式分(3)按数据的时间关系分
13、变量:
表示现象某种特征的概念(标志、指标)。
具体表现称为变量值(统计标志的标志表现和指标数值)。
分类:
品质变量、数量(数字)变量——离散变量(取值有限)、连续变量——取值无穷
1、问卷格式:
(1)开头部分(问候语、填表说明、问卷编号)
(2)甄别部分(过滤)(3)主体部分(核心部分,问题和答案)(4)背景部分
2、问卷设计标准:
(1)能有效地用来收集数据,同时尽可能减少误差和矛盾
(2)对被调查者有友好界面(3)尽量减少由无回答所引起的追踪回访的数量,且便于数据编码和录入,从而尽量减少审核与插补工作量,最终减少收集和处理数据所花的费用和时间
3、问卷的开发程序:
(1)向数据用户对象进行咨询
(2)参考以前相同主题的问卷(3)起草问题(4)对问卷进行审议与修改(5)对问卷进行测试与修改(认知法、焦点座谈、非正式测试、向被调查者了解情况、向访员了解情况、分裂样本测试、试试点调查)(6)定稿
4、问题措辞应注意的问题:
(1)简单
(2)易懂(3)针对性(4)具体性和充分性(5)避免含糊歧义重复(6)避免诱导性问题(7)避免使用双重否定(8)减少敏感问题或隐私问题的影响(每个人法、为回答辩护技巧、即使一次技术、系列问题或热身法、设立档次)(9)确保问题读
来顺口
5、问卷问题类型:
(1)开放性问题
(2)封闭式问题
数据的预处理是数据分组整理的先前步骤,内容包括数据的审核(首先)、插补、筛选、排序等
1、审核:
应用各种检查规则来辨别缺失、无效、不一致的录入。
目的:
更好地了解调查过程、调查数据,确保调查数据的完整、准确、一致。
(贯穿整个调查过程,简单初步检查——数据录入后计算机程序复杂校验,为整理分析打基础)。
分类:
直接调查取得原始数据的审核(完整性、准确性——逻辑检查和计算检查);间接取得的二手数据的审核(适用性、时效性,加工资料时应做到适用性审核、实效性审核、确认是否必要做进一步加工处理)。
从数据的表现性质来看,数据审核内容主要有有效性审核、一致性审核、分布审核。
2、插补:
解决在审核过程中辨别出来的数据缺失无效与不一致等问题的过程。
方法分类:
随机插补;确定插补【(差不每次都是相同的值)具体方法:
1、推理插补;2、均值插补;3)比率
或回归插补;4、热平台插补:
使用同一插补类
中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据的插补方法(分类:
序贯热平台插补、随机热平台插补。
优点:
可以保持数据的原始分布形式。
缺:
常导致同一个供者的多次使用,有时很难找到一个合适的供者)(为确保找到供者记录,可以用多层次热平台插补);5、冷平台插补:
与热不同为使用前期的或普查中的供者资料;6、最近邻插补:
与热一样基于匹配变量选择一个供者记录,但它的目的不是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是插补类中按匹配变量找到和受记录者最接近的供者记录——找到距离最近的值】
3、离群值:
一个观测值或一组观测值,它们看起来与数据集中的其他观测值不一致。
4、统计数据的筛选:
(1)将某些不符合要求的数据或有明显错误的数据予以剔除
(2)将符合某种特定条件的数据筛选出来,不符合特定条件的数据予以剔除
5、数据排序:
按一定顺序将数据排列,目的是便于研究者通过浏览数据发现一些明显的特征
或趋势,找到解决问题的线索(定性数据、定量数据)
1、统计分组:
根据统计研究的目的和客观现象的内在特点,按一定的标志把被研究总体划分为若干个性质不同但又有联系的组。
目的是使资料系统化、科学化、条理化,从而得出能够反映事务总体特征的资料。
方法:
(1)按品质标志进行分组{属性特征}
(2)按数量标志分组{按表现总体数量特征的标志}——单项式分组(每个组变量值是一个值)、组距式分组(连续变量、离散型变量多)
2、频数分布(次数分布):
在对总体进行分组的基础上将总体中所有单位按组归类整理,形成总体各单位在各组间的分布,反映总体单位数在各组的分布状况和特征。
包括要素:
(1)组的名称
(2)组的次数或频数。
次数的相对数即各组次数与总次数之比——比率或频率(反映总体构成)。
频数分布表明总体分布特征和内部结构,并据以研究总体中某种标志的平均水平及其变动规律。
频数分布按分组标志不同分:
品质数列(品质标志)、变量数列
3、组中值=(上限值+下限值)*2。
使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧对称分布
4、统计图:
可以将表中的数据用图来表示,使表图文字有机结合起来,使人们一目了然地认识客观事物的状态、形成、发展趋势或在某地区上的分布状况等。
分类:
(1)条形图和柱形图
(2)饼图(3)环形图(4)直方图(5)折线图(6)散点图与气泡图
5、统计表:
把杂乱的数据有条理的组织在一张简明的表格内。
组成部分:
表头、行标题、列标题、数字资料,必要时可以再表下方附加。
设计要求科学、实用、简练、美观。
注意:
(1)合理安排结构
(2)表头一般包括表号、总标题、表中数据的单位等内容(3)表中的上下两条横线一般用粗线,中间其他线要用细线(4)使用统计表必要时可在表下方加注释,特别要注明资料来源
1、总量指标:
反映社会经济现象在一定时间、地点、条件下总规模或总水平的统计指标,它通常是用绝对数来表现的,又称为绝对指标、绝对数。
它是社会经济统计中最基本的统计综合指标。
作用:
(1)反映社会经济现象总体的基本情况
(2)是制定政策、编制计划、进行经济管理的重要依据(3)是计算相对指标和平均指标的基础。
应注意问题:
(1)现象的同质性
(2)明确总量指标的含义、范围、计算方法(3)使用统一的计量单位
2、总量指标的分类:
{1}按反映内容不同,分总体单位总量(总体中包含的总体单位总数)和总体标志总量(标志总量,总体某一数量特征的总量){2}按反映的时间状况不同,分时期指标(一段时期内发展过程的总量指标,特点:
连续计数、可加性、流量指标)和时点指标(在某一点、瞬间,特点:
间断计数、指标不能累加、存量指标){3}按其采用的计量单位不同,分实物指标(实物单位:
自然单位、度量衡~、标准实物~、复合~、双重或多重~)、价值指标(货币单位)、劳动指标(劳动单位)
3、相对指标:
相对数,两个有联系的指标的比值,用以说明两个互相联系的社会经济现象之间的数量对比关系和联系程度。
用来对比的两个数,可以是绝对数、平均数和相对数。
作用:
(1)综合反映现象的互相关系、内部结构、实现的程度、强度和速度等,从而说明总量指标不能充分说明的问题
(2)可以使某些利用总量指标不能直接进行对比的社会经济现象,取得可以比较的基础。
表现形式:
有名数(强度、密度、普遍程度)和无名数(抽象化的数值,系数、倍数、成数、百分数、千分数、翻数)。
遵循原则:
可比性原则、正确选择对比基数~、多种相对指标结合运用~、相对指标与总量指标结合运用~
4、相对指标根据研究目的、任务、对不基数的不同,可分为:
(一)计划完成相对数:
计划完成百分比,某一现象在一定时间计划的完成度。
公式:
计划完成相对数=(实际完成数十计划完成数)X100%{1}计划数为绝对数:
(1)短期计划完成情况检查:
计划完成相对数=(实际完成数*计划完成数)X100%
(2)中长期计划完成程度检查:
1)水平法-计划完成相对数=计划末期(最后一年)实际达到的水平十计划规定期末应达到的水平
X100%,2)累计法:
计划完成相对数=计划期间实际累计完成数十计划期间规定的累计数X
100%;{2}计划数为相对数:
计划完成相对数=实际达到的百分数十计划规定的百分数x100%=
(1土实际提高/降低百分数)十(1土计划提高/降低百分数);{3}计划数为平均数:
计划完成相对数=实际完成的平均数十实际完成的平均数x100%
(二)结构相对数-比重相对数:
内部各组成部分在总体中所占比重。
结构相对数=总体中某一部分数值十总体全部数值x100%
(三)比例相对数:
反映一个统计总体内部各个组成部分之间数量对比关系,常用系数、倍数表示。
比例相对数=总体中某一部分数值十总体中另一部分数值
(四)比较相对数:
反映同一时期的同类现象在不同地区、部门、单位之间数量对比关系,用百分数或倍数表示。
比较相对数=某一地区(单位)某期某类指标数值十另一地区(单位)同期同类指标数值
(五)动态相对数:
发展速度,把同一现象在不同时间上的指标数值进行对比,用以说明发展变化的方向和程度。
动态相对数=某一现象报告期数值十同一现象基期数值x100%
(六)强度相对数:
两个性质不同但又相互联系的总量指标进行对别比值,可反映现象强度、密度、普遍度。
强度相对指标=某一总量指标的数值*另一有联系但性质不同的总量指标数值
1、集中趋势:
一组数据向中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表或中心值。
用平均指标来测度。
2、数值平均数:
(1)算术平均数:
均值,是全
部数据算数平均的结果。
算术平均数=总体标志总量十总体单位总量。
简单算数平均数加权
平均数:
根据分组数据计算计算算术平均数,以各组变量值出现的次数或频数为权数计算加权的算数平均数。
(2)调和平均数:
是各个变量值倒数的算术平均数的倒数,又称倒数平均数H。
简单调和平均数加权调和平均数。
(3)几何平均数:
n个变量值连乘积的n次方根。
简单几何平均数。
加权几何平均数
3、位置平均数:
根据全部标志计算的平均数,当某现象次数分布数列不对称,且极端值很大时,数值平均数就失去了意义。
(1)众数Mo:
一组数据中出现次数最多的变量值。
(2)中位数
Me:
一组书中按大小排序后,处在中间位置上的变量。
(3)分位数:
四分位数,用3个点将数据四等分后各分位点上的值
4、离散程度的度量:
异众比率(非众数组的频数占总频数的比率)、四分位差(上四分位与下四分位之差)、极差-全距(一组数据最大值与最小值之差)、平均差(各变量值与其算数平均数离差绝对值的平均数)、方差(各变量与其算术平均数离差平方的算数均数)和标准差(方差的平方根)、离散系数-变异系数(一组数据的标准差与其相应的平均数的比值,是测度数据离散度的相对指标)等
1、统计假设:
对总体参数的具体数值所作的描述,常用的总体参数包括总体均值u、比例、方
2、假设检验:
先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程
3、原假设:
研究者想收集收集证据予以反对的假设,又称零假设。
4、备择假设:
也成研究假设,是研究者想收集
证据予以支持的假设5、双侧假设:
如果备择假设没有特定的方向性,并含有符号疋这样的假设检验,又称双尾检验
6、单侧检验:
如果备择假设有特定的方向性,并含有符号>或<这样的假设检验
7、提出假设:
原假设与备择假设是一个完备事件组,并相互对立。
原假设与备择假设有且只有一个成立。
先确定备择假设,再确定原假设。
等号=总是放在原假设上。
因研究目的的不同,对同一问题可能提出不同假设也可能得出不同结论
1、方差分析:
检验多个均值是否想相等的统计方法。
方差分析仅在假定了方差相等的情况下才有意义。
2、方差分析的基本概念:
{1}检验对象为因素或因子;{2}因素的不同表现称为水平或处理{3}每个因子的不同水平下得到的样本观察数据称为观测值;{4}随机误差:
在同一教学方法下(同一总体中)样本观察值是不同的,在方差分析时,这是由于抽样的随机性造成的;系统误差:
不同教学方法(不同总体)下,个观测值也是不同的,除了随机性因素外,还有教学方法本身,后者形成的误差是由系统性因素造成;{5}组内误差:
衡量因素的同一水平(同一总体)下样本数据的误差;组间误差:
衡量因素的不同水平(不同总体)下各样本之间的误差。
3、单因素方差分析:
方差分析中只涉及一个分类型自变量。
4、自变量-分类型数据,因变量-等间或比例数据
1、抽样推断:
有两种类型:
参数估计、假设检验。
特点:
遵循随机原则抽取样本单位、推断被调查对象的总体特征、抽样推断的误差可以计算并加以控制。
作用
(1)对有些无法进行全面调查的现象采用抽样推断的方法
(2)对有些理论上可以进行全面调查但实际上没有必要或很难办到的想象~(3)其结果可以对全面调查的结果进行检查修正(4)可用于工业生产过程的质量控制(5)可用于本对总体的某种假设进行检验
2、抽样单元:
大规模抽样中为了具体抽样便利,将总体划分的各个部分。
抽样框:
关于抽样单元的名册清单
3、从总体中抽样的方法:
[1]概率抽样:
也称随机抽样,按随机原则进行的抽样。
特点:
(1)能确切区分不同样本及表明一个确定样本的组成
(2)对每个可能的样本都赋予一个可能被抽到的概率(3)按照事先富裕的概率通过某种随机形式抽取样本(4)利用样本调查数据估计目标时仍需与抽样概率相联系。
组织形式:
{1}简单随机抽样-单纯随机抽样:
抽签法、分层抽样-类型抽样、二阶抽样与多阶抽样(对样本再进行抽样)、整群抽样(对次级单元进行普查)、系统抽样(按序排列•按规则确定样本)[2]非概率抽样:
非随机抽样、配额抽样、判断抽样
4、抽样调查设计(核心):
[1]抽样方案设计:
抽样方法的选择和组合、样本容量的确定[2]调查方法确定[3]估计量的构造
1、经济变量之间的统计关系:
{1}函数关系(固
定严格的数量依存关系){2}统计关系——相关关系(非确定性的数量依存关系)y=f(x)+u,分类:
变量因素的多少,单相关、复相关;b/表
现形式,有线性相关、非线性相关;c/方向,正~、负~;d/变量之间的相关程度,完全~、不完全~、不~
2、相关分析研究两个或两个以上变量之间相关程度的大小的一种统计方法,内容:
(1)确定现象间有无关系存在,以及相关关系呈现形态
(2)确定相关关系密切程度(3)相关系数的检验
3、回归分析:
寻找具有相关关系的变量间的数学表达式并进行统计推断的一种统计方法,内容:
(1)进行参数估计
(2)统计显著性检验(3)预测控制
4、相关分析与回归分析:
{1}联系:
相互补充、密切联系。
回建立在相的基础上,回是相的拓展;相是回的前提{2}区别:
(1)相主要通过相关系数来判断变量间是否存在相互关系及其关系的密切程度,前提条件是变量都是随即变量,它们之间不必区别自变量和因变量。
回研究一个随机变量Y与另一个非随机变量X之间的相互关系,变量之间必须区别自变量和因变量
(2)相只能观察变量间相关关系的密切程度和方向,回可以根据回归方程对算因变量的估计值(3)互为因果关系的两个变量,可以拟合两个回归方程,互相独立、不能互相替换;相关系数只有一个,自变量和因变量互换相关系数不变
5、相关表:
根据现象变动样本资料编制出来的
反映变量间相关关系的统计表(简单相关表、分组相关表)
6、相关图:
利用指标坐标系第一象限,把自变量置于横轴之上,因变量置于纵轴之上,将两变量相对应的变量值用坐标点形式描绘出来,用以表示相关关系的图形。
作用:
判断现象之间有无相关关系,观察相关关系的内容,观察相关关系的密切程度
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 Excel 分析 工具