数据统计分析方法.docx
- 文档编号:7465244
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:19
- 大小:338.83KB
数据统计分析方法.docx
《数据统计分析方法.docx》由会员分享,可在线阅读,更多相关《数据统计分析方法.docx(19页珍藏版)》请在冰豆网上搜索。
数据统计分析方法
数据统计分析常用方法
1统计学基础知识
1.1统计的含义
“统计”一词在各种实践活动和科学研究领域中都经常出现。
然而,不同的人或在不同的场合,对其理解是有差异的。
比较公认的看法认为统计有三种含义,即统计活动、统计数据和统计学。
●统计活动
统计活动又称统计工作,是指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程。
●统计资料
统计资料又称统计数据,即统计活动过程所获得的各种数字资料和其他资料的总称。
表现为各种反映社会经济现象数量特征的原始记录、统计台账、统计表、统计图、统计分析报告、政府统计公报、统计年鉴等各种数字和文字资料。
●统计学
统计学是指阐述统计工作基本理论和基本方法的科学,是对统计工作实践的理论概括和经验总结。
它以现象总体的数量方面为研究对象,阐明统计设计、统计调查、统计整理和统计分析的理论与方法,是一门方法论科学。
1.2统计的分类
从统计方法的功能来看,统计学可以分为描述统计学与推断统计学。
从方法研究的重点来看,统计学可分为理论统计学和应用统计学。
本文中主要按统计方法的功能进行讨论,不涉及理论统计学。
●描述统计学
研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。
描述统计学的内容包括统计数据的搜集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
●推断统计学
研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。
描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。
1.3样本
样本是统计学中非常重要的概念,理解这个概念需要注意三大问题:
l构成某一样本的每一单位都必须取自某一特定的统计总体,不允许该总体之外的单位介入该总体的样本。
l样本单位的抽取应是按一定的概率进行的,而具体样本的产生应是随机的,因此必须排除人的主观因素对样本单位抽取和样本生成的干扰。
l样本是母体的代表,带有母体的信息,因而能够推断母体;然而,样本只是母体的一个子集,且具有随机性,故由样本去推断总体会产生代表性误差。
2数据的概括性度量
2.1总规模度量
2.1.1总量指标
2.1.1.1概念
总量指标是反映社会经济现象总体在一定时间、地点和条件下总规模或总水平的统计指标。
其表现形式通常是绝对数,所以也称为绝对指标或绝对数。
2.1.1.2作用
●总量指标反映的是总体情况
●总量指标是计算相对指标和平均指标的基础
2.1.1.3总量指标的计算方法
总量指标的计算方法,抽掉其具体内容,都可以归结到加法上,分简单加法和加权加法。
●简单算法
●加权算法
其中,式中:
M表示总量指标;x表示变量值;f表示权数
2.2比较度量
2.2.1相对指标
2.2.1.1概念
相对指标又称相对数,是两个有联系的统计指标的比值,用以说明社会经济现象之间的数量对比关系。
2.2.1.2作用
●反映现象的内部结构、比例关系、普遍程度与速度。
●使某些不能直接进行对比的统计指标,取得可以比较的基础
2.2.1.3相对数的种类和计算方法
2.2.1.3.1结构相对数
结构相对数是表明总体内部各个组成部分在总体中所占比重的相对指标。
2.2.1.3.2比例相对数
反映一个统计总体内部各个组成部分之间数量对比关系的相对指标,常用系数和倍数表示。
2.2.1.3.3比较相对数
反映同一时期的同类现象在不同地区、部门和单位之间数量对比关系的相对指标。
2.2.1.3.4动态相对数
同类现象在不同时间上数量对比关系的相对指标称为动态相对数,说明现象发展变化的方向和程度。
常见的例如同比、环比等。
2.2.1.3.5强度相对数
强度相对数反映两个性质不同但有联系的统计指标之间数量对比关系的相对指标。
2.2.1.3.6计划完成相对数
计划完成相对数也称计划完成百分比,它是现象在某一时期的实际完成数与其计划任务数的比值,用来检查、监督计划的执行情况,一般用百分数表示。
2.2.1.4运用相对指标的原则
●可比性原则
●多种相对指标综合运用的原则
●同总量指标、平均指标综合运用的原则
2.3平均度量
2.3.1概念
计算平均数是统计分析中最常用的一种方法。
在统计分析中,除了用平均数表现数据资料的集中趋势外,还常运用平均数进行静态和动态的对比分析,运用平均数分析现象之间的依存关系。
2.3.2平均数的种类和计算方法
2.3.2.1数值平均数
算数平均数:
算术平均数也称为均值,是全部数据算术平均的结果。
2.3.2.1.1简单算数平均数
未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。
2.3.2.1.2加权算数平均数
根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。
2.3.2.1.3调和平均数
有时会遇到已知各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。
调和平均数是各个变量值倒数的算术平均数的倒数。
●简单调和平均数
●加权调和平均数
2.3.2.1.4几何平均数
几何平均数是n个变量值乘积的n次方根,可分为简单几何平均数和加权几何平均数。
●简单几何平均数、
●加权几何平均数
几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度,如过去历年的平均增长率。
2.3.2.1.5平方平均数
平方平均数是n个数据的平方的算术平均数的算术平方根。
2.3.2.1.6中位数
中位数是一组数据按从小到大排序后,处于中间位置上的变量值,用Me表示。
根据未分组数据计算中位数时,要先对数据排序,然后确定中位数的位置,其公式为
其中n为数据的个数,最后确定中位数的具体数值。
当n为奇数时,处在中间位置上只有一个变量,;当n为偶数时,处在中间位置上有两个变量值。
2.3.2.1.7众数
众数是指一组数据中出现次数最多的变量值,用Mo表示。
众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。
2.3.2.1.8分位数
中位数是从中间点将全部数据等分为两部分。
与中位数类似的还有四分位数、十分位数和百分位数等。
2.4离散变量
2.4.1变异指标
数据的差异程度就是各变量值远离其中心值的程度。
2.4.1.1概念
在统计研究中,通常把一组数值之间的差异程度叫做标志变动度。
测定标志变动度大小的指标叫做标志变异指标。
标志变动度与标志变异指标在数值上成正比。
标志变异指标则说明总体分布的离中趋势。
2.4.1.2变异指标的作用
●反映总体各单位变量值分布的均衡性。
一般来说,标志变异指标数值越大,总体各单位变量值分布的离散趋势越高、均衡性越低;
●判断平均指标对总体各单位变量值代表性的高低;
●标志变异指标是衡量风险大小的重要指标。
2.4.1.3变异指标的类型
根据所依据数据类型的不同,变异指标有异众比率、四分位差、全距、平均差、方差和标准差、离散系数等。
2.4.1.4异众比率
非众数组的频数占总频数的比率(VariationRatio),称为异众比率,用Vr表示。
式中:
Σfi为变量值的总频数;fm为众数组的频数。
异众比率越大,说明非众数组的
频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。
2.4.1.5全距或极差
全距又称极差,是一组数据的最大值与最小值之差,用R表示
式中:
max(Xi)、min(Xi)分别表示为一组数据的最大值与最小值。
。
R越大,表明数值变动的范围越大,即数列中各变量值差异大;反之,R越小,表明数值变动的范围越小,即数列中各变量值差异小。
2.4.1.6平均差
平均差是各变量值与其算术平均数离差绝对值的平均数,用
表示。
2.4.1.6.1简单平均法
对于未分组资料,采用简单平均法。
2.4.1.6.2加权平均法
在资料分组的情况下,应采用加权平均式
2.4.1.7方差和标准差
方差是各变量值与其算术平均数离差平方的算术平均数。
标准差是方差的平方根。
方差、标准差是实际中应用最广泛的离中程度度量值。
方差用来度量随机变量和其数学期望(即均值)之间的偏离程度;标准差用来反映反映组内个体间的离散程度。
2.4.1.7.1总体的方差与标准差
设总体的方差为
,标准差为
,对于未分组整理的原始资料
2.4.1.7.2样本的方差和标准差
样本的方差、标准差与总体的方差、标准差在计算上有所差别。
总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。
2.4.1.8标准分数
有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数(StandardScore),以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。
变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或z值。
2.4.1.9相对离散程度:
离散系数
离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。
离散系数通常用V表示,常用的离散系数有平均差系数和标准差系数。
2.5数据的标准化
2.5.1Min-max标准化
Min-Max标准化方法是对原始数据进行线性变换。
设MinA和MaxA分别为属性A的最小值和最大值,将A的一个原始值x通过Min-Max标准化映射成在区间[0,1]中的值x',其公式为:
新数据=(原数据-极小值)/(极大值-极小值)
2.5.2Z-score标准化
基于原始数据的均值(Mean)和标准差(Standarddeviation)进行数据的标准化,以距离平均数的远近程度及数据的“离散程度”为基础,将数据的价值转换为易于探讨的数值。
Z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
新数据=(原数据-均值)/标准差
3相关分析
3.1概念
相关关系是指现象之间存在着的一种非确定性的数量依存关系,即一个现象发生数量变化时,另一现象也相应地发生数量变化,但其关系值是不固定的,往往同时出现几个不同的数值,在一定的范围内变动着,这些数值分布在它们的平均数周围的一种数量依存关系。
3.2分类
●按相关关系涉及的变量(或因素)的多少,可分为单相关与复相关。
单相关也称一元相关,是两个变量之间的相互关系。
复相关是指多个变量之间的相互关系,所以复相关又称多元相关;
●按相关关系的表现形式来分,有线性相关和非线性相关;
●按相关的方向,线性相关可分为正相关和负相关。
如果两个变量同时趋向在同一方向上变,即它们是同时增加或同时减少,则称正相关;否则,如果两个变量趋于反向变化,则称为负相关;
●按变量之间的相关程度来分,可分为完全相关、不完全相关和不相关三类。
所谓完全相关,就是变量之间的一种确定性的函数关系。
反之,若变量之间不存在相关关系,彼此独立,相互之间没有联系,则称不相关。
3.3相关分析的作用
相关分析是研究两个或两个以上的变量之间相关程度的大小的一种统计方法,其主要作用包括:
●确定现象之间有无关系存在,以及相关关系呈现的形态。
●确定相关关系的密切程度。
判断相关关系密切程度的主要方法是绘制散点图和计算相关
系数。
3.4相关系数的计算
,其中
、
表示样本变量,
、
表示样本平均值。
3.5相关系数的性质
3.5.1相关性类型
●正相关:
如果x,y变化的方向一致,如身高与体重的关系,r>0;
●负相关:
如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
●无线性相关:
r=0。
3.5.2相关性强弱
●|r|>0.95存在显著性相关;
●|r|≥0.8高度相关;
●0.5≤|r|<0.8中度相关;
●0.3≤|r|<0.5低度相关;
●|r|<0.3关系极弱,认为不相关
4数据分析
4.1数据分析的含义
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据挖掘是基于数据分析,是从大量的数据中挖掘出有用的信息,它是根据用户的特定需求,从浩如烟海的数据中找出所需的信息,以满足用户特定的需求。
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。
一般来说,数据挖掘侧重解决四类数据分析问题:
分类、聚类、关联与预测,重点在于模式与规律。
数据分析和挖掘的本质都是一样的,都是从数据里面发掘关于业务的知识。
4.2数据分析的作用
数据分析方法的三大作用,主要有现状分析、原因分析、预测分析。
其中这三大作用基本可分别对应对比、细分、预测三大基本方法。
4.3数据分析方法
4.3.1对比分析法
4.3.1.1概念
对比分析法可分为静态比较和动态比较两大类:
静态比较是在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较,简称横比;
动态比较是在同一总体条件下对不同时间指标数值的比较,也叫纵向比较,简称纵比。
这两种方法既可单独使用,也可结合使用。
进行对比分析时,可以单独使用总体指标、相对指标或平均指标,也可将他们结合起来进行对比。
比较的结果可用相对数、倍数等指标。
4.3.1.2实践运用
●与目标对比
实际完成值与目标进行对比,属于横比
●不同时期对比
与去年同期对比简称同比,与上个月完成情况对比简称环比
●同级部门、单位、地区对比
同级部门、单位、地区进行对比,属于横比
●行业内对比
与行业内的标杆企业、竞争对手或行业的平均水平进行对比,属于横比
●活动效果对比
与某项活动开展前后进行对比,属于纵比
4.3.1.3对比分析的关键点
●指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量
●对比的对象要有可比性
●对比的指标类型必须一致
4.3.2分组分析法
4.3.2.1概念
做数据分析不仅要对总体的数量特征与数量关系进行分析,还要深入总体的内部进行分组分析。
分组分析法时一种重要的数据分析方法,这种方法时根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分不同的部分和类型进行研究,以揭示其内在的联系的规律性。
4.3.2.2实际运用
数据分组是一种重要的数据分析方法,这种方法根据数据分析对象的特征,按照一定的标志(指标),如业务、用户属性、时间等维度,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
分组的目的就是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象的一致性,组与组之间的差异性,以便进一步运用各种分析方法来结构内在的数量关系,因此分组法必须与对比法结合运用。
分组的方法以等距分组为例进行说明:
●确定组数
●确定各组的组距。
组距=(最大值-最小值)/组数
●根据组距大小,对数据进行分组整理,划归至相应组内。
4.3.3结构分析法
4.3.3.1概念
结构分析法是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标,已办某部分的比例越大,说明其重要程度越高,对总体的影响就越大。
4.3.3.2实际运用
结构相对指标(比例)的计算公式为:
结构相对指标(比例)=(总体某部分的数值/总体总量)*100%
结构分析法的优点是简单实用,在实际的企业运营分析中,市场占有率就是一个非常经典的应用。
市场占有率=(某种商品销售量/该种商品市场销售总量)*100%
4.3.4平均分析法
4.3.4.1概念
平均分析法就是运用计算平均数的方法反映总体在一定时间、地点条件下某一数量特征的一般水平。
平均指标可用于同一现象在不同地区、不同部门或单位之间的对比,还可用于同一现象在不同时间内的对比。
4.3.4.2实际运用
平均指标有算数平均数、调和平均数、几何平均数、众数和中位数,其中最为常用的时算数平均数,即日常所说的平均数或平均值。
算数平均数的计算公式为:
算数平均数=总体各单位数值的总和/总体单位个数
算数平均数是非常重要的基础性指标。
平均数是总和指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。
4.3.5交叉分析法
交叉分析法通常用于分析两个变量(字段)之间的关系,即同时有两个有一定联系的变量及其值交叉排列在一张表格内,使各变量成为不同变量的交叉节点,形成交叉表,从而分析交叉表中变量之间的关系,也叫交叉表分析法。
4.3.6综合评价分析法
综合评价分析法的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。
进行综合评价,主要有五个步骤:
●确定综合评价的指标体系,即包括哪些指标,是综合评价的基础和依据
●收集数据,并对不同计量单位的指标数据进行标准化处理
●确定指标体系中各指标的权重,以保证评价的科学性
●对经处理后的指标再进行汇总计算出综合评价指数或综合评价分值
●根据评价指数或分值对参评单位进行排序,并由此得出结论。
4.3.6.1综合评价法的三大特点
●评价过程不是逐个指标顺次完成的,而是通过一些特殊方法将多个指标的评价同时完成
●在综合评价过程中,一般要根据指标的重要性进行加权处理
●评价结果不再是具有具体意义的统计指标,而以指数或分值表示参评单位综合状况的排序。
4.3.6.2综合评价的关键
4.3.6.2.1数据标准化
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在比较和评价某些指标时,经常会用到数据的标准化,去除数据的单位限制,使其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z标准化。
4.3.6.2.1.10-1标准化
0-1标准化也叫离差标准化,就是对原始数据做线性变化,使结果落在[0,1]区间。
0-1标准化的转换公式:
第N个经标准化处理的值=(第N个原始值-最小值)/(最大值-最小值)
需要注意的是,当有新数据加入时,需要对最大、最小值进行重新计算。
4.3.6.2.1.2Z标准化
Z标准化也叫Z分数(z-score),是一个数与平均数的差再除以标准差的过程。
用公式表示为:
z=(x-μ)/σ。
其中x为某一具体分数,μ为平均数,σ为标准差。
Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。
4.3.6.2.2权重确定方法
确定指标权重的方法较多,比如专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法等。
还有一种比较简单的权重确定法,即目标优化矩阵表。
目标优化矩阵的工作原理就是把人脑的模糊思维,简化为计算机的1/0式逻辑思维,最后得出量化的结果,这种方法不仅量化准确,而且简单、方便、快捷。
目标优化矩阵表的用法为:
将纵轴上的项目依次与横轴上的项目对比,由专家进行投票表决,如果纵轴上的项目比横轴上的项目重要,那么在两个项目相交的格子中天“1”,否则填“0”,最后将每行数字相加,根据合计的数值进行排序。
例如,假设对人才评价的指标有4个,人品、动手能力、创新意识、教育背景,则可按照下表进行打分
人才评价
人品
动手能力
创新意识
教育背景
合计
排序
人品
动手能力
创新意识
教育背景
如横轴比纵轴重要,则填入“1”,如纵轴比横轴重要,则填入“0”,最后将得分相加,进行排序。
则可得出各维度的重要性和权重。
某指标权重=(某指标新的重要性合计得分/所有指标新的重要性合计得分)*100%
4.3.7漏斗图分析法
漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节设计复杂,业务过程比较多的管理分析工具。
漏斗图是对业务流程最直观的一种表现形式,并且也最能说明问题的所在。
通过漏斗图可以很快发现业务流程中存在问题的环节。
例如,下属漏斗图用于分析网站中某些关键路径的转化率分析:
4.3.8抽样分析法
在做数据分析的时候,尤其现在我们正往大数据时代迈进,通常会遇到分析的总体数据源过于庞大,这样会大大降低系统分析运行效率,因此,一般会抽取部分有代表性的样本数据进行分析,并根据这一部分样本去估计与推断总体情况。
抽样分析方法是利用己知的有效样本去估计未知的庞大总体,这是抽样分析的本质。
4.3.8.1常用抽样方法
●周期间隔:
选择间隔抽样,需要输入周期间隔。
●随机抽样直接输入将本数,系统自行进行随机抽样,不用受间隔的规律限制。
4.3.9相关分析
相关关系是指现象之间存在的非严格的、不确定的依存关系。
这种依存关系的特点是某
现象在数量上发生的变化会影响另一现象数量上的变化,而且这种变化具有一定的随机性,即当给定某现象一个数值时,另一现象会有若干个数值与之对应,并且总是遵循定规律,围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。
例如,影响销售额的因素除了推广费用外,还有产品质量、价格、渠道等因素。
相关分析是研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多重相关用复相关系数表示,其中最常用的是线性相关。
以下以线性相关为例进行说明。
4.3.9.1相关系数
相关系数就是反映变量之间线性相关强度的一个度量指标,通常用r表示,它的取值范围为[-1,1]。
r的正、负号可以反映相关的方向,当r>0时表示线性正相关,当r<0时表示线性负相关;r的大小可以反映相关的程度,r=0表示两个变量之间不存在线性关系。
通常相关系数的取值与相关程度
相关系数|r|的取值范围
相关程度
低度相关
中度相关
高度相关
相关系数计算公式
4.3.9.2回归分析
回归函数关系是指现象之间存在的依存关系中,对于某变量的每个数值,都有另一变量
值与之相对应,并且这种依存关系可用一个数学表达式反映出来,例如,在一定的条件下,身高与体重存在的依存关系。
回归是研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量Y与
影响它的自变量X,(i=1,2,3,)之间的回归模型,来预测因变量Y的发展趋势。
4.3.9.2.1回归分析举例
回归分析模型主要包括线性回归及非线性回归两种。
线性回归又分为简单线性回归与多重线性回归,而对于非线性回归,通常通过对数转化等方式,将其转化为线性。
此处以线性回归为例进行介绍。
线性回归分析的五个步骤
●根据预测目标,确定自变量和因变量;
●绘制散点图,确定回归模型类型;
●绘制模型参数,建立回归模型
●对回归模型进行检验
●利用回归模型进行预测
简单线性回归也称为一元线性回归,也就是回归模型中只含一个自变量,否则称为多重线性回归。
简单线性回归模型为:
Y=a+bX+ε
其中Y-因变量;X-自变量;a-常数项,是回归直线在纵坐标轴上的截距;b-回归系数,是回归直线的斜率;ε-随机误差,即随机因素对因变量所产生的影响。
散点图是种比较直观地描述变量之间相互关系的图形。
一般在做线性回归之前,需要先用散点图查看数据之间是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计分析 方法