统计学 复习资料.docx
- 文档编号:3042693
- 上传时间:2022-11-17
- 格式:DOCX
- 页数:21
- 大小:278.17KB
统计学 复习资料.docx
《统计学 复习资料.docx》由会员分享,可在线阅读,更多相关《统计学 复习资料.docx(21页珍藏版)》请在冰豆网上搜索。
统计学复习资料
统计学复习资料
第一章数据系统
一、数据类型
1、定性数据
2、定量数据
定量数据(scale):
可以得到具体数值,一般还有测量单位。
定距变量:
如温度、年龄……
定比变量:
如收入……
定距数据(Scale):
通常指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据。
定序数据(ordinal):
是具有内在固定大小或高低顺序的数值或字符,如文化程度、职称,等。
定类数据(nominal):
没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据,如性别、民族,等。
二、数据来源
1、野外调查2、定位或半定位观测3、室内实验4、判图5、统计资料和文献
二、数据的整理
1、检查资料、统计分组与图表绘制
确保资料的可靠性、完整性和准确性
统计分组是按照一定标志和要求,把数据分成不同的组,为后续的统计研究打下基础。
统计分组可分为:
按质量标志分组和按数量标志分组。
按质量标志分组,多用于人文-经济地理领域,其组数取决于社会经济现象的基本类型和其在研究中的意义,而且不分组距。
如:
在人口地理研究中,将人口按性别、民族、职业进行分组。
按数量标志分组,是先依其变量类型不同,分为离散型变量和连续型变量,然后再根据其特征的不同进行分组。
离散型变量可采用单项式(每个变量为一组)和组距式(整个变量分成几个区间,每个区间为一组)处理。
连续型变量只能采取组距式分组。
又可分为等距和不等距分组两种。
组距分组:
第一步,求变量的全距RR=Xmax-Xmin
第二步,确定组数nn=1+3.32lgN(N为样本总量)
第三步,计算组距:
h=R/n
第四步,确定每组的上、下限
2、数据的合并与分割3、数据的函数变换4、数据的其他变换
数据的函数变换
是将原始数据的每一个数值通过特定的运算方式变换成新的数值。
在原有数据基本上,计算产生一些含有更丰富信息的新数据。
使数据更直观、更有效。
常见的数据变换有:
对数或多项式变换;时间序列的平稳化处理;利用区间变换压缩数据取值X围和标准化处理等。
包括算术表达式、条件表达式和函数三大部分。
第二节数据的分布特征
数据经过整理后,得出了频数分布的大致情况。
但为了确切地表示地理数据的分布性质和在数量上的特征,需要进一步定量计算其特征值。
在数据的分布性质中,最重要的两个性质是集中性和分散性。
反映数据集中性的特征值有:
平均值(均数)、中位数、众数等。
反映数据分散性的特征值有:
绝对离差度(离差、离差平方和、标准差、方差等)和相对离差度(变异系数)
1、平均数(均数,Mean)
可代表数据的一般水平,并可作为对比分析的指标。
主要包括算术平均数和几何平均数。
(1)简单算术平均数:
(2)加权算术平均数:
3)几何平均数
一般用来分析和研究国民经济、企业生产或人口等方面的平均发展速度和平均增长速度
2、中位数(Median)
也称中央值,它是数据按大小排序后位居中间的那个数值。
当一个数据变量值分布很偏时,以中位数表示集中趋势比算术平均数更合理。
如收入、分数的分布。
对于未分组的数据:
3、众数(Mode)
是数据中出现频数最多的那个数。
对于未分组的数据,可以根据每一个数据出现的频数大小直接确定众数。
对于分组数据,按以下公式计算众数:
三、数据的分布形态
1、偏度(Skewness):
反映频数分布偏态方向和程度的测度
偏度值大于0,表示正偏差值大,称为右偏或正偏;偏度值小于0,表示负偏差值大,为负偏或左偏。
(2)峰度(Kurtosis):
指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。
当β=0时,表示分布的峰度是正态分布的峰度;当β>0时,表示分布曲线的高峰是尖顶高峰;当β<0时,表示分布曲线的高峰是平顶高峰。
右面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。
•交叉列联表的卡方(X2)检验
•在列联表确定的情况下,卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。
当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关。
反之,当总差值越小时,卡方值也就越小,实际分布与期望分布越接近,表明行列变量之间越独立。
卡方检验结果:
P=0<α(0.05),则拒绝0假设,说明变量之间存在着显著联系,即强相关性。
第二章时间序列分析
数据的时间序列分析:
事物存在于空间和时间之中,对事物的空间分布和时间序列的描述和测度,是分析问题或现象研究结果的基础。
时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析方法。
一、数据空间分布类型
1、点状分布2、线状分布3、面状分布:
包括离散型区域、连续型区域两种。
离散型区域是一种不连续的面状分布,两个相邻区域之间为不同的质量或性质差异的数据系统。
数据的时间序列分析
时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析方法。
是一些有着严格先后顺序的数据,它们之间存在着某种前后相承的关系,而非互相独立。
数据的时间序列分析
2、时间序列分析方法
(1)时域分析:
认为时间序列是过去值和一些相关变量的函数,即当前的表现是由过去的状态和一些外部因素决定的,通过过去和当前的序列数据可以预知未来的表现。
(2)频域分析:
认为时间序列是由若干个具有不同周期的正弦波成分叠加而成,通过复杂的数学工具,对其周期成分进行识别和分解,可以认识时间序列的特性,掌握其变化规律。
时间序列——时域分析方法
简单回归分析法:
一种基于因果关系的分析方法,适合序列间的结构分析和较长期数列数据的预测。
趋势外推法:
对序列的长期趋势利用曲线进行拟合的分析方法,适用于精度要求不很高的中长期趋势预测。
自回归(Autoregression)方法:
引入了被解释就量某些阶数的滞后变量,适用于简单回归分析中残差项存在一阶自相关情况的序列。
自回归移动平均(ARMA)模型,也称B-J方法:
认为时间序列是若干白噪声序列的某种组合(MA模型),可以由其自身的某些滞后序列进行解释(AR模型)。
常用于随机性波动较频繁序列的短期预测。
时间序列的水平分析
主要指标——发展水平、平均发展水平、增减量、平均增减量基期、报告期(末期)
序时平均数:
不同时间上的指标数值的平均数。
时期数列:
时点数列:
增减量:
报告期与基期水平之差。
平均增减量
4、时间序列的速度分析
发展速度:
报告期水平与基期水平之比
增减速度:
由增减量与基期水平对比求得
平均发展速度
------几何平均法:
侧重于研究对象的最末期的发展水平,如生产能力、产值、人口增长等的统计。
------累计法:
侧重于研究对象各期发展水平的总和,如累计资产数、累计毕业生人数等的统计。
5、时间序列的趋势变动分析
1)长期趋势:
现象在相当长的时间内所表现的某一方向持续的变化。
增长趋势
①线性趋势
a、移动平均法
是扩大原时间序列的时间间隔,选定一定的时距项数n,采用逐次递移的方法对原数列递移的n项计算一系列序时平均数。
由于数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律。
该方法适用来分析时间序列的长期趋势,不适合对现象未来的发展趋势进行预测。
②滑动平均法
由于地理数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律,常用滑动平均法处理。
常用三年、五年、十年滑动平均数
③直线趋势方程拟合
3)线性拟合趋势分析
4)非线性趋势方程拟合
抛物线型
指数曲线型
指数平滑法:
又叫指数加权移动平均法,通过对时间数列中各个数据进行加权处理,愈近的数据其权数应愈大。
可以消除时间数列的偶然因素所引起的变动,进而找出预测对象的数据变化特征和趋势。
一次指数平滑法
6、时间序列——模型评价
预测精度:
误差平方和SSE、平均绝对百分误差MAPE、预测值的方差、拟合优度R2等
变量的相关性:
F统计量、变量系数的t统计量等;
变量因果数量关系:
显著性检验
Y=0.156*X-298.4920.156为B1,然后为常数。
SPSS时间序列的预处理——数据变换
主要包括序列的平稳化处理和序列的平滑处理等。
平稳化处理的目的是使处理后的序列成为平稳序列。
一般而言,均值平稳化采用差分(Difference)处理,方差平稳化运用Box-Cox变换处理。
第三章假设检验与均数比较
数据的统计推断与假设检验
1、空间类型的抽样设计
总体:
又称母体,即在数据统计中,把准备加以观测的一个满足指定条件的地理要素的集合。
是研究对象的某特征值的全体。
样本:
从总体中抽出的一部分个体。
从总体中取出部分个体的过程,称为“抽样”。
抽样过程必须力求样本对总体具有很好的代表性。
这种代表性不仅与样本容量有关,即样本越大,抽样误差越小,反之,误差越大,还受抽样方法的制约。
抽样方法
随机抽样法、系统点抽样法、分层区域抽样法、阶梯抽样法、横截面(线)法
3、假设检验
▪假设检验的思想:
首先提出假设,然后利用样本数据来检验假设,支持,则接受假设;不支持,则推翻假设。
▪假设检验的基本信条:
小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。
参数:
描述总体的数字特征,如总体均数。
统计量:
描述样本的数字特征,如样本均数。
置信度
:
样本统计量推断总体特征的可靠性程度
置信区间:
概率保证下的总体参数的可能取值X围,如本地男性平均初婚年龄有95%的可能性为25±2周岁。
推断统计
推断统计:
由样本数据推断总体特征的方法。
在对样本数据描述的基础上,以概率形式对总体的数量特征进行表述。
1.总体数据无法获得
2.搜集总体数据投入较大
推断统计包括参数估计和假设检验两种形式,二者原理一致,仅表现形式不同。
均数比较过程是典型的参数检验,参数检验是推断统计的重要组成部分。
假设检验的思想:
首先提出假设,然后利用样本数据来检验假设,支持,则接受假设;不支持,则推翻假设。
假设检验的基本信条:
小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。
假设检验分为两类:
参数检验:
总体分布已知时(如正态分布),根据样本数据对某些总体参数(如均值)进行推断。
非参数检验:
总体分布未知或不符合参数检验的假定分布时。
其中,卡方检验是非参数检验
假设检验的基本步骤
提出无效(零)假设(H0)。
选择检验统计量,给定显著性水平α。
计算检验统计量的发生概率。
依据显著性水平,作出统计结论。
假设检验
无效假设H0:
关于总体参数的假设,必定包含等号H0:
μ=某值;H0:
μ≥某值;H0:
μ≤某值;
对立假设H1:
H1:
μ≠某值;H1:
μ<某值;H1:
μ>某值;
检验水平α:
即显著性水平,一般取0.01、0.05或0.10。
假设检验基于小概率原理:
给定检验水平α,如果零假设成立条件下出现现有统计量的概率等于或小于α,则认为此事件可能性很小,因此就拒绝零假设。
均数比较
★正态分布:
概率分布密度曲线呈钟型,两头低中间高,左右对称,近似于数学上的正态曲线。
其性质和特点:
☆决定于均数μ和方差σ2、☆钟形曲线、☆位置特征量均数、中位数、众数相等
☆偏度和峰度均为零
均数比较的假设检验
数据类型:
服从正态分布的定距型变量
拟解决:
某样本均值是否来自某个已知的正态总体?
两个样本所代表的总体均值是否相同?
某样本所代表的总体均值是否发生了数量上的变化?
如果两个样本均数不同,可能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 复习资料