统计分析方法Word文档下载推荐.docx
- 文档编号:20377691
- 上传时间:2023-01-22
- 格式:DOCX
- 页数:21
- 大小:318.82KB
统计分析方法Word文档下载推荐.docx
《统计分析方法Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《统计分析方法Word文档下载推荐.docx(21页珍藏版)》请在冰豆网上搜索。
Explore-->
选右上角的Plots-->
打开后,选中间的normallyplotswithtests
-->
OK。
结果就出来啦
TestsofNormality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic
df
Sig.
rand
.048
111
.200*
.990
.596
3、它会用两种方法来检验正态分布,当sig>
0.05时服从正态分布,如果不服从正态分布,就要看峰度和偏度啦:
偏度主要是研究分布形状是否对称。
约=0则可以认为分布是对称的;
>
0则可以认为右偏态,此时在均值右边的数据更为分散;
<
0则可以认为左偏态,同理。
峰度它是以正态分布为标准,比较两侧极端数据分布情况的指标。
正态的=0
0此时分布有一个沉重的尾巴
0正好相反
附加检验:
(Ⅱ)附加检验之一,观察正态概率图,如果数据来自正态分布,图形的散点应该呈现一条直线。
用Plot绘制正态分布的概率图,里面的“+”构成一条直线(正态分布数据概率图散点应该成一条直线),“*”代表样本数据散点。
根据“*”覆盖“+”的程度,说明样本数据是否来自正态分布数据。
(Ⅲ)附加检验之二,绘制数据的条形图,如果数据来自正态分布,条形图呈现“钟形”分布。
用histogram绘制直方图/normal在直方图中拟合正态分布的密度曲线,可以看到,曲线几乎是个标准钟形,可以认为数据是正态分布。
(Ⅳ)附加检验之三,观察描述性统计量中偏度系数(Skewness)g1和峰度系数(Kurtosis)g2,如果数据来自正态分布,则两者都应该是0。
用g1,g2,бg1,бg2来计算U值,用U检验法。
U1=同理计算U2,要两个都小于1.96,即p大于0.05才可以
SAS过程
正态分布检验的一般格式如下:
procunivariatedata=数据集normal;
var变量;
histogram变量;
/*产生直方图*/
probplot变量;
/*产生概率分布图*/
run;
在检验中,我们的零假设是变量服从正态分布,如果testfornormality检验结果的p值小于0.05水平,则拒绝零假设,否则接受零假设。
⏹
单变量均值检验(单样本的均值t检验)
所谓单变量均值检验就是检验变量的均值是否等于某个给定的值。
如果一个变量服从正态分布,那么可以用T检验(One-SampleTTest)来对它进行均值检验。
Analyze——CompareMeans——One-SampleTTest
One-SampleStatistics
N
Mean
Std.Deviation
Std.ErrorMean
-.1244
1.01700
.09653
均值为-0.1244,比给定的0稍微小一点,接着看下面的结果
One-SampleTest
TestValue=0
t
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
-1.289
110
.200
-.12443
-.3157
.0669
解释:
T值等于-1.289,自由度为110,双尾SIG.(significance的缩写)值为0.200大于0.05,因此我们可以说原假设成立,即均值在0.05水平下等于0。
T检验的一般格式如下:
procttestdata=数据集H0=某个值;
/*必须指明零假设H0*/
var变量;
记录数为22E4,均值为26.76,方差为42.84,获得的t值为-253.439,自由度为218177,P值小于0.0001,所以我们拒绝原假设,即可以说均值不等于50。
注意:
前提是该变量服从正态分布,正态分布检验参考相关正态分布检验介绍
Ø
两独立样本的均值检验
两独立样本的t检验用于两个独立样本的均数比较。
前提条件:
两独立样本都来自正态分布,并且在t检验之前需要进行方差齐性检验(f检验)。
Analyze——CompareMeans——independent-SampleTTest
GroupStatistics
group
var1
1
84
-.1226
1.02133
.11144
2
27
-.1301
1.02266
.19681
基本统计量
IndependentSamplesTest
Levene'
sTestforEqualityofVariances
(方差齐性检验)
t-testforEqualityofMeans
(均值相等的t检验)
F
Std.ErrorDifference
Equalvariancesassumed
.085
.772
.033
109
.974
.00746
.22602
-.44050
.45542
Equalvariancesnotassumed
43.929
.22617
-.44837
.46330
通过上面两个表的方差以及方差齐性检验可以看到sig值为0.772>
0.05,没有显著差异(方差齐),均值检验双尾sig0.974>
0.05,我们可以说两独立样本的均值没有明显差异。
两独立样本的均值T检验的一般格式如下:
procttestdata=数据集;
class分类变量;
第一部分为基本统计量;
第二部分为2样本t检验的结果,第一行是假设方差相等使用pooled方法得出的结果,第二行是方差不等使用satterthwaite方法得到的近似t检验结果;
第三部分为两独立样本(2组)方差是否相等(方差齐性)的检验结果;
首先第三部分P值0.2994>
0.05,方差齐(相等),再看第二部分uqual部分的结果p值0.1814>
0.05,我们可以说均值相等。
配对(成对)总体均值检验(配对样本的t检验,Paired-SampleTTest)
检验两个有联系正态总体/样本的均值是否存在显著的差异。
如检验某种产品广告的前后销量是否显著有差异,需要对广告前后销量进行比较。
前提:
正态分布
Analyze——CompareMeans——Paired-SampleTTest
PairedSamplesStatistics——样本基本统计量
Pair1
var2
.2026
.91468
.08682
PairedSamplesCorrelations——配对样本相关分析
Correlation
var1&
var2
.044
.645
PairedSamplesTest——配对样本均值差检验表
PairedDifferences
var1-var2
-.32704
1.33744
.12694
-.57861
-.07546
-2.576
.011
得到双尾sig.等于0.011<
0.05,拒绝原假设,可以得出前后差异显著。
对前后的差值(add=new-old)进行单因素t检验
例如:
varadd;
回归分析
回归分析是统计分析的一项重要内容,可以帮助我们了解变量之间的数量关系。
●线性回归分析
1、线性回归的假设理论
(1)正态性假设:
即所研究的变量均服从正态分布;
(2)等方差假设:
即各变量总体的方差是相等的;
(3)独立性假设,即各变量之间是相互独立的;
(4)残差项无自相关性,即误差项之间互不相关,Cov(ei,ej=0
2、线性回归模型的检验项目
(1)回归系数的检验(t检验)
(2)回归方程的检验(F检验)
(3)拟合程度判定(可决系数R2)
(4)D.W检验(残差项是否自相关)
(5)共线性检验(多元线性回归)
(6)残差图示分析(判断异方差性和残差序列自相关)
Analyze——Regression——Linear
SAS提供的回归过程比较多,包含REG(回归)过程、rsreg(二次响应面回归)过程、orthoreg(病态数据回归)过程、nlin(非线性回归)过程、transreg(变换回归)过程、calis(线性机构方程和路径分析)过程、glm(一般线性回归)过程、genmod(广义线性回归)过程等
reg的一般格式:
PROCREGDATA=数据集选项;
VAR变量列表;
MODEL因变量=自变量列表/selection=回归模型;
PRINT输出结果;
PLOT诊断图形;
RUN;
使用不同的线性回归模型
selection=forward为顺向选择法,将全模型中的自变项逐一加入至最佳模型
selction=backward为反向排除法,将全模型中的自变项逐一去除至最佳模型
selection=stepwise为逐步排除法,为前二者之合并
PROCREGDATA=SASUSER.SCORE;
VARMATHENGLISHCHINESE;
MODELMATH=ENGLISHCHINESE;
回归结果为第三部分,可以看到P都大于0.05,则English、Chinese的作用不显著。
Nlin过程(非线性回归)
所谓非线性回归就是指因变量的表达式是非线性的。
由于非线性回归的模型比较复杂,为了估计系数而需要进行的计算量也很大,所以在过程中需要指明模型的表达式且给定系数的初始值。
以stock为例
首先假设模型为:
price=b0*eps+b1*scale+b2*eps*scale+b3
设定b0、b1、b2、b3的初始值分别为1、1、1、10然后编程如下:
procnlindata=stock;
modelprice=b0*eps+b1*scale+b2*eps*scale+b3;
parametersb0=1b1=1b2=1b3=10;
/*parameters可缩写为parms*/
得到结果如下:
分析结果包括5个部分
iterativephase:
主要计算迭代情况,给出每次迭代序号以及每次迭代中的系数值。
在这次回归过程中,用牛顿法(newton)进行了2次迭代达到了收敛临界值。
estimationsummary:
回归过程的总结,使用了什么方法、哪些数据。
方差分析表:
介绍各部分方差的来源,给出回归模型的p值,检验回归模型的是否有效。
在这里,回归模型的p值为0.0004<
0.05,所以模型是显著的。
approx:
近似系数表,给出系数的估计值、估计标准差、95%置信上下限。
ApproximateCorrelationMatrix:
近似相关系数矩阵,给出模型参数的相关系数矩阵的估计值。
在使用nlin过程的时候不是给定任意一个模型和初始值都能干得到回归结果,不恰当的初始值和模型很可能无法得到正常的回归模型,这个时候可以试着调整模型和参数的初值。
GLM过程
glm是一般线性模型的缩写,使用的是最小二乘法来回归线性的模型。
在glm过程不但可以进行回归分析,还可以进行方差分析、协方差分析、多变量方差分析、偏相关系数分析。
一般格式为:
PROCGLM<
options>
;
CLASSvariables<
/option>
MODELdependents=independents<
/options>
ABSORBVARIABLES;
BYVARIABLES;
FREQVARIABLE;
IDVARIABLES;
WEIGHTVARIABLE;
CONTRAST'
label'
effectvalues<
...effectvalues>
<
ESTIMATE'
LSMEANSeffects<
MANOVA<
test-options>
/detail-options>
MEANSeffects<
OUTPUT<
OUT=SAS-data-set>
keyword=names<
...keyword=names>
RANDOMeffects<
REPEATEDfactor-specification<
TEST<
H=effects>
E=effect<
结果在最后一部分,给出了参数的估计值和P值,小于0.05则模型显著。
orthoreg过程
病态数据回归过程,它的数学核心是最小二乘法。
当处理一些病态数据的时候,得到的结果比其他的线性回归方法(reg、glm)精确得多。
procorthoregdata=Longley;
modelEmployment=PricesPrices*Prices
GNPGNP*GNP
JOBLESSJOBLESS*Jobless
MilitaryMilitary*Military
POPSIZEPOPSIZE*PopSize
YearYear*Year;
结果略
第一部分为方差分析表,下面是参数的估计值。
方差分析
方差分析(ANOVA)又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。
●单因素方差分析
单因素方差分析是最简单的方差分析,指分析一个变量不同情况下的值是否有差异。
方差分析的核心思想是把样本与平均值的方差分解为两部分,一部分来自不同因素的差异,一部分来自同组之间的差异,如果不同因素之间的差异占到一个比较大的比例,那么有理由相信各因素之间是有明显差异的。
正态性检验,独立性检验,方差齐性
anova过程一般格式
procanovadata=数据集;
CLASS因素;
MODEL结果=因素;
例如
procanova;
classbrand;
modelNitrogen=brand;
meansbrand/t;
除了ANOVA过程,GLM过程也可以进行单因素的方差检验。
PROCGLMDATA=数据集;
MODEL结果=因素;
●多因素方差分析
多个因素交叉作用,常用anova(要求数目相等)和glm过程(数目可不等)
classPainLevelCodeineAcupuncture;
modelRelief=PainLevelCodeine|Acupuncture;
其中A|B=ABA*B(交互作用)
modelRelief=PainLevelCodeineAcupuncture;
另外可以在期间添加means变量列表;
核心思想与接过解释统上单因素方差分析
另附:
PROCANOVA<
options>
/option>
MODELdependents=effects<
/options>
ABSORBvariables;
BYvariables;
FREQvariable;
test-options>
/detail-options>
H=effects>
E=effect;
列联表检验
对于一些离散值的变量要检验它们之间是否独立,只能使用列联表的检验方法。
零假设:
因素x与因素y独立。
列联表检验的核心是x2检验,比较频数与理论均值的差,如果差异达到一定程度,则说明两个因素之间具有一定的关系。
列联表检验是通过在freq过程中添加x2检验的选项来实现,一般用法如下:
procfreqdata=数据集;
tables因素a*因素b/chisq;
weight试验结果;
Procfreqdata=heart;
Tablesa*b/chisq;
Weightf;
Run;
第一部分为频数统计表
第二部分为卡方检验的结果
第三部分为fisher精确检验的结果,卡方检验要求每个单元格的频数不少于5,否则就要看fisher精确检验的结果。
PROCFREQ<
BYvariables;
EXACTstatistic-options<
/computation-options>
OUT=SAS-data-set>
options;
TABLESrequests<
TESToptions;
WEIGHTvariable<
多元统计分析
⏹主成分分析
主成分就是由原来的m个变量生成的m个互不相关的、未丢失原有信息的新变量。
通过主成分分析,可以寻找能够理解观测结果本质的因素,并给出这些因素合理的解释。
主成分的基本条件与主成分的基本性质可概括如下:
主成分之间互不相关
全部m个主成分反映n例样本的总信息,等于m个原变量的总信息
各个主成分的作用大小是:
z1>
z2>
…>
zm
第i个主成分的贡献率为(λi/m)*100%
前P个主成分的累计贡献率为∑(λi/m)*100%,在观察结果时,如果前几个主成分的累计贡献率已经达到70%到85%以上,那么我们就取它们作为主成分
PRINCOMP过程简介
SAS中的PRINCOMP过程可以完成主成分分析,它的主要功能包括:
主成分的个数、名称可以由用户自己定义,主成分得分是否标准化自己确定
输入的数据集可以是原始数据集、相关阵、协方差阵
计算结果包括:
简单统计量、相关阵或协方差阵,从大到小排序的特征值以及对应的特征向量,各个主成分解释的方差比例以及累计比例
可以解释变量间的相关关系
PROCPRINCOMP<
FREQvariable;
PARTIALvariables;
VARvariables;
WEIGHTvariable;
举例:
procprincompout=Crime_Components;
得到如下结果
⏹解释:
从特征值表我们可以看到第一个特征值为4.11495951,它的贡献率为58.79%,第二个特征值为1.23872182,累计贡献率76.48%,第三个0.72581663,了几贡献
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计分析 方法