卡方查验与相关回归文档格式.docx
- 文档编号:19624604
- 上传时间:2023-01-08
- 格式:DOCX
- 页数:17
- 大小:485.81KB
卡方查验与相关回归文档格式.docx
《卡方查验与相关回归文档格式.docx》由会员分享,可在线阅读,更多相关《卡方查验与相关回归文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
Nominal表示是不是分析两个分类(通常指无序分类)变量间关联性,其下可计算4个指标:
1)Contingencycoefficient复选框:
即列联系数,在分析行列变量间关联性时利用;
其值为
界于0~1之间(可是若是行列数较少比如仅有2行2列,该系数最大只能到;
而四行四列那么能够达到,因此它的大小除放映两个变量间的关联性还和表格的维度有关,因此该指标较少用于不同维度列联表间关联性比较);
该系数越大表示两变量间关联性越大,反之那么较小。
2)PhiandCramer'
sV复选框:
φ(Phi)=
,仅仅在四格表χ2查验中利用,界于0~1之间,反映行与列变量间的关联性大小;
若是超过两行或两列,那么关联系数能够用Cramer'
sV表示,v=
,它一样界于0~1之间。
在四格表中这两个系数相同。
3)Lambda复选框:
又称为Goodman&
Kruskal'
slambda(λ),表示用某个变量预测另外一个变量时能够减少估量错误概率的大小。
其值为1时说明自变量预测应变量时能够100%的减少估量错误,也就意味着它们间的联系极为紧密;
为0时说明自变量预测应变量差时可不能减少任何估量错误,看来它们间不存在什么联系。
该系数通常情形下不是对称的(即用行变量估量列变量、用列变量估量行变量两种情形下误差减少的概率不必然相同),因此系统还会给出一个对称的系数值。
在与此同时系统还将提供Goodman&
stau(τ),该系数一样是不对称的,它的含义同λ,都表示用某个变量预测另外一个变量时能够减少估量错误概率的大小,只只是计算的进程不太相同罢了。
4)Uncertaintycoefficient复选框:
该系数与Lambda同属于误差概率减少指标(ProportionReductionofError),又称UC或Theil'
sU(不确信系数),反映用某一个变量估量另外一个变量时能够减少其估量误差的大小;
其值接近1时说明后一变量的信息专门大程度来自前一变量,其值接近0时说明后一变量的信息与前一变量无关。
其计算步骤较为繁琐。
以上所有系数的计算能够参考SPSS中的Algorithm文件夹中的
Ordinal选择是不是输出反映两个有序分类变量相关性的指标:
1)Gamma复选框:
sGamma(γ),其原理是别离计算列联表中分类一致(concordant,P)和不一致(discordant,Q)的对照数,计算(P-Q)/(P+Q)即为伽马值。
若是一致的对照数大于不一致的,那么伽马值为正值,表示在某一个变量的取值随着另一个变量有增大的偏向,二者存在正相关;
若是一致的对照数小于不一致的,那么伽马值为负值,表示在某一个变量的取值随着另一个变量有减小的偏向,二者存在负相关;
而若是若是一致的对照数等于不一致的,那么伽马值为0,表示在某一个变量的取值与另一个变量的取值没有关联。
伽马值是对称的。
可是伽马值没有考虑等秩(tie)的对照数,因此下面有三个指标用于解决那个问题。
2)Somers'
d复选框:
γ和下面介绍的τ-b、τ-c的计算进程中不区分自变量与因变量,因此它们是对称的;
该系数的计算进程中假设行或列上的一个变量为自变量,Somers'
d=(P-Q)/(P+Q+T),P、Q的含义同上,T为以因变量中等秩的对子数;
其含义的说明同伽马值。
3)Kendall'
stau-b复选框:
该值的含义与伽马几乎相同,不同的是他对列联表中的等秩(tie)的情形进行校正;
τ-b=
,P、Q的含义同上,TR为以行变量中等秩的对子数,TC为以列变量中等秩的对子数;
τ-b界于-1~1之间;
其含义的说明同伽马值,同时它也是对称的。
咱们通常所说的Kendall相关系数确实是指它。
4)Kendall'
stau-c复选框:
该值的含义与伽马几乎相同,不同的是他对列联表的行数或列数进行校正,而且还利用了总例数进行校正;
τ-c=2m(P-Q)/[N2(m-1)],P、Q的含义同上,N为总例数,m为行数或列数中较小的一个。
τ-c界于-1~1之间,其含义的说明同伽马值,同时它也是对称的。
NominalbyInterval复选框,列出了Eta(η)值供选择;
所谓的NominalbyInterval是指一个变量为等间距的品级变量(该变量一般是数值型变量,通过必然标准划分为等距的品级;
比如每一个人的抽烟量原先是离散型数值变量,通过必然的标准划分为0~、5~、10~、15~、20~25几个品级),另外一个变量为无序分组;
系统会给出两个η值,别离为行变量作为因变量和列变量作为因变量的情形。
η2的含义见Comparemeans中的Means进程。
Kappa复选框:
计算Kappa(κ)值,即内部一致性系数,衡量两次分类结果间的一致性若是;
若是该值大于,表示一致性较好;
小于那么意味着一致性较差,介于二者之间那么一致性一样。
它仅仅适用于行列变量属性相同,而且行列数相等时。
Risk复选框:
计算比数比OR值(相对危险度RR的估量值)
McNemanr复选框:
进行McNemanr查验,若是资料采纳配对设计(如配对四格表),分析时需要将其勾上;
可是可不能计算出卡方值,因为它是依照二项散布的原理计算出来的精准概率值。
Cochran'
sandMantel-Haenszelstatistics复选框:
计算χ2M-H统计量(流行病学研究中经常使用的分层χ2,要紧用于当数据中存在混杂因素时通过计算分层卡方值能够排除分层因素的阻碍),同时系统还会给出总的调整OR值(ORM-H);
该复选框下方的Testcommonoddsrationequal用于设定无效假设中的OR值,默以为1(无关联)。
Cells对话框,用于概念列联表单元格中需要计算的指标;
Counts复选框组:
是不是输出实际观看数(Observed)和理论数(Expected);
Percentages复选框组:
是不是输出行百分数(Row)、列百分数(Column)和合计百分数(Total);
Residuals复选框组:
选择残差的显示方式,能够是实际数与理论数的差值A-T(Unstandardized)、标化后的差值
(Standardized),或由行列合计值校正的标准化残差
(Adj.Standardized)。
Format用于选择行变量是升序仍是降序排列。
完成设定后点击OK,系统提交结果:
该表为R×
C表,列出了实际频数、理论频数、A-T、组成比等指标
该表为卡方查验的最终结果;
最上一行为Pearson卡方值,第二行为进行持续性校正后的卡方值,由于本例中并无理论数小于5的情形,因此看Pearson卡方即可;
LikelihoodRatio为似然比卡方值
,它与Pearson卡方相似(其思想详见教科书Logistic回归模型的假设查验),目前以为它比Pearson卡方更稳固同时利用限制也较宽松,因此能够参考,通常情形下二者相差无几;
Linear-by-linearassociation为对双向有序且属性不同的R×
C表计算线性趋势,Pearson卡方值为总卡方值,该行计算的卡方确实是教科书上计算的χ2回归。
综上所述能够以为两种方式结果不同。
若是有三组或三组以上比较,系统并无提供两两比较的程序,需要通过data——selectcases当选择相应的比较组进行两两比较,同时要对查验水准作以下校正:
双变量(线性)回归与相关
一、双变量相关(Correlate-Bivariate)
SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一样包括以下三个进程:
Bivariate进程此进程用于进行两个/多个变量间的参数/非参数相关分析,若是是多个变量,那么别离给出两两相关的分析结果。
这是Correlate子菜单中最为经常使用的一个进程,下面的讲述也以该进程为主。
Partial进程若是需要进行相关分析的两个变量其取值均受到其他变量的阻碍,就能够够利用偏相关分析对其他变量进行操纵,输出操纵其他变量阻碍后的相关系数,这种分析思想和协方差分析超级类似。
Partial进程确实是专门进行偏相关分析的。
Distances进程,用于表示统计量间的相似性或不相似性(即距离)从而为进一步的聚类分析提供参考线索;
因此该进程事实上是在进行聚类、多维尺度分析前所采纳的预分析进程。
Bivariate:
研究者想了解8名正常儿童的尿肌酐含量与其年龄间的关系,数据见相关.sav:
在原始数据中既有正常儿童的数据也有大骨节病儿童的数据,相关分析前最好对两个变量作散点图以了解它们间大致的关联态势:
能够看到的确不论是正常儿童仍是大骨节病儿童年龄和尿肌酐间都存在线性趋势;
由于咱们仅仅要分析正常儿童,因此先通过data——selectcases,选择分组变量取值为2的观看对象(正常儿童)。
Variables框用于选入需要进行相关分析的变量,至少需要选入两个。
先将年龄与尿肌酐选入。
CorrelationCoefficients用于选择需要计算的相关分析指标:
Pearson选择进行积差相关分析,即最经常使用的参数相关分析,并计算Pearson相关系数r(要求双正态散布);
Kendall'
stau-b计算Kendall'
s品级相关系数τ-b;
Spearman复选框计算Spearman相关系数rS,即最经常使用的非参数相关分析(秩相关)。
TestofSignificance为用于确信是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)查验,一样选双侧查验。
Flagsignificantcorrelations用于确信是不是在结果顶用星号标记有统计学意义的相关系数,一样选中。
现在P<
的系数值旁会标记一个星号,P<
的那么标记两个星号。
Options对话框中能够选择需要计算的描述统计量和统计分析;
Statistics复选框组可选的描述统计量。
它们是:
Meansandstandarddeviations每一个变量的均数和标准差Cross-productdeviationsandcovariances各对变量的离均差积和和协方差
MissingValues单项选择框组概念分析中对缺失值的处置方式,能够是具体分析用到的两个变量有缺失值才去除该记录(Excludecasespairwise),或只要该记录中进行相关分析的变量有缺失值(不管具体分析的两个变量是不是缺失),那么在所有分析中均将该记录去除(Excludescaseslistwise)。
默以为前者,以充分利用数据。
设置终止后点击OK:
该表结果提示,年龄与尿肌酐间存在线性相关关系,P=,r=,二者存在正相关。
*请问可否依照以上结果以为年龄和尿肌酐间存在依存关系?
若是想要取得相关系数的可信区间,能够通过手工计算,详见教科书;
若是想比较一下相关系数间是不是有不同(本例中若是想要了解两种儿童的关联系数间是不是有不同),能够通过比较两个系数的可信区间,或作如下U查验:
二、两变量的线性回归(Regression-Linear)
此进程可完成二元或多元的线性回归分析。
在多元线性回归分析中,用户还可依照需要,选用不同挑选自变量的方式(如:
慢慢法、向前法、向后法,等)。
本节内容仅仅限于对两变量进行线性回归分析。
例如研究者想分析某地12名一年级的女大学生体重与肺活量间的线性回归方程,数据见回归.sav。
那个地址体重是模型中的因变量,依照回归模型的要求,它必需是正态散布的变量才能够。
先用散点图观测两个变量间是不是存在线性关系:
从图中能够看出两变量间大体知足线性趋势(严格说来,利用回归分析要知足LINE准那么:
linear、independent、normaldistribution、equalvariance)。
接着咱们用线性回归分析这种线性趋势:
需要说明的关于两变量或是多元线性回归,SPSS提供的操作界面是相同的。
Dependent框用于选入回归分析的应变量,本例中欲用体重估量肺活量,因此肺活量为因变量,选入该框中。
Independent框用于选入回归分析的自变量,将体重选入。
Block按钮由Previous和Next两个按钮组成,用于将下面Independent框当选入的自变量分组。
在多元回归分析中自变量的选入方式有多种,若是对不同的自变量选入的方式不同,那么用该按钮组将自变量分组选入即可。
Method下拉列表用于选择对自变量的选入方式。
可是在本例中由于只有一个自变量-体重,因此Enter(强行进入法)、Stepwise(慢慢法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种的结果是一样的。
SelectionVariable框选入一个挑选变量,并利用右边的Rules钮成立一个选择条件,如此,只有知足该条件的记录才会进入回归分析。
事实上它的作用完全能够通过data——selectcases代替。
CaseLabels框选择一个变量,他的取值将作为每条记录的标签。
最典型的情形是利用记录ID号的变量。
该功能大体可不能利用。
WLS>
>
钮可利用该按钮进行权重最小二乘法的回归分析。
单击该按钮会扩展当前对话框,显现WLSWeight框,在该框内选入权重变量即可。
(该法的原理和前面统计描述explore中提供的M-estimator很相似)
接下来要概念计算的统计量:
RegressionCoefficients复选框组:
概念回归系数的输出情形,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;
选中Confidenceintervals那么输出每一个回归系数的95%可信区间;
选中covariancematrix那么会输出各个自变量的相关矩阵和方差、协方差矩阵(该选项只有在多元回归时才会有结果)。
以上选项默许只选中Estimates。
Residuals复选框组:
用于选择输出残差信息,可选的有Durbin-Watson残差序列相关性查验(该统计量的取值从0到4;
若是参差间彼此独立的话,那么该值在2周围,因此该选项也能够用于分析回归分析的条件是不是被知足)、超出规定的n倍标准误的残差列表(系统默以为3倍,该选项用于观看回归中可能显现的异样点,通常这些点的残差较大)。
Modelfit复选框:
模型拟合进程中进入、退出的变量的列表,和一些有关拟合优度的查验,复相关系数R,决定系数R2和调整的R2,标准误及方差分析表。
Rsquaredchange复选框:
显示模型拟合进程中R2、F值和p值的改变情形。
Descriptives复选框:
提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵(由于本例中只有一个自变量,因此相关矩阵相当于两变量的相关分析)。
Partandpartialcorrelations复选框:
显示自变量间的相关、部份相关和偏相关系数。
Collinearitydiagnostics复选框:
给出一些用于共线性诊断的统计量,如特点根(Eigenvalues)、方差膨胀因子(VIF)等(该选项只有在多元分析进程利用)。
以上各项在默许情形下只有Estimates和Modelfit复选框被选中。
为了考察线性回归的利用条件是不是被知足,咱们选择勾上Durbin-Watson统计量;
同时为了观测是不是有极端值存在,将casewise-diagnostics勾上,极端值概念为2倍标准离差(依照无效假设,残差的整体均数为0,残差通过Z标化后,应该知足标准正态散布,那么Z值超过±
2的可能性应该很小,因此将标准离差的倍数定为2)。
Plot对话框,可绘制的有标准化残差的直方图和正态散布图,应变量、预测值和各自变量残差间两两的散点图等,这些图形要紧用于回归诊断。
Save对话框中能够对预测值系列(predictedvalues)、残差系列(residuals)、距离系列(Distances)、预测值可信区间系列(Predictionintervals)、波动统计量系列(Influencestatistics)等选项;
事实上这些统计量专门是Distances、Predictionintervals、Influencestatistics中的统计量经常使用于自变量中极端值或强阻碍点的判定。
其具体的判定标准大致如下:
Mahalanobis:
马氏距离,若是较大那么该记录可能为离群值或强阻碍点。
Cook’s:
若是该值超过1,那么该记录可能为离群值或强阻碍点。
Leveragevalues:
杠杆值,若是超过2×
变量数/样本含量,那么该记录可能为强阻碍点。
Differenceinβ:
若是去除该记录后回归系数转变大,那么该记录可能为强阻碍点。
StandardizedDfBeta:
若是大于
,那么那么该记录可能为强阻碍点。
Covarianceratio:
除去该记录后协方差阵与包括全数观测值的协方差阵的比率,若是绝对值大于2×
变量数/样本含量,那么该记录可能为强阻碍点。
Options设置回归分析的一些选项:
SteppingMethodCriteria单项选择钮组:
设置慢慢法时纳入和排除标准,可按P值或F值来设置。
Includeconstantinequation复选框:
用于决定是不是在模型中包括常数项,默许选中。
MissingValues单项选择钮组:
用于选择对缺失值的处置方式,能够是不分析任一选入的变量有缺失值的记录(Excludecaseslistwise)而不管该缺失变量最终是不是进入模型;
不分析具体进入某变量时有缺失值的记录(Excludecasespairwise);
将缺失值用该变量的均数代替(Replacewithmean)。
它的设置大体与成组t查验相同。
设置终止后,点击OK如下:
上两表中表现了变量进入模型的方式,和模型的决定系数、标准化的决定系数。
标准化的决定系数为,可见回归的奉献不算专门大。
方差分析结果提示体重与肺活量间的确存在回归关系。
上表为回归方程的常数项和自变量的回归系数,并对二者作查验。
回归方程最终能够写成:
最后是残差分析结果:
上表中列出最大与最小的预测值、最大与最小的残差、最大与最小的标准化残差、最大与最小的标准化预测值;
可从图中看出各观测对象的残差的散布仍是较为随机的,而且最大的标准化残差来源于第7个观测对象;
最大的标准化残差也没有超过2,因此回归的利用条件大体知足。
纵上所述,体重与肺活量间存在线性回归关系,二者的的回归关系能够用以下方程表达:
。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 查验 相关 回归