整理线性计算方法.docx
- 文档编号:30203974
- 上传时间:2023-08-07
- 格式:DOCX
- 页数:12
- 大小:139.50KB
整理线性计算方法.docx
《整理线性计算方法.docx》由会员分享,可在线阅读,更多相关《整理线性计算方法.docx(12页珍藏版)》请在冰豆网上搜索。
整理线性计算方法
第八章线性相关
前面着重于描述某一变量的统计特征
或比较该变量的组间差别
两个随机变量之间的关系:
如体重与肺活量、
年龄与血压
是否存在线性联系?
正向还是负向?
联系的程度?
线性相关(linearcorrelation):
线性联系?
方向?
程度?
8.1线性相关概念
1.独立随机的双变量正态分布样本
讨论两个变量X和Y的相关性。
样本:
独立的、成对的观察值(x1,y1),(x2,y2),…,(xn,yn)
例8.1为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如表8.1所示。
表8.120对父子的身高(cm)数据
编号
12345678910
父高X
150153155158161164165167168169
子高Y
159157163166169170169167169170
编号
11121314151617181920
父高X
170171172174175177178181183185
子高Y
173170170176178174173178176180
问如何保证这是一份可供讨论线性相关的合格样本?
解
(1)随机抽取;
(2)互相独立?
2.散点图(scatterplot)
座标轴:
分别表示两个变量;n个点:
构成一幅散点图(图8.1)
图8.2典型散点图
图(a)和(c),正相关(positivecorrelation)
图(b)和(d),负相关(negativecorrelation)
图(e)、(f)、(g),Y和X无关联
图(h),可能存在曲线型联系。
通常所说的相关就是线性相关,(e)到(h)均属不相关
对于不相关的情形,宜进一步澄清是否为曲线关系
8.2相关系数
Pearson积矩相关系数(product-momentcorrelationcoefficient)
对双变量正态分布变量X和Y
(8.1)
总体相关系数,记为ρ
ρ=0,X和Y无线性相关或零相关(nullcorrelaton)
ρ>0,正相关
ρ<0,负相关
ρ=1或-1,完全相关(罕见!
)。
样本相关系数,记为r
对于n对随机样本,X和Y的样本协方差:
(8.2)
lxy:
X与Y的离均差乘积和
若所有离均差乘积平均后接近零,则表明部份个体的X和Y同方向,部份个体的X和Y反方向,总的说来,诸个体各循其道,杂乱无章
相反,若离均差乘积平均后为正,且距零较远,则表明多数个体的X和Y同方向,即正相关;
若离均差乘积平均后为负,且距零较远,则表明多数个体的X和Y反方向,即负相关。
协方差的大小与X,Y的取值单位有关,不同问题中的协方差不可比较。
相关系数:
X和Y分别标准化之后的协方差。
数值介于-1和+1之间,且没有单位
(8.3)
lxx:
X的离均差平方和lyy:
Y的离均差平方和
例8.2试计算例8.1中父高X和子高Y的样本相关系数(假定系独立随机双正态样本)。
解
=3376,
=3407,n=20
=571728,
=581081,
=576161
由(8.3)式得到,
8.3相关系数的统计推断
样本相关系数r只是总体相关系数ρ的一个估计值。
样本相关系数也存在变异性。
得到线性相关的描述统计量r之后,还有必要对其所来自的总体进行统计推断。
1.相关系数的假设检验
H0:
ρ=0
直接查r界值表
或t检验:
v=n-2(8.4)
(8.5)
Sr:
样本相关系数r的标准差(也称标准误)。
例8.3继例8.2中算得r=0.9296后,试检验相关是否具有统计学意义。
解
(1)直接查r界值表
可得到r0.001,18=0.679,|r|>r0.001,18,P<0.001,
(2)t检验
H0:
ρ=0,H1:
ρ≠0,α=0.05。
查t分布表,得到t0.001,18=3.922。
显然|tr|>3.922,P<0.001。
故拒绝H0,接受H1,可以认为父子身高之间存在正相关关系。
与查表结论相同。
2.相关系数的区间估计
(1)对样本相关系数r作变换
或
(8.6)
(tanh为双曲正切函数,tanh-1为反双曲正切函数)
(2)按正态近似原理,得到
的1-α置信区间
)(8.7a)
缩写为
(8.7b)
(3)上下限作反变换r=tanhz即可得到总体相关系数
的1-
置信区间。
例8.4例8.2中样本相关系数r=0.9296,求总体相关系数ρ的95%置信区间。
解z=tanh-10.9296=1.6554
的95%置信区间为
1.6554
(1.1800,2.1308)
将其上下限作反变换,得到总体相关系数
的95%置信区间为(0.8275,0.9722)
8.4等级相关
有时,原始数据并不服从正态分布或其总体分布未知;数据中有“超限值”存在;数据本身就是等级资料
此时采用等级相关(rankcorrelation)或秩相关—非参数统计方法。
1.Spearman等级相关
(1)将n对观察值Xi和Yi分别由小到大编秩(数值相同时取平均秩次),以pi表示Xi的秩次;qi表示Yi的秩次
(2)di=pi-qi
(3)
(8.8)
假设检验H0:
ρs=0,H1:
ρs≠0
●当样本例数n较小时,可用查表法(rs界值表)
●如n>20,也可将rs直接代替式(8.4)和(8.5)中的r作t检验或查r界值表。
例8.5肝癌病因研究,调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量(以最高含量为10),试作等级相关分析。
解表8.2等级相关系数计算表
编号
(1)
黄曲霉毒素
肺癌死亡率
X(相对含量)
(2)
秩次p
(3)
Y(1/10万)
(4)
秩次q
(5)
d
(6)=(3)-(5)
d2
(7)=(6)2
1
2
3
4
5
6
7
8
9
10
0.7
1.0
1.7
3.7
4.0
5.1
5.5
5.7
5.9
10.0
1
2
3
4
5
6
7
8
9
10
21.5
18.9
14.4
46.5
27.3
64.6
46.3
34.2
77.6
55.1
3
2
1
7
4
9
6
5
10
8
-2
0
2
-3
1
第五章 环境影响评价与安全预评价-3
1
为了有别于传统的忽视环境价值的理论和方法,环境经济学家把环境的价值称为总经济价值(TEV),包括环境的使用价值和非使用价值两个部分。
3
-1
3.划分评价单元2
2.辨识与分析危险、有害因素4
(三)安全评价的内容和分类0
(二)建设项目环境影响评价的工作等级4
9
1
1.准备阶段9
综合性规划
(1)土地利用的有关规划;1
(三)安全评价的内容和分类9
1
2.辨识与分析危险、有害因素4
合计
42
第⑶、⑸栏,若有观察值相同,则取平均秩次。
第⑹、⑺栏,求每对秩次的差值d、d2和Σd2
按式(8.8)计算统计量rs
本例n=10,查rs界值表,得0.02>P>0.01,按
=0.05水准拒绝Ho,可以认为黄曲霉毒素与肝癌死亡率间存在正相关。
2.相同秩次较多时rs的计算
当
和
中存在相同秩次时,(8.8)式不再适用,应利用秩次
和
直接计算积矩相关系数。
当
中不存在相同秩次以及
中也不存在相同秩次时,这样算得的
和利用(8.8)式计算的结果完全一致。
3.r与rs的区别与联系
区别:
积矩相关要求数据服从双变量正态分布,属于参数统计量;
等级相关并不要求正态分布,属于非参数统计量。
8.5线性相关分析的注意事项
1.散点图的重要性
并非任何有联系的两个变量都属线性联系。
如果从散点图可初步看出变量分布非正态,则应考虑作等级相关而不宜作积矩相关。
当散点图中出现异常点(outlier)时要慎重处理。
必要时可通过等级相关来减小异常点的不良影响
2.变量取值非随机时莫作相关
例如,为研究药物的剂量-反应关系,人们选定n种剂量,观察每种剂量下动物的反应;
又如,摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。
此时得到的数据就不是随机样本,即使按样本相关系数的公式计算,所得结果并不接近总体相关系数,而可能因人为选定变量值的范围不同而不同。
3.对相关的解释
一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。
例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义,难道两者真有内在联系?
统计学上的关联性,不一定是因果联系。
样本足够大时绝对值较小的样本相关系数也易于得到较小的P值,有统计学意义并不一定反映相关就很密切.
4.慎重合并分层资料
图8.3慎用相关的情形(a)异常值(b)、(c)、(d)分层资料
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 整理 线性 计算方法