最新R语言统计分析作业文档格式.docx
- 文档编号:19334126
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:9
- 大小:373.14KB
最新R语言统计分析作业文档格式.docx
《最新R语言统计分析作业文档格式.docx》由会员分享,可在线阅读,更多相关《最新R语言统计分析作业文档格式.docx(9页珍藏版)》请在冰豆网上搜索。
t<
-na.omit(T$计划面积)
summary(t)
library("
psych"
)
describe(t)
根据第二题的直方图显示,计划面积的数据分布是非对称分布,其中位数为100,平均数为101.6,上四分位数为80.0,下四分位数为120.0,分位数之差是40.0
4、请选用合适的图形来展示变量计划户型和变量从业状况之间的关系,并进行独立性检验;
(请写出R代码);
-na.omit(T)
b<
-data.frame(t$从业状况,t$计划户型)
a<
-table(b)
barplot(a,main="
从业状况与计划户型的关系"
ylab="
频数"
col=c(rainbow(6)),beside=TRUE)
summary(assocstats(a))
H0:
计划户型与从业状况独立,即两个变量不关联;
H1:
计划户型与从业状况不独立,即两个变量关联;
Pearson卡方检验结果表明,n=719,X-squared=129.270,df=50,p-value=6.0761e-09,小于0.05,拒绝原假设,Cramer′sV=0.19,有证据表明计划户型与从业状况不独立。
5、请选用合适的图形来展示变量户口状况和变量现住面积之间的关系;
如果想分析变量户口状况是否对变量现住面积产生显著性影响,应该采取哪种统计分析方法?
户口状况是否对变量现住面积产生显著性影响?
为什么?
(请写出R代码)
c<
-data.frame(T$户口状况,T$现住面积)
boxplot(T$现住面积~T$户口状况,data=c,ylab="
现住面积"
xlab="
户口状况"
varwidth=TRUE,col="
red2"
如果想分析变量户口状况是否对变量现住面积产生显著性影响:
(1)首先,现住面积是大样本数据,检验方差齐性时可以使用Levene检验,分析本市户口人民的现住面积与外地户口人民的现住面积之间的总体方差是否有显著性差异。
根据R输出结果,F=5.4041,p-value=0.02016,p-value小于0.05,拒绝原假设;
有证据表明本市户口人民的现住面积与外地户口人民的现住面积之间的总体方差存在显著差异。
leveneTest(T$现住面积~T$户口状况,data=T)
(2)本研究使用了独立样本t检验方法,分析本地户口人民的现住面积和外地户口人民的现住面积之间是否存在显著差异。
t.test(T$现住面积~T$户口状况,data=T)
cohensD(现住面积~户口状况,data=T,method="
unequal"
由于t=3.3136,d=0.2785663,df=182.43,p值=0.001111,p值小于0.05,所以拒绝原假设。
有证据表明本地户口人民的现住面积和外地户口人民的现住面积之间存在显著差异。
但本案例的效应不大。
6、如果想分析变量文化程度是否对变量家庭收入产生显著性影响,应该采取哪种统计分析方法?
文化程度是否对变量家庭收入产生显著性影响?
attach(T)
shapiro.test(家庭收入[文化程度=="
初中及以下"
])
大学(专、本科)"
高中(中专)"
研究生及以上"
原假设:
文化程度为“初中及以下”时的家庭收入来自于正态总体;
备择假设:
文化程度为“初中及以下”时的家庭收入不来自于正态总体。
文化程度为“大学(专、本科)”时的家庭收入自于正态总体;
文化程度为“大学(专、本科)”时的家庭收入不来自于正态总体。
文化程度为“高中(中专)”时的家庭收入来自于正态总体;
文化程度为“高中(中专)”时的家庭收入不来自于正态总体。
文化程度为“研究生及以上”时的家庭收入来自于正态总体;
文化程度为“研究生及以上”时的家庭收入不来自于正态总体。
根据输出结果,n1=805,n2=896,n3=1258,n4=34,各组的p值均小于0.05,拒绝原假设,有证据表明各组数据不服从正态分布。
describe.by(家庭收入,文化程度)
对不同教育水平的家庭收入进行Shapiro-Wilk检验,根据R输出结果,所有的p-value都小于0.05,拒绝原假设,证据表明不同教育水平的家庭收入不服从正态分布。
该样本虽为大样本,但为高度偏态分布(|sk|>
0.5)。
本案例不满足单因素方差分析的正态性条件。
leveneTest(家庭收入~文化程度,data=T)
总体方差齐性可以使用levene检验,根据levene检验,F值为22.908,p值为1.168e-14,拒绝原假设,有证据证明不同教育水平的家庭收入的总体方差不相等。
因此本案例不符合单因素方差分析的应用条件,故采用非参数中的Kruskal-Wallis检验。
不同文化程度的人民其家庭收入的中位数相等;
不同文化程度人民的家庭收入的中位数不全相等;
检验统计量Chi-Square为452.43,p值非常小,小于0.05,拒绝原假设,有证据证明不同文化程度人民的家庭收入的中位数不全相等。
7、请选用合适的图形来展示变量家庭收入和变量计划面积之间的关系,写出相应的结论(请写出R代码);
plot(T$家庭收入,T$计划面积)
8、
如果建立计划面积关于家庭收入,常住人口,现住面积的多元线性回归模型。
(1)写出估计的多元线性回归方程,并解释回归系数的实际意义;
(2)计算判定系数,并解释其意义;
计算估计标准误差,并解释其意义。
(3)对回归模型进行整体检验(a=0.05)。
(4)检验各回归系数是否显著(a=0.05)。
(5)多元线性回归分析的基本假定是什么?
本案例是否满足?
。
(6)根据你的判断,模型中是否存在多重共线性?
d<
-lm(计划面积~家庭收入+常住人口+现住面积,data=T)
summary(d)
(1)根据输出结果:
回归方程为y=84.0016537+0.0003418x1-4.8387206x2+0.4527730x3
x1的回归系数为0.0003418,其含义是:
当x2、x3保持不变时,x1(家庭收入)每增加1元,因变量y(计划面积)平均增加0.0003418平米。
x2的回归系数为-4.8387206,其含义是:
当x1、x3保持不变时,x2(常住人口)每增加1人,因变量y(计划面积)平均减少4.8387206平米。
x3的回归系数为0.4527730,其含义是:
当x1、x2保持不变时,x3(现住面积)每增加1平米,因变量y(计划面积)平均增加0.4527730平米。
(2)根据输出结果:
修正的判定系数为0.2289。
修正的
值=22.89%,说明模型与数据拟合的不够好,在计划面积的变动中,有22.89%是由家庭收入、常住人口和现住面积的多元线性回归方程所解释的。
本回归方程拟合的不好,需要增加自变量。
标准回归误差是25.95,表示用估计的回归方程预测y时,预测误差的相对大小为25.95。
(3)整体性检验:
;
H0:
、
至少有一个不等于0。
根据输出结果,通过F检验得出F值为83.21,P值非常小,拒绝原假设。
(4)显著性检验:
使用t检验的方法,H0:
βi=0;
H1:
βi≠0。
对于自变量x1(家庭收入):
t值为6.663,P值小于0.05,拒绝原假设。
β1显著。
对于自变量x2(常住人口):
t值为-5.435,P值小于0.05,拒绝原假设。
β2显著。
对于自变量x3(现住面积):
t值为11.116,P值小于0.05,拒绝原假设。
β3显著。
(5)基本假定:
1、误差项ε是一个服从正态分布的随机变量,且相互独立,即
2、独立性
3、线性
4、同方差性
g<
par(mfrow=c(2,2))
plot(g)
h<
-residuals(g)
shapiro.test(h)
qqPlot(g)
正态性检验:
p<
0.01,能拒绝原假设,有证据表明残差不服从正态分布。
durbinWatsonTest(g)
独立性检验:
P值不显著(p=0.334)说明无自相关性,误差项之间独立。
线性检验:
在“残差与拟合图”(residualsvsfitted)中可以看到残差与预测值似乎有某种线性关系。
同方差性:
根据“位置尺度图”(scale-locationgraph)中,水平线周围的点貌似有线性的趋向,遂使用改进的方法检验同方差。
nvcTest(g)
误差方差不变;
备择假设:
误方差随拟合值水平的改变而改变。
P值<
0.05,拒绝原假设,说明存在异方差性。
(6)多重共线性
vif(g)
家庭收入、常住人口、现住面积3项的vif值都小于4,所以不存在多重共线性。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 语言 统计分析 作业