R语言学习系列24频率表和列联表.docx
- 文档编号:28944741
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:11
- 大小:119.42KB
R语言学习系列24频率表和列联表.docx
《R语言学习系列24频率表和列联表.docx》由会员分享,可在线阅读,更多相关《R语言学习系列24频率表和列联表.docx(11页珍藏版)》请在冰豆网上搜索。
R语言学习系列24频率表和列联表
R语言学习系列24-频率表和列联表
R语言学习系列24-频率表和列联表
TreatmentNoneSomeMarked
Placebo0.345238100.083333330.08333333
Treated0.154761900.083333330.25000000
margin.table(mytable,1)#对第1个变量(行变量)生成边际频数
Treatment
PlaceboTreated
4341
prop.table(mytable,1)#对第1个变量(行变量)生成边际比例(每行和=1)
Improved
TreatmentNoneSomeMarked
Placebo0.67441860.16279070.1627907
Treated0.31707320.17073170.5121951
#可见与安慰剂组相比,治疗组的治愈率从16%提高到51%
margin.table(mytable,2)#对第2个变量(列变量)生成边际频数
Improved
NoneSomeMarked
421428
prop.table(mytable,2)#对第2个变量(列变量)生成边际比例(每列和=1)
Improved
TreatmentNoneSomeMarked
Placebo0.69047620.50000000.2500000
Treated0.30952380.50000000.7500000
addmargins(mytable)#将边际求和结果添加到表格(频数)
Improved
TreatmentNoneSomeMarkedSum
Placebo297743
Treated1372141
Sum42142884
addmargins(prop.table(mytable))#将边际求和结果添加到表格(比例)
Improved
TreatmentNoneSomeMarkedSum
Placebo0.345238100.083333330.083333330.51190476
Treated0.154761900.083333330.250000000.48809524
Sum0.500000000.166666670.333333331.00000000
addmargins(prop.table(mytable,1),2)#只添加列边际
Improved
TreatmentNoneSomeMarkedSum
Placebo0.67441860.16279070.16279071.0000000
Treated0.31707320.17073170.51219511.0000000
addmargins(prop.table(mytable,2),1)#只添加行边际
Improved
TreatmentNoneSomeMarked
Placebo0.69047620.50000000.2500000
Treated0.30952380.50000000.7500000
Sum1.00000001.00000001.0000000
2.gmodels包中的函数CrossTable()
该函数仿照SAS中PROCFREQ或SPSS中CROSSTABS的形式生成二维列联表。
它有很多选项,可以做许多事情:
计算(行、列、单元格)的百分比;指定小数位数;进行卡方、Fisher和McNemar独立性检验;计算期望和(皮尔逊、标准化、调整的标准化)残差;将缺失值作为一种有效值;进行行和列标题的标注;生成SAS或SPSS风格的输出。
library(gmodels)
CrossTable(Arthritis$Treatment,Arthritis$Improved)
三、多维列联表
table()和xtabs()都可以基于三个或更多的分类变量(因子)生成多维列联表。
margin.table()、prop.table()和addmargins()函数也可类似推广到多维。
另外,ftable()函数可以用一种紧凑的“平铺式”输出多维列联表。
mytable<-xtabs(~Treatment+Sex+Improved,data=Arthritis)
mytable
,Improved=None
Sex
TreatmentFemaleMale
Placebo1910
Treated67
,Improved=Some
Sex
TreatmentFemaleMale
Placebo70
Treated52
,Improved=Marked
Sex
TreatmentFemaleMale
Placebo61
Treated165
ftable(mytable)
ImprovedNoneSomeMarked
TreatmentSex
PlaceboFemale1976
Male1001
TreatedFemale6516
Male725
margin.table(mytable,1)#边际频数
Treatment
PlaceboTreated
4341
margin.table(mytable,2)
Sex
FemaleMale
5925
margin.table(mytable,3)
Improved
NoneSomeMarked
421428
margin.table(mytable,c(1,3))
#相当于1:
治疗方法×3:
疗效的二维列联表
Improved
TreatmentNoneSomeMarked
Placebo2977
Treated13721
ftable(prop.table(mytable,c(1,2)))
#紧凑形式显示1:
治疗方法×2:
性别的各类疗效情况(比例)
ImprovedNoneSomeMarked
TreatmentSex
PlaceboFemale0.593750000.218750000.18750000
Male0.909090910.000000000.09090909
TreatedFemale0.222222220.185185190.59259259
Male0.500000000.142857140.35714286
ftable(addmargins(prop.table(mytable,c(1,2)),3))
#继续给第3变量添加边际
ImprovedNoneSomeMarkedSum
TreatmentSex
PlaceboFemale0.593750000.218750000.187500001.00000000
Male0.909090910.000000000.090909091.00000000
TreatedFemale0.222222220.185185190.592592591.00000000
Male0.500000000.142857140.357142861.00000000
ftable(addmargins(prop.table(mytable,c(1,2)),3))*100
#继续改成百分比
ImprovedNoneSomeMarkedSum
TreatmentSex
PlaceboFemale59.37500021.87500018.750000100.000000
Male90.9090910.0000009.090909100.000000
TreatedFemale22.22222218.51851959.259259100.000000
Male50.00000014.28571435.714286100.000000
2.多维列联表的图形展示——马赛克图
单个分类变量,可以使用柱状图或者饼图;若存在两个分类变量,可以使用三维柱状图;两个以上的分类变量可以使用马赛克图。
马赛克图中,嵌套矩形面积正比于单元格频率,其中该频率即多维列联表中的频率。
颜色和/或阴影可表示拟合模型的残差值。
使用mosaic()函数,基本格式为:
mosaic(table)
其中,table为数组形式的列联表;或者用
mosaic(formula,data=)
其中,formula为形如~var1+var2+…的公式,data为数据框或表格;
可选项shade=TRUE将根据拟合模型的皮尔逊残差值对图形上色;legend=TRUE将展示残差的图例。
library(vcd)
ftable(Titanic)
SurvivedNoYes
ClassSexAge
1stMaleChild05
Adult11857
FemaleChild01
Adult4140
2ndMaleChild011
Adult15414
FemaleChild013
Adult1380
3rdMaleChild3513
Adult38775
FemaleChild1714
Adult8976
CrewMaleChild00
Adult670192
FemaleChild00
Adult320
mosaic(Titanic,shade=TRUE,legend=TRUE)
mosaic(~Class+Sex+Age+Survived,data=Titanic,shade=TRUE,legend=TRUE)
#上面两种代码效果相同
上图为按船舱等级、乘客性别和年龄层绘制的泰坦尼克号幸存者的马赛克图。
可以看出:
(1)从船员到头等舱,存活率陡然提高;
(2)大部分孩子都处在三等舱和二等舱中;
(3)在头等舱中的大部分女性都存活了下来,而三等舱中仅有一半女性存活;
(4)船员中女性很少,导致该组的Survived标签重叠(图底部的No和Yes)
扩展的马赛克图添加了颜色和阴影来表示拟合模型的残差值:
蓝色阴影表明,在假定生存率与船舱等级、性别和年龄层无关的条件下,该类别下的生存率通常超过预期值。
红色阴影则含义相反。
图形表明,在模型的独立条件下,头等舱女性存活数和男性船员死亡数超过模型预期值。
如果存活数与船舱等级、性别和年龄层独立,三等舱男性的存活数比模型预期值低。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 学习 系列 24 频率 列联表