数据挖掘r语言总结报告文档格式.docx
- 文档编号:18849817
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:22
- 大小:21.05KB
数据挖掘r语言总结报告文档格式.docx
《数据挖掘r语言总结报告文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘r语言总结报告文档格式.docx(22页珍藏版)》请在冰豆网上搜索。
犯罪日期
dateTime
3
state
犯罪案件所在的州
string
4
city_or_county
犯罪案件所在的市
6
n_killed
死亡人数
7
n_injured
受伤人数
15
latitude
犯案位置的纬度
17longitude犯案位置的经度numeric
gundata[,c("
incident_id"
date"
state"
city_or_county"
n_killed"
n_injured"
congressional_district"
latitude"
longitude"
state_house_district"
state_sen
ate_district"
)]
gd<
-subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed,
n_injured,congressional_district,latitude,longitude,state_house_district,state_s
enate_district))
然后根据州字段将所有数据划分为四个地区
阿拉巴马州Alabama
阿拉斯加州Alaska
亚利桑那州Arizona
阿肯色州Arkansas
加利福尼亚州California
科罗拉多州Colorado
哥伦比亚特区Columbia
康涅狄格州Connecticut
特拉华州Delaware
佛罗里达州Florida
佐治亚州Georgia
夏威夷州Hawaii
爱达荷州Idaho
伊利诺州Illinois
印弟安纳州Indiana
爱荷华州Iowa
堪萨斯州Kansas
肯塔基州Kentucky
路易斯安那州Louisiana
缅因州Maine
马里兰州Maryland
麻塞诸塞州Massachusetts
密歇根州Michigan
明尼苏达州Minnesota
密西西比州Mississippi
密苏里州Missour
蒙大拿州Montana
内布拉斯加州Nebraska
内华达州Nevada
新罕布希尔州NewHampshire
新泽西州NewJersey
新墨西哥州NewMexico
纽约州NewYork
北卡罗来纳州NorthCarolina
北达科他州NorthDakota
俄亥俄州Ohio
奥克拉荷马州Oklahoma
俄勒冈州Oregon
宾西法尼亚州Pennsyivania
罗德岛州RhodeIsland
南卡罗来纳州SouthCarolina
南达科他州SouthDakota
田纳西州Tennessee
德克萨斯州Texas
犹他州Utah
佛蒙特州Vermont
弗吉尼亚州Virgina
华盛顿州Washington
西佛吉尼亚州WestVirginia
威斯康辛州Wisconsin
怀俄明州Wyoming
东北部
Maine,NewHampshire,Vermont,Massachusetts,Rhode
Island,Connecticut,NewYork,Pennsyivania,NewJersey
中西部
Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,NorthDakota,South
Dakota,Nebraska,Kansas,Minnesota,Iowa
南部
Delaware,Maryland,DistrictofColumbia,Virgina,WestVirginia,North
Carolina,South
Carolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,T
exas,Arkansas,Louisiana
西部
Iowa,Montana,Wyoming,Nevada,Utah,Colorado,New
Mexico,Arizona,Alaska,Washington,Oregon,California,Hawaii
for(iin1:
length(gd[,1])){
if(gd[i,3]=="
Maine"
|gd[i,3]=="
New
Hampshire"
Vermont"
Massachusetts"
Rhode
Island"
Connecticut"
York"
Pennsylvania"
NewJersey"
)
{
gd[i,9]="
东北部"
}
elseif
(gd[i,3]=="
Wisconsin"
Michigan"
Illinois"
Ohio
"
Indiana"
Missouri"
North
Dakota"
South
Nebraska"
Kansas"
Minnesota"
|gd[i,3]
=="
Iowa"
中西部"
Delaware"
Maryland"
Districtof
Columbia"
Virginia"
WestVirginia"
Carolina"
Georgia"
Florida"
Kentucky"
|gd[i,3]=
="
Tennessee"
Mississippi"
Alabama"
Oklahom
a"
Texas"
Arkansas"
Louisiana"
{gd[i,9]="
南部"
else
if(gd[i,3]=="
Montana"
Wyoming"
Neva
da"
Utah"
Colorado"
Mexico"
Arizona"
Alaska"
Washington"
Oregon"
California"
Hawaii"
西部"
}}
然后用fix(gd)将第九列的字段修改为part:
最后处理完的数据为以下格式:
最后将数据存储下来,备用:
write.csv(gd,"
f:
//GunData.csv"
row.names=
FALSE).
保存的数据格式如下:
共有23w多条数据,其中部分数据有字段为空值,将在后续分析中删除。
二、基本统计分析
1)统计各州发生枪支案件的总数。
2)统计各地区发生枪支案件的总数。
3)分析各地区枪支案件的分布特征。
4)按年度统计各州发生枪支案件的数目。
5)分析四大地区的经纬度范围
2)推断性统计:
选择合适的R函数进行如下假设检验,并得出结论。
1)分析死亡人数与受伤人数间是否具有相关性。
2)分析南部地区的案件数和其他地区的案件数是否具有显著差异。
3)分析死亡人数与案件数是否相关;
受伤人数与案件数是否相关。
1、统计各州发生枪支案件的总数。
建立一个table,可以显示出各州的案件数
然后绘制一个直方图,显示出各个州的案件数
就可以直观的看出各个州的案件数量。
2、统计各地区发生枪支案件的总数:
绘制一个条形图,可以直观的看出各个地区的案件总数。
首先建立一个table,counts<
-table(gd$part)
然后利用画图函数,绘制条形图
barplot(counts,main="
gunvolience"
xlab="
part"
ylab="
num"
col=c("
red"
yell
ow"
green"
blue"
),ylim=c(0,120000))
结果如下图:
可以看出南部人数最多,10w+,其次是中西部,东北部和西部的数量差不多。
3、分析各地区枪支案件的分布特征。
首先取出数据中东北部地区的数据
gd1<
-g[g[,10]=='
东北部'
]
gd2<
南部'
gd3<
中西部'
gd4<
西部'
然后生成四个table
count1<
-table(gd1$state)
count2<
-table(gd2$state)
count3<
-table(gd3$state)
count4<
-table(gd4$state)
然后绘制各地区的案件分布图
分析东北部地区的枪支案件分布,利用barplot函数,
barplot(count1,main="
)
barplot(count2,main="
barplot(count3,main="
barplot(count4,main="
可以看出主要集中在纽约和宾夕法尼亚州,西部全部集中在加州,南部分布的还
算平均,佛罗里达多一些,中西部集中在波士顿。
4、按年度统计各州发生枪支案件的数目。
根据日期中的年度,将数据划分为13,14,15,16,17,18六段数据,
先将数据排序后,找到每年数据的第一条,然后分片取数据
gt13<
-g[1:
276,]
gt14<
-g[277:
51813,]
gt15<
-g[51814:
105715,]
gt16<
-g[105716:
159395,]
gt17<
-g[159396:
219007,]
gt18<
-g[219008:
231226,]
然后统计各年度的受伤人数、死亡人数、案件数。
>
length(gt13[,1])
[1]276
length(gt14[,1])[1]51537
length(gt15[,1])[1]53902
length(gt16[,1])[1]53680
length(gt17[,1])[1]59612
length(gt18[,1])[1]12219
可以看出13年犯案数是276例,14年51537,15年53902,16年53680,17
年56912,18年12219例。
然后分别建立table,然后就可以看到各个州的案件数。
Table(gt14$state)
Table(gt17$state)
5、分析四大地区的经纬度范围
将数据根据地区分为四部分,然后根据经度和纬度数据绘制散点图。
-g[g[,10]==西部'
plot(gd1[,9],gd1[,8],col="
main="
东北部"
经度"
纬度
xlim=c(-125,-65),ylim=c(30,50))
plot(gd2[,9],gd2[,8],col="
南部"
plot(gd3[,9],gd3[,8],col="
中西部"
xlim=c(-125,-65))
plot(gd4[,9],gd4[,8],col="
西部"
1、利用R语言中的cor()函数,可以计算数据之间的相关性
先取出数据中的死亡人数和受伤人数字段,分别为[,6]和[,7],因为字段中的格
式为字符串形式,现用as.numeric函数将字符串格式强制转化为数值型。
然后
利用cor函数
Cor(g[,6],g[,7])计算相关性。
这里a是前面的[,6]死亡人数数据,b是[,7]受伤人数数据,取10000条计算(取
全部会显示NA),结果为负值。
多次取值取数据越大数值绝对值越小。
2、生成各地区案件数table,并画出各地区案件数的条形图
counts<
-table(g$part)
counts
东北部南部西部中西部
352201027853401658572
plot(counts,main="
yello
w"
可以看出南部的案件数显著的比其他地区的要多很多。
3、
首先按地区统计受伤,死亡人数与案件数的相关性。
将数据分为按地区字段分为四个部分,使用前面的gd1,gd2,gd3,gd4。
统计各州的案件数总和和受伤,死亡人数总和,然后进行计算。
k1<
-sum(as.numeric(gd1$n_killed),na.rm=TRUE)
k2<
-sum(as.numeric(gd2$n_killed),na.rm=TRUE)
k3<
-sum(as.numeric(gd3$n_killed),na.rm=TRUE)
k4<
-sum(as.numeric(gd4$n_killed),na.rm=TRUE)
i1<
-sum(as.numeric(gd1$n_injured),na.rm=TRUE)
i2<
-sum(as.numeric(gd2$n_injured),na.rm=TRUE)
i3<
-sum(as.numeric(gd3$n_injured),na.rm=TRUE)
i4<
-sum(as.numeric(gd4$n_injured),na.rm=TRUE)
l1<
-length(gd1[,1])
l2<
-length(gd2[,1])
l3<
-length(gd3[,1])
l4<
-length(gd4[,1])
然后利用cor函数分析相关性。
c1=c(i1,i2,i3,i4)
c2=c(k1,k2,k3,k4)
c3=c(i1,i2,i3,i4)
cor(c1,c2)
cor(c1,c3)
cor(c2,c3)
可以看出数据之间是相关的,相关系数均约等于1。
3.数据挖掘
(1)聚类:
针对如下目标进行聚类分析,并针对生成的聚簇,分析每个聚簇中数据的特征。
1)根据死亡人数、受伤人数对所有城市(city)划分聚簇,分析各聚簇中死亡
人数和受伤人数的分布特征,以及各聚簇中的城市是否具有几大地区聚集的特
征。
2)根据死亡人数、受伤人数、犯案数对所有州划分聚簇,分析各聚簇特征。
(2)时间序列:
将数据集按照处理成时间序列形式的数据【例如对州按月度获取其犯案数、死亡人数、受伤人数等数据】
1)对四个地区分别分析从2013年1月到2018年3月,犯案数所构成的时间序
列①具有什么样的趋势,②是否具有季节周期性特征。
2)对南部地区预测其2018年4月的犯案数大概是多少。
3)画出全美关于枪支犯案数构成的时间序列的月度图(将每个月份组成的子序
列画在一张图内)和年度图(将每年1到12月份的数据形成子序列,画在一张
图内)。
(3)分类
根据现有经纬度数据构建关于州的分类器。
使得能基于该分类器对指定经度纬
度表示的位置判断其所属的州。
要求划分的训练集与测试集每次均一致,即训练集与测试集的划分可重复。
1、根据死亡人数、受伤人数对所有城市划分聚簇,
2、根据死亡人数、受伤人数、犯案数对所有州划分聚簇
g1<
-g[,c("
先统计出各个城市的死亡人数,受伤人数的数据。
根据犯案数对州进行聚类最长聚类法
-table(g$state)
distance<
-dist(counts)
c.hc<
-hclust(distance)
plot(c.hc,hang=-1)
-hclust(distance,method="
ward"
)#聚类分析,离差平方和法
plot(c.hc,hang=-1)#绘画系谱图
re<
-rect.hclust(china.hc,k=5)#分为5类
可以看出前四个州是犯案数最多的,Florida,Texas,California,Illinois四个
州是最多的,算为第一类。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 语言 总结报告