实验81 大数据分析报告.docx
- 文档编号:28035269
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:19
- 大小:835.96KB
实验81 大数据分析报告.docx
《实验81 大数据分析报告.docx》由会员分享,可在线阅读,更多相关《实验81 大数据分析报告.docx(19页珍藏版)》请在冰豆网上搜索。
实验81大数据分析报告
实验8-1数据分析
一、实验目的
1.理解数据挖掘的一般流程。
2.掌握数据探索和预处理的方法。
3.使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。
4.使用WEKA软件,对给定的数据进行预处理。
二、实验容
在D盘中以“班级-学号-”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。
0.数据集介绍
银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号),age(年龄),sex(性别),region(地区),income(收入),married(婚否),children(子女数),car(是否有私家车),save_act(是否有定期存款),current_act(是否有活期账户),mortgage(是否有资产抵押),pep(目标变量,是否买个人理财计划PersonalEquityPlan)。
1.数据探索之数据质量分析
新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。
【要求】
(1)请找出bank_data.xlsx表中的含有缺失值的记录。
(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。
(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性的异常值记录。
【提示】
(1)请找出bank_data.xlsx表中的含有缺失值的记录。
方法1:
条件格式法
1)选取A1:
L601区域。
2)开始-->条件格式-->新建规则(N)...,在"新建格式规则"对话框中,选择空值。
如图8-1所示。
图8-1“新建格式规则”对话框
3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。
如图8-2所示。
图8-2设置条件格式
方法2:
1)缺失值定位。
“开始”→“编辑/查找和选择”→“定位”对话框→“定位条件”按钮。
2)“定位条件”对话框→选择“空值”,如图8-3所示。
图8-3“转到(G)…”下拉菜单命令和“定位条件”对话框
(2)绘制“income”属性箱线图和点比例图。
高级筛选出异常值。
“加载项/PHStat”→“DescriptiveStatistics”→“Boxplot…”或”DotScaleDiagram…“命令。
如图8-4所示。
注意选中“income”属性,如果数据区域包括标题行(E1单元格),则勾选下面的Firstcellcontainslabel选项,否则,不用勾选Firstcellcontainslabel选项。
(a)(b)
(c)(d)
图8-4PHSTAT软件的“箱线图”和“点比例图”绘制
计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。
以及Whisker下限和上限。
表8-1四分位数表
箱线图
公式
数值
最小值
=MIN(E2:
E601)
或=QUARTILE.INC(E2:
E601,0)
5014.21
最大值
=MAX(E2:
E601)
或=QUARTILE.INC(E2:
E601,4)
78843.21
第一分位数
=QUARTILE.INC($E$2:
$E$601,1)
17264.5
第二分位数
(中位数)
=MEDIAN($E$2:
$E$601)
或=QUARTILE.INC(E2:
E601,2)
24925.3
第三分位数
=QUARTILE.INC(E2:
E601,3)
36172.675
Whisker上限
=QL-1.5*(Qu-QL)
-11097.763
Whisker下限
=Qu+1.5*(Qu-QL)
64534.9375
高级筛选,筛选出大于Qu,小于QL的离群点。
1)设置条件区域,如图8-5所示。
income
<-11097.7625
>64534.9375
图8-5高级筛选“条件区域”
2)设置高级筛选。
2.数据探索之数据特征分析
建立“2-数据特征分析.xlsx”文件,导入“0-bank_data.xlsx”文件,请你用EXCEL对其进行数据特征分析。
【要求】
(1)针对age属性进行分布分析。
填写8-2和8-3表。
表8-2年龄分布分析表表8-3年龄数据统计表
(2)根据上一步的age属性分组,分别用EXCEL分布工具和PHSTAT软件绘制直方图。
(3)同理,将收入属性分组,计算各年龄段收入汇总和购买理财计划汇总,找出购买理财计划的主要群体。
【提示】
(1)age分为三组(青年组、中年组和老年组),填写age数据统计,如表8-4所示。
表8-4年龄数据分布公式表
年龄数据分布
公式
值
所在单元格
数据个数
=COUNT(B2:
B601)
600
O4
最大值
=MAX(B2:
B601)
67
O5
最小值
=MIN(B2:
B601)
18
O6
平均值
=AVERAGE(B2:
B601)
42.395
O7
标准差
=STDEV.P(B2:
B601)
14.413
O8
全距
=INT(O5-O6)
49
O9
组数
3
O10
组距
=INT(O9/O10)
16
O11
表8-5年龄统计公式表
年龄段
N13
年龄区间
O13
分组数据
P13
组中值
Q13
频数
R13
累积频数
S13
累积百分比
T13
青年
N14
=O6+O11
=(O6+P14)/2
{=FREQUENCY(B2:
B601,P14:
P16)}
=R14+S13
=S14/$O$4
中年
N15
=P14+O11
=(P14+P15)/2
=R15+S14
=S15/$O$4
老年
N16
=O5
=(P15+P16)/2
=R16+S15
=S16/$O$4
(2)数据分析工具分析。
1)EXCEL数据分析
“数据”选项卡→“数据分析”按钮→“直方图”选项→“直方图”对话框。
注意,输入区域为:
age数据,接收区域为:
分组数据,输出区域为:
分析结果放置区域。
如图8-6(a)(b)(c)所示。
图8-6(a)“数据分析”路径(b)“数据分析”对话框(c)“直方图”对话框
结果如表8-6和图8-7所示。
表8-6数据分析工具直方图分析结果表
图8-7数据分析工具绘制的直方图
2)PHSTAT软件操作步骤如下:
图8-8PHSTAT软件直方图路径
注意,PHSTAT软件绘制直方图过程中,作图区的数据不能包含公式。
选中age属性(B2:
B601),分组数据属性(V14:
V16),组中值属性(W14:
16)绘制直方图。
图8-9PHSTAT软件“直方图”对话框
分析结果如下:
表8-7PHSTAT软件直方图分析结果表
图8-10PHSTAT软件绘制的直方图
(4)仿照上例,计算年龄收入汇总和购买理财计划汇总,填写下表
表8-8收入数据统计
注意:
这里收入汇总的公式应该使用sumif函数。
如,
青年的收入汇总应该为:
=SUMIF($B$2:
$B$601,"<="&P94,$E$2:
$E$601)。
其中,$B$2:
$B$601表示年龄区域,&是字符串拼接符号,P94是青年的分组数据。
$E$2:
$E$601为income区域。
青年的PEP汇总应该使用countifs函数。
如,
青年的PEP汇总应该为:
=COUNTIFS($B$2:
$B$601,"<="&P94,$L$2:
$L$601,"=YES")。
其中,$L$2:
$L$601为PEP区域。
(5)给出自己的分析观点,例如:
从人数看,…,从收入上看…,从购买理财计划的年龄结构看,…。
初步对数据和直方图观测,…是黄金客户,而…可能是潜在客户群。
3.数据清洗
建立“3-数据插补.xlsx”文件,导入“0-bank_data.xlsx”文件,请你用EXCEL对异常值和缺失值进行插补。
【要求】
(1)请对income属性的离群点,用均值法替换修正。
(2)请将current_act属性的空值,用众数法替换补值。
【提示】
(1)income属性的离群点(异常值)
根据实验8-1的第一小题实验可知income属性的离群点(异常值),可以用公式计算去除异常值后的均值,并用均值替换异常点的income属性。
如表8-9所示。
设置O4单元格为"<",P4单元格为whisker下限,O5单元格为">",P5单元格为whisker上限。
表8-9离群点统计表
离群点统计
公式
值
样本总数
=COUNT(E2:
E601)
600
样本income总和
=SUM(E2:
E601)
16535521
异常点数量
=COUNTIF(E2:
E601,O4&P4)+COUNTIF(E2:
E601,O5&P5)
2
异常点income总和
=SUMIF(E2:
E601,O4&P4)+SUMIF(E2:
E601,O5&P5)
143641.5
均值
=(样本总和-异常点income总和)/(样本总数-异常点数量)
27411.17
(2)众数求解
方法1:
建立一个新列,去除空值的current_act列,将新列用if函数转换为1或0后,用mode.sngl函数求解。
由于mode.sngl函数参数必须是数值,所以需要将YES转换为1,NO转换0。
在N2单元格输入公式:
=IF(M2="YES",1,0),向下填充。
根据N列的1和0,使用mode.sngl函数。
公式为:
=MODE.SNGL(N2:
N588)
方法2:
可以用countif函数,分别求出YES的个数、NO的个数和空值的个数,比较找出众数。
YES个数。
公式为:
=COUNTIF(J2:
J601,"=YES")。
值为442
NO个数。
公式为:
=COUNTIF(J2:
J601,"=NO")。
值为145
空值个数。
公式为:
=COUNTBLANK(J2:
J601)。
值为13
4.数据变换
【要求】
(1)将插补后的“3-数据插补.xlsx”文件另存为“4-bank_data.csv”文件。
(2)启动Weka软件,导入“4-bank_data.csv”文件,对待挖掘的数据进行属性规约和数据离散化后,另存为“4-bank_data.arff”文件。
【提示】
(1)现将xlsx文件另存为csv文件,然后再导入到Weka中,如图8-11~13所示。
图8-11Weka登录界面
图8-12Weka导入CSV文件前
图8-13Weka导入CSV文件后
(2)对数据进行数据变换。
①首先,数据规约,删除无用的属性,通常对于数据挖掘任务来说,ID这样的属性信息是无用的,故此,我们将之删除。
如图14所示。
图8-14删除ID属性
②其次,连续属性的离散化。
数据集中,age属性、income属性和children属性都是数值型数据,需要将其转换为标称型数据。
离散化age属性和income属性。
勾选age属性和income属性→“choose”→discretize,然后,单击”Discretize-B10-M-0.1-Rfirst-last“,在弹出的对话框中,将分组bin改为3,将”first-last”改为1,4,如图15~17所示。
图8-15Discretize-B10-M-0.1-Rfirst-last图8-16bin值改为3
图8-17修改后的属性类型
③children属性只有4个取值:
0,1,2,3。
勾选children属性,单击“choose”按钮,再弹出的下拉列表中,展开无监督学习(unsupervised)前的“+”号和属性(attribute)前的“+”号,选择“NumericToNominal”,并将first-last改为6,单击"Apply"按钮,将children类型变成Nominal。
如图8-18~20所示。
图8-18离散化children属性8-19无监督学习下的NumericToNominal”
图8-20离散化后的children属性
(3)保存为arff格式,并用UltraEdit打开该文件,手工修改晦涩的标识,如-inf-34.333333改为0…34(-inf用最小值替换、inf用最大值替换)。
5.绘制不等宽的柱形图
【要求】
(1)统计各年龄层次购买PEP的人数。
(2)绘制购买PEP的各年龄层次的不等宽柱形图。
如下图所示。
图8-15购买PEP的年龄结构
【提示】
(1)分组临界点可参考本节第二小题,统计函数可以使用COUNTIF和COUNTIFS,如表8-10所示。
表8-10年龄分布表
年龄段
临界点
人数
青年
34
71
中年
50
95
老年
67
108
(2)不等宽柱形图,可采用错行数据,绘制堆积柱形图的方法实现(青年71行、中年95行,老年108行)。
如图8-16所示。
图8-16错行任意宽度柱形图的画法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验81 大数据分析报告 实验 81 数据 分析 报告