书签分享收藏举报版权申诉 / 19

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 工学 > 实验81 大数据分析报告.docx

实验81 大数据分析报告.docx

文档编号：28035269
上传时间：2023-07-07
格式：DOCX
页数：19
大小：835.96KB

实验81 大数据分析报告.docx

《实验81 大数据分析报告.docx》由会员分享，可在线阅读，更多相关《实验81 大数据分析报告.docx（19页珍藏版）》请在冰豆网上搜索。

实验81 大数据分析报告.docx

实验81大数据分析报告

实验8-1数据分析

一、实验目的

1.理解数据挖掘的一般流程。

2.掌握数据探索和预处理的方法。

3.使用PHSTAT软件，结合Excel对给定的数据进行手工预处理。

4.使用WEKA软件，对给定的数据进行预处理。

二、实验容

在D盘中以“班级-学号-”命名一个文件夹，将下发的数据拷贝到该文件夹下，根据不同要求，对下发的文件进行相应的数据分析和处理。

0.数据集介绍

银行资产评估数据bank-data.xlsx，数据里有12个属性，分别是id（编号）,age（年龄）,sex（性别）,region（地区）,income（收入）,married（婚否）,children（子女数）,car（是否有私家车）,save_act（是否有定期存款）,current_act（是否有活期账户）,mortgage（是否有资产抵押）,pep（目标变量，是否买个人理财计划PersonalEquityPlan）。

1．数据探索之数据质量分析

新建“1-数据质量分析.xlsx”文件，导入“0-bank_data.xlsx”文件数据，请你用EXCEL对其进行数据质量分析。

【要求】

（1）请找出bank_data.xlsx表中的含有缺失值的记录。

（2）请你用PHSTAT软件绘制“income（收入）”属性的箱线图和点比例图，筛选出异常值。

（3）计算Whisker上限、Whisker下限，并利用高级筛选，找出该属性的异常值记录。

【提示】

（1）请找出bank_data.xlsx表中的含有缺失值的记录。

方法1：

条件格式法

1）选取A1：

L601区域。

2）开始-->条件格式-->新建规则（N）...，在"新建格式规则"对话框中，选择空值。

如图8-1所示。

图8-1“新建格式规则”对话框

3）点击“格式（F）…”按钮，设置特殊格式，高亮显示。

如图8-2所示。

图8-2设置条件格式

方法2：

1）缺失值定位。

“开始”→“编辑/查找和选择”→“定位”对话框→“定位条件”按钮。

2）“定位条件”对话框→选择“空值”，如图8-3所示。

图8-3“转到（G）…”下拉菜单命令和“定位条件”对话框

（2）绘制“income”属性箱线图和点比例图。

高级筛选出异常值。

“加载项/PHStat”→“DescriptiveStatistics”→“Boxplot…”或”DotScaleDiagram…“命令。

如图8-4所示。

注意选中“income”属性，如果数据区域包括标题行（E1单元格），则勾选下面的Firstcellcontainslabel选项，否则，不用勾选Firstcellcontainslabel选项。

（a）（b）

（c）（d）

图8-4PHSTAT软件的“箱线图”和“点比例图”绘制

计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。

以及Whisker下限和上限。

表8-1四分位数表

箱线图

公式

数值

最小值

=MIN（E2:

E601）

或=QUARTILE.INC（E2:

E601,0）

5014.21

最大值

=MAX（E2:

E601）

或=QUARTILE.INC（E2:

E601,4）

78843.21

第一分位数

=QUARTILE.INC（$E$2:

$E$601,1）

17264.5

第二分位数

（中位数）

=MEDIAN（$E$2:

$E$601）

或=QUARTILE.INC（E2:

E601,2）

24925.3

第三分位数

=QUARTILE.INC（E2:

E601,3）

36172.675

Whisker上限

=QL-1.5*（Qu-QL）

-11097.763

Whisker下限

=Qu+1.5*（Qu-QL）

64534.9375

高级筛选，筛选出大于Qu，小于QL的离群点。

1）设置条件区域，如图8-5所示。

income

<-11097.7625

>64534.9375

图8-5高级筛选“条件区域”

2）设置高级筛选。

2．数据探索之数据特征分析

建立“2-数据特征分析.xlsx”文件，导入“0-bank_data.xlsx”文件，请你用EXCEL对其进行数据特征分析。

【要求】

（1）针对age属性进行分布分析。

填写8-2和8-3表。

表8-2年龄分布分析表表8-3年龄数据统计表

（2）根据上一步的age属性分组，分别用EXCEL分布工具和PHSTAT软件绘制直方图。

（3）同理，将收入属性分组，计算各年龄段收入汇总和购买理财计划汇总，找出购买理财计划的主要群体。

【提示】

（1）age分为三组（青年组、中年组和老年组），填写age数据统计，如表8-4所示。

表8-4年龄数据分布公式表

年龄数据分布

公式

值

所在单元格

数据个数

=COUNT（B2:

B601）

600

O4

最大值

=MAX（B2:

B601）

67

O5

最小值

=MIN（B2:

B601）

18

O6

平均值

=AVERAGE（B2:

B601）

42.395

O7

标准差

=STDEV.P（B2:

B601）

14.413

O8

全距

=INT（O5-O6）

49

O9

组数

3

O10

组距

=INT（O9/O10）

16

O11

表8-5年龄统计公式表

年龄段

N13

年龄区间

O13

分组数据

P13

组中值

Q13

频数

R13

累积频数

S13

累积百分比

T13

青年

N14

=O6+O11

=（O6+P14）/2

{=FREQUENCY（B2:

B601,P14:

P16）}

=R14+S13

=S14/$O$4

中年

N15

=P14+O11

=（P14+P15）/2

=R15+S14

=S15/$O$4

老年

N16

=O5

=（P15+P16）/2

=R16+S15

=S16/$O$4

（2）数据分析工具分析。

1）EXCEL数据分析

“数据”选项卡→“数据分析”按钮→“直方图”选项→“直方图”对话框。

注意，输入区域为：

age数据，接收区域为：

分组数据，输出区域为：

分析结果放置区域。

如图8-6（a）（b）（c）所示。

图8-6（a）“数据分析”路径（b）“数据分析”对话框（c）“直方图”对话框

结果如表8-6和图8-7所示。

表8-6数据分析工具直方图分析结果表

图8-7数据分析工具绘制的直方图

2）PHSTAT软件操作步骤如下：

图8-8PHSTAT软件直方图路径

注意，PHSTAT软件绘制直方图过程中，作图区的数据不能包含公式。

选中age属性（B2:

B601）,分组数据属性（V14:

V16），组中值属性（W14:

16）绘制直方图。

图8-9PHSTAT软件“直方图”对话框

分析结果如下：

表8-7PHSTAT软件直方图分析结果表

图8-10PHSTAT软件绘制的直方图

（4）仿照上例，计算年龄收入汇总和购买理财计划汇总，填写下表

表8-8收入数据统计

注意：

这里收入汇总的公式应该使用sumif函数。

如，

青年的收入汇总应该为：

=SUMIF（$B$2:

$B$601,"<="&P94,$E$2:

$E$601）。

其中，$B$2:

$B$601表示年龄区域，&是字符串拼接符号，P94是青年的分组数据。

$E$2:

$E$601为income区域。

青年的PEP汇总应该使用countifs函数。

如，

青年的PEP汇总应该为：

=COUNTIFS（$B$2:

$B$601,"<="&P94,$L$2:

$L$601,"=YES"）。

其中，$L$2:

$L$601为PEP区域。

（5）给出自己的分析观点，例如：

从人数看，…，从收入上看…，从购买理财计划的年龄结构看，…。

初步对数据和直方图观测，…是黄金客户，而…可能是潜在客户群。

3.数据清洗

建立“3-数据插补.xlsx”文件，导入“0-bank_data.xlsx”文件，请你用EXCEL对异常值和缺失值进行插补。

【要求】

（1）请对income属性的离群点，用均值法替换修正。

（2）请将current_act属性的空值，用众数法替换补值。

【提示】

（1）income属性的离群点（异常值）

根据实验8-1的第一小题实验可知income属性的离群点（异常值），可以用公式计算去除异常值后的均值，并用均值替换异常点的income属性。

如表8-9所示。

设置O4单元格为"<"，P4单元格为whisker下限，O5单元格为">"，P5单元格为whisker上限。

表8-9离群点统计表

离群点统计

公式

值

样本总数

=COUNT（E2:

E601）

600

样本income总和

=SUM（E2:

E601）

16535521

异常点数量

=COUNTIF（E2:

E601,O4&P4）+COUNTIF（E2:

E601,O5&P5）

2

异常点income总和

=SUMIF（E2:

E601,O4&P4）+SUMIF（E2:

E601,O5&P5）

143641.5

均值

=（样本总和-异常点income总和）/（样本总数-异常点数量）

27411.17

（2）众数求解

方法1：

建立一个新列，去除空值的current_act列，将新列用if函数转换为1或0后，用mode.sngl函数求解。

由于mode.sngl函数参数必须是数值，所以需要将YES转换为1，NO转换0。

在N2单元格输入公式：

=IF（M2="YES",1,0），向下填充。

根据N列的1和0，使用mode.sngl函数。

公式为：

=MODE.SNGL（N2:

N588）

方法2：

可以用countif函数，分别求出YES的个数、NO的个数和空值的个数，比较找出众数。

YES个数。

公式为：

=COUNTIF（J2:

J601,"=YES"）。

值为442

NO个数。

公式为：

=COUNTIF（J2:

J601,"=NO"）。

值为145

空值个数。

公式为：

=COUNTBLANK（J2:

J601）。

值为13

4.数据变换

【要求】

（1）将插补后的“3-数据插补.xlsx”文件另存为“4-bank_data.csv”文件。

（2）启动Weka软件，导入“4-bank_data.csv”文件，对待挖掘的数据进行属性规约和数据离散化后，另存为“4-bank_data.arff”文件。

【提示】

（1）现将xlsx文件另存为csv文件，然后再导入到Weka中，如图8-11~13所示。

图8-11Weka登录界面

图8-12Weka导入CSV文件前

图8-13Weka导入CSV文件后

（2）对数据进行数据变换。

①首先，数据规约，删除无用的属性，通常对于数据挖掘任务来说，ID这样的属性信息是无用的，故此，我们将之删除。

如图14所示。

图8-14删除ID属性

②其次，连续属性的离散化。

数据集中，age属性、income属性和children属性都是数值型数据，需要将其转换为标称型数据。

离散化age属性和income属性。

勾选age属性和income属性→“choose”→discretize，然后，单击”Discretize-B10-M-0.1-Rfirst-last“，在弹出的对话框中，将分组bin改为3，将”first-last”改为1,4，如图15~17所示。

图8-15Discretize-B10-M-0.1-Rfirst-last图8-16bin值改为3

图8-17修改后的属性类型

③children属性只有4个取值：

0,1,2,3。

勾选children属性，单击“choose”按钮，再弹出的下拉列表中，展开无监督学习（unsupervised）前的“+”号和属性（attribute）前的“+”号，选择“NumericToNominal”，并将first-last改为6，单击"Apply"按钮，将children类型变成Nominal。

如图8-18~20所示。

图8-18离散化children属性8-19无监督学习下的NumericToNominal”

图8-20离散化后的children属性

（3）保存为arff格式，并用UltraEdit打开该文件，手工修改晦涩的标识，如-inf-34.333333改为0…34（-inf用最小值替换、inf用最大值替换）。

5.绘制不等宽的柱形图

【要求】

（1）统计各年龄层次购买PEP的人数。

（2）绘制购买PEP的各年龄层次的不等宽柱形图。

如下图所示。

图8-15购买PEP的年龄结构

【提示】

（1）分组临界点可参考本节第二小题，统计函数可以使用COUNTIF和COUNTIFS，如表8-10所示。

表8-10年龄分布表

年龄段

临界点

人数

青年

34

71

中年

50

95

老年

67

108

（2）不等宽柱形图，可采用错行数据，绘制堆积柱形图的方法实现（青年71行、中年95行，老年108行）。

如图8-16所示。

图8-16错行任意宽度柱形图的画法

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 实验81 大数据分析报告实验 81 数据分析报告

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：实验81 大数据分析报告.docx
链接地址：https://www.bdocx.com/doc/28035269.html

实验81 大数据分析报告.docx

热门标签