财经数据挖掘实务实验报告操作性实验1简单数据挖掘示例.docx
- 文档编号:12652499
- 上传时间:2023-04-21
- 格式:DOCX
- 页数:12
- 大小:1.12MB
财经数据挖掘实务实验报告操作性实验1简单数据挖掘示例.docx
《财经数据挖掘实务实验报告操作性实验1简单数据挖掘示例.docx》由会员分享,可在线阅读,更多相关《财经数据挖掘实务实验报告操作性实验1简单数据挖掘示例.docx(12页珍藏版)》请在冰豆网上搜索。
财经数据挖掘实务实验报告操作性实验1简单数据挖掘示例
基础性实验报告
课程名称
财经数据挖掘实务
教学班级
指导老师
学号
姓名
行政班级
实验项目
案例一:
SPSSModeler操作基础――药物处方规律挖掘案例
组员名单
独立完成
实验类型
操作性实验验证性实验□综合性实验
实验日期
2月28日
实验地点
一、实验目的和要求:
1.1实验目的
案例数据是Modeler软件自带的一份关于药物研究的数据。
大批患有同种疾病的不同病人,服用五种药物中的一种(Drug,分为DrugA,DrugB,DrugC,DrugX和DrugY)之后都取得了同样的治疗效果。
现需要利用数据挖掘发现以往药物处方适用的规律,给出不同的临床特征病人更适合服用哪种药物的建议,为未来医生开具处方提供参考。
案例数据是随同挑选的部分病人服务药物前的基本临床检查数据,包括:
病人的年龄(Age)、性别(Sex)、血压(BP)、胆固醇(Cholesterol)、唾液中钠元素(Na)和钾元素(K)含量。
1.2实验要求
请根据Drug.txt数据,完成下列任务:
(1)读入数据集,并浏览数据内容;
(2)观察各个变量的数据分布特征;
(3)利用散点图、直方图和网状图等形式分析进行探索性分析,包括钠和钾含量与服用药物的关系、钠和钾的比值与服用药物的关系不同血压与服用药物的关系以及其他影响因素与服用药物的关系;
(4)构建模型与模型评价,建立决策树模型,对模型结果数据进行解读,给出不同临床特征病人更适合服用哪种药物的建议;
注意:
(1)任务不仅要有截图,更多的需要有文字说明,解释图例数据与内容。
二、实验过程(记录实验步骤、分析实验结果)
1、将数据读入到Modeler中。
在【源】选项卡中选择【变量文件】节点,并设置节点参数。
在【文件】选项中制定从文件DRUG.txt中读入数据。
如下图:
图1-1:
导入数据
2、浏览数据内容。
在【输出】选项卡中选择【表格】节点,添加到数据流中,运行该节点生成数据表。
如下图:
图2-1
3、观察各变量的数据分布特征。
在【输出】选项卡中选择【表格】节点,添加到数据流中,运行该节点生成数据表。
如下图:
图3-1
图形显示:
该组数据共有200个样本,Age、Na、K为数值型变量。
软件的【数据审核】功能自动计算出了最小值、最大值、均值、标准差、偏度等基本描述统计量;数据显示,病人的年龄最大值和最小值的差距比较大。
同时,软件的【数据审核】功能还输出了数值型变量的直方图和分类型变量的柱形图;图形表明,病人的Age、BP、Cholesterol水平的分布比较均匀,总体差异不大,但服用药物drugY的病人明显多于服用其他药物的人数。
4、观察服用不同药物的病人唾液中钠元素和钾元素的含量。
以散点图为例:
在【图形】选项卡中选择【散点图】节点,添加到数据流中,并设置节点参数,指定Na为x轴、K为y轴,服用不同药物的病人数据表示为不同颜色的点。
运行节点生成图形文件,如下图:
图4-1:
散点图
图形显示:
服用drugY的病人,其唾液中的K含量明显低于其他类型病人,但Na含量特点不明显。
可见,单纯K含量较低的病人选用drugY比较理想。
5、观察服用不同药物的病人唾液中钠元素和钾元素的浓度比值。
单纯观察K含量是不全面的,为了更准确的评价药物状况,应观测Na与K的浓度比值,进而准确反映病人肾上腺的功能。
该指标原始数据中并没有,故应先计算生产:
在【字段选项】选项卡中选择【导出】节点,添加到数据流中,并设置该节点参数指定生产的新变量名为Na/K,计算公式为Na/K,执行【导出】节点。
然后,在【图形】选项卡中选择【直方图】节点,添加到数据流中,设置节点参数指定绘制Na/K的直方图,且服用不同药物的病人数据表示为不同的颜色,运行【直方图】节点生成图形文件,如下图:
图5-1:
直方图
图形显示:
对于Na/K比值处在高水平的病人,服用drugY应该是理想的选
择。
6、观察不同血压特征病人的药物选择。
以网状图为例:
在【图形】选项卡中选择【网络】节点,添加到数据流中,
设置参数绘制Drug与BP的网状【网络】图,执行结果如下图:
图6-1:
网状图
网状图通过线条粗细反映病人的BP与服用Drug的情况。
图形显示:
DrugY与BP的三条连线,线图粗细程度差别不大,表明drugY对病人的血压没有特殊限定,更具有普遍适用性,无论血压高低,都可以服用drugY;在不考虑drugY时,血压高的病人可服用drugA或drugB,血压低的病人应该选择drugC或drugX。
7、全面分析决定药物选择的其他影响因素建立决策树模型。
前述分析给出了选择drugY的依据,但是没有充分考虑Age、Sex和Cholesterol等因素,分析仍然是不全面的。
同时,对应怎样选择其他药物,也没有给出明确且全面的标准。
接下来,进一步利用数据,通过建立决策树模型,从综合角度分析选择不同药物的依据。
(1)建立决策树模型时,不再直接采用Na和K变量,而采用计算后生成的Na/K变量。
在【字段选项】选项卡中选择【过滤】节点,添加到数据流中NA/K导出节点后,设置节点参数,在Na和K变量上打叉过滤,如下图:
图7-1
(2)指定建立模型过程中各个变量的作用。
其中Age、Sex、BP、Cholesterol,Na/K为解释变量,称为模型的输入变量;Drug为被解释变量,称为模型的目标变量。
在【字段选项】选项卡中选择【类型】节点,添加到数据流中过滤节点后,设置参数指定变量角色,如下图:
图7-2
(3)建立决策树模型。
在【建模】选项卡中选择【5.0】节点,添加到数据流中类型节点后,执行该节点生成模型,模型结果节点自动连接到数据流中,双击查看,如下图:
图7-3
模型结果显示:
Na/K比值是选择药物时考虑的首要因素,其他是血压,再次是胆固醇水平。
当Na/K高于14.642时,选择drugY,无需考虑其他因素;当Na/K低于或等于14.642时,对于高血压病人更适合选择drugA,对于低血压和正常血压病人适合选择drugX。
性别和年龄对药物选择没有影响。
8、模型预测精度评价。
在节点工具箱【输出】选项卡中选择【分析】节点,与模型结果节点相连,执行【分析】节点间,生成结果如下图:
图8-1
可见,建立的决策树模型的正确预测精度达到了92%,模型较可靠。
实验结论:
完整数据流,如下图:
图8-2:
完整数据流
三、问题反馈与收获(实验过程中遇到的问题、自己的解决办法,对没解决的问题,自己的思路。
)
3.1问题与解决办法
对于SPSSModeler的操作不是非常熟悉
解决方法:
通过上网查资料、回看视频等方式来熟悉软件的操作
3.2发现与收获
通过数据挖掘考察影响病人治疗的各个变量的数据分布特征,建立了病人的药物选择考虑因素的决策树模型,并通过模型预测精度的评价确认了所建里模型的可靠性。
通过本案例的具体实验操作,更加了解了基于SPSSModeler的数据挖掘辅助决策过程。
四、指导教师评语及成绩:
成绩:
指导教师签名:
批阅日期:
月日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 财经 数据 挖掘 实务 实验 报告 操作性 简单 示例