数据决策.docx
- 文档编号:27257893
- 上传时间:2023-06-28
- 格式:DOCX
- 页数:14
- 大小:25.53KB
数据决策.docx
《数据决策.docx》由会员分享,可在线阅读,更多相关《数据决策.docx(14页珍藏版)》请在冰豆网上搜索。
数据决策
SPSS数据挖掘方法概述
一、主要概念
1、数据挖掘(datamining,简记DM):
采取专门算法对数据库中潜在的、不明显的数据关系进行分析与建模。
2、CRISP-DM(CRoss-IndustryStandardProcessforDataMining):
各企业中被广泛采用的数据挖掘标准流程。
包括6个步骤:
商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。
3、Clementine:
SPSS公司推出的企业级数据挖掘软件产品,其包括的数据挖掘主要方法为:
神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。
二、主要方法概述
1、神经网络方法概述
主要问题:
(1)什么是神经网络?
(2)神经网络有什么用?
(3)如何建立神经网络?
(4)如何应用神经网络?
(1)人工神经网络
“人工神经网络”(ARTIFICIALNEURALNETWORK,简称A.N.N.)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。
神经网络在一定学习规则下,对提供的学习样本进行学习,从中获取特征信息,并存储(记忆)在相应的权值及参数上。
学习后,对于新的输入数据,网络可通过已获取的权值及参数,计算网络的输出。
神经网络具有高度的非线性、容错性与自学习、自适应更新等功能,能够进行复杂的逻辑操作和非线性关系实现。
目前神经网络模型在辅助管理与决策中,应用广泛。
(2)神经网络的作用
已证明结论:
对于函数,在满足一定条件下,可以找到函数和实常数和,构造函数:
使对于任意小的,满足
(3)简单神经网络模型(感知机模型)的建立
问题引入:
设想对购买手机的顾客制定销售方案,用购买量与购买频率两个指标来判别,即:
购买量大,购买频率大,则给予优惠折扣;
购买量大,购买频率小,则给予优惠折扣;
购买量小,购买频率大,则给予优惠折扣;
购买量小,购买频率小,则不给予优惠折扣
问题:
这样的销售方案判别是否可以建立模型表示?
设想:
分别对购买量、购买频率以及是否优惠的两种取值定义为1,0,则上述四种方案可以用四个样本表示,设每一样本具有两个评价指标X1,X2,一个评价结果Y:
样本号X1,X2Y
1111
2101
3011
4000
构造两个输入节点、一个输出节点、二层结构的神经网络模型:
(*)O1=f(xj取值1或0,
w1j(j=1,2)待求
作用函数:
f(x)=1x>0
0x≤0
结构:
X1○W11X1
○Y
X2○W12X2
学习样本:
(x1(k),x2(k),Y1(k)),k是样本数,k=1,2,3,4
关键问题:
如何获取模型(*)中的权数w1j,使计算结果与样本的评价结果的误差最小?
计算w1j方法:
随机赋予w1j初始值,通过对每一样本的学习,获取计算结果与样本评价结果的误差,修正w1j的取值,使经过一定次数的学习后,总误差能达到期望值,此时修正得到的w1j就是所要获取的权数,即设
δ(k)=∣Yk-Ok∣,Yk是第k个样本评价结果(称期望输出或实际输出),Ok是计算结果。
通过第k个样本的输出误差修正权数的公式为:
(k+1)=(k)+△(k),△=αδ(k)Xj
其中,α>0,α称收敛因子。
第k个样本的误差为:
误差ek=|δ(k)|,
总误差E(k)=E(k-1)+ek
计算过程:
1)设α=1,随机赋予w1j的初始值为0,即w11(k=1)=0,
w12(k=1)=0
2)对第一个样本进行学习:
把X1=1,X2=1代入(*),有
O=f(w11×X1+w12×X2)=f(0×1+0×1)=f(0)=0
δ(k=1)=∣Yk-Ok∣=1
修正权数:
△w1j=αδ(k)Xj
△=δ(k=1)X1=1×1=1
△w12=δ(k=1)X2=1×1=1
(k=2)=(k=1)+△=0+1=1,
w12(k=2)=w12(k=1)+△w12=0+1=1
总误差E(K=1)=E(K=0)+ek=0+δ(k=1)=1
3)对第2个样本:
X1=1,X2=0,O=f(1×1+1×0)=f
(1)=1
δ(k=2)=∣Yk-Ok∣=0
修正权数:
△w1j=αδ(k)Xj
△=δ(k=2)X1=0×1=0
△w12=δ(k=2)X2=0×0=0
(k=2)=(k=1)+△=1+0=1,
w12(k=2)=w12(k=1)+△w12=1+0=1
总误差E(K=2)=E(K=1)+ek=1+δ(k=2)=1
4)对于获取的权数=1,w12=1,有
对第3个样本:
X1=0,X2=1,O=f(1×0+1×1)=f
(1)=1=Y
对第4个样本:
X1=0,X2=0,O=f(1×0+1×0)=f(0)=0=Y
5)结论:
=1,w12=1是使计算结果与样本的评价结果误差最小的权数。
将=1,w12=代入模型(*),则模型建立完毕。
可以利用这个建立的模型,对任一组输入的X1,X2,在未知其输出(评价结果)时,通过(*)计算得到结果。
(4)误差逆传播神经网络模型(ErrorBack-Propagation,简记BP模型)
在简单神经网络的基础上,进行形式推广,对多个输入、多个输出、多层结构,不同作用函数的情况进行建模分析。
最常用的是BP神经网络。
BP神经网络基本原理
BP神经网络模型是一种具有三层或三层以上的前馈型的、按梯度算法使计算输出与实际输出的误差沿逆传播修正各连接权的神经网络模型。
网络按有教师示教的方式进行学习,当一对学习模式提供给网络后,神经元的激活值,从输入层经各中间层向输出层传播,在输出层的各神经元获得网络的输入响应,并按减少希望输出与实际输出偏差的方向,从输出层经各中间层逐层修正各连接权,最后回到输入层,随着这种误差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。
x1○wi1○1vti○
x2○wi2○i○t节点
x3○节点vtm○
…win○M○
xn○
输入信息正向传播
反向传播实际输出与网络输出误差
BP网络模型的特点:
模型表示:
Yi=f(i=1,2,3…,m,xi取值(-∞,+∞)
Ot=f(t=1,2,3…,q,Ot取值(0,1)
模型结构:
至少三层(至少有一隐层),多个输入,一个或多个输出
作用函数(Sigmoid型函数):
f(x)=1/(1+e)
x(-,+)f(x)(0,1)
学习样本:
(x1(k),x2(k),x3(k),…,xm(k),D1(k),D2(k),D3(k)…,Dq(k)),
k是样本数,k=1,2,3…,P
权值修正公式:
设
δi=Di-Oi,Di是期望输出(实际输出),Oi是网络计算输出
1) 隐层与输出层连接权的修正:
(K+1)=(K)+△
,是隐节点输出
2) 输入层与输出层连接权的修正:
(K+1)=(K)+△,
,是输入节点输入。
3)第K个样本误差
总误差E=
(5)基于神经网络辅助医疗绩效的评定
案例:
为了对城市医疗能力进行评价,收集一批有代表性的城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家的评价结果,旨在建立评价城市的医疗建设绩效的模型,应用于评价任意城市的医疗建设绩效。
收集数据见表1.1(单位:
万人)。
表1.1
样本 病床数 医生数 工作人员数 诊所数 死亡率 专家评价的医疗能力
上海 g v v v b v
北京 a v v v g v
沈阳 b b b a g b
武汉 g g g a b a
哈尔滨 v g a b a a
重庆 g g b b b b
成都 a g g a a a
兰州 v g a g v v
青岛 g b v v a g
鞍山 g a a b v g
其中,v——非常好,g——好,a——一般,b——差
需要评价的城市数据见表1.2。
表1.2
样本 病床数 医生数 工作人员数 诊所数 死亡率 专家评价的医疗能力
天津 b g b g a
广州 a g g g a
南京 b g g g b
西安 g g a g g
长春 g g g a g
太原 v g g g v
大连 b a b a g
济南 v v v g a
抚顺 g b b b g
建立评价的BP神经网络模型:
1)将取得的10个样本分别量化:
定义v、g、a、b的取值为
v=1.5,g=0.5,a=-0.5,b=-1.5
(1)
也可以定义:
v=3,g=1,a=-1,b=-3
v=6,g=2,a=--2,b=-6
v=10,g=7,a=4,b=1
由
(1)定义可得上海等10个城市样本取值见表1.3。
表1.3
样本 病床数 医生数 工作人员数 诊所数 死亡率 专家评价的医疗能力 转换值 网络输出
上海 0.5 1.5 1.5 1.5 -1.5 1.5 0.9 0.8885
北京 -0.5 1.5 1.5 1.5 0.5 1.5 0.9 0.9581
沈阳 -1.5 -1.5 -1.5 -0.5 0.5 -1.5 0.1 0.1215
武汉 0.5 0.5 0.5 -0.5 -1.5 -0.5 0.37 0.38266
哈尔滨 1.5 0.5 -0.5 -1.5 -0.5 -0.5 0.37 0.369
重庆 0.5 0.5 -1.5 -1.5 -1.5 -1.5 0.1 0.1168
成都 -0.5 0.5 0.5 -0.5 -0.5 -0.5 0.37 0.34697
兰州 1.5 0.5 -0.5 0.5 1.5 1.5 0.9 0.8998
青岛 0.5 -1.5 1.5 1.5 -0.5 0.5 0.633 0.6419
鞍山 0.5 -0.5 -0.5 -1.5 1.5 0.5 0.633 0.6560
2)设计具有三层、五个输入节点、8个隐节点、一个输出节点的BP模型,输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率,输出为评价的医疗能力。
3)由于选择的映射函数是S型函数:
f(x)=1/(1+e),x(-,+),f(x)(0,1)
需要把样本输出转换为(0,1)之间的值。
定义:
输出转换值=0.1+0.8(样本输出值-最小值)/(最大值-最小值),
其中,这里最大值=1.5,最小值=-1.5,转换后的样本输出见表1.3.
4)网络学习35万次后,网络收敛,总误差为0.16,网络输出见表1.3所示,存储网络学习后的有关权数与参数。
5)用学习后的网络,建立的城市医疗能力评价模型:
Yi=f(,i=1,2,3…,8xi取值(-∞,+∞),j=1,2…5
Ot=f(,t=1,Ot取值(0,1)
其中,wij、Vti、、rt已在学习中获取,评价表2城市的医疗能力,评价结果见表1.4。
表1.4
样本 病床数 医生数 工作人员数 诊所数 死亡率 网络输出 网络评价的医疗能力
天津 -1.5 0.5 -1.5 0.5 -0.5 0.122 b
广州 -0.5 0.5 0.5 0.5 -0.5 0.6687 g
南京 -1.5 0.5 0.5 0.5 -0.5 0.6423 g
西安 0.5 0.5 -0.5 0.5 0.5 0.6011 g
长春 0.5 0.5 0.5 -0.5 0.5 0.6333 g
太原 1.5 0.5 0.5 0.5 1.5 0.8851 v
大连 -1.5 -0.5 -1.5 -0.5 0.5 0.1134 b
济南 1.5 1.5 1.5 0.5 -0.5 0.8996 v
抚顺 0.5 -1.5 -1.5 -1.5 0.5 0.3869 a
思考问题:
(1)如何利用神经网络辅助客户分类,以制定相应的促销或销售策略?
(2)如何利用神经网络对客户信誉等级进行评价?
(3)在城市医疗能力评价中,直接用收集的五个指标的定量数据作为神经网络输入,是否可以?
(4)在城市医疗能力评价中,评价结果有四个可能的取值,可否设计四个节点的输出?
如何定义?
作业:
拟建立神经网络进行肺病诊断,设每个病例有有五种症状:
发烧(无、低、中度、高),咳嗽(轻微、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音),肺炎和肺结合饿部分病例集见下表:
肺病实示例集
病状
病例号 发烧 咳嗽 X光所见 血沉 听诊
肺
炎 1 高 剧烈 片状 正常 水泡音
2 中度 剧烈 片状 正常 水泡音
3 低 轻微 点状 正常 干鸣音
4 高 中度 片状 正常 水泡音
5 中度 轻微 片状 正常 水泡音
肺
结
核 1 无 轻微 索条状 正常 正常
2 高 剧烈 空洞 快 干鸣音
3 低 轻微 索条状 正常 正常
4 无 轻微 点状 快 干鸣音
5 低 中度 片状 快 正常
2、聚类方法概述
主要问题:
(1)如何定义两类之间的距离?
(2)如何进行类归并?
(3)如何表出谱系图?
(4)聚类分析的应用?
聚类:
按照事物的某些属性,把事物聚集成类,使类间相似性尽量少,类内相似性尽量大。
问题引入:
(1)四个学生要分成两类,如何分?
(2)设想对优势股进行投资,问优势股如何选择?
一般地,按已知属性对样品或对元素进行归并,称为分类,未知属性(没有先验知识)按距离大小对样品或元素进行归并称为聚类。
常用聚类方法
1)、系统聚类法:
先将n个样本各自看成一类,规定样本之间和类与类之间的距离,选择距离最近的一对合并为一个新类,再将距离最近的两类合并,直至所有的样本都归为一类为止。
聚类既可对样品进行聚类,也可以对变量进行聚类。
若对样品的进行聚类,设第i样品表示为,则第A类与第B类的距离可以定义为:
最常用的距离有:
1最小距离:
用两类中样品之间的距离最短者作为两类的距离。
2最大距离:
用两类中样品之间的距离最长者作为两类的距离。
3重心距离:
用两类的重心之间的距离作为两类的距离。
4类平均距离:
用两类中所有两两样品之间的平均距离作为两类的距离。
案例应用:
设有5个股票,每个股票有8个指标X1,X2,…X8,表示为股价波动率、股息率、资产负债率、资金周转率、流动负债率、经营杠杆系数、财务杠杆系数、投资报酬率),用xit表示第i个股票的第t个指标的值,则可得到股票样品的数据矩阵:
变量
样品x1x2…x8
1x11x12…x18
2x21x22…x28
.....
.....
.....
5x51x52…x58
将每一个样品作为一类,每个样品有8个变量,因此可以将每个样品视为8维空间中的一个点,5个样品就是8维空间中的5个点,然后用欧氏距离度量样品点的相似性:
两样品点间距离越大,其相似性越小。
下面给出5个样品两两之间的欧氏距离阵D(0):
0
40
D(0):
690
17100
63580
采用最小的距离法,将样品1与样品4合并成新类={,}
,则得到类之类的距离阵D
(1):
0
40
D
(1):
690
6350
合并类与成一新类7。
下面计算类6,7,3之间的距离阵
0
D
(2):
40
560
合并类与成一新类={,},最后计算与的距离为5,并合并为一大类。
并化出相应的谱系图:
12345
1
4
2
5
3
五个样品的最小距离的谱系图
5个股票样品的聚类顺序表
合并次序合并的类合并后类的元素合并水平(距离)
11,46={1,4}1
22,57={2,5}3
36,78={1,2,4,5}4
43,89={1,2,3,4,5}5
最小距离法也可以对变量进行系统聚类,仍通过例子来说明
案例2:
对某地超基性岩的一批样品,测试六个与矿化有关的元素:
x1=镍,x2=钴,x3=铜,x4=铬,x5=硫,x6==砷,并假设它们的相关系数如矩阵
R(0)所示。
相关系数定义:
设有n个个体,每个个体测量了p个变量,第i个变量x1与第k个变量xk的相关系数为:
rik=]/
第A类与第B类的距离可以定义为:
1
0.84621
0.75790.98021
0.64310.24190.18111
0.50390.73700.7210-0.30751
0.56030.42410.39200.19980.68021
其中,i=1,2,…,6,试用系统聚类的最大距离法对六个变量进行聚类(负相关系数采用绝对值)。
由于采用的是相关系数矩阵,所以应找最大元素并类。
其中最大的元素为0.9802,因此将与合并为。
计算它与其它剩下的类的相关系数,相应地得到R
(1):
1
0.75791
0.18110.64311
0.72100.5039-0.30571
0.39200.56030.19980.68021
R
(1)中最大的元素为0.7579,因此将与合并为,并计算它与其它剩下的类的相关系数,相应的得到R
(2):
1
0.18111
0.5039-0.30751
0.39200.19980.68021
R
(2)中的最大的元素为0.6802,因此将与合并为,并计算它与其它剩下的类的相关系数,相应地得到R(3):
1
0.39201
-0.30750.18111
R(3)中最大的元素为0.3920,因此将与合并为。
六个变量的并类顺序表
并次序合并的类合并后类的元素合并的水平(相关系数)
12,37={x2,x3}0.9802
21,78={x2,x3,x1}0.7579
35,69={x5,x6}0.6802
48,910={x2,x3,x1,x5,x6}0.3930
510,411={x2,x3,x1,x5,x6,x4}0.1811
10.80.60.40.20
x2
x3
x1
x5
x6
x4
横坐标是并类的相关系数。
2)K均值聚类法
K均值聚类法是一种已知类数的数据聚类和分类方法。
过程如下:
①选取聚类数K;
②从训练样本中任意选择K个向量C1,C2,…CK作为聚类中心,Ci=(Ci1,Ci2…Cin);
③将每个样本Xl=(Xl1,Xl2,…,Xln)按距离:
P=1,2,3…k,归入距离最小的中心为Ci的类;
④设属于Ci类的样本为Xj(j=1,2,…q),计算新的聚类中心
C‘i=((C’i1,C‘i2…C‘in)
其中:
⑤若④中的聚类中心不再变化,就终止,否则转③。
思考问题:
(1)如果分两类,谱系图如何?
(2)如果分三类,谱系图如何?
(3)如何确定适合的聚类数?
(4)分析客户购买手机的数据,通过聚类分析客户流失情况。
作业:
在城市医疗能力评价中,评价指标为五个,即X=(X1,X2,X3,X4,X5),每一指标取值四个(v,g,a,b),则Xi取值的各种可能为45,则可能有45的评价指标情况,要求通过聚类,从中选出15个有代表性的样本,比较聚类辅助建立神经网络与专家经验辅助建立
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 决策