SPSS数据挖掘方法概述.docx
- 文档编号:5190978
- 上传时间:2022-12-13
- 格式:DOCX
- 页数:35
- 大小:139.72KB
SPSS数据挖掘方法概述.docx
《SPSS数据挖掘方法概述.docx》由会员分享,可在线阅读,更多相关《SPSS数据挖掘方法概述.docx(35页珍藏版)》请在冰豆网上搜索。
SPSS数据挖掘方法概述
数据挖掘方法概述
一、主要概念1
二、主要方法概述1
1、神经网络方法概述1
2、聚类方法概述9
3、主成分分析14
4、决策树概述17
5、关联分析21
6、遗传算法概述23
一、主要概念
1、数据挖掘(datamining,简记DM):
采取专门算法对数据库中潜在的、不明显的数据关系进行分析与建模。
2、CRISP-DM(CRoss-IndustryStandardProcessforDataMining):
各企业中被广泛采用的数据挖掘标准流程。
包括6个步骤:
商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。
3、Clementine:
SPSS公司推出的企业级数据挖掘软件产品,英包括的数据挖掘主要方法为:
神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。
二、主要方法概述
1、神经网络方法概述
主要问题:
(1)什么是神经网络?
(2>神经网络有什么用?
(3)如何建立神经网络?
(4)如何应用神经网络?
(1)人工神经网络
“人工神经网络”(ARTIFICIALNEURALNETWORK,简称A.N.N.)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。
神经网络在一泄学习规则下,对提供的学习样本进行学习,从中获取特征信息,并存储(记忆)在相应的权值及参数上。
学习后,对于新的输入数据,网络可通过已获取的权值及参数,计算网络的输出。
神经网络具有高度的非线性、容错性与自学习、自适应更新等功能,能够进行复杂的逻辑操作和非线性关系实现。
目前神经网络模型在辅助管理与决策中,应用广泛。
(2)神经网络的作用
已证明结论:
对于函数/(山丿2,…心),在满足一泄条件下,可以找到函数①(几…,兀)
和实常数二12…w)和叫0二1,…冲;丿•二1,…屮),构造函数
/(X“2…忑):
_mn
/(坷,£…x“)=工C,①(工wijxj-◎)
使对于任意小的£,满足
max]了(坷,吃,…£)一/(州,勺,…£)|<£
(3)简单神经网络模型(感知机模型)的建立
问题引入:
设想对购买手机的顾客制泄销售方案,用购买量与购买频率两个指标来判别,
即:
购买量大,购买频率大,则给予优惠折扣:
购买量大,购买频率小,则给予优惠折扣:
问题:
这样的销售方案判别是否可以建立模型表示?
设想:
分别对购买量、购买频率以及是否优惠的两种取值立义为1,0,则上述四种方案可
以用四个样本表示,设每一样本具有两个评价指标XI,X2,一个评价结果Y:
样本号
XI,
X2
Y
1
1
1
1
2
1
0
1
3
0
1
1
4
0
0
0
构造两个输入节点、一个输出节点、二层结构的神经网络模型:
2
<*)OFf(工"1丿形)xj取值1或0,
丿=1
wtJ(j=l,2)待求
作用函数:
f(x)二1(x>0
0xWO
结构:
学习样本:
(Xi(k).xo(k),Yi(k)),k是样本数,k二1,2,3,4
关键问题:
如何获取模型(*)中的权数叭,,使计算结果与样本的评价结果的误差最小?
计算知方法:
随机赋予呵初始值,通过对每一样本的学习,获取讣算结果与样本评价结果的误差,修正的取值,使经过一泄次数的学习后,总误差能达到期望值,此时修正得到的就是所要获取的权数,即设
各(k)=IY.-0d,Y*是第k个样本评价结果(称期望输出或实际输出),0•是计算结果。
通过第k个样本的输出误差修正权数的公式为:
Wy(k+1)=(k)+AVViy(k),Avviy=a6(k)Xj
其中,u>0,a称收敛因子。
第k个样本的误差为:
误差e-^5(k),
总误差E(k)=E(k-l)+ez
计算过程:
1)设a=b随机赋予旳的初始值为0,BPwiX(k=l)=0,
wu(k=l)=0
2)对第一个样本进行学习:
把XI二1,X2二1代入(*),有
0=f(w»XXl+w13XX2)=f(0X1+0X1)=f(0)=0
6(k=l)=IYk-0)cI=1
修正权数:
二a6(k)Xj
△Wji二«(k=l)XFlX1=1
Awi:
=S(k=l)X==1X1=1
叫(k=2)=vvn(k=l)+AH?
n=0+1=1,
w:
:
(k二2)=wj2(k=l)+Aw1;=0+l=l
总误差E(K=1)=E(K二0)+ex=O+$(k二1)二1
3)对第2个样本:
Xl=l,X2=0,O=f(lXl+lXO)=f(l)=l
6(k=2)=|Yx-0,I=0
修正权数:
二a8(k)Xj
△甲]二§(k=2)X:
=0X1=0
Awt2=6(k二2)X==0X0=0
VV11(k二2)二vvi|(k=l)+△wij=1+0=1,
wi2(k=2)=w-(k=l)+Aw.c=1^0=1
学习样本:
(Xi(k)>Xa(k),x3(k),…,Xx(k),D:
(k).D:
(k).D,(k)…,DQ(k)),
k是样本数,k二1,2,3…,P
权值修正公式:
设
Si=Di-Oi,Di是期望输出(实际输出),Oi是网络il•算输出
1)隐层与输出层连接权的修正:
匕•(K+1)二匕(K)+△匕
A匕=恥:
0(1-OJX,Y,是隐节点输出
2)输入层与输出层连接权的修正:
Wij(K+l)=Wij(K)+AWi/,
q
=0工h:
)*K/l-Y^XjtX.是输入节点输入。
r=l
3)第K个样本误差Ek=±(D^-Oyy/2=±(^y/2
/=1Z=1
总误差E=>、」Ek
k=\
(5)基于神经网络辅助医疗绩效的评左
案例:
为了对城市医疗能力进行评价,收集一批有代表性的城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家的评价结果,旨在建立评价城市的医疗建设绩效的模型,应用于评价任意城市的医疗建设绩效。
收集数据见表1.1(单位:
万人)。
表1.1
样本
病床
数
医生数
工作人员
数
诊所
数
死亡率
专家评价的医疗能
力
上海
g
V
V
V
b
V
北京
a
V
V
V
g
V
沈阳
b
b
b
a
g
b
武汉
g
g
g
a
b
a
哈尔滨
V
g
a
b
a
a
重庆
g
g
b
b
b
b
成都
a
g
g
a
a
a
兰州
青岛
鞍山
V
g
g
g
b
a
a
V
a
g
V
b
Va
V
V
g
S
其中,V—
非常好,
g
•好,a——
般,b
一差
需要评价的城市数据见表1.2
o表1・2
样本
病床
医生数
工作人员
诊所数
死亡率
专家评价的医疗
数
数
能力
天津
b
g
b
g
a
广州
a
g
g
g
a
南京
b
g
g
g
b
西安
g
g
a
g
g
长春
g
g
g
a
g
太原
V
g
g
g
V
大连
b
a
b
a
g
济南
V
V
V
g
a
抚顺
g
b
b
b
g
建立评价的BP神经网络模型:
1)将取得的10个样本分别量化:
立义V、g、a.b的取值为
v=l.5,g=0.5,a=-0.5,b二-1.5
(1)
也可以定义:
v=3,g二1,a=-1,b=-3
v二6,g=2,a=—2,b=-6
V二10,g二7,a二4,b二1由
(1)定义可得上海等10个城市样本取值
见表1.3。
表1.3
样本
病床数
医生数
工作人员
数
诊所数
死亡率
专家评价
的医疗能
力
转换值
网络输出
上海
0.5
1.5
1.5
1.5
-1.5
1.5
0.9
0.8885
北京
-0.5
1.5
1.5
1.5
0.5
1.5
0.9
0.9581
沈阳
-1.5
-1.5
-1.5
-0.5
0.5
-1.5
0.1
0.1215
武汉
0.5
0.5
0.5
-0.5
-1.5
-0.5
0.37
0.38266
哈尔
1.5
0.5
-0.5
-1.5
-0.5
-0.5
0.37
0.369
滨
重庆
0.5
0.5
-1.5
-1.5
-1.5
-1.5
0.1
0.1168
成都
-0.5
0.5
0.5
-0.5
-0.5
-0.5
0.37
0.34697
兰州
1.5
0.5
-0.5
0.5
1.5
1.5
0.9
0.8998
青岛
0.5
-1.5
1.5
1.5
-0.5
0.5
0.633
0.6419
鞍山
0.5
-0.5
-0.5
-1.5
1.5
0.5
0.633
0.6560
2)设计具有三层、五个输入节点、8个隐节点、一个输出i'j点的BP模型,输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率,输出为评价的医疗能力。
3)由于选择的映射函数是S型函数:
f(x)=1/(1+e~x),xe(-oo,+oo),f(x)e(0,1)
需要把样本输出转换为(0,1)之间的值。
定义:
输岀转换值二0.1+0.8x(样本输出值-最小值)/(最大值-最小值),
英中,这里最大值=1.5,最小值二-1.5,转换后的样本输岀见表1.3.
4)网络学习35万次后,网络收敛,总误差为0.16,网络输岀见表1.3所示,存储网络学习后的有关权数与参数。
5)用学习后的网络,建立的城市医疗能力评价模型:
_5
Yi二f(艺叱了乂丿一0),i二1,2,3…,8x:
取值(一8,4-oo),j二1,2-5
j-i
0Ff(W匕匕一匚),t=l,0:
取值(0,1)
英中,“Vsrt已在学习中获取,评价表2城市的医疗能力,评价结果见表1・4。
表1・4
样本
病床数
医生数
工作人员
数
诊所数
死亡率
网络输岀
网络评价的医疗
能力
天津
-1.5
0.5
-1.5
0.5
-0.5
0.122
b
广州
-0.5
0.5
0.5
0.5
-0.5
0.6687
g
南京
-1.5
0.5
0.5
0.5
-0.5
0.6423
g
西安
0.5
0.5
-0.5
0.5
0.5
0.6011
g
长春
0.5
0.5
0.5
-0.5
0.5
0.6333
g
太原
1.5
0.5
0.5
0.5
1.5
0.8851
V
大连
-1.5
-0.5
-1.5
-0.5
0.5
0.1134
b
济南
1.5
1.5
1.5
0.5
-0.5
0.8996
V
抚顺
0.5
-1.5
-1.5
-1.5
0.5
0.3869
a
思考问题:
(1)如何利用神经网络辅助客户分类,以制立相应的促销或销售策略?
(2)如何利用神经网络对客户信誉等级进行评价?
<3)在城市医疗能力评价中,直接用收集的五个指标的左量数据作为神经网络输入,是否可以?
(4)在城市医疗能力评价中,评价结果有四个可能的取值,可否设计四个节点的输出?
如何定义?
作业:
拟建立神经网络进行肺病诊断,设每个病例有有五种症状:
发烧(无、低、中度、高),咳嗽(轻微、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音),肺炎和肺结合饿部分病例集见下表:
肺病实示例集
病状
发烧
咳嗽
X光所见
血沉
听诊
肺
炎
1
高
剧烈
片状
:
述
水泡音
2
中度
剧烈
片状
:
述
水泡音
3
低
轻微
点状
正常
干鸣音
4
高
屮度
片状
水泡音
5
中度
轻微
片状
正常
水泡音
肺
结
核
1
无
轻微
索条状
正常
正常
2
高
剧烈
快
干鸣音
3
低
轻微
索条状
正常
正常
4
无
轻微
点状
快
干鸣音
5
低
中度
片状
快
正常
2、聚类方法概述
主要问题:
(1)如何立义两类之间的距离?
(2)如何进行类归并?
(3)如何表岀谱系图?
(4)聚类分析的应用?
聚类:
按照事物的某些属性,把事物聚集成类,使类间相似性尽量少,类内相似性尽量大。
问题引入:
(1)四个学生要分成两类,如何分?
(2)设想对优势股进行投资,问优势股如何选择?
一般地,按已知属性对样品或对元素进行归并,称为分类,未知属性(没有先验知识)按距离大小对样品或元素进行归并称为聚类。
常用聚类方法
1)、系统聚类法:
先将n个样本各自看成一类,规左样本之间和类与类之间的距离.选择距离最近的一对合并为一个新类,再将距离最近的两类合并,直至所有的样本都归为一类为止。
聚类既可对样品进行聚类,也可以对变量进行聚类。
若对样品的进行聚类,设第i样品表示为Xf・=(X化…“俨),则第A类与第B类的距离可以定义为:
◎A,*"e=(貪《心〉一X:
八尸}
最常用的距离有:
1最小距离:
用两类中样品之间的距离最短者作为两类的距离。
2最大距离:
用两类中样品之间的距离最长者作为两类的距离。
3重心距离:
用两类的重心之间的距离作为两类的距藹。
4类平均距离:
用两类中所有两两样品之间的平均距离作为两类的距离。
案例应用:
设有5个股票,每个股票有8个指标X1,X2,…X8,表示为股价波动率、股息率、资产负债率、资金周转率、流动负债率.经营杠杆系数、财务杠杆系数.投资报酬率),用XK
将每一个样品作为一类,每个样品有8个变量,因此可以将每个样品视为8维空间中的一个点,5个样品就是8维空间中的5个点,然后用欧氏距离度量样品点的相似性:
两样品点间距离越大,其相似性越小。
下而给出5个样品两两之间的欧氏距离阵D 龙2 龙3 龙4龙5 A 龙2 4 0 D⑹: 龙3 6 9 0 龙4 1 7 10 0 龙5 V 3 5 80 J 采用最小的距离法,将样品1与样品 4合并成新类兀6二 兀1, 龙4 ,则得到类兀6龙2 7T? 龙5 之类的距离阵D⑴: 兀6 龙2 兀3 龙5 % <0 龙2 4 0 D 龙3 6 9 0 龙5 6 3 5 0 丿 合并类龙2与龙5成一新类龙"下而计算类龙“龙“龙亠之间的距离阵 龙7 龙7”6 厂 0 兀3 Ds兀6 4 0 龙3 5 6 0 丿 合并类龙7与兀6成一新类兀8二{龙7,”6},最后计算兀E与龙3的距离为5,并合 并为一大类。 并化出相应的谱系图: 12345 1— 4 ;n—— □I 3 五个样品的最小距离的谱系图 5个股票样品的聚类顺序表 合并次序 合并的类 合并后类的元素 合并水平(距离) 1 龙6二{龙”711} 1 2 29龙3 龙: 二{龙“龙订 3 3 /T6,兀: 7T3—\7Tit7171X971a} 4 4 713,713 TC今二{龙i>7129713>XTC©} L 0 最小距离法也可以对变量进行系统聚类,仍通过例子来说明 案例2: 对某地超基性岩的一批样品,测试六个与矿化有关的元素: X’二線,甘钻,沪铜,x;二珞,沪硫,也二碎,并假设它们的相关系数如矩阵 R(0>所不G 相关系数定义: 设有n个个体,每个个体测量了p个变量,第i个变量和与第k个变屋&的 相关系数为: N_I m工[內-可)((切-心)]/偽-忘)吃(伽•-无尸 j=lVJ=1./=! XT 龙=乏Lr/ /=l 第A类与第B类的距离可以泄义为: dAB=min{%・X®eA,X(J)gB} 疗2 龙5龙6 叭 龙2 0.8462 1 龙3 0.7579 0.9802 1 龙4 0.6431 0.2419 0.1811 1 込 0.5039 0.7370 0.7210 -0.3075 1 龙6 0.5603 0.4241 0.3920 0.1998 0.68021丿 苴中”/=X,,i二1,2,…,6.试用系统聚类的最大距离法对六个变量进行聚类(负相关系数采用绝对值)。 由于采用的是相关系数矩阵,所以应找最大元素并类。 其中最大的元素为0.9802,因此 将”2与兀3合并为兀7。 计算它与其它剩下的类的相关系数,相应地得到R R⑴中最大的元素为0.7579,因此将兀7与龙1合并为兀8,并计算它与其它剩下的类的相 关系数,相应的得到R⑵: 0.1811 716\J).39200.19980.68021 R®中的最大的元素为0.6802,因此将龙5与龙6合并为龙9,并计算它与其它剩下的类的 相关系数,相应地得到R($: 龙8 1 叭 0.3920 1 龙4 J-0.3075 0.1811 1 丿 R⑶中最大的元素为0.3920,因此将兀9与兀8合并为兀10。 六个变量的并类顺序表 并次序 合并的类 合并后类的元素 合并的水平(相关系数) 1 71龙s X7={x: Xs} 0.9802 2 才7T7 兀2—(X: Xs,Xi} 0.7579 3 兀"龙6 龙9—(xg,Xs) 0.6802 4 龙8,兀9 兀io={xc,Xs,Xi,Xo,Xe} 0.3930 0 7Tio>兀1 71ii={x: Xs,Xx,X5,X€,Xi} 0.1811 10.80.60.40.20 横坐标是并类的相关系数。 2)K均值聚类法 K均值聚类法是一种已知类数的数据聚类和分类方法。 过程如下: 1选取聚类数K: 2从训练样本中任意选择K个向量Cl,C2,…心作为聚类中心,Ci=(Ch,C;=-Csa): 3将每个样本Xi=(Xh,X12,…,XQ按距离: P二1,2,3…k,归入距离最小的中心为Ci的类: 4设属于Ci类的样本为X,j二1,2,…q),计算新的聚类中心 C'i=((Cu,C■: 2-C■: a) 其中: u“=、: X»/今 .7=1 5若④中的聚类中心不再变化,就终止,否则转③。 思考问题: (1)如果分两类,谱系图如何? (2)如果分三类,谱系图如何? (3)如何确左适合的聚类数? (4)分析客户购买手机的数据,通过聚类分析客户流失情况。 作业: 在城市医疗能力评价中,评价指标为五个,即X二(XI,X2,X3,X4,X5),每一 指标取值四个(v,g,a,b),则Xi取值的各种可能为4&,则可能有4’的评价指标情况,要求通过聚类,从中选出15个有代表性的样本,比较聚类辅助建立神经网络与专家经验辅助建立神经网络的不同。 3、主成分分析 主成分分析是一种多变量分析方法,通过变量变换把相关的变量变为不相关的、比原来少的若干个新变量。 问题引入: 为了找出影响顾客购买手机的主要因素,抽查一部分人按性别和年龄分成10个小组,分别对100种手机类型进行打分评价,最受欢迎的手机给予9分,最不受欢迎的手机给1分。 设10组顾客对100类手机的评分数据为: Xij表示第j个顾客对第i款手机的偏好评分,记A二(Xij)o设想通过主成分分析确左手机类型的主要影响因素。 主成分分析步骤: 1) 求A的相关系数矩阵R,R二R(匚&),Ek的定义为: 2)求特征方程det(R-AE)=0的特征根Ai(i=l,2,-n): 3)通过非零向量B满足(R-AE)B=O,计算相应的特征向§Bi=(Bii,Bi5>-Bia); 4)从大到小排列>1i,不妨设A1>A2>……>An,由累计贡献率 $95%确左m个特征根A1>>12>……>Am,对应的特征向虽: 为 Z=1/=1 Bi=(Bii,Bi3,…Bin),i=l,2、・・・m: 5)计算主分量Zm,(心1,2,-m(m /-I 的线性组合。 Zx的应用: 1)通过Zi与乙的对应取值变化,了解主要影响因素之间的关系和变化趋势;2) 可以通过Z,对X"X: -Xwo的贡献率匕=丈尸(乙“*,),找岀匕•最大的指标Xi,视 Xi为Zx影响最大的指标。 r(Z,9Xf)的左义: 令Xij与Zij的关系为: 组号\指标 Xb X2,••… -Xn Z1, Z2…… Z m 1 XII X21…… Xn1 Zll Z21 z ml 2 X12 X22••… ••Xn2 Z12 Z22 z m2 10 X110 X210••… -Xn10 Z110 Z210 z mlO i=l,2,m>j=l,2, 案例分析: 1): A(Xij)的相关系数矩阵R为: XI XI厂T X2\ X10 X2X3……X1O 0.8710.5160.370.1720.9360.8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 数据 挖掘 方法 概述