书签分享收藏举报版权申诉 / 35

立即下载加入VIP,免费下载

当前位置：首页 > 表格模板 > 书信模板 > SPSS数据挖掘方法概述.docx

SPSS数据挖掘方法概述.docx

文档编号：5190978
上传时间：2022-12-13
格式：DOCX
页数：35
大小：139.72KB

SPSS数据挖掘方法概述.docx

《SPSS数据挖掘方法概述.docx》由会员分享，可在线阅读，更多相关《SPSS数据挖掘方法概述.docx（35页珍藏版）》请在冰豆网上搜索。

SPSS数据挖掘方法概述.docx

SPSS数据挖掘方法概述

数据挖掘方法概述

一、主要概念1

二、主要方法概述1

1、神经网络方法概述1

2、聚类方法概述9

3、主成分分析14

4、决策树概述17

5、关联分析21

6、遗传算法概述23

一、主要概念

1、数据挖掘（datamining,简记DM）：

采取专门算法对数据库中潜在的、不明显的数据关系进行分析与建模。

2、CRISP-DM（CRoss-IndustryStandardProcessforDataMining）:

各企业中被广泛采用的数据挖掘标准流程。

包括6个步骤：

商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。

3、Clementine：

SPSS公司推出的企业级数据挖掘软件产品，英包括的数据挖掘主要方法为：

神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。

二、主要方法概述

1、神经网络方法概述

主要问题：

（1）什么是神经网络？

（2＞神经网络有什么用？

（3）如何建立神经网络？

（4）如何应用神经网络？

（1）人工神经网络

“人工神经网络”（ARTIFICIALNEURALNETWORK,简称A.N.N.）是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。

神经网络在一泄学习规则下，对提供的学习样本进行学习，从中获取特征信息，并存储（记忆）在相应的权值及参数上。

学习后，对于新的输入数据，网络可通过已获取的权值及参数，计算网络的输出。

神经网络具有高度的非线性、容错性与自学习、自适应更新等功能，能够进行复杂的逻辑操作和非线性关系实现。

目前神经网络模型在辅助管理与决策中，应用广泛。

（2）神经网络的作用

已证明结论：

对于函数/（山丿2,…心），在满足一泄条件下，可以找到函数①（几…，兀）

和实常数二12…w）和叫0二1,…冲;丿•二1,…屮），构造函数

/（X“2…忑）:

_mn

/（坷,£…x“）=工C,①（工wijxj-◎）

使对于任意小的£,满足

max]了（坷，吃，…£）一/（州，勺，…£）|<£

（3）简单神经网络模型（感知机模型）的建立

问题引入：

设想对购买手机的顾客制泄销售方案，用购买量与购买频率两个指标来判别,

即：

购买量大，购买频率大，则给予优惠折扣:

购买量大，购买频率小，则给予优惠折扣:

问题:

这样的销售方案判别是否可以建立模型表示？

设想:

分别对购买量、购买频率以及是否优惠的两种取值立义为1，0,则上述四种方案可

以用四个样本表示，设每一样本具有两个评价指标XI,X2,一个评价结果Y：

样本号

XI,

X2

Y

1

2

1

0

1

3

0

1

4

0

构造两个输入节点、一个输出节点、二层结构的神经网络模型:

2

<*）OFf（工"1丿形）xj取值1或0,

丿=1

wtJ（j=l,2）待求

作用函数：

f（x）二1（x>0

0xWO

结构:

学习样本：

（Xi（k）.xo（k）,Yi（k））,k是样本数，k二1,2,3,4

关键问题：

如何获取模型（*）中的权数叭,，使计算结果与样本的评价结果的误差最小？

计算知方法：

随机赋予呵初始值，通过对每一样本的学习，获取讣算结果与样本评价结果的误差，修正的取值，使经过一泄次数的学习后，总误差能达到期望值，此时修正得到的就是所要获取的权数，即设

各（k）=IY.-0d,Y*是第k个样本评价结果（称期望输出或实际输出），0•是计算结果。

通过第k个样本的输出误差修正权数的公式为：

Wy（k+1）=（k）+AVViy（k）,Avviy=a6（k）Xj

其中，u>0,a称收敛因子。

第k个样本的误差为：

误差e-^5（k）,

总误差E（k）=E（k-l）+ez

计算过程：

1）设a=b随机赋予旳的初始值为0,BPwiX（k=l）=0,

wu（k=l）=0

2）对第一个样本进行学习：

把XI二1,X2二1代入（*）,有

0=f（w»XXl+w13XX2）=f（0X1+0X1）=f（0）=0

6（k=l）=IYk-0）cI=1

修正权数：

二a6（k）Xj

△Wji二«（k=l）XFlX1=1

Awi：

=S（k=l）X==1X1=1

叫（k=2）=vvn（k=l）+AH?

n=0+1=1,

w：

：

（k二2）=wj2（k=l）+Aw1；=0+l=l

总误差E（K=1）=E（K二0）+ex=O+$（k二1）二1

3）对第2个样本：

Xl=l,X2=0,O=f（lXl+lXO）=f（l）=l

6（k=2）=|Yx-0,I=0

修正权数：

二a8（k）Xj

△甲］二§（k=2）X：

=0X1=0

Awt2=6（k二2）X==0X0=0

VV11（k二2）二vvi|（k=l）+△wij=1+0=1,

wi2（k=2）=w-（k=l）+Aw.c=1^0=1

学习样本：

（Xi（k）>Xa（k）,x3（k）,…，Xx（k）,D：

（k）.D：

（k）.D,（k）…，DQ（k））,

k是样本数，k二1,2,3…,P

权值修正公式：

设

Si=Di-Oi,Di是期望输出（实际输出），Oi是网络il•算输出

1）隐层与输出层连接权的修正：

匕•（K+1）二匕（K）+△匕

A匕=恥：

0（1-OJX，Y,是隐节点输出

2）输入层与输出层连接权的修正：

Wij（K+l）=Wij（K）+AWi/,

q

=0工h：

）*K/l-Y^XjtX.是输入节点输入。

r=l

3）第K个样本误差Ek=±（D^-Oyy/2=±（^y/2

/=1Z=1

总误差E=>、」Ek

k=\

（5）基于神经网络辅助医疗绩效的评左

案例：

为了对城市医疗能力进行评价，收集一批有代表性的城市医疗数据，评价指标为病床数、医生数、工作人员数、诊所数、死亡率，并给出了专家的评价结果，旨在建立评价城市的医疗建设绩效的模型，应用于评价任意城市的医疗建设绩效。

收集数据见表1.1（单位：

万人）。

表1.1

样本

病床

数

医生数

工作人员

数

诊所

数

死亡率

专家评价的医疗能

力

上海

g

V

b

V

北京

a

V

g

V

沈阳

b

a

g

b

武汉

g

a

b

a

哈尔滨

V

g

a

b

a

重庆

g

b

成都

a

g

a

兰州

青岛

鞍山

V

g

b

a

V

a

g

V

b

Va

V

g

S

其中，V—

非常好,

g

•好，a——

般，b

一差

需要评价的城市数据见表1.2

o表1・2

样本

病床

医生数

工作人员

诊所数

死亡率

专家评价的医疗

数

能力

天津

b

g

b

g

a

广州

a

g

a

南京

b

g

b

西安

g

a

g

长春

g

a

g

太原

V

g

V

大连

b

a

b

a

g

济南

V

g

a

抚顺

g

b

g

建立评价的BP神经网络模型：

1）将取得的10个样本分别量化：

立义V、g、a.b的取值为

v=l.5,g=0.5,a=-0.5,b二-1.5

（1）

也可以定义：

v=3,g二1,a=-1,b=-3

v二6,g=2,a=—2,b=-6

V二10,g二7,a二4,b二1由

（1）定义可得上海等10个城市样本取值

见表1.3。

表1.3

样本

病床数

医生数

工作人员

数

诊所数

死亡率

专家评价

的医疗能

力

转换值

网络输出

上海

0.5

1.5

-1.5

1.5

0.9

0.8885

北京

-0.5

1.5

0.5

1.5

0.9

0.9581

沈阳

-1.5

-0.5

0.5

-1.5

0.1

0.1215

武汉

0.5

-0.5

-1.5

-0.5

0.37

0.38266

哈尔

1.5

0.5

-0.5

-1.5

-0.5

0.37

0.369

滨

重庆

0.5

-1.5

0.1

0.1168

成都

-0.5

0.5

-0.5

0.37

0.34697

兰州

1.5

0.5

-0.5

0.5

1.5

0.9

0.8998

青岛

0.5

-1.5

1.5

-0.5

0.5

0.633

0.6419

鞍山

0.5

-0.5

-1.5

1.5

0.5

0.633

0.6560

2）设计具有三层、五个输入节点、8个隐节点、一个输出i'j点的BP模型，输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率，输出为评价的医疗能力。

3）由于选择的映射函数是S型函数：

f（x）=1/（1+e~x）,xe（-oo,+oo）,f（x）e（0,1）

需要把样本输出转换为（0,1）之间的值。

定义：

输岀转换值二0.1+0.8x（样本输出值-最小值）/（最大值-最小值），

英中，这里最大值=1.5,最小值二-1.5,转换后的样本输岀见表1.3.

4）网络学习35万次后，网络收敛，总误差为0.16,网络输岀见表1.3所示，存储网络学习后的有关权数与参数。

5）用学习后的网络，建立的城市医疗能力评价模型：

_5

Yi二f（艺叱了乂丿一0）,i二1,2,3…，8x：

取值（一8,4-oo）,j二1,2-5

j-i

0Ff（W匕匕一匚）,t=l,0：

取值（0,1）

英中，“Vsrt已在学习中获取，评价表2城市的医疗能力，评价结果见表1・4。

表1・4

样本

病床数

医生数

工作人员

数

诊所数

死亡率

网络输岀

网络评价的医疗

能力

天津

-1.5

0.5

-1.5

0.5

-0.5

0.122

b

广州

-0.5

0.5

-0.5

0.6687

g

南京

-1.5

0.5

-0.5

0.6423

g

西安

0.5

-0.5

0.5

0.6011

g

长春

0.5

-0.5

0.5

0.6333

g

太原

1.5

0.5

1.5

0.8851

V

大连

-1.5

-0.5

-1.5

-0.5

0.5

0.1134

b

济南

1.5

0.5

-0.5

0.8996

V

抚顺

0.5

-1.5

0.5

0.3869

a

思考问题:

（1）如何利用神经网络辅助客户分类，以制立相应的促销或销售策略？

（2）如何利用神经网络对客户信誉等级进行评价？

<3）在城市医疗能力评价中，直接用收集的五个指标的左量数据作为神经网络输入，是否可以？

（4）在城市医疗能力评价中，评价结果有四个可能的取值，可否设计四个节点的输出？

如何定义？

作业：

拟建立神经网络进行肺病诊断，设每个病例有有五种症状：

发烧（无、低、中度、高）,咳嗽（轻微、中度、剧烈），X光所见阴影（点状、索条状、片状、空洞），血沉（正常、快）,听诊（正常、干鸣音、水泡音），肺炎和肺结合饿部分病例集见下表：

肺病实示例集

病状

发烧

咳嗽

X光所见

血沉

听诊

肺

炎

1

高

剧烈

片状

:

述

水泡音

2

中度

剧烈

片状

:

述

水泡音

3

低

轻微

点状

正常

干鸣音

4

高

屮度

片状

水泡音

5

中度

轻微

片状

正常

水泡音

肺

结

核

1

无

轻微

索条状

正常

2

高

剧烈

快

干鸣音

3

低

轻微

索条状

正常

4

无

轻微

点状

快

干鸣音

5

低

中度

片状

快

正常

2、聚类方法概述

主要问题：

（1）如何立义两类之间的距离？

（2）如何进行类归并？

（3）如何表岀谱系图？

（4）聚类分析的应用？

聚类：

按照事物的某些属性，把事物聚集成类，使类间相似性尽量少，类内相似性尽量大。

问题引入:

（1）四个学生要分成两类，如何分？

（2）设想对优势股进行投资，问优势股如何选择？

一般地，按已知属性对样品或对元素进行归并，称为分类，未知属性（没有先验知识）按距离大小对样品或元素进行归并称为聚类。

常用聚类方法

1）、系统聚类法：

先将n个样本各自看成一类，规左样本之间和类与类之间的距离.选择距离最近的一对合并为一个新类，再将距离最近的两类合并，直至所有的样本都归为一类为止。

聚类既可对样品进行聚类，也可以对变量进行聚类。

若对样品的进行聚类，设第i样品表示为Xf・=（X化…“俨），则第A类与第B类的距离可以定义为:

◎A,*"e=（貪《心〉一X：

八尸｝

最常用的距离有：

1最小距离：

用两类中样品之间的距离最短者作为两类的距离。

2最大距离：

用两类中样品之间的距离最长者作为两类的距离。

3重心距离：

用两类的重心之间的距离作为两类的距藹。

4类平均距离：

用两类中所有两两样品之间的平均距离作为两类的距离。

案例应用：

设有5个股票，每个股票有8个指标X1,X2,…X8,表示为股价波动率、股息率、资产负债率、资金周转率、流动负债率.经营杠杆系数、财务杠杆系数.投资报酬率），用XK

将每一个样品作为一类，每个样品有8个变量，因此可以将每个样品视为8维空间中的一个点，5个样品就是8维空间中的5个点，然后用欧氏距离度量样品点的相似性：

两样品点间距离越大，其相似性越小。

下而给出5个样品两两之间的欧氏距离阵D

龙2

龙3

龙4龙5

A

龙2

4

0

D⑹：

龙3

6

9

0

龙4

1

7

10

0

龙5

V

3

5

80

J

采用最小的距离法，将样品1与样品

4合并成新类兀6二

兀1,

龙4

，则得到类兀6龙2

7T?

龙5

之类的距离阵D⑴：

兀6

龙2

兀3

龙5

%

<0

龙2

4

0

D

龙3

6

9

0

龙5

6

3

5

0

丿

合并类龙2与龙5成一新类龙"下而计算类龙“龙“龙亠之间的距离阵

龙7

龙7”6

厂

0

兀3

Ds兀6

4

0

龙3

5

6

0

丿

合并类龙7与兀6成一新类兀8二{龙7，”6},最后计算兀E与龙3的距离为5,并合

并为一大类。

并化出相应的谱系图：

12345

1—

4

;n——

□I

3

五个样品的最小距离的谱系图

5个股票样品的聚类顺序表

合并次序

合并的类

合并后类的元素

合并水平（距离）

1

龙6二{龙”711}

1

2

29龙3

龙：

二{龙“龙订

3

/T6，兀：

7T3—\7Tit7171X971a}

4

713，713

L

0

最小距离法也可以对变量进行系统聚类，仍通过例子来说明

案例2：

对某地超基性岩的一批样品，测试六个与矿化有关的元素：

X’二線,甘钻,沪铜,x；二珞,沪硫,也二碎，并假设它们的相关系数如矩阵

R（0＞所不G

相关系数，相应地得到R（$：

龙8

1

叭

0.3920

1

龙4

J-0.3075

0.1811

1

丿

R⑶中最大的元素为0.3920,因此将兀9与兀8合并为兀10。

六个变量的并类顺序表

并次序

合并的类

合并后类的元素

合并的水平（相关系数）

1

71龙s

X7={x：

Xs}

0.9802

2

才7T7

兀2—（X：

Xs,Xi}

0.7579

3

兀"龙6

龙9—（xg,Xs）

0.6802

4

龙8,兀9

兀io={xc,Xs,Xi,Xo,Xe}

0.3930

0

7Tio>兀1

71ii={x:

Xs,Xx,X5,X€,Xi}

0.1811

10.80.60.40.20

横坐标是并类的相关系数。

2）K均值聚类法

K均值聚类法是一种已知类数的数据聚类和分类方法。

过程如下：

1选取聚类数K：

2从训练样本中任意选择K个向量Cl,C2,…心作为聚类中心，Ci=（Ch,C；=-Csa）：

3将每个样本Xi=（Xh,X12,…,XQ按距离：

P二1,2,3…k,归入距离最小的中心为Ci的类:

4设属于Ci类的样本为X,j二1,2,…q）,计算新的聚类中心

C'i=（（Cu,C■:

2-C■:

a）

其中:

u“=、：

X»/今

.7=1

5若④中的聚类中心不再变化，就终止，否则转③。

思考问题:

（1）如果分两类，谱系图如何？

（2）如果分三类，谱系图如何？

（3）如何确左适合的聚类数？

（4）分析客户购买手机的数据，通过聚类分析客户流失情况。

作业：

在城市医疗能力评价中，评价指标为五个，即X二（XI,X2,X3,X4,X5）,每一

指标取值四个（v,g,a,b）,则Xi取值的各种可能为4&,则可能有4’的评价指标情况，要求通过聚类，从中选出15个有代表性的样本，比较聚类辅助建立神经网络与专家经验辅助建立神经网络的不同。

3、主成分分析

主成分分析是一种多变量分析方法，通过变量变换把相关的变量变为不相关的、比原来少的若干个新变量。

问题引入:

为了找出影响顾客购买手机的主要因素，抽查一部分人按性别和年龄分成10个小组，分别对100种手机类型进行打分评价，最受欢迎的手机给予9分，最不受欢迎的手机给1分。

设10组顾客对100类手机的评分数据为：

Xij表示第j个顾客对第i款手机的偏好评分，记A二（Xij）o设想通过主成分分析确左手机类型的主要影响因素。

主成分分析步骤:

1）

求A的相关系数矩阵R,R二R（匚&）,Ek的定义为:

2）求特征方程det（R-AE）=0的特征根Ai（i=l,2,-n）：

3）通过非零向量B满足（R-AE）B=O,计算相应的特征向§Bi=（Bii,Bi5>-Bia）；

4）从大到小排列>1i,不妨设A1>A2>……>An,由累计贡献率

$95%确左m个特征根A1>>12>……>Am,对应的特征向虽:

为

Z=1/=1

Bi=（Bii,Bi3,…Bin）,i=l,2、・・・m：

5）计算主分量Zm,（心1,2,-m（m

/-I

的线性组合。

Zx的应用：

1）通过Zi与乙的对应取值变化，了解主要影响因素之间的关系和变化趋势；2）

可以通过Z,对X"X：

-Xwo的贡献率匕=丈尸（乙“*,），找岀匕•最大的指标Xi,视

Xi为Zx影响最大的指标。

r（Z,9Xf）的左义：

令Xij与Zij的关系为:

组号\指标

Xb

X2,••…

-Xn

Z1,

Z2……

Z

m

1

XII

X21……

Xn1

Zll

Z21

z

ml

2

X12

X22••…

••Xn2

Z12

Z22

z

m2

10

X110

X210••…

-Xn10

Z110

Z210

z

mlO

i=l,2,m>j=l,2,

案例分析：

1）：

A（Xij）的相关系数矩阵R为:

XI

XI厂T

X2\

X10

X2X3……X1O

0.8710.5160.370.1720.9360.8

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: SPSS 数据挖掘方法概述

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：SPSS数据挖掘方法概述.docx
链接地址：https://www.bdocx.com/doc/5190978.html

SPSS数据挖掘方法概述.docx

热门标签