数据挖掘技术的应用研究黄解军.docx
- 文档编号:8757923
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:26
- 大小:27.66KB
数据挖掘技术的应用研究黄解军.docx
《数据挖掘技术的应用研究黄解军.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术的应用研究黄解军.docx(26页珍藏版)》请在冰豆网上搜索。
数据挖掘技术的应用研究黄解军
数据挖掘技术的应用研究
黄解军潘和平万幼川
(武汉大学遥感信息工程学院数字智能研究中心,武汉)
计算机工程与应用
!
""#$!
#$!
保险业中的数据挖掘
随着社会保障体系的日益健全,保险业取得了蓬勃的发
展,发挥着越来越重要的作用。
如何保持现有客户,争取潜在的
客户,以及如何识别诈骗行为,是保险业中面临的主要问题。
数
据挖掘技术是解决这些问题的有效方式,对业务数据、客户数
据等各种数据分析,有利于保险公司开展业绩评价、财务预算、
市场分析、风险评估和风险预测等,大大地提高企业防范和抵
抗经营风险的能力和水平,也为管理人员提供科学的决策依
据。
建立预测模型,对投保人的层次分类,发现索赔的投保人特
征,统计索赔的次数和相关的信息,更有效地了解客户行为。
同
时,分析保险欺诈案件的特征和规律,有效地预防欺诈案件的
发生,减少和控制了公司资金的非法流失。
针对投保人的工作
性质、年龄、健康状况和工资等记录,寻找影响索赔率的内在因素。
#$#
金融业中的数据挖掘
由于金融业中的数据相对比较完整,质量较高,因此,数据
挖掘在这一领域中的应用相对较为成熟,也取得较好的社会效
益和经济效益。
通过分析市场波动的因素,建立预测模型,进行
投资分析和预测,改进预测市场波动的能力,为投资决策提供
科学的依据。
在分析客户的工资收入、教育水平、居住区域和信
用历史等的基础上,找到影响信贷的重要因素,进而调整贷款
发放政策。
如
%&’
公司开发了应用在金融业中的数据挖掘产
品,美国第一银行、
(’’
国家银行、
)*++(,-./
银行和化学银行
等都采用了数据挖掘技术。
通过信用欺诈的建模和预测、风险评估、收益分析,帮助银
行发现具有潜在欺诈性的事件,开展欺诈侦查和其他金融犯罪
行为分析,预防资金非法流失。
网站动态数据挖掘,有助于识别
有价值的客户,开展跨区销售,强化客户关系管理
01234
。
孤立点挖
掘可以发现异常模式,侦查不寻常的信用卡使用,确定极端客
户的消费行为。
在证券交易中,帮助股票预测、证券市场分析
等,可以发现“利润超重”和“账务造假”等现象,避免遭受重大
的经济损失。
#$5医疗保健中的数据挖掘
医学和生物工艺学中的基因分析中,需要处理大量的基因
数据,通过数据挖掘技术有助于对这些数据的研究和理解
064
。
医
学领域中对疑难病症的攻关和研究,结合数据挖掘技术,建立
各种医疗数据模型,找出数据本质上的联系和现象,推动医学
研究的进展。
对医学历史数据的收集和分析后,可以找到疾病
产生的原因,优化药物的搭配,提供最佳的治疗方案。
融入专家
知识和人工智能技术等,集成医学诊断专家系统,进行医疗自
动诊断,药物的疗效分析和新药物的合成。
研究人口的地区分布、年龄构成和身体状况等特征,有利
于开展药品销售、医疗设施配备和医院布局等活动。
如美国
789
公司在医药方面引入了数据挖掘技术
0:
4
,包括医药处方定
位和分割,评价药品销售效果以及建立行为预测模型;牛津移
植中心也采用基于决策树方法的
;=+*>.*9**?
*-
辅助他们
的研究工作。
#$@制造业中的数据挖掘
在制造业中,数据挖掘广泛地应用于控制产品生产流程和
技术规划方面。
分析产品各种指标参数的关系,优化原料的搭
配,开发新的产品类型。
根据市场信息数据库中居民密度分布、
收入状况和相应的城市规划等信息,企业可以展开产品需求量
的调查。
例如汽车制造商挖掘信息库中人口分布、区域购买力
状况及公路交通状况等信息,依据分析结果,决定产品的销售
渠道、总体和局部销售网点的规划等,对商业网进行部署,并及
时调整产品的生产导向和生产结构,这对于企业和公司的经营
状况和发展前景具有重要的影响。
在产品的控制和检测方面,孤立点分析可以用于检验产品
质量,识别偏差检测。
了解相关产品的供需比例、消费者分布等
信息,制定产品生产策略。
美国的部分大型钢铁公司将数据挖
掘技术应用在发现和探测潜在的质量问题,提高了产品的生产
质量和效率。
5
数据挖掘在应用中的几个问题
在数据挖掘技术的应用中,往往对数据挖掘缺少正确的认
识,认为数据挖掘毫无用处,结果不可靠;或者认为数据挖掘是
万能的,从数据中可以发现想要的任何知识和信息。
这两种观
点都是不正确的,应该避免走极端,客观地认识数据挖掘。
数据
挖掘的实施需要花费很长的时间和较高的费用,在一些公司或
行业不一定会产生较好的经济效益,因此,盲目地运用数据挖
掘,也可能给公司带来包袱和负担。
在实际应用中,应该注意数
据质量、算法选取、结果评价和保护客户的个人隐私等问题。
5$:
数据质量的问题
数据挖掘中涉及到大量的数据,不可避免地会出现一些错
误的、冗余的数据,给数据挖掘带来一定的困难。
例如,数据的
缺值现象,则不能客观地反映数据的属性和特征;含噪声的数
据会影响抽取模式的准确性;对于超大数据量,也给知识发现
带来很大的麻烦。
在对数据进行取样时,应该根据用户挖掘的
主题,选择有效的数据集,并对数据进行清理、归并和转换等操
作,保证数据的代表性和客观性。
5$!
技术方法的选取问题
在数据挖掘的应用中,由于各种技术方法具有不同的特点
和功能,应该针对挖掘的主题和目标,选择合适的技术和算法。
例如,运用贝叶斯网络预测发生频率较低的事件,其结果的可
靠性较差;对于大量较复杂的数据对象,使用决策树方法是不
理想的,而结合神经网络和遗传算法则可能获得满意的结果。
因此,选择市场上的数据挖掘工具时,应该了解系统的功能特
点和使用的技术算法。
5$#结果的验证与评价问题
结果的验证和评价是数据挖掘中不可缺少的环节。
这是一
个反复实验的过程,运用其他的样品进行验证,也可以选择新
的样品集进行评价,直到得出用户满意的挖掘结果为止。
数据
挖掘的结果不一定是确切的答案,可能是一些有用的规则、模
式或模型,这与数据分析师和管理决策人员的知识背景与经验
有一定的关系。
数据挖掘是一个动态的、交互的过程
0:
"4
,需要不
断地改进和完善,不断地运用新的技术方法,提高挖掘性能和
效率。
5$5保护客户的个人隐私问题
目前出现了越来越多的商业信息供应商,地理信息、人口
统计和家庭背景等数据很容易购买。
特别是客户在使用信用
卡、医疗卡和保健卡等过程中,客户的工资、职业和年龄等个人
信息可能被企业采集到,这些个人隐私通过很多渠道可以获
取,有可能被不法分子用于不正当的活动中。
因此,如何保护个
人隐私的问题,以及数据安全性问题等,引起了人们的普遍关
注。
在数据挖掘应用中,这是企业应该而且必须考虑到的问题。
51!
""#$!
计算机工程与应用
中发现有用的依赖性或关联性的知识。
基本思路表示为:
%!
&
,其中
%
代表属性集,
&
代表属性个体,规则简单地解释为在
数据库的列表中,
%
属性集具有真值,则个体
&
具有真值的可
能性和趋势
’#(
。
货篮分析是关联分析中最常用的形式,用支持度
(
)*+,-./+)/
)和置信度(
0122*34
)两个属性值来度量,组成“支持
度
5
置信度”框架。
例如在零售业中,分析客户购买计算机后,购
买打印机的概率是多少?
这对于销售配货、产品布局和商务管
理等具有积极的意义。
在制造业中,可以分析事件
6
和事件
&
发生后,事件
7
发生的概率是多少?
这种技术常用于故障检测
和维修。
关联规则可以从大量的事务数据或关系数据中,挖掘
出感兴趣的知识和模式,在零售业、保险和通讯等行业都得到
广泛的应用。
!
$!
决策树
决策树主要是基于数据的属性值进行归纳分类,常用于分
类的层次方法有“
8,549/+
”规则。
决策树方法的最大优点就是可
理解性,比较直观。
它与神经网络最大的区别是,决策树可以解
释如何得出结果的决策过程。
其缺点是处理复杂性的数据时,
分支数非常多,管理起来难度很大。
同时,还存在数据的缺值处
理问题。
其算法有
8:
#
、
7;$<
、
76=>
和
7?
68:
等,目前出现的
两种新算法
@A8B
和
@C=8D>
,可以由非常大的训练集进行决策
树归纳,可以处理分类属性和连续性属性。
!
$#遗传算法
遗传算法是一种基于生物进化过程的组合优化方法,它是
生物学和计算机科学结合的产物
’!
(
,由美国密西根大学
:
$E$
?
*FFG+.
教授和他的同事们在
HIJ<
年首次提出。
根据适者生存
的原则,模拟自然界中的生命进化机制,形成由当前群体中最
适合的规则组成新的群体,以及这些规则的后代。
基于这一思
想的应用,根据遗传算法获得最适合的模型,并进一步对数据
模型进行优化。
由于遗传算法是一种弱方法,对问题的信息要
求较少,具有高效性和灵活性的特点。
在数据挖掘中,也用于评
估其它算法的适合度。
该算法擅长于数据聚类,通过时间上的类比和空间上的类
比,可以使大量繁杂的信息数据系统化、条理化,从而找出数据
之间的内在联系,得出有用的概念和模式。
在建立数据模型时,
将遗传算法与神经网络相结合,可以更好地提高模型的可理解
性。
遗传算法广泛应用于自动控制、机器学习、模式识别、搜索
调度和组合优化等领域。
!
$;贝叶斯网络
贝叶斯网络基于后验概率的贝叶斯定理,是建立在对数据
进行统计处理基础上的方法。
将不确定事件通过网络连接起
来,可以对与其他事件相关的事件的结果进行预测,其网络变
量可以是可见的,也可以隐藏在训练样本中。
贝叶斯网络具有
分类、聚类、预测和因果关系分析的功能,其优点是易于理解,
预测效果较好,缺点是对发生频率很低的事件预测效果不好。
在医学和制造业等领域的应用具有较好的效果。
!
$<粗糙集方法
粗糙集(
3*1K90/4
)理论是波兰
L.M-0N/OCGOFGN
教授在
HIP!
年提出的,它是一种新的数学工具。
这一方法在数据挖掘
中具有重要的作用,常用于处理含糊性和不确定性的问题,发
现不准确数据或噪声数据内在的结构联系,也可以用于特征归
约和相关分析。
粗糙集可以看成是含糊概念的一个数学模式,
其主要优点就是不需要任何关于数据的初始的或附加的信息,
因此广泛应用于不确定、不完整的信息分类和信息获取。
粗糙
集理论和技术的出现,大大地提高了数据挖掘和知识发现的效
率。
!
$Q
神经网络
神经网络是最常用的数据挖掘技术之一,最早由心理学家
和神经生物学家提出的,旨在寻求开发和测试神经的计算模
拟。
它类似于人类大脑重复学习的方法,先给出一系列的样本,
进行学习和训练,从而产生区别各种样品之间的不同特征和模
式
’;(
。
样本集应该尽量体现代表性,为了精确地拟合各种样本数
据,通过上百次,甚至上千次的训练和学习,系统最后得出潜在
的模式。
当它遇到新的样品数据时,系统就会根据训练结果自
动进行预测和分类。
最大的特点是难于理解,即无法解释如何
得出结果和使用了什么规则。
它需要很长的训练时间,需要大
量的参数,而且解释性较差。
该算法的优点是对复杂问题能进
行很好的预测,对噪声数据的承受能力比较高,以及它对未经
训练的数据分类模式的能力。
神经网络可细分为前馈式、反馈式和自组织神经网络,具
有优化计算、聚类和预测等功能,在商业界得到广泛的应用。
金
融市场采用神经网络建立信用卡和货币交易模型,用于识别信
贷客户、股票预测和证券市场分析等方面。
!
$J统计分析
统计分析的理论基础主要是统计学和概率论的原理,是一
种较为精确的数据挖掘技术。
它是一种基于模型的方法,包括
回归分析、因子分析和判别分析等,该方法的优点是容易理解,
对结果描述精确。
统计分析在实际应用中较为广泛,著名的统
计产品供应商
@C@@
公司开发了
@C@@
和
@R@>6>
统计软件包,
同时,
@6@
公司也开发出相应的产品
@6@
和
ESC
,这些产品都
占有一定的应用市场。
#
数据挖掘技术的应用
数据挖掘技术在商业方面应用较早,它可以增强企业的竞
争优势,缩短销售周期,降低生产成本,有助于制定市场计划和
销售策略。
目前,已经成为电子商务中的关键技术
’Q(
。
由于数据
挖掘在开发信息资源方面的优越性,已逐步推广到保险、医疗、
制造业和电信等各个行业的应用。
#$H零售业中的数据挖掘
零售业是数据挖掘应用较为活跃的一个领域。
了解客户的
购买习性和趋向,对于零售商制定销售策略是至关重要的。
通
过关联规则挖掘,分析客户对直接邮件的响应率,发现有利顾
客的特征,有目的性的开展广告和销售业务。
通过对顾客的忠
诚度分析,相应调整商品的价格和类型,改进销售服务,有利于
保留现有客户,寻找潜在的客户。
扩大销售的范围和规模,从而
增加销售量。
通过在线销售的数据,得出产品关联的商用信息
和客户的购买习惯,使进货的选择与搭配更具科学性。
货篮子分析是数据挖掘应用在零售业中的一种有效方式,
可用于销售搭配、产品目录设计、产品定价和促销等。
优化货物
的搭配与布局,使进货与销售达到最佳的结合,减少商业成本。
促进品种优化,分析销售利润,使库存量和管理开支更加合理。
建立客户数据模型,分析顾客的购买时间、地域分布和购物方
式等信息,帮助零售商制定营销策略。
同时,根据顾客在网上的
购物行为和方式,提供个性化服务,优化销售网站的规划和设
计。
;Q计算机工程与应用
!
""#$!
技术方法主要功能和特点主要应用领域
关联分析分类、聚类零售业、保险业和制造业
决策树归纳分类,可理解性制造业、医学和零售业等
遗传算法聚类、优化;高效性金融业、保险业和农业等
贝叶斯网络分类、聚类和预测,易理解医学、制造业和电信等
粗糙集方法不确定性分类零售业、金融业和制造业等
神经网络预测、分类和聚类,解释性差金融业、保险业和制造业等
统计分析聚类,结果精确、易理解金融业、制造业和医学等
%
引言
随着现代信息技术的迅猛发展,在全球内掀起了信息化浪
潮。
信息产生的渠道越来越多,信息更新的频率日益加快,各行
各业均产生了数以亿计的数据库。
人们面对着大量的数据,却
往往无法找到需要的信息,很难发现有用的知识,这就是“信息
爆炸”带来的困惑。
如何有效地利用和处理大量的数据成为当
今世界共同关心的问题。
随着数据库技术、人工智能、数理统计
和并行计算等技术的发展与融合,数据挖掘(
&’(’)*+*+,
,
&)
)
技术应运而生。
数据挖掘是一门新兴的交叉学科,自
!
"
世纪末提出以来,
引起了许多专家学者的广泛关注,数据开采、数据采掘、知识发
现和信息抽取等同义词相继出现。
目前,普遍采用的主要有数
据挖掘(
&)
)和数据库中的知识发现(
-+./012,1&*34.5167*+
&’(’8’31
,简称
-&&
)。
数据挖掘有广义和狭义之分,广义的数
据挖掘,指从大量的数据中发现隐藏的、内在的和有用的知识
或信息的过程。
狭义的数据挖掘是指知识发现中的一个关键步
骤,是一个抽取有用模式或建立模型的重要环节。
数据挖掘是
在对数据集全面而深刻认识的基础上,对数据内在和本质的高
度抽象与概括,也是对数据从理性认识到感性认识的升华。
数据挖掘在金融业、零售业、医疗和电信等领域已经得到
广泛的应用
9%:
,成为一种利用信息资源的有效方法和途径,具有
广阔的开发前景和应用市场。
然而,正确地理解数据挖掘各种
技术方法的特点与不足,以及现有的和潜在的应用范围和应用
领域,对于减少数据挖掘应用的盲目性和充分发挥技术的优
势,具有重要的参考价值和指导意义。
!
数据挖掘的技术方法
数据挖掘的方法通常可以分为两大类
9!
:
,一类是统计型,常
用的技术有概率分析、相关性、聚类分析和判别分析等;另一类
是人工智能中的机器学习型,通过训练和学习大量的样品集得
出需要的模式或参数。
数据挖掘的应用中,最终的目标都是发
现有价值的知识和信息,有共同的思路和步骤,但也存在很大
的差异和区别。
由于各种方法都有自身的功能特点以及应用领
域(见表
%
),数据挖掘技术的选择将影响最后结果的质量和效
果,通常是将多种技术结合使用,形成优势互补。
下面对数据挖
掘中常用的关联分析、决策树和神经网络等几种技术方法进行
深入讨论,包括技术的基本思想、优势与缺点和主要应用领域。
表
%数据挖掘的主要技术方法对比
!
$%关联分析
关联分析是一种实用的数据挖掘技术,指从大量的数据集
数据挖掘技术的应用研究
黄解军潘和平万幼川
(武汉大学遥感信息工程学院数字智能研究中心,武汉
;#""<=
)
>?
@’*0
:
ABB(CD!
%4+$4.@
摘要数据挖掘是一种新兴的信息处理技术,在信息的利用和提取中发挥着日益重要的作用。
论文从数据挖掘的概念
和本质出发,详细阐述了数据挖掘的各种技术方法,深入分析了数据挖掘技术的应用领域,并对数据挖掘应用中的主要
问题进行了探讨。
关键词数据挖掘知识发现技术方法应用领域
文章编号
%""!
?
E##%?
(
!
""#
)
"!
?
"";F?
";
文献标识码
G
中图分类号
HI#=%
!
""#$%&’$()*+,+&-%.()’.+/+%.)(#(01(23&’&4$)$)0
56&)07$+86)9&)5+"$)0:
&);(6%.6&)
(
J4K..0.LM1@.(1J1+3*+,’+2N1.*+L.6@’(*.+,&*,*(’0O+(100*,1+41M131’64K
P1+(16,QRK’+S+*5163*(7,QRK’+;#""<=)
!
<,’-&%’
:
&’(’@*+*+,*3’T6.@*3*+,+1/(14K+.0.,7(.(6’+3’4(*+L.6@’(*.+
,
’+2814.@*+,’+*+461’3*+,6.01*+R(*0*UV
*+,’+21W(6’4(*+,C+./012,1$HK*3T’T16L*63(0721346*813(K14.+41T(*.+’+2(K11331+41.L2’(’@*+*+,
,
’+2(K1+
211T072*34R3313(K14K’6’4(16*3(*43.L*(3@1(K.23$HK1’TT0*4’(*.+2.@’*+3.L2’(’@*+*+,’61/*2107’+’07U12$G(0’3(
,
(K1@.3(07*33R13*+*(3’TT0*4’(*.+’61615*1/12$
=+1>(-?
:
2’(’@*+*+,
,
C+./012,12*34.5167
,
@1(K.23
,
’TT0*4’(*.+2.@’*+3
基金项目:
国家自然科学基金项目资助(编号:
X"% ! ) 作者简介: 黄解军,博士研究生,主要研究方向为数字智能、数据挖掘与数据仓库。 潘和平,特聘教授,博导,主要研究方向智能信息处理、信息融 合、决策分析和专家系统。 万幼川,教授,博导,主要研究方向空间信息处理与融合、地理信息系统。 ;F(上接 %% 页) 要哪些相关的输入信息;求解问题 &’()* 接收那些接受了任务 的 &’()* 的输出结果,然后将得到的结果利用集成方法集成并 将最后的结果送至界面 &’()* ;界面 &’()* 将得到的结果送给 用户。 #$%&’()*之间的通讯 在系统中, &’()* 之间的通讯采用黑板通讯和信息传递两 大类。 &’()* 之间需要建立以下这些通讯。 ( % )管理 &’()* 与其它 &’()* 之间采用同步通讯,将各个 &’()* 的名称和地址表送给其它的 &’()* 。 当有新的 &’()* 加入 或有 &’()* 删除造成地址表改变时,管理 &’()* 将给其它 &’()* 发送新的地址表。 ( ! )界面 &’()* 与其它 &’()* 之间采用同步通讯和异步 通讯两种信息传递方式,用以传递控制信息。 +关键问题 +$%知识库中知识的表示的主要形式 系统中知识库中的知识主要以规则表示方: - (前提 ! % 是真) (前提 ! ! 是真) …… (前提 ! " 是真) ./01 (结论 2 的可信度 & ) 或: - (前提 ! % 是真) (前提 ! ! 是真) …… (前提 ! " 是真) ./01 (向管理 &’()* 发出请求) 前提条件 ! % , ! ! ,…, ! " 之间可以放入四种布尔运算符。 +$! 典型案例的存储形式 345 一个典型案例用多元组 #$ 《 % , & , ’ , ( 》表示。 其中 %67) % , ) ! ,… ) * 8 是有限集合,表示记录该案例的说明性信息;如案例 名、类型、事故发生时间及必要的说明信息等; &67+ % , + ! ,… + * 8 是 非空有限集合,表示事故案例的特征信息; ’63, % , ! … # 5 是一个 有限集合,表示特征信息的原因分析结论; (67- % , - ! ,… - * 8 是 有限集合,表示案例求解的启发信息,如使用方法、手段、模型、 推理路线等。 +$#用到的主要计算模型 +$#$% 模糊相似度优先比法 用相似优先比从典型案例库中找出与待处理的交通事故 的车型一样及天气、照明条件、路段类型、道路线形等条件相近 的一些典型的交通事故。 +$#$! 模糊关系方程 这些典型交通事故案例的数据及处理结果不能直接应用 到待处理的交通事故中,文章用模糊关系方程推测及相似案例 来推测待处理交通事故的数据及处理结果。 +$#$# 其它处理模型 395 汽车无制动碰撞人模型、汽车制动后撞人模型、汽车与汽 车正面碰撞无制动、根据玻璃碎片推算汽车碰撞速度等。 系统 使用了 #% 个计算模型。 : 结论 基于 ;&. 的交通事故处理辅助决策与培训系统,可用于 现有交通事故处理的辅助决策,又可用于培训新的交通事故处 理人员。 (收稿日期: ! ""! 年 4 月) 参考文献 %$涂序彦,杜军平等$面向“智体”的软件工程方法3<5$软件世界,! """;(4) ! $史忠植$智能主体及其应用3;5$北京: 科学出版社,! """ #$张云勇$移动&’()*及其应用3;5$北京: 清华大学出版社,! ""! +$张鹏程,李人厚等$基于&’()*的2=2>多媒体交互环境的模型和实 现 3<5$计算机科学,! ""! ;! ? (#) : $乔兵,朱剑英$多&’()*智能制造系统研究综述3<5$南京航空航天大学 学报, ! ""%;##(%) @$.A)’BAC, HCN)HARRNK*HSH*(LH3<5$T(QCHC
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 应用 研究 黄解军