数据挖掘技术及其应用现状王斌会.docx
- 文档编号:12664661
- 上传时间:2023-04-21
- 格式:DOCX
- 页数:20
- 大小:21.66KB
数据挖掘技术及其应用现状王斌会.docx
《数据挖掘技术及其应用现状王斌会.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术及其应用现状王斌会.docx(20页珍藏版)》请在冰豆网上搜索。
数据挖掘技术及其应用现状王斌会
数据挖掘技术及其应用现状
王斌会
(暨南大学经济学院,广州,510632)
摘要:
本文对数据挖掘技术进行了回顾,介绍了目前在数据挖掘中常用的方法和工具,列举了
它的一些应用,指出了数据挖掘中存在的一些问题。
关键词:
数据挖掘;数据仓库;统计技术;
中图分类号:
234
文献标识码:
&
文章编号:
5""!
6#784(!
""#)"$6"5!
!
6"3
统计与决策
!
""#
年
$
月(下)
分类和预测。
如常用的算法
%&’(
、
%)&*+
、
*+,
、
%-.$
、
%$."
等。
(
$
)神经网络:
模拟人的神经元功能,经过输入层,隐藏
层,输出层等,对数据进行调整,计算,最后得到结果,用于分
类和归纳。
(
#
)遗传算法:
基于自然进化理论,模拟基因联合、突变、
选择等过程的一种优化技术。
(
/
)关联规则挖掘算法:
关联规则是描述数据之间存在
关系的规则,形式为“
&0!
&!
!
...&12340!
4!
!
...41
”。
一般
分为两个步骤:
!
求出大数据项集。
"
用大数据项集产生
关联规则。
除了上述的常用方法外,还有粗集方法,模糊集合方法,
贝叶斯方法
5
最邻近算法等。
由于数据挖掘一开始就是面向应用的,是为决策服务,
而决策者又不一定具备太多的技术知识,目前许多公司和研
究机构开发了一系列的工具用于数据挖掘,见表
0
。
从表
0
可以看出,目前的数据挖掘软件较多,主流的数
据挖掘软件包括
6766
公司的
%89:
91;<19
,
6&6
公司的
=1>
;9?
@?
( =B )和 *4B 公司的 *1;988 等,这些软 件的使用不仅需要计算机技术,而且还需熟悉统计方法等技 术,但它们基本上能满足各项数据挖掘任务。 ! 数据挖掘的实施步骤 前面我们讨论了数据挖掘的定义,方法和工具,现在关 键的问题是如何实施,其一般的步骤如下: 问题理解和提出— 3 数据准备— 3 数据整理— 3 建 立模型— 3 评价和解释 ( 0 )问题理解和提出: 在开始数据挖掘之前最基本的就 是理解数据和实际的业务问题,在这个基础之上提出问题, 对目标有明确的定义。 ( ! )数据准备: 获取原始的数据,并从中抽取一定数量的 子集,建立数据挖掘库,其中一个问题是如果企业原来的数 据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖 掘库。 ( )数据整理: 由于数据可能是不完全的、有噪声的、随 机的,有 复杂的数 据结构, 就要对数 据进行初 步的整 理,清洗 不完全的数据,做初步的描述分析,选择与数据挖掘有关的 变量,或者转换变量。 ( - )建立模型: 根据数据挖掘的目标和数据的特征,选择 合适的模型。 ( $ )评价和解释: 对数据挖掘的结果进行评价,选择最优 的模型,作出评价,运用于实际问题,并且要和专业知识结合 对结果进行解释。 以上的步骤不是一次完成的,可能其中某些步骤或者全 部要反复进行(见图 0 )。 许多研究机构和公司结合自己的数据挖掘软件,提出数 据挖掘过程模型,值得借鉴的是 6&6 研究所提出的方案。 6&6 研究所认为数据挖掘是 对数据进行选择,探索,调整和建 模来揭示数据中未知的模式 D6=BB&E ,开发了图形界面的 6&6F=B 来进行数据挖掘: D0E6G: @89 ———抽样: 从大量 的数据中抽取与探索问题有关的 数据子集,这个样本应该包含足 够的信息,又易于处理。 D! E=H@8I? 9 ———探索: 对数据 子集进行探索,寻找出期望的关 系和未知的模式。 D,EBIJ ———调整: 对数据 进行探索后,有了初步的了解,就 必须对数据进行增减,选择,转 化,量化,保证有效进行 D-EBIJ98 ———建模: 应用分 析软件工具,建立模型,进行预 测。 D$E&MM9AA ———评价: 评价数 据挖掘结果的有效性和可靠性。 表 0常用数据挖掘工具及其比较 图 0数据挖掘技术实施步骤流程图 知识丛林 0! 统计与决策 ! ""# 年 $ 月(下) 摘要: 本文对数据挖掘技术进行了回顾,介绍了目前在数据挖掘中常用的方法和工具,列举了 它的一些应用,指出了数据挖掘中存在的一些问题。 关键词: 数据挖掘;数据仓库;统计技术; %&%’() ; %*%%’+,-.-/01/- 中图分类号: 234 文献标识码: & 文章编号: 5""! 6#784 ( ! ""# ) "$6"5! ! 6"3 数据挖掘技术及其应用现状 王斌会 (暨南大学经济学院,广州 $5"#3! ) ! 数据挖掘的含义、功能和内容 数据挖掘的历史虽然较短,但从 ! " 世纪 9" 年代以来, 它的发展速度很快,加之它是多学科综合的产物,目前还没 有一个完整的定义,提出了多种数据挖掘的定义,例如: %&% 研究所( 5994 ): “在大量相关数据基础之上进行数 据探索和建立相关模型的先进方法”。 : ;<=1 ( 5999 ): “使用模式识别技术、统计和数学技术, 在大量的数据中发现有意义的新关系、模式和趋势的过程”。 >? -0<, ( ! """ ): “数据挖掘就是在大型数据库中寻找 有意义、有价值信息的过程”。 我们认为: 数据挖掘就是从海量的数据中挖掘出可能有 潜在价值的信息的技术,用以支持决策,可以为企业带来利 益,或者为科学研究寻找突破口。 现今资料流通量之巨大已到了令人咂舌地步,就实际限 制而言,便遇到了诸如巨量的记录,高维的资料,这些都增加 了传统分析技术上的困难,搜集到的资料仅有 $@ 至 5"@ 用 来分析,以及资料搜集过程中并不探讨特性等问题,这就让 我们不得不利用 A<0<)1/1/B 技术。 数据挖掘综合了各个学科技术,有很多的功能,当前的 主要功能如下: ( 5 )分类: 按照分析对象的属性、特征,建立不同的组类 来描述事物。 ( ! )聚类: 识别出分析对内在的规则,按照这些规则把对 象分成若干类。 ( 3 )关联规则和序列模式的发现: 关联是某种事物发生 时其他事物会发生的这样一种联系。 ( 7 )预测: 把握分析对象发展规律,对未来的趋势作出预 见。 ( $ )偏差的检测: 对分析对象的少数的、极端的特例的描 述,揭示内在的原因。 内在因素,减小以后经营的风险。 需要注意的是: 数据挖掘的各项功能并不是独立存在 的,在数据挖掘中互相联系,发挥着作用。 从统计角度看,统计数据挖掘的主要内容包括: ! 时间 序列数据库的挖掘; " 截面数据库的挖掘; # 统计信息数据 库的挖掘; $ 统计普查数据库的挖掘; % 抽样调查数据库的 挖掘; &C-D 统计资源数据库的挖掘。 当然,还有各种企业和 公司的经营数据资料的挖掘。 " 数据挖掘的方法及工具 数据挖掘通过对数据的总结、分类、聚类、关联等分析, 实现对数据内在结构特征的理解和对未知数据的预测。 作为 一门处理数据的新兴技术,数据挖掘有许多新特征。 首先,数 据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。 其次,数据可能是不完全的、有噪声的、随机的,有复杂的数 据结构,维数大。 最后,数据挖掘是许多学科的交叉,运用了 统计学,计算机,数学等学科的技术。 以下是常见和应用最广 泛的算法和模型: ( 5 )传统统计方法: ! 抽样技术: 我们面对的是海量的 数据,对所有的数据进行分析是不可能的也是没有必要的, 这就要求在理论的指导下进行合理的抽样。 " 多元统计分 析: 由于数据结构复杂、维数高,必不可少的要用到诸如因子 分析,聚类分析等方法。 # 统计预测方法,如回归分析,时间 序列分析等。 ( ! )可视化技术: 用图表等方式把数据特征直观地表述 出来,如直方图、散点图、三维曲面图等都需要可视化方法。 可视化技术面对的一个难题是高维数据的可视化。 ( 3 )联机分析处理( EF&* ): EF&* 是一种联机的多维数 据分析方法。 联机体现在分析过程需要用户积极参与,并动 态地提出分析要求,选择分析算法,实现对数据由浅至深的 探索性分析;多维体现在它将数据库中的各种属性看作是描 述数据属性的“维”。 ( 7 )决策树: 利用一系列规则划分,建立树状图,可用于 基金项目: 广东省自然科学基金项目 G"7"5"79"H 知识丛林 5! ! ! 数据挖掘应用现状 数据挖掘所要处理的问题,就是在庞大的数据库中找出 有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳 出有用的结构,作为企业进行决策的依据。 因而其应用非常 广泛,只要该企业有分析价值与需求的数据库,皆可利用 %&’&’( 工具进行有目的的发掘分析。 常见的应用案例多发生 在零售业、制造业、财务金融保险、通讯及医疗服务,例如: )*+ 在营销方面的应用: 如客户关系管理( -% )的系统 分析;不同商品在每个分店的销售趋势分析,使购买趋势、时 令特点和定价策略一目了然;零售商也可从顾客购买商品中 发现一定的关系,提供打折购物券等,提高销售额。 )! + 在保险业中的应用: 对保险行业日益增长的各种查 询、统计和市场进行分析,有效利用数据来实现经营目标,预 测保险业的发展趋势。 保险公司可通过数据挖掘建立预测模 型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高 利润。 ).+ 在证券业的应用: 可处理客户分析,账户分析,证券 交易数据分析,非资金交易分析等多个业界关心的主题。 )/+ 在银行领域的应用: 主要使银行了解自身的经营风 险,开发新产品,拓展新市场,实现科学管理及决策。 )$+ 在制造业中,半导体的生产和测试中都产生大量的 数据,就必须对这些数据进行分析,找出存在的问题,提高质 量。 )#+ 电子商务的作用越来越大,可以用数据挖掘对网站 进行分析,识别用户的行为模式,保留客户,提供个性化服 务,优化网站设计。 )0+ 在税务领域的应用: 如查出应税未报者和瞒税漏税 者,并对其进行跟踪,也可对不同行业中纳税人的行为特征 进行描述,找出普遍规律,为税务征稽提供策略。 下面是一些公司运用数据挖掘的成功案例,显示了数据 挖掘的强大生命力: 美国 1234567896: ;4< 是世界上最大的汽车销售站点,每 天都会有大量的用户对网站上的信息点击,寻求信息,其运 用了 =1= 软件进行数据挖掘,每天对数据进行分析,找出用 户的访问模式,对产品的喜欢程度进行判断,并设特定服务 器,取得了成功。 -923969> 是世界著名的金融信息服务公司,其利用的数 据大都是外部的数据,这样数据的质量就是公司生存的关键 所在,必须从数据中检测出错误的成分。 -923969> 用 =? == 的 数据挖掘工具 =? ==@,A9<9’3&’9 ,建立数据挖掘模型,极大地 提高了错误的检测,保证了信息的正确和权威性。 B7>>CDE463 是世界最大的啤酒进出口商之一,在海外 F" 多个市场从事交易,每个星期传送 ! .""" 份定单,这就需 要了解每个客户的习惯,如品牌的喜好等, B7>>CDE463 用 GB% 的 G’99AA&(9’3%&’96 很好的解决了上述问题。 据 GH, 预测分析,从 *II0J! ""! 年,整个数据挖掘市场 将以平均每年 ! ": $K 的速度增长,到 ! ""! 年将超过 ! I" 亿 美元,相信随着现代商业模式的进一步变革,数据挖掘应用 将成为企业获得竞争优势的有力武器。 " 数据挖掘中存在的问题 尽管数据挖掘有如此多的优点,但数据挖掘也面临着许 多的问题,这也为数据挖掘的未来的发展提供了更大的空 间。 ( * )数据挖掘的基本问题就在于数据的数量和维数,数 据结构也因此显得非常复杂,如何进行探索,选择分析变量, 也就成为首先要解决的问题。 ( ! )面对如此大的数据,现有的统计方法等都遇到了问 题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽 取多大的样本,又怎样评价抽样的效果,这些都是值得研究 的难题。 ( . )既然数据是海量的,那么数据中就会隐含一定的变 化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评 价。 ( / )各种不同的模型如何应用,其效果如何评价。 不同的 人对同样的数据进行挖掘,可能产生不同的结果,甚至差异 很大,这就涉及到可靠性的问题。 ( $ )当前互联网的发展迅速,如何进行互联网的数据挖 掘,还有文本、声音、图象等非标准数据的挖掘,都引起了极 大的兴趣。 ( # )由于数据是如此的大,其中隐含的信息是非常丰富 的,挖掘出来的信息是否完全,是否还有对决策更加有利的 信息,这都不得而知了。 ( 0 )数据挖掘涉及到数据也就碰到了数据的私有性和保 密性。 ( F )数据挖掘的结果是不确定的,要和专业知识相结合 才能对其做出判断。 总之,数据挖掘只是一个工具和方法,不是万能的,它可 以发现一些潜在的用户,但是不会告诉你为什么,也不能保 证这些潜在的用户成为现实。 数据挖掘的成功要求对期望解 决问题的领域有深刻的了解,理解数据,了解其过程,才能对 数据挖掘的结果找出合理的解释。 例如曾经用数据挖掘找出 的啤酒与尿布的例子,如何去解释这种现象,是应该将两者 放在一起还是分开销售,这还需要对消费心理学有所研究才 能做出决定,而不是数据挖掘能力所及的了。 参考文献: L*M李雪胜编译: 利用=1=系统进行数据挖掘LNM: 数理统计与管理O *II0O)! +: L! M郑之开O张广凡O邵惠鹤: 数据采掘和知识发现: 回顾和展望LNM: 信息 与控制 O*IIIO)$+: L.M-4P963Q643R: H737%&’&’(: B2&A8&’(,4 ? 69’3&;9T7AA? 5-*III: (责任编辑 @ 李友平) 知识丛林
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 及其 应用 现状 王斌会