数据挖掘在银行业中的应用正文终极版.docx
- 文档编号:6381274
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:10
- 大小:25.59KB
数据挖掘在银行业中的应用正文终极版.docx
《数据挖掘在银行业中的应用正文终极版.docx》由会员分享,可在线阅读,更多相关《数据挖掘在银行业中的应用正文终极版.docx(10页珍藏版)》请在冰豆网上搜索。
数据挖掘在银行业中的应用正文终极版
数据挖掘在银行业中的应用
摘要
银行为人们提供了越来越多的人性化服务,因而银行的数据也在迅速膨胀,这些数据背后隐藏了大量有价值的信息,银行要在金融领域里的竞争中处于不败之地必须利用这些信息。
数据挖掘正是从海量数据中提取有用信息的一种有效工具,数据挖掘在银行业中扮演着无可替代的作用。
关键词:
数据挖掘银行业
Abstract
Thebankprovidespeoplewiththehumanizedservicemoreandmore,sothebankdataalsoinrapidexpansion,thesedataarehiddenbehindalotofvaluableinformation,banksinthefinancialfieldcompetitioninaninvinciblepositionmustusetheseinformation.Dataminingisaneffectivetooltoextractusefulinformationfromthehugedata,dataminingplaysanirreplaceableroleinthebankingindustry.
Keywords:
datamining,banking
1.引言
1.1.性说明本文所涉及到的研究领域
银行信息化的迅速发展,产生了大量的业务数据。
从海量数据中提取出有价值的信息,为银行的商业决策服务,是数据挖掘的重要应用领域。
汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。
如今,数据挖掘已在银行业有了广泛深入的应用。
本文主要研究的领域是数据仓库,数据挖掘,联机分析处理技术,以及贝式网络。
1.数据仓库:
数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。
数
据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。
它是单个数据存储,出于分析性报告和决策支持的目的而创建。
为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
[1]2.数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。
数据仓
库研究和解决从数据库中获取信息的问题。
数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据仓库,由数据仓库之父比尔·恩门于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
3.OLAP联机分析处理:
简写为OLAP,随着数据库技术的发展和应用,数据库存
储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
4.数据挖掘:
数据挖掘(Datamining),又译为资料探勘、数据采矿。
它是数
据库知识发现(英语:
Knowledge-DiscoveryinDatabases,简称:
KDD)中的一个步骤。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
5.贝叶斯网络:
贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,
而贝叶斯公式则是这个概率网络的基础。
贝叶斯网络是基于概率推理的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络(Bayesiannetwork)是为了解决不定性和不完整性问题而提出的,它对于解决复杂设备不确定性和关联性引起的故障有很大的优势,在多个领域中获得广泛应用。
1.2.设计工作的背景:
大数据时代,对于商业银行而言,在不断完善计算机应用系统底层数据库群、操作数据存储、主数据存储、企业级数据仓库、数据集市等建设的基础上,网络爬虫、Hadoop、MapReduce、NoSQL、Lucene等技术拓宽了银行的数据掌控能力。
当前,银行无论面对内部数据还是外部数据、结构性数据亦或非结构性数据,数据的产生、捕获、整合、存储、访问等技术均已日渐成熟。
与此同时,数据的价值也随着数据生命周期的不断延伸而大幅提升。
为实现数据价值的最大化,银行还需要对所积累的各类数据展开全面分析,深入挖掘和钻取数据,从中提炼出埋藏于数据深处的规律和趋势,全面运用于银行战略决策与业务发展。
目前,商业银行已将数据挖掘定位于发展大数据战略的核心驱动力,是大数据信息化建设的重中之重。
随着大数据时代的到来,数据的价值得到进一步提升,银行决策管理人员将不再满足于采用数据对经验决策进行验证的简单模式,基于数据的决策行为将从“被动”转向“主动”,主要体现于两方面:
一是数据在业务分析上的作用从“数据验证”向“数据启发”提升;二是数据在业务应用上的作用从“事后快速响应”向“事前精准预测”提升。
银行对自身数据分析能力提出了更高要求。
为实现业务上的“精耕细作”,银行首先应对客户市场进行科学细分,推进建立以客户价值评估为基础的客户分类体系,并辅以客户行业归属、区域归属、产品偏好、渠道偏好、风险偏好、价格偏好等分析内容,面向不同主题,充分实现客户层面的“人以群分”。
银行要深入分析客户信息,重点关注客户价值的形成原因和驱动因素,准确识别未来存在价值提升可能性的客户,并同时对存在流失风险的客户进行预警。
通过客户产品关联销售、产品响应预测、渠道响应预测等分析应用,为银行开展客户名单制营销、实行差异化服务提供依据。
面向客户违约风险,银行同样要从客户信息入手,构建客户信用评分模型,尽早对存在违约风险的客户进行预警,为银行资产保全提供“第一手”信息。
通过科学的客户分类支持银行形成差异化的定价模型和成本管理策略,充分考量客户满意度、提升客户忠诚度,与客户携手实现共赢。
在银行精细化管理架构下,业务发展的“规划先行”是要考虑如何把握合适的时机、选择合适的客户、推介合适的产品、采用合适的渠道、委派合适的人员,
为客户提供最优质、贴心的金融(与非金融)服务;要考虑如何在有效把控风险的同时,以最低的成本、以银行与客户均感到满意的价格实现双方价值的最大化;要实现银行资源的差异化配置以及客户的个性化服务。
本文将对数据挖掘在银行业应用中的一个题进行解决。
预测贷款逾期者(风险管理):
某银行希望根据客户过去的贷款数据,利用数据挖掘来预测新的贷款者,核贷后会逾期的机率,以作为是否核贷的依据,或提供给客户其他类型的贷款产品。
PredictingLoanDefaulters:
Supposeabankisconcernedaboutthepotentialforloansnottoberepaid.Ifpreviousloandefaultdatacanbeusedtopredictwhichpotentialcustomersareliabletohaveproblemsrepayingloans,these“badrisk”customerscaneitherbedeclinedaloanorofferedalternativeproducts.
1.3设计工作的目的和意义
本文主要阐述了数据挖掘在银行业的一个应用即某银行希望根据客户过去的贷款数据,利用数据挖掘来预测新的贷款者,核贷后会逾期的机率。
研究此信息的目的是,以此作为是否核贷的依据,或提供给客户其他类型的贷款产品。
这样是银行信息化发展的一个具体的反映,银行的信息化建设一直处于业内领先水平,不仅具有国际领先的金融信息技术平台,建成了由自助银行、电话银行、手机银行和网上银行构成的电子银行立体服务体系,而且以信息化的大手笔——数据集中工程在业内独领风骚。
另外,商业银行面临的风险问题,可分成三个最基本的方面。
他们有信贷方面的风险,比如说潜在的坏账;他们还要面临流动性的风险,这会涉及到资产和债务的不匹配;另外他们还要应对操作的风险,如虚假个人消费贷款、关联企业骗贷、票据诈骗等等。
此系统工作的目的正是加强了银行的风险管理能力,使信贷方面的风险大大降低。
银行信贷风险是指由于各种不确定性因素的影响,在银行的经营与管理过程中,实际收益结果与预期收益目标发生背离,有遭受资产损失的可能性。
信贷风险是指借款企业因各种原因不能按时归还信贷本息而使银行资金遭受损失的可能性。
银行信贷业务中占比重大的是信贷业务,信贷具有风险较高、收益突出的特点,对整个银行的经营举足轻重。
2.问题定义与分析
2.1报告所研究的具体问题的定义
本文所研究的主要问题是,银行用户数据仓库的建立,并利用联机分析处理技术对其数据进行分析处理操作,利用数据挖掘技术基于以往用户的信贷数据来预测新的贷款者,核贷后会逾期的机率。
以此作为是否核贷的依据,或提供给客户其他类型的贷款产品。
2.2问题的内涵与边界
本文所研究问题的边界主要包括:
银行用户信贷数据数据仓库的建立,基于联机分析处理技术,数据挖掘技术,以及贝叶斯网络。
2.3问题的特征与属性
商业银行信贷管理,从广义上理解包括:
制定和实施信贷政策,建立和健全内部授权授信制度,制定、贯彻和执行信贷操作程序,以及建立信贷风险监测和控制机制等诸多相互协调、制约的制度系统及其对制度执行效果的监督系统。
狭义上的商业银行信贷管理仅指贷款发放前的调查工作、贷款存续期间的管理工作以及贷款出现风险后的监督、控制和处理工作。
本文采纳狭义的商业银行信贷管理概念,在分析当前商业银行信贷管理中存在的问题的基础上,试图提出解决这一问题的基本思路和实际操作对策。
通过数据库的建立、管理和维护可以提高银行应对风险的能力。
建立一个好的数据库对业务发展的良好推动作用和在操作风险防范中能起到的指导作用。
个人信息的数据库,它还应当包括提前还款、违约风险、操作风险等多方面的数据信息。
没有这些全面的数据信息,就无法通过数学模型对个人,住房信贷面临的风险进行全面的分析和了解,也无法制订出最终行之有效的政策。
前危害很大的假按揭一个好的操作风险防范手段,是建立防范假按揭发生的数据库,收集大量的案例进行统计分析,提取出高度相关的因素,方便在具体操作中对假按揭进行防范。
2.4解决问题的重点和难点
本文主要针对已收集到的海量信贷数据建立数据仓库进行存储管理维护,并利用数据挖掘,把海量的数据经过处理变为清晰、的有用信息。
利用贝叶斯算法对已经得到的信息进行推理计算概率,消除不确定性,使决策更加科学。
重点有三:
1.数据挖掘。
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
通常所说的数据挖掘会通过这些任务中的一个或者多个来对数据进行处理。
2.对数据进行进一步的分析即联机分析处理。
联机分析处理有三种不同的实现方法:
·关系型联机分析处理(ROLAP,RelationalOLAP)
·多维联机分析处理(MOLAP,Multi-DimensionalOLAP)
·前端展示联机分析处理(DesktopOLAP)
其中,前端展示联机分析需要将所有数据下载到客户机上,然后在客户机上进行数据结构/报表格式重组,使用户能在本机实现动态分析。
该方式比较灵活,然而它能够支持的数据量非常有限,严重地影响了使用的范围和效率。
因此,随着时间的推移,这种方式已退居次要地位,在此不作讨论。
3.贝叶斯算法,根据已经得到的数据特征选择最优的贝叶斯算法。
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。
在许多场合,朴素贝叶斯(Na?
veBayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。
主要有两种贝叶斯算法朴素贝叶斯算法和TAN算法(树增强型朴素贝叶斯算法)
难点主要是联机分析处理和贝叶斯网络技术部分。
2.5解决问题的技术领域与技术路线
需要解决的问题技术领域技术路线
建立数据仓库数据仓库现有银行业务系统和大量业务数据的积累为基础,经过
数据预处理建立数据仓库
对数据进行挖掘数据挖掘利用关联规则,聚类,分类等数据挖掘技术进行数据挖
掘
对数据进一步分析联机分析处
理
对数据进行深度分析即通过度量,切片或切块,钻取等
手段对数据进行多维度考量。
评定用户信用并作出决策贝叶斯网络对于已经经过处理的数据分析并得到信息,利用贝叶斯算法,消除不确定性,增强决策的科学性。
3.参考文献综述
参考文献[1]数据仓库的概念及技术解决方案.数据智能网[引用日期2013-05-14].
抽取,清理装载,刷新
4.设计方案总体描述4.1方案综述
外部数据
业务数据源系统文档资料
贝叶斯
算法
数据仓库管理系统
元数据管理
数据仓库监测与维护
数据集市
数据分析
数据报表
数据挖掘
联机分析处理
作出决策
4.2解决问题的方法与方案比较的选择
4.2.1数据仓库的建立
1)收集和分析业务需求
2)建立数据模型和数据仓库的物理设计
3)定义数据源
4)选择数据仓库技术和平台
5)从操作型数据库中抽取、净化、和转换数据到数据仓库
6)选择访问和报表工具
7)选择数据库连接软件
8)选择数据分析和数据展示软件
9)更新数据仓库
数据转换工具要求:
1)数据转换工具要能从各种不同的数据源中读取数据。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同类型数据源为输入整合数据。
4)具有规范的数据访问接口
5)最好具有从数据字典中读取数据的能力
6)工具生成的代码必须是在开发环境中可维护的
7)能只抽取满足指定条件的数据,和源数据的指定部分
8)能在抽取中进行数据类型转换和字符集转换
9)能在抽取的过程中计算生成衍生字段
10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件
11)必须对软件供应商的生命力和产品支持能力进行仔细评估
4.2.2数据挖掘的方法与方案
数据挖掘技术主要有三种,即关联分析,分类分析,聚类分析。
每种技术又有不同的算法具体如下:
关联分析算法
(1)Apriori算法
Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是最著名的关联规则挖掘算法之一。
Apriori算法就是根据有关频繁项集特性的先验知识而命名的。
它使用一种称作逐层搜索的迭代方法,k—项集用于探索(k+1)—项集。
首先,找出频繁1—项集的集合.记做L1,L1用于找出频繁2—项集的集合L2,再用于找出L3,如此下去,直到不能找到频繁k—项集。
找每个Lk需要扫描一次数据库。
为提高按层次搜索并产生相应频繁项集的处理效率,Apriori算法利用了一个重要性质,并应用Apriori性质来帮助有效缩小频繁项集的搜索空间。
(2)FP-growth算法
由于Apriori方法的固有缺陷.即使进行了优化,其效率也仍然不能令人满意。
2000年,HanJiawei等人提出了基于频繁模式树(FrequentPatternTree,简称为
FP-tree)的发现频繁模式的算法FP-growth。
在FP-growth算法中,通过两次扫描事务数据库,把每个事务所包含的频繁项目按其支持度降序压缩存储到FP—tree中。
在以后发现频繁模式的过程中,不需要再扫描事务数据库,而仅在FP-Tree中进行查找即可,并通过递归调用FP-growth的方法来直接产生频繁模式,因此在整个发现过程中也不需产生候选模式。
该算法克服了Apriori算法中存在的问颢.在执行效率上也明显好于Apriori算法。
分类分析的算法
(1)决策树(DecisionTree)
是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。
这一度量是基于信息学理论中熵的概念。
决策树是数据挖掘分类算法的一个重要方法。
在各种分类算法中,决策树是最直观的一种。
(2)邻近算法
或者说K最近邻(kNN,k-NearestNeighbor)分类算法可以说是整个数据挖掘分类技术中最简单的方法了。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用她最接近的k个邻居来代表。
KNN算法的核心思想是如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
KNN方法在类别决策时,只与极少量的相邻样本有关。
由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。
(3)支持向量机SVM(SupportVectorMachine)
SVM的主要思想可以概括为两点:
⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
(4)神经网络
神经网络是通过对人脑的基本单元——神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。
神经网络的一个重要特性是它能够从环境中学习,并把学习的结果分布存储于网络的突触连接中。
神经网络的学习是一个过程,在其所处环境的激励下,相继给网络输入一些样本模式,并按照一定的规则(学习算法)调整网络各层的权值矩阵,待网络各层权值都收敛到一定值,学习过程结束。
然后我们就可以用生成的神经网络来对真实数据做分类。
聚类分析算法
(1)划分法(partitioningmethods),给定一个有N个元组或者纪录的数据集,分
裂法将构造K个分组,每一个分组就代表一个聚类,K 而且这K个分组满足下列条件: 每一个分组至少包含一个数据纪录;每一个数据纪录属于且仅属于一个分组对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是: 同一分组中的记录越近越好,而不同分组中的纪录越远越好。 使用这个基本思想的算法有: K-MEANS算法、K-MEDOIDS算法、CLARANS算法。 (2)层次法(hierarchicalmethods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。 具体又可分为“自底向上”和“自顶向下”两种方案。 代表算法有: BIRCH算法、CURE算法、CHAMELEON算法等; (3)基于网格的方法(grid-basedmethods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。 这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。 代表算法有: STING算法、CLIQUE算法、WAVE-CLUSTER算法; (4)基于模型的方法(model-basedmethods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。 这样一个模型可能是数据点在空间中的密度分布函数或者其它。 它的一个潜在的假定就是: 目标数据集是由一系列的概率分布所决定的。 通常有两种尝试方向: 统计的方案和神经网络的方案。 4.2.3联机分析处理 OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。 (1)ROLAP ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。 不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。 对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。 同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。 (2)MOLAP MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。 维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。 由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(PhysicalOLAP);而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)。 (3)HOLAP 由于MOLAP和ROLAP有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,这给分析人员设计OLAP结构提出了难题。 为此一个新的OLAP结构——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP两种结构的 优点结合起来。 迄今为止,对HOLAP还没有一个正式的定义。 但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。 [1]数据仓库的概念及技术解决方案.数据智能网[引用日期2013-05-14].
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 银行业 中的 应用 正文 终极