数据挖掘算法毕业论文数据挖掘关联分析的算法.docx
- 文档编号:7549740
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:36
- 大小:196.99KB
数据挖掘算法毕业论文数据挖掘关联分析的算法.docx
《数据挖掘算法毕业论文数据挖掘关联分析的算法.docx》由会员分享,可在线阅读,更多相关《数据挖掘算法毕业论文数据挖掘关联分析的算法.docx(36页珍藏版)》请在冰豆网上搜索。
数据挖掘算法毕业论文数据挖掘关联分析的算法
数据挖掘算法毕业论文
数据挖掘算法在银行客户细分中的应用
数据挖掘算法在银行客户细分中的应用
专业:
信息管理与信息系统
摘要:
随着改革开放的到来经济的迅速发展和腾飞,信息技术快速兴起的和金融行业的蓬勃发展,企业从客户关系管理中获得大量的客户信息,但是如何利用好这些珍贵的战略资源,并通过这些资源对客户进行分类、保持和发展,已成为决定商业银行在竞争激烈的行业中获得成功的关键。
面对这些亟待解决的问题,利用数据挖掘算法在客户关系管理中对客户进行细分无疑是很好的选择。
通过聚类分析能快速的为银行进行客户分类,并针对每一客户群体实施具体的客户关系管理策略和市场营销策略,用最少的成本,为客户带来最合适的服务,并为企业创造最高的价值。
本文通过对银行客户细分的问题由来进行阐述,并对研究文献进行综述,结合数据挖掘算法进行银行客户细分。
文章阐明客户细分的重要意义和作用,介绍了数据挖掘的算法和客户细分的方法,选取人口特征和行为特征的相关变量分别采用K-mean算法和层次聚类法对银行客户进行数据挖掘,得出个案的聚类结果和变量的聚类结果,并将数据挖掘结果转换成具有实用价值知识,最后将结果转换成客户细分方式和营销策略,为银行决策提供支持。
关键词:
客户细分;数据挖掘;聚类分析
TheUseofDateMiningAlgorithmintheCustomerSegmentationofBank
Major:
InformationManagement&InformationSystem
Abstract:
Withthedevelopmentofourcountry’seconomicandthereformingandopening
-uppolicy,theinformationtechnologyandthefinancialsectordevelopfasterthanbefore,compan-
iescangetalargescaleofcustomerinformationfromcustomerrelationshipmanagement.Whilehowtomakefulluseofthesepreciousresources,dividecustomerintodifferentclusters,keepanddevelopcustomersthroughtheseresources,theproblemhasbeenthekeyfactorofwinningsucc-
essoftheintensecompetitionofcommercialbanks.
Facetothesetobesolvedproblems,dateminingisagoodchoiceformanagerstomakecust-
omersegmentation.Itcandocustomersegmentationforbanksquicklyandgiveideastoeverycl-
usterwithlowercost,higherbenefitandmoreappropriateservice.
Thisarticleelaboratedtheoriginofbankcustomersegmentationproblems,reviewedtheli-
terature,andusedthedateminingalgorithmstomakecustomersegmentation.Itelaboratedtheuseandimportanceofcustomersegmentation,introducedthedateminingalgorithmsandwaysofcustomersegmentation,selectedpopulationcharacteristicsandbehaviorcharacteristics,usingk-meanalgorithmandhierarchicalclusteringmethodsfordateminingtodocustomersegmen-
tation,changedtheresultsofcustomerclusteringandvariableclusteringintousefultacticsaboutcustomersegmentationandmarketing,andgivedecisionsupportforbanksatlast.
Keywords:
CustomerSegmentation;DateMining;ClusterAnalysi
1前言
1.1问题的由来
随着改革开放以来中国经济的迅速发展和腾飞,信息技术快速兴起的和金融行业的蓬勃发展,我国的金融行业特别是银行业面临着巨大的机遇和挑战。
改革开放的到来,在市场经济的刺激下,商业银行之间的竞争变得日益激烈,这使得商业银行在发展的过程中,也需不断的跟进市场的需求和脚步,经营理念也发生了从“以市场为导向”到“以客户为导向”的巨大转变。
客户关系管理便成为商业银行提高盈利的重要途径和手段。
作为客户关系管理的重要功能之一的客户细分便提高商业银行竞争方面凸显其重要的战略意义和作用。
随着信息经济时代的到来,银行从客户关系管理中获得大量的客户信息,但是如何利用好这些珍贵的战略资源,并通过这些资源对客户进行分类、保持和发展,已成为决定商业银行在竞争激烈的行业中获得成功的关键。
同时,随着信息技术的发展和银行业电子化程度的不断提高,面对大量的数据,许多银行还是停留在处理客户投诉的客户管理关系阶段,这无疑是对资源的浪费,更是对企业发展的严重阻碍。
所以,更加科学有效的客户关系管理和客户细分,不仅能为企业带来便捷,针对目标客户有的放矢,减少不必要的损失,更能提高企业的竞争力,为企业带来更大的效益。
利用数据挖掘算法在客户关系管理中对客户进行细分无疑是很好的选择。
通过聚类分析和决策树分析能快速的为银行进行客户分类,并针对每一客户群体实施具体的客户关系管理策略和市场营销策略。
1.2国内外研究现状
目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。
目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。
数据挖掘的技术在我国的研究与应用并不是很广泛深入。
国内商业银行在过去的十几年中,一直坚持以产品为中心的经营理念,并以此来进行部门人员的设置及信息化系统的开发,其结果是导致各个产品系统之间大多相对独立,毫无关系,客户的各项信息分布于多个系统中,各系统自己的数据标准也各不一致,客户信息无法全面展现。
在对客户进行细分时,一般也采取传统的方法,如:
基于经验的分类方法或基于统计的简单划分方法,这些方法一般根据决策者的经验或是根据客户简单的属性特征,对客户进行划分,例如根据客户所购买的金融产品类别(如:
贷款、申请信用卡、理财产品等),或根据客户的居住地域、年龄等对客户划分类别。
虽然这些划分对商业银行的客户管理也是很有意义的,但却无法满足诸如对哪些客户的潜在价值更高、哪些客户的资信程度更高、客户群有哪些特征等复杂分析需求。
随着信息技术的不断发展和金融电子化程度的不断提高,国内商业银行已积累了越来越多的客户数据,面对海量的客户数据,传统的客户细分方法则更显得力不从心(陈宏凯,2006)。
我国商业银行对客户资源没有细分,没有相应的客户定位,对所有客户都一视同仁。
有时为了追求数量而不重质量和效益,往往导致柜台资源主要被80%的低端客户占用,而给其带来巨大经济利益的20%的高端客户没有得到较好的金融服务。
而目前西方商业银行对客户资源有一个很好的细分,业务针对性较强,对一般客户的金融服务主要是通过ATM等自助终端来实现,而将目标客户锁定在中高收入阶层(邹江、张维然,2004)。
数据挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。
一旦获得了这些信息,银行就可以改善自身营销。
国外商业银行在管理和技术上都有着丰富的经验,包括花旗银行、美洲银行、汇丰银行等在内的众多国际大银行都已确立了以客户为中心的经营理念,并充分利用商业智能技术,建立独立统一的客户数据库和客户信息分析系统,以便能更好地了解客户,为客户提供其所需要的产品设计和服务。
他们加强同客户的忠诚关系,把客户当作一项资产来管理和开发。
花旗银行能准确说出谁是他们盈利来源最多的客户,能在10分钟之内讲清楚重要的银行客户使用了多少种银行产品。
在商业智能的帮助下,花旗银行可以按照客户为银行创造盈利的多少和盈利潜在可能性的大小将自己的客户进行分类,进而根据不同客户以往的消费习惯,预测其未来的消费倾向,并结合外部经济、人口统计等相关数据预测未来的市场发展趋势。
通过这种分析,一方面可以使银行把握市场动态,开发出新产品占领市场,另一方面可以使银行针对不同贡献度的客户采取不同的产品和服务,从而获得尽可能大的“深度效益”。
此外,花旗还向已有客户交叉销售新产品,并且取得了巨大的成功。
他们利用商业智能的卓越性能,了解每个客户的行为特征、消费习惯、财务状况及未来的需要,从而为客户做出恰当和切合其需要的财务建议和安排,同时更有针对性和更有效地进行推广工作(陈宏凯,2006)。
1.3主要内容和创新点
利用数据挖掘算法在商业银行客户细分中进行实际应用,并为商业银行在客户细分方面提供决策支持。
为以后企业在决策方面提供了科学的算法和方法,并能运用到实际中去。
本文利用文献研究法,定量分析法,定性分析法等方法对相关理论和方法进行阐述并进行具体实践。
主要研究内容:
第一,客户细分的概念,原理和方法,客户细分在客户关系管理中的重要地位和意义;
第二,数据挖掘的理论和方法,以及数据挖掘对客户细分的重要意义;
第三,银行客户细分的数据挖掘和结果讨论;
第四,数据挖掘算法在银行客户细分方面的展望和发展。
本文创新点:
利用K-mean算法和层次聚类分析方法,分别对客户进行细分和客户属性进行聚类,不仅能得到客户的聚类结果,并且能得到客户属性特征的聚类结果,提出典型客户特征,为客户细分提供了更加有效的方法和结果,为客户细分的客户特征的选取提供了参考。
2数据挖掘与商业银行客户细分
2.1客户细分
2.1.1客户细分的概述
客户细分(CustomerSegmentation),作为客户关系管理的核心概念之一,是指企业在明确的战略、业务模式和特定的市场中,根据客户的属性、行为、需求、偏好以及价值等区因素对于客户进行分类,并提供针对的产品、服务和营销模式的过程。
(陈宏凯,2006)
简单说是指将客户划分成互不相交的不同类别,在同一类别里,客户具有类似的特性。
客户细分是进行客户关系管理的重要前提和关键步骤。
进行客户细分是为了使企业更精确地回答谁是企业的客户,哪些客户有哪些实际需求,哪些客户对企业的利润贡献最大,哪些是企业应该重点保持的客户,企业应该如何针对不同用户提出自己的营销政策,从而实现企业利润最大化等问题。
从理论角度看,客户关系管理包括三大基本功能:
即客户发现、客户分析、客户交往。
通过客户关系管理为营销人员提供客户价值信息,发现哪些客户能为企业带来价值和怎样使这种价值最大化,促使客户经理和客户之间建立紧密的联系,保证客户能够得到专业化的服务,从而提高客户的忠诚度和企业的市场竞争力。
通过对前面客户关系管理的构成的了解,我们可以把客户关系管理分为下面几个方面:
(1)对现有客户的服务与支持。
通过与客户的多种渠道的交互,可以高效、快速、准确地完成对客户的反馈,同时可降低服务的成本;
(2)对潜在客户的挖掘。
通过对现有客户的了解、分析,找出其特点,然后基于数据挖掘的证券业客户关系管理中的客户细分研究后可对一些可能的潜在客户进行接触,扩大客户群体;
(3)对客户的维系。
通过对客户进行细分,为客户提供更多的个性化的服务,弄清客户流失原因,提前进行预防;
(4)进行风险防范。
在一些高风险行业,通过对客户的类别及其消费特点,可以对客户异常进行预警。
客户细分的第一步就是要了解所要研究的对象特征。
以客户为视角的各种细分方法其基本的维度内涵离不开客户的三个基本特征:
人口特征、行为和心理特征,从不同的角度捕捉客户特征。
具体来说,人口特征包含了客户展现出来的外部特征,行为因素则表现为客户的具体购买行为,而心理特征不仅反映客户的行为,还包含兴趣和态度。
基于客户细分研究Wilkie和Cohen最早按照不同的层次将细分变量分为五种:
个人总体特征描述变量(如性别、年龄、职业、收入等)、心理图示、需要的价值、品牌感知和购买行为。
Schiffman按照地理、人口、心理、社会文化、使用情境、利益以及混合细分变量进行归纳。
Haley则认为在传统市场细分中,地理区域、人口统计和销量细分变量占据了统治地位。
从以上学者对传统市场细分变量的总结不难看出,它们实际上可以归属于三类——环境细分、心理细分和行为细分。
客户细分没有统一的模式,总的来说,客户细分的方法主要包括基于客户统计学特征的客户细分、基于客户行为的客户细分、基于客户生命周期的客户细分和基于客户价值相关指标的客户细分。
客户细分的实现技术很多,诸如人工神经网络、因素分析、拟和分析和聚类分析等都在实践中有着广泛的应用。
客户细分方法的选择要以进行细分的目的、企业以及市场的实际情况为基础。
2.1.2银行客户细分在客户关系管理中的意义
客户关系管理起源于西方的市场营销理论,产生和发展于美国。
客户关系管理的概念最早是由专注于IT技术的咨询顾问公司GartnerGroup提出的,目的在于建立一个系统,使企业在客户服务、市场竞争、销售及支持方面形成彼此协调的全新的关系实体,为企业带来长久的竞争优势。
客户关系管理是一种旨在改善企业与客户之间关系的新型运作机制,它实施于企业的市场营销、销售、服务与技术支持等与客户有关的领域。
客户关系管理解决方案着力于以产品和资源为基础、以客户为中心、以赢得市场并取得最大回报为目标,通过信息的有效集成为基础进行的客户快速反应,给予客户一对一、交互式的个性化服务,达到商业过程自动化并改进业务流程。
客户关系管理的目标就在于协助企业不断地获取和积累客户知识,并将这些知识运用在企业的生产、市场营销和客户服务等各个领域,以提升客户满意度和忠诚度,提高企业的核心竞争力,从而降低生产、销售和服务成本,增加企业效益。
对商业银行来说,单纯的满足客户需求,强调为所有客户提供同样优质的服务,很可能是事倍功半,得不偿失。
从竞争的角度看,一个真正有效的客户关系管理策略应该可以对客户进行细分,使银行能够为不同层次的客户提供不同水平的服务,并因此获得最大的投入产出比。
(李桂琴,2005)
我们所熟悉的2/8法则,在客户关系管理中同样适用,“20%的客户为企业带来80%的利润”。
不同客户对银行的贡献程度不同,银行需要区分不同客户的价值,发现哪些客户可以源源不断地为企业创造价值和利益。
因此,需要确定客户的价值区间(例如大客户、重要客户、普通客户、小客户或特殊客户等)对银行来说是非常有用的。
2.2数据挖掘
2.2.1数据挖掘的概述
所谓数据挖掘,是从海量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。
也就是根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步将其模型化的先进有效技术过程。
数据挖掘是一门交叉学科.它集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习、模型识别、人工智能、神经网络等等。
数据挖掘其实是一类深层次的数据分析方法。
由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作面产生。
分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。
但所有企业面临的一个共同问题是:
企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
(S.M.S.,2010)
因此,数据挖掘可以描述为:
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
可以这样概括:
(1)指从数据(大型数据库或数据仓库)中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的高级处理过程;
(2)模式:
即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述;
(3)是一个过程,它利用一种或多种计算机学习技术,从数据库中的数据自动分析并提取知识,目的是确定数据的确趋势和模式。
数据挖掘涉及的学科领域和方法很多,有人工智能、数据统计、可视化、并行计算等,数据挖掘有多种分类方法:
A.根据挖掘任务的种类,可分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等。
a.分类(Classification)
旨在生成一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。
既可以用此模型分析已有的数据,也可以用它来预测未来的数据。
b.聚集(Clustering)
聚集是对记录分组,把相似的记录放在一个聚集里。
聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
c.数据可视化(DescriptionandVisualization)
数据可视化严格地讲不是一个单独的数据挖掘任务,它被用来支持其他挖掘任务。
可视化是采用图形、图表等易于理解的方式表达数据挖掘结果。
d.关联规则(AffinitygroupingorAssociationRules)
关联规则是寻找数据库中值的相关性,主要是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。
e.序列分析(SequenceAnalysis)
序列模式分析同样也是试图找出数据之间的联系。
但它的侧重点在于分析数据之间前后(因果)关系,因此对数据往往要求引入时间属性。
序列模式分析非常适于寻找事物的发生趋势或重复性模式。
f.偏差分析(DeviationAnalysis)
偏差分析是用来发现与正常情况不同的异常和变化,并进一步分析这种变化是否是有意的诈骗行为,还是正常的变化。
如果是异常行为,则提示预防措施:
如果是正常的变化,那么就需要更新数据库记录。
B.根据挖掘方法的种类,可粗略地分为:
机器学习方法、统计方法、神经网络方法、决策树、可视化、最近邻技术等。
a.在机器学习中,可细分为归纳学习方法(决策树、规则归纳等自、基于范例学习、遗传算法、进化策略等;
b.在统计方法中,可细分为:
回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。
2.2.2数据挖掘在客户关系管理中的应用途径
(1)客户的获取。
分类和聚类等挖掘方法可以把大量的客户分成不同的类(群体),适合于用来进行客户细分。
通过群体细分,CRM用户可以更好地理解客户,发现群体客户的行为规律。
在行为分组完成后,还要进行客户理解、客户行为规律发现和客户组之间的交叉分析。
(2)重点客户发现。
就是找出对企业具有重要意义的客户,重点客户发现主要包括:
发现有价值的潜在客户;发现有更多的消费需求的同一客户;发现更多使用的同一种产品或服务;保持客户的忠诚度。
根据80/20(即20%的客户贡献80%的销售额)以及开发新客户的费用是保留老客户费用的5倍等营销原则,重点客户发现在客户关系管理中具有举足轻重的作用。
(3)交叉营销。
商家与其客户之间的商业关系是一种持续的不断发展的关系,通过不断地相互接触和交流,客户得到了更好更贴切的服务质量,商家则因为增加了销售量而获利。
交叉营销指向已购买商品的客户推荐其它产品和服务。
有几种挖掘方法都可以应用于此问题,关联规则分析能够发现顾客倾向于关联购买哪些商品。
聚类分析能够发现对特定产品感兴趣的用户群,神经网络、回归等方法能够预测顾客购买该新产品的可能性。
(4)客户流失分析。
分类等技术能够判断具备哪些特性的客户群体最容易流失,建立客户流失预测模型。
从而帮助企业对有流失风险的顾客提前采取相应营销措施。
利用数据挖掘技术,可以通过挖掘大量的客户信息来构建预测模型,较准确地找出易流失客户群,并制定相应的方案,最大程度地保持住老客户。
(5)性能评估。
以客户所提供的市场反馈为基础,通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动地输入到数据仓库中,从而进行客户行为跟踪。
性能分析与客户行为分析和重点客户发现是相互交迭的过程,这样才能保证企业的客户关系管理能够达到既定的目标,建立良好的客户关系。
分类和聚类等挖掘方法可以把大量的客户分成不同的类(群体),适合于用来进行客户细分。
通过群体细分,企业可以更好地理解客户,发现群体客户的行为规律。
在行为分组完成后,还要进行客户理解、客户行为规律发现和客户组之间的交叉分析;同时对客户进行细分,为客户提供更多的个性化的服务,弄清客户流失原因,提前进行预防,减少企业损失,为企业创造更多的利润。
3数据挖掘方法在银行客户细分中的应用
3.1数据挖掘的一般过程
(1)数据选择:
从现有数据中,选择相关的数据确定哪些数据与本次数据分析相关的。
(2)数据预处理:
对于选择出的数据,进行“清洗”工作,将数据转变为“干净”数据。
(3)数据转换:
将“干净”数据转换成数据挖掘算法所需要的格式。
(4)数据挖掘:
使用合适的数据挖掘算法完成数据分析。
(5)解释与评估:
使用适当的可视化技术和知识表示技术将模式以合适的形式提供给用户,让用户对模型结果作出解释,同时能够评估模型的有效性。
3.2客户分类指标的建立
商业银行个人客户常用的细分方法有:
(1)按数据属性分类
用于商业银行个人客户细分的数据包括客户的基本属性数据、银行业务属性数据、资信属性数据等:
A.客户的基本属性数据。
个人客户基本属性数据用于描述个人客户的身份、职业、家庭成员、经济状况等方面的情况,将其划分为客户身份信息、职业信息、家庭成员信息、家庭基本经济信息等四部分。
个人客户身份信息包括:
地区、姓名、性别、证件类型、证件号码、民族、出生日期、国籍、户口所在地、婚姻状况、文化程度、手机号、家庭电话、电予信箱、家庭地址、邮编、宅电等。
职业信息包括:
职业、工作单位、单位类型、单位性质、行政级别(职务)、单位电话、单位地址、技术职称等。
家庭成员信息包括:
是否有配偶、配偶姓名、配偶证件名称、配偶证件号码、配偶联系电话、配偶工作单位、配偶月均收入、配偶地区号、子女姓名、子女证件名称、子女证件号码、子女联系电话、子女工作单位等。
基本经济信息包括:
健康状况、供养人口、月收入、月供额、住宅状况、住宅入住时间、现住房建筑面积、现住房性质、纳税号、社会保险号、深市股东代码、沪市股东代码、证券保证金帐号、持卡数量、担保数量等。
B.银行业务属性数据。
银行业务属性数据主要是描述个人客户在商业银行进行业务的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 毕业论文 关联 分析