银行客户流失.docx
- 文档编号:5790606
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:13
- 大小:25.89KB
银行客户流失.docx
《银行客户流失.docx》由会员分享,可在线阅读,更多相关《银行客户流失.docx(13页珍藏版)》请在冰豆网上搜索。
银行客户流失
是典型的学习模型,有几个常用方法可以选决策树、逻辑回归(或者尝试神经网络,不利于应用和解释,也可以试试看)。
决策树的特点:
适用布尔、分类和连续的变量(对连续变量也会内部转化为分类变量)、结果容易解释、筛选变量快;但决策树不稳定,容易训练过度(在训练时看起来很准确,但应用时预测准确率大打折扣)
逻辑回归的特点:
逻辑回归的底层思想和多元回归接近,延续了回归算法不温不火的稳定风格,相比回归算法,logistic回归不要求变量有正态分布和等协方差前提,也可以尝试着用哑变量来融入分类变量,使用更方便,但逻辑回归准确率相对较低(所谓成也萧何,败也萧何)。
和决策树相比,回归算法稳定性好的多
我习惯于:
1、使用决策树进行变量范围筛选
2、使用逻辑回归进行预测
3、个别时候尝试着用因子分析进行变量转载(我试过的模型,有时候有一点点小的提升,和变量共线性特点有关,但不会有超乎意料的收获)
构建流失行为的特征
内部自有数据
丰富的内部交易明细数据,包括本币活期储蓄波动率,本币活期储蓄月日均余额,电话银行总交易笔数...
可以构建的特征:
①不同交易的数额的比例
②单笔交易的平均数额
③某种交易的笔数占全部交易笔数的比例
例如:
最大波动=max{本币一年以下波动,本币一年以上波动率,储蓄类资产波动率,本币储蓄波动率}
若信息存在冗余,需要按情况进行剔除
情况一:
“本币活期月日均余额占比”=1–“本币定期月日均余额占比”
变量“本币活期月日均余额占比”与“本币定期月日均余额占比”存在冗余性,知道其一必知道其二,需要剔除一个。
情况二
“资产当前总余额”=“本币储蓄当前总余额”+“外币储蓄当前总余额”
如果是(广义)线性回归模型,三者不能同时放进模型。
对于树模型,可以将其中任意两个放进模型,剩余的做转换,比如做一个离散变换。
外部数据包含了客户在电信运营商的详情
包括:
通话时间与次数
话费详情
特定的呼叫行为
其他信息
可以衍生的特征
月平均通话时间的变化=过去三个月月平均通话时间−过去六个月月平均通话时间
月平均通话次数的变化=过去三个月月平均通话次数−过去六个月月平均通话次数
月平均缴纳话费的变化=过去三个月月平均缴纳话费−过去六个月月平均缴纳话费
评分模型
按照模型所预测的未来表现结果划分,有:
1、风险评分模型:
对违约拖欠的风险概率进行预测;
2、收益评分模型:
对消费者给信贷机构带来收益的潜力大小进行预测;
3、流失倾向评分模型:
对现有客户在未来一定时期内流失的概率进行预测;
4、市场反应评分模型:
对目标客户接受信贷机构营销的概率进行预测;
5、转账倾向评分模型:
对目标客户把贷款余额从别的银行转账过来的概率进行预测;
6、循环信贷倾向评分模型:
对目标客户或现有客户利用信用卡账户进行循环信贷的概率进行预测;
7、欺诈评分模型:
对信用卡申请或信用卡交易为欺诈行为的概率进行预测。
第四章数据挖掘与信用评分模型的技术
消费信贷管理实践中常用的数据挖掘和评分模型技术和方法包括:
对数据进行描述和总结的技术;
对变量进行栏位划分和信息转换的技术;
主成分分析;
因子分析;
变量类聚分析;
类聚分析;
逻辑回归模型;
神经网络模型;
判别分析;
决策树模型;
共性过滤分析;
多元回归模型;
基因算法;
RFM分析;
存活分析;
时间系列分析:
趋势分析、季节性分析、ARIMA模型。
一、对数据进行描述和总结的技术
常用的技术方法有:
频率、均值、中位数、方差、极大值、极小值、1/100区间、1/10区间、1/4区间、多维交叉表、相关系数。
这些基本统计手段常用于:
对数据的集中度和离散度等分布特征进行简单的描述;对数据的质量进行稽核;对数据间的关系进行初步的探索;产生直观的报表。
优点:
直观了解数据的特征;简单明了容易使用;对数据质量检查有很强大的功能。
缺点:
对数据分析和探索停留在初步阶段;反映的信息是一维的,不能对信息进行系统化地综合。
二、对变量进行栏位划分和信息转化的技术
适用于连续性变量、类别性变量。
转化后可以计算log(odds)。
优点:
有效捕捉数据中蕴藏的非线性关系;有效捕捉数据中蕴含的非单调性关系;有效将变量标准化,使原始数值规模不相同的变量取得一致的统计数值;有效将类别性变量包括到模型中;有效处理缺失值和特殊值;有效提高模型的“抗震荡性”;有效提高模型的可解释性。
缺点:
劳动密集性的过程,劳动量大;资源密集性的过程,耗费多的计算机资源和人力资源;有一定主观判断的成分(划分成多少个栏位、如何划分、每个栏位的样本量、划分后的表现是否合理等);会损失部分有用的信息;对模型的实施有额外的要求。
三、主成分分析、因子分析、变量类聚分析
这3种统计方法主要是用来减少变量数目的统计技术。
优点:
迅速从大量的候选变量中选择有限数目的变量代表;在极大程度上保留有用的信息;降低了模型最终候选变量的相关性,提高模型的“抗震荡性”和稳定性。
缺点:
不能处理缺失值和类别性变量,必须通过信息转换手段把缺失值或类别性变量值转换成数量值后才能使用这3种统计方法;对“信息维度”的解释存在一定的主观性。
四、类聚分析
常用的类聚分析方法有等级性类聚(呈树型)和非等级性类聚(类聚内的数据观察点之间的总距离最小化)。
优点:
对数据的统计分布不需要作任何假设;不需要任何表现变量的信息;容易使用。
缺点:
多数类聚分析技术对极端值比较敏感;多数受“初始种子”的影响较大;不能处理缺失值或类别性变量,需转换成数量值后才能适用;对类聚结果和“相似性”的解释存在一定的主观性。
五、逻辑回归模型
适用于二元性目标变量。
优点:
预测结果是介于0和1之间的概率;可以适用于连续性或类别性自变量;容易使用,容易解释。
缺点:
对模型中自变量的多维相关性较为敏感,需要利用因子分析或变量类聚分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;预测结果的概率转换呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率的变化很小,而在中间概率的变化很大。
六、神经网络模型
神经网络模型是一种把各种投入要素通过复杂的网络转换成产出的信息加工结构。
在智能型交易欺诈预测模型中有应用。
优点:
有效捕捉数据中非线性、非可加性的数量关系;适用于二元性、多元性和连续性的目标变量;能处理连续性和类别性的预测变量。
缺点:
一个黑箱方案,难以理解,难以得到直观的解释;如果不经过仔细控制,容易微调于样本数据,从而不具备充分的“抗震荡性”和稳定性。
七、判别分析
是一种用来区分、判断个体所属类别的统计技术。
判别分析在市场营销分析、信用风险评分模型等领域都可以应用。
优点:
适用于二元性或多元性目标变量,能够判断、区分个体应该属于多个不同小组中的哪一组,而逻辑回归只能预测二元性的目标变量。
缺点:
假设自变量的分布为正态分布,而实践中的数据往往不是完全的正态分布。
尽管判别分析时对轻微的偏离正态分布具有一定的抗震荡性,但严重的偏离可能导致统计结果的不可靠性;如果使用stepwise功能,则有过分微调的可能;多维相关性可能导致模型的不稳定性和不可靠性。
八、决策树模型
是对总体进行连续的分割,以预测一定目标变量的结果的统计技术。
优点:
浅层的决策树视觉上非常直观,而且容易解释;对数据的结构和分布不需作任何假设;可以容易地转化成商业规则;可以捕捉住变量间的相互作用。
缺点:
深层的决策树视觉上和解释上都比较困难;决策树容易过分微调于样本数据而失去稳定性和抗震荡性;决策树对样本量的需求比较大;处理缺失值的功能非常有限。
九、共性过滤分析
一种用来预测个体偏好的技术。
被广泛应用于电子商务和网络营销中,推荐。
优点:
非常直观,容易理解,容易实施;对数据的分布和结构不需要任何假设。
缺点:
需要较大的样本数量;在样本代表性不足时,或对于“相邻群体”不存在的个体,做出的推荐可能是错误的。
十、多元回归模型
是一种被广泛应用的统计技术,常被用来预测连续性的目标变量Y,比如收益、循环贷款余额、销售额等。
自变量X可以是连续性变量,比如收入,也可以是类别性变量,比如拥有房产与否。
由于回归模型中所用的自变量可以有多个,所以叫多元回归模型。
优点:
容易解释,容易使用;自变量可以是连续性的,也可以是类别性的;许多直观的统计指标来衡量模型的拟合度,比如R方,或衡量自变量的显著性,比如p值。
缺点:
不能有效处理缺失值,必须通过一定的数据初加工和信息转换后才能处理;模型往往呈线性关系,比较难把握住数据中的非线性关系和变量间的互动关系,而且模型假定应变量呈正态分布;模型受样本数据中的极端值的影响往往比较大;在自变量有较高相关性的情况下会出现多维相关性的问题,导致模型的稳定性和抗震荡性下降。
十一、基因算法
基因算法是一种最优化算法,运用了达尔文主义的自然选择和适者生存的原则。
优点:
弹性大,能被广泛应用于解决多样的问题;在解决高维度、高度非线性的、非平滑性的目标函数的最优化问题上具备一定的优势;一般来说能够找到较优的方案。
缺点:
计算量比较大,对计算机功能的要求比较高;不一定能找到全局最优的方案,有时停留在局部最优的方案上。
十二、RFM分析
近期性recency、频率性frequency、货币价值monetaryvalue。
是市场营销分析中广泛应用的方法。
优点:
抓住了最重要的预测市场的因素;即使没有历史的市场反应数据,仍然可以组建较好的RFM矩阵表作为市场营销决策的依据;非常直观,容易理解,符合直觉;容易发展和实施。
缺点:
仅仅考虑3个要素,忽略了其他潜在有一定预测力的要素;没有考虑市场营销决策本身对市场反应的影响;没有明确地以模型框架来展现目标变量和预测变量之间的关系。
十三、存活分析
是一种预测距离某种事件发生的时间的长短的统计技术。
存货分析一般涉及以下4个方面的因素:
危险函数、存活函数、概率密度函数、平均剩余生命。
多数存活分析在应用上面临两个数据问题:
一是观察期的不完整;二是样本的缺失。
利用存活分析组建回归模型的常用方法有半参数性危险比例回归模型和参数性回归模型。
两种方法都可以用来估计距离相关事件发生的时间长短,所不同的是,前者不需要确定存活函数的具体形式,因此在关于存活函数曲线的信息不充分的情况下有一定的优势;后者需要明确确定存活函数的具体形式,对信息量的要求更高,但如果对函数形式的界定正确,则估计的准确性更高。
存货分析在金融管理上主要被用于预测信用卡客户流失的时间和住房贷款客户提前付款的时间。
一般的流失模型或提前付款模型(比如逻辑回归)常常预测该事件在一定的时间内是否会发生,而存活分析预测的是该事件什么时候发生。
优点:
预测事件发生的时间点;可以比较有效地处理观察期不完整或样本缺失的问题。
缺点:
可能比预测二元性结果的模型的预测力弱;计算量比较大。
十四、时间系列分析
一种用来分析与时间密切相关的数据系列,以过去来预测未来的统计技术。
常被用来预测国民生产总值、经济增值率、总需求、股票指数、销售量等。
时间系列分析中的两个重要因素:
趋势分析、季节性分析。
除此之外,还可以通过自我回归法(AR)、移动平均法(MA),ARMA和ARIMA等模型刻画出来。
具体的做法是对趋势分析和季节性分析以后的剩余值进行进一步的回归分析。
时间序列分析常被用于宏观经济预测、金融市场预测、市场营销预测之中,在信用卡管理中主要用于对信用卡消费额和贷款余额的预测。
优点:
可以分层次地捕捉时间系列中的趋势因素、季节性因素和剩余因素;可以根据过去的数据预测未来;多数时间系列模型的应用上有比较丰富的数据。
缺点:
预测对象必须与时间密切相关,不适用于非时间性的数据;必须满足静态的假设,而该假设在实践中不总能满足。
第五章信用评分模型的开发流程
模型的制定包括几个方面:
分析单个变量的预测能力、减少候选变量的数量、选择适当的模型方法、确定模型的变量组合和权重。
常用的模型检验报告有:
交换曲线、k-s指标、区分度、拟合度曲线。
交换曲线:
衡量舍弃好账户和避免坏账户之间的交换关系。
理想的情况是:
舍弃0%好账户的情况下拒绝100%的坏账户,模型完全准确地把好账户和坏账户区别开来。
k-s指标根据两个数学家命名,与交换曲线类似,衡量的是好账户和坏账户的累计分布比例之间具体最大的差距。
好账户和坏账户之间的距离越大,k-s指标越高,模型的区分能力越强。
对于申请风险评分模型来说,一般认为30%的区分距离是可以接受的,而行为评分的区分距离则需有45%,因为行为评分是根据银行内部较详细的数据开发出来的,预测功能应该更强。
区分度是衡量评分模型、区分目标变量、辨别好坏的能力的常用指标,显示了好账户和坏账户分数的区分程度和重叠程度。
决定区分度的因素主要有两个:
好账户和坏账户的分数均值之间的距离要尽可能大,各自的方差要尽可能小。
拟合度曲线是衡量模型预测精准度的曲线,它把账户按评分从低到高排列,划分成若干栏位(比如每5%的账户构成一个分数段),对比每个评分栏位上所预测的坏账率与实际上的坏账率。
第六章信用局评分模型的开发与应用
信用局是专业进行收集、存储、整理、加工,并向消费信贷机构提供消费者全面的信用历史记录的机构,如美国的三个征信局。
信用局收集的数据不仅仅是负面的信息,也包括各种中性的信息和正面的信息。
金融机构有的买信用局的FICO评分,也有的直接购买数据,自己开发客户化的评分模型。
信用局评分模型按其所要预测的结果划分,有信用风险评分模型、破产评分模型、收益评分模型等。
“坏”的定义一般包括表现期内任何信贷关系出现以下情况之一:
个人破产;呆账;贷款违约;抵押品拘押;严重逾期拖欠等。
“好”的定义一般包括:
表现期内未出现违约和拖欠行为;或有限的30天以下的轻度拖欠行为。
“好”与“坏”之间,还有一个“不确定”群体。
此群体被排除在模型之外。
第七章市场营销评分模型的开发与应用
市场反应评分模型:
利用信用局的消费者信用历史记录、消费者个人信息和其他消费者咨询信息来预测消费者接受银行主动营销信用卡的概率。
余额转账倾向评分模型:
利用信用局的消费者信用历史记录来预测消费者把别的信用卡未清偿欠款余额转移到新的信用卡上来的概率大小和数额大小。
游移倾向评分模型:
利用信用局的消费者信用历史记录来预测消费者把余额从新开户信用卡在优惠期满后转移到其他银行信用卡账户的概率。
第八章申请风险评分模型的开发与应用
通过对消费信息申请人的资信状况进行评估来预测未来严重拖欠或坏账概率的模型。
该评分是信贷审批的主要依据。
据调查,80%左右的信贷风险来自信贷审批环节,一旦消费者获得信贷,后续的管理只能控制20%的风险。
提炼模型所要预测的信用表现时期,信用卡一般为6-18个月,住房贷款则长达24-36个月。
自变量可反映申请者3方面的信息:
还款能力(房产状况、学历高低、收入状况、职业类别等)、还款意愿(性别、婚姻状况等)和稳定性(在现单位工作时间长短、在现住址居住时间长短等)。
实际中,许多银行在发展申请风险评分模型时,仅依靠被批准申请人群体的数据开发模型,然后把它试试刀整个申请人总体中去。
由于被批准群体与被拒绝群体的行为特征和“坏”的比例往往大相迳庭,会弱化模型的预测准确程度。
(例如,收入2000以上批准贷款,模型中均是收入在2000以上的样本)
申请风险评分模型典型分组:
第九章行为评分模型的开发与应用
是消费信贷管理中最常用的预测模型之一。
是根据信用卡账户历史上所表现出来的各种行为特征来预测该账户未来的信贷表现。
数据来源是信用卡开户后的各种使用、欠款、还款的信息。
由于行为评分使用的数据是信用卡开户后一定时期内的行为信息,属于银行内部数据。
是账户管理的最重要的模型,而且行为评分的数据源与信用局模型完全不一样,与信用局模型具有很强的互补性。
根据模型所要预测的未来信用表现结果,行为评分模型主要包括行为风险评分、行为收益评分和行为流失倾向评分等。
一、行为风险评分
从行为信息的原始数据元素中,提炼预测变量的基本方法有:
严重性、近期性、频率性、货币价值性(某种行为的货币数额)、组合性(不同性质的行为所占的比例)。
典型分组:
行为风险评分模型被广泛应用于账户管理和坏账催收的策略中。
二、行为收益评分模型
同样,数据可以分成表现期和观察期。
未来一年的净收益=利息收入-资金成本+刷卡回佣+各项收费-运营成本。
未包括坏账损失,为使得模型定义简单。
行为收益评分应用于信用卡账户管理策略中,比如修改信用额度,强化客户服务,积极交叉销售,最大限度挖掘用户收益等。
三、行为流失倾向评分模型
根据信用卡账户的历史信息和行为特征预测顾客未来流失转而使用其他银行信用卡的概率。
第十章客户评分模型的开发与应用
前面的介绍是针对单个产品的。
把多个产品的信息整合起来,发展客户评分模型,也是很有必要的。
客户评分模型是以一个分数来总结所有相关的客户数据、预测在未来一定时期内客户的某种信用表现的模型。
最常用的是客户风险评分模型,反映客户未来至少一个信贷账户会发生赖账行为的概率,有的银行也发展客户流失倾向模型。
什么是“客户”?
对于消费者个人以自己名义拥有多个账户和信贷产品来说,定义很直观,客户即消费者个人。
对于以某种形式联名拥有账户的情况来说,解决办法因具体情况而异,一般来说还是以个人作为一个独立的客户,对于联名账户则当做每个个人都拥有该账户来处理,而小企业的账户一般不算到业主名下。
客户数据:
独特的客户代码,把每个客户的所有账户信息联系起来;每个账户或产品详细的表现信息;每个账户或产品的开户时间和详细历史活动信息;每个账户或产品的行为评分;客户的人口特征信息和生活方式信息。
客户评分模型的有效性在很大程度上取决于有多少比例的客户在该银行持有两个或多个产品账户。
模型的开发方式有两种:
一种是“评分的评分”,是一种比较常见而且比较容易的发展方式。
另一种是直接从客户数据发展客户评分。
第十一章欺诈风险评分模型的开发与应用
欺诈包括申请欺诈、信用卡丢失、信用卡被盗、信用卡伪造、信用卡机密信息被盗、信用卡邮寄被盗、账户被窃取等。
欺诈风险评分模型包括申请欺诈风险评分模型和交易欺诈风险评分模型。
一、申请欺诈风险评分模型常用的预测信息有:
申请表填写的地址与信用局档案地址不符;
申请表填写的地址在信用局档案里第一次存档时间小于90天;
申请表填写的地址在信用局档案里仅为新信用账户所用;
申请表填写的地址在信用局档案里不存在;
申请表填写的地址被信用局记录认定为高风险地址;
申请表填写的地址被信用局记录认定为非住宅性地址;
申请表填写的地址在信用局曾有欺诈活动的记录;
信用局档案中地址为高风险地址;
信用局档案中地址为非住宅性地址;
信用局档案中地址曾有欺诈活动的记录;
信用局记录显示该申请人(姓名或身份证号码)曾被仿冒;
信用记录最早确立的时间在该身份证号码发行之前。
从上述信息可以看到,对申请欺诈的预测主要依赖于信用局的记录,特别是关于地址的记录。
二、交易欺诈风险评分模型
在实践中,考虑实操性,银行往往把核实的第一次欺诈日记录在案,然后模型把第一次欺诈日之后的交易均定义为欺诈。
这里面会有误差。
为减少误差,也为了提高模型发现欺诈的速度,一般来说样本仅保留第一次欺诈日之后若干天或若干次交易并定义为欺诈,而把其他方面的交易排除在外。
在这种定一下,银行准确地记录第一次欺诈日就非常关键。
由于交易欺诈“大海捞针”的特点,交易欺诈风险评分模型往往使用极精细复杂的模型技术,主要利用机器学习和神经网络模型技术,样本个数达好几百万个交易。
在欧美,各银行往往形成数据共享体,把分散的数据集中,由专业化公司(如FairIsaac)发展模型,银行付费使用。
交易欺诈风险评分模型所用的预测信息主要是来自实时交易授权的信息和历史交易授权的信息。
常用的预测信息包括:
信用卡账号(用于作公共码键,不用于提炼预测变量)
账户持有人的国家号码和邮政编码
商户号码
商户的国家号码、货币代码和邮政编码
交易的日期和时间
交易数额
交易种类(购物、提现等)
商户种类
密码核对结果
CVV核对结果
信用卡过期日
信用额度和可支配剩余额度
信用卡使用途径(键入或刷卡,keyedorswiped)
欺诈者不能完全模仿真实用户的用卡行为模式。
欺诈者本身的欺诈用卡行为往往会表现出一些特征,如密集使用、大额交易、光顾特殊商店等。
简单的预测变量只运用当前交易的信息:
一维性的变量:
交易金额、商户种类、交易发生地离卡用户家庭住址的远近、交易发生时间
二维性的变量,把两种数据元素组合在一起:
把商户种类和交易金额组合在一起、把交易时间与距离远近组合在一起等。
复杂的预测变量把当前的信息与历史信息相联系、对比:
以时间为基础的变量:
过去30分钟交易的次数或平均金额、过去1小时2小时3小时半天1天2天一周等时间段交易的次数或平均金额、当前交易金额与过去若干时间段的交易金额的均值和标准差的对比等
以事件为基础的变量:
过去2次3次4次N次交易的平均金额、过去2次3次4次N次交易的最大金额、当前交易与过去若干次交易金额的均值、标准差以及最大值的对比等。
不近对金额可以提炼以时间为基础或以事件为基础的变量,对于商户种类、交易距离、交易时间、交易种类、交易方式、交易国家、交易货币等信息均可以提炼类似的变量。
变量的提炼涉及的数据存储有两种方式:
把相关的整个交易历史的数据保存起来,精确按定义来计算变量值;
把过去的交易信息总结起来,只保留相关的总结性信息,而不保留具体的历史交易信息。
用时与当前交易的金额进行加权平均。
交易欺诈风险评分模型常用的指标有:
账户伪阳性比例(accountfalsepositiverate,AFPR)、账户发现比例(accountdetectionrate,ADR)、价值发现比例(valuedetectionrate,VDR)等。
第十二章信用评分模型的实施与管理
第十三章信用评分模型的跟踪与检验
一、前台跟踪报告
1、客户群体稳定性报告
跟踪最新客户(或账户)的评分分布情况,并与模型的开发样本评分分布情况作对比。
用指数来表示。
指数越高,稳定性越低,客户群体的评分分布变化越大。
如果稳定性指数在以上,银行应进一步通过变量分析报告来分析客户群体变化的趋势。
2、变量分析报告
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 银行 客户 流失