信贷风控模型架构Word下载.docx
- 文档编号:16873821
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:6
- 大小:42.20KB
信贷风控模型架构Word下载.docx
《信贷风控模型架构Word下载.docx》由会员分享,可在线阅读,更多相关《信贷风控模型架构Word下载.docx(6页珍藏版)》请在冰豆网上搜索。
・互金市场波动剧烈,需加快模型迭代更新周期。
例如,2018年6、
7月份的“P2P暴雷潮”。
・数据源采集上种类更多,弱相关数据更多,处理难度更大。
这就需要人工智能技术。
・政策合规要求,数据采集和使用更加规范化。
例如,近期国家对数
据非法爬取的集中整治。
随着监管趋严和行业愈加规范化,大数据风控,尤其是基于弱数据的风控正成为线上信用贷业务最重要的核心竞争力。
数据是风控的基础,只有对借款人全方位的理解,我们才能做好风控。
一般可将风控数据分为四部分:
・资质类数据:
包括真实的身份信息、学历(大专、本科、研究生等)、收入、职业(白领、蓝领等)、人脉信息等。
・信贷类数据:
包括央行征信报告、内部信贷历史(申请、还款、催
收)、第三方征信数据、第三方多头借贷数据等。
・消费类数据:
包括电商消费记录、信用卡账单、借记卡流水等。
・行为类数据:
包括埋点行为(前端、后端)、设备App、活动轨迹、
内容偏好(浏览商品、新闻)等。
自上而下,这些数据与逾期信用风险的相关性逐渐降低。
通常,我
们也称为强金融属性和弱金融属性数据。
2
Part2.传统评分卡的优势和不足传统评分卡一直在银行信贷业务中成功实践了几十年,禁得起时间的检验。
因此,我们必然要取其精华。
传统评分卡的优势在于:
・泛化性强:
简单模型泛化性能相对复杂模型更强。
・稳定性好:
通过WOE分箱技术提高了变量的鲁棒性。
・可解释性强:
线性模型,变量系数可以判断对最终结果的影响。
・小样本学习:
信贷样本相对更少,利用较少样本就可以训练模型。
其劣势在于:
・特征要求强相关,这就强依赖建模人员的业务经验。
・线性特征对于挖掘的信息价值相对有限。
・通常需要分群建模,这将带来很多额外工作量。
(可参考:
《利用
样本分群提升风控模型性能》)
3
随着大数据的出现,机器学习慢慢焕发出其生命力。
其优势在于:
・引入了非线性因素,模型拟合能力更强,能从海量的、贫瘠的数据中挖掘出数据价值。
・通过集成学习可将弱模型打造出强模型,如随机森林、GBDT、XGBoost、LightGBM等。
・支持更多弱特征入模,而不必像评分卡模型需要花大量时间筛选特征。
由于引入了大量的非线性因素,模型可解释性降低。
・样本量较少的情况下容易产生过拟合现象。
・复杂模型参数过多,调参依赖于人工经验。
4
Part4.大数据信贷风控模型架构我们认识到了传统评分卡和现代机器学习各自的优势和不足,自然会萌生一种朴素的想法:
能不能将两者取长补短,有机结合起来?
目前业内主要有三个探索方向:
方向一:
利用数据挖掘算法构建特征,再使用评分卡模型。
方向二:
保持传统风控特征筛选的严格标准,但使用机器学习模型。
方向三:
大规模样本结合机器学习,保证模型的稳定和泛化。
本文借鉴了以上思路,提出一种大数据信贷风控模型架构,如图1所示。
自底向上可分为六个层次:
1•原始数据域:
主要包括运营商、通讯录、电商、公积金、设备、
短信、自填信息、外部数据等数据域(domain)。
2.数据挖掘层:
结合各类数据源的特点,利用相应的数据挖掘算法提取信息。
例如,利用NLP处理文本类数据;
利用图算法处理社交类数据。
3.结构化特征:
最终可用的特征往往是结构化的。
同时,需做好特征数据集市管理,线上线下一致性比对等工作。
4.模型算法库:
在掌握模型机理的前提下,选择多种合适的机器学习算法来建模。
5.机器学习子模型分数据域选择合适的算法,建立多个子模型。
6.评分卡主模型F各子模型分数作为新的特征输入评分卡模型。
ffifg
运豪商
地址
通讯录
I
第三方征(8
isa
电商
埋点行为
■"
图1・大数据风控模型架构该框架
在大数据风控上具有核心优势,可归纳为以下几个亮点:
1・可解释性:
在数据域粒度上具有一定的可解釋性。
传统评分卡具有良好的可解释性,变量权重系数代表了自变量对因变量的贡献强弱。
分数据源建立子模型的框架,虽然牺牲了单变量粒度的可解释性,但保留了数据试粒度上的解释性。
根据如下所示的评分卡ReasonCode,我们可以迅速定位到用户在哪个数据域上得分过低、过高、缺失,进一步回溯至数据域上定位到具体变量。
也就是顺藤摸瓜,定位原因。
<
Characteristicname=l,device_submodel_score,'
baselineScore=M10"
>
<
AttributepartialScore=H-6・0”reasonCode二“device—Submodel—SCOTe分数过低11>
SimplePredicatefield=Mdevice_submodel_score"
operator=,,lessOrEqual"
value="
0.2'
7>
/Attribute>
AttributepartialScore=M6.0"
reasonCode=l,device_submodel_score分数过高"
〉<
SimplePredicatefiefdevice—Submodel—SCore"
ope2tor="
greaterThan”value=H0.5"
/>
AttributepartialScore=ll-10.0"
reasonCode=Hdevice_submodel_score数据缺失"
SimplePredicatefield="
device_submodel_scoTe"
operaton二"
equal"
value=11-9999999.0"
/Attribute>
/Characteristic>
2.集成学习:
利用机器学习提取弱信息‘降低人工构造特征门槛。
传统评分卡是线性模型,虽然可以通过WOE变换能解决部分的非
线性问题,但人工构造强业务特征的门槛仍然很高。
该模型架构属
于集成学习,底层机器学习子模型能帮助自动合成深度特征(子模
型分数)。
因此,在业务经验相对不足的情况下,我们可批量构造
RFM特征(可参考《风控特征一时间滑窗统计特征体系》)。
当然
这并不是教你偷懒,基于对业务和数据的理解去构造特征仍然是最
重要的。
3.缺失处理:
利用WOE变换解决数据缺失问题。
在学习
WOE变换时,我们提到过一个重要的知识点:
WOE变换可以处理缺失值。
(可参考《WOE与IV指标的深入理解应用》)由于不同
数据域的样本覆盖率存在差异,当我们完成分数据域建模,在关联
至全量放贷样本上生成特征宽表时,就会出现部分样本的子模型分
缺失问题。
此时,可通过对子模型分数进行WOE变换。
如图2所
示,该数据域子模型分数的覆盖率约为50%,但通过WOE变换,
—是保证了鲁棒性,二是解决了缺失问题。
图2■机器学习子模型分数WOE变换4・多样性:
保证多个数据域特征入模r丰富变量的维度。
如果我们将所有数据域的特征直接输入机器学习模型,再根据特征重要性粗筛,将会发现一个常见的问题:
某些金融属性相对较强的数据域变量将牢牢占据TopN的位置,导致某些数据域变量根本无法入模。
而分数据域建模,可保证各数据域中相对较强的变量都能强制入模,从而引入了维度的多样性。
多维度的数据帮助我们从不同角度衡量借贷人的风险。
5.模块化:
子模型支持“搭积木”式灵活组装•提高复用性。
实际项目中,我们很可能会遇到这样的难题:
最近国家对爬虫数据、第三方征信数据集中整治,导致很多依赖外部数据的平台纷纷忙着调整策略。
考虑到某块数据源未来可能无法采集的风险,我们一般都会采取模型降级方案。
按传统建模方法,我们通常需输入所有的变量重新训练模型。
这是一个非常繁琐的工作,因为需要再次开展特征筛选、—致性比对、上线部署等工作。
模块化意味着具有良好的可扩展性。
此时,我们就只需剔除相应的子模型,利用剩下的子模型重新组装评分卡即可。
这能很好适应风云变幻的互联网金融市场。
@才是汪在銘上
图3■模块化自由组装6・并行化:
在大型风控建模项目中易于分工协作。
在大型风控建模项目中,往往需要团队多人协作。
由于各
数据域之间相互独立,可以分发给多个建模同学并行化作业,更加
专注于某块数据域的数据清洗、特征工程、子模型构建等,从而保证项目进度,实现快速迭代。
专注的人才能做好专业的事。
这种方式更能保证对弱数据的挖掘更加深入,也更能提升效率。
图4・分数据域协作建模当然,该模型架构同样存在一些不足之处,但我们可以有针对性地去改善。
1・牺牲了部分的可解释性。
底层机器学习子模型仍然是黑盒模型,或者一些特征变量(如embedding特征)并不具备可解释性。
如果风控策略和模型用到相同的变量,策略调整变量阈值后,对结果的影响难以预估。
解决方案:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信贷 模型 架构