人行二代个人征信及变量衍生深度解读Word文件下载.docx
- 文档编号:17062019
- 上传时间:2022-11-28
- 格式:DOCX
- 页数:14
- 大小:301.10KB
人行二代个人征信及变量衍生深度解读Word文件下载.docx
《人行二代个人征信及变量衍生深度解读Word文件下载.docx》由会员分享,可在线阅读,更多相关《人行二代个人征信及变量衍生深度解读Word文件下载.docx(14页珍藏版)》请在冰豆网上搜索。
6
公共信息明细
8
16
7
其他标注及声明信息
查询记录
注:
关于数据块、信息单元更详细的信息请参考《人民银行征信系统产品说明_个人征信报告》
其中,数据块是组成个人信用报告的同一类信息单元或业务上有紧密联系的几类信息单元,是构成个人信用报告的基本组件的集合。
信息单元是组成数据块的基础元素。
各数据块之间没有交集,所有数据块构成了个人信用报告的数据全集。
一般情况下一个数据块对应着一个信息单元,但是也存在着一个数据块对应着多个信息单元。
单一对应关系的信息,多为静态信息(数据),一般描述信息主体的自然属性,这类数据一般不会随时间变化(比如自然人的出生时间、出生地等);
或者可能会随时间变化,但在数据分析时一般只采用其最新取值(比如自然人的学历、婚姻状态等)。
见表2。
表2
个人基本信息数据块和信息单元
数据块
信息单元
身份信息
身份信息单元
婚姻信息
婚姻信息单元
居住信息
居住信息单元
0…5
职业信息
职业信息单元
而一对多(一个数据块对应多个信息单元)的对应关系,多为动态信息(数据),一般描述信息主体历史上相似的行为(事件)发生(变化)情况。
即信息会随着时间频繁或阶段性发生变化,比如居住信息,在不同的时间点居住地址、居住状况均可能发生变化。
因此,在征信报告中居住信息数据块对应最多5个居住信息单元,当然也可能没有任何居住地址信息。
如表2、3所示。
表3
多个居住信息单元组成一个数据块
注1:
上述数据来自二代征信展示样本;
注2:
若信息单元只有一条记录,则信息单元与数据块在内容上是等价的。
注3:
按照征信报告的组织结构,信息单元下级元素为信息段,信息段的下级元素为数据项,但居住信息单元只有一个信息段,因此居住信息单元的下级元素直接为数据项。
总结来看,在征信报告中一个数据块描述一个人某一方面的信息。
比如,身份信息数据块、居住信息数据块、借贷账户信息数据块。
如果数据块是静态信息(数据),这时数据块和信息单元一对一;
如果数据块所包含的信息是动态信息(数据),那么此数据块就可能对应多个信息单元,代表一类状况(行为、业务)的多次发生。
图1给出了各信息单元属性。
图1
信息单元分类
动态信息单元表明此信息单元是可以多次重复出现的,比如借贷账户数据块对应多个借贷账户信息单元
(二)信息单元、信息段与数据项
信息单元的组成分为两种情况,一是,信息单元直接由数据项/组合数据项组成,此时信息单元下无信息段;
二是,根据包含数据项复杂程度不同,信息单元可由两个以上信息段组成,信息段再由数据项/组合数据项组成。
24个信息单元下共计有50个信息段,268个单一数据项,33个组合数据项(包含83个组合数据项字段),如表4。
信息段是一个已标识、命名和结构化的、在功能上相互关联的数据项的集合,由不少于一个的数据项构成。
表4
信息单元、信息段与数据
前述居住信息单元就是直接由4个单一数据项组成的信息单元,但更多的信息单元是由多个信息段组成的。
以征信报告的核心信息单元——借贷账户信息单元为例,其包含了9个信息段,61个单一数据项,6个组合数据项(19个组合数据项字段)。
如表5所示。
表5
借款账户信息单元结构
*代表可出现任意次
单一数据项是指用一组属性描述定义、标识、表示和允许值的基础数据单元,不会重复出现;
组合数据项是指信息段或信息单元中可重复出现的一组数据项,见表6。
表6
最近5年内历史表现信息段所含数据项
数据项名称
数据项属性
起始年月
单一数据项
截止年月
月数
历史表现信息
组合数据项,可重复出现60次
这里需要着重说明与变量衍生相关的三个注意点:
一是,动态信息(单元)和静态信息(单元)的变量衍生方法有较大差异,请参见后文关于变量衍生的描述。
二是,信息单元中的信息段可能不会同时出现,以借贷账户信息单元为例,根据不同借贷账户的类型,信息单元中9个信息段可能不会同时出现。
比如,大额专项分期信息段,只会出现在信用卡业务相关的借贷账户信息单元。
三是,信息段中的组合数据项会重复出现。
比如,借贷账户信息单元→最近5年内历史表现信息段,有3个单一数据项和一个组合数据数据项。
其中,组合数据项即历史表现信息,记录了其对应的一笔信贷业务近5年各月表现信息,包括月份、还款状态、逾期(透支)总额三个字段。
二、人行二代个人征信变量衍生框架
在数据驱动的风险管理流程中,无论是策略还是模型应用,目前的处理框架都是1个人(或1个样本,比如债项评级对应着一个借据)对应一条记录信息。
如图2所示。
通过借款人历史逾期违约的相关变量来预测未来逾期违约的可能性。
图2
策略、模型数据应用框架
如前所述,在二代个人征信报告中,既有静态信息(单条记录数据),比如基本身份信息,包括性别、出生日期、学历等信息,1个信息主体只存在一条基本信息;
也有动态信息(多条记录数据),比如借贷交易信息单元,包括账户类型、业务种类、借款金额等信息。
1个报告主体可能存在非循环贷账户、循环贷账户、贷记卡账户等多个借贷账户,每个借贷信息单元反映一个借贷账户。
这些动态信息,由于是多条数据记录,并不能直接应用于策略或模型的开发中,而需要将这些信息进行数据变换和聚合运算后,形成一条记录信息后,才能应用到策略或模型中。
因此,个人征信报告变量衍生将涉及两个阶段:
阶段一,按照业务逻辑,将二代个人征信报告数据解析成标准表(或标准模块),按照记录条数的不同分为静态信息标准表和动态信息标准表;
阶段二,在标准表的基础上,针对标准表的数据项进行变量衍生和加工,既考虑业务逻辑,也考虑算法逻辑,尽可能多的覆盖各种衍生变量。
(一)个人征信报告解析标准表(或标准模块)
1、
以信息单元为标准表
在二代个人征信报告中,有8个信息单元(参见表4)直接由数据项组成,可以直接解析为一个标准表作为后续变量衍生的基础。
比如,“征信报告查询记录”信息单元,直接由查询日期、查询机构类型、查询机构、查询原因4个数据项组成,并且查询记录信息涉及多条记录,为动态信息标准表,如表7所示。
表7
征信查询记录示例
上述数据来自二代征信展示样本注2:
表中的查询机构是由查询机构类型和查询机构两个基础字段组成
2、
以信息段为标准表
第二类标准表是信息单元中的信息段。
比如,身份信息单元包括基本概况信息段和手机号码信息段(表8)。
表8
身份信息单元及其信息段示例
组合数据项
组合数据项字段
基本概况信息段
9
手机号码信息段
其中,基本概况信息段由9个数据项组成(表9),可解析为一个标准表。
基本信息段只涉及单条记录信息,因此为静态信息标准表。
表9
基本概况信息段示例
3、
以组合数据项为标准表
第三类标准表是信息段中的组合数据项。
在二代个人征信报告中,大部分数据项为单一数据项,但是也有少部分为组合数据项,即可重复出现的一组数据项。
这里仍然以身份信息单元为例说明,在身份信息单元中,手机号码信息段(参见表8)包含1个组合数据项,其中有手机号码和信息更新日期两个组合数据字段。
这里我们可以将手机号码信息段中的组合数据项解析为一个标准表,由于涉及多条数据,因此这是一个动态信息标准表。
(参见表10)
表10
手机号码信息段组合数据项
(二)个人征信报告变量衍生和加工框架
变量衍生是最大限度地从原始数据中提取特征,发现可能对决策目标有显著作用的特征,以供算法和模型使用。
变量衍生混合专业领域知识、客观直觉和算法逻辑,基于原始数据衍生出更多的变量,可更精细的描述目标的特点或行为。
这里我们先解释通用的变量衍生基本逻辑,然后在此基础上说明如何对二代个人征信报告中的静态信息标准表和动态信息标准表进行变量衍生。
变量衍生基本逻辑
∙
变量分类
变量属性分类
在做变量衍生之前,我们需要对变量做出明确的分类,这样有助于后面我们针对不同类型的变量进行不同的加工。
一般的描述一个人(或更一般的实体)特征的变量,根据变量属性不同,可以抽象为“时、空、类、数、实体标识、关系”等6个类别。
具体含义请见下表。
表11
变量类型及其简要说明
变量类型
类型说明
时间变量
描述处于某种状态或行为特征发生的时刻,比如2019年12月1日已婚,2020年2月1日,申请一笔借款。
空间变量
描述处于某种状态或行为特征发生的空间,比如,在北京购买一套住房一套,社保缴纳地在北京。
类别变量
描述事物或行为类别的一个名称,常见的类别变量有性别、婚姻状态、账户类型、账户状态等等。
数值(连续型)变量
描述某种状态的刻度值或者行为特征发生的相关数值;
比如,年龄32岁;
申请借款金额5000元。
实体(标识)
状态或行为特征的主体标识。
比如,描述自然人的身份证号码、法人的统一社会信用代码;
或者某种物体的唯一标识,比如MAC地址、银行卡卡号、手机号码等。
关系变量
描述实体之间关系的变量。
比如,借款人与担保人之间的关系;
自然人与手机号码的关系。
关系变量,一般在复杂网络分析的框架下进行,限于篇幅,本文的衍生变量对此类变量不做讨论。
举个例子,借款人甲(身份证号:
110108******1812)于2020年2月5日,在北京,申请了一次5000元的消费贷款,担保人乙承担连带责任保证。
我们可以将上述行为根据变量的属性进行拆解,见表12。
表12
按照变量类型对借款人行为进行结构化
变量
取值
申请日期
2020年2月5日
申请地
北京
账户类型
非循环贷款
担保类型
无担保/信用
借款金额
5000元
身份证号
110108******1812
借款人甲与担保人乙之间的担保关系的分析,需要在复杂网络的框架下分析,不在本文讨论范围内。
因此,无论借款人的行为有多复杂,最终我们都能将其拆解为上述6类变量。
后面我们将看到,这种处理方法有助于采用标准化的方法处理变量衍生。
静态数据与动态数据
除讨论不同变量分类外,在进行变量衍生前,我们还要区分描述借款人行为的静态数据(与前述静态信息标准表相对应)和动态数据(与前述动态信息标准表相对应)。
前文已有静态数据和动态数据定义,此处不再赘述。
变量衍生
按照静态数据(静态信息标准表)和动态数据(动态信息标准表)的不同,变量衍生处理会有不同的方法,而变量衍生处理更主要针对的是动态数据,通过对动态数据加工处理,将多条数据变成单条数据。
静态(单条)数据衍生
静态数据一般均可以直接作为策略或模型输入,但是实践中为了提升变量的区分度,也常常对静态数据做简单的加工处理,常见的衍生逻辑如表13所示。
表13
静态数据变量衍生
示列
类别变量缩减
学历:
原始变量:
小学、初中、高中、大学本科、研究生、博士研究生;
缩减:
高中及以下、大学本科、研究生以上
数值变量分箱
年龄:
18~60的连续变量
分箱:
18~25,26~35,36~45,46以上
数值变量和类别变量交叉衍生
比如,年龄和婚姻状态的交叉
18~25,未婚;
18~25,已婚;
18~25,离异;
26~35,未婚;
26~35,已婚;
26~35,离异;
……
两个类别变量交叉衍生
比如,性别与婚姻交叉
男性,未婚;
男性,已婚;
男性,离婚;
女性,未婚;
女性,已婚;
女性,离婚;
三个以上类别变量也可以进行交叉衍生,以此类推;
一个数值变量和两个类别变量也可以进行交叉衍生,以此类推。
动态(多条)数据衍生
动态(多条)数据的衍生主要逻辑是统计在指定周期内各类行为或事件发生的次数或金额,其中类别变量、数值变量都可以用来对各类行为进行更细致的划分。
表14
贷款申请记录
实体标识
业务种类
申请贷款金额
2019年3月2日
汽车消费贷款
5000
2019年6月2日
消费贷款
2000
2019年8月2日
信用卡
10000
2019年9月2日
住房商业贷款
400000
如表14,若以2019年9月5日为基准日(T),我们可以更进一步统计最近一个月(T-30)消费贷款申请次数、消费贷款申请金额(关注每类贷款申请);
我们还可以更进一步统计最近一个月(T-30)贷款申请金额在5千元以下的申请次数、申请金额(关注小额贷款申请情况)等等。
更一般的,我们可以对动态(多条)数据进行如下的变量衍生:
▪
针对(实体标识,时间)二元组,统计指定周期内事件发生次数,比如基于(客户ID,信用卡发卡时间),衍生指定周期内信用卡发放张数。
还可以统计指定周期内事件发生的时间间隔,比如基于(手机号码,信息更新时间),可以统计近一年手机号码平均多长时间更新一次。
针对(客户ID,时间,数值变量)三元组,进行指定周期内的数值统计,比如,(客户ID,贷款发放时间,授信额度),统计指定周期内(最近1个月内),客户总授信额度,平均授信额度,最大授信额度,最小授信额度。
针对(客户ID,时间,类别变量,数值变量)四元组,指定周期内按照类别变量统计不同类别的数值变量的情况,比如,(客户ID,发放时间,贷款种类,授信额度),统计指定周期内各类贷款的授信总额、最大值、最小值、方差、极差。
2、人行二代征信变量衍生
在二代个人征信报告数据中,首先我们按照业务逻辑、变量属性、动(静)态信息等将原始数据解析为不同的静态信息标准表、动态信息标准表,可以称之为标准表。
在标准表的基础上,就可以按照前述变量衍生逻辑统一进行变量加工。
1)
单条数据信息单元、静态信息标准表及变量衍生
报告头信息单元等8个信息单元为单条数据的信息单元,可以解析为静态信息标准表。
基于静态信息标准表,我们即可按照前述变量衍生逻辑进行变量衍生。
2)
多条数据信息单元、动态信息标准表及变量衍生
征信报告中的大部分信息单元包括多条记录信息,均须解析为动态信息标准表,其中比较常用的包括借贷账户信息单元、授信协议信息单元(二代新增)、查询记录明细信息单元以及后付费业务信息单元等(参见图1信息单元分类)。
这里我们以借贷交易信息单元中的授信协议信息段为例说明如何对动态信息标准表进行变量衍生。
理论上授信协议信息段可以有无穷多笔授信记录,这里为了说明衍生变量的思路,我们仅以两条授信协议为例,见表15。
表15
授信协议信息示例
首先,对授信协议中各数据项进行类别标识,可以获得3个实体标识变量,3个类别变量,2个时间变量,3个数据值变量,如表16所示。
表16
授信协议信息数据解析
变量属性
记录1
记录2
业务管理机构类型
类别
商业银行
业务管理机构
SS
AQ
授信协议标识
H121
TH
授信额度用途
循环贷款额度
信用卡共享额度
授信额度
数值
40,000
70,000
币种
美元
生效日期
时间
2014.09.01
2012.02.01
到期日期
2019.01.31
已用额度
20,000
授信限额
100,000
授信限额编号
M100
W541
根据前述的动态数据表衍生逻辑,我们可以将表中数据项解析为标准数据元组:
(实体标识,时间)、(实体标识,数值变量)、(实体标识,类别变量)、(实体标识,时间,数值变量)、(实体标识,时间,类别变量)、(实体标识,类别变量,数值变量)、(实体标识,时间,类别变量,数值变量)……,然后基于标准的数据元组进行变量衍生。
3)
组合数据项、动态信息标准表及变量衍生
征信报告中的组合数据项也需要解析为动态信息标准表,其中比较重要的组合数据项均包含在借贷账户信息单元,主要有最近5年历史表现信息、大额专项分期信息(二代新增)、特殊交易信息、特殊事件说明信息等。
将组合数据项解析为动态信息标准表后,就可以按照动态信息标准表的框架做变量衍生处理,这里不再赘述。
三、基于FeatureSmart®
️的人行征信衍生变量落地
在征信衍生指标落地方面,首先需要区分线上应用场景和离线开发场景。
线上场景一般基于一份征信报告,计算变量衍生;
离线场景一般基于多份征信报告,计算衍生变量。
两者的主要差别在于:
线上场景变量衍生一般用于策略和模型部署,离线场景一般用于策略和模型的开发。
因此,线上场景不适用批量衍生变量,一般要对单一指标定制化开发,而离线场景则更适合批量变量衍生。
其次,按照变量衍生逻辑,可以拆分(查询日期),(查询日期,查询机构类型),(查询日期,查询原因),(查询日期,查询机构),(查询日期,查询机构类型,查询原因)等元组,基于上述数据元组,假设我们批量衍生了200个变量,但线上场景则策略和模型最终采用的变量可能只有“最近3个月信用卡审批查询次数”一个指标,那么此时我们只需要针对此指标进行开发部署即可。
这里我们就不得不提到同盾科技最近推出的标准化变量衍生工具FeatureSmart®
️,从提高变量部署阶段的质量和效率出发,FeatureSmart®
️能够实现策略和模型部署阶段的工作标准化、可视化,业务人员不必依赖IT人员就能轻松的完成人行个人征信等变量衍生工作,包括报文解析、衍生逻辑设计(模板管理)、甚至指标加工(指标管理)等。
如图4所示。
图4FearureSmart®
️线上场景变量衍生配置示列
除利用标准化变量衍生工具FeatureSmart®
️外,在离线开发阶段,建议将人行征信变量衍生程序标准化,并针对衍生变量建立衍生变量数据仓库,以便统一各业务条线对人行征信变量衍生的程序,保证每个产品线所应用的人行征信衍生变量的一致性,这样更有利于分析不同变量在不同场景、产品、客群下的区分度,也为开发新的变量提供线索。
四、人行二代个人征信应用
相比于一代个人征信,二代个人征信提供了更丰富的行为数据,更详细的信贷产品分类。
因此,我们认为二代个人征信在更多的场景将产生更高的价值。
比如,基于更详细的信贷产品分类,我们可能将此信息应用到交叉销售领域,针对客户持有非循环贷产品、循环贷产品、信用卡产品的情况,进行更有效的交叉营销推广;
基于授信协议的有效期间,可以分析客户未来资金需求时间,进而对客户进行更好的精准营销。
在风险管理领域,过去个人征信可能更多的应用在申请评分,但是由于有了5年的还款记录、逾期金额,我们可以将个人征信信息更多的用来提升行为评分模型、催收评分模型的建模效果。
以上都有待于我们去发掘。
图5
二代个人征信应用场景
读者们如果想更进一步了解二代个人征信变量衍生及落地、模型优化和应用场景,欢迎联系同盾咨询团队,**********************。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 二代 个人 变量 衍生 深度 解读