数据仓库报告赖辉.docx
- 文档编号:6692789
- 上传时间:2023-01-09
- 格式:DOCX
- 页数:21
- 大小:1.09MB
数据仓库报告赖辉.docx
《数据仓库报告赖辉.docx》由会员分享,可在线阅读,更多相关《数据仓库报告赖辉.docx(21页珍藏版)》请在冰豆网上搜索。
数据仓库报告赖辉
深圳大学研究生课程论文
题目数据仓库报告成绩
专业软件工程课程名称、代码161023050015
年级2015级姓名赖辉
学号2150230507时间2015年12月
任课教师黄哲学、王熙照
一、摘要
随着我国经济的快速发展,消费水平的提高,银行信用卡业务的数据挖掘越来越体现出它的价值。
本文旨在分析银行信用卡业务,在相关客户特征数据下,建立规法的数据仓库。
通过建立信用卡的数据仓库,银行人员可以通过相关数据分析客户群体的特征,消费额度,信用状态等信息,也可通过SAS数据挖掘工具的决策树模型进一步挖掘出影响客户信用状况的因素。
建立信用卡数据仓库能为每个有经济活动的客户建立一套合理的信用档案,并在数据仓库的基础上,通过数据挖掘分析、数据探索、数据挖掘和分类等,得到客户的信用评分模型。
二、需求分析
1.背景
1.1问题背景
随着国内消费水平的提高,支付方式更加便捷,信用卡已渐渐成为普遍的消费信贷工具,更多的人通过信用卡进行提前消费,这使得社会对消费信贷的需求迅速扩大。
我国五大商业银行均发行信用卡,据相关数据统计,截止2013年末,全国信用卡累计发卡3.91亿张,12家上市银行2014年上半年信用卡累计交易额总计达54373亿元。
1.2研究问题必要性
虽然银行在多年的发展过程中业务和数据管理日趋完善,累积了大量客户数据和经营数据,但这些数据若能加以处理分析,必定能挖掘出更多有价值的信息。
并随着消费群体的增大,信用卡持有人数的增多,市场扩展以及其他业务竞争的日益加剧,建立健全的信用卡数据仓库显得特别重要。
银行决策人员希望通过数据仓库的辅助决策信息,更直观、简洁的数据信息。
1.3数据仓库的建立
数据库都是大多采用关系数据模型为主,而数据仓库旨在为决策人员提供针对该主题的辅助决策信息,大多都采用多维数据模型进行设计的。
银行信用卡数据仓库在原有关系型数据库的基础上建立逻辑数据仓库,提供快速检索、数据分析并进行优化。
1.4关键问题
由于银行中客户量较大,所包含的信息也特别多,在建立信用卡数据仓库时必须要考虑到以下几个问题:
及时性、少占用系统资源、高效性、结果简洁直接等。
只有充分考虑到这些问题才能更好的利用客户的特征数据和交易数据,从而提高效益。
2.假定与约束
2.1假定
因为本次只是建立信用卡数据仓库的模型,不需要建立完整可行的数据仓库,故设计周期控制在两周左右。
考虑到数据仓库的实用性,要求在设计过程中尽可能的为银行决策人员提供决策依据,提高效益。
2.2相关技术与工具
数据仓库(DataWarehouse,简称DW或DWH),是为企业所有级别的决策定制过程,它提供所有类型数据支持的战略集合,以及指导业务流程改进、监视时间、成本、质量以及控制,并形成用户分析性报告和决策支持目的。
它是一个面向主题的、集成的、稳定的、不同时期的数据集合。
数据仓库研究和解决从数据库中获取消息的问题,主要特征有面向主题、集成性、稳定性和时变性。
不同于面向事务设计的数据库,数据仓库面向主题,并存储的是历史数据,采用反范式的方式设计,其目的是为了方便分析数据。
它的两个基本元素是维表和事务表,维度表是用户分析数据的窗口,它包含事务数据表中事实记录的特性及帮助汇总数据的特性的层次结构。
每个数据仓库都包含一个或者多个事务表,它可能包含业务销售数据。
一般来说,一个事实数据表都要和一个或者多个维度表相关联。
2.3可行性研究
以下根据该项目的技术、人力、资源、资金等方面做了衡量和比较,最终得出的结论是:
可以立项。
1.技术可行性数据仓库模型的设计在国内已经相当成熟,设计人员只需要在清楚业务流程的基础上,对数据库的数据做进一步的细化、分析。
自顶向下、逐步求精的建立完整的概念模型、逻辑模型以及物理模型即可。
2.资源可行性数据仓库建模的需要用到银行信用卡以及银行数据库方面的数据,这些经过查阅资料,与银行决策人员沟通交流就能得到,不存在较大问题。
3.经济可行性数据仓库建模需要用到的设计工具(如画图工具、文档编写工具等)都有免费的应用,也不存在任何维护费用及经费问题,没有较大的经济花销,故经济上可行。
3.功能性需求
3.1概念模型设计
图2-3.1-1信用卡CMCC-LDM概念模型
根据银行信用卡的业务以及与客户之间的关系,银行信用卡账户的概念模型设计主要分为八个主题:
客户、服务、信用卡业务、账务、结算、资源、客服、营销。
其中:
客户可以咨询客服,享有信用卡业务,同时也受营销的部分影响;营销指导客户进行一些业务;针对某些服务可以制定一系列的营销方案;信用卡业务包含账务,服务中提供信用卡业务;服务使用包括结算,包括其他数据资源的清算。
图2-3.1-2信用卡仓库实体E-R图
信用卡数据仓库主要有7个实体:
Bank、Customer、Customer_Acount、Merchant、Merchant_Acount、Credit_Card、Transaction,这7个实体间的对应关系如上图所示。
3.2逻辑模型设计
逻辑模型是在概念模型的基础上对主题进行细化,它能直接反应出业务部门的需求,同时对系统的物理模型设计的实现有着重要的指导作用。
部分主题的详细分析如表2-3.2-1所示:
主题名
公共码键
属性组
客户
客户号
客户固有信息:
客户号、客户姓名、客户性别、客户地址等
客户信息:
客户号、信用卡号、银行账号等
服务
服务号
服务固有信息:
服务号、服务类型、服务方式等
服务信息:
服务号、服务对象、服务状态等
信用卡业务
信用卡号
信用卡固有信息:
信用卡号、信用卡持有者姓名、办卡日期等
信用卡信息:
信用卡号、客户号、信用卡余额、信用卡状态等
账务
银行账号
账务固有信息:
银行账号、客户号、日期等
账务信息:
银行账号、账务余额、账务明细、日期等
客服
客服编号
客服固有信息:
客服编号、客服地址、客服类型等
客服信息:
客服编号、客服状态、客服量等
营销
营销编号
营销固有信息:
营销编号、营销类型、营销地址等
营销信息:
营销编号、营销状态、营销日期等
表2-3.2-1逻辑模型主题分析表
对信用卡数据仓库的具体实体定义如表2-3.2-2所示:
实体
容量
更新频率
Bank
中等容量,每个地区都有支行,约2000个
每月对客户银行账户信息进行更新还款提醒等
Customer
大容量,用户比较多上限为354,000,000,000
当有用户注册和被拉入黑名单时需要实时更新
Customer_Acount
小容量,一般客户最多有一百多个银行账户
每年结算一次,进行利息结算
Merchant
中等容量,企业用户较少,约一百万
当有企业注册和被拉入黑名单时需要实时更新
Merchant_Acount
小容量,一般企业客户最多有一百多个银行账户
每年结算一次,进行利息结算
Credit_Card
小容量,信用卡受个人信誉限制,最多两百张
每月进行结算,进行还款计算
Transaction
大容量,上限为354,000,000,消费者交易跟其他事务办理较多
每天进行更新、汇总
表2-3.2-2用卡数据仓库的具体实体定义
4.非功能性需求
主要性能需求
(1)响应时间需求
由于银行信用卡数据仓库包含数据量较大,银行决策人员在分析数据仓库数据时,总的响应时间应该控制在30S左右,没有复杂的计算时,应该控制在3s以内。
(2)可靠性需求
根据数据库中信用卡的相关信息,银行决策者期望通过数据仓库得到可靠的分析结果,要求该数据仓库具有良好的容错性,具有较高的数据可靠性。
(3)用户界面需求
为了为银行决策者提供更好的用户体验,以及简洁、明了的分析结果。
要求该数据仓库的操作界面直接、友好、美观舒适、操作方便、更加人性化。
(4)可扩展性需求
随着用户量的增大、事务范围的扩大,在今后可能会出现更多的需求,这在信用卡数据仓库设计阶段就应该考虑到,应该要提供可扩展的功能,为仓库的改善、扩展提供可能。
(5)安全性需求
由于银行信用卡的相关信息涉及到个人隐私,只有高权限的银行决策者才能看到这些信息,这就要求该仓库具有良好的安全性能,同时要避免其他程序的恶意攻击。
(6)可用性需求
操作界面尽量简洁并且尽可能多的展示信息,为了保证查询和响应的速度,内容除了必须图示的部分应尽量减少图片,以减轻服务器和网络的负荷。
(7)用户文档
银行决策者可能不具备一定的数据仓库知识,这就要求在设计阶段为用户提供帮助模块,包含各个模块的操作,可能产生问题的解决办法等。
三、数据源分析
数据源是数据仓库用于分析的数据来源,是建立数据仓库时必须聚集和合并的不同来源的数据,主要用来操作业务应用系统存放的数据集合。
而数据源分析是对业务数据源的原始数据进行分析,得到数据的范围、格式,以及其更新方式、更新频率、质量等方面的信息。
数据源分析的过程分为:
范围分析、格式分析、更新方式分析、质量分析这4个方面。
图3-1数据源分析过程图
1.范围分析
本数据仓库是基于银行的信用卡数据仓库,该数据仓库系统中需要的数据源都来自银行的数据库系统,包括客户的相关数据、银行账户的相关数据、业务的相关数据,与银行财务数据和客户其他数据不相关。
2.格式分析
格式分析是对原始数据中的物理存储方式进行分析,内容包括在数据库中的存储类型、存储长度、存储精度等指标。
下列表给出了主要的表属性物理存储方式分析:
列属性
类型与精度
列的键属性
完整性约束
Bank_ID
INT(20)
主键列
没有银行号就不能找到对应的银行数据库信息,非空
ENG_NAME
CHAR(45)
非主键列
每个银行都有对应的英文名字,非空
CHI_NAME
CHAR(45)
非主键列
每个银行都有对应的中文名字,非空
ADDR
CHAR(80)
非主键列
银行必须要有地址,方便进行业务办理,非空
COUNTRY
CHAR(45)
非主键列
每个区域都有支行,根据支行区分银行,非空
PHONE
INT(20)
非主键列
联系电话是方便客户进行业务咨询与办理,可为空
表3-2-1Bank表属性物理存储方式分析
列属性
类型与精度
列的键属性
完整性约束
CUST_ID
INT(20)
主键列
客户号标识一个用户,没有客户号就找不到客户信息,非空
BANK_ID
CHAR(45)
外部键列
没有银行号就不能找到对应的银行数据库信息,非空
STATUS
CHAR(4)
非主键列
客户可能因为信誉被拉入黑名单,非空
TYPE
CHAR(80)
非主键列
是否为VIP,空时默认为普通客户
CERDIT
CHAR(45)
非主键列
可能有多张信用卡,可能没有申请,可为空
NAME
INT(20)
非主键列
客户名字,不为空
SEX
CHAR(4)
非主键列
客户性别,不为空
ID_NBR
INT(20)
非主键列
每个身份证号标识一位客户,不为空,且唯一
DTE_BIRTH
DATE
非主键列
客户生日不为空,且唯一
TEL
INT(20)
非主键列
客户联系电话,可为空但是限制其他业务
ADDR
CHAR(80)
非主键列
联系地址,默认为身份证地址,不为空
表3-2-2Customer表属性物理存储方式分析
列属性
类型与精度
列的键属性
完整性约束
MECH_ID
INT(20)
主键列
企业号标识一个公司,没有企业号就找不到企业信息,非空
BANK_ID
CHAR(45)
外部键列
没有银行号就不能找到对应的银行数据库信息,非空
STATUS
CHAR(4)
非主键列
企业可能因为债务问题被拉入黑名单,非空
TYPE
CHAR(80)
非主键列
是否为高级VIP,限制贷款金额,空时默认为普通客户
CERDIT
CHAR(45)
非主键列
可能有多张信用卡,可能没有申请,可为空
ENG_NAME
INT(45)
非主键列
企业名字,不为空
CHI_NAME
CHAR(45)
非主键列
企业性别,不为空
TEL
INT(20)
非主键列
企业公司联系电话,可为空但是限制其他业务
ADDR
CHAR(80)
非主键列
联系地址,不为空
表3-2-3Merchant表属性物理存储方式分析
列属性
类型与精度
列的键属性
完整性约束
CARD_ID
INT(20)
主键、外部键列
信用卡号标识一张信用卡,没有信用卡号就找不到信用卡的信息,非空
BANK_ID
CHAR(45)
外部键列
没有银行号就不能找到对应的银行数据库信息,非空
CUST_ID
CHAR(45)
外部键列
客户号标识一个用户,没有客户号就找不到客户信息,非空
TYPE
CHAR(4)
非主键列
信用卡分为贷记卡与借记卡,不为空
STATUS
CHAR(4)
非主键列
可能因为其他原因导致信用卡被注销或者冻结,非空
MEMB_FEE
INT(20)
非主键列
信用卡一般会收取一定的年费,不为空
表3-2-4Credit_Card表属性物理存储方式分析
3.更新方式分析
更新方式分析主要针对原始数据在应用系统中的更新方式、更新频率、更新内容进行分析判断。
它包括原始数据何时更新、更新方式、具体更新内容等。
数据信息
何时更新
更新方式
更新频率
Bank
实时更新
银行数据库系统更新
银行数据量大,时刻都在进行数据相关操作
Customer
客户注册或注销时
客户提交信息服务人员进行更新
受客户操作影响
Customer_Acount
资金变动时
由银行数据库系统进行核算
受客户资金变动影响
Merchant
企业注册或注销时
企业法人提交信息服务人员进行更新
受企业操作影响
Merchant_Acount
企业资金变动时
由银行数据库系统进行核算
受企业资金变动影响
Credit_Card
客户进行借贷时
由银行数据库系统进行更新
每月进行结算,进行还款计算
Transaction
产生一个事务时
由银行数据库系统进行更新
每天进行更新、汇总
表3-3信用卡数据更新方式分析表
4.质量分析
质量分析是指分析业务源数据的质量,主要分析数据完整性、数据准确性、数据一致性等内容。
主要包括:
数据质量验收的依据,数据质量等级的划分,数据质量检查的流程等。
数据信息
验收依据
等级划分
检查流程
Bank
根据银行号进行核对
超高质量
由银行决策人员对数据库系统中银行号进行核对
Customer
根据身份证编号进行信息核对
较高质量
由数据库系统及柜员对客户信息进行核对
Customer_Acount
核对账户信息跟客户信息是否匹配
高质量
由数据库系统及柜员对客户账户信息进行核对
Merchant
根据企业法人身份证编号进行信息核对
较高质量
由数据库系统及柜员对企业信息进行核对
Merchant_Acount
核对企业账户信息跟客户信息是否匹配
高质量
由数据库系统及柜员对企业账户信息进行核对
Credit_Card
核对客户号和银行账号是否匹配
较高质量
由柜员对申请人信息进行审查,是否具备资格,由数据库系统进行信息核对
Transaction
根据业务规则判断是否能办
普通
柜员获取信用卡业务信息,数据库系统对业务进行规则判断、核对
表3-4信用卡数据质量分析表
(注:
这里将数据质量等级划分为:
普通、高质量、较高质量、超高质量)
除以上所述的对数据源进行分析外,还需要对各项指标数据的确切含义,统计口径等信息进行明确的界定,以避免产生二义性。
四、多维模型设计
数据仓库的多维模型设计主要有星型模型(维度建模)、雪花型和混合型。
星型模型和雪花型都是由一个事实表和一组维度表组成,星型模型维度表直接跟事实表连接,图型像星星,它可以优化数据仓库的查询响应时间,提高查询性能,一般的多维模型设计也是采用星型模型。
1.事务表设计
每个事务数据表都由索引部分和数据部分组成,索引部分包含着与描述事实数据特征的维表相关联的外键信息,数据部分是事实表中真正要存放的事实数据。
列
描述
TIME_ID
维表TIME的外键
AEAR_ID
维表AEAR的外键
BANK_ID
维表BANK的外键
CARD_ID
维表CARD的外键
CUST_ID
维表CUSTOMER的外键
MECH_ID
维表MECHANT的外键
TX_ID
维表TRANSACTION的外键
BANK_ADDR
包含银行地址列
BANK_COUNTRY
包含银行区域列
CUST_STATUS
包含客户账号状态列
CUST_TYPE
包含客户账户类型列
CUST_CERDIT
包含客户信用卡信息列
CUST_NAME
包含客户账户名列
CUST_ID_NBR
包含客户身份证编号列
CUST_DTE_BIRTH
包含客户出生日期列
MECH_STATUS
包含企业账号状态列
MECH_TYPE
包含企业账号类型列
MECH_CERDIT
包含企业信用卡信息列
MECH_ADDR
包含企业地址信息列
CARD_TYPE
包含信用卡类型列
CARD_STATUS
包含信用卡状态列
CARD_MEMB_FEE
包含信用卡年费列
表4-1信用卡数据仓库事务表设计表
(注:
前7行是索引部分,后面行都是数据部分)
2.维表设计
根据事务表的分析,该信用卡数据仓库主要可以分为7个维表:
时间维表、区域维表、银行维表、客户维表、企业维表、信用卡维表、事务维表。
维表具体内容如下图所示:
图4-2-1时间维表图4-2-2区域维表图4-2-3银行维表
图4-2-4客户维表图4-2-5企业维表图4-2-6信息卡维表图4-2-7事务维表
与关系数据库中一样,这7个维表都必须在主键上建立索引,索引能提高某些专用查询的性能,事务表也必须在由维度表外键构成的组合主键上建立索引。
维表主要是根据列定义的,所以维表中列的定义会直接影响到维度中的层次定义,设计维表时还需充分考虑维度的扩展性。
3.多维模型设计
基于上面的事务表设计和维表设计,根据维度和事务表之间的索引,就可以建立信用卡数据仓库的多维模型,如图4-3所示:
图4-3信用卡数据仓库多维模型
多维分析模型非常适合于数据仓库的分析需要,正确而完备的多维分析数据模型也是用户业务需求的体现,是数据仓库项目成功与否最重要的技术因素。
该文力图寻找一种适合于复杂的气象数据的多维分析模型设计方法。
实验证明,该模型能够满足用户对气象信息多方面的分析应用需求,表达能力强,分析速度快,查询效率高。
此项工作是对气象要素分析模型设计的新探索,对数据仓库的构建和后续的数据挖掘研究具有非常重要的意义
五、表格设计
六、分析案例
我们选取中国建设银行X市分行的现有信用卡客户,其中有20个“好客户”和20个“坏客户”,利用模型进行实际精确度检验,具体方法是将20个信用良好客户样本和20个信用差的客户样本的特征变量虚拟值代入模型,将所得结果与实际相比较,计算出好客户和坏客户预测的准确性。
经过对模型试验结果的分析,在20个好客户中经过模型预测有3个好客户被预测为坏客户;坏客户检验准确率14/20=70%,就是由6个坏客户被预测为好客户。
运用算术平均法,可得模型判别个人信用综合准确率为(85%+70%)/2=77.5%,接近80%,这说明此模型有一定的应用价值。
虽然模型有一定的使用价值,但离银行的目标差距还很有很大的差距,在实际的使用过程中,还需要进一步优化模型,提高其评价的准确度。
七、总结
本文以个人信用风险度量理论和建行的消费信贷数据为依据,结合建设银行信用卡风险度量与控制管理的具体应用,在建立信用卡数据仓库的基础上,通过数据挖掘分析、数据探索、数据挖掘和分类,得到建行的个人信用评分评估模型,为建设银行的个人信贷决策提供有力的支持。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 报告