商业银行数据仓库浅析Word下载.docx
- 文档编号:22423572
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:33
- 大小:116.54KB
商业银行数据仓库浅析Word下载.docx
《商业银行数据仓库浅析Word下载.docx》由会员分享,可在线阅读,更多相关《商业银行数据仓库浅析Word下载.docx(33页珍藏版)》请在冰豆网上搜索。
当今的数据处理主要分成两大类:
联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP与OLAP之间的比较。
原始数据/操作型数据
导出数据/DSS数据
面向应用的
面向主题的
详细的
综合的或提炼的
在存取瞬间是准确的
代表过去的数据
为日常工作服务
为管理者服务
可更新
不更新
重复运行
启发式运行
处理需求事先可知
处理需求事先不知道
生命周期符合SDLC(传统的系统开发生命周期)
完全不同的生命周期
对性能要求高
对性能要求宽松
一个时刻存取一个单元
一个时刻存取一个集合
事务处理驱动
分析处理驱动
更新控制主要涉及所有权
无更新控制问题
高可用性
松弛的可用性
整体管理
以子集管理
非常冗余
时常有冗余
静态结构、可变的内容
结构灵活
一次处理数据量小
一次处理数据量大
支持日常操作
支持管理需求
访问的高可能性
访问的低可能性或适度可能性
1.3数据源系统
数据仓库中的数据通常都是来自于操作型环境中的数据,在商业银行中操作型的系统主要包括核心业务系统、国际结算系统、信贷管理系统、财务系统、ECIF等等。
这些系统每天都会产生大量的业务数据和交易数据,数据仓库可以每天从这些系统中获取有用的数据加载到数据仓库中供决策分析使用。
随着银行业务的发展壮大,银行产品的不断增多,数据源系统也会不断的扩充,如银行卡系统、网上银行系统、资金系统等等。
也正是由于数据源系统是会不断扩充的,所以说数据仓库建设对于银行来说不是一个项目而是一个过程。
即随着银行操作型系统的不断增多、数据仓库的构建也需要一直持续下去。
1.4数据仓库
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。
数据仓库是一个环境,而不是一个产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。
数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。
所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。
1.4.1面向主题
对于商业银行来说,传统的操作型系统是围绕银行的业务应用进行组织的。
对于一个银行来说,应用问题可能是储蓄存款、对公存款、住房贷款、银行承兑汇票。
那么对于数据仓库来说银行的主要主题范围可能是客户、存款、贷款、中间业务。
如下图所示:
1.4.2集成
集成的是数据仓库的重要特点之一,数据仓库中存储的数据都是经过集成之后的数据。
传统的数据是在操作型环境中存储的,当把数据从操作型环境转入到数据仓库时,如果不进行集成就没有意义,如果数据以一种非集成状态存放到数据仓库,它就不能很好的支持决策分析。
下图为一个客户信息集成的简单的例子。
1.4.3非易失性
数据仓库的数据非易失性是数据仓库的另一个重要特征。
如下图所示,操作型环境中的数据通常是一次访问和处理一个记录,并且操作型环境中的数据是可以被更新的。
但是在数据仓库中的数据通常是一次载入与访问的,并且数据仓库中的数据并不进行一般意义上的数据更新。
1.4.4随时间变化
数据仓库的另一个显着特征是随时间变化的。
如下图所示,数据仓库随时间变化的显着特征主要体现在以下几点:
■数据仓库中的数据时间期限要远远长于操作型系统中数据的时间期限。
操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限通常是5~10年。
■操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。
而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
■操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。
而数据仓库的键码结构总是包含某时间元素。
1.5决策支持系统
在商业银行内部,决策支持系统(DSS)与传统的操作型系统有着明显的区别。
它不是面向交易的系统,它属于银行内部的管理类系统,可以用于指导营销、分析银行的业务经营情况、预测银行的各种业务风险、指导经营决策,它的数据来源为银行内部的各种交易型系统(如核心业务系统、信贷管理系统、国际结算系统、银行卡系统、资金业务系统等)。
通常是面向行内管理层、决策层和营销层的系统。
典型的决策支持系统有商业银行管理驾驶舱系统、商业银行CRM系统、商业银行绩效管理系统、商业银行全面风险管理系统、商业银行全行报表系统等等。
决策支持类系统的特点是利用银行各个交易系统的数据进行统计、分析、预警以达到管理和决策的需要,通常需要大量的历史数据和全方位的业务数据的支持。
因此,银行建立了数据仓库的基础上建设决策支持类系统更加满足系统建设和规划的要求。
1.6维度和度量
维度是指一种视角,而不是一个固定的数字;
是一个判断、说明、评价和确定一个事物的多方位、多角度、多层次的条件和概念。
在数据仓库的理论中,维度是一个与业务相关的观察角度,是依赖于数据的有效性和表达业务成效的关键性能指标。
度量是业务量化的表示、用于评价业务状态的数值型数据、用于检测业务的成效,不同度量反映不同的业务性质,度量之间的相互独立的。
如下图所示,以贷款基本信息表为例分别列出了维度信息和度量信息。
2数据仓库的好处
众所周知,数据仓库的建设对一个银行甚至一个企业都是有着非常多的好处的。
那么,为了能够更清晰的理解数据仓库的好处。
可以将数据仓库与传统的操作型系统对比来看。
下表从各个层面列出了数据仓库的好处:
数据仓库的好处
比较方面
传统的操作型系统
数据仓库
1.系统用途
面向交易的联机事务处理系统,注重的是事务处理的响应结果和响应效率。
可以同时处理成百上千的交易,并且能够很快的返回结果。
操作型系统主要是面向日常工作服务。
面向复杂的分析操作,侧重决策支持,能够支持灵活的数据查询需求,并且提供直观易懂的查询结果。
数据仓库主要面向管理者服务。
2.数据方面
【A】数据属于分散存储状态,均独立于各个操作型系统本身。
便于高效的进行联机事务处理。
不利于对数据的统一管理和维护。
【A】形成了统一的数据平台,对各个操作型系统的数据进行了整合。
便于对数据的统一管理和维护。
【B】数据没有按照业务主题进行划分,没有进行集成和整合。
【B】将来源于不同的操作型系统的业务数据按照主题进行了划分并且对数据进行了集成和整合。
便于分析人员使用数据,便于对数据的灵活查询和分析。
【C】数据属于面向交易的数据,数据可以被更新,随着交易的发生,数据是在实时发生变化的。
没有记录某一时点的数据状态,不能反映数据的历史变化情况。
【C】数据是代表过去的某一时点的数据,数据不会被更新,不会发生变化。
记录着某一时点的数据状态。
能够反映数据的历史变化情况。
【D】数据存储时间较短,有些数据实时发生变化的,不存储历史数据。
无法对数据进行持续的分析。
【D】数据存储时间较长,通常为5到10年,便于对数据的长期持续性分析。
便于从数据中提取出指导决策和营销的有价值的信息。
【E】数据质量受系统功能及使用者的习惯决定。
无法保证有较好的数据质量。
【E】数据仓库的建设过程涉及到数据的集成和整合的操作,在此阶段可以通过补录的方式完善数据质量。
是数据的可用性更强。
3.
3数据仓库核心内容
3.1典型数据仓库架构图
3.2数据模型
模型是现实世界的抽象,数据模型(DataModel)是数据特征的抽象,是数据库系统中用以提供信息表示和操作手段的形式构架。
数据模型包括数据库数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。
其中,数据结构主要描述数据的类型、内容、性质及数据间的关系;
数据操作主要描述在相应的数据结构上的操作类型和操作方式;
数据约束主要描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系以及数据动态变化的规则,以保证数据正确、有效和相容。
数据模型是数据仓库的灵魂,一套设计合理的数据模型是数据仓库建设成功并能够持续良好运行的关键。
3.2.1模型设计思路
数据模型的设计是一个比较复杂的过程,需要经过多次迭代过程,经过反复检验和修正,才可能逐渐接近能够反映业务的真实现状。
数据模型设计的思路如下:
数据源驱动:
确定ODS层。
对现有的数据源系统(核心系统、信贷系统、国结结算系统等)进行分析,按照模型贴近源系统的基本原则,可以确定ODS层的数据模型。
统一规范和管理驱动:
确定FDS层。
需要在对源系统分析的基础上,对基础层模型各系统之间的同类数据进行轻度整合,并结合本行的业务特点和目前的应用需求,按一定的业务主题重新组织数据模型,形成基础层逻辑模型。
拿来主义:
选择共性加工层的参考模型,完善基础层。
选择同业成功案例的数据模型作为参考模型,结合法人行的业务特点,对参考模型加以修改完善,形成本行的数据模型。
这种方法效率高,但得到的数据模型需要不断地进行修正。
由此,借助他行的模型经验,可以确定本项目共性加工层参考模型。
目标驱动:
确定应用集市层,完善共性加工层。
根据本期项目的目标和应用系统的需求,需要产生轻度的数据应用层模型。
并在此基础上,对各种应用需求进一步分析,整理出一些共性的数据加工需求;
必要的话,可以对共性加工层数据模型进行完善,以满足多个目标应用的公共加工汇总要求。
3.2.2模型设计原则
根据关键业务要素,或业务关注视角,及关键业务要素(业务关注视角)之间的关系,对数据模型进行主题划分;
基础数据层的主题划分是通过抽象银行业经营活动中的要素及要素之间关系的形式,来表达商业银行的实际业务和具体的业务联系。
它是独立于业务应用需求的,具有高度的稳定性和可扩展性;
共性加工数据层的主题划分则是基于业务关注的视角,也就是和业务应用需求紧密相关,会根据应用系统的共性需求变化而变化;
不同的数据层次,由于其业务关注视角不同,其主题划分的结果可以不同;
各模型层次的主题可根据实际情况划分二级主题,便于用户定位所需数据;
3.2.3模型主题划分
八大业务主题
客户:
主要组织和存放与银行客户有关的信息。
包括基本信息、地址信息、信用信息、黑名单信息、财务信息等。
在客户主题域中以客户号为唯一识别,通过客户号与存款、贷款、银行卡、中间业务、渠道、公用主题进行关联。
存款;
组织和存储企业和个人客户的在银行的存款业务相关信息,主要包括账户信息、事件信息及事故信息。
主要分为按个人活期、个人定期、企业活期、企业定期四个子主题。
在存款主题域中以账号为唯一识别,通过账号与客户,中间业务、渠道、银行卡、公用主题进行关联。
贷款:
组织和存储客户的所有贷款业务数据。
根据客户的性质,将贷款客户划分为企业贷款和个人贷款两类。
在贷款主题域中以账号为唯一识别,通过账号与客户、公用主题进行关联。
银行卡:
组织和存储客户银行卡的基本信息和交易信息。
在银行卡主题域中以卡号为唯一识别,通过卡号与存款、客户、渠道、公用。
中间业务:
主要整合银行除存、贷款业务以外的业务,即非利息收入以外的所有业务。
中间业务主题逻辑划分按中间业务种类进行划分,如国内结算业务、银保通、证券基金、外汇买卖等业务相关信息。
在中间业务主题域中以客户号、账号、产品、机构、渠道为唯一识别,分别通过客户号、账号、产品、机构、渠道与客户、存款、公用主题进行关联。
渠道:
主要存储渠道信息、签约账户信息、渠道账户信息以及交易流水信息。
根据客户性质可将渠道数据分为企业客户和个人客户。
在渠道主题域中以客户号、账号、产品、机构、渠道为唯一识别,分别通过客户号、账号、产品、机构、渠道与客户、存款、银行卡、公用主题进行关联。
总账:
组织和存储银行当前会计核算总账以及内部帐有关的信息。
在总账主题域中以产品、机构为唯一识别,分别通过产品、机构与公用主题进行关联。
公用:
用于存储各种业务主题公用的一些信息。
主要整合内部机构、人员、公共代码等相关信息。
包括统一标准代码,以及标准代码与各个源系统代码的映射及人工补充代码。
各个主题间关系:
业务主题优点:
以贴源的原则进行设计,设计基础层的时候以具体业务作为主导,体现在银行方面就会划分出类似贷款,存款这样的常用主题。
数据能保证完全和真实,因为基础模型和数据源相似率很高。
3.2.4拉链表
拉链表是数据仓库在存储数据时最常用的一种方式。
拉链表的优点是数据不会产生冗余,节省存储空间;
缺点是容易出现断链的情况,数据质量会受到影响。
拉链表的具体形态如下表(存款账户信息表)所示,该表中体现接链表的一个显着特征是通过字段开始日期(SDATE)和结束日期(EDATE)来标识,表示某一条记录在开始日期和结束日期之间是有效的数据。
当前日期的有效数据是以‘’为结束日期;
当数据发生变化时,会将‘’更新为变化的前一天,并插一条变化后的数据作为当前数据,以变化当天的日期为开始日期,以‘’为结束日期。
这就是整个接链表的变化过程。
SDATE
EDATE
ACCT_NO
CLIENT_NO
ACCT_NAME
ACCT_BAL
LAST_D_BAL
张颖
在数据仓库设计时选择使用接链表存储数据应该考虑以下几点:
■大数据量的数据表,可以考虑使用拉链表。
因为数据仓库中的数据是长期存储并且数据量是不断增长的。
使用拉链表的好处是当数据发生变化才插入新的记录,使用拉链表不会重复存储数据,这样对于大数据量的数据表的数据增长速度就不会成倍的增长。
可以有效的节约存储空间,并且能够提高对该数据表数据的存取效率。
■字段较少的数据表,可以考虑使用拉链表。
因为拉链表的数据是在发生变化是插入新记录,在插入新记录时需要将新记录与原有记录做比较,比较的时候需要逐个字段进行比较。
如果字段较多会影响数据的比较效率,直接影响数据仓库的跑批效率。
■数据表的逻辑主键明确,需要清晰反映数据业务变化过程的时候,可以考虑使用拉链表。
众所周知,数据表中一条数据的主键是不会发生变化的,变化的只是主键之外的其它信息。
拉链表的数据在发生变化进行关链和开链的时候需要通过增量数据的主键与原有数据进行比对。
如果主键不明确或定义错误,在两条数据比对时如果数据变化体现在我们所错误定义的主键上面,那么就不会将原有的应该关链的数据进行及时的关链,造成拉链表数据错误。
另外,拉链表的数据能够连续的反映某条数据记录变化的过程,通过整条数据链就能清晰的看到该条记录的整个变化情况。
3.2.5快照表
快照表是每天保存全量数据,通过时间戳来表示整张数据表的每一个时间点的快照。
快照表的优点是数据处理逻辑简单、方便,数据质量较高不会出现错误;
缺点是数据存在冗余,存取效率低。
快照表的具体形态如下表(贷款借据表)所示。
FDATE
DUEBILLNO
DUEBILLSUM
DBRESTSUM
DUEBILLDATE
DBMATUREDATE
YSYJLX
XDYC00009495
■数据量较小的数据表,可以考虑使用快照表。
因为快照表是每天一个快照,数据量重复存储。
如果数据量较大不宜使用快照表,会占用大量的存储空间,并且随着时间的推移,访问效率会越来越低。
■字段较多的数据表,可以考虑用快照表。
因为,字段较多,如果不采用快照表而采用拉链表会影响数据仓库数据的跑批效率。
3.2.6流水表
流水表即按照每天的交易日期增量存储数据。
通常在数据仓库中,对于交易流水数据采用流水表进行存储。
如存款余额变动明细表、总账流水表等数据均需要采用流水表的方式存储。
流水表的特点是,数据真实性高、与原系统流水表信息一致。
3.3ODS层
3.3.1ODS定义
ODS(OperationalDataStore)操作型数据存储,是数据仓库体系中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。
ODS层的数据是对数据源的缓冲,通常不保留历史数据,根据数据量的大小数据通常存储七天到一个月的数据。
3.3.2ODS作用
ODS的设计主要体现在以下几个作用:
■在业务系统和数据仓库之间形成一个隔离层。
数据仓库通常都有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据抽取不是一件容易的事情。
因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。
■转移一部分业务系统细节查询的功能
在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。
ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致性,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。
■完成数据仓库中不能完成的一些功能
通常,带有ODS的数据仓库的体系结构中,数据仓库层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。
在一个没有ODS的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的”数据。
而是“历史的、不再变化的”数据。
3.4FDS层
FDS(FundationalDataStrore)基础数据存储。
所谓基础数据,即数据不进行更新、与源系统的数据保持一致。
FDS层在整个数据仓库中位于ODS层之上,是数据仓库的核心层。
FDS层的数据特点是“面向主题的、集成的、非易失的和随时间变化”的。
对于商业银行来说,FDS层的主题通常分为客户、公共、渠道、贷款、银行卡、存款、贷款、中间业务和总账共八类主题。
各个主题下的数据是由来源于ODS层的各个业务系统的数据进行了集成后的数据。
数据在集成的过程中不进行更新,只加时间标识,数据的存储方式主要分为拉链表、快照表和流水表的方式进行存储。
FDS层的数据每天通过增量和全量的方式进行加载,数据不进行删除,持续保存历史数据。
3.5IDS层
IDS(IntegratedDataStore)集成数据存储。
IDS是位于FDS之上的一层数据,数据的特点是对FDS层的数据进行了高度的整合和汇总。
数据汇总方式主要将存款、贷款、总账、中间业务、客户等各个主题下的数据按照时间维、机构维和币种等维度进行汇总。
这样处理的目的是便于下游各个应用系统之间是有数据仓库中的数据。
IDS层在数据仓库中所做的汇总通常是针对共性的信息进行处理。
而对于更进一步的汇总和加工处理通常由各个应用系统根据自身对数据的需求进行加工处理。
3.6数据集市
数据集市在整个BI领域是经常提及到的概念。
在很多银行已经建设了针对不同业务应用需要的数据集市,如监管数据集市、风险数据集市、信贷报表数据集市等。
在银行没有建设数据仓库的情况下,数据集市是介于银行各类业务系统与应用系统之间的一层数据的集合,作为源系统数据的缓冲和应用系统的数据源。
例如,在2003年银监会成了之后提出了1104工程,在2006年初便要求全国所有的商业银行报送1104报表。
当时,大多数银行在建立1104报表系统时在没有数据仓库的情况下只能从银行的各个源业务系统抽取数据,在这种情况下,为了更好的实现1104报表,提高报表的取数率,大多会为银行建设监管数据集市,即从各个源业务系统中抽取出所需要的数,对数据进行一定的整合、集成,视报表情况进行一定时期内的报表历史数据的存储,以便于1104报表能够方便的从数据集市中取数。
这种实现方式既不影响源业务系统又实现了监管数据的统一存储、统一规划、又为日后的监管机构的现场检查提供的依据。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商业银行 数据仓库 浅析